Secondo teorema di Shannon

Da Wikipedia, l'enciclopedia libera.

In teoria dell'informazione, il secondo teorema di Shannon o teorema della codifica di canale stabilisce che per quanto un canale di comunicazione sia affetto da rumore, è possibile trasmettere dati (informazione) con probabilità di errore Pe piccola a piacere fino ad una frequenza massima attraverso il canale stesso. Questo sorprendente risultato, noto anche come teorema fondamentale della teoria dell'informazione, fu presentato per la prima volta da Claude Shannon nel 1948.

La capacità di Shannon, nota anche come limite di Shannon, di un canale di comunicazione è il massimo tasso di trasferimento di dati che può fornire il canale per un dato livello di rapporto segnale/rumore, con un tasso di errore piccolo a piacere.

Panoramica[modifica | modifica sorgente]

Il teorema, formulato nel 1948 da Claude Shannon, descrive la massima possibile efficienza di un qualunque metodo di correzione degli errori in funzione del livello di rumore. La teoria non spiega come costruire un codice ottimo, ma stabilisce solo quali siano le prestazioni del codice ottimo. Il secondo teorema di Shannon ha numerose applicazioni, sia nel campo delle telecomunicazioni che in quello dell'archiviazione di dati. Questo teorema è alla base della moderna Teoria dell'informazione. Shannon diede solo una traccia della dimostrazione. La prima dimostrazione rigorosa è dovuta a Amiel Feinstein nel 1954.

Il teorema stabilisce che, dato un canale con capacità C, su cui viene trasmessa informazione ad un tasso R, allora se

 R < C

esiste un codice che consente di rendere la probabilità di errore al ricevitore arbitrariamente piccola. Questo significa che, teoricamente, è possibile trasmettere informazione senza errori (BER=0) a qualunque tasso inferiore a C.

Anche l'inverso è importante. Se

 R > C

non è possibile raggiungere una probabilità di errore piccola a piacere. Qualunque codice avrebbe una probabilità di errore superiore ad un certo valore maggiore di zero, e questo valore cresce al crescere del tasso. Non è quindi possibile garantire che l'informazione sia trasmessa in maniera affidabile su un canale ad un tasso superiore alla capacità. Il teorema non considera il caso in cui R e C siano uguali.

Semplici schemi, come i codici a ripetizione (ossia trasmetti un unico bit un numero dispari di volte e scegli il bit ricevuto a maggioranza) sono metodi di correzione degli errori inefficienti e non sono in grado di avvicinare il limite di Shannon. Al contrario tecniche avanzate come i codici Reed-Solomon o i Turbo codici, si avvicinano molto di più al limite di Shannon, al costo di un'elevata complessità computazionale. Utilizzando i più recenti codici Turbo e la potenza computazionale disponibile sugli odierni DSP, è oggi possibile avvicinarsi a meno di 1/10 di decibel rispetto al limite di Shannon

Enunciato[modifica | modifica sorgente]

Teorema (Shannon, 1948):

1. Per ogni canale discreto senza memoria, la capacità di canale
C = \max_{P_X} \,I(X;Y)
ha le seguenti proprietà. Per ogni ε > 0 e R < C,, per un N grande abbastanza, esiste un codice di lunghezza N e tasso ≥ R ed un algoritmo di decodifica, tale che la massima probabilità di errore di sia ε.
2. Se una probabilità di errore per bit pb è accettabile, sono raggiungibili tassi fino a R(pb), dove
R(p_b) = \frac{C}{1-H_2(p_b)} .
e   H_2(p_b) è l'entropia di una sorgente binaria
H_2(p_b)=- \left[ p_b \log {p_b} + (1-p_b) \log ({1-p_b}) \right]
3. Per ogni pb, tassi superiori a R(pb) non sono raggiungibili.

Traccia della dimostrazione[modifica | modifica sorgente]

Come per numerosi altri risultati fondamentali in teoria dell'informazione, la dimostrazione del secondo teorema di Shannon include una dimostrazione della raggiungibilità ed una prova dell'inverso. Queste due componenti servono per limitare, in questo caso, l'insieme dei tassi possibili a cui è possibile comunicare su un canale rumoroso e dimostrare che tali limiti sono limiti in senso stretto.

Le seguenti tracce sono solo un insieme di numerosi metodi proposti nei testi di teoria dell'informazione.

Raggiungibilità per canali discreti senza memoria[modifica | modifica sorgente]

Questa particolare di raggiungibilità è simile a quella usata per dimostrare la proprietà di equipartizione asintotica (AEP).

Questa tecnica fa uso di un'argomentazione basata su una scelta di codice casuale, per cui l'insieme delle parole di codice (in inglese codebook) è costruito a caso; questo consente di ridurre la complessità computazionale, provando tuttavia l'esistenza di un codice che soddisfa la probabilità di errore desiderata per ogni tasso inferiore alla capacità di canale.

Utilizzando un'argomentazione legata alla AEP, date delle stringhe di simboli sorgenti lunghe n X_1^{n} e delle stringhe lunghe n di uscite del canale Y_1^{n}, possiamo definire un insieme congiuntamente tipico nel modo seguente:

A_\varepsilon^{(n)} = \{(x^n, y^n) \in \mathcal X^n \times \mathcal Y^n

2^{-n(H(X)+\varepsilon)} \le p(X_1^n) \le 2^{-n(H(X) - \varepsilon)}
2^{-n(H(Y) + \varepsilon)} \le p(Y_1^n) \le 2^{-n(H(Y)-\varepsilon)}
{2^{-n(H(X,Y) + \varepsilon)}}\le p(X_1^n, Y_1^n) \le 2^{-n(H(X,Y) -\varepsilon)} \}

Diciamo che due sequenze {X_1^n} e Y_1^n sono congiuntamente tipiche se ricadono nell'insieme congiuntamente tipico appena definito.


Passaggi

  1. Nello stile dell'argomentazione della codifica casuale, generiamo a caso  2^{nR} parole di codice di lunghezza n dalla densità di probabilità Q.
  2. Questo codice è noto sia al trasmettitore che al ricevitore; si assume anche che entrambi conoscano la matrice di transizione p(y|x) per il canale in uso.
  3. Un messaggio W è scelto secondo la distribuzione uniforme sull'insieme delle possibili parole di codice. Ossia, Pr(W = w) = 2^{-nR}, w = 1, 2, ..., 2^{nR}.
  4. Il messaggio è spedito sul canale.
  5. Il ricevitore riceve il messaggio secondo la distribuzione P(y^n|x^n(w))= \prod_{i = 1}^np(y_i|x_i(w))
  6. Inviando le parole di codice sul canale, riceviamo Y_1^n, e decodifichiamo in un qualche simbolo sorgente se esiste esattamente una parola di codice che è congiuntamente tipica con Y. Se non esistono parole di codice congiuntamente tipiche, o se ce n'è più di una, allora si compie un errore. Un errore avviene anche quando una parola di codice decodificata non corrisponde alla parola di codice inviata. Questa tecnica è indicata con il nome di codifica per insieme tipico.

La probabilità di errore è divisa in due parti:

  1. Primo, può esserci errore se non esiste una sola sequenza X congiuntamente tipica con la sequenza Y ricevuta.
  2. Secondo, può esserci errore se una sequenza X incorretta è congiuntamente tipica con la sequenza Y ricevuta.
  • In base alla assunzione di casualità del codice, possiamo imporre che la probabilità media di errore mediata su tutti i codici, non dipende dall'indice inviato. Quindi possiamo, senza perdità di generalità, assumere W=1.
  • Dalla AEP congiunta, sappiamo che la probabilità che non esistano (o esista più di una) sequenze X congiuntamente tipiche, tende a 0 al crescer di n. Possiamo limitare superiormente tale probabilità con \varepsilon.
  • Inoltre dalla AEP congiunta, sappiamo che la probabilità che una particolare X_1^{n(i)} e la risultante Y_1^n da W=1 siano congiuntamente tipiche è \le 2^{-n(I(X;Y) - 3\varepsilon)}.

Definita:

E_i = \{(X_1^n(i), Y_1^n) \in A_\varepsilon^{(n)}\}, i = 1, 2, ..., 2^{nR}

l'evento che un messaggio sia congiuntamente tipico con la sequenza ricevuta quando è inviato il messaggio 1.

P(error) = P(error|W=1) \le P(E_1^c) + \sum_{i=2}^{2^{nR}}P(E_i)

\le \varepsilon + 2^{-n(I(X;Y)-R-3\varepsilon)}

Possiamo osservare che al tendere all'infinito di n, se R < I(X;Y) per il canale, la probabilità di errore tende a zero.

Infine, avendo dimostrato che l'insieme medio delle parole di codice è "buono", esiste certamente un insieme di parole di codice le cui prestazioni sono migliori di quello medio, e questo soddisfa la nostra necessità di avere una probabilità di errore piccola a piacere nella comunicazione sul canale rumoroso.

Dimostrazione inversa debole per canali discreti senza memoria[modifica | modifica sorgente]

Supponiamo di avere un codice composto da 2^{nR}. Sia W estratta uniformemente su questo insieme come indice. Siano X^n e Y^n le parole di codice e quelle ricevute, rispettivamente

  1. nR = H(W) = H(W|Y^n) + I(W;Y^n)\; usando uguaglianze legate all'entropia ed all'informazione mutua.
  2. \le H(W|Y^n) + I(X^n(W);Y^n) dato che X è una funzione di W
  3. \le 1 + P_e^{(n)}nR + I(X^n(W);Y^n) utilizzando la disuguaglianza di Fano
  4. \le 1 + P_e^{(n)}nR + nC per il fatto che la capacità è il massimo dell'informazione mutua.

Il risultato di questi passaggi è che  P_e^{(n)} \ge 1 - \frac{1}{nR} - \frac{C}{R} . Al tendere della lunghezza n all'infinito, otteniamo che  P_e^{(n)} è limitato superiormente da 0 se R è più grande di C; possiamo invece ottenere tassi d'errore bassi a piacere se R è minore di C.

Dimostrazione inversa forte per canali discreti senza memoria[modifica | modifica sorgente]

Un teorema inverso forte, dimostrato da Wolfowitz nel 1957[1], stabilisce che


 P_e \geq 1- \frac{4A}{n(R-C)^2} - e^{-n(R-C)}

per una qualche costante positiva A. Mentre l'inverso debole stabilisce che la probabilità di errore è strettamente superiore rispetto a 0 al tendere di n all'infinito, il teorema forte afferma che l'errore tende esponenzialmente a 1. Quindi, C è una soglia che divide tra comunicazione perfettamente affidabile e completamente inaffidabile.

Teorema della codifica di canale per canali senza memoria non stazionari[modifica | modifica sorgente]

Assumiamo che il canale sia privo di memoria, ma che le sue probabilità di transizione varino in funzione del tempo, in un modo noto sia al trasmettitore che al ricevitore.

La capacità di canale è data da

  
C=\lim\;\inf\;\;\max_{p^(X_1),p^(X_2),...}\frac{1}{n}\sum_{i=1}^nI(X_i;Y_i)

Il massimo si ottiene per le distribuzioni che raggiungono la capacità per ogni canale, ossia


C=\lim\;\inf\;\;\frac{1}{n}\sum_{i=1}^n C_i

dove C_i è la capacità dell'i-simo canale.

Traccia della dimostrazione[modifica | modifica sorgente]

La dimostrazione segue sostanzialmente gli stessi passaggi del Primo teorema di Shannon. La raggiungibilità deriva dalla codifica casuale, con ogni simbolo scelto a caso dalla distribuzione che raggiunge la capacità per un particolare canale. Argomentazioni basate sulla tipicalità usano la definizione data di insieme tipico per sorgenti non stazionarie definita nella AEP.

Il limite inferiore entra in gioco quando \frac{1}{n}\sum_{i=1}^n C_i non converge.

Note[modifica | modifica sorgente]

  1. ^ (EN) Robert Gallager. Information Theory and Reliable Communication. New York: John Wiley and Sons, 1968. ISBN 0-471-29048-3

Bibliografia[modifica | modifica sorgente]

Voci correlate[modifica | modifica sorgente]

ingegneria Portale Ingegneria: accedi alle voci di Wikipedia che trattano di ingegneria