Entropia (teoria dell'informazione)

Da Wikipedia, l'enciclopedia libera.
Vai alla navigazione Vai alla ricerca

Nella teoria dell'informazione l'entropia di una sorgente di messaggi è l'informazione media contenuta in ogni messaggio emesso. L'informazione contenuta in un messaggio è tanto più grande quanto meno probabile era. Un messaggio scontato, che ha un'alta probabilità di essere emesso dalla sorgente contiene poca informazione, mentre un messaggio inaspettato, poco probabile contiene una grande quantità di informazione. L'entropia di una sorgente risponde a domande come: qual è il numero minimo di bit che servono per memorizzare in media un messaggio della sorgente? Quanto sono prevedibili i messaggi emessi dalla sorgente?

Si è dimostrato che una sequenza di messaggi emessi da una sorgente può essere compressa senza perdita d'informazione fino ad un numero minimo di bit per messaggio uguale all'entropia della sorgente.

Una sequenza di lettere come aaaaaaaa possiede meno entropia di una parola come alfabeto la quale a sua volta possiede ancora meno entropia di una stringa completamente casuale come j3s0vek3. L'entropia può essere vista come la casualità contenuta in una stringa, ed è strettamente collegata al numero minimo di bit necessari per rappresentarla senza errori.

Storia[modifica | modifica wikitesto]

Si deve a Claude Shannon lo studio dell'entropia nella teoria dell'informazione, il suo primo lavoro sull'argomento si trova nell'articolo Una teoria matematica della comunicazione del 1948. Nel primo teorema di Shannon, o teorema di Shannon sulla codifica di sorgente, egli dimostrò che una sorgente casuale d'informazione non può essere rappresentata con un numero di bit inferiore alla sua entropia, cioè alla sua autoinformazione media. Tale risultato era implicito nella definizione statistica dell'entropia di John Von Neumann, anche se lo stesso Von Neumann, interrogato al riguardo da Shannon nel forse unico scambio di opinioni tra loro, non ritenne la cosa degna di attenzione. Come ricordò Shannon più tardi a proposito del risultato da lui trovato:

«La mia più grande preoccupazione era come chiamarla. Pensavo di chiamarla informazione, ma la parola era fin troppo usata, così decisi di chiamarla incertezza. Quando discussi della cosa con John Von Neumann, lui ebbe un'idea migliore. Mi disse che avrei dovuto chiamarla entropia, per due motivi: "Innanzitutto, la tua funzione d'incertezza è già nota nella meccanica statistica con quel nome. In secondo luogo, e più significativamente, nessuno sa cosa sia con certezza l'entropia, così in una discussione sarai sempre in vantaggio»

Definizione[modifica | modifica wikitesto]

Informazione contenuta in un evento[modifica | modifica wikitesto]

L'informazione contenuta in un evento emesso da una sorgente , detta anche autoinformazione, si calcola come:

dove è la probabilità che l'evento accada. Il logaritmo nasce dal fatto che attraverso la notazione posizionale è possibile distinguere eventi equiprobabili con l'utilizzo di sole cifre, dove è la base di numerazione. Significa quindi che l'informazione di un evento può essere vista come la quantità di cifre in base da utilizzare per distinguere l'evento accaduto da tutti gli altri eventi possibili. Il logaritmo diventa indispensabile se considerando due eventi indipendenti la cui probabilità è il prodotto delle singole probabilità si vuole che l'entropia totale sia la somma delle entropie dei singoli eventi.

Dato che spesso in informatica si usano i bit per codificare è convenzione comune utilizzare il logaritmo in base 2. L'autoinformazione si misura quindi in bit, mentre utilizzando il logaritmo naturale invece si utilizza l'unità di misura nat introdotta da Shannon. In particolare

Entropia di una sorgente[modifica | modifica wikitesto]

L'entropia di una sorgente è definita come il valore atteso dell'autoinformazione, ossia l'informazione media contenuta in ogni messaggio emesso:

Si può intendere come il numero di cifre in base da utilizzare in media per memorizzare un singolo evento prodotto dalla sorgente.

Se la sorgente è una variabile aleatoria discreta il valore atteso si riduce ad una media dell'informazione di ogni evento pesata con la propria probabilità

Se la sorgente è una variabile aleatoria continua il valore atteso deve essere calcolato attraverso un integrale:

L'entropia di una variabile aleatoria continua non condivide tutte le proprietà di quella per variabili discrete, ad esempio può risultare negativa.

La probabilità degli eventi emessi può dipendere dallo stato della sorgente o dagli eventi emessi in precedenza, in tal caso si dice che la sorgente ha memoria. L'entropia delle sorgenti con memoria è ragionevolmente minore dell'entropia di una sorgente senza memoria. Infatti gli eventi emessi dipendono in una certa misura da quelli emessi precedentemente, il che li rende più prevedibili. Come esempio si pensi ad una sorgente che emette bit bianchi/neri di un fax. Sapendo che spesso i fogli scansionati contengono spesso scritte in nero su bianco la probabilità che ci sia un bit bianco dipende dai bit precedenti, se i precedenti erano bianchi la probabilità che il prossimo bit sia bianco aumenta.

Proprietà delle variabili aleatorie discrete[modifica | modifica wikitesto]

Se in una sorgente esistono alcuni valori per cui , la loro presenza non influenza l'entropia della sorgente infatti il loro contributo alla sommatoria è come si vede tramite il limite di per . Come è facilmente intuibile, se questi valori non vengono mai emessi non c'è la necessità di considerarli come messaggi possibili.

Dominio dell'entropia per variabili discrete[modifica | modifica wikitesto]

Si dimostra per l'entropia di una variabile aleatoria discreta che può assumere valori distinti vale sempre la relazione:

Dimostrazione[modifica | modifica wikitesto]

Osserviamo innanzitutto che naturalmente vale . Useremo questo fatto più volte.

Nella definizione dell'entropia aggiungendo e togliendo si ottiene:

Poiché è una costante, la possiamo estrarre dalla sommatoria per linearità:

che per le proprietà dei logaritmi si può scrivere come:

Si osserva che per ogni e vale che se si confronta il grafico del logaritmo con la retta tangente a in ovvero . Quindi il secondo addendo dell'espressione precedente si può maggiorare:

Ossia il secondo addendo è sempre minore di e quindi:

In particolare si dimostra che il massimo dell'entropia è proprio e si ottiene quando tutti gli valori sono equiprobabili.

Efficienza di un alfabeto[modifica | modifica wikitesto]

Dato un alfabeto di simboli, la sua entropia nel trasmettere informazioni è massima se tutti i simboli vengono utilizzati con la stessa frequenza e si può definire l'efficienza dell'alfabeto come il rapporto tra la sua entropia e quella massima possibile per un alfabeto di simboli:

Per comprimere file senza perdere informazione è necessario appunto utilizzare un alfabeto più efficiente. Se si osserva un file compresso con un editor di testo o esadecimale si può notare la grande casualità dei byte in esso contenuti. Algoritmi che permettono di migliorare una codifica poco efficiente sono ad esempio la codifica di Huffman e la codifica aritmetica, entrambe le codifiche devono stimare la probabilità con cui si presentavano i simboli della codifica precedente per poterla migliorare.

Esempi[modifica | modifica wikitesto]

Fig.1 - Entropia di una sorgente binaria

L'entropia di una sorgente binaria che ha probabilità di produrre , probabilità di produrre e di conseguenza è (vedi Fig. 1):

Vale quindi 1 bit in caso di equiprobabilità dei risultati, e 0 bit nel caso in cui la sorgente sia completamente prevedibile (e cioè emetta sempre 0 o sempre 1). Tale risultato è ragionevole in quanto nel primo caso si afferma che è necessario un bit d'informazione per ogni messaggio emesso dalla sorgente, mentre nel secondo caso non è necessario alcun bit in quanto si conosce a priori il valore di tutti i messaggi e quindi la sorgente è del tutto inutile.

Per far capire la stretta correlazione tra entropia dell'informazione ed entropia della termodinamica possiamo fare il seguente esempio:

Consideriamo un sistema fisico in date condizioni di temperatura, pressione e volume, e stabiliamone il valore dell'entropia; in connessione è possibile stabilire il grado di ordine e quindi l'ammontare delle nostre informazioni (in senso microscopico). Supponiamo ora di abbassare la temperatura lasciando invariati gli altri parametri: osserviamo che la sua entropia diminuisce poiché il suo grado di ordine aumenta (ordine statico che corrisponde alla mancanza di movimento, lavoro) e con esso il nostro livello d'informazione. Al limite, alla temperatura prossima allo zero assoluto, tutte le molecole sono "quasi" ferme, l'entropia tende al minimo e l'ordine (cristallizzato, non quello dell'organizzazione neghentropica che necessita di un sistema aperto) è il massimo possibile e con esso si ha la massima certezza d'informazione; infatti non esiste più alcuna alternativa fra cui scegliere.

Utilizzi[modifica | modifica wikitesto]

Uno dei più inaspettati utilizzi dell'entropia e degli algoritmi di compressione basati su di essa, è il riconoscimento di testi, sia per crittografia, sia per pattern matching (individuazione di plagi, compressione di sequenze di DNA etc.).

Entropia e informazione[modifica | modifica wikitesto]

Dalla definizione statistica dell'entropia termodinamica si intuisce che l'informazione e questa grandezza termodinamica siano in qualche modo correlati. Gli studi approfonditi in questo campo sono legati al lavoro pionieristico di Claude Shannon nel campo della teoria dell'informazione.

Nel 1948 Claude Shannon infatti enuncia il teorema di unicità dell'entropia nella teoria dell'informazione: dato un insieme di caratteri alfanumerici e detta la probabilità di osservare il simbolo si definisce una funzione entropia che deve rispettare le tre condizioni seguenti:

  • se ha probabilità di verificarsi, allora
  • dati i sistemi indipendenti e si ha la seguente condizione di subadditività:
  • l'entropia è massima quando (dove è il numero totale di stati).

Allora si dimostra che tale definizione di entropia è ben posta ed è l'unica possibile.

L'informazione viene matematicamente espressa dalla relazione

che, utilizzando il logaritmo in base 2 della probabilità che si verifichi un dato evento, permette di ottenere un valore misurato in bit. 1 bit equivale ad esempio all'informazione ottenibile dal lancio di una moneta ().

Dall'entropia espressa dalla relazione di Boltzmann è facile ricavare l'uguaglianza

che permette di esprimere l'entropia nella medesima unità di misura dell'informazione, ossia il bit. Notare come si identifichi con . In conclusione si dimostra che vale la relazione

che si può enunciare come "a un aumento di entropia corrisponde una perdita di informazione su un dato sistema, e viceversa".

Bibliografia[modifica | modifica wikitesto]

Voci correlate[modifica | modifica wikitesto]

Altri progetti[modifica | modifica wikitesto]

Collegamenti esterni[modifica | modifica wikitesto]

Controllo di autoritàLCCN (ENsh85044152 · GND (DE4743861-7 · BNE (ESXX535116 (data) · BNF (FRcb11985913j (data) · J9U (ENHE987007550784405171 · NDL (ENJA01191172