Analisi delle frequenze

Da Wikipedia, l'enciclopedia libera.

Nella crittoanalisi, l'analisi delle frequenze è lo studio della frequenza di utilizzo delle lettere o gruppi di lettere in un testo cifrato. Questo metodo è utilizzato per violare i cifrari classici. Le indagini quantitative sui testi si servono spesso di qualche forma di analisi delle frequenze.

Possono essere interessanti le analisi delle frequenze di caratteri, di parole, di gruppi di parole che si possono assegnare a lemmi o significati definiti; queste analisi possono riguardare un singolo testo (da un frammento epigrafico, a un'opera come la Divina commedia), un intero corpus letterario o un opportuno campione di un linguaggio specialistico o di un'intera lingua.

In particolare un primo metodo che si adotta in attività di crittanalisi si basa sul fatto che in ogni lingua la frequenza di uso di ogni lettera è piuttosto determinata; questo è vero in modo rigoroso solo per testi lunghi, ma spesso testi anche corti hanno frequenze non molto diverse da quelle previste.

Vediamo come riferimento le frequenze percentuali delle lettere più comuni di due lingue:

Italiano Inglese
E 11,79 E 12,31
A 11,74 T 9,59
I 11,28 A 8,05
O 9,83 O 7,94
N 6,88 N 7,19

Si può notare quanto le prime lettere di queste lingue siano presenti in quantità molto maggiore delle altre, ad esempio da un testo in cui un certo simbolo appare oltre il 12% delle volte si può facilmente intuire che quel simbolo corrisponde alla lettera E (in inglese la distanza della E dalle altre lettere è ancora più marcata).

In particolare le varie lettere si trovano nelle frasi in Italiano con la frequenza

Frequenze delle lettere nel testo.
Frequenze relative ordinate per frequenza.
Lettera Frequenza
a 11.74%
b 0.92%
c 4.50%
d 3.73%
e 11.79%
f 0.95%
g 1.64%
h 1.54%
i 11.28%
l 6.51%
m 2.51%
n 6.88%
o 9.83%
p 3.05%
q 0.51%
r 6.37%
s 4.98%
t 5.62%
u 3.01%
v 2.10%
z 0.49%

Bibliografia[modifica | modifica wikitesto]