Tf-idf

Da Wikipedia, l'enciclopedia libera.

La funzione di peso tf-idf (term frequency–inverse document frequency) è una funzione utilizzata in Information Retrieval per misurare l'importanza di un termine rispetto ad un documento o ad una collezione di documenti. Tale funzione aumenta proporzionalmente al numero di volte che il termine è contenuto nel documento, ma cresce in maniera inversamente proporzionale con la frequenza del termine nella collezione. L'idea alla base di questo comportamento è di dare più importanza ai termini che compaiono nel documento, ma che in generale sono poco frequenti.

Formula matematica[modifica | modifica sorgente]

La funzione può essere scomposta in due fattori: Il primo fattore della funzione è il numero dei termini presenti nel documento. In genere questo numero viene diviso per la lunghezza del documento stesso per evitare che siano privilegiati i documenti più lunghi.

 \mathrm{tf_{i,j}} = \frac{n_{i,j}}{|d_j|}

dove  n_{i,j} è il numero di occorrenze del termine  t_{i} nel documento d_{j}, mentre il denominatore è semplicemente la dimensione, espressa in numero di termini, del documento d_{j}.

L'altro fattore della funzione indica l'importanza generale del termine nella collezione:

 \mathrm{idf_{i}} =  \log \frac{|D|}{|\{d: t_{i} \in d\}|}

dove |D| è il numero di documenti nella collezione, mentre il denominatore è il numero di documenti che contengono il termine t_{i}.

Abbiamo quindi che:

 \mathrm{(tf\mbox{-}idf)_{i,j}} = \mathrm{tf_{i,j}} \times  \mathrm{idf_{i}}

Esempio[modifica | modifica sorgente]

Consideriamo un documento contenente 100 parole e nel quale il termine pluto compare 5 volte. Il fattore TF per il termine pluto è  \frac{5}{100} = 0,05 . Assumiamo di avere ora 1 000 documenti nella collezione e pluto compare in 10 di questi. Quindi IDF = \log \frac {1 000}{10} = 2. Da questo possiamo calcolare \mbox{TF-IDF} = 0.05 \times 2 = 0.1 .

Voci correlate[modifica | modifica sorgente]

Riferimenti[modifica | modifica sorgente]

Collegamenti esterni[modifica | modifica sorgente]