Precisione e recall

Da Wikipedia, l'enciclopedia libera.
In questa figura gli elementi rilevanti sono a sinistra della linea retta mentre gli elementi ritrovati sono all'interno dell'ovale. Le due regioni rosse rappresentano gli errori. Nella regione rossa a sinistra (fuori dall'ovale) sono rappresentati gli elementi rilevanti che non sono stati recuperati (i falsi negativi), mentre in quella a destra (dentro l'ovale) sono rappresentati gli elementi recuperati che però non sono rilevanti (i falsi positivi). Precisione e recall sono il quoziente dell'area della regione verde con, rispettivamente, l'ovale (freccia orizzontale) e la regione di sinistra (freccia diagonale).

Precisione e Recall sono due comuni classificazioni statistiche, utilizzate in diversi ambiti del sapere, come per es. l'information retrieval. La precisione può essere vista come una misura di esattezza o fedeltà, mentre la recall è una misura di completezza.

Nell’Information Retrieval, la precisione è definita come il numero di documenti attinenti recuperati da una ricerca diviso il numero totale di documenti recuperati dalla stessa ricerca, e la recall è definita come il numero di documenti attinenti recuperati da una ricerca diviso il numero totale di documenti attinenti esistenti (che dovrebbe essere stato recuperato).

Altrimenti detto, la precisione è la frazione di documenti attinenti che sono stati trovati, mentre la recall è la frazione di di documenti trovati che sono attinenti. Dalla definizione, è possibile intuire che precisione e recall sono grandezze inversamente proporzionali: maggiore è la precisione in una ricerca, minore sarà la recall, e viceversa. Ne consegue dunque che motori di ricerca "perfetti", cioè che ritrovino tutti e soli documenti pertinenti ad una particolare ricerca, non sono possibili.

In un processo di classificazione statistica, la precisione per una classe è il numero di veri positivi (il numero di oggetti etichettati correttamente come appartenenti alla classe) diviso il numero totale di elementi etichettati come appartenenti alla classe (la somma di veri positivi e falsi positivi, che sono oggetti etichettati erroneamente come appartenenti alla classe). Recall in questo contesto è definita come il numero di veri positivi diviso il numero totale di elementi che attualmente appartengono alla classe (per esempio la somma di veri positivi e falsi negativi, che sono oggetti che non sono stati etichettati come appartenenti alla classe ma dovrebbero esserlo).

Nell'Information Retrieval, un valore di precisione di 1.0 significa che ogni risultato recuperato da una ricerca è attinente mentre un valore di recall pari a 1.0 significa che tutti i documenti attinenti sono stati recuperati dalla ricerca.

In un processo di classificazione, un valore di precisione di 1.0 per la classe C significa che ogni oggetto che è stato etichettato come appartenente alla classe C vi appartiene davvero (ma non dice niente sul numero di elementi della classe C che non sono stati etichettati correttamente) mentre un valore di recall pari ad 1.0 significa che ogni oggetto della classe C è stato etichettato come appartenente ad essa.

Definizione (Information Retrieval) [modifica]

Nell'Information retrieval, precisione e recall sono definite in termini di insieme di documenti recuperati (lista di documenti restituiti da un motore di ricerca rispetto ad una query) e un insieme di documenti attinenti (lista di tutti i documenti che sono attinenti per l’argomento cercato).

\mbox{Precision}=\frac{|\{\mbox{documenti attinenti}\}\cap\{\mbox{documenti recuperati}\}|}{|\{\mbox{documenti recuperati}\}|}

\mbox{Recall}=\frac{|\{\mbox{documenti attinenti}\}\cap\{\mbox{documenti recuperati}\}|}{|\{\mbox{documenti attinenti}\}|}

Definizione (Classificazione) [modifica]

In un processo di classificazione, i termini vero positivo, vero negativo, falso positivo e falso negativo sono usati per confrontare la classificazione di un oggetto (l’etichetta di classe assegnata all’oggetto da un classificatore) con la corretta classificazione desiderata (la classe a cui in realtà appartiene l’oggetto).

Precisione e recall sono definite come
\mbox{Precision}=\frac{vero positivo}{vero positivo + falso positivo}
\mbox{Recall}=\frac{vero positivo}{vero positivo + falso negativo}

Interpretazione probabilistica [modifica]

La precisione è la probabilità che un documento recuperato (selezionato casualmente) sia attinente. La recall è la probabilità che un documento attinente (selezionato casualmente) sia recuperato in una ricerca.