Precisione e recupero

Da Wikipedia, l'enciclopedia libera.
(Reindirizzamento da Precisione e recall)
In questa figura gli elementi rilevanti sono a sinistra della linea retta mentre gli elementi ritrovati sono all'interno dell'ovale. Le due regioni rosse rappresentano gli errori. Nella regione rossa a sinistra (fuori dall'ovale) sono rappresentati gli elementi rilevanti che non sono stati recuperati (i falsi negativi), mentre in quella a destra (dentro l'ovale) sono rappresentati gli elementi recuperati che però non sono rilevanti (i falsi positivi). Precisione e recupero sono il quoziente dell'area della regione verde con, rispettivamente, l'ovale (freccia orizzontale) e la regione di sinistra (freccia diagonale).

Precisione e recupero, o richiamo (in inglese precision e recall) sono due comuni classificazioni statistiche, utilizzate in diversi ambiti del sapere, come per es. l'information retrieval. La precisione può essere vista come una misura di esattezza o fedeltà, mentre il recupero è una misura di completezza.

Nell'Information Retrieval, la precisione è definita come il numero di documenti attinenti recuperati da una ricerca diviso il numero totale di documenti recuperati dalla stessa ricerca, e il recupero è definito come il numero di documenti attinenti recuperati da una ricerca diviso il numero totale di documenti attinenti esistenti (che dovrebbe essere stato recuperato).

Altrimenti detto, la precisione è la frazione di documenti attinenti che sono stati trovati, mentre il recupero è la frazione di documenti trovati che sono attinenti. Dalla definizione, è possibile intuire che precisione e recupero sono grandezze inversamente proporzionali: maggiore è la precisione in una ricerca, minore sarà il recupero, e viceversa. Ne consegue dunque che motori di ricerca "perfetti", cioè che ritrovino tutti e soli documenti pertinenti ad una particolare ricerca, non sono possibili.

In un processo di classificazione statistica, la precisione per una classe è il numero di veri positivi (il numero di oggetti etichettati correttamente come appartenenti alla classe) diviso il numero totale di elementi etichettati come appartenenti alla classe (la somma di veri positivi e falsi positivi, che sono oggetti etichettati erroneamente come appartenenti alla classe). Recupero in questo contesto è definito come il numero di veri positivi diviso il numero totale di elementi che attualmente appartengono alla classe (per esempio la somma di veri positivi e falsi negativi, che sono oggetti che non sono stati etichettati come appartenenti alla classe ma dovrebbero esserlo).

Nell'Information Retrieval, un valore di precisione di 1.0 significa che ogni risultato recuperato da una ricerca è attinente mentre un valore di recupero pari a 1.0 significa che tutti i documenti attinenti sono stati recuperati dalla ricerca.

In un processo di classificazione, un valore di precisione di 1.0 per la classe C significa che ogni oggetto che è stato etichettato come appartenente alla classe C vi appartiene davvero (ma non dice niente sul numero di elementi della classe C che non sono stati etichettati correttamente) mentre un valore di recupero pari ad 1.0 significa che ogni oggetto della classe C è stato etichettato come appartenente ad essa.

Definizione (information retrieval)[modifica | modifica sorgente]

Nell'information retrieval, precisione e recupero sono definite in termini di insieme di documenti recuperati (lista di documenti restituiti da un motore di ricerca rispetto ad una query) e un insieme di documenti attinenti (lista di tutti i documenti che sono attinenti per l’argomento cercato).

\mbox{Precisione}=\frac{|\{\mbox{documenti attinenti}\}\cap\{\mbox{documenti recuperati}\}|}{|\{\mbox{documenti recuperati}\}|}

\mbox{Recupero}=\frac{|\{\mbox{documenti attinenti}\}\cap\{\mbox{documenti recuperati}\}|}{|\{\mbox{documenti attinenti}\}|}

Definizione (classificazione)[modifica | modifica sorgente]

In un processo di classificazione, i termini vero positivo, vero negativo, falso positivo e falso negativo sono usati per confrontare la classificazione di un oggetto (l’etichetta di classe assegnata all’oggetto da un classificatore) con la corretta classificazione desiderata (la classe a cui in realtà appartiene l’oggetto).

Precisione e recupero sono definite come:
\mbox{Precisione}=\frac{vero positivo}{vero positivo + falso positivo}
\mbox{Recupero}=\frac{vero positivo}{vero positivo + falso negativo}

Interpretazione probabilistica[modifica | modifica sorgente]

La precisione è la probabilità che un documento recuperato (selezionato casualmente) sia attinente. Il recupero è la probabilità che un documento attinente (selezionato casualmente) sia recuperato in una ricerca.

statistica Portale Statistica: accedi alle voci di Wikipedia che trattano di statistica