Matrice di confusione

Da Wikipedia, l'enciclopedia libera.
Vai alla navigazione Vai alla ricerca

Nell'ambito del Machine learning, la matrice di confusione, detta anche tabella di errata classificazione, restituisce una rappresentazione dell'accuratezza di classificazione statistica.

Ogni colonna della matrice rappresenta i valori predetti, mentre ogni riga rappresenta i valori reali. L'elemento sulla riga i e sulla colonna j è il numero di casi in cui il classificatore ha classificato la classe "vera" i come classe j. Attraverso questa matrice è osservabile se vi è "confusione" nella classificazione di diverse classi.

Attraverso l'uso della matrice di confusione è possibile calcolare il coefficiente kappa, anche conosciuto come coefficiente kappa di Cohen.

Esempio[modifica | modifica wikitesto]

Esaminiamo il caso di una classificazione dove si distinguono tre classi: gatto, cane e coniglio. Nelle righe si scrivono i valori veri, reali. Mentre nelle colonne quelli predetti, stimati dal sistema.

Esempio di matrice di confusione
Predetti Somma
Gatto Cane Coniglio
Reali Gatto 5 2 0 7
Cane 3 3 2 8
Coniglio 0 1 11 12
Somma 8 6 13 27

Nell'esempio si può notare che dei 7 gatti reali, il sistema ne ha classificati 2 come cani. Allo stesso modo si può notare come dei 12 conigli veri, solamente 1 è stato classificato erroneamente. Gli oggetti che sono stati classificati correttamente sono indicati sulla diagonale della matrice, per questo è immediato osservare dalla matrice se il classificatore ha commesso o no degli errori.

Inoltre, è possibile ottenere due valori di accuratezza significativi:

  • Producer Accuracy di X = (numero di valori correttamente classificati come classe X) / (numero di valori appartenenti alla classe X)
  • User Accuracy di X = (numero di valori correttamente classificati come classe X) / (numero di valori classificati come classe X)

Nel caso della classe "gatto", questo ha i seguenti valori (vedi la matrice qui sopra):

Matrice di confusione[modifica | modifica wikitesto]

Nell'apprendimento automatico questa tabella può anche essere utilizzata con i valori di "veri positivi"/"falsi positivi" e "falsi negativi"/"veri negativi".

  Valori
predetti
  n' p' totale
Valori
Reali
n Veri
negativi
Falsi
positivi
N
p Falsi
negativi
Veri
positivi
P
totale N' P'

Così facendo è possibile calcolare:

  • accuratezza:
  • probabilità di falso allarme:
  • probabilità di mancato allarme: