Selezione delle caratteristiche

Da Wikipedia, l'enciclopedia libera.
Jump to navigation Jump to search

Nel riconoscimento di pattern e nell'elaborazione delle immagini la selezione delle caratteristiche (in inglese: feature selection) è una forma speciale di riduzione della dimensionalità di un determinato dataset.

La selezione delle caratteristiche è il processo di riduzione degli ingressi per l'elaborazione e l'analisi o l'individuazione delle caratteristiche maggiormente significative rispetto alle altre. Similmente esiste l'estrazione di caratteristiche (in inglese: feature extraction), dove si applica il processo di estrazione di informazioni utili dai dati esistenti.[1]

La selezione delle caratteristiche risulta necessaria per creare un modello funzionale, ossia una riduzione della cardinalità, imponendo un limite superiore al numero di caratteristiche che devono essere considerate durante la creazione di questo. Solitamente i dati contengono informazioni ridondanti, ovvero più di quelle necessarie (oppure possono contenere anche informazioni errate).[1]

La selezione delle caratteristiche rende più efficiente il processo di creazione di un modello, andando ad esempio a diminuire la CPU e la memoria necessarie per l'addestramento (training), anche se vi siano casi in cui le risorse non sono un problema.[1]

La selezione delle caratteristiche viene utilizzata per tre ragioni:

  • semplificazione dei modelli per renderli più facili da interpretare da ricercatori / utenti;[2]
  • tempi di addestramento (training) minori;
  • miglioramento generalizzato nella riduzione del problema di overfitting, ovvero una riduzione della varianza.[3]

Principali metodologie[modifica | modifica wikitesto]

La più semplice è verificare quale caratteristica se tolta produce un errore massimo. Per effettuare una selezione delle caratteristiche più avanzata si può adottare una delle seguenti tecniche:

Note[modifica | modifica wikitesto]

  1. ^ a b c Selezione delle caratteristiche su MSDN
  2. ^ (EN) Gareth James, Daniela Witten, Trevor Hastie e Robert Tibshirani, An Introduction to Statistical Learning, Springer, 2013, p. 204.
  3. ^ (EN) Mairead L. Bermingham, Ricardo Pong-Wong, Athina Spiliopoulou, Caroline Hayward, Igor Rudan, Harry Campbell, Alan F. Wright, James F. Wilson, Felix Agakov, Pau Navarro e Chris S. Haley, Application of high-dimensional feature selection: evaluation for genomic prediction in man, in Sci. Rep., vol. 5, 2015.

Voci correlate[modifica | modifica wikitesto]