Cross-validazione

Da Wikipedia, l'enciclopedia libera.

La cross-validazione (cross-validation in inglese) è una tecnica statistica[1] utilizzabile in presenza di una buona numerosità del campione osservato o training set. In particolare la k-fold cross-validation consiste nella suddivisione del dataset totale in k parti di uguale numerosità(si chiama anche k-fold validation) e, ad ogni passo, la parte (1/k)-esima del dataset viene ad essere il validation dataset, mentre la restante parte costituisce il training dataset. Così, per ognuna delle k parti (di solito k = 10) si allena il modello, evitando quindi problemi di overfitting, ma anche di campionamento asimmetrico (e quindi affetto da bias) del training dataset, tipico della suddivisione del dataset in due sole parti (ovvero training e validation dataset). In altre parole, si suddivide il campione osservato in gruppi di egual numerosità, si esclude iterativamente un gruppo alla volta e lo si cerca di predire con i gruppi non esclusi. Ciò al fine di verificare la bontà del modello di predizione utilizzato.

Note[modifica | modifica sorgente]

  1. ^ Metodo Cross-validation

Bibliografia[modifica | modifica sorgente]

  • I. Witten, E. Frank: Data Mining: Practical Machine Learning Tools and Techniques, Morgan Kaufmann
  • R. Duda, P. Hart, D. Stork: Pattern Classification, Wiley
  • T. Hastie, R. Tibshirani, J. Friedman: The Elements of Statistical Learning, Springer

Voci correlate[modifica | modifica sorgente]

Collegamenti esterni[modifica | modifica sorgente]