Inferenza statistica: differenze tra le versioni

Da Wikipedia, l'enciclopedia libera.
Vai alla navigazione Vai alla ricerca
Contenuto cancellato Contenuto aggiunto
FrescoBot (discussione | contributi)
m Bot: manutenzione template portale e modifiche minori
AttoBot (discussione | contributi)
m Bot: Formattazione delle date
Riga 50: Riga 50:


== Breve storia dell'inferenza statistica ==
== Breve storia dell'inferenza statistica ==
Nella storia della statistica, l'inferenza ha conosciuto due grandi periodi. Il primo cominciò alla fine del '800 e si sviluppò in maniera decisiva nella prima metà del XX secolo con i lavori di
Nella storia della statistica, l'inferenza ha conosciuto due grandi periodi. Il primo cominciò alla fine del'Ottocento e si sviluppò in maniera decisiva nella prima metà del XX secolo con i lavori di
[[Ronald Fisher|R. Fisher]], [[Karl Pearson|K. Pearson]], [[Jerzy Neyman]], [[Egon Pearson]] e [[Abraham Wald]] con le fondamentali idee riguardanti la [[verosomiglianza]], la potenza dei test di verifica d'ipotesi, gli [[intervallo di confidenza|intervalli di confidenza]] e altre.
[[Ronald Fisher|R. Fisher]], [[Karl Pearson|K. Pearson]], [[Jerzy Neyman]], [[Egon Pearson]] e [[Abraham Wald]] con le fondamentali idee riguardanti la [[verosomiglianza]], la potenza dei test di verifica d'ipotesi, gli [[intervallo di confidenza|intervalli di confidenza]] e altre.



Versione delle 20:07, 1 nov 2013

L'inferenza statistica (o statistica inferenziale) è il procedimento per cui si inducono le caratteristiche di una popolazione dall'osservazione di una parte di essa, detta campione, selezionata solitamente mediante un esperimento casuale (aleatorio).

Da un punto di vista filosofico, si tratta di tecniche matematiche per quantificare il processo di apprendimento tramite l'esperienza. Si considereranno principalmente campioni casuali semplici di dimensione n > 1, che possono venire interpretati come n realizzazioni indipendenti di un esperimento di base, nelle medesime condizioni. Dal momento che si considera un esperimento casuale, si coinvolge il calcolo delle probabilità. Nell'inferenza statistica c'è, in un certo senso, un rovesciamento di punto di vista rispetto al calcolo delle probabilità. Nell'ambito di quest'ultimo, noto il processo di generazione dei dati sperimentali (modello probabilistico) siamo in grado di valutare la probabilità dei diversi possibili risultati di un esperimento. Nella statistica il processo di generazione dei dati sperimentali non è noto in modo completo (il processo in questione è, in definitiva, l'oggetto di indagine) e le tecniche statistiche si prefiggono di indurre le caratteristiche di tale processo sulla base dell'osservazione dei dati sperimentali da esso generati.

Esempio

Data un'urna con composizione nota di 6 palline bianche e 4 palline rosse, utilizzando le regole del calcolo delle probabilità possiamo dedurre che se estraiamo una pallina a caso dall'urna, la probabilità che essa sia rossa è 0,4. Si ha invece un problema di inferenza statistica quando abbiamo un'urna di cui non conosciamo la composizione, estraiamo n palline a caso, ne osserviamo il colore e, a partire da questo, cerchiamo di inferire la composizione dell'urna.

Due approcci

Nell'ambito dell'inferenza statistica, si distinguono due scuole di pensiero, legate a diverse concezioni, o interpretazioni, del significato della probabilità:

La prima è legata agli storici contributi di R. Fisher, K. Pearson, e rappresenta la posizione maggioritaria. La seconda, allo stato attuale (2005) ancora minoritaria ma in crescita, è fondata sull'uso del risultato del teorema di Bayes ai fini dell'inferenza statistica.

Inferenza frequentista e bayesiana a confronto

Sia l'approccio frequentista che l'approccio bayesiano hanno in comune anzitutto gli assiomi della probabilità nonché tutta la parte statistico-matematica. Anche il teorema di Bayes ha validità per entrambi gli approcci così come il fatto che in entrambi i casi si parla solitamente di statistica parametrica. Ciò che cambia è il significato da dare al concetto di probabilità, all'atteggiamento nel confronto dell'idea di una probabilità soggettiva e di conseguenza l'utilizzo e l'importanza che si dà al teorema di Bayes.

Nell'ambito dell'inferenza statistica queste differenze si manifestano, da un lato, sul come e se utilizzare informazioni note prima di "vedere" i dati e di come quantificare tali informazioni e, dall'altro, vi sono approcci differenti sul come interpretare i risultati.

Un esempio sul come lo stesso esperimento venga visto dai due approcci può essere il seguente problema scolastico.

In un'urna contenente palline identiche tra di loro salvo per il colore, una ignota percentuale π è di colore nero. Estraendo 100 volte una pallina che viene subito dopo riposta nell'urna succede ad esempio che per 30 volte la pallina fosse nera.

In entrambi gli approcci la variabile casuale utilizzata è la variabile casuale binomiale:

Il tipico approccio frequentista basato sull'intervallo di confidenza derivante dalle idee di Neyman porta a stabilire per il valore ignoto di π un intervallo di confidenza p.es. al 95% compreso tra 0,21 e 0,39. La confidenza al 95% non sta ad indicare che π è compreso con una probabilità del 95% tra 0,21 e 0,39 (si tratterebbe di una affermazione tipicamente bayesiana), ma indica che a partire dalle ipotesi, il metodo utilizzato, nel 95% dei casi fa delle affermazioni corrette, nel senso che il vero valore sarà veramente nell'intervallo calcolato. Questo approccio sottolinea che il valore ignoto π o è compreso nell'intervallo oppure non lo è, ma non dà valori probabilistici a questo essere compreso. Una stima puntuale sia dei minimi quadrati che della massima verosimiglianza porterebbe a stimare il valore di π con la stima p=30/100=0,3.

L'approccio bayesiano invece formalizza anzitutto l'idea che si ha su come potrebbe essere forse, probabilmente il vero valore π, costruendo una variabile casuale discreta o continua sui possibili valori di π. Nel caso particolare che ci si voglia mettere in condizione di totale ignoranza, verrebbe considerata una Variabile casuale uniforme discreta o, vista la numerosità campionaria relativamente elevata (100 estrazioni), una variabile casuale rettangolare nell'intervallo compreso tra zero e uno. Scegliendo la rettangolare come distribuzione a priori si otterrebbe la seguente distribuzione a posteriori del parametro π:

Il valore massimo, e dunque il più probabile, è dato anche in questo caso da k/n=30/100=0,3, valore già visto nell'approccio frequentista, con la differenza che questo è a posteriori il valore più probabile, vista le nostre idee a priori e i risultati dell'esperimento. Utilizzando la distribuzione a posteriori si può affermare che la probabilità che l'ignoto parametro π abbia un valore tra 0,216 e 0,393 è pari a 0.95 vale a dire a 95%, mentre i valori compresi nell'intervallo tra 0,21 e 0.39 hanno la probabilità del 95,3%.

Riassumendo questo esempio: nell'approccio frequentista si fanno affermazioni su quante volte si dice il vero usando la tecnica usata, mentre nell'approccio bayesiano si attribuisce una probabilità di verità direttamente ad un intervallo. Questa differenza è a livello pratico spesso ignorata, ma dal punto di vista teorico è sostanziale. Si aggiunga il fatto che l'approccio bayesiano è in grado di utilizzare informazioni già in possesso, modificando la probabilità a priori e ottenendo così delle probabilità a posteriori diverse.

Breve storia dell'inferenza statistica

Nella storia della statistica, l'inferenza ha conosciuto due grandi periodi. Il primo cominciò alla fine del'Ottocento e si sviluppò in maniera decisiva nella prima metà del XX secolo con i lavori di R. Fisher, K. Pearson, Jerzy Neyman, Egon Pearson e Abraham Wald con le fondamentali idee riguardanti la verosomiglianza, la potenza dei test di verifica d'ipotesi, gli intervalli di confidenza e altre.

Il secondo grande periodo, tuttora in corso, è stato possibile grazie alla crescente potenza di calcolo dei computer, disponibili a prezzi sempre più abbordabili. Ciò ha permesso di allontanarsi da ipotesi comode dal punto di vista matematico ma non sempre adeguate alla realtà mettendo in pratica idee anche antiche come quella bayesiana che trova applicazioni pratiche solo in presenza della potenza di calcolo dei computer, come pure le tecniche di ricampionamento dei dati come il metodo Monte Carlo, bootstraping, metodo jackknife ecc. legati a personaggi quali John von Neumann, Stanisław Marcin Ulam, Bradley Efron, Richard von Mises e altri.

Temi legati all'inferenza statistica

I seguenti temi costituiscono una lista, non necessariamente esaustiva, di argomenti ricompresi nell'inferenza statistica:

Bibliografia

Voci correlate

Collegamenti esterni