Analisi della varianza
Da Wikipedia, l'enciclopedia libera.
L'analisi della varianza (ANOVA) è un insieme di tecniche statistiche facenti parte della statistica inferenziale che permettono di confrontare due o più gruppi di dati confrontando la variabilità interna a questi gruppi con la variabilità tra i gruppi.
L'ipotesi nulla solitamente prevede che i dati di tutti i gruppi abbiano la stessa origine, ovvero la stessa distribuzione stocastica, e che le differenze osservate tra i gruppi siano dovute solo al caso.
Si usano queste tecniche quando le variabili esplicative sono di tipo nominale. Nulla impedisce di usare queste tecniche anche in presenza di variabili esplicative di tipo ordinale o continuo, ma in tal caso sono meno efficienti delle tecniche alternative (p.es.: regressione lineare).
Indice |
[modifica] Ipotesi di base
L'ipotesi alla base dell'analisi della varianza è che dati n gruppi, sia possibile scomporre la varianza in due componenti: Varianza interna ai gruppi (anche detta Within) e Varianza tra i gruppi (Between). La ragione che spinge a compiere tale distinzione è la convinzione, da parte del ricercatore, che determinati fenomeni trovino spiegazione in caratteristiche proprie del gruppo di appartenenza. Un esempio tipico, ripreso dalle analisi sociologiche, si trova nello studio dei gruppi di tossicodipendenti. In questo caso l'analisi della varianza si usa per determinare se più gruppi possono essere in qualche modo significativamente diversi tra loro (la varianza between contribuisce significativamene alla varianza totale - il fenomeno è legato a caratteristiche proprie di ciascun gruppo come la zona di residenza)o, viceversa, risultano omogenei (la varianza within contribuisce significativamene alla varianza totale - il fenomeno è legato a caratteristiche proprie di tutti i gruppi). In altre parole, il confronto si basa sull'idea che se la variabilità interna ai gruppi è relativamente elevata rispetto alla variabilità tra i gruppi, allora probabilmente la differenza tra questi gruppi è soltanto il risultato della variabilità interna.
Il più noto insieme di tecniche si basa sul confronto della varianza e usa variabili di test distribuite come la variabile casuale F di Snedecor.
Le diverse tecniche vengono suddivise a seconda se il modello prevede
- una sola causa: p.es.: il gradimento di un cibo dipende dal colore del medesimo
- più di una causa: p.es.: il successo scolastico dipende sia dal genere (maschi, femmine) che dallo sport praticato (calcio, tennis, box,...)
- interazione tra più cause: p.es.: la velocità di guarigione dipende da due farmaci, i quali però si annullano (o rinforzano) a vicenda
[modifica] Discussione analitica
La relazione tra varianza totale σ2 riferita alle n unità e varianze calcolate sui singoli gruppi
(g=1,2,...,G) risulta essere
La prima sommatoria è la varianza Within mentre la seconda è la varianza between. Quindi, equivalentemente, si potrà scrivere:
Dove M è la media totale delle n unità, uguale alle medie parziali di ciascun gruppo Mg con pesi uguali alle rispettive frequenze relative di gruppo
. A loro volta, le medie parziali Mg dei valori xi(g) del g-esimo gruppo sono date da
. Inoltre si ha che: ![\sigma^2_g={\sum_{i=1}^{n_g} [x_i(g)-M_g]^2 \over n_g}](http://upload.wikimedia.org/math/4/9/d/49d6f3130388908273d3f724d41b55e0.png)
La varianza Within è uguale alla media ponderata delle varianze parziali, calcolate in ogni gruppo. I pesi sono uguali alle loro frequenze relative.
La varianza Between è uguale alla varianza ponderata delle medie parziali. I pesi sono uguali alle frequenze relative di gruppo.
[modifica] Esempio di Analisi della varianza semplice
Il modello prevede che
- xij = μ + αi + εij
L'ipotesi nulla prevede che
- i valori osservati derivino da una distribuzione gaussiana
- con stessa media μ; e stessa varianza σ2 e che
- αi sia uguale per tutti i gruppi (e pertanto nullo).
I dati osservati nei quattro gruppi, che chiameremo A, B, C e D, di uguale numerosità (per semplificare l'esempio), sono:
| j | A | B | C | D |
|---|---|---|---|---|
| 1 | 0,72 | 0,75 | 0,68 | 0,78 |
| 2 | 0,69 | 0,85 | 0,70 | 0,86 |
| 3 | 0,71 | 0,82 | 0,67 | 0,87 |
| 4 | 0,70 | 0,80 | 0,65 | 0,84 |
| 5 | 0,68 | 0,88 | 0,70 | 0,85 |
Siano adesso
- SSQa: la somma degli scarti quadratici delle medie dei singoli gruppi (mi) dalla media generale m
- SSQe: la somma degli scarti quadratici dei singoli valori xij rispetto alla media mi del gruppo a cui appartengono
- SSQtot: la somma degli scarti quadratici di tutti singoli valori rispetto alla media generale m
Ovvero:
- m = 1/n ΣiΣjxij
- mi = 1/ni Σjxij
- SSQa = Σini(mi-m)²
- SSQe = ΣiΣj(xij-mj)²
- SSQtot = ΣiΣi(xij-m)² = SSQe + SSQa
La variabile test diventa
SSQa/(k-1)
T = ---------
SSQe/k·(ni-1)
dove
- k è il numero di gruppi (nel nostro esempio: k=4)
- ni la numerosità dei singoli gruppi (nel nostro caso ni=5 per tutti)
- n = Σini, ovvero il numero complessivo di casi osservati
Nel nostro esempio si ottiene che:
- SSQtot =0,1176
- SSQa = 0,1000
- SSQe = 0,0176
e pertanto
0,1000 / (4-1) 0,1000·16
T = --------------- = --------- = 30,30
0,0176 / 4·(5-1) 0,0176·3
tale valore viene confrontato con i valori dei una v.c. F di Snedecor con 3 e 16 gradi di libertà. Se si accetta una percentuale di falsi positivi del 5%=(100-95)% tale valore è
- F( 0,95 ; 3 ; 16 ) = 3,24
pertanto, essendo 30,3 » 3,24 si rigetta l'ipotesi nulla che prevedeva l'assenza di effetti e si afferma che molto probabilmente almeno uno dei quattro gruppi è diverso dagli altri. Forse tutti i gruppi sono diversi uno dall'altro, forse solo uno di loro.
Un test (proposto per la prima volta da Ronald Fisher) permette di determinare la più piccola differenza significativa tra la media di due gruppi, confrontandoli uno ad uno.
Tale differenza è pari a
- t( 0,05/2 ; n-k ) * √(SSQe(1/np+1/nq))
[modifica] Voci correlate
- Ronald Fisher, George W. Snedecor
- regressione lineare, variabile di comodo
- statistica, test di verifica d'ipotesi
- Analisi della correlazione canonica, della quale l'analisi della varianza che può essere vista come un caso particolare
[modifica] Bibliografia
- Zani S.; Analisi dei dati statistici, vol. I; 1994; Giuffrè editore; Milano
- Gili A., Frosini B.V., Zanardi G. e Zenga M.; Variability and concentration, in: Italian contribution to the metodology of statistic; 1987; Cleup; Padova
- Brasini S., Tassinari F., Tassinari G.; Marketing e pubblicità; 1993; Il Mulino; Bologna
- Rao C.R.; Diversity: its measurement, decomposition, apportionment and analysis; 1982; Sankhya vol. 44 serie A pagg 1-12

