Test di Kolmogorov-Smirnov

Da Wikipedia, l'enciclopedia libera.

Il test di Kolmogorov-Smirnov è un test non parametrico che verifica la forma delle distribuzioni campionarie. È applicabile a dati per lo meno ordinali. Nella sua formulazione esatta prevede che le variabili siano continue. Non richiede di per sé alcuna ipotesi sulla distribuzione campionaria (salvo nel caso a un campione, in cui viene testata una distribuzione a propria scelta).

Si distingue in

  • test a due code, a un campione oppure a due campioni;
  • test a una coda, a un campione oppure a due campioni.

Storia[modifica | modifica sorgente]

Nel 1933 Andrej Nikolaevič Kolmogorov introdusse la statistica |F_n (x) - F_0 (x)|, e nel 1939 Nikolaj Vasil'evič Smirnov la utilizza per ricavare quello che oggi è noto come test di Kolmogorov-Smirnov.

Test alternativi[modifica | modifica sorgente]

È per certi versi l'alternativa non parametrica al test t di Student. Quando tale test è applicabile (ipotesi parametrica di distribuzione gaussiana) e si sceglie lo stesso il test K-S, allora l'efficienza -potenza è pari a circa il 95% per piccoli campioni e diminuisce leggermente per campioni grandi.

Rispetto ai non parametrici test della mediana e test del chi quadrato (applicato a dati ordinali) è più potente e dunque da preferire.

Si ritiene che per campioni molto piccoli il test K-S sia da preferire al test di Wilcoxon-Mann-Whitney mentre per campioni grandi quest'ultimo è da preferire.

Valida alternativa è pure il test di Girone.

Test di Kolmogorov-Smirnov a due code (a un campione)[modifica | modifica sorgente]

Sia X una variabile casuale generatrice continua, con funzione di ripartizione F(x). Un problema che spesso ricorre nella pratica è quello di verificare che la variabile casuale X abbia funzione di ripartizione uguale ad una data F_0 (x). In simboli, il problema di ipotesi è del tipo:

H_0 : F(x) = F_0 (x),\ \forall x

contro

H_1 : F(x) \ne F_0 (x),\ \mbox{per } \mbox{qualche } x.

Questo significa che l'ipotesi non si riferisce soltanto ad un parametro della variabile casuale X (come accade nel test dei segni), ma all'intera sua funzione di ripartizione.

Sia allora (X_1,...,X_n) un campione casuale di ampiezza n della variabile casuale X. Sulla base di esso si vuole costruire un test per il problema di ipotesi. Poiché tale problema riguarda la funzione di ripartizione della variabile casuale X, è intuitivo basare la statistica test sulla funzione di ripartizione empirica. Dette quindi X(1),...,X(n) le n variabili casuali campionarie ordinate, la funzione di ripartizione empirica è definita come:

\hat F_n (x) = \left\{\begin{matrix} 0, & \mbox{se } x \le X(1) \\ \frac {k}{n}, & \mbox{se } X(k) \le x < X(k+1) \\ 1, & \mbox{se } x \ge X(n) \end{matrix}\right.

o equivalentemente in forma più compatta:

\hat F_n(x) = {1 \over n}\sum_{i=1}^n I_{X(i)\leq x}

dove I_{X(i)\leq x} è la funzione indicatrice.

La \hat F_n (x) è una "stima campionaria" della "vera" funzione di ripartizione F(x) della variabile casuale X. Anzi, siamo in presenza di uno stimatore consistente, poiché si può dimostrare che, come conseguenza della legge debole dei grandi numeri, qualunque sia x la \hat F_n (x) tende in probabilità, per n \longrightarrow \infty, a F(x).

L'idea del test di Kolmogorov-Smirnov è piuttosto semplice e intuitiva. Poiché \hat F_n (x) stima la "vera" funzione di ripartizione F(x), è logico basarsi su una qualche "distanza" tra \hat F_n (x) e F_0 (x). Se \hat F_n (x) e F_0 (x) sono "vicine" (cioè sono "sufficientemente simili") si accetta l'ipotesi nulla, mentre la si rifiuta se \hat F_n (x) e F_0 (x) sono "lontane" (cioè se sono "molto dissimili"). Come "distanza" si usa la seguente:

D_n = \sup_{-\infty < x < +\infty} \left|\hat F_n (x)-F_0 (x) \right|

cioè la massima differenza (in valore assoluto) tra la funzione di ripartizione empirica \hat F_n (x) e la funzione di ripartizione teorica (ipotizzata come vera) F_0 (x). Per valori "grandi" di D_n si rifiuta l'ipotesi nulla, mentre la si accetta per valori "piccoli" di D_n (vedasi variabile casuale test di Kolmogorov-Smirnov).

Dunque, il "senso" della statistica D_n è intuitivamente evidente. Molto complicato invece è il calcolo della sua distribuzione di probabilità (sotto l'ipotesi nulla). Si può comunque dimostrare che sotto l'ipotesi nulla la distribuzione di probabilità della statistica test D_n non dipende dalla particolare forma funzionale di F_0 (x).

Questi risultati sono validi per le variabili casuali che hanno funzione di ripartizione continua. Se invece X è una variabile casuale discreta e la sua funzione di ripartizione è quindi discontinua, la distribuzione di probabilità della variabile casuale D_n dipende proprio dalla discontinuità della funzione di ripartizione di X.

Voci correlate[modifica | modifica sorgente]