Test di Kolmogorov-Smirnov

Da Wikipedia, l'enciclopedia libera.
Vai alla navigazione Vai alla ricerca

Il test di Kolmogorov-Smirnov è un test non parametrico sviluppato per due campioni da Smirnov nel 1939, sulla base delle considerazioni relative a un solo campione di Kolmogorov del 1933,[1] che verifica la forma delle distribuzioni campionarie; in particolare può essere utilizzato per confrontare un campione con una distribuzione di riferimento oppure per confrontare due campioni.

La statistica del test a una coda è calcolata come la distanza tra la funzione di ripartizione di riferimento e la funzione di ripartizione empirica del campione. La statistica del test a due code è calcolata come la distanza tra le funzioni di ripartizione empiriche dei due campioni ed è applicabile a dati per lo meno ordinali. Nella sua formulazione esatta prevede che le variabili siano continue. Non richiede di per sé alcuna ipotesi sulla distribuzione campionaria, salvo nel caso a un campione, in cui viene testata una distribuzione a propria scelta.

Descrizione del test a due code - un campione[modifica | modifica wikitesto]

Sia una variabile casuale generatrice continua, con funzione di ripartizione . Un problema che spesso ricorre nella pratica è quello di verificare che la variabile casuale abbia funzione di ripartizione uguale ad una data . In simboli, il problema di ipotesi è del tipo:

Questo significa che l'ipotesi non si riferisce soltanto ad un parametro della variabile casuale X (come accade nel test dei segni), ma all'intera sua funzione di ripartizione.

Sia allora un campione casuale di ampiezza della variabile casuale . Sulla base di esso si vuole costruire un test per il problema di ipotesi. Poiché tale problema riguarda la funzione di ripartizione della variabile casuale , è intuitivo basare la statistica test sulla funzione di ripartizione empirica. Dette quindi le variabili casuali campionarie ordinate, la funzione di ripartizione empirica è definita come:

o equivalentemente in forma più compatta:

dove è la funzione indicatrice.

La è una "stima campionaria" della "vera" funzione di ripartizione della variabile casuale . Anzi, siamo in presenza di uno stimatore consistente, poiché si può dimostrare che, come conseguenza della legge debole dei grandi numeri, qualunque sia la tende in probabilità, per , a .

Poiché stima la "vera" funzione di ripartizione , è logico basarsi su una qualche "distanza" tra e . Se e sono "vicine", cioè sufficientemente "simili", non si rifiuta l'ipotesi nulla, mentre la si rifiuta se e sono "lontane", cioè se "molto dissimili".

Come "distanza" si usa la seguente:

dove è l'estremo superiore dell'insieme delle distanze, cioè la massima differenza in valore assoluto tra la funzione di ripartizione empirica e la funzione di ripartizione teorica ipotizzata come vera. Per valori "grandi" di si rifiuta l'ipotesi nulla, mentre non la si rifiuta per valori "piccoli" di (vedasi variabile casuale test di Kolmogorov-Smirnov).

Dunque, il "senso" della statistica è intuitivamente evidente. Molto complicato invece è il calcolo della sua distribuzione di probabilità (sotto l'ipotesi nulla). Si può comunque dimostrare che sotto l'ipotesi nulla la distribuzione di probabilità della statistica test non dipende dalla particolare forma funzionale di .

Questi risultati sono validi per le variabili casuali che hanno funzione di ripartizione continua. Se invece è una variabile casuale discreta e la sua funzione di ripartizione è quindi discontinua, la distribuzione di probabilità della variabile casuale dipende proprio dalla discontinuità della funzione di ripartizione di .

Storia[modifica | modifica wikitesto]

Nel 1933 Andrej Nikolaevič Kolmogorov introdusse la statistica , e nel 1939 Nikolaj Vasil'evič Smirnov la utilizzò per ricavare quello che oggi è noto come test di Kolmogorov-Smirnov.[1]

Test alternativi[modifica | modifica wikitesto]

Il test di Kolmogorov-Smirnov è per certi versi l'alternativa non parametrica al test t di Student; quando tale test è applicabile (ipotesi parametrica di distribuzione gaussiana) e si sceglie lo stesso il test di Kolmogorov-Smirnov, allora l'efficienza-potenza è pari a circa il 95% per piccoli campioni e diminuisce leggermente per campioni grandi.

Rispetto ai non parametrici test della mediana e test del chi quadrato (applicato a dati ordinali) è più potente e dunque da preferire.

Si ritiene che per campioni molto piccoli il test di Kolmogorov-Smirnov sia da preferire al test di Wilcoxon-Mann-Whitney mentre per campioni grandi sia quest'ultimo da preferire.

Note[modifica | modifica wikitesto]

  1. ^ a b Kolmogorov-Smirnov Test - an overview | ScienceDirect Topics, su web.archive.org, 30 marzo 2022. URL consultato il 30 marzo 2022 (archiviato dall'url originale il 30 marzo 2022).

Voci correlate[modifica | modifica wikitesto]