Test di Wilcoxon-Mann-Whitney

Da Wikipedia, l'enciclopedia libera.

Il test di Wilcoxon-Mann-Whitney noto pure come test U di Mann-Whitney o test di Wilcoxon è uno dei più potenti test non parametrici per verificare, in presenza di valori ordinali provenienti da una distribuzione continua, se due campioni statistici provengono dalla stessa popolazione.

Test alternativi[modifica | modifica wikitesto]

Se si applica il test di Wilcoxon in presenza di dati per i quali si potrebbe utilizzare il test parametrico t di Student, allora la sua potenza-efficienza è attorno al 95% sia per campioni piccoli che campioni grandi.

A seconda della dimensione dei campioni, può essere preferito al test di Kolmogorov-Smirnov.

Dichiarazione formale dell'oggetto del test[modifica | modifica wikitesto]

Anche se comunemente si afferma che i test WMW sono utili per rilevare differenze nelle mediane, questo non è esattamente vero. Piuttosto questo test determina la possibilità di ottenere maggiori osservazioni in una popolazione rispetto ad un'altra. L'ipotesi nulla nel test di Mann–Whitney è quella che i due campioni siano tratti da una popolazione singola, e che dunque per questa ragione le loro distribuzioni di probabilità siano eguali. L'ipotesi alternativa è che uno dei campioni sia più grande in maniera stocastica. Questo richiede che i due campioni siano statisticamente indipendenti, e l'osservazione ordinale o misurazioni continue (ad.es. uno può almeno dire di qualsiasi due osservazioni, quale sia la maggiore).

Nella formulazione più generale, si può pensare che il test possa essere preso come un modo per mettere a prova che l'ipotesi nulla che la probabilità di un'osservazione da una popolazione (X) che eccedeva una osservazione dalla seconda popolazione (Y) sia 0.5: P(X>Y)=0.5 versus P(X>Y)>0.5, P(X>Y)<0.5, oppure P(X>Y)≠0.5 in un'ipotesi alternativa.

Un'altra interpretazione generale alternativa è che il test stabilisce se lo stimatore di Hodges-Lehmann della differenza nella tendenza centrale tra le due popolazioni è zero. La stima di Hodges-Lehmann per questo problema a due campioni è la mediana di tutte le possibili differenze tra un'osservazione nel primo campione ed un'osservazione nel secondo campione.

Il test è a volta interpretato in termini di provare uno spostamento nella localizzazione; nonostante tutto questa interpretazione particolare è valida soltanto quando le distribuzioni delle due popolazioni sono identiche eccetto che per possibilmente uno spostamento (ad.es. ƒ1(x) = ƒ2(x + δ)). .

Assunti[modifica | modifica wikitesto]

  1. I due campioni sotto studio da parte del test sono reciprocamente indipendenti e le osservazioni all'interno di ogni campione sono indipendenti;
  2. Le osservazioni sono confrontabili (ad.es., per qualsiasi due osservazioni, uno può stabilire se esse siano eguali oppure se al contrario, quale delle due sia maggiore).

In aggiunta, la stretta validità delle tavole standard dei valori critici possiamo confidare sull'assunto che la funzione di distribuzione di probabilità cumulativa soggiacente di entrambi i campioni sia continua, in modo che i collegamenti siano essenzialmente impossibili. Nei casi dove questo assunto è non valido, esiste una scelta tra utilizzare procedure di aggiustamento per tenere in considerazione i nessi in un modo ragionevole ma appropriato oppure di usare tecniche computazionali come il ricampionamento.

Calcoli s[modifica | modifica wikitesto]

Il test comporta il calcolo di una statistica, abitualmente chiamata U, che possiede una distribuzione nota sotto l'ipotesi nulla. Nel caso dei piccoli campioni, la distribuzione viene tabulata, ma per dimensioni dei campioni sopra ~20 esiste una buona approssimazione che usa la distribuzione normale. Alcuni libri tabulano statistiche equivalenti ad U, come la somma di ranghi in uno dei campioni, piuttosto che la stessa U.

Il test U è incluso nella maggioranza dei moderni pacchetti statistici. Viene anche facilmente calcolato a mano, specialmente per i piccoli campioni. Esistono due modi di fare questo:

Per piccoli campioni si consiglia di utilizzare un metodo diretto. Risulta molto veloce, e fornisce ragguagli sul significato della statistica U.

  1. Scegliere il campione per il quale i ranghi sembrano essere minori (L'unica ragione per fare questo è per rendere i calcoli più semplici). Denominate questo "campione 1," e chiamate l'altro campione "campione 2."
  2. Prendendo ogni osservazione nel campione 1, contate il numero di osservazioni nel campione "campione 2" che sono inferiori (in valore) al "campione 1" (contate come un 1/2 per ogni osservazione che possa essere considerata uguale).
  3. Il totale di queste conte è il valore U.

Formula[modifica | modifica wikitesto]

Per campioni di maggiori dimensioni, si può utilizzare una formula:

  1. Bisogna disporre tutte le osservazioni in una singola serie di rango . Questo implica dare un rango a tutte le osservazioni senza dover considerare in quale campione si trovino.
  2. Sommare tra loro i ranghi attribuiti alle osservazioni che provenivano dal "campione 1" . La somma dei ranghi nel "campione 2" segue per calcolo, dal momento che la somma di tutti i ranghi equivale a =\frac{N(N+1)}{2} dove "N" è il numero totale delle osservazioni.
  1. U viene allora fornito da:
U_1=R_1 -  {n_1(n_1+1) \over 2}
dove n1 è la dimensione del campione per il "campione 1", e R1 è la somma dei ranghi nel "campione 1".
Notare che non viene specificato quale campione venga considerato il "campione 1".
Una formula egualmente valida per U è la seguente:
U_2=R_2 - {n_2(n_2+1) \over 2}.
Il valore più piccolo di U1 e U2 è quello che viene utilizzato quando si consultano le tavole di significatività. La somma dei due valori viene data da
U_1 + U_2 = R_1 - {n_1(N+1) \over 2} + R_2 - {n_2(N+1) \over 2}.
Sapendo che R1 + R2 = N(N + 1)/2 e N = n1 + n2 , e facendo un po' di algebra, si trova che la somma corrisponde a
U_1 + U_2 = n_1 n_2.

Il valore massimo di U è il prodotto delle dimensioni dei campioni per i due campioni. In questo caso, l'"altro" U sarebbe uguale a zero. La U di Mann-Whitney è equivalente all'area sotto la curva "receiver operating characteristic" che può essere prontamente calcolata

AUC_1 = {U_1 \over n_1n_2}

Voci correlate[modifica | modifica wikitesto]