Test dei ranghi logaritmici

Da Wikipedia, l'enciclopedia libera.

In statistica, il test dei ranghi logaritmici (in inglese logrank test) è un test di verifica d'ipotesi per confrontare le distribuzioni di sopravvivenza di due campioni. È un test non parametrico che è appropriato usare quando i dati sono asimmetrici e censurati verso destra (tecnicamente, la censura deve essere non informativa). Si usa ampiamente negli studi clinici per stabilire l'efficacia di un nuovo trattamento confrontato con un trattamento di controllo quando la grandezza da misurare è il tempo che precede l'evento (come il tempo dal trattamento iniziale a un attacco cardiaco). Il test a volte è chiamato test di Mantel-Cox, dal nome di Nathan Mantel e David Cox. Il test dei ranghi logaritmici può essere visto anche come un test di Cochran-Mantel-Haenszel stratificato nel tempo.

Il test fu proposto per la prima volta da Nathan Mantel e fu denominato test dei ranghi logaritmici da Richard e Julian Peto.[1][2][3]

Definizione[modifica | modifica sorgente]

La statistica del test dei ranghi logaritmici confronta le stime delle funzioni di rischio di due gruppi in ciascun momento degli eventi osservati. Si costruisce calcolando il numero osservato e quello atteso degli eventi in uno dei gruppi in ciascun momento degli eventi osservati e poi sommando questi ultimi per ottenere una sintesi complessiva lungo tutti i punti temporali in cui si verifica un evento.

Siano j = 1, ..., J i distinti tempi degli eventi osservati in ciascuno dei due gruppi. Per ogni tempo j, siano N_{1j} e N_{2j} il numero dei soggetti "a rischio" (che non hanno ancora avuto un evento o che sono stati censurati) all'inizio del periodo j rispettivamente nei due gruppi (spesso trattamento rispetto a controllo). Sia N_j = N_{1j} + N_{2j}. Siano O_{1j} e O_{2j} il numero di eventi osservati rispettivamente al tempo j, e si definiscano O_j = O_{1j} + O_{2j}.

Dato che gli eventi O_j sono accaduti in tutti e due i gruppi al tempo j, in base all'ipotesi nulla (dei due gruppi che hanno identiche funzioni di sopravvivenza e di rischio) O_{1j} ha la distribuzione ipergeometrica con parametri N_j, N_{1j} e O_j. Questa distribuzione ha valore atteso E_{1j} = \frac{O_j}{N_j}N_{1j} e varianza V_j = \frac{O_j (N_{1j}/N_j) (1 - N_{1j}/N_j) (N_j - O_j)}{N_j - 1}.

La statistica dei ranghi logaritmici confronta ogni O_{1j} con la sua speranza matematica E_{1j} in base all'ipotesi nulla ed è definita come

Z = \frac {\sum_{j=1}^J (O_{1j} - E_{1j})} {\sqrt {\sum_{j=1}^J V_j}}.

Distribuzione asintotica[modifica | modifica sorgente]

Se i due gruppi hanno la stessa funzione di sopravvivenza, la statistica dei ranghi logaritmici è approssimativamente normale standard. Un test di livello unilaterale \alpha respingerà l'ipotesi nulla se Z>z_\alpha, dove z_\alpha è il quantile \alpha superiore della distribuzione normale standard. Se il rapporto di rischio è \lambda, ci sono n soggetti totali, d è la probabilità che un soggetto in ciascun gruppo abbia infine un evento (cosicché nd è il numero atteso di eventi al tempo dell'analisi) e la proporzione di soggetti casualizzati in ciascun gruppo è il 50%, allora la statistica dei ranghi logaritmici è approssimativamente normale con media  (\log{\lambda}) \, \sqrt {\frac {n \, d} {4}} e varianza 1.[4] Per un test \alpha di livello unilaterale di potenza 1-\beta, la dimensione del campione richiesta è  n = \frac {4 \, (z_\alpha + z_\beta)^2 } {d\log^2{\lambda}} dove z_\alpha e z_\beta sono i quantili della distribuzione normale standard.

Distribuzione congiunta[modifica | modifica sorgente]

Si supponga che  Z_1 e  Z_2 siano le statistiche dei ranghi logaritmici in due diversi punti temporali nello stesso studio ( Z_1 anteriore). Ancora, si assuma che le funzioni di rischio nei due gruppi siano proporzionali al rapporto di rischio \lambda e che  d_1 e  d_2 siano le probabilità che un soggetto abbia un evento nei due punti temporali in cui  d_1  \leq d_2 .  Z_1 e  Z_2 sono approssimativamente normali bivariate con medie  \log{\lambda} \, \sqrt {\frac {n \, d_1} {4}} e  \log{\lambda} \, \sqrt {\frac {n \, d_2} {4}} e correlazione \sqrt {\frac {d_1} {d_2}} . I calcoli che implicano la distribuzione congiunta sono necessari per mantenere correttamente il tasso di errore quando i dati sono esaminati molteplici volte all'interno di uno studio condotto da un comitato per il monitoraggio dei dati.

Relazione con altre statistiche[modifica | modifica sorgente]

  • Si è dimostrato che il test dei ranghi logaritmici è un test troppo permissivo, consentendo risultati significativi per modelli di previsione di sopravvivenza che hanno scarsa accuratezza. Il test F* fu sviluppato in risposta a queste osservazioni e si è dimostrato che è più critico e che traccia l'accurarezza dei modelli di previsione com maggiore fedeltà.[5]
  • Se  Z è la statistica dei ranghi logaritmici,  D è il numero di eventi osservati e \hat {\lambda} è la stima del rapporto di rischio, allora  \log{\hat {\lambda}} \approx Z \, \sqrt{4/D} . Questa relazione è utile quando due delle quantità sono note (ad es. da un articolo pubblicato), ma è necessaria la terza.
  • La statistica dei ranghi logaritmici può essere usata quando le osservazioni sono censurate. Se le osservazioni censurate non sono presenti nei dati, allora è appropriato il test di Wilcoxon-Mann-Whitney.
  • La statistica dei ranghi logaritmici dà a tutti i calcoli lo stesso peso, indipendentemente dal momento nel quale un evento accade. La statistica dei ranghi logaritmici di Peto dà maggior peso statistico agli eventi anteriori quando vi è un grande numero di osservazioni.

Note[modifica | modifica sorgente]

  1. ^ Mantel, Nathan, Evaluation of survival data and two new rank order statistics arising in its consideration. in Cancer Chemotherapy Reports, vol. 50, nº 3, 1966, pp. 163–70, PMID 5910392.
  2. ^ Peto, Richard, Peto, Julian, Asymptotically Efficient Rank Invariant Test Procedures in Journal of the Royal Statistical Society, Series A, vol. 135, nº 2, Blackwell Publishing, 1972, pp. 185–207, DOI:10.2307/2344317, JSTOR 2344317.
  3. ^ David Harrington, Linear Rank Tests in Survival Analysis in Encyclopedia of Biostatistics, Wiley Interscience, 2005, DOI:10.1002/0470011815.b2a11047.
  4. ^ D. Schoenfeld, The asymptotic properties of nonparametric tests for comparing survival distributions in Biometrika, vol. 68, 1981, pp. 316–319, JSTOR 2335833.
  5. ^ Berty HP, Shi H, Lyons-Weiler J. (2010). Determining the statistical significance of survivorship prediction models. J Eval Clin Pract. 16(1): 155-65.

Voci correlate[modifica | modifica sorgente]

Collegamenti esterni[modifica | modifica sorgente]