Stimatore di Kaplan-Meier

Da Wikipedia, l'enciclopedia libera.

Lo stimatore di Kaplan-Meier,[1][2] noto anche come stimatore del prodotto limite, è uno stimatore che si usa per stimare la funzione di sopravvivenza di dati relativi alla durata di vita. Nella ricerca medica, si usa spesso per misurare la frazione di pazienti che vivono per una certa quantità di tempo dopo il trattamento. In economia, si può usare per misurare la lunghezza del tempo in cui le persone rimangono disoccupate dopo la perdita di un lavoro. In ingegneria, si può utilizzare per misurare il tempo prima del guasto dei componenti di una macchina. In ecologia, si può impiegare per stimare quanto a lungo i frutti carnosi rimangono sulle piante prima di essere rimossi dai frugivori. Lo stimatore prende il nome da Edward L. Kaplan e Paul Meier.

Un diagramma della stima di Kaplan-Meier della funzione di sopravvivenza è una serie di gradini orizzontali di ampiezza decrescente che, quando si prende un campione abbastanza grande, approssima la vera funzione di sopravvivenza per quella popolazione. Si assume che il valore della funzione di sopravvivenza tra successive e distinte osservazioni campionate ("scatti") sia costante.

Un esempio di diagramma di Kaplan-Meier per due condizioni associate alla sopravvivenza dei pazienti

Un importante vantaggio della curva di Kaplan–Meier è che il metodo può tenere conto di alcuni tipi di dati censurati, particolarmente della censura a destra, che si verifica se un paziente si ritira da uno studio, cioè se si perde dal campione prima che si osservi l'esito finale. Sul diagramma, piccoli segni di spunta verticali indicano le perdite, dove il tempo di sopravvivenza di un paziente è stato censurato a destra. Quando non si verifica alcun troncamento o censura, la curva di Kaplan-Meier è il complemento della funzione di distribuzione empirica.

In statistica medica, una tipica applicazione potrebbe implicare il raggruppamento di pazienti in categorie, per esempio, quelli con il profilo del Gene A e quelli con il profilo del Gene B. Nel grafico, i pazienti con il Gene B muoiono molto più rapidamente di quelli con il Gene A. Dopo due anni, sopravvivono circa l'80% dei pazienti con il Gene A, ma meno della metà dei pazienti con il Gene B.

Formulazione[modifica | modifica wikitesto]

Sia S(t) la probabilità che un membro di una data popolazione abbia una durata di vita superiore a t. Per un campione di questa popolazione di dimensione N, siano i tempi osservati fino alla morte degli N membri del campione

t_1 \le t_2 \le t_3  \le  \cdots \le t_N.

Corrispondente a ogni ti è ni, il numero "a rischio" appena prima del tempo ti, e di, il numero di morti al tempo ti.

Si noti che gli intervalli tra gli eventi sono tipicamente non uniformi. Ad esempio, un piccolo insieme di dati potrebbe cominciare con 10 cases. Si supponga che il soggetto 1 muoia il giorno 3, i soggetti 2 e 3 muoiano il giorno 11 e il soggetto 4 venga perso nel controllo successivo (censurato) il giorno 9. I dati fino al giorno 11 sarebbero i seguenti.

i 1 2
 t_i 3 11
 d_i 1 2
 n_i 10 8

Lo stimatore di Kaplan–Meier è la stima non parametrica della massima verosimiglianza di S(t). È un prodotto con la forma

\hat S(t) = \prod\limits_{t_i<t} \frac{n_i-d_i}{n_i}.

Quando non vi è censura, ni è solo il numero di sopravvissuti appena prima del tempo ti. Con la censura, ni è il numero di sopravvissuti meno il numero di perdite (casi censurati). Sono solo questi casi sopravvissuti che sono ancora sotto osservazione (non sono stati ancora censurati) che sono "a rischio" di morte (osservata).[3]

C'è una definizione altenativa che si usa a volte, vale a dire

\hat S(t) = \prod\limits_{t_i \le t} \frac{n_i-d_i}{n_i}.

Le due definizioni differiscono solo per i tempi degli eventi osservati. La seconda definizione è continua a destra mentre la prima definizione è continua a sinistra.

Sia T la variabile casuale che misura il tempo del guasto e sia F(t) la sua funzione di distribuzione cumulativa. Si noti che

 S(t) = P[T>t] = 1-P[T \le t] = 1-F(t). \,

Conseguentemente, la definizione continua a destra di \scriptstyle\hat S(t) può essere preferita al fine di rendere la stima compatibile con una stima continua a destra di F(t).

Considerazioni statistiche[modifica | modifica wikitesto]

Lo stimatore di Kaplan–Meier è un indicatore statistico, e vari stimatori sono utilizzati per approssimare la sua varianza. Uno dei più comuni di tali stimatori è la formula di Greenwood:[4]

 \widehat\mathrm{Var}( \widehat S(t) ) = \widehat S(t)^2  \sum\limits_{t_i<t} {\frac{{d_i}}{{n_i}({n_i-d_i})}}.

In alcuni casi, si potrebbe desiderare di confrontare diverse curve di Kaplan–Meier. Questo si può fare mediante vari metodi, tra i quali:

Note[modifica | modifica wikitesto]

  1. ^ Kaplan, E. L.; Meier, P.: Nonparametric estimation from incomplete observations. J. Amer. Statist. Assn. 53:457–481, 1958. JSTOR 2281868
  2. ^ Kaplan, E.L. in a retrospective on the seminal paper in "This week's citation classic". Current Contents 24, 14 (1983). Available from UPenn as PDF.
  3. ^ John P. Costella, 2010, A simple alternative to Kaplan–Meier for survival curves.
  4. ^ Greenwood M., The natural duration of cancer. Reports on Public Health and Medical Subjects, Londra, Her Majesty's Stationery Office, 1926;33:1–26.

Voci correlate[modifica | modifica wikitesto]

Collegamenti esterni[modifica | modifica wikitesto]

Matematica Portale Matematica: accedi alle voci di Wikipedia che trattano di Matematica