Analisi di sopravvivenza

Da Wikipedia, l'enciclopedia libera.

L'analisi di sopravvivenza è un'applicazione della statistica usata per studiare la mortalità negli organismi biologici e i guasti nei sistemi meccanici. Questo argomento è chiamato in ingegneria "teoria dell'affidabilità" o "analisi di affidabilità", mentre in economia o in sociologia è chiamato "analisi di durata" o "modello di durata".

Più genericamente, l'analisi di sopravvivenza comporta la modellizzazione del tempo con eventi-data; in questo contesto, la morte o il guasto sono considerati un "evento" nella letteratura dell'analisi di sopravvivenza. Un altro esempio di tempo nel modello degli eventi potrebbe essere il tasso o il tempo necessario a ex-carcerati per commettere di nuovo un crimine dopo che sono stati rilasciati. In questo caso, l'evento che ci interessa potrebbe essere il tempo necessario a commettere un crimine. Molti concetti nella analisi di sopravvivenza sono stati spiegati dalla teoria del processo di conteggio che è emersa più recentemente. La flessibilità di un processo di conteggio è che permette di modellizzare eventi multipli (o ricorrenti). Questo tipo di modello si adatta molto bene in diverse situazioni (ad esempio, le persone possono essere incarcerate più volte, gli alcolizzati possono smettere di bere più volte, le persone possono sposarsi ed ottenere il divorzio più volte).

L'analisi di sopravvivenza prova a rispondere a domande come: quale è la parte di una popolazione che sopravviverà dopo un certo tempo? Tra quelli che sopravvivono, quale sarà l'andamento delle morti e delle malattie? Possono essere prese in considerazione più cause di morte o malattia? In che modo particolari circostanze o caratteristiche potrebbero aumentare o diminuire le probabilità di sopravvivenza?

Per rispondere a queste domande, è necessario definire un tempo di vita. Nel caso di vita biologica la morte non è ambigua, ma per l'affidabilità meccanica, il fallimento o il guasto può non essere ben definito, esistendo sistemi meccanici in cui il fallimento può essere parziale, controverso, o non facilmente collocabile nel tempo. Anche nei processi biologici, alcuni eventi (ad esempio l'infarto del miocardio o altri disturbi organici) possono avere la stessa ambiguità. La teoria succitata presuppone eventi ben definiti in tempi specifici; altri casi possono essere trattati meglio da modelli che tengono conto esplicitamente di eventi ambigui.

La teoria della sopravvivenza qui presentata ipotizza anche che la morte o il guasto avvengano solo una volta per ogni soggetto. Lo studio di eventi ricorrenti è rilevante nella progettazione di sistemi affidabili, e in molte aree di scienze sociali e ricerche mediche.

Formulazione generale[modifica | modifica wikitesto]

Funzione di sopravvivenza[modifica | modifica wikitesto]

L'oggetto di interesse primario nella funzione di sopravvivenza è indicato convenzionalmente con S, viene definito come

S(t) = \Pr(T > t)

dove t o in qualche caso indicata con T è una variabile casuale che indica il tempo di morte e Pr sta per probabilità.Ne segue che: la funzione di sopravvivenza è la probabilità che il tempo di morte sia posteriore ad un determinato momento. La funzione di sopravvivenza è anche chiamata la funzione del sopravvissuto o funzione della barca dei sopravvissuti in problemi di sopravvivenza biologica, e funzione di realizzazione in problemi di sopravvivenza meccanica. Nell'ultimo caso, la funzione di realizzazione è indicata con r(t).

Di solito si pone s(0) = 1, comunque potrebbe essere minore di 1 se c'è la possibilità di morte o guasto immediato.

La funzione di sopravvivenza deve essere non crescente:S(u) <= S(t) if u > t. Questa proprietà discende direttamente dal fatto che S(t) è l'integrale di una funzione non negativa. Questo riflette la nozione che la sopravvivenza al momento finale è possibile solo se si sopravvive a tutti i momenti precedenti. Data questa proprietà, la funzione di distribuzione del tempo di vita e della densità degli eventi (in seguito indicati rispettivamente co F e f) sono ben definite.

Di solito si impone che la funzione di sopravvivenza tenda a zero al crescere illimitatamente del tempo, cioè

S(t) → 0 per t → ∞

altrimenti il limite potrebbe essere maggiore di zero se la vita eterna fosse possibile.

La funzione di distribuzione della durata della vita e la densità degli eventi[modifica | modifica wikitesto]

Le quantità in relazione sono definite in termini della funzione di sopravvivenza. La funzione di distribuzione della durata della vita, indicata convenzionalmente con F, è definita come il complemento della funzione di sopravvivenza.

F(t) = \Pr(T \le t) = 1 - S(t)

e la derivata di F (cioè, la funzione di densità della distribuzione del tempo di vita) è convenzionalmente denota da f

f(t) = \frac{d}{dt} F(t)

f è a volte chiamata densità dell'evento;

è la quantità di morti o guasti nell'unità di tempo.

Funzione di rischio e funzione di rischio cumulativo[modifica | modifica wikitesto]

La funzione di rischio, denotata convenzionalmente con \lambda, è definita come il tasso di eventi al tempo t condizionale di sopravvivenza fino al tempo t o oltre,

\lambda(t)\,dt = \Pr(t \leq T < t+dt\,|\,T > t) = \frac{f(t)\,dt}{S(t)} = -\frac{S'(t)\,dt}{S(t)}

Forza di mortalità è un sinonimo di funzione di rischio che è usato in modo particolare in demografia e scienza attuariale. il termine parte di rischio è un altro sinonimo.

la funzione di rischio deve essere non negativa, λ(t) ≥ 0, e il suo integrale tra [0, \infty) deve essere infinito, o altrimenti non limitato; la funzione di rischio può essere crescente o decrescente, non monotona,o discontinua. Un esempio è la funzione di rischio curva del tubo del lavabo, che è più larga per valori più piccoli dit, decresce ad un certo minimo e dopo cresce di nuovo; questo può descrivere la proprietà di alcuni sistemi meccanici, come anche il fallimento subito dopo una operazione, o più tardi, quando il sistema invecchia.

La funzione di rischio può in alternativa essere rappresentata nei termini della funzione cumulativa di rischio convenzionalmente indicata con \Lambda:

\Lambda(t) = -\log S(t)

così

\frac{d}{dt} \Lambda(t) = -\frac{S'(t)}{S(t)} = \lambda(t)

\Lambda è chiamata funzione cumulativa di rischio perché le precedenti definizioni insieme implicano

 \Lambda(t) = \int_0^{t} \lambda(u) \, du ,

che è laccumulazione di rischio nel tempo.

poiché \Lambda(t) = -\log S(t) si osserva che \Lambda(t) cresce illimitatamente, t tende ad infinito (ponendo S(t) tendente a zero). questo implica che \lambda(t) non decresce troppo velocemente, in quanto il rischio cumulativo diverge. Per esempio \exp(-t) non è la funzione di rischio di qualche distribuzione di sopravvivenza, perché il suo integrale converge (a 1).

Quantità derivate dalla distribuzione di sopravvivenza[modifica | modifica wikitesto]

La durata di vita futura ad un tempo t0 è indicata dal tempo che rimane prima della morte, la durata di vita futura è T-t_0 nell'attuale notazione. La durata di vita futura attesa è il valore atteso della durata di tempo futuro. La probabilità di morte prima o al tempot + t_0, una data sopravvivenza fino a t_0, è giusto

P(T \le t_0 + t | T > t_0) = \frac{P(t_0 < T \le t_0 + t)}{P(T > t_0)} = \frac{F(t_0 + t) - F(t_0)}{S(t_0)}

Di conseguenza la densità di probabilità di una durata di vita è

\frac{d}{dt}\frac{F(t_0 + t) - F(t_0)}{S(t_0)} = \frac{f(t_0 + t)}{S(t_0)}

e l'attesa durata della vita futura è

\frac{1}{S(t_0)} \int_0^{\infty} t\,f(t+t_0)\,dt

per t_0 = 0, cioè, alla nascita, questo si riduce alla durata di vita attesa.

Nei problemi di realizzazione, la durata attesa della vita è chiamata tempo atteso per il fallimento e il tempo della durata della vita futura si chiama tempo atteso residuo.

La probabilità di sopravvivenza individuale fino a t od oltre è S(t), per definizione. Il numero atteso di sopravvissuti, in una popolazione di n individui è n × S(t),assumendo la stessa funzione di sopravvivenza per tutti. Così, l'attesa proporzione di sopravvissuti è S(t), e la varianza della proporzione di sopravvissuti è S(t) × (1-S(t))/n.

l'età in cui rimane una specifica proporzione q di sopravvissuti può essere determinata risolvendo l'equazione S(t) = q rispetto a t dove q è la proporzione in questione. di solito si è interessati al tempo di vita medio, per il quale q =1/2, o ad altre proporzioni come q=0,90 o q = 0,99.

Si possono ricavare anche inferenze più complesse dalla distribuzione di sopravvivenza. Nei problemi di realizzazione meccanica, si possono tenere in considerazione i costi (o, più in generale, l'utilità) e risolvere problemi riguardanti riparazioni e sostituzioni. Si vedano il problema del tempo del rimpiazzo e la durabilità e la teoria del rinnovamento e la teoria di realizzazione di durata e longevità per ulteriori discussioni su questo argomento.

Alcune distribuzioni di sopravvivenza[modifica | modifica wikitesto]

I modelli di sopravvivenza parametrici, sono costruiti scegliendo una specifica distribuzione di probabilità per la funzione di sopravvivenza. È giusto parlare di adattamento e di analisi di modelli in termini generali, usando il concetto evidenziato in seguito di [[Adattamento dei parametri ai dati]]. Così è relativamente facile sostituire una distribuzione con un'altra, al fine di studiare le conseguenze di scelte differenti.

La scelta della distribuzione di sopravvivenza esprime alcune particolari informazioni sulla relazione del tempo su qualsiasi variabile esogena riguardo alla sopravvivenza. È naturale scegliere una distribuzione statistica che non ha supporti negativi in quanto i tempi di sopravvivenza non sono negativi. ci sono diverse distribuzioni comunemente usate nell'analisi di sopravvivenza, che sono indicate nella seguente tabella. Ulteriori distribuzioni possono essere trovati nei riferimenti.

Distribuzione Funzione di sopravvivenza S(t)
Distribuzione esponenziale(caso speciale di Weibull) e^{-\lambda t}
Distribuzione di Weibull e^{-\lambda t^ \gamma}
Distribuzione di Gompertz e^{\lambda / \theta (1 - e^{\theta t})}
Distribuzione Log-normale  1-\Phi\left(\frac{\ln(t)-\mu}{\sigma} \right)
Distribuzione Log-logistica [1+(t/\alpha)^{\beta}]^{-1}

Dove \Phi è la funzione di distribuzione cumulativa della distribuzione normale.

Censura[modifica | modifica wikitesto]

la censura è una forma di problema di dati mancanti che è diffusa nell'analisi di sopravvivenza. Idealmente sia la data di nascita che quella di morte di un soggetto sono note, in tal caso ci è nota la durata della sua vita. Se sappiamo solo che la data di morte è dopo una tale data, questo è detto censura destra. La censura destra si ha per quei soggetti per cui è nota la data di nascita ma che sono ancora vivi quando vengono persi di vista o quando lo studio finisce. Se si sa che la durata di vita di un soggetto è minore di una certa durata, la durata della vita si dice essere censurata a sinistra. Può anche accadere che soggetti con durata della vita inferiore a qualche soglia non possano essere del tutto osservati: questo si chiama troncamento. Si noti che il troncamento è differente dalla censura a sinistra, perché per un dato censurato a destra, sappiamo che il soggetto esiste, ma per un dato troncato, noi potremmo essere completamente ignari del soggetto.il troncamento è anche comune. In uno studio definito definito a inserimento ritardato, i soggetti non sono osservati completamente fino a quando non raggiungono una certa età. per esempio la gente non viene osservata fino a quando non raggiunge l'età scolastica. Qualsiasi soggetto deceduto in età prescolare potrebbe rimanere sconosciuto.

Adattamento dei parametri ai dati[modifica | modifica wikitesto]

Modelli di sopravvivenza possono essere facilmente visti come modelli di regressione ordinaria in cui la variabile di risposta è il tempo. Comunque calcolando la funzione di verosomiglianza (necessaria per adattare i parametri o fare altri generi di inferenza) è complicata dalla censura. La funzione di verosimiglianza per un modello di sopravvivenza, in presenza di dati censurati, è formulata come segue. Per definizione la funzione verosimiglianza è la probabilità congiunta dei dati forniti dai parametri del modello. È tradizione assumere che i dati sono indipendentemente forniti dai parametri. Allora la funzione di verosimiglianza è il prodotto della verosomiglianza di ciascun dato. Conviene suddividere i dati in quattro categorie: incensurati, censurati a sinistra, censurati a destra e censurati ad intervallo. Queste sono indicati rispettivamente co unc, l.c r.c, e i.c nella seguente equazione.

 L(\theta) = \prod_{T_i\in unc.} \Pr(T = T_i|\theta)
  \prod_{i\in l.c.} \Pr(T < T_i|\theta)
  \prod_{i\in r.c.} \Pr(T > T_i|\theta)
  \prod_{i\in i.c.} \Pr(T_{i,l} < T < T_{i,r}|\theta)

Per un dato incensurato con T_i uguale all'età della morte, abbiamo

 \Pr(T = T_i|\theta) = f(T_i|\theta)

Per un dato censurato a sinistra, come quando è noto che l'età della morte è minre di T_i, abbiamo

 \Pr(T < T_i|\theta) = F(T_i|\theta) = 1 - S(T_i|\theta)

Per un dato censurato a destra, come il caso in cui si sa che l'età di morte è posteriore a T_i, abbiamo

 \Pr(T > T_i|\theta) = S(T_i|\theta)

Per un dato censurato in un intervallo, come il caso che si sa che l'eta di morte e più grande di math>T_{i,r}</math> e inferiore di T_{i,l}, abbiamo

 \Pr(T_{i,l} < T < T_{i,r}|\theta) 
 = S(T_{i,l}|\theta) - S(T_{i,r}|\theta)

Voci correlate[modifica | modifica wikitesto]

Bibliografia[modifica | modifica wikitesto]