Correlogramma

Da Wikipedia, l'enciclopedia libera.

Un correlogramma, o autocorrelogramma, è un grafico che rappresenta la autocorrelazione di una serie storica in funzione del ritardo con cui la autocorrelazione è calcolata.

Calcolo dei valori[modifica | modifica sorgente]

Una serie storica è un insieme di valori che un dato fenomeno assume in successivi istanti o periodi di tempo (la quotazione di un titolo alla chiusura di successive giornate di borsa, il PIL prodotto in trimestri o anni successivi ecc.).

Indicando con Y il fenomeno e con t un indice variabile da 1 a T (rispettivamente, primo e ultimo istante o periodo), una serie storica si indica con una notazione come la seguente:

\{Y_t: t=1,\dots,T\} = Y_1,Y_2,\dots, Y_T

Rispetto ad essa, si dice ritardata la serie in una nuova variabile, ad esempio Z, tale che:

Z_t=Y_{t-k}

dove k è l'entità del ritardo. Ad esempio, ponendo k = 3, se Ya è il PIL italiano del 2007, Za è il PIL italiano del 2004.

Per costruire un correlogramma, si esaminano le correlazioni tra la serie storica e più serie ritardate di k periodi; ad esempio, data la serie

Y_1,Y_2,Y_3,\dots,Y_{T-2},Y_{T-1},Y_T

si costruisce idealmente una tabella come la seguente, in cui K indica il valore massimo di k:


Y_t Y_{t-1} Y_{t-2} Y_{t-3} \dots Y_{t-K}
Y_1          
Y_2 Y_1        
Y_3 Y_2 Y_1      
Y_4 Y_3 Y_2 Y_1    
\vdots \vdots \vdots \vdots \vdots \vdots
Y_{T-2} Y_{T-3} Y_{T-4} Y_{T-5} \vdots Y_{T-K-2}
Y_{T-1} Y_{T-2} Y_{T-3} Y_{T-4} \vdots Y_{T-K-1}
Y_T Y_{T-1} Y_{T-2} Y_{T-3} \vdots Y_{T-K}


e si esaminano le K correlazioni tra la colonna Yt e ciascuna delle K colonne Yt-k.

Si vede che se k = 1 il primo valore della serie originaria non può essere confrontato con un corrispondente valore della serie ritardata (questa non può contenere un valore Y1-1=Y0), se k = 2 ciò accade per i primi due valori (non esistono i valori Y1-2=Y-1, Y2-2=Y0). Normalmente, quindi:

  • si parte sempre dalla (K+1)-esima riga anche quando la serie originaria viene confrontata con serie di ritardo minore del massimo, in modo da confrontare sempre serie di uguale lunghezza; ad esempio, se K = 20 le serie ritardate presentano da 1 a 20 valori in meno rispetto alla serie originaria, ma si parte dalla ventunesima riga per tutte, anche per quelle che presentano valori nelle righe precedenti, in modo da confrontare sempre T–20 coppie di valori;
  • K, il valore massimo di k, non è maggiore di T/4, al fine di non ridurre troppo il numero di confronti.

Il calcolo avviene facendo variare k da 1 a K e rilevando la correlazione r tra la colonna Yt e la colonna della variabile ritardata Yt-k:

r_k=\frac{\sum_{t=K+1}^T(Y_t-\bar{Y})(Y_{t-k}-\bar{Y})}{\sum_{t=K+1}^T(Y_t-\bar{Y})^2}, dove \bar{Y} è la media della colonna Y_t.

Si ottiene così un valore di rk per ciascun valore di k.

Costruzione e interpretazione del grafico[modifica | modifica sorgente]

Exquisite-kfind.png Per approfondire, vedi Analisi delle serie storiche.

Le coppie di valori (k, rk) sono presentate in un grafico cartesiano, con i ritardi sull'asse delle ascisse e le corrispondenti correlazioni sull'asse delle ordinate:

Esempi di (auto)correlogramma

Tali grafici possono presentare gli andamenti più disparati, ma vengono normalmente confrontati con quelli illustrati nella figura. Si hanno infatti le seguenti tre situazioni tipiche:

  • il valore di rk è sempre positivo e decresce lentamente all'aumentare di k (a sinistra nella figura); ciò vuol dire che i valori della serie storica sono fortemente correlati a quelli della serie ritardata di un periodo, poi un po' meno per quella ritardata di due periodi e così via, ovvero che il presente è influenzato dal passato recente, questo dal passato più remoto e, in generale, che la serie presenta una tendenza di fondo (ad esempio, tende a crescere linearmente o esponenzialmente nel tempo; nel gergo dell'analisi delle serie storiche, si dice che prevale la componente tendenziale, o trend);
  • il valore di rk varia, ma è positivo e massimo in corrispondenza di valori di k tali da configurare una periodicità annuale, ad esempio per k uguale a 4 o suoi multipli nel caso di dati trimestrali, mentre è minore o negativo per altri valori di k (al centro nella figura); ciò vuol dire che i valori di un dato istante o periodo dell'anno sono fortemente correlati con quelli degli stessi istanti o periodi degli anni precedenti, quindi che il fenomeno varia nel corso di ciascun anno e in modo simile da un anno all'altro (si dice che prevale la componente stagionale);
  • i valori di rk variano, ma per k > 0 oscillano sempre entro una banda ristretta (a destra nella figura);[1] ciò vuol dire che la serie non è significativamente correlata con le serie ritardate, ovvero che il passato non "spiega" il presente e che le variazioni da un istante o periodo ad un altro sono sostanzialmente casuali (si dice che prevale la componente accidentale o parte stocastica).

Il correlogramma è quindi utile per individuare subito un'eventuale componente dominante prima di procedere alla vera e propria analisi della serie, ma anche per verificare i risultati di questa. Ad esempio, l'analisi può condurre alla elaborazione di un modello del tipo:

y_t=\alpha_0+\alpha_1t+\alpha_2t^2

ed alla stima dei suoi parametri; indicando con \hat{\alpha}_i le stime dei parametri, si possono calcolare valori stimati del fenomeno:

\hat{y}_t=\hat{\alpha}_0+\hat{\alpha}_1t+\hat{\alpha}_2t^2

nonché le differenze tra i valori osservati ed i valori stimati, dette residui:

e_t=Y_t-\hat{y}_t

Il correlogramma di tali differenze dovrebbe mostrare un andamento analogo a quello del grafico a destra nella figura, cioè le differenze dovrebbero apparire casuali; in caso contrario, si dovrebbe ritenere che il modello non è pienamente adeguato alla descrizione e interpretazione del fenomeno (ad esempio, potrebbe non riuscire a cogliere una componente tendenziale o stagionale).

Esempio[modifica | modifica sorgente]

Si immagini di disporre di una serie di 100 osservazioni trimestrali. Potrebbero essere i dati relativi ai consumi delle famiglie per beni alimentari, o simili, e presentare un andamento come quello illustrato nel primo grafico a sinistra della figura seguente:[2]

Esempio di utilizzo dei correlogrammi

Dal momento che la serie presenta un chiaro andamento crescente, si potrebbe pensare ad un modello di crescita lineare del tipo:

y_t=21500+42.2t+a_t

con a_t come componente residuale puramente casuale. Tuttavia, il correlogramma della serie (secondo grafico da sinistra) dovrebbe indicare che, accanto al trend di crescita lineare, esiste una componente stagionale (r non è sempre decrescente, ma aumenta per k multiplo di 4). Infatti, calcolando i residui e_t tra i valori osservati e quelli stimati e producendo il relativo correlogramma si otterrebbe il terzo grafico da sinistra, che indica chiaramente la presenza di una componente stagionale.

Si potrebbe quindi introdurre la stagionalità cambiando il modello come segue:

y_t=21500+42.2t-328D1_t-392D2_t-362D3_t+1082D4_t+a_t

dove D1t vale 1 se t corrisponde ad un primo trimestre e 0 in caso contrario, D2t vale 1 se t corrisponde ad un secondo trimestre e 0 altrimenti e così via (in sostanza, il modello dice che il fenomeno aumenta in media di 42.2 ogni trimestre, ma diminuisce ogni anno di 328, 392 e 362, rispettivamente, nel primo, secondo e terzo trimestre, mentre aumenta di 1082 nel quarto trimestre). Calcolando il nuovo correlogramma dei residui si otterrebbe il quarto grafico; questo indica che le differenza tra i valori osservati e quelli stimati sono ora sostanzialmente casuali e che, quindi, il secondo modello interpreta in modo soddisfacente l'andamento del fenomeno.

Bibliografia[modifica | modifica sorgente]

  • Tommaso Di Fonzo e Francesco Lisi, Serie storiche economiche, Roma, Carocci, 2005. ISBN 9788843034239.
  • Gary Koop, Logica statistica dei dati economici, Torino, UTET, 2001. ISBN 8877507357.

Note[modifica | modifica sorgente]

  1. ^ I grafici della figura sono stati prodotti con la funzione acf() del pacchetto statistico R, che include anche il valore di r per k = 0; in tal caso la serie è correlata con se stessa e si ha ovviamente r = 1.
  2. ^ I dati sono stati creati in R come segue:
    t = 1:100
    y = 21500+42.2*t
    s = rep(c(-328,-392,-362,1082),25)
    a = rnorm(100)*100
    Y = y+s+a
matematica Portale Matematica: accedi alle voci di Wikipedia che trattano di matematica