Analisi della correlazione canonica: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto

In linea

Versione delle 13:31, 16 mar 2022

In statistica, l'analisi della correlazione canonica (CCA nell'acronimo inglese) è un modo per inferire informazioni da matrici di covarianza incrociata incrociata. Dati due vettori X = (X₁, ..., X_n) e Y = (Y₁, ..., Y_m) di variabili aleatorie, con correlazioni fra le variabili, la CCA mira a trovare combinazioni lineari di X e Y che presentino fra loro la massima correlazione^[1]. Il metodo è stato proposto per primo da Harold Hotelling nel 1936, sebbene l'idea fosse presente già nel 1875 in una pubblicazione^[2] del matematico Camille Jordan.

Definizione

Dati due vettori colonna $X=(x_{1},\dots ,x_{n})'$ e $Y=(y_{1},\dots ,y_{m})'$ di variabili aleatorie, si definisce la covarianza incrociata $\Sigma _{XY}=\operatorname {cov} (X,Y)$ come matrice $n\times m$ il cui elemento $(i,j)$ è la covarianza $\operatorname {cov} (x_{i},y_{j})$ . nella pratica, si stima la matrice di covarianza in base a dati campionati da $X$ e $Y$ (ossia da una coppia di matrici di dati).

La CCA cerca i vettori $a$ ( $a\in \mathbb {R} ^{n}$ ) e $b$ ( $b\in \mathbb {R} ^{m}$ ) tali che le variabili aleatorie $a^{T}X$ e $b^{T}Y$ massimizzino la correlazione $\rho =\operatorname {corr} (a^{T}X,b^{T}Y)$ . Le variabili aleatorie $U=a^{T}X$ e $V=b^{T}Y$ costituiscono la prima coppia di variabili canoniche. Poi si cercano i vettori che massimizzano la stessa correlazione con il vincolo aggiuntivo di non essere correlati con la prima coppia di variabili canoniche; si definisce così la seconda coppia di variabili canoniche. Questa procedura può essere ripetuta fino a $\min\{m,n\}$ volte.