Distanza di Mahalanobis

Da Wikipedia, l'enciclopedia libera.

In statistica, la distanza di Mahalanobis è una misura di distanza introdotta da P. C. Mahalanobis nel 1936.[1] Essa è basata sulle correlazioni tra variabili attraverso le quali differenti pattern possono essere identificati ed analizzati. Si tratta di un'utile maniera per determinare la similarità di uno spazio campionario incognito rispetto ad uno noto. Differisce dalla distanza euclidea in quanto tiene conto delle correlazioni all'interno dell'insieme dei dati.

Definizione[modifica | modifica sorgente]

Formalmente la distanza di Mahalanobis di un vettore multivariato x = ( x_1, x_2, x_3, \dots, x_N )^T rispetto ad un gruppo di valori di valor medio \mu = ( \mu_1, \mu_2, \mu_3, \dots , \mu_N )^T e matrice di covarianza S è definita come:

D_M(x) = \sqrt{(x - \mu)^T S^{-1} (x-\mu)}.\, [2]

La distanza di Mahalanobis (o generalized squared interpoint distance [3]) può anche esser definita come una misura di dissimilarità tra due vettori aleatori  \vec{x} e  \vec{y} con stessa funzione di densità di probabilità e con matrice di covarianza S :

 d(\vec{x},\vec{y})=\sqrt{(\vec{x}-\vec{y})^T S^{-1} (\vec{x}-\vec{y})}.

Casi particolari[modifica | modifica sorgente]

  • Se la matrice di covarianza è la matrice identità, la distanza di Mahalanobis si riduce alla distanza euclidea.
  • Se la matrice di covarianza è diagonale, la risultante misura di distanza è chiamata distanza euclidea normalizzata
 d(\vec{x},\vec{y})=
\sqrt{\sum_{i=1}^N  {(x_i - y_i)^2 \over \sigma_i^2}},

in cui \sigma_i è la deviazione standard di  x_i all'interno dell'insieme dei dati.

Spiegazione intuitiva[modifica | modifica sorgente]

Si consideri il problema della stima della probabilità che un punto in esame nello spazio euclideo N-dimensionale appartenga ad un insieme, di cui sono dati alcuni campioni che sicuramente appartengono a tale insieme. Intuitivamente, più tale punto è vicino al centro delle masse, più è verosimile che appartenga a tale insieme.

Inoltre, bisogna anche sapere se l'insieme è distribuito su una piccola o grande distanza, per poter decidere se una determinata distanza dal centro è più o meno consistente. L'approccio più semplice è quello di stimare la deviazione standard dei campioni dal centro di massa. Se la distanza tra il punto in esame e il centro di massa è minore di una deviazione standard, si può concludere che è altamente probabile che il punto in esame appartenga all'insieme. Maggiore è tale distanza, minore è la verosimiglianza che tale punto non debba esser classificato come appartenente all'insieme.

Tale approccio intuitivo può esser reso quantitativo definendo la distanza normalizzata tra il punto in esame e l'insieme come:

 {x - \mu} \over \sigma .

L'assunzione di tale approccio è che i punti campioni siano distribuiti all'interno di un'ipersfera intorno al centro di massa. Nel caso la distribuzione non sia sferica (ad esempio iperellissoidale), sarebbe naturale aspettarsi che la probabilità del punto in esame di appartenere all'insieme dipenda non solamente dalla distanza dal centro di massa, ma anche dalla direzione. Sulle direzioni in cui l'iperellissoide ha un asse più corto, il punto in esame deve esser più vicino per esser considerato appartenente all'insieme, mentre sulle direzioni in cui l'asse è più lungo, il punto in esame può trovarsi anche a distanze maggiori. Sviluppando tutto ciò in termini matematici, l'iper-ellissoide che meglio rappresenta l'insieme di probabilità può essere stimato tramite la matrice di covarianza dei campioni. La distanza di Mahalanobis, dunque, è semplicemente la distanza del punto in esame dal centro delle masse normalizzata rispetto all'ampiezza dell'ellissoide nella direzione del punto in esame.

Applicazioni[modifica | modifica sorgente]

  • La distanza di Mahalanobis è stata richiesta dal problema di identificazione dei teschi basata sulle misure nel 1927.[4]
  • Inoltre la distanza di Mahalanobis è utilizzata per rivelare outlier, specialmente nello sviluppo di modelli di regressione lineare. Un punto che ha un'elevata distanza di Mahalanobis dal resto di campioni ha grande influenza sulla pendenza o sui coefficienti dell'equazione di regressione.

Voci correlate[modifica | modifica sorgente]

Note[modifica | modifica sorgente]

  1. ^ P C Mahalanobis, On the generalised distance in statistics in Proceedings of the National Institute of Sciences of India, vol. 2, nº 1, 1936, pp. 49–55. URL consultato il 5 novembre 2008.
  2. ^ De Maesschalck, R.; D. Jouan-Rimbaud, D.L. Massart (2000) The Mahalanobis distance. Chemometrics and Intelligent Laboratory Systems 50:1–18
  3. ^ Gnanadesikan, R., and J.R. Kettenring (1972). Robust estimates, residuals, and outlier detection with multiresponse data. Biometrics 28:81-124.
  4. ^ Mahalanobis, P. C. (1927). Analysis of race mixture in Bengal. J. Proc. Asiatic Soc. of Bengal. 23:301-333.
  5. ^ McLachlan, Geoffry J (1992) Discriminant Analysis and Statistical Pattern Recognition. Wiley Interscience. ISBN 0-471-69115-1 p. 12