Distanza di Cook

Da Wikipedia, l'enciclopedia libera.
Vai alla navigazione Vai alla ricerca

La distanza di Cook, introdotta nel 1977 dallo statistico statunitense Ralph Dennis Cook,[1][2] è una funzione comunemente usata per stimare l'influenza di un singolo punto in un'analisi di regressione ai minimi quadrati.[3]

Punti con elevato residuo (outlier) o elevato leverage possono distorcere il risultato e l'accuratezza di un'analisi di regressione. La distanza di Cook misura l'effetto causato sull'analisi dalla rimozione di un certo dato, e nell'analisi con il metodo dei minimi quadrati ordinario può essere usata per indicare punti ad alta influenza, di cui sarebbe importante controllare la validità, o per individuare regioni dello spazio nelle quali sarebbe necessario acquisire più dati.

Definizione[modifica | modifica wikitesto]

Un modello di regressione può essere definito come

dove è il termine di errore, è la matrice dei coefficienti, il numero di variabili indipendenti, e è la matrice del modello. Lo stimatore dei minimi quadrati è , e di conseguenza la risposta predetta per la media di è

dove è la matrice di proiezione. L'-esimo elemento della diagonale di , dato da ,[4] è noto come leverage dell' -esima osservazione. Analogamente, l' -esimo elemento del vettore dei residui è indicato con .

La distanza di Cook dell'osservazione è definita come la somma dei cambiamenti nel modello di regressione quando l'osservazione è rimossa dall'analisi[5]

dove è la risposta ottenuta escludendo l'-esima osservazione, e è l'errore quadratico medio del modello di regressione.[6] Equivalentemente, la distanza di Cook può essere espressa come funzione del leverage[5]

Determinazione di osservazioni ad alta influenza[modifica | modifica wikitesto]

Vi sono diverse opinioni riguardo al valore di soglia da usare per stabilire quali osservazioni hanno influenza elevata sull'analisi. Una regola del pollice che richiede è usata da alcuni autori,[7] mentre altri autori suggeriscono , dove è il numero di osservazioni.[8]

Note[modifica | modifica wikitesto]

  1. ^ R. Dennis Cook, Detection of Influential Observations in Linear Regression, in Technometrics, vol. 19, n. 1, American Statistical Association, February 1977, pp. 15–18, DOI:10.2307/1268249, JSTOR 1268249, MR 0436478.
  2. ^ R. Dennis Cook, Influential Observations in Linear Regression, in Journal of the American Statistical Association, vol. 74, n. 365, American Statistical Association, March 1979, pp. 169–174, DOI:10.2307/2286747, JSTOR 2286747, MR 0529533.
  3. ^ William Mendenhall e Terry Sincich, A Second Course in Statistics: Regression Analysis, 5th, Upper Saddle River, NJ, Prentice-Hall, 1996, p. 422, ISBN 0-13-396821-9.
    «A measure of overall influence an outlying observation has on the estimated coefficients was proposed by R. D. Cook (1979). Cook's distance, Di, is calculated...»
  4. ^ Fumio Hayashi, Econometrics, Princeton University Press, 2000, pp. 21–23.
  5. ^ a b Cook's Distance, su se.mathworks.com.
  6. ^ Statistics 512: Applied Linear Models (PDF), in Purdue University. URL consultato il 4 giugno 2018 (archiviato dall'url originale il 30 novembre 2016).
  7. ^ R. Dennis Cook e Sanford Weisberg, Residuals and Influence in Regression, New York, NY, Chapman & Hall, 1982, ISBN 0-412-24280-X.
  8. ^ Kenneth A. Bollen e Robert W. Jackman, Regression Diagnostics: An Expository Treatment of Outliers and Influential Cases, in John Fox e J. Scott Long (a cura di), Modern Methods of Data Analysis, Newbury Park, CA, Sage, 1990, pp. 257–91, ISBN 0-8039-3366-5.

Bibliografia[modifica | modifica wikitesto]

Voci correlate[modifica | modifica wikitesto]

  Portale Statistica: accedi alle voci di Wikipedia che trattano di statistica