Quartetto di Anscombe

Da Wikipedia, l'enciclopedia libera.
Jump to navigation Jump to search
Tutti e quattro gli insiemi di dati sono identici se valutati secondo alcune statistiche di base, ma una volta riportati su un grafico sono molto diversi.

il Quartetto di Anscombe comprende quattro dataset che hanno proprietà statistiche praticamente identiche, ma che una volta riprodotti su un grafico assumono un aspetto molto diverso tra loro. Ciascun set di dati consiste in undici punti di coordinate (x,y). Sono stati costruiti nel 1973 dallo statistico Francis Anscombe per dimostrare l'importanza di rappresentare graficamente i dati prima di analizzarli e l'effetto degli outlier sulle proprietà statistiche. Sostenne che il suo scopo era di attaccare l'idea diffusa tra gli statistici che "i calcoli numerici sono esatti, ma i grafici sono rozzi".[1]

Dati[modifica | modifica wikitesto]

Per tutti e quattro i set di dati:

Proprietà Valore Accuratezza
Media di x 9 esatta
Varianza di x 11 esatta
Media di y 7.50 alla seconda cifra decimale
Varianza di y 4.125 con uno scarto massimo di 0.003
Correlazione tra x e y 0.816 alla terza cifra decimale
Regressione lineare y = 3.00 + 0.500x alla seconda e alla terza cifra decimale, rispettivamente

Il primo grafico di dispersione (in alto a sinistra) sembra rappresentare una semplice relazione lineare, corrispondente a due variabili correlate e con l'ipotesi di una distribuzione normale. Il secondo grafico (in alto a destra) non segue una distribuzione normale; anche se si può osservare un'ovvia relazione tra le due variabili, questa non è lineare, e l''indice di correlazione di Pearson non è rilevante (una regressione più generale e il corrispondente coefficiente di determinazione sarebbero più appropriati). Nel terzo grafico (in basso a sinistra), la distribuzione è lineare, ma con una regressione lineare differente, che è influenzata dall'unico outlier presente, sufficientemente significativo per alterare la regressione lineare e di abbassare il coefficiente di correlazione da 1 a 0.816 (sarebbe da utilizzare una regressione robusta). Infine, il quarto grafico (in basso a destra) mostra un esempio di come un outlier sia spesso sufficiente a stabilire un elevato indice di correlazione, anche se la relazione tra le due variabili non è lineare.

Il quartetto è tuttora usato per illustrare l'importanza dell'approccio grafico a un insieme di dati prima di cominciarne l'analisi secondo un qualche tipo di relazione, e l'inadeguatezza delle proprietà statistiche di base per descrivere dei set di dati realistici.[2][3][4][5][6]

Seguono gli insiemi dei dati. I valori di x per i primi tre set di dati sono uguali.[1]

Quartetto di Anscombe
I II III IV
x y x y x y x y
10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58
8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76
13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71
9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84
11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47
14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04
6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25
4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.50
12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56
7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91
5.0 5.68 5.0 4.74 5.0 5.73 8.0 6.89

Successivamente è stata sviluppata una procedura per generare dei set di dati simili con statistiche identiche ma grafici distinti.[7]

Vedere anche[modifica | modifica wikitesto]

  • Exploratory data analysis

Note[modifica | modifica wikitesto]

  1. ^ a b F. J. Anscombe, Graphs in Statistical Analysis, in American Statistician, vol. 27, nº 1, 1973, pp. 17–21.
  2. ^ Glenn Elert, Linear Regression, su The Physics Hypertextbook.
  3. ^ Philipp K. Janert, Data Analysis with Open Source Tools, O'Reilly Media, Inc., 2010, pp. 65–66, ISBN 0-596-80235-8.
  4. ^ Regression analysis by example, John Wiley and Sons, 2006, p. 91, ISBN 0-471-74696-7.
  5. ^ Statistical methods: the geometric approach, Springer, 1991, p. 418, ISBN 0-387-97517-9.
  6. ^ Edward R. Tufte, The Visual Display of Quantitative Information, 2nd, Cheshire, CT, Graphics Press, 2001, ISBN 0-9613921-4-2.
  7. ^ Generating Data with Identical Statistics but Dissimilar Graphics: A Follow up to the Anscombe Dataset, in American Statistician, vol. 61, nº 3, 2007, pp. 248–254, DOI:10.1198/000313007X220057.

Altri progetti[modifica | modifica wikitesto]

Collegamenti esterni[modifica | modifica wikitesto]