Grafico di dispersione

Da Wikipedia, l'enciclopedia libera.
Tempo di attesa tra le eruzioni e durata delle eruzioni dell'Old Faithful Geyser nel Yellowstone National Park, Wyoming, USA. Il grafico suggerisce due tipi di eruzioni: corta attesa e corta durata e lunga attesa e lunga durata.

Il grafico di dispersione o grafico a dispersione o scatter plot o scatter graph è un tipo di grafico in cui due variabili di un set di dati sono riportate su uno spazio cartesiano.

I dati sono visualizzati tramite una collezione di punti ciascuno con una posizione sull'asse orizzontale determinato da una variabile e sull'asse verticale determinato dall'altra.

Panoramica[modifica | modifica wikitesto]

Un grafico di dispersione è spesso usato quando una delle variabili è sotto controllo dello sperimentatore. Un parametro che è incrementato e/o decrementato sistematicamente è chiamato parametro di controllo o variabile indipendente, ed è arbitrariamente posto sull'asse orizzontale. La variabile misurata (o dipendente) è arbitrariamente posta sull'asse verticale. Se non esistono variabili dipendenti, ogni variabile può essere messa su un asse a piacere. Il grafico di dispersione può' essere utile per visualizzare il grado di correlazione (cioè di dipendenza lineare) tra le due variabili. Un grafico a dispersione può suggerire vari tipi di correlazione tra variabili con un certo intervallo di confidenza. Le correlazioni possono essere positive, negative o nulle.

Se il modello di punti sul grafico scende dall'alto a sinistra verso il basso a destra, suggerisce una correlazione negativa. Può essere disegnata una linea di andamento (o linea di trend) per studiare la correlazione tra le variabili in esame. Per una correlazione lineare, la migliore procedura (best-fit) è la regressione lineare (linear regression), e garantisce di generare una soluzione corretta in un tempo finito. Sfortunatamente, non vi è una procedura universale che garantisca di generare una soluzione corretta per relazioni arbitrarie.

Un grafico di dispersione è molto utile anche quando vogliamo vedere quanto corrispondono due set di dati comparabili; in questo caso, viene spesso disegnata come riferimento una linea d'identità (identity line) come una linea x=y oppure una linea 1:1. più i data set corrispondono, più i punti tendono a concentrarsi esattamente sulla linea d'identità. Uno degli aspetti più interessanti dello scatter plot, tuttavia, è l'abilità di mostrare relazioni non lineari tra variabili. Inoltre, se i dati sono rappresentati da un modello misto di relazioni semplici, esse possono essere rese visibilmente evidenti come modelli sovrapposti. Il grafico di dispersione è uno degli strumenti basilari per il controllo della qualità.

Esempio d'uso[modifica | modifica wikitesto]

Debito pubblico in funzione della disoccupazione.
Grafico a dispersione 3D sugli stessi dati, abbiamo aggiunto l'asse 'ricerca'

Un possibile esempio dell'uso del grafico a dispersione è l'analisi dell'andamento delle seguenti due variabili: il debito pubblico e la percentuale di disoccupazione di un paese. Avendo due variabili, è necessario decidere quale rappresentare sull'asse delle ascisse (o x) e quale sull'asse delle ordinate (y). Non vi è una soluzione corretta o sbagliata, solitamente la variabile più importante è sull'asse delle y, quindi se fosse necessario mostrare quanto varia il debito pubblico in relazione alla disoccupazione si porrà quest'ultima sull'asse x, viceversa ponendo la disoccupazione sull'asse y verrà evidenziato come essa varia in relazione al debito pubblico. Inoltre è possibile aggiungere informazioni differenziando i punti del grafico a dispersione per colore; si potrebbe per esempio colorare i punti in base al paese che rappresentano per avere un grafico a dispersione che includa molteplici paesi; oppure variare i colore in base al periodo per avere un'idea di come variarono debito e disoccupazione di un paese in determinati periodi. Un grafico a dispersione può anche essere in 3D, in questo caso aggiungendo un asse con un'altra caratteristica (nell'esempio R&D, o fondi assegnati alla ricerca in un paese, in italiano R&S). Dall'esempio riportato a lato si evince non solo che la disoccupazione di un paese è legata al debito pubblico, ma che anche la ricerca e lo sviluppo sono influenzate dal debito pubblico. in un grafico a dispersione 3D è possibile, a colpo d'occhio, avere informazioni su tre diverse caratteristiche dei dati analizzati, in questo caso salta subito all'occhio che l'Italia ha avuto un elevato debito pubblico, una disoccupazione variabile e tassi di ricerca molto ridotti nel periodo di tempo preso in considerazione (98-07).

Altri progetti[modifica | modifica wikitesto]