Distribuzione (statistica)

Da Wikipedia, l'enciclopedia libera.

In statistica, in particolare nella statistica descrittiva, la distribuzione è una rappresentazione del modo in cui le diverse modalità di un carattere si distribuiscono nelle unità statistiche che compongono il collettivo oggetto di studio.

Le distribuzioni possono essere semplici se si rileva un solo carattere, multiple se si rilevano più caratteri sullo stesso collettivo.

Distribuzione unitaria[modifica | modifica sorgente]

In una distribuzione unitaria semplice vengono presentate le modalità osservate per ciascuna unità statistica. Ad esempio, se si rileva il carattere "titolo di studio" tra gli n dipendenti di un'azienda, la distribuzione unitaria è un insieme di n coppie in cui il primo elemento indica l'unità (il nome, o altro dato identificativo, di ciascun dipendente), il secondo indica il suo titolo di studio (licenza media, diploma di maturità, laurea triennale ecc.).

Analogamente, una distribuzione multipla è un insieme di n-uple in cui il primo elemento indica l'unità ed i successivi indicano le modalità degli n – 1 caratteri osservate su quella unità.

L'insieme di coppie o n-uple viene rappresentato mediante una tabella. Nel caso di una distribuzione semplice si ha una tabella a due colonne, la prima contenente le singole unità e la seconda le modalità osservate.

Le serie di intensità[modifica | modifica sorgente]

In generale le distribuzioni unitarie rappresentano il primo risultato di una rilevazione, che viene poi organizzato nella forma di una distribuzione di frequenze o di quantità. Fanno eccezione le cosiddette serie di intensità, che presentano le diverse intensità di un fenomeno rilevate secondo un criterio qualitativo o comunque non quantitativo in senso stretto (non una misura o un conteggio). Ne sono esempi:

  • le serie territoriali, in cui l'intensità di un fenomeno (ad esempio, il prezzo di un bene) viene rilevato per diversi territori, quali le regioni o province italiane;
  • le serie storiche, in cui l'intensità di un fenomeno (ad esempio, il PIL) viene rilevato in successivi anni o trimestri.

Distribuzione di frequenze[modifica | modifica sorgente]

In una distribuzione di frequenze viene presentato il numero di unità sulle quali viene rilevata ciascuna modalità del carattere. In una rilevazione del titolo di studio, ad esempio, la distribuzione di frequenze è un insieme di k coppie, dove k è il numero delle modalità del carattere (potrebbe essere 4: "analfabeta e alfabeta", "scuola dell'obbligo o scuola superiore", "diploma di scuola superiore o professionalizzante", "laurea o master"); in ciascuna coppia il primo elemento indica la modalità ed il secondo indica il numero ni di unità su cui quella modalità è stata osservata (la frequenza con cui viene osservata).

Se il carattere è quantitativo continuo, o presenta comunque numerose modalità, queste vengono raggruppate in classi. Ad esempio, se si rileva la statura le diverse stature possibili vengono raggruppate in intervalli ("meno di 150", "da 150 a 160" ecc.), se si rileva il numero dei dipendenti di un insieme di aziende si usano classi del tipo "fino a 5 addetti", "da 6 a 20", "da 21 a 50" ecc.

Nella tabella che rappresenta una distribuzione di frequenza semplice, la prima colonna contiene le modalità o le loro classi, la seconda contiene i numeri delle unità che presentano le diverse modalità. La somma della seconda colonna è uguale al numero totale n delle unità. Da una distribuzione di frequenze si possono derivare distribuzioni di frequenze relative e percentuali. Nel primo caso, le frequenze ni, dette assolute, vengono sostituite dai rapporti fi=ni/n; nel secondo tali rapporti vengono moltiplicati per 100.

Infine, se il carattere è qualitativo ordinato o quantitativo, le sue diverse modalità vengono esposte in ordine crescente e si possono calcolare le frequenze cumulate assolute, relative o percentuali; le frequenze assolute cumulate si calcolano come segue:

N_i=\sum_{j=1}^in_j=n_1+n_2+\cdots+n_i

Le altre si calcolano in modo analogo.

Lo schema generale delle corrispondenti tabelle è il seguente:



Modalità
 
Frequenze
assolute
Frequenze
relative
Frequenze
percentuali
Frequenze
assolute
cumulate
Frequenze
relative
cumulate
Frequenze
percentuali
cumulate
x_i n_i f_i=\frac{n_i}{n} p_i=f_1\cdot 100 N_i=\sum_{j=1}^in_j F_i=\sum_{j=1}^if_j P_i=\sum_{j=1}^ip_j
x_1 n_1 f_1 p_1 n_1 f_1 p_1
x_2 n_2 f_2 p_2 n_1+n_2 f_1+f_2 p_1+p_2
x_3 n_3 f_3 p_3 n_1+n_2+n_3 f_1+f_2+f_3 p_1+p_2+p_3
 
\dots \dots \dots \dots \dots \dots \dots
 
x_k n_k f_k p_k n 1 100
n 1 100


dove:

  • x1, x2, ..., xk sono le k modalità del carattere (o le k classi in cui esse vengono raggruppate);
  • n1, n2, ..., nk sono le frequenze assolute con le quali le diverse modalità vengono osservate, il cui totale n è il numero complessivo delle unità statistiche;
  • f1, f2, ..., fk sono le frequenze relative, calcolate come rapporti tra le frequenze assolute ed il numero complessivo delle unità statistiche; il loro totale è 1;
  • p1, p2, ..., pk sono le frequenze percentuali, ottenute moltiplicando per 100 le frequenze relative; il loro totale è 100;
  • N1, N2, ..., Nk sono le frequenze assolute cumulate, ottenute sommando alla frequenza assoluta della i-esima modalità le frequenze assolute delle modalità precedenti;
  • F1, F2, ..., Fk sono le frequenze relative cumulate, ottenute sommando alla frequenza relativa della i-esima modalità le frequenze relative delle modalità precedenti;
  • P1, P2, ..., Pk sono le frequenze percentuali cumulate, ottenute sommando alla frequenza percentuale della i-esima modalità le frequenze percentuali delle modalità precedenti.

Le frequenze relative cumulate sono utilizzate per calcolare la funzione di ripartizione empirica.

Serie e seriazioni[modifica | modifica sorgente]

Le distribuzioni di frequenza vengono talvolta dette:

  • serie, se si contano le unità che presentano le stesse modalità di un carattere qualitativo (geografico, alfabetico, cromatico ecc.);
  • seriazioni, se si contano le unità che presentano gli stessi valori di un carattere quantitativo.

Distribuzione di quantità[modifica | modifica sorgente]

In una distribuzione di quantità viene presentato il modo in cui un carattere quantitativo si distribuisce tra le sue varie modalità. Ad esempio, supponendo che si rilevi il numero dei dipendenti di un insieme di aziende, si ha una distribuzione di frequenze se per ciascun numero di dipendenti, o per ciascuna sua classe, si mostra il numero delle aziende che hanno quel numero di dipendenti; si ha invece una distribuzione di quantità se si mostra il numero dei dipendenti in quella classe. Rappresentando le due distribuzioni mediante tabelle, nel primo caso la somma della seconda colonna sarà il numero totale delle unità (le aziende), nel secondo sarà il numero totale dei loro dipendenti (l'ammontare complessivo del carattere quantitativo rilevato).

Nella tabella che segue si suppone di aver rilevato il numero di dipendenti (il carattere quantitativo) presso 3.443.915 aziende (le unità statistiche):


Numero dipendenti Numero aziende
Fino a 5 5.275.084 3.013.879
da 6 a 20 3.123.203 324.478
da 21 a 50 2.028.302 67.610
da 51 a 100 1.567.439 22.952
da 101 a 500 2.506.534 13.305
da 501 a 1000 740.280 1.088
oltre 1000 1.384.302 603
Totale 16.625.144 3.443.915


La prima colonna contiene le modalità del carattere raggruppate in classi.

La seconda colonna contiene la distribuzione di quantità; nella seconda riga, ad esempio, si legge che il numero dei dipendenti occupati presso aziende che hanno da 6 a 20 dipendenti è 3.123.203. Il totale della colonna esprime il numero complessivo dei dipendenti delle aziende oggetto di rilevazione, quindi con l'ammontare complessivo del carattere.

La terza colonna contiene la distribuzione di frequenze; nella quarta riga, ad esempio, si legge che il numero delle aziende presso le quali si rileva la modalità "da 51 a 100 dipendenti" è 22.952. Il totale della colonna coincide con il numero complessivo delle aziende su cui è stata condotta l'indagine (il numero delle unità statistiche).

Rappresentazione grafica[modifica | modifica sorgente]

Per le serie territoriali, si usano spesso cartogrammi, nei quali viene rappresentato l'intero territorio considerato (ad esempio una cartina dell'Italia) e si usano diversi colori per mostrare la diversa intensità del fenomeno rilevato nelle diverse province o regioni.

Le serie storiche vengono normalmente rappresentate con linee spezzate.

Le distribuzioni di frequenza sono rappresentate graficamente con diagrammi a barre o a torta se il carattere è qualitativo o quantitativo discreto, con istogrammi se il carattere è quantitativo continuo.

Bibliografia[modifica | modifica sorgente]

  • Giuseppe Leti, Statistica descrittiva, Bologna, Il Mulino, 1983
  • Alighiero Naddeo, Statistica di base, Roma, Edizioni Kappa, 1981
  • Domenico Piccolo, Statistica, Bologna, Il Mulino, 1998

Voci correlate[modifica | modifica sorgente]

Collegamenti esterni[modifica | modifica sorgente]