Distribuzione ipergeometrica

Da Wikipedia, l'enciclopedia libera.
Distribuzione ipergeometrica \mathcal{H}(n,h,r)
Funzione di distribuzione discreta
Funzione di ripartizione
Parametri n\in \mathbb{N}
r,h\in\{0,1,...,n\}\
Supporto \{0,1,...,n\}\
Funzione di densità P(k)={ { {h\choose k} {n-h\choose r-k} }\over{ n\choose r } }
Funzione di ripartizione
Valore atteso \frac{rh}{n}
Mediana
Moda
Varianza \frac{r(n-r)\,h(n-h)}{n^2(n-1)}
Indice di asimmetria \frac{(n-2r)(n-2h)}{n-2}\sqrt{\frac{n-1}{r(n-r)\,h(n-h)}}
Curtosi
Entropia
Funzione generatrice dei momenti
Funzione caratteristica

In teoria delle probabilità la distribuzione ipergeometrica è una distribuzione di probabilità discreta che descrive l'estrazione senza reinserimento di alcune palline, perdenti o vincenti, da un'urna.

L'estrazione con reinserimento (la pallina estratta viene rimessa nell'urna) viene invece descritta dalla distribuzione binomiale.

Ad esempio, estraendo 5 palline da un'urna che ne contiene 3 bianche e 7 nere, il numero di palline bianche estratte è descritto dalla distribuzione ipergeometrica.

Definizione[modifica | modifica wikitesto]

La distribuzione ipergeometrica \mathcal{H}(n,h,r) descrive la variabile aleatoria N che conta, per r elementi distinti estratti a caso (in modo equiprobabile) da un insieme A di cardinalità n, quanti sono nel sottoinsieme B di cardinalità h. In termini più concreti descrive, data un'urna contenente h palline bianche e n-h palline nere, il numero di palline bianche che vengono ottenute estraendo senza reinserimento r palline.

La probabilità di ottenere esattamente k elementi in B è

P(k)={ { {h\choose k} {n-h\choose r-k} }\over{ n\choose r } }.

Questa probabilità, espressa tramite i coefficienti binomiali \textstyle {a\choose b}=\frac{a!}{b!(a-b)!}, si può ricavare tramite il calcolo combinatorio:

\textstyle {n\choose r} è il numero di possibili estrazioni di r elementi da A,
\textstyle {h\choose k} è il numero di possibili estrazioni di k elementi tra gli h di B,
\textstyle {n-h\choose r-k} è il numero di possibili estrazioni dei restanti r-k elementi tra gli n-h non in B.

Definizione alternativa[modifica | modifica wikitesto]

Una definizione equivalente considera gli elementi estratti come un sottoinsieme C di A. In questo modo la cardinalità dell'intersezione B\cap C di due insiemi B e C, scelti a caso (con distribuzione uniforme) tra i sottoinsiemi di A con cardinalità fissate, è descritta dalla distribuzione ipergeometrica \mathcal{H}(\#A,\#B,\#C).

Proprietà[modifica | modifica wikitesto]

Cardinalità delle intersezioni
B A-B A
C k r-k r
A-C h-k n-r-h+k n-r
A h n-h n

La formula per la probabilità presenta varie simmetrie, che si possono ricavare scambiando i ruoli che svolgono i quattro insiemi vincenti (B), non vincenti (A-B), estratti (C) e non estratti (A-C). In particolare

  • scambiando vincenti con estratti
P_{n,h,r}(k) = P_{n,r,h}(k)\
  • scambiando vincenti con non vincenti
P_{n,h,r}(k) = P_{n,n-h,r}(r-k)\
  • scambiando estratti con non estratti
P_{n,h,r}(k) = P_{n,h,n-r}(h-k)\

Caratteristiche[modifica | modifica wikitesto]

Senza bisogno di fare calcoli con i coefficienti binomiali, la speranza matematica di N si può ottenere considerando per ogni elemento b di B la variabile aleatoria X_b che vale 1 se b viene estratto e 0 altrimenti. In questo modo si ha \textstyle N=\sum_{b\in B}X_b, dove ogni X_b segue la distribuzione di Bernoulli \mathcal{B}(h/n); anche se, a differenza della distribuzione binomiale, le variabili X_b non sono indipendenti tra di loro, per la linearità della speranza si ottiene

E[N]=\sum_{b\in B}E[X_b]=\frac{rh}{n}.

È possibile procedere nella stessa maniera per calcolare la varianza di N tramite la varianza e la covarianza delle X_b:

\text{Var}(N)=\sum_i\text{Var}(X_i)+\sum_{i\neq j}\text{cov}(X_i,X_j)=\frac{r(n-r)\,h(n-h)}{n^2(n-1)};

in particolare, i fattori che compaiono al numeratore sono le cardinalità dei quattro insiemi "estratti", "non estratti", "vincenti" e "non vincenti".

Altre distribuzioni[modifica | modifica wikitesto]

Per una singola estrazione la distribuzione ipergeometrica \mathcal{H}(n,h,1) coincide con la distribuzione di Bernoulli \mathcal{B}(h/n).

A differenza della distribuzione ipergeometrica, la distribuzione binomiale \mathcal{B}(h/n,r) corrisponde ad un processo in cui dopo ogni estrazione la pallina viene reintrodotta nell'urna, lasciando invariata la probabilità di estrarre in seguito una pallina vincente. Per valori di n e h molto grandi rispetto a r, e per h/n non vicino a 0 né a 1, ad ogni estrazione le probabilità restano quasi uguali. In statistica (ad esempio nei sondaggi) questa approssimazione viene accettata per h<n/10.

La distribuzione ipergeometrica può essere generalizzata considerando differenti le probabilità di estrarre le singole palline, ovvero utilizzando una distribuzione non uniforme sull'insieme A.

Un'altra generalizzazione della distribuzione ipergeometrica è la distribuzione ipergeometrica multivariata, che prevede che nell'urna siano presenti palline di più di due colori, ovvero in cui l'insieme A non è più partizionato nei soli due insiemi B e A-B, ma in B_1,...,B_s (insiemi disgiunti la cui unione è A). La distribuzione non descrive più la probabilità che k elementi siano in B e r-k in A-B, bensì la probabilità che k1 siano in B1, k2 in B2, e così via, per ogni (k_1,...,k_s)\in\mathbb{N}^s con k_1+...+k_s=r:

P(k_1,...,k_s)={ { {h_1\choose k_1} \cdots {h_s\choose k_s} }\over{ n\choose r } }.

Questa distribuzione di probabilità si rapporta alla distribuzione multinomiale esattamente come la distribuzione ipergeometrica si rapporta alla distribuzione binomiale.

Esempio[modifica | modifica wikitesto]

Un esempio di distribuzione ipergeometrica è dato dal gioco d'azzardo win for Life, in cui su un totale di n=20 numeri disponibili h=10 vengono scelti dal giocatore e r=10 vengono estratti. La probabilità di indovinarne k è governata dalla distribuzione ipergeometrica \mathcal{H}(20,10,10),

P(k) = P(10-k) = {  { {10 \choose k} {20-10 \choose 10-k} } \over  {20\choose10}  }={{10\choose k}^2\over{20\choose10}}=\frac{(10!)^4}{20!}\left(\frac{1}{k!(10-k)!}\right)^2.

In particolare si possono calcolare facilmente le probabilità di vincita, proporzionali ai quadrati dei coefficienti binomiali \textstyle {10\choose k}; ad esempio la probabilità che vengano estratti esattamente 6 (oppure 4) degli elementi scelti è

P(6)=P(4)=\frac{\left(\frac{10!}{6!4!}\right)^2}{\frac{20!}{10!10!}}=\frac{44~100}{184~756}\approx 0,24.

Voci correlate[modifica | modifica wikitesto]

matematica Portale Matematica: accedi alle voci di Wikipedia che trattano di matematica