Coefficiente di determinazione

Da Wikipedia, l'enciclopedia libera.

In statistica, il coefficiente di determinazione, (più comunemente R2), è una proporzione tra la variabilità dei dati e la correttezza del modello statistico utilizzato.

Non esiste una definizione concordata di R2. Nelle regressioni lineari semplici esso è semplicemente il quadrato del coefficiente di correlazione:

 R^2 = \frac{ESS}{TSS} = 1 - \frac{RSS}{TSS}

dove:

  • ESS=\sum_{i=1}^n(\hat{y}_i-\overline{y})^2  è la devianza spiegata dal modello (Explained Sum of Squares);
  • TSS=\sum_{i=1}^n(y_i-\overline{y})^2  è la devianza totale (Total Sum of Squares);
  • RSS=\sum_{i=1}^n e_i^2=\sum_{i=1}^n(y_i-\hat{y}_i)^2  è la devianza residua (Residual Sum of Squares);
  • y_i  sono i dati osservati;
  • \overline{y}  è la loro media;
  • \hat{y}_i  sono i dati stimati dal modello ottenuto dalla regressione.


R2 varia tra 0 ed 1: quando è 0 il modello utilizzato non spiega per nulla i dati; quando è 1 il modello spiega perfettamente i dati.

Adjusted R2[modifica | modifica sorgente]

L'Adjusted R2 (o  \bar{R^2}) (meglio conosciuto in Italiano come R2 corretto o aggiustato) è una variante dell' R2 semplice.
In ambito di analisi di regressione, R2 semplice è utilizzato come principale indice di bontà della curva di regressione, per l'analisi di regressione lineare semplice, esso serve a misurare la frazione di devianza spiegata, cioè la proporzione di variabilità di Y spiegata dalla variabile esplicativa X; mentre R2 viene utilizzato per lo stesso scopo ma per l'analisi di regressione lineare multipla, infatti all'aumentare del numero di variabili esplicative (o predittori), aumenta anche il valore di R2 per cui spesso è utilizzato al suo posto  \bar{R^2} che serve a misurare la frazione di varianza spiegata.
Può essere negativo ed è sempre \le all' R2

 \bar{R^2} = 1 - \frac{n - 1}{n - k - 1} \frac{RSS}{TSS}

dove:

  • n è il numero delle osservazioni;
  • k è il numero dei regressori.

Interpretazione[modifica | modifica sorgente]

Se l' R^2 o l' \bar{R^2} sono prossimi ad 1 significa che i regressori predicono bene il valore della variabile dipendente in campione, mentre se è pari a 0 significa che non lo fanno. Intervalli di accettazione dell'ipotesi nulla in ogni caso possono essere ricompresi tra 0 e 0,25[1]

L' R^2 o l' \bar{R^2} NON dicono se:

  1. una variabile sia statisticamente significativa;
  2. i regressori sono causa effettiva dei movimenti della variabile dipendente;
  3. c'è una distorsione da variabile omessa;
  4. è stato scelto il gruppo dei regressori più appropriato.

Note[modifica | modifica sorgente]

  1. ^ James Stock, Mark Watson, Introduzione all'econometria, Milano, Pearson Education, 2005, p. 174. ISBN 978-88-7192-267-6.

Bibliografia[modifica | modifica sorgente]

  • James Stock, Mark Watson, Introduzione all'econometria, Milano, Pearson Education, 2005, p. 121. ISBN 978-88-7192-267-6. 9788871922676
  • Draper, N.R. and Smith, H. (1998). Applied Regression Analysis. Wiley-Interscience. ISBN 0-471-17082-8
  • Everitt, B.S. (2002). Cambridge Dictionary of Statistics (2nd Edition). CUP. ISBN 0-521-81099-X
  • Nagelkerke, Nico J.D. (1992) Maximum Likelihood Estimation of Functional Relationships, Pays-Bas, Lecture Notes in Statistics, Volume 69, 110p ISBN 0-387-97721-X
  • Luigi Fabbris, Statistica multivariata (analisi esplorativa dei dati). 1997, McGrawHill. ISBN 88-386-0765-6

Collegamenti esterni[modifica | modifica sorgente]

matematica Portale Matematica: accedi alle voci di Wikipedia che trattano di matematica