Coefficiente di determinazione

Da Wikipedia, l'enciclopedia libera.

In statistica, il coefficiente di determinazione, (più comunemente R2), è una proporzione tra la variabilità dei dati e la correttezza del modello statistico utilizzato.

Non esiste una definizione concordata di R2. Nelle regressioni lineari semplici esso è semplicemente il quadrato del coefficiente di correlazione:

 R^2 = \frac{RSS}{TSS} = 1 - \frac{ESS}{TSS}

dove:

  • RSS=\sum_{i=1}^n(\hat{y}_i-\overline{y})^2  è la devianza spiegata dal modello (Explained Sum of Squares);
  • TSS=\sum_{i=1}^n(y_i-\overline{y})^2  è la devianza totale (Total Sum of Squares);
  • ESS=\sum_{i=1}^n e_i^2=\sum_{i=1}^n(y_i-\hat{y}_i)^2  è la devianza residua (Residual Sum of Squares);
  • y_i  sono i dati osservati;
  • \overline{y}  è la loro media;
  • \hat{y}_i  sono i dati stimati dal modello ottenuto dalla regressione.


R2 varia tra 0 ed 1: quando è 0 il modello utilizzato non spiega per nulla i dati; quando è 1 il modello spiega perfettamente i dati.

Adjusted R2[modifica | modifica sorgente]

L'Adjusted R2 (o  \bar{R^2}) (meglio conosciuto in Italiano come R2 corretto o aggiustato) è una variante dell' R2 semplice.
Mentre R2 semplice è utilizzato per l'analisi di regressione lineare semplice come principale indice di bontà della curva di regressione, R2 corretto viene utilizzato per l'analisi di regressione lineare multipla. Esso serve a misurare la frazione di devianza spiegata, cioè la proporzione di variabilità di Y "spiegata" dalla variabile esplicativa X. All'aumentare del numero di variabili esplicative (o predittori) X, aumenta anche il valore di R2, per cui spesso è utilizzato al suo posto  \bar{R^2}, che serve a misurare la frazione di varianza spiegata.
Può essere negativo ed è sempre \le all'R2

dove:

  • n è il numero delle osservazioni;
  • k è il numero dei regressori.

Interpretazione[modifica | modifica sorgente]

Se l' R^2 o l' \bar{R^2} sono prossimi ad 1 significa che i regressori predicono bene il valore della variabile dipendente in campione, mentre se è pari a 0 significa che non lo fanno.[1]

L' R^2 o l' \bar{R^2} NON dicono se:

  1. una variabile sia statisticamente significativa;
  2. i regressori sono causa effettiva dei movimenti della variabile dipendente;
  3. c'è una distorsione da variabile omessa;
  4. è stato scelto il gruppo dei regressori più appropriato.

Note[modifica | modifica sorgente]

  1. ^ James Stock, Mark Watson, Introduzione all'econometria, Milano, Pearson Education, 2005, p. 174, ISBN 978-88-7192-267-6.

Bibliografia[modifica | modifica sorgente]

  • James Stock, Mark Watson, Introduzione all'econometria, Milano, Pearson Education, 2005, p. 121, ISBN 978-88-7192-267-6. 9788871922676
  • Draper, N.R. and Smith, H. (1998). Applied Regression Analysis. Wiley-Interscience. ISBN 0-471-17082-8
  • Everitt, B.S. (2002). Cambridge Dictionary of Statistics (2nd Edition). CUP. ISBN 0-521-81099-X
  • Nagelkerke, Nico J.D. (1992) Maximum Likelihood Estimation of Functional Relationships, Pays-Bas, Lecture Notes in Statistics, Volume 69, 110p ISBN 0-387-97721-X
  • Luigi Fabbris, Statistica multivariata (analisi esplorativa dei dati). 1997, McGrawHill. ISBN 88-386-0765-6

Collegamenti esterni[modifica | modifica sorgente]

matematica Portale Matematica: accedi alle voci di Wikipedia che trattano di matematica