Coeficient de determinare

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită pe 22 aprilie 2022; verificarea necesită 1 editare .

Coeficientul de determinare ( -R-pătrat  ) este proporția varianței variabilei dependente care se explică prin modelul de dependență în cauză , adică variabilele explicative. Mai exact, este unul minus proporția varianței inexplicabile (varianța erorii aleatoare a modelului, sau condiționată de factorii varianței variabilei dependente) în varianța variabilei dependente. Este considerată o măsură universală a dependenței unei variabile aleatoare de multe altele. În cazul particular al dependenței liniare este pătratul așa-numitului coeficient de corelație multiplăîntre variabila dependentă și variabilele explicative. În special, pentru un model de regresie liniară pereche, coeficientul de determinare este egal cu pătratul coeficientului de corelație obișnuit dintre y și x .

Definiție și formulă

Adevăratul coeficient de determinare al modelului de dependență a unei variabile aleatoare y de factorii x se determină astfel:

unde  este varianța variabilei aleatoare y și  este varianța condiționată (prin factorii x ) a variabilei dependente (varianța erorii modelului).

Această definiție folosește parametri adevărați care caracterizează distribuția variabilelor aleatoare . Dacă folosim o estimare a eșantionului a valorilor variațiilor corespunzătoare , atunci obținem formula pentru coeficientul de determinare a eșantionului (care se înțelege de obicei prin coeficientul de determinare):

unde  este suma pătratelor reziduurilor de regresie,  sunt valorile reale și calculate ale variabilei care se explică.

 este suma totală a pătratelor.

În cazul regresiei liniare cu o constantă , unde  este suma explicată a pătratelor, deci obținem o definiție mai simplă în acest caz - coeficientul de determinare este ponderea sumei explicate de pătrate în total :

Trebuie subliniat că această formulă este valabilă doar pentru un model cu constantă, în cazul general este necesar să se folosească formula anterioară .

Interpretare

  1. Coeficientul de determinare pentru un model cu o constantă ia valori de la 0 la 1. Cu cât valoarea coeficientului este mai aproape de 1, cu atât dependența este mai puternică. Atunci când se evaluează modelele de regresie, aceasta este interpretată ca potrivirea modelului la date. Pentru modelele acceptabile, se presupune că coeficientul de determinare trebuie să fie de cel puțin 50% (în acest caz, coeficientul de corelație multiplă depășește 70% în valoare absolută). Modelele cu un coeficient de determinare peste 80% pot fi considerate destul de bune (coeficientul de corelație depășește 90%). Valoarea coeficientului de determinare 1 înseamnă relația funcțională dintre variabile.
  2. În absența unei relații statistice între variabila explicată și factori, statisticile pentru regresia liniară au o distribuție asimptotică , unde  este numărul de factori de model (vezi testul multiplicator Lagrange ). În cazul regresiei liniare cu erori aleatoare distribuite normal, statisticile au o distribuție Fisher exactă (pentru eșantioane de orice dimensiune) (vezi testul F ). Informațiile despre distribuția acestor valori vă permit să verificați semnificația statistică a modelului de regresie pe baza valorii coeficientului de determinare. De fapt, aceste teste testează ipoteza că adevăratul coeficient de determinare este egal cu zero.
  3. Coeficientul de determinare nu poate fi negativ, aceasta concluzie provine din proprietatile coeficientului de determinare. Cu toate acestea, coeficientul de determinare ajustat poate lua valori negative.

Lipsa R 2 și a indicatorilor alternativi

Principala problemă a aplicației (selective) este că valoarea acesteia crește ( nu scade) de la adăugarea de noi variabile la model, chiar dacă aceste variabile nu au nicio legătură cu variabila care este explicată! Prin urmare, compararea modelelor cu un număr diferit de factori folosind coeficientul de determinare, în general, este incorectă. În aceste scopuri, pot fi utilizați indicatori alternativi.

R 2 ajustat

Pentru a putea compara modele cu un număr diferit de factori, astfel încât numărul de regresori (factori) să nu afecteze statisticile , se utilizează de obicei un coeficient de determinare ajustat , care utilizează estimări imparțial ale variațiilor:

care oferă o penalizare pentru factorii incluși suplimentar, unde n  este numărul de observații și k este numărul de parametri.

Acest indicator este întotdeauna mai mic decât unu, dar teoretic poate fi mai mic decât zero (numai cu o valoare foarte mică a coeficientului obișnuit de determinare și un număr mare de factori). Prin urmare, interpretarea indicatorului ca „cotă” se pierde. Cu toate acestea, utilizarea indicatorului în comparație este destul de justificată.

Pentru modelele cu aceeași variabilă dependentă și aceeași dimensiune a eșantionului, compararea modelelor folosind coeficientul de determinare ajustat este echivalentă cu compararea lor folosind varianța reziduală sau eroarea standard a modelului . Singura diferență este că, cu cât ultimele criterii sunt mai mici, cu atât mai bine.

Criterii de informare

AIC  - criteriul de informare Akaike  - este folosit exclusiv pentru compararea modelelor. Cu cât valoarea este mai mică, cu atât mai bine. Adesea folosit pentru a compara modele de serii temporale cu cantități diferite de decalaje. , unde k este numărul de parametri ai modelului. BIC sau SC  - Bayesian Schwartz Information Criteria - este utilizat și interpretat în mod similar cu AIC. . Oferă o penalizare mai mare pentru includerea întârzierilor suplimentare în model decât AIC.


R 2 -generalizat (extins)

În absența unei constante în regresia LSM multiplă liniară , proprietățile coeficientului de determinare pot fi încălcate pentru o anumită implementare . Prin urmare, modelele de regresie cu și fără termen liber nu pot fi comparate prin criteriul . Această problemă este rezolvată prin construirea unui coeficient generalizat de determinare , care este același cu cel inițial pentru cazul regresiei LSM cu o intersecție, și pentru care cele patru proprietăți enumerate mai sus sunt satisfăcute. Esența acestei metode este de a lua în considerare proiecția unui vector unitar pe planul variabilelor explicative.

Pentru cazul regresiei fără termen liber: , unde X este o matrice de valori ale factorilor nxk,  este o proiecție pe planul X, , unde  este un vector unitar nx1.

cu condiția modificării ușoare , este potrivit și pentru compararea regresiilor construite folosind: LSM, cele mai mici pătrate generalizate (GMLS), cele mai mici pătrate condiționate (GMLS), cele mai mici pătrate condiționate generalizate (GMLS).

Istorie

Baza coeficientului de determinare este analiza de regresie și coeficientul de corelație . Naturalistul britanic Sir Francis Galton (1822–1911) a fondat analiza regresiei în anii 1870. El, ca și vărul său Charles Darwin , a fost nepotul lui Erasmus Darwin . Galton era cunoscut pentru pasiunea sa intensă pentru colectarea de date de orice fel. De exemplu, el a colectat date despre semințele de mazăre dulce . Comparând diametrele semințelor, el a construit ceea ce este cunoscut astăzi ca diagramă de corelație. Legătura pe care a descoperit-o în această activitate, a numit-o mai întâi „reversiune” (inversare); cu toate acestea, mai târziu a ales numele „regresiune”. Analizând semințele, a descoperit fenomenul de regresie spre centru, conform căruia – după o schimbare foarte nefericită, modificarea ulterioară se apropie din nou de medie: diametrul mediu al urmașilor semințelor mai mari era mai mic decât diametrul mediu al părinților. semințele (se desfășoară modificări). În graficele sale de corelație, el a trasat o linie de tendință pentru care a folosit coeficientul de corelație ca pantă. [unu]

Termenul de „ dispersie ” a fost inventat de statisticianul Ronald Fisher (1890-1962) în lucrarea sa din 1918 intitulată „ Corelarea între rude în supoziția moștenirii mendeliane ” [2] . Fisher a fost unul dintre cei mai proeminenți statisticieni ai secolului al XX-lea și este cunoscut pentru contribuțiile sale la teoria evoluționistă. Testul F , strâns legat de coeficientul de determinare, este numit și după el. Karl Pearson (1857-1936), fondatorul biometriei , a oferit o justificare matematică formală pentru coeficientul de corelație, al cărui pătrat este coeficientul de determinare. [3]

Coeficientul de determinare a fost aspru criticat în anii următori. Acest lucru s-a întâmplat deoarece are proprietatea că, cu cât numărul de variabile independente este mai mare, cu atât devine mai mare. Și acest lucru este independent de dacă „variabile explicative” suplimentare contribuie la „puterea explicativă”. Pentru a ține cont de acest lucru, econometricianul Henri Theil (1924–2000) a propus în 1961 un coeficient de  determinare ajustat [4] , care ia în considerare pierderea gradelor de libertate asociată cu creșterea numărului de variabile explicative. Coeficientul de determinare ajustat se modifică din cauza penalizării care este impusă modelului pe măsură ce numărul de variabile crește. Totuși, omul de știință german Horst Rinne a criticat această abordare [5] pentru că nu penalizează suficient pierderea gradului de libertate pe măsură ce numărul variabilelor explicative crește.

Notă

Valorile ridicate ale coeficientului de determinare, în general, nu indică prezența unei relații cauzale între variabile (precum și în cazul coeficientului de corelație obișnuit). De exemplu, dacă variabila explicată și factorii care de fapt nu sunt legați de variabila explicată au o dinamică crescătoare, atunci coeficientul de determinare va fi destul de mare. Prin urmare, adecvarea logică și semantică a modelului sunt de o importanță capitală. În plus, este necesar să se utilizeze criterii pentru o analiză cuprinzătoare a calității modelului.

Vezi și

Note

  1. Franka Miriam Brückler: Geschichte der Mathematik kompakt: Das Wichtigste aus Analysis, Wahrscheinlichkeitstheorie, angewandter Mathematik, Topologie und Mengenlehre. Springer-Verlag, 2017, ISBN 978-3-662-55573-6 , S. 116.  (germană)
  2. Ronald Aylmer Fisher: Corelația între rude pe presupunerea moștenirii mendeliane. În: Trans. Roy. soc. Edinb. 52, 1918, S. 399-433. (Engleză)
  3. Franka Miriam Brückler: Geschichte der Mathematik kompakt: Das Wichtigste aus Analysis, Wahrscheinlichkeitstheorie, angewandter Mathematik, Topologie und Mengenlehre. Springer-Verlag, 2017, ISBN 978-3-662-55573-6 , S. 117.  (germană)
  4. Henri Theil: Previziuni economice și politică. Amsterdam 1961, S. 213  .
  5. Horst Rinne: Ökonometrie: Grundlagen der Makroökonometrie. Vahlen, 2004.  (germană)

Literatură

Link -uri