Coeficientul de determinare ( -R-pătrat ) este proporția varianței variabilei dependente care se explică prin modelul de dependență în cauză , adică variabilele explicative. Mai exact, este unul minus proporția varianței inexplicabile (varianța erorii aleatoare a modelului, sau condiționată de factorii varianței variabilei dependente) în varianța variabilei dependente. Este considerată o măsură universală a dependenței unei variabile aleatoare de multe altele. În cazul particular al dependenței liniare este pătratul așa-numitului coeficient de corelație multiplăîntre variabila dependentă și variabilele explicative. În special, pentru un model de regresie liniară pereche, coeficientul de determinare este egal cu pătratul coeficientului de corelație obișnuit dintre y și x .
Adevăratul coeficient de determinare al modelului de dependență a unei variabile aleatoare y de factorii x se determină astfel:
unde este varianța variabilei aleatoare y și este varianța condiționată (prin factorii x ) a variabilei dependente (varianța erorii modelului).
Această definiție folosește parametri adevărați care caracterizează distribuția variabilelor aleatoare . Dacă folosim o estimare a eșantionului a valorilor variațiilor corespunzătoare , atunci obținem formula pentru coeficientul de determinare a eșantionului (care se înțelege de obicei prin coeficientul de determinare):
unde este suma pătratelor reziduurilor de regresie, sunt valorile reale și calculate ale variabilei care se explică.
este suma totală a pătratelor.
În cazul regresiei liniare cu o constantă , unde este suma explicată a pătratelor, deci obținem o definiție mai simplă în acest caz - coeficientul de determinare este ponderea sumei explicate de pătrate în total :
Trebuie subliniat că această formulă este valabilă doar pentru un model cu constantă, în cazul general este necesar să se folosească formula anterioară .
Principala problemă a aplicației (selective) este că valoarea acesteia crește ( nu scade) de la adăugarea de noi variabile la model, chiar dacă aceste variabile nu au nicio legătură cu variabila care este explicată! Prin urmare, compararea modelelor cu un număr diferit de factori folosind coeficientul de determinare, în general, este incorectă. În aceste scopuri, pot fi utilizați indicatori alternativi.
Pentru a putea compara modele cu un număr diferit de factori, astfel încât numărul de regresori (factori) să nu afecteze statisticile , se utilizează de obicei un coeficient de determinare ajustat , care utilizează estimări imparțial ale variațiilor:
care oferă o penalizare pentru factorii incluși suplimentar, unde n este numărul de observații și k este numărul de parametri.
Acest indicator este întotdeauna mai mic decât unu, dar teoretic poate fi mai mic decât zero (numai cu o valoare foarte mică a coeficientului obișnuit de determinare și un număr mare de factori). Prin urmare, interpretarea indicatorului ca „cotă” se pierde. Cu toate acestea, utilizarea indicatorului în comparație este destul de justificată.
Pentru modelele cu aceeași variabilă dependentă și aceeași dimensiune a eșantionului, compararea modelelor folosind coeficientul de determinare ajustat este echivalentă cu compararea lor folosind varianța reziduală sau eroarea standard a modelului . Singura diferență este că, cu cât ultimele criterii sunt mai mici, cu atât mai bine.
AIC - criteriul de informare Akaike - este folosit exclusiv pentru compararea modelelor. Cu cât valoarea este mai mică, cu atât mai bine. Adesea folosit pentru a compara modele de serii temporale cu cantități diferite de decalaje. , unde k este numărul de parametri ai modelului.
BIC sau SC - Bayesian Schwartz Information Criteria - este utilizat și interpretat în mod similar cu AIC. . Oferă o penalizare mai mare pentru includerea întârzierilor suplimentare în model decât AIC.
În absența unei constante în regresia LSM multiplă liniară , proprietățile coeficientului de determinare pot fi încălcate pentru o anumită implementare . Prin urmare, modelele de regresie cu și fără termen liber nu pot fi comparate prin criteriul . Această problemă este rezolvată prin construirea unui coeficient generalizat de determinare , care este același cu cel inițial pentru cazul regresiei LSM cu o intersecție, și pentru care cele patru proprietăți enumerate mai sus sunt satisfăcute. Esența acestei metode este de a lua în considerare proiecția unui vector unitar pe planul variabilelor explicative.
Pentru cazul regresiei fără termen liber:
,
unde X este o matrice de valori ale factorilor nxk, este o proiecție pe planul X, , unde este un vector unitar nx1.
cu condiția modificării ușoare , este potrivit și pentru compararea regresiilor construite folosind: LSM, cele mai mici pătrate generalizate (GMLS), cele mai mici pătrate condiționate (GMLS), cele mai mici pătrate condiționate generalizate (GMLS).
Baza coeficientului de determinare este analiza de regresie și coeficientul de corelație . Naturalistul britanic Sir Francis Galton (1822–1911) a fondat analiza regresiei în anii 1870. El, ca și vărul său Charles Darwin , a fost nepotul lui Erasmus Darwin . Galton era cunoscut pentru pasiunea sa intensă pentru colectarea de date de orice fel. De exemplu, el a colectat date despre semințele de mazăre dulce . Comparând diametrele semințelor, el a construit ceea ce este cunoscut astăzi ca diagramă de corelație. Legătura pe care a descoperit-o în această activitate, a numit-o mai întâi „reversiune” (inversare); cu toate acestea, mai târziu a ales numele „regresiune”. Analizând semințele, a descoperit fenomenul de regresie spre centru, conform căruia – după o schimbare foarte nefericită, modificarea ulterioară se apropie din nou de medie: diametrul mediu al urmașilor semințelor mai mari era mai mic decât diametrul mediu al părinților. semințele (se desfășoară modificări). În graficele sale de corelație, el a trasat o linie de tendință pentru care a folosit coeficientul de corelație ca pantă. [unu]
Termenul de „ dispersie ” a fost inventat de statisticianul Ronald Fisher (1890-1962) în lucrarea sa din 1918 intitulată „ Corelarea între rude în supoziția moștenirii mendeliane ” [2] . Fisher a fost unul dintre cei mai proeminenți statisticieni ai secolului al XX-lea și este cunoscut pentru contribuțiile sale la teoria evoluționistă. Testul F , strâns legat de coeficientul de determinare, este numit și după el. Karl Pearson (1857-1936), fondatorul biometriei , a oferit o justificare matematică formală pentru coeficientul de corelație, al cărui pătrat este coeficientul de determinare. [3]
Coeficientul de determinare a fost aspru criticat în anii următori. Acest lucru s-a întâmplat deoarece are proprietatea că, cu cât numărul de variabile independente este mai mare, cu atât devine mai mare. Și acest lucru este independent de dacă „variabile explicative” suplimentare contribuie la „puterea explicativă”. Pentru a ține cont de acest lucru, econometricianul Henri Theil (1924–2000) a propus în 1961 un coeficient de determinare ajustat [4] , care ia în considerare pierderea gradelor de libertate asociată cu creșterea numărului de variabile explicative. Coeficientul de determinare ajustat se modifică din cauza penalizării care este impusă modelului pe măsură ce numărul de variabile crește. Totuși, omul de știință german Horst Rinne a criticat această abordare [5] pentru că nu penalizează suficient pierderea gradului de libertate pe măsură ce numărul variabilelor explicative crește.
Valorile ridicate ale coeficientului de determinare, în general, nu indică prezența unei relații cauzale între variabile (precum și în cazul coeficientului de corelație obișnuit). De exemplu, dacă variabila explicată și factorii care de fapt nu sunt legați de variabila explicată au o dinamică crescătoare, atunci coeficientul de determinare va fi destul de mare. Prin urmare, adecvarea logică și semantică a modelului sunt de o importanță capitală. În plus, este necesar să se utilizeze criterii pentru o analiză cuprinzătoare a calității modelului.