Metoda celor mai mici pătrate

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită la 3 iunie 2022; verificările necesită 4 modificări .

Metoda celor mai mici pătrate (LSM)  este o metodă matematică utilizată pentru rezolvarea diverselor probleme, bazată pe minimizarea sumei pătratelor abaterilor unor funcții din datele de intrare experimentale. Poate fi folosit pentru a „rezolva” sisteme de ecuații supradeterminate (când numărul de ecuații depășește numărul de necunoscute), pentru a găsi o soluție în cazul sistemelor de ecuații neliniare obișnuite (nu supradeterminate), pentru a aproxima valorile punctuale a unei anumite funcţii. OLS este una dintre metodele de bază de analiză de regresie pentru estimarea parametrilor necunoscuți ai modelelor de regresie din datele eșantionului.

Istorie

Până la începutul secolului al XIX-lea. oamenii de știință nu aveau anumite reguli pentru rezolvarea unui sistem de ecuații în care numărul de necunoscute este mai mic decât numărul de ecuații; Până atunci s-au folosit metode deosebite, în funcție de tipul ecuațiilor și de ingeniozitatea calculatoarelor și, prin urmare, calculatoare diferite, pornind de la aceleași date observaționale, au ajuns la concluzii diferite. Gauss (1795) este creditat cu prima aplicare a metodei, iar Legendre (1805) a descoperit-o și publicat-o independent sub numele său modern ( franceză:  Méthode des moidres quarrés ) [1] . Laplace a conectat metoda cu teoria probabilității , iar matematicianul american Adrain (1808) a considerat aplicațiile probabilistice ale acesteia [2] . Metoda este răspândită și îmbunătățită prin cercetări ulterioare ale lui Encke , Bessel , Hansen și alții.

Lucrările lui A. A. Markov de la începutul secolului al XX-lea au făcut posibilă includerea metodei celor mai mici pătrate în teoria estimării statisticii matematice, în care este o parte importantă și naturală. Prin eforturile lui Y. Neiman, F. David, A. Aitken, S. Rao s-au obținut multe rezultate importante în acest domeniu [3] .

Esența metodei celor mai mici pătrate

Fie , un set de date experimentale scalare, , un set de date experimentale vectoriale și se presupune că depinde de .

Se introduc unele funcții scalare (în cel mai simplu caz liniar) , care este determinată de vectorul parametrilor necunoscuți .

Sarcina este de a găsi un vector astfel încât totalitatea erorilor să fie într-un anumit sens minimă.

Conform metodei celor mai mici pătrate, soluția acestei probleme este vectorul , care minimizează funcția

În cel mai simplu caz , și apoi rezultatul celor mai mici pătrate va fi media aritmetică a datelor de intrare.

Avantajul LSM față de minimizarea altor tipuri de erori este că, dacă este diferențiabilă în raport cu , atunci este și diferențiabilă. Echivalarea derivatelor parțiale la zero reduce problema la rezolvarea unui sistem de ecuații, iar dacă depinde de liniar, atunci sistemul de ecuații va fi liniar.

Un exemplu este un sistem de ecuații liniare

În special, metoda celor mai mici pătrate poate fi utilizată pentru a „rezolva” sistemul de ecuații liniare

,

unde este o matrice dreptunghiulară de dimensiune (adică numărul de rânduri ale matricei A este mai mare decât numărul de variabile căutate).

Un astfel de sistem de ecuații, în general, nu are soluție. Prin urmare, acest sistem poate fi „rezolvat” doar în sensul alegerii unui astfel de vector pentru a minimiza „distanța” dintre vectori și . Pentru a face acest lucru, puteți aplica criteriul de minimizare a sumei diferențelor pătrate ale părților din stânga și din dreapta ecuațiilor sistemului, adică . Este ușor de arătat că rezolvarea acestei probleme de minimizare duce la rezolvarea următorului sistem de ecuații

.

Folosind operatorul de pseudo-inversie , soluția poate fi rescrisă astfel:

,

unde  este matricea pseudoinversa pentru .

Această problemă poate fi, de asemenea, „rezolvată” folosind așa-numitele cele mai mici pătrate ponderate (vezi mai jos), atunci când diferite ecuații ale sistemului primesc ponderi diferite din considerente teoretice.

Fundamentarea și determinarea strictă a limitelor de aplicabilitate semnificativă a metodei au fost date de A. A. Markov și A. N. Kolmogorov .

MCO în analiza de regresie (aproximarea datelor)

Să existe valori ale unei variabile (pot fi rezultatele observațiilor, experimentelor etc.) și variabilelor corespunzătoare . Sarcina este de a aproxima relația dintre și de către o funcție cunoscută până la niște parametri necunoscuți , adică, de fapt, să găsim cele mai bune valori ale parametrilor care aduc valorile cât mai aproape de valorile reale . De fapt, aceasta se reduce la cazul „rezolvării” unui sistem supradeterminat de ecuații cu privire la :

.

În analiza de regresie, și în special în econometrie, sunt utilizate modele probabilistice ale relației dintre variabile.

,

unde  sunt așa-numitele erori aleatoare ale modelului.

În consecință, abaterile valorilor observate de la valorile modelului sunt deja presupuse în modelul însuși. Esența LSM (obișnuită, clasică) este găsirea unor astfel de parametri sub care suma abaterilor pătrate (erori, pentru modelele de regresie sunt adesea numite reziduuri de regresie ) să fie minimă:

,

unde  este engleza. Suma reziduală a pătratelor [4] este definită ca:  

.

În cazul general, această problemă poate fi rezolvată prin metode numerice de optimizare (minimizare). În acest caz, se vorbește despre cele mai mici pătrate neliniare (NLS sau NLLS - English  Non-Linear Least Squares ). În multe cazuri, se poate obține o soluție analitică. Pentru a rezolva problema de minimizare, este necesar să găsim punctele staționare ale funcției prin diferențierea acesteia în raport cu parametrii necunoscuți , echivalând derivatele la zero și rezolvând sistemul de ecuații rezultat:

.

MCO în cazul regresiei liniare

Fie dependența de regresie liniară :

.

Fie y  un vector coloană de observații ale variabilei explicate și  o matrice de observații ale factorilor (rândurile matricei sunt vectorii valorilor factorilor într-o observație dată, de-a lungul coloanelor sunt vectorul valorilor a unui factor dat în toate observațiile). Reprezentarea matricială a modelului liniar are forma:

.

Atunci vectorul estimărilor variabilei explicate și vectorul reziduurilor de regresie vor fi egale cu

.

în consecință, suma pătratelor reziduurilor de regresie va fi egală cu

.

Diferențiând această funcție în raport cu vectorul parametru și echivalând derivatele la zero, obținem un sistem de ecuații (sub formă de matrice):

.

În forma matricei descifrate, acest sistem de ecuații arată astfel:

unde toate sumele sunt preluate peste toate valorile admisibile ale .

Dacă în model este inclusă o constantă (ca de obicei), atunci pentru toate , prin urmare, în colțul din stânga sus al matricei sistemului de ecuații este numărul de observații , iar în elementele rămase din primul rând și prima coloană - doar suma valorilor variabilelor: iar primul element din partea dreaptă a sistemului este .

Rezolvarea acestui sistem de ecuații oferă formula generală pentru estimările celor mai mici pătrate pentru modelul liniar:

.

În scopuri analitice, ultima reprezentare a acestei formule se dovedește a fi utilă (în sistemul de ecuații, la împărțirea la n, în loc de sume apar mediile aritmetice). Dacă datele sunt centrate în modelul de regresie , atunci în această reprezentare prima matrice are semnificația matricei de covarianță eșantion de factori, iar a doua este vectorul de covarianță a factorilor cu variabila dependentă. Dacă, în plus, datele sunt și normalizate la RMS (adică, eventual standardizate ), atunci prima matrice are semnificația unei matrice de corelație eșantion de factori, al doilea vector - vectori de corelații de eșantion de factori cu o variabilă dependentă.

O proprietate importantă a estimărilor LLS pentru modelele cu o constantă  este că linia regresiei construite trece prin centrul de greutate al datelor eșantionului, adică egalitatea este îndeplinită:

.

În special, în cazul extrem, când singurul regresor este o constantă, constatăm că estimarea MCO a unui singur parametru (constanta însăși) este egală cu valoarea medie a variabilei explicate. Adică, media aritmetică, cunoscută pentru proprietățile sale bune din legile numerelor mari, este și o estimare a celor mai mici pătrate - satisface criteriul pentru suma minimă a abaterilor pătrate de la aceasta.

Cele mai simple cazuri speciale

În cazul regresiei liniare perechi , când se estimează dependența liniară a unei variabile față de alta, formulele de calcul sunt simplificate (puteți face fără algebra matriceală). Sistemul de ecuații are forma:

.

De aici este ușor să găsiți estimări pentru coeficienți:

Deși modelele constante sunt în general de preferat, în unele cazuri se știe din considerente teoretice că constanta ar trebui să fie zero. De exemplu, în fizică, relația dintre tensiune și curent are forma ; măsurând tensiunea și curentul, este necesar să se estimeze rezistența. În acest caz, vorbim despre model . În acest caz, în loc de un sistem de ecuații, avem o singură ecuație

.

Prin urmare, formula de estimare a unui singur coeficient are forma

.

Cazul modelului polinom

Dacă datele sunt aproximate printr-o funcție de regresie polinomială a unei variabile , atunci, prin perceperea gradelor ca factori independenți pentru fiecare , este posibilă estimarea parametrilor modelului pe baza formulei generale de estimare a parametrilor modelului liniar. Pentru a face acest lucru, în formula generală, este suficient să se țină seama că cu o astfel de interpretare a și . Prin urmare, ecuațiile matriceale în acest caz vor lua forma:

Proprietățile statistice ale estimărilor MCO

În primul rând, observăm că pentru modelele liniare, estimările celor mai mici pătrate sunt estimări liniare, după cum rezultă din formula de mai sus. Pentru estimările MCO nepărtinitoare , este necesar și suficient să se îndeplinească cea mai importantă condiție a analizei de regresie : condiționată de factori, așteptarea matematică a unei erori aleatoare trebuie să fie egală cu zero. Această condiție este îndeplinită, în special, dacă

  1. așteptarea matematică a erorilor aleatoare este zero și
  2. factorii și erorile aleatoare sunt variabile aleatoare independente .

Prima condiție pentru modelele cu o constantă poate fi considerată întotdeauna satisfăcută, deoarece constanta presupune o așteptare matematică diferită de zero de erori (prin urmare, modelele cu o constantă sunt în general de preferat).

A doua condiție - condiția factorilor exogeni - este fundamentală. Dacă această proprietate nu este satisfăcută, atunci putem presupune că aproape orice estimări vor fi extrem de nesatisfăcătoare: nici măcar nu vor fi consecvente (adică chiar și o cantitate foarte mare de date nu permite obținerea de estimări calitative în acest caz). În cazul clasic, se face o presupunere mai puternică despre determinismul factorilor, în contrast cu o eroare aleatorie, ceea ce înseamnă automat că condiția exogenă este satisfăcută. În cazul general, pentru consistența estimărilor, este suficient să se îndeplinească condiția de exogeneitate împreună cu convergența matricei către o matrice nesingulară cu o creștere a dimensiunii eșantionului la infinit.

Pentru ca, pe lângă consecvență și imparțialitate , estimările celor mai mici pătrate (obișnuite) să fie și eficiente (cele mai bune din clasa estimărilor liniare nepărtinitoare), trebuie îndeplinite proprietăți suplimentare ale erorii aleatoare:

  • Varianta constantă (aceeași) a erorilor aleatoare în toate observațiile (fără heteroscedasticitate ): .
  • Lipsa corelației ( autocorelarea ) a erorilor aleatorii în diferite observații între ele .

Aceste ipoteze pot fi formulate pentru matricea de covarianță a vectorului de erori aleatoare .

Un model liniar care satisface astfel de condiții se numește clasic . Estimările LLS pentru regresia liniară clasică sunt estimări imparțiale , consecvente și cele mai eficiente din clasa tuturor estimărilor nepărtinitoare liniare ). După cum este ușor de arătat, matricea de covarianță a vectorului de estimare a coeficienților va fi egală cu:

.

Eficiența înseamnă că această matrice de covarianță este „minimă” (orice combinație liniară de estimări de coeficienți, și în special estimările de coeficienți în sine au o varianță minimă), adică, în clasa estimărilor liniare nepărtinitoare, estimările MCO sunt cele mai bune . Elementele diagonale ale acestei matrice, varianțele estimărilor coeficienților, sunt parametri importanți pentru calitatea estimărilor obținute. Cu toate acestea, nu este posibil să se calculeze matricea de covarianță deoarece varianța erorii aleatoare este necunoscută. Se poate dovedi că estimarea imparțială și consistentă (pentru modelul liniar clasic) a varianței erorilor aleatoare este valoarea:

.

Înlocuind această valoare în formula pentru matricea de covarianță, obținem o estimare a matricei de covarianță. Estimările rezultate sunt, de asemenea, imparțiale și consecvente . De asemenea, este important ca estimarea varianței erorii (și deci variațiile coeficienților) și estimările parametrilor modelului să fie variabile aleatoare independente, ceea ce face posibilă obținerea de statistici de testare pentru testarea ipotezelor despre coeficienții modelului.

Trebuie remarcat faptul că, dacă ipotezele clasice nu sunt îndeplinite, estimările parametrilor celor mai mici pătrate nu sunt cele mai eficiente estimări (rămânând imparțial și consecvent ). Cu toate acestea, estimarea matricei de covarianță se înrăutățește și mai mult: devine părtinitoare și inconsecventă . Aceasta înseamnă că concluziile statistice despre calitatea modelului construit în acest caz pot fi extrem de nesigure. O modalitate de a rezolva această problemă este de a folosi estimări speciale ale matricei de covarianță care sunt consecvente sub încălcări ale ipotezelor clasice ( erori standard în forma White și erori standard în forma Newey-West ). O altă abordare este aplicarea așa-numitelor cele mai mici pătrate generalizate .

Cele mai mici pătrate generalizate

Metoda celor mai mici pătrate permite o generalizare largă. În loc să minimizezi suma pătratelor reziduurilor, se poate minimiza o formă pătratică definită pozitiv a vectorului rezidual , unde  este o matrice de greutate simetrică pozitiv-definită. Cele mai mici pătrate obișnuite este un caz special al acestei abordări, când matricea de ponderi este proporțională cu matricea de identitate. După cum se știe, există o descompunere pentru matrice (sau operatori) simetrice . Prin urmare, funcționalitatea specificată poate fi reprezentată astfel: , adică această funcțională poate fi reprezentată ca suma pătratelor unor „reziduuri” transformate. Astfel, putem distinge o clasă de metode ale celor mai mici pătrate - LS-methods (Least Squares).

S-a demonstrat (teorema lui Aitken) că pentru un model de regresie liniară generalizată (în care nu sunt impuse restricții asupra matricei de covarianță a erorilor aleatoare), cele mai eficiente (din clasa estimărilor liniare nepărtinitoare) sunt estimările așa-numitelor . Cele mai mici pătrate generalizate (GLS, GLS - Generalized Least Squares)  - LS-metoda cu o matrice de ponderi egală cu matricea de covarianță inversă a erorilor aleatoare: .

Se poate arăta că formula pentru estimările GLS ale parametrilor modelului liniar are forma

.

Matricea de covarianță a acestor estimări, respectiv, va fi egală cu

.

De fapt, esența MCO constă într-o anumită transformare (liniară) (P) a datelor originale și aplicarea celor mai mici pătrate uzuale la datele transformate. Scopul acestei transformări este ca pentru datele transformate, erorile aleatoare să satisfacă deja ipotezele clasice.

MCO ponderate

În cazul unei matrice de ponderi diagonale (și deci o matrice de covarianță a erorilor aleatoare), avem așa-numitele cele mai mici pătrate ponderate. În acest caz, suma ponderată a pătratelor a reziduurilor modelului este minimizată, adică fiecare observație primește o „pondere” care este invers proporțională cu varianța erorii aleatoare din această observație: . De fapt, datele sunt transformate prin ponderarea observațiilor (împărțirea la o sumă proporțională cu abaterea standard presupusă a erorilor aleatoare), iar datelor ponderate se aplică cele mai mici pătrate normale.

Vezi și

Note

  1. Legendre, Pe cele mai mici pătrate. Tradus din limba franceză de profesorul Henry A. Ruger și profesorul Helen M. Walker, Teachers College, Columbia University, New York City. Arhivat pe 7 ianuarie 2011 la Wayback Machine 
  2. Aleksandrova, 2008 , p. 102.
  3. Linnik, 1962 , p. 21.
  4. Magnus, Katyshev, Peresetsky, 2007 , desemnarea RSS neunificată. RSS poate fi prescurtare pentru suma de regresie a pătratelor, iar ESS poate fi prescurtare pentru suma de eroare a pătratelor, deci RSS și ESS vor avea sensul opus. Cu. 52. Edițiile din 2004..

Literatură

  • Yu V. Linnik Metoda celor mai mici pătrate și fundamentele teoriei matematico-statistice a prelucrării observației. - Ed. a II-a. - M. , 1962.(teorie matematică)
  • Ayvazyan S.A. Statistici aplicate. Fundamentele econometriei. Volumul 2. - M . : Unitate-Dana, 2001. - 432 p. - ISBN 5-238-00305-6 .
  • Dougherty K. Introducere în econometrie: Per. din engleza. - M. : INFRA-M, 1999. - 402 p. — ISBN 8-86225-458-7 .
  • Kremer N. Sh., Putko B. A. Econometrie. - M . : Unitate-Dana, 2003-2004. — 311 p. — ISBN 8-86225-458-7 .
  • Magnus Ya. R., Katyshev P. K., Peresetsky A. A. Econometrie. Curs inițial. - M . : Delo, 2007. - 504 p. - ISBN 978-5-7749-0473-0 .
  • Econometrie. Manual / Ed. Eliseeva I. I. - ed. a II-a. - M. : Finanțe și statistică, 2006. - 576 p. — ISBN 5-279-02786-3 .
  • Aleksandrova N. V. Istoria termenilor, conceptelor, denumirilor matematice: un dicționar de referință. - Ed. a III-a - M . : LKI, 2008. - 248 p. - ISBN 978-5-382-00839-4 .
  • Vitkovsky V.V. Cele mai mici pătrate // Dicționar enciclopedic al lui Brockhaus și Efron  : în 86 de volume (82 de volume și 4 suplimentare). - Sankt Petersburg. , 1890-1907.
  • Mitin IV, Rusakov VS Analiza și prelucrarea datelor experimentale. — ediția a 5-a. — 24 s.

Link -uri