Regresia ( lat. regresio - mișcare înapoi, retragere) în teoria probabilităților și statistica matematică este o relație stocastică unilaterală care stabilește o corespondență între variabile aleatoare [1] , adică o expresie matematică care reflectă relația dintre variabila dependentă y iar variabilele independente x , cu condiţia ca această expresie să aibă semnificaţie statistică . Spre deosebire de dependența pur funcțională y = f ( x ), când fiecare valoare a variabilei independente x corespunde unei valori specifice a lui y , cu o relație de regresie, aceeași valoare a lui x poate corespunde, în funcție de caz, unor diferite valorile lui y . Dacă pentru fiecare valoare există valori y i 1 … y în i ale valorii y , atunci dependența mediilor aritmetice de și este o regresie în sensul statistic al acestui termen [2] .
Acest termen a fost folosit pentru prima dată în statistică de Francis Galton (1886) în legătură cu studiul moștenirii caracteristicilor fizice umane. Înălțimea omului a fost luată ca una dintre caracteristici; în timp ce s-a constatat că, în general, fiii taților înalți, deloc surprinzător, erau mai înalți decât fiii taților cu statură mică. Mai interesant a fost că variația înălțimii fiilor era mai mică decât variația înălțimii părinților. Așa s-a manifestat tendința de a readuce creșterea fiilor la medie ( regresie la mediocritate ), adică „regresie”. Acest fapt a fost demonstrat prin calcularea înălțimii medii a fiilor taților care au 56 de centimetri înălțime, prin calcularea înălțimii medii a fiilor taților care au 58 de centimetri înălțime și așa mai departe . , și de-a lungul axei absciselor - valorile a înălțimii medii a taților. Punctele (aproximativ) se află pe o dreaptă cu o pantă pozitivă mai mică de 45°; este important ca regresia să fie liniară .
Să presupunem că există un eșantion dintr-o distribuție bivariată a unei perechi de variabile aleatoare ( X, Y ). Linia dreaptă în plan ( x, y ) a fost analogul selectiv al funcției
În teoria probabilității, termenul „regresie” este înțeles ca această funcție, care nu este altceva decât o așteptare matematică condiționată a unei variabile aleatoare Y , cu condiția ca o altă variabilă aleatoare X să fi luat valoarea x . Dacă, de exemplu, o pereche ( X, Y ) are o distribuție normală bivariată cu E ( X )=μ 1 , E ( Y )=μ 2 , var( X )=σ 1 2 , var( Y )=σ 2 2 , cor ( X, Y )=ρ, atunci se poate demonstra că distribuția condiționată a lui Y pentru X = x va fi de asemenea normală cu așteptarea egală cu
și dispersie
În acest exemplu, regresia lui Y pe X este o funcție liniară . Dacă regresia lui Y pe X nu este liniară, atunci ecuațiile date sunt o aproximare liniară a adevăratei ecuații de regresie.
În general, regresia unei variabile aleatoare la alta nu va fi neapărat liniară. De asemenea, nu este necesar să vă limitați la câteva variabile aleatorii. Problemele de regresie statistică sunt asociate cu determinarea formei generale a ecuației de regresie, construirea de estimări ale parametrilor necunoscuți incluși în ecuația de regresie și testarea ipotezelor statistice despre regresie [3] . Aceste probleme sunt luate în considerare în cadrul analizei de regresie .
Un exemplu simplu de regresie Y pe X este relația dintre Y și X , care este exprimată prin relația: Y = u ( X ) + ε, unde u ( x )= E ( Y | X = x ) și aleatoriu variabilele X și ε sunt independente. Această reprezentare este utilă atunci când este planificat un experiment pentru a studia relația funcțională y = u ( x ) dintre variabilele non-aleatoare y și x . În practică, coeficienții de regresie din ecuația y = u ( x ) sunt de obicei necunoscuți și sunt estimați din date experimentale.
Reprezentăm dependența lui y de x sub forma unui model liniar de ordinul întâi:
Vom presupune că valorile x sunt determinate fără eroare, β 0 și β 1 sunt parametri de model, iar ε este o eroare a cărei distribuție respectă legea normală cu medie zero și abatere constantă σ 2 . Valorile parametrilor β nu sunt cunoscute în prealabil și trebuie determinate dintr-un set de valori experimentale ( x i , y i ), i =1, …, n . Astfel putem scrie:
unde înseamnă valoarea lui y prezisă de model pentru un dat x , b 0 și b 1 sunt estimări ale parametrilor modelului. Să determinăm, de asemenea, — valoarea erorii de aproximare pentru a- a observație.
Pentru a calcula parametrii modelului din datele experimentale, diferite programe sunt adesea folosite pentru prelucrarea datelor statistice. Cu toate acestea, pentru acest caz simplu, nu este dificil să scrieți formule detaliate [4] [5] .
Metoda celor mai mici pătrate oferă următoarele formule pentru calcularea parametrilor acestui model și a abaterilor acestora:
aici, mediile sunt definite ca de obicei: , iar s e 2 denotă abaterea reziduală a regresiei, care este estimarea varianței σ 2 dacă modelul este corect.
Erorile standard ale coeficienților de regresie sunt utilizate în același mod ca și eroarea standard a mediei - pentru a găsi intervale de încredere și a testa ipotezele. Utilizăm, de exemplu, criteriul lui Student pentru a testa ipoteza că coeficientul de regresie este egal cu zero, adică este nesemnificativ pentru model. Statistica elevului: . Dacă probabilitatea pentru valoarea obținută și n − 2 grade de libertate este suficient de mică, de exemplu, <0,05, ipoteza este respinsă. Dimpotrivă, dacă nu există niciun motiv de respingere a ipotezei nule, să zicem, există motive să ne gândim la existența regresiei dorite, cel puțin sub această formă, sau la colectarea de observații suplimentare. Dacă termenul liber este egal cu zero , atunci linia dreaptă trece prin origine și estimarea pantei este egală cu
,și eroarea sa standard
De obicei, valorile adevărate ale coeficienților de regresie β 0 și β 1 nu sunt cunoscute. Sunt cunoscute doar estimările lor b 0 și b 1 . Cu alte cuvinte, adevărata linie dreaptă de regresie poate fi diferită de cea construită pe datele eșantionului. Puteți calcula regiunea de încredere pentru linia de regresie. Pentru orice valoare a lui x , valorile corespunzătoare ale lui y sunt distribuite în mod normal. Media este valoarea ecuației de regresie . Incertitudinea estimării sale este caracterizată de eroarea standard de regresie:
Acum puteți calcula intervalul de încredere procentual pentru valoarea ecuației de regresie în punctul x :
,unde t (1−α/2, n − 2) este valoarea t - a distribuției lui Student. Figura prezintă o linie de regresie cu 10 puncte (puncte solide), precum și regiunea de încredere de 95% a liniei de regresie, care este delimitată de linii punctate. Cu o probabilitate de 95%, se poate argumenta că adevărata linie este undeva în interiorul acestei zone. Sau altfel, dacă colectăm seturi de date similare (indicate prin cercuri) și construim linii de regresie pe ele (indicate cu albastru), atunci în 95 de cazuri din 100 aceste linii nu vor părăsi regiunea de încredere. (Faceți clic pe imagine pentru a vizualiza) Rețineți că unele puncte sunt în afara regiunii de încredere. Acest lucru este complet natural, deoarece vorbim despre regiunea de încredere a liniei de regresie și nu despre valorile în sine. Împrăștierea valorilor este suma împrăștierii valorilor în jurul liniei de regresie și incertitudinea poziției acestei linii în sine, și anume:
Aici m este multiplicitatea măsurătorii y pentru un x dat . Iar intervalul de încredere procentual (interval de predicție) pentru media valorilor m y ar fi:
.În figură, această regiune de încredere de 95% la m = 1 este limitată de linii continue. 95% din toate valorile posibile ale lui y din intervalul studiat de valori x se încadrează în această regiune .
Se poate dovedi riguros că dacă așteptarea condiționată a unei variabile aleatoare bidimensionale ( X, Y ) este o funcție liniară a , atunci această așteptare condiționată trebuie reprezentată sub forma , unde E ( X )=μ 1 , E ( Y )=μ 2 , var ( X )=σ 1 2 , var( Y )=σ 2 2 , cor( X, Y )=ρ.
Mai mult, pentru modelul liniar menționat anterior , unde și sunt variabile aleatoare independente și are așteptare zero (și o distribuție arbitrară), putem demonstra că . Apoi, folosind egalitatea indicată mai sus, se pot obține formule pentru și : ,
.
Dacă de undeva se știe a priori că mulțimea punctelor aleatoare de pe plan este generată de un model liniar, dar cu coeficienți necunoscuți și , se pot obține estimări punctuale ale acestor coeficienți folosind formulele indicate. Pentru a face acest lucru, în loc de așteptări matematice, varianțe și corelații ale variabilelor aleatoare X și Y , trebuie să înlocuiți estimările lor imparțiale în aceste formule. Formulele de estimare obţinute coincid exact cu formulele derivate pe baza metodei celor mai mici pătrate.
Dicționare și enciclopedii |
---|