Model de alegere binară

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită la 9 decembrie 2016; verificările necesită 5 modificări .

Un model de alegere binară este un model al dependenței unei variabile binare (luând doar două valori - 0 și 1) de un set de factori utilizați în econometrie . Construcția unui model liniar obișnuit pentru astfel de variabile dependente este teoretic incorectă, deoarece așteptarea condiționată a unor astfel de variabile este egală cu probabilitatea ca variabila dependentă să ia valoarea 1, iar modelul liniar permite, printre altele, valori negative. și valori peste 1 (în ciuda faptului că probabilitatea trebuie să fie de la 0 la 1). Prin urmare, unele funcții de distribuție cumulativă sunt utilizate în mod obișnuit. Cele mai utilizate sunt distribuția normală ( probit ), distribuția logistică ( logit ) și distribuția Gompertz ( gompit ).

Esența modelului

Fie variabila binară, adică poate lua doar două valori, care, pentru simplitate, se presupune că sunt egale cu și . De exemplu, poate însemna prezența/absența oricăror condiții, succesul sau eșecul a ceva, răspunsul este da/nu într-un sondaj etc. Să existe și un vector de regresori (factori) care afectează . $Y$ $unu$ $0$ $Y$ $X$ $Y$

Modelul de regresie se ocupă de așteptarea factori-condițională a variabilei dependente, care în acest caz este egală cu probabilitatea ca variabila dependentă să fie egală cu 1. Într-adevăr, prin definirea așteptării matematice și luând în considerare doar două valori posibile , avem:

E(Y\mid X=x)=1\cdot P(Y=1\mid X=x)+0\cdot P(Y=0\mid X=x)=P(Y=1\mid X=x)=p(x)

În acest sens, utilizarea, de exemplu, a modelului standard de regresie liniară este teoretic incorectă, fie și numai pentru că probabilitatea, prin definiție, ia valori limitate de la 0 la 1. În acest sens, este rezonabil să se modeleze prin intermediul funcţiile integrale ale anumitor distribuţii. $y=x^{T}b+\varepsilon$ $p(x)$

De obicei, se presupune că există o variabilă „obișnuită” ascunsă (neobservată) , în funcție de valorile cărora variabila observată ia valoarea 0 sau una: $Y^{*}$ $Y$

Y={\begin{cases}1,Y^{*}>0\\0,Y^{*}<0\end{cases))

Se presupune că variabila latentă depinde de factori în sensul regresiei liniare uzuale , unde eroarea aleatorie are o distribuţie . Apoi $X$ $y^{*}=x^{T}b+\varepsilon$ $F$

$p(x)=P(Y^{*}>0|X=x)=P(x^{T}b+\varepsilon >0)=P(\varepsilon >-x^{T}b) =1-F(-x^{T}b)$

Dacă distribuția este simetrică, atunci putem scrie

$p(x)=F(x^{T}b)$

Interpretare economică

O altă justificare este utilizarea conceptului de utilitate a alternativelor - nu o funcție observabilă , adică, de fapt, două funcții și, respectiv, pentru două alternative. Este logic să presupunem că, dacă, pentru valorile date ale factorilor, utilitatea unei alternative este mai mare decât utilitatea celeilalte, atunci se alege prima și invers. În această privință, este rezonabil să se ia în considerare funcția de diferență de utilitate a alternativelor . Dacă este mai mare decât zero, atunci se alege prima alternativă; dacă este mai mică sau egală cu zero, atunci a doua. Astfel, funcția de diferență de utilitate a alternativelor joacă aici rolul variabilei foarte ascunse. Prezența unei erori aleatoare în modelele de utilitate face posibilă luarea în considerare a determinismului non-absolut al alegerii (cel puțin, nedeterminarea unui set dat de factori, deși există un element de aleatorie a alegerii pentru orice set de factori). $U(y,x)$ $U_{1}(x)=x^{T}b_{1}+\varepsilon _{1}$ $U_{0}(x)=x^{T}b_{0}+\varepsilon _{0}$ $\Delta U(x)=U_{1}(x)-U_{0}(x)=x^{T}(b_{1}-b_{0})+(\varepsilon _{1} -\varepsilon _{0})=x^{T}b+\varepsilon$

Modele de distribuție

Probit . Modelul probitutilizează funcția cumulativă a distribuției normale standard: $F$ $\Phi$

p(x)=1-\Phi (-x^{T}b)=\Phi (x^{T}b)

Logit . Modelul logit utilizează CDF-ul distribuției logistice:

p(x)=1-e^{-x^{T}b}/(1+e^{-x^{T}b})=e^{x^{T}b}/( 1+e^{x^{T}b})

Gompit . Se utilizează distribuția valorilor extreme - distribuția Gompertz:

p(x)=1-(1-e^{e^{-x^{T}b)))=e^{e^{-x^{T}b))

Estimarea parametrilor

Estimarea se face de obicei prin metoda probabilității maxime . Să fie un eșantion al volumului de factori și o variabilă dependentă . Pentru un număr de observație dat, utilizați indexul . Probabilitatea de a obține o valoare într-o observație poate fi modelată după cum urmează: $n$ $X$ $Y$ $t$ $t$ $YT}$

P(Y=y_{t})=p^{y_{t}}(x_{t})(1-p(x_{t}))^{1-y_{t}}=(1 -F(-x_{t}^{T}b))^{y_{t}}F^{1-y_{t}}(-x_{t}^{T}b)

Într-adevăr, dacă , atunci al doilea factor este în mod evident egal cu 1, iar primul este doar , dar dacă , atunci primul factor este egal cu unu, iar al doilea este egal cu . Se presupune că datele sunt independente. Prin urmare, funcția de probabilitate poate fi obținută ca produs al probabilităților de mai sus: $y_{t}=1$ $p(x_{t})$ $y_{t}=0$ $(1-p(x_{t}))$

L(b)=\prod _{t=1}^{n}(1-F(-x_{t}^{T}b))^{y_{t))F^{1-y_ {t}}(-x_{t}^{T}b)

În consecință , funcția de probabilitate logaritmică are forma:

l(b)=\sum _{t=1}^{n}y_{t}\ln(1-F(-x_{t}^{T}b))+(1-y_{t })\ln F(-x_{t}^{T}b)

Maximizarea acestei funcții în raport cu parametrii necunoscuți permite obținerea unor estimări ale parametrilor consecvente , eficiente din punct de vedere asimptotic și normali asimptotic . Aceasta din urmă înseamnă că:

{\sqrt {n}}({\hat {b}}-b)\ {\xrightarrow {d}}\ {\mathcal {N}}(0,\,\Omega ^{-1}) ,

unde este matricea de covarianță asimptotică a estimărilor parametrilor, care este determinată în mod standard pentru metoda probabilității maxime (prin Hessian sau gradientul funcției de log-probabilitate în punctul optim). $\Omega ^{-1}$

Valori de calitate și testare a modelelor

Statistica raportului de probabilitate

LR=2(l_{1}-l_{0})

unde sunt valorile log-probabilității modelului estimat și modelului constrâns, în care este o constantă (nu depinde de factorii x, excluzând constanta din setul de factori). $l_{1},l_{0)$ $p(x)$

Această statistică, ca și în cazul general al utilizării metodei maximă probabilitate, permite testarea semnificației statistice a modelului în ansamblu. Dacă valoarea sa este suficient de mare (mai mult decât valoarea critică a distribuției , unde este numărul de factori (fără o constantă) ai modelului), atunci modelul poate fi considerat semnificativ statistic. $\chi ^{2}(k)$ $k$

Se folosesc și analogi ai coeficientului clasic de determinare , de exemplu:

Pseudo-coeficient de determinare :

R_{pseudo}^{2}=1-{\frac {1}{1+LR/n}}={\frac {LR}{LR+n}}

Coeficientul de determinare al lui McFadden ( indicele raportului de probabilitate ):

R_{McFadden}^{2}=LRI=1-l_{1}/l_{0}

Ambii indicatori variază de la 0 la 1.

Criterii de informare : criteriul de informare Akaike (AIC), criteriul de informare Bayesian Schwartz (BIC, SC), criteriul Hennan-Queen (HQ).

Este important să se analizeze proporția de predicții corecte în funcție de pragul de clasificare selectat (de la ce nivel de probabilitate se ia valoarea 1). De obicei, curba ROC este utilizată pentru a evalua calitatea modelului, iar indicatorul AUC este aria de sub curba ROC.

Statistici Hosmer-Lemeshow (HL, HL, Hosmer-Lemeshow ). Pentru a calcula aceste statistici, eșantionul este împărțit în mai multe subeșantioane, pentru fiecare dintre acestea fiind determinate - proporția reală a datelor cu valoarea variabilei dependente 1, adică, de fapt, valoarea medie a variabilei dependente pentru subeșantion

p_{j}={\overline {y}}_{j}=\sum _{i=1}^{n_{j}}{y}_{ij}/n_{j}

și probabilitatea medie prevăzută pentru subgrup

{\overline {\hat {p}}}_{j}=\sum _{i=1}^{n_{j}}{\hat {p}}_{ij}/n_{j}

. Apoi valoarea statisticii HL este determinată de formula

HL=\sum _{j=1}^{J}{\frac {n_{j}(p_{j}-{\overline {\hat {p))}_{j})^{2 }}({\overline {\hat {p}}}_{j}(1-{\overline {\hat {p}}}_{j}})))

Distribuția exactă a acestei statistici este necunoscută, dar autorii au descoperit prin simulare că este aproximată de distribuție . $\chi ^{2}(J-2)$

Statistici Andrews (Andrews)

Vezi și

Literatură

Magnus Ya. R., Katyshev P. K., Peresetsky A. A. Econometrie. Curs inițial. - M . : Delo, 2007. - 504 p. - ISBN 978-5-7749-0473-0 . .

Nosko V.P. Econometrie pentru începători (capitole suplimentare). – M.: IET, 2005. S. 379.

Greene, William H. (1997) Econometric Analysis, ediția a 3-a, Prentice-Hall.

Andrews, Donald WK (1988) „Teste de diagnosticare Chi-Pătrat pentru modele econometrice: teorie”, Econometrica , 56, 1419–1453.

Andrews, Donald WK (1988) „Teste de diagnosticare Chi-Pătrat pentru modele econometrice: introducere și aplicații”, Journal of Econometrics, 37, 135–156.

Hosmer, David W. Jr. și Stanley Lemeshow (1989) Applied Logistic Regression, John Wiley & Sons.