Un model de alegere binară este un model al dependenței unei variabile binare (luând doar două valori - 0 și 1) de un set de factori utilizați în econometrie . Construcția unui model liniar obișnuit pentru astfel de variabile dependente este teoretic incorectă, deoarece așteptarea condiționată a unor astfel de variabile este egală cu probabilitatea ca variabila dependentă să ia valoarea 1, iar modelul liniar permite, printre altele, valori negative. și valori peste 1 (în ciuda faptului că probabilitatea trebuie să fie de la 0 la 1). Prin urmare, unele funcții de distribuție cumulativă sunt utilizate în mod obișnuit. Cele mai utilizate sunt distribuția normală ( probit ), distribuția logistică ( logit ) și distribuția Gompertz ( gompit ).
Fie variabila binară, adică poate lua doar două valori, care, pentru simplitate, se presupune că sunt egale cu și . De exemplu, poate însemna prezența/absența oricăror condiții, succesul sau eșecul a ceva, răspunsul este da/nu într-un sondaj etc. Să existe și un vector de regresori (factori) care afectează .
Modelul de regresie se ocupă de așteptarea factori-condițională a variabilei dependente, care în acest caz este egală cu probabilitatea ca variabila dependentă să fie egală cu 1. Într-adevăr, prin definirea așteptării matematice și luând în considerare doar două valori posibile , avem:
În acest sens, utilizarea, de exemplu, a modelului standard de regresie liniară este teoretic incorectă, fie și numai pentru că probabilitatea, prin definiție, ia valori limitate de la 0 la 1. În acest sens, este rezonabil să se modeleze prin intermediul funcţiile integrale ale anumitor distribuţii.
De obicei, se presupune că există o variabilă „obișnuită” ascunsă (neobservată) , în funcție de valorile cărora variabila observată ia valoarea 0 sau una:
Se presupune că variabila latentă depinde de factori în sensul regresiei liniare uzuale , unde eroarea aleatorie are o distribuţie . Apoi
Dacă distribuția este simetrică, atunci putem scrie
O altă justificare este utilizarea conceptului de utilitate a alternativelor - nu o funcție observabilă , adică, de fapt, două funcții și, respectiv, pentru două alternative. Este logic să presupunem că, dacă, pentru valorile date ale factorilor, utilitatea unei alternative este mai mare decât utilitatea celeilalte, atunci se alege prima și invers. În această privință, este rezonabil să se ia în considerare funcția de diferență de utilitate a alternativelor . Dacă este mai mare decât zero, atunci se alege prima alternativă; dacă este mai mică sau egală cu zero, atunci a doua. Astfel, funcția de diferență de utilitate a alternativelor joacă aici rolul variabilei foarte ascunse. Prezența unei erori aleatoare în modelele de utilitate face posibilă luarea în considerare a determinismului non-absolut al alegerii (cel puțin, nedeterminarea unui set dat de factori, deși există un element de aleatorie a alegerii pentru orice set de factori).
Probit . Modelul probitutilizează funcția cumulativă a distribuției normale standard:
Logit . Modelul logit utilizează CDF-ul distribuției logistice:
Gompit . Se utilizează distribuția valorilor extreme - distribuția Gompertz:
Estimarea se face de obicei prin metoda probabilității maxime . Să fie un eșantion al volumului de factori și o variabilă dependentă . Pentru un număr de observație dat, utilizați indexul . Probabilitatea de a obține o valoare într-o observație poate fi modelată după cum urmează:
Într-adevăr, dacă , atunci al doilea factor este în mod evident egal cu 1, iar primul este doar , dar dacă , atunci primul factor este egal cu unu, iar al doilea este egal cu . Se presupune că datele sunt independente. Prin urmare, funcția de probabilitate poate fi obținută ca produs al probabilităților de mai sus:
În consecință , funcția de probabilitate logaritmică are forma:
Maximizarea acestei funcții în raport cu parametrii necunoscuți permite obținerea unor estimări ale parametrilor consecvente , eficiente din punct de vedere asimptotic și normali asimptotic . Aceasta din urmă înseamnă că:
unde este matricea de covarianță asimptotică a estimărilor parametrilor, care este determinată în mod standard pentru metoda probabilității maxime (prin Hessian sau gradientul funcției de log-probabilitate în punctul optim).
unde sunt valorile log-probabilității modelului estimat și modelului constrâns, în care este o constantă (nu depinde de factorii x, excluzând constanta din setul de factori).
Această statistică, ca și în cazul general al utilizării metodei maximă probabilitate, permite testarea semnificației statistice a modelului în ansamblu. Dacă valoarea sa este suficient de mare (mai mult decât valoarea critică a distribuției , unde este numărul de factori (fără o constantă) ai modelului), atunci modelul poate fi considerat semnificativ statistic.
Se folosesc și analogi ai coeficientului clasic de determinare , de exemplu:
Ambii indicatori variază de la 0 la 1.
Este important să se analizeze proporția de predicții corecte în funcție de pragul de clasificare selectat (de la ce nivel de probabilitate se ia valoarea 1). De obicei, curba ROC este utilizată pentru a evalua calitatea modelului, iar indicatorul AUC este aria de sub curba ROC.
Distribuția exactă a acestei statistici este necunoscută, dar autorii au descoperit prin simulare că este aproximată de distribuție .