Regresia cenzurată este o regresie cu o variabilă dependentă observată cu o restricție (cenzurare) a valorilor posibile. În acest caz, modelul poate fi cenzurat doar pe o parte (dreapta sau stânga) sau pe ambele părți. Regresia cenzurată diferă de regresia trunchiată prin faptul că valorile factorilor, spre deosebire de variabila dependentă, sunt observate fără restricții.
Regresia canonică cenzurată, cenzurată de jos de zero, se numește tobit (prin analogie cu probit , logit , etc.), numită după laureatul Premiului Nobel pentru economie James Tobin. Studiul propriu-zis al modelelor cenzurate a început cu lucrarea lui J. Tobin în 1958, care a examinat cheltuielile gospodăriilor pentru mașini. Pentru a estima elasticitatea cererii de mașini în raport cu venitul, este necesar să se estimeze dependența logaritmului cheltuielilor de logaritmul veniturilor. Cu toate acestea, după cum a arătat Tobin, o astfel de estimare va fi părtinitoare și insostenabilă, deoarece pentru familiile cu venituri mici (sub un anumit prag), suma cheltuielilor este zero, indiferent de valoarea specifică a venitului și de alți factori. Tobin a fost primul care a propus o abordare a estimării unor astfel de modele, ceea ce face posibilă obținerea unor estimări consistente ale parametrilor modelului.
În modelul cenzurat, nu variabila dependentă în sine este observată, ci valorile acesteia în limitele cenzurii. Adică, se presupune că există o variabilă latentă pentru care modelul de regresie obișnuit este valabil , dar de fapt se observă o altă variabilă, care este definită în cazul general după cum urmează:
Dacă , atunci avem un model canonic cenzurat (tobit):
Luați în considerare așteptările matematice ale variabilei dependente observate folosind exemplul unui model tobit cu o eroare distribuită normal:
Dacă este densitatea și este funcția de distribuție integrală a erorii aleatoare, atunci
Prin urmare, avem în sfârșit
Evident, această expresie nu este egală cu , prin urmare, construcția regresiei obișnuite va duce la estimări părtinitoare și inconsistente.
Estimarea parametrilor se realizează prin metoda probabilității maxime . Funcția de log-probabilitate a modelului cenzurat este:
unde sunt densitatea și funcția de distribuție integrală a erorii aleatoare .
Maximizarea acestei funcții în raport cu parametrii necunoscuți ne permite să găsim estimările acestora.
Modelul lui Tobin are un dezavantaj. Cert este că valoarea y=0 poate însemna alegerea „de a nu participa” (la cheltuielile de vacanță, de exemplu), iar valorile , pot fi interpretate ca „intensitate a participării”. În modelul Tobit, atât alegerea „participă-nu participa”, cât și „intensitatea participării” sunt determinate de aceiași factori, iar factorii acționează în aceeași direcție. Un exemplu clasic de factor și situație de influență ambiguă este numărul de copii ca factor care influențează cheltuielile familiei. Evident, un număr mare de copii poate influența negativ decizia de a „vaca sau nu” (din cauza costurilor ridicate), totuși, dacă se ia o astfel de decizie, atunci valoarea cheltuielilor (intensitatea participării) în vacanță depinde direct de Numărul de copii.
Heckman a propus să împartă modelul în două componente - un model cu alegere binară pentru participare și un model liniar pentru intensitatea participării, iar factorii acestor două modele pot fi în general diferiți. Astfel, în modelul Heckman, există două variabile latente care satisfac următoarele modele:
Se presupune că erorile aleatoare ale modelului sunt distribuite normal. A doua variabilă latentă determină alegerea „participă/nu participă” în cadrul modelului standard de alegere binară (de exemplu, modelul probit). Primul model este modelul intensității participării, sub rezerva alegerii „participa”. Dacă este selectat „nu participă”, atunci nu este respectat (egal cu zero).
Un astfel de model se numește tobit II (în consecință, modelul original tobit se numește tobit I ), uneori prin analogie hekit (modelul Heckman). În literatura în limba engleză, se găsește și modelul de selecție a eșantionului de nume .
Luați în considerare așteptările matematice ale variabilei dependente observate (presupunând ):
Presupunând că erorile aleatoare ale modelelor de variabile latente sunt corelate și legate prin
prin urmare
unde este așa-numita lambda Heckman .
Modelul lui Heckman este, de asemenea, estimat folosind metoda probabilității maxime, totuși, datorită naturii non-standard a acestei probleme, este adesea folosită o procedură simplificată de estimare în doi pași propusă de Heckman. La prima etapă se evaluează modelul cu alegere binară și se determină parametrii acestui model. Pe baza acestor parametri, lambda Heckman poate fi determinată pentru fiecare observație. La al doilea pas, cele mai mici pătrate obișnuite estimează regresia:
Estimările rezultate sunt ineficiente, dar pot fi folosite ca valori inițiale în metoda probabilității maxime.