Regresia probit ( model probit , ing. probit ) este un model statistic (neliniar) și o metodă de analiză a dependenței variabilelor calitative (în primul rând binare) de o varietate de factori, pe baza distribuției normale (spre deosebire de, de exemplu, regresie logit similară , care se bazează pe distribuția logistică ). În economie ( econometrie ), modelele probit (împreună cu logit, gompit etc.) sunt folosite în modele cu alegere binară sau în modele de alegere multiplă între diferite alternative, pentru modelarea implicite ale companiei , în asigurări de viață - pentru estimarea probabilității decesului în funcție de asupra vârstei și sexului etc. În toxicologie, regresia probit este utilizată pentru a evalua efectul unei doze sau concentrații a anumitor substanțe asupra obiectelor biologice.
Modelul probit vă permite să estimați probabilitatea ca variabila analizată (dependentă) să ia valoarea 1 pentru valorile factorilor date (adică este o estimare a proporției de „unități” pentru o anumită valoare a factorului). În modelul probit, funcția probit de probabilitate este modelată ca o combinație liniară de factori (inclusiv o constantă). Funcția probit se numește funcția inversă funcției cumulative (CDF) a distribuției normale standard, adică funcția care determină cuantila distribuției normale standard pentru o probabilitate dată .
Termenul „ probit ” ca derivat al englezei. Unitatea de probabilitate a fost sugerată (folosită pentru prima dată) de Chester Ittner Bliss [1899-1979]) [1] în articolul său despre analiza cantitativă a efectului letal al otrăvurilor pe exemplul efectului nicotinei asupra afidului oxal ( Aphis rumicis). L. ) [1] . De atunci, metoda analizei probit a fost deosebit de populară în toxicologie . Însăși utilizarea funcției de distribuție normală pentru a descrie relația „doză-efect” se întoarce la matematicianul englez J. W. Trevan, care a arătat că intensitatea răspunsului celular la o anumită doză de substanță medicamentoasă se supune distribuției gaussiene [2] .
Modelul probit este un caz special al modelului cu alegere binară care utilizează distribuția normală. Și anume, să fie variabila dependentă binară, adică poate lua doar două valori, care, pentru simplitate, se presupune că sunt și . De exemplu, poate însemna prezența/absența oricăror condiții, succesul sau eșecul a ceva, răspunsul este da/nu într-un sondaj etc. Să existe și un vector de regresori (factori) care afectează . Modelul probit presupune că probabilitatea a ceea ce este determinată de distribuția normală, deci modelul probit este:
unde este funcția de distribuție cumulativă ( CDF ) a distribuției normale standard, sunt parametrii necunoscuți care trebuie estimați.
Utilizarea distribuției normale standard nu limitează generalitatea modelului, deoarece o posibilă medie diferită de zero este luată în considerare într-o constantă care este în mod necesar prezentă printre factori, iar o posibilă varianță non-unitariană este luată în considerare datorită la normalizarea corespunzătoare a tuturor coeficienților b.
Ca și în cazul general al modelului cu alegere binară, modelul se bazează pe presupunerea că există o variabilă ascunsă (neobservată) , în funcție de valorile cărora variabila observată ia valoarea sau :
Se presupune că variabila latentă depinde de factori în sensul regresiei liniare obișnuite , unde eroarea aleatorie în acest caz are o distribuție normală standard . Apoi
Ultima egalitate rezultă din simetria distribuției normale.
De asemenea, modelul poate fi fundamentat prin utilitatea alternativelor - o funcție neobservabilă , adică, de fapt, două funcții și, respectiv, pentru două alternative. Funcția de diferență de utilitate a alternativelor joacă aici rolul acelei variabile foarte ascunse.
Estimarea se face de obicei prin metoda probabilității maxime . Să fie un eșantion al volumului de factori și o variabilă dependentă . Pentru un număr de observație dat, utilizați indexul . Funcția log-probabilitate are forma:
Maximizarea acestei funcții în raport cu parametrii necunoscuți permite obținerea unor estimări ale parametrilor consecvente , eficiente din punct de vedere asimptotic și normali asimptotic . Aceasta din urmă înseamnă că:
unde este matricea de covarianță asimptotică a estimărilor parametrilor, care este determinată de metoda standard pentru metoda probabilității maxime (prin Hessian sau gradientul funcției de log-probabilitate în punctul optim):
,unde este funcția de densitate de probabilitate ( PDF ) a distribuției normale standard .
Matricea este necunoscută și se utilizează estimarea sa consistentă :
De obicei, evaluarea modelului este efectuată în produse software specializate (statistice, econometrice ), de exemplu, Statistica , EViews, Matrixer, R [3] , SPSS etc. [4] , deși evaluarea „manuală” este posibilă, de exemplu, în MS Office Excel, folosind încorporat „Căutarea unei soluții” pentru a maximiza funcția de log-probabilitate.
Pentru a evalua calitatea regresiei probit construite, sunt utilizate statisticile standard pentru modelele cu alegere binară :
Este important să analizăm proporția de predicții corecte. În special, se analizează ponderea prognozelor corecte și (sau) incorecte pentru valoarea fiecăreia dintre valorile variabilei dependente (0 și 1).
Luați în considerare modelul probit folosind exemplul acțiunii insecticidelor asupra insectelor [5] [6] . Variabila binară dependentă este o variabilă care ia valoarea 1 dacă insecta a murit și 0 în caz contrar. Într-un eșantion de insecte, răspunsul unor insecte la un insecticid nu depinde de răspunsul altora. „Contorul” dozei acționează ca un factor al modelului , unde este doza de insecticid. Probabilitatea ca o insectă aleasă aleatoriu din populație să moară într-un timp dat este egală cu
.Dacă parametrii modelului și sunt cunoscuți (notăm estimările și respectiv), atunci nivelul dozei , la care mor un anumit procent de insecte, se găsește din ecuație
,unde este cuantila de nivel a distribuției normale standard.
În special, pentru nivelul de doză la care mor 50% dintre insecte, . Această valoare în toxicologie este denumită în mod obișnuit LD50 .
De asemenea, puteți construi un interval de încredere aproximativ pentru următoarele: . Dispersia poate fi estimată aproximativ după cum urmează:
,unde este o estimare a varianței estimărilor parametrilor modelului, este o estimare a covarianței dintre estimările parametrilor.
Un interval de încredere mai precis poate fi estimat din teorema lui Feller , conform căreia limitele de încredere de 95% pentru sunt rădăcinile ecuației pătratice
,unde este punctul de distribuție t al lui Student de 95%.
În practică, există situații în care este necesar să se exploreze nu două alternative, ci mai multe alternative. Dacă aceste alternative sunt neordonate, atunci se vorbește despre un model probit multinominal . În cazul alternativelor ordonate (de exemplu, o evaluare în 5 puncte a calității unui serviciu sau a unui produs), se vorbește de un model probit ordinal sau ordonat ( ordonat ) .