Bootstrap [1] ( engleză bootstrap ) în statistică este o metodă practică computerizată pentru studierea distribuției statisticilor distribuțiilor de probabilitate , bazată pe generarea multiplă de eșantioane prin metoda Monte Carlo pe baza eșantionului existent [2] . Vă permite să evaluați ușor și rapid o mare varietate de statistici ( intervale de încredere , varianță , corelație și așa mai departe) pentru modele complexe.
Conceptul a fost introdus în 1977 de Bradley Efron (prima publicație datează din 1979 [3] ). Esența metodei este de a construi o distribuție empirică pe baza eșantionului existent . Folosind această distribuție ca distribuție de probabilitate teoretică, este posibil să se genereze un număr aproape nelimitat de pseudo-eșantioane de dimensiune arbitrară, de exemplu, la fel ca și cea originală, folosind un generator de numere pseudoaleatoare. Pe un set de pseudoeșantioane, se pot evalua nu numai caracteristicile statistice analizate, ci și studiul distribuțiilor de probabilitate ale acestora. Astfel, de exemplu, este posibil să se estimeze varianța sau cuantilele oricărei statistici, indiferent de complexitatea acesteia. Această metodă este o metodă de statistică neparametrică .
Alături de metodele „jackknife” , validarea încrucișată și testarea permutării ( eng. test exact ) formează o clasă de metode de generare a reeșantionării ( eng. resampling ).
Cuvântul provine din expresia: „A se trage peste un gard de ghearele cuiva”. (literal - „să treci peste gard trăgând de curelele cizmelor tale” (vezi fotografia din dreapta). Pentru oamenii vorbitori de limbă rusă, povestea baronului Munchausen va fi mai aproape , care, trăgându-se de păr, s-a tras și calul său din mlaștină.
Anglicismul Bootstrap în sine este folosit în multe domenii ale cunoașterii, în care trebuie să transmiteți sensul obținerii ceva „gratis” sau a obținerii magice a ceva valoros din nimic. În domeniul statisticii, cel mai apropiat analog al termenului în ceea ce privește etimologia este „auto-tragerea”.
Să fie două observații:
Să presupunem că trebuie să estimăm un parametru într-o regresie a lui y pe x :
Estimarea parametrului obținut prin metoda celor mai mici pătrate va fi egală cu
Funcția de distribuție empirică în acest caz este egală cu
În acest caz, datele din două observații cu privire la distribuția empirică vor fi distribuite după cum urmează:
Aceasta este distribuția bootstrap. În continuare, putem găsi distribuția estimării MCO:
Bootstrap-ul este folosit pentru a corecta părtinirea, a testa ipotezele, a construi intervale de încredere.
Să existe un eșantion din populația generală și este necesar să se estimeze parametrul . Este necesar să se aleagă numărul de pseudo-probe care se vor forma din elementele eșantionului original cu retur. Pentru fiecare dintre pseudo- eșantioane, se calculează o pseudo-statistică .
Pseudo-statisticile sunt sortate de la cel mai mic la cel mai mare. Quantilele iau valori . Sunt folosite pentru a construi un interval de încredere.
În cataloagele bibliografice |
|
---|