Bootstrap (statistici)

Bootstrap [1] ( engleză  bootstrap ) în statistică  este o metodă practică computerizată pentru studierea distribuției statisticilor distribuțiilor de probabilitate , bazată pe generarea multiplă de eșantioane prin metoda Monte Carlo pe baza eșantionului existent [2] . Vă permite să evaluați ușor și rapid o mare varietate de statistici ( intervale de încredere , varianță , corelație și așa mai departe) pentru modele complexe.

Conceptul a fost introdus în 1977 de Bradley Efron (prima publicație datează din 1979 [3] ). Esența metodei este de a construi o distribuție empirică pe baza eșantionului existent . Folosind această distribuție ca distribuție de probabilitate teoretică, este posibil să se genereze un număr aproape nelimitat de pseudo-eșantioane de dimensiune arbitrară, de exemplu, la fel ca și cea originală, folosind un generator de numere pseudoaleatoare. Pe un set de pseudoeșantioane, se pot evalua nu numai caracteristicile statistice analizate, ci și studiul distribuțiilor de probabilitate ale acestora. Astfel, de exemplu, este posibil să se estimeze varianța sau cuantilele oricărei statistici, indiferent de complexitatea acesteia. Această metodă este o metodă de statistică neparametrică .

Alături de metodele „jackknife” , validarea încrucișată și testarea permutării ( eng.  test exact ) formează o clasă de metode de generare a reeșantionării ( eng.  resampling ).

Etimologie

Cuvântul provine din expresia: „A se trage peste un gard de ghearele cuiva”. (literal - „să treci peste gard trăgând de curelele cizmelor tale” (vezi fotografia din dreapta). Pentru oamenii vorbitori de limbă rusă, povestea baronului Munchausen va fi mai aproape , care, trăgându-se de păr, s-a tras și calul său din mlaștină.

Anglicismul Bootstrap în sine este folosit în multe domenii ale cunoașterii, în care trebuie să transmiteți sensul obținerii ceva „gratis” sau a obținerii magice a ceva valoros din nimic. În domeniul statisticii, cel mai apropiat analog al termenului în ceea ce privește etimologia este „auto-tragerea”.

Exemplu introductiv

Să fie două observații:

Să presupunem că trebuie să estimăm un parametru într-o regresie a lui y pe x :

Estimarea parametrului obținut prin metoda celor mai mici pătrate va fi egală cu

Funcția de distribuție empirică în acest caz este egală cu

În acest caz, datele din două observații cu privire la distribuția empirică vor fi distribuite după cum urmează:

Aceasta este distribuția bootstrap. În continuare, putem găsi distribuția estimării MCO:

Aplicație

Bootstrap-ul este folosit pentru a corecta părtinirea, a testa ipotezele, a construi intervale de încredere.

Interval de încredere Bootstrap: un algoritm

Să existe un eșantion din populația generală și este necesar să se estimeze parametrul . Este necesar să se aleagă numărul de pseudo-probe care se vor forma din elementele eșantionului original cu retur. Pentru fiecare dintre pseudo- eșantioane, se calculează o pseudo-statistică .

Pseudo-statisticile sunt sortate de la cel mai mic la cel mai mare. Quantilele iau valori . Sunt folosite pentru a construi un interval de încredere.

Note

  1. De asemenea bootstrap , bootstrap , bootstrapping , bootstrapping .
  2. アーカイブされたコピー. Preluat la 23 martie 2007. Arhivat din original la 12 iulie 2012.
  3. Efron, 1979 .

Literatură

Link -uri