Agregarea bootstrap , sau bagging , este un meta-algoritm compozițional de învățare automată conceput pentru a îmbunătăți stabilitatea și acuratețea algoritmilor de învățare automată utilizați în clasificarea și regresia statistică . Algoritmul reduce, de asemenea, varianța și ajută la evitarea supraajustării . Deși se aplică în general metodelor de învățare automată bazate pe arborele de decizie , poate fi utilizat cu orice fel de metodă. Ambalarea este un tip particular de mediere a modelului .
Dacă se oferă un set standard de antrenament de mărimea n , bagajul generează m noi seturi de antrenament , fiecare de mărimea n′ , prin prelevare uniformă din D și backtracking . Cu backtracking, unele observații pot fi repetate în fiecare . Dacă n ′= n , atunci pentru n mare se așteaptă ca mulțimea să aibă o proporție (1 - 1/ e ) (≈63,2%) de instanțe unice din D , restul fiind repetări [1] . Acest tip de eșantionare este cunoscut sub numele de eșantionare bootstrap . Aceste modele m sunt netezite folosind eșantioanele m bootstrap de mai sus și combinate prin mediere (pentru regresie) sau vot (pentru clasificare).
Bagarea duce la „îmbunătățirea procedurilor instabile” [2] , care includ, de exemplu, rețele neuronale artificiale , arbori de clasificare și regresie și selecție de subseturi în regresie liniară [3] . O aplicație interesantă a ambalajului care arată îmbunătățirea procesării imaginilor este prezentată în lucrările lui Sahu, Apley și colab. [4] [5] . Pe de altă parte, metoda poate degrada ușor performanța metodelor stabile, cum ar fi K-nearest neighbors [2] .
Pentru a ilustra principiile de bază ale ambalării, mai jos este o analiză a relației dintre ozon și temperatură (date preluate din cartea lui Russevși Leroy [6] . Analiza a fost efectuată în limbajul de programare R ).
Relația dintre temperatură și ozon în acest set de date este evident neliniară. Pentru a descrie această relație, s-au folosit netezitori LOESS(cu o lățime de bandă de 0,5). În loc să se construiască un singur dispozitiv neted din întregul set de date, au fost extrase 100 de mostre de date bootstrap . Fiecare eșantion este diferit de setul de date inițial, dar sunt în continuare aceleași ca distribuție și varianță. Pentru fiecare probă de bootstrap, a fost aplicat netezitorul LOESS. Apoi se face o predicție din datele bazate pe aceste 100 de neteziri. Primele 10 neteziri sunt prezentate sub formă de linii gri în figura de mai jos. Liniile par a fi foarte ondulate și suferă de supraadaptarea datelor - rezultatul benzii este prea mic.
Luând media a 100 de fluide care au fost aplicate subseturi ale setului de date original, obținem predictorul compus (linia roșie). Este clar că media este mai robustă și nu la fel de predispusă la supraadaptare .
Bagging (din engleză Bagging = B ootstrap agg regat ing ) a fost propus de Leo Breiman în 1994 pentru a îmbunătăți clasificarea prin combinarea clasificării seturilor de antrenament generate aleator. Vezi Raportul Tehnic #421 [3] .
Învățare automată și extragerea datelor | |
---|---|
Sarcini | |
Învățarea cu un profesor | |
analiza grupului | |
Reducerea dimensionalității | |
Prognoza structurală | |
Detectarea anomaliilor | |
Modele grafice probabilistice | |
Rețele neuronale | |
Consolidarea învățării |
|
Teorie | |
Reviste și conferințe |
|