Metoda forestieră aleatorie

Metoda pădurii aleatoare este un algoritm de învățare automată propus de Leo Breiman [1] [2] și Adele Cutler , care constă în folosirea unui comitet (ansamblu) de arbori de decizie . Algoritmul combină două idei principale: metoda de însăcire Breiman și metoda subspațială aleatorie .propus de Tin Kam Ho. Algoritmul este utilizat pentru probleme de clasificare, regresie și clustering. Ideea principală este să folosiți un ansamblu mare de arbori de decizie , fiecare dintre acestea oferind în sine o calitate foarte scăzută a clasificării, dar datorită numărului lor mare, rezultatul este bun.

Algoritm de învățare a clasificatorului

Fie setul de antrenament format din N eșantioane, dimensiunea spațiului de caracteristici este M și parametrul m (de obicei în problemele de clasificare ) este dat ca un număr incomplet de caracteristici pentru antrenament. $m\aproximativ {\sqrt {M}}$

Cel mai obișnuit mod de a construi arbori de ansamblu - bagging ( eng. bagging , scurt pentru eng. bootstrap aggregation) - se face după cum urmează:

Să generăm un subeșantion repetat aleatoriu de dimensiune din eșantionul de antrenament. Unele eșantioane vor cădea în el de două sau mai multe ori, în timp ce, în medie (pentru mari aproximativ , unde este baza logaritmului natural ), eșantioanele nu sunt incluse în set sau nu sunt selectate ( în engleză out-of-bag ). $N$ $N(1-1/N)^{N)$ $N$ $N/e$ $e$
Să construim un arbore de decizie care clasifică eșantioanele acestui subeșantion și, în cursul creării următorului nod al arborelui, vom alege un set de caracteristici pe baza căruia se face împărțirea (nu din toate caracteristicile M ). , dar numai din m alese aleatoriu). Alegerea celor mai bune dintre aceste m caracteristici se poate face în diferite moduri. Metoda originală a lui Breiman utilizează criteriul Gini , care este, de asemenea, utilizat în algoritmul arborelui de decizie CART . În unele implementări ale algoritmului, se folosește în schimb criteriul câștigului de informații . [3]
Arborele este construit până când subeșantionarea este complet epuizată și nu este supus procedurii de tăiere ( eng. pruning - tăierea ramurilor), spre deosebire de arborii de decizie ai algoritmilor precum CART sau C4.5 .

Clasificarea obiectelor se realizează prin vot: fiecare arbore al comitetului atribuie obiectul care este clasificat uneia dintre clase, iar clasa care are cel mai mare număr de arbori votați câștigă.

Numărul optim de arbori este selectat astfel încât să se minimizeze eroarea de clasificare pe proba de testare. Dacă este absentă, estimarea erorii este minimizată pe eșantioanele care nu sunt incluse în set.

Evaluarea importanței variabilelor

Pădurile aleatorii obţinute prin metodele descrise mai sus pot fi folosite în mod natural pentru a evalua importanţa variabilelor în problemele de regresie şi clasificare . Următorul mod de estimare a fost descris de Breiman.

Primul pas în evaluarea importanței unei variabile într-un set de antrenament este antrenamentul unei păduri aleatorii pe acel set. În timpul procesului de construire a modelului, este înregistrată o așa-numită eroare out-of-bag pentru fiecare element al setului de antrenament. ${\mathcal {D}}_{n}=\{(X_{i},Y_{i})\}_{i=1}^{n}$ (eroare articole neselectate). Apoi, pentru fiecare entitate, această eroare este mediată pe întreaga pădure aleatoare.

Pentru a evalua importanța parametrului --lea după antrenament, valorile parametrului --lea sunt amestecate pentru toate înregistrările setului de antrenament și se calculează din nou eroarea în afara sacului. Importanța parametrului este estimată prin medierea diferenței dintre ratele de eroare în afara sacului pentru toți arborii înainte și după amestecarea valorilor. În acest caz, valorile unor astfel de erori sunt normalizate la abaterea standard . $j$ $j$

Parametrii eșantionului care produc valori mai mari sunt considerați mai importanți pentru setul de antrenament. Metoda are un dezavantaj potențial - pentru variabilele categorice cu un număr mare de valori, metoda tinde să considere astfel de variabile mai importante. Amestecarea parțială a valorilor în acest caz poate reduce influența acestui efect. [4] [5] Din grupurile de parametri corelați, a căror importanță se dovedește a fi aceeași, sunt selectate grupurile mai mici. [6]

Avantaje

Abilitatea de a procesa eficient datele cu un număr mare de caracteristici și clase.
Insensibilitate la scalarea (și, în general, la orice transformări monotone) a valorilor caracteristicilor.
Atât caracteristicile continue, cât și cele discrete sunt procesate la fel de bine. Există metode de construire a arborilor din date cu valori de caracteristică lipsă.
Există metode de estimare a semnificației caracteristicilor individuale într-un model.
Evaluarea internă a capacității modelului de a generaliza (test pe eșantioane neselectate).
Paralelizabilitate și scalabilitate ridicate .

Dezavantaje

Dimensiunea mare a modelelor rezultate. Este necesară memorie pentru a stoca modelul, unde este numărul de arbori. $O(K)$ $K$

Utilizare în lucrări științifice

Algoritmul este utilizat în lucrări științifice, de exemplu, pentru a evalua calitatea articolelor Wikipedia [7] [8] [9] .

Note

↑ Breiman, Leu . Păduri aleatorii // Învățare automată : jurnal. - 2001. - Vol. 45 , nr. 1 . - P. 5-32 . - doi : 10.1023/A:1010933404324 . (Engleză) (Data accesării: 7 iunie 2009)
↑ Descrierea algoritmului pe site-ul lui Leo Breiman Arhivat 22 iunie 2008. (Engleză) (Data accesării: 7 iunie 2009)
↑ O descriere a procedurii de construire a copacilor folosită în Apache Mahout Arhivat 13 mai 2012 la Wayback Machine ( accesat la 7 iunie 2009)
↑ Deng, H.; Runger, G.; Tuv, E. (2011). Măsuri de părtinire a importanței pentru atribute și soluții cu mai multe valori . Proceedings of the 21st International Conference on Artificial Neural Networks (ICANN). pp. 293-300.
↑ Altmann A., Tolosi L., Sander O., Lengauer T. Permutation importance:a corrected feature importance measure (engleză) // Bioinformatics : journal. - 2010. - doi : 10.1093/bioinformatics/btq134 .
↑ Tolosi L., Lengauer T. Clasificare cu caracteristici corelate: nefiabilitatea clasării caracteristicilor și soluțiilor. (engleză) // Bioinformatică: jurnal. - 2011. - doi : 10.1093/bioinformatics/btr300 .
↑ Węcel K., Lewoniewski W. Modeling the Quality of Attributes in Wikipedia Infoboxes // Lecture Notes in Business Information Processing : journal. - 2015. - 2 decembrie ( vol. 228 ). - P. 308-320 . - doi : 10.1007/978-3-319-26762-3_27 .
↑ Lewoniewski W., Węcel K., Abramowicz W. Quality and Importance of Wikipedia Articles in Different Languages // Information and Software Technologies. ICIST 2016. Communications in Computer and Information Science: jurnal. - 2016. - 22 septembrie ( vol. 639 ). - P. 613-624 . - doi : 10.1007/978-3-319-46254-7_50 .
↑ Warncke-Wang M., Cosley D., Riedl J. Spune-mi mai multe: Un model de calitate acționabil pentru wikipedia // WikiSym '13 Proceedings of the 9th International Symposium on Open Collaboration : journal. - 2013. - doi : 10.1145/2491055.2491063 .

Literatură

Hastie, T., Tibshirani R., Friedman J. Capitolul 15. Păduri aleatorii // Elementele de învățare statistică: extragerea datelor, inferența și predicția . — Ed. a II-a. - Springer-Verlag, 2009. - 746 p. - ISBN 978-0-387-84857-0 . .

Link -uri

Implementări

Implementarea de către autor a lui Breiman și Cutler în Fortran 77
Pachetul randomForest pentru R este o versiune portată a codului original al autorului în R
Pachetul partid pentru R conține o modificare a algoritmului
Implementarea modificării algoritmului pe alglib.sources.ru
FastRandomForest
Apache Mahout Arhivat 2 aprilie 2015 la Wayback Machine .

Învățare automată și extragerea datelor
Sarcini	Problema de clasificare Învățați fără profesor Învățare asistată de profesor Analiza regresiei AutoML Regulile de asociere Extragerea caracteristicilor Antrenamentul trăsăturilor Antrenament de clasare Derivarea gramaticală Învățare online
Învățarea cu un profesor	metoda k-cel mai apropiat vecin Clasificator naiv Bayes arborele de decizie Suport mașină vectorială Regresie liniara Regresie logistică perceptron Ansambluri de modele Bagare stimularea pădure la întâmplare Metoda vectorială relevantă
analiza grupului	metoda k-means Metoda de grupare fuzzy Gruparea ierarhică algoritmul EM MESTEACĂN VINDECA DBSCAN OPTICA Schimbare medie
Reducerea dimensionalității	Analiza factorilor Metoda componentei principale CCA ICA LDA Expansiunea nenegativă a matricei t-SNE
Prognoza structurală	Modelul probabilistic grafic Rețeaua bayesiană Modelul Markov ascuns CRF
Detectarea anomaliilor	metoda k-cel mai apropiat vecin Nivelul de emisie local
Modele grafice probabilistice	Rețeaua bayesiană Rețeaua Markov Modelul Markov ascuns
Rețele neuronale	Mașină Boltzmann limitată hartă de auto-organizare Funcția de activare Sigmoid softmax Funcția de bază radială Metoda de propagare înapoi Invatare profunda Perceptron multistrat Rețea neuronală recurentă memorie pe termen lung și scurt Bloc recurent controlat Rețeaua neuronală convoluțională U-Net Autoencoder
Consolidarea învățării	procesul Markov Ecuația Bellman Algoritmul lacom Q-learning SARSA Diferența temporală (TD)
Teorie	Teoria Vapnik-Chervonenkis Dilema părtinire-dispersie Teoria învățării computaționale Minimizarea riscului empiric Occam învață Învățarea PAC Teoria învăţării statistice
Reviste și conferințe	NeurIPS ICML ML JMLR ArXiv:cs.LG