Arborele de decizie

Un arbore de decizie (numit și arbore de clasificare sau arbore de regresie) este un instrument de asistență pentru decizii utilizat în învățarea automată , analiza datelor și statistici . Structura unui copac este „frunze” și „ramuri”. Pe marginile („ramuri”) ale arborelui de decizie sunt scrise caracteristicile de care depinde funcția obiectiv, valorile funcției obiectiv sunt scrise în „frunze” , iar în nodurile rămase sunt caracteristicile prin care cazurile difera. Pentru a clasifica un nou caz, trebuie să coborâți arborele până la o frunză și să returnați valoarea corespunzătoare.

Astfel de arbori de decizie sunt utilizați pe scară largă în data mining. Scopul este de a crea un model care prezice valoarea variabilei țintă pe baza mai multor variabile de intrare.

Fiecare frunză reprezintă valoarea variabilei țintă pe măsură ce se schimbă de la rădăcină de-a lungul marginilor copacului la frunză. Fiecare nod intern este mapat la una dintre variabilele de intrare.

Arborele poate fi, de asemenea, „învățat” împărțind seturile originale de variabile în subseturi pe baza verificării valorilor caracteristicilor. Această acțiune se repetă pe fiecare dintre subseturile rezultate. Recursiunea se termină atunci când un subset dintr-un nod are aceleași valori variabile țintă, deci nu adaugă nicio valoare predicțiilor. Procesul de sus în jos, inducerea arborelui de decizie (TDIDT) [1] , este un exemplu de algoritm absorbant lacom și este de departe cea mai comună strategie de arbore de decizie pentru date, dar nu este singura strategie posibilă.

În mineritul de date, arborii de decizie pot fi utilizați ca tehnici matematice și de calcul pentru a ajuta la descrierea, clasificarea și generalizarea unui set de date, care poate fi scris după cum urmează:

Variabila dependentă Y este variabila țintă care trebuie analizată, clasificată și rezumată. Vectorul este format din variabilele de intrare , etc., care sunt folosite pentru a finaliza această sarcină .

Definiții de bază

Analiza arborelui decizional folosește un instrument vizual și analitic de sprijin pentru decizii pentru a calcula valorile așteptate (sau beneficiile așteptate) ale alternativelor concurente.

Arborele de decizie este format din trei tipuri de noduri:

În figura de mai sus, arborele de decizie ar trebui citit de la stânga la dreapta. Arborele de decizie nu poate conține elemente ciclice, adică fiecare frunză nouă se poate diviza ulterior, nu există căi convergente. Astfel, atunci când construim un arbore manual, ne putem confrunta cu problema dimensiunii acestuia, prin urmare, de regulă, putem obține un arbore de decizie folosind software specializat. De obicei, un arbore de decizie este prezentat sub forma unui desen schematic, ceea ce face mai ușor de înțeles și analizat.

Tipologia arborilor

Arborii de decizie utilizați în data mining sunt de două tipuri principale:

Termenii menționați mai sus au fost introduși pentru prima dată de Breiman și colab.. [2] Tipurile enumerate au unele asemănări (algoritmi de construcție recursive), precum și unele diferențe, precum criteriile de alegere a unei partiții la fiecare nod. [2]

Unele metode vă permit să construiți mai mult de un arbore de decizie (ansambluri de arbori de decizie):

  1. Punerea în pungă peste arbori de decizie, cea mai timpurie abordare . Construiește mai mulți arbori de decizie, interpolând în mod repetat datele cu înlocuire ( bootstrap ), iar ca răspuns de consens dă votul arborilor (predicția lor medie); [3]
  2. Clasificatorul Random Forest se bazează pe bagging , cu toate acestea, pe lângă acesta, selectează aleatoriu un subset de caracteristici la fiecare nod pentru a face copacii mai independenți;
  3. Tree boosting poate fi folosit atât pentru probleme de regresie, cât și pentru probleme de clasificare. [4] O implementare a tree boosting, algoritmul XGBoost , a fost folosită în mod repetat de câștigătorii competițiilor de analiză a datelor.
  4. „Rotația pădurilor” - arbori în care fiecare arbore de decizie este analizat prin prima aplicare a analizei componentelor principale (PCA) pe subseturi aleatoare de caracteristici de intrare. [5]

Algoritmi de construcție a arborilor

Există mai multe moduri de a selecta următoarea caracteristică:

În practică, ca urmare a acestor algoritmi, arborii sunt adesea prea detaliați, care, atunci când sunt aplicați în continuare, dau multe erori. Acest lucru se datorează fenomenului de supraadaptare . Pentru a reduce copacii, se folosește pruning ( engleză  pruning ).

Avantajele metodei

Spre deosebire de alte metode de data mining, metoda arborelui de decizie are mai multe avantaje:

Dezavantajele metodei

Controlul adâncimii arborelui

Reglarea adâncimii arborelui este o tehnică care vă permite să reduceți dimensiunea unui arbore de decizie prin îndepărtarea părților copacului care au greutate mică.

Una dintre întrebările care se ridică în algoritmul arborelui de decizie este dimensiunea optimă a arborelui final. Astfel, un copac mic poate să nu capteze una sau alta informație importantă despre spațiul eșantion. Cu toate acestea, este dificil de spus când ar trebui să se oprească algoritmul, deoarece este imposibil de prezis ce adăugare de nod va reduce semnificativ eroarea. Această problemă este cunoscută sub numele de „efectul orizont”. Cu toate acestea, strategia generală de restricție a arborelui este păstrată, adică eliminarea nodurilor este implementată dacă acestea nu oferă informații suplimentare [12] .

Ajustarea adâncimii arborelui ar trebui să reducă dimensiunea modelului arborelui de antrenament fără a reduce acuratețea predicției sau prin validare încrucișată. Există multe metode de ajustare a adâncimii unui arbore care diferă în măsurarea optimizării performanței.

Metode de reglementare

Tăierea copacilor se poate face de sus în jos sau de jos în sus. De sus în jos - tăierea începe de la rădăcină, de jos în sus - numărul de frunze ale copacului este redus. Una dintre cele mai simple metode de control este reducerea erorii de constrângere a arborelui. Începând cu frunze, fiecare nod este înlocuit cu cea mai populară clasă. Dacă modificarea nu afectează acuratețea predicției, atunci aceasta este salvată.

Exemplu de problemă

Să presupunem că suntem interesați dacă echipa noastră de fotbal favorită va câștiga următorul meci. Știm că acest lucru depinde de o serie de parametri; enumerarea lor pe toate este o sarcină fără speranță, așa că ne vom limita la cele principale:

Avem câteva statistici despre asta:

Rival Să ne jucăm Lideri Ploaie Victorie
De mai sus Case La fata locului da Nu
De mai sus Case La fata locului Nu da
De mai sus Case ocolire Nu Nu
De mai jos Case ocolire Nu da
De mai jos Departe ocolire Nu Nu
De mai jos Case ocolire da da
De mai sus Departe La fata locului da Nu
De mai jos Departe La fata locului Nu da

Aș dori să înțeleg dacă echipa noastră va câștiga în meciul următor.

Vezi și

Note

  1. Quinlan, JR Inducerea arborilor de decizie  //  Învățare automată. - Kluwer Academic Publishers, 1986. - Nr. 1 . - P. 81-106 . Arhivat din original pe 20 ianuarie 2022.
  2. 1 2 Breiman, Leu; Friedman, JH, Olshen, RA și Stone, CJ Arbori de clasificare și regresie  . - Monterey, CA: Wadsworth & Brooks/Cole Advanced Books & Software, 1984. - ISBN 978-0-412-04841-8 .
  3. Breiman, L. Bagging Predictors  //  Machine Learning. - 1996. - Nr. 24 . - P. 123-140 .
  4. Friedman, JH Amplificarea gradientului  stocastic . - Universitatea Stanford, 1999.
  5. Hastie, T., Tibshirani, R., Friedman, JH Elementele învățării statistice : extragerea datelor, inferența și predicția  . — New York: Springer Verlag, 2001.
  6. Kas ,  G.V. _  Seria C (Statistici aplicate). — Vol. 29 , nr. 2 . - P. 119-127 . - doi : 10.2307/2986296 . Arhivat din original pe 2 aprilie 2022.
  7. Hyafil, Laurent; Rivest, R.L. Construirea arborilor de decizie binară optimă este NP-complet  //  Litere de procesare a informațiilor. - 1976. - Vol. 5 , nr. 1 . - P. 15-17 . - doi : 10.1016/0020-0190(76)90095-8 .
  8. Murthy S. Construcția automată a arborilor de decizie din date: Un sondaj multidisciplinar  //  Data Mining and Knowledge Discovery. - 1998. - Nr. 2 . - P. 345-389 . Arhivat din original pe 2 aprilie 2022.
  9. Max Bramer. Principiile minării datelor  . - Springer, 2007. - ISBN 978-1-84628-765-7 .
  10. Programare logică inductivă  / Horváth, Tamás; Yamamoto, Akihiro, eds. - Springer, 2003. - ISBN 978-3-540-20144-1 .
  11. Deng, H., Runger, G., Tuv, E. Bias of Importance Measures for Multi-valued Attributes and Solutions // Artificial Neural Networks and Machine Learning - ICANN 2011. ICANN 2011. Lecture Notes in Computer Science, vol 6792  ( ( engleză) / Honkela, T., Duch, W., Girolami, M., Kaski, S. (eds). - Berlin, Heidelberg: Springer, 2011. - ISBN 978-3-642-21737-1 .
  12. Algoritmul rapid, de jos în sus de tăiere a arborelui de decizie

Link -uri

Literatură