Selectarea caracteristicilor

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită la 30 septembrie 2022; verificarea necesită 1 editare .

Selectarea caracteristicilor , cunoscută și sub denumirea de selecție de variabile , selecție de atribute sau selecție de predictor (în cazuri rare, generalizare) , este o formă de abstractizare , procesul de selectare a unui subset de caracteristici semnificative (atât variabile dependente, cât și independente ) pentru a construi un model. Selectarea caracteristicilor este utilizată din patru motive:

simplificarea modelului pentru a îmbunătăți interpretabilitatea [1]
pentru a reduce timpul de antrenament
pentru a evita blestemul dimensionalității
îmbunătățirea capacității de generalizare a modelului și combaterea supraajustării [2] .

Mesajul central al utilizării tehnicii de selecție a caracteristicilor este ideea că datele conțin unele caracteristici, dacă gândurile sunt redundante sau nesemnificative , pot fi eliminate fără pierderi semnificative de informații [2] . „ Superfluu” și „ nesemnificativ” sunt două concepte diferite, deoarece o trăsătură semnificativă poate fi redundantă în prezența unei alte trăsături semnificative cu care este foarte corelată [3] .

Selectarea caracteristicilor ar trebui să fie deosebită de extragerea caracteristicilor . Extragerea caracteristicilor creează noi caracteristici ca funcții ale caracteristicilor originale, în timp ce selecția caracteristicilor returnează un subset al caracteristicilor. Tehnicile de selecție a caracteristicilor sunt adesea folosite în zonele în care există multe caracteristici și eșantioanele sunt relativ mici (puține puncte de date). Aplicațiile clasice pentru selecția caracteristicilor sunt analiza scrisului de mână și micromatricele ADN , unde există multe mii de caracteristici și zeci până la sute de mostre .

Introducere

Un algoritm de selecție a caracteristicilor poate fi gândit ca o combinație de tehnici de căutare pentru a reprezenta un nou subset de caracteristici, împreună cu calculul unei măsuri care reflectă diferența dintre subseturile de caracteristici. Cel mai simplu algoritm este de a testa fiecare subset posibil de caracteristici și de a găsi pe cel care minimizează amploarea erorii. Aceasta este o căutare exhaustivă a spațiului și este dificil din punct de vedere computațional pentru un număr mare de caracteristici. Alegerea metricii afectează alegerea algoritmului. Metricurile diferă pentru cele trei categorii principale de algoritmi de selecție a caracteristicilor: wrapper-uri, filtre și metode de imbricare [3] .

Metodele de împachetare utilizează un model de prioritizare a rezultatelor pentru a clasifica subseturile de caracteristici. Fiecare subset nou este folosit pentru a antrena modelul, care este testat pe setul de control. Pe acest eșantion de control, se calculează numărul de erori (rata de eroare de model), ceea ce oferă o estimare pentru acest subset. Deoarece metodele de împachetare enumeră toate subseturile de caracteristici și apoi antrenează modelul, acestea sunt cele mai costisitoare din punct de vedere computațional, dar, de regulă, oferă cel mai bun set de caracteristici pentru un anumit model.
Metodele de filtrare folosesc o valoare proxy în loc de o valoare de eroare pentru a nota un subset de caracteristici. Acest indicator este ales astfel încât să poată fi calculat cu ușurință, păstrând în același timp indicatorul de utilitate al setului de caracteristici. Măsurile utilizate în mod obișnuit sunt informații reciproce [3] , informații reciproce punctuale [4] , coeficientul de corelație al momentului mixt al lui Pearson , un algoritm bazat pe Relief [5] și distanța dintre clase/în cadrul unei clase sau rezultatul semnificației teste pentru fiecare combinație de clasă/funcție [4] [6] . Filtrele sunt de obicei mai puțin intensive din punct de vedere computațional decât wrapper-urile, dar oferă seturi de caracteristici care nu sunt reglate la un anumit tip de model predictiv [7] . Această lipsă de reglare înseamnă că setul de caracteristici obținute de la filtru este mai general decât setul obținut de la wrapper, rezultând o generalizare mai mică a modelului decât wrapper-ul. Cu toate acestea, setul de caracteristici nu conține ipoteze despre modelul predictiv și, prin urmare, este mai potrivit pentru descoperirea relațiilor dintre caracteristici. Multe filtre oferă o clasare a caracteristicilor fără a oferi în mod explicit cel mai bun subset al acestora, iar punctul de limită din clasament este ales folosind validarea încrucișată . Metodele de filtrare sunt folosite ca pași de pre-procesare pentru metodele de ambalare, permițând ca ambalarea să fie utilizată pentru sarcini mari. O altă abordare populară este algoritmul recursiv de eliminare a caracteristicilor, utilizat în mod obișnuit împreună cu mașinile vector de suport pentru a construi modelul de mai multe ori și pentru a elimina caracteristicile nesemnificative.
Metodele de încorporare sunt un grup general de tehnici care efectuează selecția caracteristicilor ca parte a procesului de construire a modelului. Un exemplu de astfel de abordare este metoda LASSO ( ing. Least absolute shrinkage and selection operator - o metodă de estimare a coeficienților unui model de regresie liniară) pentru construirea unui model liniar, cum ar fi regularizarea , prevenind coeficienții modelului creșterea și reducerea la zero a celor mai puțin semnificative. Orice caracteristică care are coeficienți de regresie diferit de zero sunt „selectate” de algoritmul LASSO. Îmbunătățirile aduse algoritmului LASSO includ algoritmul Bolasso, care eșantionează bootstrap [8] , regularizarea rețelei elastice , care combină penalitatea LASSO cu penalitatea regresiei crestei și metoda FeaLect, care evaluează toate caracteristicile pe baza unei analize combinatorii a coeficienți de regresie [9] . Aceste abordări se situează undeva între filtre și wrapper-uri în ceea ce privește complexitatea computațională. $L_{1}$ $L_{1}$ $L_{2}$

În statisticile tradiționale, cea mai populară formă de selecție a caracteristicilor este regresia în trepte , care este o tehnică de împachetare. Este un algoritm lacom care adaugă o caracteristică mai bună (sau elimină una mai proastă) la fiecare pas al algoritmului. Problema principală este când se oprește algoritmul. Când antrenați modele, acest lucru se face de obicei prin validare încrucișată . În statistică, unele criterii sunt optimizate. Acest lucru duce la moștenirea problemei cuibăririi. Au fost, de asemenea, explorate metode mai robuste, cum ar fi metoda ramificată și legată și rețeaua liniară pe bucăți.

Selectarea subsetului

Selecția subset evaluează un subset de caracteristici ca grup de stabilitate. Algoritmii de selecție de subseturi pot fi împărțiți în Wrappers, Filters și Attachments. Wrapper-urile folosesc un algoritm de căutare pentru a analiza spațiul pentru posibile caracteristici și pentru a evalua fiecare subset prin rularea modelului pe subset. Wrapper-urile pot fi costisitoare din punct de vedere computațional și prezintă riscul de a supraadapta modelul. „Filtrele” sunt similare cu „Wrappers” în abordarea căutării, dar în loc să noteze un model, este clasat un filtru mai simplu. Tehnicile de imbricare sunt încorporate în model și specifice acestuia.

Multe abordări populare folosesc căutarea lacomă a vârfurilor , care evaluează iterativ un subset de caracteristici ca candidat, apoi modifică subsetul și evaluează cât de mai bun este noul subset decât cel vechi. Scorul subsetului necesită utilizarea unei valori de scoring care clasifică subseturile de caracteristici. O căutare exhaustivă nu este de obicei fezabilă, astfel încât dezvoltatorul (sau operatorul) definește un punct de întrerupere, subsetul de caracteristici cu cel mai mare scor obținut până acum este selectat ca subsetul satisfăcător de caracteristici. Criteriul de oprire depinde de algoritm. Criteriile posibile sunt: scorul subsetului depășește pragul, programul a depășit timpul maxim permis și așa mai departe.

Tehnicile alternative bazate pe căutare se bazează pe cea mai bună căutare a țintei de proiecție , care găsește proiecții dimensionale joase cu punctaj ridicat ale datelor - sunt selectate caracteristicile care au cele mai mari proiecții în spațiul de dimensiuni reduse.

Abordări de căutare:

Căutare exhaustivă
Căutați după prima potrivire
Recoacere simulată
Algoritm genetic [10]
Selecție lacomă înainte [11] [12] [13]
Excepție spate lacom
Metoda roiului de particule [14]
Căutare direcționată pentru cea mai bună proiecție
Căutare distribuită [15]
Căutați cu cartiere alternative [16] [17]

Două metrici de filtrare populare pentru problemele de clasificare sunt corelația și informațiile reciproce , deși nici una nu este o metrică adevărată sau măsură distanței” în sens matematic, deoarece nu dețin inegalitatea triunghiului și, prin urmare, nu reprezintă „distanța” reală – ar trebui mai degrabă. să fie înțeles ca o „evaluare”. Aceste scoruri sunt calculate între caracteristicile candidate (sau seturile de caracteristici) și categoria dorită. Există, totuși, metrici adevărate, care sunt simple funcții de informare reciprocă [18] .

Alte valori posibile de filtrare:

Separabilitatea claselor
Probabilitatea de eroare
Distanța interclasă
Distanța de probabilitate
Entropie
Selectarea caracteristicilor bazată pe consistență
Selectarea caracteristicilor pe baza corelației.

Criteriul de optimizare

Alegerea criteriului de optimitate este dificilă, deoarece există mai multe obiective în problema de selecție a caracteristicilor. Multe criterii includ o măsură de acuratețe penalizată de numărul de caracteristici selectate (cum ar fi criteriul informațional bayesian ). Cele mai vechi statistici sunt C p Mallows și Akaike information criterie ( AIC) . Ei adaugă variabile dacă statistica t este mai mare decât . ${\sqrt {2}}$

Alte criterii sunt criteriul Bayesian de informare ( BIC ), care utilizează , lungimea minimă a descrierii ( MDL), care utilizează asimptotic , Bonferroni / RIC, care utilizează , selecția caracteristicilor cu dependență maximă și un set de criterii noi care sunt dictate de ideea ratei false de descoperire ( în engleză false discovery rate , FDR) și care folosesc ceva apropiat de . Criteriul ratei de entropie maximă poate fi, de asemenea, utilizat pentru a selecta cel mai semnificativ subset de caracteristici [19] . ${\sqrt {\log {n}}}$ ${\sqrt {\log {n}}}$ ${\sqrt {2\log {p}}}$ ${\sqrt {2\log {\frac {p}{q)})}$

Învățare structurală

Filtrul de selecție a caracteristicilor este un caz special al unei paradigme mai generale numită „învățare structurală” . Selectarea caracteristicilor găsește un set semnificativ de caracteristici pentru o anumită variabilă țintă, în timp ce învățarea structurată găsește relații între variabile, exprimând de obicei aceste relații ca un grafic. Cei mai comuni algoritmi de învățare structurată presupun că datele sunt generate de o rețea bayesiană , astfel încât structura este un model de grafic direcționat . Soluția optimă pentru problema filtrului de selecție a caracteristicilor este gardul Markovian al nodului țintă , iar rețeaua Bayesiană are un singur gard Markovian pentru fiecare nod [20] .

Mecanisme de selecție a caracteristicilor bazate pe teoria informației

Există diferite mecanisme de selecție a caracteristicilor care utilizează informații reciproce pentru a evalua diferite caracteristici. De obicei folosesc același algoritm:

Informațiile reciproce sunt calculate ca o estimare între toate caracteristicile ( ) și clasa țintă ( ) $f_{i}\în F$ $c$
Caracteristica cu cel mai mare scor este selectată (de exemplu, ) și adăugată la setul de caracteristici selectate ( ) $argmax_{f_{i}\in F}(I(f_{i},c))$ $S$
Se calculează o estimare care poate fi obținută din informațiile reciproce
Selectăm caracteristica cu cel mai mare scor și o adăugăm la setul de caracteristici selectate (de exemplu, ) $argmax_{f_{i}\in F}(I_{derivat}(f_{i},c))$
Repetați pașii 3. și 4. Până când obținem un anumit număr de caracteristici (de exemplu, ) $|S|=l$

Cea mai simplă abordare folosește informația reciprocă ca estimare „derivată” [21] .

Cu toate acestea, există diverse abordări care încearcă să reducă redundanța dintre caracteristici.

Selectarea caracteristicilor pe baza redundanței minime-relevanță maximă

Peng, Long și Ding [22] au propus o metodă de selecție a caracteristicilor care poate utiliza informații reciproce, corelație sau estimarea distanței/similarității pentru selecția caracteristicilor. Scopul este de a impune o penalizare asupra semnificației caracteristicii în caz de redundanță cauzată de prezența în alte caracteristici selectate. Semnificația setului de caracteristici S pentru clasa c este determinată de valoarea medie a tuturor valorilor informațiilor reciproce dintre caracteristica individuală f i și clasa c :

D(S,c)={\frac {1}{|S|}}\sum _{f_{i}\in S}I(f_{i};c).

Redundanța tuturor caracteristicilor din setul S este egală cu valoarea medie a tuturor valorilor informațiilor reciproce dintre caracteristica f i și caracteristica f j :

R(S)={\frac {1}{|S|^{2}}}\sum _{f_{i},f_{j}\in S}I(f_{i};f_{ j}).

Criteriul minim - redundanță - relevanță maximă ( mRMR ) este o combinație a celor două măsuri prezentate mai sus și definite ca:

\mathrm {mRMR} =\max _{S}\left[{\frac {1}{|S|}}\sum _{f_{i}\in S}I(f_{i};c )-{\frac {1}{|S|^{2}}}\sum _{f_{i},f_{j}\in S}I(f_{i};f_{j})\right] .

Să presupunem că există un set complet de n caracteristici. Fie x i o funcție indicator de apariție în mulțimea fi , astfel încât x i =1 reflectă prezența, iar x i =0 reflectă absența caracteristicii f i în setul global de caracteristici optime . Lasă și . Formula de mai sus poate fi rescrisă acum ca o problemă de optimizare: $c_{i}=I(f_{i};c)$ $a_{ij}=I(f_{i};f_{j})$

\mathrm {mRMR} =\max _{x\in \{0,1\}^{n}}\left[{\frac {\sum _{i=1}^{n}c_{i }x_{i}}{\sum _{i=1}^{n}x_{i}}}-{\frac {\sum _{i,j=1}^{n}a_{ij}x_{ i}x_{j}}{(\sum _{i=1}^{n}x_{i})^{2}}}\right].

Algoritmul mRMR este o aproximare a algoritmului teoretic optim de selecție a caracteristicilor de dependență maximă care maximizează informația reciprocă dintre distribuția comună a caracteristicilor selectate și variabila de clasificare. Deoarece mRMR aproximează problema de estimare combinatorie cu o serie de probleme mult mai mici, fiecare folosind doar două variabile, utilizează probabilități comune în perechi, care sunt mai robuste. În unele situații, algoritmul poate subestima utilitatea caracteristicilor deoarece nu are capacitatea de a măsura relația dintre caracteristici, ceea ce poate crește semnificația. Acest lucru poate duce la o performanță slabă [21] caracteristicile sunt individuale inutile, dar devin semnificative în combinație (un caz patologic este găsit când clasa este o funcție de paritate a caracteristicilor ). În general, algoritmul este mai eficient (în ceea ce privește cantitatea de date necesară) decât alegerea de dependență maximă teoretic optimă, dar produce un set de caracteristici cu redundanță mică pe perechi.

Algoritmul mRMR este un reprezentant al unei clase mari de metode de filtrare care echilibrează în diferite moduri între semnificație și redundanță [21] [23] .

Programare cuadratică pentru selecția caracteristicilor

Algoritmul mRMR este un exemplu tipic de strategie lacomă incrementală pentru selecția caracteristicilor - odată ce o caracteristică este selectată, aceasta nu poate fi eliminată din selecție în pașii următori. În timp ce mRMR poate fi optimizat cu căutare flotantă pentru a reduce unele caracteristici, poate fi reformulat ca o problemă globală de optimizare a programării pătratice [24] :

\mathrm {QPFS} :\min _{\mathbf {x} }\left\{\alpha \mathbf {x} ^{T}H\mathbf {x} -\mathbf {x} ^{T} F\right\}\quad \ \sum _{i=1}^{n}x_{i}=1,x_{i}\geq 0,

unde este vectorul de semnificație a caracteristicilor în ipoteza că există un total de n caracteristici, este o matrice de semnificație pe perechi și reprezintă ponderile relative ale caracteristicilor. Problema QPFS este rezolvată prin metode de programare pătratică. S-a demonstrat că QFPS este orientat către caracteristici cu entropie mai mică [25] datorită auto-redundanței caracteristicii pe diagonala matricei H. $F_{n\times 1}=[I(f_{1};c),\ldots,I(f_{n};c)]^{T)$ ${\displaystyle H_{n\times n}=[I(f_{i};f_{j})]_{i,j=1\ldots n))$ $\mathbf {x} _{n\times 1}$ $I(f_{i};f_{i})$

Informații condiționale reciproce

O altă estimare derivată din informații reciproce se bazează pe semnificația condiționată [25] :

\mathrm {SPEC_{CMI}} :\max _{\mathbf {x} }\left\{\mathbf {x} ^{T}Q\mathbf {x} \right\}\quad \ \| \mathbf {x} \|=1,x_{i}\geq 0,

unde si . $Q_{ii}=I(f_{i};c)$ $Q_{ij}=I(f_{i};c|f_{j}),i\neq j$

Avantajul SPEC CMI este că poate fi rezolvat prin găsirea vectorului propriu dominant Q . SPEC CMI procesează și caracteristici de relație de ordinul doi.

Informații comune partajate

Într-un studiu al diverșilor estimatori, Brown, Powcock, Zhao și Luhan [21] au recomandat informații comune comune [26] ca un bun estimator pentru selecția caracteristicilor. Evaluarea încearcă să găsească caracteristica care adaugă cele mai multe informații noi la caracteristicile deja selectate pentru a evita redundanța. Scorul este formulat astfel:

${\begin{aligned}JMI(f_{i})&=\sum _{f_{j}\in S}(I(f_{i};c)+I(f_{i};c| f_{j}))\\&=\sum _{f_{j}\in S}{\bigl [}I(f_{j};c)+I(f_{i};c)-{\bigl (}I(f_{i};f_{j})-I(f_{i};f_{j}|c){\bigr )}{\bigr ]}\end{aliniat)).$

Evaluarea folosește informații condiționale reciproce și informații reciproce pentru a evalua redundanța dintre caracteristicile deja selectate ( ) și caracteristica studiată ( ). $f_{j}\în S$ $f_{i}$

Selectarea caracteristicilor pe baza criteriului de independență Lasso al lui Hilbert-Schmidt

Pentru date dimensionale mari și date mici (de exemplu, dimensionalitate > și dimensiunea eșantionului < ), este util testul de independență lasso Hilbert-Schmidt (HSIC Lasso) [27] . Problema de optimizare HSIC Lasso este dată ca $10^{5}$ $10^{3}$

\mathrm {HSIC_{Lasso}} :\min _{\mathbf {x} }{\frac {1}{2}}\sum _{k,l=1}^{n}x_{k} x_{l}{\mbox{HSIC}}(f_{k},f_{l})-\sum _{k=1}^{n}x_{k}{\mbox{HSIC}}(f_{k },c)+\lambda \|\mathbf {x} \|_{1},\quad \ x_{1},\ldots ,x_{n}\geq 0,

unde este o măsură a independenței nucleului numită criteriul de independență (empiric) Hilbert -Schmidt (HSIC), denotă urma, este un parametru de regularizare și sunt matrici Gram centrate la intrare și la ieșire și sunt matrici Gram și sunt funcții ale nucleului este o matrice centrată, este o matrice de identitate m -dimensională ( m : numărul de elemente din eșantion), este un vector m -dimensional cu toate și este -normă. HSIC ia întotdeauna o valoare nenegativă și este egală cu zero dacă și numai dacă cele două variabile aleatoare sunt independente statistic folosind un nucleu generator universal, cum ar fi un nucleu gaussian. ${\mbox{HSIC}}(f_{k},c)={\mbox{tr}}({\bar {\mathbf {K} }}^{(k)}{\bar {\mathbf {L} }}}$ ${\mbox{tr)}(\cdot )$ $\lambda$ ${\bar {\mathbf {K} }}^{(k)}=\mathbf {\Gamma } \mathbf {K} ^{(k)}\mathbf {\Gamma }$ ${\bar {\mathbf {L} }}=\mathbf {\Gamma } \mathbf {L} \mathbf {\Gamma }$ $K_{i,j}^{(k)}=K(u_{k,i},u_{k,j})$ $L_{i,j}=L(c_{i},c_{j})$ $K(u,u')$ $L(c,c')$ $\mathbf {\Gamma } =\mathbf {E} _{m}-{\frac {1}{m}}\mathbf {1} _{m}\mathbf {1} _{m}^{ T}$ $\mathbf {E} _{m)$ $\mathbf {1} _{m)$ $\|\cdot \|_{1)$ $\ell _{1}$

HSIC Lasso poate fi scris ca

\mathrm {HSIC_{Lasso}} :\min _{\mathbf {x} }{\frac {1}{2}}\left\|{\bar {\mathbf {L} }}-\sum _{k=1}^{n}x_{k}{\bar {\mathbf {K} }}^{(k)}\right\|_{F}^{2}+\lambda \|\mathbf {x} \|_{1},\quad \ x_{1},\ldots ,x_{n}\geq 0,

unde este norma Frobenius . Problema de optimizare este o problemă Lasso și, prin urmare, poate fi rezolvată eficient folosind metode moderne de soluție Lasso, cum ar fi metoda duală a Lagrangianului generalizat . $\|\cdot \|_{F)$

Selectarea caracteristicilor pe baza corelației

Corelation Feature Selection (CFS) evaluează subseturile de caracteristici pe baza următoarei ipoteze : „Subseturile de caracteristici bune conțin caracteristici care sunt foarte corelate cu clasificarea, dar nu sunt corelate între ele” [28] [29] . Următoarea egalitate oferă o estimare a unui subset de caracteristici S , constând din k caracteristici:

\mathrm {Merit} _{S_{k}}={\frac {k{\overline {r_{cf}}}}{\sqrt {k+k(k-1){\overline {r_{ ff}}}}}}.

Aici este media tuturor corelațiilor dintre clasele de caracteristici și este media tuturor corelațiilor dintre caracteristici. Criteriul CFS este definit după cum urmează: ${\overline {r_{cf)})$ ${\overline {r_{ff)})$

\mathrm {CFS} =\max _{S_{k}}\left[{\frac {r_{cf_{1}}+r_{cf_{2}}+\cdots +r_{cf_{k} }}{\sqrt {k+2(r_{f_{1}f_{2}}+\cdots +r_{f_{i}f_{j}}+\cdots +r_{f_{k}f_{1} })}}}\dreapta].

Variabilele și sunt corelații, dar nu neapărat coeficienții de corelație ai lui Pearson sau ρ . Teza lui Mark Hall nu folosește niciuna dintre ele, dar folosește trei măsuri diferite de relație, lungimea minimă a descrierii ( MDL), incertitudinea simetrică și Relief . $r_{cf_{i)}$ $r_{f_{i}f_{j)}$

Fie x i funcția indicator de apariție în mulțime pentru caracteristica f i . Apoi formula de mai sus poate fi rescrisă ca o problemă de optimizare:

\mathrm {CFS} =\max _{x\in \{0,1\}^{n}}\left[{\frac {(\sum _{i=1}^{n}a_{ i}x_{i})^{2}}{\sum _{i=1}^{n}x_{i}+\sum _{i\neq j}2b_{ij}x_{i}x_{j }}}\dreapta].

Problemele combinatorii de mai sus sunt, de fapt, probleme de programare liniară mixte 0-1 care pot fi rezolvate folosind algoritmul de ramificare și legătură [30] .

Copaci regularizați

S-a demonstrat că caracteristicile dintr -un arbore de decizie sau ansambluri de arbori sunt redundante. O metodă recentă numită „arbore regulat” [31] poate fi folosită pentru a selecta un subset de caracteristici. Arborii regularizați sunt penalizați cu o variabilă similară cu variabilele alese pe nodurile arborelui anterioare pentru a împărți nodul curent. Pentru arborii regularizați, trebuie construit un singur model (sau un ansamblu de arbori) și, prin urmare, algoritmul este eficient din punct de vedere computațional.

Arborii regularizați funcționează în mod natural cu caracteristici numerice și categoriale, interacțiuni și neliniarități. Sunt invariante în ceea ce privește scara atributelor (unităților) și insensibile la valori aberante și, prin urmare, necesită puțină preprocesare a datelor, cum ar fi normalizarea . Pădurea aleatorie regularizată ( RRF ) [32] este unul dintre tipurile de arbori regularizați . Driven RRF este o îmbunătățire a RRF care este determinată de scorul de importanță dintr-o pădure aleatoare obișnuită.

Prezentare generală a metodelor metaeuristice

Un metaalgoritm (sau metaeuristică) este o descriere generală a unui algoritm conceput pentru a rezolva probleme de optimizare dificile (de obicei NP-hard ) probleme pentru care nu sunt disponibile metode de rezolvare. De obicei, un meta-algoritm este un algoritm stocastic care se străduiește să atingă un optim global. Există mulți meta-algoritmi de la o simplă căutare locală la un algoritm global de căutare complex.

Principii de bază

Tehnicile de selecție a caracteristicilor sunt de obicei reprezentate de trei clase în funcție de modul în care combină algoritmii de selecție și de construire a modelelor.

Metoda de filtrare

Metodele de filtrare selectează variabile indiferent de model. Ele se bazează doar pe caracteristici generale, cum ar fi corelarea unei variabile cu o predicție. Metodele de filtrare suprimă variabilele cele mai puțin interesante. Alte variabile vor face parte din modelul de clasificare sau regresie utilizat pentru a clasifica sau prezice. Aceste metode sunt foarte eficiente în timpul de calcul și rezistente la supraajustare [33] .

Cu toate acestea, metodele de filtrare tind să selecteze variabile redundante deoarece nu iau în considerare relația dintre variabile. Din acest motiv, aceste metode sunt utilizate în principal ca metode de preprocesare.

Metoda Wrap

Metodele de împachetare evaluează subseturi de variabile și permit, spre deosebire de abordările de filtrare, detectarea unei posibile relații între variabile [34] . Cele două dezavantaje principale ale acestor metode sunt:

Riscul de supraajustare crește atunci când numărul de observații este insuficient.
Timp de calcul semnificativ atunci când numărul de variabile este mare.

Metoda de cuibărit

Metodele de încorporare au fost propuse ca o încercare de a combina avantajele celor două metode anterioare. Algoritmul de învățare profită de propriul proces de selecție a variabilelor și efectuează selecția și clasificarea caracteristicilor în același timp.

Aplicarea metaeuristicii de selecție a caracteristicilor

Mai jos este o prezentare generală a aplicațiilor metaalgoritmilor de selecție a caracteristicilor utilizați în literatură. O privire de ansamblu a fost oferită în teza de către Julia Hammon [33] .

Aplicație	Algoritm	O abordare	clasificator	Funcția de valoare	Legătură
SNP	Selectarea caracteristicilor folosind similaritatea caracteristicilor	Filtru		r2 _	Phuong 2005 [34]
SNP	algoritm genetic	Înveliș	arborele de decizie	Corectitudinea clasificării (10-cr)	Shah, Kusiak 2004 [35]
SNP	Caută prin urcare în vârf	Filtru + Wrapper	Clasificator naiv Bayes	Suma reziduală predictivă a pătratelor	Lohn 2007 [36]
SNP	Algoritm de recoacere simulat		Clasificator naiv Bayes	Corectitudinea clasificării (5-cr)	Ustunkar 2011 [37]
Segmentează parola	Algoritmul coloniilor de furnici	Înveliș	Retele neuronale artificiale	MSE	Al-ani 2005
Marketing	Algoritm de recoacere simulat	Înveliș	Regresia	AIC , r2	Meiri 2006 [38]
Economie	Algoritm de simulare de recoacere, algoritm genetic	Înveliș	Regresia	BIC	Kapetanios 2005 [39]
Masa spectrală	algoritm genetic	Înveliș	Regresie liniară multiplă, minime pătrate parțiale	Eroare medie pătratică a predicției	Broadhurst 2007 [40]
Spam	Metoda roiului de particule binare + mutație	Înveliș	arborele de decizie	preț ponderat	ianuarie 2014 [14]
micromatrice	Căutare interzisă + Metoda roiului de particule	Înveliș	Sprijină mașină vectorială , k-cei mai apropiați vecini	metrica euclidiană	Chang, Young 2009 [41]
micromatrice	PSO + algoritm genetic	Înveliș	Suport mașină vectorială	Corectitudinea clasificării (10-cr)	Alba 2007 [42]
micromatrice	Algoritm genetic + căutare locală iterativă	Cuibărit	Suport mașină vectorială	Corectitudinea clasificării (10-cr)	Duval 2009 [43]
micromatrice	Înveliș	Regresia	Probabilitatea posterioară	Hans, Dorba, Vest 2007 [44]
micromatrice	algoritm genetic	Înveliș	metoda k-cel mai apropiat vecin	Corectitudinea clasificării ( validare încrucișată cu excludere )	Aitken 2005 [45]
micromatrice	Algoritm genetic hibrid	Înveliș	metoda k-cel mai apropiat vecin	Corectitudinea clasificării (validare încrucișată cu excludere)	Oh Moon 2004 [46]
micromatrice	algoritm genetic	Înveliș	Suport mașină vectorială	Sensibilitate și specificitate	Xuan 2011 [47]
micromatrice	algoritm genetic	Înveliș	Mașină vectorială de suport în perechi	Corectitudinea clasificării (validare încrucișată cu excludere)	Peng 2003 [48]
micromatrice	algoritm genetic	Cuibărit	Suport mașină vectorială	Corectitudinea clasificării (10-cr)	Hernandez 2007 [49]
micromatrice	algoritm genetic	Hibrid	Suport mașină vectorială	Corectitudinea clasificării (validare încrucișată cu excludere)	Huerta 2006 [50]
micromatrice	algoritm genetic		Suport mașină vectorială	Corectitudinea clasificării (10-cr)	Mooney, Pal, Das 2006 [51] .
micromatrice	algoritm genetic	Înveliș	Suport mașină vectorială	EH-DIALL, CLUMP	Jourdain 2011 [52] .
Boala Alzheimer	Testul t al lui Welch	Filtru	mașină vectorială de suport pentru kernel	Corectitudinea clasificării (10-cr)	Zhang 2015 [53]
viziune computerizată	Selecție fără sfârșit de caracteristici	Filtru	independent	Precizie medie , ROC-area sub curbă	Roffo 2015 [54]
Micromatrice	Centralitatea vectorului propriu FS	Filtru	independent	Precizie medie, Acuratețe, ROC AUC	Roffo, Melzi 2016 [55]
XML	Algoritmul Tau simetric	Filtru	Clasificarea asociativă structurală	Precizie, acoperire	Shaharani, Hadzic 2014

Selectarea caracteristicilor încorporate în algoritmii de învățare

Unii algoritmi de învățare efectuează selecția caracteristicilor ca parte a algoritmului:

-tehnici de regularizare precum regresia rară, LASSO și -SVM $l_{1}$ $l_{1}$
Copaci regularizați [31] , cum ar fi pădurea aleatorie regularizată implementată în pachetul RRF [32]
Arborele de decizie [56]
algoritm memetic
Logit multinomial aleatoriu ( ing. Logit multinomial aleatoriu , RMNL)
Rețea de autocodare în strat îngust
Identificarea caracteristicilor submodulare [ [57] [58] [59]
Selectarea caracteristicilor pe baza învățării locale [60] . În comparație cu metodele tradiționale, această metodă nu folosește căutarea euristică, poate gestiona cu ușurință probleme cu un număr mare de clase și funcționează atât pe probleme liniare, cât și pe cele neliniare. Metoda este susținută și din punct de vedere teoretic. Experimentele numerice au arătat că metoda poate obține o soluție aproape optimă chiar și atunci când datele conțin mai mult de un milion de caracteristici nesemnificative.

Vezi și

Note

↑ James, Witten, Hastie, Tibshirani, 2013 , p. 204.
↑ 1 2 Bermingham, Pong-Wong, Spiliopoulou et al., 2015 , p. 10312.
↑ 1 2 3 Guyon, Elisseeff, 2003 .
↑ 12 Yang , Pedersen, 1997 .
↑ Urbanowicz, Meeker, LaCava, Olson, Moore, 2017 .
↑ Forman, 2003 , p. 1289–1305.
↑ Zhang, Li, Wang, Zhang, 2013 , p. 32–42.
↑ Bach, 2008 , p. 33–40.
↑ Zare, 2013 , p. S14.
↑ Soufan, Kleftogiannis, Kalnis, Bajic, 2015 , p. e0117988.
↑ Figueroa, 2015 , p. 162–169.
↑ Figueroa, Neumann, 2013 .
↑ Figueroa, Neumann, 2014 , p. 4730–4742.
↑ 1 2 Zhang, Wang, Phillips, 2014 , p. 22–31.
↑ Garcia-Lopez, Garcia-Torres, Melian, Moreno-Perez, Moreno-Vega, 2006 , p. 477–489.
↑ Garcia-Lopez, Garcia-Torres, Melian, Moreno-Perez, Moreno-Vega, 2004 , p. 59–68.
↑ Garcia-Torres, Gomez-Vela, Melian, Moreno-Vega, 2016 , p. 102-118.
↑ Kraskov, Stögbauer, Andrzejak, Grassberger, 2003 .
↑ Einicke, 2018 , p. 1097–1103.
↑ Aliferis, 2010 , p. 171–234.
↑ 1 2 3 4 Brown, Pocock, Zhao, Luján, 2012 , p. 27-66.
↑ Peng, Long, Ding, 2005 , p. 1226–1238.
↑ Nguyen, Franke, Petrovic, 2010 , p. 1529-1532.
↑ Rodriguez-Lujan, Huerta, Elkan, Santa Cruz, 2010 , p. 1491–1516
↑ 1 2 Vinh, Chan, Romano, Bailey, 2014 .
↑ Yang, Moody, 2000 , p. 687-693.
↑ Yamada, Jitkrittum, Sigal, Xing, Sugiyama, 2014 , p. 185-207.
↑ Hall, 1999 .
↑ Senliol, Gulgezen, Yu, Cataltepe, 2008 , p. 1-4.
↑ Nguyen, Franke, Petrovic, 2009 .
↑ 12 Deng, Runger , 2012 .
↑ 1 2 RRF: Regularized Random Forest Arhivat 5 ianuarie 2019 la Wayback Machine , pachet R la depozitul Comprehensive R Archive Network (CRAN)
↑ 12 Hammon , 2013 .
↑ 1 2 Phuong, Lin, Altman, 2005 , p. 301-309.
↑ Shah, Kusiak, 2004 , p. 183–196.
↑ Long, Gianola, Weigel, 2011 , p. 247–257.
↑ Ustunkar, Ozogur-Akyuz, Weber, Friedrich, Son, 2011 , p. 1207–1218
↑ Meiri, Zahavi, 2006 , p. 842-858.
↑ Kapetanios, 2005 .
↑ Broadhurst, Goodacre, Jones, Rowland, Kell, 1997 , p. 71-86.
↑ Chuang, Yang, 2009 , p. 1689–1703
↑ Alba, Garia-Nieto, Jourdan, Talbi, 2007 .
↑ Duval, Hao, Hernandez, 2009 , p. 201-208.
↑ Hans, Dobra, Vest, 2007 , p. 507-516.
↑ Aitken, 2005 , p. 148.
↑ Oh, Moon, 2004 , p. 1424–1437
↑ Xuan, Guo, Wang, Liu, Liu, 2011 , p. 588–603.
↑ Peng, 2003 , p. 358–362.
↑ Hernandez, Duval, Hao, 2007 , p. 90-101.
↑ Huerta, Duval, Hao, 2006 , p. 34-44.
↑ Muni, Pal, Das, 2006 , p. 106-117.
↑ Jourdan, Dhaenens, Talbi, 2011 .
↑ Zhang, Dong, Phillips, Wang, 2015 , p. 66.
↑ Roffo, Melzi, Cristani, 2015 , p. 4202–4210.
↑ Roffo, Melzi, 2016 , p. 19-38.
↑ Kohavi, John, 1997 , p. 273-324.
↑ Das, Kempe, 2011 .
↑ Liu, Wei, Kirchhoff, Song, Bilmes, 2013 .
^ Zheng, Jiang, Chellappa, Phillip, 2014 .
↑ Sun, Todorovic, Goodison, 2010 , p. 1610-1626.

Literatură

Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. O introducere în învățarea statistică . — Springer, 2013.
Mairead L. Bermingham, Ricardo Pong-Wong, Athina Spiliopoulou, Caroline Hayward, Igor Rudan, Harry Campbell, Alan F. Wright, James F. Wilson, Felix Agakov, Pau Navarro, Chris S. Haley. Aplicarea selecției caracteristicilor de înaltă dimensiune: evaluare pentru predicția genomică la om // Sci. Reprezentant. . - 2015. - or. 5 . - doi : 10.1038/srep10312 . - Cod biblic . — PMID 25988841 .
Othman Soufan, Dimitrios Kleftogiannis, Panos Kalnis, Vladimir B. Bajic. DWFS: Un instrument de selecție a caracteristicilor Wrapper bazat pe un algoritm genetic paralel // PLOS One. - 2015. - T. 10 , nr. 2 . — ISSN 1932-6203 . - doi : 10.1371/journal.pone.0117988 . — Cod . — PMID 25719748 .
Alejandro Figueroa. Explorarea funcțiilor eficiente pentru recunoașterea intenției utilizatorului din spatele interogărilor web // Calculatoare în industrie. - 2015. - T. 68 . - doi : 10.1016/j.compind.2015.01.005 .
Alejandro Figueroa, Guenter Neumann. Învățarea să clasificăm parafrazele eficiente din jurnalele de interogări pentru răspunsul la întrebări ale comunității // A 27-a Conferință AAAI privind inteligența artificială . — 2013.
Alejandro Figueroa, Guenter Neumann. Modele specifice categoriei pentru clasarea parafrazelor eficiente în comunitate Răspunsuri la întrebări // Sisteme experte cu aplicații. - 2014. - T. 41 , nr. 10 . - doi : 10.1016/j.eswa.2014.02.004 .
Zhang Y., Wang S., Phillips P. PSO binar cu operator de mutație pentru selectarea caracteristicilor folosind arborele de decizie aplicat la detectarea spamului // sisteme bazate pe cunoștințe. - 2014. - T. 64 . - doi : 10.1016/j.knosys.2014.03.015 .
Garcia-Lopez FC, Garcia-Torres M., Melian B., Moreno-Perez JA, Moreno-Vega JM Rezolvarea problemei de selecție a subsetului de caracteristici printr-o căutare paralelă cu dispersie // European Journal of Operational Research. - 2006. - T. 169 , nr 2 .
Garcia-Lopez FC, Garcia-Torres M., Melian B., Moreno-Perez JA, Moreno-Vega JM Rezolvarea problemei de selecție a subsetului de caracteristici printr-o metaeuristică hibridă // Primul atelier internațional de metaeuristică hibridă. - 2004. - S. 59–68.
Garcia-Torres M., Gomez-Vela F., Melian B., Moreno-Vega JM Selecție de caracteristici înalte dimensiuni prin gruparea de caracteristici: O abordare de căutare variabilă în vecinătate // Științe informaționale. - 2016. - T. 326 .
Alexander Kraskov, Harald Stögbauer, Ralph G. Andrzejak, Peter Grassberger. Clustering ierarhic bazat pe informații reciproce . - 2003. - . - arXiv : q-bio/0311039 .
Nguyen X. Vinh, Jeffrey Chan, Simone Romano, James Bailey. Abordări globale eficiente pentru selecția caracteristicilor bazate pe informații reciproce // A 20-a Conferință ACM SIGKDD privind descoperirea cunoștințelor și extragerea datelor (KDD'14), 24–27 august . — New York, 2014.
Howard Hua Yang, John Moody. Vizualizarea datelor și selecția caracteristicilor: noi algoritmi pentru date nongaussian // Progrese în sistemele de procesare a informațiilor neuronale. — 2000.
Yamada M., Jitkrittum W., Sigal L., Xing EP, Sugiyama M. High-Dimensional Feature Selection by Feature-Wise Non-Linear Lasso // Neural Computation. - 2014. - T. 26 , Nr. 1 .
Mark A Hall. Selectarea caracteristicilor bazate pe corelație pentru învățarea automată . — 1999.
Baris Senliol, Gokhan Gulgezen, Lei Yu, Zehra Cataltepe. Filtru rapid bazat pe corelație (FCBF) cu o strategie de căutare diferită // ISCIS'08. Al 23-lea Simpozion Internațional despre. . - IEEE, 2008. - S. 1-4.
Hai Nguyen, Katrin Franke, Slobodan Petrovic. Optimizarea unei clase de măsuri de selecție a caracteristicilor // Conferința NIPS 2009 Workshop on Discrete Optimization in Machine Learning: Submodularity, Sparsity & Polyhedra (DISCML), Vancouver, Canada, decembrie 2009 . — 2009.
Hammon J. Optimization combinatoire pour la selection de variables en regres in grande dimension : Application en génétique animale. . — 2013.
Kohavi R., John G. Wrappers for feature subset selection // Artificial intelligence 97. - 1997. - Vol. 1-2 .
Deng H., Runger G. Selectarea caracteristicilor prin arbori regulați // Proceedings of the 2012 International Joint Conference on Neural Networks (IJCNN) . — IEEE, 2012.
Phuong TM, Lin Z., Altman RB Alegerea SNP-urilor folosind selecția caracteristicilor // IEEE Computational Systems Bioinformatics Conference, CSB. IEEE Computational Systems Bioinformatics Conference . — 2005. Arhivat pe 13 septembrie 2016 la Wayback Machine
Gavin Brown, Adam Pocock, Ming-Jie Zhao, Mikel Luján. Maximizarea probabilității condiționate: un cadru unificator pentru selecția caracteristicilor teoretice ale informațiilor // Journal of Machine Learning Research. - 2012. - T. 13 . [unu]
Shah SC, Kusiak A. Miningul de date și selecția genelor bazate pe algoritm genetic/SNP // Inteligența artificială în medicină. - 2004. - T. 31 , nr. 3 . - doi : 10.1016/j.artmed.2004.04.002 . — PMID 15302085 .
Long N., Gianola D., Weigel KA Reducerea dimensiunii și selecția variabilelor pentru selecția genomică: aplicație pentru prezicerea producției de lapte în Holsteins // Journal of Animal Breeding and Genetics. - 2011. - T. 128 , nr. 4 . - doi : 10.1111/j.1439-0388.2011.00917.x . — PMID 21749471 .
Ustunkar G., Ozogur-Akyuz S., Weber GW, Friedrich CM, Yesim Aydin Son. Selecția de seturi SNP reprezentative pentru studiile de asociere la nivel de genom: o abordare metaeuristică // Scrisori de optimizare. - Springer-Verlag, 2011. - Noiembrie ( vol. 6 , numărul 6 ). - doi : 10.1007/s11590-011-0419-7 .
Meiri R., Zahavi J. Utilizarea recoacerii simulate pentru a optimiza problema de selecție a caracteristicilor în aplicațiile de marketing // European Journal of Operational Research. - 2006. - Juin ( vol. 171 , nr. 3 ).
Kapetanios G. Selectarea variabilelor folosind optimizarea non-standard a criteriilor de informare . - 2005. - (Working Paper, Queen Mary, University of London, School of Economics and Finance).
Broadhurst D., Goodacre R., Jones A., Rowland JJ, Kell DB Algoritmi genetici ca metodă de selecție a variabilelor în regresia liniară multiplă și regresia parțială a celor mai mici pătrate, cu aplicații la spectrometria de masă prin piroliză // Analytica Chimica Acta. - 1997. - August ( vol. 348 , nr. 1-3 ).
Chuang L.-Y., Yang C.-H. Căutarea tabu și optimizarea roiului de particule binare pentru selecția caracteristicilor folosind date microarray // Journal of Computational Biology. - 2009. - T. 16 , nr. 12 . - doi : 10.1089/cmb.2007.0211 . — PMID 20047491 .
Alba E., Garia-Nieto J., Jourdan L., Talbi E.-G. Selecția genelor în clasificarea cancerului folosind algoritmi hibridi PSO-SVM și GA-SVM // Congresul privind calculul evolutiv, Singapore, 2007 . - Singapore, 2007.
Duval B., Hao J.-K., Hernandez JCH Un algoritm memetic pentru selecția genelor și clasificarea moleculară a unui cancer // Proceedings of the 11th Annual Conference on Genetic and evolutionary calculation, GECCO '09 . — New York, NY, SUA: ACM, 2009.
Hans C., Dobra A., West M. Shotgun căutare stocastică pentru regresia „p mare” // Jurnalul Asociației Americane de Statistică. - 2007. - T. 102 , nr. 478 . - S. 507-516 . — ISSN 0162-1459 . - doi : 10.1198/016214507000000121 .
Isabelle Guyon, André Elisseeff. O introducere în selecția variabilelor și a caracteristicilor // JMLR . - 2003. - T. 3 .
Ryan J. Urbanowicz, Melissa Meeker, William LaCava, Randal S. Olson, Jason H. Moore. Selectarea caracteristicilor bazate pe relief: introducere și revizuire // Jurnalul de informatică biomedicală. - 2017. - Emisiune. 85 . - doi : 10.1016/j.jbi.2018.07.014 .
Yiming Yang, Jan O. Pedersen. Un studiu comparativ privind selecția caracteristicilor în categorizarea textului // Proceedings of the Fourteenth International Conference on Machine Learning (ICML). - 1997. - ISBN 1-55860-486-3 .
George Forman. Un studiu empiric amplu al valorilor de selecție a caracteristicilor pentru clasificarea textului // Journal of Machine Learning Research. - 2003. - T. 3 . — ISSN 1533-7928 .
Yishi Zhang, Shujuan Li, Teng Wang, Zigang Zhang. Selecția de caracteristici bazată pe divergențe pentru clase separate // Neurocomputing. - 2013. - T. 101 , nr. 4 . - doi : 10.1016/j.neucom.2012.06.036 .
Francis R. Bach. Bolasso: modelați estimarea lasso consistentă prin bootstrap . — Actele celei de-a 25-a Conferințe internaționale privind învățarea automată. - 2008. - ISBN 9781605582054 . - doi : 10.1145/1390156.1390161 .
Habil Zare. Notarea relevanței caracteristicilor bazată pe analiza combinatorie a lui Lasso cu aplicare la diagnosticul limfomului // BMC Genomics. - 2013. - T. 14 . - doi : 10.1186/1471-2164-14-S1-S14 . — PMID 23369194 .
Einicke GA Maximum-Entropie Rate Selecție de caracteristici pentru clasificarea modificărilor în dinamica genunchiului și gleznelor în timpul alergării // IEEE Journal of Biomedical and Health Informatics. - 2018. - T. 28 , nr. 4 . doi : 10.1109 / JBHI.2017.2711487 . — PMID 29969403 .
Constantin Aliferis. Inducerea cauzală locală și markov pentru descoperirea cauzală și selecția caracteristicilor pentru clasificarea partea I: Algoritmi și evaluare empirică // Journal of Machine Learning Research. - 2010. - T. 11 .
Peng HC, Long F., Ding C. Selectarea caracteristicilor bazată pe informații reciproce: criterii de dependență maximă, relevanță maximă și redundanță minimă // Tranzacții IEEE privind analiza modelelor și inteligența mașinii. - 2005. - T. 27 , nr. 8 . - doi : 10.1109/TPAMI.2005.159 . — PMID 16119262 . Program
Nguyen H., Franke K., Petrovic S. Towards a Generic Feature-Selection Measure for Intrusion Detection // 20h International Conference on Pattern Recognition (ICPR) . — Istanbul, Turcia, 2010.
Rodriguez-Lujan I., Huerta R., Elkan C., Santa Cruz C. Selectarea caracteristicilor de programare cuadratică // JMLR . - 2010. - T. 11 .
Aitken S. Selecția și clasificarea caracteristicilor pentru analiza datelor cu microarray: Metode evolutive pentru identificarea genelor predictive // BMC Bioinformatics. - 2005. - T. 6 , nr. 1 . - doi : 10.1186/1471-2105-6-148 . — PMID 15958165 .
Oh IS, Moon BR Algoritmi genetici hibridi pentru selectarea caracteristicilor // Tranzacții IEEE privind analiza modelelor și inteligența mașinilor. - 2004. - T. 26 , nr. 11 . - doi : 10.1109/tpami.2004.105 . — PMID 15521491 .
Xuan P., Guo MZ, Wang J., Liu XY, Liu Y. Selecția eficientă a caracteristicilor bazate pe algoritm genetic pentru clasificarea pre-miRNA-urilor // Genetică și cercetare moleculară. - 2011. - T. 10 , nr. 2 . - doi : 10.4238/vol10-2gmr969 . — PMID 21491369 .
Peng S. Clasificarea moleculară a tipurilor de cancer din datele microarray utilizând combinația de algoritmi genetici și mașini de suport vector // FEBS Letters. - 2003. - T. 555 , nr. 2 . - doi : 10.1016/s0014-5793(03)01275-4 .
Jose Crispin Hernandez Hernandez, Béatrice Duval, Jin-Kao Hao. O abordare genetică încorporată pentru selecția genelor și clasificarea datelor cu microarray // Evolutionary Computation, Machine Learning and Data Mining in Bioinformatics, EvoBIO'07. - Berlin, Heidelberg: SpringerVerlag, 2007. - T. 4447. - (Lecture Notes in Computer Science). — ISBN 3-540-71782-X .
Huerta EB, Duval B., Hao J.-K. O abordare hibridă GA/SVM pentru selecția genelor și clasificarea datelor microarray. Evoworkshops // Aplicații de Evolutionary Computing. - 2006. - T. 3907. - S. 34-44. — (Note de curs în Informatică).
Muni DP, Pal NR, Das J. Programare genetică pentru selecția simultană a caracteristicilor și proiectarea clasificatorului // IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics. - 2006. - T. 36.
Laetitia Jourdan, Clarisse Dhaenens, El-Ghazali Talbi. Studiu de dezechilibru a legăturii cu un GA adaptativ paralel // Jurnalul Internațional de Fundații ale Informaticii. - 2011. - T. 16 , nr. 2 .
Zhang Y., Dong Z., Phillips P., Wang S. Detectarea subiecților și a regiunilor creierului legate de boala Alzheimer folosind scanări RMN 3D bazate pe creier propriu și învățarea automată // Frontiers in Computational Neuroscience. - 2015. - T. 9 . - doi : 10.3389/fncom.2015.00066 . — PMID 26082713 .
Roffo G., Melzi S., Cristani M. Infinite Feature Selection . — 2015 IEEE International Conference on Computer Vision (ICCV). - 2015. - ISBN 978-1-4673-8391-2 . - doi : 10.1109/ICCV.2015.478 .
Giorgio Roffo, Simone Melzi. Selectarea caracteristicilor prin centralitatea vectorului propriu // Noi frontiere în modelele complexe miniere, (NFMCP 2016). . - Springer, 2016. - T. 10312. - S. 19-38. - (Lecture Notes in Artificial Intelligence (LNAI}). - ISBN 978-3-319-61460-1 . - doi : 10.1007/978-3-319-61461-8 . Link-ul indică o versiune ușor diferită a articolului
Abhimanyu Das, David Kempe. Submodular se întâlnește cu Spectral: Algoritmi lacomi pentru selecția subseturilor, aproximarea rară și selecția dicționarului // A 28-a Conferință internațională privind învățarea automată. — 2011.
Yuzong Liu, Kai Wei, Katrin Kirchhoff, Yisong Song, Jeff A. Bilmes. Selectarea caracteristicilor submodulare pentru spații de scor acustic cu dimensiuni mari // 2013 IEEE International Conference on Acoustics, Speech and Signal Processing . - 2013. - doi : 10.1109/ICASSP.2013.6639057 .
Jinging Zheng, Zhuolin Jiang, Rama Chellappa, P. Jonathon Phillip. Submodular Attribute Selection for Action Recognition in Video // Advances in Neural Information Processing Systems 27 (NIPS 2014) / Z. Ghahramani, M. Welling, C. Cortes, ND Lawrence, KQ Weinberger.. - 2014.
Sun Y., Todorovic S., Goodison S. Local-Learning-Based Feature Selection for High-Dimensional Data Analysis] // IEEE Transactions on Pattern Analysis and Machine Intelligence . - 2010. - T. 32.

Lectură pentru lecturi suplimentare

Link -uri

Pachet de selecție a caracteristicilor, Universitatea de Stat din Arizona (Codul Matlab)
Provocarea NIPS 2003 _
Implementare naive Bayes cu selecție de caracteristici în Visual Basic Arhivat 14 februarie 2009 la Wayback Machine (include executabil și codul sursă)
Program de selecție a caracteristicilor de redundanță minimă-relevanță maximă (mRMR).
FEAST (algoritmi de selecție a caracteristicilor cu sursă deschisă în C și MATLAB)

Învățare automată și extragerea datelor
Sarcini	Problema de clasificare Învățați fără profesor Învățare asistată de profesor Analiza regresiei AutoML Regulile de asociere Extragerea caracteristicilor Antrenamentul trăsăturilor Antrenament de clasare Derivarea gramaticală Învățare online
Învățarea cu un profesor	metoda k-cel mai apropiat vecin Clasificator naiv Bayes arborele de decizie Suport mașină vectorială Regresie liniara Regresie logistică perceptron Ansambluri de modele Bagare stimularea pădure la întâmplare Metoda vectorială relevantă
analiza grupului	metoda k-means Metoda de grupare fuzzy Gruparea ierarhică algoritmul EM MESTEACĂN VINDECA DBSCAN OPTICA Schimbarea medie
Reducerea dimensionalității	Analiza factorilor Metoda componentei principale CCA ICA LDA Expansiunea nenegativă a matricei t-SNE
Prognoza structurală	Modelul probabilistic grafic Rețeaua bayesiană Modelul Markov ascuns CRF
Detectarea anomaliilor	metoda k-cel mai apropiat vecin Nivelul de emisie local
Modele grafice probabilistice	Rețeaua bayesiană Rețeaua Markov Modelul Markov ascuns
Rețele neuronale	Mașină Boltzmann limitată hartă de auto-organizare Funcția de activare Sigmoid softmax Funcția de bază radială Metoda de propagare înapoi Invatare profunda Perceptron multistrat Rețea neuronală recurentă memorie pe termen lung și scurt Bloc recurent controlat Rețeaua neuronală convoluțională U-Net Autoencoder
Consolidarea învățării	procesul Markov Ecuația Bellman Algoritmul lacom Q-learning SARSA Diferența temporală (TD)
Teorie	Teoria Vapnik-Chervonenkis Dilema părtinire-dispersie Teoria învățării computaționale Minimizarea riscului empiric Occam învață Învățarea PAC Teoria învăţării statistice
Reviste și conferințe	NeurIPS ICML ML JMLR ArXiv:cs.LG