Selectarea caracteristicilor

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită la 30 septembrie 2022; verificarea necesită 1 editare .

Selectarea caracteristicilor , cunoscută și sub denumirea de selecție de variabile , selecție de atribute sau selecție de predictor (în cazuri rare, generalizare) , este o formă de abstractizare , procesul de selectare a unui subset de caracteristici semnificative (atât variabile dependente, cât și independente ) pentru a construi un model. Selectarea caracteristicilor este utilizată din patru motive:

Mesajul central al utilizării tehnicii de selecție a caracteristicilor este ideea că datele conțin unele caracteristici, dacă gândurile sunt redundante sau nesemnificative , pot fi eliminate fără pierderi semnificative de informații [2] . „ Superfluu” și „ nesemnificativ” sunt două concepte diferite, deoarece o trăsătură semnificativă poate fi redundantă în prezența unei alte trăsături semnificative cu care este foarte corelată [3] .

Selectarea caracteristicilor ar trebui să fie deosebită de extragerea caracteristicilor . Extragerea caracteristicilor creează noi caracteristici ca funcții ale caracteristicilor originale, în timp ce selecția caracteristicilor returnează un subset al caracteristicilor. Tehnicile de selecție a caracteristicilor sunt adesea folosite în zonele în care există multe caracteristici și eșantioanele sunt relativ mici (puține puncte de date). Aplicațiile clasice pentru selecția caracteristicilor sunt analiza scrisului de mână și micromatricele ADN , unde există multe mii de caracteristici și zeci până la sute de mostre .

Introducere

Un algoritm de selecție a caracteristicilor poate fi gândit ca o combinație de tehnici de căutare pentru a reprezenta un nou subset de caracteristici, împreună cu calculul unei măsuri care reflectă diferența dintre subseturile de caracteristici. Cel mai simplu algoritm este de a testa fiecare subset posibil de caracteristici și de a găsi pe cel care minimizează amploarea erorii. Aceasta este o căutare exhaustivă a spațiului și este dificil din punct de vedere computațional pentru un număr mare de caracteristici. Alegerea metricii afectează alegerea algoritmului. Metricurile diferă pentru cele trei categorii principale de algoritmi de selecție a caracteristicilor: wrapper-uri, filtre și metode de imbricare [3] .

În statisticile tradiționale, cea mai populară formă de selecție a caracteristicilor este regresia în trepte , care este o tehnică de împachetare. Este un algoritm lacom care adaugă o caracteristică mai bună (sau elimină una mai proastă) la fiecare pas al algoritmului. Problema principală este când se oprește algoritmul. Când antrenați modele, acest lucru se face de obicei prin validare încrucișată . În statistică, unele criterii sunt optimizate. Acest lucru duce la moștenirea problemei cuibăririi. Au fost, de asemenea, explorate metode mai robuste, cum ar fi metoda ramificată și legată și rețeaua liniară pe bucăți.

Selectarea subsetului

Selecția subset evaluează un subset de caracteristici ca grup de stabilitate. Algoritmii de selecție de subseturi pot fi împărțiți în Wrappers, Filters și Attachments. Wrapper-urile folosesc un algoritm de căutare pentru a analiza spațiul pentru posibile caracteristici și pentru a evalua fiecare subset prin rularea modelului pe subset. Wrapper-urile pot fi costisitoare din punct de vedere computațional și prezintă riscul de a supraadapta modelul. „Filtrele” sunt similare cu „Wrappers” în abordarea căutării, dar în loc să noteze un model, este clasat un filtru mai simplu. Tehnicile de imbricare sunt încorporate în model și specifice acestuia.

Multe abordări populare folosesc căutarea lacomă a vârfurilor , care evaluează iterativ un subset de caracteristici ca candidat, apoi modifică subsetul și evaluează cât de mai bun este noul subset decât cel vechi. Scorul subsetului necesită utilizarea unei valori de scoring care clasifică subseturile de caracteristici. O căutare exhaustivă nu este de obicei fezabilă, astfel încât dezvoltatorul (sau operatorul) definește un punct de întrerupere, subsetul de caracteristici cu cel mai mare scor obținut până acum este selectat ca subsetul satisfăcător de caracteristici. Criteriul de oprire depinde de algoritm. Criteriile posibile sunt: ​​scorul subsetului depășește pragul, programul a depășit timpul maxim permis și așa mai departe.

Tehnicile alternative bazate pe căutare se bazează pe cea mai bună căutare a țintei de proiecție , care găsește proiecții dimensionale joase cu punctaj ridicat ale datelor - sunt selectate caracteristicile care au cele mai mari proiecții în spațiul de dimensiuni reduse.

Abordări de căutare:

Două metrici de filtrare populare pentru problemele de clasificare sunt corelația și informațiile reciproce , deși nici una nu este o metrică adevărată sau măsură distanței” în sens matematic, deoarece nu dețin inegalitatea triunghiului și, prin urmare, nu reprezintă „distanța” reală – ar trebui mai degrabă. să fie înțeles ca o „evaluare”. Aceste scoruri sunt calculate între caracteristicile candidate (sau seturile de caracteristici) și categoria dorită. Există, totuși, metrici adevărate, care sunt simple funcții de informare reciprocă [18] .

Alte valori posibile de filtrare:

Criteriul de optimizare

Alegerea criteriului de optimitate este dificilă, deoarece există mai multe obiective în problema de selecție a caracteristicilor. Multe criterii includ o măsură de acuratețe penalizată de numărul de caracteristici selectate (cum ar fi criteriul informațional bayesian ). Cele mai vechi statistici sunt C p Mallows și Akaike information criterie ( AIC) .  Ei adaugă variabile dacă statistica t este mai mare decât .

Alte criterii sunt criteriul Bayesian de informare ( BIC ), care utilizează , lungimea minimă a descrierii ( MDL), care utilizează asimptotic , Bonferroni / RIC, care utilizează , selecția caracteristicilor cu dependență maximă și un set de criterii noi care sunt dictate de ideea ratei false de descoperire ( în engleză false discovery rate , FDR) și care folosesc ceva apropiat de . Criteriul ratei de entropie maximă poate fi, de asemenea, utilizat pentru a selecta cel mai semnificativ subset de caracteristici [19] .    

Învățare structurală

Filtrul de selecție a caracteristicilor este un caz special al unei paradigme mai generale numită „învățare structurală” . Selectarea caracteristicilor găsește un set semnificativ de caracteristici pentru o anumită variabilă țintă, în timp ce învățarea structurată găsește relații între variabile, exprimând de obicei aceste relații ca un grafic. Cei mai comuni algoritmi de învățare structurată presupun că datele sunt generate de o rețea bayesiană , astfel încât structura este un model de grafic direcționat . Soluția optimă pentru problema filtrului de selecție a caracteristicilor este gardul Markovian al nodului țintă , iar rețeaua Bayesiană are un singur gard Markovian pentru fiecare nod [20] .

Mecanisme de selecție a caracteristicilor bazate pe teoria informației

Există diferite mecanisme de selecție a caracteristicilor care utilizează informații reciproce pentru a evalua diferite caracteristici. De obicei folosesc același algoritm:

  1. Informațiile reciproce sunt calculate ca o estimare între toate caracteristicile ( ) și clasa țintă ( )
  2. Caracteristica cu cel mai mare scor este selectată (de exemplu, ) și adăugată la setul de caracteristici selectate ( )
  3. Se calculează o estimare care poate fi obținută din informațiile reciproce
  4. Selectăm caracteristica cu cel mai mare scor și o adăugăm la setul de caracteristici selectate (de exemplu, )
  5. Repetați pașii 3. și 4. Până când obținem un anumit număr de caracteristici (de exemplu, )

Cea mai simplă abordare folosește informația reciprocă ca estimare „derivată” [21] .

Cu toate acestea, există diverse abordări care încearcă să reducă redundanța dintre caracteristici.

Selectarea caracteristicilor pe baza redundanței minime-relevanță maximă

Peng, Long și Ding [22] au propus o metodă de selecție a caracteristicilor care poate utiliza informații reciproce, corelație sau estimarea distanței/similarității pentru selecția caracteristicilor. Scopul este de a impune o penalizare asupra semnificației caracteristicii în caz de redundanță cauzată de prezența în alte caracteristici selectate. Semnificația setului de caracteristici S pentru clasa c este determinată de valoarea medie a tuturor valorilor informațiilor reciproce dintre caracteristica individuală f i și clasa c :

Redundanța tuturor caracteristicilor din setul S este egală cu valoarea medie a tuturor valorilor informațiilor reciproce dintre caracteristica f i și caracteristica f j :

Criteriul minim - redundanță - relevanță maximă ( mRMR  ) este o combinație a celor două măsuri prezentate mai sus și definite ca:

Să presupunem că există un set complet de n caracteristici. Fie x i o funcție indicator de apariție în mulțimea fi , astfel încât x i =1 reflectă prezența, iar x i =0 reflectă absența caracteristicii f i în setul global de caracteristici optime . Lasă și . Formula de mai sus poate fi rescrisă acum ca o problemă de optimizare:

Algoritmul mRMR este o aproximare a algoritmului teoretic optim de selecție a caracteristicilor de dependență maximă care maximizează informația reciprocă dintre distribuția comună a caracteristicilor selectate și variabila de clasificare. Deoarece mRMR aproximează problema de estimare combinatorie cu o serie de probleme mult mai mici, fiecare folosind doar două variabile, utilizează probabilități comune în perechi, care sunt mai robuste. În unele situații, algoritmul poate subestima utilitatea caracteristicilor deoarece nu are capacitatea de a măsura relația dintre caracteristici, ceea ce poate crește semnificația. Acest lucru poate duce la o performanță slabă [21] caracteristicile sunt individuale inutile, dar devin semnificative în combinație (un caz patologic este găsit când clasa este o funcție de paritate a caracteristicilor ). În general, algoritmul este mai eficient (în ceea ce privește cantitatea de date necesară) decât alegerea de dependență maximă teoretic optimă, dar produce un set de caracteristici cu redundanță mică pe perechi.

Algoritmul mRMR este un reprezentant al unei clase mari de metode de filtrare care echilibrează în diferite moduri între semnificație și redundanță [21] [23] .

Programare cuadratică pentru selecția caracteristicilor

Algoritmul mRMR este un exemplu tipic de strategie lacomă incrementală pentru selecția caracteristicilor - odată ce o caracteristică este selectată, aceasta nu poate fi eliminată din selecție în pașii următori. În timp ce mRMR poate fi optimizat cu căutare flotantă pentru a reduce unele caracteristici, poate fi reformulat ca o problemă globală de optimizare a programării pătratice [24] :

unde este vectorul de semnificație a caracteristicilor în ipoteza că există un total de n caracteristici, este o matrice de semnificație pe perechi și reprezintă ponderile relative ale caracteristicilor. Problema QPFS este rezolvată prin metode de programare pătratică. S-a demonstrat că QFPS este orientat către caracteristici cu entropie mai mică [25] datorită auto-redundanței caracteristicii pe diagonala matricei H.

Informații condiționale reciproce

O altă estimare derivată din informații reciproce se bazează pe semnificația condiționată [25] :

unde si .

Avantajul SPEC CMI este că poate fi rezolvat prin găsirea vectorului propriu dominant Q . SPEC CMI procesează și caracteristici de relație de ordinul doi.

Informații comune partajate

Într-un studiu al diverșilor estimatori, Brown, Powcock, Zhao și Luhan [21] au recomandat informații comune comune [26] ca un bun estimator pentru selecția caracteristicilor. Evaluarea încearcă să găsească caracteristica care adaugă cele mai multe informații noi la caracteristicile deja selectate pentru a evita redundanța. Scorul este formulat astfel:


Evaluarea folosește informații condiționale reciproce și informații reciproce pentru a evalua redundanța dintre caracteristicile deja selectate ( ) și caracteristica studiată ( ).

Selectarea caracteristicilor pe baza criteriului de independență Lasso al lui Hilbert-Schmidt

Pentru date dimensionale mari și date mici (de exemplu, dimensionalitate > și dimensiunea eșantionului < ), este util testul de independență lasso Hilbert-Schmidt (HSIC Lasso) [27] . Problema de optimizare HSIC Lasso este dată ca

unde este o măsură a independenței nucleului numită criteriul de independență (empiric) Hilbert -Schmidt (HSIC), denotă urma, este un parametru de regularizare și sunt matrici Gram centrate la intrare și la ieșire și sunt matrici Gram și sunt funcții ale nucleului este o matrice centrată, este o matrice de identitate m -dimensională ( m : numărul de elemente din eșantion), este un vector m -dimensional cu toate și este -normă. HSIC ia întotdeauna o valoare nenegativă și este egală cu zero dacă și numai dacă cele două variabile aleatoare sunt independente statistic folosind un nucleu generator universal, cum ar fi un nucleu gaussian.  

HSIC Lasso poate fi scris ca

unde este norma Frobenius . Problema de optimizare este o problemă Lasso și, prin urmare, poate fi rezolvată eficient folosind metode moderne de soluție Lasso, cum ar fi metoda duală a Lagrangianului generalizat .

Selectarea caracteristicilor pe baza corelației

Corelation Feature Selection (CFS) evaluează subseturile de caracteristici pe baza următoarei ipoteze :  „Subseturile de caracteristici bune conțin caracteristici care sunt foarte corelate cu clasificarea, dar nu sunt corelate între ele” [28] [29] . Următoarea egalitate oferă o estimare a unui subset de caracteristici S , constând din k caracteristici:

Aici este media tuturor corelațiilor dintre clasele de caracteristici și este media tuturor corelațiilor dintre caracteristici. Criteriul CFS este definit după cum urmează:

Variabilele și sunt corelații, dar nu neapărat coeficienții de corelație ai lui Pearson sau ρ . Teza lui Mark Hall nu folosește niciuna dintre ele, dar folosește trei măsuri diferite de relație, lungimea minimă a descrierii ( MDL), incertitudinea simetrică și Relief .  

Fie x i funcția indicator de apariție în mulțime pentru caracteristica f i . Apoi formula de mai sus poate fi rescrisă ca o problemă de optimizare:

Problemele combinatorii de mai sus sunt, de fapt, probleme de programare liniară mixte 0-1 care pot fi rezolvate folosind algoritmul de ramificare și legătură [30] .

Copaci regularizați

S-a demonstrat că caracteristicile dintr -un arbore de decizie sau ansambluri de arbori sunt redundante. O metodă recentă numită „arbore regulat” [31] poate fi folosită pentru a selecta un subset de caracteristici. Arborii regularizați sunt penalizați cu o variabilă similară cu variabilele alese pe nodurile arborelui anterioare pentru a împărți nodul curent. Pentru arborii regularizați, trebuie construit un singur model (sau un ansamblu de arbori) și, prin urmare, algoritmul este eficient din punct de vedere computațional.

Arborii regularizați funcționează în mod natural cu caracteristici numerice și categoriale, interacțiuni și neliniarități. Sunt invariante în ceea ce privește scara atributelor (unităților) și insensibile la valori aberante și, prin urmare, necesită puțină preprocesare a datelor, cum ar fi normalizarea . Pădurea aleatorie regularizată ( RRF ) [32] este unul dintre tipurile de arbori regularizați .  Driven RRF este o îmbunătățire a RRF care este determinată de scorul de importanță dintr-o pădure aleatoare obișnuită.

Prezentare generală a metodelor metaeuristice

Un metaalgoritm (sau metaeuristică) este o descriere generală a unui algoritm conceput pentru a rezolva probleme de optimizare dificile (de obicei NP-hard ) probleme pentru care nu sunt disponibile metode de rezolvare. De obicei, un meta-algoritm este un algoritm stocastic care se străduiește să atingă un optim global. Există mulți meta-algoritmi de la o simplă căutare locală la un algoritm global de căutare complex.

Principii de bază

Tehnicile de selecție a caracteristicilor sunt de obicei reprezentate de trei clase în funcție de modul în care combină algoritmii de selecție și de construire a modelelor.

Metoda de filtrare

Metodele de filtrare selectează variabile indiferent de model. Ele se bazează doar pe caracteristici generale, cum ar fi corelarea unei variabile cu o predicție. Metodele de filtrare suprimă variabilele cele mai puțin interesante. Alte variabile vor face parte din modelul de clasificare sau regresie utilizat pentru a clasifica sau prezice. Aceste metode sunt foarte eficiente în timpul de calcul și rezistente la supraajustare [33] .

Cu toate acestea, metodele de filtrare tind să selecteze variabile redundante deoarece nu iau în considerare relația dintre variabile. Din acest motiv, aceste metode sunt utilizate în principal ca metode de preprocesare.

Metoda Wrap

Metodele de împachetare evaluează subseturi de variabile și permit, spre deosebire de abordările de filtrare, detectarea unei posibile relații între variabile [34] . Cele două dezavantaje principale ale acestor metode sunt:

  • Riscul de supraajustare crește atunci când numărul de observații este insuficient.
  • Timp de calcul semnificativ atunci când numărul de variabile este mare.
Metoda de cuibărit

Metodele de încorporare au fost propuse ca o încercare de a combina avantajele celor două metode anterioare. Algoritmul de învățare profită de propriul proces de selecție a variabilelor și efectuează selecția și clasificarea caracteristicilor în același timp.

Aplicarea metaeuristicii de selecție a caracteristicilor

Mai jos este o prezentare generală a aplicațiilor metaalgoritmilor de selecție a caracteristicilor utilizați în literatură. O privire de ansamblu a fost oferită în teza de către Julia Hammon [33] .

Aplicație Algoritm O abordare clasificator Funcția de valoare Legătură
SNP Selectarea caracteristicilor folosind similaritatea caracteristicilor Filtru r2 _ Phuong 2005 [34]
SNP algoritm genetic Înveliș arborele de decizie Corectitudinea clasificării (10-cr) Shah, Kusiak 2004 [35]
SNP Caută prin urcare în vârf Filtru + Wrapper Clasificator naiv Bayes Suma reziduală predictivă a pătratelor Lohn 2007 [36]
SNP Algoritm de recoacere simulat Clasificator naiv Bayes Corectitudinea clasificării (5-cr) Ustunkar 2011 [37]
Segmentează parola Algoritmul coloniilor de furnici Înveliș Retele neuronale artificiale MSE Al-ani 2005
Marketing Algoritm de recoacere simulat Înveliș Regresia AIC , r2 Meiri 2006 [38]
Economie Algoritm de simulare de recoacere, algoritm genetic Înveliș Regresia BIC Kapetanios 2005 [39]
Masa spectrală algoritm genetic Înveliș Regresie liniară multiplă, minime pătrate parțiale Eroare medie pătratică a predicției Broadhurst 2007 [40]
Spam Metoda roiului de particule binare + mutație Înveliș arborele de decizie preț ponderat ianuarie 2014 [14]
micromatrice Căutare interzisă + Metoda roiului de particule Înveliș Sprijină mașină vectorială , k-cei mai apropiați vecini metrica euclidiană Chang, Young 2009 [41]
micromatrice PSO + algoritm genetic Înveliș Suport mașină vectorială Corectitudinea clasificării (10-cr) Alba 2007 [42]
micromatrice Algoritm genetic + căutare locală iterativă Cuibărit Suport mașină vectorială Corectitudinea clasificării (10-cr) Duval 2009 [43]
micromatrice Înveliș Regresia Probabilitatea posterioară Hans, Dorba, Vest 2007 [44]
micromatrice algoritm genetic Înveliș metoda k-cel mai apropiat vecin Corectitudinea clasificării ( validare încrucișată cu excludere ) Aitken 2005 [45]
micromatrice Algoritm genetic hibrid Înveliș metoda k-cel mai apropiat vecin Corectitudinea clasificării (validare încrucișată cu excludere) Oh Moon 2004 [46]
micromatrice algoritm genetic Înveliș Suport mașină vectorială Sensibilitate și specificitate Xuan 2011 [47]
micromatrice algoritm genetic Înveliș Mașină vectorială de suport în perechi Corectitudinea clasificării (validare încrucișată cu excludere) Peng 2003 [48]
micromatrice algoritm genetic Cuibărit Suport mașină vectorială Corectitudinea clasificării (10-cr) Hernandez 2007 [49]
micromatrice algoritm genetic Hibrid Suport mașină vectorială Corectitudinea clasificării (validare încrucișată cu excludere) Huerta 2006 [50]
micromatrice algoritm genetic Suport mașină vectorială Corectitudinea clasificării (10-cr) Mooney, Pal, Das 2006 [51] .
micromatrice algoritm genetic Înveliș Suport mașină vectorială EH-DIALL, CLUMP Jourdain 2011 [52] .
Boala Alzheimer Testul t al lui Welch Filtru mașină vectorială de suport pentru kernel Corectitudinea clasificării (10-cr) Zhang 2015 [53]
viziune computerizată Selecție fără sfârșit de caracteristici Filtru independent Precizie medie ,
ROC-area sub curbă
Roffo 2015 [54]
Micromatrice Centralitatea vectorului propriu FS Filtru independent Precizie medie, Acuratețe, ROC AUC Roffo, Melzi 2016 [55]
XML Algoritmul Tau simetric Filtru Clasificarea asociativă structurală Precizie, acoperire Shaharani, Hadzic 2014

Selectarea caracteristicilor încorporate în algoritmii de învățare

Unii algoritmi de învățare efectuează selecția caracteristicilor ca parte a algoritmului:

  • -tehnici de regularizare precum regresia rară, LASSO și -SVM
  • Copaci regularizați [31] , cum ar fi pădurea aleatorie regularizată implementată în pachetul RRF [32]
  • Arborele de decizie [56]
  • algoritm memetic
  • Logit multinomial aleatoriu ( ing.  Logit multinomial aleatoriu , RMNL)
  • Rețea de autocodare în strat îngust
  • Identificarea caracteristicilor submodulare [ [57] [58] [59]
  • Selectarea caracteristicilor pe baza învățării locale [60] . În comparație cu metodele tradiționale, această metodă nu folosește căutarea euristică, poate gestiona cu ușurință probleme cu un număr mare de clase și funcționează atât pe probleme liniare, cât și pe cele neliniare. Metoda este susținută și din punct de vedere teoretic. Experimentele numerice au arătat că metoda poate obține o soluție aproape optimă chiar și atunci când datele conțin mai mult de un milion de caracteristici nesemnificative.

Vezi și


Note

  1. James, Witten, Hastie, Tibshirani, 2013 , p. 204.
  2. 1 2 Bermingham, Pong-Wong, Spiliopoulou et al., 2015 , p. 10312.
  3. 1 2 3 Guyon, Elisseeff, 2003 .
  4. 12 Yang , Pedersen, 1997 .
  5. Urbanowicz, Meeker, LaCava, Olson, Moore, 2017 .
  6. Forman, 2003 , p. 1289–1305.
  7. Zhang, Li, Wang, Zhang, 2013 , p. 32–42.
  8. Bach, 2008 , p. 33–40.
  9. Zare, 2013 , p. S14.
  10. Soufan, Kleftogiannis, Kalnis, Bajic, 2015 , p. e0117988.
  11. Figueroa, 2015 , p. 162–169.
  12. Figueroa, Neumann, 2013 .
  13. Figueroa, Neumann, 2014 , p. 4730–4742.
  14. 1 2 Zhang, Wang, Phillips, 2014 , p. 22–31.
  15. Garcia-Lopez, Garcia-Torres, Melian, Moreno-Perez, Moreno-Vega, 2006 , p. 477–489.
  16. Garcia-Lopez, Garcia-Torres, Melian, Moreno-Perez, Moreno-Vega, 2004 , p. 59–68.
  17. Garcia-Torres, Gomez-Vela, Melian, Moreno-Vega, 2016 , p. 102-118.
  18. Kraskov, Stögbauer, Andrzejak, Grassberger, 2003 .
  19. Einicke, 2018 , p. 1097–1103.
  20. Aliferis, 2010 , p. 171–234.
  21. 1 2 3 4 Brown, Pocock, Zhao, Luján, 2012 , p. 27-66.
  22. Peng, Long, Ding, 2005 , p. 1226–1238.
  23. Nguyen, Franke, Petrovic, 2010 , p. 1529-1532.
  24. Rodriguez-Lujan, Huerta, Elkan, Santa Cruz, 2010 , p. 1491–1516
  25. 1 2 Vinh, Chan, Romano, Bailey, 2014 .
  26. Yang, Moody, 2000 , p. 687-693.
  27. Yamada, Jitkrittum, Sigal, Xing, Sugiyama, 2014 , p. 185-207.
  28. Hall, 1999 .
  29. Senliol, Gulgezen, Yu, Cataltepe, 2008 , p. 1-4.
  30. Nguyen, Franke, Petrovic, 2009 .
  31. 12 Deng, Runger , 2012 .
  32. 1 2 RRF: Regularized Random Forest Arhivat 5 ianuarie 2019 la Wayback Machine , pachet R la depozitul Comprehensive R Archive Network (CRAN)
  33. 12 Hammon , 2013 .
  34. 1 2 Phuong, Lin, Altman, 2005 , p. 301-309.
  35. Shah, Kusiak, 2004 , p. 183–196.
  36. Long, Gianola, Weigel, 2011 , p. 247–257.
  37. Ustunkar, Ozogur-Akyuz, Weber, Friedrich, Son, 2011 , p. 1207–1218
  38. Meiri, Zahavi, 2006 , p. 842-858.
  39. Kapetanios, 2005 .
  40. Broadhurst, Goodacre, Jones, Rowland, Kell, 1997 , p. 71-86.
  41. Chuang, Yang, 2009 , p. 1689–1703
  42. Alba, Garia-Nieto, Jourdan, Talbi, 2007 .
  43. Duval, Hao, Hernandez, 2009 , p. 201-208.
  44. Hans, Dobra, Vest, 2007 , p. 507-516.
  45. Aitken, 2005 , p. 148.
  46. Oh, Moon, 2004 , p. 1424–1437
  47. Xuan, Guo, Wang, Liu, Liu, 2011 , p. 588–603.
  48. Peng, 2003 , p. 358–362.
  49. Hernandez, Duval, Hao, 2007 , p. 90-101.
  50. Huerta, Duval, Hao, 2006 , p. 34-44.
  51. Muni, Pal, Das, 2006 , p. 106-117.
  52. Jourdan, Dhaenens, Talbi, 2011 .
  53. Zhang, Dong, Phillips, Wang, 2015 , p. 66.
  54. Roffo, Melzi, Cristani, 2015 , p. 4202–4210.
  55. Roffo, Melzi, 2016 , p. 19-38.
  56. Kohavi, John, 1997 , p. 273-324.
  57. Das, Kempe, 2011 .
  58. Liu, Wei, Kirchhoff, Song, Bilmes, 2013 .
  59. ^ Zheng, Jiang, Chellappa, Phillip, 2014 .
  60. Sun, Todorovic, Goodison, 2010 , p. 1610-1626.

Literatură

Lectură pentru lecturi suplimentare

Link -uri