Metodele nucleare în învățarea automată este o clasă de algoritmi de recunoaștere a modelelor , cel mai faimos reprezentant al cărora este mașina vector de suport (SVM, ing. SVM ). Sarcina generală a recunoașterii modelelor este de a găsi și de a învăța tipuri comune de relații (de exemplu , grupuri , clasamente , componente principale , corelații , clasificări ) în seturile de date. Pentru mulți dintre algoritmii care rezolvă aceste probleme, datele brute sunt convertite în mod explicit într-o reprezentare vectorială caracteristică printr-o schemă specifică de distribuție a caracteristicilor , dar metodele nucleului necesită doar un nucleu specific , de exemplu. funcțiile de similaritate ale perechilor de puncte de date în reprezentarea brută.
Metodele kernel și-au primit numele de la utilizarea funcțiilor kernel , care le permit să opereze într -un spațiu de caracteristici implicite de dimensiuni mari fără a calcula coordonatele datelor în spațiu, pur și simplu prin calcularea produselor punctiforme dintre imaginile tuturor datelor. perechi în spațiul caracteristic. Această operație este adesea mai ieftină din punct de vedere computațional decât calculele explicite de coordonate. Această abordare este numită „ smecheria nucleară ” [1] . Au fost introduse funcții kernel pentru date seriale, grafice , texte, imagini și, de asemenea, pentru vectori.
Printre algoritmii capabili să lucreze cu nuclee se numără perceptronul nuclear , mașinile vectoriale suport, procesele gaussiene , analiza componentelor principale ( PCA ), analiza corelației canonice , regresia crestei , gruparea spectrală , filtrele adaptative liniare și multe altele . Orice model liniar poate fi convertit într-un model neliniar prin aplicarea unui truc nucleu modelului, înlocuindu-i caracteristicile (predictorii) cu o funcție de nucleu.
Majoritatea algoritmilor nucleului se bazează pe optimizarea convexă sau pe găsirea vectorilor proprii și sunt bine fundamentate statistic. De obicei, proprietățile lor statistice sunt analizate folosind teoria învățării statistice (de exemplu, folosind complexitatea Rademacher ).
Metodele kernel pot fi considerate ca învățarea prin exemplu — în loc să învețe un set fix de parametri corespunzători caracteristicilor de intrare, ele „își amintesc” de al- lea exemplu de antrenament și se antrenează în funcție de greutățile acestuia . Predicția pentru intrare neetichetată, de ex. care nu este inclus în setul de antrenament este învățat folosind funcția de similaritate (numită nucleu ) între intrarea neetichetată și fiecare dintre intrările de antrenament . De exemplu, un clasificator binar nucleu calculează de obicei o sumă de similitudine ponderată folosind formula
,Unde
Clasificatorii nucleari au fost descriși la începutul anilor 1960 odată cu inventarea perceptronului nuclear [2] . Au câștigat o largă acceptare împreună cu popularitatea mașinilor vector de suport în anii 1990, când SVM s-a dovedit a fi competitiv cu rețelele neuronale în sarcini precum recunoașterea scrisului de mână .
Trucul nucleului evită maparea explicită necesară pentru a obține un algoritm de învățare liniar pentru o funcție neliniară sau o limită de decizie . Pentru toate și în spațiul de intrare, unele funcții pot fi reprezentate ca un produs punctual într-un alt spațiu . Funcția este adesea denumită funcția kernel sau kernel . Cuvântul „nucleu” este folosit în matematică pentru a se referi la o funcție de greutate sau integrală .
Unele probleme de învățare automată au o structură suplimentară, mai degrabă decât o funcție de greutate . Calculele vor fi mult mai ușoare dacă nucleul poate fi scris ca o „mapping de caracteristici” care satisface egalitatea
Principala constrângere aici este ceea ce trebuie să fie un produs punct potrivit. Pe de altă parte, nu este necesară o reprezentare explicită pentru, deoarece este un spațiu de produs punctual . Alternativa rezultă din teorema lui Mercer — există o funcție definită implicit dacă spațiul poate fi echipat cu o măsură adecvată care să asigure că funcția satisface condiția lui Mercer .
Teorema lui Mercer este ca o generalizare a unui rezultat din algebra liniară care raportează produsul punctual la orice matrice definită pozitivă . De fapt, starea lui Mercer poate fi redusă la acest caz simplu. Dacă alegem ca măsură o măsură de numărare pentru toate , care numără numărul de puncte din interiorul mulțimii , atunci integrala din teorema lui Mercer se reduce la însumare
Dacă această inegalitate este valabilă pentru toate secvențele finite de puncte din și toate seturile de coeficienți cu valori reale (cf. Nucleu definit pozitiv ), atunci funcția satisface condiția lui Mercer.
Unii algoritmi care depind de legături arbitrare din spațiul inițial vor avea, de fapt, o reprezentare liniară în alte condiții - în spațiul interval . Interpretarea liniară ne oferă o idee despre algoritm. Mai mult decât atât, adesea nu este necesar să se calculeze direct în momentul calculării, așa cum este cazul mașinii vector suport . Unii consideră reducerea timpului datorită acestui fapt principalul avantaj al algoritmului. Cercetătorii îl folosesc pentru a rafina semnificația și proprietățile algoritmilor existenți.
Teoretic, matricea Gram în raport cu (uneori numită „matricea nucleului” [3] ), unde , ar trebui să fie semidefinită pozitivă [4] . Din punct de vedere empiric, pentru euristica învățării automate, alegerea unei funcții care nu satisface condiția lui Mercer poate fi totuși justificată dacă cel puțin aproximează ideea intuitivă de similaritate [5] . Indiferent dacă nucleul este sau nu Mercer, o poate continua să fie denumit „nucleul”.
Dacă funcția de nucleu este și o funcție covariantă , care este utilizată într-un proces gaussian , atunci matricea Gram poate fi numită matrice de covarianță [6] .
Aplicațiile metodelor nucleare sunt diverse și includ geostatistica [7] , kriging , ponderarea distanței , reconstrucția 3D , bioinformatica , chimioinformatica , extragerea informațiilor și recunoașterea scrisului de mână .
Învățare automată și extragerea datelor | |
---|---|
Sarcini | |
Învățarea cu un profesor | |
analiza grupului | |
Reducerea dimensionalității | |
Prognoza structurală | |
Detectarea anomaliilor | |
Modele grafice probabilistice | |
Rețele neuronale | |
Consolidarea învățării |
|
Teorie | |
Reviste și conferințe |
|