Teoria învăţării statistice

Teoria învățării statistice  este un model pentru mașinile de învățare bazate pe statistici și analize funcționale [1] [2] . Teoria învățării statistice se ocupă de problemele găsirii unei funcții predictive bazate pe date. Teoria învățării statistice a condus la aplicații de succes în domenii precum viziunea computerizată , recunoașterea vorbirii și bioinformatica .

Introducere

Scopul învățării este înțelegerea și prevederea. Învățarea se încadrează în mai multe categorii, inclusiv învățarea supravegheată , învățarea nesupravegheată, învățarea online și învățarea prin consolidare . Din punctul de vedere al teoriei statistice a învăţării, învăţarea supervizată este cea mai de înţeles [3] . Învățarea supravegheată implică învățarea cu setul de date de instruire Orice moment de antrenament este o pereche de intrare/ieșire, unde valoarea de intrare este mapată la valoarea de ieșire. Problema de învățare este de a reconstrui o funcție care mapează intrările la ieșiri, astfel încât funcția să poată fi utilizată pentru a prezice rezultatul intrărilor viitoare.

În funcție de tipul de inferență, problemele de învățare supravegheată sunt fie probleme de regresie , fie probleme de clasificare . Dacă rezultatul poate avea un interval continuu, este o problemă de regresie. Folosind legea lui Ohm ca exemplu, regresia ar putea lua tensiunea ca intrare și poate da curent ca ieșire. Regresia ar putea găsi relația dintre tensiune și curent ca , astfel încât

Sarcinile de clasificare sunt acelea pentru care rezultatul va fi un element dintr-un set de etichete. Clasificarea este foarte comună în aplicațiile de învățare automată. Într -un sistem de recunoaștere facială , de exemplu, o imagine a unei fețe ar fi intrarea, iar rezultatul ar putea fi numele de familie al persoanei. Intrarea poate fi reprezentată ca un vector mare multidimensional ale cărui elemente reprezintă pixelii din imagine.

După antrenamentul unei caracteristici bazate pe setul de antrenament, acea caracteristică este testată pe un set de testare care nu apare în setul de antrenament.

Descriere formală

Fie spațiul vectorial al tuturor intrărilor posibile și  spațiul vectorial al tuturor ieșirilor posibile. Teoria învățării statistice presupune că există o distribuție de probabilitate necunoscută asupra produsului spațiilor , adică există o necunoscută . Setul de antrenament constă din instanțe ale acestei distribuții de probabilitate și este notat

Fiecare este un vector de intrare din datele de antrenament și este o ieșire corespunzătoare acelui vector de intrare.

Într-o astfel de formalizare, problema de inferență este de a găsi o funcție astfel încât . Fie  spațiul funcțiilor , care se numește spațiul ipotezelor. Spațiul de ipoteză este spațiul pe care algoritmul îl va analiza. Fie o funcție de pierdere , o metrică a diferenței dintre valoarea prezisă și valoarea adevărată . Riscul aşteptat este definit ca

Funcție obiectivă, cea mai bună funcție care poate fi aleasă este funcția care satisface condiția

Deoarece distribuția probabilității este necunoscută, trebuie utilizate măsuri indirecte ale riscului așteptat. Aceste scoruri se bazează pe setul de antrenament, un eșantion din această distribuție de probabilitate necunoscută. O astfel de măsură se numește risc empiric: Un algoritm de învățare care selectează o funcție care minimizează riscul empiric se numește minimizarea riscului empiric .

Funcții de pierdere

Alegerea funcției de pierdere este determinarea factorului determinant pentru funcția care va fi aleasă de algoritmul de învățare. Funcția de pierdere afectează și rata de convergență a algoritmului. Este important ca funcția de pierdere să fie convexă [4] .

Sunt utilizate diferite funcții de pierdere, în funcție de dacă problema este regresie sau clasificare.

Regresie

Funcția de pierdere cel mai frecvent utilizată pentru regresie este funcția de pierdere pătratică (cunoscută și ca norma L2 ). Această funcție de pierdere familiară este utilizată în metoda celor mai mici pătrate obișnuite . Formulă:

Valoarea absolută a pierderii (cunoscută și sub numele de norma L1 ) este, de asemenea, utilizată uneori:

Clasificare

Într-un fel, funcția indicator 0-1 este cea mai naturală funcție de pierdere pentru probleme de clasificare. Funcția ia valoarea 0 dacă rezultatul prezis se potrivește cu valoarea corectă și valoarea 1 dacă rezultatul prezis nu se potrivește cu valoarea corectă. Pentru clasificarea binară, aceasta ar fi:

unde  este funcția Heaviside .

Regularizare

În sarcinile de învățare automată, supraadaptarea devine o problemă majoră . Deoarece învățarea este o sarcină de predicție, scopul nu este de a găsi caracteristica care se potrivește cel mai bine datelor (previzualizate), ci de a găsi caracteristica care va prezice cel mai precis rezultatul din intrările viitoare. Minimizarea riscului empiric se încadrează în acest risc de supraadaptare - găsirea unei funcții care se potrivește exact cu datele, dar nu reușește să prezică viitorul.

Supraadaptarea este un simptom al soluțiilor instabile - mici modificări ale setului de antrenament pot cauza variații mari în funcția de învățare. Se poate arăta că stabilitatea soluţiei poate fi garantată [5] [6] . Regularizarea poate rezolva problema supraajustării și poate oferi stabilitate.

Regularizarea se poate face prin limitarea spațiului ipotezelor . Poate fi limitat, de exemplu, la funcții liniare - aceasta poate fi considerată o restricție la problema standard de regresie liniară . poate fi restricționat la polinoame de grade , exponențiale sau funcții mărginite pe L1 . Restrângerea spațiului ipotezelor exclude supraadaptarea prin restrângerea formei funcțiilor potențiale, ceea ce nu permite alegerea funcțiilor care dau un risc empiric arbitrar apropiat de zero.

Un exemplu de regularizare este regularizarea lui Tihonov . Constă în minimizarea

,

unde este un parametru pozitiv fix. Metoda de regularizare Tihonov asigură existența, unicitatea și stabilitatea soluției [7] .

Note

  1. Hastie, Tibshirani, Friedman, 2009 .
  2. Mohri, Rostamizadeh, Talwalkar, 2012 .
  3. Tomaso Poggio, Lorenzo Rosasco, et al. Teoria și aplicațiile învățării statistice , 2012, clasa 1 Arhivat 16 septembrie 2012 la Wayback Machine
  4. Rosasco, Vito, Caponnetto, Fiana, Verri, 2004 , p. 1063-1076.
  5. Vapnik, Chervonenkis, 1971 , p. 264-280.
  6. Mukherjee, Niyogi, Poggio, Rifkin, 2006 , p. 161-193.
  7. Tomaso Poggio, Lorenzo Rosasco, et al. Teoria și aplicațiile învățării statistice , 2012, clasa 2 Arhivat 16 august 2016 la Wayback Machine

Literatură