Minimizarea riscului empiric ( ERM) este un principiu al teoriei învățării statistice care definește o familie de algoritmi de învățare și care stabilește limitele teoretice ale performanței.
Luați în considerare următoarea situație, care este setarea de bază a multor sarcini de învățare supravegheată . Avem două spații obiect și am dori să antrenăm o funcție (deseori numită ipoteză ) care mapează un obiect cu un obiect . Pentru a face acest lucru, avem la dispoziție un set de antrenament de instanțe în care este intrarea și este răspunsul corespunzător pe care îl dorim de la .
Mai formal, să presupunem că există o distribuție comună peste și , și că setul de antrenament constă din instanțe ale lui , selectate dintre variabile aleatoare independente din . Rețineți că ipoteza distribuției comune ne permite să simulăm incertitudinea în predicție (de exemplu, din cauza zgomotului din date), deoarece nu este o funcție deterministă a lui , ci mai degrabă o variabilă aleatorie cu o distribuție condiționată pentru un .
Să presupunem, de asemenea, că ni se oferă o funcție de pierdere cu valoare reală nenegativă , care măsoară cât de diferită este predicția ipotezei față de rezultatul real Riscul asociat cu ipoteza este apoi definit ca valoarea așteptată a ipotezei. functie de pierdere:
Funcția de pierdere 0-1 este adesea folosită ca funcție de pierdere în teorie : , unde reprezintă indicatorul .
Cel mai înalt obiectiv al algoritmului de învățare este găsirea unei ipoteze într-o clasă fixă de funcții pentru care riscul este minim:
În general, riscul nu poate fi calculat deoarece distribuția este necunoscută algoritmului de învățare (această situație se numește agnostică a învățării ). Cu toate acestea, putem calcula o aproximare numită risc empiric prin medierea funcției de pierdere pe setul de antrenament:
Principiul minimizării riscului empiric (ERM) [1] prevede că algoritmul de învățare ar trebui să aleagă ipoteza care minimizează riscul:
Apoi algoritmul de învățare definit de principiul MED constă în rezolvarea problemei de optimizare de mai sus .
Se știe că minimizarea riscului empiric pentru o problemă de clasificare cu o funcție de pierdere 0-1 este NP-hard chiar și pentru o clasă relativ simplă de funcții problema ca clasificatorii liniari [2] . Deși poate fi rezolvată eficient atunci când riscul empiric minim este zero, adică datele sunt separabile liniar .
În practică, algoritmii de auto-învățare se ocupă de acest lucru fie prin aproximarea convexă la 0-1 a funcției de pierdere (similar cu funcția de pierdere liniară pe bucăți pentru mașinile cu elemente suport ), care este mai ușor de optimizat, fie făcând o ipoteză despre distribuție (și atunci algoritmul de învățare încetează să mai fie agnostic).
Învățare automată și extragerea datelor | |
---|---|
Sarcini | |
Învățarea cu un profesor | |
analiza grupului | |
Reducerea dimensionalității | |
Prognoza structurală | |
Detectarea anomaliilor | |
Modele grafice probabilistice | |
Rețele neuronale | |
Consolidarea învățării |
|
Teorie | |
Reviste și conferințe |
|