Minimizarea riscului empiric

Minimizarea riscului empiric ( ERM) este un  principiu al teoriei învățării statistice care definește o familie de algoritmi de învățare și care stabilește limitele teoretice ale performanței.

Fundații

Luați în considerare următoarea situație, care este setarea de bază a multor sarcini de învățare supravegheată . Avem două spații obiect și am dori să antrenăm o funcție (deseori numită ipoteză ) care mapează un obiect cu un obiect . Pentru a face acest lucru, avem la dispoziție un set de antrenament de instanțe în care este intrarea și este răspunsul corespunzător pe care îl dorim de la .

Mai formal, să presupunem că există o distribuție comună peste și , și că setul de antrenament constă din instanțe ale lui , selectate dintre variabile aleatoare independente din . Rețineți că ipoteza distribuției comune ne permite să simulăm incertitudinea în predicție (de exemplu, din cauza zgomotului din date), deoarece nu este o funcție deterministă a lui , ci mai degrabă o variabilă aleatorie cu o distribuție condiționată pentru un .

Să presupunem, de asemenea, că ni se oferă o funcție de pierdere cu valoare reală nenegativă , care măsoară cât de diferită este predicția ipotezei față de rezultatul real Riscul asociat cu ipoteza este apoi definit ca valoarea așteptată a ipotezei. functie de pierdere:

Funcția de pierdere 0-1 este adesea folosită ca funcție de pierdere în teorie : , unde reprezintă indicatorul .

Cel mai înalt obiectiv al algoritmului de învățare este găsirea unei ipoteze într-o clasă fixă ​​de funcții pentru care riscul este minim:

Minimizarea riscului empiric

În general, riscul nu poate fi calculat deoarece distribuția este necunoscută algoritmului de învățare (această situație se numește agnostică a învățării ). Cu toate acestea, putem calcula o aproximare numită risc empiric prin medierea funcției de pierdere pe setul de antrenament:

Principiul minimizării riscului empiric (ERM) [1] prevede că algoritmul de învățare ar trebui să aleagă ipoteza care minimizează riscul:

Apoi algoritmul de învățare definit de principiul MED constă în rezolvarea problemei de optimizare de mai sus .

Proprietăți

Complexitate computațională

Se știe că minimizarea riscului empiric pentru o problemă de clasificare cu o funcție de pierdere 0-1 este NP-hard chiar și pentru o clasă relativ simplă de funcții problema ca clasificatorii liniari [2] . Deși poate fi rezolvată eficient atunci când riscul empiric minim este zero, adică datele sunt separabile liniar .

În practică, algoritmii de auto-învățare se ocupă de acest lucru fie prin aproximarea convexă la 0-1 a funcției de pierdere (similar cu funcția de pierdere liniară pe bucăți pentru mașinile cu elemente suport ), care este mai ușor de optimizat, fie făcând o ipoteză despre distribuție (și atunci algoritmul de învățare încetează să mai fie agnostic).

Vezi și

Note

  1. Vapnik, 1992 , p. 831–838.
  2. Feldman, Guruswami, Raghavendra, Wu, 2012 , pp. 1558-1590.

Literatură

Lectură pentru lecturi suplimentare