Învățare automată online

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită pe 9 noiembrie 2021; verificările necesită 2 modificări .

Învățarea automată online este o tehnică de învățare automată în care datele sunt puse la dispoziție în ordine secvențială și sunt utilizate pentru a actualiza cea mai bună predicție pentru datele ulterioare, efectuate la fiecare pas de antrenament. Metoda este opusă tehnicii de antrenament în lot, în care cea mai bună predicție este generată dintr-o singură mișcare din setul complet de date de antrenament. Învățarea online este o tehnică comună utilizată în domeniile învățării automate atunci când nu este posibil să se antreneze pe întregul set de date, cum ar fi atunci când este nevoie de algoritmi care funcționează cu memorie externă. Metoda este folosită și în situațiile în care algoritmul trebuie să adapteze dinamic noi modele în date, sau când datele în sine sunt formate în funcție de timp, de exemplu, atunci când prezice prețurile la bursă . Algoritmii de învățare online pot fi predispuși la interferențe catastrofale , o problemă care poate fi rezolvată printr-o abordare de învățare pas cu pas [1] .

Introducere

În condiții de învățare supravegheată , se antrenează o funcție , unde este considerată spațiul datelor de intrare și este spațiul datelor de ieșire, care prezice bine asupra elementelor distribuției comune de probabilitate pe . În realitate, la antrenament, adevărata distribuție nu se cunoaște niciodată. De obicei, dimpotrivă, există acces la setul de exemple de instruire . În aceste condiții , funcția de pierdere este dată ca , astfel încât să măsoare diferența dintre valoarea prezisă și valoarea reală a . Scopul ideal este de a alege o funcție , unde este un spațiu al funcțiilor, numit spațiu al ipotezelor, astfel încât pierderea totală să fie minimă într-un anumit sens. În funcție de tipul de model (statistic sau contradictoriu), pot fi dezvoltate diferite concepte de pierdere care conduc la diferiți algoritmi de învățare. $f:X\la Y$ $X$ $Y$ $p(x,y)$ $X \time Y$ $p(x,y)$ $(x_{1},y_{1}),\ldots ,(x_{n},y_{n})$ $V:Y\time Y\to \mathbb {R}$ $V(f(x),y)$ $f(x)$ $y$ $f\in {\mathcal {H}}$ ${\mathcal {H}}$

O vedere statistică a învățării online

În modelele de învățare statistică, se presupune că eșantionul de testare este extras din distribuția adevărată, iar scopul învățării este de a minimiza „riscul” așteptat. $(x_{i}, y_{i})$ $p(x,y)$

I[f]=\mathbb {E} [V(f(x),y)]=\int V(f(x),y)\,dp(x,y)\.

Paradigma generală în această situație este de a evalua funcția prin minimizarea riscului empiric sau minimizarea riscului empiric regularizat (de obicei folosind regularizarea lui Tihonov ). Alegerea funcției de pierdere aici generează câțiva algoritmi de învățare bine-cunoscuți, cum ar fi cele mai mici pătrate regularizate și mașini vectori suport . Un model pur online din această categorie ar fi antrenamentul numai pe intrări noi , cel mai bun predictor actual și unele informații suplimentare stocate (care de obicei au cerințe de memorie independente de dimensiunea datelor). Pentru multe setări ale problemelor, cum ar fi metodele neliniare ale nucleului , învățarea online reală nu este posibilă, deși pot fi utilizate forme hibride de învățare online cu algoritmi recursivi, unde valoarea poate depinde de toate punctele de date anterioare . În acest caz, cerințele de memorie nu mai pot fi limitate, deoarece toate punctele anterioare trebuie păstrate, dar soluția poate dura mai puțin timp pentru a calcula cu noi puncte de date adăugate decât tehnicile de învățare în lot. ${\pălărie {f)}$ $(x_{t+1}, y_{t+1})$ $f_{t)$ $f_{t+1}$ $f_t$ $(x_{1},y_{1}),\ldots ,(x_{t},y_{t})$

O strategie comună pentru a face față acestei probleme este învățarea în mini-loturi, în care loturi mici de puncte de date sunt procesate la un moment dat, iar aceasta poate fi văzută ca învățare pseudo-online pentru un număr total mult mai mic de puncte de antrenament. Tehnica minibatch este utilizată cu iterarea peste datele de antrenament pentru a obține o versiune optimizată a algoritmilor de învățare automată a memoriei externe, cum ar fi coborârea gradientului stocastic . Atunci când este combinată cu propagarea inversă, aceasta este în prezent metoda de antrenament de facto pentru rețelele neuronale artificiale . $b\geq 1$ $b$

Exemplu: cele mai mici pătrate liniare

Cele mai mici pătrate liniare sunt folosite aici pentru a explica diverse idei de învățare online. Ideile sunt suficient de generale pentru a fi aplicabile altor setări, cum ar fi alte funcții de pierdere convexe.

Învățare în loturi

Într-un cadru supravegheat cu o funcție de pierdere pătratică , scopul este de a minimiza pierderea empirică

I_{n}[w]=\sum _{j=1}^{n}V(\langle w,x_{j}\rangle,y_{j})=\sum _{j=1} ^{n}(x_{j}^{T}w-y_{j})^{2}

, Unde

x_{j}\in \mathbb {R} ^{d},w\in \mathbb {R} ^{d},y_{j}\in \mathbb {R}

Fie o matrice de date și să fie o matrice de valori țintă după sosirea primelor puncte de date. Presupunând că matricea de covarianță este inversabilă (în caz contrar, ar trebui efectuată o procedură similară cu regularizarea lui Tikhonov), cea mai bună soluție a metodei celor mai mici pătrate este dată de egalitatea $X$ $i\times d$ $Y$ $i\times 1$ $i$ $\Sigma _{i}=X^{T}X$ $f^{*}(x)=\langle w^{*},x\rangle$

w^{*}=(X^{T}X)^{-1}X^{T}Y=\Sigma _{i}^{-1}\sum _{j=1}^{ i}x_{j}y_{j}

Acum calculul matricei de covarianță va dura timp, inversarea matricei va dura timp, iar înmulțirea matricei va dura timp, ceea ce dă timpul total . Dacă există un total de puncte în setul de date și trebuie să recalculați soluția după ce sosește fiecare punct de date , abordarea naturală va avea o complexitate totală . Rețineți că, dacă matricea este stocată, actualizarea la fiecare pas necesită doar adăugarea , ceea ce necesită timp, ceea ce reduce timpul total la , dar necesită spațiu de stocare suplimentar [ 2] . $\Sigma _{i}=\sum _{j=1}^{i}x_{j}x_{j}^{T)$ $O(id^{2})$ $d\times d$ $O(d^{3})$ $O(d^{2})$ $O(id^{2}+d^{3})$ $n$ $i=1,\ldots ,n$ $O(n^{2}d^{2}+nd^{3})$ $\Sigma _{i)$ $x_{i+1}x_{i+1}^{T)$ $O(d^{2})$ $O(nd^{2}+nd^{3})=O(nd^{3})$ $O(d^{2})$ $\Sigma _{i)$

Învățare online: cele mai mici pătrate recursive

Cele mai mici pătrate recursive ia în considerare o abordare online a celor mai mici pătrate. Se poate arăta că prin inițializare și soluția metodei celor mai mici pătrate liniare se poate calcula după cum urmează: $\textstyle w_{0}=0\in \mathbb {R} ^{d)$ $\textstyle \Gamma _{0}=I\in \mathbb {R} ^{d\times d)$

\Gamma _{i}=\Gamma _{i-1}-{\frac {\Gamma _{i-1}x_{i}x_{i}^{T}\Gamma _{i-1 }}{1+x_{i}^{T}\Gamma _{i-1}x_{i}}}

w_{i}=w_{i-1}-\Gamma _{i}x_{i}(x_{i}^{T}w_{i-1}-y_{i})

Algoritmul iterativ de mai sus poate fi demonstrat prin inducere pe [3] . Dovada mai arată că . Se pot lua în considerare cele mai mici pătrate recursive în contextul filtrelor adaptive (vezi Cele mai mici pătrate recursive ). $i$ $\Gamma _{i}=\Sigma _{i}^{-1)$

Complexitatea pașilor acestui algoritm este , care este mai rapidă decât complexitatea de învățare în lot corespunzătoare. Memoria necesară pentru fiecare pas pentru stocarea matricei este aici o constantă . Pentru cazul în care nu este reversibilă, se consideră o versiune regularizată a funcției de pierdere . Atunci este ușor să arăți că același algoritm funcționează cu , iar iterațiile continue dă [2] . $n$ $O(nd^{2})$ $i$ $\Gamma _{i}$ $O(d^{2})$ $\Sigma _{i)$ $\sum _{j=1}^{n}(x_{j}^{T}w-y_{j})^{2}+\lambda ||w||_{2}^{2 }$ $\Gamma _{0}=(I+\lambda I)^{-1)$ $\Gamma _{i}=(\Sigma _{i}+\lambda I)^{-1)$

Metoda de coborâre a gradientului stocastic

Dacă egalitatea

\textstyle w_{i}=w_{i-1}-\Gamma _{i}x_{i}(x_{i}^{T}w_{i-1}-y_{i})

Inlocuit de

\textstyle w_{i}=w_{i-1}-\gamma _{i}x_{i}(x_{i}^{T}w_{i-1}-y_{i})=w_ {i-1}-\gamma _{i}\nabla V(\langle w_{i-1},x_{i}\rangle ,y_{i})

sau pe , acesta devine un algoritm de coborâre a gradientului stocastic. În acest caz, complexitatea pașilor acestui algoritm este redusă la . Necesarul de memorie la fiecare pas este o constantă . $\Gamma _{i}\in \mathbb {R} ^{d\times d)$ $\gamma _{i}\in \mathbb {R}$ $n$ $O(nd)$ $i$ $O(d)$

Cu toate acestea, dimensiunea pasului pentru rezolvarea problemei așteptate de minimizare a riscului ar trebui aleasă cu atenție, așa cum sa explicat mai sus. Prin alegerea mărimii treptei de amortizare se poate dovedi convergenţa iteraţiei medii . Aceste setări sunt un caz special de optimizare stocastică , o problemă de optimizare bine-cunoscută [2] . $\gamma _{i)$ $\gamma _{i}\aprox {\frac {1}{\sqrt {i)}}$ ${\overline {w}}_{n}={\frac {1}{n}}\sum _{i=1}^{n}w_{i}$

Coborâre gradient stocastic incremental

În practică, este posibil să se efectueze mai multe treceri de gradient stocastic peste date. Algoritmul rezultat se numește metoda gradientului incremental și corespunde iterației

\textstyle w_{i}=w_{i-1}-\gamma _{i}\nabla V(\langle w_{i-1},x_{t_{i}}\rangle ,y_{t_{ i)))

Principala diferență cu metoda gradientului stocastic este că aici se alege să se decidă ce punct de antrenament este vizitat în pas . O astfel de secvență poate fi aleatorie sau deterministă. Numărul de iterații este astfel decuplat de numărul de puncte (fiecare punct poate fi vizualizat de mai multe ori). Se poate demonstra că metoda gradientului incremental asigură minimizarea riscului empiric [4] . Tehnicile incrementale pot avea avantaje atunci când se consideră funcția obiectiv ca sumă a mai multor elemente, de exemplu, ca o eroare empirică a unui set de date foarte mare [2] . $t_{i}$ $i$

Metode nucleare

Kernel-urile pot fi folosite pentru a extinde algoritmii de mai sus la modele neparametrice (sau modele în care parametrii formează un spațiu infinit-dimensional). Procedura corespunzătoare nu va mai fi cu adevărat online și va stoca în schimb toate punctele de date, dar metoda rămâne mai rapidă decât forța brută. Această discuție se limitează la cazul pierderii pătrate, deși poate fi extinsă la orice funcție de pierdere convexă. Se poate demonstra prin inducție directă [2] că atunci când a este o matrice de date, a este rezultatul după pașii algoritmului de coborâre aleatoare a gradientului, atunci $X_{i}$ $w_{i)$ $i$

w_{i}=X_{i}^{T}c_{i}

unde şi succesiunea satisface relaţiile recurente $\textstyle c_{i}=((c_{i})_{1},(c_{i})_{2},...,(c_{i})_{i})\in \mathbb {R} ^{i}$ $c_{i}$

c_{0}=0

(c_{i})_{j}=(c_{i-1})_{j},j=1,2,...,i-1

și

{\displaystyle (c_{i})_{i}=\gamma _{i}{\Big (}y_{i}-\sum _{j=1}^{i-1}(c_{i-1) })_{j}\langle x_{j},x_{i}\rangle {\Big )))

Rețineți că aici este nucleul standard în , iar funcția predictivă are forma $\langle x_{j},x_{i}\rangle$ $\mathbb {R} ^{d)$

f_{i}(x)=\langle w_{i-1},x\rangle =\sum _{j=1}^{i-1}(c_{i-1})_{j} \langle x_{j},x\rangle

Acum, dacă introducem un nucleu comun și reprezentăm funcția de predicție ca $K$

f_{i}(x)=\sum _{j=1}^{i-1}(c_{i-1})_{j}K(x_{j},x)

atunci aceeași dovadă arată că minimizarea cu cele mai mici pătrate a funcției de pierdere se obține prin înlocuirea recursiei de mai sus cu

{\displaystyle (c_{i})_{i}=\gamma _{i}{\Big (}y_{i}-\sum _{j=1}^{i-1}(c_{i-1) })_{j}K(x_{j},x_{i}){\Big )))

Expresia de mai sus necesită amintirea tuturor datelor de actualizat . Complexitatea de timp totală pentru recursivitate, dacă este calculată pentru al-lea punct de date, este , unde este costul calculării nucleului pe o pereche de puncte [2] . Apoi, folosirea nucleului permite deplasarea de la un spațiu de parametri cu dimensiuni finite la un spațiu posibil cu dimensiuni infinite reprezentat de nucleu , în loc să recurgă peste spațiul de parametri , a cărui dimensiune este aceeași cu dimensiunea setului de date de antrenament. În general, această abordare este o consecință a teoremei reprezentării [2] . $c_{i}$ $n$ $O(n^{2}dk)$ $k$ $\textstyle w_{i}\in \mathbb {R} ^{d)$ $K$ $\textstyle c_{i}\in \mathbb {R} ^{i)$

Învățare progresivă

Învățarea progresivă este un model eficient de învățare care este demonstrat de procesul de învățare al oamenilor. Acest proces de învățare este continuu, venit din experiență directă. Tehnica de învățare progresivă în învățarea automată poate învăța noi clase sau etichete în mod dinamic din mers [5] . Deși instruirea online poate antrena noi eșantioane de date care vin secvenţial, acestea nu pot antrena noi clase de date . Paradigma de învățare progresivă este independentă de numărul de constrângeri de clasă și poate preda clase noi, păstrând în același timp cunoștințele claselor anterioare. Cu toate acestea, dacă se întâlnește o nouă clasă (care nu apare în mod natural), clasificatorul este reconstruit automat și parametrii sunt calculați în așa fel încât cunoștințele anterioare să fie păstrate. Această tehnică este potrivită pentru aplicațiile din lumea reală în care numărul de clase este adesea necunoscut și este necesară învățarea online din date în timp real.

Optimizare convexă online

Optimizarea convexă online [6] este o schemă de decizie generală care utilizează optimizarea convexă pentru a obține algoritmi eficienți. Schema este o repetare multiplă a următoarelor acțiuni:

Pentru $t=1,2,...,T$

Studentul primește informații $x_{t)$
Studentul formează o ieșire dintr-o mulțime convexă fixă $w_{t)$ $S$
Natura returnează valoarea unei funcții de pierdere convexe . $v_{t}:S\rightarrow \mathbb {R}$
Studentul contabilizează pierderea și actualizează modelul $v_{t}(w_{t})$

Scopul este de a minimiza „regretul” sau diferența dintre pierderea totală și pierderea la cel mai bun punct fix retrospectiv. Ca exemplu, luați în considerare cazul regresiei online lineare cu cele mai mici pătrate. Aici greutatea vectorilor provine dintr-o mulțime convexă și natura returnează o funcție de pierdere convexă . Rețineți că implicit trimis cu . $u\in S$ $S=\mathbb {R} ^{d)$ $v_{t}(w)=(\langle w,x_{t}\rangle -y_{t})^{2}$ $y_{t)$ $v_{t)$

Cu toate acestea, unele probleme de predicție online nu se pot încadra în schema de optimizare convexă online. De exemplu, în clasificarea online, aria de predicție și funcțiile de pierdere nu sunt convexe. În astfel de scenarii, sunt utilizate două tehnici simple de reducere a cazurilor convexe - randomizare și funcții de pierdere surogat.

Câțiva algoritmi simpli de optimizare convexă online:

Urmăriți liderul

Cea mai simplă regulă de învățare pentru o încercare este să alegeți (la pasul curent) ipoteza care are cea mai mică pierdere dintre toate rundele anterioare. Acest algoritm se numește „ Urmăriți liderul ” și oferă pur și simplu o rundă : $t$

w_{t}=\operatorname {arg\,min} _{w\in S}\sum _{i=1}^{t-1}v_{i}(w)

Această metodă poate fi considerată apoi ca un algoritm lacom . Pentru cazul optimizării pătratice online (unde funcția de pierdere este ), se poate demonstra că limita „regret” crește ca . Cu toate acestea, limite similare nu pot fi obținute pentru algoritmul follow-the-leader pentru alte familii importante de modele ca și pentru optimizarea liniară online. Pentru a le obține, la algoritm se adaugă regularizarea. $v_{t}(w)=||w-x_{t}||_{2}^{2}$ $\log(T)$

În urma unui lider regularizat

Aceasta este o modificare naturală a algoritmului de urmărire a liderului, care este utilizată pentru a stabiliza deciziile de urmărire a liderului și pentru a obține limite mai bune de regret. Se alege o funcție de regularizare și antrenamentul se efectuează în runda t după cum urmează: $R:S\rightarrow \mathbb {R}$

w_{t}=\operatorname {arg\,min} _{w\in S}\sum _{i=1}^{t-1}v_{i}(w)+R(w)

Ca un caz special, luați în considerare cazul optimizării liniare online, adică atunci când natura returnează funcții de pierdere de forma . De asemenea, lasă . Să presupunem că funcția de regularizare este aleasă pentru un număr pozitiv . Apoi se poate arăta că iterația minimizării „regretului” se transformă în $v_{t}(w)=\langle w,z_{t}\rangle$ $S=\mathbb {R} ^{d)$ $R(w)={\frac {1}{2\eta }}||w||_{2}^{2}$ $\eta$

w_{t+1}=-\eta \sum _{i=1}^{t}z_{i}=w_{t}-\eta z_{t)

Rețineți că aceasta poate fi rescrisă ca , care arată exact ca metoda de coborâre a gradientului online. $w_{t+1}=w_{t}-\eta \nabla v_{t}(w_{t})$

Dacă S este un subspațiu convex , S trebuie proiectat, rezultând o regulă de actualizare modificată $\mathbb {R} ^{d)$

w_{t+1}=\Pi _{S}(-\eta \sum _{i=1}^{t}z_{i})=\Pi _{S}(\eta \theta _ {t+1})

Algoritmul este cunoscut sub numele de proiecție leneșă deoarece vectorul acumulează gradienți. Acesta este, de asemenea, cunoscut ca algoritmul de mediere dublă Nesterov (sau metoda de mediere dublă subgradient [7] ). În acest scenariu, funcțiile de pierdere liniară și regularizarea pătratică „regret” este limitată la , iar apoi „regretul” mediu tinde la 0 . $\theta _{t+1}$ $O({\sqrt {T}))$

Coborâre subgradient online

Limita de „regret” pentru funcțiile de pierdere liniare a fost demonstrată mai sus . Pentru a generaliza algoritmul la orice funcție de pierdere convexă, funcția subgradient este utilizată ca o aproximare liniară în jurul valorii de , ceea ce duce la algoritmul de coborâre subgradient online: $v_{t}(w)=\langle w,z_{t}\rangle$ $\partial v_{t}(w_{t})$ $v_{t)$ $v_{t)$ $w_{t)$

Initierea unui parametru $\eta ,w_{1}=0$

Pentru $t=1,2,...,T$

Facem o predicție folosind , obținem de la natură . $w_{t)$ $f_t$
Alege $z_{t}\in \partial v_{t}(w_{t})$
Dacă , faceți o actualizare $S=\mathbb {R} ^{d)$ $w_{t+1}=w_{t}-\eta z_{t)$
Dacă , proiectați gradienți cumulați la ie $S\subset \mathbb {R} ^{d)$ $S$ $w_{t+1}=\Pi _{S}(\eta \theta _{t+1}),\theta _{t+1}=\theta _{t}+z_{t)$

Puteți utiliza algoritmul de coborâre subgradient online pentru a obține limitele de „regret” pentru versiunea online a mașinii vector de suport pentru clasificare, care utilizează o funcție de pierdere liniară pe bucăți $O({\sqrt {T}))$ $v_{t}(w)=\max\{0,1-y_{t}(w\cdot x_{t})\}$

Alți algoritmi

Algoritmii de urmărire a liderului regulați în pătrat conduc la algoritmi de gradient proiectați leneș, așa cum este descris mai sus. Pentru a utiliza abordarea de mai sus pentru orice funcții convexe și regularizatoare, poate fi utilizată coborârea oglinzii online. Regularizarea optimă într-o funcție liniară pe bucăți poate fi obținută pentru funcțiile de pierdere liniară, conducând la algoritmul AdaGrad . Pentru regularizarea euclidiană se poate demonstra că limita „regret” este egală și poate fi îmbunătățită pentru funcțiile de pierdere strict convexe și exp-concave. $O({\sqrt {T}))$ $O(\log T)$

Interpretări ale învățării online

Paradigma de învățare online are interpretări diferite în funcție de alegerea modelului de învățare, fiecare cu o calitate diferită a predicțiilor secvenței de caracteristici . Pentru discuții, folosim algoritmul de coborâre a gradientului stocastic. După cum sa menționat mai sus, recursiunea algoritmului este dată de egalitate $f_{1},f_{2},\ldots,f_{n)$

\textstyle w_{t}=w_{t-1}-\gamma _{t}\nabla V(\langle w_{t-1},x_{t}\rangle, y_{t})

Prima interpretare consideră metoda de coborâre a gradientului stocastic ca o aplicație la problema de minimizare a riscului așteptată definită mai sus [8] . Mai mult, în cazul unui flux de date infinit, deoarece se presupune că instanțele sunt eșantionate dintr-o distribuție independentă și distribuită egal , secvențele de gradient din iterația de mai sus sunt eșantioane independente și distribuite egal ale estimării gradientului stocastic de risc așteptat și, prin urmare, se pot aplica rezultatele complexității pentru metoda de coborâre a gradientului stocastic pentru a constrânge abaterea , unde este minimizatorul [9] . Această interpretare este valabilă și pentru seturile de antrenament finite. Deși gradienții nu vor mai fi independenți la iterarea datelor, se pot obține rezultate de complexitate în cazuri speciale. $I[w]$ $(x_{1},y_{1}),(x_{2},y_{2}),\ldots$ $p(x,y)$ $V(\cdot ,\cdot )$ $I[w]$ $I[w_{t}]-I[w^{\ast }]$ $w^{\ast }$ $I[w]$

A doua interpretare este aplicată în cazul unui set de antrenament finit și consideră algoritmul de coborâre a gradientului stocastic ca un reprezentant al coborârii gradientului incremental [4] . În acest caz, se poate analiza riscul empiric:

I_{n}[w]={\frac {1}{n}}\sum _{i=1}^{n}V(\langle w,x_{i}\rangle ,y_{i} )\ .

Deoarece gradienții în iterațiile de coborâre a gradientului incremental sunt estimări stocastice ale gradientului , această interpretare este legată de metoda de coborâre a gradientului stocastic, dar aplicată la minimizarea riscului empiric spre deosebire de riscul așteptat. Deoarece această interpretare se referă mai degrabă la riscul empiric decât la riscul așteptat, trecerile multiple peste date sunt perfect valide și, de fapt, conduc la limite de varianță strânse , unde . $V(\cdot ,\cdot )$ $I_{n}[w]$ $I_{n}[w_{t}]-I_{n}[w_{n}^{\ast }]$ ${\displaystyle w_{n}^{\ast ))$ $I_{n}[w]$

Implementări

Vowpal Wabbit : Un sistem de învățare online rapid, open-source, cu memorie externă, cu un set de tehnici de învățare automată acceptate, cu ponderare a importanței și o selecție de diverse funcții de pierdere și algoritmi de optimizare. Sistemul folosește un truc hash pentru a limita dimensiunea setului de caracteristici, indiferent de dimensiunea datelor de antrenament.
scikit-learn : Oferă o implementare fără memorie a algoritmilor pentru
- clasificatori: perceptron , clasificator statistic de coborâre a gradientului , clasificator bayes naiv .
- regresii: regresie de coborâre a gradientului stocastic, regresor pasiv agresiv.
- clustering: metoda k-means .
- extragerea caracteristicilor: învățarea vocabularului în mini-lot , analiza componentelor principale incrementale .

Vezi și

Memoria temporară ierarhică
metoda k-cel mai apropiat vecin
Învățare leneșă
Cuantificare vectorială în timpul antrenamentului
Învățare offline , model opus
Algoritm online
Algoritmul de flux
perceptron
Coborâre a gradientului stocastic
Învățarea cu un profesor
Optimizare online

Note

↑ Interferența catastrofală este tendința rețelelor neuronale artificiale de a uita brusc complet tot ceea ce rețeaua a fost antrenată să facă înainte.
↑ 1 2 3 4 5 6 7 Rosasco, Poggio, 2015 .
↑ Yin, Kushner, 2003 , p. 8–12.
↑ 12 Bertsekas , 2011 .
↑ Venkatesan, Meng Joo, 2016 , p. 310–321.
↑ Hazan, 2015 .
↑ Dolgopolik, 2016 .
↑ Bottou, 1998 .
↑ Kushner, Yin, 1997 .

Literatură

Leon Bottou. Algoritmi online și aproximări stocastice // Învățare online și rețele neuronale . - Cambridge University Press, 1998. - ISBN 978-0-521-65263-6 .
Rosasco L., Poggio T. Chapter 7 - Online Learning // Machine Learning: a Regularization Approach . MIT-9.520 Note de curs. - 2015. - (Manuscris).
Harold J. Kushner, G. George Yin. Algoritmi și aplicații de aproximare stocastică. - New York: Springer-Verlag, 1997. - ISBN 0-387-94916-X .
- Harold J. Kushner, G. George Yin. Aproximarea stocastică și algoritmi și aplicații recursive. - Ed. a 2-a - New York: Springer-Verlag, 2003. - ISBN 0-387-00894-2 .
Elad Hazan. Introducere în optimizarea convexă online . — Foundations and Trends® in Optimization, 2015.
Rajasekar Venkatesan, Er Meng Joo. O nouă tehnică de învățare progresivă pentru clasificarea în mai multe clase // Neurocomputing. - 2016. - T. 207 . - doi : 10.1016/j.neucom.2016.05.006 . - arXiv : 1609.00085 .
Metoda Dolgopolik MV Nesterov de minimizare a funcțiilor convexe. — 2016.
Harold J. Yin, G. George Kushner. Aproximație stocastică și algoritmi și aplicații recursive. - Al doilea. - New York: Springer, 2003. - ISBN 978-0-387-21769-7 .
Bertsekas DP Metode de gradient incremental, subgradient și proximal pentru optimizarea convexă: un studiu // Optimizare pentru învățarea automată. - 2011. - Emisiune. 85 .

Link -uri

http://onlineprediction.net/ Arhivat 31 octombrie 2018 la Wayback Machine , Wiki for On-Line Prediction.

Învățare automată și extragerea datelor
Sarcini	Problema de clasificare Învățați fără profesor Învățare asistată de profesor Analiza regresiei AutoML Regulile de asociere Extragerea caracteristicilor Antrenamentul trăsăturilor Antrenament de clasare Derivarea gramaticală Învățare online
Învățarea cu un profesor	metoda k-cel mai apropiat vecin Clasificator naiv Bayes arborele de decizie Suport mașină vectorială Regresie liniara Regresie logistică perceptron Ansambluri de modele Bagare stimularea pădure la întâmplare Metoda vectorială relevantă
analiza grupului	metoda k-means Metoda de grupare fuzzy Gruparea ierarhică algoritmul EM MESTEACĂN VINDECA DBSCAN OPTICA Schimbarea medie
Reducerea dimensionalității	Analiza factorilor Metoda componentei principale CCA ICA LDA Expansiunea nenegativă a matricei t-SNE
Prognoza structurală	Modelul probabilistic grafic Rețeaua bayesiană Modelul Markov ascuns CRF
Detectarea anomaliilor	metoda k-cel mai apropiat vecin Nivelul de emisie local
Modele grafice probabilistice	Rețeaua bayesiană Rețeaua Markov Modelul Markov ascuns
Rețele neuronale	Mașină Boltzmann limitată hartă de auto-organizare Funcția de activare Sigmoid softmax Funcția de bază radială Metoda de propagare înapoi Invatare profunda Perceptron multistrat Rețea neuronală recurentă memorie pe termen lung și scurt Bloc recurent controlat Rețeaua neuronală convoluțională U-Net Autoencoder
Consolidarea învățării	procesul Markov Ecuația Bellman Algoritmul lacom Q-learning SARSA Diferența temporală (TD)
Teorie	Teoria Vapnik-Chervonenkis Dilema părtinire-dispersie Teoria învățării computaționale Minimizarea riscului empiric Occam învață Învățarea PAC Teoria învăţării statistice
Reviste și conferințe	NeurIPS ICML ML JMLR ArXiv:cs.LG