Învățare asistată de profesor

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită la 3 aprilie 2021; verificările necesită 7 modificări .

Învățarea semi-supravegheată ( de asemenea, învățarea semi-automatizată sau învățarea parțială ) este o metodă de învățare automată, un tip de învățare supravegheată care utilizează și date neetichetate pentru antrenament - de obicei o cantitate mică de date etichetate și o cantitate mare de date neetichetate . 

Învățarea parțial supravegheată ocupă o poziție intermediară între învățarea nesupravegheată (fără a utiliza date de formare etichetate) și învățarea supravegheată (folosind numai date etichetate).

Mulți cercetători în învățarea automată au descoperit că datele neetichetate, atunci când sunt utilizate în combinație cu o cantitate mică de date etichetate, pot îmbunătăți considerabil precizia antrenamentului.

Setarea datelor etichetate pentru o sarcină de învățare necesită adesea o persoană calificată (de exemplu, pentru a traduce o pistă audio în text) sau un experiment fizic (de exemplu, pentru a determina structura 3D a unei proteine ​​sau pentru a detecta prezența uleiului într-un anumit regiune). Prin urmare, costul etichetării datelor poate face impracticabil procesul de învățare folosind doar date etichetate, în timp ce procesul de specificare a datelor neetichetate nu este foarte costisitor. În astfel de situații, învățarea semi-automatizată poate avea o mare valoare practică. O astfel de învățare este, de asemenea, de interes în domeniul învățării automate și ca model pentru învățarea umană.

Sarcină de învățare

Ca și în cazul învățării supravegheate, ni se oferă un set de exemple independente distribuite identic, cu etichete adecvate . În plus, ni se oferă exemple neetichetate . Scopul învățării semi-automatizate este de a utiliza aceste informații combinate pentru a obține rezultate mai bune de performanță de clasificare , care pot fi obținute fie prin eliminarea datelor neetichetate și folosind învățarea supravegheată, fie prin eliminarea etichetelor și folosind învățarea nesupravegheată.

Învățarea semi-automatizată poate aparține învățării transductive sau învățării inductive . Scopul învățării transductive este de a obține etichete corecte numai pentru datele neetichetate . Scopul inducției este de a deriva maparea corectă de la la .

Ne putem gândi la sarcina de învățare ca la un examen, iar datele etichetate ca la câteva exemple pe care profesorul le-a rezolvat în clasă. Profesorul oferă și un set de probleme nerezolvate. În contextul învățării transductive, aceste probleme nerezolvate sunt un examen pe care doriți să-l faceți bine în general. Într-un cadru de învățare inductivă, aceste probleme de practică sunt similare cu cele cu care te-ai confrunta la un examen de clasă. Nu este necesar (și, conform principiului lui Vapnik , neînțelept) să se efectueze învățarea transductivă prin deducerea unei reguli de clasificare pentru toate intrările. Cu toate acestea, în practică, algoritmii destinați în mod oficial pentru transducție sau inducție sunt adesea folosiți interschimbabil.

Ipoteze utilizate în învățarea semi-automatizată

Pentru a utiliza datele brute, o anumită structură trebuie să fie atribuită distribuției de bază a datelor. Algoritmii de învățare semi-automatizat folosesc cel puțin una dintre aceste ipoteze. [unu]

Ipoteza de netezime

Punctele care se află aproape unele de altele sunt etichetate în mod egal cu o probabilitate mai mare. Aceeași ipoteză este utilizată în principal în învățarea supervizată și are avantajul de a folosi soluții simple din punct de vedere geometric. În cazul învățării semi-automatizate, ipoteza de netezime oferă, în plus, un avantaj pentru delimitare în regiunile cu densitate scăzută, unde există mai puține puncte apropiate, dar de clase diferite.

Ipoteza de grupare

Datele tind să formeze clustere discrete, iar punctele din același cluster sunt mai probabil să fie etichetate la fel (deși datele care utilizează aceleași etichete pot fi localizate în mai multe clustere diferite). Acesta este un caz special de ipoteză de netezime care duce la învățarea caracteristicilor folosind algoritmi de grupare .

Ipoteza redundanței datelor

Această ipoteză se aplică atunci când dimensiunile datelor sunt redundante, adică sunt generate de un proces specific care are doar câteva grade de libertate. În acest caz, datele neetichetate fac posibilă studierea procesului de generare și, prin urmare, reducerea dimensiunii .

De exemplu, vocea umană este controlată de mai multe corzi vocale, [2] iar prezentarea diferitelor expresii faciale este controlată de mai mulți mușchi. În aceste cazuri, este mai convenabil să folosiți spațiul generator decât spațiul tuturor undelor acustice sau, respectiv, imaginilor posibile.

Istorie

Abordarea euristică a auto-învățarii este cea mai veche. [1] A fost folosit din anii 1960 (vezi, de exemplu, Scudder 1965) [3] ).

Bazele învățării transductive au fost puse de Vladimir Vapnik în anii 1970. [4] Anii 1970 au văzut, de asemenea, apariția interesului pentru învățarea inductivă folosind modele generative. Aplicarea Approximate Correct Learning la învățarea semi-automatizată bazată pe un model de amestec gaussian a fost demonstrată de Ratsaby și Venkatesh în 1995. [5]

Învățarea semi-automatizată a devenit recent mai populară și mai relevantă datorită unui număr de sarcini pentru care este disponibilă o cantitate imensă de date neetichetate (de exemplu, textul paginii web, secvențe de proteine ​​sau imagini. Pentru o revizuire a lucrărilor recente în acest domeniu. , vezi Zhu (2008 [6

Abordări ale învățării semi-automatizate

Modele generative

Abordările generative ale învățării statistice urmăresc în primul rând estimarea distribuției punctelor de date pentru fiecare clasă. Probabilitatea ca un punct dat să aibă o etichetă va fi proporțională prin teorema lui Bayes . Învățarea semi-automatizată folosind abordări generative poate fi văzută fie ca o extensie a învățării supravegheate (clasificare și informații despre ) fie ca o extensie a învățării nesupravegheate (clustering și unele etichete).

Modelele generative presupun că distribuțiile iau o anumită formă , parametrizată de un vector . Dacă aceste ipoteze sunt incorecte, atunci datele neetichetate pot reduce de fapt acuratețea soluției în comparație cu ceea ce s-ar obține numai din datele etichetate. [7] Cu toate acestea, dacă aceste ipoteze sunt corecte, datele neetichetate vor îmbunătăți performanța. [5]

Datele neetichetate sunt distribuite în funcție de un amestec de diviziuni de clasă individuală. Pentru ca distribuția unui amestec de date neetichetate să fie studiată, datele trebuie să fie recognoscibile, adică diferiți parametri trebuie să conducă la distribuții rezultate diferite. Distribuțiile de amestec gaussiene sunt recunoscute și utilizate în mod obișnuit în modelele generative.

Distribuția articulată parametrizată poate fi scrisă ca regulă în lanț. Fiecare vector este asociat cu o funcție . Parametrul este apoi ales pe baza potrivirii atât la datele etichetate acolo, cât și la datele neetichetate, echilibrat cu :

[6]

Separare cu densitate joasă

Aceasta este o altă clasă importantă de metode care încearcă să delimiteze regiunile care conțin mai multe puncte de date (etichetate sau neetichetate). Unul dintre algoritmii cei mai des utilizați este mașina vectorului de suport transductiv , sau TSVM (care, în ciuda numelui, poate fi folosit și pentru învățarea inductivă). În timp ce SVM pentru învățarea supravegheată caută soluția de suprafață de separare cu cel mai mare decalaj în datele etichetate, scopul TMST este de a eticheta datele neetichetate astfel încât soluția de suprafață de separare să aibă cel mai mare decalaj în comparație cu toate datele. În plus față de bucla standard de pierdere pentru datele etichetate, este introdusă și o funcție de pierdere pentru datele neetichetate, denotând . TMOV selectează apoi un nucleu reproductibil din spațiul Hilbert reducând la minimum riscul empiric regularizat :

Soluția exactă este indecidabilă datorită termenului neconvex , așa că cercetarea se concentrează pe găsirea aproximărilor utile. [6]

Alte abordări care implementează distribuția cu densitate scăzută includ modelele de proces gaussiene, ordonarea informațiilor și minimizarea entropiei (din care TMOV este un caz special).

Metode bazate pe grafice

Metodele bazate pe grafice pentru învățarea semi-automatizată folosesc date reprezentate printr-un grafic, cu un nod pentru fiecare exemplu etichetat sau neetichetat. Graficul poate fi construit folosind cunoștințele de domeniu sau pe baza similarității exemplelor. Două abordări comune implică conectarea fiecărui punct de date la cei mai apropiați vecini ai săi sau la exemple la o distanță în . Greutatea marginii dintre și este setată la .

În cadrul regularizării varietății [8] [9] , graficul servește ca reprezentant al varietății. Expresia este adăugată la problema de regularizare Tikhonov standard pentru a asigura netezimea soluției în ceea ce privește multiformitatea (în spațiul propriu al problemei), precum și spațiul de intrare înconjurător. Sarcina minimizării devine:

[6]

unde  este spațiul Hilbert al nucleului reproductibil și  este datele multiforme. Parametrii de regularizare și controlează netezimea în spațiile apropiate, respectiv interioare. Graficul este folosit pentru a aproxima termenul de regularizare intern. După ce am definit matricea Kirchhoff , unde și este un vector, obținem:

Abordări euristice

Unele dintre metodele de învățare semi-automatizate nu sunt adaptate pentru a utiliza atât date etichetate, cât și neetichetate în același timp, dar pot folosi date neetichetate pentru învățarea supravegheată. De exemplu, exemplele etichetate și neetichetate pot informa prezentarea, metrica sau nucleele de date în primul pas nesupravegheat. Apoi, procesele de învățare supravegheate au etichetat doar exemple.

Auto -învățarea  este o metodă de înfășurare pentru învățarea semi-automată. [10] Inițial, procesele de învățare supravegheată au etichetat doar date. Acest clasificator este apoi aplicat datelor neetichetate pentru a genera mai multe exemple etichetate pentru învățarea supravegheată. În general, se poate fi sigur că doar etichetele clasificatoarelor sunt adăugate la fiecare pas. [unsprezece]

Învățarea colaborativă este o extensie a auto-învățarii în care mai mulți clasificatori lucrează pe seturi de caracteristici diferite (în mod ideal, care nu se suprapun) și generează exemple etichetate unul pentru celălalt. [12]

Învățare semi-automatizată în percepția umană

Răspunsurile umane la sarcinile formale de învățare semi-automatizate au dat concluzii diferite cu privire la gradul de influență al datelor neetichetate (a se vedea [13] pentru un rezumat ). Multe sarcini naturale de învățare pot fi văzute și ca exemple de învățare semi-automatizată. Majoritatea principiilor învățării umane implică un număr mic de instrucțiuni directe (de exemplu, etichetarea obiectelor de către părinți în copilărie) cuplat cu un număr mare de exemple neetichetate (de exemplu, observarea obiectelor fără a le numi sau număra, sau cel puțin a nu le descrie).

Bebelușii sunt sensibili la structura datelor neetichetate, cum ar fi imagini cu câini și pisici sau fețe masculine și feminine. [14] Studii recente au descoperit că sugarii și copiii iau în considerare nu numai exemplele disponibile neetichetate, ci și procesul de selecție din acestea, care are ca rezultat exemple etichetate. [15] [16]

Vezi și

Surse

  1. 1 2 Învățare semi-supravegheată  (nedefinită) . - Cambridge, Mass.: MIT Press , 2006. - ISBN 978-0-262-03358-9 .
  2. Stevens, KN(2000), Acoustic Phonetics, MIT Press, ISBN 0-262-69250-3 , 978-0-262-69250-2
  3. ^ Scudder , HJ Probabilitatea de eroare a unor mașini adaptive de recunoaștere a modelelor.
  4. Vapnik, V. N., Chervonenkis, A. Ya. Teoria recunoașterii modelelor. — M.: Nauka, 1974. — 416 p.
  5. 1 2 Ratsaby, J. și Venkatesh, S. Învățare dintr-un amestec de exemple etichetate și neetichetate cu informații secundare parametrice.
  6. 1 2 3 4 Zhu, Xiaojin.
  7. Cozman, F. și Cohen, I. Riscurile învățării semi-supervizate: cum datele neetichetate pot degrada performanța clasificatorilor generativi.
  8. M. Belkin, P. Niyogi. Învățare semi-supravegheată pe varietăți riemanniene  (nedefinită)  // Învățare automată. - 2004. - V. 56 , Nr. Special Issue on Clustering . - S. 209-239 . - doi : 10.1023/b:mach.0000033120.25363.1e .
  9. M. Belkin, P. Niyogi, V. Sindhwani.
  10. Triguero, Isaac. Tehnici autoetichetate pentru învățarea semi-supravegheată: taxonomie, software și studiu empiric  (engleză)  // Knowledge and Information Systems : journal. - 2013. - 26 noiembrie ( vol. 42 , nr. 2 ). - P. 245-284 . — ISSN 0219-1377 . - doi : 10.1007/s10115-013-0706-y .
  11. Fazakis, Nikos. Self-Trained LMT for Semisupervised Learning  (engleză)  // Computational Intelligence and Neuroscience : jurnal. - 2015. - 29 decembrie ( vol. 2016 ). - P. 1-13 . - doi : 10.1155/2016/3057481 .
  12. Didaci, Luca. Analiza algoritmului de co-training cu seturi de antrenament foarte mici  . — Springer Berlin Heidelberg . - P. 719-726. — ISBN 9783642341656 .
  13. ↑ Introducere în învățarea  semi- supervizată . - Morgan & Claypool, 2009. - ISBN 9781598295481 .
  14. Younger BA, Fearing DD Parsing Items into Separate Categories: Developmental Change in Infant Categorization  //  Child Development : journal. - 1999. - Vol. 70 . - P. 291-303 . - doi : 10.1111/1467-8624.00022 .
  15. Xu, F. și Tenenbaum, JB Sensibilitatea la eșantionare în învățarea cuvintelor bayesiene. Știința  dezvoltării // Știința  dezvoltării : jurnal. - 2007. - Vol. 10 . - P. 288-297 . - doi : 10.1111/j.1467-7687.2007.00590.x .
  16. Gweon, H., Tenenbaum JB și Schulz LE Infants iau în considerare atât eșantionul, cât și procesul de eșantionare în generalizarea inductivă  // Proceedings of the National Academy of Sciences of the United States of America  : journal  . - 2010. - Vol. 107 , nr. 20 . - P. 9066-9071 . - doi : 10.1073/pnas.1003095107 .

Link -uri