Învățarea Ockham în teoria învățării computaționale este un model de învățare algoritmică în care scopul învățării este de a obține o reprezentare concisă a datelor de antrenament disponibile. Metoda este strâns legată de învățarea aproape corectă (învățarea PC, ing. Învățarea probabil aproximativ corectă , învățarea PAC), unde profesorul evaluează capacitatea de predicție a setului de test.
Capacitatea de învățare a lui Occam implică învățarea pe computer, iar pentru o clasă largă de concepte, opusul este și adevărat – învățarea pe computer implică învățarea lui Occam.
Învățarea lui Occam este denumită după termenul „ briciul lui Occam ”, care este principiul care afirmă că, presupunând că nu există entități suplimentare, o scurtă explicație a observațiilor ar trebui să fie preferată față de o explicație mai lungă (pe scurt: „Nu trebuie să înmulțim ființele inutil”). Teoria învăţării lui Occam este o perfecţionare formală şi matematică a acestui principiu. Blumer și colab. au fost primii care au arătat [1] că învățarea Occam implică învățarea pe computer, care este modelul standard de învățare în teoria învățării computaționale. Cu alte cuvinte, frugalitatea (ipoteza de ieșire) implică capacitatea de predicție .
Concizia unui concept dintr-o clasă de concept poate fi exprimată ca lungimea celui mai scurt șir de biți care poate reprezenta conceptul în clasă . Învățarea Ockham conectează concizia rezultatelor unui algoritm de învățare cu capacitatea sa de predicție.
Fie și fie clase de concepte care conțin concepte țintă și, respectiv, ipoteze. Atunci, pentru constante și , algoritmul de învățare este un algoritm -Occam pentru ipoteze dacă și numai dacă, având în vedere un set care conține instanțe etichetate conform , rezultatul algoritmului este o ipoteză , astfel încât
unde este lungimea maximă a oricărei instanțe de . Algoritmul lui Occam este numit eficient dacă rulează în timp polinomial de și . Spunem că o clasă de concepte este Occam-învățabilă în raport cu o clasă de ipoteze dacă există un algoritm Occam eficient pentru ipoteze .
Capacitatea de învățare Ockham implică capacitatea de învățare pe computer, așa cum arată teorema lui Blumer și colab .[2] :
Fie un algoritm eficient -Occam pentru ipoteze . Apoi există o constantă astfel încât pentru orice pentru orice distribuție , date date extrase din și etichetate conform conceptului fiecărui biți, algoritmul va produce o ipoteză astfel încât, cu probabilitate cel puțin
. Aici ia în considerare conceptul și distribuția . Rezultă că algoritmul este un profesor PC al clasei de concepte din clasa ipotezelor . O formulare puțin mai generală:
Lasă . Fie un algoritm astfel încât, având în vedere un set de instanțe extrase dintr-o distribuție fixă, dar necunoscută și etichetate conform conceptului cu un șir de biți de lungime fiecare, rezultatul este o ipoteză compatibilă cu instanțele etichetate. Atunci există o constantă astfel încât, în cazul în care este garantat să se dea o ipoteză astfel încât cu probabilitate cel puțin .
Deși teoremele de mai sus arată că învățarea lui Occam este suficientă pentru învățarea pe computer, ele nu spun nimic despre necesitatea . Board și Pitt au arătat că pentru o clasă largă de concepte, învățarea Occam este necesară pentru învățarea PC [3] . Ei au arătat că pentru orice clasă de concepte care este închisă polinomial sub listele de excepții , capacitatea de învățare PC implică existența unui algoritm Occam pentru acea clasă de concepte. Clasele de concepte care sunt închise polinomial de liste de excepții includ formule booleene, lanțuri de însumare, automate finite deterministe , liste de decizie, arbori de decizie și alte clase de concepte bazate pe geometric.
O clasă de concepte este închisă polinomial în listele de excepții dacă există un algoritm polinomial de rulare , astfel încât, având în vedere o reprezentare a conceptului și o listă finită de excepții , rezultatul algoritmului este o reprezentare a conceptului , astfel încât conceptele şi convin cu excepţia excluderii elementelor mulţimii .
Mai întâi vom demonstra versiunea cu lungime. Numim ipoteza rea dacă , unde din nou ia în considerare conceptul adevărat și distribuția . Probabilitatea ca mulțimea să fie în concordanță cu nu depășește , în funcție de independența eșantioanelor. Pentru o mulțime completă, probabilitatea ca să existe o ipoteză proastă la nu depășește , care este mai mică decât dacă . Aceasta completează demonstrația celei de-a doua teoreme.
Folosind a doua teoremă, o vom demonstra pe prima. Deoarece avem un algoritm -Occam, aceasta înseamnă că orice ipoteză de ieșire a algoritmului poate fi reprezentată de cel mult biți și apoi . Aceasta este mai mică decât dacă am seta o constantă . Apoi, conform versiunii teoremei cu lungime, va da o ipoteză consistentă cu o probabilitate de cel puțin . Aceasta completează demonstrația primei teoreme.
Deși învățarea Occam și învățarea PC sunt echivalente, algoritmul lui Occam poate fi utilizat pentru a obține limite mai strânse ale complexității eșantionului pentru problemele clasice, inclusiv raționamentul logic [2] , raționamentul multivariabil [4] și listele de decizie [5] .
S-a demonstrat că algoritmii Ockham funcționează cu succes pentru învățarea PT în prezența erorilor [6] [7] , a învățării conceptelor probabilistice [8] , a funcțiilor de învățare [9] și a exemplelor Markov de non-independență [10] .
Kearns MJ, Schapire RE Învățare eficientă fără distribuție a conceptelor probabilistice // Foundations of Computer Science, 1990. Proceedings., 31st Annual Symposium . - Los Alamitos, CA: IEEE Computer Society Press, 1990.
Aldous D., Vazirani U. O extensie markoviană a modelului de învățare al lui Valiant // Foundations of Computer Science, 1990. Proceedings., 31st Annual Symposium. - IEEE, 1990.
Învățare automată și extragerea datelor | |
---|---|
Sarcini | |
Învățarea cu un profesor | |
analiza grupului | |
Reducerea dimensionalității | |
Prognoza structurală | |
Detectarea anomaliilor | |
Modele grafice probabilistice | |
Rețele neuronale | |
Consolidarea învățării |
|
Teorie | |
Reviste și conferințe |
|