Antrenament de clasare

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită pe 2 august 2019; verificările necesită 4 modificări .

Learning to rank ( learning to rank sau machine-learned ranking, MLR ) [1] este o clasă de sarcini de învățare automată supravegheate care constă în selectarea automată a unui model de clasare dintr-un set de antrenament format dintr-un set de liste și ordine parțiale pe elemente . în cadrul fiecărei liste. Ordinea parțială este de obicei specificată prin specificarea unui punctaj pentru fiecare item (de exemplu, „relevant” sau „nerelevant”; sunt posibile mai mult de două gradații). Scopul unui model de clasare este de a aproxima și generaliza cel mai bine (într-un anumit sens) metoda de clasare în setul de antrenament la date noi.

Învățarea ierarhică este încă un domeniu de cercetare destul de tânăr, în dezvoltare rapidă, care a apărut în anii 2000 odată cu apariția interesului în domeniul regăsirii informațiilor în aplicarea metodelor de învățare automată la problemele de ierarhizare.

Aplicație în regăsirea informațiilor

În ceea ce privește motoarele de căutare , fiecare listă este un set de documente care satisfac o anumită interogare de căutare.

Eșantionul de instruire constă dintr-un eșantion de interogări de căutare, un subset de documente care le corespund și estimări ale relevanței fiecărui document pentru interogare. Acestea pot fi pregătite atât manual, de către oameni special instruiți (evaluatori sau evaluatori ai calității căutării ) , cât și automat, pe baza analizei clicurilor utilizatorilor [2] sau a instrumentelor motoarelor de căutare precum sistemul SearchWiki al motorului de căutare Google .

Caracteristici de clasare

În timpul pregătirii modelului de clasare și în timpul funcționării acestuia, fiecare pereche document-cerere este tradusă într-un vector numeric de caracteristici de clasare (numite și factori de clasare sau semnale) care caracterizează proprietățile documentului, interogarea și relația lor. Aceste semne pot fi împărțite în trei grupuri:

Caracteristici independente de interogare sau statice - depind doar de document, dar nu și de cerere. De exemplu, PageRank sau lungimea documentului. Astfel de caracteristici sunt de obicei calculate în etapa de indexare a documentelor și sunt adesea folosite pentru a construi un scor static de calitate a documentului care este utilizat pentru a îmbunătăți performanța motoarelor de căutare. [3] [4]
Caracteristici care depind doar de cerere. De exemplu, „cerere despre porno sau nu”.
Funcții dependente de interogare sau dinamice - depind atât de document, cât și de cerere. De exemplu, măsura TF-IDF a conformității documentului cu o interogare.

Următoarele sunt câteva exemple de caracteristici de clasare utilizate în binecunoscutul set de date LETOR în acest domeniu de cercetare : [5]

Valorile măsurilor TF, TF-IDF , BM25 și modelul de limbă de potrivire a cererii diferitelor zone ale documentului (titlu, URL , textul corpului, textul linkului);
Lungimi și IDF - sumele zonelor documentului;
Clasamentele documentelor obținute prin diferite variații ale algoritmilor de clasificare a linkurilor , cum ar fi PageRank și HITS .

Valori de calitate a clasamentului

Există mai multe valori care evaluează și compară performanța algoritmilor de clasare pe un eșantion cu evaluările de la colegi. Adesea, parametrii modelului de clasare tind să fie ajustați în așa fel încât să maximizeze valoarea uneia dintre aceste metrici.

Exemple de valori:

DCG și NDCG _
Precizie @ n , NDCG@ n (@ n înseamnă că valoarea metricii este luată în considerare numai pentru cele n documente cele mai bune);
HARTĂ ;
rangul mediu invers ;
pfound este dezvoltat de Yandex . [6]

Clasificarea algoritmilor

În articolul său „Learning to Rank for Information Retrieval” [1] și prezentări la conferințe tematice, Tai-Yan Liu de la Microsoft Research Asia a analizat metodele disponibile în prezent pentru rezolvarea problemei de a învăța să ierarhească și a propus clasificarea lor în trei abordări, în funcție de privind reprezentarea datelor de intrare utilizate și funcția de penalizare:

Abordare punctuală

În abordarea punctual , se presupune că fiecărei perechi interogare-document i se atribuie un scor numeric. Sarcina de a învăța să ierarhăm se reduce la construirea unei regresii : pentru fiecare pereche interogare-document individuală, este necesar să se prezică scorul acesteia.

În cadrul acestei abordări, mulți algoritmi de învățare automată pot fi aplicați problemelor de regresie. Când scorurile pot lua doar câteva valori, pot fi utilizați și algoritmi de regresie ordinală și clasificare.

Abordare în perechi

În abordarea pe perechi , învățarea ierarhizării se reduce la construirea unui clasificator binar, care primește două documente corespunzătoare aceleiași interogări ca intrare și este necesar să se determine care dintre ele este mai bun.

Exemple de algoritmi: [1] RankNet, FRank, RankBoost, RankSVM, IR-SVM.

Abordarea listei

Abordarea pe listă constă în construirea unui model, a cărui intrare sunt imediat toate documentele care se potrivesc interogării, iar rezultatul este permutarea acestora . Potrivirea parametrilor modelului este efectuată pentru a maximiza direct una dintre valorile de clasare de mai sus. Dar acest lucru este adesea dificil, deoarece metricile de clasare nu sunt de obicei continue și nediferențiabile în raport cu parametrii modelului de clasare, așa că recurg la maximizarea unor aproximări sau estimări mai mici ale acestora.

Exemple de algoritmi: [1] SoftRank, harta SVM , AdaRank, RankGP, ListNet, ListMLE.

Aplicație practică

În motoarele de căutare majore

Motoarele de căutare ale multor motoare de căutare moderne pe Internet, inclusiv Yandex , Yahoo [7] și Bing , folosesc modele de clasare construite prin metode de învățare automată. Căutarea Bing folosește algoritmul RankNet . [8] Cel mai nou algoritm de învățare automată de clasare dezvoltat și utilizat în motorul de căutare Yandex se numește MatrixNet; [9] Yandex însuși a sponsorizat competiția Internet Mathematics 2009 [10] pentru a construi un algoritm de clasare bazat pe propriul set de date.

Într-un interviu la începutul anului 2008, Peter Norvig , director de cercetare la Google , a declarat că motorul lor de căutare nu era încă pregătit să încredințeze complet clasamentul algoritmilor de învățare automată, invocând faptul că, în primul rând, modelele generate automat se pot comporta imprevizibil pe noi clase de interogări care nu sunt similare cu interogările din eșantionul de instruire, în comparație cu modelele create de experți umani. În al doilea rând, creatorii algoritmului actual de clasare Google sunt încrezători că modelul lor este, de asemenea, capabil să rezolve problemele mai eficient decât învățarea automată. [11] Primul motiv prezintă un interes mult mai semnificativ pentru noi, întrucât nu se întoarce doar la o problemă atât de cunoscută din logica inductivă, formulată de matematicianul german C.G. Hempel și în conflict cu intuiția (afirmația „toți corbii sunt negri” este echivalent logic cu „toate obiectele care nu sunt negri nu sunt corbi”), dar ne face și să revenim la o serie de probleme nerezolvate ale lui F. Rosenblatt, care a creat prima rețea neuronală capabilă de percepție și formarea unui răspuns la stimulul perceput - un perceptron cu un singur strat. [12] Pe baza criticii perceptronului elementar al lui Rosenblatt , putem înțelege întreaga vulnerabilitate a acestui model de rating, despre care ne vorbesc experții Google: sunt sisteme artificiale capabile să își generalizeze experiența individuală la o clasă largă de situații pentru care răspunsul a fost nu le-a fost comunicat în prealabil? Nu, experiența individuală a sistemelor artificiale în practică este întotdeauna limitată și niciodată completă. Într-un fel sau altul, instrumentele de învățare automată vă permit să rezolvați problema spamdexing-ului cu un grad destul de ridicat de eficiență. [13]

Note

↑ 1 2 3 4 Tie-Yan Liu (2009), Learning to Rank for Information Retrieval , Foundations and Trends in Information Retrieval: Vol. 3: nr. 3, p. 225-331, ISBN 978-1-60198-244-5 , DOI 10.1561/1500000016 . Slide - uri disponibile Arhivat 31 martie 2010. din discursul lui T. Lew la conferința WWW 2009.
↑ Optimizarea motoarelor de căutare utilizând date de clic . Consultat la 18 noiembrie 2009. Arhivat din original pe 29 decembrie 2009. (nedefinit)
↑ Scoruri statice de calitate și ordine . Consultat la 18 noiembrie 2009. Arhivat din original pe 7 iulie 2009. (nedefinit)
↑ Richardson, M.; Prakash, A. și Brill, E. (2006). „Dincolo de PageRank: Învățare automată pentru clasarea statică” (PDF) . Proceedings of the 15th International World Wide Web Conference . pp. 707–715. Arhivat (PDF) din original pe 2009-08-15. Parametrul depreciat folosit |deadlink=( ajutor )
↑ LETOR 3.0. O colecție de repere pentru a învăța să clasificeți pentru regăsirea informațiilor . Consultat la 18 noiembrie 2009. Arhivat din original pe 16 februarie 2012. (nedefinit)
↑ Gulin A., Karpovich P., Raskovalov D., Segalovici I. Yandex la ROMIP'2009. Optimizarea algoritmilor de clasare prin metode de învățare automată. Arhivat pe 22 noiembrie 2009 la Wayback Machine
↑ Yahoo lansează cea mai mare aplicație de producție Hadoop din lume, arhivată 21 decembrie 2009 la Wayback Machine
↑ Bing Search Blog: Nevoile utilizatorilor, caracteristicile și știința din spatele Bing Arhivat 25 noiembrie 2009 la Wayback Machine
↑ Roem.ru: Yandex a lansat o nouă formulă Snezhinsk, acum există o mie de variabile în loc de 250. . Consultat la 20 noiembrie 2009. Arhivat din original pe 13 noiembrie 2009. (nedefinit)
↑ Internet Mathematics 2009 (link inaccesibil) . Consultat la 20 noiembrie 2009. Arhivat din original pe 15 noiembrie 2009. (nedefinit)
↑ Modelele învățate automat sunt predispuse la erori catastrofale? Arhivat din original pe 18 septembrie 2010. (Engleză)
↑ Perceptrons: An Associative Learning Network Arhivat 9 august 2011 la Wayback Machine
↑ Detectarea spam-ului motorului de căutare. Partea 15: Aplicarea rețelelor neuronale artificiale Arhivat 10 martie 2013 la Wayback Machine (rusă)

Învățare automată și extragerea datelor
Sarcini	Problema de clasificare Învățați fără profesor Învățare asistată de profesor Analiza regresiei AutoML Regulile de asociere Extragerea caracteristicilor Antrenamentul trăsăturilor Antrenament de clasare Derivarea gramaticală Învățare online
Învățarea cu un profesor	metoda k-cel mai apropiat vecin Clasificator naiv Bayes arborele de decizie Suport mașină vectorială Regresie liniara Regresie logistică perceptron Ansambluri de modele Bagare stimularea pădure la întâmplare Metoda vectorială relevantă
analiza grupului	metoda k-means Metoda de grupare fuzzy Gruparea ierarhică algoritmul EM MESTEACĂN VINDECA DBSCAN OPTICA Schimbare medie
Reducerea dimensionalității	Analiza factorilor Metoda componentei principale CCA ICA LDA Expansiunea nenegativă a matricei t-SNE
Prognoza structurală	Modelul probabilistic grafic Rețeaua bayesiană Modelul Markov ascuns CRF
Detectarea anomaliilor	metoda k-cel mai apropiat vecin Nivelul de emisie local
Modele grafice probabilistice	Rețeaua bayesiană Rețeaua Markov Modelul Markov ascuns
Rețele neuronale	Mașină Boltzmann limitată hartă de auto-organizare Funcția de activare Sigmoid softmax Funcția de bază radială Metoda de propagare înapoi Invatare profunda Perceptron multistrat Rețea neuronală recurentă memorie pe termen lung și scurt Bloc recurent controlat Rețeaua neuronală convoluțională U-Net Autoencoder
Consolidarea învățării	procesul Markov Ecuația Bellman Algoritmul lacom Q-learning SARSA Diferența temporală (TD)
Teorie	Teoria Vapnik-Chervonenkis Dilema părtinire-dispersie Teoria învățării computaționale Minimizarea riscului empiric Occam învață Învățarea PAC Teoria învăţării statistice
Reviste și conferințe	NeurIPS ICML ML JMLR ArXiv:cs.LG