Primirea automată a corpusului marcat

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită pe 9 august 2019; verificările necesită 4 modificări .

Dacă metodele de învățare nesupravegheată se bazează pe un corpus neadnotat (neetichetat) în problema de dezambiguizare , atunci învățarea supravegheată depinde în mod fundamental de un corpus de testare etichetat. Problema obținerii unor cunoștințe suficiente este unul dintre cele mai importante obstacole în implementarea algoritmilor de învățare extrem de eficienți . Cu toate acestea, dacă algoritmul este implementat nu de evenimente atât de mari în ceea ce privește resursele precum Senseval, ci de unul mai mic, atunci în astfel de cazuri nu este posibil să se obțină un corpus adnotat de înaltă calitate din cauza costurilor uriașe ale forței de muncă care sunt necesare. pentru a efectua acest proces manual. Prin urmare, cercetătorii care aveau nevoie de astfel de corpuri s-au confruntat cu sarcina de a obține automat corpuri etichetate.

Ieșirea este să găsim automat astfel de contexte în care cuvântul polisemantic dorit cu 100% probabilitate să ia valoarea de care avem nevoie. Și astfel de metode au fost inventate; există mai multe moduri care sunt fundamental diferite unele de altele.

Soluții existente

Una dintre soluții este un algoritm dezvoltat de Rada Michelsia [1] și bazat pe obținerea de contexte din motoarele de căutare (cum ar fi Google sau Yandex) folosind cunoștințele disponibile în tezaur. Întregul proces de obținere a unui corpus constă din trei etape: preprocesare, căutare și postprocesare.

Preprocesare. Pentru fiecare cuvânt w și valoarea sa #i se iau sinonimele lor cu o singură valoare, precum și cuvintele obținute în urma procesării glosei (interpretare dicționar, explicații gramaticale, exemple de utilizare a cuvântului în diverse contexte etc.)
Căutare. Apoi, în etapa de căutare, se formează interogări de căutare care ajută la găsirea exactă a acelei contexte în care cuvântul dat este prezent în sensul de care avem nevoie.
Post procesare. După aceea, contextele primite sunt procesate, cele proaste sunt filtrate etc.

Eficiența metodei face posibilă obținerea unui număr mare de contexte, dintre care aproximativ 91% sunt corecte, ceea ce este un rezultat destul de ridicat, suficient pentru învățarea automată. De asemenea, această metodă are succesori și predecesori (de exemplu, algoritmul Leacock și Chodorow), dar nu toți au fost comparați cu ea din punct de vedere al eficienței.

A doua metodă, inventată de Jarowski [2] și numită adesea bootstrapping, propune, pornind de la un număr mic de exemple definite manual (așa-numitele exemple de semințe), extinderea automată și iterativă a claselor, împărțind contextele rămase în text simplu. în clase, obținând astfel un eșantion de pregătire. În același timp, lucruri precum „un simț per alocație” și „un simț pe discurs” sunt luate ca o axiomă. Totuși, această metodă este și mai puțin precisă decât metoda Mihalcea, deoarece în acest caz nu se obțin contexte lipsite de ambiguitate .

De asemenea, există încă 3 metode [3] care sunt practic inaplicabile limbii ruse:

directoarele paginilor web (cum ar fi Proiectul Open Directory );
texte bilingve aliniate (cu toate acestea, în ciuda creșterii rapide a unor astfel de materiale, numărul lor nu este încă suficient de mare pentru limba rusă);
Lucru colaborativ în stil wiki (proiectul Open Mind Word Expert): principiul este că cazurile ușoare de rezolvare a ambiguității sunt rezolvate de o mașină, cele dificile sunt arătate voluntarilor pe Internet; această metodă, din păcate, nu a dat rezultate suficient de mari din cauza lipsei de profesionalism a voluntarilor (62,8% acord între oameni față de 85,5% la Senseval).

Rezultat

Rezultate

Obținerea automată a exemplelor pentru formarea clasificatoarelor (învățare supravegheată) s-a dovedit a fi cea mai bună abordare de mining pe internet pentru rezolvarea dezambiguerii lexicale . Iată câteva rezultate încurajatoare:

În unele experimente , calitatea datelor de pe Internet a fost aproape egală cu calitatea unui corpus creat de om: o combinație de obținere cu ajutorul sinonimelor fără ambiguitate și bootstrapping din exemplele SemCor [4] și exemple obținute din ODP [5] . În primul, însă, exemple din SemCor sunt necesare și există doar pentru limba engleză, iar testarea s-a efectuat cu prea puține substantive, iar în a doua, acoperirea experimentului este prea mică și nu se știe cât de mult. calitatea corpusului rezultat se deteriorează atunci când este crescut.
De asemenea, s-a demonstrat [6] că aproape orice tehnică de învățare supravegheată antrenată pe corpuri extrase automat de pe Internet depășește toate tehnicile de învățare nesupravegheată implicate în Senseval -2.
Exemplele de pe Internet au fost de mare beneficiu în ceea ce privește eficiența celor mai buni algoritmi englezi pentru toate cuvintele de pe Senseval-2 [7] .

Probleme

Cu toate acestea, există și anumite probleme și dificultăți legate direct de obținerea unui astfel de caz:

Buna calitate a exemplelor primite (adică apartenența corectă a exemplelor la clasele valorice) nu asigură neapărat acuratețea ridicată a clasificatorului [8] .
Cele mai obiective experimente privind evaluarea calității exemplelor obținute au arătat [9] că antrenamentul pe aceste exemple crește semnificativ nivelul de acuratețe al rezoluției ambiguității, cu toate acestea, rezultatele sunt departe de a fi ideale: nu sunt mai proaste decât cele obținute manual. , ele nici măcar nu depășesc calitatea obținută cu cel mai frecvent sens de bază.
Rezultatele nu sunt întotdeauna repetabile: metode identice sau similare pot duce la rezultate diferite în experimente diferite. Ca o comparație, se pot compara experimente: Mihalcea (2002 [10] ) cu Agirre și Martínez (2004 [9] ), sau Agirre și Martínez (2000 [8] ) cu Mihalcea și Moldovan (1999 [11] ). Rezultatele obținute cu ajutorul internetului au arătat că datele sunt foarte sensibile chiar și la mici modificări ale algoritmului de antrenament, chiar și la data primirii corpusului (rezultatele motoarelor de căutare sunt în continuă schimbare) și la probleme euristice imperceptibile (de exemplu, diferențe). în filtre pentru a elimina unele dintre exemplele primite). ).
Rezultatele sunt puternic influențate de un astfel de fenomen precum „deformarea” (adică raportul dintre frecvența exemplelor unor sensuri ale cuvântului în comparație cu altele [9] ). Deci nu este complet clar dacă aceasta este doar o problemă cu informațiile de pe Internet sau dacă este o problemă inerentă învățării supravegheate sau dacă este o problemă în modul în care sunt evaluate metodele (într-adevăr, cantitatea relativ mică de date Senseval este foarte posibil nu acel lucru reprezentativ în comparație cu întregul internet ca corpus).
În orice caz, datele de pe Internet sunt distorsionate deoarece interogările către motoarele de căutare limitează direct setul de contexte primite. Există abordări pentru a atenua acest efect, cum ar fi: utilizarea mai multor semințe sau interogări pentru fiecare dintre semnificațiile cuvântului [10] sau atribuirea de valori categoriilor corespunzătoare din directoarele site-urilor [5] ; totuși, această problemă este încă departe de a fi pe deplin rezolvată.
Pentru orice corpus de contexte primite, problema cu licența pentru utilizarea sa nu este întotdeauna clară (componenta legală este neclară).

Viitorul regiunii

Pe lângă tehnicile de mai sus pentru obținerea unui corpus de pe web, s-au făcut și alte experimente folosind internetul:

Internetul ca rețea socială a fost folosit cu succes de mai multe ori pentru adnotarea colaborativă de către utilizatori anonimi (proiect OMWE, proiect Open Mind Word Expert) [12] : a fost deja folosit de trei ori pentru sarcini Senseval-3 (pentru engleză, română și sarcină multilingvă).
Internetul a fost folosit și pentru a îmbogăți valorile WordNet cu informații specifice domeniului: așa-numitele semnături de subiecte [13] și directoare Web [5] care au fost folosite cu succes pentru a rezolva ambiguitatea .
De asemenea, recent s-au efectuat cercetări pentru a explora posibilitatea utilizării Wikipedia pentru a rezolva ambiguitățile enumerate pe paginile cu sensul cuvântului ambiguu [14] [15] .

Cu toate acestea, posibilitățile deschise și oferite de internet nu au fost încă explorate pe deplin. De exemplu, se știe puțin despre modul de utilizare a informațiilor lexicale obținute din sistemele de dezambiguizare bazate pe cunoștințe; și, de asemenea, nu este clar cum să obțineți corpuri paralele de pe Internet , deși există deja algoritmi eficienți pentru procesarea unor astfel de corpuri. Prin urmare, ar trebui să ne așteptăm la multe rezultate interesante în acest domeniu în viitorul apropiat.

Note

↑ Rada Mihalcea, Dan Moldovan. O metodă automată pentru generarea de corpuri etichetate prin sens.
^ Yarowsky , D. „Unsupervised Word Sense Disambiguating Rivaling Supervised Methods”. Lucrările celei de-a 33-a reuniuni anuale a Asociației pentru Lingvistică Computațională. Cambridge, M.A., pp. 189-196, 1995.
↑ Word Sense Disambiguation: Algorithms and Applications, editat de Eneko Agirre și Philip Edmonds (2006), Springer.
↑ Mihalcea, Rada. 2002. Bootstrapping corpuri mari etichetate cu sensul. Proceedings of Language Resources and Evaluation Conference (LREC), Las Palmas, Spania.
↑ 1 2 3 Santamaria, Celina, Julio Gonzalo & Felisa Verdejo. 2003. Asocierea automată a directoarelor Web cu sensurile cuvintelor. Computational Linguistics, 29(3): 485-502.
↑ Agirre, Eneko și David Martinez. 2004. WSD nesupravegheat bazat pe exemple preluate automat: importanța părtinirii. Proceedings of Conference on Empirical Methods in Natural Language Processing (EMNLP), Barcelona, Spania, 25-33.
↑ Mihalcea, Rada. 2002a. Dezambiguizarea sensului cuvântului cu învățarea modelului și selecția automată a caracteristicilor. Ingineria limbajului natural, 8(4): 348-358.
↑ 1 2 Agirre, Eneko & David Martinez. 2000. Explorarea dezambiguerii automate a sensului cuvintelor cu liste de decizii și Web. Proceedings of the COLING Workshop on Semantic Adnotation and Intelligent Annotation, Luxemburg, 11-19.
↑ 1 2 3 Agirre, Eneko & David Martinez. 2004. WSD nesupravegheat bazat pe exemple preluate automat: importanța părtinirii. Proceedings of Conference on Empirical Methods in Natural Language Processing (EMNLP), Barcelona, Spania, 25-33.
↑ 1 2 Mihalcea, Rada. 2002b. Bootstrapping corpuri mari etichetate cu sensul. Proceedings of Language Resources and Evaluation Conference (LREC), Las Palmas, Spania.
↑ Mihalcea, Rada & Dan Moldovan. 1999. O metodă automată pentru generarea de corpuri etichetate prin sens. Proceedings of the American Association for Artificial Intelligence (AAAI), Orlando, SUA, 461-466.
↑ Chklovski, Tim & Rada Mihalcea. 2002. Construirea unui corpus etichetat prin sens cu Open Mind Word Expert. Proceedings of the ACL SIGLEX Workshop on Word Sense Disambiguation: Recent Successes and Future Directions, Philadelphia, SUA, 116-122.
↑ Agirre, Eneko, Olatz Ansa, Eduard H. Hovy & David Martínez. 2000. Îmbogățirea ontologiilor foarte mari folosind WWW. Proceedings of the Ontology Learning Workshop, European Conference on Artificial Intelligence (ECAI), Berlin, Germania.
↑ Denis Turdakov, Pavel Velihov. Metrica de relație semantică pentru conceptele Wikipedia bazate pe analiza legăturilor și aplicarea acesteia la dezambiguizarea sensului cuvântului // SYRCoDIS.— 2008.
↑ Denis Turdakov. Eliminarea polisemiei lexicale a termenilor Wikipedia pe baza modelului Markov ascuns // XI Conferința științifică panrusă „Biblioteci digitale: metode și tehnologii avansate, colecții digitale” - 2009. head (rusă) Copie de arhivă din 5 iulie 2010 la Wayback Mașinărie