Primirea automată a corpusului marcat

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită pe 9 august 2019; verificările necesită 4 modificări .

Dacă metodele de învățare nesupravegheată se bazează pe un corpus neadnotat (neetichetat) în problema de dezambiguizare , atunci învățarea supravegheată depinde în mod fundamental de un corpus de testare etichetat. Problema obținerii unor cunoștințe suficiente este unul dintre cele mai importante obstacole în implementarea algoritmilor de învățare extrem de eficienți . Cu toate acestea, dacă algoritmul este implementat nu de evenimente atât de mari în ceea ce privește resursele precum Senseval, ci de unul mai mic, atunci în astfel de cazuri nu este posibil să se obțină un corpus adnotat de înaltă calitate din cauza costurilor uriașe ale forței de muncă care sunt necesare. pentru a efectua acest proces manual. Prin urmare, cercetătorii care aveau nevoie de astfel de corpuri s-au confruntat cu sarcina de a obține automat corpuri etichetate.

Ieșirea este să găsim automat astfel de contexte în care cuvântul polisemantic dorit cu 100% probabilitate să ia valoarea de care avem nevoie. Și astfel de metode au fost inventate; există mai multe moduri care sunt fundamental diferite unele de altele.

Soluții existente

Una dintre soluții este un algoritm dezvoltat de Rada Michelsia [1] și bazat pe obținerea de contexte din motoarele de căutare (cum ar fi Google sau Yandex) folosind cunoștințele disponibile în tezaur. Întregul proces de obținere a unui corpus constă din trei etape: preprocesare, căutare și postprocesare.

  1. Preprocesare. Pentru fiecare cuvânt w și valoarea sa #i se iau sinonimele lor cu o singură valoare, precum și cuvintele obținute în urma procesării glosei (interpretare dicționar, explicații gramaticale, exemple de utilizare a cuvântului în diverse contexte etc.)
  2. Căutare. Apoi, în etapa de căutare, se formează interogări de căutare care ajută la găsirea exactă a acelei contexte în care cuvântul dat este prezent în sensul de care avem nevoie.
  3. Post procesare. După aceea, contextele primite sunt procesate, cele proaste sunt filtrate etc.

Eficiența metodei face posibilă obținerea unui număr mare de contexte, dintre care aproximativ 91% sunt corecte, ceea ce este un rezultat destul de ridicat, suficient pentru învățarea automată. De asemenea, această metodă are succesori și predecesori (de exemplu, algoritmul Leacock și Chodorow), dar nu toți au fost comparați cu ea din punct de vedere al eficienței.

A doua metodă, inventată de Jarowski [2] și numită adesea bootstrapping, propune, pornind de la un număr mic de exemple definite manual (așa-numitele exemple de semințe), extinderea automată și iterativă a claselor, împărțind contextele rămase în text simplu. în clase, obținând astfel un eșantion de pregătire. În același timp, lucruri precum „un simț per alocație” și „un simț pe discurs” sunt luate ca o axiomă. Totuși, această metodă este și mai puțin precisă decât metoda Mihalcea, deoarece în acest caz nu se obțin contexte lipsite de ambiguitate .

De asemenea, există încă 3 metode [3] care sunt practic inaplicabile limbii ruse:

Rezultat

Rezultate

Obținerea automată a exemplelor pentru formarea clasificatoarelor (învățare supravegheată) s-a dovedit a fi cea mai bună abordare de mining pe internet pentru rezolvarea dezambiguerii lexicale . Iată câteva rezultate încurajatoare:

Probleme

Cu toate acestea, există și anumite probleme și dificultăți legate direct de obținerea unui astfel de caz:

Viitorul regiunii

Pe lângă tehnicile de mai sus pentru obținerea unui corpus de pe web, s-au făcut și alte experimente folosind internetul:

Cu toate acestea, posibilitățile deschise și oferite de internet nu au fost încă explorate pe deplin. De exemplu, se știe puțin despre modul de utilizare a informațiilor lexicale obținute din sistemele de dezambiguizare bazate pe cunoștințe; și, de asemenea, nu este clar cum să obțineți corpuri paralele de pe Internet , deși există deja algoritmi eficienți pentru procesarea unor astfel de corpuri. Prin urmare, ar trebui să ne așteptăm la multe rezultate interesante în acest domeniu în viitorul apropiat.

Note

  1. Rada Mihalcea, Dan Moldovan. O metodă automată pentru generarea de corpuri etichetate prin sens.
  2. ^ Yarowsky , D. „Unsupervised Word Sense Disambiguating Rivaling Supervised Methods”. Lucrările celei de-a 33-a reuniuni anuale a Asociației pentru Lingvistică Computațională. Cambridge, M.A., pp. 189-196, 1995.
  3. Word Sense Disambiguation: Algorithms and Applications, editat de Eneko Agirre și Philip Edmonds (2006), Springer.
  4. Mihalcea, Rada. 2002. Bootstrapping corpuri mari etichetate cu sensul. Proceedings of Language Resources and Evaluation Conference (LREC), Las Palmas, Spania.
  5. 1 2 3 Santamaria, Celina, Julio Gonzalo & Felisa Verdejo. 2003. Asocierea automată a directoarelor Web cu sensurile cuvintelor. Computational Linguistics, 29(3): 485-502.
  6. Agirre, Eneko și David Martinez. 2004. WSD nesupravegheat bazat pe exemple preluate automat: importanța părtinirii. Proceedings of Conference on Empirical Methods in Natural Language Processing (EMNLP), Barcelona, ​​​​Spania, 25-33.
  7. Mihalcea, Rada. 2002a. Dezambiguizarea sensului cuvântului cu învățarea modelului și selecția automată a caracteristicilor. Ingineria limbajului natural, 8(4): 348-358.
  8. 1 2 Agirre, Eneko & David Martinez. 2000. Explorarea dezambiguerii automate a sensului cuvintelor cu liste de decizii și Web. Proceedings of the COLING Workshop on Semantic Adnotation and Intelligent Annotation, Luxemburg, 11-19.
  9. 1 2 3 Agirre, Eneko & David Martinez. 2004. WSD nesupravegheat bazat pe exemple preluate automat: importanța părtinirii. Proceedings of Conference on Empirical Methods in Natural Language Processing (EMNLP), Barcelona, ​​​​Spania, 25-33.
  10. 1 2 Mihalcea, Rada. 2002b. Bootstrapping corpuri mari etichetate cu sensul. Proceedings of Language Resources and Evaluation Conference (LREC), Las Palmas, Spania.
  11. Mihalcea, Rada & Dan Moldovan. 1999. O metodă automată pentru generarea de corpuri etichetate prin sens. Proceedings of the American Association for Artificial Intelligence (AAAI), Orlando, SUA, 461-466.
  12. Chklovski, Tim & Rada Mihalcea. 2002. Construirea unui corpus etichetat prin sens cu Open Mind Word Expert. Proceedings of the ACL SIGLEX Workshop on Word Sense Disambiguation: Recent Successes and Future Directions, Philadelphia, SUA, 116-122.
  13. Agirre, Eneko, Olatz Ansa, Eduard H. Hovy & David Martínez. 2000. Îmbogățirea ontologiilor foarte mari folosind WWW. Proceedings of the Ontology Learning Workshop, European Conference on Artificial Intelligence (ECAI), Berlin, Germania.
  14. Denis Turdakov, Pavel Velihov. Metrica de relație semantică pentru conceptele Wikipedia bazate pe analiza legăturilor și aplicarea acesteia la dezambiguizarea sensului cuvântului // SYRCoDIS.— 2008.
  15. Denis Turdakov. Eliminarea polisemiei lexicale a termenilor Wikipedia pe baza modelului Markov ascuns // XI Conferința științifică panrusă „Biblioteci digitale: metode și tehnologii avansate, colecții digitale” - 2009. head (rusă) Copie de arhivă din 5 iulie 2010 la Wayback Mașinărie