Metoda schelei

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită la 3 octombrie 2017; verificarea necesită 1 editare .

Algoritmul lui Lesk este un algoritm clasic de dezambiguare lexicală bazat pe cunoștințe propus de Michael Lesk în 1986 .

Descriere

Michael Lesk a încercat să rezolve în mod independent problema potrivirii unui cuvânt și a sensului său în engleză, folosind dicționare care pot fi citite de mașină . Ideea metodei a fost de a căuta sensul unui cuvânt în lista de definiții din dicționar, ținând cont de contextul în care este folosit acest cuvânt . Principalul criteriu de alegere a sensului a fost următoarea regulă: sensul inerent acestei definiții trebuia să coincidă parțial cu sensul sensurilor cuvintelor învecinate în context [1] .

Cum funcționează algoritmul

Separarea contextului pentru cuvântul în cauză - nu mai mult de 10 cuvinte cel mai apropiat în poziție .
Căutați toate definițiile din dicționar (orice altă sursă similară de cunoștințe) pentru cuvântul în cauză .
Căutați cuvinte din context în fiecare definiție găsită. Dacă orice cuvânt din context este prezent în definiție, atunci acestei definiții i se acordă un scor (procentul de corectitudine a definiției pentru acest context crește ).
Ca valoare cea mai probabilă, se alege cea pentru care o astfel de intersecție s-a dovedit a fi mai mare.

Un exemplu despre cum funcționează algoritmul

Ca exemplu, luați în considerare sarcina - să determinați sensul cuvântului " pisica " în textul " Au fost crescute noi rase de pisici în China ". Să presupunem că dicționarul oferă două definiții pentru cuvântul „ pisica ”:

" pisica " 1 - un animal domestic din rasa de pisici;
" Cat " 2 este un echipament de alpinism.

Algoritmul va arăta că cu definiția (1) acest text are un cuvânt comun - „ rase ”, dar cu definiția (2) niciunul. Prin urmare, algoritmul lui Lesk va alege valoarea " cat " 1 .

Metodă Note autorului

Lesk a considerat lanțuri de litere ale alfabetului englez drept cuvinte [1] .
La alegerea a 4, 6 și 8 cuvinte pentru context , rezultatele algoritmului nu diferă prea mult [1] .
Autorul în lucrarea sa a folosit dicționarul englez Oxford ca sursă de cunoștințe [1] .

Beneficiile algoritmului

Independenta algoritmului fata de sintaxa . Acest lucru permite algoritmului să fie utilizat ca un adjuvant la metodele bazate pe parsing [1] .
Independența algoritmului față de sensul lexical al cuvântului . Pe baza contextului , algoritmul poate potrivi cuvântul cu semnificațiile sale figurate [1] .

Dezavantajele algoritmului

Algoritmul Lesk nu folosește definiții deja găsite pentru a găsi semnificațiile cuvintelor noi. Algoritmul se uită la fiecare cuvânt separat, îi caută un sens, când află sensul corect al unui cuvânt , algoritmul a făcut același lucru cu cuvântul următor [1] .

Modificări ale algoritmului

Există un număr mare de lucrări care sugerează utilizarea unei modificări a algoritmului Lesk. Aceste studii se bazează pe ideea utilizării diferitelor vocabulare (tezaure, dicționare de sinonime etc.) sau modele (morfologice, sintactice etc.) împreună. Toate aceste lucrări sunt axate pe prelucrarea diverselor texte nedicționare și niciunul dintre ele nu folosește dicționarul explicativ ca material de prelucrare. În plus, aproape întotdeauna procesul este limitat la un număr mic de experimente și nu se realizează prelucrarea unor matrice de date suficient de mari.

Îmbunătățirea metodei

Ca modalități posibile de a îmbunătăți algoritmul original Lesk, folosim informații suplimentare despre asemănarea cuvintelor și luăm în considerare importanța potrivirilor pentru cuvinte diferite.

Ca prim exemplu al metodei Lesk modificate, putem cita o variantă a algoritmului, unde un dicționar de sinonime, un model morfologic de formare a cuvintelor este folosit ca informații suplimentare și sunt implicate și interpretări ale cuvintelor incluse în interpretarea originală. .

Un punct important este că cuvântul care înseamnă algoritm de dezambiguizare este aplicat interpretărilor preluate din dicționar, ceea ce simplifică foarte mult sarcina în comparație cu aplicarea algoritmului la texte obișnuite, din următoarele motive:

toate cuvintele de interpretare sunt în mod evident legate de cuvântul principal, deoarece sunt incluse în definiția acestuia;
prin urmare, nu se pune problema alegerii dimensiunii ferestrei de context în care vor fi luate în considerare cuvintele, ci se folosește întreaga definiție;
dezambiguizarea unei părți de vorbire (care este de obicei primul pas în astfel de algoritmi) este simplificată deoarece interpretările sunt structurate și, prin urmare , părțile de vorbire din anumite locuri sunt previzibile; în plus, informații despre clasa gramaticală a cuvântului principal ajută.

Ca un al doilea exemplu al metodei Lesk modificate, putem da o variantă a algoritmului bazată pe două ipoteze. Prima ipoteză este că cuvintele care apar într-o propoziție pot fi dezambiguate atribuindu-le un sens care este cel mai apropiat de cuvintele învecinate. Acest lucru decurge din noțiunea intuitivă că cuvintele care apar împreună în aceeași propoziție sunt în mod necesar legate într-un fel, deoarece, fiind de acord unul cu celălalt, transmit un anumit sens. A doua ipoteză este că semnificațiile înrudite pot fi identificate prin găsirea cuvintelor în definițiile lor care apar în interpretările ambelor cuvinte. Această ipoteză poate fi justificată și cu ajutorul unei noțiuni intuitive, și anume că cuvintele care sunt legate în sens pot fi definite cu aceiași termeni și se pot referi, de asemenea, între ele în definițiile lor.

Ca exemplu, luați în considerare două semnificații ale cuvântului " caleidoscop ":

un dispozitiv optic - un tub cu plăci de oglindă și ochelari colorați, care, atunci când sunt întors, se pliază în diferite modele;
schimbarea rapidă a diferitelor fenomene.

Și textul „Frumoasele modele de culoare ale caleidoscopului fascinează atât adulții, cât și copiii”. Cu prima definiție, acest text are două cuvinte în comun, iar cu al doilea - niciunul. Prin urmare, algoritmul lui Lesk va alege prima valoare.

Critica algoritmului și a altor metode similare

Din păcate, abordarea lui Lesk este foarte sensibilă la formularea exactă a definițiilor, așa că lipsa unui anumit cuvânt poate schimba drastic rezultatele. Un alt dezavantaj este că algoritmul detectează suprapuneri doar între interpretările semnificațiilor care sunt luate în considerare. Aceasta este o limitare semnificativă, deoarece definițiile dicționarului tind să fie destul de scurte și nu oferă suficient vocabular pentru a arăta diferența dintre definițiile care au sens similar.

Recent, au apărut un număr mare de lucrări care sugerează utilizarea unor modificări ale algoritmului Lesk. În aceste lucrări sunt prezentate idei legate de utilizarea suplimentară a diverselor dicționare ( tezauri , dicționare de sinonime ) sau modele ( morfologice , sintactice etc.), vezi, de exemplu [2] :

În ceea ce privește algoritmul Lesk, există multe studii și extensii:

Kwong, 2001 [3] ;
Nastase si Szpakowicz, 2001 [4] ;
Wilks și Stevenson, 1998, 1999 [5] [6] ;
Mahesh şi colab. (Mahesh), 1997;
Cowie şi colab., (Cowie), 1992 [7] ;
Yarowsky , 1992 [8] ;
Pook și Catlett, 1988 [9] ;
Kilgarriff & Rosenzweig, 2000 [10] ;
Alexander Gelbukh, Grigori Sidorov, 2004 [11] .

Precizia metodei

Experimente relativ mari pentru a testa această metodă nu au fost efectuate, cu excepția corpusului cărții „ Mândrie și prejudecăți ” și a ziarului Associated Press . Rezultatul a variat de la 50% la 70%.

Note

↑ 1 2 3 4 5 6 7 Lesk, Michael, 1986 .
↑ Trebuie remarcat faptul că toate aceste lucrări[ ce? ] , cu excepția (Nastase și Szpakowicz, 2001), sunt axate pe prelucrarea textelor obișnuite, nu a dicționarelor și niciunul dintre ele nu utilizează dicționarul explicativ ca material pentru prelucrare . În plus, problema este aproape întotdeauna limitată la experimente destul de mici și nu se realizează procesarea unor matrice de date suficient de mari.
↑ Kwong, 2001 .
↑ Năstase & Szpakowicz, 2001 .
↑ Wilks & Stevenson, 1998 .
↑ Wilks & Stevenson2, 1999 .
↑ Cowie și colab., 1992 .
↑ Yarowsky, 1992 .
↑ Pook & Catlett, 1988 .
↑ Rosenzweig & Kilgarriff, 2000 .
↑ Gelbukh și Sidorov, 2004 .

Literatură

Lesk, Michael. Dezambiguizare automată a sensului utilizând dicționare care pot fi citite de mașină: Cum să distingeți un cornet de pin de un cornet de înghețată // Proceedings of the 5th Annual International Conference on Systems Documentation. - 1986. - S. 24-26 .
Agirre, E. și Edmonds, PG Dezambiguarea sensului cuvântului: algoritmi și aplicații. - Springer, 2007. - ISBN 9781402048098 .

Gelbukh A.F., Sidorov G.O. Metoda de rezolvare automată a ambiguității semnificațiilor cuvintelor în interpretările dicționarului // Informații științifice și tehnice (NTI), seria 2, Procese și sisteme informaționale: jurnal. - M. : VINITI RAN, 2004. - Nr 3 . - S. 10-15 . — ISSN 0548-0027 .

Kwong OI formând o resursă lexicală integrată pentru dezambiguizarea sensului cuvintelor . — 2001.

Nastase V. și Szpakowicz S. Unifying Semantic Relations Across Syntactic Levels . - Ottawa, Canada: Școala de Tehnologia Informației și Inginerie Universitatea din Ottawa, 2001.

Wilks, Y., Stevenson M. Dezambiguizarea sensului cuvântului folosind combinații optimizate de surse de cunoștințe (engleză) // Proceedings of ACL 36/Coling 17, Volume 2. - 1998. - P. 1398-1402 .

Wilks, Y., Stevenson M. Combinând surse slabe de cunoștințe pentru dezambiguarea sensului (engleză) // Proceedings of IJCAI-99. - 1999. - P. 884-889 .

Cowie J., Guthrie L., Guthrie G. Lexical dezambiguation using simulated annealing // COLING '92 Proceedings of the 14th conference on Computational linguistics - Volume 1. - 1992. - P. 359-365 .

Yarowksy D. Dezambiguizarea cuvânt-sens folosind modele statistice ale categoriilor lui Roget antrenate pe corpuri mari // Proceeding Coling'92 Proceedings of the 14th conference on Computational linguistics, Volume 2. - Nante, France, 1992. - P. 454 -460 .

Pook SL, Catlett J. Căutând sens . - Sydney, 1988.

Kilgarriff A., Rosenzweig J. Framework and Results for English SENSEVAL // Computers and the Humanities : journal. - Kluwer Academic Publishers, 2000. - Nr. 34 . - P. 15-48 . — ISSN 1572-8412 .