Metoda schelei

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită la 3 octombrie 2017; verificarea necesită 1 editare .

Algoritmul lui Lesk  este un algoritm clasic de dezambiguare lexicală bazat pe cunoștințe propus de Michael Lesk în 1986 .

Descriere

Michael Lesk a încercat să rezolve în mod independent problema potrivirii unui cuvânt și a sensului său în engleză, folosind dicționare care pot fi citite de mașină . Ideea metodei a fost de a căuta sensul unui cuvânt în lista de definiții din dicționar, ținând cont de contextul în care este folosit acest cuvânt . Principalul criteriu de alegere a sensului a fost următoarea regulă: sensul inerent acestei definiții trebuia să coincidă parțial cu sensul sensurilor cuvintelor învecinate în context [1] .

Cum funcționează algoritmul

  1. Separarea contextului pentru cuvântul în cauză - nu mai mult de 10 cuvinte  cel mai apropiat în poziție .
  2. Căutați toate definițiile din dicționar (orice altă sursă similară de cunoștințe) pentru cuvântul în cauză .
  3. Căutați cuvinte din context în fiecare definiție găsită. Dacă orice cuvânt din context este prezent în definiție, atunci acestei definiții i se acordă un scor (procentul de corectitudine a definiției pentru acest context crește ).
  4. Ca valoare cea mai probabilă, se alege cea pentru care o astfel de intersecție s-a dovedit a fi mai mare.

Un exemplu despre cum funcționează algoritmul

Ca exemplu, luați în considerare sarcina - să determinați sensul cuvântului " pisica " în textul " Au fost crescute noi rase de pisici în China ". Să presupunem că dicționarul oferă două definiții pentru cuvântul „ pisica ”:

  1. " pisica " 1  - un animal domestic din rasa de pisici;
  2. " Cat " 2  este un echipament de alpinism.

Algoritmul va arăta că cu definiția (1) acest text are un cuvânt comun  - „ rase ”, dar cu definiția (2) niciunul. Prin urmare, algoritmul lui Lesk va alege valoarea " cat " 1 .

Metodă Note autorului

Beneficiile algoritmului

Dezavantajele algoritmului

Algoritmul Lesk nu folosește definiții deja găsite pentru a găsi semnificațiile cuvintelor noi. Algoritmul se uită la fiecare cuvânt separat, îi caută un sens, când află sensul corect al unui cuvânt , algoritmul a făcut același lucru cu cuvântul următor [1] .

Modificări ale algoritmului

Există un număr mare de lucrări care sugerează utilizarea unei modificări a algoritmului Lesk. Aceste studii se bazează pe ideea utilizării diferitelor vocabulare (tezaure, dicționare de sinonime etc.) sau modele (morfologice, sintactice etc.) împreună. Toate aceste lucrări sunt axate pe prelucrarea diverselor texte nedicționare și niciunul dintre ele nu folosește dicționarul explicativ ca material de prelucrare. În plus, aproape întotdeauna procesul este limitat la un număr mic de experimente și nu se realizează prelucrarea unor matrice de date suficient de mari.

Îmbunătățirea metodei

Ca modalități posibile de a îmbunătăți algoritmul original Lesk, folosim informații suplimentare despre asemănarea cuvintelor și luăm în considerare importanța potrivirilor pentru cuvinte diferite.

Ca prim exemplu al metodei Lesk modificate, putem cita o variantă a algoritmului, unde un dicționar de sinonime, un model morfologic de formare a cuvintelor este folosit ca informații suplimentare și sunt implicate și interpretări ale cuvintelor incluse în interpretarea originală. .

Un punct important este că cuvântul care înseamnă algoritm de dezambiguizare este aplicat interpretărilor preluate din dicționar, ceea ce simplifică foarte mult sarcina în comparație cu aplicarea algoritmului la texte obișnuite, din următoarele motive:

Ca un al doilea exemplu al metodei Lesk modificate, putem da o variantă a algoritmului bazată pe două ipoteze. Prima ipoteză este că cuvintele care apar într-o propoziție pot fi dezambiguate atribuindu-le un sens care este cel mai apropiat de cuvintele învecinate. Acest lucru decurge din noțiunea intuitivă că cuvintele care apar împreună în aceeași propoziție sunt în mod necesar legate într-un fel, deoarece, fiind de acord unul cu celălalt, transmit un anumit sens. A doua ipoteză este că semnificațiile înrudite pot fi identificate prin găsirea cuvintelor în definițiile lor care apar în interpretările ambelor cuvinte. Această ipoteză poate fi justificată și cu ajutorul unei noțiuni intuitive, și anume că cuvintele care sunt legate în sens pot fi definite cu aceiași termeni și se pot referi, de asemenea, între ele în definițiile lor.

Ca exemplu, luați în considerare două semnificații ale cuvântului " caleidoscop ":

  1. un dispozitiv optic - un tub cu plăci de oglindă și ochelari colorați, care, atunci când sunt întors, se pliază în diferite modele;
  2. schimbarea rapidă a diferitelor fenomene.

Și textul „Frumoasele modele de culoare ale caleidoscopului fascinează atât adulții, cât și copiii”. Cu prima definiție, acest text are două cuvinte în comun, iar cu al doilea - niciunul. Prin urmare, algoritmul lui Lesk va alege prima valoare.

Critica algoritmului și a altor metode similare

Din păcate, abordarea lui Lesk este foarte sensibilă la formularea exactă a definițiilor, așa că lipsa unui anumit cuvânt poate schimba drastic rezultatele. Un alt dezavantaj este că algoritmul detectează suprapuneri doar între interpretările semnificațiilor care sunt luate în considerare. Aceasta este o limitare semnificativă, deoarece definițiile dicționarului tind să fie destul de scurte și nu oferă suficient vocabular pentru a arăta diferența dintre definițiile care au sens similar.

Recent, au apărut un număr mare de lucrări care sugerează utilizarea unor modificări ale algoritmului Lesk. În aceste lucrări sunt prezentate idei legate de utilizarea suplimentară a diverselor dicționare ( tezauri , dicționare de sinonime ) sau modele ( morfologice , sintactice etc.), vezi, de exemplu [2] :

În ceea ce privește algoritmul Lesk, există multe studii și extensii:

Precizia metodei

Experimente relativ mari pentru a testa această metodă nu au fost efectuate, cu excepția corpusului cărții „ Mândrie și prejudecăți ” și a ziarului Associated Press . Rezultatul a variat de la 50% la 70%.

Note

  1. 1 2 3 4 5 6 7 Lesk, Michael, 1986 .
  2. Trebuie remarcat faptul că toate aceste lucrări[ ce? ] , cu excepția (Nastase și Szpakowicz, 2001), sunt axate pe prelucrarea textelor obișnuite, nu a dicționarelor și niciunul dintre ele nu utilizează dicționarul explicativ ca material pentru prelucrare . În plus, problema este aproape întotdeauna limitată la experimente destul de mici și nu se realizează procesarea unor matrice de date suficient de mari.
  3. Kwong, 2001 .
  4. Năstase & Szpakowicz, 2001 .
  5. Wilks & Stevenson, 1998 .
  6. Wilks & Stevenson2, 1999 .
  7. Cowie și colab., 1992 .
  8. Yarowsky, 1992 .
  9. Pook & Catlett, 1988 .
  10. Rosenzweig & Kilgarriff, 2000 .
  11. Gelbukh și Sidorov, 2004 .

Literatură