Algoritmul lui Lesk este un algoritm clasic de dezambiguare lexicală bazat pe cunoștințe propus de Michael Lesk în 1986 .
Michael Lesk a încercat să rezolve în mod independent problema potrivirii unui cuvânt și a sensului său în engleză, folosind dicționare care pot fi citite de mașină . Ideea metodei a fost de a căuta sensul unui cuvânt în lista de definiții din dicționar, ținând cont de contextul în care este folosit acest cuvânt . Principalul criteriu de alegere a sensului a fost următoarea regulă: sensul inerent acestei definiții trebuia să coincidă parțial cu sensul sensurilor cuvintelor învecinate în context [1] .
Ca exemplu, luați în considerare sarcina - să determinați sensul cuvântului " pisica " în textul " Au fost crescute noi rase de pisici în China ". Să presupunem că dicționarul oferă două definiții pentru cuvântul „ pisica ”:
Algoritmul va arăta că cu definiția (1) acest text are un cuvânt comun - „ rase ”, dar cu definiția (2) niciunul. Prin urmare, algoritmul lui Lesk va alege valoarea " cat " 1 .
Algoritmul Lesk nu folosește definiții deja găsite pentru a găsi semnificațiile cuvintelor noi. Algoritmul se uită la fiecare cuvânt separat, îi caută un sens, când află sensul corect al unui cuvânt , algoritmul a făcut același lucru cu cuvântul următor [1] .
Există un număr mare de lucrări care sugerează utilizarea unei modificări a algoritmului Lesk. Aceste studii se bazează pe ideea utilizării diferitelor vocabulare (tezaure, dicționare de sinonime etc.) sau modele (morfologice, sintactice etc.) împreună. Toate aceste lucrări sunt axate pe prelucrarea diverselor texte nedicționare și niciunul dintre ele nu folosește dicționarul explicativ ca material de prelucrare. În plus, aproape întotdeauna procesul este limitat la un număr mic de experimente și nu se realizează prelucrarea unor matrice de date suficient de mari.
Ca modalități posibile de a îmbunătăți algoritmul original Lesk, folosim informații suplimentare despre asemănarea cuvintelor și luăm în considerare importanța potrivirilor pentru cuvinte diferite.
Ca prim exemplu al metodei Lesk modificate, putem cita o variantă a algoritmului, unde un dicționar de sinonime, un model morfologic de formare a cuvintelor este folosit ca informații suplimentare și sunt implicate și interpretări ale cuvintelor incluse în interpretarea originală. .
Un punct important este că cuvântul care înseamnă algoritm de dezambiguizare este aplicat interpretărilor preluate din dicționar, ceea ce simplifică foarte mult sarcina în comparație cu aplicarea algoritmului la texte obișnuite, din următoarele motive:
Ca un al doilea exemplu al metodei Lesk modificate, putem da o variantă a algoritmului bazată pe două ipoteze. Prima ipoteză este că cuvintele care apar într-o propoziție pot fi dezambiguate atribuindu-le un sens care este cel mai apropiat de cuvintele învecinate. Acest lucru decurge din noțiunea intuitivă că cuvintele care apar împreună în aceeași propoziție sunt în mod necesar legate într-un fel, deoarece, fiind de acord unul cu celălalt, transmit un anumit sens. A doua ipoteză este că semnificațiile înrudite pot fi identificate prin găsirea cuvintelor în definițiile lor care apar în interpretările ambelor cuvinte. Această ipoteză poate fi justificată și cu ajutorul unei noțiuni intuitive, și anume că cuvintele care sunt legate în sens pot fi definite cu aceiași termeni și se pot referi, de asemenea, între ele în definițiile lor.
Ca exemplu, luați în considerare două semnificații ale cuvântului " caleidoscop ":
Și textul „Frumoasele modele de culoare ale caleidoscopului fascinează atât adulții, cât și copiii”. Cu prima definiție, acest text are două cuvinte în comun, iar cu al doilea - niciunul. Prin urmare, algoritmul lui Lesk va alege prima valoare.
Din păcate, abordarea lui Lesk este foarte sensibilă la formularea exactă a definițiilor, așa că lipsa unui anumit cuvânt poate schimba drastic rezultatele. Un alt dezavantaj este că algoritmul detectează suprapuneri doar între interpretările semnificațiilor care sunt luate în considerare. Aceasta este o limitare semnificativă, deoarece definițiile dicționarului tind să fie destul de scurte și nu oferă suficient vocabular pentru a arăta diferența dintre definițiile care au sens similar.
Recent, au apărut un număr mare de lucrări care sugerează utilizarea unor modificări ale algoritmului Lesk. În aceste lucrări sunt prezentate idei legate de utilizarea suplimentară a diverselor dicționare ( tezauri , dicționare de sinonime ) sau modele ( morfologice , sintactice etc.), vezi, de exemplu [2] :
În ceea ce privește algoritmul Lesk, există multe studii și extensii:
Experimente relativ mari pentru a testa această metodă nu au fost efectuate, cu excepția corpusului cărții „ Mândrie și prejudecăți ” și a ziarului Associated Press . Rezultatul a variat de la 50% la 70%.