Rezolvarea polisemiei lexicale

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită la 3 aprilie 2021; verificările necesită 12 modificări .

Dezambiguizarea sensului cuvântului ( WSD ) este o  problemă nerezolvată de procesare a limbajului natural , care constă în sarcina de a alege sensul (sau sensul) unui cuvânt sau frază ambiguă în funcție de contextul în care se află. Această problemă apare în analiza discursivă , la optimizarea relevanței rezultatelor de către motoarele de căutare, la rezolvarea referințelor anaforice , la studierea coerenței lingvistice a unui text, la analiza inferențelor .

Cercetările științifice privind rezoluția polisemiei lexicale sunt de mult timp în domeniul lingvisticii aplicate și computaționale și au o istorie îndelungată. De-a lungul anilor, numărul de soluții propuse și eficacitatea acestora a crescut constant până când eficacitatea a atins un anumit nivel de precizie comparativ eficientă pentru o anumită gamă de cuvinte și tipuri de polisemie . Problema nu a primit încă o soluție completă, deoarece multe probleme legate direct de trăsăturile lingvistice ale vorbirii umane stau în calea unei soluții de succes.

Au fost explorate un număr mare de metode, variind de la metode bazate pe cunoștințe, reguli, surse lexicografice, învățarea supravegheată pe un corpus de texte, până la metodele de învățare nesupravegheată care grupează cuvintele în funcție de sens. Dintre acestea, până în prezent, metodele de învățare supravegheată au demonstrat cea mai bună eficacitate. Cu toate acestea, compararea obiectivă și evaluarea metodelor este un proces complex care depinde de mulți factori. Pentru sistemele de vocabular generalizat (pentru engleză), eficiența depășește în mod regulat pragul de 90%, ajungând uneori chiar și la 96%. Pentru sistemele de vocabular mai diferențiate, eficiența este în intervalul 59% -69%.

Despre procesul de dezambiguizare

În general, ambiguitatea (sau ambiguitatea) unei expresii lingvistice sau a unei lucrări de vorbire (text) este înțeleasă ca prezența mai multor sensuri diferite în același timp [1] . Oamenii de știință împărtășesc mai multe tipuri de astfel de ambiguități: lexicale, sintactice și de vorbire, dar termenul „WSD” include rezoluția celor lexicale (semantice).

Ceea ce vorbim poate fi înțeles din următorul exemplu cu cuvântul ambiguu „cheie”:

  1. cheie ca instrument de deschidere
  2. cheie ca sursă de apă

precum și 3 contexte:

  1. A venit cheia, ușa s-a deschis
  2. M-am îmbătat de la cheie
  3. Viața abundă

Este evident pentru o persoană că în prima propoziție cuvântul „ cheie ” este folosit în primul sens, în a doua propoziție - respectiv în al doilea sens, iar în a treia - sunt posibile variante. Dezvoltarea algoritmilor care imită această abilitate umană poate fi uneori o sarcină descurajantă.

Procesul de rezolvare necesită mai multe lucruri: sisteme de cunoștințe de vocabular pentru a defini mai multe semnificații ale cuvintelor și un corpus de texte de rezolvat ( alte surse de cunoștințe pot fi necesare în unele cazuri ).

Scurt istoric al zonei

Această problemă a fost formulată pentru prima dată ca o problemă separată în anii 1940, în primele zile ale traducerii automate, făcând-o una dintre cele mai vechi probleme din lingvistica computațională. Warren Weaver , în celebrul său „ The  'Translation' memorandum” (1949) [2] , a prezentat problema sub aspectul calculatorului. Cercetătorii din acea vreme erau bine conștienți de semnificația și complexitatea acesteia, în special, Joshua Bar-Hillel (unul dintre pionierii) în 1960 și-a exprimat îndoiala că sarcina de traducere automată universală complet automată va fi vreodată fezabilă datorită necesității de a modela toate cunoștințele umane despre lume [3 ] .

În anii '70, problema WSD a devenit parte a sistemelor de interpretare semantică dezvoltate în domeniul AI , cu toate acestea, acestea constau în mare parte din reguli derivate manual și, prin urmare, depindeau complet de cantitatea de cunoștințe disponibile, care la acea vreme era extrem de laborioasă. a extrage.

Până în anii 1980, resurse atât de voluminoase precum Oxford Advanced Learner's Dictionary of Current English au devenit disponibile, iar scrierea manuală a regulilor a fost înlocuită prin extragerea automată a cunoștințelor din astfel de surse, dar metodele încă nu au părăsit clasa așa-numitei „cunoștințe- metode bazate" .

Cu toate acestea, în anii 90, „revoluția statistică” a schimbat complet abordările și metodele din lingvistica computațională, iar problema rezolvării polisemiei lexicale a devenit o problemă căreia îi sunt aplicabile tot felul de metode de învățare supervizată [4] .

Anii 2000 au arătat că metodele de învățare supervizată au atins un anumit nivel de acuratețe și nu îl pot depăși, astfel încât atenția oamenilor de știință s-a îndreptat către lucrul cu sisteme mai generalizate de cunoaștere a vocabularului (simțuri grosiere), adaptarea la domenii (adaptarea domeniilor) , învățarea parțială supravegheată (sisteme semi-supravegheate) și învățarea nesupravegheată (sisteme bazate pe corpus nesupravegheat), metode mixte, precum și procesarea bazelor de cunoștințe și afișarea rezultatelor sub formă de grafice (revenirea sistemelor bazate pe cunoștințe prin intermediul graficelor). metode). Cu toate acestea, până astăzi, sistemele de învățare supravegheată sunt considerate cele mai eficiente.

Probleme și dificultăți

Cu toate acestea, de ce o astfel de sarcină provoacă atât de multe dificultăți, iar rezultatele soluțiilor sale demonstrează o eficiență relativ scăzută? În procesul de lucru asupra problemei rezolvării polisemiei lexicale, au fost descoperite un număr mare de dificultăți, cel mai adesea din cauza proprietăților psihologiei și vorbirii umane.

Compilare de dicționare

În primul rând, toate dicționarele sunt diferite și nu echivalente între ele. Cel mai adesea, sarcina de a distinge semnificațiile unui cuvânt unul de celălalt nu provoacă dificultăți, cu toate acestea, în unele cazuri, semnificațiile diferite ale unui cuvânt pot fi foarte apropiate una de alta din punct de vedere semantic (de exemplu, dacă fiecare dintre ele este o metaforă sau metonimie unul pentru celălalt), iar în astfel de situații, împărțirea în sensuri în diferite dicționare și tezaure poate varia semnificativ. Soluția la această dificultate poate fi utilizarea universală a aceleiași surse de date: un dicționar universal. La nivel global, rezultatele studiilor care folosesc un sistem de divizare semantică mai generalizat sunt mai eficiente [5] [6] , așa că unii cercetători pur și simplu ignoră procesarea dicționarelor și tezaurilor cu o diviziune semantică mai detaliată în munca lor.

Definiția unei părți a discursului

În al doilea rând, în unele limbi, marcarea unei părți a cuvântului poate fi foarte strâns legată de problema dezambiguirii, astfel încât aceste două probleme pot interfera una cu cealaltă. Oamenii de știință nu au ajuns la un consens dacă merită să le împarți în două componente autonome, dar avantajul este de partea celor care cred că acest lucru este necesar [7] .

Factorul uman și consistența rezultatelor manuale

A treia dificultate constă în factorul uman . Sistemele de dezambiguizare au fost întotdeauna evaluate prin compararea rezultatelor cu munca umană. Și pentru oameni, această sarcină s-ar putea să nu fie la fel de simplă ca etichetarea POS  - este de câteva ori mai dificil să marcați semnificațiile dintre mai multe dintre cele propuse [8] . Dacă o persoană poate ține minte sau poate ghici cu ușurință părțile de vorbire care poate fi un cuvânt, atunci nu este posibil să-și amintească toate semnificațiile posibile ale cuvintelor. Mai mult, după cum sa dovedit, rezultatele diferiților oameni nu coincid întotdeauna [9] și adesea nu ajung la o decizie comună cu privire la sensul în care un anumit cuvânt este folosit într-un anumit context. În ciuda acestui fapt, oamenii de știință iau rezultatul unei persoane ca standard, un etalon pentru compararea cu rezultatele unui computer. De remarcat că o persoană se descurcă mult mai bine cu sistemele generalizate de dicționare decât cu cele detaliate – și de aceea atenția cercetătorilor s-a îndreptat către acestea [5] [6] .

Bunul simț

Unii cercetători susțin [10] că atunci când procesează texte, bunul simț este, de asemenea, important , ceea ce este greu de predat de un computer. Următoarele două propoziții sunt exemple:

Prima propoziție implică faptul că Jill și Mary sunt surorile celeilalte; în al doilea, că atât Jill, cât și Mary sunt ambele mame și nu este un fapt că sunt rude. Prin urmare, pentru o analiză mai precisă a semnificațiilor, este necesar să existe astfel de cunoștințe despre lume și societate. Mai mult, aceste cunoștințe sunt uneori necesare și atunci când se rezolvă ambiguități sintactice și când se analizează anafora și catafora .

Dependența sarcinilor

În al cincilea rând, un set permanent de metode independent de sarcină (independent de sarcină) nu are sens, având în vedere că ambiguitatea cuvântului mouse (animal și dispozitiv computer), de exemplu, nu afectează rezultatul engleză-rusă și rusă- Traducerea în engleză (deoarece în ambele limbi ambele sensuri sunt întruchipate în același cuvânt), dar afectează puternic recuperarea informațiilor. Se poate da și exemplul opus: atunci când traducem cuvântul „râu” din engleză în franceză, trebuie să cunoaștem semnificația cuvântului („fleuve” este un râu care se varsă în mare, iar „rivière” este un râu care se varsă într-un alt râu). Ca rezultat, probleme diferite necesită algoritmi diferiți - așa că, dacă se dezvoltă un algoritm bun de dezambiguare lexicală, este imposibil să fii complet sigur că se va potrivi tuturor problemelor.

Diferențierea semnificațiilor cuvintelor

În al șaselea rând, oamenii de știință ridică problema posibilității unei reprezentări discrete a semnificațiilor unui cuvânt. Chiar și termenul „ sensul unui cuvânt ” în sine este destul de general și controversat. Majoritatea oamenilor sunt de acord atunci când lucrează cu sisteme de cunoștințe generalizate cu un nivel ridicat de omografie a cuvintelor, dar pe măsură ce nivelul scade și dicționarele devin mai detaliate, există un număr mare de discrepanțe. De exemplu, la conferința Senseval-2, care a folosit sisteme detaliate, adnotatorii umani au ajuns la un acord doar în 85% din timp [11] .

Semnificațiile cuvintelor sunt foarte flexibile, destul de schimbătoare și extrem de contextuale și uneori chiar dependente de contextual, deci nu sunt întotdeauna strict împărțite în mai multe subsensuri [12] . Lexicografii întâlnesc adesea subînțelesuri prea largi și suprapuse din punct de vedere semantic în texte, iar semnificațiile standard ale cuvintelor trebuie adesea corectate, extinse și restrânse în cele mai bizare și neașteptate moduri. De exemplu, în această situație „copiii aleargă la mamele lor”, cuvântul „copii” este folosit simultan în două sensuri: ei sunt atât copiii părinților lor, cât și doar copii. Sarcina unui lexicograf este să analizeze o cantitate imensă de texte și materiale și să descrie întreaga gamă posibilă de semnificații a unui cuvânt. Cu toate acestea, încă nu se știe dacă această abordare este aplicabilă în domeniul calculului și al lingvisticii computaționale, deoarece deciziile lexicografilor sunt luate în favoarea completitudinii semnificațiilor descrise, și nu a aplicabilității informațiilor obținute în prelucrarea textului.

Recent, a fost propusă o problemă numită substituție lexicală ca soluție la problema diferențierii semnificațiilor cuvintelor [13] . Sensul său este de a oferi un înlocuitor pentru cuvânt cu altul care păstrează sensul vechiului în acest context.  

Relevanța problemei, aplicații posibile

Este un fapt binecunoscut că rezultatele procesului depind nu numai de inovația și eficiența metodelor, ci și de diferitele setări/proprietăți ale sarcinii și de cerințele procesului de rezoluție (de exemplu, diferențierea a sensurilor cuvântului, caracteristicile evaluării rezultatelor, acoperirea dezambiguerii etc.). ). De asemenea, este important ca un număr mare de domenii NLP să poată beneficia de rezultatele WSD.

Găsirea informațiilor

În sistemele de regăsire a informațiilor - dacă, la căutarea unei interogări, pentru a exclude din luare în considerare acele documente în care oricare dintre cuvintele interogării este folosit într-un sens diferit de care utilizatorul este interesat în prezent, atunci relevanța rezultatelor interogării poate fi a crescut.

Primele lucrări care au explorat posibilitatea utilizării WSD în domeniul regăsirii informațiilor nu au arătat o creștere a preciziei căutării. Cu toate acestea, în 1994 Sanderson a constatat [14] că îmbunătățirile pot fi detectate doar dacă eficiența de dezambiguizare depășește 90%, a cărei validitate generală este dezbătută. Și în 1995, Schutze și Pedersen au arătat [15] , care a arătat că cu eficiența de mai sus se poate obține o îmbunătățire a căutării cu 4%. Totuși, Stokey a arătat că utilizarea WSD poate da, deși mică - o medie de 1,73%, rezultate chiar și cu o eficiență mai mică a WSD (62,1%) [16] .

Traducere automată

În sistemele de traducere automată , lipsa mecanismelor de încredere pentru recunoașterea sensului unui cuvânt reduce semnificativ calitatea traducerii, deoarece cuvântul nu este întotdeauna tradus fără ambiguitate într-o altă limbă. Și determinarea automată a traducerii corecte în funcție de context este o sarcină foarte dificilă. Dezambiguizarea lexicală a fost concepută de mult timp ca o provocare majoră pentru a obține o traducere automată aproape perfectă - aceste gânduri se bazează pe ideea că WSD nu poate să nu îmbunătățească sistemele de traducere în alegerea candidaților cu valoare potrivită pentru traducere. Această zonă nu a fost explorată atât de mult pe cât trebuie, din cauza bazelor de date tradiționale de vocabular predefinit mai puțin eficiente ( ing.  inventarul sensului ) care au devenit de mult tradiționale .

Extragerea informațiilor

În domenii specifice, problemele rezolvării conceptelor specifice acestora prezintă cel mai mare interes: de exemplu, în domeniul medical, definirea denumirilor medicamentelor în text poate fi utilă, în timp ce în bioinformatică este necesară soluționarea ambiguităților în denumirea acestora. gene și proteine ​​- acest proces a fost numit Extragerea Informației . Include sarcini precum recunoașterea entității numite ( de exemplu, recunoașterea entității numite ) ( NER  ), extinderea acronimului (de exemplu, Federația Rusă - Federația Rusă) și altele - toate acestea pot fi considerate ca o polisemie a sarcinii de rezoluție, deși aceasta este o direcție nouă și încă neexploatată cu adevărat.

Analiza de conținut

Analiza conținutului și identificarea părților principale ale textului în ceea ce privește ideile, temele și altele asemenea poate beneficia foarte mult de WSD. De exemplu, clasificarea textelor (blogurilor), atribuirea etichetelor articolelor sau postărilor pe blog , sau determinarea unor legături relevante (poate semantic) între acestea sau analiza (semantică) a rețelelor sociale , care a devenit din ce în ce mai mult activ în ultima vreme. Această zonă este cea mai nouă, necunoscută dintre toate cele de mai sus.

Alte zone

Principalele tipuri de metode

Ca întotdeauna, în procesarea limbajului natural, există două abordări: profundă și superficială.

Abordările aparținând primei categorii presupun accesul la așa-numita cunoaștere a lumii (cunoașterea lumii sau baza de cunoștințe de bun simț). De exemplu, știind că „orice lucru material neînsuflețit poate fi verde în sensul culorii, dar nu poate fi verde în sensul lipsei de experiență” face posibilă determinarea în ce sens este folosit cuvântul „verde” într-un context dat. Astfel de abordări nu sunt atât de eficiente în practică, deoarece o astfel de clasă de cunoștințe despre lume, deși este posibil să o stocăm într-un format prietenos cu computerul, acoperă zone foarte mici [22] ale vieții noastre și nu este în întregime aplicabilă tuturor. studii. Trebuie să spun că, de asemenea, această abordare nu funcționează întotdeauna, de exemplu, în propoziția „Directorul a fost atât de verde”, folosind cunoștințe, este imposibil de determinat, în acest caz, regizorul este verde pentru că a devenit verde sau pentru că este neexperimentat - adesea acest lucru poate fi determinat doar pe baza contextului, ci din logica și sensul întregului text.

De asemenea, în lingvistica computațională, există o tradiție veche de aplicare a acestor metode în ceea ce privește cunoașterea programului și este adesea destul de dificil să se determine dacă aceste cunoștințe sunt lingvistice sau cunoștințe despre lume ( baza de cunoștințe în limba engleză  Commonsense ). Prima încercare a fost făcută de Margaret Masterman și colegii ei de la Cambridge Language Research Unit din Anglia în anii 1950: au folosit datele tezaurului lui Roger și cuvintele cheie numerotate . ) ca indicatori ai subiectelor și au analizat repetițiile din text folosind algoritmul de intersecție setată. Acest experiment nu a avut mare succes [23] , dar a avut o influență puternică asupra lucrărilor ulterioare, în special asupra lucrării lui Yarovksky din anii 1990 privind optimizarea metodei tezaurului folosind o mașină de învățare supravegheată.   

Abordările de suprafață nu încearcă să înțeleagă textul, se bazează doar pe analiza cuvintelor din apropiere, de exemplu: dacă cuvintele „mare” sau „pescuit” sunt prezente lângă cuvântul „bas”, cel mai probabil că în acest caz există este un sens în sens biologic. Aceste reguli pot fi extrase automat folosind un corpus de texte cu semnificații de cuvinte etichetate. Această abordare, deși nu o acoperă pe cea anterioară din punct de vedere al puterii, o depășește cu ușurință în practică. Cu toate acestea, există întotdeauna capcane, cum ar fi în propoziția „Câinii latră la copac”, care conține cuvintele „copac” și „câini” lângă cuvântul „latră”.

Există patru metode principale de dezambiguizare:

Metode bazate pe cunoștințe

Metoda Lesk [24]  este o metodă productivă bazată pe utilizarea cunoștințelor de vocabular. Se bazează pe ipoteza că cuvintele care se află unul lângă altul în text sunt legate între ele și această legătură poate fi observată în definițiile cuvintelor și semnificațiile acestora. Două (sau mai multe) cuvinte pot fi apropiate dacă ambele au perechea de valori cu cea mai mare suprapunere de cuvinte în definițiile lor din dicționar. De exemplu, expresia „con de pin”, în definițiile ambelor într-unul dintre sensuri, există cuvinte precum „veșnic verde” și „copac”. De asemenea, ca alternativă la metoda anterioară, puteți utiliza relația globală dintre aceste cuvinte calculând proximitatea semantică a fiecărei perechi de valori în WordNet .

Ca o alternativă la metodele de mai sus, puteți utiliza similaritatea semantică generală ( asemănarea semantică engleză  ) a semnificațiilor cuvintelor, pe baza WordNet 'e. Metodele bazate pe grafice bazate pe activarea răspândirii au fost, de asemenea, folosite cu oarecare succes: unele dintre ele au arătat o acuratețe comparabilă [25] cu metodele de învățare supravegheată și uneori mai bună decât [5] [26] în anumite domenii . De asemenea, s-a demonstrat recent [27] că chiar și cele mai simple metode bazate pe măsuri de conectivitate a grafului (cum ar fi gradul/valența întregului graf) pot arăta rezultate ridicate în prezența unei baze lexicale bogate.  

Utilizarea așa-numitelor modele de guvernare („preferințe de selecție” sau „restricții de selecție”) poate fi, de asemenea, destul de utilă. De exemplu, folosind cunoașterea faptului că cuvântul „bas” în sensul de pește apare adesea cu cuvântul „gătesc” sau „mâncă”, putem rezolva ambiguitatea dintr-o propoziție precum „pregătesc bas”. Cu toate acestea, crearea unor astfel de cunoștințe despre lume este extrem de laborioasă și aproape imposibilă.

Metode de predare supravegheate

Toate metodele de învățare supravegheată se bazează pe presupunerea că contextul cuvântului pe care îl luăm în considerare oferă suficiente informații pentru a calcula sensul în care este aplicat în acest caz (și, prin urmare, cunoștințele obținute din dicționare și tezaure sunt tăiate ca fiind superflue). Toate modelele de învățare supravegheată au fost aplicate problemei WSD , inclusiv tehnici conexe, cum ar fi selecția variabilelor , optimizarea parametrilor și învățarea ansamblului . Mașinile vectoriale de suport și învățarea bazată pe instanțe s - au dovedit a fi unele dintre cele mai eficiente metode disponibile astăzi, poate pentru că pot gestiona proprietățile multi-parametrice ale cuvintelor și contextelor. Cu toate acestea, metodele de mai sus au ca obstacol cerința de a avea o cantitate imensă de texte marcate manual pentru antrenament, ceea ce, după cum am menționat deja, este laborios și costisitor. Din nou, se pune problema deținerii unor astfel de coci etichetate.   

Metode parțiale supravegheate

Metoda bootstrapping [28] este o metodă comună pentru învățarea iterativă și evaluarea unui clasificator pentru a crește eficiența acestuia. Algoritmul începe cu o cantitate mică de date de bază pentru fiecare cuvânt: fie un număr mic de exemple de contexte introduse manual, fie o pereche de reguli inconfundabile pentru a determina semnificația unui cuvânt (de exemplu, cuvântul „play” în context a cuvântului „bas” înseamnă aproape întotdeauna că cuvântul este înțeles într-un sens muzical). Aceste date sunt folosite pentru a antrena clasificatorul folosind oricare dintre metodele de învățare supravegheată de mai sus. Apoi, clasificatorul este aplicat pe un set de texte deja neetichetate pentru a extrage un eșantion mare de antrenament, care include doar contexte „de încredere”. Procesul se repetă iterativ: fiecare clasificator următor este antrenat pe setul corespunzător mai mare de contexte - și se repetă până când întregul corpus este acoperit sau până când se atinge numărul maxim de iterații.

O altă metodă utilizează volume mari de text nemarcat pentru a obține informații despre apariția concomitentă a cuvintelor, care pot completa foarte mult datele noastre. De asemenea, un corpus bilingv bine aliniat poate fi folosit pentru a rezolva ambiguitatea între limbi, deoarece un cuvânt polisemantic dintr-o limbă este întotdeauna tradus într-o altă limbă, în funcție de sensul în care este folosit. Această metodă, într-un sens, poate fi considerată și o metodă de învățare parțială.

Toate tehnicile de mai sus pot permite ca metodele de învățare supravegheată să fie adaptate la alte domenii.

Metode de învățare nesupravegheate

Acest tip de metode este una dintre cele mai dificile sarcini WSD. Principala ipoteză a acestei metode este afirmația: „înțelesuri similare apar în contexte similare” și astfel ele pot fi extrase din text folosind gruparea, folosind o anumită măsură de similitudine a contextelor [29] . Apoi, noi contexte pot fi atribuite unuia dintre cele mai apropiate clustere. Performanța metodei este cu siguranță mai mică decât alte metode, cu toate acestea, comparația este oarecum problematică din cauza necesității de a proiecta clusterele rezultate pe valorile disponibile în dicționar. Dacă nu este necesară proiecția, atunci se pot face estimări ale grupării (inclusiv entropia și puritatea). Oamenii de știință au mari speranțe că metodele de învățare nesupravegheate pot ajuta la depășirea deficiențelor achiziției de  cunoștințe , deoarece nu necesită sarcini prea laborioase de marcare sintactică și semantică a întregului corpus.

Alte metode

Există și alte metode bazate pe principii complet diferite de cele de mai sus:

Probleme și rezultate locale

Blocajul de achizitie a cunostintelor estecel mai mare obstacol in rezolvarea problemei ambiguitatii .  Metodele de învățare nesupravegheate se bazează pe cunoștințe care nu sunt prezente cu greu în dicționarele electronice și alte sisteme de cunoștințe electronice lingvistice. Metodele de învățare supravegheată, pe de altă parte, se bazează pe existența unui corpus adnotat manual, a cărui existență este fezabilă din punct de vedere tehnic doar pentru un set mic de cuvinte în scopuri de testare, așa cum sa făcut pentru Senseval.

Prin urmare, una dintre cele mai încurajatoare tendințe este utilizarea internetului ca corpus pentru obținerea automată a informațiilor lexicale [36] . WSD a fost înțeles în mod tradițional ca o modalitate de a îmbunătăți rezultatele în domenii precum regăsirea informațiilor (IR). În acest caz, însă, este adevărat și invers: motoarele de căutare au capabilități suficient de simple și rapide pentru a extrage cu succes internetul pentru a fi utilizat în WSD. Prin urmare, problema obținerii cunoștințelor a provocat apariția anumitor metode de obținere a acesteia:

Surse externe de cunoaștere

Cunoașterea este una dintre cheile rezoluției dezambiguerii: furnizează datele pe care se bazează procesul de rezoluție în sine. Aceste date pot fi atât corpuri de text, cât și dicționare, tesuruse, glosare, ontologii: [37] [38] [39]

Surse structurate

Surse nestructurate

Evaluarea și compararea metodelor, conferința Senseval

Testarea și compararea metodelor nu este o sarcină banală din cauza diferențelor dintre diferitele seturi de testare, inventarele de detectare și sursele de date utilizate. Înainte ca evenimentele speciale să fie create pentru a compara sistemele, acestea au fost comparate manual, pe cont propriu, adesea seturi mici de date. Într-adevăr, pentru a-și testa algoritmul, dezvoltatorii trebuie să petreacă timp pentru a marca manual toate utilizările cuvintelor. Și este imposibil să compari aceleași metode chiar și pe aceleași texte dacă folosesc sisteme diferite de interpretare a cuvintelor.

Au fost organizate conferințe internaționale de comparare a sistemelor WSD pentru a „combina” și compara metodele. Senseval (acum redenumit Semeval ) este o conferință internațională care compară sistemele de dezambiguizare lexicală, desfășurată la fiecare 3 ani din 1998: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 (2004) și logica lor un succesor al SemEval , care a fost dedicat în întregime sarcinii WSD și a avut loc o singură dată, în 2007. Sarcinile ei includ organizarea de seminarii și ateliere de lucru, pregătirea și marcarea manuală a corpusului pentru testarea sistemului, precum și compararea algoritmilor de diferite tipuri (WSD „all-words” și „eșantion lexical”, palgoritmi adnotati și neadnotati) și studiul subsarcini precum etichetarea rolului semantic , gloss WSD , substituirea lexicală etc. Ca parte a activităților de mai sus, comparațiile sistemelor WSD au fost făcute și în cadrul nu numai al limbii engleze. Cu toate acestea, nici o singură limbă a grupului slav nu a fost prezentă la evenimente.

Alegerea modelelor de evaluare

Sistemul semnificațiilor cuvintelor . În cadrul primelor conferințe, ca sisteme de semnificații a cuvintelor (dicționare, baze de date lexicale), fie puțin cunoscute anterior inaccesibile (de exemplu, proiectul HECTOR), fie versiuni mici, mici, incomplete ale unui sistem complet real care erau solicitate în competiție. folosit.. De obicei, ambele erau insuficient detaliate și diferențiate (ing. coarse-grained), totuși au fost alese pentru a evita utilizarea celor mai populare și detaliate exemple (ing. fin-grained) (de exemplu, WordNet ), deoarece acest lucru ar face experimentul „necurat”, deoarece aceste baze de cunoștințe au fost deja „aprinse” în mod repetat în diferite studii și evaluări. S-a observat că rezultatele au fost complet diferite pentru cele mai detaliate, așa că s-a decis testarea algoritmilor pe ambele inventare senzoriale.

Un set de cuvinte de verificat . De asemenea, compararea metodelor de dezambiguizare este împărțită în două tipuri în funcție de numărul de cuvinte care trebuie verificate: rezoluția polisemia lexicală a unui anumit set de cuvinte (cel mai adesea, câteva zeci) și rezoluția polisemia lexicală a tuturor cuvintelor textului. Diferența lor constă în cantitatea de analiză și procesare a datelor: sarcina „all-words” (“all-words-text”) implică prelucrarea tuturor cuvintelor prezente în text pentru ambiguitate (absolut toate cuvintele din corpus trebuie rezolvate ), sarcina „eșantion lexical” („set limitat”) este de a permite numai cuvintele țintă definite în prealabil și localizate în corpus nostru. Primul tip se presupune a fi o estimare mai realistă, dar mult mai laborioasă în ceea ce privește verificarea rezultatelor. Din cauza dificultăților de testare a celui de-al doilea, în primele conferințe s-au efectuat doar teste set de testare, dar ambele au fost ulterior incluse în testare.

În cazul sarcinii „set limitat de cuvinte”, organizatorii trebuiau să aleagă exact cuvintele cheie pe care urmau să fie testate sistemele. O critică la adresa activităților care au avut loc înainte de Senseval a fost că aceste mostre din set au fost alese după pofta experimentatorilor. La Senseval'e au încercat să evite acest lucru alegând cuvinte arbitrare, împărțite în grupuri în funcție de părți de vorbire, frecvență și grad de ambiguitate. De asemenea, au existat multe controverse în ceea ce privește includerea problemei determinării părții de vorbire în programul WSD, așa că organizatorii au decis să includă atât părți de vorbire marcate clar, cât și un anumit număr de altele nedefinite în eșantionul de cuvinte.

Corpul . Este necesar să se clarifice ce este text marcat și ce este text nemarcat. Un corpus nealocat este în esență o masă de texte obișnuite care conțin numărul necesar de mențiuni de cuvinte care trebuie „rezolvate”. Marcat este aceeași colecție de texte, dar cu diferența că toate cuvintele menționate conțin informații atribuite (de exemplu, ca etichetă sau alte metainformații) despre sensul cuvintelor folosite în aceste contexte.

Atât textele marcate (sisteme de învățare supravegheată), cât și textele nemarcate (sisteme de învățare nesupravegheate) pot servi drept material de instruire pentru sistemele noastre de rezolvare a polisemiei lexicale. Acest proces decurge astfel: mai mulți lingviști-lexicografi parcurg întregul text și, în conformitate cu dicționarul de sensuri, atribuie metainformații despre sensul cuvintelor folosite în aceste contexte tuturor cuvintelor dintr-un eșantion dat de cuvinte testate pentru polisemie. Apoi, pentru fiecare cuvânt, se face un fel de cvorum din deciziile luate de lexicografi și se ia o decizie asupra sensului în care este folosit aici, după care se adaugă etichetele primite la versiunea finală a textului; cu alte cuvinte, toate utilizările cuvintelor pe care le-am ales sunt completate cu metainformațiile necesare.

Apoi, corpul este împărțit în trei părți. Prima, așa-numita distribuție dry-run (ing. „execuție preliminară”) permite echipelor să își ajusteze și să-și adapteze programele la tipul și structura informațiilor furnizate la intrare; conține informațiile minime necesare.

A doua parte se numește distibuție de antrenament , care conține intrări de dicționar și un corpus cu meta-informații despre semnificațiile cuvintelor țintă), care vă permite să antrenați programe concurente pentru a alege corect sensurile corecte ale cuvintelor; se dă tuturor echipelor imediat după runda preliminară. Numărul de contexte necesare pentru cuvinte poate varia destul de mult (de la câteva la mai mult de 1000) și depinde de numărul de contexte disponibile. Apoi urmează etapa de pregătire.

Ultima parte, numită distribuirea evaluării , fără metainformații despre semnificațiile cuvintelor țintă, disponibile după finalizarea programelor de instruire, vă permite să calculați acuratețea algoritmilor. Fiecare context a fost adnotat manual de cel puțin trei persoane, dar această metainformație nu a fost inclusă în datele diseminate deoarece este cea care se verifică. Toate programele, care trec prin acest eșantion, trebuiau să calculeze pentru fiecare context sensul cel mai probabil al cuvântului utilizat (sau o listă de valori cu probabilitățile corespunzătoare); după trimiterea datelor către organizatori, aceștia primesc automat rezultatele comparându-le cu propriile lor (întrucât eșantionul de evaluare, precum și cel de instruire, conțin utilizarea marcată a cuvintelor).

Grupuri și linii de bază . Trebuie remarcat faptul că toți algoritmii funcționează diferit și folosesc surse diferite de informații, așa că toți au fost împărțiți în grupuri după metoda de procesare a textului: metode de învățare supravegheată și metode de învățare nesupravegheată. Pentru comparație cu algoritmii deja cunoscuți (numiți puncte de plecare - linii de bază ), rezultatele acestora au fost, de asemenea, publicate, de exemplu, toate variantele posibile ale algoritmului Lesk .

În plus, deoarece sarcina WSD necesită un dicționar de valori și un corpus , organizatorii au fost nevoiți să aleagă unele dintre cele existente pentru proiect. WordNet și SemCor sunt cele mai populare exemple ale componentelor necesare de mai sus, cu toate acestea, utilizarea lor ar face experimentul impur, deoarece aceste baze de cunoștințe au fost deja „evidențiate” în mod repetat în diferite studii și evaluări, prin urmare, versiuni incomplete care anterior nu erau disponibile sau realizate de către organizatori sunt de obicei selectate pentru testarea ambelor lucruri (de exemplu, pe Senseval-1, ambele au fost furnizate de proiectul HECTOR [41] ).

Precizia algoritmilor . Atunci când se evaluează aproape orice algoritm de clasificare pentru orice obiect, sunt utilizate cele mai comune două măsuri de evaluare - acuratețea și reamintirea ( de exemplu,  Precizie și reamintire ):

Cu toate acestea, dacă sistemul adnotă fiecare cuvânt sau rezultatul este calculat pentru toate clasele simultan, precizia și retragerea au aceeași valoare - se numește acuratețea calculelor acuratețea calculelor ( ing.  Acuratețe ). Acest model a fost extins pentru a fi utilizat atunci când algoritmii produc o listă de valori cu probabilitățile lor respective.

Rezultate și caracteristici

Atelierele Senseval sunt cel mai bun exemplu pentru a învăța cele mai bune rezultate din sistemele WSD și direcțiile viitoare de cercetare în domeniu. Există anumite concluzii care pot fi trase prin analiza și rezumarea conferințelor ulterioare:

Pentru a înțelege starea generală a domeniului și nivelul atins de cele mai bune sisteme de dezambiguizare, este necesar să se analizeze și să studieze cu atenție cele mai bune rezultate și caracteristicile acestora:

Note

  1. Anna A. Zaliznyak. FENOMENUL DE POLISEMINARE ŞI MODALITĂŢI DE DESCRIERE A SA. Întrebări de lingvistică. - M., 2004. - Nr. 2. - S. 20-45
  2. W. Weaver. 1949. Traducere Arhivată la 24 iulie 2011 la Wayback Machine . În Traducerea automată a limbilor: Paisprezece eseuri, ed. de Locke, WN și Booth, AD Cambridge, MA: MIT Press.
  3. ^ Y. Bar-Hillel, Language and information (Reading, Mass.: Addison-Wesley, 1964), pp. 174-179.
  4. Mark Johnson, How the Statistical Revolution Changes (Computational) Linguistics, ( http://www.aclweb.org/anthology/W/W09/W09-0103.pdf Arhivat la 14 aprilie 2015 la Wayback Machine )
  5. 1 2 3 R. Navigli, K. Litkowski, O. Hargraves. 2007. SemEval-2007 Task 07: Coarse-Grained English All-Words Task Arhivat 18 martie 2012 la Wayback Machine . Proc. de Semeval-2007 Workshop (SEMEVAL), în cadrul celei de-a 45-a reuniuni anuale a Asociației pentru Lingvistică Computațională (ACL 2007), Praga, Republica Cehă, pp. 30-35.
  6. 1 2 S. Pradhan, E. Loper, D. Dligach, M. Palmer. 2007. SemEval-2007 Task 17: English lexical sample, SRL and all words Arhivat 18 martie 2012 la Wayback Machine . Proc. de Semeval-2007 Workshop (SEMEVAL), în cadrul celei de-a 45-a reuniuni anuale a Asociației pentru Lingvistică Computațională (ACL 2007), Praga, Republica Cehă, pp. 87-92.
  7. Lynette Hirschmann, Evoluția evaluării (1998) - Vorbirea și cunoașterea computerului
  8. C. Fellbaum 1997. Analysis of a handtagging task. În Proc. al Atelierului ANLP-97 privind etichetarea textului cu semantică lexicală: de ce, ce și cum? Washington D.C., SUA.
  9. B. Snyder și M. Palmer. 2004. Sarcina cu toate cuvintele în limba engleză Arhivată la 29 iunie 2011 la Wayback Machine . În Proc. al 3-lea Atelier Internațional de Evaluare a Sistemelor pentru Analiza Semantică a Textului (Senseval-3), Barcelona, ​​​​Spania, pp. 41-43.
  10. Douglas Lenat. Calculatoare versus bunul simț . Data accesului: 10 decembrie 2008. Arhivat din original la 27 iulie 2013. (GoogleTachTalks pe youtube)
  11. P. Edmonds. 2000. Proiectarea unei sarcini pentru SENSEVAL-2 Arhivat 28 septembrie 2011 la Wayback Machine . Teh. Notă. Universitatea din Brighton, Brighton. Regatul Unit
  12. A. Kilgarriff. 1997. Nu cred în sensurile cuvintelor Arhivat 24 iulie 2011 la Wayback Machine . Calculator. uman. 31(2), pp. 91-113.
  13. D. McCarthy, R. Navigli. 2009. The English Lexical Substitution Task Arhivat la 9 iulie 2009 la Wayback Machine , Language Resources and Evaluation, 43(2), Springer, pp. 139-159.
  14. SANDERSON, M. 1994. Dezambiguarea sensului cuvântului și regăsirea informațiilor. În Proceedings of the Special Interest Group on Information Retrieval (SIGIR, Dublin, Irlanda). 142-151.
  15. SCHUTZE, H. ȘI PEDERSEN, J. 1995. Recuperarea informațiilor bazată pe sensurile cuvintelor. În Proceedings of SDAIR'95 (Las Vegas, NV). 161-175.
  16. STOKOE, C., OAKES, MJ, AND TAIT, JI 2003. Dezambiguarea sensului cuvântului în regăsirea informațiilor revizuită. În Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (Toronto, Onto., Canada). 159-166.
  17. YAROWSKY, D. 1994. Liste de decizii pentru rezolvarea ambiguității lexicale: Aplicație la restaurarea accentului în spaniolă și franceză. În lucrările celei de-a 32-a reuniuni anuale a Asociației pentru Lingvistică Computațională (Las Cruces, NM). 88-95.
  18. RICHARDSON, SD, DOLAN, WB, AND VANDERWENDE, L. 1998. Mindnet: Acquiring and structurating semantic information from text. În Proceedings of the 17th International Conference on Computational Linguistics (COLING, Montreal, PQ, Canada). 1098-1102.
  19. NAVIGLI, R., VELARDI, P., AND GANGEMI, A. 2003. Ontology learning and its application to automated terminology translation. IEEE Intel. Syst. 18:1, 22-31.
  20. NAVIGLI, R. AND VELARDI, P. 2004. Învățarea ontologiilor de domeniu din depozitele de documente și site-urile web dedicate. Calculator. Ling. 30, 2, 151-179.
  21. CIMIANO, P. 2006. Ontology Learning and Population from Text: Algorithms, Evaluation and Applications. Springer, New York, NY.
  22. Lenat, Douglas; Guha, R.V. (1989), Construirea de sisteme mari bazate pe cunoștințe, Addison-Wesley
  23. Y. Wilks, B. Slator, L. Guthrie. 1996. Cuvinte electrice: dicționare, calculatoare și semnificații. Cambridge, MA: MIT Press.
  24. Michael Lesk, Automatic sense dezambiguation using machine readable dictionaries: how to tell a pine cone from an ice cream cone, ACM Special Interest Group for Design of Communication Proceedings of the 5th annual international Conference on Systems documentation, p. 24-26, 1986. ISBN 0-89791-224-1
  25. R. Navigli, P. Velardi. 2005. Structural Semantic Interconnections: a Knowledge-Based Approach to Word Sense Disambiguation Arhivat 9 iulie 2009 la Wayback Machine . IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 27(7), pp. 1063-1074.
  26. E. Agirre, O. Lopez de Lacalle, A. Soroa. 2009. WSD bazat pe cunoștințe pe domenii specifice: Performing better than Generic Supervised WSD Arhivat 24 iulie 2011 la Wayback Machine . În Proc. al IJCAI, pp. 1501-1506.
  27. R. Navigli, M. Lapata. Un studiu experimental al conectivitatii grafice pentru dezambiguizarea sensului cuvintelor nesupravegheat Arhivat 14 decembrie 2010 la Wayback Machine . IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 32(4), IEEE Press, 2010, pp. 678-692.
  28. D. Yarowsky. 1995. Dezambiguarea sensului cuvântului nesupravegheat rivalizează cu metodele supravegheate Arhivat 7 iunie 2010 la Wayback Machine . În Proc. a celei de-a 33-a reuniuni anuale a Asociației pentru Lingvistică Computațională, pp. 189-196.
  29. H. Schütze. 1998. Discriminare automată a sensului cuvintelor Arhivat 18 martie 2012 la Wayback Machine . Computational Linguistics, 24(1), pp. 97-123.
  30. MCCARTHY, D., KOELING, R., WEEDS, J., AND CARROLL, J. 2004. Găsirea simțurilor predominante în textul neetichetat. În lucrările celei de-a 42-a reuniuni anuale a Asociației pentru Lingvistică Computațională (Barcelona, ​​​​Spania). 280-287.
  31. MCCARTHY, D., KOELING, R., Weeds, J., AND CARROLL, J. 2007. Achiziția nesupravegheată a sensurilor predominante ale cuvintelor. Calculator. Ling. 33, 4, 553-590.
  32. MOHAMMAD, S. AND HIRST, G. 2006. Determinarea dominanței sensului cuvântului folosind un tezaur. În Proceedings of the 11th Conference on European Chapter a Association for Computational Linguistics (EACL, Trento, Italy). 121-128.
  33. LAPATA, M. AND KELLER, F. 2007. O abordare de regăsire a informațiilor pentru clasificarea sensului. În Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics (HLT-NAACL, Rochester, NY). 348-355.
  34. GLIOZZO, A., MAGNINI, B., AND STRAPPARAVA, C. 2004. Unsupervised domain relevance estimation for word sense dezambiguation. În Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing (EMNLP, Barcelona, ​​​​Spania). 380-387.
  35. BUITELAAR, P., MAGNINI, B., STRAPPARAVA, C., AND VOSSEN, P. 2006. WSD specific domeniului. În Word Sense Disambiguation: Algorithms and Applications, E. Agirre și P. Edmonds, Eds. Springer, New York, NY, 275-298.
  36. KILGARRIFF, A. AND GREFENSTETTE, G. 2003. Introducere în numărul special pe Web ca corpus. Calculator. Ling. 29, 3, 333-347.
  37. E IDE, N. AND VE´RONIS, J. 1998. Dezambiguarea sensului cuvântului: starea artei. Calculator. Ling. 24:1, 1-40.
  38. LITKOWSKI, KC 2005. Lexiconi și dicționare computaționale. În Encyclopedia of Language and Linguistics (ed. a 2-a), KR Brown, Ed. Elsevier Publishers, Oxford, Marea Britanie, 753-761.
  39. AGIRRE, E. AND STEVENSON, M. 2006. Knowledge Sources for WSD. În Word Sense Disambiguation: Algorithms and Applications, E. Agirre și P. Edmonds, Eds. Springer, New York, NY, 217-251.
  40. MAGNINI, B. ȘI CAVAGLIA, G. 2000. Integrarea codurilor de câmpuri subiect în WordNet. În Proceedings of the 2nd Conference on Language Resources and Evaluation (LREC, Atena, Grecia). 1413-1418.
  41. 1. Adam Kilgarriff și Joseph Rosenzweig, English Senseval: Raport și rezultate mai-iunie, 2000, Universitatea din Brighton
  42. Rada Mihalcea, Timothy Chklovski, Adam Kilgarriff. Sarcina eșantion lexical engleză Senseval-3, 2004. p. 2
  43. Loukachevitch N., Chuiko D. Dezambiguarea sensului cuvintelor bazată pe tezaur, 2007

Lectură recomandată