Dezambiguizarea sensului cuvântului ( WSD ) este o problemă nerezolvată de procesare a limbajului natural , care constă în sarcina de a alege sensul (sau sensul) unui cuvânt sau frază ambiguă în funcție de contextul în care se află. Această problemă apare în analiza discursivă , la optimizarea relevanței rezultatelor de către motoarele de căutare, la rezolvarea referințelor anaforice , la studierea coerenței lingvistice a unui text, la analiza inferențelor .
Cercetările științifice privind rezoluția polisemiei lexicale sunt de mult timp în domeniul lingvisticii aplicate și computaționale și au o istorie îndelungată. De-a lungul anilor, numărul de soluții propuse și eficacitatea acestora a crescut constant până când eficacitatea a atins un anumit nivel de precizie comparativ eficientă pentru o anumită gamă de cuvinte și tipuri de polisemie . Problema nu a primit încă o soluție completă, deoarece multe probleme legate direct de trăsăturile lingvistice ale vorbirii umane stau în calea unei soluții de succes.
Au fost explorate un număr mare de metode, variind de la metode bazate pe cunoștințe, reguli, surse lexicografice, învățarea supravegheată pe un corpus de texte, până la metodele de învățare nesupravegheată care grupează cuvintele în funcție de sens. Dintre acestea, până în prezent, metodele de învățare supravegheată au demonstrat cea mai bună eficacitate. Cu toate acestea, compararea obiectivă și evaluarea metodelor este un proces complex care depinde de mulți factori. Pentru sistemele de vocabular generalizat (pentru engleză), eficiența depășește în mod regulat pragul de 90%, ajungând uneori chiar și la 96%. Pentru sistemele de vocabular mai diferențiate, eficiența este în intervalul 59% -69%.
În general, ambiguitatea (sau ambiguitatea) unei expresii lingvistice sau a unei lucrări de vorbire (text) este înțeleasă ca prezența mai multor sensuri diferite în același timp [1] . Oamenii de știință împărtășesc mai multe tipuri de astfel de ambiguități: lexicale, sintactice și de vorbire, dar termenul „WSD” include rezoluția celor lexicale (semantice).
Ceea ce vorbim poate fi înțeles din următorul exemplu cu cuvântul ambiguu „cheie”:
precum și 3 contexte:
Este evident pentru o persoană că în prima propoziție cuvântul „ cheie ” este folosit în primul sens, în a doua propoziție - respectiv în al doilea sens, iar în a treia - sunt posibile variante. Dezvoltarea algoritmilor care imită această abilitate umană poate fi uneori o sarcină descurajantă.
Procesul de rezolvare necesită mai multe lucruri: sisteme de cunoștințe de vocabular pentru a defini mai multe semnificații ale cuvintelor și un corpus de texte de rezolvat ( alte surse de cunoștințe pot fi necesare în unele cazuri ).
Această problemă a fost formulată pentru prima dată ca o problemă separată în anii 1940, în primele zile ale traducerii automate, făcând-o una dintre cele mai vechi probleme din lingvistica computațională. Warren Weaver , în celebrul său „ The 'Translation' memorandum” (1949) [2] , a prezentat problema sub aspectul calculatorului. Cercetătorii din acea vreme erau bine conștienți de semnificația și complexitatea acesteia, în special, Joshua Bar-Hillel (unul dintre pionierii) în 1960 și-a exprimat îndoiala că sarcina de traducere automată universală complet automată va fi vreodată fezabilă datorită necesității de a modela toate cunoștințele umane despre lume [3 ] .
În anii '70, problema WSD a devenit parte a sistemelor de interpretare semantică dezvoltate în domeniul AI , cu toate acestea, acestea constau în mare parte din reguli derivate manual și, prin urmare, depindeau complet de cantitatea de cunoștințe disponibile, care la acea vreme era extrem de laborioasă. a extrage.
Până în anii 1980, resurse atât de voluminoase precum Oxford Advanced Learner's Dictionary of Current English au devenit disponibile, iar scrierea manuală a regulilor a fost înlocuită prin extragerea automată a cunoștințelor din astfel de surse, dar metodele încă nu au părăsit clasa așa-numitei „cunoștințe- metode bazate" .
Cu toate acestea, în anii 90, „revoluția statistică” a schimbat complet abordările și metodele din lingvistica computațională, iar problema rezolvării polisemiei lexicale a devenit o problemă căreia îi sunt aplicabile tot felul de metode de învățare supervizată [4] .
Anii 2000 au arătat că metodele de învățare supervizată au atins un anumit nivel de acuratețe și nu îl pot depăși, astfel încât atenția oamenilor de știință s-a îndreptat către lucrul cu sisteme mai generalizate de cunoaștere a vocabularului (simțuri grosiere), adaptarea la domenii (adaptarea domeniilor) , învățarea parțială supravegheată (sisteme semi-supravegheate) și învățarea nesupravegheată (sisteme bazate pe corpus nesupravegheat), metode mixte, precum și procesarea bazelor de cunoștințe și afișarea rezultatelor sub formă de grafice (revenirea sistemelor bazate pe cunoștințe prin intermediul graficelor). metode). Cu toate acestea, până astăzi, sistemele de învățare supravegheată sunt considerate cele mai eficiente.
Cu toate acestea, de ce o astfel de sarcină provoacă atât de multe dificultăți, iar rezultatele soluțiilor sale demonstrează o eficiență relativ scăzută? În procesul de lucru asupra problemei rezolvării polisemiei lexicale, au fost descoperite un număr mare de dificultăți, cel mai adesea din cauza proprietăților psihologiei și vorbirii umane.
În primul rând, toate dicționarele sunt diferite și nu echivalente între ele. Cel mai adesea, sarcina de a distinge semnificațiile unui cuvânt unul de celălalt nu provoacă dificultăți, cu toate acestea, în unele cazuri, semnificațiile diferite ale unui cuvânt pot fi foarte apropiate una de alta din punct de vedere semantic (de exemplu, dacă fiecare dintre ele este o metaforă sau metonimie unul pentru celălalt), iar în astfel de situații, împărțirea în sensuri în diferite dicționare și tezaure poate varia semnificativ. Soluția la această dificultate poate fi utilizarea universală a aceleiași surse de date: un dicționar universal. La nivel global, rezultatele studiilor care folosesc un sistem de divizare semantică mai generalizat sunt mai eficiente [5] [6] , așa că unii cercetători pur și simplu ignoră procesarea dicționarelor și tezaurilor cu o diviziune semantică mai detaliată în munca lor.
În al doilea rând, în unele limbi, marcarea unei părți a cuvântului poate fi foarte strâns legată de problema dezambiguirii, astfel încât aceste două probleme pot interfera una cu cealaltă. Oamenii de știință nu au ajuns la un consens dacă merită să le împarți în două componente autonome, dar avantajul este de partea celor care cred că acest lucru este necesar [7] .
A treia dificultate constă în factorul uman . Sistemele de dezambiguizare au fost întotdeauna evaluate prin compararea rezultatelor cu munca umană. Și pentru oameni, această sarcină s-ar putea să nu fie la fel de simplă ca etichetarea POS - este de câteva ori mai dificil să marcați semnificațiile dintre mai multe dintre cele propuse [8] . Dacă o persoană poate ține minte sau poate ghici cu ușurință părțile de vorbire care poate fi un cuvânt, atunci nu este posibil să-și amintească toate semnificațiile posibile ale cuvintelor. Mai mult, după cum sa dovedit, rezultatele diferiților oameni nu coincid întotdeauna [9] și adesea nu ajung la o decizie comună cu privire la sensul în care un anumit cuvânt este folosit într-un anumit context. În ciuda acestui fapt, oamenii de știință iau rezultatul unei persoane ca standard, un etalon pentru compararea cu rezultatele unui computer. De remarcat că o persoană se descurcă mult mai bine cu sistemele generalizate de dicționare decât cu cele detaliate – și de aceea atenția cercetătorilor s-a îndreptat către acestea [5] [6] .
Unii cercetători susțin [10] că atunci când procesează texte, bunul simț este, de asemenea, important , ceea ce este greu de predat de un computer. Următoarele două propoziții sunt exemple:
Prima propoziție implică faptul că Jill și Mary sunt surorile celeilalte; în al doilea, că atât Jill, cât și Mary sunt ambele mame și nu este un fapt că sunt rude. Prin urmare, pentru o analiză mai precisă a semnificațiilor, este necesar să existe astfel de cunoștințe despre lume și societate. Mai mult, aceste cunoștințe sunt uneori necesare și atunci când se rezolvă ambiguități sintactice și când se analizează anafora și catafora .
În al cincilea rând, un set permanent de metode independent de sarcină (independent de sarcină) nu are sens, având în vedere că ambiguitatea cuvântului mouse (animal și dispozitiv computer), de exemplu, nu afectează rezultatul engleză-rusă și rusă- Traducerea în engleză (deoarece în ambele limbi ambele sensuri sunt întruchipate în același cuvânt), dar afectează puternic recuperarea informațiilor. Se poate da și exemplul opus: atunci când traducem cuvântul „râu” din engleză în franceză, trebuie să cunoaștem semnificația cuvântului („fleuve” este un râu care se varsă în mare, iar „rivière” este un râu care se varsă într-un alt râu). Ca rezultat, probleme diferite necesită algoritmi diferiți - așa că, dacă se dezvoltă un algoritm bun de dezambiguare lexicală, este imposibil să fii complet sigur că se va potrivi tuturor problemelor.
În al șaselea rând, oamenii de știință ridică problema posibilității unei reprezentări discrete a semnificațiilor unui cuvânt. Chiar și termenul „ sensul unui cuvânt ” în sine este destul de general și controversat. Majoritatea oamenilor sunt de acord atunci când lucrează cu sisteme de cunoștințe generalizate cu un nivel ridicat de omografie a cuvintelor, dar pe măsură ce nivelul scade și dicționarele devin mai detaliate, există un număr mare de discrepanțe. De exemplu, la conferința Senseval-2, care a folosit sisteme detaliate, adnotatorii umani au ajuns la un acord doar în 85% din timp [11] .
Semnificațiile cuvintelor sunt foarte flexibile, destul de schimbătoare și extrem de contextuale și uneori chiar dependente de contextual, deci nu sunt întotdeauna strict împărțite în mai multe subsensuri [12] . Lexicografii întâlnesc adesea subînțelesuri prea largi și suprapuse din punct de vedere semantic în texte, iar semnificațiile standard ale cuvintelor trebuie adesea corectate, extinse și restrânse în cele mai bizare și neașteptate moduri. De exemplu, în această situație „copiii aleargă la mamele lor”, cuvântul „copii” este folosit simultan în două sensuri: ei sunt atât copiii părinților lor, cât și doar copii. Sarcina unui lexicograf este să analizeze o cantitate imensă de texte și materiale și să descrie întreaga gamă posibilă de semnificații a unui cuvânt. Cu toate acestea, încă nu se știe dacă această abordare este aplicabilă în domeniul calculului și al lingvisticii computaționale, deoarece deciziile lexicografilor sunt luate în favoarea completitudinii semnificațiilor descrise, și nu a aplicabilității informațiilor obținute în prelucrarea textului.
Recent, a fost propusă o problemă numită substituție lexicală ca soluție la problema diferențierii semnificațiilor cuvintelor [13] . Sensul său este de a oferi un înlocuitor pentru cuvânt cu altul care păstrează sensul vechiului în acest context.
Este un fapt binecunoscut că rezultatele procesului depind nu numai de inovația și eficiența metodelor, ci și de diferitele setări/proprietăți ale sarcinii și de cerințele procesului de rezoluție (de exemplu, diferențierea a sensurilor cuvântului, caracteristicile evaluării rezultatelor, acoperirea dezambiguerii etc.). ). De asemenea, este important ca un număr mare de domenii NLP să poată beneficia de rezultatele WSD.
În sistemele de regăsire a informațiilor - dacă, la căutarea unei interogări, pentru a exclude din luare în considerare acele documente în care oricare dintre cuvintele interogării este folosit într-un sens diferit de care utilizatorul este interesat în prezent, atunci relevanța rezultatelor interogării poate fi a crescut.
Primele lucrări care au explorat posibilitatea utilizării WSD în domeniul regăsirii informațiilor nu au arătat o creștere a preciziei căutării. Cu toate acestea, în 1994 Sanderson a constatat [14] că îmbunătățirile pot fi detectate doar dacă eficiența de dezambiguizare depășește 90%, a cărei validitate generală este dezbătută. Și în 1995, Schutze și Pedersen au arătat [15] , care a arătat că cu eficiența de mai sus se poate obține o îmbunătățire a căutării cu 4%. Totuși, Stokey a arătat că utilizarea WSD poate da, deși mică - o medie de 1,73%, rezultate chiar și cu o eficiență mai mică a WSD (62,1%) [16] .
În sistemele de traducere automată , lipsa mecanismelor de încredere pentru recunoașterea sensului unui cuvânt reduce semnificativ calitatea traducerii, deoarece cuvântul nu este întotdeauna tradus fără ambiguitate într-o altă limbă. Și determinarea automată a traducerii corecte în funcție de context este o sarcină foarte dificilă. Dezambiguizarea lexicală a fost concepută de mult timp ca o provocare majoră pentru a obține o traducere automată aproape perfectă - aceste gânduri se bazează pe ideea că WSD nu poate să nu îmbunătățească sistemele de traducere în alegerea candidaților cu valoare potrivită pentru traducere. Această zonă nu a fost explorată atât de mult pe cât trebuie, din cauza bazelor de date tradiționale de vocabular predefinit mai puțin eficiente ( ing. inventarul sensului ) care au devenit de mult tradiționale .
În domenii specifice, problemele rezolvării conceptelor specifice acestora prezintă cel mai mare interes: de exemplu, în domeniul medical, definirea denumirilor medicamentelor în text poate fi utilă, în timp ce în bioinformatică este necesară soluționarea ambiguităților în denumirea acestora. gene și proteine - acest proces a fost numit Extragerea Informației . Include sarcini precum recunoașterea entității numite ( de exemplu, recunoașterea entității numite ) ( NER ), extinderea acronimului (de exemplu, Federația Rusă - Federația Rusă) și altele - toate acestea pot fi considerate ca o polisemie a sarcinii de rezoluție, deși aceasta este o direcție nouă și încă neexploatată cu adevărat.
Analiza conținutului și identificarea părților principale ale textului în ceea ce privește ideile, temele și altele asemenea poate beneficia foarte mult de WSD. De exemplu, clasificarea textelor (blogurilor), atribuirea etichetelor articolelor sau postărilor pe blog , sau determinarea unor legături relevante (poate semantic) între acestea sau analiza (semantică) a rețelelor sociale , care a devenit din ce în ce mai mult activ în ultima vreme. Această zonă este cea mai nouă, necunoscută dintre toate cele de mai sus.
Ca întotdeauna, în procesarea limbajului natural, există două abordări: profundă și superficială.
Abordările aparținând primei categorii presupun accesul la așa-numita cunoaștere a lumii (cunoașterea lumii sau baza de cunoștințe de bun simț). De exemplu, știind că „orice lucru material neînsuflețit poate fi verde în sensul culorii, dar nu poate fi verde în sensul lipsei de experiență” face posibilă determinarea în ce sens este folosit cuvântul „verde” într-un context dat. Astfel de abordări nu sunt atât de eficiente în practică, deoarece o astfel de clasă de cunoștințe despre lume, deși este posibil să o stocăm într-un format prietenos cu computerul, acoperă zone foarte mici [22] ale vieții noastre și nu este în întregime aplicabilă tuturor. studii. Trebuie să spun că, de asemenea, această abordare nu funcționează întotdeauna, de exemplu, în propoziția „Directorul a fost atât de verde”, folosind cunoștințe, este imposibil de determinat, în acest caz, regizorul este verde pentru că a devenit verde sau pentru că este neexperimentat - adesea acest lucru poate fi determinat doar pe baza contextului, ci din logica și sensul întregului text.
De asemenea, în lingvistica computațională, există o tradiție veche de aplicare a acestor metode în ceea ce privește cunoașterea programului și este adesea destul de dificil să se determine dacă aceste cunoștințe sunt lingvistice sau cunoștințe despre lume ( baza de cunoștințe în limba engleză Commonsense ). Prima încercare a fost făcută de Margaret Masterman și colegii ei de la Cambridge Language Research Unit din Anglia în anii 1950: au folosit datele tezaurului lui Roger și cuvintele cheie numerotate . ) ca indicatori ai subiectelor și au analizat repetițiile din text folosind algoritmul de intersecție setată. Acest experiment nu a avut mare succes [23] , dar a avut o influență puternică asupra lucrărilor ulterioare, în special asupra lucrării lui Yarovksky din anii 1990 privind optimizarea metodei tezaurului folosind o mașină de învățare supravegheată.
Abordările de suprafață nu încearcă să înțeleagă textul, se bazează doar pe analiza cuvintelor din apropiere, de exemplu: dacă cuvintele „mare” sau „pescuit” sunt prezente lângă cuvântul „bas”, cel mai probabil că în acest caz există este un sens în sens biologic. Aceste reguli pot fi extrase automat folosind un corpus de texte cu semnificații de cuvinte etichetate. Această abordare, deși nu o acoperă pe cea anterioară din punct de vedere al puterii, o depășește cu ușurință în practică. Cu toate acestea, există întotdeauna capcane, cum ar fi în propoziția „Câinii latră la copac”, care conține cuvintele „copac” și „câini” lângă cuvântul „latră”.
Există patru metode principale de dezambiguizare:
Metoda Lesk [24] este o metodă productivă bazată pe utilizarea cunoștințelor de vocabular. Se bazează pe ipoteza că cuvintele care se află unul lângă altul în text sunt legate între ele și această legătură poate fi observată în definițiile cuvintelor și semnificațiile acestora. Două (sau mai multe) cuvinte pot fi apropiate dacă ambele au perechea de valori cu cea mai mare suprapunere de cuvinte în definițiile lor din dicționar. De exemplu, expresia „con de pin”, în definițiile ambelor într-unul dintre sensuri, există cuvinte precum „veșnic verde” și „copac”. De asemenea, ca alternativă la metoda anterioară, puteți utiliza relația globală dintre aceste cuvinte calculând proximitatea semantică a fiecărei perechi de valori în WordNet .
Ca o alternativă la metodele de mai sus, puteți utiliza similaritatea semantică generală ( asemănarea semantică engleză ) a semnificațiilor cuvintelor, pe baza WordNet 'e. Metodele bazate pe grafice bazate pe activarea răspândirii au fost, de asemenea, folosite cu oarecare succes: unele dintre ele au arătat o acuratețe comparabilă [25] cu metodele de învățare supravegheată și uneori mai bună decât [5] [26] în anumite domenii . De asemenea, s-a demonstrat recent [27] că chiar și cele mai simple metode bazate pe măsuri de conectivitate a grafului (cum ar fi gradul/valența întregului graf) pot arăta rezultate ridicate în prezența unei baze lexicale bogate.
Utilizarea așa-numitelor modele de guvernare („preferințe de selecție” sau „restricții de selecție”) poate fi, de asemenea, destul de utilă. De exemplu, folosind cunoașterea faptului că cuvântul „bas” în sensul de pește apare adesea cu cuvântul „gătesc” sau „mâncă”, putem rezolva ambiguitatea dintr-o propoziție precum „pregătesc bas”. Cu toate acestea, crearea unor astfel de cunoștințe despre lume este extrem de laborioasă și aproape imposibilă.
Toate metodele de învățare supravegheată se bazează pe presupunerea că contextul cuvântului pe care îl luăm în considerare oferă suficiente informații pentru a calcula sensul în care este aplicat în acest caz (și, prin urmare, cunoștințele obținute din dicționare și tezaure sunt tăiate ca fiind superflue). Toate modelele de învățare supravegheată au fost aplicate problemei WSD , inclusiv tehnici conexe, cum ar fi selecția variabilelor , optimizarea parametrilor și învățarea ansamblului . Mașinile vectoriale de suport și învățarea bazată pe instanțe s - au dovedit a fi unele dintre cele mai eficiente metode disponibile astăzi, poate pentru că pot gestiona proprietățile multi-parametrice ale cuvintelor și contextelor. Cu toate acestea, metodele de mai sus au ca obstacol cerința de a avea o cantitate imensă de texte marcate manual pentru antrenament, ceea ce, după cum am menționat deja, este laborios și costisitor. Din nou, se pune problema deținerii unor astfel de coci etichetate.
Metoda bootstrapping [28] este o metodă comună pentru învățarea iterativă și evaluarea unui clasificator pentru a crește eficiența acestuia. Algoritmul începe cu o cantitate mică de date de bază pentru fiecare cuvânt: fie un număr mic de exemple de contexte introduse manual, fie o pereche de reguli inconfundabile pentru a determina semnificația unui cuvânt (de exemplu, cuvântul „play” în context a cuvântului „bas” înseamnă aproape întotdeauna că cuvântul este înțeles într-un sens muzical). Aceste date sunt folosite pentru a antrena clasificatorul folosind oricare dintre metodele de învățare supravegheată de mai sus. Apoi, clasificatorul este aplicat pe un set de texte deja neetichetate pentru a extrage un eșantion mare de antrenament, care include doar contexte „de încredere”. Procesul se repetă iterativ: fiecare clasificator următor este antrenat pe setul corespunzător mai mare de contexte - și se repetă până când întregul corpus este acoperit sau până când se atinge numărul maxim de iterații.
O altă metodă utilizează volume mari de text nemarcat pentru a obține informații despre apariția concomitentă a cuvintelor, care pot completa foarte mult datele noastre. De asemenea, un corpus bilingv bine aliniat poate fi folosit pentru a rezolva ambiguitatea între limbi, deoarece un cuvânt polisemantic dintr-o limbă este întotdeauna tradus într-o altă limbă, în funcție de sensul în care este folosit. Această metodă, într-un sens, poate fi considerată și o metodă de învățare parțială.
Toate tehnicile de mai sus pot permite ca metodele de învățare supravegheată să fie adaptate la alte domenii.
Acest tip de metode este una dintre cele mai dificile sarcini WSD. Principala ipoteză a acestei metode este afirmația: „înțelesuri similare apar în contexte similare” și astfel ele pot fi extrase din text folosind gruparea, folosind o anumită măsură de similitudine a contextelor [29] . Apoi, noi contexte pot fi atribuite unuia dintre cele mai apropiate clustere. Performanța metodei este cu siguranță mai mică decât alte metode, cu toate acestea, comparația este oarecum problematică din cauza necesității de a proiecta clusterele rezultate pe valorile disponibile în dicționar. Dacă nu este necesară proiecția, atunci se pot face estimări ale grupării (inclusiv entropia și puritatea). Oamenii de știință au mari speranțe că metodele de învățare nesupravegheate pot ajuta la depășirea deficiențelor achiziției de cunoștințe , deoarece nu necesită sarcini prea laborioase de marcare sintactică și semantică a întregului corpus.
Există și alte metode bazate pe principii complet diferite de cele de mai sus:
Blocajul de achizitie a cunostintelor estecel mai mare obstacol in rezolvarea problemei ambiguitatii . Metodele de învățare nesupravegheate se bazează pe cunoștințe care nu sunt prezente cu greu în dicționarele electronice și alte sisteme de cunoștințe electronice lingvistice. Metodele de învățare supravegheată, pe de altă parte, se bazează pe existența unui corpus adnotat manual, a cărui existență este fezabilă din punct de vedere tehnic doar pentru un set mic de cuvinte în scopuri de testare, așa cum sa făcut pentru Senseval.
Prin urmare, una dintre cele mai încurajatoare tendințe este utilizarea internetului ca corpus pentru obținerea automată a informațiilor lexicale [36] . WSD a fost înțeles în mod tradițional ca o modalitate de a îmbunătăți rezultatele în domenii precum regăsirea informațiilor (IR). În acest caz, însă, este adevărat și invers: motoarele de căutare au capabilități suficient de simple și rapide pentru a extrage cu succes internetul pentru a fi utilizat în WSD. Prin urmare, problema obținerii cunoștințelor a provocat apariția anumitor metode de obținere a acesteia:
Cunoașterea este una dintre cheile rezoluției dezambiguerii: furnizează datele pe care se bazează procesul de rezoluție în sine. Aceste date pot fi atât corpuri de text, cât și dicționare, tesuruse, glosare, ontologii: [37] [38] [39]
Testarea și compararea metodelor nu este o sarcină banală din cauza diferențelor dintre diferitele seturi de testare, inventarele de detectare și sursele de date utilizate. Înainte ca evenimentele speciale să fie create pentru a compara sistemele, acestea au fost comparate manual, pe cont propriu, adesea seturi mici de date. Într-adevăr, pentru a-și testa algoritmul, dezvoltatorii trebuie să petreacă timp pentru a marca manual toate utilizările cuvintelor. Și este imposibil să compari aceleași metode chiar și pe aceleași texte dacă folosesc sisteme diferite de interpretare a cuvintelor.
Au fost organizate conferințe internaționale de comparare a sistemelor WSD pentru a „combina” și compara metodele. Senseval (acum redenumit Semeval ) este o conferință internațională care compară sistemele de dezambiguizare lexicală, desfășurată la fiecare 3 ani din 1998: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 (2004) și logica lor un succesor al SemEval , care a fost dedicat în întregime sarcinii WSD și a avut loc o singură dată, în 2007. Sarcinile ei includ organizarea de seminarii și ateliere de lucru, pregătirea și marcarea manuală a corpusului pentru testarea sistemului, precum și compararea algoritmilor de diferite tipuri (WSD „all-words” și „eșantion lexical”, palgoritmi adnotati și neadnotati) și studiul subsarcini precum etichetarea rolului semantic , gloss WSD , substituirea lexicală etc. Ca parte a activităților de mai sus, comparațiile sistemelor WSD au fost făcute și în cadrul nu numai al limbii engleze. Cu toate acestea, nici o singură limbă a grupului slav nu a fost prezentă la evenimente.
Sistemul semnificațiilor cuvintelor . În cadrul primelor conferințe, ca sisteme de semnificații a cuvintelor (dicționare, baze de date lexicale), fie puțin cunoscute anterior inaccesibile (de exemplu, proiectul HECTOR), fie versiuni mici, mici, incomplete ale unui sistem complet real care erau solicitate în competiție. folosit.. De obicei, ambele erau insuficient detaliate și diferențiate (ing. coarse-grained), totuși au fost alese pentru a evita utilizarea celor mai populare și detaliate exemple (ing. fin-grained) (de exemplu, WordNet ), deoarece acest lucru ar face experimentul „necurat”, deoarece aceste baze de cunoștințe au fost deja „aprinse” în mod repetat în diferite studii și evaluări. S-a observat că rezultatele au fost complet diferite pentru cele mai detaliate, așa că s-a decis testarea algoritmilor pe ambele inventare senzoriale.
Un set de cuvinte de verificat . De asemenea, compararea metodelor de dezambiguizare este împărțită în două tipuri în funcție de numărul de cuvinte care trebuie verificate: rezoluția polisemia lexicală a unui anumit set de cuvinte (cel mai adesea, câteva zeci) și rezoluția polisemia lexicală a tuturor cuvintelor textului. Diferența lor constă în cantitatea de analiză și procesare a datelor: sarcina „all-words” (“all-words-text”) implică prelucrarea tuturor cuvintelor prezente în text pentru ambiguitate (absolut toate cuvintele din corpus trebuie rezolvate ), sarcina „eșantion lexical” („set limitat”) este de a permite numai cuvintele țintă definite în prealabil și localizate în corpus nostru. Primul tip se presupune a fi o estimare mai realistă, dar mult mai laborioasă în ceea ce privește verificarea rezultatelor. Din cauza dificultăților de testare a celui de-al doilea, în primele conferințe s-au efectuat doar teste set de testare, dar ambele au fost ulterior incluse în testare.
În cazul sarcinii „set limitat de cuvinte”, organizatorii trebuiau să aleagă exact cuvintele cheie pe care urmau să fie testate sistemele. O critică la adresa activităților care au avut loc înainte de Senseval a fost că aceste mostre din set au fost alese după pofta experimentatorilor. La Senseval'e au încercat să evite acest lucru alegând cuvinte arbitrare, împărțite în grupuri în funcție de părți de vorbire, frecvență și grad de ambiguitate. De asemenea, au existat multe controverse în ceea ce privește includerea problemei determinării părții de vorbire în programul WSD, așa că organizatorii au decis să includă atât părți de vorbire marcate clar, cât și un anumit număr de altele nedefinite în eșantionul de cuvinte.
Corpul . Este necesar să se clarifice ce este text marcat și ce este text nemarcat. Un corpus nealocat este în esență o masă de texte obișnuite care conțin numărul necesar de mențiuni de cuvinte care trebuie „rezolvate”. Marcat este aceeași colecție de texte, dar cu diferența că toate cuvintele menționate conțin informații atribuite (de exemplu, ca etichetă sau alte metainformații) despre sensul cuvintelor folosite în aceste contexte.
Atât textele marcate (sisteme de învățare supravegheată), cât și textele nemarcate (sisteme de învățare nesupravegheate) pot servi drept material de instruire pentru sistemele noastre de rezolvare a polisemiei lexicale. Acest proces decurge astfel: mai mulți lingviști-lexicografi parcurg întregul text și, în conformitate cu dicționarul de sensuri, atribuie metainformații despre sensul cuvintelor folosite în aceste contexte tuturor cuvintelor dintr-un eșantion dat de cuvinte testate pentru polisemie. Apoi, pentru fiecare cuvânt, se face un fel de cvorum din deciziile luate de lexicografi și se ia o decizie asupra sensului în care este folosit aici, după care se adaugă etichetele primite la versiunea finală a textului; cu alte cuvinte, toate utilizările cuvintelor pe care le-am ales sunt completate cu metainformațiile necesare.
Apoi, corpul este împărțit în trei părți. Prima, așa-numita distribuție dry-run (ing. „execuție preliminară”) permite echipelor să își ajusteze și să-și adapteze programele la tipul și structura informațiilor furnizate la intrare; conține informațiile minime necesare.
A doua parte se numește distibuție de antrenament , care conține intrări de dicționar și un corpus cu meta-informații despre semnificațiile cuvintelor țintă), care vă permite să antrenați programe concurente pentru a alege corect sensurile corecte ale cuvintelor; se dă tuturor echipelor imediat după runda preliminară. Numărul de contexte necesare pentru cuvinte poate varia destul de mult (de la câteva la mai mult de 1000) și depinde de numărul de contexte disponibile. Apoi urmează etapa de pregătire.
Ultima parte, numită distribuirea evaluării , fără metainformații despre semnificațiile cuvintelor țintă, disponibile după finalizarea programelor de instruire, vă permite să calculați acuratețea algoritmilor. Fiecare context a fost adnotat manual de cel puțin trei persoane, dar această metainformație nu a fost inclusă în datele diseminate deoarece este cea care se verifică. Toate programele, care trec prin acest eșantion, trebuiau să calculeze pentru fiecare context sensul cel mai probabil al cuvântului utilizat (sau o listă de valori cu probabilitățile corespunzătoare); după trimiterea datelor către organizatori, aceștia primesc automat rezultatele comparându-le cu propriile lor (întrucât eșantionul de evaluare, precum și cel de instruire, conțin utilizarea marcată a cuvintelor).
Grupuri și linii de bază . Trebuie remarcat faptul că toți algoritmii funcționează diferit și folosesc surse diferite de informații, așa că toți au fost împărțiți în grupuri după metoda de procesare a textului: metode de învățare supravegheată și metode de învățare nesupravegheată. Pentru comparație cu algoritmii deja cunoscuți (numiți puncte de plecare - linii de bază ), rezultatele acestora au fost, de asemenea, publicate, de exemplu, toate variantele posibile ale algoritmului Lesk .
În plus, deoarece sarcina WSD necesită un dicționar de valori și un corpus , organizatorii au fost nevoiți să aleagă unele dintre cele existente pentru proiect. WordNet și SemCor sunt cele mai populare exemple ale componentelor necesare de mai sus, cu toate acestea, utilizarea lor ar face experimentul impur, deoarece aceste baze de cunoștințe au fost deja „evidențiate” în mod repetat în diferite studii și evaluări, prin urmare, versiuni incomplete care anterior nu erau disponibile sau realizate de către organizatori sunt de obicei selectate pentru testarea ambelor lucruri (de exemplu, pe Senseval-1, ambele au fost furnizate de proiectul HECTOR [41] ).
Precizia algoritmilor . Atunci când se evaluează aproape orice algoritm de clasificare pentru orice obiect, sunt utilizate cele mai comune două măsuri de evaluare - acuratețea și reamintirea ( de exemplu, Precizie și reamintire ):
Cu toate acestea, dacă sistemul adnotă fiecare cuvânt sau rezultatul este calculat pentru toate clasele simultan, precizia și retragerea au aceeași valoare - se numește acuratețea calculelor acuratețea calculelor ( ing. Acuratețe ). Acest model a fost extins pentru a fi utilizat atunci când algoritmii produc o listă de valori cu probabilitățile lor respective.
Atelierele Senseval sunt cel mai bun exemplu pentru a învăța cele mai bune rezultate din sistemele WSD și direcțiile viitoare de cercetare în domeniu. Există anumite concluzii care pot fi trase prin analiza și rezumarea conferințelor ulterioare:
Pentru a înțelege starea generală a domeniului și nivelul atins de cele mai bune sisteme de dezambiguizare, este necesar să se analizeze și să studieze cu atenție cele mai bune rezultate și caracteristicile acestora:
procesarea limbajului natural | |
---|---|
Definiții generale | |
Analiza textului |
|
Referire |
|
Traducere automată |
|
Identificarea și colectarea datelor | |
Model tematic | |
Evaluare inter pares |
|
Interfață în limbaj natural |