Lexicografia computerizată

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită pe 27 decembrie 2020; verificarea necesită 1 editare .

Lexicografia computerizată este o disciplină științifică  aplicată în lingvistică , care studiază metodele de utilizare a tehnologiei computerizate pentru a compila dicționare . Aceasta este o disciplină temporară a perioadei de tranziție de la practica lexicografică manuală și scrisă de mână la noile tehnologii informaționale fără hârtie [1] .

Lexicografia computerizată este reprezentată de un set de metode și instrumente software de prelucrare a informațiilor text pentru a crea dicționare [2] . În cadrul lexicografiei computerizate, sunt dezvoltate tehnologii informatice pentru compilarea și operarea dicționarelor. Programe speciale - baze de date , dulapuri de fișiere de calculator, programe de procesare a textului - vă permit să generați automat intrări din dicționar, să stocați informații din dicționar și să le procesați [3] .

Multe programe lexicografice de calculator diferite sunt împărțite în două grupuri mari: programe pentru sprijinirea lucrărilor lexicografice și dicționare electronice de diferite tipuri, inclusiv baze de date lexicografice.

Istoria lexicografiei computerizate [4]

Termenul de „lexicografie pe computer” a fost inventat pentru a desemna domeniul de studiu al dicționarelor (electronice) citibile de mașină [5] și a apărut la mijlocul anilor 1960. Această disciplină a primit puțină atenție până la începutul anilor 1990. Termenul „dicționar care poate fi citit de mașină” înseamnă că datele din dicționar (stocate electronic) pot fi procesate și examinate folosind tehnologia de calcul modernă.

Lucrarea de pionierat a lui Evens [6] și Amsler [7] (1980) a servit ca un impuls pentru extinderea cercetării asupra dicționarelor electronice, de exemplu, lucrările practice au fost efectuate folosind Seventh Collegiate Dictionary [8] al lui Webster . Această cercetare a fost stimulată și de utilizarea pe scară largă a Longman Dictionary of Contemporary English [9] în anii 1980, care este încă unul dintre cele mai bune dicționare electronice.

Inițial, dicționarele electronice aveau aceeași notație ca și dicționarele convenționale, iar cercetătorii au trebuit să petreacă mult timp interpretând această notație (de exemplu, pentru a determina cărei părți de vorbire îi aparține un anumit cuvânt). Odată cu dezvoltarea tehnologiei, editorii au decis să separe baza de date a unui dicționar electronic de modul în care arată atunci când este tipărită. Forme mai convenabile de notație există astăzi, cum ar fi Extensible Markup Language XML . Folosind XML, cercetătorii au acces rapid la informațiile stocate în dicționarul electronic.

Concepte de bază ale lexicografiei computerizate

Tehnologiile hipertext facilitează combinarea diferitelor tipuri de informații - text simplu, desen, grafic, tabel, diagramă, sunet și imagine în mișcare. Atât textul tradițional, cât și hipertextul sunt fenomene generate de noile tehnologii. În primul caz, tehnologia a făcut posibilă replicarea și diseminarea cu ușurință a cunoștințelor de diferite tipuri, iar în al doilea, tehnologia computerizată a făcut posibilă schimbarea însuși aspectului textului și a structurii acestuia. Eterogenitatea hipertextului este prima proprietate tehnologică a hipertextului, tehnologică în sensul că decurge direct din tehnologia informatică utilizată. A doua proprietate tehnologică a hipertextului este neliniaritatea acestuia. Hipertextul nu are o secvență de citire standard, obișnuită. Alte proprietăți ale hipertextului sunt, într-o măsură sau alta, consecințe ale acestor două proprietăți tehnologice [11] . Valoarea practică a hipertextului în lexicografia computerizată constă în faptul că descrie un tip de mediu interactiv cu capacitatea de a urmări link-uri. Natura neliniară a hipertextului face posibilă formarea de informații sub forma unei structuri ramificate, ceea ce face posibilă extinderea semnificativă a sferei de aplicare a dicționarului, adică descrie tipul de mediu interactiv cu capacitatea de a urmări link-uri. Cuvintele, frazele sau imaginile care sunt legături către un anumit text sau imagine permit utilizatorului să selecteze informațiile necesare și să vizualizeze informații și materiale aferente [12] .

Dicționare electronice

Un dicționar electronic  este orice matrice ordonată, relativ finită de informații lingvistice prezentate sub forma unei liste, tabel sau listă, convenabilă pentru plasarea în memoria computerului și echipată cu programe de procesare și completare automată [14] .

Termenul dicționar electronic poate fi folosit pentru a se referi la orice material de referință stocat electronic care oferă informații despre ortografie, semnificație sau utilizare a cuvintelor. Astfel, un verificator ortografic într-un editor de text , un dispozitiv care scanează și traduce cuvinte tipărite și o versiune electronică a unui dicționar pe hârtie sunt toate dicționare electronice care au sisteme similare de stocare și recuperare [15] .

În (Nesy, 2000) [16] există mai multe categorii de dicționare electronice pentru învățarea limbilor: dicționare de internet, glosare pentru cursuri de învățare online, dicționare CD-ROM și dicționare electronice de buzunar. Nessi [17] enumeră câteva dintre cele mai faimoase dicționare de CD:

Dicționare online

Epoca internetului a făcut dicționarele online disponibile direct de pe desktop-ul unui computer, iar mai târziu de pe un smartphone. Skinner a remarcat în 2013: „Lista celor mai căutate cuvinte în dicționarul online Merriam-Webster include acum „holistic”, „pragmatic”, „avertizare”, „ezoteric” și „burghez”. Din punct de vedere istoric, scopul lexicografiei a fost de a explica cititorilor cuvinte necunoscute. Și dicționarele moderne fac față cu succes acestui lucru. [optsprezece]

Există un număr mare de site-uri web care acționează ca dicționare online, de obicei specializate într-un anumit domeniu. Unele dintre ele conțin doar datele (incluzând adesea neologisme) care au fost adăugate de utilizatori înșiși. Iată câteva dintre cele mai cunoscute exemple:

Relația cu sarcinile automate de procesare a textului

Lingvistica computațională diferă de metodele tradiționale de procesare a limbajului natural prin aceea că, în primul caz, atenția este concentrată pe modelarea a tot ceea ce lingvistica studiază în ansamblu, în timp ce în al doilea, atenția principală este acordată divizării procesului de înțelegere a limbii. și la corectitudinea și adecvarea lingvistică teoretică a modelelor propuse.

Lingvistica computațională este strâns legată de problema centrală a inteligenței artificiale  - reprezentarea electronică a cunoștințelor. Sarcina principală a lingvisticii computaționale este construirea de modele logico-lingvistice și algoritmii și programele corespunzătoare acestora [19] .

Rezolvarea polisemiei lexicale

Soluția la problema dezambiguizării lexicale (WSD) și dezvoltarea lexicografiei se avantajează reciproc: WSD oferă o grupare empirică a semnificațiilor și indicatori semnificativi statistic ai contextului pentru sensuri noi sau existente. În plus, WSD vă permite să creați o rețea semantică bazată pe dicționare care pot fi citite de mașină. Pe de altă parte, lexicografia oferă un set mai mare și mai bun de simțuri și o colecție de adnotări la semnificațiile cuvintelor, care pot fi de folos pentru WSD [20] .

Extragerea informațiilor [21]

Extragerea informațiilor [ 22] este  sarcina de a extrage automat date structurate (identificarea automată a tipurilor selectate de obiecte, relații sau evenimente) din documente nestructurate sau slab structurate, care pot fi citite de mașină .  Problema IE a fost identificată la Conferințele de înțelegere a mesajelor , unde sarcina principală a fost extragerea anumitor date din text și plasarea lor în sloturi date pentru șabloane. Completarea modelelor nu necesită analizarea completă a textului, acest lucru poate fi realizat prin potrivirea cu un anumit model (de exemplu, folosind expresii regulate). Sloturile modelului sunt umplute cu o serie de cuvinte, de obicei clasificate. De exemplu, nume de oameni, nume de organizații, elemente chimice etc.

Pentru a extrage numele persoanelor, de exemplu, se pot folosi șabloane care folosesc dicționare electronice care conțin liste de nume și abrevieri care preced numele persoanelor. Adesea listele pot fi foarte mari, cum ar fi o listă de nume de companii sau intrări în gazeter. Numele pot fi determinate destul de sigur fără a trece dincolo de simple liste, deoarece apar în text ca simple substantive. De asemenea, este posibil să recunoașteți și să caracterizați un eveniment dintr-un text folosind un astfel de model, dar trebuie folosite informații lexicale suplimentare.

Evenimentele sunt de obicei descrise prin verbe, iar această descriere poate fi exprimată în diferite modele sintactice. Deși aceste modele pot fi exprimate cu un anumit grad de certitudine (de exemplu, o companie a angajat o persoană sau o persoană a fost angajată de companie) ca bază pentru comparații de șiruri, această abordare nu atinge nivelul dorit de generalitate. Recunoașterea unui eveniment presupune o analiză parțială a propoziției.

O mai mare generalitate poate fi realizată prin extinderea șabloanelor claselor semantice necesare. Dicționarul electronic WordNet este utilizat pe scară largă în IE, în special, folosind relații hipernimice ca bază pentru definirea claselor semantice. Dezvoltarea ulterioară în IE va fi probabil însoțită de utilizarea unor vocabulare computaționale mai complexe.

Răspunsuri la întrebări [21]

Deși majoritatea cercetărilor pe tema „ Răspuns la întrebări ” au fost efectuate încă din anii 1960, adăugarea temei „Răspuns la întrebări” la conferința TREC din 1998 a făcut progrese semnificative în această direcție. De la început, cercetătorii au considerat această sarcină ca implicând procesare semantică și oferind un instrument convenabil pentru determinarea sensului cuvintelor . În general, acesta s-a dovedit a fi cazul, dar au existat multe nuanțe în tratarea diferitelor tipuri de întrebări. Tezaurul WordNet a început să fie folosit în aproape toate sistemele de întrebări și răspunsuri.

Întrebările sunt analizate pentru a determina ce „tip” de răspuns este necesar, cum ar fi întrebarea „Care este lungimea...?” necesită ca răspunsul să conțină un număr și o unitate de măsură; candidatul din răspuns utilizează datele WordNet pentru a determina dacă există un termen pentru o unitate de măsură. Explorarea modalităților de utilizare a WordNet în sarcina Întrebări și răspunsuri a demonstrat utilitatea relațiilor ierarhice și a altor tipuri de relații în dicționarele care pot fi citite de mașină.

Timp de mulți ani de desfășurare a temei „Răspunsuri la întrebări” la conferința TREC , metodele de rezolvare a acestei probleme au fost îmbunătățite constant, ceea ce a făcut posibilă adresarea întrebărilor din ce în ce mai complexe. Au fost inventate o mulțime de întrebări, pentru răspunsul la care se impune măcar analiza unor texte scurte care conțin răspunsul. Multe întrebări necesită un raționament mai abstract pentru a primi răspuns. Îmbunătățirile în răspunsul la întrebări vor continua să depindă în mare măsură de progresele în lexicografia computerizată.

Abstracting texte

Domeniul cercetării de rezumare automată a textului a beneficiat și de o serie de evenimente de evaluare cunoscute sub numele de Conferințe de înțelegere a documentelor (în 2004) [23] . În „rezumatul extractiv” ( ing.  rezumat extractiv ) (din text sunt extrase propoziții care sunt izbitor de diferite de altele), dicționarele de calculator sunt folosite mult mai puțin decât în ​​construirea adnotărilor ( ing.  rezumat abstractiv ). În cel de-al doilea caz, este necesară o analiză mai profundă a textului, care impune solicitări serioase unui dicționar care poate fi citit de mașină [23] .

Recunoașterea și sinteza vorbirii

Utilizarea dicționarelor electronice în tehnologiile de recunoaștere a vorbirii este limitată. Dicționarele care pot fi citite de mașină conțin de obicei pronunție, dar aceste informații oferă doar primul pas în rezolvarea problemei recunoașterii și sintezei vorbirii. Dicționarul electronic al vocabularului vorbirii include forma ortografică a cuvintelor sau pronunția canonică. Dicționarul de forme complete conține, de asemenea, toate formele de cuvinte din intrarea din dicționar; formele pot fi generate pe baza unor reguli, dar de obicei toate formele de cuvinte sunt pur și simplu stocate într-un dicționar [24] .

Cunoașterea pronunției canonice nu este suficientă pentru a procesa limbajul vorbit. Este necesar să se țină cont de variațiile de pronunție care rezultă din diferențele regionale, de influența limbii materne pentru străini, de dependența pronunției și de accentul de ordinea cuvintelor. Unele dintre aceste dificultăți pot fi rezolvate algoritmic, dar cele mai multe dintre ele pot fi rezolvate doar cu un set mai mare de informații. Ca urmare, bazele de date de vorbire conțin date empirice despre pronunția reală, fragmente de vorbire vorbită și notarea acesteia în scris. Aceste baze de date includ informații despre cei ale căror voci sunt înregistrate, tipul de vorbire, calitatea înregistrării și alte date. Cel mai important, aceste baze de date conțin date de vorbire sub forma unui semnal înregistrat în formă analogică sau digitală. Datorită cantităților mari de date implicate în implementarea principalelor sisteme de recunoaștere și sinteză a vorbirii, aceste sisteme nu conțin încă întreaga gamă de capabilități semantice și sintactice pentru procesarea datelor vocale [25] .

Beneficii

Dicționarele electronice sunt superioare omologilor de hârtie în funcționalitatea lor, având în același timp o serie de avantaje:

Probleme de lexicografie pe computer

Atunci când convertesc dicționare de hârtie în dicționare care pot fi citite de mașină ( w: Dicționar care poate fi citit de mașină ), oamenii de știință și programatorii se confruntă cu multe probleme:

  1. Analiza  este o sarcină care constă în extragerea informațiilor dintr-un dicționar de limbaj natural și prezentarea acesteia ca o structură arborescentă cu noduri care constau din atribute. Fiecare atribut are propria sa valoare [31] .
  2. Crearea unei baze de date lexicale  - sarcina este ca atunci când se creează o bază de date lexicală care stochează informațiile dicționarului format, este necesar să se asigure un acces rapid, flexibil și convenabil. De asemenea, înregistrările care vor fi stocate aici trebuie să aibă o formă structurată. Limbajul de interogare pentru această bază de date ar trebui să ofere cea mai convenabilă adăugare, modificare și ștergere a informațiilor [32] .
  3. Analiza lexicală a dicționarelor electronice  - sarcina este de a efectua o analiză a conținutului dicționarului (analiza lexicală a unui cuvânt, căutarea sinonimelor, căutarea legăturilor interne) [33] :
    1. Estimarea numărului de cuvinte cu mai multe valori-cu o singură valoare. Majoritatea cuvintelor din dicționare sunt clare, dar există cuvinte cu sensuri multiple. Sarcina este de a număra numărul de sensuri ale cuvintelor din dicționarul electronic și numărul de cuvinte polisemantice [34] ;
    2. Extragerea automată a relațiilor hiponim-hipernim . Sarcina este de a găsi toate perechile hiponim-hipernim pentru un anumit dicționar. Deoarece cuvintele sunt polisemantice, orice cuvânt poate avea mai multe hipernime, așa că dacă luați toate perechile hiponim-hipernime din dicționar ca grup, atunci după definiția lui Amsler [35] va fi o „ierarhie încurcată” ( ing.  ierarhie încâlcită ) [ 36] ;
    3. Afișarea valorilor la preluarea simultană din mai multe dicționare  - sarcina este de a compara semnificațiile unui cuvânt dat într-un dicționar cu valorile aceluiași cuvânt într-un alt dicționar (analog cu sarcina de mapare ontologie ). Rezolvarea problemei de afișare a valorilor este necesară pentru a combina datele din diferite dicționare. De exemplu, acest lucru ar permite ca informațiile gramaticale din Longman Dictionary of Contemporary English să fie corelate cu o definiție din Webster's Seventh Collegiate Dictionary [37] ;
    4. Definirea unei valori într-un singur dicționar . Relația de sinonimie (hiperonimie etc.) este relația dintre sensuri, nu cuvinte. Prin urmare, sarcina este de a alege sensul unui cuvânt polisemantic în cadrul aceluiași dicționar pentru a indica un sens sinonim. Această sarcină este strâns legată de cea anterioară, deoarece atunci când se compară valorile mai multor dicționare, este necesar să se selecteze automat valoarea corespunzătoare din lista tuturor valorilor enumerate în intrarea din dicționar [38] ;
    5. Extragerea de informații folosind un set de dicționare monolingve și de traducere  - ideea este de a prelua informații dintr-un dicționar monolingv pentru o anumită limbă și, folosind un dicționar tradus (bilingv) ca dispozitiv de transmisie, transferați informațiile unui dicționar monolingv într-o a doua limbă [39] .

Vezi și

Note

  1. Filippovici, 1999 .
  2. Tuzlukova V.I. - Tipologia surselor lexicografice pedagogice în lexicografia pedagogică internațională - Proceedings of the II International Scientific and Practical Conference - p.45 Cit. de: Kashevarova I. S. — Dicționar electronic ca o nouă etapă în dezvoltarea lexicografiei — Tânăr om de știință — 2010
  3. 1 2 Chepik, 2006 , p. 275.
  4. Litkowski, 2005 , p. 2.
  5. Amsler, RA Lexicologie computațională: un program de cercetare. În Actele Conferinței American Federated Information Processing Societies.—National Computer Conference. — 1982 Citat. de: Litkowski Lexiconi și dicționare de calcul// - 2004.
  6. Evens, M. și Smith, R. Un lexicon pentru un sistem computerizat de răspunsuri la întrebări.—American Journal of Computational Linguistics.—1978—Mf.81 Op. de: Litkowski Lexiconi și dicționare de calcul// - 2005.
  7. Amsler, RA Structura dicționarului de buzunar Merriam-Webster [Diss]—Austin: Universitatea din Texas.—1980 Op. de: Litkowski Lexiconi și dicționare de calcul// - 2005.
  8. Gove, P. (Ed.). Webster's Seventh New Collegiate Dictionary - G & C. Merriam Co. - 1972 Op. de: Litkowski Lexiconi și dicționare de calcul// - 2005.
  9. Proctor, P. (Ed.). Longman Dictionary of Contemporary English - Harlow, Essex - Anglia: Longman Group. — 1978 Citat. de: Litkowski Lexiconi și dicționare de calcul// - 2005.
  10. Baranov A.N., 2001 , p. 19.
  11. Baranov A.N., 2001 , p. 21.
  12. Chepik, 2006 , p. 277.
  13. Potapova R. K. Noi tehnologii informaționale și lingvistică. - M.: MGLU, 2002. - 575 p. Cit. Citat din: Tabanakova V.D., Kovyazina M.A. Un nou model de dicționar-tezaur ecologic bilingv. — Ural. stat ped. un-t, 2007. - P. 29 - 32
  14. Nelyubin L. L. Traducere și lingvistică aplicată. - M .: Şcoala superioară, 1983. - 208 p. Cit. Citat din: Sivakova N.A. Descriere lexicografică a fitonimelor engleze și ruse într-un glosar electronic // Tyumen. - 2004. - P. 11.
  15. Hilary NESI, 2000 , p. 839.
  16. Hilary NESI, 2000 , p. 842.
  17. Hilary NESI, 2000 , p. 843.
  18. David Skinner, 2013 .
  19. Shemyakin Yu.I., 2003 , p. 5.
  20. Navigli, 2009 , pp. 10-53.
  21. 12 Litkowski , 2005 , pp. 9-11.
  22. Grishman, R. Extragerea informațiilor. În R. Mitkov (Ed.) — Manualul Oxford de lingvistică computațională, Oxford University Press. 2003. Op. de: Litkowski Lexiconi și dicționare de calcul// - 2005.
  23. 12 Litkowski , 2005 , p. unsprezece.
  24. Litkowski, 2005 , p. 11-12.
  25. Litkowski, 2005 , p. 12.
  26. 1 2 3 4 Leonova A.V., 2012 , p. 2.
  27. 1 2 3 4 Chepik, 2005 , p. 207.
  28. 1 2 3 Kashevarova I.S., 2010 , p. 146.
  29. 1 2 Tuzlukova V. I. - Tipologia surselor lexicografice pedagogice în lexicografia pedagogică internațională - Actele celei de-a doua conferințe științifice și practice internaționale - p.47 Cit. de: Kashevarova I. S. — Dicționar electronic ca o nouă etapă în dezvoltarea lexicografiei — Tânăr om de știință — 2010
  30. Leonova A.V., 2012 , p. unu.
  31. Roy J., 1987 , pp. 220-223.
  32. Roy J., 1987 , pp. 223-225.
  33. Roy J., 1987 , pp. 225-226.
  34. Roy J., 1987 , p. 226.
  35. Amsler, 1980 .
  36. Roy J., 1987 , pp. 226-227.
  37. Roy J., 1987 , pp. 228-229.
  38. Roy J., 1987 , pp. 234-236.
  39. Roy J., 1987 , pp. 236-239.

Literatură

Link -uri