SinTagRus

SinTagRus
Volumul carcasei peste 1,1 milioane de cuvinte
Limba Rusă
Tipuri de marcare de bază morfologic , sintactic , lexico- semantic
Compilatoare Laboratorul de Lingvistică Computațională IPTP RAS
data creării 1998
Acces gratuit
Licență proprietate
Site-ul web proling.iitp.ru/ru/proje…

SynTagRus ( eng.  SynTagRus , prescurtare pentru engleză.  Syntactically Tagged Russian text corpus , „corpus adnotat sintactic de texte rusești”) este un corpus profund adnotat de texte rusești , primul corpus de texte rusești cu marcaj sintactic . Acesta a fost dezvoltat din 1998 de Laboratorul de Lingvistică Computațională al IPTP RAS în cooperare cu Sectorul de Semantică Teoretică al IRL RAS . Corpusul este format din texte de diferite genuri; numărul total de utilizări de cuvinte este mai mare de 1 milion .

SynTagRus se bazează pe ideologia procesorului lingvistic polivalent ETAP . O caracteristică a corpusului este prezența mai multor niveluri de adnotare de diferite adâncimi, inclusiv marcajul morfologic și sintactic complet cu omonimia eliminată . Limbajul de marcare este XML .

SynTagRus este distribuit sub o licență necomercială . În plus, corpus a fost convertit în diferite formate; unele dintre aceste versiuni (sau convertizoare) sunt în domeniul public, iar o versiune limitată a corpusului original face parte din Corpusul național rus .

Istorie

Apariția corpurilor de marcaj sintactic la începutul anilor 1990 a dus la dezvoltarea unor metode empirice în problemele de procesare a limbajului natural . Mai mult decât atât, utilizarea unor astfel de corpuri și-a găsit aplicația nu numai în contextul analizei sintactice în sine, ci și într-o serie de alte sarcini, inclusiv rezoluția polisemiei lexicale , analiza semantică etc. [1]

Până la sfârșitul anilor 1990, au fost create corpuri adnotate pentru majoritatea limbilor europene majore , în timp ce astfel de corpuri nu existau de fapt pentru limba rusă [2] . Mai mult, nici corpurile nemarcate care existau la acea vreme (de exemplu, Corpusul textelor rusești din Uppsala ) nu erau disponibile public [3] .

Din aceste motive, din 1998 [4] a început dezvoltarea primului corpus adnotat al limbii ruse SinTagRus [2] [5] , care a devenit ulterior standardul printre corpus cu marcaj sintactic [6] . În același timp, dezvoltatorii au luat parte și la crearea Corpusului Național al Limbii Ruse; în special, SynTagRus (cu unele restricții) a fost o parte integrală, dar complet autonomă a NCRP de la crearea acestuia din urmă [7] [8] . În NKRY pentru SinTagRus (ca subcorpus) este folosit și numele „corpus adnotat profund” [9] .

Dezvoltarea SinTagRus este realizată de Laboratorul de Lingvistică Computațională al IPTP RAS în cooperare cu Sectorul de Semantică Teoretică al IRL RAS [10] .

Componența corpului

Materialul sursă pentru SinTagRus a fost Corpusul textelor rusești din Uppsala : aproximativ 10.000 de propoziții au fost preluate din textele de ficțiune. Ulterior, la corpus au fost adăugate texte scurte (până la 30 de propoziții), preluate de pe site-urile publicațiilor de știri populare ( yandex.ru , rbc.ru , polit.ru , lenta.ru , strana.ru , news.ru ) [ 2] [11] .

SynTagRus este în continuă evoluție și din 2020 are aproximativ 77 de mii de propoziții (mai mult de 1,1 milioane de cuvinte utilizate) [12] preluate din textele următoarelor genuri [13] [8] [14] :

Tipuri și format de marcare

O caracteristică distinctivă a SynTagRus în comparație cu alte corpuri adnotate ale limbii ruse este prezența mai multor niveluri de adnotare de diferite adâncimi, care pot fi extrase independent din corpus, iar numărul acestor niveluri este potențial nelimitat. Limbajul de marcare al corpusului este XML , iar formatul de marcare este compatibil cu formalismul TEI , cu excepția unor elemente și atribute introduse suplimentar [2] . Practic, marcarea textului liber se face în doi pași [11] :

  1. Marcare preliminară a textului în modul automat prin intermediul procesorului lingvistic ETAP, care este o implementare practică a modelului Sens-Text .
  2. Verificarea și, dacă este necesar, corectarea marcajului de către un lingvist expert .

Următoarele vor enumera tipurile de marcare disponibile în corpus.

Împărțirea textului în propoziții și elemente lexicale

Fiecare text din SinTagRus este împărțit în propoziții. Fiecare propoziție este un element numit S și fiecare astfel de element are un atribut ID a cărui valoare este numărul de serie al propoziției din text. În mod similar, fiecare propoziție este împărțită în elemente lexicale numite W , iar fiecare astfel de element are un atribut ID , a cărui valoare este numărul ordinal al cuvântului din această propoziție [11] . Semnele de punctuație sunt formatate ca textul etichetei propoziției (păstrând poziția lor relativă în textul sursă) și nu sunt exprimate prin propriile etichete [15] .

Markup morfologic

Structura morfologică a unei forme de cuvânt este numele unui lexem , sau lemei , căruia i se atribuie o parte de vorbire și caracteristici morfologice , adică semnificațiile categoriilor morfologice corespunzătoare . Pentru forma corespunzătoare a cuvântului, lema este valoarea atributului LEMMA , iar partea de vorbire și caracteristicile morfologice împreună sunt valoarea atributului FEAT [8] [16] .

Descrierea marcajului morfologic [17] Părți de vorbire folosite Caracteristici morfologice utilizate

Markup sintactic

Marcarea sintactică a propozițiilor corpus se realizează în cadrul gramaticii dependenței : structura sintactică este un arbore orientat , ale cărui noduri sunt cuvinte, iar fiecare margine este direcționată de la cuvântul principal la cuvântul servitor și corespunde unei relații sintactice . . Cuvântul corespunzător rădăcinii arborelui se numește vârful propoziției și, spre deosebire de restul cuvintelor din propoziție, nu depinde sintactic de niciunul. Grupurile sintactice sunt aranjate sub forma unor subarbori ai arborelui sursă: în fiecare astfel de subarbore, unul dintre membrii grupului este reprezentantul său în relațiile externe și îi subordonează pe restul membrilor grupului [18] . În total, în SinTagRus se disting aproximativ 70 de tipuri de relații sintactice [13] .

Relații sintactice folosite [17] Relații sintactice actante Relații sintactice de atribute Coordonarea relațiilor sintactice Relații sintactice de serviciu

Pentru a înregistra informații despre structura sintactică a unei propoziții în SynTagRus, sunt utilizate două atribute ale fiecărui cuvânt al propoziției: DOM , a cărui valoare este ID -ul cuvântului gazdă și LINK , a cărui valoare este numele relația sintactică corespunzătoare [16] . Partea de sus a propoziției are valoarea specială a atributului _root DOM [19] .

Markup lexico-semantic

Fiecărei forme de cuvânt, în plus față de lemă , i se atribuie atributul KSNAME , a cărui valoare este numele intrării corespunzătoare din dicționarul explicativ-combinatorial al procesorului lingvistic ETAP. Datorită acestui fapt, pe de o parte, se precizează semnificația cuvintelor polisemantice și omonime , iar pe de altă parte, se stabilește o legătură cu intrările din dicționar, care este folosit de procesorul ETAP, și informațiile conținute în acestea. devin disponibile intrări despre proprietățile semantice ale cuvintelor [10] .

Markup lexico-funcțional

Propozițiile sunt marcate cu fraze care pot fi interpretate în termeni de funcții lexicale . Pentru a marca astfel de fraze în interiorul propoziției, elemente suplimentare sunt create separat de formele de cuvânt în sine [13] .

Markup micro-sintactic

Unitățile microsintactice din SynTagRus sunt înțelese ca unități frazeologice cu specific sintactic [20] . Un exemplu este prepoziţia compusă în vigoare . Pe de o parte, este apropiat din punct de vedere sintactic de prepozițiile primitive. Într-adevăr, este imposibil să se insereze o definiție pronominală unui substantiv între elementele acestei prepoziții, ca și în alte construcții prepoziționale de tip în forma , în caz , etc. În plus, dacă pronumele personal de persoana a treia este subiect la această prepoziţie din propoziţie, apoi în cele mai multe cazuri iniţiala n- , ca în cazul prepoziţiilor primitive. Pe de altă parte, prima parte a unor conjuncții pereche , precum și particula dacă sau , pot fi situate între prepoziția în vigoare și substantivul care depinde de aceasta, ceea ce face imposibilă atribuirea acestei prepoziții primitivilor [21] .

Dacă o unitate microsintactică apare într-o propoziție a corpusului, atunci se adaugă un nou atribut de propoziție - MICROSYNT , a cărui valoare este numele unității microsintactice corespunzătoare și limitele sale liniare [20] .

Markup anaforic

Pentru un pronume anaforic întâlnit în text , este indicat antecedentul acestuia , adică expresia la care se referă acest pronume. O propoziție în care se găsește un pronume anaforic are un atribut COREF suplimentar a cărui valoare este o listă de perechi pronume-antecedent corespunzătoare pronumelui dat. Pentru fiecare pronume anaforic se indică poziția sa liniară în propoziție, iar pentru antecedent, în plus, se indică suplimentar în ce propoziție față de cea luată în considerare se află (în cadrul a trei propoziții în ambele sensuri) [4] .

Prelucrarea structurilor eliptice

În SynTagRus, fragmentele omise de propoziții eliptice sunt restaurate în mod explicit. Forma de cuvânt restaurată corespunzătoare este marcată în același mod ca și alte forme de cuvânt; în special, toate legăturile sintactice necesare sunt extrase din astfel de cuvinte „fantomă”. Această formă de cuvânt i se atribuie atributul NODETYPE cu valoarea FANTOM [2] [22] .

Folosind corpul

SynTagRus este utilizat în diverse domenii. Pe de o parte, cercetarea pur lingvistică se desfășoară pe baza acesteia, atât teoretică, cât și practică (în special, în domeniul lexicografiei ). Pe de altă parte, corpus își găsește aplicarea în sarcinile lingvisticii computaționale ca sursă de date lingvistice, de exemplu, atunci când se creează analizatori . Aceste sarcini pot fi rezolvate folosind diferite formate de marcare. În același timp, combinarea mai multor clădiri cu marcaje diferite într-o singură face pe aceasta din urmă mai reprezentativă. Aceste împrejurări conduc la problema conversiei corpusului [4] .

Au existat încercări repetate de a traduce SynTagRus în alte formate de marcare: se știe că experimentele convertesc corpus în formatele HPSG și PDT [13] . În plus, SynTagRus a fost convertit cu succes în formatele CoNLL-U [22] , PTB [23] și SD [24] . Cu toate acestea, conversia , în primul rând, a vizat în toate cazurile numai marcaje morfologice și sintactice, iar în al doilea rând, a fost efectuată automat, ceea ce a devenit un obstacol în calea conversiei cu drepturi depline. Deci, de exemplu, partea de vorbire NID nu a putut fi tradusă fără ambiguitate în formatul CoNLL-U (în care nu există o astfel de parte de vorbire) automat, astfel încât toate propozițiile SinTagRus în care cel puțin o formă de cuvânt aveau astfel de o parte a vorbirii au fost excluse din corpus înainte de convertire [22] .

Acces

SynTagRus este distribuit gratuit sub o licență necomercială [25] . În plus, o versiune a corpusului fără anumite tipuri de markup este disponibilă pentru utilizare necomercială în scopuri de cercetare și predare ca subcorpus al Corpusului național al limbii ruse și este în domeniul public [13] , precum și versiuni în formatele CoNLL-U (licență CC BY-NC-SA 4.0 ) [22] și PTB (disponibil doar convertor) [23] .

Note

  1. Eric Brill , Raymond J. Mooney. O privire de ansamblu asupra procesării empirice a limbajului natural  //  AI Magazine. - AAAI, 1997. - Vol. 18 , nr. 4 . - P. 13-24 .
  2. 1 2 3 4 5 Boguslavsky I. M. , Grigoriev N. V. , Grigorieva S. A. , Kreydlin L. G. , Frid N. E. Un corpus adnotat de texte rusești: concept, instrumente de marcare, tipuri de informații  // Proceedings Seminarul internațional și aplicațiile sale „lingvistică computațională” ". - Protvino, 2000. Arhivat la 31 iulie 2019.
  3. Reznikova T. I. , Kopotev M. V. Corpuri adnotate lingvistic ale limbii ruse (revizuire a resurselor publice)  // Corpus național al limbii ruse: 2003-2005. - M .: Indrik , 2005. - S. 31-61 . Arhivat din original pe 31 iulie 2019.
  4. 1 2 3 Inshakova E. S. , Iomdin L. L. , Mityushin L. G. , Sizov V. G. , Frolova T. I. , Tsinman L. L. SinTagRus today  // Proceedings of the Institute of the Russian Language. V. V. Vinogradova. - M . : „Nestor-Istorie”, 2019. - Numărul. 21 . - S. 14-40 . Arhivat 26 martie 2020.
  5. Moskvina A. D. , Orlova D. , Panicheva P. V. , Mitrofanova O. A. Development of a parser core for the Russian based on NLTK libraries  // Proceedings of the United Scientific Conference „Internet and Modern Society”. - 2016. - S. 44-54 . Arhivat din original pe 10 octombrie 2019.
  6. Kibrik A. E. , Fedorova O. V., Tatevosov S. G. , Lyutikova E. A., Kibrik A. A. , Kobozeva I. M. , Falikman M. V., Chenki A., Sekerina I. , Nikolaeva Yu. V., Daniel' M. A., I. B. Bergel M. O.V. S. Yu., Bonch-Osmolovskaya A. A. , Podlesskaya V. I. , Krivnova O. F. Corpus lingvistic // Introducere în știința limbajului / ed. O. V. Fedorova și S. G. Tatevosov. - M. : Buki Vedi, 2019. - S. 420. - 672 p. — ISBN 978-5-4465-2188-3 .
  7. Sichinava D.V. Corpus național al limbii ruse: o schiță de preistorie  // Corpus național al limbii ruse: 2003-2005. - M. : Indrik, 2005. - S. 21-30 . Arhivat din original pe 31 iulie 2019.
  8. 1 2 3 Apresyan Yu. D. , Boguslavsky I. M. , Iomdin B. L. , Iomdin L. L. , Sannikov A. V. , Sannikov V. Z. , Sizov V. G. , Tsinman L. L. Syntactically and semanticically adnotated language and corpus of the Russian adnotat : corpus of the current state of the Russian adnotat  // corpus Limba rusă: 2003-2005. - M. : Indrik, 2005. - S. 193-214 . Arhivat din original pe 31 iulie 2019.
  9. Zaharov V.P. , Bogdanova S.Yu. Corpus lingvistics . - Ed. a 3-a, revizuită. - Sankt Petersburg. : St. Petersburg University Press, 2020. - P. 47. - 234 p. - ISBN 978-5-288-05997-1 .
  10. 1 2 Apresyan Yu. D. , Iomdin L. L. , Sannikov A. V. , Sizov V. G. Markup semantic într-un corpus profund adnotat al limbii ruse  // Proceedings of the International Conference „Corpus Linguistics-2004”. - Sankt Petersburg. : Universitatea de Stat din Sankt Petersburg, 2004. - S. 41-54 . Arhivat din original pe 31 iulie 2019.
  11. 1 2 3 Boguslavsky I. M. , Grigoriev N. V. , Iomdin L. L. , Kreydlin L. G. , Frid N. E. , Chardin I. S. Dezvoltarea unui corpus marcat sintactic al limbii ruse  // Rapoarte ale conferinței științifice „Corpus Linguistic Database and Linguistic Database”. - Sankt Petersburg. : Universitatea de Stat din Sankt Petersburg, 2002. - S. 40-50 . Arhivat din original pe 31 iulie 2019.
  12. Lingvistică corpus . Laboratorul de Lingvistică Computațională IPTP RAS (11 februarie 2020). Preluat la 12 februarie 2020. Arhivat din original la 22 februarie 2020.
  13. 1 2 3 4 5 Dyachenko P. V. , Iomdin L. L. , Lazursky A. V. , Mityushin L. G. , Podlesskaya O. Yu. , Sizov V. G. , Frolova T. I. , Tsinman L. )  // Colecția „Corpusul național al limbii ruse: 10 ani de proiect”. - M . : Actele Institutului Limbii Ruse. V. V. Vinogradova, 2015. - Numărul. 6 . - S. 272-299 . Arhivat din original pe 31 iulie 2019.
  14. Boguslavsky I. , Iomdin L. , Sizov V. , Tsinman L. , Petrochenkov V. Analizator de dependență bazat pe reguli rafinat de și statistici empirice de corpus  //  Proceedings of the International Conference on Dependency Linguistics. - 2011. - P. 318-327 . Arhivat din original pe 31 iulie 2019.
  15. Droganova K. , Lyashevskaya O. , Zeman D. Conversia datelor și consistența corpurilor monolingve: Russian UD treebanks  (engleză)  // Proceedings of the 17th International Workshop on Treebanks and Linguistic Theories (TLT 2018). - Universitatea din Oslo, Norvegia: Linköping University Electronic Press, 2018. - P. 52-65 . Arhivat 19 martie 2020.
  16. 1 2 Igor Boguslavsky , Ivan Chardin , Svetlana Grigorjeva , Nikolai Grigoriev , Leonid Iomdin , Leonid Kreydlin , Nadejda Frid. Dezvoltarea unui arbore de dependență pentru limba rusă și posibilele sale aplicații în NLP  (engleză)  // Proceedings of the Third International Conference on Language Resources and Evaluation (LREC-2002). — Las Palmas, 2002. — Vol. III . - P. 852-856 . Arhivat din original pe 10 august 2017.
  17. 1 2 Corpus marcat sintactic al limbii ruse: informații pentru utilizatori . Corpus Național al Limbii Ruse . Preluat la 29 martie 2020. Arhivat din original la 25 martie 2020.
  18. Apresyan Y. D. , Boguslavsky I. M. , Iomdin L. L. , Lazursky A. V. , Mityushin L. G. , Sannikov V. Z. , Tsinman L. L. Procesor lingvistic pentru sisteme informatice complexe. - M .: Science , 1992. - S. 32-40, 56-73. — 256 p.
  19. Leonid Iomdin , Victor Sizov. Editor de structură: un mediu puternic pentru corporații etichetate  //  Infrastructură de cercetare pentru lexicografia digitală. - Ljubljana: Institutul Jožef Stefan, 2009. - P. 1-12 .
  20. 1 2 Iomdin L. L. Markup microsintactic în corpus de texte rusești  // Actele conferinței științifice internaționale „Corpus Linguistics - 2017”. - Sankt Petersburg. : Universitatea de Stat din Sankt Petersburg, 2017. - S. 188-194 . Arhivat din original pe 20 noiembrie 2021.
  21. Iomdin L. L. În profunzimile microsintaxei: o clasă lexicală de fraze sintactice  // Computer Linguistics and Intelligent Technologies. - M. : RGGU, 2008. - S. 178-184 . Arhivat din original pe 29 august 2019.
  22. 1 2 3 4 Droganova K. , Zeman D. Conversion of SynTagRus (the Russian dependency treebank) to Universal Dependencies  (engleză)  // Raport tehnic. — Institute of Formal and Applied Linguistics, Facultatea de Matematică și Fizică, Charles University, 2016. Arhivat din original pe 8 iunie 2021.
  23. 1 2 Luu A. , Malamud SA , Xue N. Converting SynTagRus dependency treebank into Penn treebank style  //  Proceedings of the 10th Linguistic Annotation Workshop ținut împreună cu ACL 2016 (LAW-X 2016). - 2016. - P. 16-21 . Arhivat din original pe 27 februarie 2019.
  24. Lipenkova J. , Souček M. Converting Russian dependency treebank to Stanford typed dependencies representation  (engleză)  // Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics. - 2014. - Vol. 2 . - P. 143-147 . Arhivat din original pe 8 iunie 2018.
  25. Lyashevskaya O. N. Instrumente de corpus în studiile gramaticale ale limbii ruse. - M . : Editura YASK, 2016. - S. 193. - 520 p.

Link -uri