Corpus național rus

Corpus național rus
URL ruscorpora.ru
Comercial Nu
Tip site proiect educațional/științific
Înregistrare da : obligatoriu pentru a accesa textele; acord de licențiere
limbi) Rusă / Engleză
Locația serverului Rusia
Proprietar Institutul Limbii Ruse numit după V. V. Vinogradov RAS
Începutul lucrării 2003
Statusul curent funcționează și se dezvoltă

Corpusul național al limbii ruse (NCRL) este un corpus  electronic online de texte rusești care poate fi căutat. Deschis pe 29 aprilie 2004 . Corpusul istoric al textelor în slavonă bisericească, rusă veche (secolele XI-XIV) și rusă centrală (secolele XV-începutul XVIII) este de asemenea disponibil pentru căutare.

Compilatoare

Lucrările la crearea corpusului au fost începute în 2001 de un grup de filologi din Moscova , Sankt Petersburg , Voronezh și alte orașe.

Următoarele organizații participă la programul de creare a Corpusului Național al Limbii Ruse [1] :

Componența corpului

Corpusul include atât texte scrise (ficțiune, memorii, jurnalism, literatură științifică, religioasă, tipărite de zi cu zi), cât și înregistrări ale textelor orale (discurs public și conversații private).

Corpusul include și sub-corpuse de texte poetice și dialectale , corpus de texte paralele (corpora paralele cu rusă sunt disponibile pentru următoarele limbi: engleză, armeană, belarusă, bulgară, buriată, spaniolă, italiană, chineză, letonă, germană, poloneză , ucraineană, franceză, suedeză, estonă și multilingv), un corpus separat de ziare (materiale media de la începutul secolului XXI), corpus slavon bisericesc (texte liturgice, modern (secolele XIX-XX) și perioade anterioare), istoric (inclusiv Rusă veche, Rusă veche, litere din scoarță de mesteacăn), subcorpusuri sintactice, accentologice, multimedia și didactice.

Din 2010, ca parte a subcorpusului istoric al Corpusului Național al Limbii Ruse, a fost disponibil un corpus de text de litere din scoarță de mesteacăn cu marcare morfologică completă. Textele literelor din scoarță de mesteacăn ca parte a corpusului sunt legate interactiv de prezentarea lor pe site-ul gramoty.ru [3] .

Volumul corpului

Volumul corpusului principal din iunie 2022 a fost de 375 de milioane de utilizări de cuvinte, iar volumul total de corpus depășește 1,5 miliarde de utilizări de cuvinte [4] .

Textele sunt prevăzute cu meta-marcare (după data creării, autor, gen etc.); formele de cuvinte din texte sunt echipate cu marcaj morfologic și semantic automat; textele paralele sunt aliniate; textele corpusului poetic sunt prevăzute şi cu marcaje metrice speciale.

1,5% din texte sunt prevăzute cu marcaje morfologice [5] și semantice [6] cu omonimie eliminată manual („subcorpus dezambiguat”).

Cadru Numărul de texte Numar de oferte Numărul de utilizări ale cuvintelor % din utilizarea cuvintelor
Dezambiguirovannaya parte a corpului 2 mii 500 de mii 6 milioane 1,6%
Cladirea principala 84 mii 19,1 milioane 209 milioane 57,3%
Tot corpul 342 mii 32 de milioane 364 milioane 100 %

Acces

În prezent , numai căutarea în corpus este gratuită și gratuită . Site-ul web corpus și căutarea acestuia sunt întreținute de compania Yandex , ai cărei angajați au luat parte și la dezvoltarea software-ului corpus. Accesul la întregul corpus (copierea și transferul bazei de date) este interzis prin contractul de licență. Pentru a obține acces la 1/6 din partea marcată a subcorpusului, trebuie să vă înregistrați și să acceptați acordul de licență [7] . Problema restricției de acces se dorește a fi rezolvată prin proiectul Open Corpus, care creează și un corpus al limbii ruse, dar sub licență liberă [8] .

Vezi și

Note

  1. Participanții la proiect . Corpus Național al Limbii Ruse . Preluat la 7 martie 2018. Arhivat din original pe 8 martie 2018.
  2. Despre proiect. Corpusuri paralele de texte scrise . Corpus Național al Limbii Ruse . Preluat la 7 martie 2018. Arhivat din original pe 8 martie 2018.
  3. Zaliznyak A. A., Yanin V. L., Gippius A. A. Novgorod scrisori pe scoarța de mesteacăn (din săpăturile din 2001-2014) Copie de arhivă datată 27 martie 2019 la Wayback Machine . Volumul XII. - M .: Limbi culturii slave, 2015. - 288 p.
  4. Corpus Național al Limbii Ruse . ruscorpora.ru. Preluat la 7 martie 2018. Arhivat din original la 7 octombrie 2011.
  5. Morfologie . Corpus Național al Limbii Ruse . Preluat la 7 martie 2018. Arhivat din original la 19 februarie 2018.
  6. Semantică . Corpus Național al Limbii Ruse . Preluat la 7 martie 2018. Arhivat din original la 19 februarie 2018.
  7. Utilizarea corpului. Acord de licență . Corpus Național al Limbii Ruse . Preluat la 7 martie 2018. Arhivat din original pe 8 martie 2018.
  8. OpenCorpora: corpus deschis al limbii ruse . opencorpora.org . Preluat la 26 ianuarie 2022. Arhivat din original la 26 ianuarie 2022.

Literatură

Link -uri