Corpus național rus | |
---|---|
URL | ruscorpora.ru |
Comercial | Nu |
Tip site | proiect educațional/științific |
Înregistrare | da : obligatoriu pentru a accesa textele; acord de licențiere |
limbi) | Rusă / Engleză |
Locația serverului | Rusia |
Proprietar | Institutul Limbii Ruse numit după V. V. Vinogradov RAS |
Începutul lucrării | 2003 |
Statusul curent | funcționează și se dezvoltă |
Corpusul național al limbii ruse (NCRL) este un corpus electronic online de texte rusești care poate fi căutat. Deschis pe 29 aprilie 2004 . Corpusul istoric al textelor în slavonă bisericească, rusă veche (secolele XI-XIV) și rusă centrală (secolele XV-începutul XVIII) este de asemenea disponibil pentru căutare.
Lucrările la crearea corpusului au fost începute în 2001 de un grup de filologi din Moscova , Sankt Petersburg , Voronezh și alte orașe.
Următoarele organizații participă la programul de creare a Corpusului Național al Limbii Ruse [1] :
Corpusul include atât texte scrise (ficțiune, memorii, jurnalism, literatură științifică, religioasă, tipărite de zi cu zi), cât și înregistrări ale textelor orale (discurs public și conversații private).
Corpusul include și sub-corpuse de texte poetice și dialectale , corpus de texte paralele (corpora paralele cu rusă sunt disponibile pentru următoarele limbi: engleză, armeană, belarusă, bulgară, buriată, spaniolă, italiană, chineză, letonă, germană, poloneză , ucraineană, franceză, suedeză, estonă și multilingv), un corpus separat de ziare (materiale media de la începutul secolului XXI), corpus slavon bisericesc (texte liturgice, modern (secolele XIX-XX) și perioade anterioare), istoric (inclusiv Rusă veche, Rusă veche, litere din scoarță de mesteacăn), subcorpusuri sintactice, accentologice, multimedia și didactice.
Din 2010, ca parte a subcorpusului istoric al Corpusului Național al Limbii Ruse, a fost disponibil un corpus de text de litere din scoarță de mesteacăn cu marcare morfologică completă. Textele literelor din scoarță de mesteacăn ca parte a corpusului sunt legate interactiv de prezentarea lor pe site-ul gramoty.ru [3] .
Volumul corpusului principal din iunie 2022 a fost de 375 de milioane de utilizări de cuvinte, iar volumul total de corpus depășește 1,5 miliarde de utilizări de cuvinte [4] .
Textele sunt prevăzute cu meta-marcare (după data creării, autor, gen etc.); formele de cuvinte din texte sunt echipate cu marcaj morfologic și semantic automat; textele paralele sunt aliniate; textele corpusului poetic sunt prevăzute şi cu marcaje metrice speciale.
1,5% din texte sunt prevăzute cu marcaje morfologice [5] și semantice [6] cu omonimie eliminată manual („subcorpus dezambiguat”).
Cadru | Numărul de texte | Numar de oferte | Numărul de utilizări ale cuvintelor | % din utilizarea cuvintelor |
---|---|---|---|---|
Dezambiguirovannaya parte a corpului | 2 mii | 500 de mii | 6 milioane | 1,6% |
Cladirea principala | 84 mii | 19,1 milioane | 209 milioane | 57,3% |
Tot corpul | 342 mii | 32 de milioane | 364 milioane | 100 % |
În prezent , numai căutarea în corpus este gratuită și gratuită . Site-ul web corpus și căutarea acestuia sunt întreținute de compania Yandex , ai cărei angajați au luat parte și la dezvoltarea software-ului corpus. Accesul la întregul corpus (copierea și transferul bazei de date) este interzis prin contractul de licență. Pentru a obține acces la 1/6 din partea marcată a subcorpusului, trebuie să vă înregistrați și să acceptați acordul de licență [7] . Problema restricției de acces se dorește a fi rezolvată prin proiectul Open Corpus, care creează și un corpus al limbii ruse, dar sub licență liberă [8] .
Lingvistica corpusului | |
---|---|
corpuri engleze |
|
Corpuri în limba rusă |
|
Corpora în alte limbi |
|
Organizații |