Corpus național rus

Corpus național rus
URL	ruscorpora.ru
Comercial	Nu
Tip site	proiect educațional/științific
Înregistrare	da : obligatoriu pentru a accesa textele; acord de licențiere
limbi)	Rusă / Engleză
Locația serverului	Rusia
Proprietar	Institutul Limbii Ruse numit după V. V. Vinogradov RAS
Începutul lucrării	2003
Statusul curent	funcționează și se dezvoltă

Corpusul național al limbii ruse (NCRL) este un corpus electronic online de texte rusești care poate fi căutat. Deschis pe 29 aprilie 2004 . Corpusul istoric al textelor în slavonă bisericească, rusă veche (secolele XI-XIV) și rusă centrală (secolele XV-începutul XVIII) este de asemenea disponibil pentru căutare.

Compilatoare

Lucrările la crearea corpusului au fost începute în 2001 de un grup de filologi din Moscova , Sankt Petersburg , Voronezh și alte orașe.

Următoarele organizații participă la programul de creare a Corpusului Național al Limbii Ruse [1] :

Institutul Limbii Ruse numit după V. V. Vinogradov RAS (IRL RAS).
Institutul de Lingvistică RAS (ILS RAS).
Institutul pentru Probleme de Transmitere a Informației numit după A. A. Kharkevich RAS (IITP RAS).
Institutul de Studii Lingvistice al Academiei Ruse de Științe (IL RAS) din Sankt Petersburg (împreună cu Universitatea de Stat din Sankt Petersburg (SPbGU)).
Universitatea de Stat Voronezh [2] .

Componența corpului

Corpusul include atât texte scrise (ficțiune, memorii, jurnalism, literatură științifică, religioasă, tipărite de zi cu zi), cât și înregistrări ale textelor orale (discurs public și conversații private).

Corpusul include și sub-corpuse de texte poetice și dialectale , corpus de texte paralele (corpora paralele cu rusă sunt disponibile pentru următoarele limbi: engleză, armeană, belarusă, bulgară, buriată, spaniolă, italiană, chineză, letonă, germană, poloneză , ucraineană, franceză, suedeză, estonă și multilingv), un corpus separat de ziare (materiale media de la începutul secolului XXI), corpus slavon bisericesc (texte liturgice, modern (secolele XIX-XX) și perioade anterioare), istoric (inclusiv Rusă veche, Rusă veche, litere din scoarță de mesteacăn), subcorpusuri sintactice, accentologice, multimedia și didactice.

Din 2010, ca parte a subcorpusului istoric al Corpusului Național al Limbii Ruse, a fost disponibil un corpus de text de litere din scoarță de mesteacăn cu marcare morfologică completă. Textele literelor din scoarță de mesteacăn ca parte a corpusului sunt legate interactiv de prezentarea lor pe site-ul gramoty.ru [3] .

Volumul corpului

Volumul corpusului principal din iunie 2022 a fost de 375 de milioane de utilizări de cuvinte, iar volumul total de corpus depășește 1,5 miliarde de utilizări de cuvinte [4] .

Textele sunt prevăzute cu meta-marcare (după data creării, autor, gen etc.); formele de cuvinte din texte sunt echipate cu marcaj morfologic și semantic automat; textele paralele sunt aliniate; textele corpusului poetic sunt prevăzute şi cu marcaje metrice speciale.

1,5% din texte sunt prevăzute cu marcaje morfologice [5] și semantice [6] cu omonimie eliminată manual („subcorpus dezambiguat”).

Cadru	Numărul de texte	Numar de oferte	Numărul de utilizări ale cuvintelor	% din utilizarea cuvintelor
Dezambiguirovannaya parte a corpului	2 mii	500 de mii	6 milioane	1,6%
Cladirea principala	84 mii	19,1 milioane	209 milioane	57,3%
Tot corpul	342 mii	32 de milioane	364 milioane	100 %

Acces

În prezent , numai căutarea în corpus este gratuită și gratuită . Site-ul web corpus și căutarea acestuia sunt întreținute de compania Yandex , ai cărei angajați au luat parte și la dezvoltarea software-ului corpus. Accesul la întregul corpus (copierea și transferul bazei de date) este interzis prin contractul de licență. Pentru a obține acces la 1/6 din partea marcată a subcorpusului, trebuie să vă înregistrați și să acceptați acordul de licență [7] . Problema restricției de acces se dorește a fi rezolvată prin proiectul Open Corpus, care creează și un corpus al limbii ruse, dar sub licență liberă [8] .

Vezi și

Note

↑ Participanții la proiect . Corpus Național al Limbii Ruse . Preluat la 7 martie 2018. Arhivat din original pe 8 martie 2018. (nedefinit)
↑ Despre proiect. Corpusuri paralele de texte scrise . Corpus Național al Limbii Ruse . Preluat la 7 martie 2018. Arhivat din original pe 8 martie 2018. (nedefinit)
↑ Zaliznyak A. A., Yanin V. L., Gippius A. A. Novgorod scrisori pe scoarța de mesteacăn (din săpăturile din 2001-2014) Copie de arhivă datată 27 martie 2019 la Wayback Machine . Volumul XII. - M .: Limbi culturii slave, 2015. - 288 p.
↑ Corpus Național al Limbii Ruse . ruscorpora.ru. Preluat la 7 martie 2018. Arhivat din original la 7 octombrie 2011. (nedefinit)
↑ Morfologie . Corpus Național al Limbii Ruse . Preluat la 7 martie 2018. Arhivat din original la 19 februarie 2018. (nedefinit)
↑ Semantică . Corpus Național al Limbii Ruse . Preluat la 7 martie 2018. Arhivat din original la 19 februarie 2018. (nedefinit)
↑ Utilizarea corpului. Acord de licență . Corpus Național al Limbii Ruse . Preluat la 7 martie 2018. Arhivat din original pe 8 martie 2018. (nedefinit)
↑ OpenCorpora: corpus deschis al limbii ruse . opencorpora.org . Preluat la 26 ianuarie 2022. Arhivat din original la 26 ianuarie 2022. (nedefinit)

Literatură

Corpus național al limbii ruse: 2003-2005. Culegere de articole / Otv. ed. V. A. Plungyan . — M .: Indrik , 2005. — 502 p. — ISBN ISBN 5-85759-358-1 .
Corpus național al limbii ruse: 2006-2008. Noi rezultate și perspective / Ed. ed. V. A. Plungyan . - Sankt Petersburg. : Nestor-Istorie, 2009. - 502 p. — ISBN ISBN 978-5-98187-327-0 .
Plungyan V. A. De ce creăm Corpusul Național al Limbii Ruse? // Note interne . - 2005. - Nr 2 (23) .

Link -uri

Site-ul oficial

Lingvistica corpusului
corpuri engleze	Corpus național al englezei americane Bank of English Bergen Corpus of London Teenage Language corpul național britanic Corpus maro Buckeye Corpus Cambridge English Corpus Corpus de engleză americană modernă Enron Corpus Corpus internațional de engleză Lancaster-Oslo-Bergen Corpus Corpus englezesc de la Oxford Prop Bank Corpus englezesc vorbit TIMET VerbNet Corpus Wellington de engleză vorbită din Noua Zeelandă
Corpuri în limba rusă	Corpus general de internet al limbii ruse Corpus național rus Corpus deschis al limbii ruse SinTagRus Corpusul limbii ruse din Tübingen Corpus Uppsala de texte rusești Corpus adnotat de la Helsinki al limbii ruse
Corpora în alte limbi	Bijankhan Corpus COPII Corpus de croat Corpus național croat Europarl Corpus Mannheim corpus german Corpul Hamshahri Corpus național polonez Proiectul Corpus Text Neo-Asirian Corpus coranic Corpus Național Scoțian Corpus național sloven vorbesc banca Tatoeba Corpus monolingv Teheran Tekstaro de Esperanto Tezaur Linguae Graecae
Organizații	Consorțiul BNC COBUILD