Corpus general de internet al limbii ruse

Corpus general de internet al limbii ruse
URL	webcorpora.ru
Comercial	Nu
Tipul site-ului	proiect educațional/științific
Înregistrare	da : necesar pentru a accesa căutarea
limbi)	Rusă
Locația serverului	Rusia
Începutul lucrării	anul 2012
Statusul curent	funcționează și se dezvoltă

Corpusul general de internet al limbii ruse (GIKRYA) este un corpus electronic online de texte rusești care poate fi căutat de pe Internet. Deschis în 2013 . Corpusul include materiale text din blogosferă , rețele sociale , din cele mai mari resurse de știri și din reviste literare .

Obiectivele proiectului

Proiectul are statut de educațional și științific, iar multe probleme de lingvistică computațională sunt rezolvate de cercetători independenți și grupuri științifice pe baza materialului primit de GICR. În timp ce alte proiecte de corpus se concentrează pe ficțiune și texte editate , General Internet Corpus oferă lingviștilor ruși oportunitatea [1] de a studia limba așa cum este, cu toate caracteristicile regionale și argotice .

Corpul face posibil:

Studii lingvistice dintr-o gamă largă: studii dialectologice , studiul distribuției cuvintelor, studiul limbajului rețelelor sociale , studiul influenței genului , vârstei și a altor factori asupra limbii , frecvența cuvintelor, expresiile stabilite și diverse construcții, caracteristici stilistice ale textelor diferitelor segmente ale Internetului și așa mai departe;
Analiza rețelelor sociale ;
Învățare automată bazată pe corpus [2] , îmbunătățirea algoritmilor de etichetare automată.

În diferite momente, cercetări și cercetări independente asupra materialului proiectului au fost efectuate de studenți, studenți absolvenți și angajați ai Universității de Stat din Moscova , Institutului de Fizică și Tehnologie din Moscova , Universitatea de Stat Rusă pentru Științe Umaniste , Universitatea de Stat Novosibirsk, Universitatea Națională de Cercetare Școala Superioară de Economie , Institutul de Cercetări Nucleare, Academia Rusă de Științe , Universitatea Federală de Sud , ChSU , VGPU , ISAA MSU .

Supraveghetori științifici ai proiectului:

Belikov V. I. - Universitatea de Stat din Moscova , Universitatea Umanitară de Stat Rusă , Moscova , Rusia ;
Selegey V.P. - Universitatea de Stat Rusă pentru Științe Umaniste ; MIPT ; ABBYY , Moscova , Rusia ;
Sharov S. A. - Universitatea Rusă de Stat pentru Științe Umaniste , Moscova , Rusia ; Universitatea din Leeds , Marea Britanie [3] .

La crearea și susținerea proiectului au participat următoarele persoane:

Volumul și compoziția corpului

Volumul corpusului pentru vara anului 2016 este de 19,8 miliarde de cuvinte, dintre care 49 % sunt pe Vkontakte , 40% pe LiveJournal , alți 4% pe [email protected] și News și 2% pe Sala Jurnal [4] . Segmentul Știri conține materiale din surse: RIA Novosti , Regnum , Lenta.ru , Rosbalt . Textele sunt furnizate cu meta-markup (până la data creării textului, sexul, locul și anul nașterii autorului, genul de pe internet și așa mai departe); toate textele sunt echipate cu marcaj morfologic automat și lematizate [4] . Majoritatea textelor sunt create de înregistrări pentru 2013-2014 , deși unele segmente, de exemplu, în Sala Jurnalului, conțin texte începând din 1994 [5] .

Subcorpus	Cuvinte, milioane	textele
[email protected]	707	9882120
In contact cu	9820	193770717
Jurnal live	8110	73229158
sala de reviste	313	56547
Subcorpus de știri ( RIA Novosti , Regnum , Lenta.ru , Rosbalt )	851	2964897
Tot corpul	19801	279903439

GICR este unul dintre puținele mega-corpuri care ajunge la câteva miliarde de cuvinte.

Cadru	Limbi	Acces	Site-ul web	Volum	Capabilități
COW: Corporații web gratuite, mari în limbi europene	engleză , franceză , germană , spaniolă , suedeză , olandeză	gratuit, după înregistrare, accesul de probă este posibil fără înregistrare	https://web.archive.org/web/20160221212019/https://webcorpora.org/	aproximativ 30 de miliarde de cuvinte	Format KWIC, morph markup, căutare CQP, marcare și căutare după dată, URL , țară, oraș etc.
motor de schiță	engleză , franceză , germană , italiană , arabă , rusă , spaniolă , portugheză , coreeană , japoneză , chineză ; mai multe limbi disponibile contra cost	contra cost, după înregistrare, este posibil accesul de probă	https://www.sketchengine.co.uk/	86 de miliarde de cuvinte	concordanțe, gramatică schiță, tezaure , KWIC, morfo-etichetare, căutare CQP
Aranea Corpora	Engleză , rusă , finlandeză , franceză , germană , maghiară , spaniolă , italiană , olandeză , poloneză , slovacă	gratuit, după înregistrare, accesul de probă este posibil fără înregistrare	http://sketch.juls.savba.sk/aranea_about/	aproximativ 14 miliarde de cuvinte	noSketch Engine, concordanțe, gramatică schiță, KWIC, morpho markup, căutare CQP, compararea rezultatelor interogărilor în diferite limbi
GIKRYA Corpus general de internet al limbii ruse	Rusă	gratuit, inregistrare la cerere	http://www.webcorpora.ru/	20 de miliarde de cuvinte	Format KWIC, morpho-markup, concordanțe, căutare CQP, marcare și căutare după dată, țară, oraș, segment runet , sex, anul și locul nașterii autorului, trimiterea rezultatelor de către utilizatori unul altuia
CORPUS DE ENGLIZE GLOBALE BAZATE PE WEB (GloWbE)	Engleză , specificații pentru 20 de țări	fără înregistrare	http://corpus.byu.edu/glowbe/	1,9 miliarde de cuvinte	KWIC, concordanțe, colocați , compararea rezultatelor pe dialecte , CQP, întreg corpus poate fi descărcat

Acces

Interfața corpus este în prezent în testare beta , așa că accesul la căutarea corpus este oferit și este gratuit, totuși, la cerere.

Vezi și

Note

↑ VLADIMIR BELIKOV . Preluat la 26 decembrie 2019. Arhivat din original la 16 noiembrie 2019. (Rusă)
↑ Clasificarea automată a textelor web utilizând dimensiuni funcționale ale textului . Consultat la 8 iunie 2016. Arhivat din original pe 26 iunie 2016. (nedefinit)
↑ Echipa | GIKRYA . Preluat la 26 decembrie 2019. Arhivat din original la 5 ianuarie 2020. (Rusă)
↑ 1 2 Corp | GIKRYA . Preluat la 26 decembrie 2019. Arhivat din original la 3 decembrie 2019. (Rusă)
↑ #geekrya #geekrya_stats Pentru ce... | GIKRYA Corpus general de internet al limbii ruse | VK

Literatură

Link -uri

Site-ul oficial al GIKRYA

Lingvistica corpusului
corpuri engleze	Corpus național al englezei americane Bank of English Bergen Corpus of London Teenage Language corpul național britanic Corpus maro Buckeye Corpus Cambridge English Corpus Corpus de engleză americană modernă Enron Corpus Corpus internațional de engleză Lancaster-Oslo-Bergen Corpus Corpus englezesc de la Oxford Prop Bank Corpus englezesc vorbit TIMET VerbNet Corpus Wellington de engleză vorbită din Noua Zeelandă
Corpuri în limba rusă	Corpus general de internet al limbii ruse Corpus național rus Corpus deschis al limbii ruse SinTagRus Corpusul limbii ruse din Tübingen Corpus Uppsala de texte rusești Corpus adnotat de la Helsinki al limbii ruse
Corpora în alte limbi	Bijankhan Corpus COPII Corpus de croat Corpus național croat Europarl Corpus Mannheim corpus german Corpul Hamshahri Corpus național polonez Proiectul Corpus Text Neo-Asirian Corpus coranic Corpus Național Scoțian Corpus național sloven vorbesc banca Tatoeba Corpus monolingv Teheran Tekstaro de Esperanto Tezaur Linguae Graecae
Organizații	Consorțiul BNC COBUILD