Corpus general de internet al limbii ruse

Corpus general de internet al limbii ruse
URL webcorpora.ru
Comercial Nu
Tipul site-ului proiect educațional/științific
Înregistrare da : necesar pentru a accesa căutarea
limbi) Rusă
Locația serverului Rusia
Începutul lucrării anul 2012
Statusul curent funcționează și se dezvoltă

Corpusul general de internet al limbii ruse (GIKRYA) este un corpus  electronic online de texte rusești care poate fi căutat de pe Internet. Deschis în 2013 . Corpusul include materiale text din blogosferă , rețele sociale , din cele mai mari resurse de știri și din reviste literare .

Obiectivele proiectului

Proiectul are statut de educațional și științific, iar multe probleme de lingvistică computațională sunt rezolvate de cercetători independenți și grupuri științifice pe baza materialului primit de GICR. În timp ce alte proiecte de corpus se concentrează pe ficțiune și texte editate , General Internet Corpus oferă lingviștilor ruși oportunitatea [1] de a studia limba așa cum este, cu toate caracteristicile regionale și argotice .

Corpul face posibil:

În diferite momente, cercetări și cercetări independente asupra materialului proiectului au fost efectuate de studenți, studenți absolvenți și angajați ai Universității de Stat din Moscova , Institutului de Fizică și Tehnologie din Moscova , Universitatea de Stat Rusă pentru Științe Umaniste , Universitatea de Stat Novosibirsk, Universitatea Națională de Cercetare Școala Superioară de Economie , Institutul de Cercetări Nucleare, Academia Rusă de Științe , Universitatea Federală de Sud , ChSU , VGPU , ISAA MSU .

Supraveghetori științifici ai proiectului:

La crearea și susținerea proiectului au participat următoarele persoane:

Volumul și compoziția corpului

Volumul corpusului pentru vara anului 2016 este de 19,8 miliarde de cuvinte, dintre care 49 % sunt pe Vkontakte , 40% pe LiveJournal , alți 4% pe [email protected] și News și 2% pe Sala Jurnal [4] . Segmentul Știri conține materiale din surse: RIA Novosti , Regnum , Lenta.ru , Rosbalt . Textele sunt furnizate cu meta-markup (până la data creării textului, sexul, locul și anul nașterii autorului, genul de pe internet și așa mai departe); toate textele sunt echipate cu marcaj morfologic automat și lematizate [4] . Majoritatea textelor sunt create de înregistrări pentru 2013-2014 , deși unele segmente, de exemplu, în Sala Jurnalului, conțin texte începând din 1994 [5] .

Subcorpus Cuvinte, milioane textele
[email protected] 707 9882120
In contact cu 9820 193770717
Jurnal live 8110 73229158
sala de reviste 313 56547
Subcorpus de știri ( RIA Novosti , Regnum , Lenta.ru , Rosbalt ) 851 2964897
Tot corpul 19801 279903439

GICR este unul dintre puținele mega-corpuri care ajunge la câteva miliarde de cuvinte.

Cadru Limbi Acces Site-ul web Volum Capabilități
COW: Corporații web gratuite, mari în limbi europene engleză , franceză , germană , spaniolă , suedeză , olandeză gratuit, după înregistrare, accesul de probă este posibil fără înregistrare https://web.archive.org/web/20160221212019/https://webcorpora.org/ aproximativ 30 de miliarde de cuvinte Format KWIC, morph markup, căutare CQP, marcare și căutare după dată, URL , țară, oraș etc.
motor de schiță engleză , franceză , germană , italiană , arabă , rusă , spaniolă , portugheză , coreeană , japoneză , chineză ; mai multe limbi disponibile contra cost contra cost, după înregistrare, este posibil accesul de probă https://www.sketchengine.co.uk/ 86 de miliarde de cuvinte concordanțe, gramatică schiță, tezaure , KWIC, morfo-etichetare, căutare CQP
Aranea Corpora Engleză , rusă , finlandeză , franceză , germană , maghiară , spaniolă , italiană , olandeză , poloneză , slovacă gratuit, după înregistrare, accesul de probă este posibil fără înregistrare http://sketch.juls.savba.sk/aranea_about/ aproximativ 14 miliarde de cuvinte noSketch Engine, concordanțe, gramatică schiță, KWIC, morpho markup, căutare CQP, compararea rezultatelor interogărilor în diferite limbi
GIKRYA Corpus general de internet al limbii ruse Rusă gratuit, inregistrare la cerere http://www.webcorpora.ru/ 20 de miliarde de cuvinte Format KWIC, morpho-markup, concordanțe, căutare CQP, marcare și căutare după dată, țară, oraș, segment runet , sex, anul și locul nașterii autorului, trimiterea rezultatelor de către utilizatori unul altuia
CORPUS DE ENGLIZE GLOBALE BAZATE PE WEB (GloWbE) Engleză , specificații pentru 20 de țări fără înregistrare http://corpus.byu.edu/glowbe/ 1,9 miliarde de cuvinte KWIC, concordanțe, colocați , compararea rezultatelor pe dialecte , CQP, întreg corpus poate fi descărcat

Acces

Interfața corpus este în prezent în testare beta , așa că accesul la căutarea corpus este oferit și este gratuit, totuși, la cerere.

Vezi și

Note

  1. VLADIMIR BELIKOV . Preluat la 26 decembrie 2019. Arhivat din original la 16 noiembrie 2019.
  2. Clasificarea automată a textelor web utilizând dimensiuni funcționale ale textului . Consultat la 8 iunie 2016. Arhivat din original pe 26 iunie 2016.
  3. Echipa | GIKRYA . Preluat la 26 decembrie 2019. Arhivat din original la 5 ianuarie 2020.
  4. 1 2 Corp | GIKRYA . Preluat la 26 decembrie 2019. Arhivat din original la 3 decembrie 2019.
  5. #geekrya #geekrya_stats Pentru ce... | GIKRYA Corpus general de internet al limbii ruse | VK

Literatură

Link -uri