Corpus scris al limbii tătare | |
---|---|
URL | corpus.tatar |
Tipul site-ului | corpus de texte |
limbi) | tătară/rusă/engleză |
Locația serverului | Tatarstan |
Autor | Sayhunov M.R., Ibragimov T.I., Khusainov R.R. |
Începutul lucrării | 2011 |
Statusul curent | Funcționează și se dezvoltă |
Corpusul scris al limbii tătare este un corpus electronic al limbii tătare, disponibil pentru utilizare online. Corpusul este destinat celor care sunt interesați de sistemul, starea și perspectivele limbii tătare. Este necesar pentru lingviștii care studiază limba tătară în cadrul lingvisticii corpusului.
Site-ul a fost deschis pe 15 martie 2012. Adresa actuală este http://corpus.tatar Arhivată 26 aprilie 2016 la Wayback Machine .
Disponibil în tătară, rusă și engleză.
De la sfârșitul anului 2014, volumul corpusului are peste 116 milioane de cuvinte, care alcătuiesc mai mult de 10 milioane de propoziții, numărul de forme diferite de cuvinte se apropie de 1,5 milioane.
Textele din corpus sunt stocate ca propoziții separate pentru a putea împiedică copierea acestora.
Accesul la utilizarea clădirii este gratuit.
Crearea cazului a început în 2010 de către un grup de entuziaști. A fost dictată de necesitatea dezvoltării unui sistem de traducere automată a textelor din tătără într-o limbă străină și invers, precum și a unui sistem de sinteză și recunoaștere automată a vorbirii tătărești pe o anumită temă.
Corpusul poate fi folosit de lingviștii care studiază limba tătără ca parte a lingvisticii corpus, precum și atunci când predau limba și ca referință la compilarea diferitelor documente.
Corpusul vă permite să vizualizați contextul, să determinați frecvența apariției și să găsiți cuvinte cu proprietățile necesare.
Acest tip de căutare Arhivat 26 aprilie 2016 la Wayback Machine vă permite să vizualizați contextele dreapta, stânga și semantice ale cuvântului căutat sortate după frecvență.
Contextul corect - cuvinte situate imediat după cuvântul curent.
Contextul din stânga este cuvintele imediat înainte de cuvântul curent.
Context semantic - cuvinte situate în aceeași propoziție cu cuvântul curent, adică având o legătură semantică cu acesta într-o măsură sau alta.
În 2014 s-a făcut marcarea morfologică a Corpului. Metalimbajul mărcilor gramaticale se bazează pe sistemul „etichetelor” pentru limbile turce, dezvoltat de proiectul internațional Apertium Arhivat 14 aprilie 2016 la Wayback Machine . Ca parte a acestui proiect, este creat un sistem de traducere automată pentru un număr mare de limbi. Principalele argumente în favoarea alegerii etichetei morfologice Apertium pentru marcarea Corpusului Scris sunt:
— calitatea înaltă a adnotării morfologice;
- deschiderea absolută a acestui proiect: toate codurile sursă și dezvoltările sunt disponibile public pentru toată lumea gratuit. Sistemul de căutare morfologică complexă
dezvoltat de noi în 2015-2016 Arhivat 26 aprilie 2016 pe Wayback Machine vă permite să căutați în Corpus pe baza diferitelor combinații de parametri cum ar fi forma cuvântului, lema, un set de etichete morfologice (gramaticale), începutul, mijlocul, sfârșitul unui cuvânt cu indicarea distanțelor posibile dintre lexeme.
Pe site-ul web al Corpusului scris al limbii tătare, este posibil să ascultați atât propozițiile găsite, cât și textul liber Arhivat 26 aprilie 2016 la Wayback Machine .
Site-ul web Corpus găzduiește diverse date statistice Copie de arhivă din 26 aprilie 2016 la Wayback Machine , pe care autorii le primesc pe măsură ce datele sunt prelucrate.
Creatorii corpusului sunt:
Asistat de: