Corpus scris al limbii tătare

Versiunea actuală a paginii nu a fost încă revizuită de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită pe 25 decembrie 2017; verificările necesită 2 modificări .
Corpus scris al limbii tătare
URL corpus.tatar
Tipul site-ului corpus de texte
limbi) tătară/rusă/engleză
Locația serverului Tatarstan
Autor Sayhunov M.R., Ibragimov T.I., Khusainov R.R.
Începutul lucrării 2011
Statusul curent Funcționează și se dezvoltă

Corpusul scris al limbii tătare  este un corpus electronic al limbii tătare, disponibil pentru utilizare online. Corpusul este destinat celor care sunt interesați de sistemul, starea și perspectivele limbii tătare. Este necesar pentru lingviștii care studiază limba tătară în cadrul lingvisticii corpusului.
Site-ul a fost deschis pe 15 martie 2012. Adresa actuală este http://corpus.tatar Arhivată 26 aprilie 2016 la Wayback Machine .
Disponibil în tătară, rusă și engleză.

Volumul corpului

De la sfârșitul anului 2014, volumul corpusului are peste 116 milioane de cuvinte, care alcătuiesc mai mult de 10 milioane de propoziții, numărul de forme diferite de cuvinte se apropie de 1,5 milioane.
Textele din corpus sunt stocate ca propoziții separate pentru a putea împiedică copierea acestora.

Acces

Accesul la utilizarea clădirii este gratuit.

Despre construirea unui corp

Crearea cazului a început în 2010 de către un grup de entuziaști. A fost dictată de necesitatea dezvoltării unui sistem de traducere automată a textelor din tătără într-o limbă străină și invers, precum și a unui sistem de sinteză și recunoaștere automată a vorbirii tătărești pe o anumită temă.

Semnificație practică și posibilități de utilizare

Corpusul poate fi folosit de lingviștii care studiază limba tătără ca parte a lingvisticii corpus, precum și atunci când predau limba și ca referință la compilarea diferitelor documente.
Corpusul vă permite să vizualizați contextul, să determinați frecvența apariției și să găsiți cuvinte cu proprietățile necesare.

Căutare statistică contextuală

Acest tip de căutare Arhivat 26 aprilie 2016 la Wayback Machine vă permite să vizualizați contextele dreapta, stânga și semantice ale cuvântului căutat sortate după frecvență.
Contextul corect - cuvinte situate imediat după cuvântul curent.
Contextul din stânga este cuvintele imediat înainte de cuvântul curent.
Context semantic - cuvinte situate în aceeași propoziție cu cuvântul curent, adică având o legătură semantică cu acesta într-o măsură sau alta.

Căutare morfologică complexă

În 2014 s-a făcut marcarea morfologică a Corpului. Metalimbajul mărcilor gramaticale se bazează pe sistemul „etichetelor” pentru limbile turce, dezvoltat de proiectul internațional Apertium Arhivat 14 aprilie 2016 la Wayback Machine . Ca parte a acestui proiect, este creat un sistem de traducere automată pentru un număr mare de limbi. Principalele argumente în favoarea alegerii etichetei morfologice Apertium pentru marcarea Corpusului Scris sunt:
​​— calitatea înaltă a adnotării morfologice;
- deschiderea absolută a acestui proiect: toate codurile sursă și dezvoltările sunt disponibile public pentru toată lumea gratuit. Sistemul de căutare morfologică complexă
dezvoltat de noi în 2015-2016 Arhivat 26 aprilie 2016 pe Wayback Machine vă permite să căutați în Corpus pe baza diferitelor combinații de parametri cum ar fi forma cuvântului, lema, un set de etichete morfologice (gramaticale), începutul, mijlocul, sfârșitul unui cuvânt cu indicarea distanțelor posibile dintre lexeme.

Sistem de sinteză a vorbirii tătară

Pe site-ul web al Corpusului scris al limbii tătare, este posibil să ascultați atât propozițiile găsite, cât și textul liber Arhivat 26 aprilie 2016 la Wayback Machine .

Statistici

Site-ul web Corpus găzduiește diverse date statistice Copie de arhivă din 26 aprilie 2016 la Wayback Machine , pe care autorii le primesc pe măsură ce datele sunt prelucrate.

Dezavantaje și perspective de dezvoltare

Compilatoare

Creatorii corpusului sunt:

Asistat de:

Literatură [1]

Note

  1. Corpus scris al limbii tătare . Consultat la 22 aprilie 2016. Arhivat din original pe 25 aprilie 2016.

Link -uri