Corpus de texte

În lingvistică , un corpus (în acest sens, pluralul este corpus , nu corpus [1] ) este un ansamblu de texte selectate și prelucrate după anumite reguli, folosite ca bază pentru studiul unei limbi. Ele sunt utilizate pentru analiza statistică și testarea ipotezelor statistice , validând regulile lingvistice într-o anumită limbă. Corpusul de texte este subiect de studiu în lingvistica corpusului .

Proprietățile de bază ale carenei

Printre numeroasele definiții ale corpusului, principalele sale proprietăți pot fi distinse :

electronic - în sensul modern, corpus trebuie să fie în formă electronică
reprezentativ – ar trebui să „reprezinte” bine obiectul pe care îl modelează
marcat – diferența principală dintre un corpus și o colecție de texte
orientat pragmatic – ar trebui să fie creat pentru o anumită sarcină

Clasificarea cazurilor

Corpurile pot fi clasificate în funcție de diverse criterii: scopul creării corpusului, tipul de date de limbă, „literare”, gen, dinamism, tip de marcare, volum de texte etc. Conform criteriului paralelismului , de exemplu, corpurile pot fi împărțite în monolingve, bilingve și multilingve. Multilingv și bilingv sunt împărțite în două tipuri:

paralel - un set de texte și traducerile acestora într-una sau mai multe limbi.
comparabil (pseudo-paralel) - texte originale în două sau mai multe limbi.

Marcaje carena

Markup-ul constă în atribuirea de etichete speciale textelor și componentelor acestora : lingvistice și externe (extralingvistice). Se disting următoarele tipuri lingvistice de marcaj: morfologic, semantic, sintactic, anaforic, prozodic, discursiv etc. La unele corpuri se aplică niveluri structurale suplimentare de analiză. În special, unele corpuri mici pot fi complet marcate sintactic. Astfel de corpuri sunt de obicei numite corpuri profund adnotate sau sintactice , iar structura sintactică în sine este un arbore de dependență .

Marcarea manuală (adnotarea) textelor este o sarcină costisitoare și consumatoare de timp. În acest moment, în domeniul public sunt prezentate diverse instrumente software pentru marcarea corpurilor [3] . În mod convențional, ele pot fi împărțite în separate (autonome) și orientate pe web (bazate pe web) . În același timp, concentrarea dezvoltatorilor în ultimii ani s-a mutat către aplicațiile web. Aceste sisteme au o serie de avantaje:

capacitatea de a marca un document de mai multe persoane în același timp
nu necesită instalarea de software suplimentar, altul decât un browser
diferențierea flexibilă a drepturilor de acces
afișând progresul curent al procesului de marcare
posibilitatea de modificare a corpului marcat

Internetul ca corpus

Tehnologiile moderne fac posibilă crearea de „corpuri web”, adică corpuri obținute prin procesarea surselor de internet:

Un corpus web este un tip special de corpus lingvistic, care este creat prin descărcarea treptată a textelor de pe Internet utilizând proceduri automate care determină limba și codificarea paginilor web individuale din mers, elimină șabloanele, elementele de navigare, linkurile și reclamele (cel așa-numita boilerplate) , efectuează transformarea în text, filtrarea, normalizarea și deduplicarea documentelor primite, care pot fi apoi prelucrate cu instrumente tradiționale de lingvistică corpus (tokenizare, adnotare mirfosintactică și sintactică) și implementate într-un sistem de corpus de căutare. Crearea unui webcorpus nu este doar mult mai ieftină, dar mai presus de toate, dimensiunea acestuia poate fi chiar cu un ordin de mărime mai mare decât corpus tradițional [4] .

— Vladimir Benko ARANEA — O FAMILIE DE MILIARDE DE WEB CORPS

Aplicație

Corpus este principalul concept și baza de date a lingvisticii corpus. Analiza și procesarea diferitelor tipuri de corpuri este subiectul majorității lucrărilor în lingvistica computațională (de exemplu , extragerea cuvintelor cheie ), recunoașterea vorbirii și traducerea automată , în care corpurile sunt adesea folosite pentru a crea modele Markov ascunse pentru etichetarea unei părți din vorbire și alte sarcini. Dicționarele corpus și frecvența pot fi utile în predarea limbilor străine.

Corpuri de text rusesc

Vezi și

Note

↑ GRAMOTA.RU - portal de internet de referință și informații „Limba rusă” | Dicționare | Verificarea cuvintelor . gramota.ru. Preluat la 26 decembrie 2019. Arhivat din original la 17 septembrie 2019. (nedefinit)
↑ Diagrama a fost realizată pe baza materialelor cărții „Zakharov V.P., Bogdanova S.Yu. Corpus linguistics: textbook. Ed. a III-a, revăzută - Sankt Petersburg: Editura Universității din Sankt Petersburg, 2020. - 234 p. "
↑ Vaniușkin, Grașcenko, 2017 .
↑ ARANEA: O FAMILIE DE MILIARDE DE CAZURI WEB - The Written Heritage Community . textualheritage.org. Preluat la 26 decembrie 2019. Arhivat din original la 9 august 2020. (nedefinit)
↑ Glazkova, A. (2018), Căutare automată a fragmentelor care conțin informații biografice în text în limbaj natural , Proceedings of the Institute for System Programming RAS T. 30(6): 221-236, doi : 10.15514/ISPRAS-2018-30( 6 )-12 , < https://www.researchgate.net/publication/330689783_Automatic_search_for_fragments_containing_biographical_information_in_a_natural_language_text >
↑ Rubtsova, Y. (2015), Building a text corpus for setting up a tone classifier , Produse și sisteme software T. 1(109): 72-78, doi : 10.15827/0236-235x.109.072-078 , < http: //www .swsys.ru/index.php?page=article&id=3962&lang= > Arhivat 7 august 2020 la Wayback Machine

Literatură

Vanyushkin A.S., Grashchenko L.A. Estimarea algoritmilor de extragere a cuvintelor cheie: instrumente și resurse // Noi tehnologii informaționale în sistemele automatizate. - 2017. - Emisiune. 20 . — ISSN 2227-0973 .
Nikolaev I. S., Mitrenina O. V., Lando T. M. Lingvistică aplicată și computațională. - M. : URSS, 2016. - 320 p.

procesarea limbajului natural
Definiții generale	Corpus de texte corpus de vorbire Cuvinte oprite pungă de cuvinte Completitudine AI N-gram Cifru bigram trigramă
Analiza textului	Segmentarea textului Marcare parțială Analiza suprafeței Procesare de text compusă Extragerea colocărilor tulpina Lematizare Recunoașterea entității denumite Rezoluția coreferenței Analiza sentimentelor de text Concept Extraction analizare Rezolvarea polisemiei lexicale Extrage terminologie Extragerea informațiilor Identificarea limbii Definiția cazului
Referire	Extragerea propozițiilor Generație abstractă Referințe pentru mai multe documente Simplificarea textului
Traducere automată	automatizate Hibrid interlingvistic Bazat pe reguli Pe baza exemplelor Dicţionar bazat Bazat pe transformare neurale Statistic Sincron
Identificarea și colectarea datelor	Recunoaștere a vorbirii sinteza vorbirii Recunoaștere optică a caracterelor Generarea textului
Model tematic	Plasarea Pachinko Plasarea latentă a lui Dirichlet Analiza semantică latentă
Evaluare inter pares	Evaluarea automată a eseurilor Concordancer Introducere predictivă a textului Verificator gramatical Verificator ortografic Sintaxă Guessing
Interfață în limbaj natural	asistent virtual Interlocutor virtual Sistem de întrebări și răspunsuri Interfață vocală Literatură interactivă