Corpus de texte

În lingvistică , un corpus (în acest sens, pluralul este corpus , nu corpus [1] ) este un ansamblu de texte selectate și prelucrate după anumite reguli, folosite ca bază pentru studiul unei limbi. Ele sunt utilizate pentru analiza statistică și testarea ipotezelor statistice , validând regulile lingvistice într-o anumită limbă. Corpusul de texte este subiect de studiu în lingvistica corpusului .

Proprietățile de bază ale carenei

Printre numeroasele definiții ale corpusului, principalele sale proprietăți pot fi distinse :

Clasificarea cazurilor

Corpurile pot fi clasificate în funcție de diverse criterii: scopul creării corpusului, tipul de date de limbă, „literare”, gen, dinamism, tip de marcare, volum de texte etc. Conform criteriului paralelismului , de exemplu, corpurile pot fi împărțite în monolingve, bilingve și multilingve. Multilingv și bilingv sunt împărțite în două tipuri:

  1. paralel  - un set de texte și traducerile acestora într-una sau mai multe limbi.
  2. comparabil (pseudo-paralel) - texte originale în două sau mai multe limbi.

Marcaje carena

Markup-ul constă în atribuirea de etichete speciale textelor și componentelor acestora : lingvistice și externe (extralingvistice). Se disting următoarele tipuri lingvistice de marcaj: morfologic, semantic, sintactic, anaforic, prozodic, discursiv etc. La unele corpuri se aplică niveluri structurale suplimentare de analiză. În special, unele corpuri mici pot fi complet marcate sintactic. Astfel de corpuri sunt de obicei numite corpuri profund adnotate sau sintactice , iar structura sintactică în sine este un arbore de dependență .

Marcarea manuală (adnotarea) textelor este o sarcină costisitoare și consumatoare de timp. În acest moment, în domeniul public sunt prezentate diverse instrumente software pentru marcarea corpurilor [3] . În mod convențional, ele pot fi împărțite în separate (autonome) și orientate pe web (bazate pe web) . În același timp, concentrarea dezvoltatorilor în ultimii ani s-a mutat către aplicațiile web. Aceste sisteme au o serie de avantaje:

Internetul ca corpus

Tehnologiile moderne fac posibilă crearea de „corpuri web”, adică corpuri obținute prin procesarea surselor de internet:

Un corpus web este un tip special de corpus lingvistic, care este creat prin descărcarea treptată a textelor de pe Internet utilizând proceduri automate care determină limba și codificarea paginilor web individuale din mers, elimină șabloanele, elementele de navigare, linkurile și reclamele (cel așa-numita boilerplate) , efectuează transformarea în text, filtrarea, normalizarea și deduplicarea documentelor primite, care pot fi apoi prelucrate cu instrumente tradiționale de lingvistică corpus (tokenizare, adnotare mirfosintactică și sintactică) și implementate într-un sistem de corpus de căutare. Crearea unui webcorpus nu este doar mult mai ieftină, dar mai presus de toate, dimensiunea acestuia poate fi chiar cu un ordin de mărime mai mare decât corpus tradițional [4] .

— Vladimir Benko ARANEA — O FAMILIE DE MILIARDE DE WEB CORPS

Aplicație

Corpus este principalul concept și baza de date a lingvisticii corpus. Analiza și procesarea diferitelor tipuri de corpuri este subiectul majorității lucrărilor în lingvistica computațională (de exemplu , extragerea cuvintelor cheie ), recunoașterea vorbirii și traducerea automată , în care corpurile sunt adesea folosite pentru a crea modele Markov ascunse pentru etichetarea unei părți din vorbire și alte sarcini. Dicționarele corpus și frecvența pot fi utile în predarea limbilor străine.

Corpuri de text rusesc

Vezi și

Note

  1. GRAMOTA.RU - portal de internet de referință și informații „Limba rusă” | Dicționare | Verificarea cuvintelor . gramota.ru. Preluat la 26 decembrie 2019. Arhivat din original la 17 septembrie 2019.
  2. Diagrama a fost realizată pe baza materialelor cărții „Zakharov V.P., Bogdanova S.Yu. Corpus linguistics: textbook. Ed. a III-a, revăzută - Sankt Petersburg: Editura Universității din Sankt Petersburg, 2020. - 234 p. "
  3. Vaniușkin, Grașcenko, 2017 .
  4. ARANEA: O FAMILIE DE MILIARDE DE CAZURI WEB - The Written Heritage Community . textualheritage.org. Preluat la 26 decembrie 2019. Arhivat din original la 9 august 2020.
  5. Glazkova, A. (2018), Căutare automată a fragmentelor care conțin informații biografice în text în limbaj natural , Proceedings of the Institute for System Programming RAS T. 30(6): 221-236, doi : 10.15514/ISPRAS-2018-30( 6 )-12 , < https://www.researchgate.net/publication/330689783_Automatic_search_for_fragments_containing_biographical_information_in_a_natural_language_text > 
  6. Rubtsova, Y. (2015), Building a text corpus for setting up a tone classifier , Produse și sisteme software T. 1(109): 72-78, doi : 10.15827/0236-235x.109.072-078 , < http: //www .swsys.ru/index.php?page=article&id=3962&lang= > Arhivat 7 august 2020 la Wayback Machine 

Literatură