În lingvistică , un corpus (în acest sens, pluralul este corpus , nu corpus [1] ) este un ansamblu de texte selectate și prelucrate după anumite reguli, folosite ca bază pentru studiul unei limbi. Ele sunt utilizate pentru analiza statistică și testarea ipotezelor statistice , validând regulile lingvistice într-o anumită limbă. Corpusul de texte este subiect de studiu în lingvistica corpusului .
Printre numeroasele definiții ale corpusului, principalele sale proprietăți pot fi distinse :
Corpurile pot fi clasificate în funcție de diverse criterii: scopul creării corpusului, tipul de date de limbă, „literare”, gen, dinamism, tip de marcare, volum de texte etc. Conform criteriului paralelismului , de exemplu, corpurile pot fi împărțite în monolingve, bilingve și multilingve. Multilingv și bilingv sunt împărțite în două tipuri:
Markup-ul constă în atribuirea de etichete speciale textelor și componentelor acestora : lingvistice și externe (extralingvistice). Se disting următoarele tipuri lingvistice de marcaj: morfologic, semantic, sintactic, anaforic, prozodic, discursiv etc. La unele corpuri se aplică niveluri structurale suplimentare de analiză. În special, unele corpuri mici pot fi complet marcate sintactic. Astfel de corpuri sunt de obicei numite corpuri profund adnotate sau sintactice , iar structura sintactică în sine este un arbore de dependență .
Marcarea manuală (adnotarea) textelor este o sarcină costisitoare și consumatoare de timp. În acest moment, în domeniul public sunt prezentate diverse instrumente software pentru marcarea corpurilor [3] . În mod convențional, ele pot fi împărțite în separate (autonome) și orientate pe web (bazate pe web) . În același timp, concentrarea dezvoltatorilor în ultimii ani s-a mutat către aplicațiile web. Aceste sisteme au o serie de avantaje:
Tehnologiile moderne fac posibilă crearea de „corpuri web”, adică corpuri obținute prin procesarea surselor de internet:
Un corpus web este un tip special de corpus lingvistic, care este creat prin descărcarea treptată a textelor de pe Internet utilizând proceduri automate care determină limba și codificarea paginilor web individuale din mers, elimină șabloanele, elementele de navigare, linkurile și reclamele (cel așa-numita boilerplate) , efectuează transformarea în text, filtrarea, normalizarea și deduplicarea documentelor primite, care pot fi apoi prelucrate cu instrumente tradiționale de lingvistică corpus (tokenizare, adnotare mirfosintactică și sintactică) și implementate într-un sistem de corpus de căutare. Crearea unui webcorpus nu este doar mult mai ieftină, dar mai presus de toate, dimensiunea acestuia poate fi chiar cu un ordin de mărime mai mare decât corpus tradițional [4] .
— Vladimir Benko ARANEA — O FAMILIE DE MILIARDE DE WEB CORPSCorpus este principalul concept și baza de date a lingvisticii corpus. Analiza și procesarea diferitelor tipuri de corpuri este subiectul majorității lucrărilor în lingvistica computațională (de exemplu , extragerea cuvintelor cheie ), recunoașterea vorbirii și traducerea automată , în care corpurile sunt adesea folosite pentru a crea modele Markov ascunse pentru etichetarea unei părți din vorbire și alte sarcini. Dicționarele corpus și frecvența pot fi utile în predarea limbilor străine.
procesarea limbajului natural | |
---|---|
Definiții generale | |
Analiza textului |
|
Referire |
|
Traducere automată |
|
Identificarea și colectarea datelor | |
Model tematic | |
Evaluare inter pares |
|
Interfață în limbaj natural |