Corpus național al englezei americane

American National Corpus ( ANC ) este un corpus de texte în limba engleză americană care conține 22 de milioane de cuvinte din surse scrise și orale publicate din 1990. ANC include o serie de texte din surse noi, inclusiv e-mail , tweet -uri și text din pagini web , care nu sunt incluse în corpus englezești anterioare, cum ar fi British National Corpus . Implementează concordanța parțială a vorbirii cu lematizarea , inclusiv numele proprii și analiza superficială .

ANC este disponibil membrilor Consorțiului de date lingvistice . O resursă (subcorpus) care conține 15 milioane de cuvinte din corpus se numește Open American National Corpus (OANC) și este disponibilă public pe site-ul ANC [1] .

Textele Corpusului sunt alcătuite în conformitate cu cerințele comitetului tehnic ISO/TC 37 „Cadru de adnotare lingvistică”. Datorită instrumentului de transducție ANC2Go disponibil public, fragmentele de corpus și adnotările generate de utilizator sunt prezentate în mai multe formate, cum ar fi CoNLL IOB, un format XML conform standardului de codare XCES (care poate fi utilizat în British National Corpus XAIRA). motor de căutare ) , format compatibil UIMA și formate potrivite pentru o gamă largă de programe de concordanță. Plugin-uri sunt, de asemenea, disponibile pentru a importa adnotări în sistemul de procesare a limbajului natural GATE .

ANC diferă de alte corpuri engleze prin adnotarea sa extinsă, incluzând diverse etichete parțial de vorbire (etichete Penn, etichete CLAWS5 și CLAWS7), adnotări de analiză superficială și adnotări pentru mai multe tipuri de obiecte numite. Adnotări suplimentare sunt adăugate întregului corpus sau părți ale acestuia pe măsură ce acesta devine disponibil, adesea ca urmare a altor proiecte. Spre deosebire de corpus de text online, care, din cauza restricțiilor de drepturi de autor , oferă acces doar la propoziții individuale, întreg corpus ANC este disponibil pentru cercetare, inclusiv dezvoltarea de modele statistice de limbaj și adnotări lingvistice full-text.

Adnotările ANC sunt generate automat și nu sunt validate. Secțiunea de 500.000 de cuvinte a OANC, cunoscută sub numele de subcorpus ANC adnotat manual (MASC), este adnotat pentru aproximativ 20 de tipuri diferite de adnotări lingvistice care sunt revizuite sau create manual. Acestea includ adnotarea sintactică Penn Treebank, rețelele semantice WordNet și FrameNet și altele. La fel ca OANC, MASC este disponibil gratuit pentru orice utilizare și poate fi descărcat de pe site-ul ANC sau de Consorțiul de date lingvistice. De asemenea, este distribuit împreună cu Natural Language Toolkit , un pachet de biblioteci și programe pentru procesarea simbolică și statistică a limbajului natural .

ANC și subcorporale sale diferă de corpurile de text similare în principal prin caracteristicile adnotărilor lingvistice și prin includerea textelor din genuri contemporane care nu se regăsesc în resurse precum corpus național britanic , de exemplu . În plus, deoarece scopul inițial al ANC este de a dezvolta modele de limbaj statistic, datele complete și toate adnotările sunt disponibile pentru utilizatorii ANC, spre deosebire de Corpus of Modern American English (COCA), ale cărui texte sunt disponibile doar selectiv printr-un browser web.

Creșterea bazelor de text OANC și MASC continuă cu adăugarea de date și adnotări produse de comunitățile de lingvistică computațională și lingvistică de corpus .

Note

↑ Corpus național american deschis . Preluat la 7 aprilie 2018. Arhivat din original la 24 februarie 2018. (nedefinit)

Literatură

Ide, N. (2008). Corpusul național american: atunci, acum și mâine . În Michael Haugh, Kate Burridge, Jean Mulder și Pam Peters (eds.), Selected Proceedings of the 2008 HCSNet Workshop on Designing the Australian National Corpus: Mustering Languages, Cascadilla Proceedings Project, Sommerville, MA.
Ide, N., Suderman, K. (2004). Prima lansare a Corpusului Național American . Proceedings of the Fourth Language Resources and Evaluation Conference (LREC), Lisabona, 1681-84.
Ide, N., Baker, C., Fellbaum, C., Passonneau, R. (2010). Sub-corpul adnotat manual: o resursă comunitară pentru și de către oameni

Link -uri

Lingvistica corpusului
corpuri engleze	Corpus național al englezei americane Bank of English Bergen Corpus of London Teenage Language corpul național britanic Corpus brun Buckeye Corpus Cambridge English Corpus Corpus de engleză americană modernă Enron Corpus Corpus internațional de engleză Lancaster-Oslo-Bergen Corpus Corpus englez la Oxford Prop Bank Corpus englezesc vorbit TIMET VerbNet Corpus Wellington de engleză vorbită din Noua Zeelandă
Corpuri în limba rusă	Corpus general de internet al limbii ruse Corpus național rus Corpus deschis al limbii ruse SinTagRus Corpusul limbii ruse din Tübingen Corpus Uppsala de texte rusești Corpus adnotat de la Helsinki al limbii ruse
Corpora în alte limbi	Bijankhan Corpus COPII Corpus de croat Corpus național croat Europarl Corpus Mannheim corpus german Corpul Hamshahri Corpus național polonez Proiectul Corpus Text Neo-Asirian Corpus coranic Corpus Național Scoțian Corpus național sloven vorbesc banca Tatoeba Corpus monolingv Teheran Tekstaro de Esperanto Tezaur Linguae Graecae
Organizații	Consorțiul BNC COBUILD