Corpus național al englezei americane

American National Corpus ( ANC ) este un corpus de texte în  limba engleză americană care conține 22 de milioane de cuvinte din surse scrise și orale publicate din 1990. ANC include o serie de texte din surse noi, inclusiv e-mail , tweet -uri și text din pagini web , care nu sunt incluse în corpus englezești anterioare, cum ar fi British National Corpus . Implementează concordanța parțială a vorbirii cu lematizarea , inclusiv numele proprii și analiza superficială .

ANC este disponibil membrilor Consorțiului de date lingvistice . O resursă (subcorpus) care conține 15 milioane de cuvinte din corpus se numește Open American National Corpus (OANC) și este disponibilă public pe site-ul ANC [1] .

Textele Corpusului sunt alcătuite în conformitate cu cerințele comitetului tehnic ISO/TC 37 „Cadru de adnotare lingvistică”. Datorită instrumentului de transducție ANC2Go disponibil public, fragmentele de corpus și adnotările generate de utilizator sunt prezentate în mai multe formate, cum ar fi CoNLL IOB, un format XML conform standardului de codare XCES (care poate fi utilizat în British National Corpus XAIRA). motor de căutare ) , format compatibil UIMA și formate potrivite pentru o gamă largă de programe de concordanță. Plugin-uri sunt, de asemenea, disponibile pentru a importa adnotări în sistemul de procesare a limbajului natural GATE .

ANC diferă de alte corpuri engleze prin adnotarea sa extinsă, incluzând diverse etichete parțial de vorbire (etichete Penn, etichete CLAWS5 și CLAWS7), adnotări de analiză superficială și adnotări pentru mai multe tipuri de obiecte numite. Adnotări suplimentare sunt adăugate întregului corpus sau părți ale acestuia pe măsură ce acesta devine disponibil, adesea ca urmare a altor proiecte. Spre deosebire de corpus de text online, care, din cauza restricțiilor de drepturi de autor , oferă acces doar la propoziții individuale, întreg corpus ANC este disponibil pentru cercetare, inclusiv dezvoltarea de modele statistice de limbaj și adnotări lingvistice full-text.

Adnotările ANC sunt generate automat și nu sunt validate. Secțiunea de 500.000 de cuvinte a OANC, cunoscută sub numele de subcorpus ANC adnotat manual (MASC), este adnotat pentru aproximativ 20 de tipuri diferite de adnotări lingvistice care sunt revizuite sau create manual. Acestea includ adnotarea sintactică Penn Treebank, rețelele semantice WordNet și FrameNet și altele. La fel ca OANC, MASC este disponibil gratuit pentru orice utilizare și poate fi descărcat de pe site-ul ANC sau de Consorțiul de date lingvistice. De asemenea, este distribuit împreună cu Natural Language Toolkit , un pachet de biblioteci și programe pentru procesarea simbolică și statistică a limbajului natural .

ANC și subcorporale sale diferă de corpurile de text similare în principal prin caracteristicile adnotărilor lingvistice și prin includerea textelor din genuri contemporane care nu se regăsesc în resurse precum corpus național britanic , de exemplu . În plus, deoarece scopul inițial al ANC este de a dezvolta modele de limbaj statistic, datele complete și toate adnotările sunt disponibile pentru utilizatorii ANC, spre deosebire de Corpus of Modern American English (COCA), ale cărui texte sunt disponibile doar selectiv printr-un browser web.

Creșterea bazelor de text OANC și MASC continuă cu adăugarea de date și adnotări produse de comunitățile de lingvistică computațională și lingvistică de corpus .

Note

  1. Corpus național american deschis . Preluat la 7 aprilie 2018. Arhivat din original la 24 februarie 2018.

Literatură

Link -uri