Corpus de engleză americană modernă

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită la 6 septembrie 2021; verificările necesită 3 modificări .

Corpusul englezei americane contemporane ( COCA ) este un corpus electronic de texte creat de profesorul de lingvistică a corpusului Mark Davis de la Universitatea Brigham Young în 2000-2003, pe baza textelor revistei Time scrise din 1923 [1 ] .

Este cel mai mare (450 de milioane de cuvinte) corpus de texte în engleză americană și singurul corpus disponibil gratuit în această limbă, care include o mare varietate de texte de diferite genuri . Este compus din peste 160.000 de texte, inclusiv 20 de milioane de cuvinte în fiecare an, din 1990 până în 2011. Este cel mai utilizat corpus de texte structurate, cu aproximativ 10.000 de utilizatori lunari.

Compoziție

Alte Corpuri Davis

Corpul revistei TIME

Corpusul este compus din peste 275.000 de articole din arhiva revistei TIME Arhivat pe 20 octombrie 2013 la Wayback Machine și conține peste 100 de milioane de cuvinte din texte scrise între 1923 și 2006. Corpusul TIME Magazine este integrat într-un sistem comun de alte corpuri create de Mark Davis (care include și bazele de date Corpus of Historical American English (COHA), Corpus del Español sau Corpus of American Soap Operas) [2] .

Cum funcționează

Arhitectura corpusului este construită pe principiul altor proiecte ale lui Mark Davis, cum ar fi Corpus of Contemporary American English (COCA) . Există o bază de date centrală de n-grame care conține informații despre fiecare dintre cele sute de milioane de cuvinte ale corpusului. Acestea sunt legate de tabele care permit analiza cazurilor, precum și de tabele separate pentru sinonime, leme și forme care apar cu un cuvânt în timp.

Textele au fost marcate folosind CLAWS-tagger (Constituent Likelihood Automatic Word-tagging System) [3] . Același program a fost folosit la crearea altor Corpuri Mark Davis, precum și a Corpului Național Britanic .

Hardware-ul pentru corpus a fost ales pentru a oferi căutări extrem de rapide - de obicei durează mai puțin de o secundă chiar și pentru cele mai complexe interogări care conțin formă de cuvânt, parte de vorbire, frecvență și majuscule.

Utilizări

TIME Magazine Corpus vă permite să căutați atât cuvinte și expresii individuale, cât și forme gramaticale specifice sau serii sinonime, precum și să vedeți contextul utilizării lor și schimbarea frecvenței de utilizare.

Corpusul vă permite să explorați:

modificarea frecvenței și contextului utilizării cuvintelor și expresiilor asociate cu schimbările în viața culturală și socială a societății
modificări ale limbajului în morfologie și construcții gramaticale
fluctuații ale frecvenței de utilizare a anumitor grupuri de cuvinte în timp
schimbări semantice ale cuvintelor de-a lungul secolului al XX-lea

Acces

Accesul în clădire este oferit gratuit.

Înregistrarea este necesară cu furnizarea unei adrese de e-mail sau informații despre organizarea și statutul utilizatorului, în funcție de nivelul de acces necesar. Există cinci niveluri de acces în trei categorii: nu cercetător, semicercetător, cercetător. Toate diferă prin cantitatea de informații furnizate pe zi (dacă un utilizator începător poate face 100 de solicitări pe zi, atunci un profesor sau student absolvent înregistrat ca cercetător poate căuta de 600 de ori în aceeași perioadă de timp).

Vezi și

Corpus național rus

Note

↑ Kauhanen, Henri Corpusul englezei americane contemporane: Context și istorie . VARIENG (21 martie 2011). Consultat la 13 octombrie 2011. Arhivat din original la 12 ianuarie 2012. (nedefinit)
↑ Listă de corpuri create de Mark Davis Arhivată pe 7 noiembrie 2013 la Wayback Machine . Conform Google Analytics din martie 2012. Arhivat pe 6 noiembrie 2013 la Wayback Machine , peste 100.000 de utilizatori unici folosesc această bază de date în fiecare lună.
↑ CLAWS etichetator parțial de vorbire pentru engleză . Consultat la 27 octombrie 2013. Arhivat din original la 2 aprilie 2019. (nedefinit)

Link -uri

Lingvistica corpusului
corpuri engleze	Corpus național al englezei americane Bank of English Bergen Corpus of London Teenage Language corpul național britanic Corpus maro Buckeye Corpus Cambridge English Corpus Corpus de engleză americană modernă Enron Corpus Corpus internațional de engleză Lancaster-Oslo-Bergen Corpus Corpus englezesc de la Oxford Prop Bank Corpus englezesc vorbit TIMET VerbNet Corpus Wellington de engleză vorbită din Noua Zeelandă
Corpuri în limba rusă	Corpus general de internet al limbii ruse Corpus național rus Corpus deschis al limbii ruse SinTagRus Corpusul limbii ruse din Tübingen Corpus Uppsala de texte rusești Corpus adnotat de la Helsinki al limbii ruse
Corpora în alte limbi	Bijankhan Corpus COPII Corpus de croat Corpus național croat Europarl Corpus Mannheim corpus german Corpul Hamshahri Corpus național polonez Proiectul Corpus Text Neo-Asirian Corpus coranic Corpus Național Scoțian Corpus național sloven vorbesc banca Tatoeba Corpus monolingv Teheran Tekstaro de Esperanto Tezaur Linguae Graecae
Organizații	Consorțiul BNC COBUILD