Corpus de engleză americană modernă

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită la 6 septembrie 2021; verificările necesită 3 modificări .

Corpusul englezei americane contemporane  ( COCA ) este un corpus electronic de texte creat de profesorul de lingvistică a corpusului Mark Davis de la Universitatea Brigham Young în 2000-2003, pe baza textelor revistei Time scrise din 1923 [1 ] .

Este cel mai mare (450 de milioane de cuvinte) corpus de texte în engleză americană și singurul corpus disponibil gratuit în această limbă, care include o mare varietate de texte de diferite genuri . Este compus din peste 160.000 de texte, inclusiv 20 de milioane de cuvinte în fiecare an, din 1990 până în 2011. Este cel mai utilizat corpus de texte structurate, cu aproximativ 10.000 de utilizatori lunari.

Compoziție

Alte Corpuri Davis

Corpul revistei TIME

Corpusul este compus din peste 275.000 de articole din arhiva revistei TIME Arhivat pe 20 octombrie 2013 la Wayback Machine și conține peste 100 de milioane de cuvinte din texte scrise între 1923 și 2006. Corpusul TIME Magazine este integrat într-un sistem comun de alte corpuri create de Mark Davis (care include și bazele de date Corpus of Historical American English (COHA), Corpus del Español sau Corpus of American Soap Operas) [2] .

Cum funcționează

Arhitectura corpusului este construită pe principiul altor proiecte ale lui Mark Davis, cum ar fi Corpus of Contemporary American English (COCA) . Există o bază de date centrală de n-grame care conține informații despre fiecare dintre cele sute de milioane de cuvinte ale corpusului. Acestea sunt legate de tabele care permit analiza cazurilor, precum și de tabele separate pentru sinonime, leme și forme care apar cu un cuvânt în timp.

Textele au fost marcate folosind CLAWS-tagger (Constituent Likelihood Automatic Word-tagging System) [3] . Același program a fost folosit la crearea altor Corpuri Mark Davis, precum și a Corpului Național Britanic .

Hardware-ul pentru corpus a fost ales pentru a oferi căutări extrem de rapide - de obicei durează mai puțin de o secundă chiar și pentru cele mai complexe interogări care conțin formă de cuvânt, parte de vorbire, frecvență și majuscule.

Utilizări

TIME Magazine Corpus vă permite să căutați atât cuvinte și expresii individuale, cât și forme gramaticale specifice sau serii sinonime, precum și să vedeți contextul utilizării lor și schimbarea frecvenței de utilizare.

Corpusul vă permite să explorați:

Acces

Accesul în clădire este oferit gratuit.

Înregistrarea este necesară cu furnizarea unei adrese de e-mail sau informații despre organizarea și statutul utilizatorului, în funcție de nivelul de acces necesar. Există cinci niveluri de acces în trei categorii: nu cercetător, semicercetător, cercetător. Toate diferă prin cantitatea de informații furnizate pe zi (dacă un utilizator începător poate face 100 de solicitări pe zi, atunci un profesor sau student absolvent înregistrat ca cercetător poate căuta de 600 de ori în aceeași perioadă de timp).

Vezi și

Note

  1. Kauhanen, Henri Corpusul englezei americane contemporane: Context și istorie . VARIENG (21 martie 2011). Consultat la 13 octombrie 2011. Arhivat din original la 12 ianuarie 2012.
  2. Listă de corpuri create de Mark Davis Arhivată pe 7 noiembrie 2013 la Wayback Machine . Conform Google Analytics din martie 2012. Arhivat pe 6 noiembrie 2013 la Wayback Machine , peste 100.000 de utilizatori unici folosesc această bază de date în fiecare lună.
  3. CLAWS etichetator parțial de vorbire pentru engleză . Consultat la 27 octombrie 2013. Arhivat din original la 2 aprilie 2019.

Link -uri