Mannheim corpus german

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită la 17 octombrie 2013; verificările necesită 8 modificări .

Corpusul German din Mannheim (COSMAS corpora sau DeReKo)  este o colecție de texte moderne în limba germană menținută de Institutul pentru Limba Germană din Mannheim , Germania. Corpusul conține diverse tipuri de texte: literatură științifică și populară, un număr mare de texte din ziare, ficțiune etc. Reprezentând cea mai mare colecție electronică din lume de texte moderne în limba germană, este un instrument al lingvisticii corpus .

Titluri alternative

Corpusul german Mannheim are mai multe denumiri alternative, cum ar fi corpus de referință german, corpus IDS, corpus COSMAS. Din 2004, numele oficial al corpului este Deutsches Referenzkorpus (DeReKo).

Istoricul creației

Crearea unui corpus la Institutul Limbii Germane (IDS) are o istorie lungă. Încă din 1964, Paul Grebe și Ulrich Engel au creat Mannheim Corps 1,  un proiect care până în 1967 a adunat cu succes aproximativ 2,2 milioane de cuvinte utilizate în mod obișnuit în limba scrisă germană. De atunci, baza de date electronică a textului a fost completată și extinsă printr-o serie de proiecte ulterioare de colectare a corpusului. Până în 2013, DeReKo este una dintre principalele resurse la nivel mondial pentru învățarea limbii germane . Rata de creștere a volumului corpusului este de aproximativ 300 de milioane de cuvinte pe an. Având ca obiectiv principal „studiul limbii germane în utilizarea sa modernă”, Institutul IDS are o politică de asigurare a funcționării pe termen lung a DeReKo.

Caracteristicile cheie ale DeReKo sunt:

Scopul principal al DeReKo este de a servi drept bază practică pentru studiul științific al scrisului german modern. Unul dintre principiile importante este că se pune accent pe limba în sine, și nu pe informațiile transmise de aceasta.

Componența corpului

Corpusul conține diverse tipuri de texte: ficțiune, literatură științifică și populară, periodice etc. Există și un subcorpus al vorbirii orale (vorbire colocvială, înregistrări ale vorbirii vorbitorilor de diferite dialecte etc.). Resursa include o bază de date bazată pe corpus de combinații de cuvinte germane.

Acest corpus conține 6 subcorpuri principale:

Corpusul vorbirii scrise include 3 corpus Mannheim propriu-zis, precum și multe altele (ficțiune, corpus istoric, jurnalism, lucrări colectate ale lui Karl Marx și Friedrich Engels , corpus Thomas Mann, corpus interviu etc.).

Volumul corpului

Volumul corpusului este de peste 1846 milioane de utilizări de cuvinte. Spre deosebire de alte corpus cunoscute (cum ar fi, de exemplu, British National Corpus ), DeReKo își propune să acopere volumul maxim posibil de texte, și nu să echilibreze compoziția acestora: distribuția textelor după timpul de creare sau tipul de text nu corespunde. la procente prestabilite.

Markup și adnotări

DeReKo are lematizare și marcaj morfologic , dar numai pentru unele dintre texte. Cu toate acestea, există mai multe adnotări consistente în arhivă la diferite niveluri de limbă (cel puțin la nivelurile părților de vorbire și de sintaxă). Datorită dimensiunii mari a corpusului, nici adnotarea manuală, nici controlul manual al adnotării automate nu este fezabilă. Ca urmare, gradul de inexactitate așteptat este foarte mare, mai ales acolo unde există fenomene complexe din punct de vedere lingvistic.

Metadate

Unitățile de bază ale textului din corpus DeReKo sunt însoțite de informații- metadate speciale . Un principiu important al unui corpus este că aceste metadate trebuie să fie accesibile. Ce informații specifice sunt disponibile depind de sursa de date și de tipul de text.

Principalele categorii de metadate:

Acces

Din cauza restricțiilor de drepturi de autor și de licențiere, bazele de date de arhivă DeReKo nu pot fi copiate sau descărcate de pe site pe un hard disk. Dar aceste date pot fi solicitate și analizate gratuit prin sistemul COSMAS II [1] , ai cărui utilizatori trebuie să se înregistreze și să fie de acord să utilizeze datele exclusiv în scopuri necomerciale, educaționale. COSMAS II vă permite să utilizați carcasa DeReKo pentru rezolvarea unor probleme științifice specifice.

Note

  1. Sistemul COSMAS II . Data accesului: 17 octombrie 2013. Arhivat din original pe 22 octombrie 2013.

Vezi și

Literatură

Link -uri