Corpul Hamshahri

Corpusul Hamshahri ( persană پیکره همشهری ‎) este un corpus de texte în persană bazat pe conținutul ziarului iranian Hamshahri , una dintre primele publicații online în limba persană . Inițial colectat și compilat de Ehsan Darrudi de la Grupul DBRG [1] , cu sediul la Universitatea din Teheran . Mai târziu, un grup condus de Ali Ahmad [2] pe baza acestui corpus a creat prima bază de date de texte persane adecvate sarcinilor de regăsire a informațiilor.

Corpusul Hamshahri a fost creat prin scanarea articolelor de știri de pe site-ul ziarului Hamshahri și apoi prin procesarea paginilor HTML pentru a crea un corpus de text standard adecvat pentru regăsirea informațiilor standard.

Versiunea 1.0

Această versiune conținea peste 160.000 de articole care acoperă următoarele categorii de subiecte: Politică, Știri din oraș, Economie, Rapoarte, Editoriale, Literatură, Știință, Societate, Știri străine, Sport etc. Documentele variază în dimensiune de la știri scurte (mai puțin de 1 KB) la articole destul de lungi (aproximativ 140 KB) cu o medie de 1,8 KB.

Corpusul este disponibil în mai multe formate de descărcare [2] :

text cu etichete: 560 MB
În tabelele SQL Server 2000 : 712 MB.

Versiunea 2.0

Această versiune a fost lansată pe 20 octombrie 2008, în comparație cu cea anterioară, are câteva funcții noi:

În altă ordine de idei: 323.616 povești text în 3.206 fișiere XML (fișier pentru fiecare zi);
Prelungirea perioadei de publicare: de la 22 iunie 1996 până la 13 mai 2007;
Capacitate mai mare: 1,42 GB necomprimat;
Codare standard: Unicode XML;
Imagini incluse: imaginile au fost extrase din știri și salvate (disponibile într-un pachet opțional), făcându-le potrivite pentru sarcini de căutare de imagini;
Știri categorizate: știrile au fost clasificate semi-automat (pentru sarcini de clasificare și clasificare a textului).

Corpusul este disponibil pentru descărcare în format XML .

Note

↑ DBRG News Arhivat 15 mai 2017 la Wayback Machine Database Research Group
↑ 1 2 Hamshahri Arhivat 14 mai 2017 la Wayback Machine Database Research Group

Link -uri

Pagina de pornire Hamshahri Corpus
Pagina principală a colecției irBlogs

Lingvistica corpusului
corpuri engleze	Corpus național al englezei americane Bank of English Bergen Corpus of London Teenage Language corpul național britanic Corpus brun Buckeye Corpus Cambridge English Corpus Corpus de engleză americană modernă Enron Corpus Corpus internațional de engleză Lancaster-Oslo-Bergen Corpus Corpus englez la Oxford Prop Bank Corpus englezesc vorbit TIMET VerbNet Corpus Wellington de engleză vorbită din Noua Zeelandă
Corpuri în limba rusă	Corpus general de internet al limbii ruse Corpus național rus Corpus deschis al limbii ruse SinTagRus Corpusul limbii ruse din Tübingen Corpus Uppsala de texte rusești Corpus adnotat de la Helsinki al limbii ruse
Corpora în alte limbi	Bijankhan Corpus COPII Corpus de croat Corpus național croat Europarl Corpus Mannheim corpus german Corpul Hamshahri Corpus național polonez Proiectul Corpus Text Neo-Asirian Corpus coranic Corpus Național Scoțian Corpus național sloven vorbesc banca Tatoeba Corpus monolingv Teheran Tekstaro de Esperanto Tezaur Linguae Graecae
Organizații	Consorțiul BNC COBUILD