Corpusul Hamshahri ( persană پیکره همشهری ) este un corpus de texte în persană bazat pe conținutul ziarului iranian Hamshahri , una dintre primele publicații online în limba persană . Inițial colectat și compilat de Ehsan Darrudi de la Grupul DBRG [1] , cu sediul la Universitatea din Teheran . Mai târziu, un grup condus de Ali Ahmad [2] pe baza acestui corpus a creat prima bază de date de texte persane adecvate sarcinilor de regăsire a informațiilor.
Corpusul Hamshahri a fost creat prin scanarea articolelor de știri de pe site-ul ziarului Hamshahri și apoi prin procesarea paginilor HTML pentru a crea un corpus de text standard adecvat pentru regăsirea informațiilor standard.
Această versiune conținea peste 160.000 de articole care acoperă următoarele categorii de subiecte: Politică, Știri din oraș, Economie, Rapoarte, Editoriale, Literatură, Știință, Societate, Știri străine, Sport etc. Documentele variază în dimensiune de la știri scurte (mai puțin de 1 KB) la articole destul de lungi (aproximativ 140 KB) cu o medie de 1,8 KB.
Corpusul este disponibil în mai multe formate de descărcare [2] :
Această versiune a fost lansată pe 20 octombrie 2008, în comparație cu cea anterioară, are câteva funcții noi:
Corpusul este disponibil pentru descărcare în format XML .
Lingvistica corpusului | |
---|---|
corpuri engleze |
|
Corpuri în limba rusă |
|
Corpora în alte limbi |
|
Organizații |