Corpul Hamshahri

Corpusul Hamshahri ( persană پیکره همشهری ‎) este un corpus de texte în persană bazat pe conținutul ziarului iranian Hamshahri , una dintre primele publicații online în limba persană . Inițial colectat și compilat de Ehsan Darrudi de la Grupul DBRG [1] , cu sediul la Universitatea din Teheran . Mai târziu, un grup condus de Ali Ahmad [2] pe baza acestui corpus a creat prima bază de date de texte persane adecvate sarcinilor de regăsire a informațiilor.

Corpusul Hamshahri a fost creat prin scanarea articolelor de știri de pe site-ul ziarului Hamshahri și apoi prin procesarea paginilor HTML pentru a crea un corpus de text standard adecvat pentru regăsirea informațiilor standard.

Versiunea 1.0

Această versiune conținea peste 160.000 de articole care acoperă următoarele categorii de subiecte: Politică, Știri din oraș, Economie, Rapoarte, Editoriale, Literatură, Știință, Societate, Știri străine, Sport etc. Documentele variază în dimensiune de la știri scurte (mai puțin de 1 KB) la articole destul de lungi (aproximativ 140 KB) cu o medie de 1,8 KB.

Corpusul este disponibil în mai multe formate de descărcare [2] :

Versiunea 2.0

Această versiune a fost lansată pe 20 octombrie 2008, în comparație cu cea anterioară, are câteva funcții noi:

Corpusul este disponibil pentru descărcare în format XML .

Note

  1. DBRG News Arhivat 15 mai 2017 la Wayback Machine Database Research Group
  2. 1 2 Hamshahri Arhivat 14 mai 2017 la Wayback Machine Database Research Group

Link -uri