Extragerea informațiilor

Extragerea informațiilor este sarcina  de extragere (construire) automată a datelor structurate din documente nestructurate sau semistructurate care pot fi citite de mașină.

Extragerea informațiilor este un tip de regăsire a informațiilor asociat cu procesarea textului în limbaj natural . Un exemplu de extragere a informațiilor poate fi căutarea vizitelor de afaceri - formal este scris astfel: НанеслиВизит(Компания-Кто, Компания-Кому, ДатаВизита) - din fluxuri de știri , precum: „Ieri, 1 aprilie 2007, reprezentanți ai corporației Pepelac International au vizitat biroul Gravitsap Productions”. Scopul principal al unei astfel de transformări este capacitatea de a analiza informații inițial „haotice” folosind metode standard de procesare a datelor . [1] Un scop mai restrâns poate fi, de exemplu, sarcina de a identifica tipare logice în evenimentele descrise în text. [2]

În tehnologiile informaționale moderne , rolul unei astfel de proceduri precum extragerea informațiilor crește din ce în ce mai mult - datorită creșterii rapide a cantității de informații nestructurate (fără metadate ), în special pe Internet . Aceste informații pot fi mai structurate prin conversia lor în formă relațională sau prin adăugarea de markup XML . [3] Când monitorizați fluxurile de știri cu agenți inteligenți , veți avea nevoie de metode pentru a extrage informații și a le transforma într-o formă cu care va fi mai convenabil să lucrați mai târziu.

O sarcină tipică de extragere a informațiilor este scanarea unui set de documente în limbaj natural și popularea unei baze de date cu informații utile extrase. Abordările moderne de regăsire a informațiilor folosesc metode de procesare a limbajului natural care abordează doar un set foarte limitat de subiecte (întrebări, probleme) - adesea doar un singur subiect. De exemplu, Message Understanding Conference (MUC ) este o conferință competitivă și, în trecut, sa concentrat pe:

Textele în limbaj natural pot necesita un fel de transformare preliminară într-un limbaj (de exemplu, RDF  - Resource Description Framework) care poate fi înțeles de un computer.

Subsarcini tipice de extragere a informațiilor:

Note

  1. Procesarea datelor poate fi înțeleasă, printre altele , și pur și simplu acumularea lor într- o bază de date .
  2. Data mining se ocupă de această sarcină .
  3. Conceptul de dezvoltare a Internetului, în care fiecărui document este atașat un fișier cu metadate în format XML , se numește web semantic și este considerat foarte promițător; dar merită remarcat: acest lucru nu este același lucru cu transformarea documentului în sine.

Vezi și

Link -uri

limbă străină