Extragerea informațiilor este sarcina de extragere (construire) automată a datelor structurate din documente nestructurate sau semistructurate care pot fi citite de mașină.
Extragerea informațiilor este un tip de regăsire a informațiilor asociat cu procesarea textului în limbaj natural . Un exemplu de extragere a informațiilor poate fi căutarea vizitelor de afaceri - formal este scris astfel: НанеслиВизит(Компания-Кто, Компания-Кому, ДатаВизита) - din fluxuri de știri , precum: „Ieri, 1 aprilie 2007, reprezentanți ai corporației Pepelac International au vizitat biroul Gravitsap Productions”. Scopul principal al unei astfel de transformări este capacitatea de a analiza informații inițial „haotice” folosind metode standard de procesare a datelor . [1] Un scop mai restrâns poate fi, de exemplu, sarcina de a identifica tipare logice în evenimentele descrise în text. [2]
În tehnologiile informaționale moderne , rolul unei astfel de proceduri precum extragerea informațiilor crește din ce în ce mai mult - datorită creșterii rapide a cantității de informații nestructurate (fără metadate ), în special pe Internet . Aceste informații pot fi mai structurate prin conversia lor în formă relațională sau prin adăugarea de markup XML . [3] Când monitorizați fluxurile de știri cu agenți inteligenți , veți avea nevoie de metode pentru a extrage informații și a le transforma într-o formă cu care va fi mai convenabil să lucrați mai târziu.
O sarcină tipică de extragere a informațiilor este scanarea unui set de documente în limbaj natural și popularea unei baze de date cu informații utile extrase. Abordările moderne de regăsire a informațiilor folosesc metode de procesare a limbajului natural care abordează doar un set foarte limitat de subiecte (întrebări, probleme) - adesea doar un singur subiect. De exemplu, Message Understanding Conference (MUC ) este o conferință competitivă și, în trecut, sa concentrat pe:
Textele în limbaj natural pot necesita un fel de transformare preliminară într-un limbaj (de exemplu, RDF - Resource Description Framework) care poate fi înțeles de un computer.
Subsarcini tipice de extragere a informațiilor:
Ingineria cunoașterii | |
---|---|
Concepte generale | |
Modele rigide | |
Metode soft | |
Aplicații | |
procesarea limbajului natural | |
---|---|
Definiții generale | |
Analiza textului |
|
Referire |
|
Traducere automată |
|
Identificarea și colectarea datelor | |
Model tematic | |
Evaluare inter pares |
|
Interfață în limbaj natural |