Extragerea de cunoștințe

Extragerea de cunoștințe este crearea de  cunoștințe din surse structurate ( baze de date relaționale , XML ) și nestructurate ( texte , documente, imagini ). Cunoștințele rezultate trebuie să fie într-un format care să permită introducerea computerului și trebuie să reprezinte cunoștințele într-un mod care să faciliteze inferența. Deși metodologia procesului este similară cu extragerea informațiilor ( procesarea limbajului natural , ing. Procesarea limbajului natural , NLP) și procesul de „ Extract, Transform, Load ” ( ing. Extract, Transform, Load , ETL, pentru depozitele de date) , principalul criteriu de rezultat este crearea informaţiei structurate sau transformarea într-o schemă relaţională . Acest lucru necesită fie transformarea cunoștințelor formale existente (reutilizarea identificatorilor sau ontologiilor ) fie generarea unei scheme bazate pe datele originale.   

Grupul RDB2RDF W3C [1] standardizează un limbaj pentru extragerea cadrelor de descriere a resurselor ( RDF) dintr-o bază de date relațională .  Un alt exemplu popular de extragere a cunoștințelor este conversia Wikipedia în date structurate și maparea la cunoștințele existente (vezi DBpedia și Freebase ).

Prezentare generală

După standardizarea limbajelor de reprezentare a cunoștințelor precum Resource Description Framework ( RDF) și Web Ontology Language ( OWL ), s-au făcut multe cercetări în acest domeniu, în special în ceea ce privește transformarea bazei de date relaționale. , capacități de recunoaștere , descoperirea cunoștințelor și învățarea ontologiei. Procesul principal utilizează metode tradiționale de extragere a informațiilor și metode de extragere , transformare, încărcare ( ETL) care convertesc datele din formatele sursă în formate structurate .   

Următoarele criterii pot fi utilizate pentru încercările de clasificare în acest subiect (unele dintre ele oferă extragerea cunoștințelor din baze de date relaționale) [2] :

Sursă Ce date pot fi prelucrate: Text, Baza de date relațională, XML , CSV
Performanţă Cum pot fi prezentate datele extrase pentru utilizare (fișier ontologie (model de obiect), bază de date semantică)? Cum este posibilă solicitarea informațiilor de la reprezentanța primită?
Sincronizare Extragerea cunoștințelor este efectuată o singură dată pentru a produce un dump sau rezultatul este sincronizat cu sursa? Extracția este statică sau dinamică? Modificările din rezultat sunt scrise înapoi la sursă (bidirecționalitate)?
Dicţionar Reuse Dacă extractorul permite reutilizarea dicționarelor existente la extragere. De exemplu, coloana tabelului „firstName” poate fi mapată în coloana foaf: firstName. Unele abordări automate nu sunt capabile să afișeze un dicționar.
Automatizare Gradul de participare / automatizarea extracției: Mod manual, există o GUI , semi-automat, automat.
Nevoia unui model de obiecte de domeniu Dacă un model de obiect predefinit este necesar să fie mapat la acesta. Astfel, fie se creează o mapare, fie se obține o schemă din sursă prin ( training ontologis ).

Exemple

Legarea entității denumite

  1. DBpedia Spotlight , OpenCalais , Dandelion dataTXT , Zemanta API , Extractiv și PoolParty Extractor analizează textul arbitrar prin recunoașterea entităților numite , iar apoi rezolvând ambiguitățile prin rezolvarea numelor și conectând entitățile găsite la depozitul de cunoștințe DBpedia [ 3 ] ( Demo Dandelion dataTXT , sau Demo web DBpedia Spotlight , sau Demo PoolParty Extractor ).

Președintele Obama a cerut miercuri Congresului să includă o extindere a reducerilor fiscale pentru studenți în pachetul de stimulente economice, argumentând că politica va genera un sprijin mai puternic.

Deoarece președintele Obama este conectat în DBpedia la resursa LinkedData , informații suplimentare pot fi preluate automat și Semantic Reasoner poate, de exemplu, deduce că entitatea la care se face referire este un tip de personalitate (folosind FOAF ) și Președintele Statelor Unite (folosind YAGO ). Contraexemple: metodele care recunosc doar entități și nu se asociază cu articole Wikipedia sau alte entități nu oferă date structurate suplimentare și extragerea formală a cunoștințelor.

Convertirea unei baze de date relaționale în RDF

  1. Vizualizările Triplify, D2R Server, Ultrawrap și Virtuoso RDF sunt instrumente care convertesc o bază de date relațională în RDF. În timpul acestui proces, aceste instrumente permit reutilizarea vocabularelor și ontologiei în procesul de transformare. Când un tabel relațional tipic numit utilizatori este convertit , o singură coloană (de exemplu, nume ) sau un grup de coloane (de exemplu, prenume și prenume ) trebuie să furnizeze un identificator uniform pentru entitatea creată. De obicei se folosește cheia principală. Orice altă coloană poate fi preluată ca fiind legată de această entitate [4] . Apoi, proprietățile cu semantică definită formal sunt folosite (și reutilizate) pentru a interpreta informațiile. De exemplu, coloana tabelului utilizator numită marriedTo poate fi definită ca o relație semantică, iar coloana paginii de pornire poate fi mapată la o proprietate din dicționarul FOAF numită foaf: homepage , calificându-l astfel ca o funcționalitate inversă . Apoi fiecare intrare a tabelului utilizator poate fi făcută o instanță a clasei foaf:Person (Population ontology). În plus, o disciplină (sub forma unei ontologii) poate fi creată din status_id prin reguli create manual (dacă status_id este 2, rândul tabelului aparține clasei Teacher) sau prin metode (semi-)automate ( Learn Ontologies ). ). Mai jos este un exemplu de transformare:
Nume casatorit cu pagina principala status_id
Petru Maria http://example.org/Peters_page  (link indisponibil) unu
Crăciun Eva http://example.org/Claus_page  (link indisponibil) 2
: Peter : marriedTo : Mary . : marriedTo OWL : SymmetricProperty . : Peter foaf : pagina de pornire <http://example.org/Peters_page> . : Peter foaf : Persoană ( persoană fizică ) . : Peter : Student ( Student ). : Crăciun : Profesor ( Profesor ).

Extragerea din surse structurate în RDF

Mapare 1:1 de la tabele/vizualizările bazei de date relaționale la entități/atribute/valori RDF

Când construiți o reprezentare a unei baze de date relaționale (RDB, ing. baze de  date relaționale ), punctul de plecare este adesea o diagramă entitate-relație ( ing.  diagramă entitate-relație , ERD). De obicei, fiecare entitate este reprezentată ca un tabel de bază de date, fiecare proprietate de entitate devine o coloană în acel tabel, iar relația dintre entități este afișată prin chei străine. Fiecare tabel definește de obicei o anumită clasă de entitate și fiecare coloană definește una dintre proprietățile acelei entități. Fiecare rând din tabel descrie o instanță a unei entități, identificată în mod unic printr-o cheie principală. Rândurile tabelului împreună descriu setul de entități. În reprezentarea echivalentă RDF a aceluiași set de entități:

  • Fiecare coloană din tabel este o proprietate (adică un predicat)
  • Fiecare valoare dintr-o coloană este o proprietate de atribut (adică este un obiect)
  • Fiecare cheie de rând reprezintă un ID de entitate (adică un subiect)
  • Fiecare rând reprezintă o instanță a unei entități
  • Fiecare rând (instanță de entitate) este reprezentat în RDF ca o colecție de tupluri cu un subiect comun (ID de entitate).

Deci, pentru a exprima o reprezentare echivalentă bazată pe semantica RDF, algoritmul de bază ar fi:

  1. creați o clasă RDF Schema (RDFS) pentru fiecare tabel
  2. converti toate cheile principale și cheile externe în identificatori IRI
  3. atribuiți un predicat IRI fiecărei coloane
  4. atribuiți rdf: introduceți predicatul fiecărei linii asociindu-l cu identificatorul IRI al clasei RDFS
  5. Pentru fiecare coloană care nu face parte nici din cheia principală, nici din cheia străină, construim un triplu care conține IRI-ul cheii principale ca subiect (subiect), IRI-ul coloanei ca predicat și valoarea coloană ca obiect.

O referire timpurie la cartografierea de bază sau directă poate fi găsită în comparația lui Tim Berners-Lee a modelului ER cu modelul RDF [4] .

Mapări complexe ale bazelor de date relaționale în RDF

Maparea 1:1 menționată mai sus reprezintă datele vechi ca RDF direct, iar o rafinare suplimentară poate fi utilizată pentru a îmbunătăți utilitatea ieșirii RDF în funcție de cazul de utilizare dat. De regulă, informațiile se pierd în timpul transformării unei diagrame entitate  -relație (ERD) în tabele relaționale (o descriere detaliată poate fi găsită în articolul „ Dispotrivire obiect-relație ”) și trebuie restaurată prin inginerie inversă . Conceptual, abordările de extracție pot veni din două direcții. Prima direcție încearcă să extragă sau să antreneze (folosind machine learning) o schemă OWL dintr-o schemă de bază de date dată. Abordările timpurii au folosit un număr fix de reguli de cartografiere realizate manual pentru a îmbunătăți maparea 1:1 [5] [6] [7] . Metode mai elaborate au folosit algoritmi euristici sau de învățare pentru a genera informații schematice (metodele se suprapun cu învățarea ontologiei ). În timp ce unele abordări încearcă să extragă informații din structura inerentă schemei SQL [8] (prin analizarea, de exemplu, chei externe), alte abordări analizează conținutul și valorile din tabele pentru a crea ierarhii conceptuale [9] (de exemplu , coloanele cu puține valori sunt candidate pentru a deveni categorii). Cea de-a doua direcție încearcă să mapați schema și conținutul acesteia la o ontologie de domeniu existentă (vezi și „ Cartarea ontologiei ”). Deseori, totuși, o ontologie de domeniu adecvată nu există și trebuie mai întâi creată.

XML

Deoarece XML este structurat ca un arbore, este ușor să reprezentați orice date în format RDF, care este structurat ca un grafic. XML2 RDF este un exemplu de abordare care utilizează noduri RDF goale și transformă elemente și atribute XML în proprietăți RDF. Cazul este însă mai complex decât în ​​cazul bazelor de date relaționale. În tabelele relaționale, cheia principală este un candidat ideal pentru subiectul triplelor distinse. Un element XML, totuși, poate fi convertit - în funcție de context - ca subiect, ca predicat sau ca obiect triplu. XSLT poate fi folosit ca limbaj de transformare standard pentru conversia manuală XML în RDF.

Prezentare generală a metodelor/mijlocurilor

Nume Sursa
datelor
Prezentarea rezultatului Sincronizarea datelor Limba afișată
Dicţionar reuse
Automatizare afișare
_
Este necesară ontologia domeniului Folosind
GUI
_
Maparea directă a datelor relaționale cu RDF
date relaționale
SPARQL / ETL dinamic Nu automat
_
Nu Nu
CSV2RDF4LOD csv ETL static RDF da manual Nu Nu
Convert2RDF Fișier text delimitat ETL static RDF/DAML da manual Nu da
Server D2R Arhivat pe 26 februarie 2012 la Wayback Machine RBD SPARQL bidirectional Harta D2R da manual Nu Nu
Dart Grid RBD Limbajul de interogare OWL dinamic ajutoare vizuale da manual Nu da
master de date RBD ETL static proprii da manual da da
Extensia RDF de la Google Refine CSV, XML ETL static dispărut semi-
automat
Nu da
Crextor XML ETL static XSLT da manual da Nu
MAPONTO RBD ETL static proprii da manual da Nu
METAmorfoze RBD ETL static propriul limbaj bazat pe maparea xml da manual Nu da
MappingMaster csv ETL static MappingMaster da GUI Nu da
ODEMapster RBD ETL static proprii da manual da da
Plug-in OntoWiki CSV Importer - DataCube și Tabular csv ETL static RDF Data Cube Vocaublar da semi-
automat
Nu da
Extractor pentru petreceri la piscină (PPX) XML, text Date legate dinamic RDF ( SKOS ) da semi-
automat
da Nu
RDBToOnto RBD ETL static dispărut Nu automat
, utilizatorul are șansa de a ajusta rezultatul
Nu da
RDF 123 csv ETL static Nu Nu manual Nu da
RDOTE RBD ETL static SQL da manual da da
Relațional.BUFINĂ RBD ETL static dispărut Nu automat
_
Nu Nu
T2LD csv ETL static Nu Nu automat
_
Nu Nu
Dicționar RDFdata cube ( eng.  RDF Data Cube Vocabulary ) Date statistice multidimensionale în foi de calcul dicționar cub de date da manual Nu
Compozitor TopBraid csv ETL static SKOS Nu semi-
automat
Nu da
triplica RBD Date legate dinamic SQL da manual Nu Nu
ultrawrap RBD SPARQL/ETL dinamic R2RML da semi-
automat
Nu da
Vizualizări RDF virtuoase RBD SPARQL dinamic Limbajul metaschemei da semi-
automat
Nu da
Sponger virtuos surse de date structurate
și semistructurate
SPARQL dinamic Virtuoso PL & XSLT da semi-
automat
Nu Nu
Vizavi RBD RDQL [10] manual SQL da manual da da
XLWrap: foaie de calcul în RDF csv ETL static Sintaxa TriG da manual Nu Nu
XML în RDF XML ETL static Nu Nu automat
_
Nu Nu

Extragere dintr-o sursă în limbaj natural

Cea mai mare parte a informațiilor conținute într-un document de afaceri (aproximativ 80% [11] ) este codificată în limbaj natural și, prin urmare, nu este structurată. Deoarece datele nestructurate sunt mai degrabă o sarcină dificilă pentru extragerea cunoștințelor, sunt necesare metode mai sofisticate, care de obicei dau rezultate mai proaste decât datele structurate. Cu toate acestea, capacitatea de a dobândi o cantitate imensă de cunoștințe extrase compensează complexitatea crescândă și deteriorarea calității extracției. Mai mult, sursele în limbaj natural sunt înțelese ca surse de informații în care datele sunt date ca date textuale nestructurate. Dacă textul dat este inserat într-un document de marcare (cum ar fi un document HTML), aceste sisteme elimină de obicei elementele de marcare automat.

Extragerea de informații tradiționale

Extracția tradițională a informațiilor ( IE [12] ) [13] este o   tehnologie de procesare a limbajului natural care extrage informații din textele în limbaj natural și le structurează în mod corespunzător. Tipurile de informații care trebuie extrase trebuie specificate în model înainte de începerea procesului de prelucrare, motiv pentru care întregul proces de extragere a informațiilor tradiționale este dependent de domeniul subiectului luat în considerare. FROM ( ing. IE ) este împărțit în următoarele cinci subsarcini.  

  • Recunoașterea entității denumite ( ing.  Recunoașterea entității denumite , NER)
  • Rezoluția coreferenței ( CO  )
  • Construcția elementului șablon ( TE  ) (sau Adăugarea de atribute la entități)
  • Identificarea relațiilor dintre entități (BC, ing.  Construcție relație șablon , TR)
  • Crearea unei descrieri complete a evenimentului (PPO, ing.  Producerea scenariului șablon , ST)

Sarcina recunoașterii entităților numite este de a recunoaște și clasifica toate entitățile denumite conținute în text (atribuirea entităților denumite la categorii predefinite). Funcționează prin aplicarea unor metode bazate pe gramatică sau modele statistice.

Rezoluția coreferenței stabilește entități echivalente care au fost recunoscute în text de algoritmul NER. Există două tipuri legate de relații de echivalență. Prima relație se referă la o relație între două entități diferite (de exemplu, IBM Europa și IBM), iar a doua se referă la o relație între o entitate și referința ei anaforică (de exemplu, aceasta și IBM). Ambele specii pot fi recunoscute prin rezoluție de coreferență .

În timpul construcției elementelor șablon, sistemul IE stabilește proprietățile descriptive ale entităților recunoscute de sistemele NER și CO. Aceste proprietăți corespund calităților comune precum „roșu” sau „mare”.

Identificarea relațiilor dintre entitățile individuale stabilește relațiile care există între elementele șablonului. Aceste relații pot fi de mai multe feluri, cum ar fi work-for sau localizate-in, cu constrângerea că atât domeniul de aplicare, cât și intervalul corespund entităților.

Descrierile complete ale evenimentelor care se desfășoară în text sunt recunoscute și structurate în funcție de entitățile recunoscute de sistemele NER și CO, iar relațiile sunt recunoscute de sistemul BC.

Extragerea de informații pe baza ontologiilor

Extracția informațiilor bazate pe ontologie ( OBIE  ) [11] este un subdomeniu al extracției de informații care utilizează cel puțin o ontologie pentru a gestiona procesul de extragere a informațiilor din textul în limbaj natural. Sistemul OBIE folosește tehnici tradiționale de extragere a informațiilor pentru a recunoaște conceptele , entitățile și relațiile ontologiilor utilizate în text, care vor fi structurate într-o ontologie după proces. Astfel, ontologiile de intrare formează un model al informațiilor recuperate.

Învățarea ontologiei

Învățarea ontologiei (OL) este crearea  automată sau semi-automată de ontologii, inclusiv extragerea termenilor relevanți din domeniul obiectului din textul limbajului natural. Deoarece construirea manuală a ontologiilor necesită o forță de muncă extrem de mare și consumatoare de timp, există un stimulent puternic pentru automatizarea procesului.

Adnotare semantică

În timpul adnotării semantice ( SA ) [14] , textul în limbaj natural este însoțit de metadate (deseori reprezentate în RDF  [ , Resource Description Framework in Attributes ) care ar trebui să facă semantica elementelor conținute ușor de înțeles de către mașini . În acest proces, care este de obicei semi-automat, cunoștințele sunt recuperate în sensul că se stabilește o legătură între elementele lexicale și, de exemplu, conceptele din ontologii. Astfel, obținem cunoștințe care dezvăluie semnificația entității în contextul în curs de prelucrare și, prin urmare, determină sensul textului în informațiile percepute de mașină cu capacitatea de a trage concluzii logice. Adnotarea semantică este de obicei împărțită în următoarele două subsarcini.  

  1. Extragerea terminologiei
  2. Conectarea entităților numite

La nivelul extragerii terminologiei, termenii lexicali sunt extrasi din text. În acest scop, analizatorul lexical determină mai întâi limitele cuvintelor și extrage abrevieri. Termenii care se potrivesc conceptelor sunt apoi extrași din text folosind un vocabular specific domeniului pentru legarea entităților.

Când se leagă entități [15] , se stabilește o legătură între membrii lexicali extrași din textul sursă și concepte dintr-o ontologie sau bază de cunoștințe, cum ar fi DBpedia . Pentru a face acest lucru, conceptele candidate sunt identificate în funcție de anumite valori ale elementelor folosind un dicționar. În cele din urmă, contextul termenilor este analizat pentru a determina dezambiguizarea cea mai adecvată și conceptul corect este atribuit termenului.

Mijloace

Următoarele criterii pot fi utilizate pentru a clasifica instrumentele care extrag cunoștințe din textele în limbaj natural.

Sursă Ce formate de intrare pot fi procesate (text simplu, HTML sau PDF de exemplu)?
Paradigma de acces Instrumentul poate interoga o parte din datele din sursă sau este necesară o descărcare completă pentru procesul de extragere?
Sincronizarea datelor Rezultatul extracției este sincronizat cu sursa?
Utilizarea modelului obiect Instrumentul asociază rezultatul cu modelul obiect?
Automatizare afișare Cât de automat este procesul de extracție (manual, semi-automat sau automat)?
Cerință pentru modelul obiectului Instrumentul necesită un model de obiect pentru a fi preluat?
Folosind GUI Instrumentul are o interfață grafică cu utilizatorul ( GUI  ) ?
O abordare Ce abordare (IE, OBIE, OL sau SA) folosește instrumentul?
Entități extractibile                    Ce tipuri de entități (cum ar fi entități numite, concepte sau relații) pot fi preluate de instrument?
Tehnici aplicate Ce tehnici sunt folosite (de exemplu, NLP, metode statistice, clustering sau machine learning )?
model de ieșire Ce model este folosit pentru a reprezenta rezultatul instrumentului (de exemplu, RDF sau OWL)?
Domenii suportate Ce domenii sunt acceptate (de exemplu, economie sau biologie)?
Limbi acceptate Ce limbi pot fi procesate (de exemplu, engleză, germană sau rusă)?

Următorul tabel descrie unele dintre instrumentele pentru extragerea cunoștințelor din sursele limbajului natural.

Nume Sursă Paradigma de acces Sincronizarea datelor Utilizarea modelului obiect Automatizare afișare Cerință pentru modelul obiectului Folosind GUI O abordare Entități extractibile                    Tehnici aplicate model de ieșire Zone suportate Limbi acceptate
Aero Text [16] date text, HTML, XML, SGML haldă Nu da automat da da IE entități numite, relații, evenimente reguli lingvistice proprii nu depinde de zonă engleză, spaniolă, arabă, chineză, indoneziană
Alchemy API [17] date text, HTML automat da SA multilingv
ANNIE

[optsprezece]

date text haldă da da IE algoritmi de mașină de stări multilingv
ASIUM (LRI) date text haldă semiautomat da OL concepte, ierarhia conceptelor NLP, clustering
Extracție exhaustivă prin atenție automat IE entități numite, relații, evenimente NLP
Dandelion API date text, HTML, URL ODIHNĂ Nu Nu automat Nu da SA entități numite, concepte metode statistice JSON nu depinde de zonă multilingv
Spotlight DBpedia [19] date text, HTML gunoi, SPARQL da da automat Nu da SA adnotare la fiecare cuvânt, adnotare la cuvinte non-stop NLP, metode statistice, învățare automată RDFa nu depinde de zonă Engleză
EntityClassifier.eu date text, HTML haldă da da automat Nu da IE, OL, SA adnotare la fiecare cuvânt, adnotare la cuvinte non-stop gramatica bazata pe reguli XML nu depinde de zonă engleză, germană, olandeză
Fred [20] date text dump, REST API da da automat Nu da IE, OL, SA, modele de proiectare ontologică, semantică a cadrelor Cuvinte NIF sau EarMark abstracte, predicate, instanțe, semantică compozițională, concepte de taxonomie , roluri semantice, relații descriptive, evenimente, stare de spirit, timp gramatical, legare la entități numite, legare la evenimente, emoții NLP, machine learning, reguli euristice RDF/OWL nu depinde de zonă Engleză, alte limbi după traducere
iDocument [21] HTML, PDF , DOC SPARQL da da OBIE cazuri, valori de proprietate NLP afaceri personale
Extractor NetOwl [22] date text, HTML, XML, SGML , PDF, MS Office haldă Nu da automat da da IE entități numite, relații, evenimente NLP XML, JSON , RDF - OWL, altele zone multiple engleză, arabă, chineză (simplificată și tradițională), franceză, coreeană, persană (farsi și dari), rusă, spaniolă
OntoGen Arhivat la 30 martie 2010 la Wayback Machine [23] semiautomat da OL concepte, ierarhie de concepte, relații non-taxonomice, instanțe NLP, machine learning, clustering
OntoLearn Arhivat 9 august 2017 la Wayback Machine [24] date text, HTML haldă Nu da automat da Nu OL concepte, ierarhie de concepte, instanțe NLP, metode statistice proprii nu depinde de zonă Engleză
OntoLearn reîncărcat date text, HTML haldă Nu da automat da Nu OL concepte, ierarhie de concepte, instanțe NLP, metode statistice proprii nu depinde de zonă Engleză
OntoSiphon [25] HTML, PDF, DOC dump, interogări ale motorului de căutare Nu da automat da Nu OBIE concepte, relații, instanțe NLP, metode statistice RDF nu depinde de zonă Engleză
ontoX [26] date text haldă Nu da semi-automat da Nu OBIE instanțe, valori ale proprietăților tipului de date metode bazate pe euristică proprii nu depinde de zonă nu depinde de limbaj
Deschide Calais date text, HTML, XML haldă Nu da automat da Nu SA adnotare la entități, adnotare la evenimente, adnotare la fapte NLP, învățare automată RDF nu depinde de zonă engleză, franceză, spaniolă
Extractor pentru petreceri la piscină (2011) date text, HTML, DOC, ODT haldă Nu da automat da da OBIE entități denumite, concepte, relații, concepte, care clasifică textul, îmbogățiri NLP, machine learning, metode statistice RDF, BUFINĂ nu depinde de zonă engleză, germană, spaniolă, franceză
Rosoka date text, HTML, XML, SGML , PDF, MS Office haldă da da automat Nu da IE extragerea entității numite, rezoluția entității, relația, atributul, extragerea conceptului, analiza sentimentului multi-vector, georeferențiare, identificarea limbii , învățarea automată NLP XML, JSON , POJO zone multiple multilingv (200+ limbi)
SCOOBIE date text, HTML haldă Nu da automat Nu Nu OBIE instanțe, valori de proprietate, tipuri RDFS NLP, învățare automată RDF, RDFa nu depinde de zonă engleză germană
SemTag [27] [28] HTML haldă Nu da automat da Nu SA învățare automată înregistrarea bazei de date nu depinde de zonă nu depinde de limbaj
Smart FIX date text, HTML, PDF, DOC, e-mail haldă da Nu automat Nu da OBIE entități numite NLP, învățare automată proprii nu depinde de zonă engleză, germană, franceză, olandeză, poloneză
Text2Onto [29] date text, HTML, PDF haldă da Nu semi-automat da da OL concepte, concept de concepte, relații non-taxonomice, instanțe, axiome NLP, metode statistice, învățare automată, metode bazate pe reguli BUFNIŢĂ nu depinde de zonă engleză, germană, spaniolă
Text-To-Onto [30] date text, HTML, PDF, PostScript haldă semi-automat da da OL concepte, ierarhia conceptelor, relații non-taxonomice, entități lexicale care se referă la concepte, entități lexicale care se referă la relații NLP, machine learning, clustering, metode statistice Deutsch
Acul acela Date text haldă automat Nu concepte, relații, ierarhie NLP, propriu JSON zone multiple Engleză
Mașina Wiki [31] date text, HTML, PDF, DOC haldă Nu da automat da da SA etichetarea numelor proprii, etichetarea substantivelor comune învățare automată RDFa regiune independentă engleză, germană, spaniolă, franceză, portugheză, italiană, rusă
Găsitor de lucruri [32] IE entități numite, relații, evenimente multilingv

Descoperirea cunoștințelor

Descoperirea cunoștințelor descrie procesul de căutare automată a unor cantități mari de date pentru modele care pot fi considerate cunoștințe despre date [33] . Acest lucru este adesea descris ca extragerea de cunoștințe din input . Descoperirea cunoștințelor este dezvoltată pentru analiza datelor și este strâns legată atât de metodologie, cât și de terminologie [34] .

Cea mai cunoscută ramură a exploatării datelor  este descoperirea cunoștințelor, cunoscută și sub numele de descoperire a cunoștințelor în baze de date . La fel ca multe alte forme de descoperire a cunoștințelor, această analiză creează abstracții ale datelor de intrare. Cunoștințele dobândite în urma acestui proces pot deveni date suplimentare care pot fi utilizate pentru utilizare și căutări ulterioare. Adesea rezultatul unui proces de descoperire a cunoștințelor nu are valoare practică, astfel încât descoperirea activă a cunoștințelor , cunoscută și sub denumirea de „ Analiza datelor de domeniu [35] , este concepută pentru a descoperi și extrage (de importanță practică) cunoștințe active și concluzii din aceste cunoștințe.

O altă aplicație promițătoare a descoperirii cunoștințelor este în domeniul modernizării software al detectării punctelor slabe și al respectării standardelor, care implică înțelegerea software-ului existent. Acest proces este legat de conceptul de inginerie inversă . De obicei, cunoștințele dobândite din software-ul existent sunt prezentate sub formă de modele pe care se pot face interogări specifice, dacă este necesar. Modelul entitate-relație este un format comun care reprezintă cunoștințe și este derivat din software-ul existent. Consorțiul Object Management Group a dezvoltat o specificație pentru Knowledge Discovery Metamodel ( KDM), care definește o ontologie pentru resursele software și relațiile lor, concepută pentru a descoperi cunoștințele în codul existent. Descoperirea cunoștințelor din sistemele software cunoscute, cunoscută și sub numele de software mining , este strâns legată de data mining , deoarece descoperirile de software existente sunt de mare importanță pentru managementul riscului și valoarea comercială , care servesc ca elemente cheie pentru analiză. și sisteme software de dezvoltare. În loc să analizeze seturi de date individuale , software mining se concentrează pe metadate , cum ar fi fluxul de producție (de exemplu, fluxul de date, fluxul de control, modelul de apel), arhitectura, schemele bazei de date și regulile/termenii/procesele de afaceri.  

Introducerea datelor

Formate de ieșire

Vezi și

Note

  1. Grupul de lucru RDB2RDF, site-ul web: http://www.w3.org/2001/sw/rdb2rdf/ , charter: http://www.w3.org/2009/08/rdb2rdf-charter , R2RML: Maparea RDB la RDF Limba: http://www.w3.org/TR/r2rml/
  2. LOD2 EU  (link indisponibil) Livrabil 3.1.1 Extragerea de cunoștințe din surse structurate
  3. Calais Release 4, 2009 .
  4. 1 2 Berners-Lee, 1998 .
  5. Hu, Qu, 2007 , p. 225-238.
  6. Ghawi, Cullot, 2007 .
  7. Li, Du, Wang, 2005 , p. 209-220.
  8. Tirmizi, Miranker, Sequeda, 2008 .
  9. Cerbah, 2008 .
  10. RDQL = RDF Query Language
  11. 1 2 Wimalasuriya, Dou, 2010 , p. 306 - 323.
  12. ↑ A nu se confunda cu MS IE = Microsoft Internet Explorer!
  13. Cunningham, 2005 , p. 665–677.
  14. Erdmann, Maedche, Schnurr, Staab, 2000 .
  15. Rao, McNamee, Dredze, 2011 , p. 93-115.
  16. Rocket Software Inc. (2012). „tehnologie pentru extragerea inteligenței din text”
  17. Orchestral8 (2012): „AlchemyAPI Overview”
  18. Universitatea din Sheffield (2011). „ANNIE: un sistem de extragere a informațiilor aproape nou”
  19. Mendes, Jakob, Garcia-Sílva, Bizer, 2011 , p. optsprezece.
  20. Gangemi, Presutti, Recupero et al., 2016 .
  21. Adrian, Maus, Dengel, 2009 .
  22. SRA International Inc. (2012). Extractor NetOwl
  23. Fortuna, Grobelnik, Mladenic, 2007 , p. 309–318.
  24. Missikoff, Navigli, Velardi, 2002 , p. 60-63.
  25. McDowell, Caferella, 2006 , p. 428 - 444.
  26. Yildiz, Miksch, 2007 , p. 660 - 673.
  27. Dill, Eiron, Gibson et al., 2003 , p. 178 - 186.
  28. Uren, Cimiano, Iria et al., 2006 , p. 14 - 28.
  29. Cimiano, Völker, 2005 .
  30. Maedche, Volz, 2001 .
  31. Conectarea mașinii. „Ne conectăm la cloud-ul Linked Open Data”
  32. Inxight ThingFinder și ThingFinder Professional (link în jos) . Inxight Federal Systems (2008). Consultat la 18 iunie 2012. Arhivat din original pe 29 iunie 2012. 
  33. Frawley, Piatetsky-Shapiro, Matheus, 1992 , p. 57-70.
  34. Fayyad, Piatetsky-Shapiro, Smyth, 1996 , p. 37-54.
  35. Cao, 2010 , p. 755–769.

Literatură