Extragerea de cunoștințe

Extragerea de cunoștințe este crearea de cunoștințe din surse structurate ( baze de date relaționale , XML ) și nestructurate ( texte , documente, imagini ). Cunoștințele rezultate trebuie să fie într-un format care să permită introducerea computerului și trebuie să reprezinte cunoștințele într-un mod care să faciliteze inferența. Deși metodologia procesului este similară cu extragerea informațiilor ( procesarea limbajului natural , ing. Procesarea limbajului natural , NLP) și procesul de „ Extract, Transform, Load ” ( ing. Extract, Transform, Load , ETL, pentru depozitele de date) , principalul criteriu de rezultat este crearea informaţiei structurate sau transformarea într-o schemă relaţională . Acest lucru necesită fie transformarea cunoștințelor formale existente (reutilizarea identificatorilor sau ontologiilor ) fie generarea unei scheme bazate pe datele originale.

Grupul RDB2RDF W3C [1] standardizează un limbaj pentru extragerea cadrelor de descriere a resurselor ( RDF) dintr-o bază de date relațională . Un alt exemplu popular de extragere a cunoștințelor este conversia Wikipedia în date structurate și maparea la cunoștințele existente (vezi DBpedia și Freebase ).

Prezentare generală

După standardizarea limbajelor de reprezentare a cunoștințelor precum Resource Description Framework ( RDF) și Web Ontology Language ( OWL ), s-au făcut multe cercetări în acest domeniu, în special în ceea ce privește transformarea bazei de date relaționale. , capacități de recunoaștere , descoperirea cunoștințelor și învățarea ontologiei. Procesul principal utilizează metode tradiționale de extragere a informațiilor și metode de extragere , transformare, încărcare ( ETL) care convertesc datele din formatele sursă în formate structurate .

Următoarele criterii pot fi utilizate pentru încercările de clasificare în acest subiect (unele dintre ele oferă extragerea cunoștințelor din baze de date relaționale) [2] :

Sursă	Ce date pot fi prelucrate: Text, Baza de date relațională, XML , CSV
Performanţă	Cum pot fi prezentate datele extrase pentru utilizare (fișier ontologie (model de obiect), bază de date semantică)? Cum este posibilă solicitarea informațiilor de la reprezentanța primită?
Sincronizare	Extragerea cunoștințelor este efectuată o singură dată pentru a produce un dump sau rezultatul este sincronizat cu sursa? Extracția este statică sau dinamică? Modificările din rezultat sunt scrise înapoi la sursă (bidirecționalitate)?
Dicţionar Reuse	Dacă extractorul permite reutilizarea dicționarelor existente la extragere. De exemplu, coloana tabelului „firstName” poate fi mapată în coloana foaf: firstName. Unele abordări automate nu sunt capabile să afișeze un dicționar.
Automatizare	Gradul de participare / automatizarea extracției: Mod manual, există o GUI , semi-automat, automat.
Nevoia unui model de obiecte de domeniu	Dacă un model de obiect predefinit este necesar să fie mapat la acesta. Astfel, fie se creează o mapare, fie se obține o schemă din sursă prin ( training ontologis ).

Exemple

Legarea entității denumite

DBpedia Spotlight , OpenCalais , Dandelion dataTXT , Zemanta API , Extractiv și PoolParty Extractor analizează textul arbitrar prin recunoașterea entităților numite , iar apoi rezolvând ambiguitățile prin rezolvarea numelor și conectând entitățile găsite la depozitul de cunoștințe DBpedia [ 3 ] ( Demo Dandelion dataTXT , sau Demo web DBpedia Spotlight , sau Demo PoolParty Extractor ).

Președintele Obama a cerut miercuri Congresului să includă o extindere a reducerilor fiscale pentru studenți în pachetul de stimulente economice, argumentând că politica va genera un sprijin mai puternic.

Deoarece președintele Obama este conectat în DBpedia la resursa LinkedData , informații suplimentare pot fi preluate automat și Semantic Reasoner poate, de exemplu, deduce că entitatea la care se face referire este un tip de personalitate (folosind FOAF ) și Președintele Statelor Unite (folosind YAGO ). Contraexemple: metodele care recunosc doar entități și nu se asociază cu articole Wikipedia sau alte entități nu oferă date structurate suplimentare și extragerea formală a cunoștințelor.

Convertirea unei baze de date relaționale în RDF

Vizualizările Triplify, D2R Server, Ultrawrap și Virtuoso RDF sunt instrumente care convertesc o bază de date relațională în RDF. În timpul acestui proces, aceste instrumente permit reutilizarea vocabularelor și ontologiei în procesul de transformare. Când un tabel relațional tipic numit utilizatori este convertit , o singură coloană (de exemplu, nume ) sau un grup de coloane (de exemplu, prenume și prenume ) trebuie să furnizeze un identificator uniform pentru entitatea creată. De obicei se folosește cheia principală. Orice altă coloană poate fi preluată ca fiind legată de această entitate [4] . Apoi, proprietățile cu semantică definită formal sunt folosite (și reutilizate) pentru a interpreta informațiile. De exemplu, coloana tabelului utilizator numită marriedTo poate fi definită ca o relație semantică, iar coloana paginii de pornire poate fi mapată la o proprietate din dicționarul FOAF numită foaf: homepage , calificându-l astfel ca o funcționalitate inversă . Apoi fiecare intrare a tabelului utilizator poate fi făcută o instanță a clasei foaf:Person (Population ontology). În plus, o disciplină (sub forma unei ontologii) poate fi creată din status_id prin reguli create manual (dacă status_id este 2, rândul tabelului aparține clasei Teacher) sau prin metode (semi-)automate ( Learn Ontologies ). ). Mai jos este un exemplu de transformare:

Nume	casatorit cu	pagina principala	status_id
Petru	Maria	http://example.org/Peters_page (link indisponibil)	unu
Crăciun	Eva	http://example.org/Claus_page (link indisponibil)	2

: Peter : marriedTo : Mary . : marriedTo OWL : SymmetricProperty . : Peter foaf : pagina de pornire <http://example.org/Peters_page> . : Peter foaf : Persoană ( persoană fizică ) . : Peter : Student ( Student ). : Crăciun : Profesor ( Profesor ).

Extragerea din surse structurate în RDF

Mapare 1:1 de la tabele/vizualizările bazei de date relaționale la entități/atribute/valori RDF

Când construiți o reprezentare a unei baze de date relaționale (RDB, ing. baze de date relaționale ), punctul de plecare este adesea o diagramă entitate-relație ( ing. diagramă entitate-relație , ERD). De obicei, fiecare entitate este reprezentată ca un tabel de bază de date, fiecare proprietate de entitate devine o coloană în acel tabel, iar relația dintre entități este afișată prin chei străine. Fiecare tabel definește de obicei o anumită clasă de entitate și fiecare coloană definește una dintre proprietățile acelei entități. Fiecare rând din tabel descrie o instanță a unei entități, identificată în mod unic printr-o cheie principală. Rândurile tabelului împreună descriu setul de entități. În reprezentarea echivalentă RDF a aceluiași set de entități:

Fiecare coloană din tabel este o proprietate (adică un predicat)
Fiecare valoare dintr-o coloană este o proprietate de atribut (adică este un obiect)
Fiecare cheie de rând reprezintă un ID de entitate (adică un subiect)
Fiecare rând reprezintă o instanță a unei entități
Fiecare rând (instanță de entitate) este reprezentat în RDF ca o colecție de tupluri cu un subiect comun (ID de entitate).

Deci, pentru a exprima o reprezentare echivalentă bazată pe semantica RDF, algoritmul de bază ar fi:

creați o clasă RDF Schema (RDFS) pentru fiecare tabel
converti toate cheile principale și cheile externe în identificatori IRI
atribuiți un predicat IRI fiecărei coloane
atribuiți rdf: introduceți predicatul fiecărei linii asociindu-l cu identificatorul IRI al clasei RDFS
Pentru fiecare coloană care nu face parte nici din cheia principală, nici din cheia străină, construim un triplu care conține IRI-ul cheii principale ca subiect (subiect), IRI-ul coloanei ca predicat și valoarea coloană ca obiect.

O referire timpurie la cartografierea de bază sau directă poate fi găsită în comparația lui Tim Berners-Lee a modelului ER cu modelul RDF [4] .

Mapări complexe ale bazelor de date relaționale în RDF

Maparea 1:1 menționată mai sus reprezintă datele vechi ca RDF direct, iar o rafinare suplimentară poate fi utilizată pentru a îmbunătăți utilitatea ieșirii RDF în funcție de cazul de utilizare dat. De regulă, informațiile se pierd în timpul transformării unei diagrame entitate -relație (ERD) în tabele relaționale (o descriere detaliată poate fi găsită în articolul „ Dispotrivire obiect-relație ”) și trebuie restaurată prin inginerie inversă . Conceptual, abordările de extracție pot veni din două direcții. Prima direcție încearcă să extragă sau să antreneze (folosind machine learning) o schemă OWL dintr-o schemă de bază de date dată. Abordările timpurii au folosit un număr fix de reguli de cartografiere realizate manual pentru a îmbunătăți maparea 1:1 [5] [6] [7] . Metode mai elaborate au folosit algoritmi euristici sau de învățare pentru a genera informații schematice (metodele se suprapun cu învățarea ontologiei ). În timp ce unele abordări încearcă să extragă informații din structura inerentă schemei SQL [8] (prin analizarea, de exemplu, chei externe), alte abordări analizează conținutul și valorile din tabele pentru a crea ierarhii conceptuale [9] (de exemplu , coloanele cu puține valori sunt candidate pentru a deveni categorii). Cea de-a doua direcție încearcă să mapați schema și conținutul acesteia la o ontologie de domeniu existentă (vezi și „ Cartarea ontologiei ”). Deseori, totuși, o ontologie de domeniu adecvată nu există și trebuie mai întâi creată.

XML

Deoarece XML este structurat ca un arbore, este ușor să reprezentați orice date în format RDF, care este structurat ca un grafic. XML2 RDF este un exemplu de abordare care utilizează noduri RDF goale și transformă elemente și atribute XML în proprietăți RDF. Cazul este însă mai complex decât în cazul bazelor de date relaționale. În tabelele relaționale, cheia principală este un candidat ideal pentru subiectul triplelor distinse. Un element XML, totuși, poate fi convertit - în funcție de context - ca subiect, ca predicat sau ca obiect triplu. XSLT poate fi folosit ca limbaj de transformare standard pentru conversia manuală XML în RDF.

Prezentare generală a metodelor/mijlocurilor

Nume	Sursa datelor	Prezentarea rezultatului	Sincronizarea datelor	Limba afișată	Dicţionar reuse	Automatizare afișare _	Este necesară ontologia domeniului	Folosind GUI _
Maparea directă a datelor relaționale cu RDF	date relaționale	SPARQL / ETL	dinamic		Nu	automat _	Nu	Nu
CSV2RDF4LOD	csv	ETL	static	RDF	da	manual	Nu	Nu
Convert2RDF	Fișier text delimitat	ETL	static	RDF/DAML	da	manual	Nu	da
Server D2R Arhivat pe 26 februarie 2012 la Wayback Machine	RBD	SPARQL	bidirectional	Harta D2R	da	manual	Nu	Nu
Dart Grid	RBD	Limbajul de interogare OWL	dinamic	ajutoare vizuale	da	manual	Nu	da
master de date	RBD	ETL	static	proprii	da	manual	da	da
Extensia RDF de la Google Refine	CSV, XML	ETL	static	dispărut		semi- automat	Nu	da
Crextor	XML	ETL	static	XSLT	da	manual	da	Nu
MAPONTO	RBD	ETL	static	proprii	da	manual	da	Nu
METAmorfoze	RBD	ETL	static	propriul limbaj bazat pe maparea xml	da	manual	Nu	da
MappingMaster	csv	ETL	static	MappingMaster	da	GUI	Nu	da
ODEMapster	RBD	ETL	static	proprii	da	manual	da	da
Plug-in OntoWiki CSV Importer - DataCube și Tabular	csv	ETL	static	RDF Data Cube Vocaublar	da	semi- automat	Nu	da
Extractor pentru petreceri la piscină (PPX)	XML, text	Date legate	dinamic	RDF ( SKOS )	da	semi- automat	da	Nu
RDBToOnto	RBD	ETL	static	dispărut	Nu	automat , utilizatorul are șansa de a ajusta rezultatul	Nu	da
RDF 123	csv	ETL	static	Nu	Nu	manual	Nu	da
RDOTE	RBD	ETL	static	SQL	da	manual	da	da
Relațional.BUFINĂ	RBD	ETL	static	dispărut	Nu	automat _	Nu	Nu
T2LD	csv	ETL	static	Nu	Nu	automat _	Nu	Nu
Dicționar RDFdata cube ( eng. RDF Data Cube Vocabulary )	Date statistice multidimensionale în foi de calcul			dicționar cub de date	da	manual	Nu
Compozitor TopBraid	csv	ETL	static	SKOS	Nu	semi- automat	Nu	da
triplica	RBD	Date legate	dinamic	SQL	da	manual	Nu	Nu
ultrawrap	RBD	SPARQL/ETL	dinamic	R2RML	da	semi- automat	Nu	da
Vizualizări RDF virtuoase	RBD	SPARQL	dinamic	Limbajul metaschemei	da	semi- automat	Nu	da
Sponger virtuos	surse de date structurate și semistructurate	SPARQL	dinamic	Virtuoso PL & XSLT	da	semi- automat	Nu	Nu
Vizavi	RBD	RDQL [10]	manual	SQL	da	manual	da	da
XLWrap: foaie de calcul în RDF	csv	ETL	static	Sintaxa TriG	da	manual	Nu	Nu
XML în RDF	XML	ETL	static	Nu	Nu	automat _	Nu	Nu

Extragere dintr-o sursă în limbaj natural

Cea mai mare parte a informațiilor conținute într-un document de afaceri (aproximativ 80% [11] ) este codificată în limbaj natural și, prin urmare, nu este structurată. Deoarece datele nestructurate sunt mai degrabă o sarcină dificilă pentru extragerea cunoștințelor, sunt necesare metode mai sofisticate, care de obicei dau rezultate mai proaste decât datele structurate. Cu toate acestea, capacitatea de a dobândi o cantitate imensă de cunoștințe extrase compensează complexitatea crescândă și deteriorarea calității extracției. Mai mult, sursele în limbaj natural sunt înțelese ca surse de informații în care datele sunt date ca date textuale nestructurate. Dacă textul dat este inserat într-un document de marcare (cum ar fi un document HTML), aceste sisteme elimină de obicei elementele de marcare automat.

Extragerea de informații tradiționale

Extracția tradițională a informațiilor ( IE [12] ) [13] este o tehnologie de procesare a limbajului natural care extrage informații din textele în limbaj natural și le structurează în mod corespunzător. Tipurile de informații care trebuie extrase trebuie specificate în model înainte de începerea procesului de prelucrare, motiv pentru care întregul proces de extragere a informațiilor tradiționale este dependent de domeniul subiectului luat în considerare. FROM ( ing. IE ) este împărțit în următoarele cinci subsarcini.

Recunoașterea entității denumite ( ing. Recunoașterea entității denumite , NER)
Rezoluția coreferenței ( CO )
Construcția elementului șablon ( TE ) (sau Adăugarea de atribute la entități)
Identificarea relațiilor dintre entități (BC, ing. Construcție relație șablon , TR)
Crearea unei descrieri complete a evenimentului (PPO, ing. Producerea scenariului șablon , ST)

Sarcina recunoașterii entităților numite este de a recunoaște și clasifica toate entitățile denumite conținute în text (atribuirea entităților denumite la categorii predefinite). Funcționează prin aplicarea unor metode bazate pe gramatică sau modele statistice.

Rezoluția coreferenței stabilește entități echivalente care au fost recunoscute în text de algoritmul NER. Există două tipuri legate de relații de echivalență. Prima relație se referă la o relație între două entități diferite (de exemplu, IBM Europa și IBM), iar a doua se referă la o relație între o entitate și referința ei anaforică (de exemplu, aceasta și IBM). Ambele specii pot fi recunoscute prin rezoluție de coreferență .

În timpul construcției elementelor șablon, sistemul IE stabilește proprietățile descriptive ale entităților recunoscute de sistemele NER și CO. Aceste proprietăți corespund calităților comune precum „roșu” sau „mare”.

Identificarea relațiilor dintre entitățile individuale stabilește relațiile care există între elementele șablonului. Aceste relații pot fi de mai multe feluri, cum ar fi work-for sau localizate-in, cu constrângerea că atât domeniul de aplicare, cât și intervalul corespund entităților.

Descrierile complete ale evenimentelor care se desfășoară în text sunt recunoscute și structurate în funcție de entitățile recunoscute de sistemele NER și CO, iar relațiile sunt recunoscute de sistemul BC.

Extragerea de informații pe baza ontologiilor

Extracția informațiilor bazate pe ontologie ( OBIE ) [11] este un subdomeniu al extracției de informații care utilizează cel puțin o ontologie pentru a gestiona procesul de extragere a informațiilor din textul în limbaj natural. Sistemul OBIE folosește tehnici tradiționale de extragere a informațiilor pentru a recunoaște conceptele , entitățile și relațiile ontologiilor utilizate în text, care vor fi structurate într-o ontologie după proces. Astfel, ontologiile de intrare formează un model al informațiilor recuperate.

Învățarea ontologiei

Învățarea ontologiei (OL) este crearea automată sau semi-automată de ontologii, inclusiv extragerea termenilor relevanți din domeniul obiectului din textul limbajului natural. Deoarece construirea manuală a ontologiilor necesită o forță de muncă extrem de mare și consumatoare de timp, există un stimulent puternic pentru automatizarea procesului.

Adnotare semantică

În timpul adnotării semantice ( SA ) [14] , textul în limbaj natural este însoțit de metadate (deseori reprezentate în RDF [ , Resource Description Framework in Attributes ) care ar trebui să facă semantica elementelor conținute ușor de înțeles de către mașini . În acest proces, care este de obicei semi-automat, cunoștințele sunt recuperate în sensul că se stabilește o legătură între elementele lexicale și, de exemplu, conceptele din ontologii. Astfel, obținem cunoștințe care dezvăluie semnificația entității în contextul în curs de prelucrare și, prin urmare, determină sensul textului în informațiile percepute de mașină cu capacitatea de a trage concluzii logice. Adnotarea semantică este de obicei împărțită în următoarele două subsarcini.

Extragerea terminologiei
Conectarea entităților numite

La nivelul extragerii terminologiei, termenii lexicali sunt extrasi din text. În acest scop, analizatorul lexical determină mai întâi limitele cuvintelor și extrage abrevieri. Termenii care se potrivesc conceptelor sunt apoi extrași din text folosind un vocabular specific domeniului pentru legarea entităților.

Când se leagă entități [15] , se stabilește o legătură între membrii lexicali extrași din textul sursă și concepte dintr-o ontologie sau bază de cunoștințe, cum ar fi DBpedia . Pentru a face acest lucru, conceptele candidate sunt identificate în funcție de anumite valori ale elementelor folosind un dicționar. În cele din urmă, contextul termenilor este analizat pentru a determina dezambiguizarea cea mai adecvată și conceptul corect este atribuit termenului.

Mijloace

Următoarele criterii pot fi utilizate pentru a clasifica instrumentele care extrag cunoștințe din textele în limbaj natural.

Sursă	Ce formate de intrare pot fi procesate (text simplu, HTML sau PDF de exemplu)?
Paradigma de acces	Instrumentul poate interoga o parte din datele din sursă sau este necesară o descărcare completă pentru procesul de extragere?
Sincronizarea datelor	Rezultatul extracției este sincronizat cu sursa?
Utilizarea modelului obiect	Instrumentul asociază rezultatul cu modelul obiect?
Automatizare afișare	Cât de automat este procesul de extracție (manual, semi-automat sau automat)?
Cerință pentru modelul obiectului	Instrumentul necesită un model de obiect pentru a fi preluat?
Folosind GUI	Instrumentul are o interfață grafică cu utilizatorul ( GUI ) ?
O abordare	Ce abordare (IE, OBIE, OL sau SA) folosește instrumentul?
Entități extractibile	Ce tipuri de entități (cum ar fi entități numite, concepte sau relații) pot fi preluate de instrument?
Tehnici aplicate	Ce tehnici sunt folosite (de exemplu, NLP, metode statistice, clustering sau machine learning )?
model de ieșire	Ce model este folosit pentru a reprezenta rezultatul instrumentului (de exemplu, RDF sau OWL)?
Domenii suportate	Ce domenii sunt acceptate (de exemplu, economie sau biologie)?
Limbi acceptate	Ce limbi pot fi procesate (de exemplu, engleză, germană sau rusă)?

Următorul tabel descrie unele dintre instrumentele pentru extragerea cunoștințelor din sursele limbajului natural.

Nume	Sursă	Paradigma de acces	Sincronizarea datelor	Utilizarea modelului obiect	Automatizare afișare	Cerință pentru modelul obiectului	Folosind GUI	O abordare	Entități extractibile	Tehnici aplicate	model de ieșire	Zone suportate	Limbi acceptate
Aero Text [16]	date text, HTML, XML, SGML	haldă	Nu	da	automat	da	da	IE	entități numite, relații, evenimente	reguli lingvistice	proprii	nu depinde de zonă	engleză, spaniolă, arabă, chineză, indoneziană
Alchemy API [17]	date text, HTML				automat		da	SA					multilingv
ANNIE [optsprezece]	date text	haldă				da	da	IE		algoritmi de mașină de stări			multilingv
ASIUM (LRI)	date text	haldă			semiautomat		da	OL	concepte, ierarhia conceptelor	NLP, clustering
Extracție exhaustivă prin atenție					automat			IE	entități numite, relații, evenimente	NLP
Dandelion API	date text, HTML, URL	ODIHNĂ	Nu	Nu	automat	Nu	da	SA	entități numite, concepte	metode statistice	JSON	nu depinde de zonă	multilingv
Spotlight DBpedia [19]	date text, HTML	gunoi, SPARQL	da	da	automat	Nu	da	SA	adnotare la fiecare cuvânt, adnotare la cuvinte non-stop	NLP, metode statistice, învățare automată	RDFa	nu depinde de zonă	Engleză
EntityClassifier.eu	date text, HTML	haldă	da	da	automat	Nu	da	IE, OL, SA	adnotare la fiecare cuvânt, adnotare la cuvinte non-stop	gramatica bazata pe reguli	XML	nu depinde de zonă	engleză, germană, olandeză
Fred [20]	date text	dump, REST API	da	da	automat	Nu	da	IE, OL, SA, modele de proiectare ontologică, semantică a cadrelor	Cuvinte NIF sau EarMark abstracte, predicate, instanțe, semantică compozițională, concepte de taxonomie , roluri semantice, relații descriptive, evenimente, stare de spirit, timp gramatical, legare la entități numite, legare la evenimente, emoții	NLP, machine learning, reguli euristice	RDF/OWL	nu depinde de zonă	Engleză, alte limbi după traducere
iDocument [21]	HTML, PDF , DOC	SPARQL		da			da	OBIE	cazuri, valori de proprietate	NLP		afaceri personale
Extractor NetOwl [22]	date text, HTML, XML, SGML , PDF, MS Office	haldă	Nu	da	automat	da	da	IE	entități numite, relații, evenimente	NLP	XML, JSON , RDF - OWL, altele	zone multiple	engleză, arabă, chineză (simplificată și tradițională), franceză, coreeană, persană (farsi și dari), rusă, spaniolă
OntoGen Arhivat la 30 martie 2010 la Wayback Machine [23]					semiautomat		da	OL	concepte, ierarhie de concepte, relații non-taxonomice, instanțe	NLP, machine learning, clustering
OntoLearn Arhivat 9 august 2017 la Wayback Machine [24]	date text, HTML	haldă	Nu	da	automat	da	Nu	OL	concepte, ierarhie de concepte, instanțe	NLP, metode statistice	proprii	nu depinde de zonă	Engleză
OntoLearn reîncărcat	date text, HTML	haldă	Nu	da	automat	da	Nu	OL	concepte, ierarhie de concepte, instanțe	NLP, metode statistice	proprii	nu depinde de zonă	Engleză
OntoSiphon [25]	HTML, PDF, DOC	dump, interogări ale motorului de căutare	Nu	da	automat	da	Nu	OBIE	concepte, relații, instanțe	NLP, metode statistice	RDF	nu depinde de zonă	Engleză
ontoX [26]	date text	haldă	Nu	da	semi-automat	da	Nu	OBIE	instanțe, valori ale proprietăților tipului de date	metode bazate pe euristică	proprii	nu depinde de zonă	nu depinde de limbaj
Deschide Calais	date text, HTML, XML	haldă	Nu	da	automat	da	Nu	SA	adnotare la entități, adnotare la evenimente, adnotare la fapte	NLP, învățare automată	RDF	nu depinde de zonă	engleză, franceză, spaniolă
Extractor pentru petreceri la piscină (2011)	date text, HTML, DOC, ODT	haldă	Nu	da	automat	da	da	OBIE	entități denumite, concepte, relații, concepte, care clasifică textul, îmbogățiri	NLP, machine learning, metode statistice	RDF, BUFINĂ	nu depinde de zonă	engleză, germană, spaniolă, franceză
Rosoka	date text, HTML, XML, SGML , PDF, MS Office	haldă	da	da	automat	Nu	da	IE	extragerea entității numite, rezoluția entității, relația, atributul, extragerea conceptului, analiza sentimentului multi-vector, georeferențiare, identificarea limbii , învățarea automată	NLP	XML, JSON , POJO	zone multiple	multilingv (200+ limbi)
SCOOBIE	date text, HTML	haldă	Nu	da	automat	Nu	Nu	OBIE	instanțe, valori de proprietate, tipuri RDFS	NLP, învățare automată	RDF, RDFa	nu depinde de zonă	engleză germană
SemTag [27] [28]	HTML	haldă	Nu	da	automat	da	Nu	SA		învățare automată	înregistrarea bazei de date	nu depinde de zonă	nu depinde de limbaj
Smart FIX	date text, HTML, PDF, DOC, e-mail	haldă	da	Nu	automat	Nu	da	OBIE	entități numite	NLP, învățare automată	proprii	nu depinde de zonă	engleză, germană, franceză, olandeză, poloneză
Text2Onto [29]	date text, HTML, PDF	haldă	da	Nu	semi-automat	da	da	OL	concepte, concept de concepte, relații non-taxonomice, instanțe, axiome	NLP, metode statistice, învățare automată, metode bazate pe reguli	BUFNIŢĂ	nu depinde de zonă	engleză, germană, spaniolă
Text-To-Onto [30]	date text, HTML, PDF, PostScript	haldă			semi-automat	da	da	OL	concepte, ierarhia conceptelor, relații non-taxonomice, entități lexicale care se referă la concepte, entități lexicale care se referă la relații	NLP, machine learning, clustering, metode statistice			Deutsch
Acul acela	Date text	haldă			automat		Nu		concepte, relații, ierarhie	NLP, propriu	JSON	zone multiple	Engleză
Mașina Wiki [31]	date text, HTML, PDF, DOC	haldă	Nu	da	automat	da	da	SA	etichetarea numelor proprii, etichetarea substantivelor comune	învățare automată	RDFa	regiune independentă	engleză, germană, spaniolă, franceză, portugheză, italiană, rusă
Găsitor de lucruri [32]								IE	entități numite, relații, evenimente				multilingv

Descoperirea cunoștințelor

Descoperirea cunoștințelor descrie procesul de căutare automată a unor cantități mari de date pentru modele care pot fi considerate cunoștințe despre date [33] . Acest lucru este adesea descris ca extragerea de cunoștințe din input . Descoperirea cunoștințelor este dezvoltată pentru analiza datelor și este strâns legată atât de metodologie, cât și de terminologie [34] .

Cea mai cunoscută ramură a exploatării datelor este descoperirea cunoștințelor, cunoscută și sub numele de descoperire a cunoștințelor în baze de date . La fel ca multe alte forme de descoperire a cunoștințelor, această analiză creează abstracții ale datelor de intrare. Cunoștințele dobândite în urma acestui proces pot deveni date suplimentare care pot fi utilizate pentru utilizare și căutări ulterioare. Adesea rezultatul unui proces de descoperire a cunoștințelor nu are valoare practică, astfel încât descoperirea activă a cunoștințelor , cunoscută și sub denumirea de „ Analiza datelor de domeniu ” [35] , este concepută pentru a descoperi și extrage (de importanță practică) cunoștințe active și concluzii din aceste cunoștințe.

O altă aplicație promițătoare a descoperirii cunoștințelor este în domeniul modernizării software al detectării punctelor slabe și al respectării standardelor, care implică înțelegerea software-ului existent. Acest proces este legat de conceptul de inginerie inversă . De obicei, cunoștințele dobândite din software-ul existent sunt prezentate sub formă de modele pe care se pot face interogări specifice, dacă este necesar. Modelul entitate-relație este un format comun care reprezintă cunoștințe și este derivat din software-ul existent. Consorțiul Object Management Group a dezvoltat o specificație pentru Knowledge Discovery Metamodel ( KDM), care definește o ontologie pentru resursele software și relațiile lor, concepută pentru a descoperi cunoștințele în codul existent. Descoperirea cunoștințelor din sistemele software cunoscute, cunoscută și sub numele de software mining , este strâns legată de data mining , deoarece descoperirile de software existente sunt de mare importanță pentru managementul riscului și valoarea comercială , care servesc ca elemente cheie pentru analiză. și sisteme software de dezvoltare. În loc să analizeze seturi de date individuale , software mining se concentrează pe metadate , cum ar fi fluxul de producție (de exemplu, fluxul de date, fluxul de control, modelul de apel), arhitectura, schemele bazei de date și regulile/termenii/procesele de afaceri.

Introducerea datelor

Bază de date
- Date relaționale
- Bază de date
- Depozitarea documentelor
- Magazin de date
Software
Text
- Concept Extraction
Grafice
- Analiza inteligentă a moleculelor
secvențe
- Exploatarea fluxului de date
- Concept Drift
Web

Formate de ieșire

Vezi și

Note

↑ Grupul de lucru RDB2RDF, site-ul web: http://www.w3.org/2001/sw/rdb2rdf/ , charter: http://www.w3.org/2009/08/rdb2rdf-charter , R2RML: Maparea RDB la RDF Limba: http://www.w3.org/TR/r2rml/
↑ LOD2 EU (link indisponibil) Livrabil 3.1.1 Extragerea de cunoștințe din surse structurate
↑ Calais Release 4, 2009 .
↑ 1 2 Berners-Lee, 1998 .
↑ Hu, Qu, 2007 , p. 225-238.
↑ Ghawi, Cullot, 2007 .
↑ Li, Du, Wang, 2005 , p. 209-220.
↑ Tirmizi, Miranker, Sequeda, 2008 .
↑ Cerbah, 2008 .
↑ RDQL = RDF Query Language
↑ 1 2 Wimalasuriya, Dou, 2010 , p. 306 - 323.
↑ A nu se confunda cu MS IE = Microsoft Internet Explorer!
↑ Cunningham, 2005 , p. 665–677.
↑ Erdmann, Maedche, Schnurr, Staab, 2000 .
↑ Rao, McNamee, Dredze, 2011 , p. 93-115.
↑ Rocket Software Inc. (2012). „tehnologie pentru extragerea inteligenței din text”
↑ Orchestral8 (2012): „AlchemyAPI Overview”
↑ Universitatea din Sheffield (2011). „ANNIE: un sistem de extragere a informațiilor aproape nou”
↑ Mendes, Jakob, Garcia-Sílva, Bizer, 2011 , p. optsprezece.
↑ Gangemi, Presutti, Recupero et al., 2016 .
↑ Adrian, Maus, Dengel, 2009 .
↑ SRA International Inc. (2012). Extractor NetOwl
↑ Fortuna, Grobelnik, Mladenic, 2007 , p. 309–318.
↑ Missikoff, Navigli, Velardi, 2002 , p. 60-63.
↑ McDowell, Caferella, 2006 , p. 428 - 444.
↑ Yildiz, Miksch, 2007 , p. 660 - 673.
↑ Dill, Eiron, Gibson et al., 2003 , p. 178 - 186.
↑ Uren, Cimiano, Iria et al., 2006 , p. 14 - 28.
↑ Cimiano, Völker, 2005 .
↑ Maedche, Volz, 2001 .
↑ Conectarea mașinii. „Ne conectăm la cloud-ul Linked Open Data”
↑ Inxight ThingFinder și ThingFinder Professional (link în jos) . Inxight Federal Systems (2008). Consultat la 18 iunie 2012. Arhivat din original pe 29 iunie 2012. (nedefinit)
↑ Frawley, Piatetsky-Shapiro, Matheus, 1992 , p. 57-70.
↑ Fayyad, Piatetsky-Shapiro, Smyth, 1996 , p. 37-54.
↑ Cao, 2010 , p. 755–769.

Literatură

Cao L. Exploatarea datelor determinată de domenii: provocări și perspective // IEEE Trans. pe Ingineria cunoștințelor și a datelor. - 2010. - T. 22 , nr. 6 . - doi : 10.1109/tkde.2010.32 .
Viața în Linked Data Cloud // www.opencalais.com. - 2009. Arhivat la 24 noiembrie 2009. Fragment: Wikipedia are o contrapartidă numită DBpedia. DBpedia are aceleași informații structurate ca și Wikipedia, dar convertite într-un format care poate fi citit de mașină.
Benjamin Adrian, Heiko Maus, Andreas Dengel. iDocument: Utilizarea ontologiilor pentru extragerea de informații din text. — 2009.
William J. Frawley, Gregory Piatetsky-Shapiro, Christopher J. Matheus. Descoperirea cunoștințelor în baze de date: o prezentare generală // AI Magazine. - 1992. - T. 13 , nr 3 . - S. 57-70 . Arhivat din original pe 4 martie 2016.
Usama M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth. De la data mining la descoperirea cunoștințelor în baze de date // AI Magazine. - 1996. - T. 17 , nr 3 . - S. 37-54 . Arhivat din original pe 4 mai 2016.
Tim Berners Lee. Baze de date relaționale pe Web-ul semantic . — 1998.
Farid Cerbah. Învățarea arhivelor semantice înalt structurate din baze de date relaționale // Web-ul semantic: cercetare și aplicații . - Berlin / Heidelberg: Springer, 2008. - T. 5021. - (Lecture Notes in Computer Science). Arhivat pe 20 iulie 2011 la Wayback Machine
Syed Hamid Tirmizi, Daniel P. Miranker, Juan Sequeda. Traducerea aplicațiilor SQL în Web-ul semantic // Bază de date și aplicații Expert Systems . - 2008. - T. 5181/2008. — (Note de curs în Informatică).
Wei Hu, Yuzhong Q. Descoperirea mapărilor simple între scheme de baze de date relaționale și ontologii // Proc. a 6-a Conferință Internațională de Web Semantic (ISWC 2007), a 2-a Conferință Asiatică de Web Semantic (ASWC 2007) . - Busan, Coreea, 11-15 noiembrie 2007, 2007. - T. 4825. - S. 225-238. — (Note de curs în Informatică).
Ghawi R., Cullot N. Database-to-Ontology Mapping Generation for Semantic Interoperability // Al treilea workshop internațional privind interoperabilitatea bazelor de date (InterDB 2007). . — 2007.
Man Li, Xiaoyong Du, Shan Wang. O metodă semi-automată de achiziție a ontologiei pentru web-ul semantic // WAIM. - Springer, 2005. - T. 3739. - S. 209-220. — (Note de curs în Informatică). - doi : 10.1007/11563952_19 .
Aldo Gangemi, Valentina Presutti, Diego Reforgiato Recupero, Andrea Giovanni Nuzzolese, Francesco Draicchio, Misael Mongiovì. Semantic Web Machine Reading cu FRED // Semantic Web Journal. - 2016. - doi : 10.3233/SW-160240 .
Philipp Cimiano, Johanna Volker. Text2Onto - Un cadru pentru învățarea ontologiei și descoperirea schimbărilor determinate de date // Proceedings of the 10th International Conference of Applications of Natural Language to Information Systems. - 2005. - T. 3513. - S. 227 - 238.
Hamish Cunningham. Extragerea informațiilor, automată // Enciclopedia de limbă și lingvistică . - 2005. - S. 665 - 677.
Stephen Dill, Nadav Eiron, David Gibson, Daniel Gruhl, R. Guha, Anant Jhingran, Tapas Kanungo, Sridhar Rajagopalan, Andrew Tomkins, John A. Tomlin, Jason Y. Zien. SemTag and Seeker: Bootstraping the Semantic Web via Automated Semantic Annotation // Proceedings of the 12th international Conference on World Wide Web . - 2003. - S. 178 - 186.
Erdmann M., Maedche A., Schnurr H.-P., Staab S. De la manual la adnotarea semantică semi-automată: despre instrumentele de adnotare a textului bazate pe ontologie // Proceedings of the COLING. — 2000.
Blaz Fortuna, Marko Grobelnik, Dunja Mladenic. OntoGen: Semi-automatic Ontology Editor // Proceedings of the 2007 Conference on Human interface, Part 2 . - 2007. - S. 309 - 318.
Alexander Maedche, Raphael Volz. Cadrul de extracție și întreținere ontologiei Text-To-Onto // Proceedings of the IEEE International Conference on Data Mining . — 2001.
Luke K. McDowell, Michael Cafarella. Extragerea informațiilor bazată pe ontologie cu OntoSyphon // Proceedings of the 5th international Conference on The Semantic Web . - 2006. - S. 428 - 444.
Pablo N. Mendes, Max Jakob, Andrés Garcia-Sílva, Christian Bizer. DBpedia Spotlight: Shedding Light on the Web of Documents // Proceedings of the 7th International Conference on Semantic Systems . - 2011. - S. 1 - 8. Copie de arhivă din 5 aprilie 2012 la Wayback Machine
Michele Missikoff, Roberto Navigli, Paola Velardi. Abordare integrată a învățării și ingineriei ontologiei web // Computer. - 2002. - T. 35 , nr. 11 . - S. 60 - 63 .
Delip Rao, Paul McNamee, Mark Dredze. Conectarea entităților: Găsirea entităților extrase într-o bază de cunoștințe // Extragerea și rezumarea informațiilor în mai multe surse, în mai multe limbi . — 2011. (link inaccesibil)
Victoria Uren, Philipp Cimiano, José Iria, Siegfried Handschuh, Maria Vargas-Vera, Enrico Motta, Fabio Ciravegna. Adnotare semantică pentru managementul cunoștințelor: cerințe și un studiu al stadiului tehnicii // Web Semantics: Science, Services and Agents on the World Wide Web. - 2006. - V. 4 , nr. 1 . - S. 14 - 28 . (link indisponibil)
Daya C. Wimalasuriya, Dejing Dou. Extragerea de informații bazată pe ontologie: o introducere și o cercetare a abordărilor actuale // Journal of Information Science. - 2010. - T. 36 , nr. 3 . - S. 306 - 323 .
Burcu Yildiz, Silvia Miksch. ontoX - A Method for Ontology-Driven Information Extraction // Proceedings of the 2007 international Conference on Computational Science and its applications . - 2007. - T. 3. - S. 660 - 673.

web semantic
Bazele	World Wide Web Internet Hipertext Bază de date Rețele semantice Ontologii Logica descrierii
Subsecțiuni	Date legate web de date Hiperdate Server de execuție a regulilor de afaceri Spații de date
Aplicații	Wiki semantic Publicare semantică Căutare semantică Calcul semantic publicitate semantică Mecanism de raționament semantic potrivirea semantică mapper semantic broker semantic analitică semantică arhitectură semantică orientată spre servicii
subiecte asemănătoare	Folksonomie Biblioteca 2.0 Web 2.0 Legături Arhitectura informației Management de cunoștințe inteligența colectivă Hărți tematice Mindmapping metadate Geoetichetarea știința web
Standarde	Sintaxă : RDF RDF/XML Notația 3 Broasca testoasa N-Triple JSON-LD SPARQL URI http XML Scheme, ontologii : RDFS BUFNIŢĂ Formatul de schimb de reguli Limbajul regulilor web semantic logica comuna Schema.org Adnotare semantică : RDFa eRDF GRDDL Microformate Microdate Dicţionare : DOAP FOAF SIOC miezul Dublinului SKOS UMBELĂ Istoric : HTML semantic vechi simplu DAML+ULEI