Extragerea de cunoștințe este crearea de cunoștințe din surse structurate ( baze de date relaționale , XML ) și nestructurate ( texte , documente, imagini ). Cunoștințele rezultate trebuie să fie într-un format care să permită introducerea computerului și trebuie să reprezinte cunoștințele într-un mod care să faciliteze inferența. Deși metodologia procesului este similară cu extragerea informațiilor ( procesarea limbajului natural , ing. Procesarea limbajului natural , NLP) și procesul de „ Extract, Transform, Load ” ( ing. Extract, Transform, Load , ETL, pentru depozitele de date) , principalul criteriu de rezultat este crearea informaţiei structurate sau transformarea într-o schemă relaţională . Acest lucru necesită fie transformarea cunoștințelor formale existente (reutilizarea identificatorilor sau ontologiilor ) fie generarea unei scheme bazate pe datele originale.
Grupul RDB2RDF W3C [1] standardizează un limbaj pentru extragerea cadrelor de descriere a resurselor ( RDF) dintr-o bază de date relațională . Un alt exemplu popular de extragere a cunoștințelor este conversia Wikipedia în date structurate și maparea la cunoștințele existente (vezi DBpedia și Freebase ).
După standardizarea limbajelor de reprezentare a cunoștințelor precum Resource Description Framework ( RDF) și Web Ontology Language ( OWL ), s-au făcut multe cercetări în acest domeniu, în special în ceea ce privește transformarea bazei de date relaționale. , capacități de recunoaștere , descoperirea cunoștințelor și învățarea ontologiei. Procesul principal utilizează metode tradiționale de extragere a informațiilor și metode de extragere , transformare, încărcare ( ETL) care convertesc datele din formatele sursă în formate structurate .
Următoarele criterii pot fi utilizate pentru încercările de clasificare în acest subiect (unele dintre ele oferă extragerea cunoștințelor din baze de date relaționale) [2] :
Sursă | Ce date pot fi prelucrate: Text, Baza de date relațională, XML , CSV |
---|---|
Performanţă | Cum pot fi prezentate datele extrase pentru utilizare (fișier ontologie (model de obiect), bază de date semantică)? Cum este posibilă solicitarea informațiilor de la reprezentanța primită? |
Sincronizare | Extragerea cunoștințelor este efectuată o singură dată pentru a produce un dump sau rezultatul este sincronizat cu sursa? Extracția este statică sau dinamică? Modificările din rezultat sunt scrise înapoi la sursă (bidirecționalitate)? |
Dicţionar Reuse | Dacă extractorul permite reutilizarea dicționarelor existente la extragere. De exemplu, coloana tabelului „firstName” poate fi mapată în coloana foaf: firstName. Unele abordări automate nu sunt capabile să afișeze un dicționar. |
Automatizare | Gradul de participare / automatizarea extracției: Mod manual, există o GUI , semi-automat, automat. |
Nevoia unui model de obiecte de domeniu | Dacă un model de obiect predefinit este necesar să fie mapat la acesta. Astfel, fie se creează o mapare, fie se obține o schemă din sursă prin ( training ontologis ). |
Președintele Obama a cerut miercuri Congresului să includă o extindere a reducerilor fiscale pentru studenți în pachetul de stimulente economice, argumentând că politica va genera un sprijin mai puternic.
Deoarece președintele Obama este conectat în DBpedia la resursa LinkedData , informații suplimentare pot fi preluate automat și Semantic Reasoner poate, de exemplu, deduce că entitatea la care se face referire este un tip de personalitate (folosind FOAF ) și Președintele Statelor Unite (folosind YAGO ). Contraexemple: metodele care recunosc doar entități și nu se asociază cu articole Wikipedia sau alte entități nu oferă date structurate suplimentare și extragerea formală a cunoștințelor.Nume | casatorit cu | pagina principala | status_id |
---|---|---|---|
Petru | Maria | http://example.org/Peters_page (link indisponibil) | unu |
Crăciun | Eva | http://example.org/Claus_page (link indisponibil) | 2 |
Când construiți o reprezentare a unei baze de date relaționale (RDB, ing. baze de date relaționale ), punctul de plecare este adesea o diagramă entitate-relație ( ing. diagramă entitate-relație , ERD). De obicei, fiecare entitate este reprezentată ca un tabel de bază de date, fiecare proprietate de entitate devine o coloană în acel tabel, iar relația dintre entități este afișată prin chei străine. Fiecare tabel definește de obicei o anumită clasă de entitate și fiecare coloană definește una dintre proprietățile acelei entități. Fiecare rând din tabel descrie o instanță a unei entități, identificată în mod unic printr-o cheie principală. Rândurile tabelului împreună descriu setul de entități. În reprezentarea echivalentă RDF a aceluiași set de entități:
Deci, pentru a exprima o reprezentare echivalentă bazată pe semantica RDF, algoritmul de bază ar fi:
O referire timpurie la cartografierea de bază sau directă poate fi găsită în comparația lui Tim Berners-Lee a modelului ER cu modelul RDF [4] .
Maparea 1:1 menționată mai sus reprezintă datele vechi ca RDF direct, iar o rafinare suplimentară poate fi utilizată pentru a îmbunătăți utilitatea ieșirii RDF în funcție de cazul de utilizare dat. De regulă, informațiile se pierd în timpul transformării unei diagrame entitate -relație (ERD) în tabele relaționale (o descriere detaliată poate fi găsită în articolul „ Dispotrivire obiect-relație ”) și trebuie restaurată prin inginerie inversă . Conceptual, abordările de extracție pot veni din două direcții. Prima direcție încearcă să extragă sau să antreneze (folosind machine learning) o schemă OWL dintr-o schemă de bază de date dată. Abordările timpurii au folosit un număr fix de reguli de cartografiere realizate manual pentru a îmbunătăți maparea 1:1 [5] [6] [7] . Metode mai elaborate au folosit algoritmi euristici sau de învățare pentru a genera informații schematice (metodele se suprapun cu învățarea ontologiei ). În timp ce unele abordări încearcă să extragă informații din structura inerentă schemei SQL [8] (prin analizarea, de exemplu, chei externe), alte abordări analizează conținutul și valorile din tabele pentru a crea ierarhii conceptuale [9] (de exemplu , coloanele cu puține valori sunt candidate pentru a deveni categorii). Cea de-a doua direcție încearcă să mapați schema și conținutul acesteia la o ontologie de domeniu existentă (vezi și „ Cartarea ontologiei ”). Deseori, totuși, o ontologie de domeniu adecvată nu există și trebuie mai întâi creată.
Deoarece XML este structurat ca un arbore, este ușor să reprezentați orice date în format RDF, care este structurat ca un grafic. XML2 RDF este un exemplu de abordare care utilizează noduri RDF goale și transformă elemente și atribute XML în proprietăți RDF. Cazul este însă mai complex decât în cazul bazelor de date relaționale. În tabelele relaționale, cheia principală este un candidat ideal pentru subiectul triplelor distinse. Un element XML, totuși, poate fi convertit - în funcție de context - ca subiect, ca predicat sau ca obiect triplu. XSLT poate fi folosit ca limbaj de transformare standard pentru conversia manuală XML în RDF.
Nume | Sursa datelor |
Prezentarea rezultatului | Sincronizarea datelor | Limba afișată | Dicţionar reuse |
Automatizare afișare _ |
Este necesară ontologia domeniului | Folosind GUI _ |
---|---|---|---|---|---|---|---|---|
Maparea directă a datelor relaționale cu RDF | date relaționale |
SPARQL / ETL | dinamic | Nu | automat _ |
Nu | Nu | |
CSV2RDF4LOD | csv | ETL | static | RDF | da | manual | Nu | Nu |
Convert2RDF | Fișier text delimitat | ETL | static | RDF/DAML | da | manual | Nu | da |
Server D2R Arhivat pe 26 februarie 2012 la Wayback Machine | RBD | SPARQL | bidirectional | Harta D2R | da | manual | Nu | Nu |
Dart Grid | RBD | Limbajul de interogare OWL | dinamic | ajutoare vizuale | da | manual | Nu | da |
master de date | RBD | ETL | static | proprii | da | manual | da | da |
Extensia RDF de la Google Refine | CSV, XML | ETL | static | dispărut | semi- automat |
Nu | da | |
Crextor | XML | ETL | static | XSLT | da | manual | da | Nu |
MAPONTO | RBD | ETL | static | proprii | da | manual | da | Nu |
METAmorfoze | RBD | ETL | static | propriul limbaj bazat pe maparea xml | da | manual | Nu | da |
MappingMaster | csv | ETL | static | MappingMaster | da | GUI | Nu | da |
ODEMapster | RBD | ETL | static | proprii | da | manual | da | da |
Plug-in OntoWiki CSV Importer - DataCube și Tabular | csv | ETL | static | RDF Data Cube Vocaublar | da | semi- automat |
Nu | da |
Extractor pentru petreceri la piscină (PPX) | XML, text | Date legate | dinamic | RDF ( SKOS ) | da | semi- automat |
da | Nu |
RDBToOnto | RBD | ETL | static | dispărut | Nu | automat , utilizatorul are șansa de a ajusta rezultatul |
Nu | da |
RDF 123 | csv | ETL | static | Nu | Nu | manual | Nu | da |
RDOTE | RBD | ETL | static | SQL | da | manual | da | da |
Relațional.BUFINĂ | RBD | ETL | static | dispărut | Nu | automat _ |
Nu | Nu |
T2LD | csv | ETL | static | Nu | Nu | automat _ |
Nu | Nu |
Dicționar RDFdata cube ( eng. RDF Data Cube Vocabulary ) | Date statistice multidimensionale în foi de calcul | dicționar cub de date | da | manual | Nu | |||
Compozitor TopBraid | csv | ETL | static | SKOS | Nu | semi- automat |
Nu | da |
triplica | RBD | Date legate | dinamic | SQL | da | manual | Nu | Nu |
ultrawrap | RBD | SPARQL/ETL | dinamic | R2RML | da | semi- automat |
Nu | da |
Vizualizări RDF virtuoase | RBD | SPARQL | dinamic | Limbajul metaschemei | da | semi- automat |
Nu | da |
Sponger virtuos | surse de date structurate și semistructurate |
SPARQL | dinamic | Virtuoso PL & XSLT | da | semi- automat |
Nu | Nu |
Vizavi | RBD | RDQL [10] | manual | SQL | da | manual | da | da |
XLWrap: foaie de calcul în RDF | csv | ETL | static | Sintaxa TriG | da | manual | Nu | Nu |
XML în RDF | XML | ETL | static | Nu | Nu | automat _ |
Nu | Nu |
Cea mai mare parte a informațiilor conținute într-un document de afaceri (aproximativ 80% [11] ) este codificată în limbaj natural și, prin urmare, nu este structurată. Deoarece datele nestructurate sunt mai degrabă o sarcină dificilă pentru extragerea cunoștințelor, sunt necesare metode mai sofisticate, care de obicei dau rezultate mai proaste decât datele structurate. Cu toate acestea, capacitatea de a dobândi o cantitate imensă de cunoștințe extrase compensează complexitatea crescândă și deteriorarea calității extracției. Mai mult, sursele în limbaj natural sunt înțelese ca surse de informații în care datele sunt date ca date textuale nestructurate. Dacă textul dat este inserat într-un document de marcare (cum ar fi un document HTML), aceste sisteme elimină de obicei elementele de marcare automat.
Extracția tradițională a informațiilor ( IE [12] ) [13] este o tehnologie de procesare a limbajului natural care extrage informații din textele în limbaj natural și le structurează în mod corespunzător. Tipurile de informații care trebuie extrase trebuie specificate în model înainte de începerea procesului de prelucrare, motiv pentru care întregul proces de extragere a informațiilor tradiționale este dependent de domeniul subiectului luat în considerare. FROM ( ing. IE ) este împărțit în următoarele cinci subsarcini.
Sarcina recunoașterii entităților numite este de a recunoaște și clasifica toate entitățile denumite conținute în text (atribuirea entităților denumite la categorii predefinite). Funcționează prin aplicarea unor metode bazate pe gramatică sau modele statistice.
Rezoluția coreferenței stabilește entități echivalente care au fost recunoscute în text de algoritmul NER. Există două tipuri legate de relații de echivalență. Prima relație se referă la o relație între două entități diferite (de exemplu, IBM Europa și IBM), iar a doua se referă la o relație între o entitate și referința ei anaforică (de exemplu, aceasta și IBM). Ambele specii pot fi recunoscute prin rezoluție de coreferență .
În timpul construcției elementelor șablon, sistemul IE stabilește proprietățile descriptive ale entităților recunoscute de sistemele NER și CO. Aceste proprietăți corespund calităților comune precum „roșu” sau „mare”.
Identificarea relațiilor dintre entitățile individuale stabilește relațiile care există între elementele șablonului. Aceste relații pot fi de mai multe feluri, cum ar fi work-for sau localizate-in, cu constrângerea că atât domeniul de aplicare, cât și intervalul corespund entităților.
Descrierile complete ale evenimentelor care se desfășoară în text sunt recunoscute și structurate în funcție de entitățile recunoscute de sistemele NER și CO, iar relațiile sunt recunoscute de sistemul BC.
Extracția informațiilor bazate pe ontologie ( OBIE ) [11] este un subdomeniu al extracției de informații care utilizează cel puțin o ontologie pentru a gestiona procesul de extragere a informațiilor din textul în limbaj natural. Sistemul OBIE folosește tehnici tradiționale de extragere a informațiilor pentru a recunoaște conceptele , entitățile și relațiile ontologiilor utilizate în text, care vor fi structurate într-o ontologie după proces. Astfel, ontologiile de intrare formează un model al informațiilor recuperate.
Învățarea ontologiei (OL) este crearea automată sau semi-automată de ontologii, inclusiv extragerea termenilor relevanți din domeniul obiectului din textul limbajului natural. Deoarece construirea manuală a ontologiilor necesită o forță de muncă extrem de mare și consumatoare de timp, există un stimulent puternic pentru automatizarea procesului.
În timpul adnotării semantice ( SA ) [14] , textul în limbaj natural este însoțit de metadate (deseori reprezentate în RDF [ , Resource Description Framework in Attributes ) care ar trebui să facă semantica elementelor conținute ușor de înțeles de către mașini . În acest proces, care este de obicei semi-automat, cunoștințele sunt recuperate în sensul că se stabilește o legătură între elementele lexicale și, de exemplu, conceptele din ontologii. Astfel, obținem cunoștințe care dezvăluie semnificația entității în contextul în curs de prelucrare și, prin urmare, determină sensul textului în informațiile percepute de mașină cu capacitatea de a trage concluzii logice. Adnotarea semantică este de obicei împărțită în următoarele două subsarcini.
La nivelul extragerii terminologiei, termenii lexicali sunt extrasi din text. În acest scop, analizatorul lexical determină mai întâi limitele cuvintelor și extrage abrevieri. Termenii care se potrivesc conceptelor sunt apoi extrași din text folosind un vocabular specific domeniului pentru legarea entităților.
Când se leagă entități [15] , se stabilește o legătură între membrii lexicali extrași din textul sursă și concepte dintr-o ontologie sau bază de cunoștințe, cum ar fi DBpedia . Pentru a face acest lucru, conceptele candidate sunt identificate în funcție de anumite valori ale elementelor folosind un dicționar. În cele din urmă, contextul termenilor este analizat pentru a determina dezambiguizarea cea mai adecvată și conceptul corect este atribuit termenului.
Următoarele criterii pot fi utilizate pentru a clasifica instrumentele care extrag cunoștințe din textele în limbaj natural.
Sursă | Ce formate de intrare pot fi procesate (text simplu, HTML sau PDF de exemplu)? |
Paradigma de acces | Instrumentul poate interoga o parte din datele din sursă sau este necesară o descărcare completă pentru procesul de extragere? |
Sincronizarea datelor | Rezultatul extracției este sincronizat cu sursa? |
Utilizarea modelului obiect | Instrumentul asociază rezultatul cu modelul obiect? |
Automatizare afișare | Cât de automat este procesul de extracție (manual, semi-automat sau automat)? |
Cerință pentru modelul obiectului | Instrumentul necesită un model de obiect pentru a fi preluat? |
Folosind GUI | Instrumentul are o interfață grafică cu utilizatorul ( GUI ) ? |
O abordare | Ce abordare (IE, OBIE, OL sau SA) folosește instrumentul? |
Entități extractibile | Ce tipuri de entități (cum ar fi entități numite, concepte sau relații) pot fi preluate de instrument? |
Tehnici aplicate | Ce tehnici sunt folosite (de exemplu, NLP, metode statistice, clustering sau machine learning )? |
model de ieșire | Ce model este folosit pentru a reprezenta rezultatul instrumentului (de exemplu, RDF sau OWL)? |
Domenii suportate | Ce domenii sunt acceptate (de exemplu, economie sau biologie)? |
Limbi acceptate | Ce limbi pot fi procesate (de exemplu, engleză, germană sau rusă)? |
Următorul tabel descrie unele dintre instrumentele pentru extragerea cunoștințelor din sursele limbajului natural.
Nume | Sursă | Paradigma de acces | Sincronizarea datelor | Utilizarea modelului obiect | Automatizare afișare | Cerință pentru modelul obiectului | Folosind GUI | O abordare | Entități extractibile | Tehnici aplicate | model de ieșire | Zone suportate | Limbi acceptate |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Aero Text [16] | date text, HTML, XML, SGML | haldă | Nu | da | automat | da | da | IE | entități numite, relații, evenimente | reguli lingvistice | proprii | nu depinde de zonă | engleză, spaniolă, arabă, chineză, indoneziană |
Alchemy API [17] | date text, HTML | automat | da | SA | multilingv | ||||||||
ANNIE | date text | haldă | da | da | IE | algoritmi de mașină de stări | multilingv | ||||||
ASIUM (LRI) | date text | haldă | semiautomat | da | OL | concepte, ierarhia conceptelor | NLP, clustering | ||||||
Extracție exhaustivă prin atenție | automat | IE | entități numite, relații, evenimente | NLP | |||||||||
Dandelion API | date text, HTML, URL | ODIHNĂ | Nu | Nu | automat | Nu | da | SA | entități numite, concepte | metode statistice | JSON | nu depinde de zonă | multilingv |
Spotlight DBpedia [19] | date text, HTML | gunoi, SPARQL | da | da | automat | Nu | da | SA | adnotare la fiecare cuvânt, adnotare la cuvinte non-stop | NLP, metode statistice, învățare automată | RDFa | nu depinde de zonă | Engleză |
EntityClassifier.eu | date text, HTML | haldă | da | da | automat | Nu | da | IE, OL, SA | adnotare la fiecare cuvânt, adnotare la cuvinte non-stop | gramatica bazata pe reguli | XML | nu depinde de zonă | engleză, germană, olandeză |
Fred [20] | date text | dump, REST API | da | da | automat | Nu | da | IE, OL, SA, modele de proiectare ontologică, semantică a cadrelor | Cuvinte NIF sau EarMark abstracte, predicate, instanțe, semantică compozițională, concepte de taxonomie , roluri semantice, relații descriptive, evenimente, stare de spirit, timp gramatical, legare la entități numite, legare la evenimente, emoții | NLP, machine learning, reguli euristice | RDF/OWL | nu depinde de zonă | Engleză, alte limbi după traducere |
iDocument [21] | HTML, PDF , DOC | SPARQL | da | da | OBIE | cazuri, valori de proprietate | NLP | afaceri personale | |||||
Extractor NetOwl [22] | date text, HTML, XML, SGML , PDF, MS Office | haldă | Nu | da | automat | da | da | IE | entități numite, relații, evenimente | NLP | XML, JSON , RDF - OWL, altele | zone multiple | engleză, arabă, chineză (simplificată și tradițională), franceză, coreeană, persană (farsi și dari), rusă, spaniolă |
OntoGen Arhivat la 30 martie 2010 la Wayback Machine [23] | semiautomat | da | OL | concepte, ierarhie de concepte, relații non-taxonomice, instanțe | NLP, machine learning, clustering | ||||||||
OntoLearn Arhivat 9 august 2017 la Wayback Machine [24] | date text, HTML | haldă | Nu | da | automat | da | Nu | OL | concepte, ierarhie de concepte, instanțe | NLP, metode statistice | proprii | nu depinde de zonă | Engleză |
OntoLearn reîncărcat | date text, HTML | haldă | Nu | da | automat | da | Nu | OL | concepte, ierarhie de concepte, instanțe | NLP, metode statistice | proprii | nu depinde de zonă | Engleză |
OntoSiphon [25] | HTML, PDF, DOC | dump, interogări ale motorului de căutare | Nu | da | automat | da | Nu | OBIE | concepte, relații, instanțe | NLP, metode statistice | RDF | nu depinde de zonă | Engleză |
ontoX [26] | date text | haldă | Nu | da | semi-automat | da | Nu | OBIE | instanțe, valori ale proprietăților tipului de date | metode bazate pe euristică | proprii | nu depinde de zonă | nu depinde de limbaj |
Deschide Calais | date text, HTML, XML | haldă | Nu | da | automat | da | Nu | SA | adnotare la entități, adnotare la evenimente, adnotare la fapte | NLP, învățare automată | RDF | nu depinde de zonă | engleză, franceză, spaniolă |
Extractor pentru petreceri la piscină (2011) | date text, HTML, DOC, ODT | haldă | Nu | da | automat | da | da | OBIE | entități denumite, concepte, relații, concepte, care clasifică textul, îmbogățiri | NLP, machine learning, metode statistice | RDF, BUFINĂ | nu depinde de zonă | engleză, germană, spaniolă, franceză |
Rosoka | date text, HTML, XML, SGML , PDF, MS Office | haldă | da | da | automat | Nu | da | IE | extragerea entității numite, rezoluția entității, relația, atributul, extragerea conceptului, analiza sentimentului multi-vector, georeferențiare, identificarea limbii , învățarea automată | NLP | XML, JSON , POJO | zone multiple | multilingv (200+ limbi) |
SCOOBIE | date text, HTML | haldă | Nu | da | automat | Nu | Nu | OBIE | instanțe, valori de proprietate, tipuri RDFS | NLP, învățare automată | RDF, RDFa | nu depinde de zonă | engleză germană |
SemTag [27] [28] | HTML | haldă | Nu | da | automat | da | Nu | SA | învățare automată | înregistrarea bazei de date | nu depinde de zonă | nu depinde de limbaj | |
Smart FIX | date text, HTML, PDF, DOC, e-mail | haldă | da | Nu | automat | Nu | da | OBIE | entități numite | NLP, învățare automată | proprii | nu depinde de zonă | engleză, germană, franceză, olandeză, poloneză |
Text2Onto [29] | date text, HTML, PDF | haldă | da | Nu | semi-automat | da | da | OL | concepte, concept de concepte, relații non-taxonomice, instanțe, axiome | NLP, metode statistice, învățare automată, metode bazate pe reguli | BUFNIŢĂ | nu depinde de zonă | engleză, germană, spaniolă |
Text-To-Onto [30] | date text, HTML, PDF, PostScript | haldă | semi-automat | da | da | OL | concepte, ierarhia conceptelor, relații non-taxonomice, entități lexicale care se referă la concepte, entități lexicale care se referă la relații | NLP, machine learning, clustering, metode statistice | Deutsch | ||||
Acul acela | Date text | haldă | automat | Nu | concepte, relații, ierarhie | NLP, propriu | JSON | zone multiple | Engleză | ||||
Mașina Wiki [31] | date text, HTML, PDF, DOC | haldă | Nu | da | automat | da | da | SA | etichetarea numelor proprii, etichetarea substantivelor comune | învățare automată | RDFa | regiune independentă | engleză, germană, spaniolă, franceză, portugheză, italiană, rusă |
Găsitor de lucruri [32] | IE | entități numite, relații, evenimente | multilingv |
Descoperirea cunoștințelor descrie procesul de căutare automată a unor cantități mari de date pentru modele care pot fi considerate cunoștințe despre date [33] . Acest lucru este adesea descris ca extragerea de cunoștințe din input . Descoperirea cunoștințelor este dezvoltată pentru analiza datelor și este strâns legată atât de metodologie, cât și de terminologie [34] .
Cea mai cunoscută ramură a exploatării datelor este descoperirea cunoștințelor, cunoscută și sub numele de descoperire a cunoștințelor în baze de date . La fel ca multe alte forme de descoperire a cunoștințelor, această analiză creează abstracții ale datelor de intrare. Cunoștințele dobândite în urma acestui proces pot deveni date suplimentare care pot fi utilizate pentru utilizare și căutări ulterioare. Adesea rezultatul unui proces de descoperire a cunoștințelor nu are valoare practică, astfel încât descoperirea activă a cunoștințelor , cunoscută și sub denumirea de „ Analiza datelor de domeniu ” [35] , este concepută pentru a descoperi și extrage (de importanță practică) cunoștințe active și concluzii din aceste cunoștințe.
O altă aplicație promițătoare a descoperirii cunoștințelor este în domeniul modernizării software al detectării punctelor slabe și al respectării standardelor, care implică înțelegerea software-ului existent. Acest proces este legat de conceptul de inginerie inversă . De obicei, cunoștințele dobândite din software-ul existent sunt prezentate sub formă de modele pe care se pot face interogări specifice, dacă este necesar. Modelul entitate-relație este un format comun care reprezintă cunoștințe și este derivat din software-ul existent. Consorțiul Object Management Group a dezvoltat o specificație pentru Knowledge Discovery Metamodel ( KDM), care definește o ontologie pentru resursele software și relațiile lor, concepută pentru a descoperi cunoștințele în codul existent. Descoperirea cunoștințelor din sistemele software cunoscute, cunoscută și sub numele de software mining , este strâns legată de data mining , deoarece descoperirile de software existente sunt de mare importanță pentru managementul riscului și valoarea comercială , care servesc ca elemente cheie pentru analiză. și sisteme software de dezvoltare. În loc să analizeze seturi de date individuale , software mining se concentrează pe metadate , cum ar fi fluxul de producție (de exemplu, fluxul de date, fluxul de control, modelul de apel), arhitectura, schemele bazei de date și regulile/termenii/procesele de afaceri.
web semantic | |
---|---|
Bazele | |
Subsecțiuni |
|
Aplicații |
|
subiecte asemănătoare | |
Standarde |
|