Dbpedia

Dbpedia
URL dbpedia.org
Comercial Nu
Tipul site-ului baza de cunostinte , baza de date online [d] , baza de date derivata din proiecte Wikimedia [d] si graficul cunostintelor [d]
limbi) Scala , Java , Pagini Server Virtuoso
Limbaj de programare Java și Scala
Proprietar Universitatea din Leipzig și Universitatea din Mannheim
Autor Universitatea din Leipzig , Universitatea din Mannheim și Institutul Hasso Platner [d]
Începutul lucrării 10 ianuarie 2007
 Fișiere media la Wikimedia Commons

DBpedia  este un proiect crowdsource care are ca scop extragerea de informații structurate din datele create de proiectul Wikipedia și publicarea lor ca seturi de date disponibile sub o licență gratuită . Proiectul a fost citat de Tim Berners-Lee drept una dintre cele mai cunoscute implementări ale conceptului de date legate [1] .

Proiectul a fost demarat de un grup de voluntari de la Universitatea Liberă din Berlin și Universitatea din Leipzig , în colaborare cu OpenLink Software , primul set de date fiind publicat în 2007 . Din 2012, Universitatea din Mannheim a fost un participant activ la proiect .

Baze de date

În aprilie 2016, bazele de date DBpedia descriu peste 6 milioane de concepte, dintre care 5,2 milioane sunt clasificate conform ontologiei , inclusiv 1,5 milioane de personalități, 810 mii de obiecte geografice, 135 mii de albume muzicale, 106 mii de filme, 20.000 de jocuri video, 275.000 de organizații. , 201.000 taxoni și 5.000 de boli. DBpedia conține 38 de milioane de etichete și adnotări în 125 de limbi; 25,2 milioane de link-uri către imagini și 29,8 milioane de link-uri către pagini web externe; 50 de milioane de link-uri externe către alte baze de date RDF , 80,9 milioane de categorii Wikipedia.

Proiectul folosește Cadrul de descriere a resurselor (RDF) pentru a reprezenta informațiile extrase, în septembrie 2014 bazele constau din peste 9,5 miliarde de triple RDF, dintre care 1,3 miliarde sunt preluate de pe Wikipedia în limba engleză și 5,0 miliarde sunt extrase din secțiuni despre alte limbi. .

Una dintre problemele la extragerea informațiilor de pe Wikipedia este că aceleași concepte pot fi exprimate în șabloane în moduri diferite, de exemplu, conceptul de „loc de naștere” poate fi formulat în limba engleză ca „loc de naștere” și ca „loc de naștere”. Din cauza acestei ambiguități, interogarea trece prin ambele opțiuni pentru a obține un rezultat mai fiabil. Pentru a facilita căutarea, reducând în același timp numărul de sinonime, a fost dezvoltat un limbaj special - DBpedia Mapping Language, iar utilizatorii DBpedia au posibilitatea de a îmbunătăți calitatea extragerii datelor folosind serviciul de cartografiere.

Exemplu

DBpedia extrage informații concrete din paginile Wikipedia, permițând utilizatorilor să găsească răspunsuri la întrebări în situațiile în care informațiile necesare se găsesc în mai multe articole Wikipedia diferite. De exemplu, pentru a găsi toate lucrările ilustratorului manga Tokyo Mew Mew , este posibil să executați următoarea interogare SPARQL [2] :

PREFIX dbprop : < http : // dbpedia . org / proprietate /> PREFIX db : < http : // dbpedia . org / resursă /> SELECT ? cine ? munca ? gen WHERE { db : Tokyo_Mew_Mew dbprop : ilustrator ? cine . ? lucru dbprop : autor ? cine . OPȚIONAL { ? lucru dbprop : gen ? gen } . }

Note

  1. Transcriere: Sir Tim Berners-Lee discută cu Talis despre Web-ul semantic Arhivat 10 mai 2013.
  2. [1] Arhivat 29 iulie 2020 la Wayback Machine  - cerere pentru SPARQL către DBPedia