Web semantic

Web semantic (din engleză  semantic web ) - o rețea semantică globală publică , formată pe baza World Wide Web prin standardizarea prezentării informațiilor într-o formă adecvată procesării automate.

Într-un World Wide Web convențional bazat pe HTML , informațiile sunt încorporate în textul paginilor și sunt destinate să fie citite și înțelese de oameni. Web-ul semantic este format din elemente care pot fi citite de mașină - nodurile rețelei semantice , bazate pe ontologie . Datorită acestui fapt, programele client sunt capabile să primească direct declarații de forma „subiect - tip de relație - un alt obiect” de pe Internet și să calculeze concluzii logice asupra lor . Web-ul semantic operează în paralel cu și pe deasupra rețelei World Wide Web obișnuite, folosind protocolul HTTP și identificatorii de resurse URI .

Numele „Web semantic” a fost introdus pentru prima dată de Tim Berners-Lee (inventatorul World Wide Web) în septembrie 1998 [1] , iar el îl numește „următorul pas în evoluția World Wide Web”. Mai târziu, în blogul său, a propus [2] ca sinonim pentru termenul „giant global graph” ( ing.  giant global graph , GGG , prin analogie cu WWW). Conceptul de Web Semantic a fost adoptat și este promovat de World Wide Web Consortium [3] .

Ideea principală

Web-ul semantic este un add-on la World Wide Web existent, conceput pentru a face informațiile postate pe Internet adecvate pentru prelucrarea automată. Informațiile disponibile pe web pot fi citite de om. Web-ul semantic este conceput pentru a face informațiile adecvate pentru analiza automată, sinteza concluziilor și transformarea atât a datelor în sine, cât și a concluziilor desprinse din acestea în diverse reprezentări care sunt utile în practică.

Procesarea automată este posibilă datorită a două caracteristici Web-ului Semantic:

URI  este un identificator uniform de resurse sau o adresă , folosit pentru a indica legături către un obiect (de exemplu, o pagină web , un fișier sau o casetă de e -mail ). URI-urile sunt folosite pentru a denumi obiecte. Fiecare obiect al rețelei semantice globale are un URI unic. Un URI denumește în mod unic un obiect. URI-uri separate sunt create nu numai pentru pagini, ci și pentru obiecte din lumea reală (oameni, orașe, opere de artă și așa mai departe) și chiar și pentru concepte abstracte (de exemplu, „nume”, „poziție”, „culoare” ). Datorită unicității URI-urilor, aceleași elemente pot fi denumite la fel în locuri diferite de pe Web-ul semantic. Folosind un URI, puteți colecta informații despre același articol din locații diferite. Este recomandat să includeți numele unuia dintre protocoalele World Wide Web ( HTTP sau HTTPS ) în adresa URI. Adică, se recomandă ca adresa URI să înceapă cu "http://" sau "https://"). O astfel de adresă poate fi folosită atât ca adresă URI , cât și ca adresă de pagină web ( URL ). Pe paginile web ale căror adrese URL corespund URI-urilor, W3C vă recomandă să includeți o descriere a articolului. Este de dorit să se furnizeze o descriere în două formate [5] :

Utilizarea rețelelor semantice și ontologiilor . Datele de pe World Wide Web sunt de obicei prezentate ca text scris în limbi naturale . Astfel de texte sunt concepute pentru a fi citite de om, dar o mașină le poate înțelege semnificația folosind una dintre tehnicile de procesare a limbajului natural . Metodele realizează analiza de frecvență și/sau analiza lexicală a textului.

W3C sugerează utilizarea limbajului RDF ca format care poate fi citit de mașină . Limbajul RDF vă permite să descrieți structura rețelei semantice sub forma unui grafic . Fiecărui nod și fiecărui arc al graficului i se poate atribui un URI separat. Declarațiile scrise în RDF pot fi interpretate folosind ontologii. Pentru a crea ontologii, se recomandă utilizarea RDF Schema (engleză) și limbajele OWL . Ontologiile sunt create pentru a trage concluzii logice din date . Ontologiile se bazează pe formalisme matematice numite logici de descriere .  

Arhitectură

Partea tehnică a Web-ului semantic este o familie de standarde pentru limbaje de descriere, inclusiv XML , XML Schema , RDF , RDF Schema , OWL și altele. Aranjandu-le in ordinea cresterii nivelului de abstractizare implementat de un anumit limbaj, obtinem:

Inferență

Formatele de descriere a metadatelor în Web-ul semantic implică tragerea unei concluzii logice asupra acestor metadate și au fost dezvoltate cu privire la formalismele matematice existente în acest domeniu. Formalismul care stă la baza formatului face posibilă tragerea de concluzii despre proprietățile programelor care procesează date în acest format.

Acest lucru este valabil mai ales pentru limbajul OWL . Formalismul de bază pentru acesta este logica descrierii , iar limbajul în sine este împărțit în trei subseturi imbricate (în ordinea imbricației): OWL Lite, OWL DL și OWL Full [6] . Sa dovedit [7] că inferența asupra metadatelor cu expresivitate OWL Lite se realizează în timp polinomial (cu alte cuvinte, problema de inferență aparține clasei P ). OWL DL descrie cel mai mare subset rezolvabil de logici de descriere, dar unele interogări privind astfel de date pot necesita timp de execuție exponențial . OWL Full implementează toți constructorii logici de descriere existenți prin eliminarea posibilității de rezolvare obligatorie a interogărilor.

Structura predicată simplă a limbajului RDF , la rândul său, vă permite să utilizați experiența din teoriile bazelor de date logice , logica predicatelor etc. în procesarea sa.

Critica

Probleme de implementare

În 2006, revista IEEE Intelligent Systems a publicat un nou articol al lui Tim Berners-Lee, „Semantic Web Revisited” (Semantic Web: Revisited) [8] , în care autorul numește abordarea descrisă de organizare a informațiilor pe web „un simplu idee, până acum în mare măsură neexploatată până acum”, în ciuda tuturor beneficiilor pe care Web-ul semantic le-ar oferi dacă ar fi implementat.

Până în prezent, nu există mijloace disponibile public de vizualizare și utilizare directă a informațiilor furnizate de site-urile de pe Web-ul Semantic. Mostre rare sunt împrăștiate, iar programele clienților nu depășesc nivelul proiectelor de cercetare locale ale pasionaților individuali.

Comentatorii subliniază diverse motive care împiedică dezvoltarea activă a Web-ului Semantic, de la factorul uman [9] (oamenii au tendința de a evita munca de menținere a documentelor cu metadate, problemele de adevăr ale metadatelor rămân deschise etc.), până la Aristotel . Referirea indirectă a lui la absența unui mod evident de a împărți lumea în concepte distincte. Acest lucru pune la îndoială posibilitatea unei ontologii de nivel superior care este critică pentru Web-ul semantic. Aristotel în Topeka folosește conceptul de diferență specifică , sau prezența unei calități distinctive în concepte , ca bază pentru gruparea conceptelor în clase. Filosoful are încredere în existența unui număr infinit de concepte, ceea ce implică o infinitate a numărului de clase în care acestea pot fi combinate. Pentru a evidenția atâtea clase, este nevoie de un număr infinit de calități care se pot distinge, a căror existență se pune sub semnul întrebării Aristotel.

Dublarea informațiilor

Necesitatea descrierii metadatelor duce cumva la duplicarea informațiilor. Fiecare document trebuie creat în două copii: marcat pentru citire umană și, de asemenea, într-un format orientat către mașină. Acest neajuns al Web-ului Semantic a fost principalul impuls pentru crearea așa-numitelor microformate [10] și a limbajului RDF [11] . Acesta din urmă este o variantă a limbajului RDF și diferă de acesta prin faptul că nu își definește propria sintaxă, ci este destinat să fie încorporat în atributele XML ale paginilor XHTML . În plus, etichetele semantice apar chiar în standardele HTML .

Consecințele implementării

Proiecte

Dublin Core

Unul dintre primele proiecte serioase și populare bazate pe principiile Web-ului Semantic a fost proiectul Dublin Core , implementat de Dublin Core Metadata Initiative (DCMI) .  Este un proiect deschis care își propune să dezvolte standarde de metadate care sunt independente de platformă și potrivite pentru o gamă largă de aplicații. Mai precis, DCMI dezvoltă dicționare de metadate de uz general care standardizează descrierile resurselor RDF. [cincisprezece]

RSS (versiunile 0.90 și 1.0)

Versiunile 0.90 și 1.0 ale formatului RSS se bazează pe RDF. Informația din ea este reprezentată, ca și în RDF, de triple subiect-relație-obiect . Trebuie remarcat faptul că, deși suferă de multe dintre deficiențele Web-ului semantic (cum ar fi duplicarea informațiilor), acest format simplu a devenit rapid extrem de popular datorită categorizării înguste a subsetului de metadate utilizate. Diferența dintre RSS și RDF este că subiectul triplei este întotdeauna site-ul sursă al fișierului RSS, iar proprietățile cele mai evidente ale documentelor legate de sursele de informații actualizate frecvent sunt folosite ca relații: data scrierii, autorul, permalinkul, etc. Cu alte cuvinte, RSS este un subset foarte specializat al RDF. [16]

Rețineți că formatul RSS versiunea 2.0, deși nu este un format bazat pe RDF, permite injectarea de conținut XML arbitrar în spațiile de nume XML native . Acest lucru permite ca și descrierile RDF să fie folosite în el (folosind spațiul de nume rdf). [17]

FOAF

Proiectul „ Prietenul unui prieten ” vă permite să descrieți relația de cunoștință folosind RDF. Orice membru se poate identifica în mod unic cu un URI (de exemplu, adresa de e-mail mailto , adresa blogului etc.), își poate crea profilul utilizând relațiile RDF predefinite pentru FOAF și poate enumera ID-urile persoanelor pe care le cunoaște acest participant. Această descriere poate fi procesată automat; pe baza acestuia, puteți construi rețele de încredere, puteți analiza structura grupurilor sociale etc. [18]

dbpedia

DBpedia  este un proiect care are ca scop extragerea de informații structurate din datele create de proiectul Wikipedia. DBpedia permite utilizatorilor să interogheze informații bazate pe relațiile și proprietățile resurselor Wikipedia, inclusiv link-uri către baze de date conexe. A început de un grup de voluntari de la Universitatea Liberă din Berlin și de la Universitatea din Leipzig , în colaborare cu OpenLink Software , și a fost publicat pentru prima dată în 2007. Proiectul DBpedia folosește Resource Description Framework (RDF) pentru a reprezenta informațiile extrase. În aprilie 2010, bazele de date ale DBpedia constau din peste 1 miliard de articole de informații, dintre care 257 milioane au fost preluate din versiunea în limba engleză a Wikipedia și 766 milioane au fost extrase din versiuni în alte limbi [19] .

Vezi și

Note

  1. Tim Berners-Lee. Foaia de parcurs web semantic (09.1998). Consultat la 28 iunie 2014. Arhivat din original pe 6 decembrie 2003.
  2. Graficul global gigant. Arhivat 13 iulie 2016 la Wayback Machine , traducere rusă: Tim Burners-Lee. Giant Global Graph Arhivat pe 20 noiembrie 2012 la Wayback Machine
  3. Secțiunea Web Semantic de pe W3C Arhivată 20 septembrie 2010 la Wayback Machine 
  4. ↑ Cadrul de descriere a resurselor (RDF) : concepte și sintaxă abstractă  . Consorțiul World Wide Web (10 februarie 2004). — Recomandare W3C. Preluat la 12 septembrie 2010. Arhivat din original la 24 august 2011.
  5. URI-uri interesante pentru  Web -ul semantic . Consorțiul World Wide Web (3 decembrie 2008). — Notă pentru grupul de interese W3C. Preluat la 12 septembrie 2010. Arhivat din original la 24 august 2011.
  6. Speciile de OWL în Ghidul de limbă OWL . Consultat la 15 mai 2010. Arhivat din original la 18 ianuarie 2006.
  7. OWL Full, OWL DL și OWL Lite în OWL Language Reference . Consultat la 2 iunie 2007. Arhivat din original la 18 ianuarie 2006.
  8. Semantic Web Revisited Arhivat 20 martie 2013 la Wayback Machine , IEEE Intelligent Systems, iunie 2006
  9. [https://web.archive.org/web/20070508200721/http://www.well.com/~doctorow/metacrap.htm Arhivat 8 mai 2007 la Wayback Machine Cory Doctorow, Metacrap: Putting the torch to șapte oameni de paie ai meta-utopiei, august 2001 ]
  10. (link în jos) Rohit Khare, Tantek Çelik, Microformats: A Pragmatic Path to the Semantic Web, ianuarie 2006
  11. RDFa Primer . Consultat la 15 mai 2010. Arhivat din original pe 25 mai 2010.
  12. Bessmertny I. A. / Context Management in Information Systems Arhivat 18 februarie 2015 la Wayback Machine . - Articol. - Tehnologia informatiei, Instrumentatie.- Octombrie, 2012 - UDC 004.89
  13. Viktor Shepelev. Călcâiul lui Ahile al Web-ului Semantic (link indisponibil) . Computerra (15 iulie 2008). Consultat la 5 februarie 2010. Arhivat din original pe 26 noiembrie 2009. 
  14. Vezi ro:Serviciul de monitorizare media#Casuri de drept , en:Știri Google#Variații ale drepturilor de autor .
  15. Dublin Core Metadata Initiative (DCMI) . Preluat la 2 iulie 2005. Arhivat din original la 3 august 2019.
  16. Specificații RSS 1.0 (link în jos) . Consultat la 15 mai 2010. Arhivat din original la 12 ianuarie 2013. 
  17. Specificații RSS 2.0 . Consultat la 15 mai 2010. Arhivat din original la 18 februarie 2011.
  18. Prietenul unui prieten . Consultat la 15 mai 2010. Arhivat din original pe 10 iunie 2006.
  19. Mapări DBpedia . Preluat la 24 ianuarie 2011. Arhivat din original la 24 octombrie 2020.

Literatură

Link -uri