Web semantic

Web semantic (din engleză semantic web ) - o rețea semantică globală publică , formată pe baza World Wide Web prin standardizarea prezentării informațiilor într-o formă adecvată procesării automate.

Într-un World Wide Web convențional bazat pe HTML , informațiile sunt încorporate în textul paginilor și sunt destinate să fie citite și înțelese de oameni. Web-ul semantic este format din elemente care pot fi citite de mașină - nodurile rețelei semantice , bazate pe ontologie . Datorită acestui fapt, programele client sunt capabile să primească direct declarații de forma „subiect - tip de relație - un alt obiect” de pe Internet și să calculeze concluzii logice asupra lor . Web-ul semantic operează în paralel cu și pe deasupra rețelei World Wide Web obișnuite, folosind protocolul HTTP și identificatorii de resurse URI .

Numele „Web semantic” a fost introdus pentru prima dată de Tim Berners-Lee (inventatorul World Wide Web) în septembrie 1998 [1] , iar el îl numește „următorul pas în evoluția World Wide Web”. Mai târziu, în blogul său, a propus [2] ca sinonim pentru termenul „giant global graph” ( ing. giant global graph , GGG , prin analogie cu WWW). Conceptul de Web Semantic a fost adoptat și este promovat de World Wide Web Consortium [3] .

Ideea principală

Web-ul semantic este un add-on la World Wide Web existent, conceput pentru a face informațiile postate pe Internet adecvate pentru prelucrarea automată. Informațiile disponibile pe web pot fi citite de om. Web-ul semantic este conceput pentru a face informațiile adecvate pentru analiza automată, sinteza concluziilor și transformarea atât a datelor în sine, cât și a concluziilor desprinse din acestea în diverse reprezentări care sunt utile în practică.

Procesarea automată este posibilă datorită a două caracteristici Web-ului Semantic:

prezența unui URI ;
utilizarea rețelelor semantice și ontologiilor .

URI este un identificator uniform de resurse sau o adresă , folosit pentru a indica legături către un obiect (de exemplu, o pagină web , un fișier sau o casetă de e -mail ). URI-urile sunt folosite pentru a denumi obiecte. Fiecare obiect al rețelei semantice globale are un URI unic. Un URI denumește în mod unic un obiect. URI-uri separate sunt create nu numai pentru pagini, ci și pentru obiecte din lumea reală (oameni, orașe, opere de artă și așa mai departe) și chiar și pentru concepte abstracte (de exemplu, „nume”, „poziție”, „culoare” ). Datorită unicității URI-urilor, aceleași elemente pot fi denumite la fel în locuri diferite de pe Web-ul semantic. Folosind un URI, puteți colecta informații despre același articol din locații diferite. Este recomandat să includeți numele unuia dintre protocoalele World Wide Web ( HTTP sau HTTPS ) în adresa URI. Adică, se recomandă ca adresa URI să înceapă cu "http://" sau "https://"). O astfel de adresă poate fi folosită atât ca adresă URI , cât și ca adresă de pagină web ( URL ). Pe paginile web ale căror adrese URL corespund URI-urilor, W3C vă recomandă să includeți o descriere a articolului. Este de dorit să se furnizeze o descriere în două formate [5] :

într-un format care poate fi citit de om;
format care poate fi citit de mașină.

Utilizarea rețelelor semantice și ontologiilor . Datele de pe World Wide Web sunt de obicei prezentate ca text scris în limbi naturale . Astfel de texte sunt concepute pentru a fi citite de om, dar o mașină le poate înțelege semnificația folosind una dintre tehnicile de procesare a limbajului natural . Metodele realizează analiza de frecvență și/sau analiza lexicală a textului.

W3C sugerează utilizarea limbajului RDF ca format care poate fi citit de mașină . Limbajul RDF vă permite să descrieți structura rețelei semantice sub forma unui grafic . Fiecărui nod și fiecărui arc al graficului i se poate atribui un URI separat. Declarațiile scrise în RDF pot fi interpretate folosind ontologii. Pentru a crea ontologii, se recomandă utilizarea RDF Schema (engleză) și limbajele OWL . Ontologiile sunt create pentru a trage concluzii logice din date . Ontologiile se bazează pe formalisme matematice numite logici de descriere .

Arhitectură

Partea tehnică a Web-ului semantic este o familie de standarde pentru limbaje de descriere, inclusiv XML , XML Schema , RDF , RDF Schema , OWL și altele. Aranjandu-le in ordinea cresterii nivelului de abstractizare implementat de un anumit limbaj, obtinem:

XML oferă o sintaxă pentru definirea structurii unui document care urmează să fie procesat. Sintaxa XML nu are încărcare semantică.
Schema XML definește restricții asupra structurii unui document XML. Analizorul standard al limbajului XML este capabil să verifice un document XML arbitrar pentru conformitatea structurii sale cu așa-numita schemă de document descrisă în Schema XML.
RDF este o modalitate simplă de a descrie datele de instanță într-un format subiect-relație-obiect care utilizează numai identificatori de resurse ca orice membru al tripletului (cu excepția unui obiect, care poate fi un literal). Există o mapare standardizată a acestor triple la documente XML cu o structură predefinită (adică, consorțiul W3 definește o schemă pentru documentele XML care conțin descrieri RDF), precum și la alte formate de prezentare (de exemplu, la notația N3 ).
Schema RDF descrie un set de atribute (numite mai precis aici relații ), cum ar firdfs:Class, pentru a defini noi tipuri de date RDF. Limbajul acceptă, de asemenea, moștenirea tipuluirdfs:subClassOf.
OWL extinde posibilitățile de descriere a noilor tipuri (în special, prin adăugarea de enumerari ) și, de asemenea, vă permite să descrieți noi tipuri de date Schema RDF în termeni de cele existente (de exemplu, pentru a defini un tip care este intersecția sau unirea a două existentecele).
Microdata (HTML microdata) este un standard internațional pentru marcarea semantică a paginilor HTML, folosind atribute care descriu semnificația informațiilor conținute în anumite elemente HTML. Astfel de atribute fac conținutul paginilor citibil de mașină, adică vă permit să găsiți și să extrageți automat datele necesare.

Inferență

Formatele de descriere a metadatelor în Web-ul semantic implică tragerea unei concluzii logice asupra acestor metadate și au fost dezvoltate cu privire la formalismele matematice existente în acest domeniu. Formalismul care stă la baza formatului face posibilă tragerea de concluzii despre proprietățile programelor care procesează date în acest format.

Acest lucru este valabil mai ales pentru limbajul OWL . Formalismul de bază pentru acesta este logica descrierii , iar limbajul în sine este împărțit în trei subseturi imbricate (în ordinea imbricației): OWL Lite, OWL DL și OWL Full [6] . Sa dovedit [7] că inferența asupra metadatelor cu expresivitate OWL Lite se realizează în timp polinomial (cu alte cuvinte, problema de inferență aparține clasei P ). OWL DL descrie cel mai mare subset rezolvabil de logici de descriere, dar unele interogări privind astfel de date pot necesita timp de execuție exponențial . OWL Full implementează toți constructorii logici de descriere existenți prin eliminarea posibilității de rezolvare obligatorie a interogărilor.

Structura predicată simplă a limbajului RDF , la rândul său, vă permite să utilizați experiența din teoriile bazelor de date logice , logica predicatelor etc. în procesarea sa.

Critica

Probleme de implementare

În 2006, revista IEEE Intelligent Systems a publicat un nou articol al lui Tim Berners-Lee, „Semantic Web Revisited” (Semantic Web: Revisited) [8] , în care autorul numește abordarea descrisă de organizare a informațiilor pe web „un simplu idee, până acum în mare măsură neexploatată până acum”, în ciuda tuturor beneficiilor pe care Web-ul semantic le-ar oferi dacă ar fi implementat.

Până în prezent, nu există mijloace disponibile public de vizualizare și utilizare directă a informațiilor furnizate de site-urile de pe Web-ul Semantic. Mostre rare sunt împrăștiate, iar programele clienților nu depășesc nivelul proiectelor de cercetare locale ale pasionaților individuali.

Comentatorii subliniază diverse motive care împiedică dezvoltarea activă a Web-ului Semantic, de la factorul uman [9] (oamenii au tendința de a evita munca de menținere a documentelor cu metadate, problemele de adevăr ale metadatelor rămân deschise etc.), până la Aristotel . Referirea indirectă a lui la absența unui mod evident de a împărți lumea în concepte distincte. Acest lucru pune la îndoială posibilitatea unei ontologii de nivel superior care este critică pentru Web-ul semantic. Aristotel în Topeka folosește conceptul de diferență specifică , sau prezența unei calități distinctive în concepte , ca bază pentru gruparea conceptelor în clase. Filosoful are încredere în existența unui număr infinit de concepte, ceea ce implică o infinitate a numărului de clase în care acestea pot fi combinate. Pentru a evidenția atâtea clase, este nevoie de un număr infinit de calități care se pot distinge, a căror existență se pune sub semnul întrebării Aristotel.

Dublarea informațiilor

Necesitatea descrierii metadatelor duce cumva la duplicarea informațiilor. Fiecare document trebuie creat în două copii: marcat pentru citire umană și, de asemenea, într-un format orientat către mașină. Acest neajuns al Web-ului Semantic a fost principalul impuls pentru crearea așa-numitelor microformate [10] și a limbajului RDF [11] . Acesta din urmă este o variantă a limbajului RDF și diferă de acesta prin faptul că nu își definește propria sintaxă, ci este destinat să fie încorporat în atributele XML ale paginilor XHTML . În plus, etichetele semantice apar chiar în standardele HTML .

Consecințele implementării

Ușurința procesării automate permite unui intermediar, cum ar fi un motor de căutare, să aleagă ce informații să prezinte utilizatorului [12] .
- Acest lucru face posibilă furnizarea doar a părții necesare a informațiilor. Ca urmare, utilizatorul poate primi informații fără a vizita site-ul sursă, iar intermediarul poate afișa informații fără a oferi un link către sursă (sau a o oferi, cu condiția ca intermediarul să știe despre tranziție). Astfel, traficul site-ului sursă scade, iar traficul intermediarului crește; iar efectul reclamei pe Internet , care oferă principala finanțare pentru multe site-uri, depinde de trafic . [13] Citatele unor părți ale știrilor de către agregatorii web au făcut obiectul unor litigii cu rezultate diferite. [14] Pentru site-urile care publică conținut pentru a atrage cititorii către reclamele din apropiere, furnizarea de conținut într-o formă care poate fi citită de mașină nu pare a fi benefică, ci pentru site-urile al căror conținut în sine este informații despre obiectul promovat - de exemplu, pentru site-urile producătorilor de bunuri și servicii - furnizarea de informații despre obiectele promovate într-o formă care poate fi citită de mașină este benefică, deoarece poate facilita distribuirea și utilizarea acestora.
- Acest lucru facilitează cenzura automată.
Preferința motoarelor de căutare pentru paginile etichetate face ca paginile neetichetate să facă parte din (relativ) Deep Web .
Găsirea datelor cu caracter personal și a legăturilor acestora cu alte informații (autori, locații, legături sociale) este facilitată .

Proiecte

Dublin Core

Unul dintre primele proiecte serioase și populare bazate pe principiile Web-ului Semantic a fost proiectul Dublin Core , implementat de Dublin Core Metadata Initiative (DCMI) . Este un proiect deschis care își propune să dezvolte standarde de metadate care sunt independente de platformă și potrivite pentru o gamă largă de aplicații. Mai precis, DCMI dezvoltă dicționare de metadate de uz general care standardizează descrierile resurselor RDF. [cincisprezece]

RSS (versiunile 0.90 și 1.0)

Versiunile 0.90 și 1.0 ale formatului RSS se bazează pe RDF. Informația din ea este reprezentată, ca și în RDF, de triple subiect-relație-obiect . Trebuie remarcat faptul că, deși suferă de multe dintre deficiențele Web-ului semantic (cum ar fi duplicarea informațiilor), acest format simplu a devenit rapid extrem de popular datorită categorizării înguste a subsetului de metadate utilizate. Diferența dintre RSS și RDF este că subiectul triplei este întotdeauna site-ul sursă al fișierului RSS, iar proprietățile cele mai evidente ale documentelor legate de sursele de informații actualizate frecvent sunt folosite ca relații: data scrierii, autorul, permalinkul, etc. Cu alte cuvinte, RSS este un subset foarte specializat al RDF. [16]

Rețineți că formatul RSS versiunea 2.0, deși nu este un format bazat pe RDF, permite injectarea de conținut XML arbitrar în spațiile de nume XML native . Acest lucru permite ca și descrierile RDF să fie folosite în el (folosind spațiul de nume rdf). [17]

FOAF

Proiectul „ Prietenul unui prieten ” vă permite să descrieți relația de cunoștință folosind RDF. Orice membru se poate identifica în mod unic cu un URI (de exemplu, adresa de e-mail mailto , adresa blogului etc.), își poate crea profilul utilizând relațiile RDF predefinite pentru FOAF și poate enumera ID-urile persoanelor pe care le cunoaște acest participant. Această descriere poate fi procesată automat; pe baza acestuia, puteți construi rețele de încredere, puteți analiza structura grupurilor sociale etc. [18]

dbpedia

DBpedia este un proiect care are ca scop extragerea de informații structurate din datele create de proiectul Wikipedia. DBpedia permite utilizatorilor să interogheze informații bazate pe relațiile și proprietățile resurselor Wikipedia, inclusiv link-uri către baze de date conexe. A început de un grup de voluntari de la Universitatea Liberă din Berlin și de la Universitatea din Leipzig , în colaborare cu OpenLink Software , și a fost publicat pentru prima dată în 2007. Proiectul DBpedia folosește Resource Description Framework (RDF) pentru a reprezenta informațiile extrase. În aprilie 2010, bazele de date ale DBpedia constau din peste 1 miliard de articole de informații, dintre care 257 milioane au fost preluate din versiunea în limba engleză a Wikipedia și 766 milioane au fost extrase din versiuni în alte limbi [19] .

Vezi și

Note

↑ Tim Berners-Lee. Foaia de parcurs web semantic (09.1998). Consultat la 28 iunie 2014. Arhivat din original pe 6 decembrie 2003. (nedefinit)
↑ Graficul global gigant. Arhivat 13 iulie 2016 la Wayback Machine , traducere rusă: Tim Burners-Lee. Giant Global Graph Arhivat pe 20 noiembrie 2012 la Wayback Machine
↑ Secțiunea Web Semantic de pe W3C Arhivată 20 septembrie 2010 la Wayback Machine
↑ Cadrul de descriere a resurselor (RDF) : concepte și sintaxă abstractă . Consorțiul World Wide Web (10 februarie 2004). — Recomandare W3C. Preluat la 12 septembrie 2010. Arhivat din original la 24 august 2011.
↑ URI-uri interesante pentru Web -ul semantic . Consorțiul World Wide Web (3 decembrie 2008). — Notă pentru grupul de interese W3C. Preluat la 12 septembrie 2010. Arhivat din original la 24 august 2011.
↑ Speciile de OWL în Ghidul de limbă OWL . Consultat la 15 mai 2010. Arhivat din original la 18 ianuarie 2006. (nedefinit)
↑ OWL Full, OWL DL și OWL Lite în OWL Language Reference . Consultat la 2 iunie 2007. Arhivat din original la 18 ianuarie 2006. (nedefinit)
↑ Semantic Web Revisited Arhivat 20 martie 2013 la Wayback Machine , IEEE Intelligent Systems, iunie 2006
↑ [https://web.archive.org/web/20070508200721/http://www.well.com/~doctorow/metacrap.htm Arhivat 8 mai 2007 la Wayback Machine Cory Doctorow, Metacrap: Putting the torch to șapte oameni de paie ai meta-utopiei, august 2001 ]
↑ (link în jos) Rohit Khare, Tantek Çelik, Microformats: A Pragmatic Path to the Semantic Web, ianuarie 2006
↑ RDFa Primer . Consultat la 15 mai 2010. Arhivat din original pe 25 mai 2010. (nedefinit)
↑ Bessmertny I. A. / Context Management in Information Systems Arhivat 18 februarie 2015 la Wayback Machine . - Articol. - Tehnologia informatiei, Instrumentatie.- Octombrie, 2012 - UDC 004.89
↑ Viktor Shepelev. Călcâiul lui Ahile al Web-ului Semantic (link indisponibil) . Computerra (15 iulie 2008). Consultat la 5 februarie 2010. Arhivat din original pe 26 noiembrie 2009. (nedefinit)
↑ Vezi ro:Serviciul de monitorizare media#Casuri de drept , en:Știri Google#Variații ale drepturilor de autor .
↑ Dublin Core Metadata Initiative (DCMI) . Preluat la 2 iulie 2005. Arhivat din original la 3 august 2019. (nedefinit)
↑ Specificații RSS 1.0 (link în jos) . Consultat la 15 mai 2010. Arhivat din original la 12 ianuarie 2013. (nedefinit)
↑ Specificații RSS 2.0 . Consultat la 15 mai 2010. Arhivat din original la 18 februarie 2011. (nedefinit)
↑ Prietenul unui prieten . Consultat la 15 mai 2010. Arhivat din original pe 10 iunie 2006. (nedefinit)
↑ Mapări DBpedia . Preluat la 24 ianuarie 2011. Arhivat din original la 24 octombrie 2020. (nedefinit)

Literatură

Dieter Fensel, Wolfgang Wahlster, Henry Lieberman, James Hendler. Învârtirea Web-ului semantic: Aducerea World Wide Web la potențialul său maxim. - The MIT Press, 2002. - ISBN 0262062321 .
Către web-ul semantic: managementul cunoștințelor bazat pe ontologie. - John Wiley & Sons, 2003. - ISBN 0470848677 .
Toby Segaran, Colin Evans, Jamie Taylor. Programarea Web-ului Semantic. - 2009. - ISBN 0596153813 .
Luciano Floridi. Web 2.0 vs. Web-ul semantic: o evaluare filozofică // Episteme. - 2009. - V. 6 , Nr. 1 . - S. 25-37 . - doi : 10.3366/E174236000800052X .

Link -uri

Portal oficial (engleză)
- Cărți (engleză) - cărți dedicate în mod specific Web-ului semantic și datelor Linked
Portal comunitar
Site rusesc despre Web-ul semantic (tehnologii, proiecte, instrumente)
Specificații de limbă OWL: OWL Language Reference și OWL Language Guide
Dublin Core Metadata Initiative (DCMI )
Microformate _
Rohit Khare, Tantek Çelik, Microformats: A Pragmatic Path to the Semantic Web (link nu este disponibil )
Un ghid introductiv pentru marcarea RDFa pentru designerii de layout HTML și xHTML
Prelegerea în format PDF „ Semantic Web ” a cursului lui Yuri Lifshitz „ Algoritmi pentru Internet ”

Web și site-uri web
la nivel global	World Wide Web Web 1.0 Web 2.0 Web 3.0 web semantic Neuronet
La nivel local	Site-ul web Portal Pagină Serviciu Inel
Tipuri de site-uri și servicii	Atlas virtual rețea de bannere Bibliotecă Blog ( platformă ) Gazduire video Wiki Site cărți de vizită Întrebare răspuns Marcaje servicii matrimoniale joc browser Director de resurse Magazin online microblog site de știri Sistem de căutare site porno E-mail web Rețea socială Tumblelog Tracker BitTorrent Gazduire fisiere forum Serviciu Imageboard Gazduire foto conversație
Creare si intretinere	Maestru Dezvoltare Proiecta Aspect Programare utilizabilitate Experiență de interacțiune Promovarea site-ului web Optimizare pentru motoarele de căutare (SEO) Gazduire Administrator de sistem Moderator Cont Autorizare
Tipuri de machete, pagini, site-uri	Static Dinamic Fix Cauciuc dinamic elastic Adaptiv
Tehnic	server web Browser DNS CMF CMS HTTP ( răspunsuri anteturi ) SPDY QUIC CGI HTML XHTML css PHP JavaScript DHTML prăjitură DOM XML AJAX JSON Flash RSS atom informator Microformat favicon.ico _ robots.txt Sitemaps harta site-ului .htaccess
Marketing	Internet Marketing publicitate pe internet Banner publicitate contextuală Teaser Cybersquatting
Societate și cultură	Blogosfera Comunitatea Internet ( district ) Literatura de rețea

web semantic
Bazele	World Wide Web Internet Hipertext Bază de date Rețele semantice Ontologii Logica descrierii
Subsecțiuni	Date legate web de date Hiperdate Server de execuție a regulilor de afaceri Spații de date
Aplicații	Wiki semantic Publicare semantică Căutare semantică Calcul semantic publicitate semantică Mecanism de raționament semantic potrivirea semantică mapper semantic broker semantic analitică semantică arhitectură semantică orientată spre servicii
subiecte asemănătoare	Folksonomie Biblioteca 2.0 Web 2.0 Legături Arhitectura informației Management de cunoștințe inteligența colectivă Hărți tematice Mindmapping metadate Geoetichetarea știința web
Standarde	Sintaxă : RDF RDF/XML Notația 3 Broasca testoasa N-Triple JSON-LD SPARQL URI HTTP XML Scheme, ontologii : RDFS BUFNIŢĂ Formatul de schimb de reguli Limbajul regulilor web semantic logica comuna Schema.org Adnotare semantică : RDFa eRDF GRDDL Microformate Microdate Dicţionare : DOAP FOAF SIOC miezul Dublinului SKOS UMBELĂ Istoric : HTML semantic vechi simplu DAML+ULEI