Internetul abisal

Deep Web (cunoscut și sub numele de „Web invizibil”, „Deep Web”, „Deep Internet”; în engleză deep web ;) este un set de pagini web World Wide Web care nu sunt indexate de motoarele de căutare .

Termenul provine din acc. Engleză pânză invizibilă [1] . Cea mai semnificativă parte a deep web-ului este Deep Web-ul (din engleză. deep web, hidden web ), constând din pagini web generate dinamic de interogări către baze de date online [2] .

Conceptul de Deep Web nu trebuie confundat cu conceptul de Dark Web (din engleza dark web ), care se referă la segmente de rețea , deși conectate la Internetul general , dar care necesită anumite instrumente software pentru acces.

Esența problemei

Web-ul profund conține pagini web care nu sunt conectate la alte hyperlink -uri (de exemplu, pagini web fără margini create dinamic prin scripturi pe site-urile în sine, la cerere, la care link-urile directe nu duc), precum și site-uri care sunt doar accesibil utilizatorilor înregistrați și pagini web accesibile numai cu o parolă.

Motoarele de căutare folosesc roboți speciali de căutare care urmăresc hyperlinkuri și indexează conținutul paginilor web pe care se află, introducând conținutul și hyperlinkurile către acestea în bazele lor de date. După ce au găsit link-uri către alte pagini de pe pagina web indexată, robotul de căutare le urmărește și indexează conținutul fiecărei pagini găsite, găsește noi hyperlinkuri și le urmărește pentru indexare; ca urmare a clicului pe link-urile care duc în afara paginilor indexate, numărul paginilor web indexate este în continuă creștere. Botul de căutare nu poate ajunge la pagini web care nu sunt legate de alte pagini, motiv pentru care conținutul acestor pagini nu este indexat. Drept urmare, fără a cunoaște adresa URL a unui site sau a unei pagini web a Deep Web-ului, un utilizator obișnuit nu va putea ajunge la ele.

Deep Web include, de asemenea, site-uri ai căror proprietari au refuzat în mod voluntar să fie indexați de motoarele de căutare (de exemplu, folosind fișierul „robots.txt” ), precum și site-uri și pagini web protejate prin autorizare de vizualizarea informațiilor de către terți. În acest caz, fără a cunoaște autentificarea și (sau) parola paginii web, este imposibil să vizualizați complet conținutul sau să utilizați site-ul.

Scala

Dimensiunea rețelei profunde este necunoscută. Există estimări relativ fiabile ale numărului total de site-uri care duc la baze de date online: aproximativ 300.000 de astfel de site-uri pe întregul Web în 2004 și aproximativ 14.000 pe RuNet în 2006 [3] [4] .

Deep Web Search

În 2005 , Yahoo! a făcut un pas serios spre rezolvarea acestei probleme. Compania a lansat motorul de căutare „Yahoo! Abonamente”, care caută site-uri (încă puține), la care accesul este deschis doar membrilor înregistrați ai acestor site-uri. Acest lucru, însă, nu a rezolvat complet problema existentă. Experții în motoare de căutare încă încearcă să găsească opțiuni tehnice pentru indexarea conținutului bazei de date și accesarea site-urilor web private.

Unul dintre serviciile populare de date deep web este UFOseek , conceput inițial pentru a organiza date paranormale [5] .

Tipuri de conținut

Deși nu este întotdeauna posibil să găsiți direct conținutul unui anumit server web, astfel încât să poată fi indexat, este totuși posibil să accesați un astfel de site (din cauza vulnerabilităților computerului ).

Pentru a descoperi conținut pe web, motoarele de căutare folosesc crawler-uri web care urmăresc hyperlinkuri prin numerele de porturi virtuale de protocol cunoscute. Această metodă este ideală pentru a descoperi conținut pe World Wide Web , dar este adesea ineficientă atunci când căutați conținut pe deep web. De exemplu, crawlerele web nu caută pagini dinamice care sunt rezultatul interogărilor bazei de date din cauza numărului nedefinit de aceleași interogări. S-a remarcat că acest lucru poate fi depășit (parțial) prin furnizarea de link-uri către rezultatele interogării, dar acest lucru poate crește din neatenție popularitatea pentru un membru al rețelei profunde.

Există mai multe motoare de căutare care au accesat deep web-ul. Intute și-a încheiat finanțarea și este acum o arhivă temporară din iulie 2011. Scirus s -a închis la sfârșitul lunii ianuarie 2013.

Cercetătorii au studiat modul în care deep web-ul poate fi scanat automat, inclusiv conținutul care poate fi accesat numai cu software dedicat, cum ar fi Tor . În 2001, Sriram Raghavan și Hector Garcia-Molina (Stanford Computer Science Department, Stanford University ) au prezentat un model arhitectural al unui motor de căutare ascuns care folosea cuvinte cheie furnizate de utilizatori sau colectate din interfețele de interogare pentru a interoga și a accesa cu crawlere deep web.

Motoarele de căutare comerciale au început să exploreze metode alternative de accesare cu crawlere pe deep web. Protocolul Sitemap ( dezvoltat și implementat pentru prima dată de Google în 2005) și mod_oai sunt mecanisme care permit motoarelor de căutare și altor părți interesate să descopere resurse deep web pe anumite servere web. Ambele mecanisme permit serverelor web să găzduiască URL-uri accesibile pe ele, permițând descoperirea automată a resurselor care nu sunt conectate direct la World Wide Web . Sistemul de navigare deep web al Google calculează vizualizări pentru fiecare formular HTML și adaugă paginile HTML rezultate la indexul motorului de căutare Google. Rezultatele se bazează pe 1000 de solicitări pe secundă pentru conținut deep web. În acest sistem, precalcularea reprezentării este efectuată folosind trei algoritmi:

selectarea intrărilor de căutare de text care acceptă cuvinte cheie;
anumite intrări care acceptă doar valori de un anumit tip (de exemplu, date);
selectând un număr mic de combinații de introducere care generează adrese URL potrivite pentru includerea în indexul de căutare web.

Vezi și

Note

↑ Gary Price, Chris Sherman. Web-ul invizibil: descoperirea surselor de informații pe care motoarele de căutare nu le pot vedea. - CyberAge Books, 2001 , ISBN 0-910965-51-X .
↑ Denis Shestakov, Natalia Vorontsova (2005). „ Structura părții vorbitoare de limbă rusă a rețelei profunde (link inaccesibil) ”. Internet Mathematics 2005 , pp. 320-341.
↑ Denis Shestakov (2011). „ Eșantionarea webului profund național (link indisponibil) ”. Proceedings of the 22nd International Conference on Database and Expert System Applications (DEXA) , pp. 331-340.
↑ Cât de mare este internetul? . Consultat la 30 iulie 2015. Arhivat din original la 29 iunie 2015. (nedefinit)
↑ Igor Raikhman, 2013 , p. 118.

Literatură

Igor Raykhman. Practica măsurătorilor media. Audit. Raportare. Evaluarea eficacității PR. — M .: Editura Alpina , 2013. — 432 p. - ISBN 978-5-9614-4499-5 .