Wayback Machine | |
---|---|
Pagina de pornire a portalului | |
URL | web.archive.org |
Tipul site-ului | arhivă web |
limbi) | Engleză |
Limbaj de programare | Java , Python |
Proprietar | Arhiva Internet |
Începutul lucrării | 24 octombrie 2001 |
Țară | |
Fișiere media la Wikimedia Commons |
Wayback Machine (din engleză - „Time Machine”) este o arhivă online gratuită a bibliotecii non-profit „ Arhiva Internetului ”. Cu ajutorul roboților de căutare , Wayback Machine arhivează și pune la dispoziție public cea mai mare parte a internetului „deschis” [1] . Serviciul a fost lansat în 1996, dar a devenit disponibil publicului abia în 2001. În primii 20 de ani de existență, Wayback Machine a catalogat și păstrat o colecție de peste 286 de miliarde de pagini web. Instantaneele arhivate sunt afișate în format HTML , JavaScript și CSS [2] . Datorită documentelor salvate în Wayback Machine, utilizatorii pot urmări modificările care apar pe site-uri și pot compara diferite versiuni ale editărilor [3] . În iunie 2022, Wayback Machine oferă acces la peste 689 de miliarde de pagini web salvate [4] .
În 1989, omul de știință englez Tim Berners-Lee a creat World Wide Web - un sistem care vă permite să transferați date prin computere conectate la Internet. Cu toate acestea, odată cu răspândirea World Wide Web, au fost identificate două probleme principale. Prima a fost lipsa spațiului pentru stocarea tuturor datelor, ceea ce a făcut ca multe documente și pagini web să fie șterse. O altă problemă a fost că după editarea unei pagini web (din motive legale, de exemplu), utilizatorii nu puteau vedea versiunea originală a acesteia. Internet Archive, o bibliotecă digitală americană , o organizație non-profit creată de programatorii Brewster Cale și Bruce Galliat în 1996, a încercat să rezolve aceste neajunsuri. În parteneriat cu Alexa Internet ( o subsidiară de indexare web a Amazon ), „Arhive” a inițiat crearea și stocarea de copii ale site-urilor existente pentru a dezvolta „accesul universal la cunoaștere”. Organizația a oferit acces public gratuit la materiale digitizate, cum ar fi pagini web, cărți, înregistrări audio, inclusiv concerte live, videoclipuri, imagini și software. Începând cu 2021, Arhiva Internet are sediul în San Francisco , într-o clădire a unei foste biserici creștine situată în zona Richmond . Un jurnalist de la postul local de radio Kawl a comparat în 2019 biroul Arhivei cu un templu roman [5] [6] [7] . Organizația își propune să salveze Internetul de la dispariție [8] .
Wayback Machine a devenit cel mai faimos proiect al Arhivei. Serviciul online a fost numit după mașina timpului din seria animată din anii 1960 The Rocky and Bullwinkle Show . Oferă acces la o colecție digitală de peste 550 de miliarde de pagini web [3] [9] [10] . Proiectul Wayback Machine a fost conceput ca o soluție la problema unei erori 404 , adică serverul nu poate găsi datele la adresa solicitată. Acest lucru se datorează așa-numitei stingeri a legăturilor - inaccesibilitatea tot mai mare a datelor odată publicate. De exemplu, în 1997, durata medie de viață a unei pagini web era de 44 de zile. În 2003, această cifră era de 100 de zile. O analiză din 2008 a legăturilor către 2.700 de resurse digitale, dintre care majoritatea nu aveau corespondente tipărite, a arătat că aproximativ 8% dintre legături au încetat să funcționeze după un an. Până în 2011, după trei ani, 30 la sută din legăturile din colecție au fost rupte [11] . Datorită integrării cu Alexa, utilizatorul care a întâlnit mesajul de eroare a putut accesa versiunea arhivată a paginii prin bara de instrumente încorporată în browser. Dacă în baza de date Wayback Machine era prezentă o copie a paginii inaccesibile, atunci s-ar aprinde un buton special. În același timp, utilizatorii puteau acorda browserului permisiunea de a vizualiza și înregistra activitatea - în acest caz, toate site-urile vizitate au fost arhivate pe portal [12] .
Wayback Machine a fost lansată în mai 1996, dar a devenit disponibilă publicului abia în 2001 - înainte de aceasta, toate informațiile înregistrate pe benzi magnetice digitale erau deschise doar unui număr limitat de oameni de știință și cercetători [13] . Până la momentul „deschiderii”, arhiva conținea peste 10 miliarde de pagini arhivate [3] . Până în decembrie 2014, Wayback Machine a raportat că a salvat 435 de miliarde de pagini web în întreaga lume [1] . Din punct de vedere tehnic, software-ul Wayback Machine nu este o arhivă, ci mai degrabă o interfață publică pentru un subset limitat al tuturor depozitelor [14] . Astfel, Wayback Machine nu poate fi considerată un motor de căutare pentru colecția organizației, deoarece nu caută în baza de date a unei alte biblioteci virtuale mari - Open Library , care permite utilizatorilor să acceseze copii digitale gratuite ale cărților care sunt descărcate și arhivate ca parte a proiectul [15] [16 ] .
Odată cu lansarea Wayback Machine, Arhiva Internet a devenit unul dintre cele mai populare și mai recunoscute portaluri online și serviciul de arhivare web principal [3] [8] . În 1999, Arhiva a început să extindă colecția dincolo de conținutul web de arhivă pentru a oferi statut atât resurselor digitale digitizate, cât și native, inclusiv cărți, audio, filme, imagini, documente, software și jocuri video [6] . Unele scanări sunt efectuate de roboții de căutare ai arhivei, în timp ce altele sunt efectuate de organizații partenere. Bazele de date individuale pot fi achiziționate prin donații ale utilizatorilor și achiziții țintite [16] . Înșiși fondatorii organizației și-au comparat colecția cu Biblioteca din Alexandria [6] . Începând cu 2021, Wayback Machine conținea peste 424 de miliarde de pagini web [14] - mai mult decât documentele din Biblioteca Congresului [17] [6] [16] .
Platforma Wayback Machine funcționează prin două elemente principale - roboți de căutare (sau crawler-uri web) și o interfață. Crawlerele web vizitează, preiau, descarcă și arhivează pagini web. La rândul lor, prin interfață, utilizatorii au acces la colecțiile online [2] .
Colecție Wayback Machine după an | Pagini arhivate (în miliarde) |
---|---|
2005 | 40 |
2008 | 85 |
2012 | 150 |
2013 | 373 |
2014 | 400 |
2015 | 452 |
2016 | 505 |
2020 | 514 |
2021 | 581 |
2022 | 689 |
Inițial, colecția de arhive a fost completată de un plug -in de browser de la Alexa Internet , care a capturat și salvat automat fiecare pagină web pe măsură ce a fost vizitată, apoi a transferat toate informațiile colectate în „Arhiva Internet”. De asemenea, utilizatorii puteau instala o bară de instrumente gratuită care le permitea să verifice starea de arhivare a unui site web selectat [16] .
În 2002, Arhiva și-a lansat propriul robot de căutare open source , Heritrix . Codurile crawler sunt scrise folosind o combinație de limbaje de programare C și Perl . În plus, Internet Archive acceptă și date scanate de la alți donatori [6] . Copiile scanate ale site-urilor web sunt convertite automat în fișiere de aproximativ 100 MB, care sunt apoi stocate pe servere. Rata totală de completare a arhivei este de aproximativ 10 terabytes pe lună [19] .
Crawlerele web captează versiunea site-ului așa cum a fost salvată când a fost accesat prin adresa URL. Roboții accesează cu crawlere în mod regulat un număr mare de pagini web, descărcând recursiv, analizând și redând pagini HTML , JavaScript și CSS [2] . Mecanismul crawler-ului este similar cu munca motoarelor de căutare - roboții caută independent portaluri pentru arhivare printr-un pathfinder, scanând pagini și site-uri conexe, formând astfel o rețea de portaluri. La momentul creării Arhivei Internet, World Wide Web era atât de mic încât crawlerele web puteau traversa toate site-urile într-o singură sesiune. Cu toate acestea, de-a lungul timpului, creșterea constantă a portalurilor online și volatilitatea acestora au făcut aproape imposibilă ocolirea completă a întregii rețele. Astfel, nu toate modificările site-ului sunt înregistrate în Wayback Machine [8] . Ghidul Internet Archive nu specifică modul în care roboții găsesc și selectează paginile de accesat cu crawlere, dar precizează că cel mai adesea crawlerele sunt direcționate către acele site-uri care sunt reticulate de la alte portaluri și sunt în domeniul public. Crawler-ul începe cu o pagină web și apoi urmează fiecare hyperlink de pe pagina respectivă pentru a accesa site-uri noi. Pe fiecare dintre noile pagini web, crawler-ul repetă procesul [14] . Va continua până când arhivarea este oprită sau atinge limita stabilită de scriptul [20] . În plus, fiecare utilizator poate folosi un formular special pe portal și poate apela crawler-ul, care va salva pagina în starea curentă [2] . Wayback Machine accesează cu crawlere numai paginile web publice și nu poate accesa conținutul protejat prin parolă sau aflat pe un server privat [10] [14] [3] .
Interfața Wayback Machine permite utilizatorilor să efectueze două acțiuni principale - să acceseze istoricul modificărilor aduse site-ului și să vizualizeze toate editările efectuate pe portaluri. Funcția de comparare a diferitelor versiuni de site-uri este de asemenea disponibilă [12] [21] [17] [22] . Pentru a face acest lucru, adresa URL a portalului de interes este introdusă într-o casetă de căutare specială, după care Wayback Machine emite o listă cu datele de arhivare. Un asterisc după anumite date este folosit pentru a indica modificările găsite pe pagină. URL-ul paginii arhivate începe cu web.archive.org [23] [14] .
Oricine poate salva URL-uri pentru arhivare, iar cu un cont de arhivă gratuit, puteți crea și arhiva orice link-uri de ieșire sau externe pe pagina principală și puteți obține un raport de prezentare generală [24] [24] .
În 2018, colecția Internet Archive avea mai mult de 40 de petabytes sau 40 de milioane de gigabytes de date, Wayback Machine a oferit acces la aproximativ 63% din toate materialele disponibile [25] . În februarie 2020, arhiva Wayback Machine avea peste 900 de miliarde de adrese URL și peste 400 de miliarde de pagini web [26] . În iunie 2021, Wayback Machine a oferit acces la peste 581 de miliarde de pagini web salvate [4] .
Portalul Wayback Machine este adesea folosit în domeniul juridic - avocații folosesc serviciul pentru a căuta informații despre acțiuni civile, cauze penale, proceduri administrative și procese de brevetare. Versiunile arhivate ale site-urilor obținute prin Wayback Machine pot fi folosite pentru a rezolva problemele legate de legea brevetelor sau pentru a stabili sancțiuni pentru publicarea de material care a fost eliminat de pe web de atunci [2] [12] . În ciuda utilizării pe scară largă a colecției Internet Archive pentru a furniza probe, unele instanțe din SUA au refuzat să accepte capturi de ecran ale paginilor web, invocând dificultatea legală de a identifica documentul original și versiunea lui arhivată [27] . În 2018, Curtea de Apel din SUA pentru al doilea circuit a hotărât că capturile de ecran din paginile web arhivate Wayback Machine sunt dovezi legale care pot fi folosite în procedurile legale; mai devreme, o decizie similară a fost luată de Curtea de Apel a SUA pentru al Treilea Circuit Federal de Apel [28] ; mai târziu , Curtea de Apel al Statelor Unite pentru al șaptelea circuit a hotărât și că capturile de ecran din arhiva web erau dovezi electronice admisibile [29] .
Datorită articolelor arhivate în Wayback Machine, autorii pot stabili dreptul de a deschide sau de a publica [30] . Pentru sociologi și istorici, Wayback Machine oferă o sursă valoroasă de date la scară largă pentru analiza comportamentului companiei, strategiilor de vânzări și practicilor sociale [1] [31] . Wayback Machine permite, de asemenea, accesul la jurnalele cu acces deschis . Astfel, de la începutul anilor 2000, de pe Internet au dispărut 84 de reviste OA în științele naturii și încă aproximativ 100 în domeniul social și umanist [32] [33] [34] .
Activiștii și cercetătorii folosesc portalul pentru a combate dezinformarea , care sa intensificat de la alegerea președintelui Donald Trump în Statele Unite . Ca răspuns la o creștere a declarațiilor contradictorii din partea administrației prezidențiale, Arhiva a creat o colecție separată numită Arhiva Trump, care conține aparițiile și tweet -urile președintelui la televizor . Arhiva speră că depozitul său îi va ajuta pe alții să identifice informații false și să verifice conținutul suspect [35] [36] . Cu toate acestea, în unele cazuri, activiștii individuali au susținut că resursele arhivate de Wayback Machine, dimpotrivă, au contribuit la răspândirea dezinformării. Așadar, odată cu debutul pandemiei de coronavirus , teoreticienii conspirației au folosit capturile de ecran salvate de portal pentru a răspândi informații false despre coronavirus [37] . Ca o contramăsură , în noiembrie 2020, Arhiva a implementat instrumente pentru verificarea autenticității informațiilor în Wayback Machine. Pentru a face acest lucru, organizația non-profit a colaborat cu diverse companii de verificare a faptelor pentru a oferi utilizatorilor motive pentru a elimina o anumită pagină din colecție. La deschiderea unei versiuni arhivate a unui site, Wayback Machine oferă utilizatorilor informații despre motivul ștergerii sale sub forma unui banner galben în partea de sus a ecranului. Dacă o pagină web este suspectată că este implicată într-o campanie de dezinformare, Wayback Machine oferă detalii despre organizația care a efectuat verificarea și un link către raportul său [38] .
În unele cazuri, informațiile obținute prin Wayback Machine au apărut în scandaluri majore. Așadar, cu ajutorul portalului, s-a aflat că reprezentantul oficial al Departamentului de Sănătate și Servicii Umane al SUA, Michael Caputo , a publicat comentarii rasiste și derogatorii la adresa poporului chinez într-o serie de tweet-uri deja șterse [ 39] . În plus, Wayback Machine păstrează o copie a unui mesaj șters de pe o pagină intitulată „Rapoarte de la Igor Ivanovich Strelkov ” de pe rețeaua de socializare VKontakte despre avionul An-26 doborât, care, în realitate, s-a dovedit a fi un Boeing 777 de pasageri [40]. ] [41] . În mai 2021, Bellingcat a descoperit că armata americană din Europa folosea aplicații de memorie mobilă pentru copii pentru a stoca date clasificate. Din cauza setărilor incorect de confidențialitate, alți utilizatori au obținut acces la informații sensibile. După ce a fost descoperită scurgerea, armata a scos toate cărțile, dar acestea au rămas pe Wayback Machine [42] .
Internet Archive nu solicită permisiunea de a copia site-uri web înainte de colectarea datelor de la distanță, dar elimină sau restricționează accesul la materialul arhivat la cerere. Anterior, proprietarilor de site-uri web li s-a oferit posibilitatea de a „renunța” la arhivare prin fișierul standard robots.txt , care exclude site-urile web sau paginile lor individuale, directoarele, din lista de portaluri pentru crawlerele web [8] [43] . Din 2022, cererile de eliminare a site-urilor sau a paginilor acestora din arhivă sunt acceptate numai după eliminarea unei cereri directe din partea administrației site-ului. Cu toate acestea, din cauza păstrării altor date, Arhiva Internet se află într-o poziție vulnerabilă din punct de vedere juridic [44] . De exemplu, în 2005, Wayback Machine a fost implicată într-o dispută privind mărcile înregistrate între Healthcare Advocates și Health Advocate. Acesta din urmă a folosit Wayback Machine pentru a accesa paginile web Healthcare Advocates care datează din 1999, în încercarea de a găsi informații care să susțină cazul. Ca răspuns, Healthcare Advocates l-a dat în judecată atât pe Health Advocate, cât și pe The Archive, susținând că Arhiva a încălcat Digital Millennium Copyright Act . Ulterior, cauza a fost soluționată extrajudiciar [45] .
În 2002, Arhiva a eliminat din sistemul său link-urile către copiile arhivate ale portalului Xenu.net deținute de criticul bisericesc Andreas Heldal-Lund. Înlăturarea a avut loc la cererea avocaților Bisericii Scientologie , care pretindeau dreptul de proprietate asupra extraselor din documentele Bisericii publicate pe site-ul web [46] [47] .
Cercetătorii și activiștii au criticat Wayback Machine și Internet Archive pentru că încearcă să păstreze tot materialul online, dintre care multe sunt de puțină valoare. Potrivit unor cercetători, acest lucru se datorează politicii învechite a Arhivei, care a fost înființată la sfârșitul anilor 1990 - apoi, în zorii creării arhivelor pe Internet, se credea că datele de pe Internet ar trebui stocate în întregime. Cu toate acestea, odată cu crearea multor site-uri de o zi, mulți cercetători și activiști s-au răzgândit [48] . Alte critici se referă la limitările tehnice ale serviciului - Wayback Machine nu permite stocarea și procesarea anumitor elemente JavaScript și poate crea, de asemenea, pagini arhivate care conțin link-uri întrerupte, grafice lipsă sau incomplete în alt mod [49] . Crawlerele captează doar un instantaneu static al site-ului - funcțiile portalului bazate pe Java sau Flash nu vor funcționa. Aceasta înseamnă că cea mai mare parte a funcționalității paginii web originale este pierdută [8] .
În 2015, Roskomnadzor a decis să blocheze Wayback Machine pentru copierea unei pagini din textul „Jihadul solitar în Rusia” care conținea informații despre „teoria și practica rezistenței de gherilă”. Pagina corespunzătoare din Arhiva Internet a fost adăugată în registrul oficial al site-urilor web interzise din Rusia pe 23 iunie 2015, din cauza căreia unii furnizori de internet ruși au fost nevoiți să blocheze complet site-ul Arhivei [50] [51] [52] . Accesul la Wayback Machine a fost redeschis în 2016 după ce videoclipurile interzise au fost eliminate de pe portal [53] .
În 2019, reprezentanții Internet Copyright Association (ACAPI) au intentat o serie de procese împotriva serviciului Wayback Machine pentru încălcarea drepturilor de autor. Reprezentanții AZAPI au cerut Tribunalului orașului Moscova să decidă cu privire la blocarea permanentă a portalului pe teritoriul Rusiei, cu toate acestea, din august 2020, Arhiva Internet și-a continuat în continuare activitatea [54] [55] [56] [57] .
În 2017, portalul a fost blocat în India și Kârgâzstan pentru conținutul „materialelor extremiste” [58] [59] [60] . Începând cu 2021, site-ul este blocat în China [61] .
În iunie 2022, Tribunalul Districtual Tagansky din Moscova a amendat Arhiva Internetului cu 800.000 de ruble pentru că nu a eliminat un videoclip despre cum să faci un cocktail Molotov din WayBack Machine [62] .