Arhivarea site -urilor web ( arhivare web , arhivare web în engleză ) este procesul de colectare și „duplicare” a paginilor web și a site-urilor întregi pentru a salva informațiile și a le accesa în viitor dacă sursa nu este disponibilă. Condițiile preliminare pentru dezvoltarea arhivării web au fost problemele dispariției legăturilor și potențialul debut al erei întunecate digitale . În 1996, a fost creată „ Arhiva Internet ” - prima organizație non-profit care și-a propus să creeze „instantanee” ale tuturor paginilor de pe Internet. În 2001, Arhiva a lansat serviciul de arhivare a site-ului web Wayback Machine , prin care, începând cu 2021, au fost salvate peste 600 de miliarde de pagini web.
De la începutul anilor 2000, practicile de conservare a site-urilor web au fost implementate activ în multe țări, inclusiv la nivel de stat. În același timp, există forumuri pentru dezvoltarea standardelor și practicilor comune în domeniul arhivării web, inclusiv Atelierul Internațional de Arhivare pe Internet (IWAW) (din 2001) și Consorțiul Internațional de Conservare a Internetului (din 2003).
Cel mai adesea, informațiile de pe site-uri statice sunt colectate folosind roboți de căutare (de exemplu, Heritrix , Webrecorder, HTTrack ), care trimit solicitări HTTP către serverele web și „capturează” conținutul transmis și toate hyperlinkurile din paginile web accesate cu crawlere. În schimb, scripturile , șabloanele și conținutul site-urilor dinamice sunt stocate ca resurse separate pe servere web, astfel încât arhivarea unor astfel de portaluri este mult mai dificilă. Procesul are loc în doi pași principali - salvarea datelor fișierului din structura de directoare a site-ului web și apoi arhivarea informațiilor din baza de date.
Termenii arhivare web și conservare web ( ing. conservare web ) sunt adesea folosiți în mod interschimbabil, dar există o diferență importantă între ei: primul definește întregul proces de salvare a unei resurse Internet, iar al doilea definește doar una dintre etape [1] ] . International Internet Preservation Consortium (IIPC) definește arhivarea web ca:
[...] procesul de colectare a părților din World Wide Web, stocarea colecțiilor într-un format de arhivă și apoi menținerea arhivelor pentru a le face disponibile și utilizabile.
De la începutul anilor 1990, crearea, stocarea și diseminarea informațiilor au avut loc în principal în mediul digital. Deja pe la mijlocul anilor 1990, mediile de stocare populare anterior, cum ar fi benzi magnetice , dischete , unități zip și CD-uri au început să devină învechite , iar accesul la formatele vechi de fișiere era dificil [2] [3] . Multe baze de date mari care nu erau copiate pe alte medii sau duplicate pe hârtie au început să dispară [4] . Astfel, toate datele proiectului BBC Domesday la scară largă , desfășurat în anii 1980 cu participarea a peste un milion de oameni, au fost înregistrate pe mai multe discuri, care la începutul anilor 2000 au fost fie sparte, fie pierdute [5] [ 6] .
Pierderea pe scară largă a datelor i-a determinat pe unii cercetători să discute despre potențialul unei „ epoci întunecate digitale” – o perioadă caracterizată printr-o absență aproape completă a dovezilor scrise [7] [8] . Unii cercetători numesc secolul 21 o „gaură neagră a informațiilor” de teamă că software-ul și computerele viitorului nu vor putea reproduce datele create anterior [9] . În 2003, UNESCO a emis o „Cartă pentru conservarea patrimoniului digital” [10] , definind importanța rezervării datelor digitale, a căror pierdere poate duce la „sărăcirea” patrimoniului uman [11] [12] . În 2015, Vinton Cerf , un om de știință american și vicepreședinte al Google , a făcut o declarație că omenirea se îndreaptă către o „epocă întunecată digitală” [13] [14] [15] [16] .
O altă condiție prealabilă pentru dezvoltarea arhivării web este stingerea linkurilor , situație în care paginile devin indisponibile la aceeași adresă URL sau conținutul lor se modifică [17] [18] [19] . O analiză realizată de cercetătorii portughezi în 2017 a arătat că aproximativ 80% dintre paginile de internet nu sunt disponibile în forma lor originală la un an de la publicare, în timp ce 13% dintre linkurile din articolele științifice au dispărut după o medie de 27 de luni [11] . În 2021, oamenii de știință de la Facultatea de Drept de la Harvard , împreună cu jurnaliștii de la The New York Times (NYT), au analizat viabilitatea legăturilor în peste 550.000 de publicații online produse de NYT între 2000 și 2017 - aproximativ un sfert din URL-urile folosite „s-au stins”. „ [20 ] [21] [22] [23] [24] . Durata medie de viață a unei pagini web este de 44-100 de zile, iar informațiile pot dispărea și mai repede pe site-urile de știri și rețelele sociale [25] [26] .
Informațiile de pe Internet pot dispărea din alte motive. Astfel, în 2015, Departamentul de Stat al SUA și Agenția SUA pentru Dezvoltare Internațională au inițiat eliminarea materialelor despre războiul din Afganistan pentru a proteja persoanele care au colaborat cu autoritățile americane de persecuția talibanilor [27] . Un alt exemplu sunt cererile lui Roskomnadzor prezentate în decembrie 2021 de a elimina dintr-o serie de materiale mass-media ruse despre investigațiile publicației Proekt , care a fost recunoscută anterior ca o organizație nedorită [28] [29] .
Începând cu anii 1980, arhivele și bibliotecile individuale au început să păstreze resursele electronice pentru a documenta cronica evenimentelor actuale. Cu toate acestea, punctul de plecare al arhivării web este considerat a fi crearea în 1996 a „ Arhivei Internet ” - o organizație non-profit care și-a stabilit obiectivul ambițios de a păstra toate paginile web ale întregului Internet, care la acel moment au fost relativ puține [30] [1] . La sfârșitul anilor 1990 și începutul anilor 2000, guvernele multor țări dezvoltate au început să implementeze practici de arhivare web, plasând responsabilitatea menținerii acestora pe bibliotecile naționale care au experiența și instrumentele necesare pentru arhivare [31] [11] [12] . Până în 2000, arhivele web naționale au apărut în multe țări, inclusiv Marea Britanie , Noua Zeelandă , SUA și Republica Cehă [32] [33] [19] .
De atunci, numărul proiectelor de arhivare web a crescut în fiecare an [11] . În 2011, existau 42 de programe în lume, dintre care majoritatea erau implicate în colecția de surse web regionale [12] . Un studiu din 2020 a arătat o creștere exponențială a numărului de instituții cu depozite proprii , susținute de profesioniști angajați și echipamente specializate. Majoritatea acestor depozite sunt completate conform principiului autoarhivării - autorii își plasează în mod independent materialele acolo [34] . Până în 2019, arhivele web la nivel național au fost implementate în aproape toate țările Uniunii Europene , cel mai adesea ca parte a activității bibliotecilor naționale [32] [35] .
Prima inițiativă majoră de arhivare web a fost Internet Archive, o organizație non-profit înființată în 1996 pentru a păstra tot materialul postat pe Internet [19] . Creatorul a fost programatorul american Brewster Keil , care a lansat simultan „Arhiva” și sistemul comercial de arhivare web Alexa Internet . În 1997, a dezvoltat un plug-in de browser prin care Alexa Internet a identificat și stocat automat pagini web „valoroase” în „Arhivă” , clasificându-le după numărul de vizite, legături încrucișate și „clicuri” [36] . Din 1998, numărul paginilor de arhivat s-a dublat la fiecare 3-6 luni [37] .
Pe 24 octombrie 2001, Internet Archive a lansat Wayback Machine , prin care utilizatorii puteau accesa peste 10 miliarde de pagini web arhivate. La acea vreme, datele erau stocate pe serverele Hewlett Packard și uslab.com și gestionate prin sistemele de operare FreeBSD și Linux [37] .
Pentru 2021, colecția Arhivă a constat din multe sub-colecții de site-uri web arhivate, cărți digitizate, fișiere audio și video, jocuri, software [38] ; în timp ce numărul paginilor web arhivate s-a ridicat la peste 622 de miliarde [39] .
WebCiteLansat în 2003, WebCite a fost primul instrument de arhivare web care a permis utilizatorilor să salveze site-uri web la cerere. WebCite a câștigat rapid popularitate, iar până în 2005, aproximativ 200 de reviste le-au cerut autorilor să-și arhiveze paginile web prin WebCite înainte de a trimite manuscrise [40] . Serviciul nu folosește roboți de căutare pentru a „captura” pagini, arhivarea are loc direct la solicitarea utilizatorului [40] .
În 2013, WebCite a fost amenințată cu închiderea din cauza lipsei de finanțare, dar datorită unei campanii publice de strângere de fonduri a creatorului Günter Eisenbach, portalul a continuat să funcționeze încă șase ani. Din 2019, a devenit doar în citire și a încetat să accepte cereri de arhivă [41] [42] .
Arhiva.aziServiciul archive.today (când a fost creat - archive.is) a fost lansat în 2012 de o organizație non-profit cu același nume [43] . Proiectul este finanțat de sponsori privați. Ca și WebCite, archive.today salvează pagini web la cererea utilizatorilor [44] [45] făcând o copie funcțională a paginii web disponibilă public și o captură de ecran reprezentând o redare PNG statică a paginii [46] . Dimensiunea paginii arhivate cu toate imaginile nu trebuie să depășească 50 MB [43] .
Creatorii archive.today au lansat și o extensie de browser Mozilla Firefox care salvează și partajează automat o copie a fiecărei pagini web marcate pe care un utilizator o adaugă [46] [47] .
web-archive.ruDe asemenea, Federația Rusă și - a creat propria arhivă web în limba rusă - https://web-arhive.ru/
Majoritatea țărilor dezvoltate au legi privind depozitul legal , care fac bibliotecile naționale responsabile din punct de vedere legal pentru păstrarea unui exemplar din fiecare publicație tipărită publicată în acea țară. Odată cu dezvoltarea pe scară largă a comunicațiilor electronice, legea s-a extins și asupra site-urilor web [1] [48] . Astfel, conform Public Records Act 1967 , Arhivele Naționale ale Marii Britanii și Irlandei sunt obligate să păstreze toate reglementările importante ale guvernului Regatului Unit . Pe măsură ce oficialii își publică din ce în ce mai mult rapoartele pe internet, mai mult de 100 de milioane de utilizatori vizitează arhiva web în fiecare lună (din 2013) [25] .
În 1996, Biblioteca Națională a Suediei a inițiat proiectul Kulturar, care a realizat conservarea pe scară largă a întregii rețele de domenii suedeze [49] . Până la începutul anului 2005, au fost colectate peste 350.000 de site-uri web, sau aproximativ 10 terabytes de date, făcând Arhiva Web cea mai mare la acea vreme din lume [19] . În 1997, bibliotecile naționale din Danemarca , Finlanda , Islanda , Norvegia și Suedia au creat o inițiativă comună numită Nordic Web Archive (NWA). NWA a dezvoltat instrumente și a discutat despre metode de arhivare web pentru țările nordice. În 2004, NWA a lansat un pachet software pentru accesarea documentelor web arhivate, care a stat ulterior la baza setului de instrumente IIPC [19] [50] . În același an, Biblioteca Națională a Australiei a lansat Pandora - un proiect pentru conservarea resurselor digitale în Australia [51] [52] [19] . În 2019, colecția Pandora a fost inclusă în Australian Web Archive , una dintre cele mai mari arhive web naționale din lume [53] .
În 2001 a fost creat Atelierul Internațional de Arhivare a Internetului (IWAW) [54] - o platformă pentru schimbul de cercetări și experiență în domeniul arhivării web [55] , iar în 2003, la inițiativa Arhivei Internet, Internațional Internet Preservation Consortium a fost fondat , care dezvoltă standarde și instrumente pentru arhivarea web [37] [56] . Pe lângă „Arhivă”, IIPC a inclus bibliotecile naționale din Franța , Australia , Canada , Danemarca , Finlanda , Islanda , Italia , Norvegia , Suedia , Marea Britanie , SUA . În 2008, IIPC a dezvoltat Web ARChive sau WARC , un format pentru arhivarea resurselor web [12] . Începând cu 2021, IIPC are peste 50 de membri [57] .
Organizațiile colaborează adesea pentru a crea arhive web unificate. Astfel, din 2004 până în 2018, a funcționat Arhiva Digitală Europeană (redenumită ulterior Internet Memory Foundation ), culegând documente electronice în țările Uniunii Europene [58] [19] [12] . Printre altele, a inclus Arhivele Naționale ale Marii Britanii, Societatea Max Planck , Universitatea Tehnică din Berlin , Universitatea din Southampton , Institut Mines-Télécom . La începutul anilor 2000, Departamentele de Sinologie de la Universitățile Heidelberg și Leiden au lansat în comun arhiva web DACHS care conține materiale electronice despre Sinologie [59] [19] . Consorții precum NWA și UKWAC au desfășurat programe de colectare a datelor în colaborare în parteneriat cu alte organizații [60] [19] [61] . La sfârșitul anilor 1990, Comisia Europeană a finanțat crearea Bibliotecii europene de depozit în rețea (NEDLIB), un proiect de colectare, descriere, stocare și punere la dispoziție a site-urilor web europene salvate [62] . Lansat în 2000, NEDLIB Harvester a fost unul dintre primii roboți de căutare special conceputi pentru arhivarea datelor. Ulterior, a fost folosit într-o serie de proiecte, inclusiv colectarea de date din domeniile web olandeze , estoniene și islandeze [19] [63] .
În iulie 2011, Arhivele Naționale ale Marii Britanii, împreună cu Internet Memory Foundation, au lansat un proiect pilot de arhivare digitală bazată pe web pentru autoritățile locale. Proiectul a funcționat în șapte arhive ale municipalităților, acoperind peste 20 de autorități locale. Personalul a primit instruire gratuită pentru a crea o arhivă web curată pentru domeniul lor [64] .
Universitățile din țările dezvoltate sunt, de asemenea, implicate în dezvoltarea arhivării web. De exemplu, Michigan , Indiana , California , Illinois și alte universități oferă cursuri de arhivare digitală [54] , iar mai multe instituții și-au creat propriile arhive web în scopuri de cercetare - Stanford WebBase Archive ( Stanford University ), Socio-Sense ( University of Tokyo ), Centrul de informare web ( Universitatea Peking ) [12] .
Înainte de a începe arhivarea, fiecare organizație stabilește criteriile de „selectare” a surselor. Pot exista unul sau mai multe astfel de criterii, în funcție de mărimea și obiectivele organizației [19] [65] . Unele arhive web, cum ar fi Arhiva Internet, urmăresc să colecteze toate paginile web posibile, o abordare numită non-selectiv sau wide-scan . Se bazează pe principiul interconectării World Wide Web , conform căruia un subiect poate fi „conservat” cu adevărat doar prin colectarea tuturor paginilor web existente, deoarece toate sunt interconectate. În plus, selecția site-ului web este un proces costisitor și consumator de timp, care poate duce și la eșantionarea subiectivă [19] . Cu toate acestea, abordarea „Arhivare” este considerată imposibilă în practică – salvarea tuturor paginilor este imposibilă din cauza restricțiilor de drepturi de autor, și chiar și „Arhiva Internet” salvează doar materialele disponibile publicului [66] .
O alternativă la o abordare de selecție neselectivă este o abordare selectivă, sau selectarea resurselor pe baza apartenenței lor la criterii predefinite - domeniu (de exemplu, .gov sau .edu ), subiect, eveniment, tip media sau gen [19] . O abordare selectivă este adesea combinată cu practici largi de scanare - de exemplu, dacă o organizație arhivează toate portalurile cu un anumit nume de domeniu. Astfel, din 1996 Biblioteca Națională a Suediei colectează toate site-urile web cu domeniul „ .se ” [19] [67] , iar Biblioteca Națională a Marii Britanii arhivează site-urile web cu domeniile „.gov.uk”, „.org .uk” și „.co.uk”. Biblioteca NASA a Centrului de Zbor Spațial Goddard menține toate paginile web cu numele de domeniu al Centrului [19] . Principalul avantaj al arhivării selective este că această abordare vă permite să creați colecții mai gestionabile cu resurse asociate [19] .
O abordare selectivă este, de asemenea, utilizată pentru a crea colecții tematice. De exemplu, DACHS colectează resurse sociale și culturale despre sinologie, iar Biblioteca Congresului , împreună cu Internet Archive, a compilat arhive web despre alegerile prezidențiale din SUA și evenimentele din 11 septembrie . British Library este specializată în site-uri web cu „valoare culturală națională” [67] . Proiectul Pandora al Bibliotecii Naționale a Australiei [19] [54] folosește și această abordare . În 2006, Arhiva Internet a lansat Archive It , un serviciu de colecție bazat pe web [68] folosit adesea de organizații individuale, cum ar fi Muzeul Național de Artă a Femeilor [69] .
Unele organizații arhivează resurse în funcție de tipul de sursă prezentat. De exemplu, biblioteca Goddard Space Flight Center evită scanarea fișierelor video mari și a produselor software. Dimpotrivă, alte proiecte web arhivează videoclipuri pe Youtube sau colectează bloguri, ziare virtuale - de exemplu, Biblioteca Națională a Franței a creat o colecție web separată pentru LiveJournals [54] .
Cu cât site-ul este mai simplu și mai static , cu atât este mai ușor de arhivat [70] - copiile datelor sunt descărcate de pe serverul web ca fișiere care pot fi ulterior convertite în alte formate [71] [72] [73] .
Procesul de colectare automată a paginilor web prin intermediul roboților de căutare se numește recoltare web sau „scanare”. Robotului i se oferă o listă de URL-uri, după care trimite solicitări HTTP către serverele web și „captează” conținutul transmis și toate hyperlinkurile de pe paginile web scanate [73] . Software-ul automat convertește apoi informațiile în format WARC, rezultând un fișier care poate fi redat folosind instrumente precum Wayback Machine [74] . Exemple de crawler-uri sunt Heritrix [75] dezvoltat de Internet Archive în 2004 , precum și HTTrack [76] și Wget [77] . O rețea de „scanere” permite organizațiilor să salveze copii ale site-urilor selectate la intervale regulate, cum ar fi zilnic sau anual [74] . Pentru o arhivare mai direcționată, sunt folosite instrumente mai mici, cum ar fi HTTrack , care vă permite să descărcați copii ale site-urilor web pe computerul local [74] .
Arhivarea site-urilor dinamice este mult mai dificilă decât a site-urilor statice, deoarece conținutul, scripturile și șabloanele sunt stocate ca resurse separate pe serverul web. iar aspectul și conținutul paginii se formează în funcție de browserul clientului și setările serverului. Spre deosebire de site-urile web statice, procesarea automată a unei cereri HTTP nu este suficientă, deoarece site-ul generează conținut din partea serverului folosind o bază de date [71] . Prin urmare, conservarea unor astfel de resurse are loc în două etape - salvarea datelor fișierului aflat în structura de directoare a site-ului web și arhivarea informațiilor bazei de date [71] . Pentru site-urile dinamice, utilizarea roboților de căutare are limitările sale [19] . Instrumentele de arhivare web pentru conținut dinamic includ Arhivarea independentă software a bazelor de date relaționale (SIARD), dezvoltat de Arhivele Federale Elvețiene și DeepArc al Bibliotecii Naționale a Franței . SIARD analizează și afișează automat structura bazei de date sursă. Apoi exportă structura ca fișier text care conține o definiție a datelor descrisă folosind SQL , standardul internațional pentru descrierea unei baze de date relaționale . Ulterior, conținutul este exportat ca fișier text simplu, iar metadatele sunt salvate ca document XML [19] .
Primele proiecte de arhivare a rețelelor sociale au început să apară din 2008 ca o scanare sistematică a unei platforme largă. Astfel, Biblioteca Națională din Noua Zeelandă a început să lucreze la crearea unei arhive de mesaje postate pe Twitter , iar Biblioteca Națională a Franței a scanat Facebook . Cu toate acestea, din cauza volumului mare de conținut produs, a lipsei standardelor tehnice pentru colectarea și stocarea informațiilor și a detaliilor tehnice în continuă schimbare cu privire la modul în care funcționează portalurile, ulterior organizațiile au început să adopte o abordare selectivă a arhivării web a rețelelor sociale și să economisească mesaje numai despre anumite evenimente sau urgențe. Persoane, cum ar fi Bibliothèque Nationale de France sau National Library of Canada, au lansat o colecție automată continuă de știri și conținut din rețelele sociale pentru a surprinde reacțiile oamenilor la evenimente neprevăzute. Selecția se realizează în funcție de hashtag -uri sau cuvinte cheie date , pentru o anumită perioadă sau o anumită platformă [78] [79] .
Pentru a colecta site-uri web sunt folosite diverse instrumente de arhivare web. Cel mai obișnuit crawler este Heritrix , un crawler web de uz general disponibil sub o licență de software gratuită, concepută având în vedere arhivarea web. Heritrix salvează fișierele în format WARC și este potrivit pentru operațiuni de scanare la scară largă, dar este mai puțin probabil să „captureze” site-uri sau pagini dinamice de pe rețelele sociale. Bazat pe Heritrix NetarchiveSuite oferă caracteristici suplimentare în domeniul stocării pe termen lung și al accesului la materiale [1] .
Webrecorder folosește browserul pentru a colecta conținutul site-urilor web, rezolvând astfel problemele comune ale altor roboți de căutare - captarea conținutului dinamic, Adobe Flash , multimedia . Programul „înregistrează” paginile web pe măsură ce utilizatorul le navighează, deci este potrivit pentru scanarea selectivă. Conținutul este salvat și în format WARC [1] . Un alt crawler, Brozzler [80] , folosește motorul de browser Google Chrome pentru a colecta pagini și oferă aceleași beneficii ca și Webrecorder, dar nu necesită interacțiunea utilizatorului în timpul accesării cu crawlere [1] .
HTTrack vă permite să descărcați copii ale site-urilor web pe computerul local, iar apoi utilizatorul le poate vizualiza printr-un browser [81] . Wget și instrumentul similar Wpull sunt instrumente versatile de linie de comandă care au încorporate funcții de crawling web comparabile cu HTTrack. Wpull este mai potrivit pentru arhivarea la scară largă [1] .
Datorită structurii dinamice a site-urilor de rețele sociale, sunt necesare instrumente specializate pentru arhivarea acestora. De obicei, arhivarea web se face folosind interfețe de programare a aplicațiilor sau API-uri furnizate de dezvoltatori. F(b)arc este un instrument de linie de comandă care poate fi folosit pentru a arhiva date folosind interfața Facebook Graph. Twarc este un instrument de linie de comandă și o bibliotecă care facilitează utilizarea API-urilor Twitter. Social Feed Manager vă permite să colectați date de pe Twitter, Tumblr , Flickr și Sina Weibo [1] .
Cele mai utilizate formate de arhivare sunt ARC și WARC . Cele mai multe inițiative folosesc soluții bazate pe Lucene pentru a sprijini căutarea text integral , inclusiv NutchWAX sau Solr , Wayback Machine pentru a sprijini căutarea URL și afișarea conținutului arhivat [11] . Instrumentele JWAT , node-warc , WARCAT , warcio și warctools pot fi folosite pentru a citi și extrage metadate din fișierele WARC [1] .
Dacă o organizație va respecta standardul de excepție al robotului sau va solicita permisiunea de a arhiva de la proprietarii site-ului depinde de mulți factori - tipul de conținut, amploarea arhivării web, mediul legal [54] [1] . Cu toate acestea, chiar și atunci când solicită permisiunea, doar aproximativ 30-50% dintre proprietarii site-urilor răspund solicitării [82] .
În general, agențiile guvernamentale cu dreptul legal de a deține înregistrări publice (cum ar fi National Archives and Records Administration (SUA) și Arhivele Naționale din Regatul Unit) nu au nevoie de permisiunea de a scana. Conform legii franceze privind drepturile de autor din 2006, Biblioteca Națională a Franței poate ignora roboții atunci când accesează cu crawlere site-uri cu domenii naționale [54] [1] . Alte organizații, cum ar fi Arhiva Internet, utilizează principiul renunțării în munca lor - datele sunt eliminate din colecție la cererea deținătorilor de drepturi de autor, care pot dovedi drepturile de autor prin furnizarea unei descriere a materialului, a datelor de contact ale solicitantului și a unui declarație semnată [83] [54] [25] .
Arhivele web au de obicei o structură ierarhică - o sesiune de accesare cu crawlere captează multe site-uri, fiecare dintre acestea conducând la o pagină web separată care conține fișiere video, text și imagine. Pentru fiecare dintre „niveluri” sunt generate metadate [54] [84] .
Abordarea creării metadatelor depinde de mărimea și resursele organizației. De exemplu, arhivele web mari se bazează adesea pe generarea automată de metadate. Unele metadate, inclusiv ora de colectare, codul de stare (cum ar fi 404 pentru negăsit sau 303 pentru redirecționare), dimensiunea în octeți , URI sau tipul MIME (cum ar fi text/ HTML ), sunt „capturate” automat de către crawlerele. Informațiile pot fi extrase și din metaetichetele paginilor HTML [54] [84] .
Arhivele web mici pot genera metadate manual. Arhiva de literatură de la Universitatea din California, Los Angeles utilizează note detaliate create de personal în timpul colectării și analizei paginilor web pentru a genera metadate [54] [85] . Arhiva Web a Universității Naționale din Taiwan are o clasificare ierarhică pe trei niveluri. Metadatele pot fi create și folosind etichete personalizate, comentarii sau evaluări [54] [85] [86] .
Utilizatorii apelează la arhivele web dintr-o varietate de motive — pentru a efectua cercetări, pentru a-și compila propria bază de date sau pentru a vedea versiuni mai vechi ale resurselor web individuale. Totuși, accesul la astfel de colecții este adesea complicat de lipsa unei căutări generale în bazele de date disponibile și de o interfață incomodă. Accesarea și procesarea informațiilor stocate necesită adesea abilități tehnice în formate de fișiere specializate [87] [61] [88] . Unii cercetători cred că tocmai din aceste motive legăturile către arhivele web sunt încă rareori găsite în lucrările științifice, iar colecțiile nu sunt studiate [89] [90] .
Colecția Web Archive poate fi incompletă sau părtinitoare din cauza incapacității de a arhiva site-uri „închise” și/sau a dezvoltării neprofesioniste a strategiilor de arhivare - de exemplu, atunci când sunt arhivate doar portalurile în limba engleză din marile țări occidentale. Deși unele arhive au dreptul legal de a ignora standardul de excepție al roboților , colecțiile altor organizații sunt limitate semnificativ atunci când respectă standardul [70] [91] [70] .
Arhivarea web automată prin utilizarea crawlerelor web captează o cantitate mare de informații [34] , cu toate acestea, unele elemente JavaScript interactive nu pot fi salvate, iar versiunea arhivată își pierde funcționalitatea [70] [92] .