Arhivarea site-ului web

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită pe 17 mai 2022; verificările necesită 3 modificări .

Arhivarea site -urilor web ( arhivare web , arhivare web în engleză  ) este procesul de colectare și „duplicare” a paginilor web și a site-urilor întregi pentru a salva informațiile și a le accesa în viitor dacă sursa nu este disponibilă. Condițiile preliminare pentru dezvoltarea arhivării web au fost problemele dispariției legăturilor și potențialul debut al erei întunecate digitale . În 1996, a fost creată „ Arhiva Internet ” - prima organizație non-profit care și-a propus să creeze „instantanee” ale tuturor paginilor de pe Internet. În 2001, Arhiva a lansat serviciul de arhivare a site-ului web Wayback Machine , prin care, începând cu 2021, au fost salvate peste 600 de miliarde de pagini web.

De la începutul anilor 2000, practicile de conservare a site-urilor web au fost implementate activ în multe țări, inclusiv la nivel de stat. În același timp, există forumuri pentru dezvoltarea standardelor și practicilor comune în domeniul arhivării web, inclusiv Atelierul Internațional de Arhivare pe Internet (IWAW) (din 2001) și Consorțiul Internațional de Conservare a Internetului (din 2003).

Cel mai adesea, informațiile de pe site-uri statice sunt colectate folosind roboți de căutare (de exemplu, Heritrix , Webrecorder, HTTrack ), care trimit solicitări HTTP către serverele web și „capturează” conținutul transmis și toate hyperlinkurile din paginile web accesate cu crawlere. În schimb, scripturile , șabloanele și conținutul site-urilor dinamice sunt stocate ca resurse separate pe servere web, astfel încât arhivarea unor astfel de portaluri este mult mai dificilă. Procesul are loc în doi pași principali - salvarea datelor fișierului din structura de directoare a site-ului web și apoi arhivarea informațiilor din baza de date.

Definiție

Termenii arhivare web și conservare web ( ing.  conservare web ) sunt adesea folosiți în mod interschimbabil, dar există o diferență importantă între ei: primul definește întregul proces de salvare a unei resurse Internet, iar al doilea definește doar una dintre etape [1] ] . International Internet Preservation Consortium (IIPC) definește arhivarea web ca:

[...] procesul de colectare a părților din World Wide Web, stocarea colecțiilor într-un format de arhivă și apoi menținerea arhivelor pentru a le face disponibile și utilizabile.

Fundal

De la începutul anilor 1990, crearea, stocarea și diseminarea informațiilor au avut loc în principal în mediul digital. Deja pe la mijlocul anilor 1990, mediile de stocare populare anterior, cum ar fi benzi magnetice , dischete , unități zip și CD-uri au început să devină învechite , iar accesul la formatele vechi de fișiere era dificil [2] [3] . Multe baze de date mari care nu erau copiate pe alte medii sau duplicate pe hârtie au început să dispară [4] . Astfel, toate datele proiectului BBC Domesday la scară largă , desfășurat în anii 1980 cu participarea a peste un milion de oameni, au fost înregistrate pe mai multe discuri, care la începutul anilor 2000 au fost fie sparte, fie pierdute [5] [ 6] .

Pierderea pe scară largă a datelor i-a determinat pe unii cercetători să discute despre potențialul unei „ epoci întunecate digitale” – o  perioadă caracterizată printr-o absență aproape completă a dovezilor scrise [7] [8] . Unii cercetători numesc secolul 21 o „gaură neagră a informațiilor” de teamă că software-ul și computerele viitorului nu vor putea reproduce datele create anterior [9] . În 2003, UNESCO a emis o „Cartă pentru conservarea patrimoniului digital” [10] , definind importanța rezervării datelor digitale, a căror pierdere poate duce la „sărăcirea” patrimoniului uman [11] [12] . În 2015, Vinton Cerf , un om de știință american și vicepreședinte al Google , a făcut o declarație că omenirea se îndreaptă către o „epocă întunecată digitală” [13] [14] [15] [16] .

O altă condiție prealabilă pentru dezvoltarea arhivării web este stingerea linkurilor , situație în care paginile devin indisponibile la aceeași adresă URL sau conținutul lor se modifică [17] [18] [19] . O analiză realizată de cercetătorii portughezi în 2017 a arătat că aproximativ 80% dintre paginile de internet nu sunt disponibile în forma lor originală la un an de la publicare, în timp ce 13% dintre linkurile din articolele științifice au dispărut după o medie de 27 de luni [11] . În 2021, oamenii de știință de la Facultatea de Drept de la Harvard , împreună cu jurnaliștii de la The New York Times (NYT), au analizat viabilitatea legăturilor în peste 550.000 de publicații online produse de NYT între 2000 și 2017 - aproximativ un sfert din URL-urile folosite „s-au stins”. „ [20 ] [21] [22] [23] [24] . Durata medie de viață a unei pagini web este de 44-100 de zile, iar informațiile pot dispărea și mai repede pe site-urile de știri și rețelele sociale [25] [26] .

Informațiile de pe Internet pot dispărea din alte motive. Astfel, în 2015, Departamentul de Stat al SUA și Agenția SUA pentru Dezvoltare Internațională au inițiat eliminarea materialelor despre războiul din Afganistan pentru a proteja persoanele care au colaborat cu autoritățile americane de persecuția talibanilor [27] . Un alt exemplu sunt cererile lui Roskomnadzor prezentate în decembrie 2021 de a elimina dintr-o serie de materiale mass-media ruse despre investigațiile publicației Proekt , care a fost recunoscută anterior ca o organizație nedorită [28] [29] .

Dezvoltare

Începând cu anii 1980, arhivele și bibliotecile individuale au început să păstreze resursele electronice pentru a documenta cronica evenimentelor actuale. Cu toate acestea, punctul de plecare al arhivării web este considerat a fi crearea în 1996 a „ Arhivei Internet ” - o organizație non-profit care și-a stabilit obiectivul ambițios de a păstra toate paginile web ale întregului Internet, care la acel moment au fost relativ puține [30] [1] . La sfârșitul anilor 1990 și începutul anilor 2000, guvernele multor țări dezvoltate au început să implementeze practici de arhivare web, plasând responsabilitatea menținerii acestora pe bibliotecile naționale care au experiența și instrumentele necesare pentru arhivare [31] [11] [12] . Până în 2000, arhivele web naționale au apărut în multe țări, inclusiv Marea Britanie , Noua Zeelandă , SUA și Republica Cehă [32] [33] [19] .

De atunci, numărul proiectelor de arhivare web a crescut în fiecare an [11] . În 2011, existau 42 de programe în lume, dintre care majoritatea erau implicate în colecția de surse web regionale [12] . Un studiu din 2020 a arătat o creștere exponențială a numărului de instituții cu depozite proprii , susținute de profesioniști angajați și echipamente specializate. Majoritatea acestor depozite sunt completate conform principiului autoarhivării - autorii își plasează în mod independent materialele acolo [34] . Până în 2019, arhivele web la nivel național au fost implementate în aproape toate țările Uniunii Europene , cel mai adesea ca parte a activității bibliotecilor naționale [32] [35] .

Organizații

Arhiva Internet

Prima inițiativă majoră de arhivare web a fost Internet Archive, o organizație non-profit înființată în 1996 pentru a păstra tot materialul postat pe Internet [19] . Creatorul a fost programatorul american Brewster Keil , care a lansat simultan „Arhiva” și sistemul comercial de arhivare web Alexa Internet . În 1997, a dezvoltat un plug-in de browser prin care Alexa Internet a identificat și stocat automat pagini web „valoroase” în „Arhivă” , clasificându-le după numărul de vizite, legături încrucișate și „clicuri” [36] . Din 1998, numărul paginilor de arhivat s-a dublat la fiecare 3-6 luni [37] .

Pe 24 octombrie 2001, Internet Archive a lansat Wayback Machine , prin care utilizatorii puteau accesa peste 10 miliarde de pagini web arhivate. La acea vreme, datele erau stocate pe serverele Hewlett Packard și uslab.com și gestionate prin sistemele de operare FreeBSD și Linux [37] .

Pentru 2021, colecția Arhivă a constat din multe sub-colecții de site-uri web arhivate, cărți digitizate, fișiere audio și video, jocuri, software [38] ; în timp ce numărul paginilor web arhivate s-a ridicat la peste 622 de miliarde [39] .

WebCite

Lansat în 2003, WebCite a fost primul instrument de arhivare web care a permis utilizatorilor să salveze site-uri web la cerere. WebCite a câștigat rapid popularitate, iar până în 2005, aproximativ 200 de reviste le-au cerut autorilor să-și arhiveze paginile web prin WebCite înainte de a trimite manuscrise [40] . Serviciul nu folosește roboți de căutare pentru a „captura” pagini, arhivarea are loc direct la solicitarea utilizatorului [40] .

În 2013, WebCite a fost amenințată cu închiderea din cauza lipsei de finanțare, dar datorită unei campanii publice de strângere de fonduri a creatorului Günter Eisenbach, portalul a continuat să funcționeze încă șase ani. Din 2019, a devenit doar în citire și a încetat să accepte cereri de arhivă [41] [42] .

Arhiva.azi

Serviciul archive.today (când a fost creat - archive.is) a fost lansat în 2012 de o organizație non-profit cu același nume [43] . Proiectul este finanțat de sponsori privați. Ca și WebCite, archive.today salvează pagini web la cererea utilizatorilor [44] [45] făcând o copie funcțională a paginii web disponibilă public și o captură de ecran reprezentând o redare PNG statică a paginii [46] . Dimensiunea paginii arhivate cu toate imaginile nu trebuie să depășească 50 MB [43] .

Creatorii archive.today au lansat și o extensie de browser Mozilla Firefox care salvează și partajează automat o copie a fiecărei pagini web marcate pe care un utilizator o adaugă [46] [47] .

web-archive.ru

De asemenea, Federația Rusă și - a creat propria arhivă web în limba rusă - https://web-arhive.ru/

Biblioteci Naționale

Majoritatea țărilor dezvoltate au legi privind depozitul legal , care fac bibliotecile naționale responsabile din punct de vedere legal pentru păstrarea unui exemplar din fiecare publicație tipărită publicată în acea țară. Odată cu dezvoltarea pe scară largă a comunicațiilor electronice, legea s-a extins și asupra site-urilor web [1] [48] . Astfel, conform Public Records Act 1967 , Arhivele Naționale ale Marii Britanii și Irlandei sunt obligate să păstreze toate reglementările importante ale guvernului Regatului Unit . Pe măsură ce oficialii își publică din ce în ce mai mult rapoartele pe internet, mai mult de 100 de milioane de utilizatori vizitează arhiva web în fiecare lună (din 2013) [25] .

În 1996, Biblioteca Națională a Suediei a inițiat proiectul Kulturar, care a realizat conservarea pe scară largă a întregii rețele de domenii suedeze [49] . Până la începutul anului 2005, au fost colectate peste 350.000 de site-uri web, sau aproximativ 10 terabytes de date, făcând Arhiva Web cea mai mare la acea vreme din lume [19] . În 1997, bibliotecile naționale din Danemarca , Finlanda , Islanda , Norvegia și Suedia au creat o inițiativă comună numită Nordic Web Archive (NWA). NWA a dezvoltat instrumente și a discutat despre metode de arhivare web pentru țările nordice. În 2004, NWA a lansat un pachet software pentru accesarea documentelor web arhivate, care a stat ulterior la baza setului de instrumente IIPC [19] [50] . În același an, Biblioteca Națională a Australiei a lansat Pandora - un proiect pentru conservarea resurselor digitale în Australia [51] [52] [19] . În 2019, colecția Pandora a fost inclusă în Australian Web Archive , una dintre cele mai mari arhive web naționale din lume [53] .

Colaborări

În 2001 a fost creat Atelierul Internațional de Arhivare a Internetului (IWAW) [54] - o platformă pentru schimbul de cercetări și experiență în domeniul arhivării web [55] , iar în 2003, la inițiativa Arhivei Internet, Internațional Internet Preservation Consortium a fost fondat , care dezvoltă standarde și instrumente pentru arhivarea web [37] [56] . Pe lângă „Arhivă”, IIPC a inclus bibliotecile naționale din Franța , Australia , Canada , Danemarca , Finlanda , Islanda , Italia , Norvegia , Suedia , Marea Britanie , SUA . În 2008, IIPC a dezvoltat Web ARChive sau WARC , un format pentru arhivarea resurselor web [12] . Începând cu 2021, IIPC are peste 50 de membri [57] .

Organizațiile colaborează adesea pentru a crea arhive web unificate. Astfel, din 2004 până în 2018, a funcționat Arhiva Digitală Europeană (redenumită ulterior Internet Memory Foundation ), culegând documente electronice în țările Uniunii Europene [58] [19] [12] . Printre altele, a inclus Arhivele Naționale ale Marii Britanii, Societatea Max Planck , Universitatea Tehnică din Berlin , Universitatea din Southampton , Institut Mines-Télécom . La începutul anilor 2000, Departamentele de Sinologie de la Universitățile Heidelberg și Leiden au lansat în comun arhiva web DACHS care conține materiale electronice despre Sinologie [59] [19] . Consorții precum NWA și UKWAC au desfășurat programe de colectare a datelor în colaborare în parteneriat cu alte organizații [60] [19] [61] . La sfârșitul anilor 1990, Comisia Europeană a finanțat crearea Bibliotecii europene de depozit în rețea (NEDLIB), un proiect de colectare, descriere, stocare și punere la dispoziție a site-urilor web europene salvate [62] . Lansat în 2000, NEDLIB Harvester a fost unul dintre primii roboți de căutare special conceputi pentru arhivarea datelor. Ulterior, a fost folosit într-o serie de proiecte, inclusiv colectarea de date din domeniile web olandeze , estoniene și islandeze [19] [63] .

În iulie 2011, Arhivele Naționale ale Marii Britanii, împreună cu Internet Memory Foundation, au lansat un proiect pilot de arhivare digitală bazată pe web pentru autoritățile locale. Proiectul a funcționat în șapte arhive ale municipalităților, acoperind peste 20 de autorități locale. Personalul a primit instruire gratuită pentru a crea o arhivă web curată pentru domeniul lor [64] .

Universitățile din țările dezvoltate sunt, de asemenea, implicate în dezvoltarea arhivării web. De exemplu, Michigan , Indiana , California , Illinois și alte universități oferă cursuri de arhivare digitală [54] , iar mai multe instituții și-au creat propriile arhive web în scopuri de cercetare - Stanford WebBase Archive ( Stanford University ), Socio-Sense ( University of Tokyo ), Centrul de informare web ( Universitatea Peking ) [12] .

Aprovizionare

Înainte de a începe arhivarea, fiecare organizație stabilește criteriile de „selectare” a surselor. Pot exista unul sau mai multe astfel de criterii, în funcție de mărimea și obiectivele organizației [19] [65] . Unele arhive web, cum ar fi Arhiva Internet, urmăresc să colecteze toate paginile web posibile, o abordare numită non-selectiv sau wide-scan . Se bazează pe principiul interconectării World Wide Web , conform căruia un subiect poate fi „conservat” cu adevărat doar prin colectarea tuturor paginilor web existente, deoarece toate sunt interconectate. În plus, selecția site-ului web este un proces costisitor și consumator de timp, care poate duce și la eșantionarea subiectivă [19] . Cu toate acestea, abordarea „Arhivare” este considerată imposibilă în practică – salvarea tuturor paginilor este imposibilă din cauza restricțiilor de drepturi de autor, și chiar și „Arhiva Internet” salvează doar materialele disponibile publicului [66] .

O alternativă la o abordare de selecție neselectivă este o abordare selectivă, sau selectarea resurselor pe baza apartenenței lor la criterii predefinite - domeniu (de exemplu, .gov sau .edu ), subiect, eveniment, tip media sau gen [19] . O abordare selectivă este adesea combinată cu practici largi de scanare - de exemplu, dacă o organizație arhivează toate portalurile cu un anumit nume de domeniu. Astfel, din 1996 Biblioteca Națională a Suediei colectează toate site-urile web cu domeniul „ .se[19] [67] , iar Biblioteca Națională a Marii Britanii arhivează site-urile web cu domeniile „.gov.uk”, „.org .uk” și „.co.uk”. Biblioteca NASA a Centrului de Zbor Spațial Goddard menține toate paginile web cu numele de domeniu al Centrului [19] . Principalul avantaj al arhivării selective este că această abordare vă permite să creați colecții mai gestionabile cu resurse asociate [19] .

O abordare selectivă este, de asemenea, utilizată pentru a crea colecții tematice. De exemplu, DACHS colectează resurse sociale și culturale despre sinologie, iar Biblioteca Congresului , împreună cu Internet Archive, a compilat arhive web despre alegerile prezidențiale din SUA și evenimentele din 11 septembrie . British Library este specializată în site-uri web cu „valoare culturală națională” [67] . Proiectul Pandora al Bibliotecii Naționale a Australiei [19] [54] folosește și această abordare . În 2006, Arhiva Internet a lansat Archive It , un serviciu de colecție bazat pe web [68] folosit adesea de organizații individuale, cum ar fi Muzeul Național de Artă a Femeilor [69] .

Unele organizații arhivează resurse în funcție de tipul de sursă prezentat. De exemplu, biblioteca Goddard Space Flight Center evită scanarea fișierelor video mari și a produselor software. Dimpotrivă, alte proiecte web arhivează videoclipuri pe Youtube sau colectează bloguri, ziare virtuale - de exemplu, Biblioteca Națională a Franței a creat o colecție web separată pentru LiveJournals [54] .

Colectarea datelor

Site-uri statice

Cu cât site-ul este mai simplu și mai static , cu atât este mai ușor de arhivat [70] - copiile datelor sunt descărcate de pe serverul web ca fișiere care pot fi ulterior convertite în alte formate [71] [72] [73] .

Procesul de colectare automată a paginilor web prin intermediul roboților de căutare se numește recoltare web sau „scanare”. Robotului i se oferă o listă de URL-uri, după care trimite solicitări HTTP către serverele web și „captează” conținutul transmis și toate hyperlinkurile de pe paginile web scanate [73] . Software-ul automat convertește apoi informațiile în format WARC, rezultând un fișier care poate fi redat folosind instrumente precum Wayback Machine [74] . Exemple de crawler-uri sunt Heritrix [75] dezvoltat de Internet Archive în 2004 , precum și HTTrack [76] și Wget [77] . O rețea de „scanere” permite organizațiilor să salveze copii ale site-urilor selectate la intervale regulate, cum ar fi zilnic sau anual [74] . Pentru o arhivare mai direcționată, sunt folosite instrumente mai mici, cum ar fi HTTrack , care vă permite să descărcați copii ale site-urilor web pe computerul local [74] .

Site-uri dinamice

Arhivarea site-urilor dinamice este mult mai dificilă decât a site-urilor statice, deoarece conținutul, scripturile și șabloanele sunt stocate ca resurse separate pe serverul web. iar aspectul și conținutul paginii se formează în funcție de browserul clientului și setările serverului. Spre deosebire de site-urile web statice, procesarea automată a unei cereri HTTP nu este suficientă, deoarece site-ul generează conținut din partea serverului folosind o bază de date [71] . Prin urmare, conservarea unor astfel de resurse are loc în două etape - salvarea datelor fișierului aflat în structura de directoare a site-ului web și arhivarea informațiilor bazei de date [71] . Pentru site-urile dinamice, utilizarea roboților de căutare are limitările sale [19] . Instrumentele de arhivare web pentru conținut dinamic includ Arhivarea independentă software a bazelor de date relaționale (SIARD), dezvoltat de Arhivele Federale Elvețiene și DeepArc al Bibliotecii Naționale a Franței . SIARD analizează și afișează automat structura bazei de date sursă. Apoi exportă structura ca fișier text care conține o definiție a datelor descrisă folosind SQL , standardul internațional pentru descrierea unei baze de date relaționale . Ulterior, conținutul este exportat ca fișier text simplu, iar metadatele sunt salvate ca document XML [19] .

Arhivarea rețelelor sociale

Primele proiecte de arhivare a rețelelor sociale au început să apară din 2008 ca o scanare sistematică a unei platforme largă. Astfel, Biblioteca Națională din Noua Zeelandă a început să lucreze la crearea unei arhive de mesaje postate pe Twitter , iar Biblioteca Națională a Franței a scanat Facebook . Cu toate acestea, din cauza volumului mare de conținut produs, a lipsei standardelor tehnice pentru colectarea și stocarea informațiilor și a detaliilor tehnice în continuă schimbare cu privire la modul în care funcționează portalurile, ulterior organizațiile au început să adopte o abordare selectivă a arhivării web a rețelelor sociale și să economisească mesaje numai despre anumite evenimente sau urgențe. Persoane, cum ar fi Bibliothèque Nationale de France sau National Library of Canada, au lansat o colecție automată continuă de știri și conținut din rețelele sociale pentru a surprinde reacțiile oamenilor la evenimente neprevăzute. Selecția se realizează în funcție de hashtag -uri sau cuvinte cheie date , pentru o anumită perioadă sau o anumită platformă [78] [79] .

Instrumente

Pentru a colecta site-uri web sunt folosite diverse instrumente de arhivare web. Cel mai obișnuit crawler este Heritrix , un crawler web de uz general disponibil sub o licență de software gratuită, concepută având în vedere arhivarea web. Heritrix salvează fișierele în format WARC și este potrivit pentru operațiuni de scanare la scară largă, dar este mai puțin probabil să „captureze” site-uri sau pagini dinamice de pe rețelele sociale. Bazat pe Heritrix NetarchiveSuite oferă caracteristici suplimentare în domeniul stocării pe termen lung și al accesului la materiale [1] .

Webrecorder folosește browserul pentru a colecta conținutul site-urilor web, rezolvând astfel problemele comune ale altor roboți de căutare - captarea conținutului dinamic, Adobe Flash , multimedia . Programul „înregistrează” paginile web pe măsură ce utilizatorul le navighează, deci este potrivit pentru scanarea selectivă. Conținutul este salvat și în format WARC [1] . Un alt crawler, Brozzler [80] , folosește motorul de browser Google Chrome pentru a colecta pagini și oferă aceleași beneficii ca și Webrecorder, dar nu necesită interacțiunea utilizatorului în timpul accesării cu crawlere [1] .

HTTrack vă permite să descărcați copii ale site-urilor web pe computerul local, iar apoi utilizatorul le poate vizualiza printr-un browser [81] . Wget și instrumentul similar Wpull sunt instrumente versatile de linie de comandă care au încorporate funcții de crawling web comparabile cu HTTrack. Wpull este mai potrivit pentru arhivarea la scară largă [1] .

Datorită structurii dinamice a site-urilor de rețele sociale, sunt necesare instrumente specializate pentru arhivarea acestora. De obicei, arhivarea web se face folosind interfețe de programare a aplicațiilor sau API-uri furnizate de dezvoltatori. F(b)arc este un instrument de linie de comandă care poate fi folosit pentru a arhiva date folosind interfața Facebook Graph. Twarc este un instrument de linie de comandă și o bibliotecă care facilitează utilizarea API-urilor Twitter. Social Feed Manager vă permite să colectați date de pe Twitter, Tumblr , Flickr și Sina Weibo [1] .

Cele mai utilizate formate de arhivare sunt ARC și WARC . Cele mai multe inițiative folosesc soluții bazate pe Lucene pentru a sprijini căutarea text integral , inclusiv NutchWAX sau Solr , Wayback Machine pentru a sprijini căutarea URL și afișarea conținutului arhivat [11] . Instrumentele JWAT , node-warc , WARCAT , warcio și warctools pot fi folosite pentru a citi și extrage metadate din fișierele WARC [1] .

Rezoluție

Dacă o organizație va respecta standardul de excepție al robotului sau va solicita permisiunea de a arhiva de la proprietarii site-ului depinde de mulți factori - tipul de conținut, amploarea arhivării web, mediul legal [54] [1] . Cu toate acestea, chiar și atunci când solicită permisiunea, doar aproximativ 30-50% dintre proprietarii site-urilor răspund solicitării [82] .

În general, agențiile guvernamentale cu dreptul legal de a deține înregistrări publice (cum ar fi National Archives and Records Administration (SUA) și Arhivele Naționale din Regatul Unit) nu au nevoie de permisiunea de a scana. Conform legii franceze privind drepturile de autor din 2006, Biblioteca Națională a Franței poate ignora roboții atunci când accesează cu crawlere site-uri cu domenii naționale [54] [1] . Alte organizații, cum ar fi Arhiva Internet, utilizează principiul renunțării în munca lor - datele sunt eliminate din colecție la cererea deținătorilor de drepturi de autor, care pot dovedi drepturile de autor prin furnizarea unei descriere a materialului, a datelor de contact ale solicitantului și a unui declarație semnată [83] [54] [25] .

Metadate

Arhivele web au de obicei o structură ierarhică - o sesiune de accesare cu crawlere captează multe site-uri, fiecare dintre acestea conducând la o pagină web separată care conține fișiere video, text și imagine. Pentru fiecare dintre „niveluri” sunt generate metadate [54] [84] .

Abordarea creării metadatelor depinde de mărimea și resursele organizației. De exemplu, arhivele web mari se bazează adesea pe generarea automată de metadate. Unele metadate, inclusiv ora de colectare, codul de stare (cum ar fi 404 pentru negăsit sau 303 pentru redirecționare), dimensiunea în octeți , URI sau tipul MIME (cum ar fi text/ HTML ), sunt „capturate” automat de către crawlerele. Informațiile pot fi extrase și din metaetichetele paginilor HTML [54] [84] .

Arhivele web mici pot genera metadate manual. Arhiva de literatură de la Universitatea din California, Los Angeles utilizează note detaliate create de personal în timpul colectării și analizei paginilor web pentru a genera metadate [54] [85] . Arhiva Web a Universității Naționale din Taiwan are o clasificare ierarhică pe trei niveluri. Metadatele pot fi create și folosind etichete personalizate, comentarii sau evaluări [54] [85] [86] .

Probleme

Utilizatorii apelează la arhivele web dintr-o varietate de motive — pentru a efectua cercetări, pentru a-și compila propria bază de date sau pentru a vedea versiuni mai vechi ale resurselor web individuale. Totuși, accesul la astfel de colecții este adesea complicat de lipsa unei căutări generale în bazele de date disponibile și de o interfață incomodă. Accesarea și procesarea informațiilor stocate necesită adesea abilități tehnice în formate de fișiere specializate [87] [61] [88] . Unii cercetători cred că tocmai din aceste motive legăturile către arhivele web sunt încă rareori găsite în lucrările științifice, iar colecțiile nu sunt studiate [89] [90] .

Colecția Web Archive poate fi incompletă sau părtinitoare din cauza incapacității de a arhiva site-uri „închise” și/sau a dezvoltării neprofesioniste a strategiilor de arhivare - de exemplu, atunci când sunt arhivate doar portalurile în limba engleză din marile țări occidentale. Deși unele arhive au dreptul legal de a ignora standardul de excepție al roboților , colecțiile altor organizații sunt limitate semnificativ atunci când respectă standardul [70] [91] [70] .

Arhivarea web automată prin utilizarea crawlerelor web captează o cantitate mare de informații [34] , cu toate acestea, unele elemente JavaScript interactive nu pot fi salvate, iar versiunea arhivată își pierde funcționalitatea [70] [92] .

Note

  1. 1 2 3 4 5 6 7 8 9 10 11 Camere, 2019 , pp. 85-111.
  2. Veronica Greenwood. Evul întunecat  digital . Yale Alumni Magazine (iunie 2020). Preluat la 9 decembrie 2021. Arhivat din original la 15 octombrie 2021.
  3. Dan Greene. Erodarea proprietății personale  . Vox (21 aprilie 2021). Preluat la 9 decembrie 2021. Arhivat din original la 26 septembrie 2021.
  4. Digital Domesday Book durează 15 ani, nu  1000 . The Guardian (3 martie 2002). Preluat la 11 decembrie 2021. Arhivat din original la 20 ianuarie 2013.
  5. Veronica Greenwood. Evul întunecat  digital . Yale Alumni Magazine (06-2020). Preluat la 27 septembrie 2021. Arhivat din original la 15 octombrie 2021.
  6. Lamont Wood. Apărarea de evurile întunecate digitale:  problema stocării arhivelor . ComputerWorld (26 august 2010). Preluat la 11 decembrie 2021. Arhivat din original la 26 ianuarie 2021.
  7. Giaretta, 2011 .
  8. Panos, 2003 .
  9. Adam Wernick. Oamenii de știință avertizează că este posibil să creăm o „epocă întunecată digitală  ” . Lumea (1 ianuarie 2018). Preluat la 10 decembrie 2021. Arhivat din original la 16 august 2021.
  10. ↑ Carta pentru conservarea  digitală . ONU. Preluat la 12 decembrie 2021. Arhivat din original la 23 august 2021.
  11. 1 2 3 4 5 Costa, 2017 , pp. 191-205.
  12. 1 2 3 4 5 6 Toyoda, 2012 , pp. 1441-1443.
  13. ↑ Pentru a evita o epocă întunecată digitală, toate părțile interesate trebuie să-și pună capul cap la cap  . The Times of India (17 septembrie 2020). Preluat la 27 septembrie 2021. Arhivat din original la 8 septembrie 2021.
  14. Lauren Maffeo. Vint Cerf de la Google despre cum să preveniți o epocă întunecată digitală  . The Guardian (29 mai 2015). Preluat la 27 noiembrie 2021. Arhivat din original la 19 noiembrie 2021.
  15. Dave Smith. Părintele internetului: „Dacă nu ne mișcăm acum, riscăm să pierdem toate datele pe care le-am creat în secolul 21  ” . Business Insider (20 februarie 2015). Preluat la 28 noiembrie 2021. Arhivat din original la 19 noiembrie 2021.
  16. Nikolai Udintsev. Citatul zilei: De ce ar putea începe epoca întunecată digitală  . Privește-mă (13 februarie 2015). Preluat la 28 noiembrie 2021. Arhivat din original la 19 noiembrie 2021.
  17. Adoghe, 2013 , pp. 598-603.
  18. Perkel, 2015 , pp. 111-112.
  19. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Brown, 2006 , pp. 1-256.
  20. Rodos, 2010 , pp. 581-597.
  21. White, 2019 , pp. 29-43.
  22. Cercetătorii subliniază problema „extincției” legăturilor de pe Internet  (ing.) . Știri (21 mai 2021). Preluat la 28 septembrie 2021. Arhivat din original la 23 noiembrie 2021.
  23. Bowers, 2021 .
  24. Mitchell Clark. O nouă cercetare arată câte legături importante de pe web se pierd în  timp . The Verge (21 mai 2021). Preluat la 10 octombrie 2021. Arhivat din original la 20 iunie 2021.
  25. 1 2 3 Pennock, 2013 .
  26. Nick Bilton. Durata de viață a unei legături  . The New York Times (7 septembrie 2011). Preluat la 10 decembrie 2021. Arhivat din original la 28 septembrie 2021.
  27. Matthew Gault. SUA elimină de pe internet înregistrările războiului său din Afganistan  . Vice (17 iulie 2015). Preluat: 11 decembrie 2021.
  28. Roskomnadzor a cerut ca mass-media să elimine publicațiile despre investigațiile „Proiectului”, recunoscut ca organizație nedorită . BBC (18 decembrie 2021). Preluat la 20 decembrie 2021. Arhivat din original la 18 decembrie 2021.
  29. Tasya Elfimova. Roskomnadzor a cerut ca The Village, Meduza și Dozhd să elimine zeci de știri legate de investigațiile Proiectului . Satul (18 decembrie 2021). Preluat la 19 decembrie 2021. Arhivat din original la 18 decembrie 2021.
  30. Patel, 2020 , pp. 1-10.
  31. Balatskaya, 2021 , p. 12-16.
  32. 12 Pretoro , 2013 , pp. 63-67.
  33. Single Sites Web Archive - Minerva - Library of Congress Web  Archive . Surse primare de istorie europeană. Preluat la 13 decembrie 2021. Arhivat din original la 6 mai 2021.
  34. 12 Rockwell , 2020 , pp. 1-17.
  35. Mark Pesce. Arhivarea World Wide Web  . Cosmos (29 octombrie 2021). Preluat la 11 decembrie 2021. Arhivat din original la 25 noiembrie 2021.
  36. Kimpton, 2006 .
  37. 1 2 3 Masanes, 1998 , pp. 201-212.
  38. Rory Carroll. Trilioanele lui Brewster : Internet Archive se străduiește să mențină vie istoria web  . The Guardian (26 aprilie 2013). Preluat la 11 decembrie 2021. Arhivat din original la 15 decembrie 2021.
  39. Wayback  Machine . mașină de întoarcere. Data accesului: 7 iunie 2021.
  40. 12 Trudel , 2005 .
  41. Fund WebCite (http://www.webcitation.org  ) . FundRz. Preluat: 18 decembrie 2021.
  42. Arhivă acum (arhivă acum  ) . GitHub. Preluat la 20 decembrie 2021. Arhivat din original la 20 decembrie 2021.
  43. 1 2 Întrebări frecvente  . _ arhiva.ph. Preluat la 10 decembrie 2021. Arhivat din original la 27 octombrie 2021.
  44. Salman Ravoof. Cum să arhivezi un site web : Ghidul nostru mamut pentru salvarea site-ului  dvs. Kinsta (3 noiembrie 2021). Preluat la 7 decembrie 2021. Arhivat din original la 5 noiembrie 2021.
  45. Jason Koebler. Dragă GamerGate : Vă rugăm să nu ne mai furați rahatul  . Vice (29 octombrie 2014). Preluat la 7 decembrie 2021. Arhivat din original la 27 noiembrie 2021.
  46. 12 Martin Brinkmann . Creați arhive de pagini web disponibile public cu Archive.is . G Hacks (22 aprilie 2015). Preluat la 12 decembrie 2021. Arhivat din original la 12 aprilie 2019.  
  47. ↑ Comparația serviciilor de arhivare web  . Arhivarea paginilor web. Preluat: 10 decembrie 2021.
  48. Sistemul electronic de depozit legal al Regatului Unit  . Jurnal de informare și analitică University Book (21 septembrie 2013). Preluat la 18 decembrie 2021. Arhivat din original la 24 octombrie 2020.
  49. Proiectul Kulturarw3  . Istoria informației a lui Jeremy Norman. Preluat: 10 decembrie 2021.
  50. ↑ A fost lansat NWA Toolset 1.1RC10  . N.W.A. Preluat la 11 decembrie 2021. Arhivat din original la 26 aprilie 2018.
  51. Istorie  _ _ Pandora. Preluat la 11 decembrie 2021. Arhivat din original la 4 iunie 2020.
  52. Webb, 2000 , pp. 154-172.
  53. George Nott. Biblioteca Națională lansează o arhivă „enorme” a  internetului Australiei . Computer World (11 martie 2019). Preluat la 10 decembrie 2021. Arhivat din original la 24 noiembrie 2021.
  54. 1 2 3 4 5 6 7 8 9 10 11 Niu, 2012 .
  55. IWAW 2010: Al 10-lea  Atelier de arhivare Web Internațională . WikiCfP. Preluat la 15 decembrie 2021. Arhivat din original la 27 aprilie 2021.
  56. International Internet Preservation  Consortium . Consorțiul Internațional de Conservare a Internetului. Preluat la 14 decembrie 2021. Arhivat din original la 14 decembrie 2021.
  57. Membrii IIPC  . Consorțiul Internațional de Conservare a Internetului. Preluat la 13 decembrie 2021. Arhivat din original la 16 decembrie 2021.
  58. Arhiva europeană  . Biblioteca Congresului. Preluat: 13 decembrie 2021.
  59. Despre DACHS  . Bereichbibliother Ostaasien. Preluat la 13 decembrie 2021. Arhivat din original la 17 octombrie 2021.
  60. Steve Bailey, Dave Thompson. Construirea primei  arhive web publice din Marea Britanie . Revista Dlib (2006). Preluat la 18 decembrie 2021. Arhivat din original la 23 noiembrie 2021.
  61. 1 2 Dooley, 2017 , pp. 1-15.
  62. Johan Steenbakkers. Prezentări  _ _ Grupul European de Automatizare a Bibliotecii. Preluat la 13 decembrie 2021. Arhivat din original la 29 decembrie 2021.
  63. Hakala, 2001 , pp. 211-216.
  64. Duncan Jefferies. Utilizarea arhivelor web pentru a păstra trecutul . The Guardian (9 martie 2012). Preluat la 11 decembrie 2021. Arhivat din original la 10 iunie 2021.
  65. Alam, 2020 , pp. 1-251.
  66. Broussard, 2021 , p. 276.
  67. 12 Camere , 2019 .
  68. Povroznik, 2020 , p. 95-102.
  69. Slania, 2013 , pp. 112-126.
  70. 1 2 3 4 João Miranda. Recoltare și  arhivare web . Web Ist UTL. Preluat la 17 decembrie 2021. Arhivat din original la 29 decembrie 2021.
  71. 1 2 3 Rumianek, 2013 .
  72. Brunelle, 2012 .
  73. 12 Pretoro , 2013 .
  74. 1 2 3 Păstrarea Web  - ului . Conservare digitală online. Preluat la 17 decembrie 2021. Arhivat din original la 14 septembrie 2021.
  75. Mohr, 2004 , pp. 1-15.
  76. Justin Kulesza. Cum să arhivezi un  site web . obiect atomic. Preluat la 14 decembrie 2021. Arhivat din original la 23 iunie 2016.
  77. ↑ Comanda pe care o folosesc pentru a arhiva un singur site web  . GitHub. Preluat la 15 decembrie 2021. Arhivat din original la 23 decembrie 2021.
  78. Michel, 2021 , pp. 107-128.
  79. Redkina, 2019 , p. 52.
  80. internetarchive /brozzler  . GitHub. Preluat la 16 decembrie 2021. Arhivat din original la 10 decembrie 2021.
  81. Ghid pentru browsere offline. Partea 2 . IXBT.com. Preluat la 17 decembrie 2021. Arhivat din original la 2 august 2019.
  82. Probleme juridice  . Consorțiul Internațional de Conservare a Internetului. Preluat la 16 decembrie 2021. Arhivat din original la 16 decembrie 2021.
  83. Berčič, 2005 , pp. 17-24.
  84. 12 Brown , 2006 , pp. 1-256.
  85. 12 Brown , 2006 .
  86. Olson, 2009 , pp. 181-196.
  87. Ayala, 2021 , pp. 89-106.
  88. Brügger, 2017 , pp. 45-61.
  89. Rogers, 2019 , p. 49.
  90. Niels, 2021 , pp. 145-168.
  91. Kalev Leetaru. De ce arhivele web trebuie să se implice cu cercetătorii  . Forbes (7 mai 2019). Preluat la 11 decembrie 2021. Arhivat din original la 29 decembrie 2021.
  92. Kalev Leetaru. Arhivele web eșuează web-ul modern: video, social media, pagini dinamice și web mobil ? Forbes (24 februarie 2017). Preluat la 11 decembrie 2021. Arhivat din original la 29 decembrie 2021.

Literatură

  • Adoghe A., Onasoga K., Dike D., Ajayi O. Web-Archiving: techniques, challenges, and solutions  (engleză) . - 2013. - Vol. 5 , iss. 3 . - P. 598-603 .
  • Alam S. Mementomap: un cadru de profilare a arhivei web pentru  rutarea eficientă a amintirilor . — 2020.
  • Ayala B. Când așteptările se întâlnesc cu realitatea: concepții greșite comune despre arhivele web și provocări pentru cercetători  (engleză)  // International Journal of Digital Humanities. - 2021. - Nr. 2 . - P. 89-106 .
  • Berčič B. Protecția datelor cu caracter personal și a materialelor protejate prin drepturi de autor pe web: cazurile Google și Internet Archive  //  ​​​​Legea tehnologiei comunicațiilor. - 2005. - Vol. 14 , iss. 1 . - P. 17-24 . - doi : 10.1080/1360083042000325283 .
  • Brown A. Arhivarea site-urilor web un ghid practic pentru profesioniștii în managementul informațiilor  . Publicarea fațetă. - 2006. - 256 p. - ISBN 978-1-85604-553-7 .
  • Brügger N., Schroeder R. Live versus archive: Comparing a web archive to a population of web pages  (engleză) . - 2017. - P. 45-61 . - doi : 10.2307/j.ctt1mtz55k.8 .
  • Brügger N. Științe umaniste digitale și arhive web: noi căi posibile pentru combinarea seturilor de date  //  Jurnalul Internațional de Științe Umaniste Digitale. - 2021. - Nr. 2 . - P. 145-168 .
  • Broussard M. Arhivarea Jurnalismului de date  //  Manualul Yhe Data Journalism. - 2021. - P. 274-278 . - doi : 10.2307/j.ctv1qr6smr.40 .
  • Brunelle J., Nelson M. Evaluarea arhivei web tranzacționale SiteStory cu instrumentul   ApacheBench // ArXiv.org . — 2012.
  • Costa M., Gomes D., Silva M. The evolution of web arhiving  (engleză)  // Int J Digit Libr. - 2017. - Nr. 18 . - P. 191-205 . - doi : 10.1007/s00799-016-0171-9 .
  • Dooley JM, Farrell K., Kim T., Venlet J. Dezvoltarea celor mai bune practici de arhivare web a metadatelor pentru a satisface nevoile utilizatorilor  //  Journal of Western Archives. - 2017. - Vol. 8 , iss. 2 .
  • Hakala J. The NEWLIB harvester  (engleză)  // Zeitschrift für Bibliothekswesen und Bibliographie. - 2001. - Vol. 48 , iss. 3 . - P. 211-216 .
  • Giaretta D. Avoiding a Digital Dark Age for data: de ce editorilor ar trebui să le pese de conservarea digitală  //  Learned Publishing. - 2011. - P. 1-18 .
  • Kimpton M., Ubois J. Year-by-Year: From an Archive of the Internet to an Archive on the Internet // Arhivare web. - 2006. - S. 201-212 .
  • Masanes J. Arhivare  Web . — Springer. - 1998. - P. 1-234. — ISBN 3-540-23338-5 .
  • Mohr G., Stack M., Ranitovic I., Avery D., Kimpton M. O introducere în Heritrix. Un crawler web de calitate de arhivă open source // Al 4-lea Atelier internațional de arhivare web. - 2004. - S. 1-15 .
  • Niu J. O privire de ansamblu asupra arhivării web  //  Publicațiile Facultății Școlii de Informare. - 2012. - P. 1-13 . - doi : 10.1045/march2012-niu1 .
  • Ogden J., Maemura E. „Go fish”: Conceptualizarea provocărilor angajării arhivelor web naționale pentru cercetarea digitală  //  International Journal of Digital Humanities. — Iss. 2 . - P. 43-63 . - doi : 10.1007/s42803-021-00032-5 .
  • Olson J. Capitolul 14 - Magazinul de  date de arhivă //  Arhiva bazei de date. - 2009. - P. 181-196 . - doi : 10.1016/B978-0-12-374720-4.00014-5 .
  • Panos P. Arhiva Internet: Un sfârșit al epocii întunecate digitale  (engleză)  // Journal of Social Work Education. - 2003. - Vol. 39 , iss. 2 . - P. 343-347 . - doi : 10.1080/10437797.2003.10779139 .
  • Patel K., Phillips M., Caragea C., Fox N. Identifying Documents In-Scope of a Collection from Web Archives   // arXiv . — 2020.
  • Pennock M. Web-  Arhivare . - DPC Technology Watch Report 13-01 martie 2013. - 2013. - doi : 10.7207/twr13-01 .
  • Perkel, J. Problema cu putregaiul de referință. (engleză)  // Natură. - 2015. - Nr. 521 . - P. 111-112 . - doi : 10.1038/521111a .
  • Pretoro E., Geeraert F., Soyez S. În culisele arhivării web a metadatelor site-urilor web recoltate  //  Încredere și înțelegere: valoarea metadatelor într-o lume conectată digital. - 2013. - P. 63-74 .
  • Rhodes S. Breaking Down Link Rot: The Chesapeake Project Legal Information Archive's Examination of URL Stability  //  Law Library Journal. - 2010. - Vol. 102 , iss. 4 . - P. 581-597 .
  • Rockwell G., Tchoh B. Archiving Database Driven Websites for Future Digital Archaeologists: The Archiving of TAPoR  //  CSDH-SCHN 2020. - 2020. - doi : 10.17613/v412-8896 . )
  • Rogers R. Periodizarea arhivării web: tradiții biografice, bazate pe evenimente, naționale și autobiografice  //  The SAGE Handbook of Web History. - 2019. - P. 42-57 .
  • Rumianek M. Arhivarea și recuperarea site-urilor web bazate pe baze de date  //  D-Lib Magazine. - 2013. - Vol. 19 , iss. 1/2 . - doi : 10.1045/january2013-rumianek .
  • Slania H. Online Art Ephemera: Web Archiveing ​​at the National Museum of Women in the Arts  //  Art Documentation: Journal of the Art Libraries Society of North America. - 2013. - Vol. 32 , iss. 1 . - P. 112-126 .
  • Toyoda M., Kitsuregawa M. {{{title}}}  (engleză)  // Invited Paper. - 2012. - doi : 10.1109/JPROC.2012.2189920 .
  • Eysenbach G., Trudel M. Going, Going, Still There: Utilizarea serviciului WebCite pentru a arhiva permanent paginile web citate // J Med Internet Resources. - 2005. - doi : 10.2196/jmir.7.5.e60 .
  • Zittrain J., Bowers J., Stanton C. The Paper of Record Meets an Ephemeral Web: An Examination of Linkrot and Content Drift in The New York Times  //  Library Innovation Lab. — 2021.
  • Webb C. Pentru că ne aparține tuturor: aranjamente naționale pentru conservarea digitală în bibliotecile australiene  (engleză)  // Bibliotecile academice și de cercetare din Australia. - 2000. - P. 154-172 . - doi : 10.1080/00048623.2000.10755132 .
  • Vlassenroot E., Chambers S., Mechant P. Arhivele web ca resursă de date pentru cercetătorii digitali  //  International Journal of Digital Humanities. - 2019. - Vol. 1 , iss. 85 . - P. 85-111 . - doi : 10.1007/s42803-019-00007-7 .
  • Vlassenroot E., Chambers S., Lieber S., Michel A., Geeraert F., Pranger J., Birkholz J. Web-archiving and social media: an exploratory analysis  //  International Journal of Digital Humanities. - 2021. - Vol. 2 . - P. 107-128 .
  • White J. Link Rot, Reference Rot și Link Resolves  //  Noi tehnologii de top pe care fiecare bibliotecar trebuie să le cunoască. - 2019. - P. 29-43 .
  • Balatskaya N.M., Martirosova M.B. Arhivarea web ca sarcină a bibliografiei istoriei naționale și locale  // Bibliosferă. - 2021. - Emisiune. nr 3 . - S. 12-17 .
  • Povroznik G.G. Arhivele web în reconstrucția istoriei muzeelor ​​virtuale: potențial și limitări  // Buletinul Universității din Perm. - 2020. - T. 51 , nr. 4 . - S. 95-102 .
  • Redkina N.S. Tendințe mondiale în dezvoltarea bibliotecilor. Optimism vs pesimism (pe baza literaturii străine)  // Bibliosferă. - 2019. - Emisiune. 1 . - S. 49-58 .