Stingerea legăturilor ( în engleză link rot , literalmente - link rot ) este un proces în care adresele URL utilizate nu mai direcționează către sursa originală. Astfel de legături se numesc legături întrerupte sau moarte . Două procese principale sunt înțelese ca extincție sau dezintegrare: putregaiul de referință ( stingerea notelor de subsol) și putregaiul legăturilor (stingerea legăturilor). În primul caz, URL -ul rămâne în funcțiune, dar duce la o pagină incorectă sau modificată. Acest fenomen se mai numește și deriva de conținut.. Deriva este mai greu de detectat, dar are consecințe mai semnificative, deoarece contribuie la răspândirea dezinformării sau la înlocuirea conceptelor. În cazul putregaiului linkului , linkul este inaccesibil, ceea ce face ca utilizatorii să piardă accesul la pagina web .
Linkurile pot înceta să funcționeze din mai multe motive. Uneori, acest lucru necesită doar schimbarea unui caracter din adresa URL. De exemplu, multe site-uri au încetat să mai folosească prefixul „www” și chiar dacă conținutul lor a rămas același, linkurile originale au încetat să funcționeze. Același lucru se poate întâmpla cu implementarea criptării și trecerea de la „ http: ” la „ https: ”. De asemenea, proprietarii de site-uri redenumesc directoarele, schimbă numele de domenii și structura portalului și uită să actualizeze înregistrarea domeniului - toate acestea duc la link-uri rupte .
Distingerea legăturilor progresează în timp. Așadar, din 1996 până în 2021, un sfert din linkurile către resurse terțe din articolele The New York Times (NYT) au încetat să funcționeze . Datele au fost obținute din analiza a peste 550.000 de publicații de către membrii facultății de drept de la Harvard în colaborare cu jurnaliștii NYT [1] [2] [3] .
Hyperlink -urile sunt utilizate pe scară largă nu numai în comunicarea de zi cu zi, ci și în articole de reviste, rapoarte științifice și alte tipuri de publicații. Popularitatea lor se datorează confortului și accesibilității lor. De exemplu, potrivit profesorului de drept de la Harvard Lawrence Lessig , articolele online citate pot ajunge la mai mulți cititori, deoarece pot fi accesate „doar făcând clic pe un link”. În același timp, din ce în ce mai multe ziare și reviste se deplasează online. O analiză a peste 100.000 de articole a arătat că numărul mediu de citări ale lucrărilor tipărite a fost de 2,74, iar versiunile online - 7,03 [4] . Procentul de articole care citează cel puțin o adresă URL a crescut de la 24% în 2006 la 48,5% în 2013 [5] [6] [7] .
Sub stingerea legăturilor ( eng. link rot , literalmente - rotting links ) înțelegeți două procese principale: stingerea notelor de subsol ( eng. rotul referinței ) și stingerea legăturilor ( eng. link rot ). În primul caz, URL -ul rămâne în funcțiune, dar duce la o pagină incorectă sau modificată. Acest fenomen se mai numește și deriva de conținut . Spre deosebire de sursele tipărite, conținutul paginii web se poate modifica fără nicio marcare specială. Deriva este mai greu de detectat, dar implică consecințe mai semnificative, deoarece contribuie la răspândirea dezinformării sau la înlocuirea conceptelor [8] . Cazul în care URL-ul nu este disponibil și aruncă o eroare se numește link rot [9] [10] [11] [8] [12] [13] [14] .
Motivul principal pentru stingerea legăturilor este descentralizarea World Wide Web - designul web-ului nu implică o stocare centralizată a conținutului. Durata de funcționare a legăturilor este determinată de proprietarii de nume de domeniu [15] care uită adesea să-și reînnoiască înregistrarea domeniului, să monitorizeze conținutul și să urmărească link-urile întrerupte . În plus, site-urile se schimbă în mod regulat - pe paginile web, schimbă informațiile și structura site-urilor în sine, redenumesc fișierele și directoarele, mută conținutul [16] [2] . Frecvența și amploarea modificărilor unei pagini web depind și de dimensiunea documentului. Documentele mai mari se schimbă mai frecvent decât cele mai mici [17] . Toate acestea duc la stingerea legăturilor [4] [8] [18] [16] . În 2009 , Yahoo! a închis serverele de găzduire web gratuite GeoCities , ducând la pierderea datelor de pe 7 milioane de site-uri web [19] . În plus, dispariția poate fi cauzată de o modificare a setărilor de acces, de exemplu, la introducerea înregistrării sau introducerea unui abonament la conținut deschis anterior [4] . Legăturile pot dispărea și ca urmare a unor acțiuni deliberate. Așadar, după modificarea politicii editoriale a BuzzFeed în 2015, au fost șterse peste 1000 de postări, inclusiv cele despre care agenții de publicitate ai portalului sau angajații companiilor partenere s-au plâns anterior [20] [21] [22] [23] .
O singură modificare a unui caracter în adresa URL este suficientă pentru a întrerupe un link. De exemplu, multe site-uri au încetat să mai folosească prefixul „www” și chiar dacă conținutul lor nu s-a schimbat, linkurile originale nu mai funcționează. La fel se poate întâmpla și cu introducerea criptării traficului: o setare incorectă la trecerea de la „ http: ” la „ https: ” atrage după sine o „rupere” a legăturii [24] . Dacă legătura este întreruptă, atunci utilizatorii pot întâmpina mai multe tipuri de erori [16] [25] [16] [26] [4] :
Persistența legăturilor este asigurată de trei factori principali: anul publicării, ierarhia URL-ului și domeniul de nivel superior [27] [11] . Cu cât linkul este mai vechi, cu atât este mai probabil să fie indisponibil. Notele de subsol ale datei de acces vor fi probabil mai stabile – chiar dacă o pagină web nu este disponibilă, cunoașterea datei de acces va permite utilizatorilor să utilizeze servicii de arhivare precum Wayback Machine . De asemenea, domeniile de nivel superior sunt considerate mai stabile [28] . Site-urile administrate privat tind să dispară mai des decât site-urile guvernamentale și educaționale [29] . Un studiu din 2003 a constatat că linkurile care se termină în „ .com ” s-au stins cel mai des (46% pierdute după 27 de luni), urmate de „ .edu ” (30%), altele (20%), „ .gov ” (10%) și „ .org ” (5%) [30] .
Dintr-un articol de Jonathan Zittrain pentru The Atlantic [15][...] Se pare că dispariția legăturilor și deriva de conținut sunt o parte integrantă a Internetului, ceea ce este deloc surprinzător și șocant de riscant pentru o bibliotecă care are „miliarde de cărți și niciun sistem central de fișiere”. Imaginați-vă o lume în care bibliotecile nu există și în schimb există o „economia de partajare” a copiilor fizice ale cărților – oamenii pot înregistra cărțile pe care le au acasă, iar alții pot veni să le vadă. Desigur, nu este de mirare că un astfel de sistem ar putea deveni învechit atunci când cărțile nu mai sunt acolo unde au fost etichetate inițial - mai ales dacă cineva a remarcat că cartea a fost în casa altcuiva în 2015, iar apoi un alt cititor interesat ar vedea un raport pentru 2015 și ar încerca să viziteze casa originală în 2021. Aceasta este situația care se dezvoltă în prezent pe internet.
Primele studii la scară largă privind prevalența dispariției legăturilor au început la sfârșitul anilor 1990. Unul dintre primii cercetători a fost Jakob Nielsen , un expert în performanța site-urilor web. În 1998, a raportat rezultatele unui studiu realizat de All Things Web, conform căruia aproximativ 6% dintre legăturile de pe Internet au fost întrerupte [31] [9] . Ulterior, profesorul Sally McMillan de la Universitatea din Tennessee a analizat un eșantion de site-uri din 1997-2000 și a constatat că 27% dintre URL-uri au dispărut la trei ani de la creare [29] . Analiza ulterioară a demonstrat că numărul de legături moarte crește liniar în timp. Așadar, în 2008, legăturile moarte erau prezente în 8,3% din adresele URL de resurse dintr-un eșantion semnificativ statistic de 579 de titluri. În 2009, link-uri rupte au fost găsite în 13,7% dintre URL-uri dintr-un eșantion de 680 de site-uri, iar în 2010, link-uri moarte reprezentau 22,4% din toate URL-urile dintr-un eșantion de 736 de link -uri [11] [9] . În 2021, o echipă de la Harvard Law School a colaborat cu jurnaliști de la The New York Times (NYT) pentru a realiza un studiu de viabilitate a citațiilor bazat pe versiuni online ale articolelor publicate de NYT. În total, au fost studiate peste 550.000 de publicații din 1996, care conțineau aproximativ 2,2 milioane de link-uri către site-uri terțe. Studiul a arătat că aproape un sfert din toate legăturile folosite în citare au încetat să funcționeze [1] [2] [3] [1] [2] [3] .
O serie de studii au fost dedicate problemei dispariției legăturilor. Ei au analizat articole științifice în care autorii s-au bazat pe surse de pe Internet. Un studiu din 2003 a constatat că aproximativ 13% dintre adresele URL publicate în primele trei reviste științifice s-au spart în douăzeci și șapte de luni de la publicarea unui articol. În 2008, un studiu al revistelor istorice a constatat că 38% dintre adresele URL citate au devenit inaccesibile în șapte ani de la publicarea unui articol, iar 10% au devenit inoperabile în câteva luni. Într-un eșantion de reviste științifice din Noua Zeelandă din 2002-2005, 30% dintre citările web au încetat să funcționeze până în 2006 [11] . În 2013, BMC Bioinformatics a efectuat o analiză a duratei de viață a legăturilor în literatura științifică. Cercetătorii Jason Hennessy și Steven Xijin Ge de la Universitatea din Dakota de Sud au analizat aproximativ 15.000 de citate în fragmente din Web of Science Citation Index . Ei au descoperit că durata medie de viață a paginilor web a fost de 9,3 ani și doar 62% dintre linkuri au fost arhivate [24] . Acest lucru i-a determinat pe cercetători la concluzia că rata de decădere a URL-urilor recente este mai mare decât a celor mai vechi [32] [16] [33] [7] . Cercetătorii au mai descoperit că într-un număr de reviste juridice publicate între 1999 și 2011, peste 70% dintre legături nu mai funcționau [24] [9] .
În 2008, o analiză trimestrială a patru ani de publicații de top a arătat că doar 61% din 416 citate online au fost reținute. 19% dintre notele de subsol online au conținut o eroare în adresa URL, iar 63% nu au inclus o dată de acces în citatul publicat. Dintre acele linkuri care erau încă active, doar 58% se potriveau cu conținutul citat [34] [35] [2] . În 2015, Herbert Van de Sompel, specialist în informații la Biblioteca Națională de Cercetare Los Alamos din New Mexico , a analizat peste 1 milion de link-uri web către site-uri web din aproximativ 3,5 milioane de lucrări publicate între 1997 și 2012. În articolele din 2012, 13% dintre hyperlinkurile din articolele arXiv.org și 22% dintre hyperlinkurile din articolele din revistele Elsevier erau moarte. Aproximativ 75% dintre link-uri nu au fost arhivate pe niciun portal în termen de două săptămâni de la data publicării articolului. Aceasta înseamnă că conținutul lor poate să nu mai reflecte originalul [36] [37] .
Un prim exemplu de amploare a dispariției legăturilor este proiectul The Million Dollar Homepage al lui Alex Tew . Portalul a fost lansat în 2005 pentru a ajuta Tew să strângă bani pentru învățământul universitar. Pentru a face acest lucru, a venit cu un site cu o grilă de 1000 pe 1000 de pixeli , de unde puteți cumpăra spațiu pentru a trimite site-ul dvs. pentru un dolar bucata. Cumpărătorii puteau plasa imagini mici ale site-urilor lor, care erau legate la o adresă URL și un slogan afișat la trecerea cursorului. Toți pixelii au fost vânduți la 138 de zile de la lansarea portalului. Până în 2014, 22% dintre pixelii paginii de pornire nu încărcau o pagină web [38] [39] .
Curtea Supremă a SUA a dezvoltat o practică de a cita surse permanente - de regulă, acestea erau cărți. Astfel de citate au permis avocaților și cercetătorilor să găsească, să înțeleagă și să evalueze probele și argumentele instanței. Cu toate acestea, din 1996, judecătorii au folosit din ce în ce mai mult link-uri și hyperlink-uri atunci când descriu hotărârile [40] [12] [41] . Potrivit unui studiu din 2013 al profesorului de la Facultatea de Drept de la Harvard , Jonathan Zittrain, aproximativ 49% dintre hyperlinkurile din deciziile Curții Supreme nu au funcționat [42] [43] [44] . Curtea se află în vârful ierarhiei instanțelor federale, definind legile țării și chiar influențând legile din jurisdicțiile internaționale, astfel încât referințele moarte în decizii pot fi deosebit de dăunătoare [45] . De exemplu, când judecătorul Samuel Alito s-a referit la o adresă URL într-un caz de violență în jocuri video în 2011, proprietarii domeniului au abandonat site-ul web și au lăsat acest mesaj pe acesta pentru a sublinia caracterul efemer al informațiilor postate pe internet [46] :
Nu vă bucurați că nu ați citat această pagină web în raportul Curții Supreme în Brown v. Interactive Entertainment Merchants Association , 131 S.Ct. 2729, 2749 nr.14 (2011). Dacă ați făcut asta, așa cum a făcut judecătorul Alito, conținutul original ar fi dispărut de mult și altcineva ar fi putut să vină și să cumpere domeniul pentru a comenta viteza informațiilor conexe în era Internetului.
Pentru a rezolva această problemă, toate materialele web citate în hotărârile judecătorești au început să fie arhivate pe hârtie. În plus, a fost creat un portal specializat, unde sunt stocate copii arhivate ale site-urilor [47] .
Probleme similare pot apărea la întocmirea protocoalelor - poliția se poate baza pe o înregistrare de la aparatele de înregistrare video publicate pe Internet , care poate fi ulterior ștearsă de proprietar. O altă întrebare este cât timp se păstrează datele în sistem - majoritatea departamentelor de poliție nu au capacități tehnice suficiente pentru a face față volumului de date primite [46] .
Stingerea legăturilor încalcă și subminează integritatea și baza de dovezi a cercetării științifice în toate domeniile [48] [33] [49] [50] . Încă din 1996, o treime din citările din revistele electronice evaluate de colegi nu erau disponibile, iar multe referințe de lucru nu conțineau informații complete - data extragerii lipsea, iar metadatele erau formatate incorect [51] . Potrivit unui studiu realizat în 2016, 75% dintre linkurile către conținut științific nu mai indică informațiile citate în text [52] . În același timp, numărul lucrărilor științifice care se referă la resursele de internet este în continuă creștere [32] . Unele reviste, cum ar fi Cancer Research , au început să interzică utilizarea URL-urilor în notele de subsol. Cu toate acestea, această practică este mai degrabă o excepție [30] .
Dispariția pe scară largă a legăturilor a dus și la o schimbare a practicilor bibliotecilor în materie de arhivare [9] . Dacă anterioare copiile pe hârtie erau considerate principala modalitate de stocare a informațiilor, iar versiunile lor online reprezentau o opțiune suplimentară, acum bibliotecile și editurile trec la formatul digital, considerând copiile tipărite învechite [15] . Multe biblioteci au început să creeze propriile arhive online cu acces permanent la materialele stocate [53] [54] .
Stingerea legăturilor este o parte integrantă a scenariului previzionat al epocii întunecate digitale - o situație în care va exista o pierdere de date electronice în absența echivalentelor lor pe hârtie. Susținătorii acestei teorii consideră că din cauza practicilor inadecvate de arhivare electronică și a descentralizării tot mai mari a internetului, există riscul de a pierde informații despre epoca noastră în viitor [55] [56] . Termenul epocă întunecată digitală a fost propus pentru prima dată în 1997, la o conferință internațională a Federației Internaționale a Asociațiilor și Instituțiilor de Biblioteci . Definiția se referă la epoca Evului Mediu , caracterizată prin absența aproape completă a dovezilor scrise [57] [58] [59] . Unul dintre cele mai comune exemple ale Epocii Întunecate Digitale este pierderea accesului la vechile unități și medii de stocare, inclusiv dischete , unități Zip și CD-uri [60] [61] [62] [63] [64] [65] .
Arhivarea electronică este una dintre principalele strategii de abordare a stingerii legăturilor [10] . Există mai multe proiecte majore în acest domeniu. În 1996, programatorul american Brewster Cale a fondat „ Arhiva Internet ” - o organizație non-profit care și-a propus să păstreze toate informațiile postate pe Internet, ceea ce nu era atât de mult în primii ani ai rețelei. Colecția Arhivă constă din sub- colecții de site-uri web arhivate , cărți digitalizate, fișiere audio și video, jocuri și software. În 2001, a fost lansat serviciul Wayback Machine , care, prin munca crawlerelor web , arhivează și oferă acces la majoritatea internetului deschis. În plus, serviciul permite utilizatorilor să compare diferite versiuni de editări. În octombrie 2021, WB a oferit acces la peste 580 de miliarde de pagini web salvate [66] [67] [68] [66] [69] . Stocarea datelor se realizează printr-un sistem de site-uri oglindă situate în locuri îndepărtate geografic [70] - în San Francisco , Richmond , Alexandria , Amsterdam . Pentru o stocare eficientă a fișierelor, „Arhive” folosește formatul de fișier de arhivă ( ARC ), care vă permite să salvați fișierele primite prin orice tip de protocol de rețea . Imaginile arhivate sunt afișate în format HTML , JavaScript și CSS [70] [24] [9] [32] .
De asemenea, la inițiativa Arhivei, a fost creat serviciul Archive It - un serviciu de arhivare web care permite persoanelor fizice și organizatorilor individuali să colecteze, să creeze și să salveze în mod independent colecții de materiale electronice. Începând cu octombrie 2021, utilizatorii pot accesa peste 200 de colecții despre istorie, cultură, știință, drepturile omului și alte subiecte importante din punct de vedere social [70] [24] [9] [32] .
Similar cu proiectul Wayback Machine este Perma.cc , un serviciu de arhivare creat de Harvard Law School Library din Cambridge, Massachusetts . În Perma.cc, puteți introduce o adresă URL și sistemul o va arhiva automat, creând un nou hyperlink pentru a stoca permanent materialul [36] [9] . Perma este folosit cel mai adesea în domeniul juridic pentru a păstra sursele citate [71] . Ghidul stilistic Bluebook , care este comun în SUA, încurajează arhivarea linkurilor [72] [73] . Cu toate acestea, unii cercetători indică potențiala vulnerabilitate a portalului, întrucât legislația actuală a drepturilor de autor nu acordă suficientă atenție existenței și funcționării arhivelor web [74] .
Proiectul open source Amber, creat de Berkman Klein Center for Internet & Society , vă permite să faceți instantanee ale fiecărei pagini asociate unui site web arhivat și să le salvați local sau pe o platformă centralizată, cum ar fi Internet Archive sau Perma. cc. Dacă proiectul constată că legătura este întreruptă sau nu funcționează corect la introducerea materialului în Amber, Amber sugerează arhivarea [9] [75] .
Pentru a combate dispariția legăturilor în domeniul științific , se utilizează Digital Object Identifier (DOI), dezvoltat de Organizația Internațională pentru Standardizare în 2000. DOI este un identificator persistent care funcționează ca o legătură către un anumit obiect, fie că este un articol, audio sau video [30] [32] . Odată atribuit un DOI, un obiect primește un link „permanent” care, spre deosebire de adresele URL, nu poate fi mutat sau șters. Mulți editori au adaptat sistemul [76] . DOI este stocat în registre specializate împreună cu metadate despre fiecare element individual. Citarea lucrărilor se realizează printr-un identificator numeric, și nu printr-un hyperlink. Un astfel de sistem vă permite să creați stabilitate în domeniul citării științifice - chiar dacă materialul este transferat la o nouă adresă URL, acesta va fi în continuare disponibil [77] . Potrivit diverselor estimări, cu ajutorul introducerii pe scară largă a DOI, este posibil să se prevină dispariția a 30-60% din legăturile din lucrările științifice [32] [78] [24] [77] . Cu toate acestea, DOI are un dezavantaj semnificativ - din cauza necesității de a plăti o taxă pentru înregistrarea lucrărilor, multe mici edituri nu își pot permite să implementeze sistemul [30] .