URL

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită pe 16 octombrie 2022; verificările necesită 2 modificări .

Uniform Resource Locator (din engleză  Uniform Resource Locator , abreviat URL [ ˌ   j u ː ɑ ː r ˈ e l ]) este un sistem de adrese unificate de resurse electronice sau un identificator de locație uniform de resurse ( fișier ) [1] .   

Folosit ca standard pentru scrierea de link-uri către obiecte de pe Internet ( Link-uri hipertext pe World Wide Web www ).

Pentru a desemna o adresă electronică, abrevierea „URL” este utilizată în conformitate cu GOST R 7.0.5-2008.

Istorie

URL-ul a fost inventat de Tim Berners-Lee în 1990 , în cadrul zidurilor Consiliului European pentru Cercetare Nucleară ( franceză:  Conseil Européen pour la Recherche Nucléaire, CERN ) din Geneva , Elveția . URL-ul a devenit o inovație fundamentală pe Internet. URL-ul a fost inițial destinat să se refere la locația resurselor (cel mai adesea fișiere) pe World Wide Web . Acum URL-ul este folosit pentru a se referi la adresele aproape tuturor resurselor de pe Internet. Standardul URL este fixat în documentul miswkt@86hfkr@~|~[✓]qaq. URL-ul este acum poziționat ca parte a unui sistem URI de identificare a resurselor mai general , termenul URL în sine cedând treptat locul termenului mai larg URI . Standardul URL este guvernat de IETF și de filialele sale.

În 2009, Tim Berners-Lee a comentat redundanța plifoy //la începutul unui URL, după ce a specificat protocolul de rețea [2] [3] .

Structura URL

URL-ul a fost conceput ca un sistem pentru a indica locația resurselor de pe web cât mai natural posibil. Localizatorul trebuia să fie ușor extensibil și să folosească doar un set limitat de caractere ASCII (de exemplu, un spațiu nu este niciodată folosit într-o adresă URL ). În acest sens, a apărut următoarea formă tradițională de înregistrare URL:

<схема>:[//[<логин>[:<пароль>]@]<хост>[:<порт>]][/<URL‐путь>][?<параметры>][#<якорь>]

În această intrare:

schema schema de acces la resurse; în cele mai multe cazuri, înseamnă protocolul de rețea autentificare numele de utilizator folosit pentru a accesa resursa parola parola utilizatorului specificat gazdă numele de domeniu complet calificat al gazdei în sistemul DNS sau adresa IP a gazdei sub forma a patru grupuri de numere zecimale separate prin puncte; numerele sunt numere întregi în intervalul de la 0 la 255. port portul gazdă pentru conectare Calea URL clarificarea informațiilor despre localizarea resursei; dependent de protocol. parametri șir de interogare cu parametrii trecuți la server ( folosind metoda GET ). Începe cu caracter ?, separatorul de parametri este caracter &. Exemplu:?параметр_1=значение_1&параметр_2=значение_2&параметр3=значение_3 ancora identificatorul ancoreiprecedat de un #. Ancora poate fi un titlu în document sau un atribut idelement. Folosind un astfel de link, browserul va deschide pagina și va muta fereastra la elementul specificat. De exemplu, un link către această secțiune a articolului https://ru.wikipedia.org/wiki/URL#Структура_URL:.

Adresa URL a schemelor (protocoalelor)

Schemele comune de adrese URL (protocoale) includ:

  • ftp - protocol de transfer de fișiere FTP
  • http - protocol de transfer hipertext HTTP
  • rtmp este un protocol proprietar de mesagerie în timp real, utilizat în principal pentru a transmite în flux video și audio de la camerele web prin Internet.
  • rtsp este un protocol de streaming în timp real.
  • https este o implementare specială a protocolului HTTP care utilizează criptare (de obicei SSL sau TLS )
  • gopher - protocol Gopher
  • mailto - adresa de e -mail
  • știri - știri Usenet
  • nntp - Știri Usenet prin protocolul NNTP
  • irc - protocol IRC
  • smb - protocol SMB /CIFS
  • prospero - Prospero Directory Service
  • telnet - link către o sesiune Telnet interactivă
  • wais - baza de date a sistemului WAIS
  • xmpp - protocol XMPP (parte din Jabber )
  • fișier - nume de fișier local
  • date - date imediate ( Date: URL )
  • tel - suna la telefonul specificat

Scheme de adrese URL exotice:

Scheme URL în browsere:

Codificare URL

Standardul URL utilizează setul de caractere US - ASCII . Acest lucru are un dezavantaj serios, deoarece sunt permise numai literele, cifrele și câteva semne de punctuație latine. Toate celelalte caractere trebuie să fie recodate. De exemplu, literele chirilice , literele cu semne diacritice , ligaturile , hieroglifele ar trebui recodificate . Codificarea transcodării este descrisă în RFC 3986 și se numește codificare URL, codificare URL sau codificare procentuală .

Un exemplu de codificare poate fi văzut în Wikipedia în limba rusă , care folosește limba rusă în adresa URL . De exemplu, o linie ca:

https://ru.wikipedia.org/wiki/Wikipedia

codificat ca:

https://en.wikipedia.org/wiki/%D0%92%D0%B8%D0%BA%D0%B8%D0%BF%D0%B5%D0%B4%D0%B8%D1%8F

Implementare

Conversia are loc în două etape: în primul rând, fiecare caracter chirilic este codificat în UTF-8 într-o secvență de doi octeți, apoi fiecare octet din această secvență este scris în notație hexazecimală precedat de un semn de procente (%):

B → D0 și 92 → %D0%92 și → D0 și B8 → %D0%B8 la → D0 și BA → %D0%BA și → D0 și B8 → %D0%B8 etc. Caractere rezervate [5]
! * ' ( ) ; : @ & = + $ , / ? # [ ]
Caractere nerezervate [5]
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
a b c d e f g h i j k l m n o p q r s t u v w x y z
0 1 2 3 4 5 6 7 8 9 - _ . ~

Toate celelalte caractere din URI sunt codificate.

Caracterele rezervate sunt codificate după cum urmează:

! " # [6] $ % & [6] ' * + , [6] : [6] ; [6] < = [6] > ? [6] [ ] ^ ` { | } <spațiu>
%21 %22 %23 %24 %25 %26 %27 %2A %2B %2C %3A %3B %3C %3D %3E %3F %5B %5D %5E %60 %7B %7C %7D %20 [7]

Codificarea parametrilor în Internet Explorer și vechiul Firefox este ușor diferită [8] .

În unele cazuri, URL-ul este generat folosind codificarea Base58 [9] .

Standard IRI

Deoarece literele tuturor alfabetelor sunt supuse unei astfel de transformări, cu excepția alfabetului latin de bază , adresa URL cu cuvintele marii majorități a limbilor poate deveni imposibil de citit pentru o persoană.

Toate acestea sunt în conflict cu principiul internaţionalismului proclamat de toate organizaţiile de conducere ale Internetului , inclusiv W3C şi ISOC . Standardul IRI ( Internationalized Resource Identifier ) ​​este conceput pentru a rezolva această problemă - identificatori internaționali de resurse în care caracterele Unicode ar putea fi utilizate fără probleme și, prin urmare, nu ar încălca drepturile altor limbi . Deși este greu de spus în avans dacă IRI-urile vor putea vreodată să înlocuiască astfel de adrese URL utilizate pe scară largă (și URI -urile în general).  

Limita de lungime

În mod oficial, lungimea URL-ului este nelimitată, dar browserele au limite privind lungimea URL-ului. Nu este recomandat să utilizați o adresă URL mai lungă de 2048 de caractere, deoarece Microsoft Internet Explorer are această limitare [10] .

PURL Initiative

Un alt dezavantaj cardinal al URL-urilor este lipsa lor de flexibilitate. Resursele de pe World Wide Web și de pe Internet sunt mutate, dar link -urile sub formă de URL-uri rămân, care indică resurse care nu mai există. Acest lucru este deosebit de dureros pentru biblioteci electronice, cataloage și enciclopedii. Pentru a rezolva această problemă, au fost propuse PURL -uri ( Persistent Uniform Resource Locators ) .  În esență, acestea sunt aceleași adrese URL, dar nu indică către o locație specifică a resursei, ci către o intrare din baza de date PURL, unde, la rândul său, este deja înregistrată o anumită adresă URL a resursei. Când accesează PURL, serverul găsește intrarea necesară în această bază de date și redirecționează cererea către o anumită locație a resursei. Dacă adresa resursei se modifică, atunci nu este nevoie să remediați toate nenumăratele referințe la aceasta - doar schimbați intrarea în baza de date. În prezent, această idee nu este standardizată și nu este utilizată pe scară largă.

Vezi și

Note

  1. URL (Uniform Resource Locator) - Uniform Resource Locator. Adresa unei resurse informaționale (fișier) pe Internet - O colecție de acronime din domeniul tehnologiei și programării computerelor . 2006.
  2. Bară oblică dublă în adresele de internet a apărut din cauza grăbirii creatorului său . RIA Novosti (14-10-2009 19:05). Preluat la 11 iulie 2010. Arhivat din original la 25 august 2011.
  3. Creatorul internetului regretă dubla oblică . 3DNews Daily Digital Digest (14 octombrie 2009). Consultat la 26 februarie 2020. Arhivat din original pe 26 februarie 2020.
  4. Adresa URL Chrome . Preluat la 9 decembrie 2014. Arhivat din original la 21 octombrie 2014.
  5. 1 2 RFC 3986 , secțiunea 2.2
  6. 1 2 3 4 5 6 7 Simbolul este valid, dar atunci când este specificat în text simplu, are o semnificație sintactică specială
  7. MediaWiki evită codificarea spațiilor albe ca %20, în schimb înlocuindu-l cu liniuța de subliniere „_” peste tot. Multe motoare de căutare înlocuiesc spațiul cu simbolul „+”.
  8. HTTP, RFC 3986 și browsere
  9. Servicii Flickr . Consultat la 19 septembrie 2014. Arhivat din original la 12 august 2014.
  10. Lungimea maximă a unei adrese URL în Internet Explorer este de 2083 de caractere . microsoft.com. Preluat la 10 mai 2015. Arhivat din original la 15 noiembrie 2016.

Link -uri