Normalizare URL

Normalizarea URL -ului  este procesul prin care URL-ul este adus într-o formă uniformă. Scopul procesului de normalizare este de a transforma un URL într-o formă normalizată pentru a determina echivalența a două URL-uri diferite sintactic. [unu]

Motoarele de căutare utilizează normalizarea adreselor URL pentru a reduce indexarea paginilor duplicate și pentru a clasifica paginile în ordinea importanței. Roboții de căutare efectuează normalizarea adreselor URL pentru a evita accesarea din nou cu crawlere a resursei. Browserele pot efectua normalizarea pentru a determina dacă a avut loc o vizită sau dacă o pagină este stocată în cache.

Există mai multe tipuri de normalizare care pot fi aplicate unei adrese URL: unele păstrează adresa inițială , altele nu păstrează .

Procesul de normalizare

Normalizări care păstrează ortografia originală

Metodele de normalizare enumerate mai jos sunt descrise în RFC 3986 [2] și au ca rezultat URL-uri echivalente.

HTTP://www.Example.com/→http://www.example.com/ http://www.example.com/a%c2%b1b→http://www.example.com/a%C2%B1b http://www.example.com/%7Eusername/→http://www.example.com/~username/ http://www.example.com:80/bar.html→http://www.example.com/bar.html

Normalizare cu păstrarea parțială a ortografiei originale

Pentru protocoalele http și https, următoarele normalizări RFC 3986 pot avea ca rezultat URL-uri echivalente, dar acest lucru nu este garantat de standard.

http://www.example.com/alice→http://www.example.com/alice/ Cu toate acestea, nu există nicio modalitate de a ști dacă URL-ul include sau nu o cale de director. RFC 3986 afirmă că, dacă URL-ul original redirecționează către o adresă URL normalizată, atunci acesta este un semn de echivalență . http://www.example.com/../a/b/../c/./d.html→http://www.example.com/a/c/d.html

Normalizări care schimbă ortografia

Sunt utilizate următoarele metode de normalizare, care duc la ortografie diferită a adreselor URL care duc la aceeași resursă:

http://www.example.com/default.asp→http://www.example.com/ http://www.example.com/a/index.html→http://www.example.com/a/ http://www.example.com/bar.html#section1→http://www.example.com/bar.html Cu toate acestea, aplicațiile AJAX folosesc adesea variabile în astfel de fragmente, iar ștergerea acestora poate duce la o redirecționare către o altă resursă. http://208.77.188.166/→http://www.example.com/ Înlocuirea inversă este rareori sigură datorită utilizării serverelor web virtuale. https://www.example.com/→http://www.example.com/ http://www.example.com/foo//bar.html→http://www.example.com/foo/bar.html http://www.example.com/→http://example.com/ http://www.example.com/display?lang=en&article=fred→http://www.example.com/display?article=fred&lang=en Cu toate acestea, ordinea parametrilor într-o adresă URL poate fi semnificativă (nu este definită de standarde), iar serverul web poate permite variabilelor să apară de mai multe ori. [patru] http://www.example.com/display?id=123&fakefoo=fakebar→http://www.example.com/display?id=123 Un parametru fără valoare nu înseamnă că parametrul nu este utilizat. http://www.example.com/display?id=&sort=ascending→http://www.example.com/display http://www.example.com/display?→http://www.example.com/display

Normalizare bazată pe liste de adrese URL

Unele reguli de normalizare pot fi dezvoltate pentru anumite site-uri web prin examinarea listelor de adrese URL obținute din scanările anterioare ale jurnalului sau ale jurnalelor de server. De exemplu, dacă adresa URL

http://foo.org/story?id=xyz

apare în jurnalul de jurnal de mai multe ori împreună cu

http://foo.org/story_xyz

se poate presupune că aceste două adrese URL sunt echivalente și pot fi normalizate într-una dintre forme.

Sconfeld et al., în 2006 [5] au introdus sistemul euristic DustBuster, care detectează DUST-uri (URL-uri diferite cu text similar), care sunt reguli care pot fi aplicate listelor de URL-uri. Ei au arătat că, odată ce regulile DUST potrivite au fost găsite și aplicate algoritmilor de normalizare, au fost capabili să găsească până la 68% dintre adresele URL redundante în listele de adrese URL.

Vezi și

Note

  1. RFC3986, 2005 , Secțiunea 6, p. 38.
  2. RFC3986, 2005 .
  3. RFC3986, 2005 , Secțiunea 2.3.
  4. Ben, 2009 .
  5. DUST2006, 2006 , pp. 1015-1016.

Literatură