Set de caractere

Versiunea actuală a paginii nu a fost încă revizuită de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită pe 15 mai 2017; verificările necesită 17 modificări .

Set de caractere ( Setul de caractere englezesc  ) - un tabel care specifică codificarea unui set finit de caractere alfabetice (de obicei elemente de text: litere, cifre, semne de punctuație). Un astfel de tabel potrivește fiecare caracter cu o secvență de unul sau mai multe caractere dintr-un alt alfabet (puncte și liniuțe în cod Morse , steaguri de semnal în Marina , zerouri și unu ( biți ) în computer).

Set de caractere pentru computer

Caracterele dintr-un computer sunt de obicei codificate în unul sau mai mulți octeți (grupuri de opt biți).

Deși termenul „set de caractere” ( eng.  set de caractere, set de caractere ), legitimat de standardul Internet RFC 2278 , este acum poate cel mai autorizat termen, termenul de „codificare” care l-a precedat ( eng.  codificare ) este încă folosit ca un sinonim, în special, în limbajele de programare Java [1] , Perl [2] și XSLT [3] , precum și în HTML [4] .

Adesea, în loc de termenul „set de caractere”, termenul „ pagină de cod ” este folosit incorect, ceea ce înseamnă de fapt un caz special al unui set de caractere cu o codificare pe un singur octet.

În prezent, sunt utilizate trei tipuri de codificări: compatibile ASCII , compatibile EBCDIC și codificări pe 16 biți bazate pe Unicode , prima predominând în mod covârșitor. Reprezentarea UTF-8 a Unicode este compatibilă cu ASCII. Codificările bazate pe EBCDIC (cum ar fi DCOI ) sunt folosite numai pe unele mainframe . Inițial, fiecare sistem de operare folosea un set de caractere. Acum seturile de caractere folosite sunt standardizate [5] , depind de tipul de sistem de operare doar prin tradiție și sunt setate în funcție de local .

Wikipedia și alte proiecte ale Fundației Wikimedia folosesc UTF-8 Unicode.

Platformele moderne de calcul pe 8 biți sunt caracterizate de cantități mici de RAM și ROM; codificări multiocteți în astfel de produse nu au primit o distribuție semnificativă. Motivul pentru aceasta nu este doar volumul mai mare ocupat de datele text prezentate într-o codificare pe mai mulți octeți, ci și lipsa memoriei „extra” pentru stocarea unei reprezentări grafice a caracterelor suplimentare, precum și dificultatea procesării unor astfel de șiruri. Următoarele codificări standard pe un singur octet sunt utilizate în mod obișnuit astăzi:

Recunoaștere automată a codificării

Multe editoare de text și browsere moderne au o funcție de recunoaștere automată a codificării, dar nu oferă întotdeauna rezultatul corect. Uneori se întâmplă ca textul tastat, de exemplu, pe linia de comandă sau în unele programe, să fie decodat incorect, iar în locul cuvintelor normale să se obțină un set de caractere de neînțeles. Un număr mare de decodoare de text care funcționează online vă pot ajuta să faceți față citirii unui astfel de text.

Pentru codificări pe un singur octet, trebuie să țineți cont de faptul că frecvența de utilizare a diferitelor litere variază foarte mult (de exemplu, în rusă „o” este adesea folosit, dar „ъ” este rar folosit). Prin urmare, cunoscând limba textului, puteți alege cu ușurință o codificare în care frecvența octeților se potrivește mai bine cu frecvența literelor dintr-o anumită limbă. [6]

Un punct de vedere alternativ consideră că astfel de algoritmi euristici pentru determinarea codificării textului sunt dăunători, deoarece tehnologiile informaționale moderne au mijloacele de a potrivi fără ambiguitate textul cu pagina sa de cod (vezi, de exemplu, MIME ). Utilizarea pe scară largă a analizoarelor euristice încurajează utilizarea programelor de calitate scăzută pentru crearea de date text care încalcă standardele.

Codificări comune

Vezi și

Link -uri

Note

  1. Lista cu „codificări” majore din manualul Java SE 6 . Data accesului: 27 septembrie 2008. Arhivat din original la 16 decembrie 2008.
  2. Discuție despre „codări” în documentația limbajului Perl . Consultat la 27 septembrie 2008. Arhivat din original la 6 octombrie 2008.
  3. Discuție despre „codări” în documentația XSLT . Consultat la 5 octombrie 2008. Arhivat din original la 13 august 2017.
  4. Discuție despre relația dintre termenii „codificare” și „set de caractere” din documentația HTML . Consultat la 11 octombrie 2008. Arhivat din original pe 26 octombrie 2008.
  5. Specificațiile setului de caractere pe site-ul IANA . Consultat la 27 septembrie 2008. Arhivat din original pe 16 iulie 2004.
  6. Decodor universal - convertor chirilic . Data accesului: 4 decembrie 2014. Arhivat din original pe 28 decembrie 2014.