Set de caractere ( Setul de caractere englezesc ) - un tabel care specifică codificarea unui set finit de caractere alfabetice (de obicei elemente de text: litere, cifre, semne de punctuație). Un astfel de tabel potrivește fiecare caracter cu o secvență de unul sau mai multe caractere dintr-un alt alfabet (puncte și liniuțe în cod Morse , steaguri de semnal în Marina , zerouri și unu ( biți ) în computer).
Caracterele dintr-un computer sunt de obicei codificate în unul sau mai mulți octeți (grupuri de opt biți).
Deși termenul „set de caractere” ( eng. set de caractere, set de caractere ), legitimat de standardul Internet RFC 2278 , este acum poate cel mai autorizat termen, termenul de „codificare” care l-a precedat ( eng. codificare ) este încă folosit ca un sinonim, în special, în limbajele de programare Java [1] , Perl [2] și XSLT [3] , precum și în HTML [4] .
Adesea, în loc de termenul „set de caractere”, termenul „ pagină de cod ” este folosit incorect, ceea ce înseamnă de fapt un caz special al unui set de caractere cu o codificare pe un singur octet.
În prezent, sunt utilizate trei tipuri de codificări: compatibile ASCII , compatibile EBCDIC și codificări pe 16 biți bazate pe Unicode , prima predominând în mod covârșitor. Reprezentarea UTF-8 a Unicode este compatibilă cu ASCII. Codificările bazate pe EBCDIC (cum ar fi DCOI ) sunt folosite numai pe unele mainframe . Inițial, fiecare sistem de operare folosea un set de caractere. Acum seturile de caractere folosite sunt standardizate [5] , depind de tipul de sistem de operare doar prin tradiție și sunt setate în funcție de local .
Wikipedia și alte proiecte ale Fundației Wikimedia folosesc UTF-8 Unicode.
Platformele moderne de calcul pe 8 biți sunt caracterizate de cantități mici de RAM și ROM; codificări multiocteți în astfel de produse nu au primit o distribuție semnificativă. Motivul pentru aceasta nu este doar volumul mai mare ocupat de datele text prezentate într-o codificare pe mai mulți octeți, ci și lipsa memoriei „extra” pentru stocarea unei reprezentări grafice a caracterelor suplimentare, precum și dificultatea procesării unor astfel de șiruri. Următoarele codificări standard pe un singur octet sunt utilizate în mod obișnuit astăzi:
Multe editoare de text și browsere moderne au o funcție de recunoaștere automată a codificării, dar nu oferă întotdeauna rezultatul corect. Uneori se întâmplă ca textul tastat, de exemplu, pe linia de comandă sau în unele programe, să fie decodat incorect, iar în locul cuvintelor normale să se obțină un set de caractere de neînțeles. Un număr mare de decodoare de text care funcționează online vă pot ajuta să faceți față citirii unui astfel de text.
Pentru codificări pe un singur octet, trebuie să țineți cont de faptul că frecvența de utilizare a diferitelor litere variază foarte mult (de exemplu, în rusă „o” este adesea folosit, dar „ъ” este rar folosit). Prin urmare, cunoscând limba textului, puteți alege cu ușurință o codificare în care frecvența octeților se potrivește mai bine cu frecvența literelor dintr-o anumită limbă. [6]
Un punct de vedere alternativ consideră că astfel de algoritmi euristici pentru determinarea codificării textului sunt dăunători, deoarece tehnologiile informaționale moderne au mijloacele de a potrivi fără ambiguitate textul cu pagina sa de cod (vezi, de exemplu, MIME ). Utilizarea pe scară largă a analizoarelor euristice încurajează utilizarea programelor de calitate scăzută pentru crearea de date text care încalcă standardele.
Codificarea caracterelor | |
---|---|
Codificări istorice | comp. suplimentare semafor (Makarov) morse Bodo MTK-2 comp. 6 biți SCP RADIX-50 EBCDIC KOI-7 ISO 646 |
reprezentare modernă pe 8 biți | simboluri ASCII non-ASCII Pagini de cod pe 8 biți chirilic KOI-8 Codificare de bază MacCyrillic ISO 8859 1 (lat.) 2 3 patru 5 (chir.) 6 7 opt 9 zece unsprezece 12 13 paisprezece 15 (€) 16 Windows 1250 1251 (Kir.) 1252 1253 1254 1255 1256 1257 1258 WGL4 IBM și DOS 437 850 852 855 866 „alternativă” MIC |
Multiocteți | tradiţional DBCS GB2312 HTML unicode UTF-32 UTF-16 UTF-8 lista de caractere chirilic |
interfața cu utilizatorul dispunerea tastaturii local traducere de linie font transliterare fonturi personalizate utilitati iconv record |
Turnătorie de tip și proiectare de tip | |||||||||
---|---|---|---|---|---|---|---|---|---|
Concepte | |||||||||
Structura fontului |
| ||||||||
Caracteristicile fontului | |||||||||
Clasificarea fonturilor alfabetice |
| ||||||||
Stiluri de font | |||||||||
Unități | |||||||||
tipografie computerizată | |||||||||
Vezi si Editura Tipografie Tipografie Kit Aspect Imprimare |