Set de caractere

Versiunea actuală a paginii nu a fost încă revizuită de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită pe 15 mai 2017; verificările necesită 17 modificări .

Set de caractere ( Setul de caractere englezesc ) - un tabel care specifică codificarea unui set finit de caractere alfabetice (de obicei elemente de text: litere, cifre, semne de punctuație). Un astfel de tabel potrivește fiecare caracter cu o secvență de unul sau mai multe caractere dintr-un alt alfabet (puncte și liniuțe în cod Morse , steaguri de semnal în Marina , zerouri și unu ( biți ) în computer).

Set de caractere pentru computer

Caracterele dintr-un computer sunt de obicei codificate în unul sau mai mulți octeți (grupuri de opt biți).

Deși termenul „set de caractere” ( eng. set de caractere, set de caractere ), legitimat de standardul Internet RFC 2278 , este acum poate cel mai autorizat termen, termenul de „codificare” care l-a precedat ( eng. codificare ) este încă folosit ca un sinonim, în special, în limbajele de programare Java [1] , Perl [2] și XSLT [3] , precum și în HTML [4] .

Adesea, în loc de termenul „set de caractere”, termenul „ pagină de cod ” este folosit incorect, ceea ce înseamnă de fapt un caz special al unui set de caractere cu o codificare pe un singur octet.

În prezent, sunt utilizate trei tipuri de codificări: compatibile ASCII , compatibile EBCDIC și codificări pe 16 biți bazate pe Unicode , prima predominând în mod covârșitor. Reprezentarea UTF-8 a Unicode este compatibilă cu ASCII. Codificările bazate pe EBCDIC (cum ar fi DCOI ) sunt folosite numai pe unele mainframe . Inițial, fiecare sistem de operare folosea un set de caractere. Acum seturile de caractere folosite sunt standardizate [5] , depind de tipul de sistem de operare doar prin tradiție și sunt setate în funcție de local .

Wikipedia și alte proiecte ale Fundației Wikimedia folosesc UTF-8 Unicode.

Platformele moderne de calcul pe 8 biți sunt caracterizate de cantități mici de RAM și ROM; codificări multiocteți în astfel de produse nu au primit o distribuție semnificativă. Motivul pentru aceasta nu este doar volumul mai mare ocupat de datele text prezentate într-o codificare pe mai mulți octeți, ci și lipsa memoriei „extra” pentru stocarea unei reprezentări grafice a caracterelor suplimentare, precum și dificultatea procesării unor astfel de șiruri. Următoarele codificări standard pe un singur octet sunt utilizate în mod obișnuit astăzi:

În programe în limba engleză - CP437 ;
În programele în limba rusă, sunt utilizate următoarele opțiuni:
- CP866 - folosit mai des de inginerii mai experimentați care au început să lucreze în DOS; vă permite să desenați „cadre” pseudografice, dar necesită stocarea codului sursă al software-ului în această pagină de cod special, ceea ce poate fi dificil pentru începători;
- CP1251 - folosit dacă este necesar să existe caractere rusești într-o matrice continuă pentru ușurința procesării, iar dacă Windows este disponibil, un astfel de text poate fi transcodat fără a utiliza software terță parte. Dar, nu vă permite să desenați „cadre”.

Recunoaștere automată a codificării

Multe editoare de text și browsere moderne au o funcție de recunoaștere automată a codificării, dar nu oferă întotdeauna rezultatul corect. Uneori se întâmplă ca textul tastat, de exemplu, pe linia de comandă sau în unele programe, să fie decodat incorect, iar în locul cuvintelor normale să se obțină un set de caractere de neînțeles. Un număr mare de decodoare de text care funcționează online vă pot ajuta să faceți față citirii unui astfel de text.

Pentru codificări pe un singur octet, trebuie să țineți cont de faptul că frecvența de utilizare a diferitelor litere variază foarte mult (de exemplu, în rusă „o” este adesea folosit, dar „ъ” este rar folosit). Prin urmare, cunoscând limba textului, puteți alege cu ușurință o codificare în care frecvența octeților se potrivește mai bine cu frecvența literelor dintr-o anumită limbă. [6]

Un punct de vedere alternativ consideră că astfel de algoritmi euristici pentru determinarea codificării textului sunt dăunători, deoarece tehnologiile informaționale moderne au mijloacele de a potrivi fără ambiguitate textul cu pagina sa de cod (vezi, de exemplu, MIME ). Utilizarea pe scară largă a analizoarelor euristice încurajează utilizarea programelor de calitate scăzută pentru crearea de date text care încalcă standardele.

Codificări comune

ISO 646
- ASCII
BCDIC
EBCDIC
ISO 8859 :
- ISO 8859-1 , ISO 8859-2 , ISO 8859-3 , ISO 8859-4 , ISO 8859-5 , ISO 8859-6 , ISO 8859-7 , ISO 8859-8 , ISO 8859-9 , ISO 8859- ISO 8859-11 , ISO 8859-13 , ISO 8859-14 , ISO 8859-15
- CP437 , CP737 , CP850 , CP852 , CP855 , CP857 , CP858 , CP860 , CP861 , CP863 , CP865 , CP866 , CP869
Codări Microsoft Windows :
- Windows-1250 pentru limbile din Europa Centrală care folosesc caractere latine (poloneză, cehă, slovacă, maghiară, slovenă, croată, română și albaneză)
- Windows-1251 pentru alfabete chirilice
- Windows-1252 pentru limbile occidentale
- Windows-1253 pentru greacă
- Windows-1254 pentru turcă
- Windows-1255 pentru ebraică
- Windows-1256 pentru arabă
- Windows-1257 pentru limbile baltice
- Windows-1258 pentru vietnamezi
MacRoman , MacCyrillic
KOI8 (KOI8-R, KOI8-U…), KOI-7
codificare bulgară
ISCII
VISCII
Big5 (cea mai faimoasă variantă a Microsoft CP950 )
- HKSCS
Guobiao
- GB2312
- GBK (Microsoft CP936 )
- GB18030
Shift JIS pentru japoneză (Microsoft CP932 )
EUC-KR pentru coreeană (Microsoft CP949 )
ISO-2022 și EUC pentru scrierea chineză
Codificările UTF -8 , UTF-16 și UTF-32 ale setului de caractere Unicode

Vezi și

Link -uri

Codurile de caractere Unicode la unicode.org

Note

↑ Lista cu „codificări” majore din manualul Java SE 6 . Data accesului: 27 septembrie 2008. Arhivat din original la 16 decembrie 2008. (nedefinit)
↑ Discuție despre „codări” în documentația limbajului Perl . Consultat la 27 septembrie 2008. Arhivat din original la 6 octombrie 2008. (nedefinit)
↑ Discuție despre „codări” în documentația XSLT . Consultat la 5 octombrie 2008. Arhivat din original la 13 august 2017. (nedefinit)
↑ Discuție despre relația dintre termenii „codificare” și „set de caractere” din documentația HTML . Consultat la 11 octombrie 2008. Arhivat din original pe 26 octombrie 2008. (nedefinit)
↑ Specificațiile setului de caractere pe site-ul IANA . Consultat la 27 septembrie 2008. Arhivat din original pe 16 iulie 2004. (nedefinit)
↑ Decodor universal - convertor chirilic . Data accesului: 4 decembrie 2014. Arhivat din original pe 28 decembrie 2014. (nedefinit)

Codificarea caracterelor
alfabet text fişier date set de caractere conversie
Codificări istorice	comp. suplimentare semafor (Makarov) morse Bodo MTK-2 comp. 6 biți SCP RADIX-50 EBCDIC DKOI KOI-7 ISO 646
reprezentare modernă pe 8 biți	simboluri ASCII managerii tipărite non-ASCII pseudografice Pagini de cod pe 8 biți chirilic KOI-8 Codificare de bază MacCyrillic ISO 8859 1 (lat.) 2 3 patru 5 (chir.) 6 7 opt 9 zece unsprezece 12 13 paisprezece 15 (€) 16 Windows 1250 1251 (Kir.) 1252 1253 1254 1255 1256 1257 1258 WGL4 IBM și DOS 437 850 852 855 866 „alternativă” MIC
Multiocteți	tradiţional DBCS GB2312 HTML unicode UTF-32 UTF-16 UTF-8 lista de caractere chirilic
interfața cu utilizatorul dispunerea tastaturii local traducere de linie font transliterare fonturi personalizate utilitati iconv record

Turnătorie de tip și proiectare de tip

Concepte

Structura fontului

Caracteristicile fontului

Deschidere
Aprosh
kerning
Creștere cu litere mici
Creșterea capitalului
creșterea fontului
punct de font
Skittle
- Listă
Proporții
Saturare

Clasificarea fonturilor
alfabetice

vechi	Mayuscule Minuscul minuscul carolingian Uncial Stilul insular scriere gaelică
gotic	scrierea neogotică Rotunda Textură Fractură Schwabacher
slavă	Ulm Glagolitic Font civic Semi-charter Cursiv Cartă
Modern	Antiqua Grotesc Monospațial / Proporțional Pătrat scris de mana afişa bulgară

Stiluri de font

Unități

tipografie computerizată

Vezi si Editura Tipografie Tipografie Kit Aspect Imprimare