Datele text (de asemenea, formatul text ) sunt o reprezentare a informațiilor de tip șir (adică o secvență de caractere tipărite ) într-un sistem de calcul . În MIME , datele codificate în acest fel corespund tipului text/plain.
Adesea, datele textuale sunt înțelese într-un sens mai restrâns - ca text în orice limbă ( formală sau naturală ), care poate fi citit și înțeles de către o persoană.
Formatul text se opune „ datelor binare ”, informația în care este codificată într-un mod arbitrar, nu conceput pentru percepția umană.
Pentru majoritatea hardware -ului și software -ului computerelor , nu contează dacă datele sunt text. Cu toate acestea, multe protocoale de rețea sunt proiectate să funcționeze numai cu date text și nu pot gestiona o secvență arbitrară de octeți. De asemenea, unele programe procesează text și datele binare în mod diferit, iar unele sunt concepute pentru a procesa în mod specific datele text. Programele pentru crearea și editarea datelor text sunt numite editori de text .
Datele text sunt de obicei o secvență a unui subset de caractere care include doar caractere tipărite ( litere , cifre , semne de punctuație ) și unele caractere de control ( spații , tabulaturi , linii noi). Există metode (de exemplu, UUENCODE sau Base64 ) care vă permit să codificați date arbitrare de orice format în format text, care este adesea folosit pentru a codifica date binare.
Cerința de înțelegere umană a conținutului introduce redundanță suplimentară în reprezentarea datelor. De exemplu, numărul 123, pentru care un octet de 8 biți este suficient pentru codare, este codificat sub formă de text de mai multe caractere digitale - de exemplu, în sistemul de numere zecimal , acest lucru necesită trei cifre ("123"), în binar - șapte cifre ("1111011"), în hexazecimal - două ("7B").
Formatul text nu vă permite să utilizați comenzi de formatare a textului, să gestionați atributele fontului, să marcați conținutul [1] .
Datele text pot fi împărțite în linii. În unele sisteme de operare (în principal familia UNIX ), ruperea de linie este codificată cu un caracter de control cu codul 10 în tabelul ASCII (nume - Line Feed, LF), pe altele (de exemplu, în MS-DOS și Microsoft Windows ) - o pereche de caractere de control cu codurile 13 și 10 (Carriage Return și Line Feed, CR/LF). Pe Mac OS (dar nu Mac OS X ), diviziunea este codificată cu un singur caracter, codul 13.
Această împărțire prin caractere sau caractere de control este dictată de modul în care funcționau mașinile de scris prin care se făcea introducerea în unele computere timpurii - poziția de introducere acolo era indicată de poziția rolei cu hârtie și rotirea rolei și trecerea la linia următoare. este necesară apăsarea uneia sau a două taste sau pârghii.
De asemenea, caracterele de întrerupere de linie au fost folosite pentru a controla imprimantele mecanice (care ar putea fi aceleași mașini de scris folosite pentru introducere) - caracterul LF a făcut ca rola de hârtie să se deruleze, iar caracterul CR a făcut ca căruciorul de imprimare să se întoarcă (unde se aflau) în începutul liniei. De aici și numele semnelor - engleză. Line Feed (line feed) și engleză. Întoarcerea căruciorului .
Pe unele platforme, ruperea de linie a fost făcută diferit - textul a fost prezentat ca o secvență de înregistrări cu lungime fixă, pentru care liniile mai scurte au fost suplimentate cu numărul necesar de spații. Acest lucru corespundea prezentării datelor pe carduri perforate , care a servit ca mijloc de introducere și chiar de stocare a datelor care aveau o lățime fixă (de exemplu, 80 de poziții - coloane).
Scopul principal al utilizării datelor text este un „numitor comun”, independența față de programele individuale care necesită propria codare sau formatare și sunt incompatibile cu alte programe. Fișierele text (fișierele în format text) pot fi deschise, citite și editate în orice editor de text, cum ar fi Editor MS-DOS ( DOS ), Notepad ( Windows ), ed , vi și vim ( UNIX , Linux ), SimpleText , TextEdit ( Mac OS X ) și așa mai departe. Alte programe sunt, de asemenea, în general capabile să citească și să importe date text. De asemenea, puteți vizualiza fișiere text cu comenzi încorporate ( typeîn DOS și Windows) și utilitare ( catîn Unix).
Formatul text este adesea folosit pentru a reprezenta date care nu sunt în sine text pur. În acest caz, alte formate de date sunt „construite deasupra” textului simplu, scop în care constructele lor de control sunt exprimate în cuvinte tipărite și semne de punctuație. Acest lucru oferă două niveluri de confort pentru lucrul cu date - de exemplu, datele HTML și XML pot fi vizualizate și editate cu formatarea WYSIWYG afișată sau le puteți deschide într-un editor de text obișnuit și aveți acces la toate complexitățile limbajului de marcare. Atunci când datele sunt stocate într-o formă „binară” (cum se face, de exemplu, în versiunile anterioare ale Microsoft Word ), este adesea imposibil să lucrați cu ele în alte programe (din cauza indisponibilității informațiilor despre structura formatului) sau chiar și în versiuni diferite ale aceluiași program.
Majoritatea limbajelor de programare presupun utilizarea unui format text pentru codul sursă al programului . Printre altele, acest lucru vă permite să aplicați diverse utilități la codurile sursă pentru transformări, formatare, căutare, statistici, analize etc.
Multe fișiere de configurare ale programelor folosesc un format text, chiar dacă conțin numere și comutatoare binare (da/nu). Acest lucru complică oarecum programele din cauza necesității de a converti datele text într-un format intern și invers, dar devine posibilă editarea manuală a configurației, fără a utiliza instrumentele de configurare ale programului în sine.
Este dificil să indicați o anumită parte a textului stocat în formatul de date text. Numerele de linie sau numerele de caractere [2] pot fi folosite ca indicatori .
Termenul text simplu ( eng. text simplu ; arată foarte asemănător cu termenul eng. text simplu , folosit pentru a desemna date text) este utilizat pe scară largă în criptografie și înseamnă orice date necriptate, inclusiv date non-text. Termenul text clar este folosit și în criptografie și înseamnă date necriptate, care sunt, de asemenea, de înțeles de către o persoană și nu sunt protejate de „interceptări” în timpul transmiterii.
Tipuri de date | |
---|---|
Ininterpretabil | |
Numeric | |
Text | |
Referinţă | |
Compozit | |
abstract |
|
Alte | |
subiecte asemănătoare |