Fisier text | |
---|---|
tip MIME | text / simplu |
Opus | fișier binar și fișier grafic |
Extensie de fișier | .txtsau.text |
Fișiere media la Wikimedia Commons |
Un fișier text este un fișier de computer care conține date text . Fișierele text sunt opuse fișierelor binare (binare) , care conțin date care nu sunt concepute pentru a fi interpretate ca text (de exemplu, fișiere care stochează text într-o formă codificată sau comprimată sau care stochează nu text, ci sunet, imagine sau alte elemente). date).
Spre deosebire de termenul „date text” (format de date text), care caracterizează conținutul datelor, termenul „fișier text” se referă la un fișier și îl caracterizează ca un container care stochează astfel de date.
Un fișier text conține o secvență de caractere (în mare parte caractere tipărite aparținând unui set de caractere sau altuia ). Aceste caractere sunt de obicei grupate în linii ( linii englezești , rânduri ). În sistemele moderne, liniile sunt separate prin separatoare de linii , în timp ce în trecut, șirurile erau stocate ca înregistrări de lungime constantă sau variabilă (vezi: Card perforat ). Uneori, sfârșitul unui fișier text (mai ales dacă sistemul de fișiere nu stochează informații despre dimensiunea fișierului) este, de asemenea, marcat cu unul sau mai multe caractere speciale cunoscute sub numele de marcatori de sfârșit de fișier .
Avantaje:
Defecte:
Datorită simplității lor, fișierele text sunt adesea folosite pentru a stoca informații de serviciu (de exemplu, jurnalele ): deoarece operațiunea de adăugare de date noi la sfârșitul unui fișier text nu necesită resurse de calcul semnificative, indiferent de dimensiunea fișierului deja disponibilă. si tipul de date text adaugate, mentinerea fisierelor jurnal de text se face de obicei eficient si imperceptibil pentru utilizator si pentru alte aplicatii (pana la epuizarea spatiului pe disc).
Formatul text servește drept bază pentru multe formate mai specializate (ex . .ini , SGML , HTML , XML , TeX , codul sursă al limbajului de programare ). În unele dintre aceste formate, anumite combinații de caractere pot fi folosite ca markupuri de text. În acest caz, fișierul poate stoca text formatat, în care font, stil, dimensiune etc. pot fi specificate suplimentar pentru caractere (de exemplu, Rich Text Format , HTML ).
Pe DOS , macOS și Windows , fișierele text simplu folosesc de obicei extensia .txt . Cu toate acestea, fișierele text pot fi cu sau fără orice altă extensie. De exemplu, codurile sursă ale programelor sunt de obicei stocate în fișiere cu extensii corespunzătoare limbajului de programare în care sunt scrise programele ( .java , .bas , .pas , .c ).
Textul formatat (text cu marcaj) este de obicei stocat în fișiere cu o extensie corespunzătoare formatului sau limbajului de marcare - .rtf , .htm , .html .
Din punct de vedere istoric, setul de caractere ASCII pe 7 biți , precum și EBCDIC pe 8 biți și diverse extensii ASCII, au fost folosite pentru a codifica fișierele text . În paginile de cod pe 8 biți, este obișnuit să se utilizeze caractere corespunzătoare ASCII în prima jumătate a tabelului de coduri.
Avantajul reprezentării textului pe 8 biți este simplitatea programatică și independența față de ordinea octeților sau problemele legate de lungimea cuvintelor mașinii . Dezavantajul este un număr mare de standarde diferite, care poate duce la incompatibilitate.
Utilizarea Unicode în fișierele text, deși rezolvă practic „problema de codificare” și standardizează utilizarea caracterelor de control, creează propriile probleme. În majoritatea sistemelor moderne, unitatea indivizibilă de informații dintr- un flux de date este un octet (8 biți) , care necesită mai mulți pentru a codifica un caracter din Unicode. Soluția este să folosiți sisteme UTF-8 incompatibile și două versiuni de UTF-16 (UTF-16LE și UTF-16BE cu endian opus ). Uneori se adaugă un marcator special (U+FEFF [1] ) la începutul fișierului, ceea ce face posibilă recunoașterea fără ambiguitate a formatului. UTF-8 are avantajul de a fi compatibil cu ASCII, dar procesarea programatică a textului în UTF-8 este complicată de dimensiunea variabilă a caracterelor. De asemenea, textele Unicode sunt chiar mai redundante decât cele pe 8 biți.
Diferite sisteme de operare au propriul mod de a reprezenta liniile noi și sfârșitul fișierului. În UNIX , un avans de linie constă dintr-un singur caracter LF (cod 0xA), pe Mac OS (dar nu macOS ) este format dintr-un caracter CR (cod 0xD), iar în DOS și Windows, un avans de linie este codificat ca o secvență din două personaje: CR și LF.
Această discrepanță este dictată de principiile de funcționare a mașinilor de scris: pentru a trece la o linie nouă, trebuie să întoarceți căruciorul la începutul liniei ( întoarcerea căruciorului ), apoi să rotiți tamburul cu o linie ( alimentare linie ). Când imprimați pe o imprimantă, unul și celălalt caracter pot sta deoparte (de exemplu, pentru a selecta o linie prin imprimarea de două ori sau pentru a derula tamburul pentru mai multe rânduri), dar acest lucru nu este necesar în fișierele text.
Pe lângă cele numite, în fișierele text există caractere precum tabularea (cod 9) și fluxul de pagini (cod 0xC). Acesta din urmă a fost folosit de editorii de text vechi precum LEXICON , precum și în fișierele destinate tipăririi pe o imprimantă.
dispozitive și documente ) | Cărți electronice (|
---|---|
Seria de dispozitive | |
Formate de fișiere | |
Catalogori | |
Biblioteci | |
Vezi si |