Bitext

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită pe 5 iunie 2020; verificarea necesită 1 editare .

Textul paralel ( bitext ) este un text într-o limbă împreună cu traducerea acestuia într-o altă limbă. „Alinierea textului paralel” este identificarea propozițiilor care se potrivesc în ambele jumătăți ale textului paralel. Colecțiile mari de texte paralele sunt numite „corpus paralel” (ing. corpus paralel ). Alinierea paralelă a corpusului la nivel de propoziție este o condiție prealabilă necesară pentru diferite aspecte alecercetării lingvistice . În timpul procesului de traducere, propozițiile pot fi împărțite, îmbinate, șterse, inserate sau reordonate. Ca rezultat, alinierea devine adesea o sarcină dificilă.

Bitext

În domeniul cercetării traducerilor, un „bitext” este un document combinat format din versiuni în limbile sursă și țintă ale textului corespunzător. Bitextele sunt create folosind programe speciale de calculator numite „instrumente de aliniere” ( instrument de aliniere ) sau „instrumente de aliniere” ( instrument bitext ), care vă permit să aliniați automat versiunea originală a textului și traducerea acestuia. Astfel de programe, de regulă, potrivesc două texte (original și traducere) pentru fiecare propoziție. Colecția de bitexte se numește „bază de date bitext” sau „corpus bilingv” și poate fi folosită ca referință și pentru a găsi combinațiile potrivite.

Istorie

Ideea de bitext îi aparține lui Brian Harris, care a scris pentru prima dată un studiu asupra acestui concept în 1988 și a fost dezvoltat ulterior de un grup de oameni de știință de la Universitatea din Montreal (Université de Montréal), numit RALI ( Recherche appliquée en linguistique informatique sau Cercetare aplicată în lingvistică computațională - „Cercetare aplicată în lingvistică computațională”). Grupul a fost format din programatori și lingviști care studiază procesarea naturală a textului. Promotori de seamă ai conceptului Bitext sunt Pierre Isabelle și Claude Bédard.

Bitexte și memorie de traducere

Ideea de „bitext” are multe în comun cu conceptul de memorie de traducere . Principala diferență dintre cele două este că memoria de traducere este o bază de date în care segmentele de text (propoziții corespunzătoare) sunt aranjate în așa fel încât să nu aibă legătură cu contextul original, adică secvența originală de propoziții se pierde. Bitextul păstrează secvența originală de propoziții. Formatul standard pentru schimbul de baze de date de memorie de traducere între diferite sisteme de traducere automată este formatul TMX (un dicționar XML publicat de LISA (Localization Industries Association). TMX permite păstrarea ordinii originale a propozițiilor.

Bitextele sunt create ca instrument de referință pentru consultațiile traducătorilor specialiști, nu programe automate. Prin urmare, micile erori de aliniere sau inexactitățile care pot duce la defecțiuni ale memoriei de traducere nu contează pentru ei.

Vezi și

Note

Literatură

Link -uri

Corpuri paralele pe Internet

Programe pentru alinierea textelor paralele

Documentație