Traducere automată bazată pe transformare

Traducerea automată bazată pe transformare este un tip de traducere automată (MT). În prezent, este una dintre cele mai utilizate metode de traducere automată. Spre deosebire de modelul mai simplu de MT direct, MT bazat pe transformare împarte procesul de traducere în trei etape: analiza textului în limba sursă pentru a determina structura gramaticală a acestuia, traducerea structurii rezultate într-o structură adecvată pentru producerea textului în limba țintă și generarea de text. Astfel, sistemele MT bazate pe transformare sunt capabile să utilizeze cunoașterea limbii sursă și a limbii țintă [1] .

Dispozitiv

Traducerea bazată pe transformare și traducerea automată interlingvă au la bază aceeași idee, conform căreia, pentru a traduce, este necesar să se obțină o reprezentare intermediară. Cu el, puteți remedia sensul propoziției originale, astfel încât să puteți construi apoi traducerea corectă. În MT interlingvistică, o astfel de reprezentare intermediară trebuie să fie independentă atât de limba sursă, cât și de limba țintă, în timp ce în cazul MT bazată pe transfer, există un anumit grad de dependență de o anumită pereche de limbi. Modalitățile în care funcționează sistemele MT bazate pe transformare diferă semnificativ, dar în general urmează același tipar: aplică seturi de reguli lingvistice determinate de corespondențe dintre structura limbii sursă și limba țintă. Prima etapă implică analizarea textului de intrare în termeni de morfologie și sintaxă (uneori și semantică ) pentru a crea o reprezentare intermediară. O traducere se formează din reprezentarea rezultată folosind dicționare bilingve și reguli gramaticale de construcție. Această strategie vă permite să obțineți o traducere de calitate suficient de înaltă, cu o acuratețe de aproximativ 90% din original (cu toate acestea, acuratețea depinde în mare măsură de o anumită pereche de limbi și este determinată de gradul de apropiere a două limbi specifice).

Procesul de traducere

Într-un sistem MT bazat pe reguli, textul sursă este mai întâi analizat în termeni de morfologie și sintaxă pentru a obține o reprezentare sintactică. În viitor, această prezentare poate fi schimbată către mai puține specificații, datorită necesității de a acorda o atenție sporită celor mai semnificative fragmente pentru traducere, ignorând în același timp alte tipuri de informații. În timpul procesului de transformare, reprezentarea finală (existând încă în limba sursă) este transformată într-o reprezentare de același nivel de instanțiere în limba țintă. Aceste două vederi sunt numite vederi intermediare . Procesul de transformare a unei reprezentări în limba țintă într-un text finit constă în pași similari executați în ordine inversă.

Analiză și transformare

Înainte de a obține rezultatul final, se poate recurge la diverse metode de analiză și transformare. Odată cu abordările statistice, numărul de sisteme hibride generatoare poate fi crescut. Metodele și prioritățile selectate depind în mare măsură de proiectarea sistemului în sine. Cu toate acestea, majoritatea sistemelor existente includ cel puțin următorii pași:

Analiza morfologică . Formele de suprafață ale textului introdus sunt clasificate în funcție de părțile lor de vorbire (substantiv, verb etc.) și categorii gramaticale (număr, gen, timp etc.). De regulă, în această etapă, toate tipurile posibile de analiză sunt efectuate pentru fiecare dintre formele de suprafață simultan cu forma de dicționar a cuvântului.
Categorizare lexicală . În orice text, pot exista cuvinte care au mai multe semnificații, ceea ce creează ambiguitate în procesul de analiză. Categorizarea lexicală acordă atenție contextului în care este folosit un cuvânt pentru a încerca să-i determine sensul corect. Acest proces poate include marcarea părților de vorbire, precum și rezolvarea omonimiei semantice .
Transformarea lexicală . Procesul implică în principal traducerea sensului dicționarului . Forma inițială a cuvântului este căutată în dicționar și este selectată traducerea.
Transformare structurală . Spre deosebire de etapele anterioare, unde era vorba despre cuvinte, în această etapă vorbim despre formațiuni de o ordine mai mare, precum fraze și fragmente de text . Trăsăturile caracteristice ale acestei etape sunt necesitatea armonizării categoriilor gramaticale precum genul și numărul, precum și schimbarea ordinii cuvintelor sau frazelor.
Transformare morfologică . Pe baza datelor obținute în stadiul transformării structurale, formele finale gata făcute sunt create în limba țintă.

Tipuri de transformări

Una dintre principalele caracteristici ale sistemelor MT bazate pe transformare este etapa în care reprezentarea intermediară a textului în limba sursă este tradusă în reprezentarea intermediară a textului în limba țintă. Acest proces poate avea loc la unul dintre nivelurile analizei lingvistice sau în intervalul dintre ele. Nivelurile sunt prezentate mai jos:

Transformare de suprafață (sintactică) . Acest nivel se caracterizează prin transferul de structuri sintactice între limba sursă și limba țintă. Se aplică limbilor de același tip sau aparținând aceleiași familii, de exemplu, când se vorbește despre limbi romanice , între spaniolă, catalană, franceză, italiană etc.
Transformare profundă (semantică) . La acest nivel se creează o reprezentare semantică care depinde de limba sursă. Poate consta din mai multe structuri care transmit un anumit sens. La acest nivel de transformare are loc, de regulă, crearea de predicate. De asemenea, traducerea necesită de obicei o transformare structurală. Acest nivel este folosit pentru traducerea între limbi care sunt înrudite la distanță între ele (de exemplu, între perechi spaniolă-engleză sau spaniolă-bască etc.)

Vezi și

Traducere automată statistică

Note

↑ Jurafsky, Daniel; Martin, James H. (2009). Procesarea vorbirii și a limbajului. Pearson. pp. 906-908.

Abordări ale traducerii automate
Dicţionar based Bazat pe reguli Bazat pe transformare Statistic Pe baza exemplelor Interlingvistică neurale Hibrid

procesarea limbajului natural
Definiții generale	Corpus de texte corpus de vorbire Cuvinte oprite pungă de cuvinte Completitudine AI N-gram Cifru bigram trigramă
Analiza textului	Segmentarea textului Marcare parțială Analiza suprafeței Procesare de text compusă Extragerea colocărilor tulpina Lematizare Recunoașterea entității denumite Rezoluția coreferenței Analiza sentimentelor de text Concept Extraction analizare Rezolvarea polisemiei lexicale Extrage terminologie Extragerea informațiilor Identificarea limbii Definiția cazului
Referire	Extragerea propozițiilor Generație abstractă Referințe pentru mai multe documente Simplificarea textului
Traducere automată	automatizate Hibrid interlingvistic Bazat pe reguli Pe baza exemplelor Dicţionar bazat Bazat pe transformare neurale Statistic Sincron
Identificarea și colectarea datelor	Recunoaștere a vorbirii sinteza vorbirii Recunoaștere optică a caracterelor Generarea textului
Model tematic	Plasarea Pachinko Plasarea latentă a lui Dirichlet Analiza semantică latentă
Evaluare inter pares	Evaluarea automată a eseurilor Concordancer Introducerea textului predictiv Verificator gramatical Verificator ortografic Sintaxă Guessing
Interfață în limbaj natural	asistent virtual Interlocutor virtual Sistem de întrebări și răspunsuri Interfață vocală Literatură interactivă