Traducerea automată hibridă (HMT) este integrarea diferitelor abordări de traducere automată din posibilele opțiuni MT: [1]
Arhitectura hibridă este de așteptat să combine beneficiile acestor abordări. [1] Traducerea automată astăzi este reprezentată de două tehnologii principale: Traducerea automată statistică (SMT) și Traducerea automată bazată pe reguli (RBMT). [2]
Această abordare a traducerii automate hibride implică rularea mai multor sisteme de traducere automată în paralel. Rezultatul final se obține prin combinarea rezultatelor tuturor subsistemelor. Cele mai frecvente subsisteme utilizate în aceste sisteme sunt traducerea statistică și bazată pe reguli, dar au fost explorate și alte combinații. De exemplu, cercetătorii de la Universitatea Carnegie Mellon au avut un oarecare succes prin fuzionarea subsistemelor bazate pe exemple, transfer, cunoștințe și traducere statistică într-un singur sistem de traducere automată.
Generarea regulilor statisticeAceastă abordare implică utilizarea datelor statistice pentru a crea reguli lexicale și sintactice. Intrarea este apoi procesată folosind aceste reguli ca și cum ar fi un traducător bazat pe reguli. Această abordare încearcă să evite sarcina complexă și consumatoare de timp de a crea un set de reguli lingvistice cuprinzătoare și detaliate prin extragerea acestor reguli dintr-un corpus de învățare. Această abordare încă suferă de multe dintre problemele traducerii automate statistice normale, și anume că acuratețea traducerii va depinde în mare măsură de similitudinea textului de intrare cu cel al corpusului de instruire. Ca urmare, această metodă a avut cel mai mare succes în aplicațiile specifice domeniului și are aceleași dificultăți de adaptare a domeniului ca multe sisteme de traducere automată statistică.
MultipassAceastă abordare implică procesarea secvenţială a intrării de mai multe ori. Cea mai comună tehnică utilizată în sistemele de traducere automată cu mai multe treceri este preprocesarea intrărilor cu un sistem de traducere automată bazat pe reguli. Ieșirea preprocesorului bazat pe reguli este transmisă unui sistem de traducere automată statistică, care produce rezultatul final. Această tehnică este utilizată pentru a limita cantitatea de informații de care sistemul statistic trebuie să ia în considerare, ceea ce reduce foarte mult puterea de calcul necesară. De asemenea, elimină necesitatea ca un sistem bazat pe reguli să fie un sistem complet de traducere pentru o limbă, reducând mult efortul uman și munca necesară pentru a construi sistemul.
Bazat pe certitudineAceastă abordare diferă de alte abordări hibride prin faptul că, în majoritatea cazurilor, este utilizată o singură tehnologie de traducere. Pentru fiecare propoziție tradusă, se generează un scor de încredere, pe baza căruia puteți decide dacă încercați o tehnologie de traducere secundară sau continuați să lucrați cu traducerea originală. Omniscien Technologies este o companie care utilizează această abordare, NMT fiind tehnologia principală, dar revenind la SMT dacă scorul de încredere este sub un prag sau lungimea propoziției este foarte scurtă (de exemplu, 1 sau 2 cuvinte). SMT este, de asemenea, utilizat atunci când modelele de eroare comune, cum ar fi mai multe cuvinte repetate apar în secvență, așa cum este adesea cazul cu NMT atunci când mecanismul atențional este confuz.
Tehnologia de traducere hibridă presupune utilizarea metodelor statistice pentru a construi automat baze de date de vocabular bazate pe corpuri paralele, a genera mai multe traduceri posibile atât la nivel lexical, cât și la nivelul structurii sintactice a propoziției din limba țintă, a aplica posteditarea în mod automat și selectați cea mai bună (cea mai probabilă) traducere a posibilului pe baza unui model de limbă construit pe un corpus specific al limbii țintă. [2]
Sistemul hibrid (SMT + RBMT) diferă: (clauza 2.4.3 [4] )
Statistical MT caută să utilizeze date lingvistice, în timp ce sistemele cu o abordare „clasică” bazată pe reguli aplică metode statistice. [2] Adăugarea unor reguli „transversale”, adică crearea de sisteme hibride, este oarecum[ cât? ] îmbunătățește calitatea traducerilor, mai ales atunci când cantitatea de date de intrare utilizată în construcția fișierelor index pentru stocarea informațiilor lingvistice ale unui traducător automat bazat pe N-grame este insuficientă. [zece]
Combinând RBMT și traducerea automată statistică:
Etapele tehnologiei hibride SMT și RBMT: [2]
În traducerea automată hibridă, sistemul RBMT este suplimentat cu două componente [14] : un modul de posteditare statistică și un modul de model de limbaj. Post-editarea statistică vă permite să ușurați traducerea RB, aducând-o mai aproape de limbajul natural, menținând în același timp o structură clară a textului sintetizat. Modelele de limbaj sunt folosite pentru a evalua netezimea și corectitudinea gramaticală a traducerilor generate de sistemul hibrid.
Arhitectură tipică HMT: [14]
Combinația de metode de traducere aparent incompatibile, și anume tehnologia clasică de traducere automată Rule-Based Machine Translation (Rule-Based MT) și Statistical Machine Translation (Statistical MT) poate fi implementată într-o tehnologie de traducere hibridă. [15] Diferența cardinală a noii soluții este că, în loc de o singură opțiune de traducere, programul generează multe traduceri, al căror număr într-o propoziție, în funcție de ambiguitatea cuvintelor, construcțiilor și a rezultatelor prelucrării statistice, poate ajunge. cateva sute. În plus, modelul probabilistic al limbajului vă permite să alegeți cea mai probabilă dintre opțiunile propuse.
Algoritm HMT tipic: [2]
Ce oferă tehnologia de traducere hibridă?
Beneficiile RBMT: [16]
Stocat:
Dezavantaje RBMT:
Dezavantajele sunt nivelate prin utilizarea corpusului paralel și a metodelor statistice.
Avantajele SMT: [17]
Dezavantajele SMT:
traducerii automate | Abordări ale|
---|---|
|
procesarea limbajului natural | |
---|---|
Definiții generale | |
Analiza textului |
|
Referire |
|
Traducere automată |
|
Identificarea și colectarea datelor | |
Model tematic | |
Evaluare inter pares |
|
Interfață în limbaj natural |