Traducere automată hibridă

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită la 29 martie 2021; verificările necesită 12 modificări .

Traducerea automată hibridă (HMT) este integrarea diferitelor abordări de traducere automată din posibilele opțiuni MT: [1]

Arhitectura hibridă este de așteptat să combine beneficiile acestor abordări. [1] Traducerea automată astăzi este reprezentată de două tehnologii principale: Traducerea automată statistică (SMT) și Traducerea automată bazată pe reguli (RBMT). [2]

Dezvoltatori de software Hybrid MT

Abordări

Stratificat

Această abordare a traducerii automate hibride implică rularea mai multor sisteme de traducere automată în paralel. Rezultatul final se obține prin combinarea rezultatelor tuturor subsistemelor. Cele mai frecvente subsisteme utilizate în aceste sisteme sunt traducerea statistică și bazată pe reguli, dar au fost explorate și alte combinații. De exemplu, cercetătorii de la Universitatea Carnegie Mellon au avut un oarecare succes prin fuzionarea subsistemelor bazate pe exemple, transfer, cunoștințe și traducere statistică într-un singur sistem de traducere automată.

Generarea regulilor statistice

Această abordare implică utilizarea datelor statistice pentru a crea reguli lexicale și sintactice. Intrarea este apoi procesată folosind aceste reguli ca și cum ar fi un traducător bazat pe reguli. Această abordare încearcă să evite sarcina complexă și consumatoare de timp de a crea un set de reguli lingvistice cuprinzătoare și detaliate prin extragerea acestor reguli dintr-un corpus de învățare. Această abordare încă suferă de multe dintre problemele traducerii automate statistice normale, și anume că acuratețea traducerii va depinde în mare măsură de similitudinea textului de intrare cu cel al corpusului de instruire. Ca urmare, această metodă a avut cel mai mare succes în aplicațiile specifice domeniului și are aceleași dificultăți de adaptare a domeniului ca multe sisteme de traducere automată statistică.

Multipass

Această abordare implică procesarea secvenţială a intrării de mai multe ori. Cea mai comună tehnică utilizată în sistemele de traducere automată cu mai multe treceri este preprocesarea intrărilor cu un sistem de traducere automată bazat pe reguli. Ieșirea preprocesorului bazat pe reguli este transmisă unui sistem de traducere automată statistică, care produce rezultatul final. Această tehnică este utilizată pentru a limita cantitatea de informații de care sistemul statistic trebuie să ia în considerare, ceea ce reduce foarte mult puterea de calcul necesară. De asemenea, elimină necesitatea ca un sistem bazat pe reguli să fie un sistem complet de traducere pentru o limbă, reducând mult efortul uman și munca necesară pentru a construi sistemul.

Bazat pe certitudine

Această abordare diferă de alte abordări hibride prin faptul că, în majoritatea cazurilor, este utilizată o singură tehnologie de traducere. Pentru fiecare propoziție tradusă, se generează un scor de încredere, pe baza căruia puteți decide dacă încercați o tehnologie de traducere secundară sau continuați să lucrați cu traducerea originală. Omniscien Technologies este o companie care utilizează această abordare, NMT fiind tehnologia principală, dar revenind la SMT dacă scorul de încredere este sub un prag sau lungimea propoziției este foarte scurtă (de exemplu, 1 sau 2 cuvinte). SMT este, de asemenea, utilizat atunci când modelele de eroare comune, cum ar fi mai multe cuvinte repetate apar în secvență, așa cum este adesea cazul cu NMT atunci când mecanismul atențional este confuz.

Tehnologia hibridă „SMT și RBMT”

Tehnologia de traducere hibridă presupune utilizarea metodelor statistice pentru a construi automat baze de date de vocabular bazate pe corpuri paralele, a genera mai multe traduceri posibile atât la nivel lexical, cât și la nivelul structurii sintactice a propoziției din limba țintă, a aplica posteditarea în mod automat și selectați cea mai bună (cea mai probabilă) traducere a posibilului pe baza unui model de limbă construit pe un corpus specific al limbii țintă. [2]

Sistemul hibrid (SMT + RBMT) diferă: (clauza 2.4.3 [4] )

  • MT bazat pe reguli cu o abordare statistică de post-procesare.
  • MT statistic cu preprocesare bazată pe reguli.
  • Integrare completă a RBMT și SMT. [3]

Statistical MT caută să utilizeze date lingvistice, în timp ce sistemele cu o abordare „clasică” bazată pe reguli aplică metode statistice. [2] Adăugarea unor reguli „transversale”, adică crearea de sisteme hibride, este oarecum[ cât? ] îmbunătățește calitatea traducerilor, mai ales atunci când cantitatea de date de intrare utilizată în construcția fișierelor index pentru stocarea informațiilor lingvistice ale unui traducător automat bazat pe N-grame este insuficientă. [zece]

Combinând RBMT și traducerea automată statistică:

  • Analiza lingvistică a propoziției de intrare;
  • Generarea de variante de traducere;
  • Utilizarea tehnologiilor statistice;
  • Evaluarea și selectarea celei mai bune opțiuni de traducere folosind modelul de limbă. [11] [12] [13]

Etapele tehnologiei hibride SMT și RBMT: [2]

  • Training RBMT bazat pe un corpus paralel folosind tehnologii statistice;
  • Funcționare bazată pe un sistem antrenat.

Arhitectura tehnologiei hibride „SMT și RBMT”

În traducerea automată hibridă, sistemul RBMT este suplimentat cu două componente [14] : un modul de posteditare statistică și un modul de model de limbaj. Post-editarea statistică vă permite să ușurați traducerea RB, aducând-o mai aproape de limbajul natural, menținând în același timp o structură clară a textului sintetizat. Modelele de limbaj sunt folosite pentru a evalua netezimea și corectitudinea gramaticală a traducerilor generate de sistemul hibrid.

Arhitectură tipică HMT: [14]

  • Carcasă paralelă;
  • Educaţie;
  • model de limbă;
  • Date pentru post-editare;
  • Reguli de sinteză;
  • Glosar de terminologie.
  • Exploatare:
    •  - Traducere hibridă.

Cum funcționează HMT

Combinația de metode de traducere aparent incompatibile, și anume tehnologia clasică de traducere automată Rule-Based Machine Translation (Rule-Based MT) și Statistical Machine Translation (Statistical MT) poate fi implementată într-o tehnologie de traducere hibridă. [15] Diferența cardinală a noii soluții este că, în loc de o singură opțiune de traducere, programul generează multe traduceri, al căror număr într-o propoziție, în funcție de ambiguitatea cuvintelor, construcțiilor și a rezultatelor prelucrării statistice, poate ajunge. cateva sute. În plus, modelul probabilistic al limbajului vă permite să alegeți cea mai probabilă dintre opțiunile propuse.

Algoritm HMT tipic: [2]

  • Crearea automată a unui dicționar terminologic din texte paralele pentru RBMT.
  • Generarea tuturor traducerilor posibile pe baza:
    •  - variante lexicale;
    •  — opțiuni pentru sinteza diferitelor modele;
    •  - aplicarea post-editării.
  • Alegerea celei mai bune opțiuni, prin Modelul de Limbă implementat.

Avantaje și dezavantaje

Ce oferă tehnologia de traducere hibridă?

  • Configurare automată rapidă bazată pe Memoriile de traducere ale clientului;
  • Acuratețea terminologică a traducerii, precum și unitatea stilului;
  • Obținerea de date suplimentare utile - un dicționar terminologic bilingv.
Avantajele și dezavantajele traducerii automate bazate pe reguli

Beneficiile RBMT: [16]

Stocat:

  •  — acuratețea sintactică și morfologică;
  •  - stabilitatea si predictibilitatea rezultatului;
  •  - capacitatea de a personaliza domeniul de subiect.

Dezavantaje RBMT:

  •  — complexitatea și durata dezvoltării;
  •  — necesitatea menținerii și actualizării bazelor de date lingvistice;
  •  - „accent de mașină” la traducere.

Dezavantajele sunt nivelate prin utilizarea corpusului paralel și a metodelor statistice.

  •  – reglarea automată a bazelor de date lingvistice (extragerea rapidă și de înaltă calitate a terminologiei),
  •  — accentul de „mașină” dispare în timpul traducerii (opțiuni de sinteză și posteditare).
Avantajele și dezavantajele sistemelor de traducere statistică

Avantajele SMT: [17]

  •  - instalare rapida;
  •  — ușor de adăugat noi direcții de traducere;
  •  - Netezimea traducerii.

Dezavantajele SMT:

  •  - „Deficit” clădirilor paralele;
  •  - numeroase erori gramaticale;
  •  — instabilitatea traducerii.

Vezi și

Note

  1. 1 2 Copie arhivată (link indisponibil) . Preluat la 27 martie 2013. Arhivat din original la 13 martie 2016. 
  2. 1 2 3 4 5 6 Tehnologia de traducere hibridă.- Y. Epifantseva, LLC <PROMT>, Conferința „Tehnologii ruse de internet”, 2011 . Arhivat din original pe 8 aprilie 2013.
  3. 12 Solicitare respinsă . Data accesului: 29 martie 2013. Arhivat din original pe 4 martie 2016.
  4. 1 2 http://nlp.amrita.edu:8080/project/mhrd/ms/Final_Thesis.pdf  (downlink)
  5. Copie arhivată (link nu este disponibil) . Data accesului: 29 martie 2013. Arhivat din original pe 4 martie 2016. 
  6. Tehnologia de traducere automată a SYSTRAN . Consultat la 1 aprilie 2013. Arhivat din original pe 8 aprilie 2013.
  7. Tehnologia hibridă SYSTRAN . Consultat la 1 aprilie 2013. Arhivat din original pe 8 aprilie 2013.
  8. http://web.iti.upv.es/~fcn/Students/ta/Talk-ToniL-PRACT_ISSUES-13_4p.pdf  (link nu este disponibil)
  9. Copie arhivată . Preluat la 29 martie 2013. Arhivat din original la 12 mai 2015.
  10. Copie arhivată (link nu este disponibil) . Consultat la 17 aprilie 2013. Arhivat din original pe 19 aprilie 2014. 
  11. Copie arhivată . Consultat la 1 aprilie 2013. Arhivat din original pe 4 martie 2016.
  12. Copie arhivată . Consultat la 1 aprilie 2013. Arhivat din original pe 5 martie 2016.
  13. Despre aproximarea automată a limbilor reale - descărcare gratuită rezumat pe tema Matematică discretă și cibernetică matematică. Comandă livrarea unei dizertații de matematică... . Consultat la 4 aprilie 2013. Arhivat din original pe 8 aprilie 2013.
  14. 1 2 De ce este nevoie de tehnologia de traducere hibridă.- A. Molchanov, PROMT LLC, Conferința AINL, 2013 . Arhivat din original pe 8 aprilie 2013.
  15. Compania PROMT - traducători și dicționare pentru traducerea textului din engleză, rusă, germană, franceză, spaniolă, portugheză și italiană (link inaccesibil) . Preluat la 23 martie 2013. Arhivat din original la 8 aprilie 2013. 
  16. Copie arhivată (link nu este disponibil) . Preluat la 27 martie 2013. Arhivat din original la 9 noiembrie 2012. 
  17. De ce este nevoie de tehnologia de traducere hibridă.- A. Molchanov, OOO <PROMT>, Conferința „AINL”, 2013 . Arhivat din original pe 8 aprilie 2013.