Traducere automată

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită pe 21 octombrie 2021; verificările necesită 5 modificări .

Traducerea automată  este procesul de traducere a textelor (scrise și, în mod ideal, orale) dintr-o limbă naturală în alta, folosind un program special de calculator . Se mai numește și direcția cercetării științifice legate de construcția unor astfel de sisteme.

Forme de organizare a interacțiunii dintre computere și oameni în traducerea automată

Traducere automată

În loc de „mașină” se folosește uneori cuvântul automat , ceea ce nu afectează sensul. Cu toate acestea, termenul de traducere automată are un sens complet diferit - cu el, programul pur și simplu ajută o persoană să traducă texte.

Traducerea automată implică următoarele forme de interacțiune:

În terminologia engleză, se disting și  termenii de engleză. traducere automată, MT (traducere complet automată) și engleză.  asistat de mașină sau ing.  traducere asistată automată (MAT) (automatizată); dacă este necesar să se desemneze pe ambele, se scrie M(A)T.

Există mai multe abordări fundamental diferite ale construcției algoritmilor de traducere automată: traducere automată neuronală (NMT) bazată pe reguli , statistică sau bazată pe statistici . Prima abordare este tradițională și este folosită de majoritatea dezvoltatorilor de sisteme de traducere automată (PROMT în Rusia, SYSTRAN în Franța, Linguatec în Germania etc.) [1] Al doilea tip include serviciul popular Yandex.Translate , Google Translate , precum și ca un nou serviciu de la ABBYY [ 2] . Acum majoritatea sistemelor sunt hibride - combinând reguli, statistici și rețele neuronale.

Traducere automată statistică

Traducerea automată statistică  este un tip de traducere automată a textului bazat pe compararea unor volume mari de perechi de limbi. Perechi de limbi - textele care conțin propoziții într-o limbă și propozițiile corespunzătoare în a doua, pot fi fie variante de scriere a două propoziții de către o persoană care este vorbitoare nativă a două limbi, fie un set de propoziții și traducerile lor realizate de o persoană. Astfel, traducerea automată statistică are proprietatea de „auto-învățare”. Cu cât sunt disponibile mai multe perechi de limbi și cu cât se potrivesc mai mult între ele, cu atât rezultatul traducerii automate statistice este mai bun. Conceptul de „traducere automată statistică” se referă la o abordare generală a soluționării problemei traducerii, care se bazează pe găsirea celei mai probabile traduceri a unei propoziții folosind date obținute dintr-un corp de texte bilingv. Un exemplu de corp de texte bilingv sunt rapoartele parlamentare, care sunt procesele-verbale ale dezbaterilor din parlament. Înregistrările parlamentare bilingve sunt publicate în Canada, Hong Kong și alte țări; documentele oficiale ale Comunității Economice Europene sunt publicate în 11 limbi; a Organizația Națiunilor Unite publică documente în mai multe limbi. După cum se dovedește, aceste materiale sunt resurse de neprețuit pentru traducerea automată statistică.

Istoria traducerii automate

Ideea de a folosi computere pentru traducere a fost exprimată în 1947 în SUA , imediat după apariția primelor computere. Prima demonstrație publică de traducere automată (așa-numitul experiment Georgetown ) a avut loc în 1954 . În ciuda caracterului primitiv al acelui sistem (un dicționar de 250 de cuvinte, o gramatică cu 6 reguli, traducerea mai multor fraze simple), acest experiment a primit un răspuns larg: cercetările au început în Anglia , Bulgaria , Germania de Est , Italia , China , Franța , Germania . , Japonia și alte țări; în acelaşi 1954 în URSS .

La mijlocul anilor 1960, două sisteme de traducere rusă-engleză au fost furnizate pentru utilizare practică în Statele Unite:

Cu toate acestea, comisia ALPAC constituită pentru evaluarea unor astfel de sisteme a ajuns la concluzia că, din cauza calității scăzute a textelor traduse automat, această activitate este nerentabilă în SUA. Deși comisia a recomandat continuarea și aprofundarea dezvoltărilor teoretice, în general, concluziile sale au condus la o creștere a pesimismului , o scădere a finanțării și, adesea, la încetarea completă a lucrărilor pe această temă.

Cu toate acestea, cercetarea a continuat într-un număr de țări, ajutată de progresele constante ale tehnologiei de calcul. Un factor deosebit de semnificativ a fost apariția mini-calculatoarelor și computerelor personale , iar odată cu ele sisteme de dicționar, căutare etc. din ce în ce mai complexe axate pe lucrul cu date în limbaj natural. Nevoia de traducere ca atare a crescut și din cauza creșterii relațiilor internaționale. Toate acestea au dus la o nouă ascensiune în acest domeniu, care a apărut de la mijlocul anilor 1970 . În anii 1980, a venit timpul pentru utilizarea practică pe scară largă a sistemelor de traducere și a apărut o piață pentru dezvoltări comerciale pe această temă.

Cu toate acestea, visele cu care omenirea și-a asumat sarcina traducerii automate în urmă cu jumătate de secol, rămân în mare măsură vise: traducerea de înaltă calitate a textelor pe o gamă largă de subiecte este încă de neatins. Cu toate acestea, accelerarea muncii traducătorului atunci când se utilizează sisteme de traducere automată este fără îndoială: conform estimărilor de la sfârșitul anilor 1980, de până la cinci ori.

În prezent, există multe proiecte comerciale de traducere automată. Unul dintre pionierii în domeniul traducerii automate a fost SYSTRAN . În Rusia, un grup condus de prof. R. G. Piotrovsky ( Universitatea Pedagogică de Stat Rusă numită după A. I. Herzen , Sankt Petersburg ).

Fundamente filosofice

În anii 1960, Stanisław Lem a rezumat afirmații despre problema traducerii automate și legătura cu înțelegerea textului de către mașina în sine (care este legată, de exemplu, de discuția despre conceptul de „ camera chineză ” formulată în 1980 ). ):

... insistăm să înzestrăm mașinile de traducere cu „plinătatea vieții interioare” a omului; cu toate acestea, pur și simplu nu știm în ce măsură cineva poate „suferi personalitate” unei mașini care se presupune că se traduce bine. Nu știm dacă se poate „înțelege” fără a avea „personalitate” cel puțin în embrion. <...> Nu este posibilă utilizarea eficientă a limbajului operațional până la final ca instrument de traducere în domeniul limbajelor discursive - mentale. Fie mașinile vor acționa „înțelegător”, fie nu vor exista mașini de traducere cu adevărat eficiente [3] .

Calitatea traducerii

Calitatea traducerii depinde de subiectul și stilul textului sursă, precum și de afinitatea gramaticală, sintactică și lexicală a limbilor între care se face traducerea. Traducerea automată a textelor literare este aproape întotdeauna de o calitate nesatisfăcătoare. Cu toate acestea, pentru documentele tehnice, în prezența dicționarelor de mașini specializate și a unei anumite ajustări a sistemului la caracteristicile unui anumit tip de text, este posibilă obținerea unei traduceri de calitate acceptabilă, care necesită doar o ușoară corecție editorială. Cu cât stilul documentului sursă este mai formal , cu atât calitatea traducerii este mai bună. Cele mai bune rezultate atunci când utilizați traducerea automată pot fi obținute pentru textele scrise într-un stil de afaceri tehnic (diverse descrieri și manuale) și oficial .

Utilizarea traducerii automate fără reglarea subiectului (sau reglarea greșită în mod deliberat) este motivul multor glume pe internet . Dintre cele mai vechi și mai populare exemple de astfel de glume, textul de traducere a documentației pentru driverul mouse -ului cunoscut sub numele de „Mouse Packers” este cel mai faimos , afirmat ca „traducerea documentației computerizate de către sistemul de traducere automată Poliglossum bazat pe medii medicale. , dicționare comerciale și juridice” [comm. 1] . Dintre cele scurte - sintagma „ Pisica noastră a născut trei pisoi - doi albi și unul negru ”, pe care traducătorul online „ PROMT ” (versiunea 7.0, 2007 ) a transformat-o în „Pisica noastră a născut trei pisoi - doi albi și un afro-american ”. [6] Dacă „afro-americanul” ar putea fi în continuare „negru” scriind „ pisoiul negru ”, atunci „pisica” nu ar putea schimba genul: de exemplu, pisica femela a fost tradusă ca „pisica femelă”.

Cel mai adesea, astfel de glume sunt legate de faptul că programul nu recunoaște contextul frazei și traduce termenii verbatim, pe lângă faptul că nu distinge numele proprii de cuvintele obișnuite. Același traducător PROMT a transformat „ Leo Tolstoi ” în „Lion Thick” („leu gras”), „ notația bra-ket ” în „nota sutienului lui Katya”, „ Algebră minciună ” în „algebră minciună”, „ vector de excentricitate ” - în „vector de originalitate”, „ Shawnee Smith ” în „Shawnee Smith”, jocul „Red light, green light”, popular în seria „ The Squid Game”, în „red light, green light”, etc. Google Translate , pe dimpotrivă, cuvântul „ orez ” a fost adesea confundat cu numele de familie al secretarului de stat al SUA . Jocurile Roblox au traduceri automate mari, cum ar fi „car ram” în „car ram” în jocul Beat up simulator .

Vezi și

Comentarii

  1. Totuși, nu este așa: Polyglossum ( sic ) este un dicționar electronic [4] , un program din aceeași clasă cu Lingvo , care nu este capabil să se traducă singur. La acea vreme, exista în versiuni pentru DOS și Windows 3.x și, inferior Lingvo și Context în ceea ce privește calitatea dicționarului general, avea un volum record de dicționare specializate. În plus, erorile individuale de traducere dau un fals - probabil, după traducerea automată, textul a fost editat manual: puritatea experimentului: cu siguranță nu s-ar fi putut descurca fără modificările aduse textului de o mână umană [5] .

Note

  1. Traducere automată: reguli vs. statistici . Consultat la 22 decembrie 2011. Arhivat din original la 23 noiembrie 2011.
  2. Noua abordare ABBYY a traducerii textului . Data accesului: 22 decembrie 2011. Arhivat din original pe 20 ianuarie 2012.
  3. " Summa Technologiae ", 1963 (sau ed. a 2-a 1967), capitolul 4.
  4. Polyglossum pe site-ul oficial . Preluat la 4 iulie 2011. Arhivat din original la 16 septembrie 2010.
  5. K. Knop. Socrate este prietenul meu, dar adevărul este mai drag Arhivat 21 ianuarie 2021 la Wayback Machine // Computerra. - 1999. - Nr. 47 (23 noiembrie).
  6. Pisica noastră a născut trei pisoi - doi albi și unul afro-american

Literatură

Link -uri