Sinteza vorbirii

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită pe 23 iunie 2021; verificările necesită 32 de modificări .

Sinteza vorbirii  - în sens larg - refacerea formei unui semnal de vorbire în funcție de parametrii acestuia [1] ; în sens restrâns - formarea unui semnal de vorbire dintr-un tipărit[ clarifica ] text . O parte a inteligenței artificiale .

Sinteza vorbirii este,  în primul rând, tot ceea ce este legat de producerea artificială a vorbirii umane.

Un sintetizator de vorbire  este un cadru capabil să traducă text/imagini în vorbire în software și/sau hardware.

Motorul de voce  este direct un sistem text/comandă-vorbire/nucleu, poate exista și independent de computer.

Aplicarea sintezei vorbirii

Sinteza vorbirii poate fi necesară în toate cazurile în care destinatarul informațiilor este o persoană. Calitatea unui sintetizator de vorbire este judecată în primul rând după asemănarea sa cu vocea umană, precum și prin capacitatea sa de a fi înțeles. Cea mai simplă vorbire sintetizată poate fi creată prin combinarea unor părți ale vorbirii înregistrate, care vor fi apoi stocate într-o bază de date. Și, în mod ciudat, întâlnim deja peste tot acest mod de a sintetiza, uneori fără măcar să-i acordăm atenție.

Metode de sinteză a vorbirii

Toate metodele de sinteză a vorbirii pot fi împărțite în grupuri: [2]

Sinteză parametrică

Sinteza parametrică a vorbirii este operațiunea supremă în sistemele vocoder , în care un semnal de vorbire este reprezentat de un set de un număr mic de parametri în continuă schimbare. Sinteza parametrică este indicată de utilizat în cazurile în care setul de mesaje este limitat și nu se schimbă prea des. Avantajul acestei metode este capacitatea de a înregistra vorbirea pentru orice limbă și orice vorbitor . Calitatea sintezei parametrice poate fi foarte ridicată (în funcție de gradul de compresie a informațiilor în reprezentarea parametrică). Cu toate acestea, sinteza parametrică nu poate fi aplicată mesajelor arbitrare, nepredefinite.

Sinteză compilație

Sinteza compilației se reduce la compunerea unui mesaj dintr-un dicționar preînregistrat de elemente de sinteză inițială. Mărimea elementelor de sinteză nu este mai mică decât un cuvânt. Evident, conținutul mesajelor sintetizate este fixat de volumul dicționarului. De regulă, numărul de unități de dicționar nu depășește câteva sute de cuvinte. Principala problemă în compilarea sintezei este cantitatea de memorie pentru stocarea unui dicționar. În acest sens, sunt utilizate diverse metode de compresie/codare a semnalului de vorbire. Sinteza compilativă are o largă aplicație practică. În țările occidentale, o varietate de dispozitive (de la avioane militare până la dispozitive de uz casnic) sunt echipate cu sisteme de răspuns vocal. În Rusia, până de curând, sistemele de răspuns vocal erau folosite în principal în domeniul echipamentelor militare, acum sunt din ce în ce mai folosite în viața de zi cu zi, de exemplu, în serviciile de ajutor ale operatorilor de telefonie mobilă la obținerea de informații despre starea contului unui abonat.

Sinteză completă a vorbirii conform regulilor

Sinteza completă a vorbirii prin reguli (sau sinteza prin text tipărit) oferă control asupra tuturor parametrilor semnalului de vorbire și, astfel, poate genera vorbire dintr-un text necunoscut anterior. În acest caz, parametrii obținuți în timpul analizei semnalului de vorbire sunt stocați în memorie în același mod ca și regulile de combinare a sunetelor în cuvinte și fraze . Sinteza este implementată prin modelarea tractului vocal, folosind tehnologie analogică sau digitală. Mai mult, în procesul de sinteză, valorile parametrilor și regulile de conectare a fonemelor sunt introduse secvenţial la un anumit interval de timp, de exemplu, 5-10 ms. Metoda de sinteză a vorbirii din text tipărit (sinteză după reguli) se bazează pe cunoașterea programată a limitărilor acustice și lingvistice și nu utilizează direct elemente ale vorbirii umane. În sistemele bazate pe această metodă de sinteză, se disting două abordări. Prima abordare are ca scop construirea unui model al sistemului uman de producere a vorbirii, cunoscut sub numele de sinteză articulatorie . A doua abordare este sinteza formantului conform regulilor . Inteligibilitatea și naturalețea unor astfel de sintetizatoare pot fi aduse la valori comparabile cu caracteristicile vorbirii naturale.

Sinteza vorbirii conform regulilor folosind segmente memorate anterior ale limbajului natural este un fel de sinteză a vorbirii conform regulilor, care a devenit larg răspândită datorită apariției posibilității de a manipula un semnal de vorbire într-o formă digitalizată. În funcție de dimensiunea elementelor de sinteză inițială, se disting următoarele tipuri de sinteză:

De obicei, semisilabele sunt folosite ca astfel de elemente - segmente care conțin jumătate din consoană și jumătate din vocală adiacente acesteia. În acest caz, este posibil să sintetizați vorbirea dintr-un text predeterminat, dar este dificil să controlați caracteristicile intonației. Calitatea unei astfel de sinteze nu corespunde cu calitatea vorbirii naturale, deoarece distorsiunile apar adesea la granițele cusăturii difonului. De asemenea, compilarea vorbirii din forme de cuvinte preînregistrate nu rezolvă problema sintezei de înaltă calitate a mesajelor arbitrare, deoarece caracteristicile acustice și prozodice (durata și intonația) ale cuvintelor se modifică în funcție de tipul de frază și de locul cuvântului în frază. . Această poziție nu se schimbă chiar și atunci când se utilizează cantități mari de memorie pentru a stoca forme de cuvinte.

Sinteză orientată pe domenii

Sinteza specifică domeniului compilează cuvinte preînregistrate, precum și fraze pentru a crea mesaje vocale complete. Este utilizat în aplicații în care varietatea de texte de sistem va fi limitată la un anumit subiect/domeniu, cum ar fi anunțurile de tren și prognozele meteo . Această tehnologie este ușor de utilizat și a fost folosită comercial de mult timp: a fost folosită și la fabricarea de dispozitive electronice, cum ar fi ceasurile vorbitoare și calculatoarele . Naturalitatea sunetului acestor sisteme poate fi ridicată datorită faptului că varietatea de tipuri de propoziții este limitată și se potrivește îndeaproape cu intonația înregistrărilor originale. Și întrucât aceste sisteme sunt limitate de alegerea cuvintelor și expresiilor din baza de date, ele nu pot fi utilizate în continuare pe scară largă în domeniile activității umane, doar pentru că sunt capabile să sintetizeze combinații de cuvinte și fraze pentru care au fost programate.

Istorie

La sfârșitul secolului al XVIII-lea, omul de știință danez Christian Kratzenstein , membru cu drepturi depline al Academiei Ruse de Științe , a creat un model al tractului vocal uman capabil să pronunțe cinci vocale lungi ( a , e , și , o , u ). Modelul era un sistem de rezonatoare acustice de diverse forme care produceau sunete vocale cu ajutorul unor trestii vibrante excitate de fluxul de aer. În 1778 , omul de știință austriac Wolfgang von Kampelen a completat modelul lui Kratzenstein cu modele ale limbii și buzelor și a prezentat o mașină de vorbire acustic-mecanică capabilă să reproducă anumite sunete și combinațiile lor. Şuieratul şi şuieratul au fost suflate cu ajutorul unei blăni speciale acţionate manual. În 1837 , omul de știință Charles Wheatstone a introdus o versiune îmbunătățită a mașinii capabile să producă vocale și majoritatea consoanelor . Și în 1846, Joseph Faber și-a demonstrat organul vorbitor Euphonia , în care s-a încercat să sintetizeze nu numai vorbirea, ci și cântul.

La sfârșitul secolului al XIX-lea, celebrul om de știință Alexander Bell și-a creat propriul model mecanic „vorbitor”, foarte asemănător ca design cu mașina Wheatstone. Odată cu apariția secolului al XX-lea , a început epoca mașinilor electrice, iar oamenii de știință au avut ocazia de a folosi generatoare de unde sonore și de a construi modele algoritmice pe baza lor.

În anii 1930, lucrătorul Bell Labs Homer Dudley , lucrând la problema găsirii unor modalități de reducere a lățimii de bandă necesare în telefonie pentru a-și crește capacitatea de transmisie, dezvoltă VOCODER (prescurtare pentru voce în engleză   - voce, codificator în engleză  - encoder) este o tastatură. -analizor electronic controlat si sintetizator de vorbire. Ideea lui Dudley a fost de a analiza semnalul vocal, de a-l demonta și de a-l resintetiza într-o lățime de bandă mai puțin solicitantă. O versiune îmbunătățită a vocoder -ului lui Dudley , VODER, a fost introdusă la Târgul Mondial din New York din 1939 [3] .  

Primele sintetizatoare de vorbire suna destul de nenatural și de multe ori abia se putea desluși frazele pe care le reproduceau. Cu toate acestea, calitatea vorbirii sintetizate s-a îmbunătățit constant, iar vorbirea generată de sistemele moderne de sinteză a vorbirii este uneori imposibil de distins de vorbirea umană reală. Dar, în ciuda succesului sintetizatoarelor electronice de vorbire, cercetările în domeniul sintetizatoarelor mecanice de vorbire sunt încă în desfășurare, de exemplu, pentru utilizarea la roboții umanoizi . [patru]

Primele sisteme de sinteză a vorbirii bazate pe computer au început să apară la sfârșitul anilor 1950 , iar primul sintetizator text-to-speech a fost creat în 1968 .

În 2005, Kurzweil a prezis că, pe măsură ce raportul calitate-preț ar face sintetizatoarele de vorbire mai ieftine și mai disponibile, mai mulți oameni ar beneficia de utilizarea programelor text-to-speech. [5]

Prezent și viitor

Până acum, este prea devreme să vorbim despre un viitor promițător pentru următoarele decenii pentru sinteza vorbirii conform regulilor , deoarece sunetul seamănă cel mai mult cu vorbirea roboților și, în unele locuri, este și greu de înțeles vorbirea. Ceea ce putem determina cu exactitate este dacă un sintetizator de vorbire vorbește cu o voce masculină sau feminină și, uneori, încă nu distingem subtilitățile inerente vocii umane. Prin urmare, tehnologia de dezvoltare s-a îndepărtat parțial de construcția reală a sintezei semnalelor de vorbire, dar continuă să folosească cea mai simplă segmentare a înregistrărilor vocale.

Sinteza hibridă a vorbirii poate fi utilizată pentru a pirata sistemele de recunoaștere a vorbirii . [6]

Vezi și

Note

  1. În această definiție, conversia presiunii sonore în tensiune electrică și invers într-un microfon și telefon, precum și înregistrarea și redarea, de exemplu, de pe medii magnetice, nu sunt sinteze. Eșantionarea și cuantizarea unui semnal de vorbire în modularea codului de impuls nu este, de asemenea, legată de sinteza vorbirii, dar generarea unui semnal de vorbire în sistemele vocoder poate fi considerată sinteza.
  2. Sorokin V. N. Sinteza vorbirii. — M.: Nauka, 1992, p. 392.
  3. Dennis Klatt's History of Speech Synthesis Pagina arhivată 4 iulie 2006 pe Wayback Machine , dedicată istoriei dezvoltării sintetizatoarelor de vorbire, prezintă fișiere de sunet cu înregistrări ale diferitelor sintetizatoare de vorbire. Există un fișier care înregistrează sunetul vocoderului lui Homer Dudley.
  4. De exemplu, oamenii de știință japonezi de la Laboratorul Takanishi de la Universitatea Waseda lucrează la un model antropomorf al unui robot vorbitor. Ultima lor dezvoltare ( 2005 ) - modelul Waseda Talker No.5 - are întregul set de instrumente de vorbire: plămâni, laringe, palat moale, limbă, dinți, buze etc. În total, toate aceste organe au 18 grade de libertate. Din pagina lor Anthropomorphic Talking Robot Waseda-Talker Series Arhivat 17 iulie 2007. Puteți vizualiza informații mai detaliate, inclusiv fotografii și videoclipuri.
  5. Ray Kurzweil. Singularitatea este aproape: când oamenii transcend biologia . - New York: Viking, 2005. - xvii, 652 pagini p. — ISBN 0-670-03384-7 , 978-0-670-03384-3, 978-0-14-303788-0, 0-14-303788-9, 0-7156-3561-1, 978-0- 7156-3561-2.
  6. STUDIUL REZISTENTEI VERIFICARII VOCILOR LA ATACURI FOLOSIND SISTEMUL DE SINTEZA. — Journal of Instrumentation Arhivat pe 23 ianuarie 2015 la Wayback Machine . - Februarie 2014.

Literatură

Link -uri