Recunoaștere a vorbirii

Recunoașterea vorbirii  este procesul automat de conversie a unui semnal vocal în informații digitale (de exemplu, date text ). Problema inversă este sinteza vorbirii .

Istorie

Primul dispozitiv de recunoaștere a vorbirii a apărut în 1952 , putea recunoaște numerele rostite de o persoană . [1] În 1962, IBM Shoebox a fost introdus la New York Computer Technology Fair .

În 1963, în Statele Unite, au fost prezentate dispozitive de recunoaștere în miniatură cu un dispozitiv de memorie cu fibră optică numit „Septron” ( Sceptron , dar pronunțat [ˈseptrɑːn] fără „k”), dezvoltate de inginerii Sperry Corporation, [2] efectuând una sau alta secvență de acțiuni la anumite fraze rostite de operatorul uman. „Septronele” erau potrivite pentru utilizarea în domeniul comunicațiilor fixe (cablate) pentru automatizarea apelării prin voce și înregistrarea automată a textului dictat prin teletip , puteau fi utilizate în sfera militară (pentru controlul vocal al mostrelor complexe de echipamente militare ), aviație (să creeze „ avionică inteligentă ” care reacționează la pilotului și ale membrilor echipajului),comenzile sisteme de control automate etc. [2] [3] [4] semnale de control către echipamentul de bord și o voce monosilabică care îi răspunde în ceea ce privește posibilitatea implementării sarcinii stabilite de acesta [5] .

Programele comerciale de recunoaștere a vorbirii au apărut la începutul anilor nouăzeci. De obicei, acestea sunt folosite de persoane care, din cauza unei răni la mână, nu pot scrie o cantitate mare de text. Aceste programe (cum ar fi Dragon NaturallySpeaking, VoiceNavigator) traduc vocea utilizatorului în text, descarcându-și astfel mâinile. Fiabilitatea traducerii unor astfel de programe nu este foarte mare, dar se îmbunătățește treptat de-a lungul anilor.

Creșterea puterii de calcul a dispozitivelor mobile a făcut posibilă crearea de programe pentru acestea cu o funcție de recunoaștere a vorbirii. Printre astfel de programe, este de remarcat aplicația Microsoft Voice Command, care vă permite să lucrați cu multe aplicații folosind vocea. De exemplu, puteți activa redarea muzicii în player sau puteți crea un document nou.

Utilizarea recunoașterii vorbirii devine din ce în ce mai populară în diverse domenii de afaceri, de exemplu, un medic dintr-o clinică poate pronunța diagnostice care vor fi introduse imediat pe un card electronic. Sau alt exemplu. Cu siguranță toată lumea a visat măcar o dată în viață să-și folosească vocea pentru a stinge lumina sau a deschide fereastra. Recent, sistemele automate de recunoaștere și sinteză a vorbirii au fost din ce în ce mai utilizate în aplicațiile interactive ale telefonului. În acest caz, comunicarea cu portalul vocal devine mai naturală, deoarece alegerea în acesta se poate face nu numai cu ajutorul apelării prin ton, ci și cu ajutorul comenzilor vocale. În același timp, sistemele de recunoaștere sunt independente de vorbitori, adică recunosc vocea oricărei persoane.

Următorul pas în tehnologiile de recunoaștere a vorbirii poate fi considerat dezvoltarea așa-numitelor interfețe de acces silentios (interfețe de vorbire silențioasă, SSI). Aceste sisteme de procesare a vorbirii se bazează pe recepția și procesarea semnalelor vocale într-un stadiu incipient al articulației. Această etapă în dezvoltarea recunoașterii vorbirii este cauzată de două deficiențe semnificative ale sistemelor moderne de recunoaștere: sensibilitatea excesivă la zgomot, precum și necesitatea unei vorbiri clare și distincte la accesarea sistemului de recunoaștere. Abordarea bazată pe SSI este de a folosi senzori noi, fără zgomot, pentru a completa semnalele acustice procesate.

Clasificarea sistemelor de recunoaștere a vorbirii

Sistemele de recunoaștere a vorbirii sunt clasificate: [6]

Pentru sistemele de recunoaștere automată a vorbirii, imunitatea la zgomot este asigurată, în primul rând, prin utilizarea a două mecanisme: [7]

Metode și algoritmi pentru recunoașterea vorbirii

„... este evident că algoritmii de procesare a semnalului de vorbire într-un model de percepție a vorbirii ar trebui să utilizeze același sistem de concepte și relații pe care îl folosește o persoană” [8] [9] .

Astăzi, sistemele de recunoaștere a vorbirii sunt construite pe principiile recunoașterii[ de cine? ] forme de recunoaștere [ termen necunoscut ] . Metodele și algoritmii care au fost utilizați până acum pot fi împărțiți în următoarele clase mari: [10] [11]

Clasificarea metodelor de recunoaștere a vorbirii pe baza comparației cu standardul.

  • Programare dinamică - algoritmi dinamici temporari (Dynamic Time Warping).

Clasificare dependentă de context. Când este implementat, elementele lexicale separate se disting de fluxul de vorbire - foneme și alofoni, care sunt apoi combinate în silabe și morfeme.

  • Metode de analiză discriminantă bazate pe discriminarea bayesiană;
  • Modele Markov ascunse;
  • Rețele neuronale (Rețele neuronale).

Algoritmul de transformare dinamică a cronologiei este utilizat pentru a determina dacă semnalele de vorbire reprezintă aceeași frază originală.

Arhitectura sistemelor de recunoaștere

Una dintre arhitecturile sistemelor automate de procesare a vorbirii bazate pe date statistice poate fi următoarea. [12] [13]

  • Modul de reducere a zgomotului și separare utilă a semnalului.
  • Model acustic – vă permite să evaluați recunoașterea unui segment de vorbire din punct de vedere al similitudinii la nivel audio. Pentru fiecare sunet, este construit inițial un model statistic complex care descrie pronunția acestui sunet în vorbire.
  • Model de limbă - vă permite să determinați cele mai probabile secvențe de cuvinte. Complexitatea construirii unui model de limbaj depinde în mare măsură de limbajul specific. Deci, pentru limba engleză, este suficient să folosiți modele statistice (așa-numitele N-grame). Pentru limbile foarte flexive (limbi în care există multe forme ale aceluiași cuvânt), cărora le aparține limba rusă, modelele lingvistice construite numai folosind statistici nu mai dau un astfel de efect - sunt necesare prea multe date pentru a evalua în mod fiabil statistica. relațiile dintre cuvinte. Prin urmare, sunt utilizate modele de limbaj hibride care folosesc regulile limbii ruse, informații despre partea de vorbire și forma cuvântului și modelul statistic clasic.
  • Un decodor este o componentă software a unui sistem de recunoaștere care combină datele obținute în timpul recunoașterii din modelele acustice și lingvistice și, pe baza combinației lor, determină cea mai probabilă secvență de cuvinte, care este rezultatul final al recunoașterii continue a vorbirii.

Etapele recunoașterii [12]

  1. Procesarea vorbirii începe cu o evaluare a calității semnalului vorbirii. În această etapă, este determinat nivelul de interferență și distorsiune.
  2. Rezultatul evaluării intră în modulul de adaptare acustică, care controlează modulul de calcul al parametrilor de vorbire necesari recunoașterii.
  3. Segmentele care conțin vorbire sunt selectate în semnal, iar parametrii vorbirii sunt evaluați. Există o selecție de caracteristici probabilistice fonetice și prozodice pentru analiza sintactică, semantică și pragmatică. (Evaluarea informațiilor despre partea de vorbire, forma cuvântului și relațiile statistice dintre cuvinte.)
  4. Apoi, parametrii de vorbire intră în blocul principal al sistemului de recunoaștere - decodorul. Aceasta este componenta care potrivește fluxul de vorbire de intrare cu informațiile stocate în modelele acustice și lingvistice și determină cea mai probabilă secvență de cuvinte, care este rezultatul recunoașterii finale.

Semne ale vorbirii colorate emoțional în sistemele de recunoaștere

Conceptele de bază care caracterizează parametrii vorbirii umane asociați cu forma, dimensiunea, dinamica modificărilor în tractul de formare a vorbirii și descriu starea emoțională a unei persoane pot fi împărțite în patru grupuri de trăsături obiective care permit cuiva să distingă între vorbire. modele: spectral-temporal, cepstral, amplitudine-frecvență și semne ale dinamicii neliniare. Mai multe detalii, fiecare grup de caracteristici: [9] [14] [15]

Caracteristici spectro-temporale

Caracteristici spectrale:

  • Valoarea medie a spectrului semnalului de vorbire analizat;
  • Mijloace normalizate ale spectrului;
  • Timpul de rezidență relativ al semnalului în benzile spectrului;
  • Timpul de rezidență normalizat al semnalului în benzile spectrului;
  • Valoarea mediană a spectrului de vorbire în benzi;
  • Puterea relativă a spectrului de vorbire în benzi;
  • Variația plicurilor spectrului de vorbire;
  • Valori normalizate ale variației plicurilor spectrului de vorbire;
  • Coeficienții de corelație încrucișată a anvelopelor spectrale între benzile de spectru.

Semne temporare:

  • Durata segmentului, foneme;
  • înălțimea segmentului;
  • Factor de formă a segmentului.

Caracteristicile spectro-temporale caracterizează semnalul de vorbire în esența sa fizică și matematică pe baza prezenței a trei tipuri de componente:

  1. secțiuni periodice (tonale) ale unei unde sonore;
  2. secțiuni neperiodice ale unei unde sonore (zgomot, exploziv);
  3. secțiuni care nu conțin pauze de vorbire.

Caracteristicile spectro-temporale fac posibilă reflectarea originalității formei seriei de timp și a spectrului de impulsuri vocale la diferiți indivizi și a caracteristicilor funcțiilor de filtrare ale tractului lor de vorbire. Ele caracterizează trăsăturile fluxului vorbirii asociate cu dinamica restructurării organelor de articulare ale vorbirii vorbitorului și sunt caracteristici integrante ale fluxului vorbirii, reflectând particularitatea relației sau sincronismului mișcării organelor de articulație ale vorbirii. difuzor.

Semne cepstrale
  • Coeficienții cepstrali de frecvență Mel;
  • Coeficienți de predicție liniară corectați pentru sensibilitatea neuniformă a urechii umane;
  • Factori de putere a frecvenței de înregistrare;
  • Coeficienții spectrului de predicție liniară;
  • Coeficienții de cepstru de predicție liniară.

Majoritatea sistemelor moderne de recunoaștere automată a vorbirii se concentrează pe extragerea răspunsului în frecvență al tractului vocal uman, în timp ce elimină caracteristicile semnalului de excitație. Acest lucru se explică prin faptul că coeficienții primului model asigură o mai bună separabilitate a sunetelor. Pentru a separa semnalul de excitație de semnalul tractului vocal, se utilizează analiza cepstrală .

Caracteristici amplitudine-frecvență
  • Intensitate, amplitudine
  • Energie
  • Frecvența înălțimii (PCH)
  • Frecvențele formanților
  • Jitter (jitter) - modularea frecvenței de jitter a tonului fundamental (parametru de zgomot);
  • Shimmer (shimmer) - modulație de amplitudine pe tonul fundamental (parametru de zgomot);
  • Funcția nucleară de bază radială
  • Operator Teager neliniar

Caracteristicile de amplitudine-frecvență fac posibilă obținerea de estimări, ale căror valori pot varia în funcție de parametrii transformării Fourier discrete (tipul și lățimea ferestrei), precum și cu deplasări minore ale ferestrei peste eșantion . Un semnal de vorbire reprezintă acustic vibrațiile sonore ale structurii complexe care se propagă în aer, care sunt caracterizate în raport cu frecvența (numărul de vibrații pe secundă), intensitatea (amplitudinea oscilației) și durata acestora. Semnele amplitudine-frecvență poartă informațiile necesare și suficiente pentru o persoană pe un semnal de vorbire cu un timp minim de percepție. Dar utilizarea acestor caracteristici nu le permite să fie utilizate pe deplin ca instrument de identificare a vorbirii colorate emoțional.

Semne ale dinamicii neliniare
  • cartografiere Poincaré;
  • grafic recursiv;
  • Indicatorul caracteristic maxim al lui Lyapunov este starea emoțională a unei persoane, care corespunde unei anumite geometrii a atractorului (portret de fază); [16]
  • Portret de fază (atractor);
  • Dimensiunea Kaplan-York este o măsură cantitativă a stării emoționale a unei persoane, de la „calm” la „furie” (deformarea și schimbarea ulterioară a spectrului semnalului de vorbire). [16] .

Pentru grupul de semne ale dinamicii neliniare, semnalul de vorbire este considerat o valoare scalară observată în sistemul tractului vocal uman. Procesul de producere a vorbirii poate fi considerat neliniar și poate fi analizat prin metode de dinamică neliniară. Sarcina dinamicii neliniare este de a găsi și studia în detaliu modelele matematice de bază și sistemele reale care pornesc din cele mai tipice propuneri despre proprietățile elementelor individuale care alcătuiesc sistemul și legile interacțiunii dintre ele. În prezent, metodele dinamicii neliniare se bazează pe teoria matematică fundamentală, care se bazează pe teorema Takens., care aduce o bază matematică riguroasă ideilor de autoregresie neliniară și demonstrează posibilitatea refacerii portretului de fază al unui atractor dintr-o serie temporală sau dintr-una din coordonatele sale. (Un atractor este un set de puncte sau un subspațiu din spațiul fazelor de care se apropie traiectoria de fază după decăderea tranzitorilor.) Estimările caracteristicilor semnalului din traiectoriile de vorbire reconstruite sunt utilizate în construcția spațiului de fază determinist neliniar. modele ale serii de timp observate. Diferențele relevate în forma atractorilor pot fi folosite pentru reguli și caracteristici de diagnosticare care permit recunoașterea și identificarea corectă a diferitelor emoții într-un semnal de vorbire colorat emoțional.

Opțiuni de calitate a vorbirii

Parametrii de calitate a vorbirii pentru canalele digitale: [17]

  • inteligibilitatea silabică a vorbirii;
  • inteligibilitatea frazală a vorbirii;
  • Calitatea vorbirii în comparație cu calitatea vorbirii a căii de referință;
  • Calitatea vorbirii în condiții reale de muncă.

Concepte de bază

  • Inteligibilitatea vorbirii este numărul relativ de elemente de vorbire recepţionate corect (sunete, silabe, cuvinte, fraze), exprimat ca procent din numărul total de elemente transmise.
  • Calitatea vorbirii este un parametru care caracterizează evaluarea subiectivă a sunetului vorbirii în sistemul de transmisie a vorbirii testat.
  • Ritmul normal al vorbirii este vorbirea cu o viteză la care durata medie a frazei de control este de 2,4 secunde.
  • Viteza de vorbire accelerată - vorbirea cu o viteză la care durata medie a frazei de control este de 1,5-1,6 s.
  • Recunoașterea vocii vorbitorului este capacitatea ascultătorilor de a identifica sunetul vocii cu o anumită persoană cunoscută anterior de ascultător.
  • Inteligibilitatea semantică este un indicator al gradului de reproducere corectă a conținutului informațional al vorbirii.
  • Calitatea integrală este un indicator care caracterizează impresia generală a ascultătorului din discursul primit.

Aplicație

Ușurința de utilizare a fost declarată a fi principalul avantaj al sistemelor de voce . Comenzile vocale trebuiau să salveze utilizatorul final de nevoia de a utiliza atingerea și alte metode de introducere a datelor și comenzi.

Exemple de succes de utilizare a tehnologiei de recunoaștere a vorbirii în aplicațiile mobile sunt: ​​introducerea unei adrese prin voce în Yandex.Navigator, căutarea vocală Google Now.

Pe lângă dispozitivele mobile, tehnologia de recunoaștere a vorbirii este utilizată pe scară largă în diferite domenii de afaceri:

  • Telefonie: automatizarea procesării apelurilor de intrare și de ieșire prin crearea de sisteme de voce cu autoservire, în special pentru: obținerea de informații de bază și consultanță, comandarea de servicii/mărfuri, modificarea parametrilor serviciilor existente, efectuarea de sondaje, chestionare, colectare de informații, informare și orice alte scenarii;
  • Soluții „Smart Home”: interfață vocală pentru gestionarea sistemelor „Smart Home”;
  • Aparate electrocasnice și roboți: interfața vocală a roboților electronici; control vocal al aparatelor de uz casnic etc.;
  • Desktop-uri și laptopuri: intrare vocală în jocuri și aplicații pe calculator;
  • Mașini: control vocal în interiorul mașinii - de exemplu, un sistem de navigație;
  • Servicii sociale pentru persoane cu dizabilități.

Vezi și

Note

  1. ^ Davies, KH, Biddulph, R. și Balashek , S. (1952) Automatic Speech Recognition of Spoken Digits , J. Acoust. soc. A.m. 24 (6) pp. 637-642
  2. 1 2 Klass, Philip J. Dispozitivul Fiber Optic Recognizes Signals . // Săptămâna aviației și tehnologia spațială . - NY: McGraw-Hill , 1962. - Vol. 77 - nr. 20 - P. 94-101.
  3. Celulele de memorie . // Revista militară . - aprilie 1963. - Vol. 43 - nr. 4 - p. 99.
  4. Armagnac, Alden P. „Spune-i lui Sceptron!” // Știința populară . - aprilie 1963. - Vol. 182 - nr. 4 - p. 120.
  5. Testat pe computer cu operare vocală . // Artilerie de Apărare Aeriană . - Primăvara 1983. - Nr. 2 - P. 54.
  6. Cont suspendat . Preluat la 10 martie 2013. Arhivat din original la 27 noiembrie 2013.
  7. Probleme moderne în domeniul recunoașterii vorbirii. . Preluat la 6 iunie 2020. Arhivat din original la 6 iunie 2020.
  8. http://phonoscopic.rf/articles_and_publications/Lobanova_Search_of_identical_fragments.pdf  (link inaccesibil)
  9. 1 2 Sursa . Consultat la 29 aprilie 2013. Arhivat din original pe 21 august 2013.
  10. Sursa . Consultat la 25 aprilie 2013. Arhivat din original la 15 septembrie 2012.
  11. Sursa . Consultat la 25 aprilie 2013. Arhivat din original la 22 decembrie 2014.
  12. 1 2 Recunoașterea vorbirii | Centrul pentru tehnologii de vorbire | ODM . Consultat la 20 aprilie 2013. Arhivat din original pe 28 aprilie 2013.
  13. Sursa . Consultat la 29 aprilie 2013. Arhivat din original pe 4 martie 2016.
  14. Analiza semnelor unui text colorat emoțional . Preluat la 6 iunie 2020. Arhivat din original la 6 iunie 2020.
  15. Sursa . Preluat la 1 mai 2013. Arhivat din original la 4 martie 2016.
  16. 1 2 Disertație pe tema „Cercetarea stării psihofiziologice a unei persoane pe baza semnelor emoționale ale vorbirii” rezumat pe specialitatea VAK 05.11.17, 05.13.01 - Dispozitiv .... Consultat la 30 aprilie 2013. Arhivat din original la 14 octombrie 2013.
  17. GOST R 51061-97. PARAMETRI DE CALITATE A VORBIILOR. SISTEME DE TRANSMISIE VOCALĂ LA VITEZĂ MICĂ PRIN CANALE DIGITALE. (link indisponibil) . Consultat la 29 aprilie 2013. Arhivat din original pe 3 septembrie 2014. 

Link -uri