Recunoașterea vorbirii este procesul automat de conversie a unui semnal vocal în informații digitale (de exemplu, date text ). Problema inversă este sinteza vorbirii .
Primul dispozitiv de recunoaștere a vorbirii a apărut în 1952 , putea recunoaște numerele rostite de o persoană . [1] În 1962, IBM Shoebox a fost introdus la New York Computer Technology Fair .
În 1963, în Statele Unite, au fost prezentate dispozitive de recunoaștere în miniatură cu un dispozitiv de memorie cu fibră optică numit „Septron” ( Sceptron , dar pronunțat [ˈseptrɑːn] fără „k”), dezvoltate de inginerii Sperry Corporation, [2] efectuând una sau alta secvență de acțiuni la anumite fraze rostite de operatorul uman. „Septronele” erau potrivite pentru utilizarea în domeniul comunicațiilor fixe (cablate) pentru automatizarea apelării prin voce și înregistrarea automată a textului dictat prin teletip , puteau fi utilizate în sfera militară (pentru controlul vocal al mostrelor complexe de echipamente militare ), aviație (să creeze „ avionică inteligentă ” care reacționează la pilotului și ale membrilor echipajului),comenzile sisteme de control automate etc. [2] [3] [4] semnale de control către echipamentul de bord și o voce monosilabică care îi răspunde în ceea ce privește posibilitatea implementării sarcinii stabilite de acesta [5] .
Programele comerciale de recunoaștere a vorbirii au apărut la începutul anilor nouăzeci. De obicei, acestea sunt folosite de persoane care, din cauza unei răni la mână, nu pot scrie o cantitate mare de text. Aceste programe (cum ar fi Dragon NaturallySpeaking, VoiceNavigator) traduc vocea utilizatorului în text, descarcându-și astfel mâinile. Fiabilitatea traducerii unor astfel de programe nu este foarte mare, dar se îmbunătățește treptat de-a lungul anilor.
Creșterea puterii de calcul a dispozitivelor mobile a făcut posibilă crearea de programe pentru acestea cu o funcție de recunoaștere a vorbirii. Printre astfel de programe, este de remarcat aplicația Microsoft Voice Command, care vă permite să lucrați cu multe aplicații folosind vocea. De exemplu, puteți activa redarea muzicii în player sau puteți crea un document nou.
Utilizarea recunoașterii vorbirii devine din ce în ce mai populară în diverse domenii de afaceri, de exemplu, un medic dintr-o clinică poate pronunța diagnostice care vor fi introduse imediat pe un card electronic. Sau alt exemplu. Cu siguranță toată lumea a visat măcar o dată în viață să-și folosească vocea pentru a stinge lumina sau a deschide fereastra. Recent, sistemele automate de recunoaștere și sinteză a vorbirii au fost din ce în ce mai utilizate în aplicațiile interactive ale telefonului. În acest caz, comunicarea cu portalul vocal devine mai naturală, deoarece alegerea în acesta se poate face nu numai cu ajutorul apelării prin ton, ci și cu ajutorul comenzilor vocale. În același timp, sistemele de recunoaștere sunt independente de vorbitori, adică recunosc vocea oricărei persoane.
Următorul pas în tehnologiile de recunoaștere a vorbirii poate fi considerat dezvoltarea așa-numitelor interfețe de acces silentios (interfețe de vorbire silențioasă, SSI). Aceste sisteme de procesare a vorbirii se bazează pe recepția și procesarea semnalelor vocale într-un stadiu incipient al articulației. Această etapă în dezvoltarea recunoașterii vorbirii este cauzată de două deficiențe semnificative ale sistemelor moderne de recunoaștere: sensibilitatea excesivă la zgomot, precum și necesitatea unei vorbiri clare și distincte la accesarea sistemului de recunoaștere. Abordarea bazată pe SSI este de a folosi senzori noi, fără zgomot, pentru a completa semnalele acustice procesate.
Sistemele de recunoaștere a vorbirii sunt clasificate: [6]
Pentru sistemele de recunoaștere automată a vorbirii, imunitatea la zgomot este asigurată, în primul rând, prin utilizarea a două mecanisme: [7]
„... este evident că algoritmii de procesare a semnalului de vorbire într-un model de percepție a vorbirii ar trebui să utilizeze același sistem de concepte și relații pe care îl folosește o persoană” [8] [9] .
Astăzi, sistemele de recunoaștere a vorbirii sunt construite pe principiile recunoașterii[ de cine? ] forme de recunoaștere [ termen necunoscut ] . Metodele și algoritmii care au fost utilizați până acum pot fi împărțiți în următoarele clase mari: [10] [11]
Clasificarea metodelor de recunoaștere a vorbirii pe baza comparației cu standardul.
Clasificare dependentă de context. Când este implementat, elementele lexicale separate se disting de fluxul de vorbire - foneme și alofoni, care sunt apoi combinate în silabe și morfeme.
Algoritmul de transformare dinamică a cronologiei este utilizat pentru a determina dacă semnalele de vorbire reprezintă aceeași frază originală.
Una dintre arhitecturile sistemelor automate de procesare a vorbirii bazate pe date statistice poate fi următoarea. [12] [13]
Etapele recunoașterii [12]
Conceptele de bază care caracterizează parametrii vorbirii umane asociați cu forma, dimensiunea, dinamica modificărilor în tractul de formare a vorbirii și descriu starea emoțională a unei persoane pot fi împărțite în patru grupuri de trăsături obiective care permit cuiva să distingă între vorbire. modele: spectral-temporal, cepstral, amplitudine-frecvență și semne ale dinamicii neliniare. Mai multe detalii, fiecare grup de caracteristici: [9] [14] [15]
Caracteristici spectro-temporaleCaracteristici spectrale:
Semne temporare:
Caracteristicile spectro-temporale caracterizează semnalul de vorbire în esența sa fizică și matematică pe baza prezenței a trei tipuri de componente:
Caracteristicile spectro-temporale fac posibilă reflectarea originalității formei seriei de timp și a spectrului de impulsuri vocale la diferiți indivizi și a caracteristicilor funcțiilor de filtrare ale tractului lor de vorbire. Ele caracterizează trăsăturile fluxului vorbirii asociate cu dinamica restructurării organelor de articulare ale vorbirii vorbitorului și sunt caracteristici integrante ale fluxului vorbirii, reflectând particularitatea relației sau sincronismului mișcării organelor de articulație ale vorbirii. difuzor.
Semne cepstraleMajoritatea sistemelor moderne de recunoaștere automată a vorbirii se concentrează pe extragerea răspunsului în frecvență al tractului vocal uman, în timp ce elimină caracteristicile semnalului de excitație. Acest lucru se explică prin faptul că coeficienții primului model asigură o mai bună separabilitate a sunetelor. Pentru a separa semnalul de excitație de semnalul tractului vocal, se utilizează analiza cepstrală .
Caracteristici amplitudine-frecvențăCaracteristicile de amplitudine-frecvență fac posibilă obținerea de estimări, ale căror valori pot varia în funcție de parametrii transformării Fourier discrete (tipul și lățimea ferestrei), precum și cu deplasări minore ale ferestrei peste eșantion . Un semnal de vorbire reprezintă acustic vibrațiile sonore ale structurii complexe care se propagă în aer, care sunt caracterizate în raport cu frecvența (numărul de vibrații pe secundă), intensitatea (amplitudinea oscilației) și durata acestora. Semnele amplitudine-frecvență poartă informațiile necesare și suficiente pentru o persoană pe un semnal de vorbire cu un timp minim de percepție. Dar utilizarea acestor caracteristici nu le permite să fie utilizate pe deplin ca instrument de identificare a vorbirii colorate emoțional.
Semne ale dinamicii neliniarePentru grupul de semne ale dinamicii neliniare, semnalul de vorbire este considerat o valoare scalară observată în sistemul tractului vocal uman. Procesul de producere a vorbirii poate fi considerat neliniar și poate fi analizat prin metode de dinamică neliniară. Sarcina dinamicii neliniare este de a găsi și studia în detaliu modelele matematice de bază și sistemele reale care pornesc din cele mai tipice propuneri despre proprietățile elementelor individuale care alcătuiesc sistemul și legile interacțiunii dintre ele. În prezent, metodele dinamicii neliniare se bazează pe teoria matematică fundamentală, care se bazează pe teorema Takens., care aduce o bază matematică riguroasă ideilor de autoregresie neliniară și demonstrează posibilitatea refacerii portretului de fază al unui atractor dintr-o serie temporală sau dintr-una din coordonatele sale. (Un atractor este un set de puncte sau un subspațiu din spațiul fazelor de care se apropie traiectoria de fază după decăderea tranzitorilor.) Estimările caracteristicilor semnalului din traiectoriile de vorbire reconstruite sunt utilizate în construcția spațiului de fază determinist neliniar. modele ale serii de timp observate. Diferențele relevate în forma atractorilor pot fi folosite pentru reguli și caracteristici de diagnosticare care permit recunoașterea și identificarea corectă a diferitelor emoții într-un semnal de vorbire colorat emoțional.
Parametrii de calitate a vorbirii pentru canalele digitale: [17]
Ușurința de utilizare a fost declarată a fi principalul avantaj al sistemelor de voce . Comenzile vocale trebuiau să salveze utilizatorul final de nevoia de a utiliza atingerea și alte metode de introducere a datelor și comenzi.
Exemple de succes de utilizare a tehnologiei de recunoaștere a vorbirii în aplicațiile mobile sunt: introducerea unei adrese prin voce în Yandex.Navigator, căutarea vocală Google Now.
Pe lângă dispozitivele mobile, tehnologia de recunoaștere a vorbirii este utilizată pe scară largă în diferite domenii de afaceri:
![]() | |
---|---|
În cataloagele bibliografice |
|
procesarea limbajului natural | |
---|---|
Definiții generale | |
Analiza textului |
|
Referire |
|
Traducere automată |
|
Identificarea și colectarea datelor | |
Model tematic | |
Evaluare inter pares |
|
Interfață în limbaj natural |