Recunoașterea vocii este o formă de autentificare biometrică care vă permite să identificați o persoană printr-o combinație de caracteristici vocale unice . Se referă la metodele dinamice de biometrie . Cu toate acestea, din moment ce vocea unei persoane se poate schimba în funcție de vârstă, stare emoțională, sănătate, niveluri hormonale și o serie de alți factori, nu este absolut exactă [1] . Odată cu dezvoltarea tehnologiei de înregistrare și reproducere a sunetului, tehnologia de recunoaștere este utilizată cu diferite grade de succes în domeniul securității informațiilor , al sistemelor de securitate și acces și al criminalisticii .
Lucrările privind recunoașterea vorbirii datează de la mijlocul secolului trecut. Primul sistem a fost creat la începutul anilor 1950: dezvoltatorii săi și-au stabilit sarcina de a recunoaște numerele. Sistemul dezvoltat ar putea identifica numerele , dar vorbite într-o singură voce, cum ar fi sistemul „Audrey” al Laboratoarelor Bell . Ea a lucrat pe baza determinării formantului din spectrul de putere al fiecărui pasaj de vorbire [2] . În termeni generali, sistemul a constat din trei părți principale: analizoare și cuantificatoare, șabloane de potrivire a rețelei și, în final, senzori. A fost creat, respectiv, pe baza elementară a diferitelor filtre de frecvență, comutatoare, precum și tuburi umplute cu gaz ca parte a senzorilor [3] .
Până la sfârșitul deceniului, au apărut sisteme care recunoșteau vocalele independent de vorbitor [4] . În anii '70 au început să fie folosite noi metode care au făcut posibilă obținerea unor rezultate mai perfecte - metoda de programare dinamică [5] și metoda de predicție liniară (Linear Predictive Coding - LPC). La firma menționată mai sus, Bell Laboratories, au fost create sisteme care folosesc tocmai aceste metode [6] . În anii 80, următorul pas în dezvoltarea sistemelor de recunoaștere a vocii a fost utilizarea modelelor Markov ascunse (Modele Markov ascunse - HMM). În acest moment, au început să apară primele programe majore de recunoaștere a vocii, precum Kurzweil text-to-speech [7] . La sfârșitul anilor 80 au început să fie utilizate și metodele rețelelor neuronale artificiale (Artificial Neural Network - ANN) [8] . În 1987, a apărut pe piață păpușa Julie a lui Worlds of Wonder, care au putut înțelege vocea [7] . Și 10 ani mai târziu, Dragon Systems a lansat programul „NaturallySpeaking 1.0” [9] .
Principalele surse de erori de recunoaștere a vocii sunt:
Recunoașterea genului poate fi distinsă ca un tip separat de sarcină, care este rezolvată cu succes - cu cantități mari de date inițiale, sexul este determinat aproape fără eroare, iar în pasaje scurte, cum ar fi o vocală accentuată, probabilitatea de eroare este de 5,3% pentru bărbați și 3,1% pentru femei [11 ] .
S-a luat în considerare și problema imitației vocii. Studiile France Telecom au arătat că imitarea profesională a vocii practic nu crește probabilitatea unei erori de identitate - imitatorii falsifică vocea doar extern, subliniind caracteristicile vorbirii, dar nu sunt capabili să falsească conturul de bază al vocii. Chiar și vocile rudelor apropiate, gemenii vor avea o diferență, cel puțin în dinamica controlului [11] . Însă odată cu dezvoltarea tehnologiei informatice a apărut o nouă problemă care impune utilizarea unor noi metode de analiză - transformarea vocii, care crește probabilitatea de eroare până la 50% [11] .
Pentru a descrie fiabilitatea sistemului, sunt utilizate două criterii: FRR (False Rejection Rate) - probabilitatea unui refuz fals de acces ( eroare de primul fel ) și FAR (False Acceptance Rate) - probabilitatea unei admiteri false. atunci când sistemul identifică în mod eronat pe altcineva ca fiind propriu (eroare de al doilea fel) . De asemenea, uneori sistemele de recunoaștere sunt caracterizate de un astfel de parametru precum EER (Equal Error Rates), care reprezintă punctul de coincidență al probabilităților FRR și FAR. Cu cât sistemul este mai fiabil, cu atât are EER mai scăzut [12] .
Valorile erorilor de identificare pentru diferite modalități biometrice [10]
semn biometric | Test | Condiții de test | FRR% | DEPARTE% |
---|---|---|---|---|
Amprentele digitale | FVC 2006 | Populație eterogenă (include muncitori manuali și vârstnici) | 2.2 | 2.2 |
Față | MBE 2010 | Baza foto a poliției
Baza de date cu fotografii din documente |
4.0
0,3 |
0,1
0,1 |
Voce | NIST 2010 | Recunoaștere independentă de text | 3..4 | 1.0 |
Irisul ochiului | ICE 2006 | Iluminare controlată, gamă largă de calitate a imaginii | 1.1…1.4 | 0,1 |
Recunoașterea poate fi împărțită în două domenii principale: identificare și verificare . În primul caz, sistemul trebuie să identifice independent utilizatorul prin voce; în al doilea caz, sistemul trebuie să confirme sau să infirme identificatorul prezentat de utilizator [11] . Definiția vorbitorului studiat constă într-o comparație în perechi a modelelor de voce care țin cont de caracteristicile individuale ale vorbirii fiecărui vorbitor. Astfel, trebuie să colectăm mai întâi o bază de date suficient de mare. Și pe baza rezultatelor acestei comparații se poate forma o listă de fonograme care sunt, cu o oarecare probabilitate, vorbirea utilizatorului care ne interesează [11] .
Deși recunoașterea vocii nu poate garanta un rezultat 100% corect, poate fi folosită destul de eficient în domenii precum criminalistica și criminalistica; serviciul de informații; monitorizare antiteroristă; Siguranță; bancar și așa mai departe [11] .
Întregul proces de procesare a unui semnal de vorbire poate fi împărțit în mai multe etape principale:
Fiecare etapă reprezintă un algoritm sau un set de algoritmi, care în cele din urmă dă rezultatul dorit [13] .
Principalele caracteristici ale vocii sunt formate din trei proprietăți principale: mecanica oscilațiilor corzilor vocale, anatomia tractului vocal și sistemul de control al articulației. În plus, uneori este posibil să se folosească dicționarul vorbitorului, rândurile sale de vorbire [11] . Principalele caracteristici prin care se ia o decizie cu privire la personalitatea vorbitorului se formează luând în considerare toți factorii procesului de producere a vorbirii: sursa vocii, frecvențele de rezonanță ale tractului vocal și atenuarea acestora, precum și dinamica controlului articulației. Dacă luăm în considerare sursele mai detaliat, atunci proprietățile sursei vocale includ: frecvența medie a tonului fundamental, conturul și fluctuațiile frecvenței tonului fundamental și forma pulsului de excitație. Caracteristicile spectrale ale tractului vocal sunt descrise de anvelopa spectrului și panta medie a acestuia, frecvențele formante , spectrul pe termen lung sau cepstrul . În plus, sunt luate în considerare și durata cuvintelor, ritmul (distribuția stresului), nivelul semnalului, frecvența și durata pauzelor [14] . Pentru a determina aceste caracteristici, trebuie să folosiți algoritmi destul de complecși, dar întrucât, de exemplu, eroarea frecvențelor formanților este destul de mare, pentru simplificare, coeficienții de cepstru calculați din anvelopa spectrului sau funcția de transfer a tractului vocal găsit de se utilizează metoda predicţiei liniare. Pe lângă coeficienții de cepstru menționați, se mai folosesc diferențele lor de timp prima și a doua [11] . Această metodă a fost propusă pentru prima dată de Davis și Mermelstein [15] .
Analiza cepstralăÎn lucrările de recunoaștere a vocii, cea mai populară metodă este transformarea cepstrală a spectrului de semnale de vorbire [11] . Schema metodei este următoarea: pe un interval de timp de 10 - 20 ms, se calculează spectrul de putere curent, apoi se aplică transformata Fourier inversă a logaritmului acestui spectru (cepstrum) și se găsesc coeficienții: , - frecvența superioară în spectrul semnalului de vorbire, - spectrul de putere. Numărul de coeficienți cepstrali n depinde de netezirea necesară a spectrului și variază de la 20 la 40. Dacă se folosește un banc de filtre trece-bandă , atunci coeficienții discreti de transformare cepstrală sunt calculați ca , unde Y(m) este semnalul de ieșire al al-lea filtru, este al n-lea coeficient de cepstru.
Proprietățile auzului sunt luate în considerare printr-o transformare neliniară a scării de frecvență, de obicei la scara cretă [11] . Această scară este formată pe baza prezenței în ureche a așa-numitelor benzi critice , astfel încât semnalele de orice frecvență din banda critică să nu se distingă. Scala mel este calculată ca , unde f este frecvența în Hz, M este frecvența în mel. Sau se folosește o altă scară - scoarță , astfel încât diferența dintre cele două frecvențe, egală cu banda critică, să fie egală cu 1 scoarță. Frecvența B este calculată ca . Coeficienții găsiți în literatură sunt uneori denumiți ca MFCC - Mel Frequiency Cepstral Coeficienti. Numărul acestora variază de la 10 la 30. Utilizarea primei și a doua diferențe de timp ale coeficienților cepstrali triplează dimensiunea spațiului de decizie, dar îmbunătățește eficiența recunoașterii vorbitorului [11] .
Cepstrul descrie forma anvelopei spectrului de semnal, care este influențată atât de proprietățile sursei de excitație, cât și de caracteristicile tractului vocal. În experimente, s-a constatat că învelișul spectrului afectează puternic recunoașterea vocii. Prin urmare, utilizarea diferitelor metode de analiză a anvelopei spectrului pentru recunoașterea vocii este pe deplin justificată [11] .
MetodeDeoarece multe sisteme folosesc spațiul coeficienților cepstrali, prima și a doua diferență a acestora, se acordă multă atenție construcției regulilor de decizie. Cele mai populare metode de aproximare a densității de probabilitate în spațiul de caracteristici cu un amestec ponderat de distribuții normale ( GMM - Gauss Mixture Models), mașina vectorului suport (SVM - Support Vector Machines), metoda modelelor Markov ascunse (HMM - Hidden) Modele Markov), rețele neuronale artificiale , precum și modificări ale analizei factorilor [11] .
Metoda GMM rezultă din teorema că orice funcție de densitate de probabilitate poate fi reprezentată ca o sumă ponderată a distribuțiilor normale:
; este modelul difuzorului, k este numărul de componente ale modelului; — ponderile componentelor sunt astfel încât este funcția de distribuție a argumentului multidimensional [11] . , - greutatea sa, k - numărul de componente din amestec. Aici n este dimensiunea spațiului caracteristic, este vectorul așteptării matematice a j-a componentă a amestecului și este matricea de covarianță .
Foarte des, sistemele cu acest model folosesc o matrice de covarianță diagonală. Poate fi folosit pentru toate componentele modelului sau chiar pentru toate modelele. Pentru a găsi matricea de covarianță, ponderile, vectorii medii, se folosește adesea algoritmul EM . La intrare avem o secvență de antrenament de vectori X = {x 1 , . . . , x T } . Parametrii modelului sunt inițializați cu valori inițiale, iar apoi, la fiecare iterație a algoritmului, parametrii sunt reevaluați. Pentru a determina parametrii inițiali, se utilizează de obicei un algoritm de grupare , cum ar fi algoritmul K-means . După ce setul de vectori de antrenament a fost împărțit în M clustere, parametrii modelului pot fi definiți după cum urmează: valorile inițiale coincid cu centrele clusterelor, matricele de covarianță sunt calculate pe baza vectorilor care se încadrează în acest cluster, ponderile componentelor sunt determinate de proporția vectorilor acestui cluster între numărul total de vectori de antrenament.
Parametrii sunt reevaluați după următoarele formule:
GMM poate fi numit și o extensie a metodei de cuantizare vectorială ( metoda centroid ). Când îl utilizați, se creează o carte de coduri pentru regiunile care nu se suprapun în spațiul de caracteristici (folosind adesea gruparea K-means). Cuantizarea vectorială este cel mai simplu model în sistemele de recunoaștere independente de context [11] .
Mașina vectorului de suport (SVM) construiește un hiperplan într-un spațiu multidimensional care separă două clase - parametrii difuzorului țintă și parametrii difuzoarelor de la baza de referință. Hiperplanul se calculează folosind vectori suport - aleși într-un mod special. Se va realiza o transformare neliniară a spațiului parametrilor măsurați într-un spațiu al caracteristicilor de o dimensiune mai mare, deoarece suprafața de separare poate să nu corespundă hiperplanului. Suprafața de separare din hiperplan este construită de mașina vectorului suport dacă este îndeplinită condiția de separabilitate liniară în spațiul caracteristic nou. Astfel, succesul aplicației SMM depinde de transformarea neliniară aleasă în fiecare caz particular. Mașinile de suport Vector sunt adesea folosite cu GMM sau HMM. De obicei, pentru fraze scurte de câteva secunde, HMM-urile sensibile la fonem [11] sunt mai bine folosite pentru o abordare dependentă de context .
Potrivit companiei de consultanță International Biometric Group din New York, cea mai comună tehnologie este scanarea amprentelor digitale. Se observă că din veniturile de 127 de milioane de dolari din vânzarea dispozitivelor biometrice, 44% sunt ponderea scanerelor dactiloscopice. Sistemele de recunoaștere facială sunt pe locul doi la cerere, cu 14%, urmate de recunoașterea formei palmei (13%), recunoașterea vocii (10%) și recunoașterea irisului (8%). Dispozitivele de verificare a semnăturii reprezintă 2% din această listă. Unii dintre cei mai cunoscuți producători de pe piața biometrică vocală sunt Nuance Communications, SpeechWorks, VeriVoice [17] .
În februarie 2016, The Telegraph a publicat un articol în care anunța că clienții băncii britanice HSBC vor putea accesa conturi și vor efectua tranzacții folosind identificarea vocală. Tranziția urma să aibă loc la începutul verii [18] .