Interfață de acces silențios

Interfață de acces silențios ( interfețe de vorbire silentioasă în engleză  , SSI ) - sisteme de procesare a vorbirii bazate pe recepția și procesarea semnalelor vocale într-un stadiu incipient al articulației .

Istorie

Interfețele cu acces silențios au o istorie foarte recentă, datând de la începutul anilor 2000. În ultimul deceniu, performanța sistemelor automate de procesare a vorbirii, inclusiv recunoașterea vorbirii , recunoașterea textului, traducerea și sinteza vorbirii, s-au îmbunătățit semnificativ. Acest lucru a condus la utilizarea tehnologiei vorbirii și a vorbirii într-o gamă largă de servicii, cum ar fi sisteme de recuperare a informațiilor, centre de apeluri , control vocal al telefoanelor mobile și sisteme de navigație auto , traducători personali și utilizarea tehnologiei vorbirii în securitate. Cu toate acestea, interfețele de vorbire bazate pe semnale acustice tradiționale de vorbire au încă o serie de limitări semnificative.
În primul rând, semnalele acustice transmise prin aer sunt supuse distorsiunii din cauza zgomotului . Sistemele fiabile de procesare a vorbirii care ar funcționa impecabil în restaurante aglomerate, aeroporturi și alte locuri publice, în ciuda eforturilor titane, nu sunt încă la vedere.
În al doilea rând, interfețele tradiționale de vorbire necesită o vorbire clară și inteligibilă, ceea ce are două dezavantaje principale: într-un loc public, compromite confidențialitatea mesajului și, în al doilea rând, îi deranjează pe ceilalți. Serviciile care necesită acces, preluare și transmitere de informații private sau confidențiale, cum ar fi codurile PIN și parolele, sunt deosebit de vulnerabile.

La începutul anilor 2000, pentru a rezolva această problemă, au fost propuse interfețe de acces silentios , care permit utilizatorilor să comunice vorbind „în tăcere”, adică fără a scoate niciun sunet. Aceasta se realizează prin primirea semnalelor de vorbire în stadiile incipiente ale articulației umane, și anume înainte ca vorbirea să apară în aer; după aceea, semnalele de articulare sunt transmise sistemului pentru prelucrare și interpretare ulterioară. Datorită acestei noi abordări, interfețele cu acces silențios au potențialul de a depăși principalele deficiențe ale interfețelor vocale tradiționale de astăzi:

În plus, interfețele de acces silențios ar putea fi o alternativă pentru persoanele cu deficiențe de vorbire (de exemplu laringectomie) și pentru persoanele în vârstă sau debilitate care nu pot vorbi suficient de tare, clar și inteligibil.

Tehnologie

pak. H. Chan și colab. au demonstrat ( 2001 , 2002) [1] că semnalul mioelectric de la mușchii faciali articulatori conține suficiente informații pentru a distinge cu acuratețe un set mic de cuvinte. Aceste cuvinte sunt recunoscute chiar și atunci când sunt rostite încet, adică în absența unui semnal audio (Jorgensen și colab. 2003, Bradley și colab. 2006). Lucrări recente sugerează că recunoașterea unităților fonemice pe baza unităților electromiografice (EMG) (Jou și colab. 2006, Walliczek și colab. 2006) deschide calea pentru recunoașterea unor baze extinse de vocabular.

De asemenea, mai recent, au apărut cercetări care permit dezvoltarea unei interfețe de acces silențios bazată pe mișcările limbii și buzelor folosind ultrasunete și imagini optice (Denby și Stone 2004, Denby et al. 2006, Hueber et al. 2007).

Sistemele SSI care convertesc „mormăitul” în vorbire sunt dezvoltate predominant în Japonia . În Statele Unite, DARPA finanțează cercetarea activității glotale pentru utilizarea senzorilor în medii zgomotoase:

În cadrul programului de codare modernă a vorbirii ( English  Advanced speech encoding , prescurtare ASE ) [2] , vor fi dezvoltate tehnologii care vor permite schimbul de informații în condiții militare dificile.

În ultimii 50 de ani , s-au făcut pași mari în dezvoltarea codificatorului vocal ( vocoder ) , dar codificarea vocii cu rată de biți ultra -low (ULBR) la 300 bps rămâne o provocare majoră. În special, vocoderele ULBR încă nu au un analizor de vorbire de înaltă calitate care să recunoască vorbirea vorbitorului fără interferențe; aceste dezavantaje sunt exagerate în medii acustic dificile (de exemplu, într-un spațiu zgomotos sau într-un spațiu cu sunet reverberat).

Abordarea urmărită de programul Advanced Speech Encoding (ASE) este de a folosi noi senzori care nu sunt afectați de zgomot ca o completare a semnalelor acustice procesate (vezi figura). Astfel de senzori vor fi explorați pentru potențialul lor, astfel încât vorbirea anterioară/audibilă să poată fi utilizată ca mijloc alternativ de comunicare în medii acustice dure și periculoase în care camuflajul militar este obligatoriu.

Vezi și

Link -uri

Note

  1. Pachet. H. Chan Manual de Neurochimie și Neurobiologie Moleculară
  2. Codare avansată a vorbirii Arhivat 6 martie 2016 la Wayback Machine . Rețeaua de worldlets virtuale.