Microsoft Speech API

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită la 3 decembrie 2014; verificările necesită 6 modificări .

Speech Application Programming Interface (SAPI) este o interfață de programare a aplicațiilor bazată pe COM pentru recunoașterea și sinteza vorbirii.

Recunoașterea vorbirii

Recunoașterea vorbirii este procesul de conversie a cuvintelor rostite în text tipărit. Recunoașterea vorbirii include:

captarea și digitizarea sunetului rostit în microfon;
conversia sunetului digitalizat în foneme ;
construcția din foneme de cuvinte;
analiza contextului în care a fost rostit cuvântul și, dacă este necesar, înlocuirea cuvintelor cu altele similare.

Recunoașterea (motorul de recunoaștere a textului) compară iterativ textul recunoscut cu regulile gramaticale ale aplicației și, dacă textul se potrivește cu o serie de reguli, generează un flux de ieșire XML utilizând Semantic Markup Language (SML) . Fluxul de ieșire conține textul recunoscut, probabilitățile corecte de recunoaștere și poate conține valori semantice atribuite folosind marcajul de interpretare semantică . Textul recunoscut este folosit în mod obișnuit pentru introducerea datelor folosind dictare și pentru controlul aplicațiilor folosind comenzi vocale.

Dimensiunea regulilor gramaticale limitează capacitatea de recunoaștere a textului. Majoritatea programelor care acceptă dictarea sunt reglate la tiparele de vorbire ale unui anumit utilizator pentru a asigura cea mai precisă recunoaștere. Modul de control al comenzilor vocale este mai ușor de implementat, deoarece conținutul regulilor gramaticale este limitat la comenzile disponibile [1] .

Sinteza vorbirii

Sinteza vorbirii este procesul de conversie a textului în cuvinte rostite. Sinteza vorbirii include:

împărțirea cuvintelor în foneme;
găsirea textului care trebuie convertit în caractere, cum ar fi numere, sume valutare și semne de punctuație;
generarea audio digitală pentru redare.

Motoarele text-to-speech pot folosi una dintre cele două metode de sinteză a vocii:

generează sunete asemănătoare corzilor vocale și folosește diverse filtre pentru a modela lungimea gâtului, forma gurii, poziția buzelor și a limbii;
culege-l din numeroasele fragmente de discurs înregistrate de crainic.

Note

↑ Tomashenko N. A., Khokhlov Yu. Yu.// STUDIU AL PROBLEMEI ECHILIBRĂRII DATELOR ÎN CONSTRUCȚIA MODELELOR ACUSTICE DE SISTEME DE RECUNOAȘTERE AUTOMATĂ A VORBII Copie de arhivă datată 19 septembrie 2015 la Wayback Machine . - Articol. - Instrumentatie. - UDC 004.934

Link -uri

Prezentarea tehnologiei vorbirii computerizate (engleză) (link indisponibil) . Bibliotecă MSDN . Microsoft (2012). Preluat la 24 iulie 2012. Arhivat din original la 29 septembrie 2012.

sinteza vorbirii
Software proprietar	Navigați cu voce tare CereProc DECtalk IVONA Agent Microsoft Microsoft Speech API Voci Microsoft text-to-speech Cititor Vorbește! browser vocal Vocaloid Cantor voiceroid Utau Software Automatic Mouth CoolSpeech La La Voice Coruri simfonice Realivox CeVIO Creative Studio Chipspeech Alt ego PPG Phonem
software gratuit	eSpeak Gnuspeech Sistemul de sinteză a vorbirii pentru festival FreeTTS Gnopernic Orca Sinsy Cititor automat de text
Mașină	ecou 2 Redare model Fasor RIAS Cipurile de vorbire Texas Instruments LPC TuVox
Aplicații	AOLbyPhone Dialog OS Dr. Sbaitso MBROLA Naratorul Microsoft Microsoft Speech Server PlainTalk font vocal
Protocoale	Limbajul de marcare pentru sinteza vorbirii
Dezvoltatori / Cercetători	Catherine Browman Franklin Seaney Cooper Gunnar Fant Laboratoarele Haskins Wolfgang von Kempelen Ignatius Mattingly Philip Rubin Voce Web VoiceXML Yamaha
Proces	Sinteză articulatorie Sinteza concatenativă Currah filtru invers PSOLA Vocoder de fază SABLE Auto-exprimare