Speech Application Programming Interface (SAPI) este o interfață de programare a aplicațiilor bazată pe COM pentru recunoașterea și sinteza vorbirii.
Recunoașterea vorbirii este procesul de conversie a cuvintelor rostite în text tipărit. Recunoașterea vorbirii include:
Recunoașterea (motorul de recunoaștere a textului) compară iterativ textul recunoscut cu regulile gramaticale ale aplicației și, dacă textul se potrivește cu o serie de reguli, generează un flux de ieșire XML utilizând Semantic Markup Language (SML) . Fluxul de ieșire conține textul recunoscut, probabilitățile corecte de recunoaștere și poate conține valori semantice atribuite folosind marcajul de interpretare semantică . Textul recunoscut este folosit în mod obișnuit pentru introducerea datelor folosind dictare și pentru controlul aplicațiilor folosind comenzi vocale.
Dimensiunea regulilor gramaticale limitează capacitatea de recunoaștere a textului. Majoritatea programelor care acceptă dictarea sunt reglate la tiparele de vorbire ale unui anumit utilizator pentru a asigura cea mai precisă recunoaștere. Modul de control al comenzilor vocale este mai ușor de implementat, deoarece conținutul regulilor gramaticale este limitat la comenzile disponibile [1] .
Sinteza vorbirii este procesul de conversie a textului în cuvinte rostite. Sinteza vorbirii include:
Motoarele text-to-speech pot folosi una dintre cele două metode de sinteză a vocii:
Prezentarea tehnologiei vorbirii computerizate (engleză) (link indisponibil) . Bibliotecă MSDN . Microsoft (2012). Preluat la 24 iulie 2012. Arhivat din original la 29 septembrie 2012.
sinteza vorbirii | |
---|---|
Software proprietar |
|
software gratuit |
|
Mașină |
|
Aplicații |
|
Protocoale | Limbajul de marcare pentru sinteza vorbirii |
Dezvoltatori / Cercetători |
|
Proces |
|