Corpusul vorbirii ( corpus de sunet ) este o bază de date de fișiere audio și transcripții de texte, un tip de corpus de texte . În tehnologiile de vorbire , corpurile de vorbire sunt folosite, printre altele, pentru a crea modele acustice (care pot fi apoi folosite în motoarele de recunoaștere a vorbirii ). În lingvistică , corpurile de vorbire sunt folosite pentru cercetări în fonetică , dialectologie , analiza conversațională și alte domenii.
Există două tipuri de corpuri de vorbire:
1. Bazele textelor bine citite, inclusiv:
2. Bazele înregistrărilor audio ale vorbirii spontane - inclusiv:
Un tip special de corpuri de vorbire este o bază de date de texte rostite de persoane care nu sunt vorbitori nativi care conțin vorbire cu accent străin .
procesarea limbajului natural | |
---|---|
Definiții generale | |
Analiza textului |
|
Referire |
|
Traducere automată |
|
Identificarea și colectarea datelor | |
Model tematic | |
Evaluare inter pares |
|
Interfață în limbaj natural |