Diarizare

Diarizarea (sau separarea difuzoarelor ) este procesul de împărțire a fluxului audio de intrare în segmente omogene, în conformitate cu apartenența fluxului audio la unul sau la altul. Diarizarea îmbunătățește calitatea textelor în timpul transcripției automate și poate fi folosită și împreună cu un sistem de recunoaștere a vorbirii , îmbunătățindu-l semnificativ. Diarizarea este folosită pentru a răspunde la întrebarea „Cine vorbește acum?”. Diarizarea este o combinație de metode de segmentare și grupare a vorbitorilor. Primul are ca scop găsirea punctelor de schimbare a vorbitorului, al doilea are ca scop gruparea segmentelor de vorbire selectate în discursul vorbitorului.

Una dintre metodele populare de diarizare este utilizarea algoritmilor bazați pe amestecuri gaussiene pentru a modela fiecare dintre difuzoare și a atribui fragmentele selectate fiecăruia dintre difuzoare folosind un model Markov ascuns [1] .

Software

Software-ul de diarizare include [2] [3] :

Note

  1. Speaker Diarization: A Review of Recent Research Arhivat 4 ianuarie 2015 la Wayback Machine // icsi.berkeley.edu, 2012.
  2. Biblioteci digitale culturale și istorice extrase dinamic din arhivele de știri Arhivate 5 martie 2016 la Wayback Machine D2.1: State of the Art, Project's deliverable
  3. Dezvoltarea unei soluții de recunoaștere a vorbitorilor în Vidispine Arhivat 4 martie 2016 la Wayback Machine : Karen Farnes, teză de master în științe informatice, Universitatea Umeå, 2013
  4. Sistemul de diarizare ALIZE, Universitatea din Avignon . Data accesului: 4 ianuarie 2015. Arhivat din original pe 4 ianuarie 2015.
  5. SpkDiarization (link descendent) . Preluat la 11 septembrie 2019. Arhivat din original la 28 ianuarie 2019. 
  6. InriaForge: AudioSeg: Project Home . Data accesului: 4 ianuarie 2015. Arhivat din original pe 4 ianuarie 2015.
  7. Setul de instrumente pentru recunoașterea vorbirii SHOUT . Preluat la 4 ianuarie 2015. Arhivat din original la 17 decembrie 2014.

Literatură