Identificarea limbii

Identificarea limbajului (ing. language identification ), în metoda de prelucrare a limbajului natural  - definirea limbajului . Problema identificării limbii este un caz special de categorizare a textului și se rezolvă prin metode statistice .

Prezentare generală

Pentru identificarea limbii, este implementată arhitectura PPRLM (recunoaștere paralelă a fonemelor + model de limbă) cu conexiune paralelă a recunoaștetorilor fonetici instruiți în mai multe limbi. Recunoașterea fonetică se bazează pe modele Markov ascunse (HMM) folosind algoritmul Viterbi .

Pentru a lua o decizie cu privire la apartenența unui mesaj vocal la o anumită limbă țintă, se implementează o abordare cu un clasificator bazat pe mașinile de vector suport (SVM - support vector machines).

Principiul de funcționare a unui sistem construit pe baza clasicului PPRLM este următorul:

  1. există mai multe recunoaștere fonetice în sistem;
  2. fiecare fișier de sunet de intrare este recunoscut de recunoaștere fonetice;
  3. în conformitate cu secvența de foneme rezultată a fiecărui dispozitiv de recunoaștere fonetică, se calculează măsurile de proximitate față de modelul n-grame al unei anumite limbi țintă;
  4. limba cu măsura maximă de apropiere a modelului n-gramă este considerată câștigătoare .

În sistemele PPRLM avansate, identificarea limbii este implementată ca o sarcină deschisă: se face o verificare „aparține” / „nu aparține” a fișierului procesat limbii țintă, decizia se ia automat, ținând cont de pragul stabilit de către utilizator.

Următorii pași sunt adăugați la algoritmul de bază:

  1. secvența de foneme rezultată a fiecărui recunoaștetor fonetic este suprapusă cu modelul n-grame al unuia sau altui limbaj „de referință” și se iau în considerare măsurile apropierii modelului n-grame de succesiunea de foneme;
  2. setul complet de măsuri de proximitate a modelelor n-grame față de secvențele de foneme este un vector de intrare pentru clasificatorul SVM ;
  3. pe baza rezultatului clasificării, clasificatorul SVM ia o decizie privind apartenența la limba țintă comparând cu pragul stabilit pentru fiecare limbă țintă separat.

Fișierul audio este vorbit în limba țintă dacă scorul dat de clasificatorul SVM este mai mare decât pragul. În acest caz, fișierul de sunet poate fi atribuit uneia sau mai multor limbi în același timp sau nu poate fi atribuit nici uneia dintre ele.

Vezi și

Literatură

Link -uri

Biblioteci

Servicii web