Identificarea limbii
Identificarea limbajului (ing. language identification ), în metoda de prelucrare a limbajului natural - definirea limbajului . Problema identificării limbii este un caz special de categorizare a textului și se rezolvă prin metode statistice .
Prezentare generală
Pentru identificarea limbii, este implementată arhitectura PPRLM (recunoaștere paralelă a fonemelor + model de limbă) cu conexiune paralelă a recunoaștetorilor fonetici instruiți în mai multe limbi. Recunoașterea fonetică se bazează pe modele Markov ascunse (HMM) folosind algoritmul Viterbi .
Pentru a lua o decizie cu privire la apartenența unui mesaj vocal la o anumită limbă țintă, se implementează o abordare cu un clasificator bazat pe mașinile de vector suport (SVM - support vector machines).
Principiul de funcționare a unui sistem construit pe baza clasicului PPRLM este următorul:
- există mai multe recunoaștere fonetice în sistem;
- fiecare fișier de sunet de intrare este recunoscut de recunoaștere fonetice;
- în conformitate cu secvența de foneme rezultată a fiecărui dispozitiv de recunoaștere fonetică, se calculează măsurile de proximitate față de modelul n-grame al unei anumite limbi țintă;
- limba cu măsura maximă de apropiere a modelului n-gramă este considerată câștigătoare .
În sistemele PPRLM avansate, identificarea limbii este implementată ca o sarcină deschisă: se face o verificare „aparține” / „nu aparține” a fișierului procesat limbii țintă, decizia se ia automat, ținând cont de pragul stabilit de către utilizator.
Următorii pași sunt adăugați la algoritmul de bază:
- secvența de foneme rezultată a fiecărui recunoaștetor fonetic este suprapusă cu modelul n-grame al unuia sau altui limbaj „de referință” și se iau în considerare măsurile apropierii modelului n-grame de succesiunea de foneme;
- setul complet de măsuri de proximitate a modelelor n-grame față de secvențele de foneme este un vector de intrare pentru clasificatorul SVM ;
- pe baza rezultatului clasificării, clasificatorul SVM ia o decizie privind apartenența la limba țintă comparând cu pragul stabilit pentru fiecare limbă țintă separat.
Fișierul audio este vorbit în limba țintă dacă scorul dat de clasificatorul SVM este mai mare decât pragul. În acest caz, fișierul de sunet poate fi atribuit uneia sau mai multor limbi în același timp sau nu poate fi atribuit nici uneia dintre ele.
Vezi și
Literatură
- Joshua Goodman. Comentariu extins despre Arborele de limbă și Zipping . arXiv: cond-mat/0202383 [cond-mat.stat-mech]
- Benedetto, D., E. Caglioti și V. Loreto. Arbori de limbă și zipping . Physical Review Letters , 88:4 (2002), Teoria complexității .
- Cavnar, William B. și John M. Trenkle. „Categorizarea textului pe bază de N-grame”. Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval (1994) [1] .
- Cilibrasi, Rudi și Paul M. B. Vitanyi. Clustering prin compresie . IEEE Transactions on Information Theory 51(4), aprilie 2005, 1523-1545.
- Dunning, T. (1994) „Identificarea statistică a limbajului”. Raport tehnic MCCS 94-273, New Mexico State University, 1994.
- Goodman, Joshua. (2002) Comentariu extins la „Arborele lingvistic și Zipping” . Microsoft Research, 21 februarie 2002. (Aceasta este o critică la adresa compresiei datelor în favoarea metodei Naive Bayes.)
- Grafenstette, Grigore. (1995) Comparând două scheme de identificare a limbii. Proceedings of the 3rd International Conference on the Statistical Analysis of Textual Data (JADT 1995).
- Poutsma, Arjen. (2001) Aplicarea tehnicilor Monte Carlo la identificarea limbajului. SmartHaven, Amsterdam. Prezentat la CLIN 2001 .
- Economistul. (2002) „ Elementele stilului: analiza datelor comprimate duce la rezultate impresionante în lingvistică ”
- Radim Řehůrek și Milan Kolkus. (2009) „ Identificarea limbii pe web: extinderea metodei dicționarului (link indisponibil) ” Lingvistică computațională și procesare inteligentă a textului
Link -uri
Biblioteci
Servicii web
- Language Identification Web Service : API de detectare a limbii (JSON și XML) care detectează peste 100 de limbi în texte, site-uri web și documente
- Language Detection API : API de identificare simplă a limbajului
- dataTXT-LI : API-ul RESTful de identificare a limbii, parte a familiei API semantice dataTXT de păpădie (extracția entității denumite, similaritatea textului etc.)
- AlchemyAPI : API de identificare a limbii, disponibil ca SDK și printr-un API RESTfull ( demonstrație bazată pe web ).
- PetaMem Language Identification : oferă o alegere între metodele ngram, nvect și inteligente.
- Deschideți Xerox LanguageIdentifier , disponibil sub formă de web sau prin API.
- GlobalNLP : limbaj de identificare bazat pe web
- Detector de limbă , identificare online din text sau URL și API disponibile pentru dezvoltatori.
- Ce limbă este aceasta? Identificator de limbă online : instrument bazat pe web scris de Henrik Falck.
- Rosette Language Identifier : produs de Basis Technology.
- Identificator de limbă : produs de Sematext; expune API-ul Java și este disponibil prin REST/Webservice.
- G2LI (Global Information Infrastructure Laboratory's Language Identifier) .
- Rosoka Cloud de la IMT Holdings oferă servicii web RESTfull de extragere a codului de limbă, a entităților și a relațiilor disponibile prin Amazon Web Services Marketplace.
- Semantria sentiment și API de analiză a textului, care include detectarea limbii
- Loque.la Language Detection API : Identificarea limbii site-ului web cu API, (json/XML)
- Identificarea limbii Stel KS : API de identificare a limbii (11 limbi)