Identificarea limbii

Identificarea limbajului (ing. language identification ), în metoda de prelucrare a limbajului natural - definirea limbajului . Problema identificării limbii este un caz special de categorizare a textului și se rezolvă prin metode statistice .

Prezentare generală

Pentru identificarea limbii, este implementată arhitectura PPRLM (recunoaștere paralelă a fonemelor + model de limbă) cu conexiune paralelă a recunoaștetorilor fonetici instruiți în mai multe limbi. Recunoașterea fonetică se bazează pe modele Markov ascunse (HMM) folosind algoritmul Viterbi .

Pentru a lua o decizie cu privire la apartenența unui mesaj vocal la o anumită limbă țintă, se implementează o abordare cu un clasificator bazat pe mașinile de vector suport (SVM - support vector machines).

Principiul de funcționare a unui sistem construit pe baza clasicului PPRLM este următorul:

există mai multe recunoaștere fonetice în sistem;
fiecare fișier de sunet de intrare este recunoscut de recunoaștere fonetice;
în conformitate cu secvența de foneme rezultată a fiecărui dispozitiv de recunoaștere fonetică, se calculează măsurile de proximitate față de modelul n-grame al unei anumite limbi țintă;
limba cu măsura maximă de apropiere a modelului n-gramă este considerată câștigătoare .

În sistemele PPRLM avansate, identificarea limbii este implementată ca o sarcină deschisă: se face o verificare „aparține” / „nu aparține” a fișierului procesat limbii țintă, decizia se ia automat, ținând cont de pragul stabilit de către utilizator.

Următorii pași sunt adăugați la algoritmul de bază:

secvența de foneme rezultată a fiecărui recunoaștetor fonetic este suprapusă cu modelul n-grame al unuia sau altui limbaj „de referință” și se iau în considerare măsurile apropierii modelului n-grame de succesiunea de foneme;
setul complet de măsuri de proximitate a modelelor n-grame față de secvențele de foneme este un vector de intrare pentru clasificatorul SVM ;
pe baza rezultatului clasificării, clasificatorul SVM ia o decizie privind apartenența la limba țintă comparând cu pragul stabilit pentru fiecare limbă țintă separat.

Fișierul audio este vorbit în limba țintă dacă scorul dat de clasificatorul SVM este mai mare decât pragul. În acest caz, fișierul de sunet poate fi atribuit uneia sau mai multor limbi în același timp sau nu poate fi atribuit nici uneia dintre ele.

Vezi și

Literatură

Joshua Goodman. Comentariu extins despre Arborele de limbă și Zipping . arXiv: cond-mat/0202383 [cond-mat.stat-mech]
Benedetto, D., E. Caglioti și V. Loreto. Arbori de limbă și zipping . Physical Review Letters , 88:4 (2002), Teoria complexității .
Cavnar, William B. și John M. Trenkle. „Categorizarea textului pe bază de N-grame”. Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval (1994) [1] .
Cilibrasi, Rudi și Paul M. B. Vitanyi. Clustering prin compresie . IEEE Transactions on Information Theory 51(4), aprilie 2005, 1523-1545.
Dunning, T. (1994) „Identificarea statistică a limbajului”. Raport tehnic MCCS 94-273, New Mexico State University, 1994.
Goodman, Joshua. (2002) Comentariu extins la „Arborele lingvistic și Zipping” . Microsoft Research, 21 februarie 2002. (Aceasta este o critică la adresa compresiei datelor în favoarea metodei Naive Bayes.)
Grafenstette, Grigore. (1995) Comparând două scheme de identificare a limbii. Proceedings of the 3rd International Conference on the Statistical Analysis of Textual Data (JADT 1995).
Poutsma, Arjen. (2001) Aplicarea tehnicilor Monte Carlo la identificarea limbajului. SmartHaven, Amsterdam. Prezentat la CLIN 2001 .
Economistul. (2002) „ Elementele stilului: analiza datelor comprimate duce la rezultate impresionante în lingvistică ”
Radim Řehůrek și Milan Kolkus. (2009) „ Identificarea limbii pe web: extinderea metodei dicționarului (link indisponibil) ” Lingvistică computațională și procesare inteligentă a textului

Link -uri

Biblioteci

LID - Identificarea limbajului în Python : exemplu de algoritm și cod al unui instrument LID bazat pe n-grame în Python și Scheme de Damir Cavar.
lid Language Identifier : de Lingua-Systems; Biblioteca C / C++ și extensia Perl ( demo online ).
lc4j, o bibliotecă Java de clasificare a limbii , de Marco Olivo.
Servicii lingvistice extinse Microsoft pentru Windows 7 : inclusiv Microsoft Language Detection.
Pachet de coduri API Windows 7 pentru .NET : inclusiv interfețe gestionate pentru cele de mai sus.
NTextCat - API gratuit de identificare a limbii pentru .NET (C#) : peste 280 de limbi disponibile din cutie. Recunoaște limba și codificarea ( UTF-8 , Windows-1252 , Big5 etc.) textului. Compatibil mono .
jsli este o bibliotecă pură de identificare a limbajului JavaScript.
cldr -R bibliotecă pentru codul Compact Language Detection al Chromium-Author.
language-detection : bibliotecă open-source de detectare a limbii pentru Java (furcături: lang-guess și language-detector ).
cld2 : bibliotecă open-source de detectare a limbii pentru C++ de la Google
GuessLanguage : bibliotecă open-source de detectare a limbii pentru javascript
GuessLanguage : bibliotecă open-source de detectare a limbii pentru python
Text LanguageDetect : detectarea limbii pere (nu este întreținută în prezent)
datagramă : bibliotecă de clasificare JavaScript MIT open-source . Clasificarea și recunoașterea automată a limbilor datelor de intrare. Poate fi folosit pentru orice tip de clasificare pe baza datelor instruite.

Servicii web

Language Identification Web Service : API de detectare a limbii (JSON și XML) care detectează peste 100 de limbi în texte, site-uri web și documente
Language Detection API : API de identificare simplă a limbajului
dataTXT-LI : API-ul RESTful de identificare a limbii, parte a familiei API semantice dataTXT de păpădie (extracția entității denumite, similaritatea textului etc.)
AlchemyAPI : API de identificare a limbii, disponibil ca SDK și printr-un API RESTfull ( demonstrație bazată pe web ).
PetaMem Language Identification : oferă o alegere între metodele ngram, nvect și inteligente.
Deschideți Xerox LanguageIdentifier , disponibil sub formă de web sau prin API.
GlobalNLP : limbaj de identificare bazat pe web
Detector de limbă , identificare online din text sau URL și API disponibile pentru dezvoltatori.
Ce limbă este aceasta? Identificator de limbă online : instrument bazat pe web scris de Henrik Falck.
Rosette Language Identifier : produs de Basis Technology.
Identificator de limbă : produs de Sematext; expune API-ul Java și este disponibil prin REST/Webservice.
G2LI (Global Information Infrastructure Laboratory's Language Identifier) .
Rosoka Cloud de la IMT Holdings oferă servicii web RESTfull de extragere a codului de limbă, a entităților și a relațiilor disponibile prin Amazon Web Services Marketplace.
Semantria sentiment și API de analiză a textului, care include detectarea limbii
Loque.la Language Detection API : Identificarea limbii site-ului web cu API, (json/XML)
Identificarea limbii Stel KS : API de identificare a limbii (11 limbi)

procesarea limbajului natural
Definiții generale	Corpus de texte corpus de vorbire Cuvinte oprite pungă de cuvinte Completitudine AI N-gram Cifru bigram trigramă
Analiza textului	Segmentarea textului Marcare parțială Analiza suprafeței Procesare de text compusă Extragerea colocărilor tulpina Lematizare Recunoașterea entității denumite Rezoluția coreferenței Analiza sentimentelor de text Concept Extraction analizare Rezolvarea polisemiei lexicale Extrage terminologie Extragerea informațiilor Identificarea limbii Definiția cazului
Referire	Extragerea propozițiilor Generație abstractă Referințe pentru mai multe documente Simplificarea textului
Traducere automată	automatizate Hibrid interlingvistic Bazat pe reguli Pe baza exemplelor Dicţionar bazat Bazat pe transformare neurale Statistic Sincron
Identificarea și colectarea datelor	Recunoaștere a vorbirii sinteza vorbirii Recunoaștere optică a caracterelor Generarea textului
Model tematic	Plasarea Pachinko Plasarea latentă a lui Dirichlet Analiza semantică latentă
Evaluare inter pares	Evaluarea automată a eseurilor Concordancer Introducere predictivă a textului Verificator gramatical Verificator ortografic Sintaxă Guessing
Interfață în limbaj natural	asistent virtual Interlocutor virtual Sistem de întrebări și răspunsuri Interfață vocală Literatură interactivă