Plasarea latentă a lui Dirichlet

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită pe 15 iulie 2019; verificările necesită 2 modificări .

Latent Dirichlet allocation ( LDA , din engleză Latent Dirichlet allocation ) este un model generativ utilizat în învățarea automată și regăsirea informațiilor care vă permite să explicați rezultatele observațiilor folosind grupuri implicite , ceea ce face posibilă identificarea motivelor asemănării unor părți. a datelor. De exemplu, dacă observațiile sunt cuvinte adunate în documente, se argumentează că fiecare document este un amestec de un număr mic de subiecte și că apariția fiecărui cuvânt este asociată cu unul dintre subiectele documentului. LDA este una dintre tehnicile de modelare a subiectelor și a fost introdusă pentru prima dată ca model grafic pentru descoperirea subiectului de David Bley, Andrew Ng și Michael Jordan în 2003 [1] .

În LDA, fiecare document poate fi văzut ca o colecție de subiecte diferite. Această abordare este similară cu analiza semantică latentă probabilistică (pLSA), cu diferența că în LDA se presupune că distribuția subiectelor are distribuții Dirichlet ca a priori . În practică, rezultatul este un set mai corect de subiecte.

De exemplu, un model ar putea avea subiecte clasificate ca „legate de pisici” și „legate de câini”, un subiect având probabilități de a genera cuvinte diferite, cum ar fi „miau”, „lapte” sau „pisoi”, care ar putea fi clasificate ca „ legate de câini". la pisici", iar cuvintele care nu au o semnificație specială (de exemplu, cuvintele de serviciu ) vor avea probabilitate aproximativ egală în diverse subiecte.

Note

↑ Blei, David M.; Ng, Andrew Y.; Iordan, Mihai I Latent Dirichlet allocation // Journal of Machine Learning Research : jurnal / Lafferty, John. - 2003. - ianuarie ( vol. 3 , nr. 4-5 ). - P. pp. 993-1022 . - doi : 10.1162/jmlr.2003.3.4-5.993 . Arhivat din original la 1 mai 2012.

Link -uri

modele de subiecte și implementări lda ale LDA pentru R .
LDA , exemplu implementare LDA - LDA și exemplu pentru MATLAB .
cod , demonstrație - implementare LDA și exemplu de analizare a textului în python

procesarea limbajului natural
Definiții generale	Corpus de texte corpus de vorbire Cuvinte oprite pungă de cuvinte Completitudine AI N-gram Cifru bigram trigramă
Analiza textului	Segmentarea textului Marcare parțială Analiza suprafeței Procesare de text compusă Extragerea colocărilor tulpina Lematizare Recunoașterea entității denumite Rezoluția coreferenței Analiza sentimentelor de text Concept Extraction analizare Rezolvarea polisemiei lexicale Extrage terminologie Extragerea informațiilor Identificarea limbii Definiția cazului
Referire	Extragerea propozițiilor Generație abstractă Referințe pentru mai multe documente Simplificarea textului
Traducere automată	automatizate Hibrid interlingvistic Bazat pe reguli Pe baza exemplelor Dicţionar bazat Bazat pe transformare neurale Statistic Sincron
Identificarea și colectarea datelor	Recunoaștere a vorbirii sinteza vorbirii Recunoaștere optică a caracterelor Generarea textului
Model tematic	Plasarea Pachinko Plasarea latentă a lui Dirichlet Analiza semantică latentă
Evaluare inter pares	Evaluarea automată a eseurilor Concordancer Introducere predictivă a textului Verificator gramatical Verificator ortografic Sintaxă Guessing
Interfață în limbaj natural	asistent virtual Interlocutor virtual Sistem de întrebări și răspunsuri Interfață vocală Literatură interactivă