Plasarea latentă a lui Dirichlet

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită pe 15 iulie 2019; verificările necesită 2 modificări .

Latent Dirichlet allocation ( LDA , din engleză  Latent Dirichlet allocation ) este un model generativ utilizat în învățarea automată și regăsirea informațiilor care vă permite să explicați rezultatele observațiilor folosind grupuri implicite , ceea ce face posibilă identificarea motivelor asemănării unor părți. a datelor. De exemplu, dacă observațiile sunt cuvinte adunate în documente, se argumentează că fiecare document este un amestec de un număr mic de subiecte și că apariția fiecărui cuvânt este asociată cu unul dintre subiectele documentului. LDA este una dintre tehnicile de modelare a subiectelor și a fost introdusă pentru prima dată ca model grafic pentru descoperirea subiectului de David Bley, Andrew Ng și Michael Jordan în 2003 [1] .

În LDA, fiecare document poate fi văzut ca o colecție de subiecte diferite. Această abordare este similară cu analiza semantică latentă probabilistică (pLSA), cu diferența că în LDA se presupune că distribuția subiectelor are distribuții Dirichlet ca a priori . În practică, rezultatul este un set mai corect de subiecte.

De exemplu, un model ar putea avea subiecte clasificate ca „legate de pisici” și „legate de câini”, un subiect având probabilități de a genera cuvinte diferite, cum ar fi „miau”, „lapte” sau „pisoi”, care ar putea fi clasificate ca „ legate de câini". la pisici", iar cuvintele care nu au o semnificație specială (de exemplu, cuvintele de serviciu ) vor avea probabilitate aproximativ egală în diverse subiecte.

Note

  1. Blei, David M.; Ng, Andrew Y.; Iordan, Mihai I Latent Dirichlet allocation  //  Journal of Machine Learning Research  : jurnal / Lafferty, John. - 2003. - ianuarie ( vol. 3 , nr. 4-5 ). - P. pp. 993-1022 . - doi : 10.1162/jmlr.2003.3.4-5.993 . Arhivat din original la 1 mai 2012.

Link -uri