Latent Dirichlet allocation ( LDA , din engleză Latent Dirichlet allocation ) este un model generativ utilizat în învățarea automată și regăsirea informațiilor care vă permite să explicați rezultatele observațiilor folosind grupuri implicite , ceea ce face posibilă identificarea motivelor asemănării unor părți. a datelor. De exemplu, dacă observațiile sunt cuvinte adunate în documente, se argumentează că fiecare document este un amestec de un număr mic de subiecte și că apariția fiecărui cuvânt este asociată cu unul dintre subiectele documentului. LDA este una dintre tehnicile de modelare a subiectelor și a fost introdusă pentru prima dată ca model grafic pentru descoperirea subiectului de David Bley, Andrew Ng și Michael Jordan în 2003 [1] .
În LDA, fiecare document poate fi văzut ca o colecție de subiecte diferite. Această abordare este similară cu analiza semantică latentă probabilistică (pLSA), cu diferența că în LDA se presupune că distribuția subiectelor are distribuții Dirichlet ca a priori . În practică, rezultatul este un set mai corect de subiecte.
De exemplu, un model ar putea avea subiecte clasificate ca „legate de pisici” și „legate de câini”, un subiect având probabilități de a genera cuvinte diferite, cum ar fi „miau”, „lapte” sau „pisoi”, care ar putea fi clasificate ca „ legate de câini". la pisici", iar cuvintele care nu au o semnificație specială (de exemplu, cuvintele de serviciu ) vor avea probabilitate aproximativ egală în diverse subiecte.
procesarea limbajului natural | |
---|---|
Definiții generale | |
Analiza textului |
|
Referire |
|
Traducere automată |
|
Identificarea și colectarea datelor | |
Model tematic | |
Evaluare inter pares |
|
Interfață în limbaj natural |