Alocarea Pachinko ( PAM ) este o metodă de modelare a subiectelor utilizată în învățarea automată și procesarea limbajului natural care vă permite să detectați o structură tematică ascunsă într-o colecție de documente [1] . Algoritmul diferă de metodele anterioare (cum ar fi LDA ) prin faptul că modelează corelațiile dintre subiecte în plus față de cele ale cuvintelor care specifică subiectul. PAM este superior LDA în ceea ce privește flexibilitatea și puterea expresivă [2] . Pentru prima dată, metoda a fost descrisă, implementată și aplicată procesării textului în limbaj natural, cu toate acestea, poate fi utilizată și în alte domenii, de exemplu, pentru sarcini de bioinformatică . Și-a luat numele de la aparatele de slot pachinko , populare în Japonia , în care este implementat un joc asemănător cu pinball pe o placă Galton .
Plasarea lui Pachinko a fost descrisă pentru prima dată de Li Wei și Andrew McCallum în 2005 [3] . În 2007, Lee, McCallum și David Mimno au generalizat ideea la plasarea ierarhică a pachinko [4] . În același an, McCallum și colegii săi au propus introducerea unei distribuții bayesiene non-parametrice în PAM bazată pe o modificare a procesului ierarhic Dirichlet (HDP) [2] . Algoritmul este implementat în biblioteca Java open source Mallet .
Pentru a descrie modelul generator, se construiește un digraf aciclic, în care vârfurile sunt cuvinte și subiecte, iar cuvintele pot fi doar frunze. Apoi modelul „cu trei niveluri” este LDA , iar modelul „două nivele” este distribuția multinomială Dirichlet[ specificați ] .
procesarea limbajului natural | |
---|---|
Definiții generale | |
Analiza textului |
|
Referire |
|
Traducere automată |
|
Identificarea și colectarea datelor | |
Model tematic | |
Evaluare inter pares |
|
Interfață în limbaj natural |