Plasarea Pachinko

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită la 12 februarie 2020; verificarea necesită 1 editare .

Alocarea Pachinko ( PAM ) este o  metodă de modelare a subiectelor utilizată în învățarea automată și procesarea limbajului natural care vă permite să detectați o structură tematică ascunsă într-o colecție de documente [1] . Algoritmul diferă de metodele anterioare (cum ar fi LDA ) prin faptul că modelează corelațiile dintre subiecte în plus față de cele ale cuvintelor care specifică subiectul. PAM este superior LDA în ceea ce privește flexibilitatea și puterea expresivă [2] . Pentru prima dată, metoda a fost descrisă, implementată și aplicată procesării textului în limbaj natural, cu toate acestea, poate fi utilizată și în alte domenii, de exemplu, pentru sarcini de bioinformatică . Și-a luat numele de la aparatele de slot pachinko , populare în Japonia , în care este implementat un joc asemănător cu pinball pe o placă Galton .

Istorie

Plasarea lui Pachinko a fost descrisă pentru prima dată de Li Wei și Andrew McCallum în 2005 [3] . În 2007, Lee, McCallum și David Mimno au generalizat ideea la plasarea ierarhică a pachinko [4] . În același an, McCallum și colegii săi au propus introducerea unei distribuții bayesiene non-parametrice în PAM bazată pe o modificare a procesului ierarhic Dirichlet (HDP) [2] . Algoritmul este implementat în biblioteca Java open source Mallet .

Model

Pentru a descrie modelul generator, se construiește un digraf aciclic, în care vârfurile sunt cuvinte și subiecte, iar cuvintele pot fi doar frunze. Apoi modelul „cu trei niveluri” este LDA , iar modelul „două nivele” este distribuția multinomială Dirichlet[ specificați ] .

Vezi și

Note

  1. Blei, David Modelare subiect (link indisponibil) . Consultat la 4 octombrie 2012. Arhivat din original pe 2 octombrie 2012. 
  2. 12 Li , Wei; Blei, David; McCallum, Andrew. Alocarea neparametrică Bayes Pachinko  (neopr.) . - 2007. Arhivat 3 octombrie 2012.
  3. Li, Wei; McCallum, Andrew. Alocarea Pachinko: Modele de amestecuri structurate DAG de corelații de subiecte  //  Proceedings of the 23rd International Conference on Machine Learning : jurnal. — 2006.
  4. Mimno, David; Li, Wei; McCallum, Andrew. Amestecuri de subiecte ierarhice cu alocarea Pachinko  //  Actele celei de-a 24-a Conferințe internaționale privind învățarea automată : jurnal. - 2007. Arhivat la 20 iunie 2013.
  5. Hofmann, Thomas. Probabilistic Latent Semantic Indexing  (neopr.)  // Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. - 1999. Arhivat la 14 decembrie 2010.
  6. Blei, David M.; Ng, Andrew Y.; Iordan, Mihai I; Lafferty, John. Alocare latent Dirichlet  (engleză)  // Journal of Machine Learning Research  : jurnal. - 2003. - ianuarie ( vol. 3 ). - P. pp. 993-1022 . - doi : 10.1162/jmlr.2003.3.4-5.993 . Arhivat din original la 1 mai 2012.