Analiza semantică latentă probabilistică

Versiunea actuală a paginii nu a fost încă revizuită de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită pe 26 iunie 2016; verificările necesită 7 modificări .

Analiza semantică latentă probabilistică (PLSA) , cunoscută și sub denumirea de indexare semantică latentă probabilistică ( PLSI , în special în domeniul regăsirii informațiilor), este o metodă statistică de analiză a corelației a două tipuri de date . Această metodă este o dezvoltare ulterioară a analizei semantice latente . VLSA este aplicat în domenii precum regăsirea informațiilor , procesarea limbajului natural , învățarea automată și domenii conexe. Această metodă a fost publicată pentru prima dată în 1999 de Thomas Hofmann [1] .

Comparativ cu analiza semantică latentă convențională , care se bazează pe algebra liniară și este o modalitate de a reduce dimensionalitatea unei matrice (de obicei folosind descompunerea valorii singulare a unei matrici diagonale ), analiza semantică latentă probabilistică se bazează pe descompunerea mixtă, care la rândul său are originea din modelul clasei ascunse. Această abordare este mai fundamentală deoarece are o bază solidă în domeniul statisticii.

Variante ale pLSA

Note

  1. Thomas Hofmann, Probabilistic Latent Semantic Indexing Arhivat 14 decembrie 2010. , Proceedings of the Twenty-22 Annual International SIGIR Conference on Research and Development in Information Retrieval (SIGIR-99), 1999
  2. Alexei Vinokourov și Mark Girolami, A Probabilistic Framework for the Hierarchic Organization and Classification of Document Collections , în Information Processing and Management , 2002
  3. Eric Gaussier, Cyril Goutte, Kris Popat și Francine Chen, A Hierarchical Model for Clustering and Categorizing Documents Arhivat 13 martie 2006 la Wayback Machine , în „Advances in Information Retrieval - Proceedings of the 24th BCS-IRSG European Research Coloquium on IRSG „ (ECIR-02)”, 2002

Vezi și