Analiza semantică latentă probabilistică

Versiunea actuală a paginii nu a fost încă revizuită de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită pe 26 iunie 2016; verificările necesită 7 modificări .

Analiza semantică latentă probabilistică (PLSA) , cunoscută și sub denumirea de indexare semantică latentă probabilistică ( PLSI , în special în domeniul regăsirii informațiilor), este o metodă statistică de analiză a corelației a două tipuri de date . Această metodă este o dezvoltare ulterioară a analizei semantice latente . VLSA este aplicat în domenii precum regăsirea informațiilor , procesarea limbajului natural , învățarea automată și domenii conexe. Această metodă a fost publicată pentru prima dată în 1999 de Thomas Hofmann [1] .

Comparativ cu analiza semantică latentă convențională , care se bazează pe algebra liniară și este o modalitate de a reduce dimensionalitatea unei matrice (de obicei folosind descompunerea valorii singulare a unei matrici diagonale ), analiza semantică latentă probabilistică se bazează pe descompunerea mixtă, care la rândul său are originea din modelul clasei ascunse. Această abordare este mai fundamentală deoarece are o bază solidă în domeniul statisticii.

Variante ale pLSA

Extensii ierarhice:
- Asimetric: MASHA ("Analiză ierarhică asimetrică multinomială", "analiza ierarhică asimetrică polinomială") [2]
- Simetric: HPLSA („Analiză semantică latentă probabilistică ierarhică”, „Analiza semantică latentă probabilistică ierarhică”), [3]

Modele generative: concepute pentru a aborda o deficiență frecvent criticată a pLSA, și anume că este un model generativ incorect pentru documente noi.
- Distribuție Dirichlet ascunsă - adaugă o distribuție Dirichlet ca distribuție anterioară a subiectelor între documente

Date de ordin superior: Deși este rar discutat în literatura științifică, pLSA este aplicabil în mod natural datelor de ordin superior (de trei niveluri și mai sus), ceea ce înseamnă că poate modela comportamentul combinat a trei sau mai multe variabile. În formularea simetrică dată mai sus, acest lucru se face prin simpla adăugare a unei distribuții de probabilitate condiționată pentru aceste variabile suplimentare. Acesta este un analog probabilistic al factorizării tensorale nenegative.

Note

↑ Thomas Hofmann, Probabilistic Latent Semantic Indexing Arhivat 14 decembrie 2010. , Proceedings of the Twenty-22 Annual International SIGIR Conference on Research and Development in Information Retrieval (SIGIR-99), 1999
↑ Alexei Vinokourov și Mark Girolami, A Probabilistic Framework for the Hierarchic Organization and Classification of Document Collections , în Information Processing and Management , 2002
↑ Eric Gaussier, Cyril Goutte, Kris Popat și Francine Chen, A Hierarchical Model for Clustering and Categorizing Documents Arhivat 13 martie 2006 la Wayback Machine , în „Advances in Information Retrieval - Proceedings of the 24th BCS-IRSG European Research Coloquium on IRSG „ (ECIR-02)”, 2002

Analiza semantică latentă probabilistică

Variante ale pLSA

Note

Vezi și