Modelare tematică

Modelarea subiectelor  este o modalitate de a construi un model al unei colecții de documente text care determină subiectele cărora le aparține fiecare document [1] .

Modelul de subiecte ( modelul de subiect în engleză  ) al unei colecții de documente text determină căror subiecte aparține fiecare document și ce cuvinte (termeni) formează fiecare subiect [2] .

Trecerea de la spațiul termenilor la spațiul subiectelor găsite ajută la rezolvarea sinonimiei și polisemiei termenilor, precum și la rezolvarea mai eficientă a unor probleme precum căutarea tematică , clasificarea , rezumarea și adnotarea colecțiilor de documente și a fluxurilor de știri.

Modelarea subiectelor, ca tip de model statistic pentru găsirea subiectelor ascunse întâlnite într-o colecție de documente, și-a găsit drumul în domenii precum învățarea automată și procesarea limbajului natural . Cercetătorii folosesc diverse modele de subiecte pentru a analiza texte, arhive text ale documentelor, pentru a analiza modificările subiectelor în seturi de documente . Înțelegând intuitiv că documentul se referă la un anumit subiect, în documentele dedicate unui subiect, puteți găsi unele cuvinte mai des decât altele. De exemplu: „câine” și „os” apar mai des în documentele despre câini, „pisici” și „lapte” vor apărea în documentele despre pisoi, prepozițiile „și” și „în” vor apărea în ambele subiecte. De obicei, un document tratează mai multe subiecte în proporții diferite, așa că un document în care 10% din subiect este pisici și 90% din subiect este câini se poate presupune că are de 9 ori mai multe cuvinte despre câini. Modelarea subiectelor reflectă această intuiție într-o structură matematică care permite, pe baza studiului unei colecții de documente și a studiului caracteristicilor de frecvență ale cuvintelor din fiecare document, să se concluzioneze că fiecare document este un anumit echilibru de subiecte.

Cele mai utilizate pe scară largă în aplicațiile moderne sunt abordările bazate pe rețele bayesiene  - modele probabilistice pe grafice direcționate . Modelele probabilistice de subiecte sunt un domeniu relativ tânăr de cercetare în teoria autoînvățarii . Una dintre primele analize semantice latente probabilistice propuse (PLSA), bazate pe principiul probabilității maxime , ca alternativă la metodele clasice de clustering , bazate pe calculul funcțiilor de distanță. În urma PLSA, s-a propus metoda de alocare a Dirichletului latent și numeroasele sale generalizări [3] .

Modelele probabilistice de subiecte realizează clustering „soft”, permițând unui document sau termen să fie legat de mai multe subiecte simultan, cu probabilități diferite. Modelele probabilistice de subiecte descriu fiecare subiect printr-o distribuție discretă pe un set de termeni, fiecare document printr-o distribuție discretă pe un set de subiecte. Se presupune că o colecție de documente este o secvență de termeni aleși aleatoriu și independent dintr-un amestec de astfel de distribuții, iar sarcina este de a restabili componentele amestecului din probă [4] .

Deși modelarea subiectelor a fost descrisă și aplicată în mod tradițional în procesarea limbajului natural, ea și-a găsit drumul și în alte domenii, cum ar fi bioinformatica .

Istorie

Prima descriere a modelării subiectelor a apărut într-o lucrare din 1998 a lui Ragawan, Papadimitriou, Tomaki și Vempola [5] . Thomas Hofmann în 1999 [6] a propus indexarea semantică latentă probabilistică (PLSI). Unul dintre cele mai comune modele topice este plasarea latentă a Dirichlet (LDA), acest model este o generalizare a indexării semantice probabilistice și a fost dezvoltat de David Blei , Andrew Ng și Michael Jordan ( în engleză Michael  I. Jordan ) [în 2002 . Alte modele de subiecte tind să fie extensii ale LDA, de exemplu, plasarea pachinko îmbunătățește LDA prin introducerea de coeficienți de corelație suplimentari pentru fiecare cuvânt care alcătuiește un subiect.  

Studii de caz

Templeton a trecut în revistă lucrările pe tema modelării în științe umaniste, grupate în abordări sincronice și diacronice [8] . Abordările sincrone evidențiază subiecte la un moment dat, de exemplu, Jockers a folosit un model de subiect pentru a explora despre ceea ce au scris bloggerii de Ziua Humanităților Digitale din 2010 [9] .

Abordări diacronice, inclusiv definiția lui Block și Newman a dinamicii temporale a subiectelor în Pennsylvania Gazette din 1728-1800 [10] . Griffiths și Stavers au folosit modelarea subiectelor pentru recenziile revistei PNAS , determinând schimbarea popularității subiectului din 1991 până în 2001 [11] . Blevin a creat un model tematic pentru jurnalul Marthei Ballads [12] . Mimno a folosit modelarea subiectelor pentru a analiza 24 de reviste clasice și arheologice de-a lungul a 150 de ani pentru a determina schimbările în popularitatea subiectelor și cât de mult s-au schimbat jurnale în acea perioadă [13] .

Algoritmi de modelare a subiectelor

„Introduction to Topic Modeling” a lui David Blay consideră cel mai popular algoritm Latent Dirichlet Allocation [14] . În practică, cercetătorii folosesc una dintre euristicile metodei de maximă probabilitate, metodele de descompunere a valorii singulare (SVD), metoda momentelor , un algoritm bazat pe o matrice de factorizare nenegativă (NMF), modele probabilistice de subiecte, analiză semantică latentă probabilistică. , plasare latentă Dirichlet. În munca lui Vorontsov K.V., sunt considerate variații ale algoritmilor de modelare a subiectelor principale: model robust de subiecte, modele de clasificare a subiectelor, modele de subiecte dinamice, modele de subiecte ierarhice, modele de subiecte multilingve, modele de text ca o secvență de cuvinte, modele de subiecte multimodale [2] ] .

Modelele probabilistice de subiecte se bazează pe următoarele ipoteze [15] [16] [17] [18] :

A construi un model tematic înseamnă a găsi matrici și prin colectare În modelele tematice probabilistice mai complexe, unele dintre aceste ipoteze sunt înlocuite cu altele mai realiste.

Analiză semantică latentă probabilistică

Analiza semantică latentă probabilistică (PLSA) a fost propusă de Thomas Hofmann în 1999. Modelul probabilistic pentru apariția unei perechi document-cuvânt poate fi scris în trei moduri echivalente:

unde  este setul de subiecte;

 — distribuția a priori necunoscută a subiectelor în întreaga colecție;  este o distribuție a priori pe un set de documente, o estimare empirică , unde  este lungimea totală a tuturor documentelor;  este distribuția a priori pe mulțimea de cuvinte, estimare empirică , unde  este numărul de apariții ale unui cuvânt în toate documentele;

Distribuțiile condiționate dorite sunt exprimate în termenii formulei Bayes:

Pentru a identifica parametrii modelului tematic dintr-o colecție de documente, se aplică principiul maximului probabilitate , ceea ce duce la problema maximizării funcționalității [19]

sub constrângeri de normalizare

unde  este numărul de apariții ale cuvântului din document . Pentru a rezolva această problemă de optimizare, se folosește de obicei algoritmul EM .

Principalele dezavantaje ale PLSA:

Plasarea latentă a lui Dirichlet

Alocarea Latent Dirichlet (LDA) a fost propusă de David Bley în 2003.

Această metodă elimină principalele dezavantaje ale PLSA.

Metoda LDA se bazează pe același model probabilistic

cu ipoteze suplimentare:

Eșantionarea Gibbs , inferența Bayesiană variațională sau metoda de propagare a așteptărilor sunt utilizate pentru a identifica parametrii modelului LDA dintr-o colecție de documente .(Propagarea așteptărilor).

Vezi și

Note

  1. Korshunov, 2012 .
  2. 1 2 Vorontsov, 2013 .
  3. Ali10, 2010 .
  4. Vorontsov 12, 2012 .
  5. Papadimitriou, 1998 .
  6. Hofmann, 1999 .
  7. Blay 2003, 2003 .
  8. Templeton, 2011 .
  9. Jokers, 2010 .
  10. Newman Block, 2006 .
  11. Griffiths, 2004 .
  12. Blevin, 2010 .
  13. Mimno, 2012 .
  14. Blay 2012, 2012 .
  15. Korshunov, 2012 , p. 229.
  16. Vorontsov, 2013 , p. 6.
  17. Vorontsov 13, 2013 , p. 5.
  18. VorontsovML, 2013 , p. 5.
  19. K. V. Vorontsov. Modelare tematică probabilistă  (rusă)  ? . Data accesului: 26 octombrie 2013. Arhivat din original pe 24 iulie 2014.

Literatură

Link -uri

Software și biblioteci software