Analiza semantică latentă

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită la 3 mai 2014; verificările necesită 34 de modificări .

Analiza semantică latentă (LSA ) este o  metodă de procesare a informațiilor în limbaj natural care analizează relația dintre o bibliotecă de documente și termenii găsiți în acestea și dezvăluie factorii caracteristici ( subiecte ) inerenți tuturor documentelor și termenilor.

Metoda analizei semantice latente se bazează pe principiile analizei factoriale , în special pe identificarea conexiunilor latente ale fenomenelor sau obiectelor studiate. La clasificarea / gruparea documentelor, această metodă este folosită pentru a extrage semnificațiile dependente de context ale elementelor lexicale folosind procesarea statistică a corpurilor de text mari [1] .

Istorie

LSA a fost brevetat în 1988 [2] de Scott Deerwester , Susan Dumais , George Furnas , Richard Harshman , Thomas Landauer , Karen Lochbaum și Lynn Streeter . În domeniul regăsirii informațiilor, această abordare se numește indexare semantică latentă (LSI) .

Pentru prima dată, LSA a fost folosit pentru a indexa automat textele, a identifica structura semantică a textului și a obține pseudo-documente [3] . Apoi această metodă a fost folosită cu destul de mult succes pentru a reprezenta baze de cunoștințe [4] și a construi modele cognitive [5] .

În ultimii ani, metoda LSA a fost adesea folosită pentru regăsirea informațiilor ( indexarea documentelor ), clasificarea documentelor [6] , modele de înțelegere [7] și alte domenii în care este necesar să se identifice factorii principali dintr-o serie de date de informații.

Descrierea postului LSA

LSA poate fi comparat cu un tip simplu de rețea neuronală , constând din trei straturi: primul strat conține un set de cuvinte ( termeni ), al doilea - un anumit set de documente corespunzător anumitor situații, iar al treilea, stratul mijlociu, ascuns. este un set de noduri cu coeficienți de greutate diferiți care leagă primul și al doilea strat.

LSA utilizează ca intrare o matrice de la termen la document , care descrie setul de date utilizat pentru antrenamentul sistemului. Elementele acestei matrice conțin, de regulă, ponderi care iau în considerare frecvența de utilizare a fiecărui termen în fiecare document și participarea termenului în toate documentele ( TF-IDF ). Cea mai obișnuită versiune de LSA se bazează pe utilizarea de descompunere a valorii singulare (SVD ). Folosind descompunerea SVD, orice matrice este descompusă într-un set de matrice ortogonale, a căror combinație liniară este o aproximare destul de precisă față de matricea originală.

Mai formal, conform teoremei valorii singulare [9] , orice matrice dreptunghiulară reală poate fi descompusă într-un produs de trei matrici:

,

unde matricele și  sunt ortogonale și  este o matrice diagonală, ale cărei valori pe diagonala sunt numite valori singulare ale matricei . Litera T din expresie înseamnă transpunerea matricei.

O astfel de descompunere are o caracteristică remarcabilă: dacă în matrice rămân doar cele mai mari valori singulare și numai coloanele corespunzătoare acestor valori sunt lăsate în matrice și ,  atunci produsul matricelor rezultate și va fi cea mai bună aproximare a matricei originale la matricea de rang :

,

Ideea principală a analizei semantice latente este că, dacă matricea termenilor-la-documente a fost folosită ca matrice , atunci matricea care conține doar primele componente liniar independente reflectă structura principală a diferitelor dependențe prezente în matricea originală. Structura de dependență este determinată de funcțiile de pondere ale termenilor.

Astfel, fiecare termen și document este reprezentat de vectori într-un spațiu comun de dimensiune (așa-numitul spațiu de ipoteză). Apropierea dintre orice combinație de termeni și/sau documente este ușor de calculat folosind produsul punctual al vectorilor.

De regulă, alegerea depinde de sarcina la îndemână și este selectată empiric. Dacă valoarea selectată este prea mare, atunci metoda își pierde puterea și se apropie de caracteristicile metodelor vectoriale standard. Valoarea prea mică a lui k nu permite surprinderea diferențelor între termeni sau documente similare.

Aplicație

Există trei tipuri principale de rezolvare a problemelor folosind metoda LSA:

Avantajele și dezavantajele LSA

Avantajele metodei:

Defecte:

Note

  1. Thomas Landauer , Peter W. Foltz și Darrell Laham. Introducere în Analiza Semantică Latentă   // Procese discursive : jurnal. - 1998. - Vol. 25 . - P. 259-284 . - doi : 10.1080/01638539809545028 .
  2. Brevetul SUA 4.839.853
  3. 1 2 Scott Deerwester , Susan T. Dumais , George W. Furnas , Thomas K. Landauer , Richard Harshman . Indexarea prin analiză semantică latentă  //  Jurnalul Societății Americane pentru Știința Informației : jurnal. - 1990. - Vol. 41 , nr. 6 . - P. 391-407 . - doi : 10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9 . Arhivat din original pe 17 iulie 2012.
  4. Thomas Landauer , Susan T. Dumais . O soluție la problema lui Platon: Teoria analizei semantice latente a achiziției, inducției și reprezentării cunoștințelor  //  JPsychological Review. : jurnal. - 1997. - Vol. 104 . - P. 211-240 . Arhivat din original pe 14 martie 2012.
  5. B. Lemaire , G. Denhière . Modele cognitive bazate pe analiza semantică latentă  (nedefinită)  // Tutorial dat la a 5-a Conferință Internațională de Modelare Cognitivă (ICCM'2003), Bamberg, Germania, 9 aprilie 2003.. - 2003.  (link indisponibil)
  6. Nekrestyanov I. S. Metode tematice de regăsire a informațiilor / Disertație pentru gradul de doctorat. Universitatea de Stat din Sankt Petersburg, 2000.
  7. Solovyov A. N. Modelarea proceselor de înțelegere a vorbirii folosind analiza semantică latentă / Disertație pentru gradul de doctorat. Universitatea de Stat din Sankt Petersburg, 2008.
  8. Copie arhivată . Consultat la 1 septembrie 2017. Arhivat din original la 1 septembrie 2017.
  9. Golub J., Van Lone C. Matrix Computing. M.: Mir, 1999.

Link -uri