Reprezentarea vectorială a cuvintelor

O reprezentare vectorială  este o denumire generală pentru diferite abordări ale modelării limbajului și antrenamentului de reprezentare în procesarea limbajului natural care vizează potrivirea cuvintelor (și eventual a frazelor) din un dicționar de vectori din for , un număr mult mai mic de cuvinte în dicționar. Baza teoretică pentru reprezentările vectoriale este semantica distributivă .

Există mai multe metode pentru a construi o astfel de cartografiere. Astfel, ei folosesc rețele neuronale [1] , metode de reducere a dimensionalității aplicate matricelor de co-ocurență a cuvintelor [2] și reprezentări explicite învățând pe contexte de mențiuni de cuvinte (reprezentări explicite) [3] .

Demonstrat[ de cine? ] că reprezentările vectoriale ale cuvintelor și frazelor pot îmbunătăți semnificativ calitatea unor metode de procesare automată a limbajului natural (de exemplu, analiza [4] și analiza sentimentelor [5] ).

Link -uri

  1. Mikolov, Tomas; Sutskever, Ilya; Chen, Kai; Corrado, Greg & Dean, Jeffrey (2013), Distributed Representations of Words and Phrases and their Compositionality, arΧiv : 1310.4546 [cs.CL]. 
  2. Lebret, Rémi & Collobert, Ronan (2013), Word Emdeddings through Hellinger PCA, arΧiv : 1312.5542 [cs.CL]. 
  3. Levy, Omer; Goldberg, Yoav. Regularități lingvistice în reprezentările cuvintelor rare și explicite  //  Proceedings of the Eighteenth Conference on Computational Natural Language Learning, Baltimore, Maryland, SUA, iunie. Asociația pentru Lingvistică Computațională. 2014: jurnal.
  4. Socher, Richard; Bauer, John; Manning, Christopher; Ng, Andrew. Analiza cu gramatici vectoriale compoziționale  (nedefinită)  // Proceedings of the ACL Conference. 2013.
  5. Socher, Richard; Perelygin, Alex; Wu, Jean; Chuang, Jason; Manning, Chris; Ng, Andrei; Potts, Chris. Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank  //  Conferința privind metodele empirice în procesarea limbajului natural : jurnal.