Semantică distributivă

Semantica distributivă  este un domeniu al lingvisticii care se ocupă cu calcularea gradului de similitudine semantică dintre unitățile lingvistice pe baza distribuției (distribuției) acestora în matrice mari de date lingvistice ( corpus de text ).

Fiecărui cuvânt i se atribuie propriul său vector de context . Mulțimea vectorilor formează un spațiu vectorial verbal .

Distanța semantică dintre conceptele exprimate în cuvinte din limbaj natural este de obicei calculată ca distanța cosinus dintre vectorii spațiului cuvântului.

Istorie

„ Analiza distributivă  este o metodă de cercetare lingvistică bazată pe studiul mediului (distribuția, distribuția) unităților individuale din text și nu utilizează informații despre semnificația lexicală sau gramaticală completă a acestor unități” [1] .

În cadrul acestei metode, se aplică textelor limbii studiate un set ordonat de procedee universale, ceea ce face posibilă evidențierea principalelor unități ale limbii (foneme, morfeme, cuvinte, fraze), clasificarea acestora și stabiliți relații de compatibilitate între ele.

Clasificarea se bazează pe principiul substituției: unitățile lingvistice aparțin aceleiași clase dacă pot apărea în aceleași contexte.

Analiza distributivă a fost propusă de L. Bloomfield în anii 1920. XX și a fost folosit mai ales în fonologie și morfologie.

3. Harris și alți reprezentanți ai lingvisticii descriptive au dezvoltat această metodă în lucrările lor în anii 1930 și 1950. secolul XX.

Idei similare au fost înaintate de fondatorii lingvisticii structurale F. de Saussure și L. Wittgenstein.

Ideea vectorilor de context a fost propusă de psiholingvistul Charles Osgood ca parte a lucrării sale privind reprezentarea semnificațiilor cuvintelor [2] .

Contextele în care au apărut cuvintele au acționat ca măsurători ale vectorilor multi-biți.

Ca astfel de contexte, lucrările lui Osgood au folosit perechi antonimice de adjective (de exemplu, rapid-lent ), pentru care participanții la sondaj au evaluat pe o scară de șapte puncte.

Un exemplu de spațiu de caracteristici contextuale care descrie semnificația cuvintelor șoarece și șobolan din opera lui Osgood:

Termenul de vector de context a fost introdus de S. Gallant pentru a descrie sensul cuvintelor și a rezolva ambiguitatea lexicală [3] .

Lucrarea lui Gallant a folosit o varietate de atribute date de cercetător, cum ar fi o persoană , un bărbat , o mașină etc.

Un exemplu de spațiu de caracteristică contextuală care descrie semnificația cuvântului astronom din lucrarea lui Gallant:

În ultimele două decenii, metoda analizei distributive a fost aplicată pe scară largă în studiul semanticii.

S-a dezvoltat o tehnică distributiv-semantică și un software corespunzător care vă permit să comparați automat contextele în care apar unitățile de limbaj studiate și să calculați distanțele semantice dintre ele [4] .

Ipoteza distributivă

Semantica distributivă se bazează pe ipoteza distributivă : unitățile lingvistice care apar în contexte similare au semnificații similare [5] .

Experimentele psihologice au confirmat adevărul acestei ipoteze. De exemplu, într-una dintre lucrări [6] , participanții la experiment au fost rugați să-și exprime părerea despre sinonimia perechilor de cuvinte care le-au fost prezentate. Datele sondajului au fost apoi comparate cu contextele în care au apărut cuvintele studiate. Experimentul a arătat o corelație pozitivă între proximitatea semantică a cuvintelor și similitudinea contextelor în care acestea apar.

Model matematic

Spațiile vectoriale din algebra liniară sunt folosite ca o modalitate de a reprezenta modelul . Informațiile despre distribuția unităților lingvistice sunt prezentate sub formă de vectori cu mai multe cifre care formează un spațiu vectorial verbal. Vectorii corespund unităților lingvistice (cuvinte sau expresii), iar dimensiunile corespund contextelor. Coordonatele vectorilor sunt numere care arată de câte ori apare un anumit cuvânt sau expresie într-un anumit context.

Un exemplu de spațiu vectorial al cuvintelor care descrie caracteristicile distributive ale cuvintelor ceai și cafea , în care contextul este cuvântul învecinat:

Mărimea ferestrei de context este determinată de obiectivele studiului [7] :

Proximitatea semantică dintre unitățile lingvistice este calculată ca distanța dintre vectori. În cercetările privind semantica distributivă, se folosește cel mai des măsura cosinusului , care este calculată prin formula:

unde și  sunt doi vectori, distanța dintre care se calculează.

După o astfel de analiză, devine posibil să se identifice cuvintele cel mai apropiate ca sens de cuvântul studiat.

Un exemplu de cuvinte cele mai apropiate de cuvântul pisică (lista a fost obținută pe baza datelor corpusului web în limba rusă [8] , corpus a fost procesat de sistemul Sketch Engine [9] ):

Într-o formă grafică, cuvintele pot fi reprezentate ca puncte pe un plan, în timp ce punctele corespunzătoare cuvintelor care sunt apropiate ca sens sunt situate aproape unele de altele. Un exemplu de spațiu de cuvinte care descrie domeniul supercalculatoarelor , din lucrarea lui Heinrich Schutze [10] :

Modele de semantică distributivă

Există multe modele diferite de semantică distributivă, care diferă în următoarele moduri:

Următoarele modele distributiv-semantice sunt cele mai cunoscute:

Reducerea dimensională a spațiilor vectoriale

Atunci când se folosesc modele distributiv-semantice în aplicații reale, se pune problema că dimensiunea vectorilor este prea mare, corespunzând unui număr mare de contexte prezentate într-un corpus de text. Este necesar să se aplice metode speciale care să reducă dimensiunea și rarătatea spațiului vectorial și, în același timp, să păstreze cât mai multe informații din spațiul vectorial original. Reprezentările vectoriale comprimate rezultate ale cuvintelor în terminologia engleză sunt numite încorporare de cuvinte .

Metode de reducere a dimensiunii spațiilor vectoriale:

Modele predictive de semantică distributivă

O altă modalitate de a obține vectori cu dimensiuni reduse este învățarea automată, în special rețelele neuronale artificiale . Atunci când antrenați astfel de modele predictive (modele predictive ing.), reprezentarea țintă a fiecărui cuvânt este, de asemenea, un vector comprimat de dimensiuni relativ mici ( înglobare ing. ), pentru care, în timpul trecerilor multiple prin corpus de antrenament, asemănarea cu vectorii vecini este maximizată. iar asemănarea cu vectorii de cuvinte este minimizată, vecinii săi care nu sunt [12] . Totuși, spre deosebire de modelele tradiționale de numărare , în această abordare nu există nicio etapă de reducere a dimensiunii vectoriale, deoarece modelul este inițial inițial cu vectori de dimensiune mică (de ordinul a câteva sute de componente).

Astfel de modele predictive reprezintă semantica limbajului natural mai precis decât modelele computaționale care nu folosesc învățarea automată [13] .

Cei mai cunoscuți reprezentanți ai acestei abordări sunt algoritmii Continuous Bag-of-Words (CBOW) și Continuous Skipgram , implementați pentru prima dată în utilitarul word2vec , introdus în 2013 [14] . Un exemplu de aplicare a unor astfel de modele în limba rusă este prezentat pe serviciul web RusVectōrēs .

Aplicații

Modelele semantice distributive și-au găsit aplicație în cercetare și implementări practice legate de modelele semantice în limbaj natural.

Modelele distributive sunt utilizate pentru a rezolva următoarele probleme [15] :

Programe

Există mai multe instrumente software pentru a face cercetări despre semantica distributivă open source:

Vezi și

Note

  1. Yartseva, 1990 .
  2. Osgood și colab., 1957 .
  3. Gallant, 1991 .
  4. Mitrofanova, 2008 .
  5. Sahlgren, 2008 .
  6. Rubenstein, Goodenough, 1965 .
  7. 1 2 Sharnin și colab., 2013 .
  8. Corpus web rusesc .
  9. Motor de schiță .
  10. Schutze, 1992 .
  11. Sahlgren, 2005 .
  12. Kutuzov și Andreev, 2015 .
  13. Baroni, Marco și Dinu, Georgiana și Kruszewski, germană. Nu conta, prezice! o comparație sistematică a numărării contextului vs. vectori semantici predictori de context // Proceedings of the 52th Annual Meeting of the Association for Computational Linguistics. - 2014. - Nr. 1 . - S. 238-247 .
  14. Mikolov, Tomas și Chen, Kai și Corrado, Greg și Dean, Jeffrey. Estimarea eficientă a reprezentărilor de cuvinte în spațiul vectorial // arXiv preprint arXiv:1301.3781. — 2013.
  15. 1 2 Morozova et al., 2014 .
  16. Klyshinsky et al., 2013 .
  17. Sahlgren, Karlgren, 2005 .
  18. Pekar, 2004 .

Literatură