Conectarea entităților numite

Named entity linking (din engleză.  Named entity linking , NEL ) este o sarcină care constă în determinarea identității entităților menționate în text. Luați în considerare, de exemplu, propoziția „Voi merge la Kirov în acest weekend”. Esența legăturii, în acest caz, va fi corelarea cuvântului „Kirov” cu orașul Kirov, și nu cu o persoană pe nume Kirov sau cu orice altceva. NEL diferă de Named Entity Recognition (NER) prin faptul că NER determină tipul de entitate la care se face referire (persoană, locație geografică, organizație etc.), dar nu asociază entitatea cu o anumită entitate.

Conectarea entităților numite necesită o bază de cunoștințe care să conțină entitățile (sau conceptele) cu care pot fi legate referințele. O soluție populară pentru legarea entităților în text open source este bazele de cunoștințe bazate pe Wikipedia [1] [2] , în care fiecare pagină este o entitate numită. NEL-urile care folosesc entități Wikipedia sunt uneori denumite wikificări .  Baza de cunoștințe poate fi obținută și automat din textul de instruire [3] sau construită manual [4] .

Referințele la entități denumite pot fi substanțial ambigue, orice metodă de legare trebuie să fie capabilă să rezolve această ambiguitate. Au fost încercate multe abordări pentru a rezolva această problemă. O soluție fructuoasă la această problemă a fost propusă de Milne și Witten și s-a bazat pe învățarea supravegheată, folosind textul link-ului wikipedia ca date de instruire. [5] Kulkarni și colab. au folosit proprietatea comună a documentelor conexe pentru a se referi la entități de tipuri puternic legate. [6] Lista sistemelor de ultimă generație de legare a entităților numite include AIDA, [7] AGDISTIS, [8] Babelfy [9] și TagMe. [zece]

Legătura de entități numite este utilizată pentru a îmbunătăți calitatea sistemelor de regăsire a informațiilor [1] și pentru a îmbunătăți calitatea bibliotecilor digitale. [11] [12] NEL este, de asemenea, cheia pentru construirea căutării semantice [13] . De exemplu, NEL a fost aplicat cu succes pentru a valida rezultatul metodelor de recunoaștere a entităților numite folosind ipoteza că fiecare text are un domeniu de aplicare și un context specific și, prin urmare, entitățile menționate în acest text ar trebui să aibă o relație semantică între ele [14] . Măsurarea semantică a proximității poate fi utilizată pentru a filtra erorile de identificare a entităților în afara contextului, chiar și atunci când sunt posibile interpretări multiple pentru o singură mențiune.

Campaniile de evaluare NEL ( Entity Linking evaluation campanii ) sunt organizate de Institutul Național de Standarde și Tehnologie din SUA ( NIST ) în contextul sarcinii Knowledge Base Population a Conferinței de analiză a textului.

Note

  1. 1 2 M. A. Khalid, V. Jijkoun și M. de Rijke (2008). Impactul normalizării entităților numite asupra regăsirii informațiilor pentru răspunsul la întrebări  (link mort) . Proc. ECIR.
  2. Xianpei Han, Le Sun și Jun Zhao (2011). Conectarea entităților colective în textul web: o metodă bazată pe grafice Arhivat la 5 martie 2016 la Wayback Machine . Proc. SIGIR.
  3. Aaron M. Cohen (2005). Normalizare nesupravegheată a entităților denumite gene/proteine ​​folosind dicționare extrase automat. Proc. ACL -ISMB Workshop on Linking Biological Literature, Ontologis and Databases: Mining Biological Semantics, pp. 17-24.
  4. Wikipedia
  5. David Milne și Ian H. Witten (2008). Învățați să faceți legătura cu Wikipedia. Proc. CIKM.
  6. Kulkarni, Sayali; Singh, Amit; Ramakrishnan, Ganesh; Chakrabarti, Soumen (2009). Adnotare colectivă a entităților Wikipedia în text web . Proc. a 15-a Conf. Internațională ACM SIGKDD. privind descoperirea cunoștințelor și extragerea datelor (KDD). DOI : 10.1145/1557019.1557073 . ISBN  9781605584959 .
  7. Hoffart, J., Yosef, M.A., Bordino, I., Fürstenau, H., Pinkal, M., Spaniol, M., Taneva, B., Thater, S. și Weikum, G. (2011). Dezambiguizare robustă a entităților numite în text Arhivat la 29 martie 2017 la Wayback Machine . În EMNLP
  8. Usbeck, R., Ngomo, AN, Röder, M., Gerber, D., Coelho, SA, Auer, S. și Both, A. (2014). AGDISTIS - dezambiguarea bazată pe grafice a entităților numite folosind date legate. În ISWC Arhivat 17 noiembrie 2015 la Wayback Machine
  9. Moro, A., Raganato, A. și Navigli, R. (2014). Legarea entităților întâlnește dezambiguizarea sensului cuvântului: o abordare unificată Arhivată 13 iulie 2017 la Wayback Machine
  10. TAGME: adnotare din mers a unor fragmente scurte de text! . tagme.d4science.org . Preluat la 25 septembrie 2016. Arhivat din original la 27 septembrie 2016.
  11. Hui Han, Hongyuan Zha, C. Lee Giles, „Dezambiguizarea numelui în citarea autorului folosind o metodă de grupare spectrală K-way”, Conferința comună ACM/IEEE privind bibliotecile digitale 2005 (JCDL 2005): 334–343, 2005
  12. Deutsche Nationalbibliothek - Proiecte - Evaluarea unui proces NERD . Data accesului: 25 decembrie 2016. Arhivat din original pe 5 ianuarie 2018.
  13. STICS . Consultat la 25 decembrie 2016. Arhivat din original la 1 septembrie 2021.
  14. Grego, Tiago; Couto, Francisco. Identificarea entităților chimice în documentele de brevet  (engleză)  // PLOS One  : jurnal. - 2013. - doi : 10.1145/1557019.1557073 .