Named entity linking (din engleză. Named entity linking , NEL ) este o sarcină care constă în determinarea identității entităților menționate în text. Luați în considerare, de exemplu, propoziția „Voi merge la Kirov în acest weekend”. Esența legăturii, în acest caz, va fi corelarea cuvântului „Kirov” cu orașul Kirov, și nu cu o persoană pe nume Kirov sau cu orice altceva. NEL diferă de Named Entity Recognition (NER) prin faptul că NER determină tipul de entitate la care se face referire (persoană, locație geografică, organizație etc.), dar nu asociază entitatea cu o anumită entitate.
Conectarea entităților numite necesită o bază de cunoștințe care să conțină entitățile (sau conceptele) cu care pot fi legate referințele. O soluție populară pentru legarea entităților în text open source este bazele de cunoștințe bazate pe Wikipedia [1] [2] , în care fiecare pagină este o entitate numită. NEL-urile care folosesc entități Wikipedia sunt uneori denumite wikificări . Baza de cunoștințe poate fi obținută și automat din textul de instruire [3] sau construită manual [4] .
Referințele la entități denumite pot fi substanțial ambigue, orice metodă de legare trebuie să fie capabilă să rezolve această ambiguitate. Au fost încercate multe abordări pentru a rezolva această problemă. O soluție fructuoasă la această problemă a fost propusă de Milne și Witten și s-a bazat pe învățarea supravegheată, folosind textul link-ului wikipedia ca date de instruire. [5] Kulkarni și colab. au folosit proprietatea comună a documentelor conexe pentru a se referi la entități de tipuri puternic legate. [6] Lista sistemelor de ultimă generație de legare a entităților numite include AIDA, [7] AGDISTIS, [8] Babelfy [9] și TagMe. [zece]
Legătura de entități numite este utilizată pentru a îmbunătăți calitatea sistemelor de regăsire a informațiilor [1] și pentru a îmbunătăți calitatea bibliotecilor digitale. [11] [12] NEL este, de asemenea, cheia pentru construirea căutării semantice [13] . De exemplu, NEL a fost aplicat cu succes pentru a valida rezultatul metodelor de recunoaștere a entităților numite folosind ipoteza că fiecare text are un domeniu de aplicare și un context specific și, prin urmare, entitățile menționate în acest text ar trebui să aibă o relație semantică între ele [14] . Măsurarea semantică a proximității poate fi utilizată pentru a filtra erorile de identificare a entităților în afara contextului, chiar și atunci când sunt posibile interpretări multiple pentru o singură mențiune.
Campaniile de evaluare NEL ( Entity Linking evaluation campanii ) sunt organizate de Institutul Național de Standarde și Tehnologie din SUA ( NIST ) în contextul sarcinii Knowledge Base Population a Conferinței de analiză a textului.