Extragerea automată, adnotarea sau însumarea este crearea unei versiuni scurte ( rezumat , adnotare ) a unui document text folosind un program de calculator.
Prima lucrare privind referirea automată a fost făcută de omul de știință american G.P. Lun în 1958 pe materialul limbii engleze. [1] [2] [3] Principiile abstractizării extractive au fost formulate de J. Salton la sfârșitul anilor 50 și începutul anilor 60. [2] [4]
În URSS, pionierii în domeniul referințelor automate au fost V. E. Berzon, I. P. Sevbo , E. F. Skorokhodko , D. G. Lakhuti , R. G. Piotrovsky și alții [5] [2]
Există două abordări principale ale referințelor automate: extragerea (extragere, superficială) și generare (abstractare, profundă). [6] [1] [5] [2]
Cele mai importante fraze, propoziții sau paragrafe sunt selectate din textul sursă, a cărui totalitate formează un anumit extras, un cvasi-abstract. [5] În acest caz, aceste fragmente nu sunt prelucrate, ci extrase în ordinea și forma în care sunt date în textul sursă. [6]
Avantajele abordării: independență față de domeniul de studiu, ușurință comparativă de dezvoltare. [1] Dezavantaje: rezultat incoerent. [unu]
Metodele de generare se bazează pe regulile lingvistice ale procesării limbajului natural sau metodelor inteligenței artificiale. [6] Ei generalizează în mod substanțial documentul sursă, creând text care nu este prezentat în mod explicit în acesta. [6]
Avantajele abordării: cea mai bună calitate a rezultatului. [1] Dezavantaje: complexitatea implementării practice, necesitatea de a colecta o cantitate mare de cunoștințe lingvistice. [unu]
procesarea limbajului natural | |
---|---|
Definiții generale | |
Analiza textului |
|
Referire |
|
Traducere automată |
|
Identificarea și colectarea datelor | |
Model tematic | |
Evaluare inter pares |
|
Interfață în limbaj natural |