Referire automată

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită pe 21 octombrie 2020; verificările necesită 3 modificări .

Extragerea automată, adnotarea sau însumarea  este crearea unei versiuni scurte ( rezumat , adnotare ) a unui document text folosind un program de calculator.

Istorie

Prima lucrare privind referirea automată a fost făcută de omul de știință american G.P. Lun în 1958 pe materialul limbii engleze. [1] [2] [3] Principiile abstractizării extractive au fost formulate de J. Salton la sfârșitul anilor 50 și începutul anilor 60. [2] [4]

În URSS, pionierii în domeniul referințelor automate au fost V. E. Berzon, I. P. Sevbo , E. F. Skorokhodko , D. G. Lakhuti , R. G. Piotrovsky și alții [5] [2]

Abordări

Există două abordări principale ale referințelor automate: extragerea (extragere, superficială) și generare (abstractare, profundă). [6] [1] [5] [2]

Extractiv (extracție)

Cele mai importante fraze, propoziții sau paragrafe sunt selectate din textul sursă, a cărui totalitate formează un anumit extras, un cvasi-abstract. [5] În acest caz, aceste fragmente nu sunt prelucrate, ci extrase în ordinea și forma în care sunt date în textul sursă. [6]

Avantajele abordării: independență față de domeniul de studiu, ușurință comparativă de dezvoltare. [1] Dezavantaje: rezultat incoerent. [unu]

Generare (abstracție)

Metodele de generare se bazează pe regulile lingvistice ale procesării limbajului natural sau metodelor inteligenței artificiale. [6] Ei generalizează în mod substanțial documentul sursă, creând text care nu este prezentat în mod explicit în acesta. [6]

Avantajele abordării: cea mai bună calitate a rezultatului. [1] Dezavantaje: complexitatea implementării practice, necesitatea de a colecta o cantitate mare de cunoștințe lingvistice. [unu]

Note

  1. 1 2 3 4 5 6 Batura T. V., Bakieva A. M. Metode și sisteme pentru rezumarea automată a textelor - Novosibirsk : 2019. - 110 p. - 100 de exemplare. — ISBN 978-5-4437-0974-1
  2. 1 2 3 4 Sedova E.P. Rezumarea automată a publicațiilor științifice prin intermediul analizei sintactice pe baza unor articole moderne despre sintaxa computerizată Sankt Petersburg. : 2018. - 49 p.
  3. Luhn H. P. The Automatic Creation of Literature Abstracts  (Eng.) // IBM Journal of Research and Development / C. A. Pickover - IBM Corporation , IEEE , 1958. - Vol. 2, Iss. 2. - P. 159-165. — ISSN 0018-8646 ; 2151-8556 - doi:10.1147/RD.22.0159
  4. Salton G. Dynamic Information and Library Processing  (engleză) - 1975. - 523 p.
  5. 1 2 3 Trevgoda S. A. Metode și algoritmi pentru abstractizarea automată a textului pe baza analizei relațiilor funcționale - Sankt Petersburg. : 2009. - 157 p. - 100 de exemplare.
  6. 1 2 3 4 Osminin P. G. Abordări moderne ale referințelor și adnotării automate // Buletinul Universității de Stat Ural de Sud - Chelyabinsk : 2012. - vol. 25. - S. 134-135.