Matricea documentelor pe termene

Versiunea actuală a paginii nu a fost încă revizuită de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită pe 8 iunie 2018; verificările necesită 6 modificări .

Matricea termen-document este o matrice matematică care descrie frecvența termenilor care apar într-o colecție de documente. Într-o matrice termen-document, rândurile corespund documentelor din colecție, iar coloanele corespund termenilor. Există diverse scheme pentru determinarea valorii fiecărui element de matrice. Una dintre acestea este schema TF-IDF . Sunt utile în domeniul prelucrării limbajului natural , în special în metodele de analiză semantică latentă .

Concept general

La crearea unei baze de date cu termeni utilizați într-un set de documente, matricea de termeni se formează ca o matrice de incidență, ale cărei rânduri corespund documentelor, iar elementele rândurilor corespund prezenței termenilor corespunzători în aceste documente. . De exemplu, dacă există două documente scurte:

atunci matricea termenilor corespunzătoare va arăta astfel:

mie ca nu-mi place date
D1 unu unu 0 unu
D2 unu 0 unu unu

care arată ce termeni sunt cuprinsi în anumite documente și de câte ori apar. Această abordare este similară cu utilizarea matricei de incidență în analiza propozițiilor care formează un corpus de cuvinte [1] .

Note

  1. Slyusar, V.I. Aplicarea produsului final al matricelor în probleme de procesare a limbajului natural. . Tehnologii neuromusculare și dezvoltarea NMT&Z-2020: o colecție de practici științifice ale Conferinței Științifice Internaționale a XIX-a „Tehnologii de neuro-temperanță și dezvoltarea NMT&Z-2020”. - Kramatorsk: Donbas State Machine Building Academy. -2020 . 156 - 162. (2020). Preluat la 12 decembrie 2020. Arhivat din original la 25 ianuarie 2021.