Matricea termen-document este o matrice matematică care descrie frecvența termenilor care apar într-o colecție de documente. Într-o matrice termen-document, rândurile corespund documentelor din colecție, iar coloanele corespund termenilor. Există diverse scheme pentru determinarea valorii fiecărui element de matrice. Una dintre acestea este schema TF-IDF . Sunt utile în domeniul prelucrării limbajului natural , în special în metodele de analiză semantică latentă .
La crearea unei baze de date cu termeni utilizați într-un set de documente, matricea de termeni se formează ca o matrice de incidență, ale cărei rânduri corespund documentelor, iar elementele rândurilor corespund prezenței termenilor corespunzători în aceste documente. . De exemplu, dacă există două documente scurte:
atunci matricea termenilor corespunzătoare va arăta astfel:
mie | ca | nu-mi place | date | |
---|---|---|---|---|
D1 | unu | unu | 0 | unu |
D2 | unu | 0 | unu | unu |
care arată ce termeni sunt cuprinsi în anumite documente și de câte ori apar. Această abordare este similară cu utilizarea matricei de incidență în analiza propozițiilor care formează un corpus de cuvinte [1] .
procesarea limbajului natural | |
---|---|
Definiții generale | |
Analiza textului |
|
Referire |
|
Traducere automată |
|
Identificarea și colectarea datelor | |
Model tematic | |
Evaluare inter pares |
|
Interfață în limbaj natural |