TF-IDF (din engleză TF - termen frecvență, IDF - inverse document frequency ) este o măsură statistică utilizată pentru a evalua importanța unui cuvânt în contextul unui document care face parte dintr-o colecție de documente sau corpus . Greutatea unui cuvânt este proporțională cu frecvența de apariție a acestui cuvânt în document și invers proporțională cu frecvența de apariție a cuvântului în toate documentele din colecție.
Măsura TF-IDF este adesea folosită în analiza textului și sarcinile de recuperare a informațiilor , de exemplu, ca unul dintre criteriile de relevanță a unui document pentru o interogare de căutare, atunci când se calculează măsura de proximitate a documentelor în timpul grupării .
TF ( frecvența termenului - frecvența cuvintelor) - raportul dintre numărul de apariții ale unui anumit cuvânt și numărul total de cuvinte din document. Astfel, se evaluează importanța unui cuvânt în cadrul unui singur document.
,unde este numărul de apariții ale cuvântului în document, iar numitorul este numărul total de cuvinte din document.
IDF ( inverse document frequency - inverse document frequency) - inversarea frecvenței cu care apare un anumit cuvânt în documentele colecției. Fondatorul acestui concept este Karen Spark Jones [1] . Contabilizarea IDF reduce greutatea cuvintelor utilizate în mod obișnuit. Există o singură valoare IDF pentru fiecare cuvânt unic dintr-o anumită colecție de documente.
, [2]Unde
Alegerea bazei logaritmului în formulă nu contează, deoarece schimbarea bazei modifică ponderea fiecărui cuvânt cu un factor constant, care nu afectează raportul de greutate.
Astfel, măsura TF-IDF este produsul a doi factori:
O pondere mare în TF-IDF va fi acordată cuvintelor cu frecvență mare într-un anumit document și cu frecvență scăzută în alte documente.
Există diverse formule bazate pe metoda TF-IDF. Ele diferă în coeficienți, normalizări, utilizarea scărilor logaritmice. În special, motorul de căutare Yandex a folosit normalizarea pentru cel mai frecvent termen din document pentru o lungă perioadă de timp. .
Una dintre cele mai populare formule este formula BM25 .
Dacă un document conține 100 de cuvinte și cuvântul [3] „iepure” apare de 3 ori în el, atunci frecvența cuvântului (TF) pentru cuvântul „iepure” din document va fi 0,03 (3/100). Să calculăm IDF ca un logaritm zecimal al raportului dintre numărul tuturor documentelor și numărul de documente care conțin cuvântul „iepure”. Astfel, dacă „iepura” este conținută în 1000 de documente din 10.000.000 de documente, atunci IDF va fi egal cu: log(10.000.000/1000) = 4. Pentru a calcula valoarea finală a ponderii cuvântului, TF trebuie înmulțit cu IDF. În acest exemplu, ponderea TF-IDF pentru cuvântul „iepure” din documentul selectat ar fi: 0,03 × 4 = 0,12.
Măsura TF-IDF este adesea folosită pentru a reprezenta documente dintr-o colecție ca vectori numerici care reflectă importanța utilizării fiecărui cuvânt dintr-un anumit set de cuvinte (numărul de cuvinte din set determină dimensiunea vectorului) în fiecare document. Un astfel de model se numește model vectorial și face posibilă compararea textelor prin compararea vectorilor care le reprezintă într-o anumită metrică ( distanța euclidiană , măsura cosinusului , distanța Manhattan , distanța Chebyshev etc.), adică efectuând analize cluster .