Dicţionar de frecvenţă

Un dicționar de frecvență (sau o listă de frecvențe) este un set de cuvinte într-o anumită limbă (sau sublimbaj) împreună cu informații despre frecvența acestora . Dicționarul poate fi sortat după frecvență, alfabetic (apoi pentru fiecare cuvânt se va indica frecvența acestuia), pe grupuri de cuvinte (de exemplu, prima mie dintre cele mai frecvente cuvinte, urmată de al doilea etc.), după tipicitate ( cuvinte care sunt frecvente pentru majoritatea textelor), etc. Listele de frecvențe sunt folosite pentru predarea limbilor străine, crearea de noi vocabulare, aplicații de lingvistică computațională, cercetarea tipologiei lingvistice etc.

Construirea listelor de frecvențe

De obicei, dicționarele de frecvență sunt construite pe baza corpurilor de text : se ia un set de texte reprezentativ pentru limba în ansamblu, pentru o anumită arie sau un autor dat (vezi Dicționarul de frecvență al lui Griboyedov ) și forme de cuvinte, leme și părți. din el se extrag de vorbire (acestea din urmă sunt extrase dacă corpusul are marcaje morfologice).

Problemele în crearea listelor de frecvențe sunt:

Toate aceste probleme se datorează faptului că, din punct de vedere statistic, limbajul este un număr mare de evenimente rare ( Legea lui Zipf ), în urma cărora apar foarte des un număr mic de cuvinte, iar marea majoritate a cuvintele au o frecvență foarte scăzută. Frecvența cuvântului și (cel mai frecvent cuvânt în limba rusă) este de aproximativ 10 ori mai mare decât frecvența cuvântului despre , care, la rândul său, apare de 100 de ori mai des decât cuvinte obișnuite precum călătorie, bătrânețe sau modă .

Metafora hobbit poate fi folosită pentru a descrie exploziile de frecvență (Adam Kilgarriff a folosit inițial cuvântul relativ rar în engleză whelk, un tip de moluște de mare , engleză  whelk ): dacă în corpus există mai multe texte despre hobbiți, atunci acest cuvânt va fi folosit. în aproape fiecare propoziție. Ca urmare, frecvența sa în aceste texte va fi comparabilă cu frecvența cuvintelor funcționale, dar în lista de frecvențe a unui corpus mare, care include astfel de texte, acest cuvânt va avea un rang incredibil de ridicat. Astfel de rafale de frecvență pot fi estimate folosind coeficientul de variație : raportul dintre abaterea standard și frecvența medie .

Comparație hull

Dicționarele de frecvență oferă posibilitatea de a compara două corpuri pentru a determina cuvintele cele mai caracteristice fiecăruia. Uneori, dicționarele indică „frecvența absolută”, adică numărul de apariții ale unui cuvânt într-un corpus. Datorită faptului că dimensiunile corpurilor pot fi diferite, este de obicei indicată frecvența relativă (de obicei numită pur și simplu „frecvență”), adică raportul dintre numărul de apariții ale unui cuvânt într-un corpus și numărul total de cuvinte într-un corpus. Uneori sunt date ambele valori. Frecvența relativă este uneori indicată ca procent, în ppm sau în părți pe milion (în engleză  ipm, cazuri per milion de cuvinte ). De exemplu, cuvântul și are o frecvență de 0,03 (3%, sau 30‰, sau aproximativ 30.000 de cuvinte pe milion, cuvântul bătrânețe  - 0,00003 (0,003%, sau 0,03‰, sau aproximativ 30 de cuvinte pe milion).

Pentru a determina setul de cuvinte cheie care deosebesc un corpus de altul, puteți utiliza diferite măsuri statistice: chi - pătrat , testul probabilității , etc.  

Vezi și

Literatură

Link -uri