Coeficientul de diversitate lexicală (CLR, English lexical diversity, LD ) este o caracteristică cantitativă a textului, reflectând gradul de bogăție al dicționarului la construirea unui text de o lungime dată. Indicatorul se bazează pe raportul dintre numărul de unități lexicale individuale ( leme , tipuri englezești ) și numărul de apariții ale acestora în text ( forme text , jetoane engleze ).
Se calculează după formula
,Unde
Textul bogat din punct de vedere lexical are un coeficient ridicat de diversitate lexicală, adică numărul maxim de unități unice pe unitatea de volum de text, textul sărac din punct de vedere lexical tinde să repete aceleași lexeme, datorită căruia diversitatea sa lexicală este redusă. Următoarea constrângere ar trebui luată în considerare atunci când se calculează KLR: în timp ce numărul de forme de text este potențial infinit și poate crește doar pe măsură ce matricea de date text analizate se extinde, numărul de jetoane este încă finit. Prin urmare, este rațional să se calculeze CLR numai pentru texte cu un volum limitat. În lingvistica computațională au fost propuse mai multe soluții la această problemă [1] .
Aproape de CLR este coeficientul de densitate lexicală a textului ( ing. densitate lexicală ), care exprimă raportul dintre părțile independente de vorbire din text și numărul total de cuvinte. Mai dense din punct de vedere lexical vor fi, prin urmare, textele care folosesc mai puțin vocabular auxiliar. Este posibil să se calculeze coeficienți de densitate lexicală atât pentru părți independente de vorbire în general, cât și separat pentru substantive, adjective, verbe, adverbe.
TTR ( English type/token ratio ) este cel mai simplu și mai criticat mod de calcul al coeficientului de diversitate lexicală, care nu ține cont de efectul efectului de lungime a textului. Se presupune că TTR a fost introdus în uz științific în 1957 în munca unui specialist în lingodidactică M. Templin [2] . De exemplu, TTR-ul din expresia engleză I have to buy some milk, because I have no milk („Trebuie să cumpăr lapte pentru că nu am lapte”) este scăzut și este de 0,73 (doar 8 lexeme la 11 cuvinte folosite). , 8/ 11), și, de exemplu, în sintagma am rămas fără lapte, așa că trebuie să cumpăr niște ("am rămas fără lapte, trebuie să-l cumpăr") TTR este deja mai mare (TTR = 10/11 = 0,91) .
TTR poate fi calculat prin interpretarea conceptului de tip în diferite moduri : poate însemna
1) un lexem în întregul său formular de cuvânt ( lemă ): de exemplu, lexemul cămașă pentru formele cămașă, cămașă, cămașă, cămăși etc. .,
2) o formă de cuvânt separată sau un set de forme de cuvânt omonime sau chiar omonime în raport cu aparițiile individuale ale acestor forme de cuvânt în text („forme text”): de exemplu, case pentru forme de text acasă, acasă .
Prima soluție este corectă din punct de vedere lingvistic, dar crește cerințele pentru gradul de automatizare a calculului coeficientului, deoarece implică capacitatea analizorului morfologic de a efectua marcaje prin părți de vorbire și lematizare. Al doilea este vulnerabil din punct de vedere teoretic, relevă o dependență de morfologia unei anumite limbi (care, de exemplu, îi reduce fiabilitatea la compararea textelor originale și traduse), dar este ușor de automatizat.
Metoda VocD ( diversitatea vocabularului ) a fost propusă de D. Malvern și colegii săi [3] și este o versiune îmbunătățită a TTR care netezește efectele lungimii textului. Metoda se bazează pe metoda selecției aleatorii a fragmentelor din text cu o lungime de 35 până la 50 de forme de text și calculul TTR pentru acestea, urmată de media graficelor rezultate.
Coeficientul diversităţii lexicale se dovedeşte a fi un parametru măsurat important în studiile de stilistică, analiza discursului, studiile de traducere (la compararea textelor originale cu cele traduse), lingvistica vorbirii copiilor.