Coeficientul de similitudine (de asemenea o măsură de similaritate, indice de similitudine) este un indicator adimensional al asemănării obiectelor comparate. Cunoscută și ca măsură de asociere, măsură de asemănare etc.
Este folosit în biologie pentru a cuantifica gradul de similitudine al obiectelor biologice (situri, regiuni, fitocenoze individuale , zoocenoze etc.). Folosit și în geografie, sociologie, recunoaștere a modelelor , motoare de căutare , lingvistică comparată, bioinformatică , chimioinformatică , comparație de șiruri etc.
Într-un sens mai larg, ei vorbesc despre măsuri de proximitate, care includ: măsuri de diversitate, măsuri de concentrare (omogenitate), măsuri de incluziune , măsuri de asemănare, măsuri de diferență (inclusiv distanțe), măsuri de compatibilitate a evenimentelor, măsuri de incompatibilitatea evenimentelor, măsuri de interdependență , măsuri de independență reciprocă. Teoria măsurilor de proximitate este la început și, prin urmare, există multe idei diferite despre formalizarea relațiilor de proximitate.
Majoritatea coeficienților sunt normalizați și variază de la 0 (fără asemănare) la 1 (asemănare completă). Asemănarea și diferența se completează reciproc (matematic, aceasta poate fi exprimată astfel: Similaritate = 1 − Diferență).
Coeficienții de similaritate pot fi împărțiți condiționat în trei grupuri, în funcție de câte obiecte sunt luate în considerare:
În studiul obiectelor biologice, sunt utilizate pe scară largă măsurile de variabilitate atât a caracteristicilor individuale, cât și a frecvențelor de distribuție a variabilelor aleatoare. În cel mai simplu caz, diversitatea inventarului (în cadrul biosistemului studiat) poate fi estimată în funcție de bogăția de specii , sau de numărul de specii.
Cele mai frecvent utilizate măsuri de diversitate [1] ( coeficient de variație , indici ai familiei parametrice Renyi , inclusiv indicele Shannon ; indici ai familiei Hill; indici ai lui Margalef, Gleason etc.). Mai rar, sunt utilizate măsuri de concentrare care le completează (de exemplu, familia de măsuri Kolmogorov , măsura disonanței Rosenberg ).
Aceștia sunt coeficienții cei mai folosiți în biologie și geografie [2] . Primul coeficient de similitudine a fost propus de P. Jaccard în 1901 [ 3 ] : Ulterior, diverși coeficienți (măsuri, indici) de similitudine au fost propuși în diverse domenii ale științei. Cel mai utilizat (denumirile sunt aceleași):
O notație alternativă pentru tabelul de contingență este cunoscută de la R. R. Sokal ( Sokal ) și P. Sneath ( Sneath ) [10] [11] :
Prezența speciei în primul sit | Lipsa de vedere pe primul site | |
Prezența speciei în al 2-lea sit | A | b |
Lipsa de vedere pe al 2-lea site | c | d |
unde a este numărul de specii găsite în ambele situri; b este numărul de specii găsite pe primul loc de prelevare, dar fără a ține cont de apariția speciilor comune; c este numărul de specii găsite pe al doilea loc de prelevare, dar fără a lua în considerare apariția speciilor comune.
Acest tabel creează multă confuzie. Este adesea confundat cu un tabel încrucișat statistic similar ; notația tabelului Sokal-Sneath se confundă cu notația clasică (vezi mai sus); aproape întotdeauna ignorați faptul că tabelul ia în considerare doar probabilitățile.
În procesul de formalizare matematică a obiectelor și a relațiilor dintre ele, a apărut o notație teoretică universală pentru coeficienții de similitudine. Pentru prima dată o astfel de înregistrare apare în lucrările lui A. S. Konstantinov [12] , M. Levandovsky și D. Winter [13] . Deci, coeficientul de similitudine Jaccard poate fi scris după cum urmează:
Cel mai simplu coeficient de similaritate este o măsură a asemănării absolute, care este în esență numărul de trăsături comune a două obiecte comparate: [14] . La normalizarea acestei măsuri, valorile măsurii de similitudine sunt între 0 și 1, iar coeficientul este cunoscut ca „măsură a similitudinii procentuale” atunci când se utilizează unități de măsură relative (în procente) și ca măsură de intersecție în calculele intermediare a măsurilor de similaritate relativă (de exemplu, este cunoscută în străinătate ca măsură Renkonen [ 15] ).
În 1973, B. I. Semkin a propus o formulă generală bazată pe formula medie a lui Kolmogorov , care combină majoritatea coeficienților de similaritate cunoscuți într-un continuum continuu de măsuri [16] [17] :
unde ; ; ; ; ; . De exemplu, valorile pentru coeficienții de mai sus sunt următoarele: [1,-1] (coeficientul Jaccard); [0,-1] (coeficientul Sorensen); [0,1] (coeficientul Kulchinsky); [0,0] (coeficientul Ochiai); [0, ] (coeficientul Shimkevich-Simpson); [0, ] (coeficientul Brown-Blanque). Formula de generalizare permite definirea claselor de coeficienți echivalenți și neechivalenți [18] , precum și prevenirea creării de noi coeficienți duplicați.
Un tip specific de coeficienți de similaritate sunt măsurile de includere . Acestea sunt măsuri asimetrice ( și ), care arată gradul de similitudine (includere) a unui obiect față de altul. Coeficienții de proximitate mai familiari (simetrici) pot fi obținuți prin medierea a două măsuri complementare de incluziune asimetrică, adică fiecare măsură de similitudine simetrică corespunde la două măsuri specifice de similaritate asimetrică. De exemplu, pentru măsura Sørensen , aceasta este și ), iar pentru măsura Jaccard, aceasta este și . În general, două măsuri de incluziune nesimetrică sunt mai bune la estimarea asemănării obiectelor decât o măsură de similitudine simetrică medie.
Problema comparării obiectelor după indicatorii de greutate este controversată și ambiguă. În ecologie, aceștia sunt indicatori care iau în considerare abundența . Cele mai consistente scheme de formalizare de astfel de tipuri sunt schema lui B. I. Semkin bazată pe mulțimi descriptive și schema lui A. Chao cu indici bazați pe abundență (indici bazați pe abundență) [19] . Tot în literatura străină s-a stabilit prezentarea indicilor bazați pe incidență (indice bazat pe incidență), adică indici pentru datele booleene de tip prezență / absență (prezență / absență) a unei caracteristici. De fapt, ambele pot fi descrise ca cazuri speciale de mulțimi descriptive.
Comparația evenimentelor aleatoare (de exemplu, apariția ) și indicatorii informaționali rămân discutabile. În schema de formalizare a relațiilor de proximitate de către B. I. Semkin, se propune evidențierea unui număr de interpretări analitice pentru diverse relații de proximitate: multiple , descriptive , probabilistice , informaționale . Formal, apartenența la măsurile de similaritate este determinată de un sistem de axiome (aici E este o mulțime arbitrară):
Sisteme de axiome pentru măsurile de similaritate au fost propuse de: A. Renyi [20] , Yu. A. Voronin [21] [22] , A. Tversky [23] , A. A. Vikentiev, G. S. Lbov [24] , G. V. Raushenbakh [25] , B. I. Semkin [26] [27] și alții.
De regulă, un set de măsuri de proximitate este prezentat sub formă de matrice de tip „obiect la obiect”. Acestea sunt, de exemplu, matrice de similaritate , matrice de distanțe (în sens larg - diferențe), matrice de probabilități comune, matrice de funcții informaționale. Cele mai multe dintre ele pot fi construite pe baza: măsuri absolute sau relative, iar acestea, la rândul lor, pot fi simetrice sau asimetrice (cele din urmă sunt adesea numite măsuri de incluziune).
Astfel de coeficienți sunt utilizați pentru a compara o serie de obiecte. Acestea includ: similaritatea medie a lui Alekhine , indicele de dispersie biotică al lui Koch, coeficientul de împrăștiere (dispersitate) al lui Shennikov , măsura diversității beta a lui Whittaker , măsura homotonicității lui Mirkin- Rosenberg și măsura sa duală a heterotonicității și Semkin . coeficientul de similitudine al unei serii de descrieri. În literatura străină, măsurile de acest tip se găsesc sub denumirile: coeficienți multidimensionali, coeficienți n -dimensionali, măsură de asemănare multi-site, coeficient multidimensional, măsură multi-comunității [28] [29] [30] . Cel mai cunoscut coeficient a fost propus de L. Koch [31] :
,unde , adică suma numărului de caracteristici ale fiecăruia dintre obiecte; , adică numărul total de caracteristici; — o mulțime de n mulțimi (obiecte).
De regulă, măsurile de proximitate sunt calculate în modulul de analiză cluster al programului. Cel mai des folosit este Statistica , dar în modulul corespunzător nu sunt prezentate deloc măsuri de similaritate, ci doar distanțe. SPSS (PASW Statistics) propune calcularea unui număr de măsuri de similaritate (Ohai, Jacquard, Sokal-Sneath, Kulchinsky, măsuri simetrice Dice) . Există un număr mare de programe mici pentru calcularea măsurilor de proximitate și reprezentarea grafică ulterioară a dependențelor [32] [33] . Măsurile de similaritate sunt prezentate extrem de rar și în principal în programele specializate pentru biologi [34] : Graphs, NTSYS, BIODIV, PAST, și chiar și acolo sunt extrem de puține (de obicei doar măsura Jaccard și uneori măsura Sørensen). De asemenea, putem observa TurboVEG și IBIS [35] , care se bazează pe o bază de date cu module de procesare, iar programul IBIS implementează cel mai mare număr de măsuri de proximitate utilizate în prezent în biologie, geografie și alte domenii.