Coeficient de similitudine

Coeficientul de similitudine (de asemenea o măsură de similaritate, indice de similitudine) este un indicator adimensional al asemănării obiectelor comparate. Cunoscută și ca măsură de asociere, măsură de asemănare etc.

Este folosit în biologie pentru a cuantifica gradul de similitudine al obiectelor biologice (situri, regiuni, fitocenoze individuale , zoocenoze etc.). Folosit și în geografie, sociologie, recunoaștere a modelelor , motoare de căutare , lingvistică comparată, bioinformatică , chimioinformatică , comparație de șiruri etc.

Într-un sens mai larg, ei vorbesc despre măsuri de proximitate, care includ: măsuri de diversitate, măsuri de concentrare (omogenitate), măsuri de incluziune , măsuri de asemănare, măsuri de diferență (inclusiv distanțe), măsuri de compatibilitate a evenimentelor, măsuri de incompatibilitatea evenimentelor, măsuri de interdependență , măsuri de independență reciprocă. Teoria măsurilor de proximitate este la început și, prin urmare, există multe idei diferite despre formalizarea relațiilor de proximitate.

Majoritatea coeficienților sunt normalizați și variază de la 0 (fără asemănare) la 1 (asemănare completă). Asemănarea și diferența se completează reciproc (matematic, aceasta poate fi exprimată astfel: Similaritate = 1 − Diferență).

Coeficienții de similaritate pot fi împărțiți condiționat în trei grupuri, în funcție de câte obiecte sunt luate în considerare:

Coeficienți unari

În studiul obiectelor biologice, sunt utilizate pe scară largă măsurile de variabilitate atât a caracteristicilor individuale, cât și a frecvențelor de distribuție a variabilelor aleatoare. În cel mai simplu caz, diversitatea inventarului (în cadrul biosistemului studiat) poate fi estimată în funcție de bogăția de specii , sau de numărul de specii.

Cele mai frecvent utilizate măsuri de diversitate [1] ( coeficient de variație , indici ai familiei parametrice Renyi , inclusiv indicele Shannon ; indici ai familiei Hill; indici ai lui Margalef, Gleason etc.). Mai rar, sunt utilizate măsuri de concentrare care le completează (de exemplu, familia de măsuri Kolmogorov , măsura disonanței Rosenberg ).

Cote binare

Aceștia sunt coeficienții cei mai folosiți în biologie și geografie [2] . Primul  coeficient de similitudine a fost  propus de P. Jaccard în 1901 [ 3  ]  : Ulterior, diverși coeficienți (măsuri, indici) de similitudine au fost propuși în diverse domenii ale științei. Cel mai utilizat (denumirile sunt aceleași):

O notație alternativă pentru tabelul de contingență este cunoscută de la R. R. Sokal ( Sokal ) și P. Sneath ( Sneath ) [10] [11] :

Prezența speciei în primul sit Lipsa de vedere pe primul site
Prezența speciei în al 2-lea sit A b
Lipsa de vedere pe al 2-lea site c d

unde a  este numărul de specii găsite în ambele situri; b  este numărul de specii găsite pe primul loc de prelevare, dar fără a ține cont de apariția speciilor comune; c  este numărul de specii găsite pe al doilea loc de prelevare, dar fără a lua în considerare apariția speciilor comune.

Acest tabel creează multă confuzie. Este adesea confundat cu un tabel încrucișat statistic similar ; notația tabelului Sokal-Sneath se confundă cu notația clasică (vezi mai sus); aproape întotdeauna ignorați faptul că tabelul ia în considerare doar probabilitățile. În procesul de formalizare matematică a obiectelor și a relațiilor dintre ele, a apărut o notație teoretică universală pentru coeficienții de similitudine. Pentru prima dată o astfel de înregistrare apare în lucrările lui A. S. Konstantinov [12] , M. Levandovsky și D. Winter [13] . Deci, coeficientul de similitudine Jaccard poate fi scris după cum urmează:

sau .

Cel mai simplu coeficient de similaritate este o măsură a asemănării absolute, care este în esență numărul de trăsături comune a două obiecte comparate: [14] . La normalizarea acestei măsuri, valorile măsurii de similitudine sunt între 0 și 1, iar coeficientul este cunoscut ca „măsură a similitudinii procentuale” atunci când se utilizează unități de măsură relative (în procente) și ca măsură de intersecție în calculele intermediare a măsurilor de similaritate relativă (de exemplu, este cunoscută în străinătate ca măsură Renkonen [ 15] ).

În 1973, B. I. Semkin a propus o formulă generală bazată pe formula medie a lui Kolmogorov , care combină majoritatea coeficienților de similaritate cunoscuți într-un continuum continuu de măsuri [16] [17] :

,

unde ; ; ; ; ; . De exemplu, valorile pentru coeficienții de mai sus sunt următoarele: [1,-1] (coeficientul Jaccard); [0,-1] (coeficientul Sorensen); [0,1] (coeficientul Kulchinsky); [0,0] (coeficientul Ochiai); [0, ] (coeficientul Shimkevich-Simpson); [0, ] (coeficientul Brown-Blanque). Formula de generalizare permite definirea claselor de coeficienți echivalenți și neechivalenți [18] , precum și prevenirea creării de noi coeficienți duplicați.

Un tip specific de coeficienți de similaritate sunt măsurile de includere . Acestea sunt măsuri asimetrice ( și ), care arată gradul de similitudine (includere) a unui obiect față de altul. Coeficienții de proximitate mai familiari (simetrici) pot fi obținuți prin medierea a două măsuri complementare de incluziune asimetrică, adică fiecare măsură de similitudine simetrică corespunde la două măsuri specifice de similaritate asimetrică. De exemplu, pentru măsura Sørensen , aceasta este și ), iar pentru măsura Jaccard, aceasta este și . În general, două măsuri de incluziune nesimetrică sunt mai bune la estimarea asemănării obiectelor decât o măsură de similitudine simetrică medie.

Problema comparării obiectelor după indicatorii de greutate este controversată și ambiguă. În ecologie, aceștia sunt indicatori care iau în considerare abundența . Cele mai consistente scheme de formalizare de astfel de tipuri sunt schema lui B. I. Semkin bazată pe mulțimi descriptive și schema lui A. Chao cu indici bazați pe abundență (indici bazați pe abundență) [19] . Tot în literatura străină s-a stabilit prezentarea indicilor bazați pe incidență (indice bazat pe incidență), adică indici pentru datele booleene de tip prezență / absență (prezență / absență) a unei caracteristici. De fapt, ambele pot fi descrise ca cazuri speciale de mulțimi descriptive.

Comparația evenimentelor aleatoare (de exemplu, apariția ) și indicatorii informaționali rămân discutabile. În schema de formalizare a relațiilor de proximitate de către B. I. Semkin, se propune evidențierea unui număr de interpretări analitice pentru diverse relații de proximitate: multiple , descriptive , probabilistice , informaționale . Formal, apartenența la măsurile de similaritate este determinată de un sistem de axiome (aici E este o mulțime arbitrară):

  1. (non-negativitate);
  2. (simetrie);
  3. („întregul este mai mare decât partea”);
  4. (subadditivitate).

Sisteme de axiome pentru măsurile de similaritate au fost propuse de: A. Renyi [20] , Yu. A. Voronin [21] [22] , A. Tversky [23] , A. A. Vikentiev, G. S. Lbov [24] , G. V. Raushenbakh [25] , B. I. Semkin [26] [27] și alții.

De regulă, un set de măsuri de proximitate este prezentat sub formă de matrice de tip „obiect la obiect”. Acestea sunt, de exemplu, matrice de similaritate , matrice de distanțe (în sens larg - diferențe), matrice de probabilități comune, matrice de funcții informaționale. Cele mai multe dintre ele pot fi construite pe baza: măsuri absolute sau relative, iar acestea, la rândul lor, pot fi simetrice sau asimetrice (cele din urmă sunt adesea numite măsuri de incluziune).

Coeficienți multi-loc

Astfel de coeficienți sunt utilizați pentru a compara o serie de obiecte. Acestea includ: similaritatea medie a lui Alekhine , indicele de dispersie biotică al lui Koch, coeficientul de împrăștiere (dispersitate) al lui Shennikov , măsura diversității beta a lui Whittaker , măsura homotonicității lui Mirkin- Rosenberg și măsura sa duală a heterotonicității și Semkin . coeficientul de similitudine al unei serii de descrieri. În literatura străină, măsurile de acest tip se găsesc sub denumirile: coeficienți multidimensionali, coeficienți n -dimensionali, măsură de asemănare multi-site, coeficient multidimensional, măsură multi-comunității [28] [29] [30] . Cel mai cunoscut coeficient a fost propus de L. Koch [31] :

,

unde , adică suma numărului de caracteristici ale fiecăruia dintre obiecte; , adică numărul total de caracteristici;  — o mulțime de n mulțimi (obiecte).

Software de măsurare

De regulă, măsurile de proximitate sunt calculate în modulul de analiză cluster al programului. Cel mai des folosit este Statistica , dar în modulul corespunzător nu sunt prezentate deloc măsuri de similaritate, ci doar distanțe. SPSS (PASW Statistics) propune calcularea unui număr de măsuri de similaritate (Ohai, Jacquard, Sokal-Sneath, Kulchinsky, măsuri simetrice Dice) . Există un număr mare de programe mici pentru calcularea măsurilor de proximitate și reprezentarea grafică ulterioară a dependențelor [32] [33] . Măsurile de similaritate sunt prezentate extrem de rar și în principal în programele specializate pentru biologi [34] : Graphs, NTSYS, BIODIV, PAST, și chiar și acolo sunt extrem de puține (de obicei doar măsura Jaccard și uneori măsura Sørensen). De asemenea, putem observa TurboVEG și IBIS [35] , care se bazează pe o bază de date cu module de procesare, iar programul IBIS implementează cel mai mare număr de măsuri de proximitate utilizate în prezent în biologie, geografie și alte domenii.

Vezi și

Note

  1. Magurran A.E. Măsurând diversitatea biologică. - Oxford, Marea Britanie.: Blackwell Publishing, 2004. - 256 p.
  2. Pesenko Yu. A. Principii și metode de analiză cantitativă în cercetarea faunistică Copie de arhivă din 20 decembrie 2014 la Wayback Machine . — M.: Nauka, 1982. — 287 p.
  3. Jaccard P. Distribution de la flore alpine dans le Bassin des Dranses et dans quelques regions voisines // Bull. soc. Vaudoise sci. Natur. 1901. V. 37. Bd. 140. S. 241-272.
  4. Sörensen T. O metodă de stabilire a grupurilor de amplitudine egală în sociologia plantelor bazată pe asemănarea conținutului de specii // Kongelige Danske Videnskabernes Selskab. Biol. krifter. Bd V. Nr 4. 1948. P. 1-34.
  5. Kulczinsky S. Zespoly roslin w Pienach // Bull. stagiar. acad. polon. sci. Lett. Cl. sci. matematica. natură. Ser. B. 1927. S. 2. P. 57-203.
  6. Ochiai A. Studii zoogeografice asupra peștilor soleoizi au găsit Japonia și regiunile învecinate.  (link indisponibil) II // Bull. Jap. soc. sci. peşte. 1957. V. 22. Nr. 9. P. 526-530. (Rezumat în engleză. Textul principal al articolului în japoneză.)
  7. Szymkiewicz D. Une contribution statistique a la géographie floristique // Acta Soc. Bot. Polon. 1934. T. 34. Nr. 3. P. 249-265.
  8. Simpson GG Faune de mamifere holarctice și relație continentală în timpul Cenozoicului // Bull. geol. sci. America. 1947. V. 58. P. 613-688.
  9. Braun-Blanquet J. Pflanzensoziologie Grundzüge der Vegetationsskunde. - Berlin: Verlaq von Julius springer, 1928. - 330 s.
  10. Sokal RR , Sneath PHA Principles of numerical taxonomy Arhivat la 5 martie 2016 la Wayback Machine . - San Francisco: Londra: Freeman, 1963. - 359 p.
  11. Sneath PHA, Sokal RR Taxonomie numerică: Principiile și practicile clasificării numerice Arhivat la 5 martie 2016 la Wayback Machine . - San-Francisco: Freeman, 1973. - 573 p.
  12. Konstantinov A.S. Utilizarea teoriei mulțimilor în analiza biogeografică și ecologică // Usp. modern biol. 1969. T. 67. nr. 1. C 99-108.
  13. Levandowsky M., Winter D. Distance between sets Arhivat 5 martie 2016 la Wayback Machine // Nature. 1971. V.234. Nr. 5323. P. 34-35.
  14. Kovalevskaya V. B., Pogozhev I. B. , Pogozheva (Kusurgasheva) A. P. Metode cantitative de evaluare a gradului de proximitate a monumentelor prin procentul de material de masă // Arheologia sovietică. 1970. Nr 3. S. 26-39.
  15. Renkonen O. Statististisch-ökologische Untersuchungen über die terrestrische Käferwelt finischen Bruchmoore // Acta zool. soc. zool.-bot. fenn. Vanamo. 1938. V. 6. fasc. 1. P. 1-231.
  16. Semkin B. I. Mulțimi descriptive și aplicațiile lor // Studiu de sisteme. T. 1. Analiza sistemelor complexe. Vladivostok: DVNTs AN SSSR, 1973, p. 83-94.
  17. Semkin B. I. Graph-theoretic methods in comparative floristry Copie de arhivă din 5 martie 2016 pe Wayback Machine // În cartea: Probleme teoretice și metodologice ale floristeriei comparate: Materiale ale atelierului 2 de floristerie comparată. - Neringa: 1983. - S. 149-163.
  18. Semkin B. I., Dvoychenkov V. I. Despre echivalența măsurilor de similaritate și diferență Copie de arhivă din 5 martie 2016 la Wayback Machine // Systems Research. T. 1. Analiza sistemelor complexe. Vladivostok: DVNTs AN SSSR, 1973, p. 95-104.
  19. Chao A, Chazdon RL, Colwell RK, Shen TJ. Indicii de similaritate bazați pe abundență și estimarea lor atunci când există specii nevăzute în mostre Arhivat 4 septembrie 2012 la Wayback Machine // Biometrics. 2006. Nr 62. P.361-371.
  20. Rényi A. Despre măsurile dependenței  (link indisponibil) // Acta Math. Acad. Scien. spânzurat. 1959.V.10. Nr. 3-4. P. 441-451.
  21. Voronin Yu. A. Introducerea unor măsuri de similaritate și conexiune pentru rezolvarea problemelor geologice și geofizice // Dokl. Academia de Științe a URSS. 1971. V. 139. Nr. 5. S. 64-70.
  22. Voronin Yu. A. Începuturile teoriei similitudinii. - Novosibirsk: Știință. Sib. Catedra, 1991. - 128 p.
  23. Tversky A. Features of similarity // Psychological Review. 1977. V.84. Nr. 4. P. 327-352.
  24. Vikentiev A. A., Lbov G. S. Despre metrizările algebrei booleene a propozițiilor și informativitatea enunțurilor experților // Dokl. UN. Informatica. 1998. V. 361. Nr 2. S. 174-176.
  25. Raushenbakh G.V. Măsuri de proximitate și similaritate // Analiza informațiilor non-numerice privind cercetarea sociologică. M.: Nauka, 1985. S. 169-203.
  26. Semkin B. I., Gorshkov M. V. Sistemul de axiome ale funcțiilor simetrice a două variabile și măsuri care măsoară relația de similitudine, diferență, compatibilitate și dependență pentru componentele biodiversității Copie de arhivă din 16 decembrie 2018 la Wayback Machine // Vestnik TSEU. 2008. Nr 4. S. 31-46.
  27. Semkin B. I., Gorshkov M. V. Introducerea axiomatică a măsurilor de similaritate, diferență, compatibilitate și dependență pentru componentele biodiversității într-un caz multidimensional // Buletinul KrasGAU . 2009. Nr 12. S. 18-24.
  28. ↑ Chao A., Hwang WH , Chen YC , Kuo CY Estimarea numărului de specii comune în două comunități Sinica. 2000. Nr 10. P. 227-246.  
  29. Baselga A., Jiménez-Valverde A., Niccolini G. A multiple-site similarity measure independent of richness Arhivat 5 martie 2016 la Wayback Machine // Biol. Lett. 2007. Nr 3. P. 642-645.
  30. Diserud OH, Ødegaard F. A multiple-site similarity measure  (link unavailable) // Biol. Lett. 2007. Nr 3. P. 20-22.
  31. Koch LF Index of biotal dispersity // Ecologie. 1957. V. 38. Nr. 1. P. 145-148.
  32. http://www.biometrica.tomsk.ru/list/other.htm Arhivat 16 ianuarie 2012 la Wayback Machine Internet Statistical Resources
  33. http://evolution.genetics.washington.edu Arhivat 18 aprilie 2022 la Wayback Machine Programs for Phylogenetic Calculation la portalul de internet al Universității din Washington
  34. Novakovsky A. B. Revizuirea instrumentelor software utilizate pentru analiza datelor geobotanice // Vegetația Rusiei. 2006. Nr 9. S. 86-95.
  35. Zverev A. A. Tehnologiile informaționale în cercetarea acoperirii vegetației. - Tomsk: TML-Press, 2007. -304 p.