Matricea Măsurilor de Convergență

Matricea măsurilor de convergență  este o matrice care conține măsurile de similaritate ale obiectelor ca elemente. Matricea reflectă asemănarea pe perechi a obiectelor. Asemănarea este un indicator măsurat pe o scară ordinală și, prin urmare, este posibil să se definească doar relații de forma: „mai mare decât”, „mai mic decât” sau „egal cu”.

Matricea măsurilor de convergență absolută

Pe baza matricei de date, este ușor de calculat matricea măsurilor de convergență absolută, care, de exemplu, pentru mulțimi finite și descriptive corespunde unei matrice de intersecție de dimensiune . Pentru probabilități, analogul acestei matrice se numește matricea probabilităților comune , iar pentru interpretarea informațională este matricea funcțiilor informaționale . Matricea este simetrică față de diagonala [1] :


Acest tip de matrice este „documentul” principal al studiului (după matricea de date primară), deoarece matricea de intersecție conține informații despre numărul de caracteristici ale fiecărui obiect (pe diagonală) și numărul de caracteristici comune pentru fiecare. pereche de obiecte comparate (la intersecția coloanei și rândului corespunzătoare). Avantajul acestei matrice este că, conform datelor acestei matrice, este posibil să se calculeze alte tipuri de matrice (matrici de includere, similaritate, închidere tranzitivă etc.), adică să se implementeze principiul reproductibilității . Elementele matricei de intersecție sunt determinate de formula (cunoscută ca măsură a similitudinii procentuale):

,

unde  sunt elementele matricei de date primare. Dacă elementele matricei sunt normalizate, atunci obținem o matrice relativă a măsurilor de convergență, care este foarte ușor de calculat (în comparație cu alte matrici de convergență).

Matricea măsurilor de convergență asimetrică relativă

Această matrice nu este simetrică în raport cu diagonala. Este cunoscută în mod obișnuit sub denumirea de matrice de incluziune și poate fi obținută în două moduri: pentru a determina două măsuri de similaritate nesimetrică pentru fiecare pereche de obiecte sau pentru a obține o matrice din matricea măsurilor de convergență absolută. Pentru a doua opțiune, este necesar să împărțiți elementele fiecărui rând al matricei de intersecție cu elementul diagonal corespunzător acestui rând:


Pentru a rezolva ambiguitatea, este necesar să se indice direcția de includere a unui obiect în altul. Indicat de obicei printr-o săgeată, iar includerea este determinată de la stânga la dreapta. Din această matrice, se pot obține grafice de incluziune-similaritate direcționate la un anumit prag de proximitate. În această matrice, relațiile dintre obiecte sunt clar vizibile, în care numărul de caracteristici diferă foarte mult (obiecte de dimensiuni diferite). Trebuie remarcat în mod special că măsurile asimetrice sunt mai informative în general, și mai ales pentru obiecte de dimensiuni diferite în ceea ce privește numărul de caracteristici, decât măsurile simetrice, deoarece acestea din urmă, de fapt, sunt indicatori medii și, prin urmare, pierd unele informații. despre obiecte, iar măsurile asimetrice (incluziunile) evaluează în mod adecvat relațiile netranzitive care sunt mai comune în natură. De exemplu, primul articol poate fi inclus 100% în al doilea articol, iar a doua listă poate fi inclusă doar 10%. În același timp, o măsură simetrică nu va putea reflecta în mod adecvat aceste relații, deoarece, de exemplu, 10 caracteristici comune sunt semnificative pentru un obiect cu 10 caracteristici, dar nu atât de semnificative pentru un obiect mare cu 100 de caracteristici. Măsura asemănării lui Sorensen în acest caz va fi egală cu aproximativ 20%.

Matricea măsurilor de convergență simetrică relativă

Cunoscută mai frecvent ca matricea de similaritate [2] . Această matrice este simetrică față de diagonală. De asemenea, poate fi obținut în două moduri: pentru a determina o măsură de similitudine simetrică pentru fiecare pereche de obiecte sau pentru a o calcula dintr-o matrice de măsuri de convergență asimetrică. A doua modalitate este de a simetriza matricea de incluziune prin mediarea a două măsuri asimetrice și necesită consistența măsurilor în cadrul aceleiași clase de echivalență. În general, matricea arată astfel:


În diagonală, ele sunt 1, deoarece asemănarea obiectului cu el însuși este maximă. Este cel mai informativ pentru obiectele care sunt în esență egale ca mărime, adică pentru obiectele al căror număr de caracteristici nu diferă semnificativ. Grafic, relațiile de similaritate sunt de obicei exprimate prin algoritmi de grupare grafică . Conceptual, matricea este duală cu matricea distanței și, în consecință, există zerouri în matricea distanței de-a lungul diagonalei.

Note

  1. Semkin B. I., Kulikova L. S. Metode de analiză matematică a listei speciilor de insecte în biocenozele naturale și culturale. Vladivostok: TIG DVNTs AN SSSR, 1981. 73 p.
  2. Duran B., Odell P. Cluster analysis. — M.: Statistică, 1977. — 128 p.