Biclustering

Biclustering , block clustering , [1] co -clustering , de asemenea two - modal clustering [2] [3] este o  tehnică de data mining care permite gruparea simultană a rândurilor și coloanelor unei matrice . Termenul a fost propus pentru prima dată de Mirkin [4] , deși metoda în sine a fost inventată mult mai devreme [4] (JA Hartigan [5] ).

Luând ca intrare un set de rânduri în coloane (o matrice de dimensiune ), algoritmul de biclustering generează biclustere, un subset de rânduri care prezintă un comportament similar printr-un subset de coloane.

Istoricul dezvoltării

Biclusteringul a fost introdus pentru prima dată de JA Hartigan în 1972 [6] . Termenul de biclustering a fost introdus ulterior de Mirkin. Acest algoritm nu a fost generalizat până în 2000, când Y. Cheng și GM Church au propus un algoritm de biclustering bazat pe varianță și l-au aplicat datelor de exprimare a genelor biologice [7] . Articolul lor este încă una dintre cele mai importante literaturi în domeniul biclusteringului expresiei genelor.

În 2001 și 2003, IS Dhillon a propus doi algoritmi care aplică biclustering fișierelor și cuvintelor. Una dintre versiuni se baza pe divizarea graficelor spectrale bipartite [8] . Al doilea s-a bazat pe teoria informației. Dhillon a presupus că pierderea reciprocă de informații în timpul biclusteringului este KL ( distanța Kulback-Leibler ) între P și Q. P înseamnă distribuția fișierelor și a cuvintelor caracteristice înainte de biclustering. Q, la rândul său, este distribuția după grupare. KL-distanța este necesară ca măsură a diferenței dintre două distribuții aleatorii. KL = 0 când cele două distribuții sunt aceleași și crește dacă diferența crește [9] . Astfel, scopul algoritmului a fost de a minimiza distanța KL dintre P și Q. În 2004, A. Banerjee a folosit distanța ponderată Bregman în loc de distanța KL pentru a dezvolta un algoritm de biclustering potrivit pentru orice tip de matrice, spre deosebire de Algoritmul KL [10] .

Pentru a grupa mai mult de două tipuri de obiecte, Bekkerman în 2005 a extins informația reciprocă din teorema lui Dhillon de la o pereche la mai multe perechi.

Dificultatea sarcinii

Complexitatea problemei de biclustering depinde de formularea specifică, în special de funcția utilizată pentru a evalua calitatea biclusterului rezultat. Cele mai interesante variante ale acestor probleme sunt NP-complete și necesită o putere mare de calcul sau utilizarea unor abordări euristice [11] [12] .

Tipuri bicluster

Algoritmii diferiți de biclustering au definiții diferite ale unui bicluster [12]

Principalele tipuri:

  1. Bicluster cu valori constante (a),
  2. Bicluster cu valori constante în rândurile (b) sau coloanele (c),
  3. Bicluster cu valori legate (d, e).

Vezi și

Note

  1. G. Govaert, M. Nadif. Gruparea blocurilor cu modele de amestec Bernoulli: Comparația diferitelor abordări,  (engleză)  // Statistică computațională și analiză a datelor  : jurnal. - Elsevier, 2008. - Vol. 52 . - P. 3233-3245 .
  2. G. Govaert, M. Nadif. Co-clustering: modele, algoritmi și aplicații  (engleză) . - ISTE, Wiley, 2013. - ISBN 978-1-84821-473-6 .
  3. Van Mechelen I., Bock HH, De Boeck P. Two-mode clustering methods:a structured overview  (nedefined)  // Statistical Methods in Medical Research . - 2004. - T. 13 , nr 5 . - S. 363-394 . - doi : 10.1191/0962280204sm373ra . — PMID 15516031 .
  4. 1 2 Mirkin, Boris. Clasificare matematică și grupare . - Kluwer Academic Publishers , 1996. - ISBN 0-7923-4159-7 .  
  5. Hartigan JA Direct clustering of a data matrix  //  Journal of the American Statistical Association  : journal. - Asociaţia Americană de Statistică, 1972. - Vol. 67 , nr. 337 . - P. 123-129 . - doi : 10.2307/2284710 . .
  6. Hartigan J A. Gruparea directă a unei matrice de date[J]. Jurnalul Asociaţiei Americane de Statistică, 1972, 67(337): 123-129. . Consultat la 30 aprilie 2016. Arhivat din original la 15 martie 2022.
  7. https://www.cs.princeton.edu/courses/archive/fall03/cs597F/Articles/biclustering_of_expression_data.pdf Arhivat 4 martie 2016 la Wayback Machine Cheng Y, Church G M. Biclustering of expression data[C] / /Ismb. 2000, 8:93-103.
  8. Dhillon I S. Co-clustering documente and words using bipartite spectral graph partitioning[C]//Proceedings of the seventh ACM SIGKDD international Conference on Knowledge discovery and data mining. ACM, 2001: 269-274.
  9. Dhillon IS, Mallela S, Modha D S. Co-clustering teoretic informațional[C]//Proceedings of the ninth ACM SIGKDD international Conference on KKluwer Academic Publishersnowledge discovery and data mining. ACM, 2003: 89-98.
  10. Banerjee A, Dhillon I, Ghosh J, et al. O abordare generalizată a entropiei maxime a co-clusteringului bregman și aproximării matriceale[C]//Proceedings of the ACM SIGKDD international Conference on Knowledge discovery and data mining. ACM, 2004: 509-514.
  11. Peeters R. Problema maximă a bicliquei marginii este NP-complet[J]. Matematică aplicată discretă, 2003, 131(3): 651-654. . Consultat la 30 aprilie 2016. Arhivat din original pe 24 septembrie 2015.
  12. 1 2 . Madeira SC, Oliveira AL Algoritmi de biclustering pentru analiza datelor biologice: un sondaj  //  Tranzacții IEEE privind biologie computațională și bioinformatică: jurnal. - 2004. - Vol. 1 , nr. 1 . - P. 24-45 . - doi : 10.1109/TCBB.2004.2 . — PMID 17048406 .

Literatură

Link -uri