Biclustering

Biclustering , block clustering , [1] co -clustering , de asemenea two - modal clustering [2] [3] este o tehnică de data mining care permite gruparea simultană a rândurilor și coloanelor unei matrice . Termenul a fost propus pentru prima dată de Mirkin [4] , deși metoda în sine a fost inventată mult mai devreme [4] (JA Hartigan [5] ).

Luând ca intrare un set de rânduri în coloane (o matrice de dimensiune ), algoritmul de biclustering generează biclustere, un subset de rânduri care prezintă un comportament similar printr-un subset de coloane. $m$ $n$ $m\ori n$

Istoricul dezvoltării

Biclusteringul a fost introdus pentru prima dată de JA Hartigan în 1972 [6] . Termenul de biclustering a fost introdus ulterior de Mirkin. Acest algoritm nu a fost generalizat până în 2000, când Y. Cheng și GM Church au propus un algoritm de biclustering bazat pe varianță și l-au aplicat datelor de exprimare a genelor biologice [7] . Articolul lor este încă una dintre cele mai importante literaturi în domeniul biclusteringului expresiei genelor.

În 2001 și 2003, IS Dhillon a propus doi algoritmi care aplică biclustering fișierelor și cuvintelor. Una dintre versiuni se baza pe divizarea graficelor spectrale bipartite [8] . Al doilea s-a bazat pe teoria informației. Dhillon a presupus că pierderea reciprocă de informații în timpul biclusteringului este KL ( distanța Kulback-Leibler ) între P și Q. P înseamnă distribuția fișierelor și a cuvintelor caracteristice înainte de biclustering. Q, la rândul său, este distribuția după grupare. KL-distanța este necesară ca măsură a diferenței dintre două distribuții aleatorii. KL = 0 când cele două distribuții sunt aceleași și crește dacă diferența crește [9] . Astfel, scopul algoritmului a fost de a minimiza distanța KL dintre P și Q. În 2004, A. Banerjee a folosit distanța ponderată Bregman în loc de distanța KL pentru a dezvolta un algoritm de biclustering potrivit pentru orice tip de matrice, spre deosebire de Algoritmul KL [10] .

Pentru a grupa mai mult de două tipuri de obiecte, Bekkerman în 2005 a extins informația reciprocă din teorema lui Dhillon de la o pereche la mai multe perechi.

Dificultatea sarcinii

Complexitatea problemei de biclustering depinde de formularea specifică, în special de funcția utilizată pentru a evalua calitatea biclusterului rezultat. Cele mai interesante variante ale acestor probleme sunt NP-complete și necesită o putere mare de calcul sau utilizarea unor abordări euristice [11] [12] .

Tipuri bicluster

Algoritmii diferiți de biclustering au definiții diferite ale unui bicluster [12]

Principalele tipuri:

Bicluster cu valori constante (a),
Bicluster cu valori constante în rândurile (b) sau coloanele (c),
Bicluster cu valori legate (d, e).

Vezi și

Note

↑ G. Govaert, M. Nadif. Gruparea blocurilor cu modele de amestec Bernoulli: Comparația diferitelor abordări, (engleză) // Statistică computațională și analiză a datelor : jurnal. - Elsevier, 2008. - Vol. 52 . - P. 3233-3245 .
↑ G. Govaert, M. Nadif. Co-clustering: modele, algoritmi și aplicații (engleză) . - ISTE, Wiley, 2013. - ISBN 978-1-84821-473-6 .
↑ Van Mechelen I., Bock HH, De Boeck P. Two-mode clustering methods:a structured overview (nedefined) // Statistical Methods in Medical Research . - 2004. - T. 13 , nr 5 . - S. 363-394 . - doi : 10.1191/0962280204sm373ra . — PMID 15516031 .
↑ 1 2 Mirkin, Boris. Clasificare matematică și grupare . - Kluwer Academic Publishers , 1996. - ISBN 0-7923-4159-7 .
↑ Hartigan JA Direct clustering of a data matrix // Journal of the American Statistical Association : journal. - Asociaţia Americană de Statistică, 1972. - Vol. 67 , nr. 337 . - P. 123-129 . - doi : 10.2307/2284710 . — .
↑ Hartigan J A. Gruparea directă a unei matrice de date[J]. Jurnalul Asociaţiei Americane de Statistică, 1972, 67(337): 123-129. . Consultat la 30 aprilie 2016. Arhivat din original la 15 martie 2022. (nedefinit)
↑ https://www.cs.princeton.edu/courses/archive/fall03/cs597F/Articles/biclustering_of_expression_data.pdf Arhivat 4 martie 2016 la Wayback Machine Cheng Y, Church G M. Biclustering of expression data[C] / /Ismb. 2000, 8:93-103.
↑ Dhillon I S. Co-clustering documente and words using bipartite spectral graph partitioning[C]//Proceedings of the seventh ACM SIGKDD international Conference on Knowledge discovery and data mining. ACM, 2001: 269-274.
↑ Dhillon IS, Mallela S, Modha D S. Co-clustering teoretic informațional[C]//Proceedings of the ninth ACM SIGKDD international Conference on KKluwer Academic Publishersnowledge discovery and data mining. ACM, 2003: 89-98.
↑ Banerjee A, Dhillon I, Ghosh J, et al. O abordare generalizată a entropiei maxime a co-clusteringului bregman și aproximării matriceale[C]//Proceedings of the ACM SIGKDD international Conference on Knowledge discovery and data mining. ACM, 2004: 509-514.
↑ Peeters R. Problema maximă a bicliquei marginii este NP-complet[J]. Matematică aplicată discretă, 2003, 131(3): 651-654. . Consultat la 30 aprilie 2016. Arhivat din original pe 24 septembrie 2015. (nedefinit)
↑ 1 2 . Madeira SC, Oliveira AL Algoritmi de biclustering pentru analiza datelor biologice: un sondaj // Tranzacții IEEE privind biologie computațională și bioinformatică: jurnal. - 2004. - Vol. 1 , nr. 1 . - P. 24-45 . - doi : 10.1109/TCBB.2004.2 . — PMID 17048406 .

Literatură

Abdullah, Ahsan; Hussain, Amir. O nouă tehnică de biclustering bazată pe minimizarea încrucișării // Neurocomputing, vol. 69 numărul 16-18 : jurnal. - 2006. - Vol. 69 , nr. 16-18 . - P. 1882-1896 . - doi : 10.1016/j.neucom.2006.02.018 .
A. Tanay. R. Sharan și R. Shamir, „Algoritmi de biclustering: un sondaj”, în Manualul de biologie moleculară computațională , editat de Srinivas Aluru, Chapman (2004)
Kluger Y., Basri R., Chang JT, Gerstein MB Spectral Biclustering of Microarray Data: Coclustering Genes and Conditions // Cercetarea genomului : jurnal. - 2003. - Vol. 13 , nr. 4 . - P. 703-716 . - doi : 10.1101/gr.648603 . — PMID 12671006 .

Link -uri

FABIA: Analiza factorială pentru Bicluster Acquisition, un pachet R — software