Analiza îmbogățirii prin apartenență funcțională
Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de
versiunea revizuită pe 14 mai 2019; verificările necesită
2 modificări .
Analiza de îmbogățire funcțională [1] ( engleză gene set enrichment analysis, GSEA [2] ) este un set de metode pentru asocierea unui set de gene cu o modificare a fenotipului [2] . Pentru a oficializa datele existente despre fenotip, astfel de metode folosesc adesea baze de date cu seturi de gene adnotate anterior (de exemplu, termenii proiectului Gene ontology (GO): funcții moleculare, procese biologice sau componente celulare [3] ). Rezultatul aplicării metodei (emiterea programului) în acest caz este un set de seturi preanotate, a căror frecvență în setul de intrare este statistic semnificativ diferită de cea de fundal (de exemplu, frecvența în întregul genom sau în altul). set de gene). Astfel de seturi preanotate sunt numite suprareprezentate (dacă frecvența este deasupra fundalului) sau subreprezentate (dacă frecvența este sub fundal).
O inovație importantă a GSEA în comparație cu metodele anterioare de analiză este capacitatea de a analiza datele nu numai pentru gene individuale în mod independent, ci și de a lua în considerare relațiile funcționale ale genelor între ele. În unele cazuri, de exemplu, cu o ușoară modificare a expresiei individuale a genelor individuale, utilizarea GSEA duce la o creștere a sensibilității metodei și la o imagine mai completă a expresiei diferențiale [4] .
Această abordare a fost dezvoltată în 2002-2003 independent de mai multe grupuri de oameni de știință și a fost adoptată pe scară largă. Totodată, au fost propuse primele programe de implementare a acestuia [5] [6] [7] [8] [9] [10] [11] .
Rețineți că termenul GSEA este folosit în mai multe sensuri: ca denumire a unei clase largi de metode discutate în acest articol [2] , ca denumire a unei clase mai restrânse de metode [2] , ca denumire a unui program separat [4] ] .
Fundal
Odată cu apariția Proiectului genomului uman , a apărut problema modului de interpretare și analiză a unei cantități mari de informații noi folosind metode vechi. Datorită apariției metodelor de analiză a expresiei genelor, modificări ale țesutului la persoanele cu boli. Datele microarray au fost folosite pentru a clasifica țesuturile după caracteristicile moleculare și pentru a genera ipoteze despre mecanismele bolii, de exemplu în cercetarea cancerului , unde au fost adesea observate schimbări mari în expresia genelor individuale [12] . Cu toate acestea, atunci când modificările în expresia genelor nu sunt foarte pronunțate, numărul mare de gene testate, variabilitatea inter-individuală mare și dimensiunile limitate ale eșantioanelor comune în studiile pe oameni fac dificilă separarea diferențelor adevărate de zgomot. Multe gene pot participa la aceeași cale metabolică și, prin urmare, modificarea totală a expresiei într-un grup de gene duce la o diferență în expresia fenotipică . Analiza reprezentării grupurilor funcționale de gene se concentrează pe modificările expresiei în grupuri de gene, astfel, această metodă rezolvă problema găsirii unor mici modificări în expresia genelor individuale [8] .
Abordări
Pentru formalizarea și rezolvarea problemei GSEA se folosesc metode de statistică matematică : se estimează semnificația unor statistici calculate pentru fiecare grup adnotat anterior [13] .
Algoritm GSEA generalizat
Algoritmul GSEA generalizat include următorii pași [13] :
- Calculul statisticilor grupurilor de gene adnotate anterior - se utilizează una din două moduri:
- Test global - construirea de statistici pe setul de intrare direct pentru fiecare grup pre-adnotat, de exemplu, pe baza testului Hotelling sau ANCOVA
- Combinarea statisticilor genelor - construirea de statistici pentru gene individuale, pe baza cărora sunt construite statisticile de grup. Apoi următoarele sunt definite în succesiune:
- Statistici genetice — în funcție de tipul de date de intrare, este posibil să se selecteze diferite statistici pentru gene, de exemplu, raportul semnal-zgomot în experiment sau raportul de probabilitate din
- Transformarea statisticilor genelor — statisticile genelor pot fi transformate: astfel, se poate efectua o transformare de rang a statisticilor sau, în funcție de valoarea statisticilor, se selectează un anumit subset al tuturor genelor pentru o analiză ulterioară
- Statistici ale setului de gene - statisticile genelor obținute mai sus sunt combinate pentru a construi statistici ale seturilor de gene pre-adnotate: de exemplu, o statistică de grup este definită ca media statisticilor genelor pe care le conține
- Evaluarea semnificației - formularea ipotezelor principale și alternative pentru statisticile construite , evaluarea semnificației statisticilor. Deoarece un număr mare de ipoteze sunt testate în acest mod (despre supra/sub-reprezentarea fiecărui grup de gene adnotat anterior), estimarea semnificației include adesea o corecție pentru teste multiple .
Clasificarea metodelor
Din punctul de vedere al algoritmului generalizat discutat mai sus, diferența dintre metodele GSEA constă în succesiunea procedurilor utilizate în diferite etape. Autorii algoritmului generalizat au comparat 261 de combinații de proceduri [13] ; autorii unei revizuiri din 2008 [14] descriu 68 de programe separate care implementează aceste metode. Această revizuire propune o clasificare a metodelor în trei categorii principale: analiza de îmbogățire unică (SEA), analiza de îmbogățire a setului de gene (GSEA în sens restrâns) și analiza de îmbogățire modulară (MEA), unele programe care se încadrează în mai mult de o clasă. Rețineți că nu există o formulare formală general acceptată a problemei GSEA (în sens larg), ceea ce face dificilă evaluarea rezultatelor și compararea metodelor [2] .
Analiză unică de îmbogățire
Analiza de îmbogățire singulară - metode care primesc gene candidate ca intrare - gene legate de un anumit subset de gene care sunt de interes pentru cercetători (de exemplu, gene care au modificat semnificativ expresia ( statisticile genelor ) la un anumit nivel de semnificație), și numai atunci pentru acestea genelor se determină suprareprezentarea grupărilor funcționale. Astfel, aceste metode oferă cercetătorului posibilitatea de a selecta statisticile genelor și de a efectua transformarea - selectează genele în funcție de valoarea statisticii, apoi statisticile setului pre-adnotat sunt construite pe baza numărului de gene din set dintre genele candidate. Ca modele statistice se folosesc distribuția hipergeometrică , distribuția binomială (folosită pentru eșantioane mari), χ² , testul exact al lui Fisher . În majoritatea cazurilor, diferențele dintre modelele statistice sunt nesemnificative [15] .
Aceasta este o metodă simplă și eficientă, dar rezultatul depinde de parametrii criteriilor de selecție a genelor candidate. În plus, datorită numărului mare de gene (un rezultat tipic al experimentului este de câteva zeci de mii de profiluri de expresie [9] ), relațiile dintre grupurile adnotate anterior pot fi pierdute [14] .
Programe bazate pe această metodă: GoStat, GoMiner, GOTM, BinGO, GOtoolBox, GFinder, Onto-Express, GARBAN, FatiGO, BayGO [14] .
Analiza îmbogățirii setului de gene
Analiza îmbogățirii setului de gene este o abordare alternativă care include clasificarea ( transformarea ) tuturor genelor în conformitate cu gradul de manifestare a trăsăturii ( statistica genelor ) pe care are loc analiza . În acest caz, se ia în considerare întregul set de gene și nu doar cele mai semnificative gene. Sunt utilizate statistici de grup , cum ar fi statistica Kolmogorov , statistica t a lui Student, statistica U Mann-Whitney , mediana grupului [2] .
Principalul avantaj este că această metodă folosește toate informațiile obținute din experimente. Cu toate acestea, ca intrare, necesită definirea unui grup funcțional pentru fiecare genă, ceea ce este adesea o sarcină dificilă. Ipoteza care stă la baza metodei că genele de la capetele opuse ale listei contribuie mai mult la funcția biologică nu este întotdeauna adevărată, proteinele de reglare își schimbă adesea ușor expresia, dar acest lucru duce la consecințe mari [14] .
Programe bazate pe această metodă: GSEA (numele programului), CapMap, FatiScan, ADGO, ermineJ, PAGE, iGA, GO-Mapper, GOdist, FINA, T-profiler, MetaGP [14] .
Analiza de îmbogățire modulară
Analiza de îmbogățire modulară ( ing. Analiza de îmbogățire modulară ) - metode care iau ca intrare, cum ar fi analiza îmbogățirii unice, o listă de gene candidate, dar, spre deosebire de aceasta, atunci când se evaluează semnificația suprareprezentării (adică în etapele de determinare ). statisticile unui set de gene și evaluarea semnificației ) ia în considerare relația termenilor GO. Pentru aceasta, de exemplu, se folosește Kappa statistic . În acest fel, poate fi descrisă o funcție a setului de gene de intrare care nu corespunde unui singur termen. O limitare a metodei este că genele fără relații puternice de vecinătate vor fi excluse din analiză [14] .
Programe bazate pe această metodă: ADGO, GeneCodis, ProfCom, topGO, Ontologizer, POSOC, DAVID, GoToolBox [14] .
Aplicații
Aceste metode sunt folosite pentru a analiza rezultatele experimentelor, care reprezintă o anumită listă de gene care este diferită de întregul eșantion de gene. De exemplu, analiza de îmbogățire funcțională este adesea folosită pentru genele care sunt exprimate diferențiat în diferite condiții, caz în care sarcina este de a extrage informații despre orice mecanisme biologice
din profilurile de expresie
Un domeniu important de aplicare a acestei metode este [3] căutarea de asociere la nivel de genom - compararea genotipurilor bolnave și sănătoase în încercarea de a găsi polimorfisme cu un singur nucleotide (SNP) care sunt suprareprezentate în genomul pacientului și pot fi asociate cu o condiție dată. Această aplicare a analizei reprezentării grupurilor funcționale de gene nu numai că ajută la descoperirea SNP-urilor asociate cu boli, dar ajută și la elucidarea căilor și mecanismelor relevante ale bolilor [16] . De exemplu, GSEA a fost folosit pentru a studia boli precum nașterea prematură spontană [17] , cancerul renal [18] , depresia [19] , neosporoza [20] , schizofrenia [21] și multe altele.
Note
- ↑ Sun GP , Jiang T. , Xie PF , Lan J. , Sun GP , Jiang T. , Xie PF , Lan J. Identificarea genelor asociate parodontitei folosind rețele de co-expresie // Biologie moleculară. - 2016. - T. 50 , Nr. 1 . - S. 143-150 . — ISSN 0026-8984 . - doi : 10.7868/S0026898416010195 . (Rusă)
- ↑ 1 2 3 4 5 6 Hung J.-H. , Yang T.-H. , Hu Z. , Weng Z. , DeLisi C. Analiza îmbogățirii setului de gene: evaluarea performanței și ghidurile de utilizare // Briefings in Bioinformatics. - 2011. - 7 septembrie ( vol. 13 , nr. 3 ). - P. 281-291 . — ISSN 1467-5463 . doi : 10.1093 / bib/bbr049 .
- ↑ 1 2 Mooney Michael A. , Wilmot Beth. Analiza setului de gene: un ghid pas cu pas // Jurnalul American de Genetică Medicală Partea B: Genetică neuropsihiatrică. - 2015. - 8 iunie ( vol. 168 , nr. 7 ). - P. 517-527 . — ISSN 1552-4841 . - doi : 10.1002/ajmg.b.32328 .
- ↑ 1 2 Subramanian A. , Tamayo P. , Mootha VK , Mukherjee S. , Ebert BL , Gillette MA , Paulovich A. , Pomeroy SL , Golub TR , Lander ES , Mesirov JP Analiza îmbogățirii setului de gene: O abordare bazată pe cunoștințe pentru interpretarea profilurilor de expresie la nivel de genom (engleză) // Proceedings of the National Academy of Sciences. - 2005. - 30 septembrie ( vol. 102 , nr. 43 ). - P. 15545-15550 . — ISSN 0027-8424 . - doi : 10.1073/pnas.0506580102 .
- ↑ Rhodes Daniel R , Chinnaiyan Arul M. Analiza integrativă a transcriptomului cancerului // Nature Genetics. - 2005. - Iunie ( vol. 37 , nr. S6 ). -P.S31- S37 . — ISSN 1061-4036 . - doi : 10.1038/ng1570 .
- ↑ Doniger Scott W , Salomonis Nathan , Dahlquist Kam D , Vranizan Karen , Lawlor Steven C , Conklin Bruce R. [1] // Biologia genomului. - 2003. - Vol. 4 , nr. 1 . — P.R7 . — ISSN 1465-6906 . - doi : 10.1186/gb-2003-4-1-r7 .
- ↑ Zeeberg Barry R , Feng Weimin , Wang Geoffrey , Wang May D , Fojo Anthony T , Sunshine Margot , Narasimhan Sudarshan , Kane David W , Reinhold William C , Lababidi Samir , Bussey Kimberly J , Riss Joseph , Barrett J , Weinstein John N. [2] (engleză) // Biologia genomului. - 2003. - Vol. 4 , nr. 4 . — P.R28 . — ISSN 1465-6906 . - doi : 10.1186/gb-2003-4-4-r28 .
- ↑ 1 2 Mootha Vamsi K , Lindgren Cecilia M , Eriksson Karl-Fredrik , Subramanian Aravind , Sihag Smita , Lehar Joseph , Puigserver Pere , Carlsson Emma , Ridderstråle Martin , Laurila Esa , Houstis Nicholas , Palyrov Nick J. Jill P , Golub Todd R , Tamayo Pablo , Spiegelman Bruce , Lander Eric S , Hirschhorn Joel N , Altshuler David , Groop Leif C. Genele sensibile la PGC-1α implicate în fosforilarea oxidativă sunt reglate în mod coordonat în diabetul uman (engleză) // Natura Genetica . - 2003. - 15 iunie ( vol. 34 , nr. 3 ). - P. 267-273 . — ISSN 1061-4036 . - doi : 10.1038/ng1180 .
- ↑ 1 2 Draghici S. Onto-Tools, trusa de instrumente a biologului modern: Onto-Express, Onto-Compare, Onto-Design și Onto-Translate // Nucleic Acids Research. - 2003. - 1 iulie ( vol. 31 , nr. 13 ). - P. 3775-3781 . — ISSN 1362-4962 . - doi : 10.1093/nar/gkg624 .
- ↑ Al-Shahrour F. , Diaz-Uriarte R. , Dopazo J. FatiGO: un instrument web pentru găsirea asocierilor semnificative ale termenilor de Ontologie genetică cu grupuri de gene // Bioinformatică . - 2004. - 22 ianuarie ( vol. 20 , nr. 4 ). - P. 578-580 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatics/btg455 .
- ↑ Volinia S. , Evangelisti R. , Francioso F. , Arcelli D. , Carella M. , Gasparini P. GOAL: automated Gene Ontology analysis of expression profiles // Nucleic Acids Research. - 2004. - 1 iulie ( vol. 32 , nr. Web Server ). - P.W492-W499 . — ISSN 0305-1048 . doi : 10.1093 / nar/gkh443 .
- ↑ Clasificarea moleculară a cancerului Golub TR : Descoperirea clasei și predicția clasei prin monitorizarea expresiei genelor // Știință . - 1999. - 15 octombrie ( vol. 286 , nr. 5439 ). - P. 531-537 . — ISSN 0036-8075 . - doi : 10.1126/science.286.5439.531 .
- ↑ 1 2 3 4 Ackermann Marit , Strimmer Korbinian. Un cadru modular general pentru analiza îmbogățirii setului de gene (engleză) // BMC Bioinformatics. - 2009. - 3 februarie ( vol. 10 , nr. 1 ). — ISSN 1471-2105 . - doi : 10.1186/1471-2105-10-47 .
- ↑ 1 2 3 4 5 6 7 Huang Da Wei , Sherman Brad T. , Lempicki Richard A. Instrumente de îmbogățire bioinformatică: căi către analiza funcțională cuprinzătoare a listelor mari de gene // Nucleic Acids Research. - 2008. - 25 noiembrie ( vol. 37 , nr. 1 ). - P. 1-13 . — ISSN 1362-4962 . - doi : 10.1093/nar/gkn923 .
- ↑ Khatri P. , Draghici S. Ontological analysis of gene expression data: current tools, limitations, and open problems // Bioinformatics . - 2005. - 30 iunie ( vol. 21 , nr. 18 ). - P. 3587-3595 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatics/bti565 .
- ↑ Holden Marit , Deng Shiwei , Wojnowski Leszek , Kulle Bettina. GSEA-SNP: aplicarea analizei de îmbogățire a setului de gene la datele SNP din studiile de asociere la nivel de genom // Bioinformatică . - 2008. - 14 octombrie ( vol. 24 , nr. 23 ). - P. 2784-2785 . — ISSN 1460-2059 . - doi : 10.1093/bioinformatics/btn516 .
- ^ Manuck Tracy A. , Watkins Scott , Esplin M. Sean , Parry Samuel , Zhang Heping , Huang Hao , Biggio Joseph R. , Bukowski Radek , Saade George , Andrews William , Baldwin Don , Sadovsky Yoel , Reddy Uma , Ilekis John , Varner Michael W. , Jorde Lynn B. , Yandell Mark. 242: Investigarea îmbogățirii setului de gene a variației exomului matern în nașterea prematură spontană (SPTB ) // American Journal of Obstetrics and Gynecology. - 2016. - ianuarie ( vol. 214 , nr. 1 ). - P.S142-S143 . — ISSN 0002-9378 . - doi : 10.1016/j.ajog.2015.10.280 .
- ↑ Maruschke Matthias , Hakenberg Oliver W , Koczan Dirk , Zimmermann Wolfgang , Stief Christian G , Buchner Alexander. Profilul expresiei carcinomului cu celule renale metastatic folosind analiza de îmbogățire a setului de gene (engleză) // Jurnalul Internațional de Urologie. - 2013. - 2 mai ( vol. 21 , nr. 1 ). - P. 46-51 . — ISSN 0919-8172 . - doi : 10.1111/iju.12183 .
- ↑ Elovainio Marko , Taipale Tuukka , Seppälä Ilkka , Mononen Nina , Raitoharju Emma , Jokela Markus , Pulkki-Råback Laura , Illig Thomas , Waldenberger Melanie , Hakulinen Christian , Hintsa Taina , Kivimäki Kähäkisa , Mikaijäki Mikai ,-Liavimäki Mikai ,-Kähäkisa , -Kähäkisa , -Kähäki- häräkisa . Căile imuno-inflamatorii activate sunt asociate cu simptome depresive de lungă durată: Dovezi din analizele de îmbogățire a setului de gene în Studiul Young Finns // Journal of Psychiatric Research. - 2015. - Decembrie ( vol. 71 ). - P. 120-125 . — ISSN 0022-3956 . - doi : 10.1016/j.jpsychires.2015.09.017 .
- ↑ Nishimura Maki , Tanaka Sachi , Ihara Fumiaki , Muroi Yoshikage , Yamagishi Junya , Furuoka Hidefumi , Suzuki Yutaka , Nishikawa Yoshifumi. Transcriptom și modificări histopatologice în creierul de șoarece infectat cu Neospora caninum // Rapoarte științifice. - 2015. - 21 ianuarie ( vol. 5 , nr. 1 ). — ISSN 2045-2322 . - doi : 10.1038/srep07936 .
- ↑ Hass Johanna , Walton Esther , Wright Carrie , Beyer Andreas , Scholz Markus , Turner Jessica , Liu Jingyu , Smolka Michael N. , Roessner Veit , Sponheim Scott R. , Gollub Randy L. , Calhoun Vince D. , Ehrlich Stefan. Asociații între metilarea ADN-ului și fenotipurile intermediare legate de schizofrenie — O analiză de îmbogățire a setului de gene // Progrese în neuro-psihofarmacologie și psihiatrie biologică. - 2015. - iunie ( vol. 59 ). - P. 31-39 . — ISSN 0278-5846 . - doi : 10.1016/j.pnpbp.2015.01.006 .