Predicția funcției proteinelor

Predicția funcției proteinelor - determinarea rolului biologic al unei proteine ​​și a semnificației în contextul unei celule . Predicția funcției se face pentru proteinele prost înțelese sau pentru proteinele ipotetice prezise din datele secvenței genomice . Sursa de informații pentru predicție poate fi omologia secvențelor de nucleotide , profilurile de expresie genică , structura domeniului proteinelor, analiza intelectuală a textelor publicațiilor, profilurile filogenetice și fenotipice , interacțiunile proteină-proteină .

Funcția proteinelor este un termen foarte larg: rolurile proteinelor variază de la cataliza reacțiilor biochimice la transducția semnalului și transportul celular , iar o singură proteină poate juca un rol specific în mai multe procese celulare [1] .

În general, funcția poate fi gândită ca „tot ceea ce se întâmplă cu sau cu ajutorul unei proteine”. Proiectul Gene Ontology a propus o clasificare utilă a funcțiilor bazată pe o listă (vocabular) de termeni bine definiți împărțiți în trei categorii principale - funcții moleculare , procese biologice și componente celulare [2] . Din această bază de date este posibil, după numele proteinei sau numărul de identificare al acesteia, să se găsească termenii „Ontologiei genelor” atribuite acesteia sau adnotări făcute pe baza datelor calculate sau experimentale.

În ciuda faptului că astăzi metode moderne precum analiza microarray , interferența ARN și analiza cu doi hibridi sunt folosite pentru a demonstra experimental funcțiile unei proteine, tehnologiile de secvențiere au avansat atât de mult încât ritmul de caracterizare experimentală a proteinelor deschise rămâne cu mult în urma ritmului. de descoperire de noi secvenţe [3] . Prin urmare, adnotarea noilor secvențe de proteine ​​se va realiza în principal prin predicție bazată pe metode computaționale, deoarece în acest fel este posibil să se caracterizeze secvențe mult mai rapid și simultan pentru mai multe gene /proteine. Primele tehnici de predicție a caracteristicilor s-au bazat pe similitudinea proteinelor omoloage cu caracteristicile cunoscute (așa-numita predicție a caracteristicilor bazate pe omologie ). Dezvoltarea ulterioară a metodelor a condus la apariția predicțiilor bazate pe contextul genomic și pe structura moleculei proteice , ceea ce a făcut posibilă extinderea gamei de date obținute și combinarea metodelor bazate pe diferite tipuri de date pentru a obține cele mai complete. imagine a rolului proteinei [3] . Valoarea și performanța predicției computaționale a funcției genelor este evidențiată de faptul că, începând cu anul 2010, 98% din adnotările Ontologiei genelor au fost realizate pe baza extragerii automate din alte baze de date de adnotări și doar 0,6% pe baza datelor experimentale [4] .

Metode de predicție a funcției proteinei

Metode bazate pe omologie

Proteinele cu secvențe similare sunt de obicei omoloage [5] și, prin urmare, au o funcție similară. Prin urmare, în genomii secvenționați recent, proteinele sunt de obicei adnotate prin analogie cu secvențele de proteine ​​similare din alte genomi. Cu toate acestea, proteinele strâns înrudite nu îndeplinesc întotdeauna aceeași funcție [6] , de exemplu, proteinele de drojdie Gal1 și Gal3 sunt paralogi cu 73% și 92% similaritate, care au dobândit funcții foarte diferite în timpul evoluției : de exemplu, Gal1 este o galactokinază , iar Gal3 este o transcripție inductoră [7] . Din păcate, nu există un prag clar pentru gradul de similitudine a secvenței pentru prezicerea în siguranță a caracteristicilor; multe proteine ​​cu aceeași funcție au asemănări subtile, în timp ce există unele care sunt foarte asemănătoare ca succesiune, dar complet diferite ca funcție.

Metode bazate pe motive de secvență

Dezvoltarea bazelor de date cu domenii proteice precum Pfam [8] face posibilă găsirea de domenii deja cunoscute în secvența dorită pentru a sugera posibile funcții. Resursa dcGO [9] conține adnotări atât pentru domenii individuale, cât și pentru supradomenii (adică, combinații de două sau mai multe domenii consecutive), ceea ce face predicția mai aproape de realitate. De asemenea, în cadrul domeniilor proteice în sine există secvențe caracteristice mai scurte asociate cu anumite funcții (așa-numitele motive ) [10] , a căror prezență în proteina dorită poate fi determinată prin căutarea în baze de date de motive, precum PROSITE [11] . Motivele pot fi, de asemenea, folosite pentru a prezice localizarea intracelulară a unei proteine: prezența unor peptide cu semnal scurt specifice determină la ce organele va fi transportată proteina după sinteză și au fost dezvoltate multe resurse pentru a identifica astfel de secvențe semnal [12] , cum ar fi SignalP, care a fost actualizat de mai multe ori de-a lungul anilor.dezvoltarea metodelor [13] . Astfel, unele caracteristici ale funcției proteinelor pot fi prezise fără comparație cu secvențele omoloage de lungime completă.

Metode bazate pe structura proteinelor

Deoarece structura 3D a unei proteine ​​este de obicei mai conservată decât secvența proteinei, asemănarea structurilor poate indica asemănarea și funcția proteinelor. Multe programe au fost dezvoltate pentru a căuta pliuri similare în cadrul Protein Data Bank [14] , de exemplu, FATCAT [15] , CE [16] , DeepAlign [17] . În cazul în care nu există o structură rezolvată pentru secvența de proteină dorită, mai întâi este compilat un model tridimensional probabil al secvenței, pe baza căruia funcția proteinei este ulterior prezisă; așa funcționează, de exemplu, serverul de predicție a funcției proteinei RaptorX. În multe cazuri, în locul structurii întregii proteine, căutarea este efectuată pe structurile motivelor individuale care conțin, de exemplu, situsul de legare a ligandului sau situsul activ al enzimei . Pentru a adnota acestea din urmă în secvențe noi de proteine, a fost dezvoltată baza de date Catalytic Site Atlas [18] .

Metode bazate pe contextul genomic

Multe dintre metodele recente de predicție nu se bazează pe comparații de secvență sau structură așa cum s-a descris anterior, ci pe corelația dintre noile gene/proteine ​​și cele deja adnotate: pentru fiecare genă, este compilat un profil filogenetic (prin prezență sau absență în genomi diferiți). , care sunt apoi comparate pentru stabilirea relațiilor funcționale (se presupune că genele cu aceleași profiluri sunt legate funcțional între ele) [19] . În timp ce metodele bazate pe omologie sunt adesea folosite pentru a stabili funcții moleculare, predicția bazată pe contextul genomic poate fi utilizată pentru a sugera procesul biologic în care este implicată o proteină. De exemplu, proteinele implicate în aceeași cale de transducție a semnalului au un context genomic comun între specii.

Fuziunea genelor

Când două (sau mai multe) gene care codifică diferite proteine ​​dintr-un organism sunt combinate într-o genă dintr-un alt organism în timpul evoluției, ei spun că a avut loc o fuziune a genelor (respectiv, în procesul invers, o separare a genelor) [20] . Acest fenomen a fost exploatat în căutarea de omologi pentru toate secvențele de proteine ​​E. coli , când s-a descoperit că mai mult de 6000 de perechi de secvențe de E. coli non-omolog au împărtășit omologie cu gene individuale din alți genomi, indicând o potențială interacțiune între proteinele din fiecare. a perechilor., care nu poate fi prezis doar din omologie.

Colocalizare/co-exprimare

La procariote , în procesul de evoluție, se păstrează adesea grupuri de gene apropiate unele de altele, care, de regulă, codifică proteine ​​care interacționează între ele sau fac parte din același operon. Prin urmare, pentru a prezice asemănarea funcțională dintre proteine, cel puțin la procariote, se poate folosi proximitatea genelor de pe cromozom (o metodă bazată pe proximitatea genelor) [21] . De asemenea, în unele genomi eucariote , inclusiv Homo sapiens , pentru anumite căi biologice, s-a remarcat localizarea apropiată a genelor incluse în acestea [22] , care, odată cu dezvoltarea tehnicilor, poate fi utilă în studierea interacțiunilor proteinelor la eucariote.

Genele implicate în aceleași procese sunt, de asemenea, adesea co-transcrise, astfel încât co-exprimarea cu proteine ​​​​cunoscute poate sugera o funcție similară a proteinei neadnotate. Pe baza acestui fapt, sunt în curs de dezvoltare așa-numiții algoritmi „vinovăție prin asociere” ,  care sunt utilizați pentru a analiza cantități mari de date de secvență și pentru a identifica proteine ​​necunoscute prin similitudine cu modelele de expresie ale genelor deja cunoscute [23] [24] . Studiile privind vinovăția de complicitate compară adesea un grup de gene candidate cu funcție necunoscută cu un grup țintă (de exemplu, gene puternic asociate cu o anumită boală) și pe baza datelor colectate (de exemplu, co-expresia genică, interacțiuni proteină-proteină sau profiluri filogenetice). ) clasifică genele candidate în funcție de gradul lor de similitudine cu grupul țintă. De exemplu, deoarece multe proteine ​​sunt multifuncționale, genele care le codifică pot aparține mai multor grupuri țintă în același timp, prin urmare, astfel de gene vor fi detectate mai des în studiile de „vinovăție prin complicitate”, iar astfel de predicții nu sunt specifice.

Odată cu acumularea datelor de secvențiere a ARN , care pot fi utilizate pentru a evalua profilurile de expresie ale izoformelor de proteine ​​obținute prin splicing alternativ , au fost dezvoltați algoritmi de învățare automată pentru a prezice funcții la nivel de izoforme [25] .

Topografie computerizată cu solvent

Una dintre problemele asociate cu predicția funcției proteinei este detectarea situsului activ, complicată de faptul că unele situsuri active nu se formează până când proteina suferă o modificare conformațională cauzată de legarea moleculelor mici, cum ar fi moleculele de solvent. Cele mai multe structuri de proteine ​​au fost obținute prin analiza de difracție cu raze X , care necesită cristale de proteine ​​​​pure, ca urmare, modificările conformaționale necesare pentru formarea situsurilor active nu pot fi urmărite în modelele tridimensionale existente ale proteinelor. Topografia computerizată cu solvent folosește așa-numitele sonde ( molecule organice mici ), care, în procesul de simulare pe computer, „se mișcă” de-a lungul suprafeței proteinei în căutarea unor potențiale locuri de legare și a grupării ulterioare. De regulă, sunt utilizate mai multe sonde diferite pentru a obține cât mai multe structuri conformaționale diferite ale proteinei sondei. Structurile rezultate sunt evaluate prin energia liberă medie. După multiple simulări cu diverse sonde, locul în care se formează cel mai mare număr de clustere este identificat cu locul activ al proteinei [27] .

Această metodă este o adaptare computerizată a metodei umede dintr-o lucrare din 1996. La suprapunerea structurilor proteice obținute prin dizolvarea în diverși solvenți organici, s-a constatat că moleculele de solvent se acumulează cel mai adesea în centrul activ al proteinei. Această lucrare a fost făcută pentru a elimina moleculele de apă rămase care apar în hărțile de densitate electronică obținute prin difracția cu raze X: interacționând cu proteina, acestea tind să se acumuleze în regiunile polare ale proteinei. Acest lucru a condus la ideea spălării cristalului de proteină purificat în diverși solvenți (cum ar fi etanol , izopropanol ) pentru a determina unde se grupează moleculele de solvent. Solvenții pot fi aleși în funcție de moleculele cu care proteina poate interacționa (de exemplu, alegerea etanolului ca sondă poate identifica interacțiunea proteinei cu serină , alegerea izopropanolului cu treonina etc.). Este foarte important ca cristalul proteic să-și păstreze structura terțiară în fiecare solvent. După ce procedura de spălare a fost efectuată cu mai mulți solvenți, se obțin date pe baza cărora pot fi presupuse situsuri active potențiale ale proteinei [28] .

Note

  1. Rost B. , Liu J. , Nair R. , Wrzeszczynski K.O. , Ofran Y. Automatic prediction of protein function.  (Engleză)  // Științe celulare și moleculare ale vieții : CMLS. - 2003. - Vol. 60, nr. 12 . - P. 2637-2650. - doi : 10.1007/s00018-003-3114-8 . — PMID 14685688 .
  2. Ashburner M. , Ball CA , Blake JA , Botstein D. , Butler H. , Cherry JM , Davis AP , Dolinski K. , Dwight SS , Eppig JT , Harris MA , Hill DP , Issel-Tarver L. , Kasarskis A. , Lewis S. , Matese JC , Richardson JE , Ringwald M. , Rubin GM , Sherlock G. Gene ontology: tool for the unification of biology. Consorțiul de ontologie genetică.  (engleză)  // Genetica naturii. - 2000. - Vol. 25, nr. 1 . - P. 25-29. - doi : 10.1038/75556 . — PMID 10802651 .
  3. 1 2 Gabaldón T. , Huynen MA Predicția funcției proteinelor și a căilor în era genomului.  (Engleză)  // Științe celulare și moleculare ale vieții : CMLS. - 2004. - Vol. 61, nr. 7-8 . - P. 930-944. - doi : 10.1007/s00018-003-3387-y . — PMID 15095013 .
  4. du Plessis L. , Skunca N. , Dessimoz C. The what, where, how and why of gene ontology--a primer for bioinformaticiens.  (engleză)  // Briefings în bioinformatică. - 2011. - Vol. 12, nr. 6 . - P. 723-735. doi : 10.1093 / bib/bbr002 . — PMID 21330331 .
  5. Reeck GR , de Haën C. , Teller DC , Doolittle RF , Fitch WM , Dickerson RE , Chambon P. , McLachlan AD , Margoliash E. , Jukes TH „Omologie” în proteine ​​și acizi nucleici: o confuzie terminologică și o cale de ieșire din ea.  (engleză)  // Cell. - 1987. - Vol. 50, nr. 5 . - P. 667. - PMID 3621342 .
  6. ^ Whisstock JC , Lesk AM Predicția funcției proteinei din secvența și structura proteinelor.  (engleză)  // Recenzii trimestriale de biofizică. - 2003. - Vol. 36, nr. 3 . - P. 307-340. — PMID 15029827 .
  7. Platt A. , Ross HC , Hankin S. , Reece RJ Inserția a doi aminoacizi într-un inductor transcripțional îl transformă într-o galactokinază.  (engleză)  // Proceedings of the National Academy of Sciences of the United States of America. - 2000. - Vol. 97, nr. 7 . - P. 3154-3159. — PMID 10737789 .
  8. Finn RD , Mistry J. , Tate J. , Coggill P. , Heger A. , ​​Pollington JE , Gavin OL , Gunasekaran P. , Ceric G. , Forslund K. , Holm L. , Sonnhammer EL , Eddy SR , Bateman A. Baza de date a familiilor de proteine ​​Pfam.  (engleză)  // Cercetarea acizilor nucleici. - 2010. - Vol. 38.-P. D211-222. doi : 10.1093 / nar/gkp985 . — PMID 19920124 .
  9. Fang H. , Gough J. DcGO: baza de date de ontologii centrate pe domenii pe funcții, fenotipuri, boli și multe altele.  (engleză)  // Cercetarea acizilor nucleici. - 2013. - Vol. 41.-P. D536-544. - doi : 10.1093/nar/gks1080 . — PMID 23161684 .
  10. Sleator RD , Walsh P. O prezentare generală a predicției funcției proteinelor in silico.  (engleză)  // Arhivele de microbiologie. - 2010. - Vol. 192, nr. 3 . - P. 151-155. - doi : 10.1007/s00203-010-0549-9 . — PMID 20127480 .
  11. ^ Sigrist CJ , Cerutti L. , de Castro E. , Langendijk-Genevaux PS , Bulliard V. , Bairoch A. , Hulo N. PROSITE, a protein domain database for functional characterization and adnotation.  (engleză)  // Cercetarea acizilor nucleici. - 2010. - Vol. 38.-P. D161-166. doi : 10.1093 / nar/gkp885 . — PMID 19858104 .
  12. Menne KM , Hermjakob H. , Apweiler R. O comparație a metodelor de predicție a secvenței semnalului folosind un set de testare de peptide semnal.  (engleză)  // Bioinformatică. - 2000. - Vol. 16, nr. 8 . - P. 741-742. — PMID 11099261 .
  13. Petersen TN , Brunak S. , von Heijne G. , Nielsen H. SignalP 4.0: discriminarea peptidelor semnal din regiunile transmembranare.  (Engleză)  // Metode de natură. - 2011. - Vol. 8, nr. 10 . - P. 785-786. - doi : 10.1038/nmeth.1701 . — PMID 21959131 .
  14. Berman HM , Westbrook J. , Feng Z. , Gilliland G. , Bhat TN , Weissig H. , Shindyalov IN , Bourne PE The Protein Data Bank.  (engleză)  // Cercetarea acizilor nucleici. - 2000. - Vol. 28, nr. 1 . - P. 235-242. — PMID 10592235 .
  15. Ye Y. , Godzik A. FATCAT: un server web pentru compararea flexibilă a structurilor și căutarea similarității structurii.  (engleză)  // Cercetarea acizilor nucleici. - 2004. - Vol. 32. - P. 582-585. doi : 10.1093 / nar/gkh430 . — PMID 15215455 .
  16. Shindyalov IN , Bourne PE Alinierea structurii proteinelor prin extensie combinatorie incrementală (CE) a căii optime.  (engleză)  // Ingineria proteinelor. - 1998. - Vol. 11, nr. 9 . - P. 739-747. — PMID 9796821 .
  17. ^ Wang S. , Ma J. , Peng J. , Xu J. Protein structure alignment beyond spatial proximity.  (engleză)  // Rapoarte științifice. - 2013. - Vol. 3. - P. 1448. - doi : 10.1038/srep01448 . — PMID 23486213 .
  18. ^ Porter CT , Bartlett GJ , Thornton JM The Catalytic Site Atlas: o resursă de situsuri catalitice și reziduuri identificate în enzime folosind date structurale.  (engleză)  // Cercetarea acizilor nucleici. - 2004. - Vol. 32.—P. D129–133. - doi : 10.1093/nar/gkh028 . — PMID 14681376 .
  19. ^ Eisenberg D. , Marcotte EM , Xenarios I. , Yeates TO Protein function in the post-genomic era. (engleză)  // Natură. - 2000. - Vol. 405, nr. 6788 . - P. 823-826. - doi : 10.1038/35015694 . PMID 10866208 .  
  20. Marcotte EM , Pellegrini M. , Ng HL , Rice DW , Yeates TO , Eisenberg D. Detecting protein function and protein-protein interactions from genom sequences.  (engleză)  // Știință (New York, NY). - 1999. - Vol. 285, nr. 5428 . - P. 751-753. — PMID 10427000 .
  21. Overbeek R. , Fonstein M. , D'Souza M. , Pusch GD , Maltsev N. The use of gene clusters to infer functional coupling.  (engleză)  // Proceedings of the National Academy of Sciences of the United States of America. - 1999. - Vol. 96, nr. 6 . - P. 2896-2901. — PMID 10077608 .
  22. ^ Lee JM , Sonnhammer EL Analiza grupării genomice a căilor la eucariote. (engleză)  // Cercetarea genomului. - 2003. - Vol. 13, nr. 5 . - P. 875-882. - doi : 10.1101/gr.737703 . PMID 12695325 .  
  23. Walker MG , Volkmuth W. , Sprinzak E. , Hodgson D. , Klingler T. Prediction of gene function by genome-scale expression analysis: prostată cancer-associated genes.  (engleză)  // Cercetarea genomului. - 1999. - Vol. 9, nr. 12 . - P. 1198-1203. — PMID 10613842 .
  24. Klomp JA , Furge KA Potrivirea la nivel de genom a genelor cu rolurile celulare folosind modele de vinovăție prin asociere derivate din analiza unui singur eșantion.  (engleză)  // Note de cercetare BMC. - 2012. - Vol. 5. - P. 370. - doi : 10.1186/1756-0500-5-370 . — PMID 22824328 .
  25. Eksi R., Li Hong-Dong, Menon R., Wen Yuchen, Omenn G. S., Kretzler M., Guan Yuanfang.  Funcții de diferențiere sistematică pentru izoforme splicate alternativ prin integrarea datelor ARN-seq  // Biologie computațională PLOS . - 2013. - Vol. 9, nr. 11. - P. e1003314. - doi : 10.1371/journal.pcbi.1003314 . — PMID 24244129 .
  26. ^ Wang G. , MacRaild CA , Mohanty B. , Mobli M. , Cowieson NP , Anders RF , Simpson JS , McGowan S. , Norton RS , Scanlon MJ . peptida inhibitoare. (Engleză)  // Public Library of Science ONE. - 2014. - Vol. 9, nr. 10 . — P. e109674. - doi : 10.1371/journal.pone.0109674 . PMID 25343578 .  
  27. Clodfelter KH , Waxman DJ , Vajda S. Cartografierea computerizată cu solvent dezvăluie importanța modificărilor conformaționale locale pentru specificitatea largă a substratului în citocromii P450 de mamifere.  (engleză)  // Biochimie. - 2006. - Vol. 45, nr. 31 . - P. 9393-9407. doi : 10.1021 / bi060343v . — PMID 16878974 .
  28. Mattos C. , Ringe D. Localizarea și caracterizarea site-urilor de legare pe proteine.  (engleză)  // Biotehnologia naturii. - 1996. - Vol. 14, nr. 5 . - P. 595-599. - doi : 10.1038/nbt0596-595 . — PMID 9630949 .

Link -uri