Predicția funcției proteinelor - determinarea rolului biologic al unei proteine și a semnificației în contextul unei celule . Predicția funcției se face pentru proteinele prost înțelese sau pentru proteinele ipotetice prezise din datele secvenței genomice . Sursa de informații pentru predicție poate fi omologia secvențelor de nucleotide , profilurile de expresie genică , structura domeniului proteinelor, analiza intelectuală a textelor publicațiilor, profilurile filogenetice și fenotipice , interacțiunile proteină-proteină .
Funcția proteinelor este un termen foarte larg: rolurile proteinelor variază de la cataliza reacțiilor biochimice la transducția semnalului și transportul celular , iar o singură proteină poate juca un rol specific în mai multe procese celulare [1] .
În general, funcția poate fi gândită ca „tot ceea ce se întâmplă cu sau cu ajutorul unei proteine”. Proiectul Gene Ontology a propus o clasificare utilă a funcțiilor bazată pe o listă (vocabular) de termeni bine definiți împărțiți în trei categorii principale - funcții moleculare , procese biologice și componente celulare [2] . Din această bază de date este posibil, după numele proteinei sau numărul de identificare al acesteia, să se găsească termenii „Ontologiei genelor” atribuite acesteia sau adnotări făcute pe baza datelor calculate sau experimentale.
În ciuda faptului că astăzi metode moderne precum analiza microarray , interferența ARN și analiza cu doi hibridi sunt folosite pentru a demonstra experimental funcțiile unei proteine, tehnologiile de secvențiere au avansat atât de mult încât ritmul de caracterizare experimentală a proteinelor deschise rămâne cu mult în urma ritmului. de descoperire de noi secvenţe [3] . Prin urmare, adnotarea noilor secvențe de proteine se va realiza în principal prin predicție bazată pe metode computaționale, deoarece în acest fel este posibil să se caracterizeze secvențe mult mai rapid și simultan pentru mai multe gene /proteine. Primele tehnici de predicție a caracteristicilor s-au bazat pe similitudinea proteinelor omoloage cu caracteristicile cunoscute (așa-numita predicție a caracteristicilor bazate pe omologie ). Dezvoltarea ulterioară a metodelor a condus la apariția predicțiilor bazate pe contextul genomic și pe structura moleculei proteice , ceea ce a făcut posibilă extinderea gamei de date obținute și combinarea metodelor bazate pe diferite tipuri de date pentru a obține cele mai complete. imagine a rolului proteinei [3] . Valoarea și performanța predicției computaționale a funcției genelor este evidențiată de faptul că, începând cu anul 2010, 98% din adnotările Ontologiei genelor au fost realizate pe baza extragerii automate din alte baze de date de adnotări și doar 0,6% pe baza datelor experimentale [4] .
Proteinele cu secvențe similare sunt de obicei omoloage [5] și, prin urmare, au o funcție similară. Prin urmare, în genomii secvenționați recent, proteinele sunt de obicei adnotate prin analogie cu secvențele de proteine similare din alte genomi. Cu toate acestea, proteinele strâns înrudite nu îndeplinesc întotdeauna aceeași funcție [6] , de exemplu, proteinele de drojdie Gal1 și Gal3 sunt paralogi cu 73% și 92% similaritate, care au dobândit funcții foarte diferite în timpul evoluției : de exemplu, Gal1 este o galactokinază , iar Gal3 este o transcripție inductoră [7] . Din păcate, nu există un prag clar pentru gradul de similitudine a secvenței pentru prezicerea în siguranță a caracteristicilor; multe proteine cu aceeași funcție au asemănări subtile, în timp ce există unele care sunt foarte asemănătoare ca succesiune, dar complet diferite ca funcție.
Dezvoltarea bazelor de date cu domenii proteice precum Pfam [8] face posibilă găsirea de domenii deja cunoscute în secvența dorită pentru a sugera posibile funcții. Resursa dcGO [9] conține adnotări atât pentru domenii individuale, cât și pentru supradomenii (adică, combinații de două sau mai multe domenii consecutive), ceea ce face predicția mai aproape de realitate. De asemenea, în cadrul domeniilor proteice în sine există secvențe caracteristice mai scurte asociate cu anumite funcții (așa-numitele motive ) [10] , a căror prezență în proteina dorită poate fi determinată prin căutarea în baze de date de motive, precum PROSITE [11] . Motivele pot fi, de asemenea, folosite pentru a prezice localizarea intracelulară a unei proteine: prezența unor peptide cu semnal scurt specifice determină la ce organele va fi transportată proteina după sinteză și au fost dezvoltate multe resurse pentru a identifica astfel de secvențe semnal [12] , cum ar fi SignalP, care a fost actualizat de mai multe ori de-a lungul anilor.dezvoltarea metodelor [13] . Astfel, unele caracteristici ale funcției proteinelor pot fi prezise fără comparație cu secvențele omoloage de lungime completă.
Deoarece structura 3D a unei proteine este de obicei mai conservată decât secvența proteinei, asemănarea structurilor poate indica asemănarea și funcția proteinelor. Multe programe au fost dezvoltate pentru a căuta pliuri similare în cadrul Protein Data Bank [14] , de exemplu, FATCAT [15] , CE [16] , DeepAlign [17] . În cazul în care nu există o structură rezolvată pentru secvența de proteină dorită, mai întâi este compilat un model tridimensional probabil al secvenței, pe baza căruia funcția proteinei este ulterior prezisă; așa funcționează, de exemplu, serverul de predicție a funcției proteinei RaptorX. În multe cazuri, în locul structurii întregii proteine, căutarea este efectuată pe structurile motivelor individuale care conțin, de exemplu, situsul de legare a ligandului sau situsul activ al enzimei . Pentru a adnota acestea din urmă în secvențe noi de proteine, a fost dezvoltată baza de date Catalytic Site Atlas [18] .
Multe dintre metodele recente de predicție nu se bazează pe comparații de secvență sau structură așa cum s-a descris anterior, ci pe corelația dintre noile gene/proteine și cele deja adnotate: pentru fiecare genă, este compilat un profil filogenetic (prin prezență sau absență în genomi diferiți). , care sunt apoi comparate pentru stabilirea relațiilor funcționale (se presupune că genele cu aceleași profiluri sunt legate funcțional între ele) [19] . În timp ce metodele bazate pe omologie sunt adesea folosite pentru a stabili funcții moleculare, predicția bazată pe contextul genomic poate fi utilizată pentru a sugera procesul biologic în care este implicată o proteină. De exemplu, proteinele implicate în aceeași cale de transducție a semnalului au un context genomic comun între specii.
Fuziunea genelorCând două (sau mai multe) gene care codifică diferite proteine dintr-un organism sunt combinate într-o genă dintr-un alt organism în timpul evoluției, ei spun că a avut loc o fuziune a genelor (respectiv, în procesul invers, o separare a genelor) [20] . Acest fenomen a fost exploatat în căutarea de omologi pentru toate secvențele de proteine E. coli , când s-a descoperit că mai mult de 6000 de perechi de secvențe de E. coli non-omolog au împărtășit omologie cu gene individuale din alți genomi, indicând o potențială interacțiune între proteinele din fiecare. a perechilor., care nu poate fi prezis doar din omologie.
Colocalizare/co-exprimareLa procariote , în procesul de evoluție, se păstrează adesea grupuri de gene apropiate unele de altele, care, de regulă, codifică proteine care interacționează între ele sau fac parte din același operon. Prin urmare, pentru a prezice asemănarea funcțională dintre proteine, cel puțin la procariote, se poate folosi proximitatea genelor de pe cromozom (o metodă bazată pe proximitatea genelor) [21] . De asemenea, în unele genomi eucariote , inclusiv Homo sapiens , pentru anumite căi biologice, s-a remarcat localizarea apropiată a genelor incluse în acestea [22] , care, odată cu dezvoltarea tehnicilor, poate fi utilă în studierea interacțiunilor proteinelor la eucariote.
Genele implicate în aceleași procese sunt, de asemenea, adesea co-transcrise, astfel încât co-exprimarea cu proteine cunoscute poate sugera o funcție similară a proteinei neadnotate. Pe baza acestui fapt, sunt în curs de dezvoltare așa-numiții algoritmi „vinovăție prin asociere” , care sunt utilizați pentru a analiza cantități mari de date de secvență și pentru a identifica proteine necunoscute prin similitudine cu modelele de expresie ale genelor deja cunoscute [23] [24] . Studiile privind vinovăția de complicitate compară adesea un grup de gene candidate cu funcție necunoscută cu un grup țintă (de exemplu, gene puternic asociate cu o anumită boală) și pe baza datelor colectate (de exemplu, co-expresia genică, interacțiuni proteină-proteină sau profiluri filogenetice). ) clasifică genele candidate în funcție de gradul lor de similitudine cu grupul țintă. De exemplu, deoarece multe proteine sunt multifuncționale, genele care le codifică pot aparține mai multor grupuri țintă în același timp, prin urmare, astfel de gene vor fi detectate mai des în studiile de „vinovăție prin complicitate”, iar astfel de predicții nu sunt specifice.
Odată cu acumularea datelor de secvențiere a ARN , care pot fi utilizate pentru a evalua profilurile de expresie ale izoformelor de proteine obținute prin splicing alternativ , au fost dezvoltați algoritmi de învățare automată pentru a prezice funcții la nivel de izoforme [25] .
Una dintre problemele asociate cu predicția funcției proteinei este detectarea situsului activ, complicată de faptul că unele situsuri active nu se formează până când proteina suferă o modificare conformațională cauzată de legarea moleculelor mici, cum ar fi moleculele de solvent. Cele mai multe structuri de proteine au fost obținute prin analiza de difracție cu raze X , care necesită cristale de proteine pure, ca urmare, modificările conformaționale necesare pentru formarea situsurilor active nu pot fi urmărite în modelele tridimensionale existente ale proteinelor. Topografia computerizată cu solvent folosește așa-numitele sonde ( molecule organice mici ), care, în procesul de simulare pe computer, „se mișcă” de-a lungul suprafeței proteinei în căutarea unor potențiale locuri de legare și a grupării ulterioare. De regulă, sunt utilizate mai multe sonde diferite pentru a obține cât mai multe structuri conformaționale diferite ale proteinei sondei. Structurile rezultate sunt evaluate prin energia liberă medie. După multiple simulări cu diverse sonde, locul în care se formează cel mai mare număr de clustere este identificat cu locul activ al proteinei [27] .
Această metodă este o adaptare computerizată a metodei umede dintr-o lucrare din 1996. La suprapunerea structurilor proteice obținute prin dizolvarea în diverși solvenți organici, s-a constatat că moleculele de solvent se acumulează cel mai adesea în centrul activ al proteinei. Această lucrare a fost făcută pentru a elimina moleculele de apă rămase care apar în hărțile de densitate electronică obținute prin difracția cu raze X: interacționând cu proteina, acestea tind să se acumuleze în regiunile polare ale proteinei. Acest lucru a condus la ideea spălării cristalului de proteină purificat în diverși solvenți (cum ar fi etanol , izopropanol ) pentru a determina unde se grupează moleculele de solvent. Solvenții pot fi aleși în funcție de moleculele cu care proteina poate interacționa (de exemplu, alegerea etanolului ca sondă poate identifica interacțiunea proteinei cu serină , alegerea izopropanolului cu treonina etc.). Este foarte important ca cristalul proteic să-și păstreze structura terțiară în fiecare solvent. După ce procedura de spălare a fost efectuată cu mai mulți solvenți, se obțin date pe baza cărora pot fi presupuse situsuri active potențiale ale proteinei [28] .