O familie de proteine este un grup de proteine înrudite evolutiv care au o secvență de aminoacizi omoloagă . Acest termen este aproape sinonim cu termenul „familie de gene”, deoarece dacă proteinele au secvențe de aminoacizi omoloage, atunci genele care le codifică trebuie să prezinte, de asemenea, un grad semnificativ de omologie în secvențele de nucleotide ADN . Acest termen nu trebuie confundat cu termenul „ familie ” din taxonomia speciilor de organisme vii .
Ca și în cazul multor alți termeni biologici, utilizarea unei familii de proteine este foarte dependentă de context: se poate referi la un grup mare de proteine cu omologie subtilă de secvență primară sau la un grup foarte restrâns de proteine cu aproape aceeași structură, funcție și aceeași structură primară. organizare tridimensională sau orice alt caz intermediar. Pentru a face distincția între aceste două situații extreme, Dyhoff a introdus conceptul de superfamilie de proteine [1] [2] [3] . De-a lungul timpului, au fost inventate concepte precum clasă , grup , clan și subfamilie , dar toate au suferit aceeași soartă ambiguă. În uzul obișnuit, se înțelege că o superfamilie (omologie structurală) conține familii (omologie de secvență primară) care conține subfamilii. Prin urmare, o superfamilie precum clanul proteazei PA are un nivel mai scăzut de secvențe conservate decât una dintre familiile sale membre, cum ar fi familia C04. Pare puțin probabil ca în viitorul apropiat să apară o definiție precisă cu criterii clare și, prin urmare, cititorul va trebui să decidă singur cum să înțeleagă exact acești termeni în fiecare context specific.
.
Conceptul de familie de proteine a apărut într-o perioadă în care încă existau foarte puține proteine cu o structură primară și terțiară cunoscută; au fost investigate în principal proteine mici, cu un singur domeniu, cum ar fi mioglobina , hemoglobina și citocromul c . De atunci, s-a descoperit că multe proteine conțin multe unități sau domenii independente structural și funcțional . Datorită recombinării genelor care a avut loc în timpul evoluției, diferite domenii s-au dezvoltat independent. Din acest motiv, în ultimii ani, s-a acordat din ce în ce mai multă atenție familiilor de domenii proteice. O serie de resurse online sunt dedicate definirii și catalogării unor astfel de domenii (vezi lista de la sfârșitul articolului).
Părțile fiecărei proteine au constrângeri structurale diferite (adică caracteristici structurale necesare pentru a menține structura și funcția proteinei). De exemplu, pentru funcționarea situsului activ al unei enzime , este necesar ca anumite resturi de aminoacizi să fie localizate foarte precis unele față de altele în spațiul tridimensional. Pe de altă parte, interacțiunea proteină-proteină poate avea loc pe o suprafață mare și poate fi limitată de hidrofobicitatea sau hidrofilitatea aminoacizilor. Părțile importante din punct de vedere funcțional ale proteinelor evoluează mai lent decât regiunile neconservate, cum ar fi buclele de suprafață și dau naștere la blocuri de secvențe conservate. Astfel de blocuri sunt de obicei numite motive . Ca și în cazul precedent, o serie de resurse online sunt dedicate definirii și catalogării acestora.
Conform ideilor actuale, familiile de proteine pot fi formate în două moduri. În primul caz, specia parentală este împărțită în două specii descendente izolate genetic, ceea ce permite genei/proteinei să acumuleze în mod independent variații ( mutații ) în aceste două linii. Ca rezultat, se formează o familie de proteine ortologe , având de obicei un motiv conservat comun. A doua cale este duplicarea genelor și apariția unui paralog . Deoarece prima copie a genei este încă capabilă să-și îndeplinească funcția, duplicatul este liber să se schimbe și să dobândească noi funcții (prin mutații aleatorii). Unele familii de gene/proteine, în special la eucariote , suferă o copiere sau o reducere semnificativă în timpul evoluției, uneori împreună cu dublarea întregului genom.
Pe măsură ce numărul total de proteine cu o structură cunoscută crește și interesul pentru analiza proteomică crește, se încearcă organizarea proteinelor în familii și descrierea domeniilor și motivelor acestora. Identificarea fiabilă a familiilor de proteine este vitală pentru analiza filogenetică , determinarea funcției proteinelor și studiul multiplicității funcțiilor proteinelor într-un grup filogenetic dat. Inițiativa Funcție Enzimatică (EFI) folosește familiile și superfamiliile de proteine ca bază pentru crearea unei strategii pentru distribuția taxonomică la scară largă a enzimelor cu funcție necunoscută [4] .
Mijloacele algoritmice pentru stabilirea unei familii de proteine se bazează pe conceptul de similaritate. De cele mai multe ori, singura similitudine la care avem acces este omologia structurii primare.
Există multe baze de date biologice dedicate familiilor de proteine care vă permit să determinați rapid dacă o proteină nou descoperită și identificată este membru al unei familii de proteine deja cunoscute. În special:
Există și motoare de căutare specializate: