Un motiv în biologia moleculară este o secvență relativ scurtă de nucleotide sau aminoacizi care se modifică puțin în timpul evoluției și, cel puțin probabil, are o anumită funcție biologică [1] [2] [3] . Un motiv este uneori înțeles nu ca o secvență specifică, ci ca o gamă de secvențe descrise cumva, fiecare dintre acestea fiind capabilă să îndeplinească o anumită funcție biologică a unui motiv dat [4] .
Motivele sunt omniprezente în organismele vii și îndeplinesc multe funcții vitale, cum ar fi reglarea transcripției și translației (în cazul motivelor nucleotidice), modificarea post-translațională și localizarea celulară a proteinelor și determină parțial proprietățile funcționale ale acestora ( fermoar leucină ) [ 2] [5] . Ele sunt utilizate pe scară largă în bioinformatică pentru a prezice funcțiile genelor și proteinelor, pentru a construi hărți de reglare și sunt importante pentru multe probleme din ingineria genetică și biologia moleculară în general [6] [7] [8] .
Datorită importanței practice a motivelor, au fost dezvoltate atât metode bioinformatice pentru căutarea lor ( MEME , Gibbs Sampler), cât și metode de căutare in vivo pentru motive ( ChIP-seq , ChIP-exo). Acestea din urmă oferă destul de des coordonatele aproximative ale motivelor și rezultatele lor sunt apoi rafinate prin metode bioinformatice [ 1 ] .matrice[6]2][ [2] .
Motivul ar trebui să fie distins de zonele conservatoare din organisme strâns înrudite care nu au funcții biologice semnificative, unde procesul de mutație nu a avut timp să le schimbe suficient [9] .
În cazul ADN -ului , motivele sunt cel mai adesea secvențe scurte care sunt site-uri de legare pentru proteine, cum ar fi nucleazele și factorii de transcripție , sau sunt implicate în procese de reglare importante deja la nivel de ARN , cum ar fi aterizarea ribozomilor , procesarea ARNm și terminarea transcripției . [4] .
Studiul motivelor din ADN a devenit posibil datorită apariției în 1973 [10] a procedurii de secvențiere ADN (determinarea secvenței de nucleotide a unui fragment de ADN). Mai întâi au fost definite secvențele operatorului lac și operatorului lambda [11] . Cu toate acestea, înainte de apariția unor metode de secvențiere mai productive [12] , numărul de secvențe de motive a rămas destul de mic. Până la sfârșitul anilor 1970, existau multe exemple de secvențe (situsuri) mutante care leagă factori de transcripție și secvențe cu specificitate modificată [13] . Odată cu creșterea numărului de secvențe, au început să se dezvolte metode de predicție teoretică a motivelor. În 1982, a fost construită pentru prima dată o matrice poziție-greutate (PWM) a motivului site-ului de inițiere a translației. Folosind PVM-ul construit, au fost prezise alte site-uri de inițiere a translației [14] . Această abordare s-a dovedit a fi destul de puternică și este încă folosită în diferite forme pentru a căuta motive cunoscute în genomi, iar metodele specifice diferă doar prin tipul funcției de greutate [4] . Cu toate acestea, abordarea bazată pe construcția PWM pe baza secvențelor existente nu a permis găsirea de motive fundamental noi, ceea ce este o sarcină mai dificilă. Primul algoritm care a rezolvat această problemă a fost propus de Gallas și colegii săi în 1985 [15] . Acest algoritm s-a bazat pe găsirea de cuvinte comune într-un set de secvențe și a dat un procent mare de fals negative, dar a devenit baza pentru o întreagă familie de algoritmi [16] . Au fost dezvoltate ulterior metode probabilistice mai precise: algoritmul MEME bazat pe procedura de maximizare a așteptărilor [17] și algoritmul Gibbs Sampler bazat tot pe procedura de maximizare a așteptărilor [18] . Ambele metode s-au dovedit a fi foarte sensibile și sunt utilizate în prezent pentru a prezice motive în seturi de secvențe.
După dezvoltarea unor instrumente puternice pentru prezicerea motivelor de legare a factorului de transcripție și stabilirea unei corespondențe între un număr suficient de factori de transcripție și motive, a devenit posibilă prezicerea funcțiilor unui operon care se află aproape de motiv prin specificul factorului de transcripție care se leagă de el, și invers, pentru a prezice factorul de transcripție din genele din operon, aflat lângă un anumit motiv [3] .
Exemple tipice de reglare a transcripției, efectuate cu ajutorul unei proteine care recunoaște un motiv special, sunt:
Unele dintre cele mai cunoscute exemple de reglare translațională de către regulatorii de recunoaștere a motivelor sunt:
Puterea interacțiunii unei proteine sau ARN cu un motiv ADN depinde în primul rând de secvența acestui motiv. Există motive „puternice”, care dau o interacțiune puternică cu o proteină sau ARN, și motive „slabe”, cu care interacțiunea este mai slabă. Este aproape întotdeauna posibil să se obțină așa-numita „secvență de consens” („consens”), adică o astfel de secvență, în fiecare poziție a căreia există o literă care se găsește cel mai adesea în poziția corespunzătoare în secvențele de motive din diferite organisme. Secvența de consens este considerată cea mai puternică, ceea ce este aproape întotdeauna [23] . Din ea se obțin motive mai slabe cu ajutorul unui număr mic (cel mai adesea 1-3) de substituții [24] .
Evoluția puterii motivuluiÎn procesul evoluției, puterea motivelor este reglementată de selecția naturală, iar motivul poate deveni fie mai puternic, fie mai slab [25] . Un exemplu caracteristic de astfel de ajustare a puterii unui motiv este variabilitatea secvenței Shine-Dalgarno (SD). Există o strânsă corelație între cantitatea de proteină tradusă necesară organismului și puterea SD în fața acestuia [8] .
Este important de remarcat faptul că, în cazul SD, deși puterea de legare a proteinei se corelează direct cu puterea de legare a subunității 16S a ribozomului , datorită particularităților inițierii translației, secvența consens nu va garanta neapărat cea mai mare măsură. traducere eficientă (datorită dificultății de a părăsi ribozomul din locul de inițiere). ) [6] . Prin urmare, secvența Shine-Dalgarno conține cel mai adesea 4-5 nucleotide din secvența consens, acestea din urmă având o lungime de aproximativ 7 nucleotide [26] .
Prezența unui motiv care joacă în mod clar un rol semnificativ biologic nu implică întotdeauna prezența unei proteine de reglare. Reglarea poate fi, de asemenea, efectuată prin legarea ARN-ului la o substanță cu greutate moleculară mică . Acest principiu este folosit pentru a construi comutatoare de ARN , structuri formate pe ARN în timpul transcripției și capabile să lege molecule mici [27] [28] . Legarea moleculei afectează capacitatea riboswitch-ului de a opri transcripția sau de a interfera cu traducerea. În acest caz, nu secvența de nucleotide ca atare este importantă, ci prezența nucleotidelor complementare în locurile potrivite din secvență [4] .
Reglarea translației poate fi realizată și numai datorită structurii secundare formate de acidul nucleic .
Adesea, motivele de legare a factorului de transcripție iau forma unor repetări directe ale unor secvențe, repetări inverse sau secvențe palindromice . Acest lucru poate fi explicat prin activitatea factorilor de transcripție sub formă de dimeri proteici, în care fiecare dintre monomeri leagă aceeași secvență. Există și motive de mai mare repetare [6] . O astfel de structură a motivelor asigură o reacție mai ascuțită la schimbările condițiilor externe. De exemplu, dacă legarea depinde de concentrația unei substanțe în celulă, atunci obținem dependența forței de reacție a celulei descrisă de ecuația Michaelis-Menten . Odată cu creșterea numărului de unități de legare a proteinelor (vom presupune că efectul legării proteinei la un motiv se manifestă doar în cazul legării tuturor repetăților), dependența devine din ce în ce mai mult ca un sigmoid , având tendința de Heaviside. funcția la limită , care descrie unul dintre principiile principale ale răspunsului sistemelor vii la multe influențe - legea „all-or-nothing” ( în engleză all-or-nothing law ) [6] , de exemplu, formarea un potenţial de acţiune [31] .
Pentru proteine , trebuie să distingem
Motivele din structura primară sunt similare cu cele din acizii nucleici. Exemple tipice ale acestora sunt:
În proteine, motivele structurale descriu legăturile dintre elementele structurii secundare. Astfel de motive au adesea secțiuni de lungime variabilă, care în unele cazuri pot fi complet absente [22] .
Pe lângă acul de păr beta, se disting multe alte motive, a căror funcție este de a forma cadrul structural al proteinei [43] .
Aproape de termenul de motiv structural al unei proteine este stilul - un aranjament caracteristic al elementelor structurii secundare. Datorită asemănării lor, termenii sunt adesea folosiți unul în loc de altul și linia dintre ei este neclară [43] [44] .
Inițial, există un set de motive din secvențe diferite și sarcina este stabilită [2] :
Există mai multe moduri general acceptate de reprezentare a motivelor [45] . Unele dintre ele sunt potrivite atât pentru proteine, cât și pentru nucleotide, cealaltă parte - numai pentru proteine sau nucleotide.
Un consens strict al unui motiv este un șir format din cele mai reprezentate litere din setul de realizări ale motivului. În practică, nu este indicată doar litera cea mai frecventă dintr-o anumită poziție, ci și, dacă frecvența maximă de apariție a oricărei litere într-o anumită poziție este mai mică decât un anumit prag, atunci x(orice literă a alfabetului) este pusă în acest loc în consens. Printr-un astfel de consens, aproape sigur găsim secvențe care sunt de fapt motive, dar ratăm un număr mare de motive care diferă de consens prin mai multe substituții [2] [4] [9] . Mai jos este un exemplu de consens puternic pentru o regiune motiv de cinci proteine UniProt cu un motiv de fermoar cu leucină (pragul a fost luat egal cu 80%):
Numărul poziției | |||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
ID UniProt | unu | 2 | 3 | patru | 5 | 6 | 7 | opt | 9 | zece | unsprezece | 12 | 13 | paisprezece | cincisprezece |
O35048 | L | S | P | C | G | L | R | L | eu | G | A | H | P | eu | L |
Q6XXX9 | L | G | Q | D | eu | C | D | L | F | eu | A | L | D | V | L |
Q9N298 | L | G | Q | V | T | C | D | L | F | eu | A | L | D | V | L |
Q61247 | L | S | P | L | S | V | A | L | A | L | S | H | L | A | L |
B0BC06 | L | T | eu | G | Q | Y | S | L | Y | A | eu | D | G | T | L |
Consens | L | X | X | X | X | X | X | L | X | X | X | X | X | X | L |
Un consens non-strict este o succesiune de liste de litere care sunt cele mai reprezentate în locul corespunzător. Sunt descrise toate sau cele mai frecvente litere într-o poziție dată (de obicei este setat un prag minim de frecvență) [2] . De fapt, motivul este descris folosind o expresie regulată [4] [9] . Următoarele sunt folosite ca denumiri:
În cazul unei astfel de reprezentări, trebuie să se echilibreze între sensibilitatea consensului (numărul de motive reale pe care le pot găsi) și specificitatea (capacitatea metodei de a respinge secvențele nedorite) [1] . Mai jos este un exemplu de consens non-strict pentru aceleași cinci secvențe de proteine ca și pentru consens puternic (pragul a fost luat egal cu 20%). Vedem că în poziția 10 motivul nu este în întregime obiectiv – leucina ( L) și izoleucina ( I) sunt aminoacizi foarte asemănători în proprietățile lor și ar fi logic să le includem pe ambele în consens.
Numărul poziției | |||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
ID UniProt | unu | 2 | 3 | patru | 5 | 6 | 7 | opt | 9 | zece | unsprezece | 12 | 13 | paisprezece | cincisprezece |
O35048 | L | S | P | C | G | L | R | L | eu | G | A | H | P | eu | L |
Q6XXX9 | L | G | Q | D | eu | C | D | L | F | eu | A | L | D | V | L |
Q9N298 | L | G | Q | V | T | C | D | L | F | eu | A | L | D | V | L |
Q61247 | L | S | P | L | S | V | A | L | A | L | S | H | L | A | L |
B0BC06 | L | T | eu | G | Q | Y | S | L | Y | A | eu | D | G | T | L |
Consens | L | [SG] | [PQ] | X | X | C | D | L | F | eu | A | [LH] | D | V | L |
PROSITE folosește IUPAC pentru a desemna coduri de aminoacizi cu o singură literă, cu excepția caracterului de concatenare „-” utilizat între elementele de model. Când se utilizează PROSITE, se adaugă mai multe simboluri pentru a facilita reprezentarea motivului proteic [46] :
Dacă e este un șablon de element și mși nsunt două numere întregi zecimale și m<= n, atunci:
Exemplu: un motiv de domeniu cu o semnătură de tip C2H2 a unui deget de zinc arată astfel: C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H[47]
O matrice de greutate pozițională este o matrice ale cărei coloane corespund pozițiilor din succesiune și ale cărei rânduri corespund literelor din alfabet. Valorile acestei matrice sunt frecvențele (sau funcțiile monotone ale frecvențelor) de apariție a unei anumite litere într-o poziție dată în secvență. În acest caz, de obicei, pentru a exclude frecvențele zero, la numărul de apariții ale fiecărei litere a poziției se adaugă un anumit număr, pe baza distribuției a priori a literelor în secvențe similare [4] (de exemplu, corecția lui Laplace). este introdus [48] ). Această abordare, ca și cele precedente, presupune implicit că pozițiile din motiv sunt independente, ceea ce nu se observă de fapt nici măcar pentru secvențele de nucleotide [2] [4] .
Să presupunem că avem 7 secvențe ADN reprezentând motivul [9] :
Numărul poziției | ||||||||
---|---|---|---|---|---|---|---|---|
Număr
secvente |
unu | 2 | 3 | patru | 5 | 6 | 7 | opt |
unu | A | T | C | C | A | G | C | T |
2 | G | G | G | C | A | A | C | T |
3 | A | T | G | G | A | T | C | T |
patru | A | A | G | C | A | A | C | C |
5 | T | T | G | G | A | A | C | T |
6 | A | T | G | C | C | A | T | T |
7 | A | T | G | G | C | A | C | T |
Matricea pozițională pentru ei va avea următoarea formă ( +1 - ținând cont de regula Laplace) [9] :
Numărul poziției | ||||||||
---|---|---|---|---|---|---|---|---|
Nucleotide | unu | 2 | 3 | patru | 5 | 6 | 7 | opt |
A | 5+1 | 1+1 | 0+1 | 0+1 | 5+1 | 5+1 | 0+1 | 0+1 |
C | 1+1 | 0+1 | 1+1 | 4+1 | 2+1 | 0+1 | 6+1 | 1+1 |
G | 0+1 | 1+1 | 6+1 | 3+1 | 0+1 | 1+1 | 0+1 | 0+1 |
T | 1+1 | 5+1 | 0+1 | 0+1 | 0+1 | 1+1 | 1+1 | 6+1 |
Frecvențele pot fi normalizate la numărul total al secvenței, obținându-se astfel o estimare a probabilității de a întâlni o anumită nucleotidă într-o anumită secvență (de fapt, PWM este de obicei stocată într-o astfel de reprezentare) [2] :
Numărul poziției | ||||||||
---|---|---|---|---|---|---|---|---|
Nucleotide | unu | 2 | 3 | patru | 5 | 6 | 7 | opt |
A | 0,55 | 0,18 | 0,09 | 0,09 | 0,55 | 0,55 | 0,09 | 0,09 |
C | 0,18 | 0,09 | 0,18 | 0,45 | 0,27 | 0,09 | 0,64 | 0,18 |
G | 0,09 | 0,18 | 0,64 | 0,36 | 0,09 | 0,18 | 0,09 | 0,09 |
T | 0,18 | 0,55 | 0,09 | 0,09 | 0,09 | 0,18 | 0,18 | 0,64 |
Pentru o mai mare acuratețe, este posibil să se ia în considerare dependența pozițiilor învecinate în motiv folosind modele Markov ascunse de ordinul întâi și superior [2] [4] . Această abordare este plină de unele dificultăți, deoarece aplicarea ei necesită un eșantion suficient de reprezentativ de opțiuni de motivare. În cazul exemplului anterior, avem:
În cazul motivelor care conțin regiuni de dimensiune variabilă și compoziție de nucleotide, ar fi posibil să se introducă un model separat pentru aceste regiuni, separat pentru cele conservatoare, și apoi să le „lipească” într-un singur model prin adăugarea de stări intermediare „silențioase” și tranziție. probabilități către și de la ei.le [4] .
În cazul motivelor care formează structuri secundare (întrerupătoare ARN) în ARN, este important să se țină cont de posibilitatea împerecherii nucleotidelor în elementele structurii secundare . SCS face față acestei sarcini . Cu toate acestea, antrenamentul SCS necesită o dimensiune a eșantionului și mai mare decât HMM și este asociat cu o serie de dificultăți [4] .
În cazurile în care viteza căutării este importantă și este acceptabil să omitem unele apariții ale motivului nostru, cercetătorii recurg la diverse trucuri care fac posibilă criptarea structurii spațiale a unui biopolimer (ARN sau proteină) cu o acuratețe acceptabilă prin extinderea alfabetul [49] .
Reprezentarea motivelor în proteine prin codificarea structurii spațiale a proteineiOperonul LacI represor al lactozei Escherichia coli ( PDB 1lcc lanț A) și gena activatoare a catabolismului ( PDB 3gap lanț A) au ambele un motiv helix-turn-helix, dar secvențele lor de aminoacizi nu sunt foarte asemănătoare. Un grup de cercetători a dezvoltat un cod pe care l-au numit „codul de lanț 3D”, care reprezintă structura unei proteine sub forma unui șir de litere. Această schemă de codare, potrivit autorilor, arată asemănarea dintre proteine mult mai clar decât secvențele de aminoacizi [49] :
Exemplu : compararea celor două proteine menționate mai sus folosind această schemă de codare [49] :
ID PDB | cod 3D | Secvența de aminoacizi |
---|---|---|
1lccA | TWWWWWWWKCLKWWWWWWG | LYDVAEYAGVSYQTVSRVV |
3gapA | KWWWWWWGKCFKWWWWWWW | RQEIGQIVGCSRETVGRIL |
Comparaţie | Există o asemănare clară între proteine | Proteinele diferă foarte mult în secvența lor de aminoacizi. |
unde Wcorespunde unei elice α și Eși Dcorespunde unei catene β.
Reprezentarea motivelor în ARN folosind o structură secundară (foldedBlast)În această lucrare, pentru a aplica un algoritm de căutare similar cu BLAST , alfabetul nucleotidelor (ATGC, deoarece căutarea a fost efectuată în genom) a fost extins prin combinarea nucleotidelor și a trei caractere care caracterizează direcția lor presupusă de împerechere [50] :
Astfel, s-au obținut 12 litere din noul alfabet (4 nucleotide * 3 „direcții”) care, atunci când sunt utilizate corect, permit o căutare asemănătoare BLAST, numită de autori foldedBlast [50] .
Pentru reprezentarea vizuală a motivelor, se folosește adesea sigla secvențelor - o reprezentare grafică a conservatorismului fiecărei poziții din motiv. În același timp, această vizualizare poate fi utilizată cu succes atât în cazul reprezentării motivului sub forma unei matrice de consens sau de greutate pozițională , cât și pentru reprezentarea modelului de secvență HMM, așa cum se face în baza de date a familiei de proteine Pfam [51] .
În plus, dacă, de exemplu, luminozitatea fiecărei nucleotide dintr-un motiv este utilizată ca un indicator al frecvenței cu care o nucleotidă complementară îi corespunde în același motiv , atunci informațiile despre structura secundară a motivului pot fi, de asemenea, reprezentate parțial. Acest lucru se face, de exemplu, în serviciul web bioinformatic RegPredict [52] .
În cazul căutării în secvențele de nucleotide a motivelor responsabile pentru legarea proteinelor reglatoare, ei folosesc ideea că ele [motivele] se schimbă relativ lent, ceea ce înseamnă că dacă luăm organisme care sunt suficient de departe unele de altele, astfel încât mutațiile să se poată acumula în poziții foarte variabile ale secvențelor lor, iar site-urile nu au avut încă timp să se schimbe prea mult, atunci puteți folosi regula „ceea ce este conservator este important” [2] . După obținerea secvențelor în care este de așteptat prezența unui motiv specific, se folosesc în principal două abordări pentru găsirea unei secvențe de motive - amprenta filogenetică și reducerea problemei la problema găsirii unui motiv inserat .
Amprenta filogenetică este o metodă semi-automatizată. Secvențele sunt procesate de programul de aliniere multiplă , iar în alinierea rezultată, cercetătorul caută modele care pot fi considerate motive. Unul dintre cele mai de succes exemple de aplicare a acestei abordări poate fi considerat descifrarea codificării peptidelor nonribozomale de către sintetazele peptidice nonribozomale (NRPS) [2] [53] [54] . Această metodă nu permite automatizarea completă a procesului de căutare a motivelor, dar, în același timp, nu are limitări atât de severe ca următoarele.
În cazul motivelor fără (aproape fără) rupturi și fără (aproape fără) secțiuni de lungime variabilă, este posibil să se reducă problema căutării unui motiv la sarcina de căutare a unui motiv inserat ( ing. Căutare motiv plantat ) [2] [9] .
Formularea problemei este următoarea: „ Intrarea este n șiruri s 1 , s 2 , …, s n de lungime m, fiecare constând din caractere alfabetice A și două numere — l și d. Găsiți toate șirurile x de lungime l astfel încât oricare dintre șirurile date să conțină cel puțin o subsecvență de la x la distanța Hamming cel mult d » [55] .
Deoarece în cazul general nu se știe dacă toate secvențele pe care le-am obținut au motivul dorit, iar lungimea exactă a acestuia este, de asemenea, necunoscută, problema se rezolvă de obicei prin metode euristice - maximizând probabilitatea motivului găsit pentru secvențele date. Programele MEME [17] și GibbsSampler [56] se bazează pe acest principiu .
Dacă setați un prag minim pentru numărul de secvențe care ar trebui să conțină un motiv și limitați cumva lungimea acestuia, atunci puteți utiliza metode exacte pentru rezolvarea acestei probleme, de exemplu, algoritmul RISOTTO [57] . Unele dintre ele vă permit să eliminați unele dintre restricțiile privind motivul dorit - în RISOTTO, motivul dorit poate avea pauze, consta din mai multe părți.
Cu toate acestea, aceste metode rareori dau rezultate mai bune decât MEME și GibbsSamler și durează mult mai mult [2] [58] .
O metodă de analiză a interacțiunilor ADN-proteină care combină ideile de imunoprecipitare a cromatinei (ChIP) și secvențierea ADN-ului de înaltă performanță (proteina este fuzionată cu ADN, apoi bucățile de ADN fuzionate cu proteina sunt trimise pentru secvențiere). În timpul funcționării metodei, se obțin regiuni de aproximativ 150 de nucleotide în lungime, care pot fi apoi analizate in silico pentru prezența unui motiv [59] .
Ca și în cazul utilizării metodei ChIP-seq, se efectuează imunoprecipitarea cromatinei (ChIP), apoi legarea încrucișată cu proteina este inversată și ADN-ul rezultat este hibridizat cu microarray ADN . Metoda ChIP-on-chip este mai ieftină decât ChIP-seq, dar este mult inferioară celei din urmă ca precizie [6] .
De asemenea, o metodă bazată pe imunoprecipitarea cromatinei (ChIP). Utilizarea exonucleazei fagice λ , care degradează ADN-ul doar de la capătul 5’ și numai în absența contactului cu proteina, face posibilă obținerea unei acuratețe de ordinul mai multor nucleotide în determinarea poziției situsului de legare a proteinei . 60] .
O metodă iterativă pentru căutarea secvențelor de nucleotide care se leagă bine la o anumită proteină [61] . Procedura generală arată astfel:
O proteină hibridă este făcută din proteina studiată și adenină ADN metiltransferaza Dam [62] . În condiții naturale, adenina nu este metilată la majoritatea eucariotelor. Când proteina hibridă se leagă de un loc din ADN-ul organismului, partea de metiltransferază modifică adeninele din zona acestui site, ceea ce permite apoi utilizarea endonucleazelor de restricție pentru a izola locul unde este cel mai probabil localizat motivul dorit.