Motiv (biologie moleculară)
Un motiv în biologia moleculară este o secvență relativ scurtă de nucleotide sau aminoacizi care se modifică puțin în timpul evoluției și, cel puțin probabil, are o anumită funcție biologică [1] [2] [3] . Un motiv este uneori înțeles nu ca o secvență specifică, ci ca o gamă de secvențe descrise cumva, fiecare dintre acestea fiind capabilă să îndeplinească o anumită funcție biologică a unui motiv dat [4] .
Motivele sunt omniprezente în organismele vii și îndeplinesc multe funcții vitale, cum ar fi reglarea transcripției și translației (în cazul motivelor nucleotidice), modificarea post-translațională și localizarea celulară a proteinelor și determină parțial proprietățile funcționale ale acestora ( fermoar leucină ) [ 2] [5] . Ele sunt utilizate pe scară largă în bioinformatică pentru a prezice funcțiile genelor și proteinelor, pentru a construi hărți de reglare și sunt importante pentru multe probleme din ingineria genetică și biologia moleculară în general [6] [7] [8] .
Datorită importanței practice a motivelor, au fost dezvoltate atât metode bioinformatice pentru căutarea lor ( MEME , Gibbs Sampler), cât și metode de căutare in vivo pentru motive ( ChIP-seq , ChIP-exo). Acestea din urmă oferă destul de des coordonatele aproximative ale motivelor și rezultatele lor sunt apoi rafinate prin metode bioinformatice [ 1 ] .matrice[6]2][ [2] .
Motivul ar trebui să fie distins de zonele conservatoare din organisme strâns înrudite care nu au funcții biologice semnificative, unde procesul de mutație nu a avut timp să le schimbe suficient [9] .
Motive în acizi nucleici
În cazul ADN -ului , motivele sunt cel mai adesea secvențe scurte care sunt site-uri de legare pentru proteine, cum ar fi nucleazele și factorii de transcripție , sau sunt implicate în procese de reglare importante deja la nivel de ARN , cum ar fi aterizarea ribozomilor , procesarea ARNm și terminarea transcripției . [4] .
Scurtă istorie a învățării
Studiul motivelor din ADN a devenit posibil datorită apariției în 1973 [10] a procedurii de secvențiere ADN (determinarea secvenței de nucleotide a unui fragment de ADN). Mai întâi au fost definite secvențele operatorului lac și operatorului lambda [11] . Cu toate acestea, înainte de apariția unor metode de secvențiere mai productive [12] , numărul de secvențe de motive a rămas destul de mic. Până la sfârșitul anilor 1970, existau multe exemple de secvențe (situsuri) mutante care leagă factori de transcripție și secvențe cu specificitate modificată [13] . Odată cu creșterea numărului de secvențe, au început să se dezvolte metode de predicție teoretică a motivelor. În 1982, a fost construită pentru prima dată o matrice poziție-greutate (PWM) a motivului site-ului de inițiere a translației. Folosind PVM-ul construit, au fost prezise alte site-uri de inițiere a translației [14] . Această abordare s-a dovedit a fi destul de puternică și este încă folosită în diferite forme pentru a căuta motive cunoscute în genomi, iar metodele specifice diferă doar prin tipul funcției de greutate [4] . Cu toate acestea, abordarea bazată pe construcția PWM pe baza secvențelor existente nu a permis găsirea de motive fundamental noi, ceea ce este o sarcină mai dificilă. Primul algoritm care a rezolvat această problemă a fost propus de Gallas și colegii săi în 1985 [15] . Acest algoritm s-a bazat pe găsirea de cuvinte comune într-un set de secvențe și a dat un procent mare de fals negative, dar a devenit baza pentru o întreagă familie de algoritmi [16] . Au fost dezvoltate ulterior metode probabilistice mai precise: algoritmul MEME bazat pe procedura de maximizare a așteptărilor [17] și algoritmul Gibbs Sampler bazat tot pe procedura de maximizare a așteptărilor [18] . Ambele metode s-au dovedit a fi foarte sensibile și sunt utilizate în prezent pentru a prezice motive în seturi de secvențe.
După dezvoltarea unor instrumente puternice pentru prezicerea motivelor de legare a factorului de transcripție și stabilirea unei corespondențe între un număr suficient de factori de transcripție și motive, a devenit posibilă prezicerea funcțiilor unui operon care se află aproape de motiv prin specificul factorului de transcripție care se leagă de el, și invers, pentru a prezice factorul de transcripție din genele din operon, aflat lângă un anumit motiv [3] .
Legături de site-uri
Reglementare transcripțională
Exemple tipice de reglare a transcripției, efectuate cu ajutorul unei proteine care recunoaște un motiv special, sunt:
- Locul represor al purinei PurR în Escherichia coli . PurR se leagă de o secvență de 16 nucleotide, care este situată înaintea operonului purinic și reglează transcripția genelor responsabile de sinteza nucleotidelor purinice și pirimidinice [5] [19] . Interesant este că bacteria Bacillus subtilis , îndepărtată evolutiv de E. coli, are și un represor purinic care nu este omolog PurR [20] ;
- Locul operonului lactoză Lac . Operonul de lactoză este controlat de represorul LacI , care, prin legarea de ADN, împiedică transcrierea genelor responsabile de catabolismul lactozei [6] .
Regulamentul traducerii
Unele dintre cele mai cunoscute exemple de reglare translațională de către regulatorii de recunoaștere a motivelor sunt:
- Locul de aterizare al ribozomului procariot este secvența Shine-Dalgarno [21] , aici legarea are loc cu riboproteina ;
- Locul de aterizare al ribozomului eucariot este secvența Kozak , legarea are loc cu factorul de inițiere a translației eucariote eIF1 [7] ;
- IRE sunt elemente de reglare situate pe 5'UTR și/sau 3'UTR al ARNm al enzimelor (de exemplu, feritina ) care reglează conținutul de fier din celulă. Proteinele IRP1 ( forma citosolică a aconitazei) și IRP2 (omologul aconitazei inactiv catalitic ) se leagă de aceste motive, reglând viteza de degradare a acestuia sau rata de translație care are loc din el prin însuși faptul că le leagă la ARNm [22] .
Puterea motivului
Puterea interacțiunii unei proteine sau ARN cu un motiv ADN depinde în primul rând de secvența acestui motiv. Există motive „puternice”, care dau o interacțiune puternică cu o proteină sau ARN, și motive „slabe”, cu care interacțiunea este mai slabă. Este aproape întotdeauna posibil să se obțină așa-numita „secvență de consens” („consens”), adică o astfel de secvență, în fiecare poziție a căreia există o literă care se găsește cel mai adesea în poziția corespunzătoare în secvențele de motive din diferite organisme. Secvența de consens este considerată cea mai puternică, ceea ce este aproape întotdeauna [23] . Din ea se obțin motive mai slabe cu ajutorul unui număr mic (cel mai adesea 1-3) de substituții [24] .
Evoluția puterii motivului
În procesul evoluției, puterea motivelor este reglementată de selecția naturală, iar motivul poate deveni fie mai puternic, fie mai slab [25] . Un exemplu caracteristic de astfel de ajustare a puterii unui motiv este variabilitatea secvenței Shine-Dalgarno (SD). Există o strânsă corelație între cantitatea de proteină tradusă necesară organismului și puterea SD în fața acestuia [8] .
Este important de remarcat faptul că, în cazul SD, deși puterea de legare a proteinei se corelează direct cu puterea de legare a subunității 16S a ribozomului , datorită particularităților inițierii translației, secvența consens nu va garanta neapărat cea mai mare măsură. traducere eficientă (datorită dificultății de a părăsi ribozomul din locul de inițiere). ) [6] . Prin urmare, secvența Shine-Dalgarno conține cel mai adesea 4-5 nucleotide din secvența consens, acestea din urmă având o lungime de aproximativ 7 nucleotide [26] .
Comutatoare ARN
Prezența unui motiv care joacă în mod clar un rol semnificativ biologic nu implică întotdeauna prezența unei proteine de reglare. Reglarea poate fi, de asemenea, efectuată prin legarea ARN-ului la o substanță cu greutate moleculară mică . Acest principiu este folosit pentru a construi comutatoare de ARN , structuri formate pe ARN în timpul transcripției și capabile să lege molecule mici [27] [28] . Legarea moleculei afectează capacitatea riboswitch-ului de a opri transcripția sau de a interfera cu traducerea. În acest caz, nu secvența de nucleotide ca atare este importantă, ci prezența nucleotidelor complementare în locurile potrivite din secvență [4] .
Reglementare pe structură secundară
Reglarea translației poate fi realizată și numai datorită structurii secundare
formate de acidul nucleic .
- Terminatorul de transcripție Rho-independent este un ac de păr care se formează pe ARNm sintetizat înainte de începerea translației, împiedicând sinteza ulterioară a ARNm ( Terminator (ADN) ) [29] ;
- IRES este o structură complexă în ARNm al virusurilor eucariote care asigură inițierea internă a translației [30] .
Structura motivului
Adesea, motivele de legare a factorului de transcripție iau forma unor repetări directe ale unor secvențe, repetări inverse sau secvențe palindromice . Acest lucru poate fi explicat prin activitatea factorilor de transcripție sub formă de dimeri proteici, în care fiecare dintre monomeri leagă aceeași secvență. Există și motive de mai mare repetare [6] . O astfel de structură a motivelor asigură o reacție mai ascuțită la schimbările condițiilor externe. De exemplu, dacă legarea depinde de concentrația unei substanțe în celulă, atunci obținem dependența forței de reacție a celulei descrisă de ecuația Michaelis-Menten . Odată cu creșterea numărului de unități de legare a proteinelor (vom presupune că efectul legării proteinei la un motiv se manifestă doar în cazul legării tuturor repetăților), dependența devine din ce în ce mai mult ca un sigmoid , având tendința de Heaviside. funcția la limită , care descrie unul dintre principiile principale ale răspunsului sistemelor vii la multe influențe - legea „all-or-nothing” ( în engleză all-or-nothing law ) [6] , de exemplu, formarea un potenţial de acţiune [31] .
Motive în proteine
Pentru proteine , trebuie să distingem
Motive în structura primară (secvențe de proteine)
Motivele din structura primară sunt similare cu cele din acizii nucleici. Exemple tipice ale acestora sunt:
- peptidele semnal sunt secvențe scurte de aminoacizi în cadrul unei proteine, cu o lungime de aproximativ 3-60 de aminoacizi [33] , care determină în ce compartiment al celulei va fi trimis după sinteză . Un exemplu este un semnal de localizare nucleară ;
- situsuri de modificare post-translațională a proteinelor, care sunt peptide conservatoare de ordinul a 5-12 aminoacizi [6] . Un exemplu este situsurile de acetilare dintr-o proteină [34]
Motive structurale
În proteine, motivele structurale descriu legăturile dintre elementele structurii secundare. Astfel de motive au adesea secțiuni de lungime variabilă, care în unele cazuri pot fi complet absente [22] .
- Fermoar cu leucină - caracteristic proteinelor dimerice care leagă ADN-ul. Fulgerul cu leucină asigură contactul între doi monomeri proteici datorită interacțiunilor hidrofobe [22] [35] . Se caracterizează prin prezența unui reziduu de leucină în fiecare a șaptea poziție .
- Degetele de zinc - caracteristice factorilor de transcripție care leagă ADN-ul [22] [36] ;
- Helix-turn-helix este un motiv de legare a ADN-ului, tocmai un astfel de fragment de legare a ADN-ului din represorul Lac [22] .
- Homeodomeniul este un motiv care leagă ADN-ul și ARN-ul. La eucariote, proteinele cu homeodomenii induc diferențierea celulară prin declanșarea cascadelor de gene necesare formării țesuturilor și organelor. Arată ca un motiv „spirală-întoarcere-spirală”, prin urmare, adesea nu este evidențiat separat [22] [37] .
- Pliul Rossmann este un motiv care leagă nucleotidele (de exemplu, NAD) [38] . Apare în special în dehidrogenaze, inclusiv gliceraldehida-3-fosfat dehidrogenaza , care este implicată în glicoliză .
- Brațul EF, un motiv care leagă ionii de Ca 2+ , este, de asemenea, similar cu motivul helix-turn-helix [39] .
- Cuib - trei resturi consecutive de aminoacizi formează locul de legare a anionului [40] .
- Nișă - trei resturi consecutive de aminoacizi formează un situs de legare a cationilor [41] .
- Beta-ac de păr - două fire β legate printr-o scurtă rotire a lanțului proteic [42] .
Pe lângă acul de păr beta, se disting multe alte motive, a căror funcție este de a forma cadrul structural al proteinei [43] .
Aproape de termenul de motiv structural al unei proteine este stilul - un aranjament caracteristic al elementelor structurii secundare. Datorită asemănării lor, termenii sunt adesea folosiți unul în loc de altul și linia dintre ei este neclară [43] [44] .
Reprezentarea motivelor
Inițial, există un set de motive din secvențe diferite și sarcina este stabilită [2] :
- prezentați-le concis și clar;
- pentru a putea căuta noile sale apariţii pe prezentarea unui motiv.
Există mai multe moduri general acceptate de reprezentare a motivelor [45] . Unele dintre ele sunt potrivite atât pentru proteine, cât și pentru nucleotide, cealaltă parte - numai pentru proteine sau nucleotide.
Consens
Consens strict
Un consens strict al unui motiv este un șir format din cele mai reprezentate litere din setul de realizări ale motivului. În practică, nu este indicată doar litera cea mai frecventă dintr-o anumită poziție, ci și, dacă frecvența maximă de apariție a oricărei litere într-o anumită poziție este mai mică decât un anumit prag, atunci x(orice literă a alfabetului) este pusă în acest loc în consens. Printr-un astfel de consens, aproape sigur găsim secvențe care sunt de fapt motive, dar ratăm un număr mare de motive care diferă de consens prin mai multe substituții [2] [4] [9] . Mai jos este un exemplu de consens puternic pentru o regiune motiv de cinci proteine UniProt cu un motiv de fermoar cu leucină (pragul a fost luat egal cu 80%):
|
Numărul poziției
|
ID UniProt
|
unu
|
2
|
3
|
patru
|
5
|
6
|
7
|
opt
|
9
|
zece
|
unsprezece
|
12
|
13
|
paisprezece
|
cincisprezece
|
O35048
|
L
|
S
|
P
|
C
|
G
|
L
|
R
|
L
|
eu
|
G
|
A
|
H
|
P
|
eu
|
L
|
Q6XXX9
|
L
|
G
|
Q
|
D
|
eu
|
C
|
D
|
L
|
F
|
eu
|
A
|
L
|
D
|
V
|
L
|
Q9N298
|
L
|
G
|
Q
|
V
|
T
|
C
|
D
|
L
|
F
|
eu
|
A
|
L
|
D
|
V
|
L
|
Q61247
|
L
|
S
|
P
|
L
|
S
|
V
|
A
|
L
|
A
|
L
|
S
|
H
|
L
|
A
|
L
|
B0BC06
|
L
|
T
|
eu
|
G
|
Q
|
Y
|
S
|
L
|
Y
|
A
|
eu
|
D
|
G
|
T
|
L
|
Consens
|
L
|
X
|
X
|
X
|
X
|
X
|
X
|
L
|
X
|
X
|
X
|
X
|
X
|
X
|
L
|
Consens liber
Un consens non-strict este o succesiune de liste de litere care sunt cele mai reprezentate în locul corespunzător. Sunt descrise toate sau cele mai frecvente litere într-o poziție dată (de obicei este setat un prag minim de frecvență) [2] . De fapt, motivul este descris folosind o expresie regulată [4] [9] . Următoarele sunt folosite ca denumiri:
- Alfabet - un set de caractere individuale care denotă un anumit aminoacid / nucleotidă sau un set de aminoacizi / nucleotide;
- ABC - un șir de caractere alfabetice care denotă o succesiune de caractere care urmează una după alta;
- [ABC] - orice șir de caractere preluat din alfabet între paranteze pătrate se potrivește cu oricare dintre caracterele corespunzătoare; de exemplu [ABC] se potrivește fie cu A, fie B sau C;
- {ABC..DE} - orice șir de caractere preluat din alfabet se potrivește cu orice aminoacid, cu excepția celor din paranteze; de exemplu {ABC}, se potrivește cu orice aminoacid, cu excepția A, Bși C;
- xminuscule - orice caracter al alfabetului.
În cazul unei astfel de reprezentări, trebuie să se echilibreze între sensibilitatea consensului (numărul de motive reale pe care le pot găsi) și specificitatea (capacitatea metodei de a respinge secvențele nedorite) [1] . Mai jos este un exemplu de consens non-strict pentru aceleași cinci secvențe de proteine ca și pentru consens puternic (pragul a fost luat egal cu 20%). Vedem că în poziția 10 motivul nu este în întregime obiectiv – leucina ( L) și izoleucina ( I) sunt aminoacizi foarte asemănători în proprietățile lor și ar fi logic să le includem pe ambele în consens.
|
Numărul poziției
|
ID UniProt
|
unu
|
2
|
3
|
patru
|
5
|
6
|
7
|
opt
|
9
|
zece
|
unsprezece
|
12
|
13
|
paisprezece
|
cincisprezece
|
O35048
|
L
|
S
|
P
|
C
|
G
|
L
|
R
|
L
|
eu
|
G
|
A
|
H
|
P
|
eu
|
L
|
Q6XXX9
|
L
|
G
|
Q
|
D
|
eu
|
C
|
D
|
L
|
F
|
eu
|
A
|
L
|
D
|
V
|
L
|
Q9N298
|
L
|
G
|
Q
|
V
|
T
|
C
|
D
|
L
|
F
|
eu
|
A
|
L
|
D
|
V
|
L
|
Q61247
|
L
|
S
|
P
|
L
|
S
|
V
|
A
|
L
|
A
|
L
|
S
|
H
|
L
|
A
|
L
|
B0BC06
|
L
|
T
|
eu
|
G
|
Q
|
Y
|
S
|
L
|
Y
|
A
|
eu
|
D
|
G
|
T
|
L
|
Consens
|
L
|
[SG]
|
[PQ]
|
X
|
X
|
C
|
D
|
L
|
F
|
eu
|
A
|
[LH]
|
D
|
V
|
L
|
Consens de prozită (pentru proteine)
PROSITE folosește IUPAC pentru a desemna coduri de aminoacizi cu o singură literă, cu excepția caracterului de concatenare „-” utilizat între elementele de model. Când se utilizează PROSITE, se adaugă mai multe simboluri pentru a facilita reprezentarea motivului proteic [46] :
- ' <' - modelul este limitat la capătul N-terminal al secvenței;
- ' >' - modelul este limitat la capătul C al secvenței;
Dacă e este un șablon de element și mși nsunt două numere întregi zecimale și m<= n, atunci:
- e(m)echivalează cu repetarea eexact mo dată;
- e(m,n)echivalează cu repetarea eexactă ko dată pentru orice număr întreg kcare îndeplinește condiția: m<= k<= n;
Exemplu: un motiv de domeniu cu o semnătură de tip C2H2 a unui deget de zinc arată astfel: C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H[47]
Matricea ponderii poziționale
O matrice de greutate pozițională este o matrice ale cărei coloane corespund pozițiilor din succesiune și ale cărei rânduri corespund literelor din alfabet. Valorile acestei matrice sunt frecvențele (sau funcțiile monotone ale frecvențelor) de apariție a unei anumite litere într-o poziție dată în secvență. În acest caz, de obicei, pentru a exclude frecvențele zero, la numărul de apariții ale fiecărei litere a poziției se adaugă un anumit număr, pe baza distribuției a priori a literelor în secvențe similare [4] (de exemplu, corecția lui Laplace). este introdus [48] ). Această abordare, ca și cele precedente, presupune implicit că pozițiile din motiv sunt independente, ceea ce nu se observă de fapt nici măcar pentru secvențele de nucleotide [2] [4] .
Să presupunem că avem 7 secvențe ADN reprezentând motivul [9] :
|
Numărul poziției
|
Număr
secvente
|
unu
|
2
|
3
|
patru
|
5
|
6
|
7
|
opt
|
unu
|
A
|
T
|
C
|
C
|
A
|
G
|
C
|
T
|
2
|
G
|
G
|
G
|
C
|
A
|
A
|
C
|
T
|
3
|
A
|
T
|
G
|
G
|
A
|
T
|
C
|
T
|
patru
|
A
|
A
|
G
|
C
|
A
|
A
|
C
|
C
|
5
|
T
|
T
|
G
|
G
|
A
|
A
|
C
|
T
|
6
|
A
|
T
|
G
|
C
|
C
|
A
|
T
|
T
|
7
|
A
|
T
|
G
|
G
|
C
|
A
|
C
|
T
|
Matricea pozițională pentru ei va avea următoarea formă ( +1 - ținând cont de regula Laplace) [9] :
|
Numărul poziției
|
Nucleotide
|
unu
|
2
|
3
|
patru
|
5
|
6
|
7
|
opt
|
A
|
5+1
|
1+1
|
0+1
|
0+1
|
5+1
|
5+1
|
0+1
|
0+1
|
C
|
1+1
|
0+1
|
1+1
|
4+1
|
2+1
|
0+1
|
6+1
|
1+1
|
G
|
0+1
|
1+1
|
6+1
|
3+1
|
0+1
|
1+1
|
0+1
|
0+1
|
T
|
1+1
|
5+1
|
0+1
|
0+1
|
0+1
|
1+1
|
1+1
|
6+1
|
Frecvențele pot fi normalizate la numărul total al secvenței, obținându-se astfel o estimare a probabilității de a întâlni o anumită nucleotidă într-o anumită secvență (de fapt, PWM este de obicei stocată într-o astfel de reprezentare) [2] :
|
Numărul poziției
|
Nucleotide
|
unu
|
2
|
3
|
patru
|
5
|
6
|
7
|
opt
|
A
|
0,55
|
0,18
|
0,09
|
0,09
|
0,55
|
0,55
|
0,09
|
0,09
|
C
|
0,18
|
0,09
|
0,18
|
0,45
|
0,27
|
0,09
|
0,64
|
0,18
|
G
|
0,09
|
0,18
|
0,64
|
0,36
|
0,09
|
0,18
|
0,09
|
0,09
|
T
|
0,18
|
0,55
|
0,09
|
0,09
|
0,09
|
0,18
|
0,18
|
0,64
|
HMM (Modele Markov ascunse)
Pentru o mai mare acuratețe, este posibil să se ia în considerare dependența pozițiilor învecinate în motiv folosind modele Markov ascunse de ordinul întâi și superior [2] [4] . Această abordare este plină de unele dificultăți, deoarece aplicarea ei necesită un eșantion suficient de reprezentativ de opțiuni de motivare. În cazul exemplului anterior, avem:
- Pentru un model Markov de ordin 0 (probabilitatea apariției unei nucleotide într-o poziție dată nu depinde de alte poziții - un alt mod de interpretare a PWM) [4] ;
- Pentru un model Markov de ordinul 1 (probabilitatea ca o nucleotidă să apară la o poziție dată depinde doar de nucleotida din secvența anterioară. Este ușor de observat că numărul parametrilor modelului a crescut foarte mult) [4] . La calcularea probabilităților de tranziție a fost folosită și regula Laplace. Probabilitățile de emisie pentru stări sunt 1 pentru nucleotidele cărora le corespund, 0 pentru restul.
În cazul motivelor care conțin regiuni de dimensiune variabilă și compoziție de nucleotide, ar fi posibil să se introducă un model separat pentru aceste regiuni, separat pentru cele conservatoare, și apoi să le „lipească” într-un singur model prin adăugarea de stări intermediare „silențioase” și tranziție. probabilități către și de la ei.le [4] .
SCS (Stochastic Context-Free Grammar)
În cazul motivelor care formează structuri secundare (întrerupătoare ARN) în ARN, este important să se țină cont de posibilitatea împerecherii nucleotidelor în elementele structurii secundare . SCS face față acestei sarcini . Cu toate acestea, antrenamentul SCS necesită o dimensiune a eșantionului și mai mare decât HMM și este asociat cu o serie de dificultăți [4] .
Vizualizare pentru baze de date mari
În cazurile în care viteza căutării este importantă și este acceptabil să omitem unele apariții ale motivului nostru, cercetătorii recurg la diverse trucuri care fac posibilă criptarea structurii spațiale a unui biopolimer (ARN sau proteină) cu o acuratețe acceptabilă prin extinderea alfabetul [49] .
Reprezentarea motivelor în proteine prin codificarea structurii spațiale a proteinei
Operonul LacI represor al lactozei Escherichia coli ( PDB 1lcc lanț A) și gena activatoare a catabolismului ( PDB 3gap lanț A) au ambele un motiv helix-turn-helix, dar secvențele lor de aminoacizi nu sunt foarte asemănătoare. Un grup de cercetători a dezvoltat un cod pe care l-au numit „codul de lanț 3D”, care reprezintă structura unei proteine sub forma unui șir de litere. Această schemă de codare, potrivit autorilor, arată asemănarea dintre proteine mult mai clar decât secvențele de aminoacizi [49] :
Exemplu : compararea celor două proteine menționate mai sus folosind această schemă de codare [49] :
ID PDB
|
cod 3D
|
Secvența de aminoacizi
|
1lccA
|
TWWWWWWWKCLKWWWWWWG
|
LYDVAEYAGVSYQTVSRVV
|
3gapA
|
KWWWWWWGKCFKWWWWWWW
|
RQEIGQIVGCSRETVGRIL
|
Comparaţie
|
Există o asemănare clară între proteine
|
Proteinele diferă foarte mult în secvența lor de aminoacizi.
|
unde Wcorespunde unei elice α și Eși Dcorespunde unei catene β.
Reprezentarea motivelor în ARN folosind o structură secundară (foldedBlast)
În această lucrare, pentru a aplica un algoritm de căutare similar cu BLAST , alfabetul nucleotidelor (ATGC, deoarece căutarea a fost efectuată în genom) a fost extins prin combinarea nucleotidelor și a trei caractere care caracterizează direcția lor presupusă de împerechere [50] :
- ( - nucleotida este împerecheată cu nucleotida din dreapta;
- ) - nucleotida este împerecheată cu nucleotida din stânga;
- . - nucleotida nu este pereche.
Astfel, s-au obținut 12 litere din noul alfabet (4 nucleotide * 3 „direcții”) care, atunci când sunt utilizate corect, permit o căutare asemănătoare BLAST, numită de autori foldedBlast [50] .
Logo-ul secvenței
Pentru reprezentarea vizuală a motivelor, se folosește adesea sigla secvențelor - o reprezentare grafică a conservatorismului fiecărei poziții din motiv. În același timp, această vizualizare poate fi utilizată cu succes atât în cazul reprezentării motivului sub forma unei matrice de consens sau de greutate pozițională , cât și pentru reprezentarea modelului de secvență HMM, așa cum se face în baza de date a familiei de proteine Pfam [51] .
În plus, dacă, de exemplu, luminozitatea fiecărei nucleotide dintr-un motiv este utilizată ca un indicator al frecvenței cu care o nucleotidă complementară îi corespunde în același motiv , atunci informațiile despre structura secundară a motivului pot fi, de asemenea, reprezentate parțial. Acest lucru se face, de exemplu, în serviciul web bioinformatic RegPredict [52] .
Căutați site-uri de legare a factorului de transcripție în silico
În cazul căutării în secvențele de nucleotide a motivelor responsabile pentru legarea proteinelor reglatoare, ei folosesc ideea că ele [motivele] se schimbă relativ lent, ceea ce înseamnă că dacă luăm organisme care sunt suficient de departe unele de altele, astfel încât mutațiile să se poată acumula în poziții foarte variabile ale secvențelor lor, iar site-urile nu au avut încă timp să se schimbe prea mult, atunci puteți folosi regula „ceea ce este conservator este important” [2] . După obținerea secvențelor în care este de așteptat prezența unui motiv specific, se folosesc în principal două abordări pentru găsirea unei secvențe de motive - amprenta filogenetică și reducerea problemei la problema găsirii unui motiv inserat .
Amprenta filogenetică
Amprenta filogenetică este o metodă semi-automatizată. Secvențele sunt procesate de programul de aliniere multiplă , iar în alinierea rezultată, cercetătorul caută modele care pot fi considerate motive. Unul dintre cele mai de succes exemple de aplicare a acestei abordări poate fi considerat descifrarea codificării peptidelor nonribozomale de către sintetazele peptidice nonribozomale (NRPS) [2] [53] [54] . Această metodă nu permite automatizarea completă a procesului de căutare a motivelor, dar, în același timp, nu are limitări atât de severe ca următoarele.
Problema găsirii unui motiv inserat
În cazul motivelor fără (aproape fără) rupturi și fără (aproape fără) secțiuni de lungime variabilă, este posibil să se reducă problema căutării unui motiv la sarcina de căutare a unui motiv inserat ( ing. Căutare motiv plantat ) [2] [9] .
Formularea problemei este următoarea: „ Intrarea este n șiruri s 1 , s 2 , …, s n de lungime m, fiecare constând din caractere alfabetice A și două numere — l și d. Găsiți toate șirurile x de lungime l astfel încât oricare dintre șirurile date să conțină cel puțin o subsecvență de la x la distanța Hamming cel mult d » [55] .
Deoarece în cazul general nu se știe dacă toate secvențele pe care le-am obținut au motivul dorit, iar lungimea exactă a acestuia este, de asemenea, necunoscută, problema se rezolvă de obicei prin metode euristice - maximizând probabilitatea motivului găsit pentru secvențele date. Programele MEME [17] și GibbsSampler [56] se bazează pe acest principiu .
Dacă setați un prag minim pentru numărul de secvențe care ar trebui să conțină un motiv și limitați cumva lungimea acestuia, atunci puteți utiliza metode exacte pentru rezolvarea acestei probleme, de exemplu, algoritmul RISOTTO [57] . Unele dintre ele vă permit să eliminați unele dintre restricțiile privind motivul dorit - în RISOTTO, motivul dorit poate avea pauze, consta din mai multe părți.
Cu toate acestea, aceste metode rareori dau rezultate mai bune decât MEME și GibbsSamler și durează mult mai mult [2] [58] .
Căutați site-uri de legare in vitro
Chip seq
O metodă de analiză a interacțiunilor ADN-proteină care combină ideile de imunoprecipitare a cromatinei (ChIP) și secvențierea ADN-ului de înaltă performanță (proteina este fuzionată cu ADN, apoi bucățile de ADN fuzionate cu proteina sunt trimise pentru secvențiere). În timpul funcționării metodei, se obțin regiuni de aproximativ 150 de nucleotide în lungime, care pot fi apoi analizate in silico pentru prezența unui motiv [59] .
ChIP-on-chip
Ca și în cazul utilizării metodei ChIP-seq, se efectuează imunoprecipitarea cromatinei (ChIP), apoi legarea încrucișată cu proteina este inversată și ADN-ul rezultat este hibridizat cu microarray ADN . Metoda ChIP-on-chip este mai ieftină decât ChIP-seq, dar este mult inferioară celei din urmă ca precizie [6] .
ChIP-exo
De asemenea, o metodă bazată pe imunoprecipitarea cromatinei (ChIP). Utilizarea exonucleazei fagice λ , care degradează ADN-ul doar de la capătul 5’ și numai în absența contactului cu proteina, face posibilă obținerea unei acuratețe de ordinul mai multor nucleotide în determinarea poziției situsului de legare a proteinei . 60] .
SELEX
O metodă iterativă pentru căutarea secvențelor de nucleotide care se leagă bine la o anumită proteină [61] . Procedura generală arată astfel:
- Proteina care ne interesează este cusută pe coloană , prin care este apoi trecută o soluție cu un set de secvențe constând dintr-o regiune randomizată și un adaptor;
- Secvențele care persistă pe coloană sunt donate prin procedura PCR , iar compoziția amestecului de reacție este aleasă în așa fel încât să introducă erori suplimentare în timpul copierii. Clonele rezultate sunt trimise la o nouă rundă de SELEX;
- La fiecare câteva întinderi, condițiile ( pH-ul soluției , puterea ionică a acesteia ) sunt înăsprite, astfel încât pe coloană să rămână tot mai multe secvențe specifice proteinei;
- Secvențele rezultate sunt adesea similare cu motivele reale de legare la proteine în organismele vii.
DamID
O proteină hibridă este făcută din proteina studiată și adenină ADN metiltransferaza Dam [62] . În condiții naturale, adenina nu este metilată la majoritatea eucariotelor. Când proteina hibridă se leagă de un loc din ADN-ul organismului, partea de metiltransferază modifică adeninele din zona acestui site, ceea ce permite apoi utilizarea endonucleazelor de restricție pentru a izola locul unde este cel mai probabil localizat motivul dorit.
Note
- ↑ 1 2 3 D'haeseleer Patrik. Care sunt motivele secvenței ADN? (Engleză) // Nature Biotechnology. - 2006. - 1 aprilie ( vol. 24 , iss. 4 ). — P. 423–425 . — ISSN 1087-0156 . - doi : 10.1038/nbt0406-423 . Arhivat din original pe 12 aprilie 2017.
- ↑ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Compeau Phillip, Pevzner Pavel. Algoritmi de bioinformatică: o abordare activă a învățării, Ed. a II-a. Vol. 1 de Phillip Compeau . — ediția a II-a. - Active Learning Publishers, 2015. - 384 p. — ISBN 9780990374619 .
- ↑ 1 2 Koonin Eugene V. Logica hazardului: natura și originea evoluției biologice. - 1 editie. - FT Press, 23-06-2011. — 529 p. — ISBN 978-0132542494 .
- ↑ 1 2 3 4 5 6 7 8 9 10 11 12 13 Durbin Richard, Eddy Sean R., Krogh Anders, Mitchison Graeme. Analiza secvenței biologice: Modele probabilistice de proteine și acizi nucleici. - Cambridge University Press, 1998. - 372 p. — ISBN 978-0521620413 .
- ↑ 1 2 Purine represor - Proteopedia, viața în 3D . proteopedia.org. Consultat la 11 aprilie 2017. Arhivat din original pe 12 aprilie 2017.
- ↑ 1 2 3 4 5 6 7 8 Alberts Bruce, Johnson Alexander, Lewis Julian, Raff Martin, Roberts Keith. Biologia moleculară a celulei . — al 4-lea. — Garland Science, 2002-01-01. — ISBN 0815332181 . — ISBN 0815340729 . Arhivat pe 27 septembrie 2017 la Wayback Machine
- ↑ 1 2 Pestova TV, Kolupaeva VG, Lomakin IB, Pilipenko EV, Shatsky IN Mecanisme moleculare de inițiere a traducerii la eucariote (engleză) // Proceedings of the National Academy of Sciences of the United States of America. - 2001. - 19 iunie ( vol. 98 , iss. 13 ). — P. 7029–7036 . — ISSN 0027-8424 . - doi : 10.1073/pnas.111145798 . Arhivat din original pe 23 aprilie 2017.
- ↑ 1 2 Evfratov Sergey A., Osterman Ilya A., Komarova Ekaterina S., Pogorelskaya Alexandra M., Rubtsova Maria P. Application of sorting and next generation sequencing pentru a studia influența 5΄-UTR asupra eficienței traducerii în Escherichia coli // Cercetarea acizilor nucleici. - 2017. - 7 aprilie ( vol. 45 , is. 6 ). - P. 3487-3502 . — ISSN 0305-1048 . - doi : 10.1093/nar/gkw1141 . Arhivat din original pe 12 aprilie 2017.
- ↑ 1 2 3 4 5 6 Jones Neil C., Pevzner Pavel A. An Introduction to Bioinformatics Algorithms. - 1 editie. - The MIT Press, 2004. - 435 p. — ISBN 9780262101066 .
- ↑ Gilbert W, Maxam A. Secvența de nucleotide a operatorului lac // Proceedings of the National Academy of Sciences. - 1973. - Decembrie ( vol. 70 , iss. 12 ). - P. 3581-3584 . — PMID 4587255 . Arhivat din original pe 24 aprilie 2017.
- ↑ Maniatis T, Ptashne M, Backman K, Kield D, Flashman S, Jeffrey A, Maurer R. Recognition sequences of repressor and polymerase in the operators of bacteriophage lambda // Cell . - 1975. - Iunie ( vol. 5 , iss. 2 ). - P. 109-113 . — PMID 1095210 . Arhivat din original pe 24 aprilie 2017.
- ↑ Sanger F, Nicklen S, Coulson AR. Secvențierea ADN-ului cu inhibitori de terminare a lanțului (engleză) // Proceedings of the National Academy of Sciences. - 1977. - Decembrie ( vol. 74 , is. 12 ). - P. 5463-5467 . Arhivat din original pe 2 aprilie 2017.
- ↑ Stormo GD. Locurile de legare la ADN: reprezentare și descoperire. (engleză) // Bioinformatică. - 2000. - ianuarie ( vol. 16 , iss. 1 ). - P. 16-23 . Arhivat din original pe 19 aprilie 2017.
- ↑ Stormo GD, Schneider TD, Gold LM. Caracterizarea situsurilor de inițiere translațională în E. coli // Nucleic Acids Research. - 1982. - 11 mai ( vol. 10 , iss. 9 ). - P. 2971-2996 . Arhivat din original pe 24 aprilie 2017.
- ↑ Galas DJ, Eggert M, Waterman MS. Metode riguroase de recunoaștere a modelelor pentru secvențele de ADN. Analiza secvențelor promotoare din Escherichia coli. (Engleză) // Journal of Molecular Biology. - 1985. - 5 noiembrie ( vol. 186 , nr. 1 ). — P. 117–128 . Arhivat din original pe 24 aprilie 2017.
- ↑ Stormo GD. Locurile de legare la ADN: reprezentare și descoperire. (engleză) // Bioinformatică. - 2000. - ianuarie ( vol. 16 , nr. 1 ). — P. 16–23 . Arhivat din original pe 19 aprilie 2017.
- ↑ 1 2 T. L. Bailey, C. Elkan. Valoarea cunoștințelor anterioare în descoperirea motivelor cu MEME // Proceedings . Conferința internațională privind sistemele inteligente pentru biologie moleculară. - 1995. - 1 ianuarie ( vol. 3 ). — P. 21–29 . — ISSN 1553-0833 . Arhivat din original pe 24 aprilie 2017.
- ↑ Lawrence CE1, Altschul SF, Boguski MS, Liu JS, Neuwald AF, Wootton JC. Detectarea semnalelor de secvențe subtile: o strategie de eșantionare Gibbs pentru aliniere multiplă. (engleză) // Știință. - 1993. - 8 octombrie ( vol. 262 , nr. 5131 ). — P. 208–214 . Arhivat din original pe 24 aprilie 2017.
- ↑ Jendresen Christian Bille, Martinussen Jan, Kilstrup Mogens. Regulonul PurR în Lactococcus lactis - reglarea transcripțională a metabolismului nucleotidelor purinice și a mașinilor de translație (engleză) // Microbiologie (Reading, Anglia). - 2012. - 1 august ( vol. 158 , iss. 8 ). — P. 2026–2038 . — ISSN 1465-2080 . - doi : 10.1099/mic.0.059576-0 . Arhivat din original pe 19 aprilie 2017.
- ↑ Sinha Sangita C., Krahn Joseph, Shin Byung Sik, Tomchick Diana R., Zalkin Howard. Represorul purinic al Bacillus subtilis: o combinație nouă de domenii adaptate pentru reglarea transcripției (engleză) // Journal of Bacteriology. - 2003. - 1 iulie ( vol. 185 , iss. 14 ). — P. 4087–4098 . — ISSN 0021-9193 . - doi : 10.1128/JB.185.14.4087-4098.2003 . Arhivat din original pe 19 aprilie 2017.
- ↑ Shine J., Dalgarno L. Analiza secvenței terminale a ARN-ului ribozomal bacterian. Corelația dintre secvența 3’-terminal-polipirimidină a ARN-ului 16-S și specificitatea translațională a ribozomului // European Journal of Biochemistry. - 1975. - 1 septembrie ( vol. 57 , iss. 1 ). — P. 221–230 . — ISSN 0014-2956 . Arhivat din original pe 19 aprilie 2017.
- ↑ 1 2 3 4 5 6 7 Nelson David L., Cox Michael M. Lehninger Principiile biochimiei. — ediția a 7-a. — W.H. Freeman, 01.01.2017. — 1328 p. — ISBN 9781464126116 .
- ↑ Stormo GD, Schneider TD, Gold L. Analiza cantitativă a relației dintre secvența de nucleotide și activitatea funcțională // Nucleic Acids Research. - 1986. - 26 august ( vol. 14 , iss. 16 ). — P. 6661–6679 . — ISSN 0305-1048 . Arhivat din original pe 19 aprilie 2017.
- ↑ Situri de legare la ADN Stormo GD : reprezentare și descoperire // Bioinformatică (Oxford, Anglia) . - 2000. - 1 ianuarie ( vol. 16 , iss. 1 ). — P. 16–23 . — ISSN 1367-4803 . Arhivat din original pe 19 aprilie 2017.
- ↑ Shultzaberger Ryan K., Zehua Chen, Lewis Karen A., Schneider Thomas D. Anatomy of Escherichia coli σ 70 promoters // Nucleic Acids Research. - 2007. - 1 februarie ( vol. 35 , iss. 3 ). — P. 771–788 . — ISSN 1362-4962 . doi : 10.1093 / nar/gkl956 . Arhivat din original pe 19 aprilie 2017.
- ↑ J. Shine, L. Dalgarno. Analiza secvenței terminale a ARN-ului ribozomal bacterian. Corelația dintre secvența 3’-terminal-polipirimidină a ARN-ului 16-S și specificitatea translațională a ribozomului // European Journal of Biochemistry. - 1975. - 1 septembrie ( vol. 57 , iss. 1 ). - P. 221-230 . — ISSN 0014-2956 . Arhivat din original pe 19 aprilie 2017.
- ↑ Riboswitch, ARN switch (riboswitch) . hubio.ru. Consultat la 11 aprilie 2017. Arhivat din original pe 12 aprilie 2017. (Rusă)
- ↑ Samuel E. Bocobza, Asaph Aharoni. Molecule mici care interacționează cu ARN: controlul genelor bazat pe riboswitch și implicarea sa în reglarea metabolică la plante și alge // The Plant Journal: For Cell and Molecular Biology. - 2014. - 1 august ( vol. 79 , is. 4 ). — P. 693–703 . — ISSN 1365-313X . - doi : 10.1111/tpj.12540 . Arhivat din original pe 19 aprilie 2017.
- ↑ Hironori Otaka, Hirokazu Ishikawa, Teppei Morita, Hiroji Aiba. Coada PolyU a terminatorului rho-independent al ARN-urilor mici bacteriene este esențială pentru acțiunea Hfq // Proceedings of the National Academy of Sciences of the United States of America. - 2011. - 9 august ( vol. 108 , is. 32 ). — P. 13059–13064 . — ISSN 0027-8424 . - doi : 10.1073/pnas.1107050108 . Arhivat din original pe 3 iulie 2022.
- ↑ Hiroshi Yamamoto, Marianne Collier, Justus Loerke, Jochen Ismer, Andrea Schmidt. Arhitectura moleculară a ARN-ului site-ului intern de intrare ribozomal al virusului hepatitei C legat de ribozomi // Jurnalul EMBO. - 2015. - 14 decembrie ( vol. 34 , iss. 24 ). — P. 3042–3058 . — ISSN 0261-4189 . - doi : 10.15252/embj.201592469 .
- ↑ Andrey Kamkin, Andrey Alexandrovich Kamensky. Fiziologie fundamentală și clinică. - Academia, 2004-01-01. — 1072 p. — ISBN 5769516755 .
- ↑ Structural Motifs , EMBL - EBI Train online (25 noiembrie 2011). Arhivat din original pe 12 aprilie 2017. Preluat la 12 aprilie 2017.
- ↑ Gonter Blobel, Bernhand Dobberstein. Transferul de proteine prin membrane. I. Prezența lanțurilor ușoare de imunoglobuline naștere procesate și neprocesate proteolitic pe ribozomii legati de membrană ai mielomului murin // The Journal of Cell Biology. - 1975. - 1 decembrie ( vol. 67 , iss. 3 ). — P. 835–851 . — ISSN 0021-9525 . Arhivat din original pe 2 aprilie 2022.
- ↑ Qiu Wang-Ren, Sun Bi-Qian, Xiao Xuan, Xu Zhao-Chun, Chou Kuo-Chen. iPTM-mLys: identificarea mai multor site-uri PTM de lizină și diferitele lor tipuri (engleză) // Bioinformatică (Oxford, Anglia). - 2016. - 15 octombrie ( vol. 32 , is. 20 ). — P. 3116–3123 . — ISSN 1367-4811 . - doi : 10.1093/bioinformatics/btw380 . Arhivat din original pe 19 aprilie 2017.
- ↑ Landschulz WH, Johnson PF, McKnight SL Fermoarul cu leucină: o structură ipotetică comună unei noi clase de proteine de legare la ADN // Science (New York, NY) . - 1988. - 24 iunie ( vol. 240 , iss. 4860 ). — P. 1759–1764 . — ISSN 0036-8075 . Arhivat din original pe 19 aprilie 2017.
- ↑ Klug A., Rhodes D. Zinc fingers: a novel protein fold for nucleic acid recognition // Cold Spring Harbour Symposium on Quantitative Biology. - 1987. - 1 ianuarie ( vol. 52 ). — P. 473–482 . — ISSN 0091-7451 . Arhivat din original pe 19 aprilie 2017.
- ↑ Bürglin Thomas R., Affolter Markus. Proteine homeodomain: o actualizare (engleză) // Chromosoma. - 2016. - 1 ianuarie ( vol. 125 ). — P. 497–521 . — ISSN 0009-5915 . - doi : 10.1007/s00412-015-0543-8 . Arhivat din original pe 8 martie 2021.
- ↑ Rao ST, Rossmann MG Comparația structurilor super-secundare în proteine // Journal of Molecular Biology. - 1973. - 15 mai ( vol. 76 , iss. 2 ). — P. 241–256 . — ISSN 0022-2836 . Arhivat din original pe 23 aprilie 2017.
- ↑ Nelson Melanie R., Thulin Eva, Fagan Patricia A., Forsén Sture, Chazin Walter J. The EF-hand domain: A globally cooperative structural unit // Protein Science: A Publication of the Protein Society. - 2017. - 14 aprilie ( vol. 11 , iss. 2 ). — P. 198–205 . — ISSN 0961-8368 . - doi : 10.1110/ps.33302 .
- ↑ Watson James D., Milner-White E. James. Un nou site de legare a anionilor de lanț principal în proteine: cuibul. O combinație specială de valori φ,ψ în reziduuri succesive dă naștere la situsuri de legare a anionilor care apar frecvent și se găsesc adesea în regiuni importante din punct de vedere funcțional1 // Journal of Molecular Biology. - 2002. - 11 ianuarie ( vol. 315 , iss. 2 ). — P. 171–182 . - doi : 10.1006/jmbi.2001.5227 .
- ↑ Torrance Gilleain M., David P. Leader, Gilbert David R., Milner-White E. James. Un nou motiv al lanțului principal în proteinele legate de grupuri cationice: nișa (engleză) // Journal of Molecular Biology. - 2009. - 30 ianuarie ( vol. 385 , iss. 4 ). — P. 1076–1086 . — ISSN 1089-8638 . - doi : 10.1016/j.jmb.2008.11.007 . Arhivat din original pe 23 aprilie 2017.
- ↑ Milner-White EJ, Poet R. Four classes of beta-hairpins in proteins. (engleză) // Biochemical Journal. - 1986. - 15 noiembrie ( vol. 240 , iss. 1 ). — P. 289–292 . — ISSN 0264-6021 .
- ↑ 1 2 Efimov Alexander V. Motive structurale favorizate în proteinele globulare (engleză) // Structura. - 1994. - 1 noiembrie ( vol. 2 , iss. 11 ). — P. 999–1002 . - doi : 10.1016/S0969-2126(94)00102-2 .
- ↑ Holm L., Sander C. Dictionary of recurrent domains in protein structures // Proteins . - 1998. - 1 octombrie ( vol. 33 , iss. 1 ). — P. 88–96 . — ISSN 0887-3585 . Arhivat din original pe 23 aprilie 2017.
- ↑ Schneider TD, Stephens RM Siglele secvenței: o nouă modalitate de a afișa secvențele de consens // Nucleic Acids Research. - 1990. - 25 octombrie ( vol. 18 , iss. 20 ). — P. 6097–6100 . — ISSN 0305-1048 . Arhivat din original pe 20 aprilie 2017.
- ↑ de Castro Edouard, Sigrist Christian JA, Gattiker Alexandre, Bulliard Virgini, Langendijk-Genevaux Petra S. ScanProsite: detection of PROSITE signature matchs and ProRule-associated functional and structural residues in proteins // Nucleic Acids Research. - 2006. - 1 iulie ( vol. 34 , iss. Web Server issue ). — P. W362–365 . — ISSN 1362-4962 . doi : 10.1093 / nar/gkl124 . Arhivat din original pe 6 octombrie 2016.
- ↑ InterPro EMBL-EBI. Deget de zinc de tip C2H2 (IPR013087) < InterPro < EMBL- EBI . www.ebi.ac.uk. Consultat la 15 aprilie 2017. Arhivat din original pe 15 aprilie 2017.
- ↑ Flach Peter. Învățare automată. Știința și arta de a construi algoritmi care extrag cunoștințe din date. Manual. — DMK Press, 2015-01-01. — 400 s. - ISBN 9785970602737 , 9781107096394.
- ↑ 1 2 3 Matsuda H., Taniguchi F., Hashimoto A. O abordare a detecției motivelor structurale proteice folosind o schemă de codificare a conformațiilor de coloană vertebrală // Pacific Symposium on Biocomputing. Simpozionul Pacificului despre Biocomputing. - 1997. - 1 ianuarie. — P. 280–291 . — ISSN 2335-6936 . Arhivat din original pe 23 aprilie 2017.
- ↑ 1 2 Tseng Huei-Hun, Weinberg Zasha, Gore Jeremy, Breaker Ronald r., Ruzzo Walter l. Găsirea ARN non-coding prin clustering la scară genomică // Jurnal de bioinformatică și biologie computațională. - 2017. - 12 aprilie ( vol. 7 , iss. 2 ). — P. 373–388 . — ISSN 0219-7200 .
- ↑ Schuster-Böckler Benjamin, Jörg Schultz, Rahmann Sven. Sigle HMM pentru vizualizarea familiilor de proteine (engleză) // BMC Bioinformatics. - 2004. - 1 ianuarie ( vol. 5 ). — P. 7 . — ISSN 1471-2105 . - doi : 10.1186/1471-2105-5-7 .
- ↑ Novichkov Pavel S., Rodionov Dmitry A., Stavrovskaya Elena D., Novichkova S., Kazakov Alexey E. RegPredict: un sistem integrat pentru inferența regulonului la procariote prin abordarea genomică comparativă // Nucleic Acids Research. - 2010. - 1 iulie ( vol. 38 , iss. Web Server issue ). —P.W299–307 . _ — ISSN 1362-4962 . doi : 10.1093 / nar/gkq531 . Arhivat din original pe 24 aprilie 2017.
- ↑ Marahiel Mohamed A. Multidomain enzymes implicate in peptide synthesis // FEBS Letters. - 1992. - 27 iulie ( vol. 307 , iss. 1 ). — P. 40–43 . — ISSN 1873-3468 . - doi : 10.1016/0014-5793(92)80898-Q . Arhivat din original pe 12 aprilie 2017.
- ↑ Stachelhaus T., Mootz HD, Marahiel MA Codul care conferă specificitate al domeniilor de adenilare în sintetazele peptidice nonribozomale // Chemistry & Biology. - 1999. - 1 august ( vol. 6 , iss. 8 ). - P. 493-505 . — ISSN 1074-5521 . - doi : 10.1016/S1074-5521(99)80082-9 . Arhivat din original pe 19 aprilie 2017.
- ↑ Keich U., Pevzner PA Finding motifs in the twilight zone // Bioinformatics (Oxford, England) . - 2002. - 1 octombrie ( vol. 18 , iss. 10 ). - P. 1374-1381 . — ISSN 1367-4803 . Arhivat din original pe 19 aprilie 2017.
- ↑ Thompson William A., Newberg Lee A., Conlan Sean, McCue Lee Ann, Lawrence Charles E. The Gibbs Centroid Sampler // Nucleic Acids Research. - 2007. - 1 iulie ( vol. 35 , iss. Web Server issue ). —P.W232–237 . _ — ISSN 1362-4962 . - doi : 10.1093/nar/gkm265 .
- ↑ Carvalho AM, Freitas AT, Oliveira AL, Sagot MF Un algoritm eficient pentru identificarea motivelor structurate în secvențele promotoare ADN // IEEE/ACM Transactions on Computational Biology and Bioinformatics. - 2006. - 1 aprilie ( vol. 3 , iss. 2 ). — P. 126–140 . — ISSN 1545-5963 . - doi : 10.1109/TCBB.2006.16 . Arhivat din original pe 8 septembrie 2017.
- ↑ Dinh Hieu, Rajasekaran Sanguthevar, Davila Jaime. qPMS7: Un algoritm rapid pentru găsirea (ℓ, d)-motive în secvențe de ADN și proteine (engleză) // PLOS ONE. - 2012. - 24 iulie ( vol. 7 , iss. 7 ). — ISSN 1932-6203 . - doi : 10.1371/journal.pone.0041425 . Arhivat din original pe 15 iunie 2022.
- ↑ Johnson David S., Mortazavi Ali, Myers Richard M., Wold Barbara. Cartografierea la nivel de genom a interacțiunilor proteine-ADN in vivo (engleză) // Science (New York, NY). - 2007. - 8 iunie ( vol. 316 , iss. 5830 ). — P. 1497–1502 . — ISSN 1095-9203 . - doi : 10.1126/science.1141319 . Arhivat din original pe 24 aprilie 2017.
- ↑ Rhee Ho Sung, Pugh B. Franklin. Interacțiuni cuprinzătoare proteină-ADN la nivel de genom detectate la rezoluția cu o singură nucleotidă // Cell . - 2011. - 9 decembrie ( vol. 147 , is. 6 ). - P. 1408-1419 . — ISSN 1097-4172 . - doi : 10.1016/j.cell.2011.11.013 . Arhivat din original pe 24 aprilie 2017.
- ↑ Tuerk C., Gold L. Evoluția sistematică a liganzilor prin îmbogățire exponențială: liganzii ARN la ADN polimeraza T4 bacteriofagului // Science ( New York, NY). - 1990. - 3 august ( vol. 249 , iss. 4968 ). - P. 505-510 . — ISSN 0036-8075 . Arhivat din original pe 24 aprilie 2017.
- ↑ Greil Frauke, Moorman Celine, van Steensel Bas. DamID: cartografierea interacțiunilor proteină-genom in vivo folosind ADN-adenin metiltransferaza legată // Metode în enzimologie. - 2006. - 1 ianuarie ( vol. 410 ). — P. 342–359 . — ISSN 0076-6879 . - doi : 10.1016/S0076-6879(06)10016-6 . Arhivat din original pe 24 aprilie 2017.
Literatură
- Durbin R, Eddie S, Krogh A, Mitchison G. Analiza secvenței biologice: Modele probabilistice de proteine și acizi nucleici. - Regular and Chaotic Dynamics, Institute for Computer Research, 2006. - P. 480. - ISBN 5939725597 .
- Jones Neil C., Pevzner Pavel A. O introducere în algoritmii de bioinformatică . - The MIT Press, 2004. - ISBN 9780262101066 .
- Compeau Phillip, Pevzner Pavel. Algoritmi de bioinformatică: o abordare activă a învățării, Ed. a II-a. Vol. 1 de Phillip Compeau . - Active Learning Publishers, 2015. - P. 384. - ISBN 9780990374619 .
- Durbin Richard, Eddy Sean R., Krogh Anders, Mitchison Graeme. Analiza secvenței biologice: modele probabilistice de proteine și acizi nucleici . - Cambridge University Press, 1998. - P. 372. - ISBN 978-0521620413 .
- Nelson David L., Cox Michael M. Lehninger Principii de biochimie (engleză) . - W.H. Freeman, 2017. - P. 1328. - ISBN 9781464126116 .
Link -uri
Cursuri video pe această temă
Servicii de căutare de motive
Baze de date Motif
- PROSITE - baza de date a familiilor si domeniilor de proteine
- TRANSFAC - bază de date comercială (acces public limitat) a factorilor de transcripție
- HOCOMOCO Arhivat 6 iunie 2013 la Wayback Machine - o colecție de factori de transcripție umani și șoareci
- Minimotif Miner - găsiți scurte motive cunoscute
Diverse