Predicția structurii secundare a ARN

Predicția structurii secundare a ARN  este o metodă pentru determinarea structurii secundare a unui acid nucleic din secvența sa de nucleotide . Structura secundară poate fi prezisă pentru o singură secvență sau poate fi analizată o aliniere multiplă a unei familii de ARN-uri înrudite .

Structura secundară a unui acid nucleic depinde în principal de interacțiunile de împerechere și stivuire a bazelor. Cu toate acestea, în multe cazuri, structura secundară a ARN-ului este păstrată în timpul evoluției într-o măsură mai mare decât secvența sa primară [1] . Multe metode de predicție a structurii secundare se bazează pe programare dinamică și nu reușesc să detecteze în mod eficient pseudonoduri .

În ciuda asemănărilor, există unele diferențe în metodele de predicție a structurilor ADN și ARN. În condiții naturale, ADN-ul este cel mai adesea un duplex complet complementar, în timp ce ARN-ul formează structuri secundare și terțiare complexe , cum ar fi în ARNt , ARN ribozomal sau spliceozomi . Acest lucru se datorează parțial deoarece atomul de oxigen suplimentar din riboză crește tendința de a lega legăturile de hidrogen cu coloana vertebrală a acidului nucleic. Parametrii energetici ai acestor doi acizi nucleici diferă de asemenea.

Predicția structurii unei singure molecule de ARN

Structura secundară a moleculelor mici de ARN este în mare măsură determinată de interacțiuni locale puternice, cum ar fi legăturile de hidrogen și interacțiunile de stivuire a perechilor de baze . Suma energiilor libere ale unor astfel de interacțiuni ar trebui să asigure stabilitatea acestei structuri. Modelul  celui mai apropiat vecin este utilizat pentru a prezice energia liberă a stivuirii structurii secundare . În acest model, schimbarea energiei libere pentru fiecare motiv depinde de succesiunea motivului în sine și de perechile de baze cele mai apropiate de acesta [2] . Modelul energetic minim și parametrii pentru perechile clasice Watson-Crick, perechile și buclele guanină - uracil au fost obținute prin experimente calorimetrice empirice, cei mai actualizați parametri au fost publicati în 2004 [3] , deși majoritatea pachetelor software încă folosesc cei anterioare. set întocmit în anul 1999 [4] .

Cea mai ușoară modalitate de a găsi structura minimă de energie liberă este de a genera toate structurile posibile și de a calcula energia liberă pentru ele, dar numărul de structuri de secvență posibile crește exponențial cu lungimea ARN (Numărul de structuri secundare = (1,8) N , unde N este numărul de nucleotide ) [5] . Astfel, pentru un ARN cu o lungime de numai 200 de perechi de baze, există mai mult de 10 50 de structuri posibile cu baze pereche [1] .

Algoritmi bazați pe programare dinamică

Una dintre abordările de predicție a structurii secundare a ARN este algoritmul Nussin , care se bazează pe programare dinamică și constă în găsirea structurii cu cel mai mare număr de perechi de baze [6] . Totuși, acest algoritm este prea simplu și nu ține cont de proprietăți structurale importante, cum ar fi preferințele pentru anumite lungimi de buclă sau preferințele pentru anumiți vecini cei mai apropiați în structură, rezultate din interacțiunile de stivuire între perechile de baze adiacente în acurile de păr ARN [1] . În plus, soluția nu este adesea singura. În 1980, Nussinov și colegii au publicat o adaptare a abordării lor folosind un model energetic al celui mai apropiat vecin [7] .

Plierea ARN este determinată de cauze fizice, nu de numărarea și maximizarea numărului de perechi de baze. Metoda propusă în 1981 de Michael Zucker și Patrick Steigler presupune că structura corectă în echilibru are cea mai mică energie liberă ( ΔG ) [8] . ΔG al structurii secundare a ARN este estimat ca suma energiilor libere ale buclelor, perechilor de baze și altor elemente ale structurii secundare. O diferență importantă față de algoritmul mai simplu Nussin este că atunci când se calculează energia acelor de păr, energia de stivuire corespunde interacțiunii perechilor de baze vecine, și nu perechilor în sine [1] .

Programarea dinamică face posibilă testarea tuturor variantelor posibile ale structurilor secundare ARN fără a le crea direct. Algoritmul funcționează recursiv . Cea mai bună structură cu cea mai mică energie posibilă este calculată mai întâi pentru toate subsecvențele mici posibile, iar apoi pentru subsecvențele din ce în ce mai mari. Structura exactă a moleculei de ARN este determinată prin calcularea energiei libere minime a secvenței complete [2] .

Algoritmii de programare dinamică sunt utilizați în mod obișnuit pentru a detecta modele de perechi de baze „bine imbricate” , adică cele care formează legături de hidrogen care nu se suprapun cu alte regiuni ale secvenței. Astfel de structuri includ elice duble, bucle de tulpină și variante de frunze de trifoi găsite, de exemplu, în ARN-ul de transfer. Aceste metode se bazează pe parametrii de proiectare predeterminați care estimează energia liberă de împerechere a anumitor tipuri de perechi de baze, inclusiv perechile Watson-Crick și Hoogsteen . În funcție de complexitatea metodei, perechile de baze simple pot fi considerate în același mod ca segmentele scurte de două sau trei perechi de baze pentru a ține seama de efectul interacțiunilor de stivuire. Fără modificări algoritmice semnificative, care necesită costuri de calcul extrem de mari, aceste metode nu pot determina pseudonoduri [9] .

Structuri suboptimale

Precizia predicției structurii secundare a unei singure molecule de ARN prin minimizarea energiei libere este limitată de mai mulți factori:

  1. În modelul cel mai apropiat vecin, valoarea energiei libere nu poate lua anumite valori admisibile.
  2. Nu toate pliurile de ARN cunoscute corespund minimului termodinamic.
  3. Unele secvențe de ARN au mai mult de o conformație activă biologic (numite riboswitches)

Din acest motiv, o metodă de predicție a structurilor secundare cu o energie liberă la fel de scăzută poate oferi informații semnificative. Astfel de structuri sunt numite suboptimale. MFOLD este unul dintre programele care generează structuri suboptimale [10] .

Predicție pseudonod

Una dintre problemele în prezicerea structurii secundare a ARN-ului este că minimizarea energiei libere standard și metodele statistice nu pot dezvălui pseudonoduri [4] . Acest dezavantaj se explică prin faptul că algoritmii convenționali de programare dinamică iau în considerare doar interacțiunile dintre cele mai apropiate nucleotide, în timp ce pseudonodurile se formează ca urmare a interacțiunilor dintre nucleotidele îndepărtate. Rivas și Eddy au publicat un algoritm de programare dinamică pentru predicția pseudonodurilor [9] . Cu toate acestea, acest algoritm de programare dinamică este foarte lent. Algoritmul standard de programare dinamică pentru minimizarea energiei libere rulează în O(N 3 ) (N este numărul de nucleotide din secvență), în timp ce algoritmul lui Rivas și Eddy preia O(N 6 ) în timp. Acest lucru i-a determinat pe cercetători să implementeze o versiune a algoritmului care limitează clasele de pseudonoduri, economisind timp. De exemplu, pknotsRG, care include doar o clasă de pseudonoduri recursive simple, necesită operații O(N 4 ) [11] .

Alte abordări pentru prezicerea structurii secundare a ARN-ului

O altă abordare pentru prezicerea structurii secundare a ARN este determinarea pliului folosind ansamblul Boltzmann [12] [13] , de exemplu, în programul SFOLD. Acest program generează un eșantion statistic al tuturor structurilor secundare posibile de ARN. Algoritmul selectează structuri secundare conform distribuției Boltzmann . O astfel de metodă de selecție oferă o soluție bună la problema incertitudinii de stivuire [13] .

Predicția structurii secundare a familiilor de ARN-uri înrudite

Modelele covariante se bazează pe existența unor familii de ARN-uri înrudite care împărtășesc nu numai o structură secundară comună, ci și unele motive de secvență comune. Aceste metode analizează covarianța site-urilor de bază individuale în timpul evoluției; conservarea a două nucleotide destul de îndepărtate una de cealaltă indică prezența unei legături de hidrogen necesare structural între ele. S-a demonstrat că problema predicției pseudonodurilor este o problemă NP-completă [14]

Problema alinierii și predicția structurii consensului sunt strâns legate. Există trei abordări diferite pentru a prezice structurile de consens [15] :

  1. Alinierea așezării;
  2. Alinierea și stivuirea secvenței simultane;
  3. Alinierea structurilor prezise.

Nivelare urmată de așezare

Această abordare constă în construirea unei alinieri multiple a secvențelor de ARN, găsirea unei secvențe consens și apoi plierea acesteia. Calitatea alinierii determină acuratețea modelului structural de consens. Secvența consens se potrivește folosind abordări diferite, la fel ca și pentru prezicerea structurii secundare a moleculelor unice de ARN. O abordare care utilizează plierea termodinamică este utilizată, de exemplu, de programul RNAalifold [16] . Diverse abordări folosesc programele Pfold și ILM. Programul Pfold implementează gramaticile stocastice fără context (SCGS) [17] . ILM (potrivirea buclei iterate), spre deosebire de alți algoritmi de stivuire de aliniere, poate recupera pseudonoduri. Utilizează o combinație de termodinamică și evaluarea conținutului de informații relevante [18] .

Nivelare și stivuire sincronizate

Evoluția păstrează adesea structura funcțională a ARN-ului mai bine decât secvența sa [16] . Astfel, provocarea este de a crea o structură comună pentru două sau mai multe secvențe de ARN foarte divergente, dar omoloage . În practică, aliniamentele de secvențe devin inutilizabile și nu îmbunătățesc acuratețea predicției structurii atunci când similitudinea a două secvențe este mai mică de 50% [19] .

Programele de aliniere structurală îmbunătățesc performanța acestor metode, majoritatea fiind variante ale algoritmului Sankoff [20] . Practic, algoritmul Sankoff este o combinație de algoritmi de aliniere a secvenței și Nussinov [6] , care caută site-ul maxim de împerechere folosind programarea dinamică [21] . Algoritmul Sankoff în sine este teoretic, deoarece necesită resurse de calcul foarte mari (timp O (n3m) și O (n2m) memorie, unde N este lungimea secvenței, m este numărul de secvențe). Cu toate acestea, există unele încercări de a implementa versiuni limitate ale algoritmului Sankoff. Acestea includ, de exemplu, Foldalign [22] [23] , Dynaalign [24] [25] , PMmulti/PMcomp [21] , Stemloc [26] și Murlet [27] . Aceste implementări limitează lungimea maximă de aliniere sau numărul de opțiuni posibile de structură de consens. Deci, Foldalign construiește aliniamente locale și limitează lungimea posibilă a aliniamentelor secvenței.

Așezare urmată de nivelare

Alinierea structurilor prezise este mai puțin utilizată. Această abordare utilizează structurile prezise pentru moleculele de ARN unice. Le aliniază folosind arbori [28] . Principala slăbiciune a acestei abordări este că predicțiile unei secvențe sunt adesea inexacte, încălcând astfel acuratețea tuturor analizelor ulterioare.

Vezi și

Note

  1. 1 2 3 4 R. Durbin, S. Eddy, A. Krogh, G. Mitchison. Analiza secvențelor biologice .. - M.-Izhevsk .: Centrul de cercetare „Dinamica regulată și haotică”, Institutul de Cercetări Calculatoare, 2006. - P. 347-402. — 480 s. — ISBN 5-93972-559-7 .
  2. 1 2 Mathews D.H. Revoluții în predicția structurii secundare a ARN.  (engleză)  // Jurnal de biologie moleculară. - 2006. - Vol. 359, nr. 3 . - P. 526-532. - doi : 10.1016/j.jmb.2006.01.067 . — PMID 16500677 .
  3. Mathews DH , Disney MD , Childs JL , Schroeder SJ , Zuker M. , Turner DH Încorporarea constrângerilor de modificare chimică într-un algoritm de programare dinamică pentru predicția structurii secundare a ARN.  (engleză)  // Proceedings of the National Academy of Sciences of the United States of America. - 2004. - Vol. 101, nr. 19 . - P. 7287-7292. - doi : 10.1073/pnas.0401799101 . — PMID 15123812 .
  4. 1 2 Mathews DH , Sabina J. , Zuker M. , Turner DH Dependența extinsă de secvență a parametrilor termodinamici îmbunătățește predicția structurii secundare ARN.  (engleză)  // Jurnal de biologie moleculară. - 1999. - Vol. 288, nr. 5 . - P. 911-940. - doi : 10.1006/jmbi.1999.2700 . — PMID 10329189 .
  5. Zuker M., Sankoff D. Structuri secundare ARN și predicția lor  (neopr.)  // Bull. Matematică. Biol.. - 1984. - T. 46 . - S. 591-621 .
  6. 1 2 Nussinov R, Piecznik G, Grigg JR și Kleitman DJ. Algoritmi pentru potrivirile buclei  // SIAM Journal on Applied Mathematics. - 1978. - Vol. 35, nr. 1 . - P. 68-82.
  7. Nussinov R. , Jacobson AB Algoritm rapid pentru prezicerea structurii secundare a ARN-ului monocatenar.  (engleză)  // Proceedings of the National Academy of Sciences of the United States of America. - 1980. - Vol. 77, nr. 11 . - P. 6309-6313. — PMID 6161375 .
  8. Zuker M. , Stiegler P. Plierea optimă computerizată a secvențelor mari de ARN folosind termodinamică și informații auxiliare.  (engleză)  // Cercetarea acizilor nucleici. - 1981. - Vol. 9, nr. 1 . - P. 133-148. — PMID 6163133 .
  9. 1 2 Rivas E. , Eddy SR Un algoritm de programare dinamică pentru predicția structurii ARN, inclusiv pseudonoduri.  (engleză)  // Jurnal de biologie moleculară. - 1999. - Vol. 285, nr. 5 . - P. 2053-2068. - doi : 10.1006/jmbi.1998.2436 . — PMID 9925784 .
  10. Zuker M. Server web Mfold pentru plierea acidului nucleic și predicția hibridizării.  (engleză)  // Cercetarea acizilor nucleici. - 2003. - Vol. 31, nr. 13 . - P. 3406-3415. — PMID 12824337 .
  11. Reeder J. , Giegerich R. Proiectarea, implementarea și evaluarea unui algoritm practic de pliere pseudoknot bazat pe termodinamică.  (engleză)  // BMC bioinformatics. - 2004. - Vol. 5. - P. 104. - doi : 10.1186/1471-2105-5-104 . — PMID 15294028 .
  12. McCaskill JS Funcția de partiție a echilibrului și probabilitățile de legare a perechii de baze pentru structura secundară a ARN.  (engleză)  // Biopolimeri. - 1990. - Vol. 29, nr. 6-7 . - P. 1105-1119. - doi : 10.1002/bip.360290621 . — PMID 1695107 .
  13. 1 2 Ding Y. , Lawrence CE Un algoritm de eșantionare statistică pentru predicția structurii secundare a ARN.  (engleză)  // Cercetarea acizilor nucleici. - 2003. - Vol. 31, nr. 24 . - P. 7280-7301. — PMID 14654704 .
  14. Lyngsø RB , Pedersen CN ARN pseudoknot prediction în modele bazate pe energie.  (engleză)  // Jurnal de biologie computațională: un jurnal de biologie celulară moleculară computațională. - 2000. - Vol. 7, nr. 3-4 . - P. 409-427. - doi : 10.1089/106652700750050862 . — PMID 11108471 .
  15. Gardner PP , Giegerich R. O comparație cuprinzătoare a abordărilor comparative de predicție a structurii ARN.  (engleză)  // BMC bioinformatics. - 2004. - Vol. 5. - P. 140. - doi : 10.1186/1471-2105-5-140 . — PMID 15458580 .
  16. 1 2 Hofacker IL , Fekete M. , Stadler PF Predicția structurii secundare pentru secvențele de ARN aliniate.  (engleză)  // Jurnal de biologie moleculară. - 2002. - Vol. 319, nr. 5 . - P. 1059-1066. - doi : 10.1016/S0022-2836(02)00308-X . — PMID 12079347 .
  17. Knudsen B. , Hein J. Pfold: Predicția structurii secundare a ARN folosind gramatici stocastice fără context.  (engleză)  // Cercetarea acizilor nucleici. - 2003. - Vol. 31, nr. 13 . - P. 3423-3428. — PMID 12824339 .
  18. Ruan J. , Stormo GD , Zhang W. ILM: un server web pentru prezicerea structurilor secundare ARN cu pseudonoduri.  (engleză)  // Cercetarea acizilor nucleici. - 2004. - Vol. 32. - P. 146-149. doi : 10.1093 / nar/gkh444 . — PMID 15215368 .
  19. Bernhart SH , Hofacker IL De la predicția structurii consensuale la găsirea genei ARN.  (engleză)  // Briefings în genomică funcțională și proteomică. - 2009. - Vol. 8, nr. 6 . - P. 461-471. doi : 10.1093 / bfgp/elp043 . — PMID 19833701 .
  20. Sankoff D. Soluția simultană a problemelor de pliere, aliniere și protosecvență ARN  // SIAM Journal on Applied Mathematics. - 1985. - Vol. 45, nr. 5 . - P. 810-825. Arhivat din original pe 13 iunie 2007.
  21. 1 2 Hofacker IL , Bernhart SH , Stadler PF Alinierea matricelor de probabilitate de împerechere a bazelor ARN.  (engleză)  // Bioinformatică. - 2004. - Vol. 20, nr. 14 . - P. 2222-2227. - doi : 10.1093/bioinformatics/bth229 . — PMID 15073017 .
  22. Havgaard JH , Lyngsø RB , Stormo GD , Gorodkin J. Alinierea structurală locală în perechi a secvențelor de ARN cu similaritate de secvență mai mică de 40%.  (engleză)  // Bioinformatică. - 2005. - Vol. 21, nr. 9 . - P. 1815-1824. - doi : 10.1093/bioinformatics/bti279 . — PMID 15657094 .
  23. Torarinsson E. , Havgaard JH , Gorodkin J. Multiple structural alignment and clustering of ARN sequences.  (engleză)  // Bioinformatică. - 2007. - Vol. 23, nr. 8 . - P. 926-932. - doi : 10.1093/bioinformatics/btm049 . — PMID 17324941 .
  24. Mathews DH , Turner DH Dynalign: un algoritm pentru găsirea structurii secundare comune pentru două secvențe de ARN.  (engleză)  // Jurnal de biologie moleculară. - 2002. - Vol. 317, nr. 2 . - P. 191-203. - doi : 10.1006/jmbi.2001.5351 . — PMID 11902836 .
  25. ^ Harmanci AO , Sharma G. , Mathews DH Predicție eficientă a structurii ARN pe perechi folosind constrângeri probabilistice de aliniere în Dynalign.  (engleză)  // BMC bioinformatics. - 2007. - Vol. 8. - P. 130. - doi : 10.1186/1471-2105-8-130 . — PMID 17445273 .
  26. Holmes I. Inferența probabilistică accelerată a evoluției structurii ARN.  (engleză)  // BMC bioinformatics. - 2005. - Vol. 6. - P. 73. - doi : 10.1186/1471-2105-6-73 . — PMID 15790387 .
  27. Kiryu H. , Tabei Y. , Kin T. , Asai K. Murlet: un instrument practic de aliniere multiplă pentru secvențe structurale de ARN.  (engleză)  // Bioinformatică. - 2007. - Vol. 23, nr. 13 . - P. 1588-1598. - doi : 10.1093/bioinformatics/btm146 . — PMID 17459961 .
  28. Shapiro BA , Zhang KZ Compararea mai multor structuri secundare ARN folosind comparații arbore.  (Engleză)  // Aplicații informatice în bioștiințe : CABIOS. - 1990. - Vol. 6, nr. 4 . - P. 309-318. — PMID 1701685 .

Literatură