Predicția structurii secundare a ARN este o metodă pentru determinarea structurii secundare a unui acid nucleic din secvența sa de nucleotide . Structura secundară poate fi prezisă pentru o singură secvență sau poate fi analizată o aliniere multiplă a unei familii de ARN-uri înrudite .
Structura secundară a unui acid nucleic depinde în principal de interacțiunile de împerechere și stivuire a bazelor. Cu toate acestea, în multe cazuri, structura secundară a ARN-ului este păstrată în timpul evoluției într-o măsură mai mare decât secvența sa primară [1] . Multe metode de predicție a structurii secundare se bazează pe programare dinamică și nu reușesc să detecteze în mod eficient pseudonoduri .
În ciuda asemănărilor, există unele diferențe în metodele de predicție a structurilor ADN și ARN. În condiții naturale, ADN-ul este cel mai adesea un duplex complet complementar, în timp ce ARN-ul formează structuri secundare și terțiare complexe , cum ar fi în ARNt , ARN ribozomal sau spliceozomi . Acest lucru se datorează parțial deoarece atomul de oxigen suplimentar din riboză crește tendința de a lega legăturile de hidrogen cu coloana vertebrală a acidului nucleic. Parametrii energetici ai acestor doi acizi nucleici diferă de asemenea.
Structura secundară a moleculelor mici de ARN este în mare măsură determinată de interacțiuni locale puternice, cum ar fi legăturile de hidrogen și interacțiunile de stivuire a perechilor de baze . Suma energiilor libere ale unor astfel de interacțiuni ar trebui să asigure stabilitatea acestei structuri. Modelul celui mai apropiat vecin este utilizat pentru a prezice energia liberă a stivuirii structurii secundare . În acest model, schimbarea energiei libere pentru fiecare motiv depinde de succesiunea motivului în sine și de perechile de baze cele mai apropiate de acesta [2] . Modelul energetic minim și parametrii pentru perechile clasice Watson-Crick, perechile și buclele guanină - uracil au fost obținute prin experimente calorimetrice empirice, cei mai actualizați parametri au fost publicati în 2004 [3] , deși majoritatea pachetelor software încă folosesc cei anterioare. set întocmit în anul 1999 [4] .
Cea mai ușoară modalitate de a găsi structura minimă de energie liberă este de a genera toate structurile posibile și de a calcula energia liberă pentru ele, dar numărul de structuri de secvență posibile crește exponențial cu lungimea ARN (Numărul de structuri secundare = (1,8) N , unde N este numărul de nucleotide ) [5] . Astfel, pentru un ARN cu o lungime de numai 200 de perechi de baze, există mai mult de 10 50 de structuri posibile cu baze pereche [1] .
Una dintre abordările de predicție a structurii secundare a ARN este algoritmul Nussin , care se bazează pe programare dinamică și constă în găsirea structurii cu cel mai mare număr de perechi de baze [6] . Totuși, acest algoritm este prea simplu și nu ține cont de proprietăți structurale importante, cum ar fi preferințele pentru anumite lungimi de buclă sau preferințele pentru anumiți vecini cei mai apropiați în structură, rezultate din interacțiunile de stivuire între perechile de baze adiacente în acurile de păr ARN [1] . În plus, soluția nu este adesea singura. În 1980, Nussinov și colegii au publicat o adaptare a abordării lor folosind un model energetic al celui mai apropiat vecin [7] .
Plierea ARN este determinată de cauze fizice, nu de numărarea și maximizarea numărului de perechi de baze. Metoda propusă în 1981 de Michael Zucker și Patrick Steigler presupune că structura corectă în echilibru are cea mai mică energie liberă ( ΔG ) [8] . ΔG al structurii secundare a ARN este estimat ca suma energiilor libere ale buclelor, perechilor de baze și altor elemente ale structurii secundare. O diferență importantă față de algoritmul mai simplu Nussin este că atunci când se calculează energia acelor de păr, energia de stivuire corespunde interacțiunii perechilor de baze vecine, și nu perechilor în sine [1] .
Programarea dinamică face posibilă testarea tuturor variantelor posibile ale structurilor secundare ARN fără a le crea direct. Algoritmul funcționează recursiv . Cea mai bună structură cu cea mai mică energie posibilă este calculată mai întâi pentru toate subsecvențele mici posibile, iar apoi pentru subsecvențele din ce în ce mai mari. Structura exactă a moleculei de ARN este determinată prin calcularea energiei libere minime a secvenței complete [2] .
Algoritmii de programare dinamică sunt utilizați în mod obișnuit pentru a detecta modele de perechi de baze „bine imbricate” , adică cele care formează legături de hidrogen care nu se suprapun cu alte regiuni ale secvenței. Astfel de structuri includ elice duble, bucle de tulpină și variante de frunze de trifoi găsite, de exemplu, în ARN-ul de transfer. Aceste metode se bazează pe parametrii de proiectare predeterminați care estimează energia liberă de împerechere a anumitor tipuri de perechi de baze, inclusiv perechile Watson-Crick și Hoogsteen . În funcție de complexitatea metodei, perechile de baze simple pot fi considerate în același mod ca segmentele scurte de două sau trei perechi de baze pentru a ține seama de efectul interacțiunilor de stivuire. Fără modificări algoritmice semnificative, care necesită costuri de calcul extrem de mari, aceste metode nu pot determina pseudonoduri [9] .
Precizia predicției structurii secundare a unei singure molecule de ARN prin minimizarea energiei libere este limitată de mai mulți factori:
Din acest motiv, o metodă de predicție a structurilor secundare cu o energie liberă la fel de scăzută poate oferi informații semnificative. Astfel de structuri sunt numite suboptimale. MFOLD este unul dintre programele care generează structuri suboptimale [10] .
Una dintre problemele în prezicerea structurii secundare a ARN-ului este că minimizarea energiei libere standard și metodele statistice nu pot dezvălui pseudonoduri [4] . Acest dezavantaj se explică prin faptul că algoritmii convenționali de programare dinamică iau în considerare doar interacțiunile dintre cele mai apropiate nucleotide, în timp ce pseudonodurile se formează ca urmare a interacțiunilor dintre nucleotidele îndepărtate. Rivas și Eddy au publicat un algoritm de programare dinamică pentru predicția pseudonodurilor [9] . Cu toate acestea, acest algoritm de programare dinamică este foarte lent. Algoritmul standard de programare dinamică pentru minimizarea energiei libere rulează în O(N 3 ) (N este numărul de nucleotide din secvență), în timp ce algoritmul lui Rivas și Eddy preia O(N 6 ) în timp. Acest lucru i-a determinat pe cercetători să implementeze o versiune a algoritmului care limitează clasele de pseudonoduri, economisind timp. De exemplu, pknotsRG, care include doar o clasă de pseudonoduri recursive simple, necesită operații O(N 4 ) [11] .
O altă abordare pentru prezicerea structurii secundare a ARN este determinarea pliului folosind ansamblul Boltzmann [12] [13] , de exemplu, în programul SFOLD. Acest program generează un eșantion statistic al tuturor structurilor secundare posibile de ARN. Algoritmul selectează structuri secundare conform distribuției Boltzmann . O astfel de metodă de selecție oferă o soluție bună la problema incertitudinii de stivuire [13] .
Modelele covariante se bazează pe existența unor familii de ARN-uri înrudite care împărtășesc nu numai o structură secundară comună, ci și unele motive de secvență comune. Aceste metode analizează covarianța site-urilor de bază individuale în timpul evoluției; conservarea a două nucleotide destul de îndepărtate una de cealaltă indică prezența unei legături de hidrogen necesare structural între ele. S-a demonstrat că problema predicției pseudonodurilor este o problemă NP-completă [14]
Problema alinierii și predicția structurii consensului sunt strâns legate. Există trei abordări diferite pentru a prezice structurile de consens [15] :
Această abordare constă în construirea unei alinieri multiple a secvențelor de ARN, găsirea unei secvențe consens și apoi plierea acesteia. Calitatea alinierii determină acuratețea modelului structural de consens. Secvența consens se potrivește folosind abordări diferite, la fel ca și pentru prezicerea structurii secundare a moleculelor unice de ARN. O abordare care utilizează plierea termodinamică este utilizată, de exemplu, de programul RNAalifold [16] . Diverse abordări folosesc programele Pfold și ILM. Programul Pfold implementează gramaticile stocastice fără context (SCGS) [17] . ILM (potrivirea buclei iterate), spre deosebire de alți algoritmi de stivuire de aliniere, poate recupera pseudonoduri. Utilizează o combinație de termodinamică și evaluarea conținutului de informații relevante [18] .
Evoluția păstrează adesea structura funcțională a ARN-ului mai bine decât secvența sa [16] . Astfel, provocarea este de a crea o structură comună pentru două sau mai multe secvențe de ARN foarte divergente, dar omoloage . În practică, aliniamentele de secvențe devin inutilizabile și nu îmbunătățesc acuratețea predicției structurii atunci când similitudinea a două secvențe este mai mică de 50% [19] .
Programele de aliniere structurală îmbunătățesc performanța acestor metode, majoritatea fiind variante ale algoritmului Sankoff [20] . Practic, algoritmul Sankoff este o combinație de algoritmi de aliniere a secvenței și Nussinov [6] , care caută site-ul maxim de împerechere folosind programarea dinamică [21] . Algoritmul Sankoff în sine este teoretic, deoarece necesită resurse de calcul foarte mari (timp O (n3m) și O (n2m) memorie, unde N este lungimea secvenței, m este numărul de secvențe). Cu toate acestea, există unele încercări de a implementa versiuni limitate ale algoritmului Sankoff. Acestea includ, de exemplu, Foldalign [22] [23] , Dynaalign [24] [25] , PMmulti/PMcomp [21] , Stemloc [26] și Murlet [27] . Aceste implementări limitează lungimea maximă de aliniere sau numărul de opțiuni posibile de structură de consens. Deci, Foldalign construiește aliniamente locale și limitează lungimea posibilă a aliniamentelor secvenței.
Alinierea structurilor prezise este mai puțin utilizată. Această abordare utilizează structurile prezise pentru moleculele de ARN unice. Le aliniază folosind arbori [28] . Principala slăbiciune a acestei abordări este că predicțiile unei secvențe sunt adesea inexacte, încălcând astfel acuratețea tuturor analizelor ulterioare.
de acizi nucleici | Tipuri||||
---|---|---|---|---|
Baze azotate | ||||
Nucleozide | ||||
Nucleotide | ||||
ARN | ||||
ADN | ||||
Analogii | ||||
Tipuri de vectori |
| |||
|