Alinierea spațială

Alinierea spațială  este o modalitate de stabilire a omologiei între două sau mai multe structuri polimerice pe baza structurii lor tridimensionale. Acest proces este de obicei aplicat structurii terțiare a proteinelor , dar poate fi folosit și pentru molecule mari de ARN . Spre deosebire de suprapunerea simplă a structurii, în care sunt cunoscute cel puțin câteva resturi de aminoacizi echivalente , alinierea spațială nu necesită alte date prealabile decât coordonatele atomice .

Alinierea spațială este potrivită pentru compararea proteinelor cu secvențe diferite atunci când relațiile evolutive nu pot fi stabilite prin metode standard de aliniere a secvenței , dar în acest caz trebuie luată în considerare influența evoluției convergente .

Alinierea spațială permite compararea a două sau mai multe molecule pentru care sunt cunoscute structuri tridimensionale. Cele două metode principale de obținere a acestora sunt analiza de difracție cu raze X și spectroscopia RMN . Structurile derivate din metodele de predicție a structurii proteinelor pot fi, de asemenea, utilizate pentru alinierea spațială . Aliniamentele spațiale sunt deosebit de importante pentru analiza datelor obținute prin metode de genomică structurală și proteomică, ele pot fi folosite și pentru a evalua aliniamentele obținute prin compararea secvențelor [1] .

Date de aliniere structurală

Rezultatul programelor de aliniere structurală este, de regulă, combinația de seturi de coordonate atomice și cea mai mică abatere standard (RMSD) între structuri. În plus, pot fi calculați parametri mai complecși care evaluează similaritatea structurală, de exemplu, testul de distanță globală [2] . RMSD indică gradul de divergență al structurilor aliniate. Alinierea structurală poate fi dificilă din cauza prezenței mai multor domenii în structura proteinelor care sunt aliniate, deoarece schimbările în poziția relativă a acestor domenii între două structuri pot modifica în mod artificial valoarea RMSD. O aliniere unidimensională corespunzătoare a secvențelor decurge direct din alinierea structurală și poate fi, de asemenea, utilizată pentru a calcula proporția de reziduuri de aminoacizi care sunt identice între două proteine.

Tipuri de comparație

Pentru a crea o aliniere structurală și a calcula valorile RMSD corespunzătoare, pot fi utilizați atât toți atomii din molecula de proteină, cât și subseturile acestora. De exemplu, atomii radicalilor laterali ai resturilor de aminoacizi nu sunt întotdeauna luați în considerare și numai atomii incluși în scheletul peptidic al moleculei pot fi utilizați pentru aliniere. Această opțiune este aleasă dacă structurile aliniate au o secvență de aminoacizi foarte diferită și radicalii laterali diferă într-un număr mare de reziduuri. Din acest motiv, în mod implicit, metodele de aliniere spațială utilizează numai atomi de coloană vertebrală implicați într-o legătură peptidică . Pentru o mai mare simplificare și creșterea eficienței, poziția doar a atomilor de carbon alfa este adesea folosită , deoarece poziția lor determină destul de precis poziția atomilor din coloana vertebrală a polipeptidei. Numai atunci când se aliniază structuri foarte asemănătoare sau chiar identice este important să se țină cont de pozițiile atomilor din lanțul lateral. În acest caz, RMSD reflectă nu numai similitudinea conformației coloanei vertebrale a proteinei, ci și stările rotamer ale lanțurilor laterale. Alte modalități de a reduce zgomotul și de a crește numărul de potriviri corecte sunt etichetarea elementelor structurii secundare , hărțile de contact native sau modelele de interacțiune cu reziduuri, măsurile gradului de împachetare a lanțului lateral și măsurile de conservare a legăturilor de hidrogen [3] .

Cel mai simplu mod de a compara două structuri nu necesită alinierea structurilor în sine, ci folosește alinierea secvenței. Acesta determină ce perechi de reziduuri de aminoacizi sunt mapate între ele și apoi numai ele sunt utilizate pentru a calcula RMSD. Suprapunerea structurală este folosită în mod obișnuit pentru a compara mai multe conformații ale aceleiași proteine ​​(caz în care nu este nici măcar necesară alinierea secvențelor) și pentru a evalua calitatea aliniamentelor secvenței dacă structurile sunt cunoscute pentru ele. În mod tradițional, la suprapunerea structurilor, se folosește o metodă simplă a celor mai mici pătrate , în care rotațiile și translațiile optime sunt găsite prin minimizarea sumei distanțelor pătrate dintre toate structurile din suprapunere [4] . Recent, o astfel de căutare a devenit mai precisă datorită metodelor de maximă probabilitate și metodelor bayesiene [5] [6] .

Algoritmi bazați pe rotații multidimensionale și cuaternioni modificați au fost dezvoltați pentru a determina relațiile topologice dintre structurile proteinelor fără a construi aliniamente de secvență. Astfel de algoritmi au identificat cu succes stive canonice, cum ar fi pachetul cu patru helix [7] . Metoda SuperPose face posibilă luarea în considerare a rotațiilor domeniilor relative și a altor momente complicate de aliniere structurală [8] .

Reprezentarea structurilor

Pentru a compara structurile proteinelor este necesar să le reprezentăm într-un spațiu care nu depinde de coordonate. Acest lucru se realizează de obicei cu o matrice secvență-versus-secvență sau cu o serie de matrice care includ măsuri de comparație care se referă la un spațiu de coordonate fix, mai degrabă decât la distanțe absolute. O modalitate evidentă de a reprezenta acest lucru este printr -o matrice de distanțe , care este o matrice bidimensională care conține toate distanțele perechi dintre un set de atomi din fiecare structură (de exemplu, atomi de carbon alfa ). Dimensiunea unei astfel de matrice crește odată cu creșterea numărului de structuri comparate simultan. Reprezentând proteina sub formă de părți mari, cum ar fi elementele de structură secundară (SSE) sau alte fragmente structurale, este, de asemenea, posibil să se obțină o aliniere rezonabilă, în ciuda pierderii de informații de la distanțe nesocotite, deoarece zgomotul de la acestea nu va să fie luate în considerare. Astfel, alegerea unei modalități de a reprezenta o proteină pentru a facilita calculul este esențială pentru dezvoltarea unui algoritm de aliniere eficient [9] .

Complexitate computațională

Soluție optimă

S-a demonstrat că „ întinderea ” optimă a unei secvențe de proteine ​​printr-o structură cunoscută și construcția unei alinieri optime de secvențe multiple sunt probleme NP-complete [10] [11] . Cu toate acestea, problema obișnuită de aliniere structurală nu este NP-completă. Strict vorbind, soluția optimă pentru problema de aliniere structurală a proteinei este cunoscută numai pentru anumite măsuri de similitudine a structurilor proteinelor, de exemplu, măsurile utilizate în problemele de predicție a structurii proteinelor GDT_TS [2] și MaxSub [12] . Astfel de măsuri pot fi optimizate folosind un algoritm capabil să maximizeze numărul de atomi din două proteine ​​care pot fi combinate, atâta timp cât acestea satisfac un prag predeterminat pentru distanța dintre ele. Din păcate, algoritmul de aliniere optimă este nepractic, deoarece timpul său de rulare depinde nu numai de lungimile secvențelor, ci și de geometria proteinelor care sunt aliniate [13] .

Soluție aproximativă

De asemenea, au fost dezvoltați algoritmi de aliniere structurală aproximativă care funcționează în timp polinomial și produc o întreagă familie de soluții „optime” în cadrul parametrului de aproximare pentru o funcție de numărare dată [13] [14] . Deși teoretic problema alinierii structurale aproximative a proteinelor este ușor dată unor astfel de algoritmi, aceștia sunt încă costisitori din punct de vedere computațional pentru analiza la scară largă a structurilor proteinelor. În consecință, nu există algoritmi practici care, cu o funcție de numărare dată, ar converge către o soluție de aliniere globală. Din acest motiv, majoritatea algoritmilor sunt euristici , dar au fost dezvoltați algoritmi practici care garantează convergența către cel puțin o maximizare locală a funcției de numărare [15] .

Metode

Alinierea structurală este utilizată atât atunci când se compară structuri individuale sau seturi ale acestora, cât și când se creează baze de date de comparații „all-to-all” (“all-to-all”), care reflectă diferențele dintre fiecare pereche de structuri prezente în Protein Data. Banca (PDB). Astfel de baze de date sunt utilizate în mod obișnuit pentru a clasifica proteinele în funcție de plierea lor.

DALI

Una dintre metodele populare de aliniere structurală este DALI ( metoda matricei de aliniere la distanță  ) .  În ea, structurile originale ale proteinelor sunt descompuse în hexapeptide, iar o matrice de distanță este calculată prin evaluarea modelelor de contact între fragmente. Elementele structurii secundare, ale căror rămășițe sunt adiacente în succesiune, se află pe diagonala principală a matricei; diagonalele rămase ale matricei reflectă contactele spațiale dintre reziduurile care nu sunt unul lângă celălalt în secvență. Dacă aceste diagonale sunt paralele cu diagonala principală, atunci și elementele structurii secundare pe care o reprezintă sunt paralele; dacă, dimpotrivă, sunt perpendiculare pe acesta, atunci elementele lor din structura secundară sunt antiparalele. O astfel de reprezentare necesită multă memorie, deoarece matricea utilizată este simetrică față de diagonala principală (și deci redundantă) [16] .

Când matricele de distanță ale două proteine ​​au elemente identice sau similare în aproximativ aceleași poziții, se poate spune că proteinele au o pliu similară și elementele lor de structură secundară sunt conectate prin bucle de aproximativ aceeași lungime. Procesul direct de aliniere DALI este de a căuta asemănări în matricele construite pentru cele două proteine; acest lucru se face de obicei cu o serie de submatrice suprapuse 6 × 6. Potrivirile submatricelor sunt apoi reasamblate într-o aliniere finală folosind algoritmul standard de maximizare a scorului. Versiunea originală a DALI folosește simularea Monte Carlo pentru a maximiza valoarea de similitudine spațială, care este o funcție a distanțelor dintre atomii corespunzători presupuși. În special, greutatea atomilor mai îndepărtați din elementele structurale respective este redusă exponențial pentru a reduce zgomotul cauzat de mobilitatea buclei, deformarea helixului și alte variații structurale mici [9] . Deoarece DALI se bazează pe o matrice de distanță all-versus-all, metoda poate lua în considerare aranjarea elementelor structurilor într-o ordine diferită în două secvențe comparate.

Metoda DALI a fost folosită pentru a crea baza de date FSSP ( Families of  Structurally Similar Proteins ), în care toate structurile proteinelor cunoscute au fost aliniate perechi pentru a determina relația lor spațială și clasificarea pliilor [17] .

DaliLite este un program descărcabil folosind algoritmul DALI [18] .

Extindere combinatorie

Metoda de  extensie combinatorie (CE) este similară cu DALI prin faptul că, de asemenea, sparge fiecare structură într-un număr de fragmente, pe care apoi încearcă să le reasambla într-un aliniament complet. O serie de combinații perechi de fragmente, numite AFP ( perechi de fragmente aliniate   ), este utilizată pentru a defini o matrice de similaritate prin care este trasată o cale optimă pentru a determina alinierea finală. Doar acele AFP care îndeplinesc criteriile de similaritate locală date sunt incluse în matrice, ceea ce reduce spațiul de căutare necesar și crește eficiența [19] . Sunt posibile diferite măsuri de similitudine; Inițial, metoda CE a folosit doar aliniamente structurale și distanțele dintre reziduuri, dar de-a lungul timpului a fost extinsă pentru a utiliza proprietăți locale, cum ar fi structura secundară, accesibilitatea la solvent, modelele de legături de hidrogen și unghiurile diedrice [19] .

Calea corespunzătoare alinierii este calculată ca cale optimă prin matricea de similaritate prin trecerea liniară prin secvențe, extinzând alinierea următoarei posibile AFP cu scoruri ridicate. AFP inițial care inițiază alinierea poate fi selectat în orice punct din matricea secvenței. În continuare, există o extensie la AFP, care satisface criteriul specificat pentru o distanță care limitează dimensiunea golurilor (golurilor) din aliniament. Dimensiunea fiecărei AFP și cea mai mare lungime a decalajului sunt parametri de intrare necesari, dar sunt de obicei setate la valori determinate empiric de 8 și, respectiv, 30 [19] . Similar cu DALI sau SSAP, CE a fost folosit pentru a genera o bază de date de clasificare a pliurilor bazată pe structurile spațiale ale proteinelor cunoscute din PDB. Recent, PDB a lansat o versiune actualizată a CE care poate detecta permutările ciclice în structura proteinelor [20] .

SSAP

Metoda  SSAP ( Sequential Structure Alignment Program ) folosește programarea dinamică duală pentru a construi o aliniere structurală bazată pe vectori atom-la-atom în spațiul structurii. În loc de carbonii alfa utilizați în mod obișnuit în aliniamentele structurale, SSAP își definește vectorii de atomi beta pentru toate resturile de aminoacizi, cu excepția glicinei . Astfel, această metodă ia în considerare poziția rotamerului fiecărui reziduu, precum și poziția acestora în coloana vertebrală. În primul rând, pentru fiecare proteină, SSAP construiește o serie de vectori de distanță între fiecare reziduu și vecinul său cel mai apropiat, dar nu consecutiv. După aceea, se construiește o serie de matrice care conțin diferența de vectori dintre vecini pentru fiecare pereche de reziduuri pentru care au fost construiți vectori. Pentru fiecare matrice rezultată, se determină un set de aliniamente locale optime utilizând programarea dinamică. Aliniamentele rezultate sunt apoi adăugate la o matrice generalizată, la care se aplică din nou programarea dinamică pentru a determina alinierea structurală completă. Inițial, SSAP a creat doar aliniamente perechi, dar ulterior a fost extins pentru a crea mai multe aliniamente [21] . A fost aplicat la o aliniere all-against-all pentru a crea un sistem de clasificare ierarhic cunoscut sub numele de CATH, care este utilizat în baza de date CATH Protein Structure Classification [22] .

Evoluții recente

Îmbunătățirea tehnicilor de aliniere spațială rămâne un domeniu cercetat activ. Metodele noi sau modificate au adesea avantaje față de tehnicile mai vechi și mai utilizate pe scară largă. Un exemplu recent este programul TM-align [23] , care folosește o nouă metodă de pondere a unei matrice de distanțe, care este apoi programată dinamic . Ponderarea accelerează convergența programării dinamice și corectează efectul lungimii de aliniere. Testele au arătat că TM-align funcționează cu precizie și viteză mai mare decât DALI și CE [24] .

Cu toate acestea, odată cu noile progrese algoritmice și în ceea ce privește puterea de calcul, a devenit clar că nu există un criteriu universal pentru alinierea optimă. Prin urmare, evoluțiile recente s-au concentrat pe optimizarea parametrilor specifici, cum ar fi viteza, scorul, corelarea cu standarde de aur alternative sau robustețea la erorile de date structurale sau modelele structurale ab initio . O metodologie alternativă care câștigă popularitate este utilizarea unui consens de mai multe metode pentru a rafina asemănările structurale ale proteinelor [25] .

Aliniere flexibilă

Algoritmii standard de aliniere structurală implică rigiditate a structurilor aliniate, care nu reflectă realitatea biologică. Prin urmare, au fost dezvoltați algoritmi flexibili de aliniere care iau în considerare posibilitatea deplasării a două fragmente în cadrul unei proteine ​​unul față de celălalt, precum și permutările interne ale fragmentelor. Un astfel de algoritm este FATCAT [26] . Folosește AFP-uri precum CE-uri (a se vedea secțiunea aferentă ) și încearcă să facă un lanț lung din ele, dar conexiunea dintre AFP-urile adiacente este considerată flexibilă și algoritmul o îndoaie dacă acest lucru îmbunătățește suprapunerea structurilor. FATCAT rezumă golurile, turele și adăugările simple de perechi noi la o piesă aliniată într-o singură funcție de punctare și construiește o aliniere în același timp cu determinarea secțiunilor buclei folosind programarea dinamică.

S-a demonstrat că alinierea flexibilă depășește alinierea rigidă în ceea ce privește suprapunerea geometrică și căutarea similarității în structuri [27] .

Aliniere inconsecventă

Uneori proteinele pot conține fragmente similare aranjate într-o ordine diferită, care nu este luată în considerare de algoritmii clasici. Metodele de aliniere non-consecutive care sunt independente de ordinea elementelor de structură pot gestiona astfel de cazuri. Exemple sunt programele FATCAT, MASS [28] , MultiProt [29] .

Alinierea complexelor moleculare

În unele cazuri, este necesar să se compare structurile nu ale moleculelor de proteine ​​individuale, ci ale complexelor proteice cu proteine ​​sau acizi nucleici . Construirea unor astfel de aliniamente este dificilă din mai multe motive. În primul rând, zonele adesea aliniate sunt împrăștiate în întregul complex, în timp ce lanțurile specifice sunt aliniate doar parțial. În al doilea rând, este necesar să se ia în considerare mobilitatea lanțurilor proteice, mișcarea domeniilor și rearanjarea subunităților. În al treilea rând, în complexe există repetiții și simetrii care nu pot fi suprapuse simultan. În plus, un număr mare de atomi aliniați impune cerințe suplimentare privind viteza de calcul. Pentru a efectua o astfel de sarcină, algoritmul TopMatch [30] construiește aliniamente locale exacte, din care se construiește apoi un aliniament complet. Calitatea aliniamentului este evaluată prin lungimea acestuia și prin deviația spațială a structurilor aliniate. Puteți utiliza metoda pe serviciul web TopMatch.

Alinierea ARN

Moleculele mari de ARN , ca și moleculele de proteine, sunt caracterizate de o structură spațială complexă, care este ținută împreună prin împerecherea bazelor prin legături de hidrogen și stivuire . Cu toate acestea, este foarte dificil să se obțină date genomice pentru ARN-uri necodificatoare cu funcții similare, deoarece astfel de molecule, precum proteinele, au o structură de secvență mult mai conservatoare, dar alfabetul ARN este mult mai mic (4 nucleotide în loc de 20 de aminoacizi) , deci informația intrinsecă a oricărei nucleotide în orice poziții mai mici decât cele ale restului de aminoacizi [31] .

Cu toate acestea, în legătură cu interesul tot mai mare pentru ARN și creșterea numărului de structuri 3D de ARN stabilite experimental, au fost dezvoltate metode pentru a evalua similaritatea structurală a ARN. O astfel de metodă, SETTER  , descompune fiecare structură de ARN în fragmente mai mici numite unități de structură secundară comună (GSSU). GSSU-urile sunt supuse în continuare unei alinieri spațiale, iar aceste aliniamente parțiale sunt combinate într-o aliniere totală [32] [33] .

FOLDALIGN  este o metodă de construire a aliniamentelor în perechi ale moleculelor de ARN cu similaritate scăzută de secvență [34] . Această metodă diferă de metodele de aliniere spațială a proteinelor prin aceea că ea însăși prezice structurile spațiale ale secvențelor de ARN furnizate ca intrare, mai degrabă decât să utilizeze structuri stabilite experimental furnizate ca intrare. În timp ce problema prezicerii plierii proteinelor nu a fost încă rezolvată, structura spațială a unei molecule de ARN fără pseudonoduri poate fi prezisă [35] .

Note

  1. Zhang Y. , Skolnick J. Problema de predicție a structurii proteinei ar putea fi rezolvată folosind biblioteca actuală PDB.  (engleză)  // Proceedings of the National Academy of Sciences of the United States of America. - 2005. - Vol. 102, nr. 4 . - P. 1029-1034. - doi : 10.1073/pnas.0407152101 . — PMID 15653774 .
  2. 1 2 Zemla A. LGA: O metodă pentru găsirea asemănărilor 3D în structurile proteinelor.  (engleză)  // Cercetarea acizilor nucleici. - 2003. - Vol. 31, nr. 13 . - P. 3370-3374. — PMID 12824330 .
  3. Godzik A. Alinierea structurală între două proteine: există un răspuns unic?  (engleză)  // Protein science: o publicație a Protein Society. - 1996. - Vol. 5, nr. 7 . - P. 1325-1338. - doi : 10.1002/pro.5560050711 . — PMID 8819165 .
  4. Martin ACR. Compararea rapidă a structurilor proteice  //  Acta Crystallogr A : jurnal. - Uniunea Internațională de Cristalografie , 1982. - Vol. 38 , nr. 6 . - P. 871-873 . - doi : 10.1107/S0567739482001806 .
  5. Theobald DL , Wuttke DS Modele ierarhice empirice Bayes pentru regularizarea estimării de maximă probabilitate în problema matriceală Gaussian Procrustes.  (engleză)  // Proceedings of the National Academy of Sciences of the United States of America. - 2006. - Vol. 103, nr. 49 . - P. 18521-18527. - doi : 10.1073/pnas.0508445103 . — PMID 17130458 .
  6. Theobald DL , Wuttke DS THESEUS : suprapunerea cu maximă probabilitate și analiza structurilor macromoleculare.  (engleză)  // Bioinformatică. - 2006. - Vol. 22, nr. 17 . - P. 2171-2172. - doi : 10.1093/bioinformatics/btl332 . — PMID 16777907 .
  7. Diederichs K. Suprapunerea structurală a proteinelor cu aliniere necunoscută și detectarea similitudinii topologice folosind un algoritm de căutare în șase dimensiuni.  (engleză)  // Proteine. - 1995. - Vol. 23, nr. 2 . - P. 187-195. - doi : 10.1002/prot.340230208 . — PMID 8592700 .
  8. Maiti R. , Van Domselaar G.H. , Zhang H. , Wishart D.S. SuperPose: a simple server for sophisticated structural superposition.  (engleză)  // Cercetarea acizilor nucleici. - 2004. - Vol. 32. - P. 590-594. doi : 10.1093 / nar/gkh477 . — PMID 15215457 .
  9. 12 Muntele DM . Bioinformatică: Analiza secvenței și a genomului. — Ed. a II-a. - NY, 2004. - ISBN 0879697121 .
  10. Lathrop RH Problema filetării proteinelor cu preferințele de interacțiune a secvenței aminoacizilor este NP-complet.  (engleză)  // Ingineria proteinelor. - 1994. - Vol. 7, nr. 9 . - P. 1059-1068. — PMID 7831276 .
  11. Wang L. , Jiang T. Despre complexitatea alinierii secvențelor multiple.  (engleză)  // Jurnal de biologie computațională: un jurnal de biologie celulară moleculară computațională. - 1994. - Vol. 1, nr. 4 . - P. 337-348. - doi : 10.1089/cmb.1994.1.337 . — PMID 8790475 .
  12. Siew N. , Elofsson A. , Rychlewski L. , Fischer D. MaxSub: o măsură automată pentru evaluarea calității predicției structurii proteinei.  (engleză)  // Bioinformatică. - 2000. - Vol. 16, nr. 9 . - P. 776-785. — PMID 11108700 .
  13. 1 2 Poleksic A. Algoritmi pentru alinierea optimă a structurii proteinelor.  (engleză)  // Bioinformatică. - 2009. - Vol. 25, nr. 21 . - P. 2751-2756. - doi : 10.1093/bioinformatics/btp530 . — PMID 19734152 .
  14. Kolodny R. , Linial N. Aproximate protein structural alignment in polynomial time.  (engleză)  // Proceedings of the National Academy of Sciences of the United States of America. - 2004. - Vol. 101, nr. 33 . - P. 12201-12206. - doi : 10.1073/pnas.0404383101 . — PMID 15304646 .
  15. Martínez L. , Andreani R. , Martínez JM Algoritmi convergenți pentru alinierea structurală a proteinelor.  (engleză)  // BMC bioinformatics. - 2007. - Vol. 8. - P. 306. - doi : 10.1186/1471-2105-8-306 . — PMID 17714583 .
  16. Holm L. , Sander C. Mapping the protein universe.  (engleză)  // Știință (New York, NY). - 1996. - Vol. 273, nr. 5275 . - P. 595-603. — PMID 8662544 .
  17. Holm L. , Sander C. Dali/FSSP clasificarea pliurilor proteice tridimensionale.  (engleză)  // Cercetarea acizilor nucleici. - 1997. - Vol. 25, nr. 1 . - P. 231-234. — PMID 9016542 .
  18. Holm L. , Park J. DaliLite workbench for protein structure comparison.  (engleză)  // Bioinformatică. - 2000. - Vol. 16, nr. 6 . - P. 566-567. — PMID 10980157 .
  19. 1 2 3 Shindyalov IN , Bourne PE Alinierea structurii proteinelor prin extensie combinatorie incrementală (CE) a căii optime.  (engleză)  // Ingineria proteinelor. - 1998. - Vol. 11, nr. 9 . - P. 739-747. — PMID 9796821 .
  20. Prlic A. , Bliven S. , Rose PW , Bluhm WF , Bizon C. , Godzik A. , Bourne PE Alinieri pre-calculate ale structurii proteinei pe site-ul web RCSB PDB.  (engleză)  // Bioinformatică. - 2010. - Vol. 26, nr. 23 . - P. 2983-2985. - doi : 10.1093/bioinformatics/btq572 . — PMID 20937596 .
  21. ^ Taylor WR , Flores TP , Orengo CA Multiple protein structure alignment. (engleză)  // Protein science: o publicație a Protein Society. - 1994. - Vol. 3, nr. 10 . - P. 1858-1870. - doi : 10.1002/pro.5560031025 . PMID 7849601 .  
  22. Orengo CA , Michie AD , Jones S. , Jones DT , Swindells MB , Thornton JM CATH--o clasificare ierarhică a structurilor domeniului proteic.  (engleză)  // Structure (Londra, Anglia: 1993). - 1997. - Vol. 5, nr. 8 . - P. 1093-1108. — PMID 9309224 .
  23. Zhang Y. , Skolnick J. TM-align: un algoritm de aliniere a structurii proteinei bazat pe scorul TM.  (engleză)  // Cercetarea acizilor nucleici. - 2005. - Vol. 33, nr. 7 . - P. 2302-2309. doi : 10.1093 / nar/gki524 . — PMID 15849316 .
  24. Zhang Y. , Skolnick J. Funcția de scoring pentru evaluarea automată a calității șablonului structurii proteinei.  (engleză)  // Proteine. - 2004. - Vol. 57, nr. 4 . - P. 702-710. - doi : 10.1002/prot.20264 . — PMID 15476259 .
  25. Barthel D. , Hirst JD , Błazewicz J. , Burke EK , Krasnogor N. ProCKSI: a decision support system for Protein (structure) Comparison, Knowledge, Similarity and Information.  (engleză)  // BMC bioinformatics. - 2007. - Vol. 8. - P. 416. - doi : 10.1186/1471-2105-8-416 . — PMID 17963510 .
  26. Ye Y. , Godzik A. FATCAT: un server web pentru compararea flexibilă a structurilor și căutarea similarității structurii.  (engleză)  // Cercetarea acizilor nucleici. - 2004. - Vol. 32. - P. 582-585. doi : 10.1093 / nar/gkh430 . — PMID 15215455 .
  27. J. Xiang, M. Hu. Comparații ale metodelor de aliniere a structurii proteinelor: rigide și flexibile, secvențiale și non-secvențiale  // 2008 A doua conferință internațională de bioinformatică și inginerie biomedicală. - 01-05-2008. — P. 21–24. - doi : 10.1109/ICBBE.2008.12 .
  28. Dror O. , Benyamini H. , Nussinov R. , Wolfson H. MASS: multiple structural alignment by secondary structures.  (engleză)  // Bioinformatică. - 2003. - Vol. 19 Suppl 1. - P. 95-104. — PMID 12855444 .
  29. ↑ Shatsky M. , Nussinov R. , Wolfson HJ O metodă pentru alinierea simultană a mai multor structuri de proteine.  (engleză)  // Proteine. - 2004. - Vol. 56, nr. 1 . - P. 143-156. - doi : 10.1002/prot.10628 . — PMID 15162494 .
  30. Sippl MJ , Wiederstein M. Detection of spatial corelations in protein structures and molecular complexs.  (engleză)  // Structure (Londra, Anglia: 1993). - 2012. - Vol. 20, nr. 4 . - P. 718-728. - doi : 10.1016/j.str.2012.01.024 . — PMID 22483118 .
  31. ^ Torarinsson E. , Sawera M. , Havgaard JH , Fredholm M. , Gorodkin J. Mii de regiuni genomice umane și șoarece corespunzătoare nealiniate în secvența primară conțin structură comună a ARN.  (engleză)  // Cercetarea genomului. - 2006. - Vol. 16, nr. 7 . - P. 885-889. - doi : 10.1101/gr.5226606 . — PMID 16751343 .
  32. Hoksza D. , Svozil D. Comparație eficientă a structurii perechi de ARN prin metoda SETTER.  (engleză)  // Bioinformatică. - 2012. - Vol. 28, nr. 14 . - P. 1858-1864. - doi : 10.1093/bioinformatics/bts301 . — PMID 22611129 .
  33. Cech P. , Svozil D. , Hoksza D. SETTER: web server for ARN structure comparison.  (engleză)  // Cercetarea acizilor nucleici. - 2012. - Vol. 40. - P. 42-48. - doi : 10.1093/nar/gks560 . — PMID 22693209 .
  34. Havgaard JH , Lyngsø RB , Stormo GD , Gorodkin J. Alinierea structurală locală în perechi a secvențelor de ARN cu similaritate de secvență mai mică de 40%.  (engleză)  // Bioinformatică. - 2005. - Vol. 21, nr. 9 . - P. 1815-1824. - doi : 10.1093/bioinformatics/bti279 . — PMID 15657094 .
  35. Mathews DH , Turner DH Predicția structurii secundare a ARN prin minimizarea energiei libere.  (Engleză)  // Opinie actuală în biologia structurală. - 2006. - Vol. 16, nr. 3 . - P. 270-278. - doi : 10.1016/j.sbi.2006.05.010 . — PMID 16713706 .