Alinierea secvenței este o tehnică bioinformatică bazată pe plasarea a două sau mai multe secvențe de ADN , ARN sau monomeri proteici unul sub celălalt, astfel încât să fie ușor de văzut zone similare în aceste secvențe. Asemănarea structurilor primare a două molecule poate reflecta relațiile lor funcționale, structurale sau evolutive [1] . Secvențele de baze aliniate de nucleotide sau aminoacizi sunt de obicei reprezentate ca șiruri ale unei matrice. Se adaugă goluri între baze astfel încât aceleași elemente sau similare să fie situate în coloane succesive ale matricei [2] .
Algoritmii de aliniere a secvenței sunt de asemenea utilizați în NLP [3] .
În cele mai multe reprezentări ale rezultatului de aliniere, secvențele sunt aranjate în rândurile matricei în așa fel încât elementele de potrivire (nucleotide sau aminoacizi) să fie unul sub celălalt (în aceeași coloană). „Lacunele” sunt înlocuite cu un semn „-”, numit gap (din engleză „ gap ”) [4] , și denotă un indel , adică locul unei posibile inserări sau ștergeri [5] [ 2] .
Cu afișarea textuală, este posibil să scrieți pur și simplu în format fasta , când secvențele sunt scrise cu goluri și au aceeași lungime [6] . Acest tip de înregistrare este adesea folosit de programe și este convenabil pentru prelucrarea automată [7] .
Celălalt tip de reprezentare a textului este pentru confortul utilizatorului (trei exemple diferite sunt prezentate mai jos). În ea, secvențele sunt scrise una sub alta, iar în linia dintre ele, diferite simboluri indică relații diferite între aminoacizi. Un spațiu (absența unui simbol) indică absența unei legături între aminoacizi, atât din punct de vedere al omologiei, cât și al funcției: simbolurile „*”, „|” sau litera ( BLAST ) - aceiași aminoacizi; ":" sau "+" - similare în proprietăți; "." — similare în proprietăți [8] .
Explozie: Interogarea 15 FQQAWANPKHAWAQVNGETRLTQNLIILERETR 47 FW PKHA +QVNG T ++Q+ IIL RR Sbjct 14 FHHNWTRPKHASSQVNGHTEMSQHNIILRRVPR 46 CLUSTAL: THE12851.1 MGKKGYKRNEYNNPFQQAWANPKHAWAQVNGETRLTQNLIILERETRKRS- 50 WP_104057486.1 MSTK-DQLDPQSQAFHHNWTRPKHASSQVNGHTEMSQHNIILRRVPRSGRR 50 *..* : : .: *:: *:.**** :****.*.::*: ***.* *. Acul emboss: THE12851.1 1 MGKKGYKRNEYNNPFQQAWANPKHAWAQVNGETRLTQNLIILERETRKRS 50 |..|. :.:..:..|...|..||||.:||||.|.::|:.|||.|..|... WP_104057486. 1 MSTKD-QLDPQSQAFHHNWTRPKHASSQVNGHTEMSQHNIILRRVPRSGR 49Reprezentarea grafică este concentrată maxim pe percepția vizuală. De asemenea, se obișnuiește să se plaseze secvențe una sub alta, dar semnificația relației dintre aminoacizii din diferite secvențe este indicată prin culoare. Există pete pentru proprietățile aminoacizilor, precum „Zappo”, care colorează fiecare aminoacid și „Clustal”, care colorează batoanele cu aceleași proprietăți de aminoacizi. O parte din pete, cum ar fi „%Identity”, vă permite să vedeți identitatea și conservarea aminoacizilor din coloană. Există și culori care arată gradul de hidrofobicitate al aminoacizilor [10] .
Cele mai cunoscute vizualizatoare de aliniere sunt: Jalview [9] , UGENE [11] , MEGA [12] . Pentru o listă completă, consultați articolul Lista de software de vizualizare a aliniamentului.
Există, de asemenea, o modalitate de a reprezenta secvența consens - Sequence Logo [13] .
O matrice de puncte de similaritate este o modalitate de a reprezenta vizual o aliniere pe perechi. Se utilizează de obicei pentru secvențe mari, cum ar fi genomul bacterianCoordonatele ambelor secvențe sunt reprezentate de-a lungul axelor, iar omologia lor este reprezentată de segmente. Deci, o matrice de puncte cu secvențe identice va arăta ca o diagonală a unui pătrat. Acest mod de prezentare vă permite să urmăriți inversiunile , dublările sau ștergerile , precum și translocațiile [14] .
Alinierea în perechi este utilizată pentru a găsi regiuni similare a două secvențe. Distingeți între alinierea globală și cea locală. Alinierea globală presupune că secvențele sunt omoloage pe toată lungimea lor. Alinierea globală include ambele secvențe de intrare întregi. Alinierea locală este aplicată dacă secvențele conțin atât regiuni înrudite (omoloage) cât și neînrudite. Rezultatul alinierii locale este selectarea unui loc în fiecare dintre secvențe și alinierea dintre aceste site-uri [15] .
Variațiile metodei de programare dinamică sunt utilizate pentru a obține alinierea perechilor . În special, acești algoritmi sunt implementați în serviciile Laboratorului European de Biologie Moleculară ( Pairwise Sequence Alignment . EMBL-EBI . ). Deci, de exemplu, Ac . , un algoritm de aliniere globală, folosește algoritmul Needleman-Wunsch [16] , în timp ce Water . , algoritmul de aliniere locală este algoritmul Smith-Waterman [16] .
Pentru a demonstra diferența dintre alinierea globală și cea locală, putem lua în considerare un exemplu artificial. Să luăm secvențele A și B și să facem alinierea globală și locală pentru ele. Secvența a stabilit o regiune omoloagă centrală și margini semnificativ diferite.
Alinierea globală [15] folosește lungimea completă a ambelor secvențe și poate fi folosită pentru a testa secvențele pentru omologie (origine comună) pe întreaga lor lungime. Cu toate acestea, dacă secvențele au puține regiuni de omologie (sau pur și simplu similaritate), atunci nu este întotdeauna posibil să se determine bine aceste regiuni. În exemplul de mai sus, algoritmul este conectat la patru aminoacizi potriviți, astfel încât lungimea lungă a omologiei nu este vizibilă. Pe baza acestui fapt, se poate presupune că secvențele nu sunt în întregime omoloage între ele [17] .
Alinierea locală [15] utilizează părți ale secvențelor pe care este prezisă omologia maximă. Este grozav dacă numai părți ale secvențelor sunt similare, cum ar fi în timpul recombinării sau evoluției convergente . Ar trebui să fiți întotdeauna atenți la zonele mici cu similaritate scăzută, mai ales când aliniați secvențe mari, deoarece crește probabilitatea de a întâlni o zonă similară aleatorie. În exemplul din figură, alinierea locală a inclus jumătate din lungimea secvențelor. Aliniat 11 aminoacizi similari ca functie, sunt 2 saptamani. Pe baza acestui fapt, dacă se știe suplimentar despre funcția similară a peptidelor A și B, se poate spune că regiunile centrale ale ambelor peptide îndeplinesc funcția întregii peptide, sau sunt importante pentru funcția sa [18] .
Cu toate acestea, regiunea de secvență de interes poate să nu se încadreze întotdeauna în alinierea locală. Acest lucru poate fi ocolit prin tăierea secvenței de-a lungul limitelor regiunii de interes. Sunt posibile și alte combinații de aliniamente globale și locale [19] .
Folosit pentru a căuta în baze de date mari secvențe care sunt similare cu o anumită secvență, conform criteriilor specificate. Alinierea aplicată este locală. Sunt folosite diferite metode euristice pentru a crește viteza de căutare. Cele mai cunoscute programe sunt BLAST [20] și FASTA3x . [21] .
Alinierea multiplă este alinierea a trei sau mai multe secvențe. Folosit pentru a găsi regiuni conservate într-un set de secvențe omoloage. În cele mai multe cazuri, construirea unui aliniament multiplu este un pas necesar în reconstrucția arborilor filogenetici . Găsirea alinierii multiple optime folosind programarea dinamică are prea multă complexitate de timp, astfel încât aliniamentele multiple sunt construite pe baza diferitelor euristici. Cele mai cunoscute programe care efectuează aliniere multiplă sunt Clustal ( clustal . ) [22] , T-COFFEE ( tcoffee . ), MUSCLE ( muscle . ) [23] și MAFFT ( mafft . ). Există și programe pentru vizualizarea și editarea mai multor aliniamente, precum Jalview[9] sau limba rusă UGENE [11] .
Poate fi construit pentru proteine sau acizi ribonucleici folosind informații despre structura spațială secundară și terțiară a moleculelor. Scopul este de a încerca să stabilească omologia a două sau mai multe structuri prin găsirea și compararea locurilor care sunt stivuite în mod similar în spațiu. Alinierea structurală este de obicei însoțită de suprapunerea structurilor, adică de găsirea mișcărilor spațiale, a căror aplicare la moleculele date le combină cel mai bine. Dar, spre deosebire de suprapunerea spațială simplă cu potrivirea cunoscută a reziduurilor de aminoacizi echivalente din două structuri, algoritmii de aliniere structurală nu necesită de obicei cunoștințe a priori despre alinierea secvenței. Există un număr mare de pe care bazează diverse programe de aliniere structurală Aliniamentele spațiale sunt deosebit de importante pentru analiza datelor genomice structurale și proteomice și pot fi, de asemenea, utilizate pentru a evalua aliniamentele obținute din comparațiile de secvențe. [24] .
Alinierea structurală a fost folosită cu succes pentru a compara proteinele cu un nivel scăzut de omologie de secvență, atunci când relațiile evolutive nu pot fi stabilite prin metode standard de aliniere a secvenței, dar în acest caz este necesar să se țină cont de influența evoluției convergente , principalul efect al care se manifestă prin asemănarea structurilor terțiare ale secvențelor de aminoacizi neînrudite [25 ] .
Alinierea spațială vă permite să comparați două sau mai multe molecule cu structuri tridimensionale cunoscute, a căror producție experimentală se bazează pe utilizarea analizei de difracție cu raze X și a spectroscopiei RMN . Structurile derivate din metodele de predicție a structurii proteinelor pot fi, de asemenea, utilizate pentru alinierea spațială . Mai mult, evaluarea calității unor astfel de predicții se bazează adesea pe utilizarea alinierii spațiale a structurii modelului creat și a proteinei, a cărei structură terțiară a fost obținută direct din experiment. Există și date despre utilizarea metodei de împrăștiere a razelor X cu unghi mic pentru analiza structurilor tridimensionale ale diferitelor molecule de proteine [26] .
Rezultatul programelor de aliniere structurală este, de regulă, combinația de seturi de coordonate atomice . Cel mai adesea, la căutarea unei astfel de comparații, rezultatul este evaluat pe baza valorii funcției celei mai mici deviații standard (RMSD) dintre structuri, pe care algoritmul de construcție a alinierii încearcă să o minimizeze. [27]
,unde este numărul de puncte (atomi) din eșantion (structură) și sunt atomi ai structurii corespunzătoare cu coordonatele , , și , , .
Valoarea RMSD este exprimată în unități de lungime, cea mai utilizată unitate în biologia structurală este angstromul (Å), care este egal cu 10 -10 m. Cu toate acestea, RMSD ca grad de divergență spațială a structurilor aliniate are un număr de dezavantaje: instabilitate la valori aberante și prezența mai multor domenii în structura proteinelor aliniate, deoarece modificările în poziția relativă a acestor domenii între cele două structuri pot modifica în mod artificial valoarea RMSD.
În plus, pot fi calculați parametri mai complecși care evaluează similaritatea structurală, de exemplu, testul de distanță globală [28] .
Pentru a crea o aliniere structurală și a calcula valorile RMSD corespunzătoare, pot fi utilizați atât toți atomii din molecula de proteină, cât și subseturile acestora. De exemplu, atomii radicalilor laterali ai resturilor de aminoacizi nu sunt întotdeauna luați în considerare și numai atomii incluși în scheletul peptidic al moleculei pot fi utilizați pentru aliniere. Această opțiune este aleasă dacă structurile aliniate au o secvență de aminoacizi foarte diferită și radicalii laterali diferă într-un număr mare de reziduuri. Din acest motiv, în mod implicit, metodele de aliniere spațială utilizează numai atomi de coloană vertebrală implicați într-o legătură peptidică . Pentru o mai mare simplificare și creșterea eficienței, poziția doar a atomilor de carbon alfa este adesea folosită , deoarece poziția lor determină destul de precis poziția atomilor din coloana vertebrală a polipeptidei. Numai atunci când se aliniază structuri foarte asemănătoare sau chiar identice este important să se țină cont de pozițiile atomilor din lanțul lateral. În acest caz, RMSD reflectă nu numai similitudinea conformației coloanei vertebrale a proteinei, ci și stările rotamer ale lanțurilor laterale. Alte modalități de a reduce zgomotul și de a crește numărul de potriviri corecte sunt etichetarea elementelor structurii secundare , hărțile de contact native sau modelele de interacțiune cu reziduuri, măsurile gradului de împachetare a lanțului lateral și măsurile de conservare a legăturilor de hidrogen [29] .
Una dintre metodele populare de aliniere structurală este DALI ( metoda matricei de aliniere la distanță ) . Structurile proteice inițiale sunt descompuse în hexapeptide și o matrice de distanță este calculată prin evaluarea modelelor de contact între fragmente. Elementele structurii secundare, ale căror rămășițe sunt adiacente în succesiune, se află pe diagonala principală a matricei; diagonalele rămase ale matricei reflectă contactele spațiale dintre reziduurile care nu sunt unul lângă celălalt în secvență. Când matricele de distanță ale două proteine au elemente identice sau similare în aproximativ aceleași poziții, se poate spune că proteinele au o pliu similară și elementele lor de structură secundară sunt conectate prin bucle de aproximativ aceeași lungime. Procesul direct de aliniere DALI este de a căuta matrici de similaritate construite pentru două proteine, care sunt apoi reasamblate în alinierea finală folosind un algoritm standard de maximizare a scorului [30] .
Metoda DALI a fost folosită pentru a crea baza de date FSSP ( Families of Structurally Similar Proteins ), în care toate structurile proteinelor cunoscute au fost aliniate perechi pentru a determina relația lor spațială și clasificarea pliilor [31] .
DaliLite este un program descărcabil folosind algoritmul DALI [32] .
Extensie combinatorieMetoda de extensie combinatorie (CE) este similară cu DALI prin faptul că, de asemenea, sparge fiecare structură într-un număr de fragmente, pe care apoi încearcă să le reasambla într-un aliniament complet. O serie de combinații perechi de fragmente, numite AFP ( perechi de fragmente aliniate ), este utilizată pentru a defini o matrice de similaritate prin care este trasată o cale optimă pentru a determina alinierea finală. Calea corespunzătoare alinierii este calculată ca cale optimă prin matricea de similaritate prin trecerea liniară prin secvențe, extinzând alinierea următoarei posibile AFP cu scoruri ridicate. Doar acele AFP care îndeplinesc criteriile de similaritate locală specificate sunt incluse în matrice, ceea ce reduce spațiul de căutare necesar și crește eficiența [33] .
Similar cu DALI sau SSAP, CE a fost folosit pentru a crea o bază de date de clasificări de ori bazate pe structurile spațiale cunoscute ale proteinelor din PDB [34] .
Siruri de caractere | |
---|---|
Măsuri de similitudine a șirurilor | |
Căutare subșir | |
palindromuri | |
Alinierea secvenței | |
Structuri de sufix | |
Alte |