Logo-ul secvențelor

Logo-ul secvenței ( în bioinformatică ) este o metodă de reprezentare grafică a conservatorismului nucleotidelor (într-un lanț de ARN sau ADN ) sau aminoacizilor (în proteine ). Logo-ul este construit dintr-un set de secvențe aliniate . Această metodă vă permite să reflectați următoarele caracteristici ale zonei analizate pe un grafic:

o secvență de aliniere consens;
frecvențele relative de apariție a elementelor în fiecare poziție a secvenței;
conținutul informațional al fiecărei poziții din secvență (măsurat în biți);
prezența unui locus specific [1] .

Introducere generală

Logo-ul constă dintr-un set de litere pe fiecare poziție. Logo-ul arată cât de bine s-au păstrat nucleotidele (sau resturile de aminoacizi) în timpul evoluției în fiecare poziție: cu cât este mai mare frecvența de apariție a unei litere într-o anumită coloană, cu atât dimensiunea relativă a acesteia este mai mare. Înălțimea totală a literelor în fiecare poziție individuală reflectă conținutul informațional al acestei coloane. Logo-ul poate prezenta, de exemplu, situsuri de legare conservate pentru factorii de transcripție sau alți liganzi [1] .

Crearea logo-ului secvenței

Pentru a crea un logo pentru un set de secvențe, acestea sunt mai întâi aliniate local , dacă este necesar, în raport cu o anumită poziție (de exemplu, situsurile de legare a ribozomilor pot fi aliniate în raport cu punctul de inițiere a translației). Construirea unui logo de secvență are sens numai pentru o regiune conservatoare [1] . Pe baza rezultatelor alinierii, se construiește un tabel cu frecvențele de apariție a fiecărui element în fiecare poziție.

Apoi, în tabelul rezultat, fiecare coloană este sortată în ordine descrescătoare, astfel încât cea mai frecventă apariție în acea poziție (așa-numita „consens”) bază să fie plasată în primul rând al tabelului.

Baza consensului este adesea folosită pentru a crea un consens de secvență. Cu toate acestea, un astfel de consens nu oferă informații complete despre secvențe, deoarece alte litere pot apărea, de asemenea, cu o frecvență semnificativă în aliniere. De exemplu, cel mai comun codon de început procariotic este AUG, dar GUG și UUG pot fi, de asemenea, codonul de început. Fără aceste informații suplimentare, datele vor fi deformate [1] . Acesta este unul dintre motivele principale pentru care secvența consens este un model slab pentru descrierea site-urilor de legare.

Importanța fiecărei poziții este descrisă convenabil printr-o valoare numită conținutul informațional al coloanei. Se măsoară în biți , adică unități de informație. De exemplu, dacă o poziție dintr-un aliniament conține doar un tip de nucleotidă, atunci sunt necesari exact 2 biți de informații, adică răspunsuri la 2 întrebări binare da-nu. Dacă poziția conține reziduuri de două tipuri, atunci o întrebare este suficientă, deoarece alegerea a două dintre cele patru nucleotide este echivalentă cu alegerea uneia dintre cele două [1] .

Dacă frecvențele nucleotidelor nu sunt egale, este necesară o modalitate mai sofisticată de calculare a conținutului de informații .

Măsura incertitudinii care este utilizată la construirea unui logo se numește entropia Shannon :

H_i = - \sum f_{a,i} \times \log_2 f_{a,i}

unde este frecvența bazei azotate sau a restului de aminoacizi în poziție . De asemenea, se măsoară în biți de informații. $f_{a,i}$ $A$ $i$

Informația completă a coloanei de aliniere este calculată ca reducerea incertitudinii la acea poziție:

R_{i}=log_{2}s-(H_{i}+e(n))

unde este entropia Shannon pentru coloană , este incertitudinea maximă, este egală cu 4 pentru secvența de nucleotide și 20 pentru aminoacid și este corecția pentru probe mici, a căror dimensiune este : $Bună$ $i$ $2$ $s$ $e(n)$ $n$

e_n = \frac{1}{\ln{2}}\times\frac{s-1}{2n}

O astfel de modificare nu va permite realizarea unui logo prin alinierea unui număr mic de secvențe - veți obține un logo cu aproape același conținut de informații de poziții diferite [1] .

Setul de valori reflectă rolul fiecărei poziții pentru locul de legare. Mărimea fiecărei litere din fiecare poziție (în biți de informații) este calculată din produsul dintre frecvența acestei litere și conținutul de informații al întregii coloane: $R_i$

r_{a,i}=f_{a,i}\times R_{i)

Apoi, bazele sunt afișate una deasupra celeilalte în ordinea creșterii frecvenței lor în această coloană.

Dacă există goluri în coloană, înălțimea totală a stivei de simboluri din imaginea rezultată este corectată pentru proporția de simboluri semnificative din acesta. Acest lucru este necesar, deoarece o poziție nu poate fi considerată conservatoare dacă polimorfismul de inserție-ștergere există în acest loc în multe secvențe [1] .

Conectarea interpretărilor logo-ului site-ului

Logo-urile conțin mai multe tipuri diferite de informații. În primul rând, în fiecare poziție, bazele sunt clasate în funcție de reprezentarea lor (cea mai comună bază este afișată în partea de sus a stivei de simboluri) [1] . Prin urmare, consensul general poate fi citit din rândul de sus de litere în fiecare poziție.

Mărimea simbolului relativă a fiecăreia dintre cele patru baze indică frecvența relativă de apariție a fiecărei nucleotide în acea poziție [1] .

Înălțimea întregului set de caractere este proporțională cu informațiile pe care le poartă această coloană de aliniere. Prin urmare, cele mai importante poziții sunt ușor de evidențiat vizual. De exemplu, în logo-urile site-urilor de legare a ribozomilor bacterieni, datorită existenței codonilor de start alternativi , prima literă a celei mai comune AUG este de obicei puțin mai mică decât următoarele două - este mai puțin conservatoare [1] .

Site-urile de legare a factorului de transcripție sunt adesea secvențe palindromice , deoarece factorul de transcripție în sine funcționează adesea ca un dimer . Astfel de situri sunt simetrice nu numai în compoziția nucleotidelor, ci și în conservarea poziției, ceea ce poate fi văzut pe siglele unor astfel de situri [1] .

Trebuie avut în vedere că conservatorismul neașteptat de ridicat poate fi rezultatul suprapunerii dintre cele două locuri de legare [2] .

Tipuri de logo-uri

Sigla Consensus

Aceasta este o versiune simplificată a logo-ului secvențelor, al cărei avantaj principal este posibilitatea de a fi prezentată în format text [3] . La fel ca logo-ul secvenței, logo-ul consensului secvenței este construit din mai multe aliniamente ale secvenței ADN/ARN sau proteine și reflectă aliniamentele și transmite informații despre conservatorism la fiecare poziție a secvenței.

În loc de un set de toate nucleotidele (sau aminoacizi) posibile și frecvența lor relativă la fiecare poziție, logo-ul consens reflectă doar gradul de conservatorism, folosind înălțimea literei de consens la fiecare poziție [3] .

În această versiune a logo-ului, o parte semnificativă a informațiilor se pierde; este o legătură intermediară între secvența de consens și logo-ul descris mai sus [3] .

Logo normalizat (logo plat)

Este construit în același mod ca sigla de mai sus, dar înălțimea seturilor de litere de toate pozițiile este aceeași [4] . Se pare că înălțimea fiecărei litere individuale corespunde frecvenței acestei nucleotide sau aminoacid în coloana de aliniere corespunzătoare. În același timp, informațiile despre conservatorism sunt aproape complet pierdute, astfel încât acest tip de logo este rar folosit.

Link -uri

Instrumente de proiectare a logo -ului

Note

↑ 1 2 3 4 5 6 7 8 9 10 11 Schneider TD, Stephens RM Sequence Logos: A New Way to Display Consensus Sequences // Nucleic Acids Res : jurnal. - 1990. - Vol. 18 , nr. 20 . - P. 6097-6100 . doi : 10.1093 / nar/18.20.6097 . — PMID 2172928 .
↑ Schneider TD, Stormo GD, Gold L., Ehrenfeucht A. Conținutul de informații al site-urilor de legare pe secvențele de nucleotide // Journal of Molecular Biology : jurnal. - 1986. - Vol. 188 , nr. 3 . - P. 415-431 . - doi : 10.1016/0022-2836(86)90165-8 . — PMID 3525846 .
↑ 1 2 3 Schneider TD Consensus Sequence Zen (nedefinită) // Appl Bioinform. - 2002. - T. 1 , nr 3 . - S. 111-119 . — PMID 15130839 .
↑ Chou MF Descoperirea motivului secvenței biologice folosind motivul-x. (neopr.) // Curr Protoc Bioinformatica. - 2011. - S. 15-24 . - doi : 10.1002/0471250953.bi1315s35 . — PMID 21901740 .