BWA (Alinierea secvenței biologice)

BWA
Tip de	bioinformatica
Autor	Heng Lee , Richard Durbin
Scris in	C++
Sistem de operare	UNIX , Linux
ultima versiune	0.7.17 (r1140) [1] (07.11.2017)
Licență	Licență GNU GPL , MIT
Site-ul web	bio-bwa.sourceforge.net

BWA ( Burrows-Wheeler A ligner ) este un pachet software pentru cartografierea citirilor scurte la genomi de referință mari (cum ar fi, de exemplu, genomul uman [2] ), scris de bioinformaticianul chinez Heng Li și englezul Richard Durbin . Este unul dintre algoritmii de aliniere folosiți pe scară largă [3] [4] [5] și este recomandat și pentru analiza datelor de către Illumina [6] . BWA constă din trei algoritmi principali: BWA-BackTrack, BWA-SW și BWA-MEM. Algoritmii BWA se bazează pe transformarea Burrows-Wheeler, matrice de sufixe și algoritmul de aliniere Smith-Waterman . Pachetul software poate lucra cu secvențe lungi cu un ordin de mărime mai rapid decât MAQ ( Mapping and Assembly with Qualities ) în timp ce obține o precizie similară de aliniere [7] .

Pentru mostrele de pe platformele Illumina-SOLEXA , 454 Life Sciences , secvențierea cu semiconductor ionic sau secvențierea Sanger cu o lungime de citire („citește” din limba engleză citire - „citire, citire”; fragmente individuale de ADN obținute ca urmare a secvențatorului ) sunt mai mare sau egal cu 70 de perechi de baze (în continuare - b.p.), BWA-MEM este de obicei preferat. BWA-MEM și BWA-SW au caracteristici similare, cum ar fi suport pentru citiri lungi. BWA-MEM are performanțe mai bune decât BWA-BackTrack pentru citiri de 70-100 bp. de pe platforma Illumina-SOLEXA.

Indiferent de algoritmul ales, pachetul software BWA trebuie mai întâi să construiască un index FM pentru genomul de referință. Următoarea comandă este utilizată pentru a crea un index: bwa index [-p prefix] [-a algoType] <in.db.fasta>. Mai mult, algoritmii de aliniere sunt aplicați datelor primite, care sunt apelate de diferite subcomenzi: aln/samse/sampepentru BWA-BackTrack, bwaswpentru BWA-SW și mempentru BWA-MEM [8] .

Istorie

Heng Lee, cercetător la Cambridge Broad Institute [9] , a început să scrie prima parte a codului pe 24 mai 2008 și a primit versiunea inițială stabilă încă din 2 iunie a acelui an. În aceeași perioadă, Prof. Tak-Wah Lam, primul autor al lucrării BWT-SW [10] , a colaborat cu Beijing Genomic Institute pe SOAP2, succesorul SOAP (pachetul de analiză a oligonucleotidelor cu secvență scurtă). SOAP2 a fost lansat în noiembrie 2008.

Algoritmul BWA-SW este o nouă componentă a BWA. A fost conceput în noiembrie 2008 și implementat zece luni mai târziu. Începând cu 2015, BWA-MEM (0.7.10) a fost considerat mai preferabil de utilizat pentru căutarea prin tăiere decât papion (2-2.2.25) sau Novoalign (3.02.12) [11] .

Utilizare

Pachetul software BWA poate fi utilizat în domenii precum genotiparea pentru a căuta polimorfisme cu un singur nucleotide (snip) [12] . Genotiparea permite compararea individuală a genotipurilor diferitelor persoane, poate fi folosită pentru a prezice predispoziția oamenilor la diferite boli, cum ar fi, de exemplu, cancerul, diabetul și multe altele. Pachetul va fi util și în transcriptomică [13] .

Începând cu versiunea 0.6.x, toți algoritmii pot funcționa cu genomi a căror lungime totală depășește 4 GB [8] . Cu toate acestea, dimensiunea unui cromozom individual nu trebuie să depășească 2 GB. Fiecare algoritm este invocat de o comandă separată, acceptând un fișier de intrare prin intrare standard ("stdin") și returnând rezultatul prin ieșire standard ("stdout").

BWA-BackTrack

Mai întâi se construiește o matrice de sufixe și apoi se generează un BWT. Nucleotidele nedefinite (notate cu litera „N”) din genomul de referință sunt convertite în nucleotide aleatorii și sunt tratate ca nepotriviri în citiri. Acest lucru poate duce la regiuni de potriviri false ("hituri") cu baze ambigue. Dar probabilitatea ca acest lucru să se întâmple este foarte mică, având în vedere citirile relativ lungi [14] .

BWA-SW

BWA-SW construiește indici FM atât pentru secvența de referință, cât și pentru citiri. Este implicit o secvență de referință sub forma unui arbore de prefix și o citire ca o mașină de stări aciclice deterministă , care este compusă dintr-un arbore de prefix pentru citire folosind programarea dinamică . Spre deosebire de BLAT și SSAHA2, BWA-SW găsește semințe (din engleză seed - „seed”; o potrivire exactă a mai multor perechi de baze de citire [4] ) în genomul de referință folosind construcția indicilor FM. Alinierea se extinde atunci când sămânța are mai multe apariții în secvența de referință. Viteza se obține prin reducerea expansiunii inutile pentru secvențe foarte repetitive. În comparație cu egalizarea standard Smith-Waterman, care are o complexitate de timp de , BWA-SW are o complexitate de timp mai bună deoarece este cel puțin la fel de rapid ca BWT-SW, care are o complexitate de [10] . În BWA-SW, două aliniamente sunt considerate diferite dacă lungimea zonei de suprapunere a cererii este mai mică de jumătate din lungimea segmentului de cerere mai scurt. $O(|X|*|W|)$ $O(|X|*0,628*|W|)$

Implementarea BWA-SW ia ca intrare un index BWA și o interogare FASTA sau un fișier FASTQ și scoate alinierea în format SAM. Fișierul de intrare, de regulă, conține multe secvențe („citiri”). Fiecare secvență este procesată pe rând folosind mai multe fire (dacă este posibil). Utilizarea memoriei atunci când se lucrează cu acest algoritm este de aproximativ 5 GB pentru indexarea secvențelor complete ale genomului uman [8] . Citirile scurte necesită aproximativ 3,2 GB folosind comanda alnși 5,4 GB folosind sampe. Cantitatea de memorie necesară pentru fiecare interogare este aproximativ proporțională cu lungimea secvenței. În plus, BWA-SW este capabil să detecteze o himeră potențial cauzată de modificări structurale sau să citească erori de referință de asamblare care ar putea reprezenta o amenințare pentru BLAT și SSAHA2. BWA-SW diferă de BWT-SW în mai multe moduri [15] : BWT-SW garantează găsirea tuturor potrivirilor locale, în timp ce BWA-SW este un algoritm euristic care poate rata potrivirile adevărate, dar este mult mai rapid.

BWA-MEM

BWA-MEM este cel mai recent algoritm implementat al pachetului BWA. Utilizează o strategie în care algoritmul de aliniere de citire este selectat automat de la caz la caz: aliniere locală sau globală. Sunt acceptate citirile în pereche și aliniamentele de citire himerice. Algoritmul este rezistent la erorile de secvențiere și este aplicabil la o gamă largă de lungimi de secvențe de la 70 bp la 70 bp. până la câteva megabaze. Și pentru secvențe de cartografiere lungi de 100 bp. BWA-MEM prezintă o performanță mai bună decât unii algoritmi avansați de aliniere a citirii [16] .

Indicatori de calitate

Pentru fiecare aliniere, pachetul software BWA calculează un scor de calitate al cartografierii - Phred, probabilitatea scalată ca alinierea să fie incorectă [8] ( Scorul de calitate Phred - o evaluare a calității nucleotidei ADN citite). Necesitatea unei evaluări statistice a cartografierii rezultă din faptul că citirile sunt mici (40-100 bp), în timp ce genomurile sunt destul de mari, deci pot exista mai multe aliniamente. Cu toate acestea, este necesar să înțelegem care dintre ele este cel mai informativ. Și, în esență, scorul Phred este probabilitatea ca citirea să fie nealiniată. Se calculează prin formula , unde q este calitatea citirii citirii [17] . Algoritmul este similar cu evaluarea pentru MAQ , cu excepția faptului că BWA presupune că o potrivire adevărată poate fi întotdeauna găsită. Această modificare a fost făcută deoarece formula MAQ supraestimează probabilitatea de a pierde o potrivire adevărată, rezultând o calitate subestimată a cartografierii. Modelarea arată că BWA poate supraestima calitatea cartografierii datorită acestei modificări, dar abaterea este relativ mică. $p=10^{-q/10}$

Exemple

Un exemplu de scenariu pentru utilizarea pachetului software BWA de la Centrul de calcul olandez este următorul [18] :

Pasul 1 - indexarea genomului (~ 3 ore CPU pentru genomul uman) bwa index -a bwtsw ref.fa

, unde ref.fa este numele fișierului genomului de referință.

Pasul 2a - generarea alinierii în coordonatele matricei sufixe bwa aln ref.fa read1.fq.gz > read1.sai bwa aln ref.fa read2.fq.gz > read2.sai

, unde read1.fq.gz este un fișier cu citiri directe, read2.fq.gz este o citire inversă. Utilizați opțiunea -q15 dacă calitatea este mai scăzută la capetele 3' ale citirilor.

Pasul 3a - generarea alinierii în format SAM pentru citirile pereche bwa sampe ref.fa read1.sai read2.fq.gz > aln.sam Pasul 4a - Generarea alinierii SAM pentru citiri impare bwa samse ref.fa read1.sai read1.fq.gz Pasul 2b - BWA-SW pentru citiri lungi bwa bwasw ref.fa long-read.fq.gz > aln-long.sam

, unde long-read.fq.gz este un fișier cu citiri lungi.

Pentru o compatibilitate suplimentară a alinierii rezultate cu programele standard pentru analiza datelor NGS, cum ar fi, de exemplu, Pikard Tools sau GATK, atunci când apelați programul, ar trebui să specificați așa-numitul grup de citire ( grupul de citire în engleză - un set de date obținute folosind un singur mod al secvențatorului) prin adăugarea steagului [19] . Grupul de citire în sine pentru un eșantion de pe platforma Illumina-SOLEXA arată cam așa: [19] , unde ID este un identificator unic pentru acest eșantion, SM sunt numele probei, Pl este platforma de secvențiere, LB este numele bibliotecă, iar PU este identificatorul de sistem [20] . -r-r ‘@RG\tID:1\tSM:S000336\tPL:ILLUMINA\tLB:L00000336\t PU:C3A7NACXX:1’

Valoare practică

În practică, BWA este instrumentul principal pentru aplatizarea citirilor scurte [21] [22] [23] [24] . BWA se aplică în prezent în următoarele studii:

Secvențierea și asamblarea genomului.
Căutați polimorfisme cu o singură nucleotidă.
Căutați ștergeri și inserări.

Principalele avantaje ale utilizării pachetului software BWA sunt următoarele avantaje [7] [25] :

Operare de mare viteză [26]
Cost mic de memorie.
Interfață simplă.
Cu reglaj fin, cei mai buni parametri statistici [27]

De asemenea, BWA face parte din cele mai utilizate conducte biologice, nu numai în activități științifice, ci și în domeniul clinic:

GATK [28] [29]
AMAP [30]
SPAdes [31]

Note

↑ Heng Li. BWA Releases (engleză) (downlink) . GitHub. Consultat la 5 aprilie 2017. Arhivat din original pe 5 aprilie 2017.
↑ Goltsov A.Yu., Andreeva T.V., Reshetov D.A., Tyazhelova T.V., Gavrik O.A., Rogaev E.I. Căutare mutații în genele ADN mitocondrial asociate cu dezvoltarea bolii Alzheimer folosind tehnologia de secvențiere paralelă // Probleme moderne ale științei și educației: jurnal. - M . : Academia Rusă de Științe ale Naturii, 2012. - Nr. 6 . - S. 23 . — ISSN 1817-6321 . Arhivat din original pe 5 aprilie 2017.
↑ Ivan Borozan, Stuart N. Watt, Vincent Ferretti. Evaluarea algoritmilor de aliniere pentru descoperirea și identificarea agenților patogeni folosind ARN-Seq // PLoS One: Journal. - 2013. - T. 8 , nr. 10 . — PMID 24204709 .
↑ 1 2 Li Heng, Homer Nils. Un studiu al algoritmilor de aliniere a secvenței pentru secvențierea de generație următoare // Brief Bioinformatics : journal. - 2010. - Septembrie ( vol. 11 , numărul 5 ). - S. 473-483 . - doi : 10.1093/bib/bbq015 . — PMID 20460430 . Arhivat din original pe 15 aprilie 2017.
↑ Jing Shang, Fei Zhu, Wanwipa Vongsangnak, Yifei Tang, Wenyu Zhang, Bairong Shen. Evaluarea și compararea alinierii multiple pentru analiza datelor de secvențiere de generație următoare // Scurtă bioinformatică: Jurnal. - 2010. - Septembrie ( vol. 11 , numărul 5 ). - S. 1754-1760 . — PMID 24779008 .
↑ Secvențierea întregului genom mare . Illumina. Arhivat din original la 30 ianuarie 2016.
↑ 1 2 Li Heng, Durbin Richard. Aliniere rapidă și precisă de citire lungă cu transformarea Burrows-Wheeler // Bioinformatică : jurnal. - Oxford University Press, 2010. - 1 martie ( vol. 26 , iss. 5 ). - P. 589-595 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatics/btp698 . — PMID 20080505 . Arhivat din original pe 5 aprilie 2017.
↑ 1 2 3 4 Manual Reference Pages - bwa (engleză) (link nu este disponibil) . Souce Forge. Consultat la 5 aprilie 2017. Arhivat din original pe 5 aprilie 2017.
↑ Pagina de pornire a lui Heng Li (engleză) (link nu este disponibil) . sourceforge. Consultat la 6 aprilie 2017. Arhivat din original pe 6 aprilie 2017.
↑ 1 2 Lam TW, Sung WK, Tam SL, Wong CK, Yiu SM. Indexarea comprimată și alinierea locală a ADN-ului (engleză) // Bioinformatică : jurnal. - Oxford University Press, 2008. - 15 martie ( vol. 24 , iss. 6 ). - P. 791-797 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatics/btn032 . — PMID 18227115 . Arhivat din original pe 5 aprilie 2017.
↑ Sohyun Hwang, Eiru Kim, Insuk Lee, Edward M. Marcotteb. Comparație sistematică a conductelor de apelare variante folosind variante de exom personal standard de aur // Rapoarte științifice : jurnal online. - Macmillan Publishers Limited, 2015. - Iss. 5 . — ISSN 2045-2322 . - doi : 10.1038/srep17875 . Arhivat din original pe 5 aprilie 2017.
^ Pareek CS, Błaszczyk P., Dziuba P., Czarnik U., Fraser L., Sobiech P., Pierzchała M., Feng Y., Kadarmideen HN, Kumar D. Single nucleotide polymorphism discovery in bovine liver using ARN-seq technology // PLoS One : jurnal. - 2017. - Februarie ( vol. 12 , numărul 2 ). - doi : 10.1371/journal.pone.0172687 . — PMID 28234981 . Arhivat din original pe 15 aprilie 2017.
^ Robinson KM, Crabtree J., Mattick JS, Anderson KE, Dunning Hotopp JC Distingerea potențialelor asociații bacterii-tumorale de contaminare într-o analiză secundară a datelor de secvență a genomului cancerului public // Microbiome: Journal. - Londra, Marea Britanie: BioMed Central, 2017. - ianuarie ( vol. 5 , numărul 1 ). — ISSN 2049-2618 . — PMID 28118849 . Arhivat din original pe 5 aprilie 2017.
↑ Li Heng, Durbin Richard. Aliniere rapidă și precisă a citirii scurte cu transformarea Burrows-Wheeler // Bioinformatică : jurnal. - Oxford University Press, 2009. - 15 iulie ( vol. 25 , iss. 14 ). - P. 1754-1760 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatics/btp324 . — PMID 19451168 . Arhivat din original pe 5 aprilie 2017.
↑ Al-Absi AA, Kang DK Long Read Alignment with Parallel MapReduce Cloud Platform // BioMed Research International: Journal. - Egipt: Hindawi , 2015. - Decembrie. — ISSN 2314-6133 . - doi : 10.1155/2015/807407 . — PMID 26839887 . Arhivat din original pe 5 aprilie 2017.
↑ Li Heng. Alinierea citirilor de secvențe, secvențe de clonare și contig de asamblare cu BWA- MEM . - Cambridge, SUA: Oxford University Press, 2016. - 16 martie. - P. 1-3 . - arXiv : 1303.3997 . Arhivat din original pe 5 aprilie 2017.
↑ Peter JA Cock, Christopher J. Fields, Naohisa Goto, Michael L. Heuer, Peter M, Rice. Formatul de fișier Sanger FASTQ pentru secvențe cu scoruri de calitate și variantele Solexa/Illumina FASTQ // Nuclear Acid Res : jurnal. - 2010. - Aprilie ( vol. 38 , iss. 6 ). - P. 1767-1771 . - doi : 10.1093/nar/gkp1137 . — PMID 20015970 . Arhivat din original pe 15 aprilie 2017.
↑ Utilizare BWA (engleză) (link indisponibil) . Centrul de calcul olandez. Arhivat din original pe 5 aprilie 2017.
↑ 1 2 Bukowski Robert, Sun Qi, Wang Minghui. Varianta de apelare . - Facilitatea de Bioinformatică, Institutul de Biotehnologie. - S. 22 . Arhivat din original pe 6 aprilie 2017.
↑ Grupul de lucru pentru specificații de format SAM/BAM. Sequence Alignment/Map Format Specification (ing.) (link mort) p. 3. GitHub (28 aprilie 2016). Consultat la 6 aprilie 2017. Arhivat din original pe 6 aprilie 2017.
↑ José M. Abuín, Juan C. Pichel, Tomás F. Pena, Jorge Amigo. SparkBWA: Accelerarea alinierii datelor de secvențiere a ADN-ului de mare randament // PLoS One: Journal. - 2016. - Vol. 11 , iss. 5 . - doi : 10.1371/journal.pone.0155461 . Arhivat din original pe 5 aprilie 2017.
↑ Justin Chu, Sara Sadeghi, Anthony Raymond, Shaun D. Jackman, Ka Ming Nip, Richard Mar, Hamid Mohamadi, Yaron S. Butterfield, A. Gordon Robertson, Inanç Birol. Instrumente BioBloom: screening rapid, precis și eficient din punct de vedere al memoriei a secvenței speciilor gazdă folosind filtre de înflorire // Bioinformatică : jurnal. - 2014. - 1 decembrie ( vol. 30 , is. 23 ). - P. 3402-3404 . - doi : 10.1093/bioinformatics/btu558 . Arhivat din original pe 15 aprilie 2017.
↑ David Weese, Manuel Holtgrewe, Knut Reinert. RazerS 3: Cartografiere de citire mai rapidă, complet sensibilă // Bioinformatică : jurnal. - Oxford University Press, 2012. - 15 octombrie ( vol. 28 , iss. 20 ). - P. 2592-2599 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatics/bts505 . — PMID 22923295 . Arhivat din original pe 6 aprilie 2017.
↑ Barh Debmalya, Khan Muhammad Sarwar, Davies Eric. PlantOmics: Omics of Plant Science . - Springer, 2015. - P. 56. - 825 p. — ISBN 8132221729 . — ISBN 9788132221722 . Arhivat pe 6 aprilie 2017 la Wayback Machine
↑ Julio Saez-Rodriguez, Miguel P. Rocha, Florentino Fdez-Riverola, Juan F. De Paz Santana. A 8-a Conferință internațională privind aplicațiile practice ale biologiei computaționale și bioinformaticii (PACBB 2014) . - Springer, 2014. - T. 294. - S. 114. - 294 p. — ISBN 3319075810 . — ISBN 9783319075815 . Arhivat pe 6 aprilie 2017 la Wayback Machine
↑ Gerton Lunter. Note pentru Stampy v1.0.20 (engleză) (downlink) . Oxford , Marea Britanie : Trust Center for Human Genetics (septembrie 2012). Consultat la 6 aprilie 2017. Arhivat din original pe 6 aprilie 2017.
↑ Elsensohn MH., Leblay N., Dimassi S., Campan-Fournier A., Labalme A., Roucher-Boulez F., Sanlaville D., Lesca G., Bardel C., Roy P. Metoda statistică de comparare conducte masive de secvențiere paralelă (engleză) // BMC Bioinformatics : journal. - Londra, Marea Britanie: BioMed Central, 2017. - 1 martie ( vol. 18 , iss. 1 ). — P. 139 . — ISSN 1471-2105 . - doi : 10.1186/s12859-017-1552-9 . Arhivat din original pe 5 aprilie 2017.
↑ GATK Best Practices (engleză) (link nu este disponibil) . Institutul Broad. Consultat la 5 aprilie 2017. Arhivat din original pe 5 aprilie 2017.
↑ Pevsner Jonathan. Bioinformatica si genomica functionala . - Ed. a 3-a. - John Wiley & Sons, 2015. - P. 401. - 1160 p. — ISBN 9781118581698 . — ISBN 1118581695 . Arhivat pe 6 aprilie 2017 la Wayback Machine
↑ Ishii K., Kazama Y., Hirano T., Hamada M., Ono Y., Yamada M., Abe T. AMAP: A pipeline for whole-genome mutation detection in Arabidopsis thaliana // Genes Genet Syst: magazine. - The Genetics Society of Japan, 2017. - 17 martie ( vol. 91 , iss. 4 ). - P. 229-233 . — ISSN 1341-7568 . - doi : 10.1266/ggs.15-00078 . — PMID 27452041 . Arhivat din original pe 5 aprilie 2017.
↑ SPAdes 3.10.1 Manual (eng.) (link indisponibil) . Universitatea Academică din Sankt Petersburg este un centru științific și educațional pentru nanotehnologii al Academiei Ruse de Științe . Consultat la 5 aprilie 2017. Arhivat din original pe 5 aprilie 2017.

Literatură

Quintero Dino, Bolinches Luis, Lima Marcelo Correia, Pasierb Katarzyna, William dos Santos. IBM Reference Architecture for Genomics, Power Systems Edition . - IBM Redbooks, 2016. - P. 69. - 140 p. — ISBN 0738441635 . — ISBN 9780738441634 .
Nguyen Ken, Guo Xuan, Pan Yi. Alinierea secvențelor biologice multiple: funcții de notare, algoritmi și evaluare . - John Wiley & Sons, 2016. - P. 154. - 248 p. - (Seria Wiley în Bioinformatică). — ISBN 1118229045 . — ISBN 9781118229040 .
Herzeel Charlotte, Costanza Pascal, Ashby Thomas J., Wuyts Roel. Analiza performanței alinierii BWA // Raport tehnic Exa Science. - 2013. - 5 noiembrie. - S. 2-27 . Arhivat din original pe 6 aprilie 2017.
Harbers Matthias, Kahl Günter. Secvențierea de generație următoare bazată pe etichete . - John Wiley & Sons, 2012. - P. 268-269. — 581 p. — (Biologie moleculară a plantelor). — ISBN 352732819X . — ISBN 9783527328192 .