Abordarea bayesiană în filogenetică face posibilă obținerea celui mai probabil arbore filogenetic având în vedere datele inițiale, secvențele de ADN sau proteine ale organismelor luate în considerare și modelul de înlocuire evolutivă [1] . Pentru a reduce complexitatea de calcul a algoritmului, calculul probabilității posterioare este implementat de diverși algoritmi folosind metoda Monte Carlo pentru lanțuri Markov [2] . Principalele avantaje ale abordării bayesiene în comparație cu metodele de maximă probabilitate și maximă parcimonie sunt eficiența computațională, capacitatea de a lucra cu modele complexe de evoluție și, de asemenea, că, spre deosebire de metodele care indică un singur arbore cel mai bun conform unui criteriu dat, vă permite să selectați mai multe variante ale arborelui filogenetic cu cea mai mare valoare a probabilității posterioare [3] .
Abordarea bayesiană este o dezvoltare a metodei probabilistice dezvoltată de matematicianul și preotul englez Thomas Bayes pe baza teoremei lui Bayes . Această metodă a fost publicată în 1763 [4] , la doi ani după moartea sa. Mai târziu, formularea modernă a teoremei a fost dezvoltată de Pierre-Simon Laplace [1] .
În 1953, Nicholas Metropolis a introdus metodele Monte Carlo pentru lanțurile Markov (MCMC, lanțul Markov Monte Carlo) [5] . Avantajele în viteza de calcul și capacitatea de integrare cu metodele MCMC au permis abordării bayesiene să devină una dintre cele mai populare metode de inferență statistică . Abordarea bayesiană are multe aplicații în filogenetica moleculară și sistematică . În comparație cu alte metode de construire a arborilor filogenetici (parcimonie maximă, probabilitate maximă ), permite incertitudinea filogenetică, utilizarea informațiilor a priori și modele complexe de evoluție , pentru care metodele tradiționale au limitări de calcul.
Aplicarea abordării bayesiene în filogenetică este după cum urmează. Întregul set de arbori filogenetici admisibili este descris prin parametri discreti (topologia arborelui) și parametri continui (lungimile ramurilor arborilor și parametrii modelului de înlocuire evolutivă). Pentru a calcula valoarea densității distribuției de probabilitate posterioară pentru un arbore cu topologie și parametri , având în vedere datele inițiale , se aplică formula Bayesiană , unde este densitatea distribuției probabilității condiționate a datelor inițiale . Numitorul din această formulă este calculat folosind formula probabilității totale ca sumă peste integralele produsului peste , unde este densitatea distribuției a priori pentru arbori [6] . Calculele analitice explicite folosind această formulă nu sunt întotdeauna posibile, iar cele numerice necesită un număr mare de calcule atunci când se caută maximul funcției în raport cu . Aplicarea metodei de testare statistică (numită și metoda Monte Carlo) pe lanțurile Markov face posibilă obținerea unor valori aproximative ale probabilităților posterioare și reducerea complexității de calcul a algoritmului de găsire a arborelui cel mai probabil cu probabilitatea posterior maximă. criteriu.
În metodele MCMC, densitatea posterioară este calculată prin simularea lucrului unui lanț Markov, ale cărui stări sunt arbori filogenetici [2] . Calculul densității posterioare se realizează ca frecvență de vizitare a acestor stări în starea de echilibru. Arborele cel mai probabil este determinat de frecvența maximă a stării cel mai frecvent vizitate, sau mai multe dintre cele mai frecvent vizitate. Metodele MCMC pot fi descrise în două etape: prima utilizează un mecanism stocastic pentru a obține o nouă stare a lanțului Markov ; pe al doilea, se calculează probabilitatea de trecere la această stare și se joacă un eveniment de schimbare aleatorie a stării. Această procedură se repetă de mii sau milioane de ori. Fracțiunea de timp în care un singur copac este vizitat în timpul unui lanț Markov este o aproximare destul de precisă a probabilității sale posterioare. Cei mai des utilizați algoritmi folosiți în metodele MCMC includ algoritmul Metropolis-Hastings, algoritmul Metropolis în combinație cu MCMC (MC³) și algoritmul LOCAL al lui Larget și Simon.
Algoritmul Metropolis-Hastings [7] este una dintre cele mai comune metode MCMC și este o versiune modificată a algoritmului Metropolis [5] de Hastings . Algoritmul Metropolis-Hastings construiește o implementare aleatorie a unui lanț Markov ale cărui stări sunt arbori filogenetici. La simularea unei schimbări de stare, la fiecare pas, se face o tranziție de la un arbore la altul prin modificarea topologiei sau parametrilor modelului evolutiv după o anumită regulă. Algoritmul constă din următorii pași [8] :
(prin probabilitatea condiționată sau densitatea distribuției pentru datele inițiale date );
Algoritmul original Metropolis presupune că probabilitățile de tranziție de la copac la copac și înapoi sunt egale. Dacă această condiție nu este îndeplinită, atunci se aplică corecțiile Hastings, care constau în următoarele: probabilitatea de tranziție se calculează prin formula , unde este funcția de distribuție comună.
Metropolis-coupled MCMC (MC³) [9] , cunoscut și ca algoritmul de recoacere paralelă , este o versiune modificată a algoritmului Metropolis-Hastings pentru lanțuri Markov cu distribuții de probabilitate complexe și multimodale. Pentru aceste cazuri, algoritmii de căutare în arbore euristic folosind MP (metoda maximă parsimonie), ML ( metoda maximă probabilitate ) și ME (metoda evoluției minime), precum și MCMS, pot atinge un maxim local, ceea ce va duce la o aproximare incorectă a densitatea distribuției de probabilitate posterioară . Algoritmul MC³, prin amestecarea lanțurilor Markov cu diferite temperaturi, face posibilă aproximarea corectă a distribuției probabilităților posterioare și evitarea căderii în optime locale.
Algoritmul rulează lanțuri în paralel, prin iterații în fiecare lanț cu distribuții staționare diferite , , unde prima distribuție cu densitatea țintă se numește lanț rece, iar alte lanțuri cu distribuții sunt numite încălzite [10] . Densitățile de distribuție ale circuitelor încălzite au forma:
unde este factorul de temperatură.Ridicarea densitatii la o putere at are ca efect aplatizarea distributiei, prin analogie cu incalzirea unui metal. În această distribuție, este mai ușor să se deplaseze între vârfuri separate de văi decât în distribuția inițială. După fiecare iterație, algoritmul indică efectuarea unui schimb de stări între două circuite selectate aleatoriu folosind pasul propus de Metropolis. Schimbul între stări și are loc cu probabilitatea:
unde este starea curentă din lanțul numerotat , [11] .Din punct de vedere euristic, lanțurile fierbinți vor vizita vârfurile locale destul de ușor, iar schimbul de state între lanțuri va permite unui lanț rece să sară uneori peste văi. Dacă este prea mic, schimbul de stări va avea loc rar, astfel încât algoritmul folosește mai multe circuite cu diferiți factori de temperatură pentru a îmbunătăți amestecarea [6] .
Pentru a obține o distribuție de probabilitate staționară, se folosesc doar stările din lanțul rece, iar stările din circuitele încălzite sunt aruncate.
Pentru a genera o nouă stare a unui lanț Markov, există diverse modalități probabilistice de modificare a arborilor, de exemplu, bisecție cu reatașare ulterioară, schimb de ramuri, înlocuire cu un arbore vecin cel mai apropiat. Algoritmii LOCAL [2] și GLOBAL [12] oferă o altă modalitate de a construi un nou arbore bazat pe cel actual prin modificarea topologiei și a lungimii ramurilor. Acest lucru are ca rezultat o reducere semnificativă a calculelor pentru arbori mari în comparație cu algoritmii bootstrap pentru probabilitate maximă și metode de parcimonie maximă .
Ideea generală este că un arbore este reprezentat ca următorii parametri: topologia arborelui și lungimea ramurilor sale, precum și parametrii modelului de înlocuire . Când stările lanțului Markov se modifică, se efectuează pași succesivi, în care fie se modifică separat topologia arborelui și lungimea ramurilor sale, fie se modifică doar parametrii modelului de înlocuire. Decizia de a trece la un nou arbore ca starea curentă a lanțului Markov este luată în același mod ca și în algoritmul Metropolis-Hastings , dar valoarea probabilității pragului este calculată folosind parametrii arborelui modificat.
În algoritmul GLOBAL [12] introdus de Mau, Newton și Larget în 1999, toate lungimile ramurilor de copac se modifică cu o cantitate mică în fiecare ciclu. Algoritmul Larget și Simon LOCAL [2] implică modificarea unui arbore într-o mică vecinătate a unei ramuri interioare ale arborelui selectată aleatoriu.
Construcția unui nou arbore în algoritmul LOCAL la modificarea topologiei și lungimii ramurilor se realizează după următoarea regulă: o margine internă arbitrară a arborelui cu vârfuri și este selectată cu probabilitate egală . Datorită faptului că arborele filogenetic trebuie să fie binar, iar muchia este internă, fiecare dintre vârfuri trebuie să aibă două adiacente. Vârfurile adiacente pentru sunt notate în mod arbitrar cu literele și , iar vârfurile adiacente pentru sunt notate cu literele și . Mai mult, pentru nodurile și , este la fel de probabil să fie selectat unul adiacent, de exemplu, și , și este luată în considerare calea dintre vârfuri și , constând din trei muchii. Lungimile acestor margini sunt modificate proporțional prin înmulțirea cu un număr aleator conform regulii , unde este lungimea vechii căi, este lungimea noii căi, este o variabilă aleatoare distribuită uniform pe segment și este un parametru ajustabil pozitiv. Următorul pas în modificarea arborelui constă în detașarea unuia dintre vârfuri, sau , ales cu probabilitate egală, și atașarea lui într-un punct ales aleatoriu după o lege uniformă pe drumul de la vârf la vârf , împreună cu ramura lui copil. Cu o astfel de modificare, este posibil să se schimbe topologia arborelui dacă ordinea vârfurilor și de-a lungul căii de la până s-a schimbat, altfel topologia arborelui nu se schimbă. Corecția Hastings este egală cu pătratul raportului dintre lungimile căilor noi și vechi: .
La modificarea parametrilor modelului, algoritmul ia în considerare două opțiuni: în prima opțiune, când un parametru este limitat de setul de valori , noua valoare a parametrului este calculată prin adăugarea unei variabile aleatoare distribuite uniform din interval . Dacă noua valoare este în afara intervalului permis [2] , atunci restul este reflectat în interiorul acestui segment. Corecția Hastings este luată egală cu 1. A doua opțiune este cazul când se modifică un set de parametri, a căror sumă este egală cu o constantă. În acest caz, un nou set de valori pentru acești parametri este ales dintr -o distribuție Dirichlet centrată pe valorile curente ale parametrilor. Corecția Hastings este calculată ca raportul dintre densitățile Dirichlet și parametrii noi și vechi.
MrBayes Arhivat 25 septembrie 2018 la Wayback Machine este un program gratuit care efectuează analize de filogenie bayesiană. Scrisă inițial de John Huelsenbeck și Frederik Roncust în 2001 [16] . Pe măsură ce metodele bayesiene au devenit populare, mulți filogeneticieni moleculari au început să aleagă MrBayes. Programul folosește algoritmul standard MCMC și algoritmul Metropolis asociat cu MCMC.
MrBayes folosește MSMS pentru a aproxima probabilitățile posterioare ale arborilor [5] . Utilizatorul poate schimba ipotezele despre modelul de substituție, probabilitățile anterioare și detaliile analizei MS. De asemenea, programul vă permite să eliminați și să adăugați taxoni și simboluri pentru analiză. În program poate fi utilizată o gamă largă de modele de substituție - de la modelul standard de substituție ADN 4x4, numit și JC69, în care se presupune că frecvențele de bază sunt egale și toate substituțiile de nucleotide au loc cu probabilitate egală [17] , până la cea mai generală. Model GTR, în care și frecvențele de bază și probabilitățile de substituție. Programul include, de asemenea, câteva modele de substituție de aminoacizi de 20x20, modele de substituție a codonilor și a ADN-ului dublet. Programul oferă diferite metode pentru slăbirea ipotezei ratelor de substituție egale la pozițiile nucleotidelor [18] . MrBayes poate produce, de asemenea, stări ereditare care conțin incertitudinea arborelui filogenetic și a parametrilor modelului.
MrBayes 3 [19] este o versiune complet refactorizată și proiectată invers a programului original MrBayes. Principala inovație este capacitatea programului de a se adapta la eterogenitatea seturilor de date. Această structură permite utilizatorului să amestece modele și să profite de performanța analizei Bayesian MCMC atunci când se ocupă cu diferite tipuri de date (de exemplu, proteine, nucleotide, date morfologice). În mod implicit, programul folosește algoritmul Metropolis MSMS.
MrBayes 3.2 este o nouă versiune a MrBayes lansată în 2012 [20] . Noua versiune permite utilizatorului să execute mai multe analize în paralel. De asemenea, oferă calcule de probabilitate mai rapide și capacitatea de a utiliza resursele GPU pentru a efectua aceste calcule. Versiunea 3.2 oferă mai multe opțiuni de ieșire care sunt compatibile cu FigTree și alte vizualizatoare de arbori.
Numele programului | Descriere | Metodă | Autorii | Legătură |
---|---|---|---|---|
Platforma de flux de lucru Armadillo | Un program conceput pentru analiză filogenetică și bioinformatică generală | Derivarea arborilor filogenetici folosind abordarea ML, MP, Bayesian etc. | E. Lord, M. Leclercq, A. Boc, AB Diallo, V. Makarenkov [21] | https://web.archive.org/web/20161024081942/http://www.bioinfo.uqam.ca/armadillo/ . |
Bali Phy | Obținerea alinierii și a arborelui simultan bazate pe abordarea bayesiană | Inferența bayesiană a aliniamentelor și a arborilor filogenetici | MA Suchard, BD Redelings [22] | http://www.bali-phy.org Arhivat 22 martie 2021 la Wayback Machine |
BATWING | Inferența arborelui prin metoda bayesiană cu crearea de noduri interne | Analiza bayesiană, istoria demografică, metoda împărțirii populației | IJ Wilson, D. Weale, D. Balding [23] | http://heidi.chnebu.ch/doku.php?id=batwing Arhivat 5 mai 2016 la Wayback Machine |
Filogeniile Bayes | Inferența arborelui bayesian folosind metodele Monte Carlo pentru lanțurile Markov și Metropolis combinate cu MCMC | Analiza bayesiana, modele multiple, mixte (cu partitionare automata) | M. Pagel, A. Meade [24] | http://www.evolution.rdg.ac.uk/BayesPhy.html Arhivat 19 februarie 2020 la Wayback Machine |
PhyloBayes/PhyloBayes MPI | Prelevator MCMC pentru reconstrucții filogenetice. | MCMC, un model CAT probabilistic luând în considerare nucleotidele sau aminoacizii specifici locului | N. Lartillot, N. Rodrigue, D. Stubbs, J. Richer [25] | https://web.archive.org/web/20181218053945/http://www.phylobayes.org/ |
FIARĂ | Analiza secvenței moleculare cu MCMC (Arbori de eșantionare Bayesian Evolutionary Analysis) | Analiză bayesiană, ceas molecular relaxat, istorie demografică | A. J. Drummond, A. Rambaut și M. A. Suchard [26] | http://beast.bio.ed.ac.uk Arhivat la 22 decembrie 2007 la Wayback Machine |
BUCKy | Potrivirea bayesiană a arborilor filogenetici pentru gene | Potrivirea bayesiană folosind consensul lacom modificat pentru cvartete fără rădăcini | C. Ané, B. Larget, D.A. Baum, SD Smith, A. Rokas, B. Larget, SK Kotha, CN Dewey, C. Ané [27] | http://www.stat.wisc.edu/~ane/bucky/ Arhivat 24 februarie 2019 la Wayback Machine |
Geneious (pluginul MrBayes) | Instrumente pentru studiul genomilor și proteomilor | Neighbor-joining , UPGMA, pluginuri MrBayes, PHYML, RAxML, FastTree, GARLi, PAUP* | AJ Drummond, M. Suchard, V. Lefort și colab. [28] | http://www.geneious.com Arhivat 26 ianuarie 2021 la Wayback Machine |
TOPALi | Inferență filogenetică | Selecția modelului filogenetic, analiza bayesiană și evaluarea probabilității maxime a arborilor filogenetici, determinarea siturilor sub selecție pozitivă, analiza poziției punctelor de recombinare | I.Milne, D.Lindner și alții [29] | http://www.topali.org Arhivat 9 aprilie 2021 la Wayback Machine |
Abordarea bayesiană este utilizată pe scară largă de filogeneticienii moleculari pentru diverse aplicații: