Bioinformatica

Bioinformatica  este un domeniu interdisciplinar care combină biologia generală, biologia moleculară , cibernetica, genetica , chimia, informatica , matematica și statistica . Problemele biologice la scară largă care necesită analiza unor cantități mari de date sunt rezolvate de bioinformatică din punct de vedere computațional [1] . Bioinformatica include în principal studiul și dezvoltarea metodelor computerizate și are ca scop obținerea, analizarea, stocarea, organizarea și vizualizarea datelor biologice [2] .

Într-un context similar, termenul de biologie computațională este adesea menționat . Acest domeniu se concentrează pe dezvoltarea algoritmilor și modelării matematice a sistemelor sociale, comportamentale și biologice. Bioinformatica este considerată a fi un domeniu din biologia computațională care se concentrează în principal pe prelucrarea statistică a datelor biologice [2] . Diferențe de abordare din diferite unghiuri: bioinformaticienii  sunt biologi care se specializează în utilizarea sistemelor și instrumentelor de calcul pentru a rezolva probleme biologice, în timp ce biologii computaționali  sunt informaticieni, matematicieni, statisticieni și ingineri care dezvoltă instrumente pentru astfel de calcule [2] .

Bioinformatica în sens larg înseamnă lucrul cu orice fel de date biologice, inclusiv studiul micrografiilor electronice, căutarea cuvintelor cheie în literatura biologică etc. [3] . Dacă considerăm bioinformatica ca un set de abordări și metode de lucru cu date, atunci, în funcție de tipurile de probleme tehnice, aceasta include [4] :

Cu toate acestea, metodele bioinformatice de analiză sunt, de asemenea, indisolubil legate de multe domenii științifice, care implică căutarea de răspunsuri la întrebări biologice specifice. În acest caz, direcțiile principale pot fi distinse pe baza obiectelor studiate:

Pentru fiecare dintre secțiunile enumerate, se pot identifica propriile tipuri de date standard, modalități de procesare a acestora, algoritmi bioinformatici și baze de date.

Bioinformatica folosește metode din matematica aplicată , statistică și informatică . Bioinformatica este folosită în biochimie , biofizică , ecologie și în alte domenii. Cele mai frecvent utilizate instrumente și tehnologii în acest domeniu sunt limbajele de programare Python , R , Java , C# , C++ ; limbaj de marcare - XML ; limbaj de interogare structurat pentru baze de date - SQL ; arhitectura software si hardware de calcul paralel - CUDA ; un pachet de programe aplicate pentru rezolvarea problemelor de calcule tehnice și limbajul de programare cu același nume folosit în acest pachet - MATLAB , și foi de calcul .

Introducere

Bioinformatica a devenit o parte importantă a multor domenii ale biologiei. Metodele bioinformatice de analiză fac posibilă interpretarea unor cantități mari de date experimentale, ceea ce era practic imposibil înainte de dezvoltarea acestui domeniu. De exemplu, biologia moleculară experimentală folosește adesea tehnici bioinformatice, cum ar fi procesarea imaginilor și a semnalului . În domeniul geneticii și al genomicii, bioinformatica ajută la adnotarea funcțională a genomilor, detectarea și analiza mutațiilor. O sarcină importantă este studierea expresiei genelor și a modalităților de reglare a acesteia. În plus, instrumentele de bioinformatică permit compararea datelor genomice, care este o condiție prealabilă pentru studierea principiilor evoluției moleculare .

În termeni generali, bioinformatica ajută la analiza și catalogarea căilor și rețelelor biochimice, care sunt o parte importantă a biologiei sistemelor. În biologia structurală , ajută la modelarea structurilor ADN, ARN și proteine, precum și interacțiunile moleculare.

Progresele recente în prelucrarea datelor biologice au condus la schimbări semnificative în domeniul biomedicinei. Datorită dezvoltării bioinformaticii, oamenii de știință au reușit să identifice mecanismele moleculare care stau la baza bolilor ereditare și dobândite, ceea ce ajută la dezvoltarea unor tratamente eficiente și a unor teste mai precise pentru diagnosticarea bolilor [5] . Direcția cercetării, care permite prezicerea eficacității și efectelor adverse ale medicamentelor la pacienți, se numește farmacogenetică și se bazează și pe metode bioinformatice.

Un rol important al bioinformaticii constă și în analiza literaturii biologice și în dezvoltarea ontologiilor biologice și genetice pentru organizarea datelor biologice.

Istorie

Pe baza recunoașterii rolului important al transmiterii, stocării și procesării informațiilor în sistemele biologice, în 1970 Pauline Hogeweg a introdus termenul de „bioinformatică”, definindu-l ca fiind studiul proceselor informaționale din sistemele biotice [6] [7] . Această definiție face o paralelă între bioinformatică și biofizică (studiul proceselor fizice în sistemele biologice) sau cu biochimie (studiul proceselor chimice în sistemele biologice) [6] .

Secvențe

Istoria bioinformaticii secvențelor poate fi urmărită până la progresele anilor 1950. În februarie 1953, Watson și Crick au propus un model al moleculei de ADN, iar în mai 1953 au publicat un articol în revista Nature , care s-a ocupat de problema ADN-ului ca purtător al codului informației genetice [8] . De asemenea, la sfârșitul anilor 1950, Sanger a publicat prima secvență de proteine, insulina [9] , [10] .

Cea mai utilizată metodă de secvențiere a secvențelor de aminoacizi a devenit degradarea Edman, al cărei dezavantaj principal a fost dificultatea de a obține secvențe lungi de proteine: maximul teoretic a fost de 50-60 de aminoacizi pe reacție. Din această cauză, proteinele au trebuit mai întâi descompuse în fragmente mici, iar apoi secvențele de proteine ​​au fost asamblate din sute de lanțuri scurte, ceea ce nu a fost întotdeauna posibil de făcut corect. Soluția la această problemă a fost propusă de Margaret Deyhoff (1925-1983) - om de știință american, chimist fizic. Dayhoff a folosit în mod activ metodele computerizate în munca sa și a văzut potențialul în aplicarea lor în domeniile biologiei și medicinei. În 1962, ea a finalizat dezvoltarea COMPROTEIN, un instrument pentru determinarea structurii primare a unei proteine ​​folosind datele de secvențiere a peptidei Edman [11] . În COMPROTEIN, intrarea și ieșirea unei secvențe de aminoacizi a fost prezentată în abrevieri de trei litere. Pentru a simplifica procesarea datelor secvenței proteinelor, Dayhoff a dezvoltat ulterior codul de aminoacizi cu o literă care este încă în uz astăzi. Contribuția lui Dayhoff în domeniu este atât de semnificativă încât David J. Lipman, fost director al Centrului Național pentru Informații Biotehnologice (NCBI), a numit-o „mama și tatăl bioinformaticii” [12] .

Odată cu acumularea de noi secvențe de proteine, unele modele au început să fie urmărite în ele. De exemplu, Zuckerkandl și Pauling au remarcat că proteinele ortologe ale vertebratelor (de exemplu, hemoglobina) prezintă un grad prea mare de asemănare a secvenței pentru a fi rezultatul evoluției convergente. Au fost necesare noi metode matematice și informatice pentru a confirma noile ipoteze evolutive. [13] . Primul algoritm de programare dinamică pentru alinierea în perechi a secvențelor de proteine ​​a fost dezvoltat în 1970 de către Needleman și Wunsch [14] . Algoritmii de aliniere a secvenței multiple au apărut mult mai târziu: primul algoritm practic a fost dezvoltat de Da-Fei Feng și Russell F. Doolittle în 1987 [15] . Simplificarea sa, algoritmul CLUSTAL, este încă în uz astăzi. În plus, în 1978, un grup de oameni de știință care a inclus Dayhoff a creat primul model de substituție bazat pe observarea mutațiilor punctuale acceptate (PAM) în arbori filogenetici ai 71 de familii de proteine ​​care împărtășesc o identitate mai mare de 85%. Ca rezultat, a fost obținută o matrice care conține valorile probabilității substituțiilor de aminoacizi [16] .

Dogma centrală a biologiei moleculare, care a fost publicată de Francis Crick în 1970, și identificarea treptată a tuturor aminoacizilor codificați de 68 de codoni, au condus la o schimbare treptată a paradigmei de la evoluția proteinelor la evoluția ADN-ului în anii 1970-1980. Era nevoie să înveți cum să citești secvențele de ADN. Prima metodă de secvențiere a ADN-ului care a devenit larg răspândită a fost metoda de secvențiere Maxam-Gilbert în 1976 [17] . Cu toate acestea, cea mai utilizată metodă a fost dezvoltată în laboratorul lui Frederick Sanger în 1977, este folosită și astăzi. Secvențierea Sanger a făcut posibilă obținerea unor cantități destul de mari de informații pentru acea perioadă, dar dimensiunea fragmentelor care puteau fi secvențiate a fost limitată la sute de nucleotide, ceea ce a fost suficient doar pentru a studia genomi atât de mici precum genomii bacteriofagi. Primul software de secvențiere Sanger a fost publicat de Roger Staden în 1979 [18] . Acest pachet software a permis nu numai asamblarea secvențelor în contig-uri, ci și verificarea și editarea acestor secvențe, precum și adnotări.

Genoame

Odată cu publicarea genomului uman la începutul secolului al XXI-lea, a început era genomică a bioinformaticii. Proiectul a fost inițiat în 1991 în SUA și a costat 2,7 miliarde de dolari în 13 ani [19] . În 1998, Celera Genomics a produs un studiu privat concurent pentru a secvența și a asambla genomul uman. Studiul a necesitat de 10 ori mai puțini bani și a catalizat dezvoltarea de noi strategii experimentale de secvențiere, cum ar fi 454 și Illumina. Costul secvențierii ADN-ului a scăzut cu ordine de mărime, rezultând o creștere uriașă a numărului de secvențe din bazele de date publice. Era nevoie să se dezvolte metode de stocare și procesare rapidă a datelor biologice. În 2005, a fost înființat Genomic Standards Consortium și un mandat a definit informațiile minime necesare pentru a publica o secvență genomică. [20] .

Goluri

Scopul principal al bioinformaticii este de a contribui la înțelegerea proceselor biologice. Ceea ce distinge bioinformatica de alte abordări este că se concentrează pe crearea și aplicarea unor metode intensive din punct de vedere computațional pentru a atinge acest obiectiv. Exemple de metode similare sunt recunoașterea modelelor , extragerea datelor , algoritmii de învățare automată și vizualizarea datelor biologice . Principalele eforturi ale cercetătorilor vizează rezolvarea problemelor de aliniere a secvenței , descoperirea genelor (căutarea genelor care codifică regiunea ADN), descifrarea genomului, proiectarea medicamentelor, dezvoltarea medicamentelor, alinierea structurii proteinelor , predicția structurii proteinelor, predicția expresiei genelor și proteinele. interacțiuni cu proteine, căutarea de asocieri la nivelul genomului și modelarea evoluției.

Bioinformatica presupune astăzi crearea și îmbunătățirea bazelor de date, algoritmi, metode computaționale și statistice și teorie pentru a rezolva probleme practice și teoretice care apar în gestionarea și analiza datelor biologice [21] .

Domenii principale de cercetare

Analiza secvenței genetice

De când fagul Phi-X174 a fost secvențiat în 1977, secvențele ADN ale unui număr tot mai mare de organisme au fost decodificate și stocate în baze de date. Aceste date sunt utilizate pentru a determina secvențele de proteine ​​și regiunile de reglare. Comparația genelor din cadrul aceleiași specii sau ale diferitelor specii poate demonstra asemănări în funcțiile proteinelor sau relațiile dintre specii (astfel Arborii filogenetici pot fi compilați ). Odată cu creșterea cantității de date, a fost mult timp imposibil să se analizeze manual secvențele. În zilele noastre, programele de calculator sunt folosite pentru a căuta prin genomul a mii de organisme formate din miliarde de perechi de baze . Programele pot potrivi ( alinia ) în mod unic secvențe similare de ADN din genomul diferitelor specii; adesea astfel de secvențe au funcții similare, iar diferențele apar ca urmare a mutațiilor mici, cum ar fi substituțiile de nucleotide individuale, inserțiile de nucleotide și „pierderea” lor (deleții). Una dintre aceste aliniamente este utilizată în timpul procesului de secvențiere în sine. Așa-numita tehnică de „ secvențiere fracționată ” (care a fost, de exemplu, folosită de Institutul de Cercetări Genetice pentru a secvenția primul genom bacterian, Haemophilus influenzae ), în loc de o secvență completă de nucleotide, produce secvențe de fragmente scurte de ADN (fiecare cu lungimea de aproximativ 600-800 de nucleotide). Capetele fragmentelor se suprapun și, aliniate corespunzător, formează genomul complet. Această metodă produce rapid rezultate de secvențiere, dar asamblarea fragmentelor poate fi destul de o provocare pentru genomi mari. În proiectul de secvențiere a genomului uman, asamblarea a durat câteva luni de timp pe computer. Acum, această metodă este folosită pentru aproape toți genomii, iar algoritmii de asamblare a genomului sunt una dintre cele mai acute probleme ale bioinformaticii în acest moment.

Un alt exemplu de aplicare a analizei secvențelor computerizate este căutarea automată a genelor și secvențelor de reglare în genom. Nu toate nucleotidele din genom sunt folosite pentru secvențierea proteinelor. De exemplu, în genomul organismelor superioare, segmente mari de ADN nu codifică în mod explicit proteinele, iar rolul lor funcțional este necunoscut. Dezvoltarea algoritmilor pentru identificarea regiunilor de codificare a proteinelor din genom este o sarcină importantă a bioinformaticii moderne.

Bioinformatica ajută la legarea proiectelor genomice și proteomice , de exemplu, ajutând la utilizarea secvențierii ADN-ului pentru identificarea proteinelor.

Adnotarea genomilor

În contextul genomicii , adnotarea  este procesul de etichetare a genelor și a altor entități dintr-o secvență de ADN . Primul sistem software de adnotare a genomului a fost creat în 1995 de Owen White , care a lucrat în echipa Institutului de Cercetare Genomică care a secvențiat și analizat primul genom decodat al unui organism care trăiește liber, bacteria Haemophilus influenzae . Dr. White a construit un sistem pentru găsirea genelor (o secțiune a ADN-ului care specifică secvența unei anumite polipeptide sau ARN funcțional), ARNt și alte obiecte ADN și a făcut primele denumiri pentru funcțiile acestor gene. Majoritatea sistemelor moderne de adnotare a genomului funcționează într-un mod similar, dar programele disponibile pentru analiza ADN-ului genomic, cum ar fi GeneMark, folosit pentru a găsi gene care codifică proteine ​​în Haemophilus influenzae, se schimbă și se îmbunătățesc constant.

Biologie evolutivă computațională

Biologia evoluționistă studiază originea și apariția speciilor , precum și dezvoltarea lor în timp. Informatica ajuta biologii evolutionisti in mai multe moduri:

  • studiază evoluția unui număr mare de organisme prin măsurarea modificărilor ADN -ului lor , nu doar în structură sau fiziologie ;
  • comparați genomi întregi (vezi BLAST ), ceea ce permite studiul unor evenimente evolutive mai complexe, cum ar fi: duplicarea genelor , transferul orizontal al genelor și predicția factorilor de specializare bacterieni;
  • construiți modele computerizate ale populațiilor pentru a prezice comportamentul sistemului în timp;
  • monitorizează apariția publicațiilor care conțin informații despre un număr mare de specii.

Domeniul informaticii care utilizează algoritmi genetici este adesea confundat cu biologia evolutivă computațională , dar cele două domenii nu sunt neapărat legate. Lucrările în acest domeniu utilizează software specializat pentru a îmbunătăți algoritmii și calculele și se bazează pe principii evolutive precum replicarea , diversificarea prin recombinare sau mutație și supraviețuirea prin selecție naturală .

Evaluarea biodiversităţii

Biodiversitatea unui ecosistem poate fi definită ca totalitatea genetică completă a unui anumit mediu, constând din toate speciile vii, fie că este vorba despre un biofilm dintr-o mină abandonată, o picătură de apă de mare, o mână de pământ sau întreaga biosferă . planeta Pământ . Bazele de date sunt folosite pentru a colecta numele speciilor , descrierile, zona de distribuție și informații genetice. Software-ul specializat este folosit pentru a căuta, vizualiza și analiza informații și, mai important, pentru a le furniza altor persoane. Simulatoarele pe computer modelează lucruri precum dinamica populației sau calculează sănătatea genetică generală a unei culturi în agronomie . Unul dintre cele mai importante potențiale ale acestui domeniu constă în analiza secvențelor de ADN sau a genomurilor complete ale unor specii întregi pe cale de dispariție, permițând ca rezultatele experimentului genetic al naturii să fie stocate într-un computer și posibil folosite din nou în viitor, chiar dacă aceste specii devin complet dispărută.

Adesea, metodele de evaluare a altor componente ale biodiversității - taxoni (în primul rând specii) și ecosisteme - ies din sfera bioinformaticii. În prezent, bazele matematice ale metodelor bioinformatice pentru taxoni sunt prezentate în cadrul unei direcții științifice precum fenetica sau taxonomia numerică. Metodele de analiză a structurii ecosistemelor sunt luate în considerare de specialiști în domenii precum ecologia sistemului, biocenometria .

Programe majore de bioinformatică

  • ACT (Artemis Comparison Tool)  - analiză genomică
  • Arlequin  - analiza datelor genetice ale populației
  • Bioconductor este un proiect FLOSS  masiv care oferă multe pachete de sine stătătoare pentru cercetarea bioinformatică. Scris în R.
  • BioEdit  - editor de multi-aliniere pentru secvențe de nucleotide și aminoacizi
  • BioNumerics  este un pachet software comercial universal
  • BLAST  - caută secvențe înrudite în baza de date de secvențe de nucleotide și aminoacizi
  • Clustal - aliniere  multiplă a secvențelor de nucleotide și aminoacizi
  • DnaSP  - Analiza polimorfismului secvenței ADN
  • FigTree  - editor de arbori filogenetici
  • Genepop  - analiza genetică a populației
  • Genetix  - Analiza genetică a populației (disponibilă numai în franceză)
  • JalView  - editor pentru alinierea multiplă a secvențelor de nucleotide și aminoacizi
  • MacClade  este un program comercial pentru analiza interactivă a datelor evolutive.
  • MEGA  - Analiza genetică evolutivă moleculară
  • Mesquite  - Programul Java de Biologie Comparată
  • Mușchi  - comparație multiplă a secvențelor de nucleotide și aminoacizi. Mai rapid și mai precis decât ClustalW
  • PAUP  - analiză filogenetică folosind parcimonie (și alte metode)
  • PHYLIP  - pachet software filogenetic
  • Phylo_win  - analiză filogenetică. Programul are o interfață grafică.
  • PopGene  - analiza diversității genetice a populațiilor
  • Populații  - analiza genetică a populației
  • PSI Protein Classifier  - un rezumat al rezultatelor obținute folosind programul PSI-BLAST
  • Seaview  - Analiză filogenetică (GUI)
  • Sequin  - depunerea secvențelor în GenBank , EMBL , DDBJ
  • SPAdes  - asamblator de genom bacterian
  • SplitsTree  - program pentru construirea arborilor filogenetici
  • T-Coffee - aliniere  progresivă multiplă a secvențelor de nucleotide și aminoacizi. Mai sensibil decât ClustalW / ClustalX .
  • UGENE este un instrument gratuit în limba rusă, aliniere  multiplă a secvențelor de nucleotide și aminoacizi, analiză filogenetică, adnotare, lucru cu baze de date.
  • Velvet  - asamblator de genom
  • ZENBU  - rezumatul rezultatelor

Bioinformatică structurală

Bioinformatica structurală include dezvoltarea de algoritmi și programe pentru prezicerea structurii spațiale a proteinelor. Subiecte de cercetare în bioinformatica structurală:

  • Analiza prin difracție de raze X (XRD) a macromoleculelor
  • Indicatori de calitate ai unui model de macromolecule construite din date XRD
  • Algoritmi pentru calcularea suprafeței unei macromolecule
  • Algoritmi pentru găsirea miezului hidrofob al unei molecule de proteine
  • Algoritmi pentru găsirea domeniilor structurale ale proteinelor
  • Alinierea spațială a structurilor proteinelor
  • Clasificări structurale ale domeniilor SCOP și CATH
  • Dinamica moleculară

Vezi și

Note

  1. Can, T. Introduction to bioinformatics // miRNomics : MicroRNA Biology and Computational Analysis : [ ing. ]  / Editorii Malik Yousef și Jens Allmer. - Totowa, NJ: Humana Press, 2014. - P. 51–71. — 325 p. - (Metode în biologie moleculară; vol. 1107). — ISBN 978-1-62703-748-8 . - ISBN 978-1-62703-747-1 . - doi : 10.1007/978-1-62703-748-8_4 .
  2. 1 2 3 Nair, AS Biologie computațională și bioinformatică  : o privire de ansamblu blândă : [ ing. ] // Comunicațiile Societății de Calculatoare din India: jurnal. - 2007. - Vol. 2 (ianuarie).
  3. Kunin, E. Nail Soup  : Evoluționist de frunte a vorbit despre Multivers și principiul antropic // Lenta.ru. - 2012. - 1 decembrie.
  4. Gelfand, M.S. Bioinformatica ca disciplină  : Bioinformaticianul Mikhail Gelfand despre biologia sistemelor, predicția funcțiilor proteinelor și a proceselor evolutive // ​​Postnauka. - 2015. - 28 februarie.
  5. Manisekhar SR, Siddesh GM, Manvi SS Introducere în bioinformatică // Modelare statistică și principii de învățare automată pentru tehnici, instrumente și aplicații bioinformatice. - Springer, Singapore, 2020. - P. 3-9. . Preluat la 24 aprilie 2020. Arhivat din original la 3 iunie 2022.
  6. 1 2 Hogeweg P. Rădăcinile bioinformaticii în biologia teoretică.  (engleză)  // Public Library of Science for Computational Biology. - 2011. - Vol. 7, nr. 3 . — P. e1002021. - doi : 10.1371/journal.pcbi.1002021 . — PMID 21483479 .
  7. Hesper B., Hogeweg P. Bioinformatica: een werkconcept  (neopr.) . - Kameleon, 1970. - V. 1 , nr 6 . - S. 28-29 .
  8. Watson JD, Crick FH Implicații genetice ale structurii acidului dezoxiribonucleic // Nature: journal. - 1953. - Mai (vol. 171, nr. 4361). - P. 964-967. doi:10.1038/171964b0. — Cod biblic: 1953Natur.171..964W. — PMID 13063483 .
  9. Sanger F., Thompson EOP Secvența de aminoacizi din lanțul glicil al insulinei. 1. Identificarea peptidelor inferioare din hidrolizate parțiale //Biochemical Journal. - 1953. - T. 53. - Nr. 3. - S. 353. . Preluat la 24 aprilie 2020. Arhivat din original la 3 iunie 2022.
  10. Sanger F., Thompson EOP Secvența de aminoacizi din lanțul glicil al insulinei. 2. Investigarea peptidelor din hidrolizate enzimatice //Biochemical Journal. - 1953. - T. 53. - Nr. 3. - S. 366.
  11. Dayhoff MO, Ledley RS program uter pentru a ajuta la determinarea structurii proteinelor primare // Proceedings of the December 4-6, 1962, fall joint computer Conference. - 1962. - S. 262-274. . Preluat la 24 aprilie 2020. Arhivat din original la 26 iunie 2020.
  12. Moody G. Digital code of life: how bioinformatics is revolutioning science, medicine, and business // John Wiley & Sons, 2004.
  13. Gauthier J. și colab. O scurtă istorie a bioinformaticii // Briefings in bioinformatics. - 2019. - T. 20. - Nr. 6. - S. 1981-1996.
  14. Needleman SB, Wunsch CD. O metodă generală aplicabilă la căutarea asemănărilor în secvența de aminoacizi a două proteine ​​//J Mol Biol 1970;48:443-53.
  15. Feng DF, Doolittle RF Alinierea progresivă a secvenței ca o condiție prealabilă pentru corectarea arborilor filogenetici //Journal of molecular evolution. - 1987. - T. 25. - Nr. 4. - S. 351-360. . Preluat la 24 aprilie 2020. Arhivat din original la 24 februarie 2021.
  16. ^ Dayhoff M., Schwartz R., Orcutt B. 22 a model of evolutionary change in proteins // Atlas of protein sequence and structure. - MD: National Biomedical Research Foundation Silver Spring, 1978. - V. 5. - S. 345-352. . Preluat la 24 aprilie 2020. Arhivat din original la 16 august 2021.
  17. Maxam AM, Gilbert W. O nouă metodă pentru secvențierea ADN-ului // Proceedings of the National Academy of Sciences. - 1977. - T. 74. - Nr. 2. - S. 560-564. . Preluat la 24 aprilie 2020. Arhivat din original la 16 septembrie 2018.
  18. Staden R. O strategie de secvențiere a ADN-ului folosind programe de calculator //Cercetarea acizilor nucleici. - 1979. - T. 6. - Nr. 7. - S. 2601-2610. . Preluat la 24 aprilie 2020. Arhivat din original la 2 mai 2019.
  19. [NHGRI. Finalizarea proiectului genomului uman: Întrebări frecvente. Institutul Național de Cercetare a Genomului Uman (NHGRI). https://www.genome.gov/11006943/ Arhivat 16 aprilie 2019 la Wayback Machine Human-Genome-Project-Completion-Frequently-]
  20. Câmp D, Sterk P, Kottmann R, et al. Proiecte de consorțiu de standarde genomice. Stand Genomic Sci 2014;9:599-601.
  21. Robert Ghrist - Algebră omologică și date.

Literatură

  • Jonathan Pevsner (2013) Bioinformatică și genomică funcțională
  • Jean-Michel Claverie Ph.D. (2007) Bioinformatica pentru manechini. a 2-a editie.
  • Durbin R, Eddie S, Krogh A, Mitchison G. „Analiza secvenței biologice”. - M.-Izhevsk: Centrul de cercetare „Dinamica regulată și haotică”, 2006. - 480 p. — ISBN 5-93972-559-7
  • Borodovsky M., Ekisheva S. „Probleme și soluții pentru analiza secvențelor biologice”. - M.-Izhevsk: Centrul de cercetare „Dinamica regulată și haotică”, 2008. - 420 p. — ISBN 978-5-93972-644-3
  • Setubal J, Meidanis J. „O introducere în biologia moleculară computațională”. - M.-Izhevsk: Centrul de cercetare „Dinamica regulată și haotică”, 2007. - 420 p. — ISBN 978-5-93972-623-8
  • V. A. Talanov, Modele matematice de sinteză a lanțurilor peptidice și metode de teoria grafurilor în descifrarea textelor genetice