Bioinformatica este un domeniu interdisciplinar care combină biologia generală, biologia moleculară , cibernetica, genetica , chimia, informatica , matematica și statistica . Problemele biologice la scară largă care necesită analiza unor cantități mari de date sunt rezolvate de bioinformatică din punct de vedere computațional [1] . Bioinformatica include în principal studiul și dezvoltarea metodelor computerizate și are ca scop obținerea, analizarea, stocarea, organizarea și vizualizarea datelor biologice [2] .
Într-un context similar, termenul de biologie computațională este adesea menționat . Acest domeniu se concentrează pe dezvoltarea algoritmilor și modelării matematice a sistemelor sociale, comportamentale și biologice. Bioinformatica este considerată a fi un domeniu din biologia computațională care se concentrează în principal pe prelucrarea statistică a datelor biologice [2] . Diferențe de abordare din diferite unghiuri: bioinformaticienii sunt biologi care se specializează în utilizarea sistemelor și instrumentelor de calcul pentru a rezolva probleme biologice, în timp ce biologii computaționali sunt informaticieni, matematicieni, statisticieni și ingineri care dezvoltă instrumente pentru astfel de calcule [2] .
Bioinformatica în sens larg înseamnă lucrul cu orice fel de date biologice, inclusiv studiul micrografiilor electronice, căutarea cuvintelor cheie în literatura biologică etc. [3] . Dacă considerăm bioinformatica ca un set de abordări și metode de lucru cu date, atunci, în funcție de tipurile de probleme tehnice, aceasta include [4] :
Cu toate acestea, metodele bioinformatice de analiză sunt, de asemenea, indisolubil legate de multe domenii științifice, care implică căutarea de răspunsuri la întrebări biologice specifice. În acest caz, direcțiile principale pot fi distinse pe baza obiectelor studiate:
Pentru fiecare dintre secțiunile enumerate, se pot identifica propriile tipuri de date standard, modalități de procesare a acestora, algoritmi bioinformatici și baze de date.
Bioinformatica folosește metode din matematica aplicată , statistică și informatică . Bioinformatica este folosită în biochimie , biofizică , ecologie și în alte domenii. Cele mai frecvent utilizate instrumente și tehnologii în acest domeniu sunt limbajele de programare Python , R , Java , C# , C++ ; limbaj de marcare - XML ; limbaj de interogare structurat pentru baze de date - SQL ; arhitectura software si hardware de calcul paralel - CUDA ; un pachet de programe aplicate pentru rezolvarea problemelor de calcule tehnice și limbajul de programare cu același nume folosit în acest pachet - MATLAB , și foi de calcul .
Bioinformatica a devenit o parte importantă a multor domenii ale biologiei. Metodele bioinformatice de analiză fac posibilă interpretarea unor cantități mari de date experimentale, ceea ce era practic imposibil înainte de dezvoltarea acestui domeniu. De exemplu, biologia moleculară experimentală folosește adesea tehnici bioinformatice, cum ar fi procesarea imaginilor și a semnalului . În domeniul geneticii și al genomicii, bioinformatica ajută la adnotarea funcțională a genomilor, detectarea și analiza mutațiilor. O sarcină importantă este studierea expresiei genelor și a modalităților de reglare a acesteia. În plus, instrumentele de bioinformatică permit compararea datelor genomice, care este o condiție prealabilă pentru studierea principiilor evoluției moleculare .
În termeni generali, bioinformatica ajută la analiza și catalogarea căilor și rețelelor biochimice, care sunt o parte importantă a biologiei sistemelor. În biologia structurală , ajută la modelarea structurilor ADN, ARN și proteine, precum și interacțiunile moleculare.
Progresele recente în prelucrarea datelor biologice au condus la schimbări semnificative în domeniul biomedicinei. Datorită dezvoltării bioinformaticii, oamenii de știință au reușit să identifice mecanismele moleculare care stau la baza bolilor ereditare și dobândite, ceea ce ajută la dezvoltarea unor tratamente eficiente și a unor teste mai precise pentru diagnosticarea bolilor [5] . Direcția cercetării, care permite prezicerea eficacității și efectelor adverse ale medicamentelor la pacienți, se numește farmacogenetică și se bazează și pe metode bioinformatice.
Un rol important al bioinformaticii constă și în analiza literaturii biologice și în dezvoltarea ontologiilor biologice și genetice pentru organizarea datelor biologice.
Pe baza recunoașterii rolului important al transmiterii, stocării și procesării informațiilor în sistemele biologice, în 1970 Pauline Hogeweg a introdus termenul de „bioinformatică”, definindu-l ca fiind studiul proceselor informaționale din sistemele biotice [6] [7] . Această definiție face o paralelă între bioinformatică și biofizică (studiul proceselor fizice în sistemele biologice) sau cu biochimie (studiul proceselor chimice în sistemele biologice) [6] .
SecvențeIstoria bioinformaticii secvențelor poate fi urmărită până la progresele anilor 1950. În februarie 1953, Watson și Crick au propus un model al moleculei de ADN, iar în mai 1953 au publicat un articol în revista Nature , care s-a ocupat de problema ADN-ului ca purtător al codului informației genetice [8] . De asemenea, la sfârșitul anilor 1950, Sanger a publicat prima secvență de proteine, insulina [9] , [10] .
Cea mai utilizată metodă de secvențiere a secvențelor de aminoacizi a devenit degradarea Edman, al cărei dezavantaj principal a fost dificultatea de a obține secvențe lungi de proteine: maximul teoretic a fost de 50-60 de aminoacizi pe reacție. Din această cauză, proteinele au trebuit mai întâi descompuse în fragmente mici, iar apoi secvențele de proteine au fost asamblate din sute de lanțuri scurte, ceea ce nu a fost întotdeauna posibil de făcut corect. Soluția la această problemă a fost propusă de Margaret Deyhoff (1925-1983) - om de știință american, chimist fizic. Dayhoff a folosit în mod activ metodele computerizate în munca sa și a văzut potențialul în aplicarea lor în domeniile biologiei și medicinei. În 1962, ea a finalizat dezvoltarea COMPROTEIN, un instrument pentru determinarea structurii primare a unei proteine folosind datele de secvențiere a peptidei Edman [11] . În COMPROTEIN, intrarea și ieșirea unei secvențe de aminoacizi a fost prezentată în abrevieri de trei litere. Pentru a simplifica procesarea datelor secvenței proteinelor, Dayhoff a dezvoltat ulterior codul de aminoacizi cu o literă care este încă în uz astăzi. Contribuția lui Dayhoff în domeniu este atât de semnificativă încât David J. Lipman, fost director al Centrului Național pentru Informații Biotehnologice (NCBI), a numit-o „mama și tatăl bioinformaticii” [12] .
Odată cu acumularea de noi secvențe de proteine, unele modele au început să fie urmărite în ele. De exemplu, Zuckerkandl și Pauling au remarcat că proteinele ortologe ale vertebratelor (de exemplu, hemoglobina) prezintă un grad prea mare de asemănare a secvenței pentru a fi rezultatul evoluției convergente. Au fost necesare noi metode matematice și informatice pentru a confirma noile ipoteze evolutive. [13] . Primul algoritm de programare dinamică pentru alinierea în perechi a secvențelor de proteine a fost dezvoltat în 1970 de către Needleman și Wunsch [14] . Algoritmii de aliniere a secvenței multiple au apărut mult mai târziu: primul algoritm practic a fost dezvoltat de Da-Fei Feng și Russell F. Doolittle în 1987 [15] . Simplificarea sa, algoritmul CLUSTAL, este încă în uz astăzi. În plus, în 1978, un grup de oameni de știință care a inclus Dayhoff a creat primul model de substituție bazat pe observarea mutațiilor punctuale acceptate (PAM) în arbori filogenetici ai 71 de familii de proteine care împărtășesc o identitate mai mare de 85%. Ca rezultat, a fost obținută o matrice care conține valorile probabilității substituțiilor de aminoacizi [16] .
Dogma centrală a biologiei moleculare, care a fost publicată de Francis Crick în 1970, și identificarea treptată a tuturor aminoacizilor codificați de 68 de codoni, au condus la o schimbare treptată a paradigmei de la evoluția proteinelor la evoluția ADN-ului în anii 1970-1980. Era nevoie să înveți cum să citești secvențele de ADN. Prima metodă de secvențiere a ADN-ului care a devenit larg răspândită a fost metoda de secvențiere Maxam-Gilbert în 1976 [17] . Cu toate acestea, cea mai utilizată metodă a fost dezvoltată în laboratorul lui Frederick Sanger în 1977, este folosită și astăzi. Secvențierea Sanger a făcut posibilă obținerea unor cantități destul de mari de informații pentru acea perioadă, dar dimensiunea fragmentelor care puteau fi secvențiate a fost limitată la sute de nucleotide, ceea ce a fost suficient doar pentru a studia genomi atât de mici precum genomii bacteriofagi. Primul software de secvențiere Sanger a fost publicat de Roger Staden în 1979 [18] . Acest pachet software a permis nu numai asamblarea secvențelor în contig-uri, ci și verificarea și editarea acestor secvențe, precum și adnotări.
GenoameOdată cu publicarea genomului uman la începutul secolului al XXI-lea, a început era genomică a bioinformaticii. Proiectul a fost inițiat în 1991 în SUA și a costat 2,7 miliarde de dolari în 13 ani [19] . În 1998, Celera Genomics a produs un studiu privat concurent pentru a secvența și a asambla genomul uman. Studiul a necesitat de 10 ori mai puțini bani și a catalizat dezvoltarea de noi strategii experimentale de secvențiere, cum ar fi 454 și Illumina. Costul secvențierii ADN-ului a scăzut cu ordine de mărime, rezultând o creștere uriașă a numărului de secvențe din bazele de date publice. Era nevoie să se dezvolte metode de stocare și procesare rapidă a datelor biologice. În 2005, a fost înființat Genomic Standards Consortium și un mandat a definit informațiile minime necesare pentru a publica o secvență genomică. [20] .
Scopul principal al bioinformaticii este de a contribui la înțelegerea proceselor biologice. Ceea ce distinge bioinformatica de alte abordări este că se concentrează pe crearea și aplicarea unor metode intensive din punct de vedere computațional pentru a atinge acest obiectiv. Exemple de metode similare sunt recunoașterea modelelor , extragerea datelor , algoritmii de învățare automată și vizualizarea datelor biologice . Principalele eforturi ale cercetătorilor vizează rezolvarea problemelor de aliniere a secvenței , descoperirea genelor (căutarea genelor care codifică regiunea ADN), descifrarea genomului, proiectarea medicamentelor, dezvoltarea medicamentelor, alinierea structurii proteinelor , predicția structurii proteinelor, predicția expresiei genelor și proteinele. interacțiuni cu proteine, căutarea de asocieri la nivelul genomului și modelarea evoluției.
Bioinformatica presupune astăzi crearea și îmbunătățirea bazelor de date, algoritmi, metode computaționale și statistice și teorie pentru a rezolva probleme practice și teoretice care apar în gestionarea și analiza datelor biologice [21] .
De când fagul Phi-X174 a fost secvențiat în 1977, secvențele ADN ale unui număr tot mai mare de organisme au fost decodificate și stocate în baze de date. Aceste date sunt utilizate pentru a determina secvențele de proteine și regiunile de reglare. Comparația genelor din cadrul aceleiași specii sau ale diferitelor specii poate demonstra asemănări în funcțiile proteinelor sau relațiile dintre specii (astfel Arborii filogenetici pot fi compilați ). Odată cu creșterea cantității de date, a fost mult timp imposibil să se analizeze manual secvențele. În zilele noastre, programele de calculator sunt folosite pentru a căuta prin genomul a mii de organisme formate din miliarde de perechi de baze . Programele pot potrivi ( alinia ) în mod unic secvențe similare de ADN din genomul diferitelor specii; adesea astfel de secvențe au funcții similare, iar diferențele apar ca urmare a mutațiilor mici, cum ar fi substituțiile de nucleotide individuale, inserțiile de nucleotide și „pierderea” lor (deleții). Una dintre aceste aliniamente este utilizată în timpul procesului de secvențiere în sine. Așa-numita tehnică de „ secvențiere fracționată ” (care a fost, de exemplu, folosită de Institutul de Cercetări Genetice pentru a secvenția primul genom bacterian, Haemophilus influenzae ), în loc de o secvență completă de nucleotide, produce secvențe de fragmente scurte de ADN (fiecare cu lungimea de aproximativ 600-800 de nucleotide). Capetele fragmentelor se suprapun și, aliniate corespunzător, formează genomul complet. Această metodă produce rapid rezultate de secvențiere, dar asamblarea fragmentelor poate fi destul de o provocare pentru genomi mari. În proiectul de secvențiere a genomului uman, asamblarea a durat câteva luni de timp pe computer. Acum, această metodă este folosită pentru aproape toți genomii, iar algoritmii de asamblare a genomului sunt una dintre cele mai acute probleme ale bioinformaticii în acest moment.
Un alt exemplu de aplicare a analizei secvențelor computerizate este căutarea automată a genelor și secvențelor de reglare în genom. Nu toate nucleotidele din genom sunt folosite pentru secvențierea proteinelor. De exemplu, în genomul organismelor superioare, segmente mari de ADN nu codifică în mod explicit proteinele, iar rolul lor funcțional este necunoscut. Dezvoltarea algoritmilor pentru identificarea regiunilor de codificare a proteinelor din genom este o sarcină importantă a bioinformaticii moderne.
Bioinformatica ajută la legarea proiectelor genomice și proteomice , de exemplu, ajutând la utilizarea secvențierii ADN-ului pentru identificarea proteinelor.
În contextul genomicii , adnotarea este procesul de etichetare a genelor și a altor entități dintr-o secvență de ADN . Primul sistem software de adnotare a genomului a fost creat în 1995 de Owen White , care a lucrat în echipa Institutului de Cercetare Genomică care a secvențiat și analizat primul genom decodat al unui organism care trăiește liber, bacteria Haemophilus influenzae . Dr. White a construit un sistem pentru găsirea genelor (o secțiune a ADN-ului care specifică secvența unei anumite polipeptide sau ARN funcțional), ARNt și alte obiecte ADN și a făcut primele denumiri pentru funcțiile acestor gene. Majoritatea sistemelor moderne de adnotare a genomului funcționează într-un mod similar, dar programele disponibile pentru analiza ADN-ului genomic, cum ar fi GeneMark, folosit pentru a găsi gene care codifică proteine în Haemophilus influenzae, se schimbă și se îmbunătățesc constant.
Biologia evoluționistă studiază originea și apariția speciilor , precum și dezvoltarea lor în timp. Informatica ajuta biologii evolutionisti in mai multe moduri:
Domeniul informaticii care utilizează algoritmi genetici este adesea confundat cu biologia evolutivă computațională , dar cele două domenii nu sunt neapărat legate. Lucrările în acest domeniu utilizează software specializat pentru a îmbunătăți algoritmii și calculele și se bazează pe principii evolutive precum replicarea , diversificarea prin recombinare sau mutație și supraviețuirea prin selecție naturală .
Biodiversitatea unui ecosistem poate fi definită ca totalitatea genetică completă a unui anumit mediu, constând din toate speciile vii, fie că este vorba despre un biofilm dintr-o mină abandonată, o picătură de apă de mare, o mână de pământ sau întreaga biosferă . planeta Pământ . Bazele de date sunt folosite pentru a colecta numele speciilor , descrierile, zona de distribuție și informații genetice. Software-ul specializat este folosit pentru a căuta, vizualiza și analiza informații și, mai important, pentru a le furniza altor persoane. Simulatoarele pe computer modelează lucruri precum dinamica populației sau calculează sănătatea genetică generală a unei culturi în agronomie . Unul dintre cele mai importante potențiale ale acestui domeniu constă în analiza secvențelor de ADN sau a genomurilor complete ale unor specii întregi pe cale de dispariție, permițând ca rezultatele experimentului genetic al naturii să fie stocate într-un computer și posibil folosite din nou în viitor, chiar dacă aceste specii devin complet dispărută.
Adesea, metodele de evaluare a altor componente ale biodiversității - taxoni (în primul rând specii) și ecosisteme - ies din sfera bioinformaticii. În prezent, bazele matematice ale metodelor bioinformatice pentru taxoni sunt prezentate în cadrul unei direcții științifice precum fenetica sau taxonomia numerică. Metodele de analiză a structurii ecosistemelor sunt luate în considerare de specialiști în domenii precum ecologia sistemului, biocenometria .
Bioinformatica structurală include dezvoltarea de algoritmi și programe pentru prezicerea structurii spațiale a proteinelor. Subiecte de cercetare în bioinformatica structurală:
![]() | ||||
---|---|---|---|---|
|
Medicina personalizata | |
---|---|
Secțiuni de date Omix | |
Secțiuni de aplicație | |
Metode | |
Articole similare |