„Gene Ontology” ( Eng. Gene Ontology , sau GO ) este un proiect de bioinformatică dedicat creării unei terminologii unificate pentru adnotarea genelor și a produselor genetice ale tuturor speciilor biologice [1] .
Scopul proiectului este de a menține și completa o anumită listă de atribute ale genelor și ale produselor acestora, să compilați adnotări ale genelor și ale produselor, să dezvolte instrumente pentru lucrul cu baza de date a proiectului , precum și pentru analizarea noilor date experimentale, în special, analizarea reprezentarea grupurilor functionale de gene . Este de remarcat faptul că proiectul GO a creat un limbaj de marcare pentru clasificarea datelor (informații despre gene și produsele lor, adică ARN și proteine, precum și funcțiile acestora), care vă permite să găsiți rapid informații sistematice despre produsele genetice [2] ] [3] [ 4] .
„Gene Ontology” face parte dintr-un proiect mai amplu de clasificare – „Open Biomedical Ontologies” ( OBO ) [5] .
Ontologiile în informatică sunt folosite pentru a formaliza anumite domenii de cunoaștere folosind un sistem de date despre obiectele din lumea reală și relațiile dintre ele (așa-numita bază de cunoștințe ). În biologie și discipline conexe, a apărut problema lipsei unui standard universal de terminologie. Termenii care exprimă concepte similare , dar folosiți pentru diferite specii biologice , diferite domenii de cercetare sau chiar în cadrul diferitelor grupuri de oameni de știință, pot avea înțelesuri fundamental diferite, ceea ce face schimbul de date dificil. În acest sens, sarcina proiectului Gene Ontology a fost de a crea o ontologie de termeni care să reflecte proprietățile genelor și ale produselor lor și care sunt aplicabile oricăror organisme [2] [3] [4] .
„Gene Ontology” a fost creat în 1998 de un consorțiu de oameni de știință care au studiat genomul a trei organisme model : Drosophila melanogaster (musca fructelor), Mus musculus (șoarece) și Saccharomyces cerevisiae (drojdie de brutărie) [6] . De atunci, multe baze de date pentru alte organisme model s-au alăturat Consorțiului GO, contribuind astfel nu numai la extinderea bazei de date de adnotări, ci și la crearea de servicii de vizualizare și aplicare a datelor.
Consorțiul GO ( GOC ) este un set de baze de date biologice și grupuri de cercetare implicate activ în proiectul Gene Ontology [7] . Acesta include mai multe baze de date pentru diferite organisme model, baze de date generale de proteine, echipe de dezvoltare de software și editori de gene ontologie.
Gene Ontology este un proiect pe scară largă și în dezvoltare rapidă. În septembrie 2011, Ontologia genetică conținea peste 33 de mii de termeni și aproximativ 12 milioane de adnotări de produse genetice aplicabile la peste 360 de mii de organisme vii [2] . După 2016, numărul termenilor a depășit 44 de mii de exemplare, în timp ce numărul de organisme adnotate în această bază de cunoștințe a depășit 460 de mii de indivizi [3]
În ultimii câțiva ani, Consorțiul GO a implementat o serie de modificări ontologice pentru a crește cantitatea, calitatea și specificitatea adnotărilor GO. Până în 2013, numărul de adnotări a depășit 96 de milioane. Calitatea adnotărilor a fost îmbunătățită prin verificări automate de calitate. S-a îmbunătățit și adnotarea datelor prezentate în baza de date GO, au fost adăugați termeni noi. [4] . În 2007, a fost creat un nou serviciu InterMine [8] , care își propune să integreze date genomice dintr-un număr mare de surse disparate și să faciliteze sarcini de calcul precum căutarea unor regiuni genomice specifice și efectuarea de teste statistice. Proiectul a fost creat inițial pentru a integra date pentru Drosophila, dar acum include un număr mare de organisme model. În ultimii ani, a fost în derulare dezvoltarea serviciului LEGO (Linked Expressions using the Gene Ontology), care vă permite să explorați interacțiunea diferitelor adnotări din baza de date GO, combinându-le în modele mai generale de gene și funcțiile lor [3] ] .
Trebuie înțeles că „ontologia genelor” descrie fenomene biologice complexe, și nu obiecte biologice specifice. Baza de date Gene Ontology include trei dicționare independente [1] [9] :
Fiecare termen din „Ontologia genelor” are o serie de atribute: un identificator digital unic, un nume, un dicționar căruia îi aparține termenul și o definiție. Termenii pot avea sinonime, care sunt împărțite în care corespund exact sensului termenului, mai larg, mai restrâns și având o anumită relație cu termenul. Pot fi prezente, de asemenea, atribute precum link-uri către surse, alte baze de date și comentarii cu privire la semnificația și utilizarea termenului [1] [9] .
Ontologia este construită pe principiul unui graf aciclic direcționat : fiecare termen este conectat la unul sau mai mulți alți termeni printr-un tip diferit de relație . Există următoarele tipuri de relații [1] :
Un exemplu de unul dintre termenii proiectului GO [10] :
ID: GO:0043417 denumire: reglarea negativă a regenerării țesutului muscular scheletic namespace: biological_process def: „Orice proces care oprește, previne sau reduce frecvența, rata sau amploarea regenerării mușchilor scheletici”. [GOC:jl] sinonim: „reglarea în jos a regenerării mușchilor scheletici” EXACT [] sinonim: „reglarea în jos a regenerării mușchilor scheletici” EXACT [] sinonim: „reglarea în jos a regenerării mușchilor scheletici” EXACT [] sinonim: „inhibarea regenerării mușchilor scheletici” STĂMUT [] is_a:GO:0043416 ! reglarea regenerării țesutului muscular scheletic is_a: GO:0048640 ! reglarea negativă a creșterii dezvoltării relație: negativ_regulates GO:0043403 ! regenerarea țesutului muscular scheleticBaza de date Gene Ontology este în mod constant modificată și completată atât de curatorii proiectului GO, cât și de alți cercetători. Modificările propuse pentru utilizatori sunt revizuite de editorii de proiect și aplicate dacă modificările sunt aprobate [9] .
Fișierul care conține întreaga bază de date [10] poate fi obținut în diferite formate de pe site-ul oficial Gene Ontology, iar termenii sunt, de asemenea, disponibili online folosind browser-ul AmiGO Gene Ontology. În plus, poate fi folosit pentru a extrage o serie de date de produse genetice legate de un anumit termen. De asemenea, pe site puteți descărca hărți ale corespondenței termenilor GO cu alte sisteme de clasificare [11] .
Adnotarea genomului are ca scop obținerea de informații despre proprietățile produselor genetice. Adnotările GO folosesc termenii „Ontologie genetică” pentru aceasta. Membrii Consorțiului GO își postează adnotările pe site-ul web Gene Ontology, unde adnotările sunt disponibile pentru descărcare directă sau pentru vizualizare în browser-ul AmiGO [12] .
Adnotarea genei conține următoarele date: numele și identificatorul produsului genetic; termenul GO corespunzător; tipul de date pe care se bazează adnotarea ( cod de evidență ); link la sursa; și creatorul și data la care a fost creată adnotarea. Pentru tipurile de date care indică validitatea unei adnotări ( cod de evidență ), există o ontologie specială legată de proiectul OBO [13] . Include diverse metode de adnotare, atât manuale, cât și automate. De exemplu [1] :
În septembrie 2012, mai mult de 99% din toate adnotările Ontologiei genelor au fost obținute automat [4] . Deoarece astfel de adnotări nu sunt verificate manual, ele sunt considerate mai puțin fiabile de către Consorțiul GO și doar o parte dintre ele sunt disponibile în browserul AmiGO. Baza de date completă de adnotări poate fi descărcată de pe site-ul Gene Ontology.
AmiGO [9] este o aplicație web (serviciu GO) care permite utilizatorilor să interogheze, să găsească și să vizualizeze termenii GO și adnotările produselor genetice. În plus, aplicația conține instrumentul BLAST (disponibil în AmiGO 1, a fost eliminat în AmiGO 2), servicii care vă permit să analizați seturi mari de date și o interfață de căutare direct în baza de date GO [14] . AmiGO poate fi utilizat online pe site-ul Gene Ontology pentru a accesa datele furnizate de Consorțiul GO sau poate fi descărcat și instalat pentru aplicare locală în orice bază de date în stil GO. AmiGO 2 este open source și software gratuit .
Vizualizarea oferă utilizatorului posibilitatea de a construi un grafic care caracterizează ontologia genei pentru un anumit termen GO. Există două formate de intrare [15] :
Exemplu de intrare JSON:
{"GO:0002244":{"title": "foo", "corp": "bar", "fill": "#ccccf", "font": "#0000ff", "border":"red"}, "GO:0005575":{"title":"singur", "corp":""}, „GO:0033060”:{}}Codarea unei relații cu culoarea:
Atitudine | Culoare |
---|---|
este_a | albastru |
parte_din | albastru deschis |
se dezvoltă_din | maro |
reglementează | negru |
negativ_reglează | roșu |
reglează_pozitiv | verde |
Vizualizarea termenilor constă în construirea unui grafic de la un nod reprezentând termenul GO original la un nod rădăcină, care este reprezentat prin numele unuia dintre cele trei vocabulare principale: procese biologice , funcții moleculare și componente celulare [1] [9] .
Prezentare generală a datelorPe lângă capacitatea de a crea grafice care afișează ontologia genei GO a unui termen, AmiGO implementează și mai multe instrumente care pot oferi utilizatorului o idee despre datele GO ale proiectului. Printre acestea [14] :
GOOSE [16] este un mediu de interogare SQL online disponibil utilizatorilor serviciului AmiGO pentru crearea de seturi de date. Acest serviciu folosește sintaxa SQL pentru a face diverse interogări către baza de date GO. Oglinzile EBI (Marea Britanie, Cambridge), Berkeley BOP și Berkeley BOP (lite) (ambele situate în Berkeley, California) sunt de asemenea disponibile pentru a reduce sarcina sistemului.
Pe lângă scrierea directă manuală a unei interogări, este posibil să folosiți șabloane pentru a simplifica parțial această sarcină. O interogare tipică de bază de date este afișată mai jos (căutați adâncimea maximă a arborelui pentru o componentă celulară) [16] :
SELECTAȚI distanța ca maximă de la graph_path, termen UNDE graph_path.term2_id =term.id și term.term_type = 'componenta_celulară' COMANDA DUPA distanta desc limita1;Baza de date din GO are o structură complexă și constă din multe tabele. Baze de date principale [16] :
Următoarele formate de export de date sunt posibile ca rezultat al unei interogări [16] :
PANTHER ( P rotein Analysis TH rough Evolutionary R elationships ) este o bază de date uriașă de familii și subfamilii de gene/proteine care sunt similare din punct de vedere funcțional cu acestea, care poate fi utilizată pentru a clasifica spectrul funcțional al produselor genetice [ 17] . PANTHER face parte din proiectul GO, al cărui obiectiv principal este clasificarea proteinelor și a genelor acestora.
În PANTHER, baza de date este editată nu numai de personalul proiectului, ci și de algoritmii de clasificare. Proteinele sunt clasificate în funcție de familia lor (și subfamilie), funcția moleculară sau procesul biologic [17] .
Principala aplicație a lui PANTHER este de a elucida funcțiile genelor inexplicabile în orice organism pe baza relațiilor lor evolutive cu genele ale căror funcții sunt cunoscute în baza de date. Folosind funcțiile genelor, ontologie și metode de analiză statistică, PANTHER permite biologilor să analizeze date mari, genomuri întregi obținute prin secvențiere sau studii de expresie a genelor [18] .
Principalele instrumente disponibile pe site-ul web PANTHER [18] sunt:
GO Slimmer [19] este un instrument pentru a mapa adnotările detaliate ale setului de gene la unul sau mai mulți termeni parentali de nivel superior (termeni GO slim). Termenii GO slim sunt versiuni trunchiate ale ontologiei GO care conțin un subset de termeni ai întregului GO fără o descriere detaliată a termenilor specifici de nivel scăzut.
Utilizarea GO Slimmer face posibilă prezentarea adnotărilor genomului GO, analizarea rezultatelor micromatricelor de expresie sau colecții de ADN complementare atunci când este necesară o clasificare extinsă a funcțiilor produsului genetic [19] .
Rezultatul acestui algoritm este reprezentat de trei coloane [19] :
Versiunea AmiGO a acestui instrument este scrisă în scriptul Perl map2slim [19] . Curatorii proiectului observă că serviciul GO mai subțire este în prezent încărcat, iar datele de intrare de dimensiuni impresionante pot afecta negativ funcționarea acestuia. Timpul de funcționare al serviciului pentru procesarea secvențelor de intrare este limitat.
BLASTBLAST ( Instrument de căutare de aliniere locală de bază ) este o familie de programe de calculator utilizate pentru a căuta omologi ai proteinelor sau acizilor nucleici pentru care secvența este cunoscută, folosind aliniere. Folosind BLAST, cercetătorul poate compara secvența pe care o are cu secvențele din baza de date și poate găsi pe cea mai asemănătoare cu cea dată, care vor fi omologii presupusi.
Implementarea acestui instrument în AmiGO 1 este prezentată sub forma pachetului WU-BLAST dezvoltat de Universitatea Washington din St. Louis (Universitatea Washington din St. Louis). [douăzeci]
În AmiGO 2, acest instrument (GO BLAST) a fost eliminat, dar puteți utiliza căutarea în AmiGO 1 . Instrumentul vă permite să filtrați rezultatele căutării după produs genetic, bază de date, afiliere taxonomică, dicționar GO, adnotare OBO.
Matricea termenilorTerm Matrix [21] (o matrice de termeni) este un instrument AmiGO pentru studierea informațiilor despre asemănarea producției de gene a termenilor. Rezultatul muncii sale este o matrice, ale cărei elemente sunt numărul de produse genetice adnotate pentru o anumită pereche de termeni GO. Pentru a utiliza funcția [21] , trebuie să introduceți o listă de identificatori GO pentru a vedea adnotări comune - numărul de produse genetice comune adnotate prin perechi de termeni. Este posibil să se specifice anumite specii sau taxoni. Colorarea hărții termice se poate face sub forma unei gradații de la negru la alb, sau folosind paleta standard a hărții.
OBO-Edit [22] este un editor de ontologie open source dezvoltat și întreținut de Consorțiul GO. Este implementat în Java și folosește o abordare bazată pe grafice pentru a vizualiza și edita ontologii. OBO-Edit are o interfață de căutare și filtrare ușor de utilizat, care vă permite să vizualizați și să separați subseturi de termeni GO. Interfața poate fi personalizată în funcție de preferințele utilizatorului. OBO-Edit vă permite, de asemenea, să creați automat noi relații pe baza relațiilor existente și a proprietăților acestora. Deși OBO-Edit a fost dezvoltat pentru ontologii biomedicale, poate fi folosit pentru a vizualiza și edita orice ontologie.
PAINT [23] ( Phylogenetic Annotation and IN ference Tool ) este o aplicație JAVA care face parte din Proiectul Reference Genome Annotation și se bazează pe principiul „adnotării tranzitive ” . Conceptul de adnotare tranzitivă constă în atribuirea funcției stabilite experimental a unei gene unei alte, datorită asemănării secvențelor lor de nucleotide.
Cu PAINT, utilizatorul poate explora adnotări experimentale pentru gene dintr-o anumită familie și poate utiliza aceste informații pentru a deduce noi adnotări pentru membrii familiei de gene care nu au fost încă suficient explorate [3] . Instrumentul PAINT vă permite să construiți un model care să explice moștenirea sau pierderea unei anumite funcționalități gene în cadrul ramurilor individuale ale arborilor filogenetici . Noile adnotări generate de acest model sunt denumite Infered from Biological Ancestry (IBA) [1] .
Această aplicație este disponibilă gratuit pentru descărcare pe Github.