CODIFICA | |
---|---|
Conţinut | |
Descriere | Baza de date a întregului genom |
Contacte | |
Centru de cercetare | Universitatea din California Santa Cruz |
Laborator | Centrul pentru Știință și Inginerie Biomoleculară |
Autorii | Brian J Raney [1] |
Publicare originală | PMID 21037257 |
Data de lansare | 2010 |
Disponibilitate | |
Site-ul web | encodeproject.org |
Enciclopedia Elementelor ADN ( ENCODE ) este un consorţiu internaţional de cercetare înfiinţat în septembrie 2003 . Organizat și finanțat de Institutul Național de Cercetare a Genomului Uman al SUA ( NHGRI ) [1] [2] [3] . Conceput ca o continuare a Proiectului Genom uman , ENCODE își propune să efectueze o analiză completă a elementelor funcționale ale genomului . persoană. Toate rezultatele obţinute în timpul implementării proiectului sunt publicate în baze de date publice .
La 5 septembrie 2012, primele rezultate ale proiectului au fost publicate sub forma a 30 de publicații interconectate pe site-urile revistelor „ Nature ”, „ Genome Biology ” și „ Genome Research ” [4] [ 5] . Aceste publicații arată că cel puțin 80% din genomul uman este activ din punct de vedere biologic, până atunci domina noțiunea că cea mai mare parte a ADN-ului a fost „ junk ”. Cu toate acestea, astfel de concluzii pripite sunt criticate de mulți oameni de știință, care subliniază lipsa dovezilor necesare pentru funcționalitatea acestor elemente [6] .
Se estimează că genomul uman conține 20.000 de gene care codifică proteine (împreună formează exomul ) și reprezintă doar aproximativ 1,5% din ADN-ul genomului uman. Scopul principal al proiectului ENCODE este de a determina funcția restului genomului, dintre care cea mai mare parte a fost considerată în mod tradițional „ junk ” (de exemplu, ADN care nu este transcris ).
Aproximativ 90% din polimorfismele cu un singur nucleotide din genomul uman (care s-au dovedit a fi asociate cu diferite boli folosind studii de asociere la nivelul genomului ) se găsesc în afara regiunilor care codifică proteine. [7]
Activitatea și expresia genelor care codifică proteine pot fi reglate de regulom - diferite elemente ale ADN-ului, cum ar fi promotorul , secvențele de reglare și regiunile cromatinei , precum și modificările histonelor . Se crede că schimbările în regiunile de reglare pot perturba expresia proteinelor și funcția celulară și, astfel, pot duce la boli ( Contextul proiectului ENCODE ). Prin determinarea locației elementelor de reglare și a efectului acestora asupra transcripției, este posibilă elucidarea relației dintre modificările nivelurilor de expresie ale genelor specifice și dezvoltarea bolilor. [opt]
ENCODE se dorește a fi o resursă cuprinzătoare care va permite comunității științifice să înțeleagă mai bine modul în care genomul poate influența sănătatea umană și să stimuleze dezvoltarea de noi metode de prevenire și tratament a bolilor. [9]
Până în prezent, proiectul ajută la descoperirea de noi elemente de reglementare a ADN-ului, oferind noi perspective asupra organizării și reglementării genelor și genomului nostru, precum și asupra modului în care modificările secvenței ADN pot influența dezvoltarea bolilor. [7] Unul dintre principalele rezultate ale proiectului este descrierea că 80% din genomul uman s-a dovedit a fi asociat cu cel puțin o funcție biochimică. [10] [11] Majoritatea acestui ADN necodificator este implicat în reglarea expresiei genelor codificatoare. [10] În plus, expresia fiecărei gene codificatoare este controlată de o varietate de regiuni de reglare situate atât în apropiere, cât și la distanță de genă. Aceste rezultate demonstrează că reglarea genelor este mult mai complexă decât se credea anterior. [12]
Proiectul ENCODE este implementat în trei etape: faza inițială, faza de dezvoltare a tehnologiei și faza productivă.
În faza inițială, consorțiul ENCODE a evaluat strategiile de identificare a diferitelor tipuri de elemente ale genomului . Scopul fazei inițiale a fost definirea unui set de proceduri care împreună să permită caracterizarea precisă și detaliată a regiunilor mari ale genomului uman , ținând cont de viabilitatea economică și de eficiența ridicată a procesului. Faza inițială a fost de a identifica lacunele în setul de instrumente pentru definirea secvențelor funcționale, precum și de a arăta dacă vreuna dintre metodele utilizate s-a dovedit a fi ineficientă sau nepotrivită pentru extindere. Unele dintre aceste probleme au trebuit abordate în timpul fazei de dezvoltare a tehnologiei ENCODE (concurente cu faza inițială a proiectului), care urmărea dezvoltarea de noi metode de laborator și de calcul care să îmbunătățească identificarea secvențelor funcționale cunoscute sau studiul de noi elementele funcționale ale genomului. Rezultatul primelor două etape, folosind exemplul studierii a 1% din genomul uman, a determinat cea mai bună modalitate de a analiza restul de 99% cu eficiență maximă și cel mai mic cost în faza productivă. [9]
În faza pilot, s-au efectuat cercetări și compararea metodelor existente pentru o analiză amănunțită a unei anumite secțiuni a secvenței genomului uman. A fost organizat ca un consorțiu deschis și a reunit cercetători din medii și medii diverse pentru a evalua meritele fiecărei tehnici, tehnologie și strategie dintr-un set divers. În același timp, scopul fazei de dezvoltare tehnologică a proiectului a fost dezvoltarea unor metode noi, foarte eficiente, de determinare a elementelor funcționale. Scopul acestei lucrări a fost de a determina un set de abordări care să permită determinarea cât mai precisă a tuturor elementelor funcționale din genomul uman. În faza inițială, a fost determinată capacitatea diferitelor metode de a se extinde pentru a analiza întregul genom uman și au fost identificate lacune în definirea elementelor funcționale din secvența genomului.
Faza inițială a proiectului s-a desfășurat în strânsă colaborare între experimentatori și teoreticieni, ceea ce a permis evaluarea unui număr de metode de adnotare a genomului uman. Un set de regiuni, reprezentând aproximativ 1% (30 Mb) din genomul uman, a fost ales ca țintă pentru faza inițială a proiectului și a fost analizat de toți participanții în faza pilot a proiectului. Toate datele despre aceste regiuni obținute de participanții la ENCODE au fost lansate rapid în bazele de date publice. [13] [14]
Rezultatele fazei I [13]În septembrie 2007 a început finanțarea fazei productive a proiectului ENCODE. În această etapă, scopul era de a analiza întregul genom și de a efectua „studii suplimentare în condiții industriale. [15]
Ca și în faza inițială, munca fazei productive a fost organizată ca un consorțiu deschis. În octombrie 2007, Institutul Național pentru Cercetarea Genomului Uman i-a alocat granturi în valoare totală de peste 80 de milioane de dolari timp de 4 ani. [16] În faza productivă, proiectul a inclus Centrul de coordonare a datelor, Centrul de analiză a datelor și Centrul de dezvoltare tehnologică. [17] În acest moment, proiectul se transformă într-o întreprindere cu adevărat masivă, care implică 440 de oameni de știință din 32 de laboratoare din întreaga lume. În 2007, când a fost finalizată etapa inițială, proiectul și-a mărit capacitatea în mare parte datorită secvențierii de generație următoare . Într-adevăr, au fost procesate o mulțime de date, cercetătorii au primit aproximativ 15 terabytes de informații brute.
Până în 2010, proiectul ENCODE a primit peste 1000 de seturi de date la nivelul întregului genom. Luate împreună, aceste date arată care regiuni par să controleze expresia genelor utilizate în anumite tipuri de celule și care regiuni interacționează cu o gamă largă de proteine. Proiectul oferă informații despre locurile de transcripție, factorii lor de transcripție asociați, structura cromatinei și modificările histonelor.
Rezultatele fazei II [18]Consorțiul ENCODE este alcătuit în primul rând din oameni de știință care sunt sponsorizați de Institutul Național de Cercetare a Genomului Uman din SUA . Alți participanți la proiect sunt membri ai consorțiului sau ai grupului de lucru analitic.
Faza inițială a proiectului a constat din opt grupuri de studiu și douăsprezece grupuri care au participat la faza de dezvoltare tehnologică a proiectului ENCODE ( Proiect pilot ENCODE: Participanți și Proiecte ). Până la sfârșitul anului 2007, când faza pilot a proiectului sa încheiat oficial, numărul participanților a crescut la 440 de oameni de știință din 32 de laboratoare din întreaga lume. În prezent, consorțiul este format din diverse centre care îndeplinesc diverse sarcini ( ENCODE Participanți și Proiecte ):
Din 2007, participanții la proiectul ENCODE au efectuat un număr mare de studii bazate pe diverse secvențe biologice pentru a mapa elementele funcționale ale genomului uman [19] . Elementele mapate (și abordările utilizate) includ regiuni de transcripție a ARN (ARN-seq, CAGE, ARN-PET și adnotare manuală), regiuni care codifică proteine (spectrometrie de masă), situsuri de legare a factorului de transcripție (ChIP-seq și DNase-seq), structura cromatinei (DNase-seq, FAIRE-seq, histonă ChIP-seq și MNase-seq) și situsuri de metilare ADN (analiza RRBS). Mai jos este o descriere detaliată a datelor obținute de participanții la proiect de-a lungul anilor de activitate și prezentate pe site-ul web al proiectului.
Proiectul a folosit adnotări manuale și automate pentru a crea un catalog cuprinzător de ARN-uri și pseudogene care codifică și necodifică proteine umane, numit GENCODE. [20] [21] Catalogul include 20.687 de gene care codifică proteine, cu o medie de 6,3 splicing alternativ per locus.
În plus, 8801 au generat automat ARN-uri mici și 9640 ARN-uri lungi necodificate (lncRNA) au fost adnotate. Comparația lncRNA-urilor cu alte date ENCODE arată că lncRNA-urile sunt generate printr-o cale similară cu genele care codifică proteine. [22] Proiectul GENCODE a adnotat și 11.224 de pseudogene, dintre care 863 sunt transcrise și asociate cu cromatina activă. [23]
Pentru a identifica direct regiunile de reglementare, participanții la proiect au cartografiat locurile de legare a 119 proteine diferite de legare a ADN-ului și un număr de componente de ARN polimerază în 72 de tipuri de celule folosind ChIP-seq. [24] Fiecare loc de legare a fost examinat pentru îmbogățirea în motive cunoscute de legare la ADN și pentru prezența unor motive noi.
Accesibilitatea cromatinei, caracterizată prin hipersensibilitate la DNaza I, este un semn distinctiv al regiunilor de reglare a ADN-ului. [25] [26] Participanții la proiect au cartografiat 2,89 milioane de site-uri de hipersensibilitate la DNase I (DHS) unice, nesuprapuse, folosind DNase-seq în 125 de tipuri de celule.
Au fost analizate locațiile cromozomiale a 12 modificări ale histonelor în 46 de tipuri de celule. Datele obținute arată că modelele globale de modificare variază foarte mult pentru diferite tipuri de celule, în conformitate cu modificările activității transcripționale. S-a descoperit că integrarea diferitelor informații de modificare a histonelor poate fi utilizată sistematic pentru a atribui atribute funcționale regiunilor genomice. [27]
Metilarea citozinei (de obicei la dinucleotidele CpG) este implicată în reglarea epigenetică a expresiei genelor. Metilarea promotorului este adesea asociată cu represiunea, în timp ce metilarea genelor se corelează cu activitatea transcripțională. [28] Participanții la proiect au folosit metoda Restricted Genomic Loci Set Bisulfite Sequencing (RRBS) pentru a profila cantitativ metilarea ADN-ului pentru o medie de 1,2 milioane de CpG în fiecare dintre cele 82 de linii celulare și țesuturi, inclusiv CpG în regiunile intergenice ale promotorilor proximali și regiunile din interior. o genă (corpuri de gene). [29]
Interacțiunile fizice dintre regiunile individuale ale cromozomilor, care pot fi separate de sute de kilobaze, sunt considerate importante în reglarea expresiei genelor 46. Metoda 5C a evidențiat interacțiuni pe distanță lungă cu situsurile de pornire a transcripției (TSS) într-o țintă de 1% din genomul (44 de regiuni pilot ENCODE) în patru tipuri de celule (GM12878, K562, HeLa-S3 și H1 hESC) 49. Sute de interacțiuni semnificative statistic pe distanță lungă au fost găsite în fiecare tip de celulă după luarea în considerare a comportamentului polimerului de cromatină și a variației experimentale. Perechile de loci care interacționează au arătat o corelație puternică între nivelul de expresie a genei TSS și prezența anumitor clase de elemente funcționale, cum ar fi amplificatorii . Numărul mediu de elemente distale care interacționează cu TSS a fost de 3,9 și numărul mediu de TSS care interacționează cu elementul distal a fost de 2,5, indicând o rețea complexă de cromatină interconectată. Această arhitectură „pe distanță lungă” împletită a fost, de asemenea, descoperită în întregul genom prin analiza interacțiunii cromatinei cu secvențierea marcajului final pereche ( ChIA-PET ) utilizată pentru a detecta interacțiunile în cromatina îmbogățită cu ARN polimeraza II (Pol II) în cinci tipuri de celule. [treizeci]
În ciuda afirmațiilor consorțiului că proiectul ENCODE este departe de a fi încheiat, răspunsul la articolele și mediatările publicate deja a fost pozitiv. Redactorii revistei Nature și autorii proiectului ENCODE scriu: „... am colaborat de-a lungul a mai multe luni pentru a face cel mai mare zgomot posibil, care va atrage atenția nu numai a comunității științifice, ci și a publicului larg” („... a colaborat timp de mai multe luni pentru a face cea mai mare explozie posibilă și a capta atenția nu numai a comunității de cercetare, ci și a publicului larg”). [31] Afirmația prezentată de proiectul ENCODE conform căreia 80% din genomul uman are o funcție biochimică [10] a fost preluată rapid de publicațiile științifice de popularitate, care au caracterizat rezultatele proiectului ca provocând moartea ADN-ului „nedornic”. . [32] [33]
Cu toate acestea, concluzia că cea mai mare parte a genomului este „funcțională” a fost criticată pe motiv că proiectul ENCODE definește „funcționalitatea” prea larg, și anume că tot ceea ce este transcris într-o celulă are o funcție. Această concluzie a fost făcută în ciuda concepției general acceptate că multe elemente ale ADN-ului care sunt transcrise , cum ar fi pseudogenele , nu sunt totuși funcționale. Mai mult, proiectul ENCODE a subliniat mai degrabă sensibilitatea decât specificitatea, ceea ce a condus la multe fals pozitive . [34] [35] [36] Alegerea oarecum arbitrară a liniilor celulare și a factorilor de transcripție , precum și lipsa experimentelor de control necesare, au devenit o sursă suplimentară de critici serioase la adresa ENCODE, deoarece o moleculă aleatorie de ADN poate imita un astfel de comportament „funcțional” în interpretările ENCODE. [37]
Ca răspuns la aceste critici, s-a susținut că cea mai mare parte a transcripției și îmbinării genomului , așa cum se vede la om, este un indicator mai precis al funcției genetice decât conservatorismul secvenței. În plus, cea mai mare parte a ADN-ului „junk” este implicată în reglarea epigenetică și a fost o condiție prealabilă necesară pentru dezvoltarea organismelor complexe. [38] Ca răspuns la comentariile cu privire la definiția cuvântului „funcțional”, mulți au remarcat că, în acest caz, disputa se referă la o diferență de definiție, și nu la esența proiectului, care este de a furniza date pentru studiile ulterioare ale biochimice. activitatea regiunilor ADN necodificatoare de proteine. În timp ce definițiile sunt importante și știința se limitează la limbaj, ENCODE pare să-și fi îndeplinit scopul, deoarece un număr mare de lucrări de cercetare folosesc în prezent datele generate de proiect, mai degrabă decât să discute definițiile „funcționalității”. [39] Ewan Birney, unul dintre cercetătorii ENCODE, a comentat unele dintre reacțiile la proiect. El observă că cuvântul „funcție” a fost folosit pragmatic pentru a se referi la „o anumită activitate biochimică” care se manifestă în diferite clase de experimente în moduri diferite: prezența ARN-ului , modificări ale histonelor , regiuni hipersensibile la DNaseI, vârfuri ale factorului de transcripție ChIP-seq . , amprenta ADN . situsuri de legare a factorului de transcripție și exoni . [40]
În plus, proiectul a fost criticat pentru bugetul său mare (aproximativ 400 de milioane de dolari în total) și pentru patronajul așa-numitei „big science”, cercetare științifică de bază care ia bani din dezvoltări științifice mai productive care trebuie efectuate la cheltuiala cercetătorilor înșiși. [41] Etapa inițială a proiectului ENCODE a fost estimată la 55 de milioane de dolari, extinderea sa a costat aproximativ 130 de milioane de dolari, iar Institutul Național de Cercetare a Genomului Uman din SUA era gata să aloce până la 123 de milioane de dolari pentru următoarea fază a proiectului. Unii cercetători susțin că rentabilitatea adecvată a investiției nu a urmat încă. În încercarea de a număra toate publicațiile în care ENCODE joacă un rol semnificativ, din 2012 au fost identificate 300 de astfel de articole, dintre care 110 s-au bazat pe rezultate de la laboratoare fără finanțare ENCODE. O problemă suplimentară a fost că ENCODE nu este un nume unic care se referă doar la proiectul ENCODE, așa că cuvântul „codifică” (codifică) apare într-o mulțime de literatură despre genetică și cercetarea genomului . [7]
Ca un alt comentariu major, se argumentează că rezultatele nu au justificat timpul petrecut și că proiectul este, în principiu, de natură infinită. Deși a fost comparat cu Proiectul Genomului Uman și chiar numit continuarea acestuia, Genomul Uman are un final clar de care ENCODE îi lipsește în prezent.
Autorii proiectului împărtășesc aparent preocuparea lumii științifice și nu neagă existența problemelor, dar în același timp încearcă să-și justifice eforturile explicând detaliile proiectului în interviuri nu numai comunității științifice, dar și mass-media. Ei spun că a fost nevoie de mai mult de jumătate de secol pentru a trece de la înțelegerea faptului că ADN -ul este baza materială a eredității până la descifrarea secvenței genomului uman , așa că planul lor pentru secolul următor este să înțeleagă această secvență [7] .
În prezent, consorțiul ENCODE este implicat în mai multe proiecte suplimentare cu obiective similare. Unele dintre aceste proiecte au făcut parte din a doua fază a ENCODE.
Prin analogie cu proiectul ENCODE, a fost lansat și un proiect de cartografiere a elementelor funcționale ale genomului principalelor obiecte model - Drosophila melanogaster și Caenorhabditis elegans - engleză. Model Organism ENCyclopedia Of DNA Elements (modENCODE) . Avantajul acestui proiect este posibilitatea de a realiza unele experimente pe organisme model care sunt greu sau imposibil de realizat la om. [42]
Proiectul a fost fondat de National Institutes of Health ( NIH ) în 2007. [ 43] [44] În 2010, consorțiul modENCODE a prezentat o serie de articole în Science privind adnotarea și analiza distribuției elementelor funcționale în genomul Drosophila melanogaster și Caenorhabditis elegans Datele din aceste publicații sunt disponibile pe site-ul web modENCODE [45] .
În prezent, modENCODE este un conglomerat de cercetare de 11 proiecte de semințe împărțite între cercetarea D. melanogaster și C. elegans . Proiectul acoperă cercetări în următoarele domenii:
modERN ( organisme model Encyclopedia of Regulatory Networks ) este o ramură a modENCODE . Proiectul combină cercetarea asupra grupurilor C. elegans și D. melanogaster și se concentrează pe identificarea unor situsuri suplimentare de legare a factorului de transcripție. Proiectul a fost lansat concomitent cu cea de-a treia fază a ENCODE și este programat să fie finalizat în 2017. Până în prezent, modERN a publicat rezultatele a 198 de experimente, alte 500 au fost acceptate pentru publicare și sunt în curs de procesare de către casa de compensare a datelor ENCODE.
Programul Genomics of Gene Regulation (GGR) a fost lansat la începutul anului 2015 de către National Institutes of Health din SUA și se va desfășura timp de trei ani. Scopul programului este de a studia rețelele și căile de gene în diferite sisteme ale corpului pentru a avansa în continuare înțelegerea mecanismelor care controlează expresia genelor. Deși proiectul ENCODE este separat de GGR, ENCODE Data Clearinghouse menține datele GGR pe portalul său.
În 2008 , Roadmap Epigenomics Mapping Consortium a fost organizat de Institutele Naționale de Sănătate din SUA pentru a dezvolta o sursă publică de date epigenetice ale genomului uman pentru cercetarea biologică și medicală. Pe baza rezultatelor lucrării, în februarie 2015, consorțiul a publicat articolul „Analiza integrativă a 111 epigenome umane de referință”. Consorțiul a colectat și adnotat elemente de reglementare în 127 de epigenomi de referință, dintre care 16 făceau parte din proiectul ENCODE. Datele proiectului Roadmap sunt disponibile pe portalurile Roadmap sau ENCODE .
proiect fruitENCODE: o enciclopedie a elementelor ADN ale fructelor mature, parte a ENCODE. Scopul proiectului este de a genera seturi de date: situsuri de metilare a ADN-ului, modificări ale histonelor, regiuni cromatinei hipersensibile la DNaza I, expresia genelor, site-uri de legare a factorului de transcripție pentru fructe suculente de toate tipurile în diferite stadii de dezvoltare. Data publicării preliminare a rezultatelor este postată pe portalul fruitENCODE .
Datele de legare a factorului de transcripție obținute de ENCODE sunt disponibile în prezent la Factorbook.org [47] , o bază de date bazată pe wiki. Primul număr al FactorBook conține:
Dicționare și enciclopedii |
---|