UniProt

UniProt


Conţinut
Descriere	Baza de date de secvențe de proteine
Tip de date	Adnotare proteine
organisme	Toate
Contacte
Centru de cercetare	EMBL-EBI , Marea Britanie; SIB , Elveția; PIR , SUA.
Disponibilitate
Format de date	FASTA , GFF , RDF , XML .
Site-ul web	uniprot.org uniprot.org/news/

UniProt este o bază de date deschisă cu secvențe de proteine. Consorțiul UniProt este activ din 2003 . O singură bază de date UniProt a fost creată prin combinarea mai multor baze de date . UniProt constă din patru baze de date mari (Baza de cunoștințe , Arhivă , Clustere de referință și date metagenomice ) și acoperă diverse aspecte ale analizei secvenței proteinelor. Multe dintre secvențe au devenit cunoscute ca urmare a proiectelor de secvențiere a genomului din ultimii ani. În plus, baza de date UniProt conține o mulțime de informații despre funcțiile biologice ale proteinelor derivate din literatura științifică.

Consorțiul Uniprot

Consorțiul UniProt include: Institutul European de Bioinformatică (EBI), Institutul Elvețian de Bioinformatică (SIB) și Protein Information Resource (PIR) [1] .

Cu sediul în Hinxton, Marea Britanie, EBI găzduiește un număr mare de baze de date și servicii bioinformatice [2] .

SIB, situat în Geneva, Elveția, este un depozit de servere expert de analiză a sistemelor de proteine (servere ExPASy), sursa principală pentru instrumente de proteomică și baze de date aferente [3] .

PIR este situat la Centrul Medical al Universității Georgetown din Washington, DC, SUA și este o resursă bioinformatică integrată concepută pentru a sprijini cercetarea în domeniile genomicei și proteomicei [4] .

În 2002, PIR (Protein Information Resource), împreună cu partenerii săi internaționali, EBI (European Bioinformatics Institute) și SIB (Swiss Bioinformatics Institute), au primit un grant de la National Institutes of Health (NIH) pentru a crea UniProt, o bază de date unică la nivel mondial de secvenţe şi funcţii proteine. Așa s-a născut consorțiul UniProt [5] . Proiectul UniProt a început să funcționeze în decembrie 2003 [6] .

UniProt este finanțat prin granturi de la Institutul Național de Sănătate din SUA (NIH), Institutul Național de Cercetare a Genomului Uman (NHGRI), Institutul Național de Științe Medicale Generale (NIGMS), Fundația Britanică a Inimii (BHF), Guvernul Federal Elvețian prin Oficiul Federal pentru Educație și Știință, Fundația Națională pentru Știință (NSF) [1] [7] .

Originea bazei de date UniProt

O singură bază de date UniProt a fost creată prin combinarea bazelor de date Swiss-Prot, TrEMBL și PIR - PSD [8] [9] [10] .

Swiss Prot

Baza de date Swiss-Prot a fost creată în 1986 de Amos Bayrosh în timp ce lucra la proiectul său de doctorat și dezvoltată în continuare la Institutul Elvețian de Bioinformatică (SIB), iar ulterior finalizată de Rolf Upweiler la Institutul European de Bioinformatică (EBI) [11] [12] [13] . Funcția principală a bazei de date Swiss-Prot este de a asigura fiabilitatea informațiilor despre secvența proteinelor printr-un nivel ridicat și detaliat de adnotare manuală. Include o descriere a funcției proteinei, structura domeniului acesteia, modificări post-translaționale , diverse variante de secvență etc., cu un nivel minim de redundanță și un nivel ridicat de integrare cu alte baze de date [1] .

TreMBL

Baza de date Nucleotide Sequence Data Library (TrEMBL) a fost dezvoltată în 1996 ca o aplicație computerizată adnotată pentru Swiss-Prot [8] [10] [11] . Decizia de a crea TrEMBL a fost luată ca răspuns la fluxul crescut de date rezultat în urma apariției proiectelor genomice, iar procesul de adnotare manuală în UniProtKB / Swiss-Prot, consumator de timp și de muncă, a depășit capacitatea Swiss-Prot de a include toate cele disponibile. secvențe de proteine [8] [10] . TrEMBL oferă o capacitate de adnotare automată pentru a traduce secvențele de nucleotide existente și pentru a le converti în secvențe de proteine în afara Swiss-Prot [6] .

PIR-PSD

Găzduit de Fundația Națională de Cercetare Biomedicală (NBRF) la Centrul Medical al Universității Georgetown din Washington, DC, SUA, PIR este moștenitorul celei mai vechi baze de date de secvențe de proteine, și anume „Atlasul Secvenței și Structurii Proteinei” creat de Margaret Oakley Dejhoff, publicat pentru prima dată. în 1965 [14] . PIR menține mai multe baze de date de proteine, și anume Master Protein Sequence Database (PIR-PSD), Protein Structure and Function Related Database (iProClass) și alte baze de date cu secvențe de proteine și familii supravegheate [1] .

Organizarea bazelor de date UniProt

UniProt oferă patru baze de date principale:

UniProtKB (Swiss-Prot și TrEMBL),
UniParc,
Uniref,
UniMes.

UniProt KnowledgeBase (UniProtKB)

Baza de cunoștințe UniProt (UniProtKB) este o bază de date de proteine organizată parțial de experți și constă din două secțiuni:

UniProtKB / Swiss-Prot, care conține recenzii, intrări adnotate manual. Din 15 martie 2017, UniProtKB / Swiss-Prot conține 553941 înregistrări de secvență (inclusiv 198311666 de aminoacizi) obținute din 251243 surse [15] .
UniProtKB/TrEMBL care conține intrări nepeerizate, adnotate automat [7] . Din 15 martie 2017, UniProtKB / TrEMBL conține 80204459 înregistrări de secvență de proteine (inclusiv 26890984395 de aminoacizi) [16] .

UniProtKB/Swiss-Prot

UniProtKB/Swiss-Prot este o bază de date cu secvențe de proteine adnotate manual, neredundant. Scopul UniProtKB/Swiss-Prot este de a furniza toate informațiile necesare cunoscute despre o anumită proteină [1] . Rezumatele sunt revizuite în mod regulat pentru a ține pasul cu rezultatele științifice actuale. Cerințele de adnotare a înregistrărilor includ o analiză detaliată a secvenței proteinelor și date din literatura științifică [17] . Secvențele de proteine ale aceleiași gene și ale aceleiași specii sunt combinate în aceeași intrare de bază de date. Diferențele dintre secvențe au fost identificate și cauzele lor au fost documentate și date (de exemplu, splicing alternativ , variație naturală, locuri incorecte de inițiere, limite incorecte ale exonilor , cadre de citire incorecte , listă de conflicte neidentificate și altele). O serie de instrumente de analiză a secvenței sunt utilizate pentru adnotarea înregistrărilor în UniProtKB/Swiss-Prot. Predicțiile computerizate sunt analizate manual și rezultatele adecvate sunt selectate pentru a fi incluse în înregistrările bazei de date. Aceste predicții includ modificări post-translaționale, secvența, structura și topologia domeniilor transmembranare, peptidele semnal , identificarea domeniului și clasificarea familiilor de proteine [17] [18] . Publicațiile relevante sunt identificate prin căutarea în baze de date precum PubMed . Textul integral al fiecărui document este citit și informațiile sunt adăugate la înregistrare.

Adnotarea, de regulă, include următoarele informații [6] :

numele proteinei și al genei;
funcția proteinelor;
informații specifice enzimei , cum ar fi activitatea catalitică , cofactorii și reziduurile catalitice ;
localizare intracelulară;
interacțiuni proteină-proteină ;
expresie șablon (model);
locația și rolul domeniilor și site-urilor importante;
situsuri de legare ionice , substrat și cofactori;
formele de variante de proteine rezultate din modificări genetice naturale, editarea ARN , splicing alternativ, influențe proteolitice și modificări post-translaționale.

Înregistrarea adnotată trebuie să treacă controlul de calitate înainte de a fi inclusă în UniProtKB / Swiss-Prot. Când apar date noi, înregistrările existente sunt actualizate [1] .

UniProtKB/TrEMBL

UniProtKB / TrEMBL conține înregistrări analizate folosind tehnologia computerizată, care sunt completate cu adnotare automată [1] .

Traducerea secvențelor de codare adnotate în bazele de date cu secvențe de nucleotide, cum ar fi Laboratorul European de Biologie Moleculară (EMBL-Bank), GenBank , Japan DNA Database (DDBJ) este efectuată automat, după care aceste secvențe de proteine sunt introduse în UniProtKB / TrEMBL. UniProtKB / TrEMBL conține, de asemenea, secvențe din Protein Data Bank (PDB) și gene prezise, inclusiv cele de la Ensembl , un proiect de cercetare în colaborare care implică Institutul European de Bioinformatică și Institutul Wellcome Trust Sanger, RefSeq și CCDS [19] .

Arhiva UniProt (UniParc)

Arhiva UniProt (UniParc) este o bază de date cuprinzătoare, nerezervată, care conține secvențe de proteine din bazele de date publice majore de secvențe de proteine [20] . Deoarece aceeași proteină poate fi găsită în mai multe baze de date surse diferite, precum și este prezentă în mai multe cazuri în aceeași bază de date, UniParc salvează fiecare secvență unică o singură dată pentru a evita redundanța. Se combină secvențe identice, indiferent dacă sunt proteine care reprezintă aceeași specie sau specii diferite. Fiecărei secvențe i se atribuie un cod stabil și unic (URI), care face posibilă identificarea aceleiași proteine din baze de date surse diferite [1] .

UniParc conține numai secvențe de proteine fără adnotări. Referințele încrucișate în înregistrările din baza de date UniParc vă permit să obțineți informații suplimentare despre proteină din baza de date, care este sursa originală. Dacă secvențele se modifică în bazele de date sursă, aceste modificări sunt urmărite în UniParc, iar istoricul tuturor modificărilor este stocat în arhivă [1] .

Surse de date pentru UniParc [1]

Bază de date	Tip de date
Baza de date ADN japoneză (DDBJ) Arhiva Europeană de Nucleotide (ENA) Baza de date ADN și ARN (GenBank)	Secvențe de codare
Proiect comun de cercetare care implică Institutul European de Bioinformatică și Institutul Wellcome Trust Sanger (Ensembl) Baza de date de adnotări genomice a vertebratelor (VEGA)	Secvențe de codificare prezise din genomi de vertebrate
Principalul depozit de date genetice și moleculare pentru insectele din familia Drosophilidae (FlyBase)	Secvență de codificare pentru speciile din familia Drosophilidae
Sursă de adnotare cuprinzătoare pentru genele umane și transcrierile (H-Inv)	Secvențe de proteine umane
Indicele internațional al proteinelor (IPI)	Secvențe de proteine ale eucariotelor superioare
Oficii de brevete din Europa, SUA și Japonia (USPTO)	Secvențe de codare asociate cu brevetele de la oficiile de brevete
Resurse de informații despre proteine (PIR-PSD)	Secvențe de proteine curate
Banca de date de proteine (PDB)	Secvențe de proteine ale căror structuri tridimensionale sunt în PDB
Fundația de cercetare a proteinelor (PRF)	Secvențe de proteine din lucrări științifice și predicții
Clustere de referință UniProt (RefSeq)	Secvențe de codificare din setul NCBI de secvențe de referință genomice, transcripționale și proteice
Baza de date genomice a drojdiei (SGD)	Secvențe de codificare pentru Saccharomyces cerevisiae
Baza de resurse de informații pentru Arabidopsis thaliana (TAIR)	Secvențe de codificare pentru Arabidopsis thaliana
TROME	Secvențe de aminoacizi prezise
UniProtKB/Swiss-Prot	Secvențe de proteine realizate manual derivate în principal din TrEMBL
UniProtKB/TrEMBL	Secvențe de proteine curate automat derivate din secvențe de codificare din bazele de date de secvențe de nucleotide
Baza de date cu caracteristicile genomice și alte caracteristici biologice ale Caenorhabditis elegans (WormBase)	Secvențe de codificare pentru nematodul Caenorhabditis elegans

Clustere de referință UniProt (UniRef)

Clusterele de referință UniProt (UniRef) constau din trei baze de date (UniRef100, UniRef90 și UniRef50) formate din seturi grupate de secvențe de proteine din UniProtKB și înregistrări UniParc selectate [21] .

Baza de date UniRef100 combină secvențe identice și fragmente de secvență (de la orice organism) într-o singură înregistrare UniRef [1] .

Secvențele UniRef100 au fost grupate folosind algoritmul CD-HIT [21] [22] pentru a construi UniRef90 și UniRef50 [22] . Fiecare dintre ultimele două grupuri constă din secvențe care au cel puțin 90% și, respectiv, cel puțin 50% identitate, cu cea mai lungă secvență găsită. În prezent, acoperirea UniRef depășește 4.000.000 de secvențe sursă [23] .

Gruparea secvenței reduce semnificativ dimensiunea bazei de date: UniRef100, UniRef90 și UniRef50 au ca rezultat reduceri de dimensiunea bazei de date de aproximativ ~10%, 40% și, respectiv, 70%. Reducerea redundanței crește viteza de căutare a similarității și îmbunătățește fiabilitatea căutării proteinelor înrudite la distanță [1] .

Înregistrările UniRef conțin informații reprezentative despre secvența proteinelor, numărul de membri și taxonomia generală a clusterului, precum și numerele de acces pentru toate înregistrările anexate și link-uri către adnotări în UniProtKB pentru a facilita cercetarea biologică [1] .

UniRef este disponibil de pe site-ul FTP UniREF [24] .

UniMrot (UniMes)

UniProt KB conține înregistrări cu taxonomie sursă cunoscută. Noile evoluții au condus la descoperirea de noi surse pentru căutarea secvențelor de proteine. Apariția datelor metagenomice a necesitat crearea unei secțiuni fundamental noi în UniProt KB, și anume, o bază de date separată — secvențe metagenomice UniProt și secvențe necunoscute din mediu, UniMES (The UniProt Metagenomic and Environmental Sequences database) [25] .

Metagenomica (metagenomica) este o analiză genomică la scară largă a microbilor izolați din probe din mediu, spre deosebire de organismele cultivate în laborator, care reprezintă doar o mică parte a lumii microbiene.

UniMES conține în prezent date despre secvențele de proteine ale organismelor din oceane furnizate de expediția Global Ocean Sampling (GOS) [25] , care au fost inițial transmise la International Nucleotide Sequence Database (INSDC) [26] .

Setul de date GOS inițial constă din 25 de milioane de secvențe ADN, majoritatea provenite de la microbi oceanici și aproape 6 milioane de proteine prezise. UniMES combină secvențele de proteine prezise cu clasificarea automată de către Interpro, care este o resursă integrată pentru familiile de proteine, domeniile și site-urile funcționale. Prin urmare, UniMES este o bază de date unică care oferă acces gratuit la gama de informații genomice obținute din expedițiile de eșantionare. Eșantionul de date de mediu conținut în această bază de date nu este disponibil în Baza de cunoștințe UniProt sau în clusterele de referință UniProt (UniRef), dar sunt integrate în UniParc [27] .

UniMES este disponibil de pe site-ul UniProt FTP în format FASTA [28] .

Note

↑ 1 2 3 4 5 6 7 8 9 10 11 12 13 Despre UniProt . http://www.uniprot.org/help/about.+ Accesat la 31 martie 2017. Arhivat din original la 30 aprilie 2017.
↑ Despre EBI . https://www.ebi.ac.uk/about/travel.+ Preluat la 24 aprilie 2017. Arhivat din original la 1 mai 2017.
↑ Despre SIB . http://www.sib.swiss/about-us.+ Recuperat la 24 aprilie 2017. Arhivat din original pe 25 aprilie 2017.
↑ Despre PIR . http://pir.georgetown.edu/pirwww/about/.+ Consultat la 24 aprilie 2017. Arhivat din original pe 22 martie 2017.
↑ Finanțarea pentru baza de date globală de proteine va crea o singură resursă de încredere ( http://www.genome.gov/page.cfm?pageID=10005283 Arhivat 24 septembrie 2015 la Wayback Machine )
↑ 1 2 3 Apweiler R. , Bairoch A. , Wu CH Baze de date de secvențe de proteine. (Engleză) // Opinie actuală în biologie chimică. - 2004. - Vol. 8, nr. 1 . - P. 76-80. - doi : 10.1016/j.cbpa.2003.12.004 . — PMID 15036160 .
↑ 1 2 The Universal Protein Resource (UniProt) în 2010. (engleză) // Nucleic acids research. - 2010. - Vol. 38.—P. D142–148. - doi : 10.1093/nar/gkp846 . — PMID 19843607 .
↑ 1 2 3 O'Donovan C. , Martin MJ , Gattiker A. , Gasteiger E. , Bairoch A. , Apweiler R. Resursă de cunoaștere a proteinelor de înaltă calitate: SWISS-PROT și TrEMBL. (engleză) // Briefings în bioinformatică. - 2002. - Vol. 3, nr. 3 . - P. 275-284. — PMID 12230036 .
^ Wu CH , Yeh LS , Huang H. , Arminski L. , Castro-Alvear J. , Chen Y. , Hu Z. , Kourtesis P. , Ledley RS , Suzek BE , Vinayaka CR , Zhang J. , Barker WC The Protein resursă informațională. (engleză) // Cercetarea acizilor nucleici. - 2003. - Vol. 31, nr. 1 . - P. 345-347. — PMID 12520019 .
↑ 1 2 3 Boeckmann B. , Bairoch A. , Apweiler R. , Blatter MC , Estreicher A. , Gasteiger E. , Martin MJ , Michoud K. , O'Donovan C. , Phan I. , Pilbout S. , Schneider M Baza de cunoștințe despre proteine SWISS-PROT și suplimentul său TreMBL în 2003. // Cercetarea acizilor nucleici. - 2003. - Vol. 31, nr. 1 . - P. 365-370. — PMID 12520024 .
↑ 1 2 Bairoch A. , Apweiler R. Banca de date privind secvența proteinelor SWISS-PROT și noul său supliment TREMBL. (engleză) // Cercetarea acizilor nucleici. - 1996. - Vol. 24, nr. 1 . - P. 21-25. — PMID 8594581 .
↑ Bairoch A. Serendipity în bioinformatică, necazurile unui bioinformatician elvețian prin vremuri interesante! (engleză) // Bioinformatică. - 2000. - Vol. 16, nr. 1 . - P. 48-64. — PMID 10812477 .
↑ Séverine Altairac, Naissance d'une banque de données: Interviu du prof. Amos Bairoch Arhivat pe 12 iulie 2010 la Wayback Machine . Protéines à la Une Arhivat 21 iunie 2011 la Wayback Machine , august 2006. ISSN 1660-9824.
^ Dayhoff , Margaret O. Atlas of protein sequence and structure . - Silver Spring, Md: Fundația Națională de Cercetare Biomedicală, 1965.
↑ Statistici de lansare UniProtKB/SwissProt ( http://www.expasy.org/sprot/relnotes/relstat.html Arhivat 29 mai 2010 la Wayback Machine )
↑ Statistici de lansare UniProtKB/TrEMBL ( http://www.ebi.ac.uk/uniprot/TrEMBLstats/ Arhivat la 1 octombrie 2015 la Wayback Machine )
↑ 1 2 Cum adnotăm manual o intrare UniProtKB ( http://www.uniprot.org/faq/45 Arhivat 13 decembrie 2013 la Wayback Machine )
↑ Apweiler R. , Bairoch A. , Wu CH , Barker WC , Boeckmann B. , Ferro S. , Gasteiger E. , Huang H. , Lopez R. , Magrane M. , Martin MJ , Natale DA , O'Donovan C. , Redaschi N. , Yeh LS UniProt: baza de cunoștințe Universal Protein. (engleză) // Cercetarea acizilor nucleici. - 2004. - Vol. 32.—P. D115–119. - doi : 10.1093/nar/gkh131 . — PMID 14681372 .
↑ De unde provin secvențele UniProtKB . http://www.uniprot.org/faq/37.+ Consultat la 16 aprilie 2014. Arhivat din original la 15 decembrie 2013.
↑ Leinonen R. , Diez FG , Binns D. , Fleischmann W. , Lopez R. , Apweiler R. Arhiva UniProt. (engleză) // Bioinformatică. - 2004. - Vol. 20, nr. 17 . - P. 3236-3237. - doi : 10.1093/bioinformatics/bth191 . — PMID 15044231 .
↑ 1 2 Suzek BE , Huang H. , McGarvey P. , Mazumder R. , Wu CH UniRef: clustere de referință UniProt complete și neredundante. (engleză) // Bioinformatică. - 2007. - Vol. 23, nr. 10 . - P. 1282-1288. - doi : 10.1093/bioinformatics/btm098 . — PMID 17379688 .
↑ 1 2 Li W. , Jaroszewski L. , Godzik A. Gruparea secvențelor extrem de omoloage pentru a reduce dimensiunea bazelor de date mari de proteine. (engleză) // Bioinformatică. - 2001. - Vol. 17, nr. 3 . - P. 282-283. — PMID 11294794 .
↑ Despre UniRef=http://www.uniprot.org/uniref/ . (nedefinit) (link indisponibil)
↑ Site FTP UniREF ( ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/uniref/ )
↑ 1 2 Yooseph S. , Sutton G. , Rusch DB , Halpern AL , Williamson SJ , Remington K. , Eisen JA , Heidelberg KB , Manning G. , Li W. , Jaroszewski L. , Cieplak P. , Miller CS , Li H. , Mashiyama ST , Joachimiak MP , van Belle C. , Chandonia JM , Soergel DA , Zhai Y. , Natarajan K. , Lee S. , Raphael BJ , Bafna V. , Friedman R. , Brenner SE , Godzik A. , Eisenberg D. , Dixon JE , Taylor SS , Strausberg RL , Frazier M. , Venter JC Expediția The Sorcerer II Global Ocean Sampling: extinderea universului familiilor de proteine. (engleză) // Public Library of Science Biology. - 2007. - Vol. 5, nr. 3 . — P. e16. - doi : 10.1371/journal.pbio.0050016 . — PMID 17355171 .
↑ Brunak S. , Danchin A. , Hattori M. , Nakamura H. , Shinozaki K. , Matise T. , Preuss D. Politicile bazei de date de secvențe de nucleotide. (engleză) // Știință (New York, NY). - 2002. - Vol. 298, nr. 5597 . - P. 1333. - PMID 12436968 .
↑ Resursa proteică universală (UniProt). (engleză) // Cercetarea acizilor nucleici. - 2008. - Vol. 36.—P. D190–195. - doi : 10.1093/nar/gkm895 . — PMID 18045787 .
↑ Site-ul Uniprot FTP UniMES ( ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/unimes/ (downlink) )