UniProt | |
---|---|
Conţinut | |
Descriere | Baza de date de secvențe de proteine |
Tip de date | Adnotare proteine |
organisme | Toate |
Contacte | |
Centru de cercetare | EMBL-EBI , Marea Britanie; SIB , Elveția; PIR , SUA. |
Disponibilitate | |
Format de date | FASTA , GFF , RDF , XML . |
Site-ul web |
uniprot.org uniprot.org/news/ |
UniProt este o bază de date deschisă cu secvențe de proteine. Consorțiul UniProt este activ din 2003 . O singură bază de date UniProt a fost creată prin combinarea mai multor baze de date . UniProt constă din patru baze de date mari (Baza de cunoștințe , Arhivă , Clustere de referință și date metagenomice ) și acoperă diverse aspecte ale analizei secvenței proteinelor. Multe dintre secvențe au devenit cunoscute ca urmare a proiectelor de secvențiere a genomului din ultimii ani. În plus, baza de date UniProt conține o mulțime de informații despre funcțiile biologice ale proteinelor derivate din literatura științifică.
Consorțiul UniProt include: Institutul European de Bioinformatică (EBI), Institutul Elvețian de Bioinformatică (SIB) și Protein Information Resource (PIR) [1] .
Cu sediul în Hinxton, Marea Britanie, EBI găzduiește un număr mare de baze de date și servicii bioinformatice [2] .
SIB, situat în Geneva, Elveția, este un depozit de servere expert de analiză a sistemelor de proteine (servere ExPASy), sursa principală pentru instrumente de proteomică și baze de date aferente [3] .
PIR este situat la Centrul Medical al Universității Georgetown din Washington, DC, SUA și este o resursă bioinformatică integrată concepută pentru a sprijini cercetarea în domeniile genomicei și proteomicei [4] .
În 2002, PIR (Protein Information Resource), împreună cu partenerii săi internaționali, EBI (European Bioinformatics Institute) și SIB (Swiss Bioinformatics Institute), au primit un grant de la National Institutes of Health (NIH) pentru a crea UniProt, o bază de date unică la nivel mondial de secvenţe şi funcţii proteine. Așa s-a născut consorțiul UniProt [5] . Proiectul UniProt a început să funcționeze în decembrie 2003 [6] .
UniProt este finanțat prin granturi de la Institutul Național de Sănătate din SUA (NIH), Institutul Național de Cercetare a Genomului Uman (NHGRI), Institutul Național de Științe Medicale Generale (NIGMS), Fundația Britanică a Inimii (BHF), Guvernul Federal Elvețian prin Oficiul Federal pentru Educație și Știință, Fundația Națională pentru Știință (NSF) [1] [7] .
O singură bază de date UniProt a fost creată prin combinarea bazelor de date Swiss-Prot, TrEMBL și PIR - PSD [8] [9] [10] .
Baza de date Swiss-Prot a fost creată în 1986 de Amos Bayrosh în timp ce lucra la proiectul său de doctorat și dezvoltată în continuare la Institutul Elvețian de Bioinformatică (SIB), iar ulterior finalizată de Rolf Upweiler la Institutul European de Bioinformatică (EBI) [11] [12] [13] . Funcția principală a bazei de date Swiss-Prot este de a asigura fiabilitatea informațiilor despre secvența proteinelor printr-un nivel ridicat și detaliat de adnotare manuală. Include o descriere a funcției proteinei, structura domeniului acesteia, modificări post-translaționale , diverse variante de secvență etc., cu un nivel minim de redundanță și un nivel ridicat de integrare cu alte baze de date [1] .
Baza de date Nucleotide Sequence Data Library (TrEMBL) a fost dezvoltată în 1996 ca o aplicație computerizată adnotată pentru Swiss-Prot [8] [10] [11] . Decizia de a crea TrEMBL a fost luată ca răspuns la fluxul crescut de date rezultat în urma apariției proiectelor genomice, iar procesul de adnotare manuală în UniProtKB / Swiss-Prot, consumator de timp și de muncă, a depășit capacitatea Swiss-Prot de a include toate cele disponibile. secvențe de proteine [8] [10] . TrEMBL oferă o capacitate de adnotare automată pentru a traduce secvențele de nucleotide existente și pentru a le converti în secvențe de proteine în afara Swiss-Prot [6] .
Găzduit de Fundația Națională de Cercetare Biomedicală (NBRF) la Centrul Medical al Universității Georgetown din Washington, DC, SUA, PIR este moștenitorul celei mai vechi baze de date de secvențe de proteine, și anume „Atlasul Secvenței și Structurii Proteinei” creat de Margaret Oakley Dejhoff, publicat pentru prima dată. în 1965 [14] . PIR menține mai multe baze de date de proteine, și anume Master Protein Sequence Database (PIR-PSD), Protein Structure and Function Related Database (iProClass) și alte baze de date cu secvențe de proteine și familii supravegheate [1] .
UniProt oferă patru baze de date principale:
Baza de cunoștințe UniProt (UniProtKB) este o bază de date de proteine organizată parțial de experți și constă din două secțiuni:
UniProtKB/Swiss-Prot este o bază de date cu secvențe de proteine adnotate manual, neredundant. Scopul UniProtKB/Swiss-Prot este de a furniza toate informațiile necesare cunoscute despre o anumită proteină [1] . Rezumatele sunt revizuite în mod regulat pentru a ține pasul cu rezultatele științifice actuale. Cerințele de adnotare a înregistrărilor includ o analiză detaliată a secvenței proteinelor și date din literatura științifică [17] . Secvențele de proteine ale aceleiași gene și ale aceleiași specii sunt combinate în aceeași intrare de bază de date. Diferențele dintre secvențe au fost identificate și cauzele lor au fost documentate și date (de exemplu, splicing alternativ , variație naturală, locuri incorecte de inițiere, limite incorecte ale exonilor , cadre de citire incorecte , listă de conflicte neidentificate și altele). O serie de instrumente de analiză a secvenței sunt utilizate pentru adnotarea înregistrărilor în UniProtKB/Swiss-Prot. Predicțiile computerizate sunt analizate manual și rezultatele adecvate sunt selectate pentru a fi incluse în înregistrările bazei de date. Aceste predicții includ modificări post-translaționale, secvența, structura și topologia domeniilor transmembranare, peptidele semnal , identificarea domeniului și clasificarea familiilor de proteine [17] [18] . Publicațiile relevante sunt identificate prin căutarea în baze de date precum PubMed . Textul integral al fiecărui document este citit și informațiile sunt adăugate la înregistrare.
Adnotarea, de regulă, include următoarele informații [6] :
Înregistrarea adnotată trebuie să treacă controlul de calitate înainte de a fi inclusă în UniProtKB / Swiss-Prot. Când apar date noi, înregistrările existente sunt actualizate [1] .
UniProtKB/TrEMBLUniProtKB / TrEMBL conține înregistrări analizate folosind tehnologia computerizată, care sunt completate cu adnotare automată [1] .
Traducerea secvențelor de codare adnotate în bazele de date cu secvențe de nucleotide, cum ar fi Laboratorul European de Biologie Moleculară (EMBL-Bank), GenBank , Japan DNA Database (DDBJ) este efectuată automat, după care aceste secvențe de proteine sunt introduse în UniProtKB / TrEMBL. UniProtKB / TrEMBL conține, de asemenea, secvențe din Protein Data Bank (PDB) și gene prezise, inclusiv cele de la Ensembl , un proiect de cercetare în colaborare care implică Institutul European de Bioinformatică și Institutul Wellcome Trust Sanger, RefSeq și CCDS [19] .
Arhiva UniProt (UniParc) este o bază de date cuprinzătoare, nerezervată, care conține secvențe de proteine din bazele de date publice majore de secvențe de proteine [20] . Deoarece aceeași proteină poate fi găsită în mai multe baze de date surse diferite, precum și este prezentă în mai multe cazuri în aceeași bază de date, UniParc salvează fiecare secvență unică o singură dată pentru a evita redundanța. Se combină secvențe identice, indiferent dacă sunt proteine care reprezintă aceeași specie sau specii diferite. Fiecărei secvențe i se atribuie un cod stabil și unic (URI), care face posibilă identificarea aceleiași proteine din baze de date surse diferite [1] .
UniParc conține numai secvențe de proteine fără adnotări. Referințele încrucișate în înregistrările din baza de date UniParc vă permit să obțineți informații suplimentare despre proteină din baza de date, care este sursa originală. Dacă secvențele se modifică în bazele de date sursă, aceste modificări sunt urmărite în UniParc, iar istoricul tuturor modificărilor este stocat în arhivă [1] .
Surse de date pentru UniParc [1]Bază de date | Tip de date |
---|---|
Baza de date ADN japoneză (DDBJ)
Arhiva Europeană de Nucleotide (ENA) Baza de date ADN și ARN (GenBank) |
Secvențe de codare |
Proiect comun de cercetare care implică Institutul European de Bioinformatică și Institutul Wellcome Trust Sanger (Ensembl)
Baza de date de adnotări genomice a vertebratelor (VEGA) |
Secvențe de codificare prezise din genomi de vertebrate |
Principalul depozit de date genetice și moleculare pentru insectele din familia Drosophilidae (FlyBase) | Secvență de codificare pentru speciile din familia Drosophilidae |
Sursă de adnotare cuprinzătoare pentru genele umane și transcrierile (H-Inv) | Secvențe de proteine umane |
Indicele internațional al proteinelor (IPI) | Secvențe de proteine ale eucariotelor superioare |
Oficii de brevete din Europa, SUA și Japonia (USPTO) | Secvențe de codare asociate cu brevetele de la oficiile de brevete |
Resurse de informații despre proteine (PIR-PSD) | Secvențe de proteine curate |
Banca de date de proteine (PDB) | Secvențe de proteine ale căror structuri tridimensionale sunt în PDB |
Fundația de cercetare a proteinelor (PRF) | Secvențe de proteine din lucrări științifice și predicții |
Clustere de referință UniProt (RefSeq) | Secvențe de codificare din setul NCBI de secvențe de referință genomice, transcripționale și proteice |
Baza de date genomice a drojdiei (SGD) | Secvențe de codificare pentru Saccharomyces cerevisiae |
Baza de resurse de informații pentru Arabidopsis thaliana (TAIR) | Secvențe de codificare pentru Arabidopsis thaliana |
TROME | Secvențe de aminoacizi prezise |
UniProtKB/Swiss-Prot | Secvențe de proteine realizate manual derivate în principal din TrEMBL |
UniProtKB/TrEMBL | Secvențe de proteine curate automat derivate din secvențe de codificare din bazele de date de secvențe de nucleotide |
Baza de date cu caracteristicile genomice și alte caracteristici biologice ale Caenorhabditis elegans (WormBase) | Secvențe de codificare pentru nematodul Caenorhabditis elegans |
Clusterele de referință UniProt (UniRef) constau din trei baze de date (UniRef100, UniRef90 și UniRef50) formate din seturi grupate de secvențe de proteine din UniProtKB și înregistrări UniParc selectate [21] .
Baza de date UniRef100 combină secvențe identice și fragmente de secvență (de la orice organism) într-o singură înregistrare UniRef [1] .
Secvențele UniRef100 au fost grupate folosind algoritmul CD-HIT [21] [22] pentru a construi UniRef90 și UniRef50 [22] . Fiecare dintre ultimele două grupuri constă din secvențe care au cel puțin 90% și, respectiv, cel puțin 50% identitate, cu cea mai lungă secvență găsită. În prezent, acoperirea UniRef depășește 4.000.000 de secvențe sursă [23] .
Gruparea secvenței reduce semnificativ dimensiunea bazei de date: UniRef100, UniRef90 și UniRef50 au ca rezultat reduceri de dimensiunea bazei de date de aproximativ ~10%, 40% și, respectiv, 70%. Reducerea redundanței crește viteza de căutare a similarității și îmbunătățește fiabilitatea căutării proteinelor înrudite la distanță [1] .
Înregistrările UniRef conțin informații reprezentative despre secvența proteinelor, numărul de membri și taxonomia generală a clusterului, precum și numerele de acces pentru toate înregistrările anexate și link-uri către adnotări în UniProtKB pentru a facilita cercetarea biologică [1] .
UniRef este disponibil de pe site-ul FTP UniREF [24] .
UniProt KB conține înregistrări cu taxonomie sursă cunoscută. Noile evoluții au condus la descoperirea de noi surse pentru căutarea secvențelor de proteine. Apariția datelor metagenomice a necesitat crearea unei secțiuni fundamental noi în UniProt KB, și anume, o bază de date separată — secvențe metagenomice UniProt și secvențe necunoscute din mediu, UniMES (The UniProt Metagenomic and Environmental Sequences database) [25] .
Metagenomica (metagenomica) este o analiză genomică la scară largă a microbilor izolați din probe din mediu, spre deosebire de organismele cultivate în laborator, care reprezintă doar o mică parte a lumii microbiene.
UniMES conține în prezent date despre secvențele de proteine ale organismelor din oceane furnizate de expediția Global Ocean Sampling (GOS) [25] , care au fost inițial transmise la International Nucleotide Sequence Database (INSDC) [26] .
Setul de date GOS inițial constă din 25 de milioane de secvențe ADN, majoritatea provenite de la microbi oceanici și aproape 6 milioane de proteine prezise. UniMES combină secvențele de proteine prezise cu clasificarea automată de către Interpro, care este o resursă integrată pentru familiile de proteine, domeniile și site-urile funcționale. Prin urmare, UniMES este o bază de date unică care oferă acces gratuit la gama de informații genomice obținute din expedițiile de eșantionare. Eșantionul de date de mediu conținut în această bază de date nu este disponibil în Baza de cunoștințe UniProt sau în clusterele de referință UniProt (UniRef), dar sunt integrate în UniParc [27] .
UniMES este disponibil de pe site-ul UniProt FTP în format FASTA [28] .