ŞIR

ŞIR
Conţinut
Descriere Resursă de bioinformatică despre interacțiunile proteină-proteină cunoscute și prezise
organisme Toate
Contacte
Laborator CPR , EMBL , KU , SIB , TUD , UZH
Data de lansare 2000
Disponibilitate
Site-ul web ŞIR
Alte
Versiune 10,5 (2017)

STRING (abreviar. Instrument de căutare  pentru regăsirea genelor/proteinelor care interacționează ) este o bază de date și o resursă web pentru căutarea informațiilor despre interacțiunile dintre proteine ​​​​-proteine ​​cunoscute și prezise [1] [2] [3] [4] [5] [6] [7] [8] .

STRING rezumă informații din diverse surse: date experimentale, date din literatură și predicții de novo . Versiunea 10 conține informații despre interacțiunile a 9.643.763 de proteine ​​în 2031 de specii de organisme, de la bacterii și arhee la oameni. Baza de date este actualizată în mod regulat și este disponibilă pentru descărcare gratuită [1] .

STRING este dezvoltat de un consorțiu de universități europene CPR, EMBL , KU , SIB, TUD și UZH .

Surse de date

În STRING, unitatea de bază este relația funcțională , adică. relație funcțională specifică și semnificativă biologic între două proteine ​​[3] .

Pentru fiecare relație funcțională, STRING calculează un scor de încredere care integrează diferite tipuri de dovezi pentru acea relație (date experimentale, date din literatură și predicții de novo bazate pe ortologie la proteinele studiate experimental, precum și pe baza unei analize comparative a contextului genomic [1] . 9] ). O astfel de abordare integrată are următoarele avantaje [6] :

  1. Diferite tipuri de dovezi sunt mapate la un set stabil de proteine, facilitând analiza comparativă.
  2. Interacțiunile cunoscute și prezise adesea se completează parțial unele pe altele, ceea ce duce la o extindere a rețelei de interacțiuni (la un anumit nivel de încredere).
  3. Scorul de încredere pentru o relație funcțională este crescut atunci când relația este susținută de mai mult de un tip de dovezi.
  4. Predicția interacțiunilor pentru un număr mare de organisme facilitează analiza evolutivă.

La calcularea evaluării fiabilității unei relații funcționale, diferite tipuri de dovezi pentru această relație sunt considerate independente, iar scorul este calculat conform următoarei formule [6] : unde este contribuția unui tip de dovezi.

STRING nu conține informații despre mecanismul interacțiunilor proteină-proteină, precum și despre ce moment al ciclului celular poate avea loc această interacțiune, cum depinde de condițiile externe și cât de specifică este țesut. În schimb, STRING conține informații despre toate interacțiunile proteină-proteină posibile într-un anumit organism, inclusiv informații prezise cu o oarecare certitudine, făcând din STRING cea mai cuprinzătoare resursă despre interacțiunile proteină-proteină disponibilă astăzi și mai ales utilă pentru găsirea de informații despre proteinele care nu au fost studiat experimental [4] .

Date experimentale

STRING integrează informații despre interacțiunile proteinelor din complexele structurale și căile metabolice împrumutate de la BIND, BioCarta, BioCyc, BioGRID, DIP, DISEASES, GO , HPRD, IntAct, KEGG , MINT, NCI-Nature Pathway Interaction Database, PDB , Reactome, TISSUES [ 1] [3] .

Date literare

STRING extrage informații despre interacțiunile proteinelor din articolele cu text integral din bazele de date PubMed , SGD, OMIM, FlyBase și din rezumatele articolelor din baza de date MEDLINE . Pentru a face acest lucru, textele sunt căutate automat pentru mențiuni comune semnificative statistic ale numelor genelor și sinonimele acestora (datele despre sinonime sunt preluate de la Swiss-Prot) folosind procesarea limbajului natural . Pentru a crește acuratețea, a fost dezvoltat un sistem de evaluare care ține cont de mențiunea comună a numelor genelor în propoziții, paragrafe și textele integrale ale articolelor [2] .

Previziuni de novo

STRING își propune să completeze adnotarea funcțională a genomilor nou secvenționați prin predicții de novo ale relațiilor funcționale bazate pe ortologie cu proteinele studiate experimental, precum și pe baza analizei comparative a contextului genomic [9] . STRING oferă, de asemenea, propria sa evaluare a relațiilor funcționale studiate experimental, completând informații despre acestea.

Import de genomuri complet secvențiate

Începând cu versiunea 9 (2011), STRING importă genomi complet secvențializați pentru analiză, disponibile în bazele de date RefSeq și Ensembl , precum și pe site-uri specializate [3] . Genomii importați sunt verificați manual în prealabil pentru a fi complet și neredundant. STRING nu stochează informații despre diferitele izoforme ale unei proteine ​​rezultate din splicing alternativ sau modificări post-translaționale . Dimpotrivă, STRING atribuie o izoformă de proteină (de obicei cea mai lungă izoformă) unui locus [5] . O astfel de filtrare este necesară pentru funcționarea normală a algoritmilor de predicție a interacțiunilor proteină-proteină.

Predicții ale interacțiunilor proteinelor pe baza ortologiei cu proteine ​​studiate experimental

STRING consideră că interacțiunile proteinelor implicate în aceeași cale metabolică KEGG sunt o referință , deoarece această bază de date este organizată manual și acoperă o serie de organisme și domenii funcționale. STRING transferă interacțiunile proteice descrise în căile metabolice KEGG către proteinele ortologe ale altor organisme și atribuie o anumită pondere fiecărei interacțiuni protein-proteină prezise, ​​care corespunde probabilității ca aceste proteine ​​să se afle în aceeași cale metabolică KEGG [6] și contribuie la evaluarea finală a fiabilității acestor relații funcționale.

Înainte de versiunea 8 (2009), predicțiile bazate pe ortologie cu proteine ​​descrise în căile metabolice KEGG au fost făcute folosind grupuri de grupări ortologe de proteine ​​(COG) [10] , apoi au început să fie utilizate grupuri ierarhice de proteine ​​​​ortologi din baza de date eggNOG [11] .

Începând cu versiunea 9.1 (2013), predicțiile bazate pe ortologie cu proteinele descrise în căile metabolice KEGG sunt făcute ținând cont de taxonomia organismelor, ceea ce face posibilă evitarea transferului eronat al interacțiunii proteinelor dintr-un singur organism către ortolog presupus. proteine ​​într-un alt organism în prezența paralogilor acestor proteine ​​într-un alt organism, care au apărut ca urmare a duplicării genelor corespunzătoare în procesul de evoluție . Se folosește versiunea taxonomiei menținută de NCBI. Transferul interacțiunilor proteină-proteină între organisme pe baza ortologiei se realizează secvenţial de la nivelul cel mai scăzut la cel mai înalt nivel al ierarhiei taxonomice [2] .

Predicții bazate pe o analiză comparativă a contextului genomic

Genele ale căror produse proteice co-funcționează într-o cale metabolică sau într-un complex structural sunt adesea sub reglementare comună și supuse unei presiuni comune de selecție naturală . Astfel de gene tind să se co-localizeze [12] și chiar să formeze o genă de fuziune [13] . Adesea, astfel de gene sunt apropiate una de cealaltă, fiind probabil o singură unitate de transcripție ( operon ). În operonii diferitelor organisme, setul de gene și ordinea lor sunt similare, dar nu neapărat identice. STRING distinge următoarele tipuri de context genomic [9] :

Eucariotele nu au structuri de operon, dar unele proteine ​​eucariote sunt ortologe cu proteinele procariote, astfel încât STRING transferă către proteinele eucariote relațiile funcționale prezise dintr-o analiză comparativă a contextului genomic la procariote [8] .

STRING caută grupuri de gene conservate ale căror istorii evolutive sunt mai asemănătoare decât ar fi de așteptat întâmplător. STRING începe cu o singură genă sămânță și, în prima sa iterație, găsește gene care apar adesea cu o anumită genă în același context genomic în multe organisme îndepărtate filogenetic. Nu este necesară o potrivire perfectă între apariția genelor, deși această informație este cuantificată. La următoarea iterație, genele noi găsite la iterația anterioară sunt folosite ca semințe. Iterațiile continuă până când nu se găsesc gene noi (convergență). Astfel, există multe gene indirect legate de gena primer. Este permisă introducerea într-un context genomic doar a genelor, distanța dintre care nu este mai mare de 300 de perechi de baze [8] . Începând cu versiunea 8, genele situate pe diferite catene de ADN pot intra în același context genomic. În acest din urmă caz, relației funcționale prezise i se atribuie o pondere mai mică, ceea ce contribuie mai puțin la evaluarea finală a fiabilității acestei relații, în comparație cu relația funcțională prezisă dintr-un context genomic format din gene situate pe o singură catenă de ADN [4] ] . Greutatea atribuită este normalizată de numărul de organisme în care este prezisă această relație [7] , și crește atunci când această relație este prezisă în ornamentisme îndepărtate filogenetic [6] .

La asamblarea mediului conservat al genei, începând cu versiunea 8, sunt ignorate genele scurte parțial suprapuse pe catena ADN necodificatoare, deoarece ele se pot dovedi a fi predicții false [4] .

Din 2005, STRING a avut două abordări pentru a prezice interacțiunile proteină-proteină pe baza unei analize comparative a contextului genomic: atunci când este solicitat, utilizatorul poate selecta modul COG sau modul Proteine. În modul COGs, căutarea clusterelor de gene conservate este efectuată cu cerința ca proteinele să fie ortologe, adică. interacțiunile sunt prezise pe baza totul sau nimic. În modul Proteine, căutarea clusterelor de gene conservatoare este efectuată prin similitudinea cantitativă a secvențelor de aminoacizi ai proteinelor, adică. interacțiunile prezise pot fi extinse la paralogi dacă aceștia există în organism [6] . Anterior, în STRING, asemănarea cantitativă a secvențelor de aminoacizi proteice a fost determinată folosind algoritmul Smith-Waterman . Începând cu versiunea 9 (2011), matricele SIMAP [3] [14] sunt folosite pentru a cuantifica asemănarea secvențelor de aminoacizi proteici .

Interfata utilizator

Pentru a interoga baza de date STRING, trebuie să specificați identificatorul sau secvența de aminoacizi a uneia sau mai multor proteine ​​și să selectați un organism. În cazul unei solicitări pentru secvența de aminoacizi a unei proteine, se efectuează o căutare BLAST împotriva tuturor proteinelor organismului selectat (pragul E-valoare = 10 −5 ) [8] și utilizatorului i se solicită să selecteze una dintre constată pentru care vor fi afișate posibile interacțiuni cu alte proteine ​​(modul Proteine) sau COG (modul COG) într-un organism dat.

Interacțiunile cunoscute experimental și prezise de novo ale unei anumite proteine ​​cu alte proteine ​​sunt prezentate ca un grafic, ale cărui vârfuri sunt proteine, iar marginile sunt diferite tipuri de dovezi ale relațiilor funcționale dintre aceste proteine. Vârfurile corespunzătoare proteinelor pentru care structura cristalografică este descifrată (sau prezisă cu o anumită identitate) sunt arătate mai mari. Făcând clic pe partea de sus în fereastra pop-up, sunt disponibile link-uri către resurse terțe cu informații despre această proteină, cum ar fi RefSeq, KEGG , UniProt , SMART și SWISS-MODEL, precum și o previzualizare a arhitecturii domeniului și structura cristalografică (decodificată sau prezisă cu o identitate specifică) a acestei proteine. Este posibil să grupați rețeaua de interacțiuni, să adăugați alte proteine ​​la rețeaua de interacțiuni atunci când pragul pentru fiabilitatea unei relații funcționale este scăzut (și invers, eliminați proteinele din rețeaua de interacțiuni atunci când pragul este crescut), setați susține tipuri acceptabile de dovezi ale unei relații funcționale (de exemplu, poți lăsa în rețeaua de interacțiuni numai acele proteine ​​pentru interacțiunile pentru care există dovezi experimentale), precum și salvarea unei liste de interacțiuni proteină-proteină găsite ca fișier text și salvarea unei imagini a rețelei de interacțiuni [3] .

Lista de relații funcționale posibile pentru o proteină dată conține dovezi pentru fiecare relație și este ordonată după nivelul de încredere estimat în fiecare relație [2] .

Este disponibilă o vedere arborescentă filogenetică , construită din alinieri de secvențe legate ale unui număr mic de familii de proteine ​​universale [5] [15] , cu diferite tipuri de context genomic reprezentate pe ea. Sunt disponibile link-uri către articole care menționează o anumită proteină, inclusiv articole experimentale.

Integrare cu alte resurse

Există un plugin STRING pentru Cytoscape [16] . Începând cu versiunea 10 (2015), pachetul software STRINGdb este disponibil pentru descărcare de la Bioconductor și vă permite să interogați serverul STRING din limbajul de programare R [1] .

Note

  1. 1 2 3 4 D. Szklarczyk colab. STRING v10: rețele de interacțiune proteină-proteină, integrate peste arborele vieții  // Cercetarea acizilor  nucleici : jurnal. - 2015. - Vol. 43 . - P. D447-D452 . - doi : 10.1093/nar/gku1003 . — PMID 25352553 .
  2. 1 2 3 4 A. Franceschini col. STRING v9.1: rețele de interacțiune proteină-proteină, cu acoperire și integrare sporite  // Cercetarea acizilor  nucleici : jurnal. - 2013. - Vol. 41 . - P. D808-D815 . - doi : 10.1093/nar/gks1094 . — PMID 23203871 .
  3. 1 2 3 4 5 6 D. Szklarczyk colab. Baza de date STRING în 2011: rețele de interacțiune funcțională a proteinelor, integrate și punctate la nivel global  // Cercetarea acizilor  nucleici : jurnal. - 2011. - Vol. 39 . - P. D561-D568 . - doi : 10.1093/nar/gkq973 . — PMID 21045058 .
  4. 1 2 3 4 L. Jensen colab. STRING 8—o viziune globală asupra proteinelor și a interacțiunilor lor funcționale în 630 de organisme  // Cercetarea acizilor  nucleici : jurnal. - 2009. - Vol. 37 . - P. D412-D416 . - doi : 10.1093/nar/gkn760 . — PMID 18940858 .
  5. 1 2 3 C. Von Mering colab. ȘIRUL 7 — evoluții recente în integrarea și predicția interacțiunilor proteinelor  // Cercetarea acizilor  nucleici : jurnal. - 2007. - Vol. 35 . - P. D358-D362 . doi : 10.1093 / nar/gkl825 . — PMID 17098935 .
  6. 1 2 3 4 5 6 C. Von Mering colab. ȘIR: asocieri cunoscute și prezise proteină-proteină, integrate și transferate între organisme  // Cercetarea acizilor  nucleici : jurnal. - 2005. - Vol. 33 . - P. D433-D437 . - doi : 10.1093/nar/gki005 . — PMID 15608232 .
  7. 1 2 C. Von Mering colab. STRING: o bază de date de asocieri funcționale prezise între proteine  ​​//  Acizi nucleici de cercetare : jurnal. - 2003. - Vol. 31 . - P. 258-261 . - doi : 10.1093/nar/gkg034 . — PMID 12519996 .
  8. 1 2 3 4 B. Snel și colab. STRING: un server web pentru a prelua și afișa vecinătatea care apare în mod repetat al unei gene  // Cercetarea acizilor  nucleici : jurnal. - 2000. - Vol. 28 . - P. 3442-3444 . doi : 10.1093 / nar/28.18.3442 . — PMID 10982861 .
  9. 1 2 3 M. Huynen și colab. Predicția funcției proteinelor în funcție de context genomic: evaluare cantitativă și inferențe calitative   // ​​Cercetarea genomului : jurnal. - 2000. - Vol. 10 . - P. 1204-1210 . - doi : 10.1101/gr.10.8.1204 . — PMID 10958638 .
  10. M. Galperin și colab. Acoperire extinsă a genomului microbian și adnotare îmbunătățită a familiei de proteine ​​în baza de date COG  // Cercetarea acizilor  nucleici : jurnal. - 2015. - Vol. 43 . - P. D261-D269 . - doi : 10.1093/nar/gku1223 . — PMID 25428365 .
  11. S. Powell și colab. eggNOG v4.0: inferență ortologică imbricată în 3686 de organisme  // Cercetarea acizilor  nucleici : jurnal. - 2014. - Vol. 42 . - P. D231-D239 . - doi : 10.1093/nar/gkt1253 . — PMID 24297252 .
  12. M. Price și colab. Formarea operonilor este condusă de coreglare și nu de transferul orizontal al genelor  // Cercetarea  genomului : jurnal. - 2005. - Vol. 15 . - P. 809-819 . - doi : 10.1101/gr.3368805 . — PMID 15930492 .
  13. A. Enright et al. Hărți de interacțiune a proteinelor pentru genomi completi bazate pe evenimente de fuziune a genelor  (engleză)  // Nature : journal. - 1999. - Vol. 402 . - P. 86-90 . - doi : 10.1038/47056 . — PMID 10573422 .
  14. T. Rattei et al. SIMAP — o bază de date cuprinzătoare de asemănări, domenii, adnotări și clustere de secvențe de proteine ​​precalculate  // Cercetarea acizilor  nucleici : jurnal. - 2010. - Vol. 38 . - P. D223-D226 . doi : 10.1093 / nar/gkp949 . — PMID 19906725 .
  15. F. Ciccarelli et al. Toward Automatic Reconstruction of a Highly Resolved Tree of Life  (Engleză)  // Science : journal. - 2006. - Vol. 311 . - P. 1283-1287 . - doi : 10.1126/science.1123061 . — PMID 16513982 .
  16. Cytoscape. STRINGApp . Preluat la 15 mai 2017. Arhivat din original la 20 mai 2017.

Link -uri