Pfam

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită pe 12 iulie 2019; verificările necesită 8 modificări .

Pfam  este o bază de date cu familii de domenii proteice . Fiecare familie din ea este reprezentată de o aliniere multiplă a fragmentelor de secvență de proteine ​​și de un model Markov ascuns (HMM) . În martie 2021, Pfam conținea 19.179 de înregistrări (familii) unite în 645 de clanuri [1] .

Istorie

Baza de date Pfam a fost fondată în 1997 de către cercetătorii de la Institutul Sanger [2] și este întreținută activ de un consorțiu de oameni de știință din diferite țări [3] . Din 2011, există articole în Wikipedia în limba engleză [4] pentru înregistrări cu o adnotare funcțională cunoscută . La începutul anului 2021, cel puțin un domeniu descris în Pfam a fost detectat în 77% din secvențele de baze de date UniProt, aceste domenii acoperă 53,2% din lungimea totală a acestor secvențe [5] .

Revista Nucleic Acids Research publică periodic articole care descriu dezvoltarea și starea Pfam [6] . Versiunea actuală a Pfam 34.0 este construită pe baza de date Pfamseq bazată pe versiunea UniProt KB 2020_06 [7] . Pfamseq conține 57 de milioane de secvențe de aminoacizi cu o lungime totală de 21,7 miliarde de resturi de aminoacizi [8] .

Structura Pfam

Există două categorii de familii de domenii proteice în Pfam: Pfam-A și Pfam-B. Domeniile nu se suprapun - nu există proteine ​​în baza de date în care cel puțin un reziduu de aminoacizi să aparțină simultan la două domenii diferite. Unele familii care au o origine evolutivă comună și au păstrat asemănări la nivel de secvențe sau structuri sunt unite în clanuri. Colecția de clanuri se numește Pfam-C.

Pfam-A

Pfam-A conține familii care sunt selectate manual. Pentru a forma fiecare familie Pfam-A, se construiește un aliniament de semințe din membrii săi cei mai reprezentativi. Pe baza acestuia, este creat un model Markov ascuns (HMM) , numit și profil . Acesta constă în stări de potrivire, inserare și ștergere pentru fiecare coloană de aliniere multiplă , cu probabilități de emisie atribuite pentru toți aminoacizii din prima dintre aceste stări [2] . Aceste probabilități de emisie sunt prezentate pentru fiecare familie pe pagina sa sub formă de logo secvență .

După aceea, se efectuează o căutare folosind HMM-ul primit în baza de date Pfamseq corespunzătoare celei mai recente ediții UniProtKB . Toate secvențele pentru care scorul de potrivire HMM depășește un anumit prag setat manual pentru fiecare familie sunt incluse în alinierea completă. Dacă se dovedește că unii membri ai familiei nu sunt găsiți la căutarea cu HMM, alinierea multiplă originală este editată pentru a obține rezultatul optim [2] . HMM-urile rezultate sunt stocate în baza de date Pfam și pot fi utilizate pentru a căuta domenii în secvențe noi de proteine ​​prin intermediul unei interfețe web .

Descrierile familiei sunt predominant conținute în Wikipedia și sunt deschise pentru editare publică. Cu toate acestea, trebuie remarcat faptul că mai mult de un sfert din toate familiile nu au o adnotare funcțională, astfel de domenii sunt desemnate ca DUF (Domain of unknown function). De asemenea, fiecare familie conține informații despre reprezentarea ei în diverși taxoni , variante ale structurii domeniului proteinelor care o conțin și un arbore filogenetic al alinierii inițiale. Acolo unde este posibil, sunt disponibile date iPfam privind interacțiunile proteină-proteină.Arhivat 12 iunie 2020 la Wayback Machine și link-uri către structuri 3D din baza de date PDB .

Pfam-B

Pe lângă familiile selectate manual, Pfam conține familii Pfam-B generate automat folosind programul MMSeqs2 . Ele nu au o adnotare funcțională și sunt, în general, de o calitate semnificativ mai slabă decât familiile Pfam-A. Unele dintre ele reprezintă regiuni de complexitate scăzută și nu reflectă adevărata relație a secvențelor de proteine, așa că se recomandă verificarea omologiei membrilor familiilor Pfam-B folosind alte metode, precum BLAST . Alinierea secvenței de proteine ​​pentru familiile Pfam-B nu sunt disponibile prin interfața web Pfam, dar pot fi descărcate ca fișier zip.

Clanuri

Clanurile (Pfam-C) sunt asociații de familii de domenii proteice care au o origine evolutivă comună. Compararea structurilor de domenii 3D este standardul de aur pentru formarea clanurilor, în lipsa căruia, asemănarea marcată a profilurilor (care poate fi determinată cu ajutorul programului HHsearch ) sau similitudinea rezultatelor căutării bazei de date folosind profile diferite (determinate de programul SCOOP ) poate fi de asemenea folosit. Pentru clanuri, precum și pentru familiile Pfam-A, sunt furnizate o aliniere generală a tuturor membrilor săi, informații despre distribuția taxonilor, date despre interacțiunile proteină-proteină și legături către structuri tridimensionale.

Clasificarea înregistrărilor

O înregistrare Pfam este un set de regiuni similare de secvențe de proteine. Toate înregistrările sunt atribuite unuia dintre cele șase tipuri [4] :

  1. Familie ( Familie ) - tip de bază, un set de site-uri înrudite ( omoloage );
  2. Domeniul ( Domeniul ) este o unitate structurală stabilă, sau cel puțin un sit funcțional, găsit în diferite arhitecturi de proteine;
  3. Repeat ( Repeat ) - o secțiune scurtă care este instabilă în mod izolat, dar formează o structură stabilă atunci când există mai multe copii ale acesteia;
  4. Motiv ( Motiv ) - o regiune scurtă conservată în afara domeniilor globulare;
  5. Coiled -Coil ( bloc Superspiral ) - zone care formează superbobine, de ex. fascicule de 2-7 elice alfa răsucite;
  6. Dezordonat ( bloc nestructurat ) - zone conservatoare cu o compoziție de aminoacizi deplasată care nu formează o structură stabilă (globulară).

Adesea se folosește termenul de familie (familie), inclusiv pe site-ul Pfam, în locul termenului de intrare (înregistrare), ceea ce creează o confuzie considerabilă.

Caracteristici

Site-ul Pfam oferă acces interactiv la date, precum și posibilitatea de a vizualiza datele grafic.

Fereastra „Salt la...”, prezentă pe majoritatea paginilor Pfam, vă permite să căutați rapid familii sau clanuri după identificator (ID) sau cod de acces (accesare). În partea de sus a oricărei pagini Pfam, există și o casetă de căutare prin cuvinte cheie pentru familii, „căutare prin cuvinte cheie” [9] .

Căutând o secvență de proteine ​​în biblioteca HMM din Pfam, se poate afla arhitectura domeniului acesteia. Pentru multe secvențe de proteine ​​cunoscute, aceasta a fost deja calculată: pentru a o vizualiza, trebuie să introduceți identificatorul secvenței sau codul de acces în fereastra filei „Vizualizați o secvență” de pe pagina principală a site-ului. Dacă secvența nu este recunoscută de Pfam, puteți folosi pagina de căutare , unde trebuie să introduceți secvența de aminoacizi sau nucleotide [9] .

Dacă trebuie să căutați un număr mare de secvențe, puteți încărca un fișier cu secvențe în format FASTA în fila Căutare în lot a paginii de căutare , în timp ce fiecare fișier nu trebuie să conțină mai mult de 5000 de secvențe. În acest caz, utilizatorul primește rezultatele în 48 de ore prin adresa de e-mail, care trebuie specificată și pe pagina de căutare [9] . De asemenea, este posibil să căutați local folosind scriptul „pfam_scan.pl”. Acest lucru va necesita software-ul HMMER3 , bibliotecile HMM și alte câteva fișiere suplimentare care pot fi găsite pe site-ul web Pfam [9] .

Pfam a calculat arhitecturi de domenii pentru proteomi de bază Integr8 [10] . Accesul la aceste date este deschis în coloana „Proteomes” din pagina „Răsfoiește” . Pentru organismele prezentate aici, sunt disponibile informații despre compoziția domeniului și arhitecturile de domenii ale proteinelor lor.

Pfam oferă, de asemenea, capacitatea de a căuta proteine ​​după arhitectura domeniului. Pentru a face acest lucru, în fila „Arhitectura domeniului” a paginii de căutare, într-o fereastră specială, trebuie să selectați domenii care ar trebui sau nu ar trebui să fie incluse în proteina țintă. De asemenea, puteți utiliza aplicația Java mai avansată PfamAlyzer [11] .

Note

  1. Pfam 34.0 este lansat . Preluat la 25 martie 2021. Arhivat din original la 24 martie 2021.
  2. 1 2 3 Sonnhammer et al, 1997 .
  3. Consorțiul Pfam . Consultat la 27 aprilie 2015. Arhivat din original la 16 ianuarie 2019.
  4. 12 Punta și colab., 2012 .
  5. Mistry et al, 2021 .
  6. Pfam: Referințe și Bibliografie . Consultat la 27 aprilie 2015. Arhivat din original la 16 ianuarie 2019.
  7. Pfam: Despre . Consultat la 30 aprilie 2015. Arhivat din original pe 16 ianuarie 2019.
  8. Pfam notele versiunii 34.0 . Preluat la 13 iunie 2020. Arhivat din original la 14 iunie 2021.
  9. 1 2 3 4 Pfam: Ajutor . Consultat la 27 aprilie 2015. Arhivat din original la 16 ianuarie 2019.
  10. integr8 < EMBL-EBI . Consultat la 30 aprilie 2015. Arhivat din original la 7 noiembrie 2018.
  11. Hollich & Sonnhammer, 2007 .

Literatură