Predicția structurii proteinelor

Predicția structurii proteinelor este o  direcție de modelare moleculară , predicția structurii tridimensionale a proteinei [ 1] ( secundar , terțiar sau cuaternar ) de către secvența de aminoacizi . Această sarcină este unul dintre cele mai importante obiective ale bioinformaticii și chimiei teoretice . Datele de predicție sunt utilizate în medicină (de exemplu, în produse farmaceutice ) și biotehnologie în crearea de noi enzime ).

Introducere

Cantități uriașe de date de secvențiere a proteinelor au devenit disponibile ca urmare a eforturilor de secvențiere a ADN -ului la scară largă , cum ar fi Proiectul genomului uman . În ciuda eforturilor întregii comunități în domeniul genomicii structurale , numărul de structuri de proteine ​​determinate experimental - de obicei folosind cristalografie cu raze X sau spectroscopie RMN care necesită multă  muncă și relativ costisitoare  - rămâne cu mult în urma numărului de secvențe de proteine , ceea ce face ca predicția structurii terțiare a proteinelor extrem de solicitată [2] .

Predicția structurii unei proteine ​​rămâne o problemă extrem de dificilă și nerezolvată. Cele două probleme principale sunt calculul energiei libere și găsirea minimului global al acestei energii [3] . O metodă de predicție a structurii proteinei trebuie să exploreze spațiul tuturor structurilor proteice posibile, care este astronomic mare. Aceste probleme pot fi parțial ocolite prin modelare comparativă (omologă) și metode de recunoaștere a pliurilor , în care spațiul de căutare este redus datorită presupunerii că proteina în cauză adoptă o structură apropiată de structura determinată experimental a unei alte proteine ​​omoloage . Pe de altă parte, metodele ab initio de predicție a structurii proteinei ar trebui să rezolve în mod explicit aceste probleme fără a se baza pe ipotezele inițiale [4] [5] .

În decembrie 2020, echipa DeepMind (divizia de cercetare a Google ) a anunțat că a rezolvat problema științifică fundamentală a predicției structurii proteinelor. Programul, dezvoltat de companie și bazat pe rețele neuronale, a reușit să prezică structura proteinei cu mare precizie. [6]

Structura proteinei

Structura secundară a unei proteine

Alpha Helix

Helixul alfa este cel mai comun tip de structură secundară în proteine. Helixul alfa are 3,6 aminoacizi pe tură, iar între fiecare al patrulea rest se formează o legătură H ; lungimea medie este de 10 aminoacizi (3 spire) sau 10 Å , dar variază de la 5 la 40 (1,5 la 11 spire). Alinierea legăturilor H creează un moment dipol pentru helix, cu o sarcină parțială netă pozitivă la capătul amino al helixului. Cea mai comună locație a elicelor α este pe suprafața proteinelor, unde acestea asigură interacțiunea cu mediul apos [7] .

Partea interioară a helixului conține de obicei aminoacizi hidrofobi și partea exterioară aminoacizi hidrofili . Astfel, fiecare treime din cei patru aminoacizi din lanț va fi hidrofob și, prin urmare, acest aminoacid poate fi ușor detectat. Într -un fermoar de leucină, modelul repetat al reziduurilor de leucină pe părțile exterioare a două elice adiacente este în mare măsură indicativ al structurii. Alte elice α, găsite în miezul hidrofob al proteinei sau în domeniile transmembranare ale proteinelor , au un procent mai mare de aminoacizi hidrofobi care sunt distribuiti mai uniform de-a lungul lanțului, care servește și ca un bun marker pentru aceste părți ale proteinelor. . Conținutul calitativ de aminoacizi poate fi un bun marker pentru regiunea α-helical. Regiuni cu o concentrație mare de diverși aminoacizi , cum ar fi alanină (A), acid glutamic (E), leucină (L) și metionină (M), precum și concentrații mai slabe de prolină (P), glicină (G), tirozină (Y ) și serina (S) tind să formeze un α-helix [8] [9] .

β-list

Plăcile β sunt formate din legături H între o medie de 5-10 aminoacizi consecutivi într-o parte a lanțului și alții 5-10 mai jos în lanț. Fiecare lanț poate rula în aceeași direcție, formând o foaie paralelă, dacă lanțurile merg în direcții diferite, atunci se formează o foaie anti-paralelă. Natura legăturii H este diferită în configurația paralelă și anti-paralelă. Unghiurile ψ și φ ale aminoacizilor din foi variază considerabil într-o zonă a hărții Ramachandran . Prezicerea locației foilor β într-o structură de proteine ​​este mai dificilă decât prezicerea elicelor α [10] [11] .

Buclă

Buclele sunt regiuni ale lanțului proteic care se află între elice α și foile β, de diferite lungimi și configurații tridimensionale, și pot fi localizate atât pe suprafața proteinei, cât și mai aproape de nucleu [12] .

Buclele în ac de păr, care reprezintă o întorsătură completă în lanțul polipeptidic care conectează două catene β antiparalele, pot avea o lungime de până la doi aminoacizi. Buclele pot interacționa cu mediul (apa și alți solvenți) și alte proteine. Deoarece geometria aminoacizilor din bucle nu este limitată în spațiu, ca aminoacizi în regiunea nucleului, unde lanțul este pliat foarte dens și nu afectează la fel de mult plierea corectă a proteinei, atunci poate exista să fie mai multe substituții, inserții și deleții care nu vor afecta funcțiile proteinei. . Astfel, atunci când secvențele sunt aliniate, prezența acestor mutații (inserții, deleții, substituții) poate indica o buclă. Pozițiile intronilor din ADN-ul genomic corespund uneori cu locațiile buclei din proteina codificată, buclele tind, de asemenea, să aibă aminoacizi încărcați și polari și sunt adesea o componentă a situsurilor de legare [13] .

Structura terțiară a unei proteine

Structura terțiară  - structura spațială (inclusiv conformația ) a tuturor elementelor structurii secundare, constând dintr-un singur lanț de aminoacizi. Spiralizarea unui lanț polipeptidic linear își reduce dimensiunea de aproximativ 4 ori; iar așezarea într-o structură terțiară o face de zece ori mai compactă decât lanțul original [14] .

Deoarece nici lanțul polipeptidic, nici elice α și foile β nu oferă o idee despre volumul , forma lanțului polipeptidic, cercetătorul se confruntă întotdeauna cu necesitatea de a determina configurația tridimensională sau spațială a proteinei. [cincisprezece]

Structura proteinei cuaternare

Structura cuaternară - o modalitate de așezare în spațiu a lanțurilor polipeptidice individuale care au aceeași (sau diferită) structură primară , secundară sau terțiară și formarea unei singure formațiuni macromoleculare din punct de vedere structural și funcțional. Specificitatea structurii cuaternare a proteinelor se manifestă într-o anumită autonomie conformațională a fragmentelor polipeptidice care alcătuiesc macromolecula proteică. Contribuția interacțiunilor hidrofobe la stabilizarea structurii terțiare și cuaternare a proteinelor este foarte semnificativă: în cazul structurii terțiare, acestea reprezintă mai mult de jumătate din forța de stabilizare. [16]

Multe proteine ​​sunt ansambluri ale mai multor lanțuri polipeptidice. Exemple de proteine ​​cu o structură cuaternară includ hemoglobina , ADN polimeraza și diverse canale ionice [17]

Predicția structurii proteinelor

Algoritmi de predicție a structurii secundare

Algoritmii de predicție a structurii secundare sunt un set de metode pentru prezicerea structurii secundare locale a proteinelor bazate doar pe cunoașterea secvenței lor de aminoacizi [18] . Pentru proteine, predicția constă în asocierea secțiunilor individuale ale secvenței de aminoacizi cu cele mai probabile clase de structuri secundare, cum ar fi elice α, catene β sau bucle [18] . Precizia predicției este definită ca raportul dintre numărul de aminoacizi pentru care clasa structurală prezisă se potrivea cu clasa structurală determinată pentru acel aminoacid de algoritmul DSSP [en] (sau un algoritm similar, de exemplu, algoritmul STRIDE ) și numărul total de aminoacizi din secvență. Acești algoritmi marchează secvența de aminoacizi a unei proteine ​​în conformitate cu apartenența aminoacizilor la una dintre clasele de structură secundară, care diferă prin modele specifice de legături de hidrogen și seturi de unghiuri diedrice. Pentru DSSP, acestea sunt 8 clase care pot fi combinate în trei grupuri: 3 clase de elice (α-helix, π-helix și 3 10 -helix), două clase de β-structuri (izolate β-punți și β-sheets) și trei tipuri de buclă (viraje, coturi și elemente neclasificate care îndeplinesc caracteristicile buclei) [19] . Cel mai adesea, pentru a evalua calitatea structurii, se folosește o clasificare simplificată, în care clasele din cadrul acestor trei grupuri sunt considerate identice [2] . Algoritmii pentru prezicerea structurii secundare a unei proteine ​​pot fi împărțiți condiționat în grupuri pe baza principiilor care stau la baza acestora. Aceste grupuri includ metode statistice, metode de vecin cel mai apropiat, metode care utilizează rețele neuronale, metode de suport vector și metode bazate pe modele Markov ascunse . [douăzeci]

Unii dintre acești algoritmi sunt discutați mai jos.

Metoda statistică Chow-Fasman se bazează pe calcularea unei estimări a probabilității ca un anumit aminoacid să aparțină unei anumite clase de structură secundară în bazele de date. Predicția se face cu privire la trei clase de structuri secundare: buclă, β-frunză și rotație. Scopul algoritmului este de a găsi un segment din numărul de aminoacizi consecutivi determinat pentru fiecare clasă de structură secundară, pentru fiecare dintre care estimarea probabilității de apartenență la această clasă de structură secundară este mai mare decât o valoare dată. La ieșire, astfel de algoritmi produc segmente prezise în acest fel pentru fiecare dintre cele trei clase principale de structuri secundare, mapate pe o secvență. [21]

Primul pas al metodei celui mai apropiat vecin ( algoritmul NNSSP ) este găsirea unei secvențe omoloage pentru care este cunoscută structura tridimensională. Având în vedere caracteristicile structurale locale ale unui anumit rest de aminoacid în structura tridimensională a secvenței omoloage, cum ar fi accesibilitatea solventului, polaritatea și structura secundară, fiecărui rest de aminoacid i se atribuie o „clasă de mediu”. Evaluarea probabilității ca un aminoacid din centrul segmentului studiat de lungime n aminoacizi să aparțină unei anumite clase de structură secundară se calculează ca logaritmul frecvenței acestui aminoacid aflat în mediu, la care majoritatea vecinii săi aparțin, în baze de date. [22]

Unul dintre algoritmii care utilizează rețele neuronale, PSIPRED , include patru pași principali: generarea unei matrice de greutate pozițională folosind PSI-BLAST , predicția primară a structurii secundare și filtrarea ulterioară a predicțiilor. A doua și a treia etapă implică două rețele neuronale. Pentru a determina dacă un aminoacid aparține unei anumite clase de structură secundară, un fragment dintr-o matrice de greutate pozițională cu dimensiunea de 33x21 este alimentat la intrarea primei rețele neuronale, corespunzător unui fragment din secvența originală de 33 de aminoacizi cu aminoacidul de interes din centru [23] . Această rețea are două straturi ascunse și trei noduri de ieșire corespunzătoare celor trei clase de structuri secundare prezise. A doua rețea neuronală este folosită pentru a filtra predicțiile primei rețele și are, de asemenea, trei noduri de ieșire pentru fiecare clasă de structură secundară în poziția centrală a ferestrei studiate. La ieșire, algoritmul produce o marcare a secvenței de aminoacizi de către elementele structurii secundare. [24]

În plus față de cele de mai sus, algoritmii clasici care folosesc modele Markov ascunse, cum ar fi algoritmul înainte-înapoi , algoritmul Viterbi și algoritmul Baum-Welsh , pot fi optimizați pentru a asocia o secvență de aminoacizi cu clase de structuri secundare. [25]

Cele mai bune metode moderne de determinare a structurii secundare a unei proteine ​​ating o precizie de aproximativ 80% [26] . Precizia metodelor actuale de predicție a structurilor secundare este evaluată de resurse actualizate săptămânal, cum ar fi LiveBench arhivat 12 aprilie 2020 la Wayback Machine și EVA arhivat 24 februarie 2020 la Wayback Machine [27] .

Algoritmi de predicție a structurii terțiare

Pregătire primară

Majoritatea metodelor de modelare a structurii terțiare sunt optimizate pentru modelarea structurii terțiare a domeniilor individuale de proteine. O etapă numită analiza limitei domeniului sau predicția limitei domeniului este de obicei efectuată mai întâi pentru a separa proteina în domenii structurale potențiale. Ca și în cazul celorlalți pași de predicție a structurii terțiare, acest lucru se poate face prin comparație cu structurile cunoscute sau ab initio numai prin secvență (de obicei prin învățarea automată care implică covarianță ) [28] [29] . Structurile domeniilor individuale sunt combinate într-o structură terțiară finală într-un proces numit asamblare de domenii [30] .

Metode bazate pe energie

Metodele de modelare ab initio urmăresc să creeze modele de proteine ​​tridimensionale de la zero, adică se bazează pe principii fizice mai degrabă decât direct pe date structurale derivate experimental. Există multe abordări posibile care fie încearcă să mimeze plierea proteinelor, fie să aplice metode stocastice pentru a găsi soluții posibile (adică, căutarea maximului global al unei anumite funcții energetice ) [31] . Aceste abordări tind să fie intensive din punct de vedere computațional și, prin urmare, pot fi aplicate numai proteinelor mici. Predicția ab initio a structurii proteinelor pentru proteine ​​mai mari necesită algoritmi mai sofisticați și resurse de calcul mai mari, reprezentate fie de supercalculatoare puternice (cum ar fi Blue Gene sau MDGRAPE-3 ) fie de calcul distribuit (cum ar fi Folding@home , Human Proteome Folding Project și Rosetta @Home ). ) [32] .

Secvențe coevolutive în predicția contactului 3D

Pe măsură ce secvențierea a devenit mai comună în anii 1990, mai multe grupuri de cercetători au folosit alinierea secvenței proteinelor pentru a prezice mutațiile corelate și s-a sperat că aceste reziduuri în coevoluție ar putea fi folosite pentru a prezice structura terțiară . Se are în vedere că atunci când o mutaţie a unui rest de aminoacid nu este letală, poate apărea o mutaţie compensatorie pentru a stabiliza interacţiunile dintre resturi. În primele lucrări, așa-numitele metode locale au fost folosite pentru a calcula mutațiile corelate în secvențele de proteine, în timp ce datorită luării în considerare independente a fiecărei perechi de reziduuri, au apărut corelații false [33] [34] .

În 2011, o altă abordare statistică a demonstrat că reziduurile de coevoluție prezise sunt suficiente pentru a prezice plierea tridimensională a proteinei, cu condiția să fie disponibile suficiente secvențe (sunt necesare > 1000 de secvențe omoloage) [35] . Metoda EVfold nu folosește modelarea omologiei și poate fi rulată pe un computer personal standard chiar și pentru proteine ​​cu sute de reziduuri. Precizia predictivă a acestui lucru și a abordărilor asociate a fost demonstrată pe multe structuri și hărți de contact [36] [37] [38] .

Modelarea comparativă a structurii proteinelor

Modelarea comparativă a structurii proteinelor folosește ca puncte de plecare structurile obținute anterior folosind metode experimentale. Acest lucru este eficient deoarece, aparent, deși numărul de proteine ​​existente este uriaș, numărul de motive structurale terțiare , cărora le aparțin majoritatea proteinelor , este limitat [4] .

Aceste metode pot fi, de asemenea, împărțite în două grupe [39] :

  1. Modelarea omologiei se bazează pe presupunerea că proteinele omoloage au o structură similară. Deoarece pliul proteic este mai conservat decât secvența sa de aminoacizi , structura proteinei studiate poate fi prezisă cu o bună acuratețe, chiar dacă este legată la distanță de proteina utilizată ca șablon, cu condiția ca omologia dintre șablon și țintă. proteina poate fi urmărită prin alinierea secvenței [40] . S-a sugerat că principala slăbiciune a modelării comparative constă mai degrabă în inexactitățile aliniamentelor decât în ​​erorile de predicție a structurii, având în vedere o aliniere bună cunoscută [41] . Nu este surprinzător, modelarea omologiei obține cele mai bune rezultate atunci când proteina țintă și șablonul au secvențe similare. [patru]
  2. Recunoașterea pliurilor caută o secvență de aminoacizi pentru care o structură este necunoscută într-o bază de date de structuri cunoscute [42] . În fiecare caz, funcția de scor este utilizată pentru a evalua compatibilitatea secvenței cu structura, ceea ce vă permite să obțineți un set de posibile modele tridimensionale. Acest tip de tehnică este cunoscut și sub numele de recunoaștere a pliului 3D-1D datorită analizei de compatibilitate între structurile 3D și secvențele liniare de proteine . [43]
Predicția geometriei radicalilor laterali

Predicția precisă a locației radicalilor laterali de aminoacizi în structură este o problemă separată în predicția structurii proteinei. Metodele care rezolvă problema predicției geometriei radicale laterale includ eliminarea blocajului și metodele de câmp auto-consistente [44] [45] . Conformațiile catenei laterale cu energie scăzută sunt de obicei definite pe o coloană rigidă de polipeptidă și utilizează un set de conformații discrete ale lanțului lateral , „rotameri”. Principiul de funcționare a unor astfel de metode este căutarea unui set de rotameri care să minimizeze energia totală a modelului [40] .

Aceste metode folosesc biblioteci de rotameri, care sunt seturi de conformații favorabile pentru fiecare tip de reziduu dintr-o proteină. Bibliotecile Rotamer pot conține informații despre conformație, frecvența acesteia și abaterile standard în raport cu valorile medii ale unghiurilor de torsiune, care pot fi utilizate în selecția opțiunilor [46] . Bibliotecile Rotamer sunt generate de bioinformatica structurală sau alte analize statistice ale conformațiilor lanțului lateral în structurile proteinelor cunoscute experimental. Bibliotecile Rotamer pot fi independente de coloana vertebrală , dependente de structura secundară sau dependente de coloana vertebrală. Bibliotecile de rotameri independente de coloană vertebrală nu utilizează informații de conformare a coloanei vertebrale și sunt calculate din toate lanțurile laterale disponibile de un anumit tip (de exemplu, primul exemplu de bibliotecă de rotameri realizat de Ponder și Richards la Universitatea Yale în 1987 [47] ). Bibliotecile dependente de structura secundară sunt diferite unghiuri de torsiune și/sau frecvențe rotamer pentru clase de structuri secundare (helix alfa, foaie beta sau buclă [48] ). Bibliotecile de rotameri dependente de coloana vertebrală sunt conformații și (sau) frecvențele acestora, în funcție de conformația locală a lanțului principal, care este determinată de unghiurile de torsiune phi și psi și nu depinde de structura secundară [49] . Versiunile moderne ale acestor biblioteci, utilizate în majoritatea programelor, sunt prezentate ca distribuții de probabilitate sau frecvență multivariate, unde vârfurile corespund conformațiilor unghiului de torsiune considerate ca rotameri separați. [cincizeci]

Algoritmi de predicție a structurii cuaternare

Andocare proteine-proteine

Andocarea proteină-proteină (sau interacțiunea proteină-proteină (PPI) ) este o metodă de modelare moleculară care permite prezicerea orientării și conformației cele mai favorabile a unei molecule (ligand) în centrul de legare al altuia (receptor) pentru formarea unui complex stabil. Datele despre poziția și conformația proteinelor partenere sunt utilizate pentru a prezice puterea interacțiunii prin așa-numitele funcții de scoring. [51]

Metode de calcul pentru prezicerea interacțiunilor proteină-proteină

Deoarece nu există încă date complete despre interactom și nu au fost găsite toate interacțiunile proteină-proteină, sunt utilizate diferite metode de calcul în reconstrucția hărților de semnalizare sau metabolice ale interacțiunilor. Acestea vă permit să umpleți golurile prin prezicerea prezenței anumitor interacțiuni între nodurile rețelei. Cu ajutorul metodelor de calcul, este posibil să se prezică nu numai posibilitatea WBV, ci și puterea lor [52] .

Următoarele sunt câteva abordări computaționale pentru prezicerea interacțiunilor proteină-proteină:

  • Căutarea evenimentelor de fuziune a domeniului de gene sau proteine : fuziuni de gene , care adesea înseamnă și fuziunea domeniului, pot fi folosite pentru a căuta o relație funcțională între proteine. Aceasta folosește presupunerea că fuziunea acestor gene în timpul evoluției a fost facilitată de selecție [53] .
  • Genomica comparativă și metode de grupare a genelor : adesea genele care codifică proteine ​​cu funcție similară sau proteine ​​care interacționează sunt în același operon (în cazul bacteriilor) sau sunt co-reglate (coreglare) (în cazul eucariotelor). Astfel de gene sunt de obicei localizate aproape în genom. Metodele de grupare a genelor estimează probabilitatea de apariție concomitentă a ortologilor de proteine ​​care codifică gene din același cluster. Astfel de abordări ajută la dezvăluirea interacțiunii funcționale dintre proteine, mai degrabă decât contactul lor fizic [52] .
  • Metode bazate pe profiluri filogenetice : în astfel de metode, se presupune că, dacă proteinele neomogene sunt legate funcțional, atunci există posibilitatea ca acestea să intre în PPI și să coevolueze. Pentru a găsi o relație funcțională între proteine, se utilizează gruparea după profiluri filogenetice ale acestor proteine, sau se estimează probabilitatea de apariție concomitentă a proteinelor în diferiți proteomi [52] . Ideea că proteinele care interacționează au adesea arbori filogenetici similari din punct de vedere topologic este folosită în metoda arborelui în oglindă [54] .
  • Metode de predicție bazate pe omologie : Această abordare presupune că proteinele studiate vor interacționa între ele dacă se știe că omologii lor interacționează. Astfel de perechi de proteine ​​din diferite organisme, care și-au păstrat capacitatea de a interacționa între ele în timpul evoluției, se numesc interologi . Exemple de servicii care utilizează această metodă sunt PPISearch și BIPS [52] .
  • Predicție bazată pe datele de co-expresie a genelor : dacă proteinele studiate codifică gene cu modele de expresie similare ( profil similar și nivel de expresie ) la intervale de timp diferite, atunci se poate presupune că aceste proteine ​​sunt legate funcțional și, eventual, interacționează cumva cu fiecare. altele [ 55] .
  • Metode bazate pe topologia rețelei : rețelele BWV pot fi reprezentate ca un grafic în care nodurile sunt proteine ​​și fiecare margine reprezintă o interacțiune între proteine. Cu ajutorul unei interpretări matematice a rețelei PPI (de exemplu, sub forma unei matrice de adiacență ), se poate determina modul în care proteinele sunt legate funcțional între ele, precum și se poate prezice noi PPI. Dacă două proteine ​​au o mulțime de parteneri comuni în rețea, atunci cel mai probabil ele iau parte la același proces biologic și pot interacționa potențial una cu cealaltă [52] .
  • Abordarea in-silico cu două hibride : ipoteza principală a acestei metode este că proteinele care interacționează co-evoluează pentru a menține funcționalitatea. Această metodă analizează aliniamente multiple ale unei familii de proteine ​​și caută mutații corelate pentru a prezice PPV și a căuta baze în situsul de legare [56] .
  • Predicția PPI bazată pe structură : Această abordare permite nu numai să se afle dacă proteinele pot interacționa, ci și să se caracterizeze această interacțiune (de exemplu, caracteristicile sale fizice sau aminoacizii care formează suprafața de interacțiune a două proteine). Una dintre metodele care utilizează structura tridimensională a proteinelor este andocarea . Aceasta include și metode care presupun conservatorismul evolutiv al bazelor care alcătuiesc suprafața de interacțiune. Astfel, pe baza unor structuri deja cunoscute, este posibil să se prezică cum va arăta complexul multimolecular al proteinelor studiate [52] .
  • Metode bazate pe machine learning sau text mining : bazată pe machine learning, a fost dezvoltată o metodă de predicție a PPI care utilizează numai secvențele proteinelor studiate [57] . Acest lucru face posibilă analizarea, deși mai puțin precisă, a unui număr mai mare de interacțiuni posibile, deoarece numai secvențele de aminoacizi sunt folosite pentru lucru. Text mining caută legături între proteine ​​luând în considerare mențiunea lor reciprocă în propoziții sau paragrafe ale diferitelor blocuri de text [58] .


CASP

CASP (din engleză.  Critical Assessment of protein Structure Prediction  - o evaluare critică a predicției structurilor proteinelor) este un experiment la scară largă privind predicția structurilor proteinelor. Are loc din 1994 cu o frecvență de doi ani [59] . CASP testează în mod obiectiv metodele de predicție a structurii proteinelor și oferă o evaluare independentă a modelării structurale. Scopul principal al CASP este de a ajuta la îmbunătățirea metodelor de determinare a structurii tridimensionale a proteinelor din secvențele lor de aminoacizi . Peste 100 de grupuri de cercetare participă la proiect în mod continuu. Unul dintre principiile principale ale CASP este că participanții nu au nicio informație prealabilă despre proteină, în afară de secvența de aminoacizi. Din acest motiv, CASP folosește o metodă dublu-orb  - nici organizatorii, nici experții, nici participanții nu cunosc structura proteinelor testate până la finalul etapei de predicție. Proteinele testate sunt cel mai adesea structuri nerezolvate obținute prin analiza de difracție cu raze X și RMN [60] .

Acest eveniment ajută la compararea metodelor avansate de predicție a structurilor proteinelor și căutarea unui algoritm „ideal” care poate prezice structura terțiară a unei proteine ​​numai din secvența de aminoacizi [61] .

Ultimul CASP13 a fost câștigat de echipa care a folosit rețeaua neuronală AlphaFold . Deci, cel mai probabil, predicția structurilor proteinelor în viitor se va face folosind rețele neuronale [62] .


Foldit

Foldit este un puzzle online de pliere a proteinelor. Jocul face parte dintr-un proiect de cercetare și este dezvoltat la Universitatea din Washington . Scopul jocului este de a plia structura proteinelor selectate în cel mai bun mod posibil; cele mai bune soluții pentru utilizatori sunt analizate de oamenii de știință, care le pot folosi pentru a rezolva probleme științifice reale legate de căutarea vaccinurilor și a inovațiilor biologice. Majoritatea celor mai buni jucători Foldit nu au experiență în biochimie [63] .

Scopul acestui joc este de a prezice structura tridimensională a unei anumite proteine ​​cu cel mai scăzut nivel de energie liberă [64] . Fiecare sarcină este publicată pe site pentru o anumită perioadă, timp în care utilizatorii concurează între ei.

În timpul jocului, jucătorii manipulează în mod interactiv molecula schimbând unghiurile coloanei vertebrale a proteinei și, de asemenea, aranjamentul radicalilor de aminoacizi. Jucătorii pot să stabilească restricții în anumite zone („benzi de cauciuc”) sau să le „înghețe”. Utilizatorii au, de asemenea, o bară de instrumente pentru efectuarea sarcinilor automate, cum ar fi comanda „wiggle” pentru a minimiza energia la nivel local.

Utilizatorul primește informații despre cât de bine reușește să plieze proteina, sub formă de puncte care sunt acordate, în special, pentru formarea de noi legături de hidrogen, ascunderea reziduurilor hidrofobe în interiorul moleculei etc. Programul oferă, de asemenea, indicii jucătorilor, de exemplu, evidențiază zone în care anumite grupuri se suprapun și ar trebui diluate, zone hidrofobe deschise care ar trebui ascunse de efectele apei etc. Site-ul permite utilizatorilor să împărtășească și să discute soluții între ei [63] .


Istorie

Unul dintre primii algoritmi de predicție a structurii secundare a unei proteine ​​a fost metoda Chou - Fasman ,  bazată în primul rând pe parametri probabilistici determinați folosind frecvențele relative de apariție a fiecărui aminoacid în fiecare tip de structuri secundare [21] . Precizia metodei Chow-Fasman este de aproximativ 50-60% [65] .

Următorul program demn de remarcat a fost metoda GOR , numită după primele litere ale numelor dezvoltatorilor săi, o metodă bazată pe teoria informației [66] . Utilizează metoda probabilistică a inferenței bayesiene [66] . Metoda GOR ia în considerare nu numai probabilitatea ca un aminoacid de un anumit tip să fie inclus într-o anumită structură secundară, ci și probabilitatea condiționată ca un aminoacid să fie inclus în această structură secundară, ținând cont de contribuția vecinilor săi. (nu se presupune că vecinii au aceeași structură) [ 66] . Metoda inițială GOR a avut o acuratețe de aproximativ 65% și a avut mult mai mult succes în prezicerea elicelor alfa decât a elicelor beta , pe care frecvent le-a estimat greșit ca bucle sau patch-uri dezorganizate 65] .

Un alt mare pas înainte a fost folosirea metodelor de învățare automată : primele metode ale rețelelor neuronale au fost folosite în programe pentru a prezice structurile secundare ale proteinelor. Ca mostre de antrenament, ei au folosit secvențe de proteine ​​cu structuri obținute experimental pentru a determina motive comune asociate cu un anumit aranjament al structurilor secundare [67] . Aceste metode au o precizie de peste 70% în predicțiile lor, deși numărul de catenele beta este adesea subestimat din cauza lipsei de informații despre structura tridimensională care ar permite estimarea modelelor de legături de hidrogen care pot contribui la formarea foaie beta [65] . PSIPRED Arhivat 21 iulie 2011 la Wayback Machine și JPRED Arhivat 7 aprilie 2020 la Wayback Machine sunt printre cele mai cunoscute programe de predicție a structurii secundare a proteinelor bazate pe rețele neuronale [68] [69] . Mai recent , mașinile cu vector suport s-au dovedit a fi deosebit de utile pentru prezicerea virajelor care sunt greu de identificat cu metodele statistice [70] [71] .

Extensiile la metodele de învățare automată sunt utilizate pentru a prezice proprietățile locale mai precise ale proteinelor, cum ar fi unghiurile de torsiune ale coloanei vertebrale în regiuni cu structură neclasificată. Pentru a rezolva această problemă au fost folosite atât mașini vector de suport, cât și rețele neuronale [70] [72] [73] . Mai recent, programul SPINE -X Arhivat 12 aprilie 2020 la Wayback Machine a făcut posibilă prezicerea cu precizie a unghiurilor de torsiune reale și utilizarea cu succes a acestor informații pentru a prezice structura ab initio [74] .

Note

  1. ^ Zaki, MJ, Bystroff , C. Protein structure prediction , Humana Press, 2008, 337 p. Fragment de text pe Google Cărți
  2. ↑ 1 2 Yang Y. , Gao J. , Wang J. , Heffernan R. , Hanson J. , Paliwal K. , Zhou Y. Șaizeci și cinci de ani ai lungului marș în predicția structurii secundare a proteinelor: întinderea finală?  (Engleză)  // Briefings In Bioinformatics. - 2018. - 1 mai ( vol. 19 , nr. 3 ). - P. 482-494 . - doi : 10.1093/bib/bbw129 . — PMID 28040746 .
  3. Anfinsen CB Principles that Govern the Folding of Protein Chains   // Science . - 1973. - 20 iulie ( vol. 181 , nr. 4096 ). - P. 223-230 . — ISSN 0036-8075 . - doi : 10.1126/science.181.4096.223 .
  4. ↑ 1 2 3 Li Bian , Fooksa Michaela , Heinze Sten , Meiler Jens. Găsirea acului în carul de fân: spre rezolvarea problemei de pliere a proteinelor pe cale computațională  //  Critical Reviews in Biochemistry and Molecular Biology. - 2017. - 4 octombrie ( vol. 53 , nr. 1 ). - P. 1-28 . — ISSN 1040-9238 . doi : 10.1080 / 10409238.2017.1380596 .
  5. Zhang Yang. Progrese și provocări în predicția structurii proteinelor  //  Opinia curentă în biologie structurală. - 2008. - iunie ( vol. 18 , nr. 3 ). - P. 342-348 . — ISSN 0959-440X . - doi : 10.1016/j.sbi.2008.02.004 .
  6. „Problema proteică” fundamentală rezolvată. Oamenii de știință s-au luptat pentru o jumătate de secol și , în cele din urmă, programatorii Google i- au ajutat - și acest lucru poate fi foarte important pentru medicină
  7. ^ Richardson Jane S. The Anatomy and Taxonomy of Protein Structure  (engleză)  // Advances in Protein Chemistry Vol. 34. - 1981. - P. 167-339 . — ISBN 9780120342341 . — ISSN 0065-3233 . - doi : 10.1016/S0065-3233(08)60520-3 .
  8. Pace CN , Scholtz JM . O scară de tendință experimentală în spirală bazată pe studiile peptidelor și proteinelor.  (engleză)  // Biophysical Journal. - 1998. - iulie ( vol. 75 , nr. 1 ). - P. 422-427 . - doi : 10.1016/s0006-3495(98)77529-0 . — PMID 9649402 .
  9. Nick Pace C. , Martin Scholtz J. A Helix Propensity Scale Based on Experimental Studies of Peptides and Proteins  //  Biophysical Journal. - 1998. - iulie ( vol. 75 , nr. 1 ). - P. 422-427 . — ISSN 0006-3495 . - doi : 10.1016/s0006-3495(98)77529-0 .
  10. Chothia C. Conformation of twisted beta-pleated sheets in proteins.  (Engleză)  // Journal Of Molecular Biology. - 1973. - 5 aprilie ( vol. 75 , nr. 2 ). - P. 295-302 . - doi : 10.1016/0022-2836(73)90022-3 . — PMID 4728692 .
  11. ^ Richardson JS , Richardson DC Proteinele naturale beta-sheet folosesc design negativ pentru a evita agregarea de la margine la margine.  (engleză)  // Proceedings of the National Academy of Sciences of the United States Of America. - 2002. - 5 martie ( vol. 99 , nr. 5 ). - P. 2754-2759 . - doi : 10.1073/pnas.052706099 . — PMID 11880627 .
  12. Finkelstein A. V., Ptitsyn O. B. Structuri secundare ale lanțurilor polipeptidice // Fizica proteinelor. - Moscova: KDU, 2005. - S. 86-95. — ISBN 5-98227-065-2 .
  13. Choi Yoonjoo , Agarwal Sumeet , Deane Charlotte M. Cât durează o bucată de buclă?  (engleză)  // PeerJ. - 2013. - 12 februarie ( vol. 1 ). -P.e1._ _ _ — ISSN 2167-8359 . - doi : 10.7717/peerj.1 .
  14. Ce sunt structurile macromoleculare? . Preluat la 20 aprilie 2020. Arhivat din original la 12 mai 2020.
  15. structura terțiară Arhivat 19 mai 2011 la Wayback Machine // IUPAC, 1996, 68, 2193. (Terminologia de bază a stereochimiei (Recomandările IUPAC 1996)) la pagina 2220, Cartea de aur IUPAC.
  16. Clarke, Jeremy M. Berg; John L. Tymoczko; Lubert Stryer. Conținut web de Neil D. Secțiunea 3.5 Structura cuaternară: lanțurile polipeptidice se pot asambla în structuri multisubunități // Biochimie . - 5. ed., 4. tipărire.. - New York, NY [ua]: W. H. Freeman, 2002. - ISBN 0-7167-3051-0 .
  17. Chou, Kuo-Chen; Cai, Yu Dong. Predicția structurii cuaternare a proteinei după compoziția  pseudoaminoacizilor // Proteine  : structură, funcție și bioinformatică : jurnal. - 2003. - 1 noiembrie ( vol. 53 , nr. 2 ). - P. 282-289 . - doi : 10.1002/prot.10500 . — PMID 14517979 .
  18. ↑ 1 2 Yang Yuedong , Gao Jianzhao , Wang Jihua , Heffernan Rhys , Hanson Jack , Paliwal Kuldip , Zhou Yaoqi. Șaizeci și cinci de ani ai lungului marș în predicția structurii secundare a proteinelor: întinderea finală?  (Engleză)  // Briefings in Bioinformatics. - 2016. - 31 decembrie. —P.bbw129 . _ — ISSN 1467-5463 . - doi : 10.1093/bib/bbw129 .
  19. Wolfgang Kabsch, Christian Sander. Dicționar al structurii secundare a proteinelor: Recunoașterea modelului de caracteristici geometrice și legate de hidrogen  // Biopolimeri. — 1983-12. - T. 22 , nr. 12 . — S. 2577–2637 . - ISSN 1097-0282 0006-3525, 1097-0282 . - doi : 10.1002/bip.360221211 . Arhivat 29 mai 2020.
  20. Xu, Ying, Xu, Dong, Liang, Jie. Metode de calcul pentru predicția și modelarea structurii proteinelor: Volumul 1: Caracterizare de bază . - 2007. - ISBN 978-0-387-68372-0 . Arhivat pe 11 iunie 2020 la Wayback Machine
  21. ↑ 1 2 Chou Peter Y. , Fasman Gerald D. Prediction of protein conformation   // Biochemistry . - 1974. - 15 ianuarie ( vol. 13 , nr. 2 ). - P. 222-245 . — ISSN 0006-2960 . - doi : 10.1021/bi00699a002 .
  22. Asaf A. Salamov, Victor V. Soloviev. Predicția structurii secundare a proteinelor prin combinarea algoritmilor de cel mai apropiat vecin și aliniamentelor de secvențe multiple  // Journal of Molecular Biology. - 1995-03. - T. 247 , nr. 1 . — S. 11–15 . — ISSN 0022-2836 . - doi : 10.1006/jmbi.1994.0116 .
  23. Daniel W. A. ​​​​Buchan, David T Jones. Bancul de lucru pentru analiza proteinelor PSIPRED: 20 de ani după  // Cercetarea acizilor nucleici. — 26.04.2019. - T. 47 , nr. W1 . — S. W402–W407 . — ISSN 1362-4962 0305-1048, 1362-4962 . - doi : 10.1093/nar/gkz297 .
  24. David T Jones. Predicția structurii secundare a proteinei bazată pe matrice de scoring specifice poziției 1 1Editat de G. Von Heijne  // Journal of Molecular Biology. — 1999-09. - T. 292 , nr. 2 . — S. 195–202 . — ISSN 0022-2836 . - doi : 10.1006/jmbi.1999.3091 .
  25. Kiyoshi Asai, Satoru Hayamizu, Ken'ichi Handa. Predicția structurii secundare a proteinei prin modelul Markov ascuns  // Bioinformatică. - 1993. - T. 9 , nr. 2 . — S. 141–146 . - ISSN 1460-2059 1367-4803, 1460-2059 . - doi : 10.1093/bioinformatics/9.2.141 .
  26. Pirovano Walter , Heringa Jaap. Predicția structurii secundare a proteinelor  (engleză)  // Metode în biologie moleculară. - 2009. - 30 octombrie. - P. 327-348 . — ISBN 9781603272407 . — ISSN 1064-3745 . - doi : 10.1007/978-1-60327-241-4_19 .
  27. Bioinformatică / Shui Qing Ye. — Chapman și Hall/CRC, 2007-08-20. — ISBN 978-0-429-14203-1 .
  28. Seung Hwan Hong, Keehyoung Joo, Jooyoung Lee. ConDo: predicția limitei domeniului proteic folosind informații coevolutive   // ​​Bioinformatică . — 15.07.2019. — Vol. 35 , iss. 14 . - P. 2411-2417 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatics/bty973 .
  29. Ovchinnikov S, Kim De, Wang Ry, Liu Y, DiMaio F, Baker D. Improved De Novo Structure Prediction in CASP11 by Incorporating Coevolution Information Into  Rosetta . Proteine ​​(septembrie 2016). Consultat la 13 aprilie 2020. Arhivat din original la 1 aprilie 2021.
  30. Dong Xu, Lukasz Jaroszewski, Zhanwen Li, Adam Godzik. AIDA: ansamblu de domeniu ab initio pentru predicția automată a structurii proteinelor cu mai multe domenii și predicția interacțiunii domeniu-domeniu  (engleză)  // Bioinformatică. — 01-07-2015. — Vol. 31 , iss. 13 . - P. 2098-2105 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatics/btv092 . Arhivat din original pe 3 iunie 2018.
  31. Bian Lia și colab. Găsirea acului în carul de fân: spre rezolvarea problemei de pliere a proteinelor pe cale computațională  //  Crit Rev Biochem Mol Biol : jurnal. - 2018. - Vol. 52 , nr. 1 . - P. 1-28 . doi : 10.1080 / 10409238.2017.1380596 .
  32. Philip Hunter. în faldă. Progresele în tehnologie și algoritmi facilitează progrese mari în predicția structurii proteinelor  // Rapoartele EMBO. — 2006-03. - T. 7 , nr. 3 . — S. 249–252 . — ISSN 1469-221X . - doi : 10.1038/sj.embor.7400655 .
  33. Ulrike Göbel, Chris Sander, Reinhard Schneider, Alfonso Valencia. Mutații corelate și contacte cu reziduuri în proteine  ​​(engleză)  // Proteine: Structure, Function, and Bioinformatics. - 1994. - Vol. 18 , iss. 4 . - P. 309-317 . — ISSN 1097-0134 . - doi : 10.1002/prot.340180402 .
  34. William R. Taylor, Kerr Hatrick. Compensarea modificărilor în alinierea secvenței multiple a proteinelor  //  Protein Engineering, Design and Selection. - 1994-03-01. — Vol. 7 , iss. 3 . - P. 341-348 . — ISSN 1741-0126 . doi : 10.1093 / protein/7.3.341 .
  35. Debora S. Marks, Lucy J. Colwell, Robert Sheridan, Thomas A. Hopf, Andrea Pagnani. Structura 3D a proteinelor calculată din variația secvenței evolutive  // ​​PLOS One  . - Biblioteca Publică de Științe , 2011-07-12. — Vol. 6 , iss. 12 . —P.e28766 . _ — ISSN 1932-6203 . - doi : 10.1371/journal.pone.0028766 . Arhivat din original pe 8 martie 2022.
  36. Lukas Burger, Erik van Nimwegen. Dezlegarea directă de co-evoluția indirectă a reziduurilor în aliniamentele de proteine  ​​//  PLOS Computational Biology. — 01-01-2010. — Vol. 6 , iss. 1 . — P.e1000633 . — ISSN 1553-7358 . - doi : 10.1371/journal.pcbi.1000633 . Arhivat din original pe 18 februarie 2022.
  37. Faruck Morcos, Andrea Pagnani, Bryan Lunt, Arianna Bertolino, Debora S. Marks. Analiza de cuplare directă a coevoluției reziduurilor surprinde contactele native din multe familii de proteine  ​​// Proceedings of the National Academy of Sciences  . - Academia Națională de Științe , 2011-12-06. — Vol. 108 , iss. 49 . - P. E1293–E1301 . - ISSN 1091-6490 0027-8424, 1091-6490 . - doi : 10.1073/pnas.1111471108 . Arhivat din original pe 25 iulie 2020.
  38. Timothy Nugent, David T. Jones. Predicția precisă a structurii de novo a domeniilor mari de proteine ​​transmembranare folosind asamblarea fragmentelor și analiza mutațiilor corelate  // Proceedings of the National Academy of Sciences  . - Academia Națională de Științe , 2012-06-12. — Vol. 109 , iss. 24 . - P. E1540–E1547 . - ISSN 1091-6490 0027-8424, 1091-6490 . - doi : 10.1073/pnas.1120036109 . Arhivat 25 mai 2021.
  39. Yang Zhang. Progrese și provocări în predicția structurii proteinelor  //  Opinia curentă în biologie structurală. — Elsevier , 2008-06-01. — Vol. 18 , iss. 3 . - P. 342-348 . — ISSN 0959-440X . - doi : 10.1016/j.sbi.2008.02.004 .
  40. ↑ 1 2 Bian Li, Michaela Fooksa, Sten Heinze, Jens Meiler. Găsirea acului în carul de fân: spre rezolvarea problemei de pliere a proteinelor pe cale computațională  //  Critical Reviews in Biochemistry and Molecular Biology. — 2018-01-02. — Vol. 53 , iss. 1 . — P. 1–28 . — ISSN 1549-7798 1040-9238, 1549-7798 . doi : 10.1080 / 10409238.2017.1380596 .
  41. Yang Zhang, Jeffrey Skolnick. Problema de predicție a structurii proteinei ar putea fi rezolvată folosind biblioteca actuală PDB  // Proceedings of the National Academy of Sciences  . - Academia Națională de Științe , 25-01-2005. — Vol. 102 , iss. 4 . - P. 1029-1034 . - ISSN 1091-6490 0027-8424, 1091-6490 . - doi : 10.1073/pnas.0407152101 . Arhivat din original pe 22 iulie 2020.
  42. JU Bowie, R. Luthy, D. Eisenberg. O metodă de identificare a secvențelor de proteine ​​care se pliază într-o structură tridimensională cunoscută   // Știință . - 12-07-1991. — Vol. 253 , iss. 5016 . - P. 164-170 . — ISSN 1095-9203 0036-8075, 1095-9203 . - doi : 10.1126/science.1853201 . Arhivat din original pe 21 februarie 2020.
  43. Yo Matsuo, Haruki Nakamura, Ken Nishikawa. Detectarea compatibilității proteinelor 3D-1D caracterizată prin evaluarea ambalării lanțului lateral și a interacțiunilor electrostatice  //  The Journal of Biochemistry. - 1995-07. — Vol. 118 , iss. 1 . — P. 137–148 . — ISSN 0021-924X 1756-2651, 0021-924X . - doi : 10.1093/oxfordjournals.jbchem.a124869 .
  44. ^ Desmet J, De Maeyer M, Hazes B, Lasters I. The Dead -Dead Elimination Theorem and Its Use in Protein Side-Chain Positioning . Natura (9 aprilie 1992). Preluat la 27 aprilie 2020. Arhivat din original la 31 octombrie 2021.  
  45. Patrice Koehl, Marc Delarue. Aplicarea unei teorii a câmpului mediu auto-consistent pentru a prezice conformația lanțurilor laterale de proteine ​​și a estima entropia conformațională a acestora  // Journal of Molecular Biology. - 1994-06. - T. 239 , nr. 2 . - S. 249-275 . — ISSN 0022-2836 . - doi : 10.1006/jmbi.1994.1366 .
  46. Roland L Dunbrack. Bibliotecile Rotamer în secolul 21  //  Opinia curentă în biologia structurală. — Elsevier , 2002-08-01. — Vol. 12 , iss. 4 . - P. 431-440 . — ISSN 0959-440X . - doi : 10.1016/S0959-440X(02)00344-5 .
  47. Jay W. Ponder, Frederic M. Richards. Șabloane terțiare pentru proteine: Utilizarea criteriilor de împachetare în enumerarea secvențelor permise pentru diferite clase structurale  //  Journal of Molecular Biology. - 20-02-1987. — Vol. 193 , al. 4 . - P. 775-791 . — ISSN 0022-2836 . - doi : 10.1016/0022-2836(87)90358-5 .
  48. Simon C. Lovell, J. Michael Word, Jane S. Richardson, David C. Richardson. Penultima bibliotecă de rotameri  (germană)  // Proteine: Structură, Funcție și Bioinformatică. - 2000. - Bd. 40 , H.3 . - S. 389-408 . — ISSN 1097-0134 . - doi : 10.1002/1097-0134(20000815)40:33.0.CO;2-2 .
  49. Maxim V. Shapovalov, Roland L. Dunbrack. O bibliotecă de rotameri dependentă de coloana vertebrală netezită pentru proteine ​​derivate din estimări și regresii ale densității nucleului adaptiv   // Structura . — 08-06-2011. — Vol. 19 , iss. 6 . - P. 844-858 . — ISSN 0969-2126 . - doi : 10.1016/j.str.2011.03.019 . Arhivat din original pe 21 iulie 2013.
  50. Andrew M. Watkins, Timothy W. Craven, P. Douglas Renfrew, Paramjit S. Arora, Richard Bonneau. Rotamer Libraries for the High-Resolution Design of β-Amino Acid Foldamers  // Structure (Londra, Anglia: 1993). — 07-11-2017. - T. 25 , nr. 11 . — S. 1771–1780.e3 . — ISSN 0969-2126 . - doi : 10.1016/j.str.2017.09.005 .
  51. Thomas Lengauer, Matthias Rarey. Metode de calcul pentru andocarea biomoleculară  //  Opinia curentă în biologie structurală. - 1996-06-01. — Vol. 6 , iss. 3 . - P. 402-406 . — ISSN 0959-440X . - doi : 10.1016/S0959-440X(96)80061-3 . Arhivat din original pe 29 noiembrie 2012.
  52. 1 2 3 4 5 6 Keskin, O.; Tuncbag, N; Gursoy, A. Prezicerea interacțiunilor proteine-proteine ​​de la nivelul molecular la nivelul proteomului   // Recenzii chimice : jurnal. - 2016. - Vol. 116 , nr. 8 . - P. 4884-4909 . — PMID 27074302 .
  53. Enright, AJ; Iliopoulos, I.; Kyrpides, N.C.; Ouzounis, CA Hărți de interacțiune a proteinelor pentru genomi completi bazate pe evenimente de fuziune genetică  //  Nature : journal. - 1999. - Vol. 402 , nr. 6757 . - P. 86-90 . — PMID 10573422 .
  54. Pazos, F.; Valencia, A. Similitudinea arborilor filogenetici ca indicator al interacțiunii proteină-proteină  // Protein Eng  ., Des. Sel. : jurnal. - 2001. - Vol. 14 , nr. 9 . - P. 609-614 . — PMID 11707606 .
  55. Jansen, R.; IGreenbaum, D.; Gerstein, M. Relaţionarea datelor de expresie a întregului genom cu interacţiuni proteină-proteină  // Genome Res  . : jurnal. - 2002. - Vol. 12 , nr. 1 . - P. 37-46 . — PMID 11779829 .
  56. Pazos, F.; Valencia, A. In Silico Sistem cu două hibride pentru selecția perechilor de proteine ​​care interacționează fizic  //  Proteine: Struct., Funct., Genet. : jurnal. - 2002. - Vol. 47 , nr. 2 . - P. 219-227 . — PMID 11933068 .
  57. Shen, J.; IZhang, J.; Luo, X.; Zhu, W.; Yu, K.; Chen, K.; Li, Y.; Jiang, H. Predictarea interacțiunilor proteină-proteină bazată numai pe informații despre secvențe  (engleză)  // Proceedings of the National Academy of Sciences of the United States of America  : journal. - 2007. - Vol. 104 , nr. 11 . - P. 4337-4341 . — PMID 17360525 .
  58. Papanikolaou, N.; Pavlopoulos, G.A.; Theodosiou, T.; Iliopoulos, I. Predicții de interacțiune proteină-proteină folosind metode de extragere a textului  //  Metode : jurnal. - 2015. - Vol. 74 . - P. 47-53 . — PMID 25448298 .
  59. Moult John , Pedersen Jan T. , Judson Richard , Fidelis Krzysztof. Un experiment la scară largă pentru a evalua metodele de predicție a structurii proteinelor  //  Proteine: structură, funcție și genetică. - 1995. - noiembrie ( vol. 23 , nr. 3 ). - P. ii-iv . — ISSN 0887-3585 . - doi : 10.1002/prot.340230303 .
  60. Moult J. , Pedersen JT , Judson R. , Fidelis K. Un experiment la scară largă pentru a evalua metodele de predicție a structurii proteinei.  (engleză)  // Proteine. - 1995. - noiembrie ( vol. 23 , nr. 3 ). - doi : 10.1002/prot.340230303 . — PMID 8710822 .
  61. Ben-David M. , Noivirt-Brik O. , Paz A. , Prilusky J. , Sussman JL , Levy Y. Assessment of CASP8 structure predictions for template free targets.  (engleză)  // Proteine. - 2009. - Vol. 77 Suppl 9 . - P. 50-65 . - doi : 10.1002/prot.22591 . — PMID 19774550 .
  62. DeepMind de la Google prezice formele 3D ale proteinelor , The Guardian  (2 decembrie 2018). Arhivat din original pe 18 iulie 2019. Preluat la 19 iulie 2019.
  63. 1 2 Cooper S., Khatib F., Treuille A., Barbero J., Lee J., Beenen M., Leaver-Fay A., Baker D., Popović Z., Players F. Predicting protein structures with a multiplayer joc online  (eng.)  // Natura: jurnal. - 2010. - Vol. 466 . - P. 756-760 . - doi : 10.1038/nature09304 . — PMID 20686574 .
  64. Good BM, Su AI Games with a science scop  // Genome Biol .. - 2011. - V. 12 . - S. 135 . - doi : 10.1186/gb-2011-12-12-135 . — PMID 22204700 .
  65. ↑ 1 2 3 Mount, David W. Bioinformatica: analiza secvenței și a genomului . — Ed. a II-a. - Cold Spring Harbor, NY: Cold Spring Harbor Laboratory Press, 2004. - xii, 692 pagini p. — ISBN 0-87969-687-7 , 978-0-87969-687-0 , 0-87969-712-1 , 978-0-87969-712-9 652-070-9. Arhivat pe 5 ianuarie 2009 la Wayback Machine
  66. ↑ 1 2 3 Garnier J. , Osguthorpe DJ , Robson B. Analiza acurateței și implicațiilor metodelor simple pentru prezicerea structurii secundare a proteinelor globulare  //  Journal of Molecular Biology. - 1978. - Martie ( vol. 120 , nr. 1 ). - P. 97-120 . — ISSN 0022-2836 . - doi : 10.1016/0022-2836(78)90297-8 .
  67. Holley LH , Karplus M. Predicția structurii secundare a proteinei cu o rețea neuronală.  (engleză)  // Proceedings of the National Academy of Sciences. - 1989. - 1 ianuarie ( vol. 86 , nr. 1 ). - P. 152-156 . — ISSN 0027-8424 . - doi : 10.1073/pnas.86.1.152 .
  68. Buchan Daniel WA , Jones David T. The PSIPRED Protein Analysis Workbench: 20 years on  //  Nucleic Acids Research. - 2019. - 26 aprilie ( vol. 47 , nr. W1 ). - P.W402-W407 . — ISSN 0305-1048 . - doi : 10.1093/nar/gkz297 .
  69. Drozdetskiy Alexey , Cole Christian , Procter James , Barton Geoffrey J. JPred4: a protein secondary structure prediction server  //  Nucleic Acids Research. - 2015. - 16 aprilie ( vol. 43 , nr. W1 ). - P.W389-W394 . — ISSN 0305-1048 . - doi : 10.1093/nar/gkv332 .
  70. 1 2 PHAM THO HOAN , SATOU KENJI , HO TU BAO. MAȘINI VECTOR SUPPORT PENTRU PREDICȚIA ȘI ANALIZA TURNĂRILOR BETA ȘI GAMMA ÎN PROTEINE  //  Journal of Bioinformatics and Computational Biology. - 2005. - Aprilie ( vol. 03 , nr. 02 ). - P. 343-358 . — ISSN 0219-7200 . - doi : 10.1142/S0219720005001089 .
  71. Zhang Q. , Yoon S. , Welsh WJ . Metodă îmbunătățită pentru prezicerea virajului folosind mașina vector suport   // Bioinformatică . - 2005. - 29 martie ( vol. 21 , nr. 10 ). - P. 2370-2374 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatics/bti358 .
  72. Zimmermann O. , Hansmann UHE Mașini vectoriale de sprijin pentru predicția regiunilor unghiulare  diedrice  // Bioinformatică . - 2006. - 27 septembrie ( vol. 22 , nr. 24 ). - P. 3009-3015 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatics/btl489 .
  73. Kuang R. , Leslie C.S. , Yang A.-S. Predicția unghiului coloanei vertebrale a proteinelor cu abordări de învățare automată   // Bioinformatică . - 2004. - 26 februarie ( vol. 20 , nr. 10 ). - P. 1612-1621 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatics/bth136 .
  74. Faraggi Eshel , Yang Yuedong , Zhang Shesheng , Zhou Yaoqi. Predicția structurii locale continue și efectul înlocuirii acesteia cu structura secundară în structura proteinelor fără fragmente Predicția   // Structura . - 2009. - Noiembrie ( vol. 17 , nr. 11 ). - P. 1515-1527 . — ISSN 0969-2126 . - doi : 10.1016/j.str.2009.09.006 .