Andocarea moleculară este o metodă de modelare moleculară care face posibilă prezicerea orientării și conformației cele mai favorabile a unei molecule ( ligand ) la locul de legare al alteia ( receptor ) pentru formarea unui complex stabil [1] . Datele despre poziția și conformația partenerilor sunt folosite pentru a prezice puterea interacțiunii prin așa-numitele funcții de scor. Dacă ligandul este o macromoleculă , andocarea se numește macromoleculară .
Andocarea moleculară poate fi gândită ca o căutare a poziției optime a „cheii” (ligandului) în „blocare” (receptor) [2] . În acest caz, moleculele sunt considerate corpuri rigide. Cu toate acestea, în realitate, în timpul procesului de andocare, ligandul și proteina își schimbă conformațiile pentru a obține cea mai bună legare. Modificările conformației proteinei pot include mișcări ale buclelor și domeniilor [2] . Un astfel de proces care duce la legarea cu succes se numește „potrivire indusă” [3] .
Andocarea moleculară este utilizată pentru a modela procesul de recunoaștere moleculară. De obicei este necesar să se găsească conformația optimă a ligandului. Această poziție este atinsă atunci când energia liberă de legare este minimă. [4] .
Complexele de molecule semnificative din punct de vedere biologic, cum ar fi proteinele, acizii nucleici , carbohidrații și lipidele joacă un rol cheie în transducția semnalului chimic. În plus, orientarea relativă a celor două molecule care interacționează poate afecta tipul de semnal produs (fie că este inhibitor sau catalitic ). Prin urmare, interacțiunea dintre moleculele biologice este importantă pentru prezicerea atât a tipului, cât și a puterii semnalului produs [5] .
Docking-ul este adesea folosit pentru a prezice afinitatea și activitatea unei molecule mici de medicament pentru o proteină țintă. Astfel, andocarea moleculară, fiind una dintre etapele dezvoltării medicamentelor , joacă un rol important în acest proces [6] .
Unul dintre avantajele andocării moleculare este posibilitatea de automatizare a acestuia. Ca parte a sarcinii de dezvoltare a medicamentelor, devine posibilă analizarea bibliotecilor de compuși cu greutate moleculară mică . Andocarea moleculară face posibilă determinarea compusului care interacționează cel mai optim - un medicament dintr-un număr de analogi cu compoziție similară [7] .
Una dintre metodele utilizate în dezvoltarea medicamentelor este designul fragmentat . Metoda se bazează pe căutarea fragmentelor mici cu afinitate scăzută de legare la țintă și pe combinarea lor ulterioară pentru a căuta un compus cu afinitate mare. Designul fragmentelor este folosit pentru a căuta inhibitori puternici. Această problemă este rezolvată folosind diferite metode. Acestea includ unele tipuri de spectroscopie RMN , titrare-calorimetrie izotermă , metoda termoforezei microscopice , rezonanță plasmonică și altele [8] . Andocarea moleculară, la rândul său, face posibilă rezolvarea unei probleme similare prin scanarea bibliotecilor de diferiți compuși, atât cu greutate moleculară mică, cât și complecși, și prin evaluarea afinității acestora [9] .
Andocarea poate fi folosită în bioremediere pentru a căuta poluanții de mediu degradați de anumite enzime [10] .
Cu toate acestea, există cazuri când chiar locul interacțiunii nu este cunoscut în mod direct. Apoi aplicăm așa-numita andocare „oarbă” [11] . Diverse variații ale acestei abordări sunt implementate în următorii algoritmi: MolDock [12] , Fragment Hotspot Maps [11] , DoGSiteScorer [13] .
Printre domeniile fundamentale de aplicare a andocării moleculare se numără [4] :
Există diverse abordări ale modelării andocării. O abordare folosește o tehnică de potrivire care descrie proteina și ligand ca suprafețe suplimentare [14] [15] . O altă abordare modelează procesul real de andocare în care se calculează energiile de interacțiune în perechi . Ambele abordări au avantaje semnificative, precum și unele limitări [16] .
„Rigid” se numește andocare, în care lungimile de legătură, unghiurile și unghiurile de torsiune ale partenerilor de andocare rămân neschimbate în timpul simulării. Cu toate acestea, ca urmare a interacțiunii cu o altă proteină sau ligand, apar modificări conformaționale atât în coloana vertebrală a proteinei în sine, cât și în lanțurile laterale. Mobilitatea coloanei vertebrale, la rândul său, poate fi împărțită în două tipuri: mobilitatea secțiunilor mari ale proteinei - domenii, așa-numita mișcare „de schimbare” și mobilitatea părților individuale, cum ar fi bucle. În acest caz, andocarea „hard” descrie incorect interacțiunile. Prin urmare, există niște algoritmi de andocare „flexibili” suplimentari. Ele permit modificări conformaționale, în urma cărora această abordare face posibilă obținerea estimărilor de interacțiune care sunt cele mai apropiate de cele naturale. Cu toate acestea, calculul tuturor modificărilor conformaționale posibile, ținând cont de mișcarea la un anumit nivel de dezvoltare a computerului, ar dura o perioadă uriașă de timp. Mai mult, un număr mare de grade de libertate poate duce și la o creștere a numărului de fals pozitive. În legătură cu aceste probleme, devine necesară selectarea rațională a unui mic subset de posibile modificări conformaționale pentru modelare [17] .
Andocarea „flexibilă” poate fi, de asemenea, utilizată în contextul andocării compusului cu greutate moleculară mică. Cu toate acestea, în acest caz, este permisă rotația în jurul oricăror legături din molecula ligandului în sine, în timp ce proteina rămâne o structură „rigidă” [18]
Andocarea poate fi, de asemenea, împărțită în single ( engleză single ) și secvenţial ( engleză secvenţial ) [19] . Andocarea secvenţială este utilizată în principal pentru andocarea mai multor compuşi cu greutate moleculară mică (liganzi). După andocarea unuia dintre liganzi într-un fișier separat, structura proteinei cu acest ligand este salvată. Mai mult, algoritmul este repetat și este implementată andocarea pentru al doilea ligand în structura salvată anterior. Această abordare poate fi utilă în căutarea centrelor alosterice [20] .
Corespondența geometrică (metode pentru determinarea interdependenței formei) este descrisă pentru o proteină și un ligand ca un număr de caracteristici care determină interacțiunea optimă a acestora [21] . Aceste caracteristici pot include atât suprafața moleculară în sine, cât și o descriere a caracteristicilor suplimentare ale suprafeței. În acest caz, suprafața moleculară a receptorului este descrisă în termenii accesibilității sale la solvent , iar suprafața moleculară a ligandului este descrisă în termenii corespondenței sale cu descrierea suprafeței receptorului. Interdependența dintre cele două suprafețe constituie o descriere de potrivire a formei care poate ajuta la detectarea diferitelor poziții ale ligandului. O altă abordare este de a descrie caracteristicile hidrofobe ale unei proteine folosind rotații în atomii coloanei vertebrale . O altă abordare se poate baza pe transformata Fourier [22] [23] [24] .
În această abordare, proteina și ligand sunt separate printr-o anumită distanță fizică, iar ligandul își găsește poziția în locul activ al proteinei după un anumit număr de „pași”. Pașii includ transformări ale corpului rigid, cum ar fi translația și rotația , precum și modificări interne ale structurii ligandului, inclusiv rotații unghiulare. Fiecare dintre acești pași în spațiu modifică energia estimată globală a sistemului și, prin urmare, este calculată după fiecare mișcare. Avantajul evident al acestei metode este că permite ca flexibilitatea ligandului să fie explorată în timpul simulării, în timp ce metodele de relație de formă trebuie să utilizeze o altă abordare pentru a afla despre mobilitatea ligandului. Un alt avantaj este că procesul este mai aproape fizic de ceea ce se întâmplă de fapt atunci când proteina și ligandul se apropie unul de celălalt după recunoașterea moleculară. Dezavantajul acestei tehnici este că este nevoie de timp pentru a evalua soluția optimă de andocare, deoarece este necesar să se exploreze un peisaj energetic destul de mare [1] .
Primul lucru care este necesar pentru screeningul moleculelor prin andocare este structura proteinei de interes. De obicei, structura este determinată prin metode biofizice ( analiza de difracție cu raze X sau spectroscopie RMN ), poate fi obținută și prin modelare de omologie . Structura proteinei, împreună cu o bază de date de liganzi potențiali, servesc ca intrare pentru programul de andocare. Succesul andocării depinde de două componente: algoritmul de căutare și funcția de evaluare [4] .
Andocarea cu succes necesită două condiții [25] :
în multe cazuri, de exemplu anticorpi şi inhibitori competitivi , locul de legare este cunoscut. În alte cazuri, situsul de legare poate fi determinat din mutageneză sau filogenie . Configurațiile în care se suprapun atomi de proteine (așa-numitul flare, din engleza clash ) sunt întotdeauna excluse [26] .
După separarea complexelor cu erupții, energia fiecărei structuri (model complex) este măsurată folosind așa-numita funcție de viteză (evaluare). Acesta din urmă trebuie să distingă o structură „fiabilă” peste cel puțin 100.000 de alternative. Aceasta este o problemă de calcul complexă, atât de multe metode au fost dezvoltate pentru a o rezolva. Algoritmii pot fi împărțiți în determiniști și stocastici [4] .
Din punct de vedere matematic, andocarea este o căutare a minimului global al funcției de energie liberă , dat pe un spațiu multidimensional al tuturor modalităților posibile de legare a unui ligand de o proteină. Spațiul de căutare în teorie constă din toate pozițiile posibile în spațiu și conformațiile proteinei asociate ligandului. Cu toate acestea, în practică, cu resursele de calcul disponibile, este imposibil să se exploreze pe deplin spațiul de căutare - acest lucru ar necesita calcularea tuturor deplasărilor posibile ale fiecărei molecule (moleculele sunt dinamice și există ca un ansamblu de stări conformaționale) și toate rotaționale și pozițiile de poziție ale ligandului față de proteină la un anumit nivel de detaliu. Majoritatea programelor de andocare iau în considerare întregul spațiu conformațional al variantelor pentru un ligand (un ligand „flexibil”), iar unele încearcă, de asemenea, să modeleze o proteină receptoră „flexibilă”. Fiecare poziție fixă a acestei perechi în spațiu se numește soluție de andocare [27] .
Algoritmii pentru găsirea celei mai bune legături pot fi împărțiți în următoarele categorii: metode sistematice, metode euristice aleatoare sau stocastice, metode de dinamică moleculară și metode termodinamice [28] .
Metodele care garantează găsirea minimului global într-un număr finit de pași sunt metode sistematice, adică metode de enumerare secvențială a tuturor pozițiilor posibile ale ligandului în centrul activ al proteinei țintă. Cu toate acestea, din cauza numărului mare de calcule necesare, această metodă necesită introducerea unor simplificări semnificative. Există și alte metode de optimizare globală care nu sunt garantate să găsească minimul global într-un număr finit de pași de program, dar în practică se dovedesc a fi capabile să găsească astfel de minime mult mai rapid decât metodele de enumerare sistematică. Astfel de metode pot fi împărțite în două mari grupe: euristice și termodinamice [29] .
Metodele euristice folosesc unele strategii empirice pentru găsirea minimului global, care accelerează procedura în comparație cu scanarea simplă a hipersuprafeței. Cele mai cunoscute și populare sunt următoarele metode euristice [28] :
Metodele termodinamice includ modelarea de recoacere .
În metodele de tip Monte Carlo, configurația inițială este rafinată prin acceptarea sau respingerea pașilor (modificări iterative ale unui set de parametri), în funcție de valoarea funcției de evaluare (adică, scorul structurii) (vezi criteriul Metropolis ), până la un au fost făcuți un anumit număr de pași. Se presupune că convergența către cea mai bună structură va veni dintr-o clasă mare de inițiale, dintre care doar una trebuie luată în considerare. Structurile inițiale pot fi analizate mult mai rapid prin metode „aspre” ( grosiere ) . Este dificil să găsești o funcție de scor care să distingă bine o structură „bună” și să convergă cu ea de la o distanță mare (în spațiul eșantionat). Prin urmare, s-a propus să se utilizeze două niveluri de aproximare („grund” și „exact”) cu funcții de evaluare diferite. Rotația poate fi introdusă în Monte Carlo ca parametru suplimentar pentru pasul [34] .
Metodele Monte Carlo sunt stocastice și nu garantează o căutare exhaustivă, de aceea cea mai bună configurație poate fi ratată chiar și atunci când se folosește estimatorul, care în teorie îl deosebește. Cât de grav afectează această problemă rezultatele andocării nu a fost încă stabilit clar [34] .
Această abordare este implementată în algoritmul RosettaDock . RossettaCommons . Consultat la 27 aprilie 2020. [35] .
Ca urmare a andocării, sunt generate un număr mare de poziții potențiale de liganzi, dintre care unele sunt imediat respinse din cauza coliziunilor cu molecula de proteină. Restul sunt evaluate folosind o funcție de punctare care ia decizia de andocare curentă ca intrare și returnează un număr care indică probabilitatea ca decizia de andocare să reprezinte o interacțiune favorabilă de legare. Astfel, eficiența de legare a unui ligand față de altul poate fi evaluată [4] .
În algoritmii moderni de andocare, pot fi distinse trei tipuri principale de funcții de evaluare: bazate pe câmpul de forță, empirice și statistice.
Cele mai multe funcții de punctare se bazează pe fizica câmpurilor de forță ale mecanicii moleculare , care estimează energia unei soluții de andocare într-un loc de legare. Diverse contribuții la energia soluției de andocare pot fi scrise ca o ecuație [4] :
Componentele ecuației includ efectele solvenților, modificările conformaționale ale proteinei și ligandului, energia liberă datorată interacțiunilor proteină-ligand, rotații interne, energia de asociere a ligandului și receptorului pentru a forma un singur complex și energia liberă datorită modificărilor vibraționale. moduri. O energie scăzută (negativă) indică un sistem stabil și, prin urmare, o posibilă interacțiune de legătură [36] .
Funcțiile de evaluare empirică, spre deosebire de cele bazate pe câmpuri de forță, includ componente care descriu contactele intermoleculare într-un mod mai simplu. Nu există analogii directe cu interacțiunile fizice intermoleculare în perechi în acest caz. Capacitatea de predicție a unei astfel de abordări depinde în mare măsură atât de componentele în sine, cât și de coeficienții cu care intră în ecuație. Interacțiunile intermoleculare sunt prezentate ca o combinație liniară de termeni care descriu diferite tipuri de contacte: legături de hidrogen, interacțiuni hidrofobe, interacțiuni cu ionii metalici și altele. Simplificarea, de exemplu, pentru legăturile de coordonare cu ioni metalici sau contactele hidrofobe, constă în descrierea acestora folosind distanțele dintre atomii corespunzători ai ligandului și receptorului, totuși, o astfel de aproximare nu este corectă din punct de vedere fizic. Legăturile de hidrogen sunt descrise prin parametri geometrici empirici (distanța dintre donor și acceptor și unghiul dintre acestea și atomul de hidrogen), și nu prin caracteristicile lor energetice [37] .
O abordare alternativă prin funcțiile de scor statistic este obținerea unui potențial statistic bazat pe cunoștințe pentru interacțiuni din baza de date PDB a complexelor proteină-ligand și evaluarea potrivirii soluției de andocare în funcție de potențialul estimat [38] .
Există multe programe pentru andocarea teoretică a proteinelor. Majoritatea funcționează astfel: o proteină este fixată în spațiu, iar a doua se rotește în jurul ei. În acest caz, pentru fiecare configurație de viraje se fac calcule de evaluare în funcție de funcția de evaluare. Funcția de evaluare se bazează pe complementaritatea suprafeței, interacțiunile electrostatice , repulsia van der Waals și așa mai departe. Problema acestei căutări este că calculele pe întreg spațiul de configurare durează mult timp pentru a se calcula, rareori conducând la o singură soluție [39] .
Imperfecțiunea funcției de evaluare duce inevitabil la necesitatea de a evalua capacitatea de predicție a unui anumit algoritm de andocare (de exemplu, AutoDock, ICM). Acest lucru necesită date experimentale suplimentare, cum ar fi o structură de referință. Evaluarea poate fi efectuată în mai multe moduri [4] :
Precizia de andocare [40] este una dintre evaluările aplicabilității unui algoritm, a capacității unui algoritm de a reproduce date experimentale.
Factorul de îmbogățire este estimat ca abilitatea algoritmului de a distinge (reprezenta în topul celor mai buni) liganzi „adevărați” de „falși” din eșantion, unde numărul de „fals” este mult mai mare decât numărul de „adevărați” . „Adevărat” se referă la liganzii a căror legare a fost dovedită experimental, iar „fals” se referă la liganzii a căror legare nu a fost dovedită. Analiza curbei ROC a metodei este adesea efectuată [41] .
Capacitatea programelor de andocare de a reproduce structurile obținute prin analiza de difracție cu raze X poate fi evaluată printr-o serie de metode de benchmarking [42] .
În cazul moleculelor mici, seturi speciale de referință care conțin date experimentale pot fi luate pentru analiză comparativă. De exemplu, Astex Diverse Set [43] care conține structuri de proteine cu liganzi obținuți folosind analiza de difracție cu raze X sau metoda Directory of Useful Decoys (DUD) [44] .
În cazul andocării peptidelor , se pot folosi Lecții pentru evaluarea eficienței de andocare și scor (LEADS-PEP) [45] .
Recent, au apărut tot mai multe articole științifice dedicate screening-ului și andocării virtuale. Cu toate acestea, nu aveți încredere orbește în rezultatele lor. Unele dintre cele mai frecvente întrebări de către cercetători includ:
Odată cu dezvoltarea rapidă a unui număr mare de algoritmi diferiți, există și problema alegerii celui mai potrivit algoritm. Cea mai bună strategie de selecție este de a găsi algoritmul care a fost testat pe un eșantion adecvat pentru sarcină și a arătat valori optime [47] .
În biologie, un număr mare de procese biochimice au loc la nivel macromolecular . Procesele sunt mediate de interacțiuni proteină-proteină și proteină - acid nucleic . Pentru a studia acest tip de interacțiuni, se folosește andocarea macromoleculară. Această metodă face posibilă prezicerea structurii tridimensionale a complexului studiat în mediul natural. La fel ca andocarea moleculară, rezultatul studiului este un set de modele ale complexului (structurilor), care sunt clasificate în continuare pe baza funcției estimate (scor, scor, scor) [48] .
Această metodă permite rezolvarea unui număr mai mare de probleme biologice [49] .