Multiple EM for Motif Elicitation ( MEME ) este un algoritm și un instrument cu același nume, care este o implementare a algoritmului, pentru căutarea motivelor în secvențele biologice de proteine și ADN . Algoritmul se bazează pe aplicarea repetată a metodei probabilității maxime . Un motiv este o secvență scurtă de nucleotide sau aminoacizi care este comună unui set de secvențe.
Căutarea motivelor este o sarcină importantă în biologie, deoarece prezența unui motiv într-o secvență poate servi ca semnal pentru recunoașterea secvenței pentru factorii de transcripție sau endonucleazele de restricție [1] .
Algoritmul MEME a fost dezvoltat în 1994 de Timothy Bailey și Charles Elkan [2] . Este o extensie a metodei de maximă probabilitate pentru găsirea motivelor , care a fost publicată în 1990 de Lawrence și Reilly [3] . Metoda originală a făcut posibilă găsirea unui singur motiv într-un set de secvențe, iar acest motiv a fost optim local, deoarece algoritmul depinde puternic de alegerea parametrilor de pornire. Corectitudinea funcționării sale a depins puternic și de nivelul de zgomot din secvențele considerate. Metoda MEME a făcut posibilă ocolirea acestor neajunsuri. În 1996, a fost creat un server web care conținea o implementare a MEME, care a fost folosit de aproximativ 800 de vizitatori unici între 2000 și 2006 [4] . Și în 2009 a fost prezentat pachetul MEME Suite, care conține nu doar implementarea MEME, ci și multe alte programe conexe [5] . În total, următoarele persoane au lucrat la crearea Suitei MEME: Timothy Bailey, William Stafford Nobel, Charles Elkan și Michael Gribskov au contribuit și ei la proiect. Din 2017, suita MEME este susținută de un grant NIH , iar serverul web primește și ajutor de la Google și Amazon [6] .
Este necesar să se identifice unul sau mai multe motive comune într-un set de secvențe de nucleotide sau aminoacizi nealiniate, fiecare conținând unul, mai multe motive sau niciun motiv. În acest caz, luăm în considerare motivele fără lacune (lacune) care au o funcție biologică comună. De exemplu, ele pot fi ținte ale unei singure proteine de legare a ADN-ului. MEME folosește reprezentarea unui motiv biologic sub forma unei matrice poziție-greutate (PWM) [2] .
Nu este posibil să se detecteze un motiv comun în niciun set de secvențe, prin urmare, pentru ca algoritmul să funcționeze corect, secvențele trebuie selectate și pregătite cu atenție: trebuie așteptat un motiv comun în acest set (de exemplu, se știe că secvențele se leagă la un singur factor de transcripție ), iar secvențele trebuie să fie atât de scurte încât pe cât posibil (ideal <1000 de nucleotide ) [4] .
În mod implicit, ieșirea MEME conține nu mai mult de trei motive de lungime de la 6 la 50, găsite atât pe lanțul direct cât și pe cel invers al secvențelor de intrare [6] . Dacă semnificația biologică a obiectelor de căutare este cunoscută, atunci se poate ghici și seta numărul și lungimea motivelor care sunt așteptate în acest set de secvențe. Acest lucru va îmbunătăți calitatea predicției în cazul în care motivul nu se potrivește parametrilor impliciti [4] .
Intrarea în algoritmul EM este:
Algoritmul returnează un posibil model al motivului găsit [3] .
La fiecare pas al algoritmului, motivul este determinat de o matrice poziție-greutate (PWM) de dimensiune , unde este dimensiunea alfabetului. Fiecare celulă a PVM are o pondere care depinde de probabilitatea ca o literă să apară în coloană , unde . Aceste valori sunt recalculate în timpul fiecărei iterații a algoritmului [3] .
Deoarece inițial nu se știe unde exact în secvențe se află motivul, la fiecare pas al algoritmului se calculează valorile matricei , unde elementul matricei este probabilitatea ca motivul să înceapă în secvența din poziția [3]. ] .
Astfel, algoritmul constă din următoarea secvență de pași:
Pentru a îmbunătăți rezultatul algoritmului EM, este necesar să alegeți setul potrivit de parametri de pornire. Există mai multe moduri de a face acest lucru:
Metoda subsecvenței se bazează pe faptul că motivul dorit trebuie să corespundă unei anumite subsecvențe de lungime în datele originale. Pentru fiecare astfel de secvență, sunt construite PVM-uri, de la care începe fiecare lansare a algoritmului EM. Cea mai mare valoare a funcției de probabilitate dintre toate rulările algoritmului va fi maximul global și va oferi motivul dorit. Acest principiu limitează căutarea motivelor cu lacune [8] .
Conform unei subsecvențe date, un PSM poate fi construit în diferite moduri. Algoritmul MEME folosește următoarele: frecvența literei corespunzătoare literei din subsecvența este luată ca , algoritmul funcționează cel mai bine pentru . Și probabilitățile pentru toate celelalte litere sunt luate ca [8] .
Se pare că în momentul rulării algoritmului pentru o subsecvență corespunzătoare motivului corect, algoritmul EM converge atât de repede încât o iterație este suficientă. Prin urmare, pentru a economisi timp, este suficient să rulați o singură iterație a algoritmului EM de fiecare dată, care este implementată în algoritmul MEME [8] .
Algoritmul MEME se bazează pe aplicarea repetată a algoritmului EM pentru a căuta un motiv în secvențe. Intrarea în algoritmul MEME este:
Algoritmul EM este modificat astfel:
Motivele descoperite la ieșirea programului sunt date sub formă de LOGO .
Algoritmul de căutare a motivelor MEME are loc în pași, unde este o constantă necunoscută (între 10 și 100), este numărul total de litere ale alfabetului dat în secvențele de intrare [9] . Adică, complexitatea algoritmului se dovedește a fi .
Spre deosebire de EM, MEME vă permite să lucrați și să găsiți eficient motive în secvențe care conțin mai mult de o copie a unui motiv sau care nu conțin un motiv. Acestea din urmă sunt considerate de algoritm ca zgomot [8] . Un mare plus este, de asemenea, capacitatea de a căuta mai multe motive diferite într-un set de secvențe de intrare [8] și de a căuta un motiv global optim, în timp ce EM se oprește adesea la unul optim local, ceea ce poate să nu fie deloc un motiv [10] ] . Există o implementare a algoritmului sub forma unui program pentru un PC și un server web cu o interfață convenabilă cu un set de programe suplimentare pentru a lucra în continuare cu motivul găsit [9] .
Algoritmul MEME recunoaște slab motivele în secvențe lungi, în plus, o lungime mare de secvențe crește foarte mult timpul de rulare al algoritmului [4] [9] . De asemenea, algoritmul MEME face o presupunere de bază importantă despre equiprobabilitatea apariției unui motiv în orice parte a secvenței. Această abordare nu este potrivită pentru căutarea unui motiv în secvențele de ARN , deoarece acestea formează structuri secundare și terțiare, ceea ce face apariția unui motiv mai mult sau mai puțin probabilă în funcție de structură [11] . Algoritmul nu permite găsirea motivelor cu lacune, deoarece însăși formularea problemei algoritmului nu implică căutarea acestora.
Pe baza acestui algoritm este implementat instrumentul MEME Suite, disponibil în versiunea web și pentru PC [6] , din 2017 este suportat și actualizat.