Estimări de calitate a ansamblului genomului
În biologia computațională , diverși indicatori sunt utilizați pentru a evalua calitatea ansamblului genomului, dintre care cei mai faimoși sunt statisticile lungimii unui set de contigs (sau schele ) N50 și L50 . Aceste statistici sunt măsuri ale calității ansamblării genomului . N50 — lungimea maximă a unui contig, astfel încât lungimea totală a tuturor contig-urilor nu mai scurtă decât cea dată este cel puțin jumătate din lungimea totală a tuturor contig-urilor din ansamblu. [1] N50 este similar cu valoarea mediană sau medie a lungimii, dar contigurile lungi au mai multă greutate în calculul său. L50 este numărul minim de conturi a căror lungime totală este cel puțin jumătate din lungimea totală a ansamblului. Există și statistici similare cu N50 și L50 N90 , NG50 [2] și D50 [3] .
Definiții
N50
Statistica N50 caracterizează calitatea construcției în ceea ce privește continuitatea acesteia. N50 este definit ca cel mai scurt contig atunci când se însumează lungimile numărului minim de contig pentru a obține o sumă mai mare sau egală cu jumătate din lungimea ansamblului genomului. N50 poate fi perceput ca centrul de masă al distribuției lungimii contig. Lungimea totală a secvenţelor contig mai lungi decât N50 este aproximativ egală cu lungimea totală a secvenţelor mai scurte decât N50.
Compararea valorilor N50 ale diferitelor ansambluri are sens numai atunci când lungimile ansamblurilor sunt egale.
N50 poate fi descris ca o mediană ponderată: 50% din ansamblu este conținut în contigs a căror lungime este mai mică sau egală cu valoarea lui N50.
L50
L50 este numărul minim de contigs care, însumate, dau un număr mai mare sau egal cu jumătate din lungimea ansamblului. Este, de asemenea, numărul lungimii contig-ului corespunzător statisticilor N50 din lista lungimilor tuturor contig-ului din ansamblu, sortate în ordine descrescătoare.
N90
Prin analogie cu N50, N90 este cel mai scurt contig atunci când se însumează lungimile numărului minim de contig pentru a obține o sumă mai mare sau egală cu 90% din lungimea ansamblului. În caz contrar: este un astfel de număr încât suma lungimilor contigurilor de această lungime sau mai mare este de 90% din lungimea ansamblului (sau suma lungimilor de contig de această lungime sau mai mică este de 10% din lungimea de ansamblul). Pentru exemplul de mai sus, N90 este 4. N90 este întotdeauna mai mic sau egal cu N50.
NG50
După cum am menționat mai sus, compararea valorilor N50 ale ansamblurilor de lungimi semnificativ diferite este de obicei neinformativă, chiar dacă vorbim despre ansambluri diferite ale aceluiași genom. Pentru a rezolva această problemă, a fost inventată o modificare a lui N50 - statisticile NG50 . Aceste statistici sunt calculate în același mod, cu excepția faptului că în loc de lungimea totală a tuturor contig-urilor, lungimea genomului (cunoscută sau estimată) este utilizată pentru a calcula NG50.
Cel mai adesea, NG50 nu depășește N50 (deoarece lungimea ansamblului este de obicei mai mare decât lungimea genomului).
D50
Statistica D50 (numită și testul D50 ) este similară cu N50, dar este folosită mult mai puțin frecvent pentru a descrie ansamblurile genomului. Acesta este cel mai mic număr d , astfel încât jumătate din ansamblu este format din contigs a căror lungime nu depășește d . [3]
Exemple de calcul
- Fie lungimile a nouă contig-uri 2, 3, 4, 5, 6, 7, 8, 9, 10. Suma lungimilor lor este 54. Pentru a afla N50, obținem un număr mai mare sau egal cu jumătate din lungime a ansamblului prin adăugarea lungimilor a cât mai puține contigs (prin definiție N50). Pentru a face acest lucru, aranjam contigurile în ordinea descrescătoare a lungimii lor: 10, 9, 8, 7, 6, 5, 4, 3, 2. Apoi începem să însumăm lungimile în această ordine până obținem un număr mai mare. decât sau egal cu 27 (54 împărțit la 2). 10 + 9 + 8 = 27. Deci, avem nevoie de cel puțin 3 contig, lungimea celui mai scurt dintre ele este 8. Prin urmare, N50 este 8, iar L50 este 3. Prin analogie, N90 este 4: 10 + 9 + 8 + 7 + 6 + 5 + 4 = 49 > 48,6 = 54 * 0,9. Pentru a calcula NG50, trebuie să introduceți lungimea cunoscută (sau estimată) a genomului, să spunem 30. Atunci NG50 este 9: 10 + 9 = 19 > 15 = 30 * 0,5. Când calculăm D50, aranjam contigurile nu în ordinea descrescătoare, ci în ordinea crescătoare a lungimii lor, apoi în această ordine adunăm lungimile până când obținem un număr mai mare sau egal cu jumătate din lungimea ansamblului: 2 + 3 + 4 + 5 + 6 + 7 = 27. 7 este numărul minim care nu depășește lungimile tuturor contig-urilor pliate, adică D50 este egal cu 7. Același raționament, dar ca ilustrație, poate fi văzut în figură pe dreapta.
- Să fie două ansambluri de genom A și B corespunzătoare genomurilor a două specii diferite. A este format din 6 contig-uri cu lungimi: 80 kb, 70 kb, 50 kb, 40 kb, 30 kb, 20 kb. Lungime ansamblu 290 kb. N50 este 70 kb (80 + 70 = 160 kb, care este mai mult de 290 / 2 = 145 kb). L50 este egal cu 2. B este format din contig de aceeași lungime ca A, cu adăugarea a încă două cu lungimi: 10 kb, 5 kb. Lungime montaj 305 kb. N50 este de 50 kb (80 + 70 + 50 = 200 kb, care este mai mult de 305 / 2 = 152,5 kb). L50 este 3. Dacă dimensiunea genomului cunoscută sau estimată pentru ansamblul A este de 500 kb, atunci NG50 este de 30 kb (80 + 70 + 50 + 40 + 30 = 270, care este mai mare decât 500 / 2 = 250). În același timp, dacă dimensiunea genomului pentru ansamblul B este de 350 kb, atunci NG50 este de 50 kb (80 + 70 + 50 = 200 kb, care este mai mult de 350 / 2 = 175 kb). Acest exemplu arată că puteți crește semnificativ N50 și scădeți L50 dacă pur și simplu eliminați cele mai scurte conturi din ansamblu.
Calcul alternativ
Având în vedere o listă L de numere întregi pozitive, N50 poate fi calculat matematic după cum urmează:
- Creați o altă listă L' , identică cu L , cu excepția faptului că al n-lea element din L este înlocuit cu n copii ale lui însuși.
- Mediana lui L' este N50 pentru L . ( Cuantila de 10% L' este o statistică N90 ).
De exemplu: dacă L = (2, 2, 2, 3, 3, 4, 8, 8), atunci L' constă din șase doi, șase trei, patru patru și șaisprezece opt. Adică, L' conține de 2 ori mai multe 2 ca L , de 3 ori mai multe 3, de 4 ori mai multe 4 și așa mai departe. Mediana mulțimii de 32 de elemente L' este media dintre al șaisprezecelea și al șaptesprezecelea elemente (4 și respectiv 8), deci N50 = 6. Puteți vedea că suma valorilor din lista L care sunt mai mici decât sau egală cu valoarea rezultată a lui N50 este 16 = 2 + 2 + 2 + 3 + 3 + 4, iar suma valorilor din lista L care sunt mai mari sau egale cu 6 este, de asemenea, 16 = 8 + 8 .
Note
- ↑ Lander și colab. Consorțiul Internațional de Secvențiere a Genomului Uman. Secvențierea și analiza inițială a genomului uman. (engleză) // Natură. - 2001. - 1 februarie ( nr. 409(6822) ). - P. 860-921 . Arhivat din original pe 15 iunie 2018.
- ↑ Dent Earl, Keith Bradnam, John St John, Aaron Darling, Dawei Lin. Assemblathon 1: O evaluare competitivă a metodelor de asamblare cu citire scurtă de novo (engleză) // Cercetarea genomului. — 01-12-2011. — Vol. 21 , iss. 12 . - P. 2224-2241 . — ISSN 1549-5469 1088-9051, 1549-5469 . - doi : 10.1101/gr.126599.111 . Arhivat din original pe 5 iunie 2018.
- ↑ 1 2 Han, J.; Sanders, C. M.; Wang, C.; Yang, Q.; Wimbish, J.; Boone, B.E.; Thomas, SJ; Levy, SE Măsurarea diversității repertoriului celulelor T în sângele periferic prin PCR multiplex nou și metode de secvențiere de înaltă performanță // Basel, Elveția. - 2012. - 2 septembrie. Arhivat din original pe 5 octombrie 2015.
Literatură
- JR; Miller; Koren, S; Sutton, G. Algoritmi de asamblare pentru date de secvențiere de generație următoare // Genomics : journal. - Academic Press , 2010. - Vol. 95 , nr. 6 . - P. 315-327 . - doi : 10.1016/j.ygeno.2010.03.001 . — PMID 20211242 .
- Earl, D; Bradnam, K; Sf. Ioan, J; Dragă, A; Lin, D; Fass, J; Yu, HOK; Bivol, V; Zerbino, D. R.; Diekhans, M; Nguyen, N; Ariyaratne, P.N.; Sung, WK; Ning, Z; Haimel, M; Simpson, JT; Fonseca, N.A.; Birol, I; Andocare, TR; Ho, IY; Rokhsar, D.S.; Chikhi, R; Lavenier, D; Chapuis, G; Naquin, D; Maillet, N; Schatz, M.C.; Kelley, D. R.; Phillippy, A. M.; Koren, S. Assemblathon 1: O evaluare competitivă a metodelor de asamblare cu citire scurtă de novo // Cercetarea genomului : jurnal. - 2011. - Vol. 21 , nr. 12 . - P. 2224-2241 . - doi : 10.1101/gr.126599.111 . — PMID 21926179 .
Link -uri