Estimări de calitate a ansamblului genomului

În biologia computațională , diverși indicatori sunt utilizați pentru a evalua calitatea ansamblului genomului, dintre care cei mai faimoși sunt statisticile lungimii unui set de contigs (sau schele ) N50 și L50 . Aceste statistici sunt măsuri ale calității ansamblării genomului . N50  — lungimea maximă a unui contig, astfel încât lungimea totală a tuturor contig-urilor nu mai scurtă decât cea dată este cel puțin jumătate din lungimea totală a tuturor contig-urilor din ansamblu. [1] N50 este similar cu valoarea mediană sau medie a lungimii, dar contigurile lungi au mai multă greutate în calculul său. L50  este numărul minim de conturi a căror lungime totală este cel puțin jumătate din lungimea totală a ansamblului. Există și statistici similare cu N50 și L50 N90 , NG50 [2] și D50 [3] .

Definiții

N50

Statistica N50 caracterizează calitatea construcției în ceea ce privește continuitatea acesteia. N50 este definit ca cel mai scurt contig atunci când se însumează lungimile numărului minim de contig pentru a obține o sumă mai mare sau egală cu jumătate din lungimea ansamblului genomului. N50 poate fi perceput ca centrul de masă al distribuției lungimii contig. Lungimea totală a secvenţelor contig mai lungi decât N50 este aproximativ egală cu lungimea totală a secvenţelor mai scurte decât N50.

Compararea valorilor N50 ale diferitelor ansambluri are sens numai atunci când lungimile ansamblurilor sunt egale.

N50 poate fi descris ca o mediană ponderată: 50% din ansamblu este conținut în contigs a căror lungime este mai mică sau egală cu valoarea lui N50.

L50

L50  este numărul minim de contigs care, însumate, dau un număr mai mare sau egal cu jumătate din lungimea ansamblului. Este, de asemenea, numărul lungimii contig-ului corespunzător statisticilor N50 din lista lungimilor tuturor contig-ului din ansamblu, sortate în ordine descrescătoare.

N90

Prin analogie cu N50, N90  este cel mai scurt contig atunci când se însumează lungimile numărului minim de contig pentru a obține o sumă mai mare sau egală cu 90% din lungimea ansamblului. În caz contrar: este un astfel de număr încât suma lungimilor contigurilor de această lungime sau mai mare este de 90% din lungimea ansamblului (sau suma lungimilor de contig de această lungime sau mai mică este de 10% din lungimea de ansamblul). Pentru exemplul de mai sus, N90 este 4. N90 este întotdeauna mai mic sau egal cu N50.

NG50

După cum am menționat mai sus, compararea valorilor N50 ale ansamblurilor de lungimi semnificativ diferite este de obicei neinformativă, chiar dacă vorbim despre ansambluri diferite ale aceluiași genom. Pentru a rezolva această problemă, a fost inventată o modificare a lui N50 - statisticile NG50 . Aceste statistici sunt calculate în același mod, cu excepția faptului că în loc de lungimea totală a tuturor contig-urilor, lungimea genomului (cunoscută sau estimată) este utilizată pentru a calcula NG50.

Cel mai adesea, NG50 nu depășește N50 (deoarece lungimea ansamblului este de obicei mai mare decât lungimea genomului).

D50

Statistica D50 (numită și testul D50 ) este similară cu N50, dar este folosită mult mai puțin frecvent pentru a descrie ansamblurile genomului. Acesta este cel mai mic număr d , astfel încât jumătate din ansamblu este format din contigs a căror lungime nu depășește d . [3]

Exemple de calcul

Calcul alternativ

Având în vedere o listă L de numere întregi pozitive, N50 poate fi calculat matematic după cum urmează:

  1. Creați o altă listă L' , identică cu L , cu excepția faptului că al n-lea element din L este înlocuit cu n copii ale lui însuși.
  2. Mediana lui L'  este N50 pentru L . ( Cuantila de 10% L' este o statistică N90 ).

De exemplu: dacă L = (2, 2, 2, 3, 3, 4, 8, 8), atunci L' constă din șase doi, șase trei, patru patru și șaisprezece opt. Adică, L' conține de 2 ori mai multe 2 ca L , de 3 ori mai multe 3, de 4 ori mai multe 4 și așa mai departe. Mediana mulțimii de 32 de elemente L' este media dintre al șaisprezecelea și al șaptesprezecelea elemente (4 și respectiv 8), deci N50 = 6. Puteți vedea că suma valorilor din lista L care sunt mai mici decât sau egală cu valoarea rezultată a lui N50 este 16 = 2 + 2 + 2 + 3 + 3 + 4, iar suma valorilor din lista L care sunt mai mari sau egale cu 6 este, de asemenea, 16 = 8 + 8 .

Note

  1. Lander și colab. Consorțiul Internațional de Secvențiere a Genomului Uman. Secvențierea și analiza inițială a genomului uman.  (engleză)  // Natură. - 2001. - 1 februarie ( nr. 409(6822) ). - P. 860-921 . Arhivat din original pe 15 iunie 2018.
  2. Dent Earl, Keith Bradnam, John St John, Aaron Darling, Dawei Lin. Assemblathon 1: O evaluare competitivă a metodelor de asamblare cu citire scurtă de novo  (engleză)  // Cercetarea genomului. — 01-12-2011. — Vol. 21 , iss. 12 . - P. 2224-2241 . — ISSN 1549-5469 1088-9051, 1549-5469 . - doi : 10.1101/gr.126599.111 . Arhivat din original pe 5 iunie 2018.
  3. ↑ 1 2 Han, J.; Sanders, C. M.; Wang, C.; Yang, Q.; Wimbish, J.; Boone, B.E.; Thomas, SJ; Levy, SE Măsurarea diversității repertoriului celulelor T în sângele periferic prin PCR multiplex nou și metode de secvențiere de înaltă performanță  //  Basel, Elveția. - 2012. - 2 septembrie. Arhivat din original pe 5 octombrie 2015.

Literatură

Link -uri