Corecție pentru testarea ipotezelor multiple

Comparații multiple, multiplicitate, corectarea problemelor cu teste multiple [1] este o  modalitate de a elimina efectul comparațiilor multiple [2] care apare atunci când este necesar să se construiască o familie de inferențe statistice. În timpul testării ipotezelor statistice , atunci când ipoteza principală (H 0 ) este respinsă, este posibilă o eroare (respingerea falsă a ipotezei, eroare de primul fel ). Probabilitatea unui astfel de eveniment este limitată de o valoare mică preselectată - nivelul de semnificație (de obicei ). Apoi, la construirea concluziilor, estimarea superioară a probabilității ca cel puțin una dintre ele să fie incorectă este egală cu , care este suficient de mare chiar și pentru cele mici (de exemplu, pentru , este egal cu ). Au fost dezvoltate mai multe abordări pentru a elimina acest efect [3] .

Istorie

Prima mențiune a problemei comparațiilor multiple poate fi considerată raționamentul lui Antoine Augustine Cournot în Exposition de La Theorie Des Chances Et Des Probabilites (1843) că atunci când se împarte o populație în cât mai multe grupuri, mai devreme sau mai târziu va exista o grup care este semnificativ diferit de restul.agregate. Atunci problema a fost considerată de nerezolvată [4] .

După lucrarea lui Bonferroni (Teoria statistica delle classi e calcolo delle probabilità, 1936), un val de interes pentru problema testării multiple a apărut în anii 1950 în legătură cu lucrările lui John Tukey și Henry Scheffe . Lucrările ulterioare au vizat creșterea puterii corecțiilor. Astfel, în 1979 a fost dezvoltată o corecție Holm-Bonferroni mai puternică. În 1995, cu un articol al lui Benjamini și Hochberg, au început lucrările la FDR (false rejection rate of hypotheses), care a făcut posibilă testarea unui număr mare de ipoteze [4] .

În 1996, a avut loc în Israel prima conferință despre testarea ipotezelor multiple , după care a avut loc o dată la doi ani în întreaga lume [5] .

Notație

Ipoteza nulă este adevărată Ipoteza nulă este falsă Total
Acceptăm ipoteza
Respingem ipoteza
Total

Metode de rezolvare a problemei comparațiilor multiple

Cu prea multe încercări, probabilitatea de a obține un rezultat fals pozitiv crește (o creștere a numărului de erori comise de primul fel ). Problema este alegerea unei metode care să permită numărul minim de respingeri false ale ipotezelor și acceptări false . Pentru a face acest lucru, este necesar să alegeți o altă regulă pentru respingerea ipotezelor. Pentru problema testării ipotezelor multiple, există un număr mare de mărimi care generalizează definiția unei erori de primul fel. Cele mai cunoscute sunt următoarele:

Fiecare dintre măsurile de mai sus are propriul mod de a înăspri pragul de semnificație.

Probabilitatea grupului de eroare de tip I

Una dintre măsurile care generalizează eroarea de primul fel, luată în considerare la testarea ipotezelor statistice. Valoarea este definită ca probabilitatea de a face cel puțin o eroare de tip I [6] . Prin definiție: [6] . Controlul FWER la un nivel de semnificație fix înseamnă că inegalitatea [6] este satisfăcută .

Există mai multe metode de a controla FWER.

Amendament Bonferroni

Metoda de corecție Bonferroni precizează că pentru a reduce rezultatele fals pozitive este necesar să se respingă acele ipoteze pentru care p-valoare conform criteriului [8] [9] . Acest amendament face posibilă obținerea , deoarece

Inegalitatea lui Boole implică faptul că pentru un set finit sau numărabil de evenimente, probabilitatea ca cel puțin unul dintre ele să se producă nu este mai mare decât suma probabilităților evenimentelor individuale. Astfel, dacă fiecare test individual este testat la nivelul de semnificație , unde este numărul de ipoteze luate în considerare, atunci pentru întreaga familie de ipoteze nivelul de semnificație este fixat la nivelul :

,

unde  este numărul de ipoteze adevărate respinse [10] .

Note

Odată cu o creștere ca urmare a aplicării corecției Bonferroni, puterea procedurii statistice scade brusc - șansele de respingere a ipotezelor incorecte scad [7] .

Metoda lui Holm (corecția Holm-Bonferroni)

Metoda lui Holm ( corecția Holm-Bonferroni ) este uniform mai puternică decât corecția Bonferroni și rezolvă problema căderii puterii pe măsură ce crește numărul de ipoteze [11] . Metoda de sus în jos [12] .

Fie  - , ordonat de la cel mai mic la cel mai mare.  - ipoteze relevante. Procedura lui Holm este definită după cum urmează [12] [13] .

  • Pasul 1. Dacă , acceptați ipotezele și opriți. În caz contrar, dacă , respingeți ipoteza și continuați testarea ipotezelor rămase la nivelul de semnificație .
  • Pasul 2. Dacă , acceptați ipotezele și opriți. În caz contrar, dacă , respingeți ipoteza și continuați testarea ipotezelor rămase la nivelul de semnificație .
  • etc.

Procedura prevede [12] . Este uniform mai puternică decât metoda Bonferroni [11] .

Exemplu

Luați în considerare testarea a 4 ipoteze pentru . Să se obțină valorile p pentru ei: 0,01; 0,04; 0,03 și 0,005. Să le aranjam în ordine crescătoare: 1) 0,005; 2) 0,01; 3) 0,03; 4) 0,04. Se vor verifica următoarele inegalități:

  1. → respinge această ipoteză nulă, mergi mai departe.
  2. → respinge această ipoteză nulă, mergi mai departe.
  3. → acceptați aceasta și următoarea ipoteză nulă, opriți.
Metoda Shidak

Nivelul de semnificație pentru ipoteze este stabilit după cum urmează: . [14] Metoda produce FWER cu condiția ca statisticienii să fie independenți sau ca proprietatea „dependență pozitivă” [15] [16] să fie îndeplinită :

, [16]

Să compunem o serie variațională de valori p: , unde sunt ipotezele corespunzătoare. Procedura arată astfel:

  1. Dacă , atunci acceptăm toate ipotezele și ne oprim, altfel respingem și continuăm;
  2. Dacă , atunci acceptăm toate ipotezele și ne oprim, altfel respingem și continuăm;
  3. … etc.
Metoda Shidak-Holm

procedura descendenta. Nivelurile de semnificație pentru ipoteze sunt stabilite după cum urmează [17] :

Controlează FWER la un nivel de semnificație dacă statisticile sunt independente în populație. Dacă statisticile sunt independente în populație, este imposibil să se construiască o procedură care să controleze FWER la un nivel mai puternic decât metoda Shidak-Holm. În general , diferă puțin de metoda lui Holm [17] .

Rata medie de respingere falsă

Această valoare este definită ca așteptarea matematică a proporției erorilor dintre ipotezele respinse.

Definiți ca raportul dintre numărul de ipoteze respinse incorect și toate ipotezele respinse : . Astfel, FDR:

la [7] .

Controlul nivelului FDR înseamnă că:

[7] .

Metoda Benjamini-Hochberg

Aceasta este o procedură de jos în sus cu următoarele niveluri de semnificație [7] :

.

Fie  nivelurile de semnificație , ordonate de la cel mai mic la cel mai mare.  - ipoteze relevante. Procedura Benjamini-Hochberg este definită după cum urmează.

  • Pasul 1. Dacă , acceptați ipotezele și opriți. În caz contrar, dacă , respingeți ipoteza și continuați testarea ipotezelor rămase la nivelul de semnificație .
  • Pasul 2. Dacă , acceptați ipotezele și opriți. În caz contrar, dacă , respingeți ipoteza și continuați testarea ipotezelor rămase la nivelul de semnificație .
  • etc.

Dacă statisticile sunt independente, această metodă controlează FDR la nivelul [7] .

Multi-testare masivă

În multe studii, de exemplu în domeniul genomicii , mii sau chiar multe ipoteze trebuie testate. În domeniul studiilor de asociere genetică, există o problemă de nereproductibilitate a rezultatelor: un rezultat care este foarte semnificativ într-un studiu nu se repetă în următorul. Motivul pentru aceasta este, printre altele, consecințele testării multiple [18] .

În diferite domenii ale științei, atitudinea față de testele multiple este ambiguă. Există o opinie că utilizarea unei corecții pentru comparații multiple, atunci când există motive întemeiate de a crede că rezultatele vor fi adevărate, nu este necesară [19] . Se susține, de asemenea, că ajustarea pentru teste multiple este o metodă ineficientă de realizare a cercetării empirice , deoarece, prin controlul fals pozitive, duce la un număr mare de fals negative. Cu toate acestea, pe de altă parte, se susține că îmbunătățirile în metodele de măsurare și tehnologia informației au facilitat apariția unor seturi mari de date pentru analiza exploratorie , ducând la testarea unui număr mare de ipoteze fără a presupune mai întâi că cele mai multe dintre ele sunt adevărate. Și asta înseamnă un număr mare de fals pozitive dacă nu se efectuează corecția pentru teste multiple.

În testarea la scară largă, dacă se dorește obținerea unor rezultate precise, FWER este cel mai bun, totuși, dacă studiul este explorator și rezultatele semnificative vor fi testate într-un studiu independent, se preferă FDR [7] [20] [21] . FDR, definit ca proporția așteptată de fals pozitive dintre toate pozitive (semnificative), vă permite să determinați setul de „candidați pozitivi” care pot fi luați în considerare în studiile ulterioare [22] .

Practica de a face multe comparații neajustate în speranța de a găsi ceva semnificativ, indiferent dacă este aplicată în mod conștient sau nu, este uneori denumită „p-hacking” [23] [24] .

Aplicații în bioinformatică

Problema comparației multiple în biologie este omniprezentă în analiza datelor omice [ [20] [25] [26] , deoarece multe variabile sunt analizate simultan. Astfel, în studiile de asociere la nivelul întregului genom și analiza exprimării genice diferențiale , sute de mii până la milioane de ipoteze sunt testate simultan. În cele mai multe cazuri, se utilizează corecția Bonferroni sau pragul general acceptat al valorii p pentru GWAS [27] , cu toate acestea, acest lucru duce la o scădere a puterii studiului cu o creștere concomitentă a riscului de rezultate fals negative. Este încălcată și ipoteza corecției Bonferroni despre independența comparațiilor care se fac, deoarece există un dezechilibru de legături , când frecvențele combinațiilor SNP diferă de cele așteptate în absența legăturii, deci se pune întrebarea câți independenți reali. se fac comparatii. Este posibil să se definească numărul de comparații independente în condiții precum numărul de componente principale care acoperă, în mod colectiv, mai mult decât varianța datelor studiate, apoi valoarea p prag, care oferă semnificație statistică la nivelul , este recalculată ca urmează:

[28] [29]

De asemenea, teste de permutare [28] [30] precum Rank product sunt folosite pentru a rezolva problema comparațiilor multiple . Presupunerea testelor de permutare este că, dacă eșantioanele comparate provin din aceeași populație, atunci schimbul de elemente între eșantioane nu ar trebui să conducă la o schimbare semnificativă a statisticilor testului. Un algoritm general aproximativ pentru testele de permutare este următorul [30] :

  1. Se calculează valoarea statisticilor de testare pentru mostre de date experimentale
  2. Probele sunt combinate într-un singur grup
  3. Eșantioanele de aceeași dimensiune sunt formate aleatoriu din grupul de date
  4. Se calculează valoarea statisticii de testare pentru noul set de probe
  5. Prin repetarea repetată a punctelor 2-4, se construiește distribuția statisticilor testului
  6. Pe baza distribuției construite și a valorii experimentale a statisticilor testului, se determină valoarea p

Atunci când se aplică teste de permutare, corectarea efectivă a nivelului de semnificație sau a valorilor p testului nu este necesară. Testele de permutare nu sunt sensibile la dezechilibrul probei, ceea ce este util în analiza datelor biologice [31] .

Vezi și

Note

  1. Proceduri pentru teste de ipoteze multiple . Preluat la 1 mai 2019. Arhivat din original la 1 martie 2018.
  2. Despre problema testelor multiple de ipoteze statistice . Preluat la 1 mai 2019. Arhivat din original la 17 martie 2018.
  3. Testări multiple . Preluat la 1 mai 2019. Arhivat din original la 1 mai 2019.
  4. ↑ 1 2 Biostatistică medicală pentru boli complexe . - Weinheim: Wiley-VCH, 2010. - 1 resursă online (400 pagini) p. ISBN 9783527630332 _
  5. Conferința MCP 2019  (engleză) . MCP Conference 2019. Preluat la 12 aprilie 2019. Arhivat din original pe 12 aprilie 2019.
  6. ↑ 1 2 3 4 Hochberg Y. Tamhane, AC Proceduri de comparare multiple. New York: Wiley. p. 5. ISBN 978-0-471-82222-6 , 1987.
  7. ↑ 1 2 3 4 5 6 7 8 Yoav Benjamini, Yosef Hochberg. Controlul ratei de descoperire falsă: O abordare practică și puternică a testării multiple  // Jurnalul Societății Regale de Statistică: Seria B (Metodologic). — 1995-01. - T. 57 , nr. 1 . - S. 289-300 . — ISSN 0035-9246 . - doi : 10.1111/j.2517-6161.1995.tb02031.x .
  8. P. MIRONE. UN METODO APPROSSIMATO PER IL CALCOLO DELLE FREQUENZE DI VIBRAZIONE DI MOLECOLE CONTENENTI GRUPPI METILICI  // Advances in Molecular Spectroscopy. - Elsevier, 1962. - S. 293-296 . — ISBN 9781483213323 .
  9. Teoria Statistica Delle Classi e Calcolo Delle Probabilità  // Encyclopedia of Research Design. - 2455 Teller Road, Thousand Oaks California 91320 Statele Unite ale Americii: SAGE Publications, Inc. - ISBN 9781412961271 , 9781412961288 .
  10. Yosef Hochberg. O procedură Bonferroni mai clară pentru teste multiple de semnificație  // Biometrika. — 1988-12. - T. 75 , nr. 4 . - S. 800 . — ISSN 0006-3444 . - doi : 10.2307/2336325 .
  11. ↑ 1 2 Mikel Aickin și Helen Gensler. Ajustarea pentru teste multiple la raportarea rezultatelor cercetării: Metodele Bonferroni vs Holm // Jurnalul American de Sănătate Publică, Vol.86, No.5. - 1996. - Mai.
  12. ↑ 1 2 3 Sture Holm. O procedură simplă de teste multiple respinse secvențial // Scandinavian Journal of Statistics, vol. 6, nr. 2 (1979), pp. 65-70.
  13. Corecție: o procedură îmbunătățită a testului Bonferroni cu respingere secvențială  // Biometrie. — 1987-09. - T. 43 , nr. 3 . - S. 737 . — ISSN 0006-341X . - doi : 10.2307/2532027 .
  14. Zbyněk Šidak. Regiuni rectangulare de încredere pentru mediile distribuțiilor normale multivariate  //  Jurnalul Asociației Americane de Statistică. — 1967-6. — Vol. 62 , iss. 318 . - P. 626-633 . — ISSN 1537-274X 0162-1459, 1537-274X . doi : 10.1080/ 01621459.1967.10482935 . Arhivat din original la 30 ianuarie 2020.
  15. JP Shaffer. Testarea ipotezelor multiple  (engleză)  // Revizuirea anuală a psihologiei. — 1995-1. — Vol. 46 , iss. 1 . - P. 561-584 . — ISSN 1545-2085 0066-4308, 1545-2085 . - doi : 10.1146/annurev.ps.46.020195.003021 . Arhivat din original pe 16 aprilie 2019.
  16. ↑ 1 2 Burt S. Holland, Margaret D. Copenhaver. Proceduri de testare multiple de tip Bonferroni îmbunătățite  // Buletin psihologic. - 1988. - T. 104 , nr. 1 . - S. 145-149 . — ISSN 0033-2909 . - doi : 10.1037//0033-2909.104.1.145 .
  17. ↑ 1 2 Analiza statistică a datelor (curs de prelegeri, K.V. Vorontsov) . www.machinelearning.ru Preluat la 18 aprilie 2019. Arhivat din original la 10 mai 2019.
  18. Hui-Qi Qu, Matthew Tien, Constantin Polychronakos. Semnificația statistică în studiile de asociere genetică  // Clinical & Investigative Medicine. — 01-10-2010. - T. 33 , nr. 5 . - S. 266 . — ISSN 1488-2353 . - doi : 10.25011/cim.v33i5.14351 .
  19. Rothman, Kenneth J. Nu sunt necesare ajustări pentru comparații multiple  (nedefinită)  // Epidemiologie. - 1990. - T. 1 , Nr. 1 . - S. 43-46 . - doi : 10.1097/00001648-199001000-00010 . — PMID 2081237 . — .
  20. ↑ 1 2 J. D. Storey, R. Tibshirani. Semnificația statistică pentru studiile la nivel de genom  (engleză)  // Proceedings of the National Academy of Sciences . - Academia Națională de Științe , 25-07-2003. — Vol. 100 , iss. 16 . - P. 9440-9445 . - ISSN 1091-6490 0027-8424, 1091-6490 . - doi : 10.1073/pnas.1530509100 . Arhivat din original pe 19 iulie 2008.
  21. Efron, Bradley; Tibshirani, Robert; Storey, John D.; Tusher, Virginia. Analiza empirică Bayes a unui experiment cu microarray  //  Jurnalul Asociației Americane de Statistică  : jurnal. - 2001. - Vol. 96 , nr. 456 . - P. 1151-1160 . - doi : 10.1198/016214501753382129 . — .
  22. William S Noble. Cum funcționează corectarea testării multiple?  (Engleză)  // Nature Biotechnology . - Nature Publishing Group , 2009-12. — Vol. 27 , iss. 12 . - P. 1135-1137 . - ISSN 1546-1696 1087-0156, 1546-1696 . - doi : 10.1038/nbt1209-1135 . Arhivat din original pe 12 aprilie 2019.
  23. Young, SS, Karr, A. Deming, studii de date și observaționale  (neopr.)  // Semnificație. - 2011. - T. 8 , nr 3 . - S. 116-120 . - doi : 10.1111/j.1740-9713.2011.00506.x .
  24. Smith, GD, Shah, E. Dragarea datelor, părtinire sau confuzie  // BMJ  :  jurnal. - 2002. - Vol. 325 , nr. 7378 . - P. 1437-1438 . - doi : 10.1136/bmj.325.7378.1437 . PMID 12493654 .
  25. Anjana Grandhi, Wenge Guo, Shyamal D. Peddada. O procedură de testare multiplă pentru comparații multidimensionale în perechi cu aplicare la studiile de exprimare a genelor  // BMC Bioinformatics. — 25-02-2016. - T. 17 . — ISSN 1471-2105 . - doi : 10.1186/s12859-016-0937-5 .
  26. ScienceDirect . www.sciencedirect.com. Data accesului: 13 aprilie 2019.
  27. Gregory S. Barsh, Gregory P. Copenhaver, Greg Gibson, Scott M. Williams. Ghid pentru studii de asociere la nivelul întregului genom  // PLoS Genetics. — 05-07-2012. - T. 8 , nr. 7 . — ISSN 1553-7390 . - doi : 10.1371/journal.pgen.1002812 . Arhivat din original pe 7 ianuarie 2021.
  28. ↑ 1 2 Randall C Johnson, George W Nelson, Jennifer L Troyer, James A Lautenberger, Bailey D Kessing. Contabilizarea comparațiilor multiple într-un studiu de asociere la nivel de genom (GWAS)  // BMC Genomics. — 22.12.2010. - T. 11 . - S. 724 . — ISSN 1471-2164 . - doi : 10.1186/1471-2164-11-724 .
  29. Xiaoyi Gao, Joshua Starmer, Eden R. Martin. O metodă de corecție a testării multiple pentru studiile de asociere genetică folosind polimorfisme de nucleotidă unică corelate  // Epidemiologie genetică. — 2008-5. - T. 32 , nr. 4 . - S. 361-369 . — ISSN 0741-0395 . - doi : 10.1002/gepi.20310 . Arhivat din original pe 13 aprilie 2019.
  30. ↑ 1 2 Ronglin Che, John R Jack, Alison A Motsinger-Reif, Chad C Brown. O abordare adaptivă de permutare pentru studiul de asociere la nivel de genom: evaluare și recomandări de utilizare  // BioData Mining. — 14-06-2014. - T. 7 . - S. 9 . — ISSN 1756-0381 . - doi : 10.1186/1756-0381-7-9 .
  31. Benjamin T. Files, Vernon J. Lawhern, Anthony J. Ries, Amar R. Marathe. Un test de permutare pentru comparații perechi neechilibrate ale puterii câmpului global  // Topografia creierului. - 2016. - T. 29 . - S. 345-357 . — ISSN 0896-0267 . - doi : 10.1007/s10548-016-0477-3 .

Literatură

  • E. L. Lehmann, J. P. Romano. Capitolul 9: Testare multiplă și inferență simultană // Testarea ipotezelor statistice : [ ing. ] . — Ed. a 3-a. - New York : Springer, 2005. - 786 p.
  • Peter H. Westfall, S. Stanley Young. Testare multiplă bazată pe reeșantionare: exemple și metode pentru ajustarea valorii p : [ ing. ] . - Wiley, 1993. - 360 p. - ISBN 978-0-471-55761-6 .