Comparații multiple, multiplicitate, corectarea problemelor cu teste multiple [1] este o modalitate de a elimina efectul comparațiilor multiple [2] care apare atunci când este necesar să se construiască o familie de inferențe statistice. În timpul testării ipotezelor statistice , atunci când ipoteza principală (H 0 ) este respinsă, este posibilă o eroare (respingerea falsă a ipotezei, eroare de primul fel ). Probabilitatea unui astfel de eveniment este limitată de o valoare mică preselectată - nivelul de semnificație (de obicei ). Apoi, la construirea concluziilor, estimarea superioară a probabilității ca cel puțin una dintre ele să fie incorectă este egală cu , care este suficient de mare chiar și pentru cele mici (de exemplu, pentru , este egal cu ). Au fost dezvoltate mai multe abordări pentru a elimina acest efect [3] .
Prima mențiune a problemei comparațiilor multiple poate fi considerată raționamentul lui Antoine Augustine Cournot în Exposition de La Theorie Des Chances Et Des Probabilites (1843) că atunci când se împarte o populație în cât mai multe grupuri, mai devreme sau mai târziu va exista o grup care este semnificativ diferit de restul.agregate. Atunci problema a fost considerată de nerezolvată [4] .
După lucrarea lui Bonferroni (Teoria statistica delle classi e calcolo delle probabilità, 1936), un val de interes pentru problema testării multiple a apărut în anii 1950 în legătură cu lucrările lui John Tukey și Henry Scheffe . Lucrările ulterioare au vizat creșterea puterii corecțiilor. Astfel, în 1979 a fost dezvoltată o corecție Holm-Bonferroni mai puternică. În 1995, cu un articol al lui Benjamini și Hochberg, au început lucrările la FDR (false rejection rate of hypotheses), care a făcut posibilă testarea unui număr mare de ipoteze [4] .
În 1996, a avut loc în Israel prima conferință despre testarea ipotezelor multiple , după care a avut loc o dată la doi ani în întreaga lume [5] .
Ipoteza nulă este adevărată | Ipoteza nulă este falsă | Total | |
---|---|---|---|
Acceptăm ipoteza | |||
Respingem ipoteza | |||
Total |
Cu prea multe încercări, probabilitatea de a obține un rezultat fals pozitiv crește (o creștere a numărului de erori comise de primul fel ). Problema este alegerea unei metode care să permită numărul minim de respingeri false ale ipotezelor și acceptări false . Pentru a face acest lucru, este necesar să alegeți o altă regulă pentru respingerea ipotezelor. Pentru problema testării ipotezelor multiple, există un număr mare de mărimi care generalizează definiția unei erori de primul fel. Cele mai cunoscute sunt următoarele:
Fiecare dintre măsurile de mai sus are propriul mod de a înăspri pragul de semnificație.
Una dintre măsurile care generalizează eroarea de primul fel, luată în considerare la testarea ipotezelor statistice. Valoarea este definită ca probabilitatea de a face cel puțin o eroare de tip I [6] . Prin definiție: [6] . Controlul FWER la un nivel de semnificație fix înseamnă că inegalitatea [6] este satisfăcută .
Există mai multe metode de a controla FWER.
Amendament BonferroniMetoda de corecție Bonferroni precizează că pentru a reduce rezultatele fals pozitive este necesar să se respingă acele ipoteze pentru care p-valoare conform criteriului [8] [9] . Acest amendament face posibilă obținerea , deoarece
Inegalitatea lui Boole implică faptul că pentru un set finit sau numărabil de evenimente, probabilitatea ca cel puțin unul dintre ele să se producă nu este mai mare decât suma probabilităților evenimentelor individuale. Astfel, dacă fiecare test individual este testat la nivelul de semnificație , unde este numărul de ipoteze luate în considerare, atunci pentru întreaga familie de ipoteze nivelul de semnificație este fixat la nivelul :
,
unde este numărul de ipoteze adevărate respinse [10] .
NoteOdată cu o creștere ca urmare a aplicării corecției Bonferroni, puterea procedurii statistice scade brusc - șansele de respingere a ipotezelor incorecte scad [7] .
Metoda lui Holm (corecția Holm-Bonferroni)Metoda lui Holm ( corecția Holm-Bonferroni ) este uniform mai puternică decât corecția Bonferroni și rezolvă problema căderii puterii pe măsură ce crește numărul de ipoteze [11] . Metoda de sus în jos [12] .
Fie - , ordonat de la cel mai mic la cel mai mare. - ipoteze relevante. Procedura lui Holm este definită după cum urmează [12] [13] .
Procedura prevede [12] . Este uniform mai puternică decât metoda Bonferroni [11] .
ExempluLuați în considerare testarea a 4 ipoteze pentru . Să se obțină valorile p pentru ei: 0,01; 0,04; 0,03 și 0,005. Să le aranjam în ordine crescătoare: 1) 0,005; 2) 0,01; 3) 0,03; 4) 0,04. Se vor verifica următoarele inegalități:
Nivelul de semnificație pentru ipoteze este stabilit după cum urmează: . [14] Metoda produce FWER cu condiția ca statisticienii să fie independenți sau ca proprietatea „dependență pozitivă” [15] [16] să fie îndeplinită :
, [16]
Să compunem o serie variațională de valori p: , unde sunt ipotezele corespunzătoare. Procedura arată astfel:
procedura descendenta. Nivelurile de semnificație pentru ipoteze sunt stabilite după cum urmează [17] :
Controlează FWER la un nivel de semnificație dacă statisticile sunt independente în populație. Dacă statisticile sunt independente în populație, este imposibil să se construiască o procedură care să controleze FWER la un nivel mai puternic decât metoda Shidak-Holm. În general , diferă puțin de metoda lui Holm [17] .
Această valoare este definită ca așteptarea matematică a proporției erorilor dintre ipotezele respinse.
Definiți ca raportul dintre numărul de ipoteze respinse incorect și toate ipotezele respinse : . Astfel, FDR:
la [7] .
Controlul nivelului FDR înseamnă că:
[7] .
Metoda Benjamini-HochbergAceasta este o procedură de jos în sus cu următoarele niveluri de semnificație [7] :
.
Fie nivelurile de semnificație , ordonate de la cel mai mic la cel mai mare. - ipoteze relevante. Procedura Benjamini-Hochberg este definită după cum urmează.
Dacă statisticile sunt independente, această metodă controlează FDR la nivelul [7] .
În multe studii, de exemplu în domeniul genomicii , mii sau chiar multe ipoteze trebuie testate. În domeniul studiilor de asociere genetică, există o problemă de nereproductibilitate a rezultatelor: un rezultat care este foarte semnificativ într-un studiu nu se repetă în următorul. Motivul pentru aceasta este, printre altele, consecințele testării multiple [18] .
În diferite domenii ale științei, atitudinea față de testele multiple este ambiguă. Există o opinie că utilizarea unei corecții pentru comparații multiple, atunci când există motive întemeiate de a crede că rezultatele vor fi adevărate, nu este necesară [19] . Se susține, de asemenea, că ajustarea pentru teste multiple este o metodă ineficientă de realizare a cercetării empirice , deoarece, prin controlul fals pozitive, duce la un număr mare de fals negative. Cu toate acestea, pe de altă parte, se susține că îmbunătățirile în metodele de măsurare și tehnologia informației au facilitat apariția unor seturi mari de date pentru analiza exploratorie , ducând la testarea unui număr mare de ipoteze fără a presupune mai întâi că cele mai multe dintre ele sunt adevărate. Și asta înseamnă un număr mare de fals pozitive dacă nu se efectuează corecția pentru teste multiple.
În testarea la scară largă, dacă se dorește obținerea unor rezultate precise, FWER este cel mai bun, totuși, dacă studiul este explorator și rezultatele semnificative vor fi testate într-un studiu independent, se preferă FDR [7] [20] [21] . FDR, definit ca proporția așteptată de fals pozitive dintre toate pozitive (semnificative), vă permite să determinați setul de „candidați pozitivi” care pot fi luați în considerare în studiile ulterioare [22] .
Practica de a face multe comparații neajustate în speranța de a găsi ceva semnificativ, indiferent dacă este aplicată în mod conștient sau nu, este uneori denumită „p-hacking” [23] [24] .
Problema comparației multiple în biologie este omniprezentă în analiza datelor omice [ [20] [25] [26] , deoarece multe variabile sunt analizate simultan. Astfel, în studiile de asociere la nivelul întregului genom și analiza exprimării genice diferențiale , sute de mii până la milioane de ipoteze sunt testate simultan. În cele mai multe cazuri, se utilizează corecția Bonferroni sau pragul general acceptat al valorii p pentru GWAS [27] , cu toate acestea, acest lucru duce la o scădere a puterii studiului cu o creștere concomitentă a riscului de rezultate fals negative. Este încălcată și ipoteza corecției Bonferroni despre independența comparațiilor care se fac, deoarece există un dezechilibru de legături , când frecvențele combinațiilor SNP diferă de cele așteptate în absența legăturii, deci se pune întrebarea câți independenți reali. se fac comparatii. Este posibil să se definească numărul de comparații independente în condiții precum numărul de componente principale care acoperă, în mod colectiv, mai mult decât varianța datelor studiate, apoi valoarea p prag, care oferă semnificație statistică la nivelul , este recalculată ca urmează:
[28] [29]
De asemenea, teste de permutare [28] [30] precum Rank product sunt folosite pentru a rezolva problema comparațiilor multiple . Presupunerea testelor de permutare este că, dacă eșantioanele comparate provin din aceeași populație, atunci schimbul de elemente între eșantioane nu ar trebui să conducă la o schimbare semnificativă a statisticilor testului. Un algoritm general aproximativ pentru testele de permutare este următorul [30] :
Atunci când se aplică teste de permutare, corectarea efectivă a nivelului de semnificație sau a valorilor p testului nu este necesară. Testele de permutare nu sunt sensibile la dezechilibrul probei, ceea ce este util în analiza datelor biologice [31] .