Prejudecățile de eșantionare în statistică este o astfel de părtinire în care eșantionul este prelevat în așa fel încât unii membri ai populației vizate , în comparație cu alții, au o probabilitate de eșantionare mai mică sau mai mare . Ca urmare, există un eșantion părtinitor [1] din populație (sau factor non-uman), în care toți subiecții sau specimenele au fost selectate cu probabilități diferite. [2] Dacă această părtinire nu este luată în considerare, rezultatele pot fi considerate în mod eronat drept fenomenul studiat și nu ca metodă de eșantionare .
Eroarea de eșantionare în domeniul medicinei este uneori privită ca o părtinire de judecată [3] [4] . De fapt, eroarea de clarificare este aceeași cu biasul de eșantionare, [5] [6] cu toate acestea, uneori este încă distinsă ca un tip separat de eroare statistică [5] .
Prejudecățile de eșantionare este de obicei caracterizată ca un subtip de părtinire de selecție , [7] chiar uneori definită în mod specific ca părtinire de eșantionare, [8] [9] [10] cu toate acestea, alții o definesc ca un tip separat de eroare statistică. [11] Diferența lor, deși nu este recunoscută de majoritatea, constă în faptul că distorsiunea de eșantionare este eroarea care poate pune sub semnul întrebării validitatea externă a testului (capacitatea rezultatelor acestuia de a se aplica întregii populații), în timp ce eroarea de selecție este corelată numai cu valabilitatea internă a deosebirilor sau asemănărilor constatate în timpul testelor. Prin urmare, erorile care apar în timpul eșantionării sau definirii cohortei pot duce la prejudecăți de eșantionare, iar erorile care apar după aceea pot duce la prejudecăți de selecție.
Cu toate acestea, distorsiunea de eșantionare și eroarea de selecție sunt adesea folosite în mod interschimbabil. [12]
Studiind rapoartele medicale, cazi involuntar intr-o stare paradoxal-anecdotica. În structura lor, astfel de rapoarte conțin doar informații despre metodele de tratament și diagnostic. Un copil care are probleme cu studiul și viața la școală este foarte probabil să fie diagnosticat cu dislexie , dar un copil care încearcă, studiază, dar nu se descurcă bine nu este. Un copil examinat anterior cu un diagnostic va fi mai des reexaminat și pus în condiții noi, ceea ce denaturează statisticile comorbidității . În consecință, oamenii, după ce au auzit astfel de diagnostice, sunt mai susceptibili să le asocieze cu tulburări de comportament sau retard mintal , în timp ce părinții încearcă să-și protejeze copiii de astfel de etichete, ceea ce provoacă părtiniri și mai mari împotriva lor. Rapoartele de cercetare atent selecționate și studiate, la rândul lor, arată că astfel de afecțiuni sunt mult mai frecvente și nu atât de crude față de purtător, cum se credea anterior.
Geneticienii sunt limitati în capacitatea lor de a colecta date de la oameni. Deci, de exemplu, date referitoare la orice caracteristică a unei persoane. Suntem interesați să știm dacă această trăsătură este înnăscută, așa cum spune moștenirea simplă conform lui Mendel . Urmează regulile acestei legi, dacă părinții nu au această caracteristică, dar există o alelă care o poartă, atunci o pot transmite potențial prin moștenire (adică heterozigotul nu este definit). În acest scenariu, șansa ca un copil să moștenească această caracteristică este de 25%. Totuși, apare următoarea întrebare: putem spune în ce familii ambii părinți sunt purtători (heterozigoți), dacă nu sunt judecați de un copil care poate avea deja aceste caracteristici. Descrierea este preluată din manualul lui Sutton. [13]
Figura prezintă pedigree-urile tuturor familiilor posibile cu doi copii, unde părinții sunt purtători (Aa).
Figura arată, de asemenea, probabilitatea de la care poate avea loc selecția familiei, precum și frecvența selecției copiilor bolnavi. În funcție de tipul de selecție trunchiată utilizat, cercetătorul va selecta o frecvență de 4 ⁄ 7 sau 5 ⁄ 8 atunci când trăsătura este prezentă.
Un exemplu observabil de prejudecată de selecție este efectul caveman. Cele mai multe idei moderne despre popoarele preistorice se bazează pe desene rupestre care au fost finalizate cu aproximativ 40.000 de ani în urmă. De asemenea, gropile de foc, piroganele , înmormântările etc. vor rămâne intacte. Dacă oamenii ar picta pe copaci, piei de animale sau dealuri, atunci toate aceste informații s-ar pierde. Asociem oamenii preistorici cu peșteri nu pentru că toți au trăit în peșteri toată viața, ci pentru că doar informațiile conținute în desenele peșterilor au ajuns până la noi. [13]
Datorită apariției distorsiunii de eșantionare, apar probleme deoarece există posibilitatea ca statisticile colectate pentru analiza eșantionului să fie sistematic incorecte. Prejudecățile de eșantionare pot duce la o supraestimare sau subestimare sistematică a parametrului relevant al populației . Prejudecățile de eșantionare apare deoarece este aproape imposibil să se asigure aleatorie pură a eșantionului. Dacă procentul de subreprezentare este mic, eșantionul poate fi considerat o valoare medie rezonabilă pentru un eșantion aleatoriu. În plus, dacă eșantionul nu diferă semnificativ în parametrul studiat, atunci un eșantion părtinitor poate, de asemenea, să acționeze ca o estimare acceptabilă.
Cuvântul prejudecată are o conotație negativă pronunțată. Așadar, se întâmplă ca erorile să apară uneori ca urmare a unei intenții preconcepute de a distorsiona rezultatele cercetării sau fraudei științifice . În analiza statistică, erorile sistematice sunt o proprietate matematică comună, fie că sunt intenționate sau nu, fie ca o consecință a echipamentelor de cercetare imperfecte. Deși unii indivizi pot folosi în mod deliberat eșantionarea părtinitoare pentru a denatura rezultatele cercetării, de cele mai multe ori, părtinirea eșantionării în sine este pur și simplu o dificultate în furnizarea de date reprezentative nativ sau ignorarea posibilității de părtinire pe parcursul întregului proces de cercetare și analiză. Un exemplu de necunoaștere a faptului de părtinire este raportul utilizat în mod obișnuit (cunoscut și sub denumirea de schimbare a pliului ) ca măsură a diferenței în biologie. Deoarece este mai ușor să obțineți un raport mare de două numere mici cu o diferență dată decât un raport mare de două numere mari cu o diferență semnificativă, diferențele semnificative sunt ignorate, caz în care sunt comparate două măsurători numerice relativ mari. Uneori, datorită utilizării unui raport (diviziune) în loc de diferență (scădere), se poate auzi o „prejudecată de demarcație”, ceea ce determină trecerea rezultatelor cercetării de la domeniul științei la pseudoștiință (vezi „ Problema demarcației ”).
Unele eșantioane folosesc un calcul statistic părtinitor, care, totuși, vă permite să estimați parametrul. Centrul Național de Statistică a Sănătății din SUA , de exemplu, supraeșantionează în mod deliberat populațiile mai mici în majoritatea anchetelor sale la nivel național pentru a obține suficientă acuratețe în estimarea acestor grupuri. [14] Anchetele menționate folosesc o pondere a eșantionului (a se vedea mai jos). Permite o evaluare adecvată a tuturor grupurilor etnice. Dacă sunt îndeplinite toate condițiile individuale (în principal cu calculul și utilizarea corectă a coeficientului), atunci acest eșantion reprezintă o estimare precisă a parametrului populației studiat.
Un exemplu clasic de părtinire a eșantionului și denaturarea ulterioară a avut loc în 1936. În primele zile ale sondajelor, cercetătorii din revista americană Literary Digest au adunat aproape două milioane de sondaje prin poștă care au prezis o victorie majoritară a candidatului republican Alfred Landon la viitoarele alegeri prezidențiale din SUA asupra președintelui în exercițiu Franklin Roosevelt . De fapt, totul a fost exact invers. Eșantionul populației sondajului colectat de jurnaliștii Literary Digest a fost format din cititori ai acestei reviste, precum și din persoane care dețin mașini înmatriculate și utilizatori de telefoane. Acest eșantion era o suprareprezentare a oamenilor bogați care, ca grup separat, aveau mai multe șanse să voteze pentru candidatul republican. Pe de altă parte, sondajul lui George Gallup cu doar 50.000 de cetățeni a prezis cu succes rezultatele alegerilor viitoare, care au asigurat popularitatea sondajelor Gallup în viitor .
Un alt exemplu clasic a avut loc în alegerile prezidențiale din 1948 . Cu o seară înainte de alegeri, Chicago Tribune a difuzat un ziar cu titlul „Dew Beats Truman”, care mai târziu s-a dovedit a fi o minciună. Dimineața , președintele ales Harry S. Truman , ținând ziarul în mână, a fost fotografiat cu un zâmbet disprețuitor. Motivul pentru care Tribune a greșit sa dovedit a fi că editorul lor, care a făcut cercetarea, a făcut doar un sondaj telefonic. Tehnologia anchetelor era atunci încă la început și, prin urmare, puțini oameni de știință nu știau că reprezentativitatea eșantionului realizat prin telefon tinde spre zero, deoarece nu ține cont de interesele întregii populații în ansamblu. Telefoanele nu erau încă răspândite la acea vreme și, prin urmare, cei care le aveau erau cel mai probabil oameni bogați cu un loc de reședință permanent. (În majoritatea orașelor , agenda telefonică a sistemului Bell conținea aceleași nume ca și Almanahul Societății.) Jurnaliștii și-au bazat ipotezele pe sondajul Gallup, dar au trecut cu vederea faptul că avea 2 săptămâni. [16]
Analizele calității aerului examinează poluanții ( monoxid de carbon , oxid de azot, dioxid de azot sau ozon ), care arată adesea o corelație ridicată , deoarece toți sunt produși prin același proces(e) chimic(e). Această corelație depinde de loc (adică locația) și timp (adică perioada). Prin urmare, distribuția unui anumit poluant nu este neapărat reprezentată peste tot și întotdeauna în mod egal. Dacă un dispozitiv de măsurare ieftin este calibrat în teren în funcție de date multidimensionale, și anume prin comparație cu un instrument de referință, atunci raportul diferiților compuși este deja utilizat atunci când modelul este standardizat. La mutarea instrumentului de măsurare, pot fi obținute date eronate. [17]
Cel mai timpuriu exemplu de prejudecată de eșantionare este pandemia COVID-19 , când la analizarea ratelor de mortalitate și a distribuției pe vârstă a cazurilor în diferite țări, au existat diferențe în date din cauza părtinirii eșantionului de persoane care tocmai au fost testate pentru COVID-19 . [18] [19]
Dacă din eșantion sunt excluse cohorte întregi ale populației, atunci nu există ajustări pe baza cărora să fie estimată întreaga populație. Cu toate acestea, dacă unele dintre grupuri sunt majoritare și nivelul lor de suprareprezentare poate fi estimat, atunci ponderea eșantionului poate compensa părtinirea. Cu toate acestea, posibilitatea corectării cu succes este limitată de modelul de selecție. Dacă valorile unor variabile lipsesc, atunci metodele care sunt de obicei folosite pentru a corecta părtinirea se pot întoarce împotriva lui. [douăzeci]
De exemplu, populația figurată include 10 milioane de bărbați și 10 milioane de femei. Să presupunem că eșantionul părtinitor este de 100 de persoane: 20 sunt bărbați și 80 sunt femei. Cercetătorul poate compensa acest dezechilibru utilizând un factor de ponderare de 2,5 pentru fiecare bărbat și 0,625 pentru fiecare femeie. Aceste manipulări vor ajusta estimarea la nivelul acelorași rezultate ca și când eșantionul ar fi fost format din 50 de bărbați și 50 de femei, cu excepția cazurilor în care probabilitatea de participare a bărbaților sau femeilor la studiu este aleatorie sau nu este egală.