Variabila de confuzie

O variabilă de confuzie, un factor de confuzie, un factor de confuzie,  este o variabilă din statistică care afectează atât variabilele dependente, cât și variabilele independente , rezultând o relație falsă . Încurcarea este un concept cauzal , un element al modelului cauzal și, ca atare, nu poate fi descris în termeni de corelații sau asocieri [1] [2] [3] . Elementele de confuzie sunt unul dintre tipurile de variabile din analiza cauzală împreună cu moderatorii , mediatorii și colizerii [4] [5] [6] .

Definiție

Întanglementul poate fi definit în termeni de generare de date (ca în figura de mai sus). Fie X  o variabilă independentă și Y  o variabilă dependentă . Pentru a estima efectul lui X asupra lui Y , statisticianul trebuie să elimine efectul variabilelor străine care afectează atât X cât și Y. Spunem că X și Y sunt încurcate cu o variabilă Z ori de câte ori Z afectează cauzal atât X , cât și Y. la Y.

Fie  probabilitatea evenimentului Y = y sub o intervenție ipotetică X = x . X și Y nu sunt încurcate dacă și numai dacă următoarea condiție este adevărată:

pentru toate probabilitățile de eveniment X = x și evenimentul Y = y , unde  este probabilitatea condiționată X = x . Intuitiv, această egalitate afirmă că X și Y nu sunt încurcate dacă relația observată dintre ele este aceeași cu relația care ar fi măsurată într-un experiment controlat cu [ en x .

În principiu, egalitatea definitorie poate fi testată față de modelul de generare a datelor, presupunând că avem toate ecuațiile și probabilitățile asociate modelului. Aceasta se realizează prin modelarea intervenției (vezi rețeaua bayesiană ) și verificând dacă probabilitatea rezultată Y este egală cu probabilitatea condiționată . Rezultă că proprietățile graficului sunt suficiente pentru a verifica egalitatea .

Control

Luați în considerare un cercetător care încearcă să evalueze eficacitatea medicamentului X pe baza datelor populației, pacienții înșiși alegând medicamentul utilizat. Datele arată că sexul ( Z ) influențează alegerea unui medicament al pacientului, precum și șansele acestora de recuperare ( Y ). În acest scenariu, genul lui Z rupe relația dintre X și Y, deoarece Z este cauza atât pentru X , cât și pentru Y  :

Avem inegalitate

,

deoarece cantitatea observată conține informații despre corelația dintre X și Z , dar cantitatea de confuzie nu (pentru că X nu se corelează cu Z într-un experiment randomizat). Un statistician are nevoie de o estimare imparțială , dar în cazurile în care sunt disponibile doar date observaționale, o estimare imparțială poate fi obținută numai luând în considerare toți factorii de confuzie, și anume, luând în considerare diferitele lor valori și rezultatul mediu. În cazul unui singur factor de confuzie Z , aceasta duce la o „formulă de ajustare”:

,

care oferă o estimare imparțială a impactului cauzal al lui X asupra lui Y. Aceeași formulă funcționează în prezența mai multor factori de confuzie, cu excepția faptului că în acest caz alegerea mulțimii Z care ar garanta o estimare nepărtinitoare trebuie făcută cu grijă. Criteriul pentru alegerea corectă a variabilelor de confuzie se numește backdoor [7] [8] și necesită ca mulțimea aleasă Z să „blocheze” (sau să intercepteze) fiecare cale de la X la Y care se termină cu o săgeată în X. Astfel de mulțimi sunt numite un „backdoor validă” și poate include variabile care nu sunt cauze comune ale X și Y , ci înlocuitorii lor.

Revenind la exemplul de droguri, deoarece Z satisface cerința backdoor (adică interceptează o cale ), atunci „formula de ajustare” este validă:

.

Astfel, cercetătorul poate prezice efectul probabil al utilizării unui medicament pe baza unor studii observaționale , în care probabilitățile condiționate care apar în partea dreaptă a ecuației pot fi estimate folosind regresie.

Contrar credinței populare, adăugarea covariate la setul Z poate duce la distorsiuni. Un contraexemplu tipic apare atunci când Z este rezultatul comun al lui X și Y , [9] , caz în care Z nu este un factor de confuzie (adică setul gol este o ușă din spate validă) și luând în considerare Z ar crea o distorsiune cunoscută sub numele de ciocnitor . sau paradoxul lui Berkson .

În general, încurcarea poate fi controlată prin ajustare dacă și numai dacă există un set de covariabile observabile care satisfac condiția backdoor. Mai mult, dacă Z este o astfel de mulțime, atunci formula de reglare a ecuației (3) este într-adevăr <4,5>. Do-calcul lui Jude Pearl oferă condiții suplimentare în care P ( y  | do ( x )) poate fi estimat fără a recurge la ajustare [10] .

Istorie

Potrivit lui Morabia (2011) [11] , conceptul de confuzor provine de la verbul latin medieval „confudere” (din latină: con = cu + fusus = a pune sau a îmbina), însemnând „a amesteca”, și probabil a fost ales pentru a denotă confuzie între cauza care trebuie evaluată și alte motive care pot afecta rezultatul și astfel pot confunda sau interfera cu evaluarea dorită. Fisher a folosit cuvântul „încurcăre” în cartea sa din 1935 Design of Experiments [12] pentru a se referi la sursa erorii în descrierea unui experiment randomizat ideal. Potrivit lui Vandenbroucke (2004) [13] , Leslie Kish [14] a folosit pentru prima dată cuvântul „încurcăre” în sensul modern al cuvântului pentru a se referi la „incompatibilitatea” a două sau mai multe seturi (de exemplu, expuse și neexpuse). ) în timpul unei cercetări observaţionale .

Condițiile formale care determină de ce unele seturi sunt „comparabile” și altele „incomparabile” au fost dezvoltate în epidemiologie de Greenland și Robins (1986) [15] folosind limbajul contrafactualelor de Jerzy Neumann (1935) [16] și Donald Rubin (1974) [17] . Acestea au fost completate ulterior cu criterii grafice precum criteriul ușii din spate (Pearl 1993; Greenland, Pearl and Robins, 1999) [3] [7] . S-a demonstrat că criteriile grafice sunt echivalente formal cu definiția contrafactuală [18] , dar sunt mai transparente pentru cercetătorii care se bazează pe modele de proces.

Tipuri

În cazul evaluării riscului al unui anumit factor pentru sănătatea umană , este important să se controleze încurcarea pentru a izola efectul unei anumite amenințări, cum ar fi un aditiv alimentar, un pesticid sau un medicament nou. Pentru studiile prospective , este dificil să recrutați și să selectați voluntari cu același background (vârstă, alimentație, educație, geografie etc.). Și în studiile transversale și repetate , variabilele dependente se pot comporta în moduri similare din motive diferite. Datorită incapacității de a controla calitatea voluntarilor, încurcarea este o problemă specială pentru studiile pe oameni. Din aceste motive , experimentele , spre deosebire de studiile observaționale, sunt o modalitate de a evita majoritatea formelor de încurcare.

În unele discipline, încurcarea este clasificată în diferite tipuri. În epidemiologie , un tip este „confuzia de indicații” [19] , care este asociată cu denaturarea rezultatelor studiilor observaționale . Deoarece factorii de prognostic pot influența deciziile de tratament (și distorsionează estimările efectelor tratamentului), controlul factorilor predictivi cunoscuți poate reduce această problemă, dar există întotdeauna posibilitatea ca un factor uitat sau necunoscut să fi fost omis sau ca factorii să interacționeze într-un mod complicat. cale. Confuzia indicațională este considerată cea mai importantă limitare a studiilor observaționale. Studiile randomizate nu sunt afectate de confuzia de indicație din cauza distribuției aleatorii .

Variabilele de confuzie pot fi, de asemenea, clasificate în funcție de sursa lor: alegerea instrumentului de măsurare (confuzie operațională), caracteristici situaționale (confuzie procedurală) sau diferențe interpersonale (confuzie de personalitate).

Exemple

Să presupunem că cineva studiază relația dintre ordinea nașterii (primul copil, al doilea copil etc.) și dacă copilul are sindromul Down . În acest studiu, vârsta mamei va fi o variabilă de confuzie:

  1. Vârsta mai mare a mamei este direct legată de sindromul Down la un copil
  2. Vârsta mai înaintată a mamei este direct legată de sindromul Down, indiferent de ordinea nașterii (o mamă care are primul sau al treilea copil la vârsta de 50 de ani prezintă același risc)
  3. Vârsta mamei este direct legată de ordinea nașterii (al 2-lea copil, cu excepția gemenilor, se naște atunci când mama este mai mare decât era la momentul nașterii primului copil)
  4. Vârsta mamei nu este o consecință a ordinii nașterii (a avea un al doilea copil nu afectează vârsta mamei)

Atunci când se evaluează riscul, factori precum vârsta, sexul și nivelul de educație influențează adesea starea de sănătate și, prin urmare, ar trebui monitorizați. În plus față de acești factori, este posibil ca cercetătorii să nu ia în considerare sau să nu aibă acces la date despre alți factori cauzali. Un exemplu este studiul impactului fumatului asupra sănătății umane. Fumatul, consumul de alcool și dieta sunt legate. O evaluare a riscurilor care ia în considerare efectele fumatului, dar nu ia în considerare consumul de alcool sau dieta poate supraestima riscul fumatului [22] . Fumatul și încurcarea sunt luate în considerare în evaluările riscurilor ocupaționale, cum ar fi evaluările de siguranță în minerit de cărbune [23] . Atunci când nu există un eșantion mare de nefumători sau nebăutori într-o anumită profesie, evaluarea riscurilor poate fi înclinată spre efectele negative ale profesiei asupra sănătății.

Reducerea posibilității de încurcare

Probabilitatea apariției și influenței factorilor de confuzie poate fi redusă prin creșterea tipurilor și numărului de comparații făcute în studiu. Dacă măsurătorile sau manipulările principalelor variabile sunt confuze (adică există factori de confuzie operaționale sau procedurale), analiza subgrupurilor poate să nu dezvăluie probleme în studiu. Cu toate acestea, rețineți că creșterea numărului de comparații poate crea alte probleme (consultați Comparații multiple ).

Evaluarea inter pares  este un proces care poate ajuta la reducerea confuziei fie înainte ca studiul să fie efectuat, fie după ce analiza a fost efectuată. Evaluarea inter pares se bazează pe evaluarea inter pares în cadrul disciplinei pentru a identifica potențialele puncte slabe în proiectarea și analiza studiului, inclusiv modul în care rezultatele pot fi afectate de confuzie. În mod similar, replicarea vă permite să verificați fiabilitatea rezultatelor studiului în condiții alternative de studiu sau abordări alternative ale analizei rezultatelor acestuia (de exemplu, luând în considerare posibila confuzie neidentificată în studiul original).

În funcție de designul studiului, există diferite moduri de a exclude sau de a controla variabilele confuze [24] :

Toate aceste metode au dezavantajele lor:

  1. Cea mai bună apărare împotriva confuziei false pozitive este adesea să renunți la eforturile de stratificare și, în schimb, să efectuezi un studiu randomizat un eșantion suficient de mare , luat în ansamblu, astfel încât toate variabilele potențiale de confuzie (cunoscute și necunoscute) să fie distribuite aleatoriu în toate grupuri de studiu și, prin urmare, nu se vor corela cu variabila binară .
  2. Considerații etice: În studiile controlate dublu-orb și randomizate, participanții nu știu că primesc tratament simulat , ceea ce înseamnă că li se poate refuza un tratament eficient [25] . Există posibilitatea ca pacienții să accepte o intervenție chirurgicală invazivă (care comportă riscuri medicale reale) doar cu condiția să primească tratament.

Vezi și

Note

  1. ^ Pearl, J., (2009). Paradoxul lui Simpson , confuzie și colapsibilitate în cauzalitate: modele, raționare și inferență (ed. a doua). New York: Cambridge University Press.
  2. VanderWeele, TJ (2013). „Despre definiția unui factor de confuzie” . Analele Statisticii . 41 (1): 196-220. arXiv : 1304.0564 . DOI : 10.1214/12-aos1058 . PMID  25544784 .
  3. 1 2 Groenlanda, S. (1999). „Confuzie și colapsibilitate în inferența cauzală” . Stiinta Statistica . 14 (1): 29-46. DOI : 10.1214/ss/1009211805 .
  4. Field-Fote, Edelle. Mediatori și moderatori, factori de confuzie și covariabile: explorarea variabilelor care luminează sau ascund „ingredientele active” în neuroreabilitare . Journal of Neurologic Physical Therapy, aprilie 2019, volumul 43, numărul 2, p. 83-84, doi: 10.1097/NPT.0000000000000275 . Preluat la 8 decembrie 2021. Arhivat din original pe 8 decembrie 2021.
  5. Adrian E. Bauman, PhD, James F. Sallis, PhD, David A. Dzewaltowski, PhD, Neville Owen, PhD. Către o mai bună înțelegere a influențelor asupra activității fizice: rolul determinanților, corelaților, variabilelor cauzale, mediatorilor, moderatorilor și factorilor de confuzie . Jurnalul American de Medicină Preventivă, 2002, Volumul 23, Numărul 2S .
  6. David P. MacKinnon. O unificare a efectelor de mediator, de confuzie și de coliziune . știința prevenirii. Volumul 22, paginile 1185–1193 (2021) . Preluat la 9 decembrie 2021. Arhivat din original pe 9 decembrie 2021.
  7. 1 2 Pearl, J., (1993). „Aspecte ale modelelor grafice legate de cauzalitate”, în Proceedings of the 49th Session a International Statistical Science Institute, pp. 391-401.
  8. ^ Pearl, J. (2009). Diagrame cauzale și identificarea efectelor cauzale în cauzalitate: modele, raționament și inferență (ed. a 2-a). New York, NY, SUA: Cambridge University Press.
  9. Lee, P.H. (2014). „Ar trebui să ne adaptăm pentru un factor de confuzie dacă criteriile empirice și teoretice dau rezultate contradictorii? Un studiu de simulare”. rep științific . 4 : 6085. Bibcode : 2014NatSR...4E6085L . doi : 10.1038/ srep06085 . PMID 25124526 . 
  10. Shpitser, I. (2008). „Metode complete de identificare pentru ierarhia cauzală”. Jurnalul de cercetare în domeniul învățării automate . 9 : 1941-1979.
  11. Morabia, A (2011). „Istoria conceptului epidemiologic modern de confuzie” (PDF) . Jurnal de Epidemiologie și Sănătate Comunitară . 65 (4): 297-300. DOI : 10.1136/jech.2010.112565 . PMID  20696848 . Arhivat (PDF) din original pe 2021-12-05 . Accesat 2021-12-05 . Parametrul depreciat folosit |deadlink=( ajutor )
  12. Fisher, R.A. (1935). Proiectarea experimentelor (pp. 114-145).
  13. Vandenbroucke, JP (2004). „Istoria descoperirii”. Soz Praventivmed . 47 (4): 216-224. DOI : 10.1007/BF01326402 . PMID  12415925 .
  14. Kish, L (1959). „Câteva probleme statistice în proiectarea cercetării”. Am Sociol . 26 (3): 328-338. DOI : 10.2307/2089381 .
  15. Groenlanda, S. (1986). „Identificabilitate, schimbabilitate și confuzie epidemiologică” . Jurnalul Internațional de Epidemiologie . 15 (3): 413-419. DOI : 10.1093/ije/15.3.413 . PMID  3771081 .
  16. Neyman, J., cu cooperarea lui K. Iwaskiewics și St. Kolodziejczyk (1935). Probleme statistice în experimentarea agricolă (cu discuție). Suppl J Roy Statist Soc Ser B 2 107-180.
  17. Rubin, D.B. (1974). „Estimarea efectelor cauzale ale tratamentelor în studii randomizate și nerandomizate” . Revista de psihologie educațională . 66 (5): 688-701. DOI : 10.1037/h0037350 .
  18. ^ Pearl, J., (2009). Cauzalitate: Modele, Raționament și Inferență (ed. a II-a). New York, NY, SUA: Cambridge University Press.
  19. Johnston, S.C. (2001). „Identificarea confuziei prin indicație prin evaluarea prospectivă oarbă.” Jurnalul American de Epidemiologie . 154 (3): 276-284. DOI : 10.1093/aje/154.3.276 . PMID  11479193 .
  20. 1 2 Pelham, Brett. Efectuarea cercetărilor în psihologie. - 2006. - ISBN 978-0-534-53294-9 .
  21. Steg, L. Psihologie Socială Aplicată: Înțelegerea și gestionarea problemelor sociale / L. Steg, A. P. Buunk. — 2008.
  22. Tjønneland, Anne (ianuarie 1999). „Consumul de vin și dieta într-un eșantion aleatoriu de 48763 de bărbați și femei daneze” . Jurnalul American de Nutriție Clinică . 69 (1): 49-54. DOI : 10.1093/ajcn/69.1.49 . PMID  9925122 .
  23. Axelson, O. (1989). „Confuzie de la fumat în epidemiologia ocupațională” . Jurnalul Britanic de Medicină Industrială . 46 (8): 505-07. DOI : 10.1136/oem.46.8.505 . PMID2673334  . _
  24. Mayrent, Sherry L. Epidemiology in Medicine . - Lippincott Williams & Wilkins , 1987. - ISBN 978-0-316-35636-7 .
  25. Emanuel, Ezekiel J (20 septembrie 2001). „Etica studiilor controlate cu placebo – o bază de mijloc” . New England Journal of Medicine . 345 (12): 915-9. doi : 10.1056/ nume200109203451211 . PMID 11565527 . 

Literatură

Link -uri