Paradoxul lui Simpson

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită pe 27 noiembrie 2021; verificarea necesită 1 editare .

Paradoxul lui Simpson (de asemenea paradoxul lui Yule-Simpson sau paradoxul unirii ) este un efect, un fenomen în statistică, atunci când, în prezența a două grupuri de date, în fiecare dintre ele există o dependență în mod egal direcționată, atunci când aceste grupuri sunt combinate , direcția dependenței se schimbă în sens invers.

Acest fenomen a fost descris de Simpson în 1951 și Udni Yule în 1903 Numele „Paradoxul lui Simpson” a fost propus pentru prima dată de Colin Blythe în 1972 . Cu toate acestea, deoarece Simpson nu a fost cel care a descoperit acest efect, unii autori folosesc nume impersonale precum „ paradoxul uniunii ”.

Istoria descoperirii paradoxului

Pentru prima dată, situația luată în considerare a fost remarcată de Karl Pearson în articolul „Contribuția matematică la teoria evoluției” [1] . El consideră dependența semnelor grupurilor eterogene de cai. Udny Yule face o analiză mai detaliată a unor astfel de modificări ale populației, studiind mecanismele eredității. Simpson discută ceea ce el numește „un caz curios” în mai multe secțiuni ale articolului „The Interpretation of Interaction in Continggency Tables” [2] . Simpson a fost primul autor care a studiat acest fenomen din punct de vedere statistic. Prin urmare, matematicianul de mai târziu K. R. Blythe în articolul „On Simpson’s Paradox and the Sure-Thing Principle” [3] introduce termenul de „Paradoxul lui Simpson”.

Exemple

Exemplu de cip

Să fie patru pălării (două negre și două gri), 41 de jetoane (23 colorate și 18 albe) și două mese (A și B). Chipsurile sunt distribuite pe pălării după cum urmează:

Pe masa A sunt 5 jetoane colorate și 6 albe într-o pălărie neagră.
Există 3 jetoane colorate și 4 albe în pălăria gri de pe masa A.
Pălăria neagră are 6 jetoane colorate și 3 albe pe masa B.
Pălăria gri are 9 jetoane colorate și 5 albe pe masa B.

Să presupunem că vrei să desenezi un chip colorat.

Dacă vă aflați în apropierea tabelului A, atunci probabilitatea de a extrage o așchie colorată dintr-o pălărie neagră este 5/11 = 35/77 , iar dintr-o pălărie gri de pe aceeași masă - 3/7 = 33/77 ; astfel, un chip colorat este mai probabil să fie extras dintr-o pălărie neagră decât dintr-una gri.

Dacă vă aflați în apropierea tabelului B, atunci probabilitatea de a extrage un chip colorat din pălăria neagră este 6/9 = 84/126 , iar din pălăria gri - 9/14 = 81/126 ; astfel, și aici, o cip colorat este mai probabil să fie extras dintr-o pălărie neagră decât dintr-una gri.

Să presupunem acum că jetoanele de la cele două pălării negre sunt stivuite într-o pălărie neagră, iar jetoanele de la cele două pălării gri sunt stivuite într-o pălărie gri. La prima vedere, ar fi logic să presupunem că probabilitatea de a extrage o cip colorat dintr-o pălărie neagră este mai mare decât dintr-una gri. Dar acest lucru este greșit:

probabilitatea de a extrage o cip colorat dintr-o pălărie neagră este 11/20 = 231/420 ,
probabilitatea de a extrage un chip colorat dintr-o pălărie gri este 12/21 = 240/420 ,

adică există mai multe șanse de a extrage o așchie colorată dintr-o pălărie gri decât dintr-una neagră [4] .

Exemplu de piatră

Să presupunem că avem patru seturi de pietre. Probabilitatea de a extrage o piatră neagră din setul nr. 1 este mai mare decât din setul nr. 2. La rândul său, probabilitatea de a extrage o piatră neagră din setul nr. 3 este mai mare decât din setul nr. 4. Combinați setul nr. 1 cu setul nr. 3 (se obține setul I), și setul #2 cu setul #4 (setul II). Intuitiv , ne-am aștepta ca probabilitatea de a extrage o piatră neagră din setul I să fie mai mare decât din setul II. Cu toate acestea, această afirmație nu este adevărată în cazul general.

Într-adevăr, fie numărul de pietre negre din --lea set (eșantion), fie numărul total de pietre din --lea set cu . După condiție: $n_{i}$ $i$ $m_i$ $i$ $i=1,2,3,4$

{\frac {n_{1}}{m_{1}}}>{\frac {n_{2}}{m_{2}}},{\frac {n_{3}}{m_{3}}} >{\frac {n_{4}}{m_{4}}}.

Probabilitatea de a extrage o piatră neagră din seturile I și, respectiv, II:

{\frac {n_{1}+n_{3}}{m_{1}+m_{3}}},{\frac {n_{2}+n_{4}}{m_{2}+m_{4 }}}.

Expresia pentru mulțimea I nu este întotdeauna mai mare decât expresia pentru mulțimea II; adică se poate întâmpla ca

{\frac {n_{1}+n_{3}}{m_{1}+m_{3}}}<{\frac {n_{2}+n_{4}}{m_{2}+ m_{4}}}.

De exemplu, la . Este ușor să verifici asta . În timp ce . $n_{1}=6,~m_{1}=13,~n_{2}=4,~m_{2}=9,~n_{3}=6,~m_{3}=9,~n_{ 4}=9,~m_{4}=14$ $6/13>4/9,~6/9>9/14$ $12/22<13/23$

Motive

Motivul paradoxului este media incorectă a două seturi de date cu proporții diferite de observații de control ( eșantionare nereprezentativă ). Deoarece se presupune intuitiv că atunci când se aplică dependențele găsite, ponderea controlului va fi aceeași în ambele grupuri, iar acest lucru nu este adevărat în datele inițiale, atunci media aritmetică nu poate fi aplicată acestora.

Pentru a elimina problema, atunci când se face o medie, este necesar să se utilizeze greutăți care elimină deformarea cotei de control. Deci, în exemplul cu jetoane, proporția de jetoane de pălărie gri pe masa A este de 7 din 18 (39%), iar pe masa B este de 14 din 23 (61%).

Pentru a face o medie reprezentativă a șansei de a trage un cip de culoare, este suficient să înmulțiți numărul de jetoane din ambele culori dintr-una dintre pălării cu un factor de ponderare care elimină deformarea. De exemplu, dacă în loc de o pălărie gri pe masa A, sunt plasate două pălării din aceleași, atunci probabilitățile pentru fiecare masă separat nu se vor schimba, dar paradoxul va fi eliminat pentru a combina mesele: probabilitatea unei jetoane colorate în o pălărie gri va deveni 15/28, adică mai puțin decât din negru.

O altă modalitate de a rezolva paradoxul este utilizarea formulei probabilității totale .

Paradoxul lui Simpson arată că concluziile din rezultatele anchetelor sociologice cu un eșantion nereprezentator nu pot fi acceptate ca irefutabile, dovedite științific.

Semnificație practică

Paradoxul lui Simpson ilustrează invaliditatea generalizărilor din eșantioane nereprezentative, uneori punând viața în pericol. Deci, de exemplu, în cursul unui experiment la un grup de bărbați și un grup de femei cu aceeași boală, un nou medicament a fost adăugat la tratamentul standard. Rezultatul pentru ambele grupuri a confirmat separat eficacitatea noului agent.

Bărbați	Luând medicamente	Nu luați medicamente
recuperat	700	80
Nerecuperată	800	130
Raport	0,875	0,615

femei	Luând medicamente	Nu luați medicamente
recuperat	150	400
Nerecuperată	70	280
Raport	2.142	1.429

Se presupune intuitiv că, dacă există o dependență în ambele grupuri, aceasta ar trebui să apară și atunci când aceste grupuri sunt combinate. Dar, deși raportul dintre cei recuperați și cei bolnavi atât în rândul femeilor, cât și al bărbaților care au luat medicamentul este mai mare decât în rândul celor care nu l-au folosit, din cauza nereprezentativității grupului de control în datele agregate, acest tipar nu persistă.

Sumă	Luând medicamente	Nu luați medicamente
recuperat	850	480
Nerecuperată	870	410
Raport	0,977	1.171

Raportul în datele agregate este 850/870<480/410, adică 0,977<1,171. Prin urmare, proporția celor care au luat medicamentul și-a revenit a fost mai mică decât aceeași proporție în rândul celor care nu l-au luat.

Pentru a elimina paradoxul, trebuie remarcat faptul că raportul dintre grupul de control și grupul de tratament din grupurile de mai sus diferă brusc: pentru bărbați este (80+130)/(700+800) = 14%, iar pentru femei ( 400+280)/(150+ 70) = 309%.

Pentru o mediere corectă este necesar să se asigure reprezentativitatea grupului martor în ambele probe prin introducerea de coeficienți de greutate astfel încât proporția ponderată a martorilor din ambele loturi să devină aceeași. În acest caz, este suficient să înmulțim numărul de bărbați care nu au luat medicamente cu factorul de ponderare 22,07. Tabelele modificate vor arăta astfel:

Bărbați	găzduit medicament	Nu luați medicamente
Bărbați	găzduit medicament	iniţială	cu greutate x22,07
recuperat	700	80	1765
Nerecuperată	800	130	2869
Raport	0,875	0,615

Sumă	găzduit medicament	Nu luați medicamente
Sumă	găzduit medicament	iniţială	cu greutate x22,07
recuperat	850	480	2165
Nerecuperată	870	410	3149
Raport	0,977	1.171	0,685

Raportul dintre numărul ponderat de recuperați și nerecuperați în rândul celor care nu au luat medicamentul în acest caz va fi de 0,685, adică mai mic decât cel al celor care au luat medicamentul. Acest lucru elimină paradoxul și arată raportul dintre cei recuperați și cei nerecuperați fără medicament pentru aceeași proporție de bărbați și femei ca și cei care au luat medicamentul, ceea ce face posibilă compararea acestor cifre.

Vezi și

Fenomenul Will Rogers

Note

↑ Karl Pearson. Contribuții matematice la teoria evoluției. V. Despre reconstruirea staturii raselor preistorice. Phil. Trans. R. Soc. Lond. A. 1899 192:169-244 doi:10.1098/rsta.1899.0004
↑ The Interpretation of Interaction in Contingence Tables // Journal of the Royal Statistical Society, B, 13 (1951) - pp. 238-241
↑ Blyth, Colin R. Despre paradoxul lui Simpson și principiul lucrurilor sigure // Journal of the American Statistical Association , 67 (1972) - p. 364.
↑ M. Gardner . Capitolul 19. Inducție și probabilitate // Călătoria în timp = Călătoria în timp și alte nedumeriri matematice / Tradus din engleză de Yu. A. Danilov . - M .: Mir , 1990. - S. 278-279. — 341 p. — ISBN 5-03-001166-8 .

Link -uri

Utilizarea Paradoxului lui Simpson într-un model de bacterii vii - pe site-ul Elements
Sekey G. Paradoxuri în teoria probabilității și statisticii matematice - M.: Mir, 1990. - P. 132-133. — 240 s.
Perla Iudeei. Paradoxul lui Simpson: o anatomie. — Raport tehnic — aprilie 1999 — 11 p. (Engleză)
Cele mai vechi utilizări cunoscute ale unora dintre cuvintele matematicii (S) - sept. 24, 2011 (engleză)
Paradoxul lui Simpson - Publicat prima dată luni 2 februarie 2004; revizuire de fond joi, 6 august 2009
Și acum, cine ar trebui să lovească penalty-ul? (link nu este disponibil) - Exemplu practic de Paradoxul lui Simpson la Matifutbol (link nu este disponibil )