Paradoxul zilei de naștere

Versiunea actuală a paginii nu a fost încă examinată de colaboratori experimentați și poate diferi semnificativ de versiunea revizuită la 22 februarie 2022; verificările necesită 2 modificări .

Paradoxul zilei de naștere  este o afirmație conform căreia într-un grup de 23 sau mai multe persoane, probabilitatea coincidenței zilelor de naștere (ziua și luna) pentru cel puțin două persoane depășește 50 % . De exemplu, dacă există 23 sau mai mulți elevi într-o clasă , atunci este mai probabil ca o pereche de colegi să aibă zile de naștere în aceeași zi decât ca fiecare să aibă o zi de naștere unică [1] . Această problemă a fost luată în considerare pentru prima dată de Richard Mises în 1939 [2] [3] .

Pentru 57 sau mai multe persoane, probabilitatea unei astfel de coincidențe depășește 99% , deși ajunge la 100% , conform principiului Dirichlet (bunul simț), numai atunci când în grup sunt cel puțin 367 de persoane (exact cu 1 mai mult decât numărul de zile într-un an bisect ; luând în considerare anii bisecti ).

O astfel de afirmație poate părea neevidentă, deoarece probabilitatea ca zilele de naștere a două persoane să coincidă cu orice zi a anului , înmulțită cu numărul de persoane din grup (23), dă doar . Acest raționament este incorect, deoarece numărul de cupluri posibile depășește semnificativ numărul de persoane din grup ( 253 > 23 ). Astfel, afirmația nu este un paradox în sensul strict științific: nu există o contradicție logică în ea, iar paradoxul constă doar în diferențele dintre percepția intuitivă a situației de către o persoană și rezultatele unui calcul matematic .

Percepția intuitivă

Într-un grup de 23 de persoane, probabilitatea ca două persoane să aibă aceeași zi de naștere este atât de mare, deoarece este luată în considerare probabilitatea ca oricare două persoane din grup să aibă aceeași zi de naștere. Această probabilitate este determinată de numărul de perechi de persoane care pot fi formate din 23 de persoane. Deoarece ordinea persoanelor în perechi nu contează, numărul total de astfel de perechi este egal cu numărul de combinații de 23 cu 2, adică (23 × 22) / 2 = 253 de perechi .

În formularea paradoxului, vorbim despre coincidența zilelor de naștere pentru oricare doi membri ai grupului. O concepție greșită obișnuită este că acest caz este confundat cu un alt caz aparent similar în care o persoană este selectată dintr-un grup și este estimată probabilitatea ca ziua de naștere a oricăror altor membri ai grupului să coincidă cu ziua de naștere a persoanei selectate. În acest din urmă caz, probabilitatea unei potriviri este mult mai mică.

Calcul probabilității

Este necesar să se determine probabilitatea ca într-un grup de n oameni cel puțin doi dintre ei să aibă aceeași zi de naștere.

Lăsați zilele de naștere să fie distribuite uniform , adică presupunem că:

În realitate, acest lucru nu este în întregime adevărat - în special, în unele țări, din cauza naturii spitalelor , se nasc mai mulți copii în anumite zile ale săptămânii. Cu toate acestea, distribuția neuniformă nu poate decât să crească probabilitatea coincidenței zilelor de naștere, dar nu poate reduce: dacă toți oamenii s-ar fi născut doar în 3 zile din 365, atunci probabilitatea coincidenței zilelor de naștere ar fi foarte mare.

Să calculăm mai întâi  probabilitatea ca într-un grup de oameni zilele de naștere ale tuturor oamenilor să fie diferite. Dacă , atunci, în virtutea principiului Dirichlet , probabilitatea este zero. Dacă , atunci vom argumenta după cum urmează. Să luăm la întâmplare o persoană din grup și să ne amintim ziua de naștere. Apoi luăm a doua persoană la întâmplare, în timp ce probabilitatea ca ziua sa de naștere să nu coincidă cu ziua de naștere a primei persoane este egală cu . Apoi luați a treia persoană; probabilitatea ca ziua lui de naștere să nu coincidă cu ziua de naștere a unuia dintre primele două este egală cu . Argumentând prin analogie, vom ajunge la ultima persoană pentru care probabilitatea unei nepotriviri a zilei sale de naștere cu toate cele anterioare va fi egală cu . Înmulțind toate aceste probabilități, obținem probabilitatea ca toate zilele de naștere din grup să fie diferite:

Atunci probabilitatea ca cel puțin doi oameni din n să aibă aceeași zi de naștere este egală cu

Valoarea acestei funcții depășește 1/2 la , în timp ce probabilitatea de coincidență este de aproximativ 50,73% și . Lista de n valori și probabilitățile lor corespunzătoare este dată în tabelul următor.

n p ( n )
zece 12 %
douăzeci 41%
treizeci 70%
cincizeci 97%
100 99,99996%
200 99,99999999999999999999999998%
300 (1 − 7×10 −73 ) × 100%
350 (1 − 3×10 −131 ) × 100%
367 100 %

Această problemă poate fi reformulată în termenii clasicei „problema coincidențelor”. Lăsa:

Este necesar să se calculeze probabilitatea unui eveniment constând în absența repetărilor în eșantion. Toate calculele sunt aceleași ca mai sus .

Metodă alternativă

Probabilitatea ca două persoane dintr-un grup de n să aibă aceeași zi de naștere poate fi calculată și folosind formule combinatorice [4] . Imaginează-ți că fiecare zi a anului are o literă în alfabet, iar alfabetul este format din 365 de litere. Zilele de naștere a n persoane pot fi reprezentate printr-un șir format din n litere ale acestui alfabet. După formula lui Hartley , numărul de rânduri posibile este

Numărul de șiruri posibile în care literele nu se repetă ( plasarea lui 365 cu n ) va fi

Dacă rândurile sunt alese aleatoriu (cu o distribuție uniformă ), probabilitatea de a alege un rând în care se potrivesc cel puțin două litere este

la şi la .

În acest fel,

iar această expresie este echivalentă cu cea prezentată mai sus .

De asemenea, numărul total de rânduri posibile poate fi calculat folosind formula combinatorică pentru numărul de plasări cu repetări A (repetări)  n /365 = 365 n .

Aproximații

Funcție exponențială

Folosind expansiunea seriei Taylor a funcției exponențiale

Expresia de mai sus pentru poate fi aproximată după cum urmează:

Prin urmare:

Rețineți că aproximarea simplificată

după cum puteți vedea din grafic, încă oferă suficientă precizie.

Să mai dăm o aproximare .

Probabilitatea ca două persoane să aibă aceeași zi de naștere este de 364/365. Într-un grup de oameni  , cupluri. Prin urmare, probabilitatea , cu condiția ca aceste evenimente să fie independente , poate fi aproximată cu numărul

Prin urmare, obținem o aproximare pentru probabilitatea necesară p ( n ) :

Aproximație Poisson

Folosind aproximarea Poisson pentru binomul , bazată pe aproximarea anterioară pentru , obținem puțin mai mult de 50% :

Calculul numărului de persoane la care probabilitatea este de 50%

Să exprimăm n din formula de mai sus . Apoi, în loc de p ( n ), înlocuim 50% (0,5). Ca rezultat, obținem:

Există o altă modalitate de a estima n la o probabilitate de 50% . După cum s-a dovedit mai sus :

Găsiți cel mai mic n pentru care

sau, care este la fel,

Să folosim aproximarea de mai sus a funcției  prin funcția exponențială :

Înlocuind în schimb expresia , obținem

Rezolvând pentru n , obținem

De aici găsim n și rotunjim la un număr întreg :

n =23 .

Născut în aceeași zi cu o persoană dată

Să comparăm probabilitatea p ( n ) cu probabilitatea ca într-un grup de n persoane ziua de naștere a unei persoane din grup să coincidă cu ziua de naștere a unei persoane preselectate care nu aparține grupului. Această probabilitate este

Înlocuind n = 23 , obținem q ( n ) ≈ 6,12 % . Pentru ca probabilitatea q ( n ) să depășească 50% , numărul de persoane din grup trebuie să fie de cel puțin 253 ( q (252) ≈ 49,91% ; q (253) ≈ 50,05% ). Acest număr este mai mult de jumătate din zilele anului ( 365/2 = 182,5 ); acest lucru se datorează faptului că alți membri ai grupului pot avea aceeași naștere, iar acest lucru reduce probabilitatea q ( n ) . Mai precis, acest lucru se datorează faptului că atunci când adunăm probabilitățile de coincidențe, de fiecare dată scadem probabilitatea apariției în comun a acestor evenimente, deoarece evenimentele sunt comune și se ia în considerare probabilitatea apariției lor comune în adunare. de două ori. P ( A  +  B ) = P ( A ) + P ( B ) − P ( AB ) și așa mai departe cu fiecare adăugare a unui nou termen.

Generalizări

Coincidența variabilelor aleatoare discrete

Problema descrisă poate fi formulată în formă generală:

Dacă raționezi în același mod ca cel descris mai sus , poți obține soluții generale:

Problema inversa:

Soluţie:

Mai multe tipuri de oameni

Mai sus, paradoxul zilei de naștere a fost prezentat pentru un „tip” de oameni. Este posibilă generalizarea problemei prin introducerea mai multor „tipuri”, de exemplu, împărțirea oamenilor în bărbați ( m ) și femei ( n ). Să calculăm probabilitatea ca cel puțin o femeie și un bărbat să aibă aceeași zi de naștere (nu se ia în considerare coincidența zilelor de naștere pentru două femei sau doi bărbați):

unde d \u003d 365 și S 2 () sunt numere Stirling de al doilea fel . Interesant este că nu există un răspuns clar la întrebarea despre valoarea lui n + m pentru o probabilitate dată. De exemplu, o probabilitate de 0,5 dă atât un set de 16 bărbați și 16 femei, cât și un set de 43 de bărbați și 6 femei.

Zile de naștere din apropiere

O altă generalizare a paradoxului zilei de naștere este de a afirma problema câți oameni este nevoie pentru ca probabilitatea de a avea într-un grup de persoane ale căror zile de naștere diferă cu cel mult o zi (sau două, trei zile și așa mai departe) depășește 50% . La rezolvarea acestei probleme se folosește principiul includerii-excluderii . Rezultatul (din nou presupunând că zilele de naștere sunt distribuite uniform ) este:

Diferența maximă de zile de naștere, număr de zile Numărul necesar de persoane
unu 23
2 paisprezece
3 unsprezece
patru 9
5 opt
6 opt
7 7
opt 7

Astfel, probabilitatea ca chiar și într-un grup de 7 persoane ziua de naștere a cel puțin două dintre ele să difere cu cel mult o săptămână depășește 50% .

Aplicație

Paradoxul zilei de naștere se aplică în general funcțiilor hash : dacă o funcție hash generează o valoare de N biți, atunci numărul de intrări aleatorii pentru care este foarte probabil să se ciocnească codurile hash (adică există coduri hash egale obținute pe date de intrare diferite. ) nu este 2 N , ci doar aproximativ 2 N /2 . Această observație este exploatată într-un atac asupra funcțiilor hash criptografice numit atacul zilei de naștere .

N Număr de lanțuri de ieșire diferite (2 N ) Probabilitatea a cel puțin unei coliziuni ( p )
10 −18 10 −15 10 −12 10 −9 10 −6 0,1% unu % 25% cincizeci la sută 75%
32 4,3× 109 2 2 2 2.9 93 2,9×10³ 9,3×10³ 5,0×10⁴ 7,7×10⁴ 1,1×10⁵
64 1,8 × 10 19 6.1 1,9×10² 6,1×10³ 1,9×10⁵ 6,1×10⁶ 1,9×10⁸ 6,1 x 10⁸ 3,3×10⁹ 5,1×10⁹ 7,2×10⁹
128 3,4 × 10 38 2,6 × 10 10 8,2 × 10 11 2,6 × 10 13 8,2 × 10 14 2,6 × 10 16 8,3 × 10 17 2,6 × 10 18 1,4 × 10 19 2,2 × 10 19 3,1 × 10 19
256 1,2 × 10 77 4,8 × 10 29 1,5 × 10 31 4,8 × 10 32 1,5×10 34 4,8 × 10 35 1,5 × 10 37 4,8 × 10 37 2,6 × 10 38 4,0 × 10 38 5,7 × 10 38
384 3,9 × 10 115 8,9 × 10 48 2,8 × 10 50 8,9× 1051 2,8× 1053 8,9× 1054 2,8× 1056 8,9× 1056 4,8× 1057 7,4× 1057 1,0 × 10 58
512 1,3× 10154 1,6×10 68 5,2 × 10 69 1,6 × 10 71 5,2× 1072 1,6× 1074 5,2× 1075 1,6 × 10 76 8,8× 1076 1,4 × 10 77 1,9 × 10 77

Celulele albe indică numărul de persoane din grup la care se va produce o coliziune cu o probabilitate dată (prin analogie cu paradoxul, numărul de lanțuri de ieșire este 365).

Un aparat matematic similar este folosit pentru a estima dimensiunea populației de pești care trăiesc în lacuri . Metoda se numește „capture-recapture” („catch – catch again”). Într-adevăr, dacă fiecare pește prins este marcat și eliberat, atunci probabilitatea de a prinde un pește marcat va crește neliniar (în conformitate cu graficul de mai sus) cu o creștere a numărului de încercări. Dimensiunea populației poate fi estimată aproximativ ca pătratul numărului de încercări făcute înainte ca primul pește marcat să fie capturat.

Rezolvarea problemei în termeni generali își găsește aplicație în multe ramuri ale matematicii , de exemplu, în algoritmi de factorizare nedeterministă . Deci, una dintre cele mai simple explicații ale metodei ρ a lui Pollard este similară cu explicația paradoxului zilei de naștere: este suficient să aveți numere aproximativ aleatorii de la 0 la , unde  sunt prime, astfel încât pentru cel puțin una dintre perechile de numere cu probabilitate mare există , care va fi un divizor al numărului n .

Probleme inverse

  1. Găsirea celui mai mic număr n astfel încât probabilitatea p ( n ) să fie mai mare decât un număr dat p .
  1. Găsirea celui mai mare număr n astfel încât probabilitatea p ( n ) să fie mai mică decât un număr dat p .

Folosind formula de mai sus, obținem:

p n n ↓ p ( n ↓) n ↑ p ( n ↑)
0,01 0,14178√365 = 2,70864 2 0,00274 3 0,00820
0,05 0,32029√365 = 6,11916 6 0,04046 7 0,05624
0,1 0,45904√365 = 8,77002 opt 0,07434 9 0,09462
0,2 0,66805√365 = 12,76302 12 0,16702 13 0,19441
0,3 0,84460√365 = 16,13607 16 0,28360 17 0,31501
0,5 1,17741√365 = 22,49439 22 0,47570 23 0,50730
0,7 1,55176√365 = 29,64625 29 0,68097 treizeci 0,70632
0,8 1,79412√365 = 34,27666 34 0,79532 35 0,81438
0,9 2,14597√365 = 40,99862 40 0,89123 41 0,90315
0,95 2,44775√365 = 46,76414 46 0,94825 47 0,95477
0,99 3,03485√365 = 57,98081 57 0,99012 58 0,99166

Cea mai bună poziție

Să fie n - 1 persoane în cameră, iar zilele lor de naștere sunt diferite. Fie g ( n )  probabilitatea ca ziua de naștere a persoanei care a intrat să fie aceeași cu ziua de naștere a cuiva prezent în cameră. Este necesar să se găsească valoarea lui n la care valoarea funcției g ( n ) este maximă.

Soluția se rezumă la găsirea valorii maxime a expresiei

p ( n ) - p ( n -1) .

Folosind formula de mai sus pentru p ( n ) , obținem n = 20 .

Număr mediu de persoane

Să luăm în considerare o altă problemă. De câte persoane este nevoie în medie pentru ca cel puțin doi dintre ei să împartă aceeași zi de naștere?

Această problemă a avut de-a face cu algoritmii de hashing și a fost investigată de Donald Knuth . Rezultă că variabila aleatoare de interes pentru noi are o așteptare matematică egală cu

Unde

Funcţie

a fost explorat de Ramanujan . De asemenea, a obținut următoarea expansiune asimptotică pentru această funcție :

Cu M = 365 , numărul mediu de persoane este

Acest număr este puțin mai mare decât numărul de persoane care oferă o șansă de 50% . În mod surprinzător, numărul necesar de persoane este M + 1 = 366 (pentru 365 de persoane, zilele lor de naștere pot fi repartizate pe fiecare dintre cele 365 de zile ale anului fără suprapunere), deși în medie sunt necesare doar 25.

Vezi și

Note

  1. Mazur, 2017 , p. 116.
  2. Mazur, 2017 , p. 119.
  3. Mironkin V. O., Chukhno A. B. Despre o generalizare a paradoxului „zilelor de naștere” . Preluat la 30 martie 2020. Arhivat din original la 9 iulie 2020.
  4. Mazur, 2017 , p. 117.

Literatură

Link -uri