Dilema Prizonierului ( sau mai puțin cunoscută sub numele de Dilema Banditului ) este o problemă fundamentală în teoria jocurilor , conform căreia jucătorii raționali nu vor coopera întotdeauna între ei, chiar dacă este în interesul lor. Se presupune că jucătorul („prizonier”) își maximizează propria remunerație, fără să-i pese de beneficiile celorlalți.
Esența problemei a fost formulată de Meryl Flood și Melvin Drescher în 1950. Numele dilemei a fost dat de matematicianul Albert Tucker .
În Dilema prizonierului, trădarea domină strict cooperarea, astfel încât singurul echilibru posibil este trădarea ambilor participanți. Mai simplu spus, indiferent de comportamentul celuilalt jucător, fiecare va beneficia mai mult dacă trădează. Deoarece este mai bine să trădezi decât să cooperezi în orice situație, toți jucătorii raționali vor alege să trădeze.
Comportându-se individual rațional , participanții ajung împreună la o soluție irațională: dacă ambii trădează, vor primi un câștig total mai mic decât dacă ar coopera (singurul echilibru din acest joc nu duce la o soluție Pareto optimă ). Aici se află dilema.
În dilema prizonierului recurent, jocul se joacă periodic și fiecare jucător îl poate „pedepsi” pe celălalt pentru că nu a cooperat mai devreme. Într-un astfel de joc, cooperarea poate deveni un echilibru, iar stimulentul de a trăda poate fi depășit de amenințarea cu pedeapsa (pe măsură ce numărul de iterații crește, echilibrul Nash tinde spre un optim Pareto ).
În toate sistemele judiciare, pedeapsa pentru banditism (comiterea infracțiunilor în cadrul unui grup organizat) este mult mai aspră decât pentru aceleași infracțiuni comise singur (de unde și denumirea de „dilema banditului”).
Formularea clasică a dilemei prizonierului este:
Doi infractori - A și B - au fost prinși cam în același timp pentru infracțiuni similare. Există motive să credem că au acționat în coluziune, iar poliția, după ce i-a izolat unul de celălalt, le oferă aceeași înțelegere: dacă unul depune mărturie împotriva celuilalt și el rămâne tăcut, atunci primul este eliberat pentru a ajuta la anchetă, iar al doilea primește pedeapsa maximă de închisoare (10 ani). Dacă amândoi tac, fapta lor trece sub un articol mai ușor și fiecare dintre ei este condamnat la șase luni de închisoare. Dacă ambii depun mărturie unul împotriva celuilalt, primesc o pedeapsă minimă (2 ani fiecare). Fiecare prizonier alege dacă să tacă sau să depună mărturie împotriva celuilalt. Cu toate acestea, niciunul dintre ei nu știe exact ce va face celălalt. Ce se va intampla?
Jocul poate fi reprezentat ca următorul tabel:
Prizonierul B tace | Deținutul B depune mărturie | |
Prizonierul A tace | Ambii primesc șase luni. | A are 10 ani, B este eliberat |
Deținutul A depune mărturie | A este eliberat, B primește 10 ani de închisoare |
Ambii primesc 2 ani de închisoare |
Dilema prizonierului în formă normală . |
Dilema apare dacă presupunem că ambilor le pasă doar de minimizarea propriilor termeni de închisoare.
Imaginează-ți raționamentul unuia dintre prizonieri. Dacă partenerul tace, atunci este mai bine să-l trădeți și să plecați liber (în caz contrar - șase luni de închisoare). Dacă un partener depune mărturie, atunci este mai bine să depună mărturie și împotriva lui pentru a primi 2 ani (altfel - 10 ani) de închisoare. Strategia „martorului” domină strict strategia „tăcerii”. În mod similar, un alt prizonier ajunge la aceeași concluzie.
Din punctul de vedere al grupului (acești doi prizonieri), cel mai bine este să cooperăm unul cu celălalt, să tăceți și să primiți șase luni, deoarece acest lucru va reduce durata totală a închisorii. Orice altă soluție va fi mai puțin profitabilă. Acest lucru demonstrează foarte clar că într-un joc cu sumă diferită de zero, optimul Pareto poate fi opusul echilibrului Nash .
Coopera | trăda | |
Coopera | C, C | c, D |
trăda | DC | d, d |
Matricea canonică a plăților din dilema prizonierului |
Puteți extinde și mai mult schema jocului, făcând abstracție din subtextul prizonierilor. O formă generalizată a jocului este adesea folosită în economia experimentală . Următoarele reguli oferă o implementare tipică a jocului:
Aceste reguli au fost stabilite de Douglas Hofstadter și formează descrierea canonică a dilemei tipice a prizonierului.
Hofstadter [2] a sugerat că oamenii înțeleg mai ușor probleme precum Dilema Prizonierului atunci când sunt prezentate ca un joc de sine stătător sau un proces de tranzacționare. Un exemplu este „schimbul de pungi închise”:
Doi oameni se întâlnesc și schimbă sacoșe închise, realizând că unul dintre ei conține bani, celălalt - mărfuri. Fiecare jucător poate respecta acordul și poate pune ceea ce a convenit în geantă sau poate înșela partenerul dând o pungă goală.
În acest joc, trișarea va fi întotdeauna soluția cu cel mai mare câștig material pe termen scurt.
Unele emisiuni de jocuri folosesc un principiu similar pentru a determina câștigătorii fie ai rundei, fie ai finalei. Un exemplu al dilemei a fost prezentat în 2012 în emisiunea britanică The Bank Job la finala fiecărui sezon: cei doi jucători care au ajuns în finală au trebuit să decidă cum să dispună de câștiguri. Jumătate din totalul jackpot-ului jucat a fost în valize marcate CASH, celelalte două au fost tăieturi din ziare marcate TRASH (jucătorul are câte o valiză de fiecare tip). Fiecare jucător trebuia să-și ia una dintre valize și să i-o dea celuilalt. Dacă ambii jucători au primit valize de CASH, atunci au împărțit câștigurile la jumătate. Dacă cineva îi dădea valiza lui TRASH, atunci el lua întreaga bancă a jocului. Dacă amândoi au dat TRASH, amândoi au rămas fără bani, iar câștigurile au revenit jucătorilor care au renunțat la etapele anterioare ale finalei.
Exemplele de prizonieri, jocul de cărți și schimbul de pungi închise pot părea exagerate, dar, de fapt, există multe exemple de interacțiuni om-animal care au aceeași matrice a plăților. Prin urmare, dilema prizonierului este de interes pentru științele sociale precum științe economice , științe politice și sociologie , precum și secțiuni de biologie - etologie și biologie evolutivă . Multe procese naturale au fost generalizate în modele în care ființele vii participă la jocurile nesfârșite de tip dilemă ale prizonierilor. Această aplicabilitate largă a dilemei face ca acest joc să aibă o importanță considerabilă.
În realismul politic , de exemplu, scenariul dilemei este adesea folosit pentru a ilustra problema a două state implicate într- o cursă a înarmărilor . Ambele state vor declara că au două opțiuni: fie să mărească cheltuielile militare, fie să reducă armamentul. În acest caz, postulatele dilemei prizonierului (D > C > d > c) [3] sunt în mod evident îndeplinite :
Din punctul de vedere al părții A, dacă partea B nu se armează, atunci pentru A alegerea este între D și C - este mai bine să înarmezi. Dacă B se armează, atunci pentru A alegerea este între d și c - din nou, este mai profitabil să armați. Astfel, pentru orice alegere a lui B, este mai profitabil ca partea A să armeze. Situația pentru partea B este exact aceeași și ambele părți vor căuta în cele din urmă expansiunea militară .
William Poundstone, în cartea sa despre dilema prizonierului, descrie o situație din Noua Zeelandă în care cutiile de ziare sunt lăsate deschise. Este posibil să luați un ziar fără să plătiți pentru el, dar puțini oameni fac asta, pentru că majoritatea oamenilor sunt conștienți de răul care ar fi dacă toată lumea ar fura ziare. Întrucât dilema prizonierului este, în cea mai pură formă, simultană pentru toți jucătorii (nimeni nu poate influența deciziile altora), această linie comună de raționament se numește „ gândire magică ”. Ca o explicație pentru lipsa furtului mărunt, gândirea magică explică votul voluntar în alegeri (unde non-alegătorul este considerat un iepure ). Alternativ, acest comportament poate fi explicat prin așteptarea unor acțiuni viitoare (și nu necesită conexiune cu „gândirea magică”). Modelarea acțiunilor viitoare necesită adăugarea unei dimensiuni de timp, care se face într-o dilemă recurentă.
Concluzia teoretică a dilemei este unul dintre motivele pentru care negocierea de pledoarie este interzisă în multe țări . Adesea scenariul dilemei se repetă foarte precis: este în interesul ambilor suspecți să mărturisească și să depună mărturie împotriva celuilalt suspect, chiar dacă ambii sunt nevinovați. Poate cel mai rău caz este atunci când doar unul este vinovat, caz în care este puțin probabil ca nevinovatul să mărturisească ceva, iar vinovatul va merge înainte și va depune mărturie împotriva celui nevinovat.
Multe dileme din viața reală implică mai mulți jucători. Deși metaforică, „ tragedia comunului” a lui Hardin poate fi văzută ca o generalizare a dilemei pentru mai mulți jucători. Fiecare locuitor al comunității alege dacă să pască vitele pe o pășune comună și să beneficieze de epuizarea resurselor lor , sau să-și limiteze veniturile. Rezultatul colectiv al folosirii maxime generale (sau frecvente) a pășunilor este veniturile mici (care duc la distrugerea comunității). Cu toate acestea, un astfel de joc nu este formal, deoarece poate fi împărțit într-o secvență de jocuri clasice pentru 2 jucători.
În cartea din 1984 , Evoluția cooperării , Robert Axelrod a explorat o extensie a scenariului dilemei, pe care l-a numit Dilema prizonierului repetitiv (RPD). În ea, participanții fac alegeri din nou și din nou și își amintesc rezultatele anterioare. Axelrod a invitat colegii academicieni din întreaga lume să dezvolte strategii informatice pentru a concura în campionatul PDD. Programele incluse în acesta variau în complexitate algoritmică, ostilitate inițială, capacitatea de a ierta și așa mai departe.
Axelrod a descoperit că dacă jocul s-a repetat mult timp în rândul multor jucători, fiecare cu strategii diferite, strategiile „lacome” au avut rezultate slabe pe termen lung, în timp ce strategiile mai „ altruiste ” au avut rezultate mai bune, din punct de vedere al interesului propriu. El a folosit acest lucru pentru a arăta un posibil mecanism de evoluție a comportamentului altruist din mecanisme care sunt inițial pur egoiste , prin selecția naturală .
Cea mai bună strategie deterministă a fost Tit for Tat , care a fost dezvoltată și propusă pentru campionat de Anatoly Rapoport . A fost cel mai simplu dintre toate programele participante, constând din doar 4 linii de cod BASIC . Strategia este simplă: cooperați la prima iterație a jocului, după care jucătorul face același lucru pe care l-a făcut adversarul în pasul anterior. Strategia „Tit for an Tat with Forgiveness” funcționează puțin mai bine. Când un adversar trădează, în pasul următor, jucătorul uneori, indiferent de pasul anterior, cooperează cu o probabilitate mică (1-5%). Acest lucru vă permite să părăsiți aleatoriu ciclul trădării reciproce. Funcționează cel mai bine atunci când comunicarea greșită este introdusă în joc - când decizia unui jucător este comunicată altuia din greșeală.
Analizând strategiile care au obținut cele mai bune rezultate, Axelrod a numit câteva condiții necesare pentru ca strategia să obțină un rezultat ridicat:
Astfel, Axelrod a ajuns la concluzia utopică - care sună că indivizii egoiști, pentru propriul lor bine egoist, s-ar strădui să fie buni, iertător și neinvidioși.
Luați în considerare din nou modelul cursei înarmărilor. S-a ajuns la concluzia că singura strategie rațională este înarmarea, chiar dacă ambele țări ar dori să-și cheltuiască PIB-ul mai degrabă pe petrol decât pe arme [4] . În mod interesant, încercările de a demonstra că deducerea dilemei funcționează în practică (făcând o analiză a cheltuielilor militare „înalte” și „scăzute” între perioade, pe baza ipotezelor TPP) arată adesea că acest comportament nu are loc (de exemplu, greacă și Cheltuielile militare turcești se modifică nu în conformitate cu strategia „ochi pentru ochi”, ci, cel mai probabil, urmează o politică internă). Acesta poate fi un exemplu de comportament rațional diferit de jocurile cu o singură lovitură și cu mai multe mișcări.
Dacă într-un joc cu o singură mișcare strategia de trădare domină în orice caz, atunci într-un joc cu mai multe mișcări strategia optimă depinde de comportamentul celorlalți participanți. De exemplu, dacă toți cei din populație se înșală unii pe alții și cineva se comportă conform principiului „ochi pentru ochi”, el are o mică pierdere din cauza pierderii la prima mișcare. Într-o astfel de populație, strategia optimă este întotdeauna să trădezi. Dacă numărul celor care profesează principiul „ochi pentru ochi” este mai mare, atunci rezultatul depinde deja de ponderea lor în societate.
Există două moduri de a determina strategia optimă:
Deși strategia „tit-for-tat” a fost considerată cea mai de succes strategie simplă, o echipă de la Universitatea din Southampton condusă de profesorul Nicholas Jennings [6] a prezentat o nouă strategie pentru cea de-a 20-a aniversare a Campionatului PKD. Această strategie a avut mai mult succes decât „tit-for-tat”. S-a bazat pe interacțiunea dintre programe pentru a obține scorul maxim pentru unul dintre ele. Universitatea a pus la cale 60 de programe pentru campionat, care s-au recunoscut reciproc printr-o serie de acțiuni în primele 5-10 mutări. După ce l-a recunoscut pe celălalt, un program a cooperat întotdeauna, în timp ce celălalt l-a trădat, ceea ce a dat maximul de puncte trădătorului. Dacă programul ar înțelege că adversarul nu este din Southampton, ar continua să-l trădeze tot timpul pentru a minimiza rezultatul adversarului. Drept urmare [7] , această strategie a ocupat primele trei locuri în competiție, precum și câteva locuri la rând mai jos.
Deși această strategie stabilă din punct de vedere evolutiv s-a dovedit a fi mai eficientă în competiție, aceasta a fost realizată cu prețul de a permite mai multor agenți să participe la competiția respectivă. Dacă jucătorul poate controla doar un agent, tit for tat este cel mai bun. Ea respectă, de asemenea, regula interzicerii comunicării între jucători. Faptul că programele de la Southampton au efectuat un „dans ritualic” în primele 10 ture pentru a se cunoaște, nu face decât să confirme cât de importantă este comunicarea în schimbarea echilibrului jocului.
Dacă PDZ este redat exact de N ori (unele constante cunoscute N), există un alt fapt interesant. Echilibrul Nash este să trădezi mereu. Demonstrăm prin inducție: dacă ambii cooperează, este profitabil să trădezi la ultima mișcare, atunci adversarul nu va avea ocazia să se răzbune. Prin urmare, amândoi se vor trăda reciproc la ultima mișcare. Deoarece adversarul va trăda la ultima mutare în orice caz, orice jucător va dori să trădeze la penultima mutare și așa mai departe. Pentru ca cooperarea să rămână profitabilă, viitorul trebuie să fie incert pentru ambii jucători. O soluție este să faceți numărul N aleatoriu și să calculați rezultatele prin câștigul mediu pe turn.
Dilema prizonierului este fundamentală pentru unele teorii despre interacțiunea umană și încredere. Din ipoteza modelului de dilemă că o tranzacție între doi oameni necesită încredere, comportamentul de încredere în populații poate fi modelat folosind o versiune iterativă multiplayer a jocului. Acest lucru a inspirat mulți oameni de știință de ani de zile. În 1975, Grofman și Poole au estimat numărul de lucrări dedicate acestui subiect la aproximativ 2000.
Dacă jucătorii pot evalua posibilitatea trădării de către alți jucători, comportamentul lor este afectat de experiență. Statisticile simple arată că jucătorii fără experiență se comportă de obicei excesiv de bine sau de rău. Dacă se comportă așa tot timpul, vor pierde pentru că sunt prea agresivi sau prea amabili. Pe măsură ce dobândesc mai multă experiență, ei evaluează mai realist probabilitatea trădării și obțin rezultate mai bune. Jocurile timpurii au un efect mai puternic asupra jucătorilor fără experiență decât jocurile ulterioare asupra celor experimentați. Acesta este un exemplu de ce experiențele timpurii au un astfel de impact asupra tinerilor și de ce ei sunt deosebit de vulnerabili la agresiune nemotivată, uneori devenind ei înșiși la fel.
Este posibil să se reducă probabilitatea trădării într-o populație prin cooperare în jocurile timpurii, permițând construirea încrederii [8] . Prin urmare, sacrificiul de sine poate, în unele situații, să ridice moralul grupului. Dacă grupul este mic, este mai probabil ca comportamentul pozitiv să fie reciproc, ceea ce va încuraja indivizii să coopereze în continuare. Acest lucru se leagă de o altă dilemă, că a fi tratat bine fără un motiv este îngăduință care poate degrada caracterul moral al cuiva.
Aceste procese sunt principalul domeniu de interes în altruismul reciproc , selecția grupului , selecția familiei și etica .
Spectacolele religioase cresc semnificativ gradul de cooperare între jucători. În studii, chiar și menționarea implicită a cuvintelor religioase în sarcina preliminară înainte de joc a dus la o creștere semnificativă a comportamentului prosocial [9] .
Dicționare și enciclopedii | ||||
---|---|---|---|---|
|
Teoria jocului | |
---|---|
Noțiuni de bază | |
Tipuri de jocuri |
|
Concepte de soluție | |
Exemple de jocuri | |
teoriei deciziei | Paradoxurile|
---|---|
|