Dilema prizonierului

Dilema Prizonierului ( sau mai  puțin cunoscută sub numele de Dilema Banditului ) este o problemă fundamentală în teoria jocurilor , conform căreia jucătorii raționali nu vor coopera întotdeauna între ei, chiar dacă este în interesul lor. Se presupune că jucătorul („prizonier”) își maximizează propria remunerație, fără să-i pese de beneficiile celorlalți.

Esența problemei a fost formulată de Meryl Flood și Melvin Drescher în 1950. Numele dilemei a fost dat de matematicianul Albert Tucker .

În Dilema prizonierului, trădarea domină strict cooperarea, astfel încât singurul echilibru posibil este trădarea ambilor participanți. Mai simplu spus, indiferent de comportamentul celuilalt jucător, fiecare va beneficia mai mult dacă trădează. Deoarece este mai bine să trădezi decât să cooperezi în orice situație, toți jucătorii raționali vor alege să trădeze.

Comportându-se individual rațional , participanții ajung împreună la o soluție irațională: dacă ambii trădează, vor primi un câștig total mai mic decât dacă ar coopera (singurul echilibru din acest joc nu duce la o soluție Pareto optimă ). Aici se află dilema.

În dilema prizonierului recurent, jocul se joacă periodic și fiecare jucător îl poate „pedepsi” pe celălalt pentru că nu a cooperat mai devreme. Într-un astfel de joc, cooperarea poate deveni un echilibru, iar stimulentul de a trăda poate fi depășit de amenințarea cu pedeapsa (pe măsură ce numărul de iterații crește, echilibrul Nash tinde spre un optim Pareto ).

Dilema clasicului prizonier

În toate sistemele judiciare, pedeapsa pentru banditism (comiterea infracțiunilor în cadrul unui grup organizat) este mult mai aspră decât pentru aceleași infracțiuni comise singur (de unde și denumirea de „dilema banditului”).

Formularea clasică a dilemei prizonierului este:

Doi infractori - A și B - au fost prinși cam în același timp pentru infracțiuni similare. Există motive să credem că au acționat în coluziune, iar poliția, după ce i-a izolat unul de celălalt, le oferă aceeași înțelegere: dacă unul depune mărturie împotriva celuilalt și el rămâne tăcut, atunci primul este eliberat pentru a ajuta la anchetă, iar al doilea primește pedeapsa maximă de închisoare (10 ani). Dacă amândoi tac, fapta lor trece sub un articol mai ușor și fiecare dintre ei este condamnat la șase luni de închisoare. Dacă ambii depun mărturie unul împotriva celuilalt, primesc o pedeapsă minimă (2 ani fiecare). Fiecare prizonier alege dacă să tacă sau să depună mărturie împotriva celuilalt. Cu toate acestea, niciunul dintre ei nu știe exact ce va face celălalt. Ce se va intampla?

Jocul poate fi reprezentat ca următorul tabel:

Prizonierul B tace Deținutul B depune mărturie
Prizonierul A tace Ambii primesc șase luni. A are 10 ani,
B este eliberat
Deținutul A depune mărturie A este eliberat,
B primește 10 ani de închisoare
Ambii primesc 2 ani de închisoare
Dilema prizonierului în formă normală .

Dilema apare dacă presupunem că ambilor le pasă doar de minimizarea propriilor termeni de închisoare.

Imaginează-ți raționamentul unuia dintre prizonieri. Dacă partenerul tace, atunci este mai bine să-l trădeți și să plecați liber (în caz contrar - șase luni de închisoare). Dacă un partener depune mărturie, atunci este mai bine să depună mărturie și împotriva lui pentru a primi 2 ani (altfel - 10 ani) de închisoare. Strategia „martorului” domină strict strategia „tăcerii”. În mod similar, un alt prizonier ajunge la aceeași concluzie.

Din punctul de vedere al grupului (acești doi prizonieri), cel mai bine este să cooperăm unul cu celălalt, să tăceți și să primiți șase luni, deoarece acest lucru va reduce durata totală a închisorii. Orice altă soluție va fi mai puțin profitabilă. Acest lucru demonstrează foarte clar că într-un joc cu sumă diferită de zero, optimul Pareto poate fi opusul echilibrului Nash .

Forma generalizată

Coopera trăda
Coopera C, C c, D
trăda DC d, d
Matricea canonică a plăților
din dilema prizonierului

Puteți extinde și mai mult schema jocului, făcând abstracție din subtextul prizonierilor. O formă generalizată a jocului este adesea folosită în economia experimentală . Următoarele reguli oferă o implementare tipică a jocului:

  1. Jocul este format din doi jucători și un bancher . Fiecare jucător deține 2 cărți: una spune „coopera”, cealaltă spune „trăda” (aceasta este terminologia standard a jocului). Fiecare jucător plasează o carte cu fața în jos în fața bancherului (adică nimeni nu știe soluția celuilalt, deși cunoașterea soluției celuilalt nu afectează analiza dominanței [1] ). Bancherul deschide cardurile și plătește câștigurile.
  2. Dacă amândoi aleg „coopera”, amândoi primesc un C. Dacă unul alege „trăda”, celălalt „coopera”, primul primește un D, ​​al doilea un c. Dacă amândoi aleg „trăda” - ambii primesc d.
  3. Valorile variabilelor C, D, c, d pot fi de orice semn (în exemplul de mai sus, totul este mai mic sau egal cu 0). Inegalitatea D > C > d > c trebuie neapărat respectată pentru ca jocul să fie o „dilemă a prizonierilor”.
  4. Dacă jocul se repetă, adică este jucat de mai mult de o dată la rând, câștigul total din cooperare ar trebui să fie mai mare decât câștigul total într-o situație în care unul trădează, iar celălalt nu, adică 2C > D + c . Această inegalitate sugerează că, în cazul cooperării reciproce, se atinge un optim Pareto strict - o situație în care orice alternativă duce la o scădere a profitului pentru cel puțin un jucător.

Aceste reguli au fost stabilite de Douglas Hofstadter și formează descrierea canonică a dilemei tipice a prizonierului.

Formulare alternativă

Hofstadter [2] a sugerat că oamenii înțeleg mai ușor probleme precum Dilema Prizonierului atunci când sunt prezentate ca un joc de sine stătător sau un proces de tranzacționare. Un exemplu este „schimbul de pungi închise”:

Doi oameni se întâlnesc și schimbă sacoșe închise, realizând că unul dintre ei conține bani, celălalt - mărfuri. Fiecare jucător poate respecta acordul și poate pune ceea ce a convenit în geantă sau poate înșela partenerul dând o pungă goală.

În acest joc, trișarea va fi întotdeauna soluția cu cel mai mare câștig material pe termen scurt.

Exemple din viața reală

Unele emisiuni de jocuri folosesc un principiu similar pentru a determina câștigătorii fie ai rundei, fie ai finalei. Un exemplu al dilemei a fost prezentat în 2012 în emisiunea britanică The Bank Job la finala fiecărui sezon: cei doi jucători care au ajuns în finală au trebuit să decidă cum să dispună de câștiguri. Jumătate din totalul jackpot-ului jucat a fost în valize marcate CASH, celelalte două au fost tăieturi din ziare marcate TRASH (jucătorul are câte o valiză de fiecare tip). Fiecare jucător trebuia să-și ia una dintre valize și să i-o dea celuilalt. Dacă ambii jucători au primit valize de CASH, atunci au împărțit câștigurile la jumătate. Dacă cineva îi dădea valiza lui TRASH, atunci el lua întreaga bancă a jocului. Dacă amândoi au dat TRASH, amândoi au rămas fără bani, iar câștigurile au revenit jucătorilor care au renunțat la etapele anterioare ale finalei.

Exemplele de prizonieri, jocul de cărți și schimbul de pungi închise pot părea exagerate, dar, de fapt, există multe exemple de interacțiuni om-animal care au aceeași matrice a plăților. Prin urmare, dilema prizonierului este de interes pentru științele sociale precum științe economice , științe politice și sociologie , precum și secțiuni de biologie  - etologie și biologie evolutivă . Multe procese naturale au fost generalizate în modele în care ființele vii participă la jocurile nesfârșite de tip dilemă ale prizonierilor. Această aplicabilitate largă a dilemei face ca acest joc să aibă o importanță considerabilă.

În realismul politic , de exemplu, scenariul dilemei este adesea folosit pentru a ilustra problema a două state implicate într- o cursă a înarmărilor . Ambele state vor declara că au două opțiuni: fie să mărească cheltuielile militare, fie să reducă armamentul. În acest caz, postulatele dilemei prizonierului (D > C > d > c) [3] sunt în mod evident îndeplinite :

Din punctul de vedere al părții A, dacă partea B nu se armează, atunci pentru A alegerea este între D și C - este mai bine să înarmezi. Dacă B se armează, atunci pentru A alegerea este între d și c - din nou, este mai profitabil să armați. Astfel, pentru orice alegere a lui B, este mai profitabil ca partea A să armeze. Situația pentru partea B este exact aceeași și ambele părți vor căuta în cele din urmă expansiunea militară .

William Poundstone, în cartea sa despre dilema prizonierului, descrie o situație din Noua Zeelandă în care cutiile de ziare sunt lăsate deschise. Este posibil să luați un ziar fără să plătiți pentru el, dar puțini oameni fac asta, pentru că majoritatea oamenilor sunt conștienți de răul care ar fi dacă toată lumea ar fura ziare. Întrucât dilema prizonierului este, în cea mai pură formă, simultană pentru toți jucătorii (nimeni nu poate influența deciziile altora), această linie comună de raționament se numește „ gândire magică ”. Ca o explicație pentru lipsa furtului mărunt, gândirea magică explică votul voluntar în alegeri (unde non-alegătorul este considerat un iepure ). Alternativ, acest comportament poate fi explicat prin așteptarea unor acțiuni viitoare (și nu necesită conexiune cu „gândirea magică”). Modelarea acțiunilor viitoare necesită adăugarea unei dimensiuni de timp, care se face într-o dilemă recurentă.

Concluzia teoretică a dilemei este unul dintre motivele pentru care negocierea de pledoarie este interzisă în multe țări . Adesea scenariul dilemei se repetă foarte precis: este în interesul ambilor suspecți să mărturisească și să depună mărturie împotriva celuilalt suspect, chiar dacă ambii sunt nevinovați. Poate cel mai rău caz este atunci când doar unul este vinovat, caz în care este puțin probabil ca nevinovatul să mărturisească ceva, iar vinovatul va merge înainte și va depune mărturie împotriva celui nevinovat.

Multe dileme din viața reală implică mai mulți jucători. Deși metaforică, „ tragedia comunului” a lui Hardin poate fi văzută ca o generalizare a dilemei pentru mai mulți jucători. Fiecare locuitor al comunității alege dacă să pască vitele pe o pășune comună și să beneficieze de epuizarea resurselor lor , sau să-și limiteze veniturile. Rezultatul colectiv al folosirii maxime generale (sau frecvente) a pășunilor este veniturile mici (care duc la distrugerea comunității). Cu toate acestea, un astfel de joc nu este formal, deoarece poate fi împărțit într-o secvență de jocuri clasice pentru 2 jucători.

Dilema prizonierului recurent

În cartea din 1984 , Evoluția cooperării , Robert Axelrod a explorat o extensie a scenariului dilemei, pe care l-a numit Dilema prizonierului repetitiv (RPD). În ea, participanții fac alegeri din nou și din nou și își amintesc rezultatele anterioare. Axelrod a invitat colegii academicieni din întreaga lume să dezvolte strategii informatice pentru a concura în campionatul PDD. Programele incluse în acesta variau în complexitate algoritmică, ostilitate inițială, capacitatea de a ierta și așa mai departe.

Axelrod a descoperit că dacă jocul s-a repetat mult timp în rândul multor jucători, fiecare cu strategii diferite, strategiile „lacome” au avut rezultate slabe pe termen lung, în timp ce strategiile mai „ altruiste ” au avut rezultate mai bune, din punct de vedere al interesului propriu. El a folosit acest lucru pentru a arăta un posibil mecanism de evoluție a comportamentului altruist din mecanisme care sunt inițial pur egoiste , prin selecția naturală .

Cea mai bună strategie deterministă a fost Tit for Tat , care a fost dezvoltată și propusă pentru campionat de Anatoly Rapoport .  A fost cel mai simplu dintre toate programele participante, constând din doar 4 linii de cod BASIC . Strategia este simplă: cooperați la prima iterație a jocului, după care jucătorul face același lucru pe care l-a făcut adversarul în pasul anterior. Strategia „Tit for an Tat with Forgiveness” funcționează puțin mai bine. Când un adversar trădează, în pasul următor, jucătorul uneori, indiferent de pasul anterior, cooperează cu o probabilitate mică (1-5%). Acest lucru vă permite să părăsiți aleatoriu ciclul trădării reciproce. Funcționează cel mai bine atunci când comunicarea greșită  este introdusă în joc - când decizia unui jucător este comunicată altuia din greșeală.

Analizând strategiile care au obținut cele mai bune rezultate, Axelrod a numit câteva condiții necesare pentru ca strategia să obțină un rezultat ridicat:

Astfel, Axelrod a ajuns la concluzia utopică - care sună că indivizii egoiști, pentru propriul lor bine egoist, s-ar strădui să fie buni, iertător și neinvidioși.

Luați în considerare din nou modelul cursei înarmărilor. S-a ajuns la concluzia că singura strategie rațională este înarmarea, chiar dacă ambele țări ar dori să-și cheltuiască PIB-ul mai degrabă pe petrol decât pe arme [4] . În mod interesant, încercările de a demonstra că deducerea dilemei funcționează în practică (făcând o analiză a cheltuielilor militare „înalte” și „scăzute” între perioade, pe baza ipotezelor TPP) arată adesea că acest comportament nu are loc (de exemplu, greacă și Cheltuielile militare turcești se modifică nu în conformitate cu strategia „ochi pentru ochi”, ci, cel mai probabil, urmează o politică internă). Acesta poate fi un exemplu de comportament rațional diferit de jocurile cu o singură lovitură și cu mai multe mișcări.

Dacă într-un joc cu o singură mișcare strategia de trădare domină în orice caz, atunci într-un joc cu mai multe mișcări strategia optimă depinde de comportamentul celorlalți participanți. De exemplu, dacă toți cei din populație se înșală unii pe alții și cineva se comportă conform principiului „ochi pentru ochi”, el are o mică pierdere din cauza pierderii la prima mișcare. Într-o astfel de populație, strategia optimă este întotdeauna să trădezi. Dacă numărul celor care profesează principiul „ochi pentru ochi” este mai mare, atunci rezultatul depinde deja de ponderea lor în societate.

Există două moduri de a determina strategia optimă:

Deși strategia „tit-for-tat” a fost considerată cea mai de succes strategie simplă, o echipă de la Universitatea din Southampton condusă de profesorul Nicholas Jennings [6] a prezentat o nouă strategie pentru cea de-a 20-a aniversare a Campionatului PKD. Această strategie a avut mai mult succes decât „tit-for-tat”. S-a bazat pe interacțiunea dintre programe pentru a obține scorul maxim pentru unul dintre ele. Universitatea a pus la cale 60 de programe pentru campionat, care s-au recunoscut reciproc printr-o serie de acțiuni în primele 5-10 mutări. După ce l-a recunoscut pe celălalt, un program a cooperat întotdeauna, în timp ce celălalt l-a trădat, ceea ce a dat maximul de puncte trădătorului. Dacă programul ar înțelege că adversarul nu este din Southampton, ar continua să-l trădeze tot timpul pentru a minimiza rezultatul adversarului. Drept urmare [7] , această strategie a ocupat primele trei locuri în competiție, precum și câteva locuri la rând mai jos.

Deși această strategie stabilă din punct de vedere evolutiv s-a dovedit a fi mai eficientă în competiție, aceasta a fost realizată cu prețul de a permite mai multor agenți să participe la competiția respectivă. Dacă jucătorul poate controla doar un agent, tit for tat este cel mai bun. Ea respectă, de asemenea, regula interzicerii comunicării între jucători. Faptul că programele de la Southampton au efectuat un „dans ritualic” în primele 10 ture pentru a se cunoaște, nu face decât să confirme cât de importantă este comunicarea în schimbarea echilibrului jocului.

Dacă PDZ este redat exact de N ori (unele constante cunoscute N), există un alt fapt interesant. Echilibrul Nash este să trădezi mereu. Demonstrăm prin inducție: dacă ambii cooperează, este profitabil să trădezi la ultima mișcare, atunci adversarul nu va avea ocazia să se răzbune. Prin urmare, amândoi se vor trăda reciproc la ultima mișcare. Deoarece adversarul va trăda la ultima mutare în orice caz, orice jucător va dori să trădeze la penultima mutare și așa mai departe. Pentru ca cooperarea să rămână profitabilă, viitorul trebuie să fie incert pentru ambii jucători. O soluție este să faceți numărul N aleatoriu și să calculați rezultatele prin câștigul mediu pe turn.

Dilema prizonierului este fundamentală pentru unele teorii despre interacțiunea umană și încredere. Din ipoteza modelului de dilemă că o tranzacție între doi oameni necesită încredere, comportamentul de încredere în populații poate fi modelat folosind o versiune iterativă multiplayer a jocului. Acest lucru a inspirat mulți oameni de știință de ani de zile. În 1975, Grofman și Poole au estimat numărul de lucrări dedicate acestui subiect la aproximativ 2000.

Psihologia învăţării şi teoria jocurilor

Dacă jucătorii pot evalua posibilitatea trădării de către alți jucători, comportamentul lor este afectat de experiență. Statisticile simple arată că jucătorii fără experiență se comportă de obicei excesiv de bine sau de rău. Dacă se comportă așa tot timpul, vor pierde pentru că sunt prea agresivi sau prea amabili. Pe măsură ce dobândesc mai multă experiență, ei evaluează mai realist probabilitatea trădării și obțin rezultate mai bune. Jocurile timpurii au un efect mai puternic asupra jucătorilor fără experiență decât jocurile ulterioare asupra celor experimentați. Acesta este un exemplu de ce experiențele timpurii au un astfel de impact asupra tinerilor și de ce ei sunt deosebit de vulnerabili la agresiune nemotivată, uneori devenind ei înșiși la fel.

Este posibil să se reducă probabilitatea trădării într-o populație prin cooperare în jocurile timpurii, permițând construirea încrederii [8] . Prin urmare, sacrificiul de sine poate, în unele situații, să ridice moralul grupului. Dacă grupul este mic, este mai probabil ca comportamentul pozitiv să fie reciproc, ceea ce va încuraja indivizii să coopereze în continuare. Acest lucru se leagă de o altă dilemă, că a fi tratat bine fără un motiv este îngăduință care poate degrada caracterul moral al cuiva.

Aceste procese sunt principalul domeniu de interes în altruismul reciproc , selecția grupului , selecția familiei și etica .

Influența religiei

Spectacolele religioase cresc semnificativ gradul de cooperare între jucători. În studii, chiar și menționarea implicită a cuvintelor religioase în sarcina preliminară înainte de joc a dus la o creștere semnificativă a comportamentului prosocial [9] .

Vezi și

Note

  1. Sugestie că, de exemplu, jucătorul roșu va juca „coopera” nu schimbă faptul că „trădarea” este o strategie strict dominantă. Dacă luăm în considerare doar jocul, posibilitatea de comunicare nu joacă niciun rol. Cu toate acestea, dacă jocul este jucat în viața reală, considerații din afara jocului în sine pot determina cooperarea. Acesta este un punct foarte important în încheierea jocului, că, dacă nu trebuie să luăm în considerare factorii străini, „dilema prizonierului” de o singură dată nu se schimbă din comunicare.
  2. Hofstadter, Douglas . Capitolul 29 // Teme metamagice: căutarea esenței minții și a tiparului. - Bantam Dell Pub Group, 1985. - ISBN 0-465-04566-9 .
  3. Genie Baker. Harmony of Interests Revisited Arhivat la 12 iunie 2010 la Wayback Machine . // Realismul pieței: monede cu riscuri diferențiate și câștigurile din comerț în cadrul ordinii economice liberale. (Engleză)
  4. În manualele economice , curba posibilităților de producție este ilustrată printr-o alegere între doar două mărfuri: petrol și arme.
  5. „Echilibrul Bayes-Nash; testul statistic al ipotezei” Arhivat 2 octombrie 2005.
  6. Profesorul Nick Jennings Arhivat pe 10 aprilie 2006 la Wayback Machine 
  7. Rezultatele Prisoner's Dilemma Tournament 2004 Arhivate la 29 august 2006 la Wayback Machine  arată că echipa Universității din Southampton a terminat pe primele trei locuri, deși au avut mai puține victorii decât strategia GRIM (turneul nu a trebuit să câștige meciuri individuale; ci " s realizabil și simplă trădare frecventă). Și fără coluziunea implicită între strategiile de care echipa Southampton a abuzat, tit for tat nu este întotdeauna câștigătorul absolut al oricărei competiții. Cu alte cuvinte, pe termen lung, într-un număr de campionate diferite, va performa mai bine decât rivalii, iar într-un singur campionat, strategia poate fi ușor mai bine adaptată la competiție decât „tit for tat”. Același lucru este valabil și pentru OZO cu iertare: într-o singură competiție, poate pierde în fața unor strategii special ascuțite. O alternativă este utilizarea simularii evoluției . În ea, OZO va ajunge să domine, iar strategiile malefice vor apărea și vor dispărea din populație din când în când. Richard Dawkins a arătat că nu există o combinație statică de strategii care ar fi un echilibru stabil, iar sistemul va fluctua între granițe.
  8. Un argument despre dezvoltarea cooperării prin încredere este dat în cartea Wisdom of the Crowds de James Surowiecki , care susține că, pe termen lung, capitalismul a fost capabil să se organizeze în jurul unui nucleu de quakeri care au lucrat mereu cinstit cu partenerii lor ( în loc să înşele şi să încalce promisiunile - un fenomen care a oprit contactele internaţionale voluntare pe termen lung mai devreme).[ clarifica ] Se susține că a face față cu comercianți de încredere a permis ca o cultură a onestității (cooperării) să se răspândească și la alți comercianți care au răspândit-o mai departe, până când a fost profitabil să fiu sincer.
  9. Ali M. Ahmed, Osvaldo Salas. Influențe implicite ale reprezentărilor religioase creștine asupra deciziilor jocului dilemei dictatorilor și prizonierilor  // The Journal of Socio-Economics. — 01-05-2011. - T. 40 , nr. 3 . — S. 242–246 . - doi : 10.1016/j.socec.2010.12.013 . Arhivat din original pe 25 august 2011.

Literatură

Link -uri