Você está na página 1de 7

Dilema do prisioneiro

Origem: Wikipdia, a enciclopdia livre. (Redirecionado de Dilema do Prisioneiro) Ir para: navegao, pesquisa

Iro cooperar ambos os prisioneiros para minimizar a perda da liberdade, ou um dos presos, confiando na cooperao do outro, o trair para ganhar a liberdade? O dilema do prisioneiro um problema da teoria dos jogos e um exemplo claro, mas atpico, de um problema de soma no nula. Neste problema, como em outros muitos, supe-se que cada jogador, de modo independente, quer aumentar ao mximo a sua prpria vantagem sem lhe importar o resultado do outro jogador. As tcnicas de anlise da teoria de jogos padro - por exemplo determinar o equilbrio de Nash - podem levar cada jogador a escolher trair o outro, mas curiosamente ambos os jogadores obteriam um resultado melhor se colaborassem. Infelizmente (para os prisioneiros), cada jogador incentivado individualmente para defraudar o outro, mesmo aps lhe ter prometido colaborar. Este o ponto-chave do dilema. No dilema do prisioneiro iterado, a cooperao pode obter-se como um resultado de equilbrio. Aqui jogase repetidamente, pelo que, quando se repete o jogo, oferece-se a cada jogador a oportunidade de castigar ao outro jogador pela no cooperao em jogos anteriores. Assim, o incentivo para defraudar pode ser superado pela ameaa do castigo, o que conduz a um resultado melhor, cooperativo. O dilema do prisioneiro foi originalmente formulado por Merrill Flood e Melvin Dresher enquanto trabalhavam na RAND em 1950. Mais tarde, Albert W. Tucker fez a sua formalizao com o tema da pena de priso e deu ao problema geral esse nome especfico. O dilema do prisioneiro (DP) dito clssico funciona da seguinte forma: Dois suspeitos, A e B, so presos pela polcia. A polcia tem provas insuficientes para os condenar, mas, separando os prisioneiros, oferece a ambos o mesmo acordo: se um dos prisioneiros, confessando, testemunhar contra o outro e esse outro permanecer em silncio, o que confessou sai livre enquanto o cmplice silencioso cumpre 10 anos de sentena. Se ambos ficarem em silncio, a polcia s pode conden-los a 6 meses de cadeia cada um. Se ambos trarem o comparsa, cada um leva 5 anos de cadeia. Cada prisioneiro faz a sua deciso sem saber que deciso o outro vai tomar, e nenhum tem certeza da deciso do outro. A questo que o dilema prope : o que vai acontecer? Como o prisioneiro vai reagir? O fato que pode haver dois vencedores no jogo, sendo esta ltima soluo a melhor para ambos, quando analisada em conjunto. Entretanto, os jogadores confrontam-se com alguns problemas: Confiam no cmplice e permanecem negando o crime, mesmo correndo o risco de serem colocados numa situao ainda pior, ou confessam e esperam ser libertados, apesar de que, se ele fizer o mesmo, ambos ficaro numa situao pior do que se permanecessem calados?

Um experimento baseado no simples dilema encontrou que cerca de 40% de participantes cooperaram (i.e., ficaram em silncio).[1] Em abstracto, no importa os valores das penas, mas o clculo das vantagens de uma deciso cujas consequncias esto atreladas s decises de outros agentes, onde a confiana e traio fazem parte da estratgia em jogo. Casos como este so recorrentes na economia, na biologia e na estratgia. O estudo das tticas mais vantajosas num cenrio onde esse dilema se repita um dos temas da teoria dos jogos.

ndice
[esconder]

1 O dilema do prisioneiro clssico 2 Um jogo similar 3 Matriz de ganhos do dilema do prisioneiro 4 Exemplos na vida real 5 O dilema do prisioneiro iterado (DPI) o 5.1 Sociedades secretas no dilema do prisioneiro iterado o 5.2 Psicologia da aprendizagem e teoria dos jogos 6 Variantes o 6.1 Galinha o 6.2 Jogo de confiana o 6.3 Amigo ou inimigo o 6.4 A "tragdia dos comuns" 7 Bibliografia 8 Referncias 9 Ligaes externas

[editar] O dilema do prisioneiro clssico


O enunciado clssico do dilema do prisioneiro, acima exposto, pode resumir-se, do ponto de vista individual de um dos prisioneiros, na seguinte tabela (tabela de ganhos): Prisioneiro "B" nega Prisioneiro "A" nega Prisioneiro delata Ambos so condenados a 6 meses Prisioneiro "B" delata "A" condenado a 10 anos; "B" sai livre

"A" "A" sai livre; "B" condenado a 10 Ambos so condenados a 5 anos anos

O prisioneiro est perante o dilema de confessar ou negar a participao no crime, tendo de lidar com a possibilidade de uma dura pena. Vamos supor que ambos os prisioneiros so completamente egostas e a sua nica meta reduzir a sua prpria estadia na priso. Como prisioneiros tm duas opes: ou cooperar com o seu cmplice e permanecer calado, ou trair o seu cmplice e confessar. O resultado de cada escolha depende da escolha do cmplice. Infelizmente, um no sabe o que o outro escolheu fazer. Incluso se pudessem falar entre si, no poderiam estar seguros de confiar mutuamente. Se se esperar que o cmplice escolha cooperar com ele e permanecer em silncio, a opo ptima para o primeiro seria confessar, o que significaria que seria libertado imediatamente, enquanto o cmplice ter que cumprir uma pena de 10 anos. Se espera que seu cmplice decida confessar, a melhor opo confessar tambm, j que ao menos no receber a pena completa de 10 anos, e apenas ter que esperar 5, tal como o cmplice. Se ambos decidirem cooperar e permanecerem em silncio, ambos sero libertados em apenas 6 meses. Confessar uma estratgia dominante para ambos os jogadores. Seja qual for a eleio do outro jogador, podem reduzir sempre sua sentena confessando. Por desgraa para os prisioneiros, isto conduz a um resultado regular, no qual ambos confessam e ambos recebem longas condenaes. Aqui se encontra o ponto chave do dilema. O resultado das interaces individuais produz um resultado que no ptimo no sentido de Pareto; existe uma situao tal que a utilidade de um dos detidos poderia melhorar (ou mesmo a de ambos) sem que isto implique uma pioria para o resto. Por outras palavras, o resultado no qual ambos os detidos no confessam domina o resultado no qual os dois escolhem confessar. Se se pensar pela perspectiva do interesse ptimo do grupo (dos dois prisioneiros), o resultado correcto seria que ambos cooperassem, j que isto reduziria o tempo total de pena do grupo a um total de um ano. Qualquer outra deciso seria pior para ambos se se considerar conjuntamente. Apesar disso, se continuarem no seu prprio interesse egosta, cada um dos dos prisioneiros receber uma dura pena. Se um jogador tiver uma oportunidade para castigar o outro jogador ao confessar, ento um resultado cooperativo pode manter-se. A forma iterada de este jogo (mencionada mais abaixo) oferece uma oportunidade para este tipo de castigo. Nesse jogo, se o cmplice trai e confessa uma vez, pode-se castig-lo traindo-o na prxima. Assim, o jogo iterado oferece uma opo de castigo que est ausente no modo clssico do jogo. Este jogo possui como soluo do ponto de vista timo de Pareto a estratgia:

A e B negam

Este jogo possui como Equilbrios de Nash a estratgia:

A e B delatam: neste caso, o Equilbrio dominante.

[editar] Um jogo similar


O cientista cognitivo Douglas Hofstadter (ver as referncias abaixo) sugeriu uma vez que as pessoas encontram muitas vezes problemas como o dilema do prisioneiro mais fceis de entender quando so apresentados como um simples jogo ou intercmbio. Um dos exemplos que usou foi o de duas pessoas que se encontrem e troquem malas fechadas, com o acordo de que uma delas contenha dinheiro e a outra contenha um objecto que est sendo comprado. Cada jogador pode escolher seguir o acordo pondo na sua mala o que acordou, ou pode enganar oferecendo uma mala vazia. Neste jogo de intercmbio, ao contrrio do dilema do prisioneiro, o engano sempre a melhor opo.

[editar] Matriz de ganhos do dilema do prisioneiro


No mesmo artigo, Hofstadter tambm observou que a matriz de ganhos do dilema do prisioneiro pode, de facto, tomar mltiplos valores, sempre que se adira ao seguinte princpio: T>R>C>P onde T a tentao para trair (isto , o que se obtm quando se deserta e o outro jogador coopera); R a recompensa pela cooperao mtua; C o castigo pela desero mtua; e P a paga do ingnuo (isto , o que se obtm quando um jogador coopera e o outro deserta). A matriz de ganhos seria:
A, B Nega Nega Confessa

-1/2, -1/2 -10, 0 -5, -5

Confessa 0, -10

O dilema do prisioneiro cumpre a frmula : 0 > -0,5 > -5 > -10 (em negativo porquanto os nmeros representam anos de crcere). Costuma tambm cumprir-se (T + C)/2 < R, e isto exigido no caso iterado[2]. As frmulas anteriores asseguram que, independentemente dos nmeros exactos em cada parte da matriz de ganhos, sempre "melhor" para cada jogador desertar, faa o que fizer o outro. Seguindo este princpio, e simplificando o dilema do prisioneiro ao cenrio da troca de malas anterior (ou a um jogo de dois jogadores tipo Axelrod ver mais abaixo), obteremos a seguinte matriz de ganhos cannica para o dilema do prisioneiro, isto , a que se costuma mostrar na literatura sobre este tema: Cooperar Desertar Cooperar 3, 3 Desertar 5, -5 -5, 5 -1, -1

Em terminologia "ganho-ganho" a tabela seria semelhante a esta: Cooperar Cooperar ganho - ganho Desertar Desertar perda substancial- ganho substancial

ganho substancial - perda substancial perda - perda

[editar] Exemplos na vida real


Estes exemplos em concreto em que intervm prisioneiros, troca de malas e coisas parecidas podem parecer rebuscados, mas existem, de facto, muitos exemplos de interaces humanas e interaces naturais nas quais se obtm a mesma matriz. O dilema do prisioneiro s por si de interesse para as cincias sociais, como a economia, a cincia poltica e sociologia, alm das cincias biolgicas como a etologia e a biologia evolutiva. Em cincia poltica, por exemplo, o cenrio do dilema do prisioneiro usa-se para ilustrar o problema dos estados envolvidos nas corridas s armas. Ambos concluram que tm duas opes: ou incrementar os gastos

militares, ou chegar a um acordo para reduzir o seu armamento. Nenhum dos dois estados pode estar seguro de que o outro acatar o acordo; deste modo, ambos se inclinam para a expanso militar. A ironia est em que ambos os estados parecem actuar racionalmente, mas o resultado completamente irracional. Outro interessante exemplo tem a ver com um conceito conhecido das corridas no ciclismo, por exemplo, na Volta Frana. Considerem-se dois ciclistas a metade da corrida, com o peloto a grande distncia. Os dois ciclistas trabalham em cooperao mtua, compartindo a pesada carga da posio dianteira, donde no se podem refugiar do vento. Se nenhum dos ciclistas faz um esforo para permanecer adiante, o peloto alcan-los- rapidamente (desero mtua). Um exemplo visto com frequncia que um ciclista faz sozinho todo o seu trabalho, mantendo ambos longe do peloto. No final, isto levar provavelmente a uma vitria do segundo ciclista, que teve uma corrida mais fcil graas o trabalho do primeiro corredor. Por ltimo, a concluso terica do dilema do prisioneiro a razo pela qual, em muitos pases, se probem os acordos judiciais. Frequentemente aplica-se precisamente o cenrio do dilema do prisioneiro: do interesse de ambos os suspeitos ou confessar ou testemunhar contra o outro prisioneiro/suspeito, mesmo que ambos sejam inocentes do suposto crime ou actividade ilcita. Pode-se dizer que o pior caso d-se quando apenas um deles culpado: no provvel que o inocente confesse, enquanto o culpado tender a confessar e a testemunhar contra o inocente.

[editar] O dilema do prisioneiro iterado (DPI)


No seu livro A evoluo da cooperao: o dilema do prisioneiro e a teoria de jogos (1984), Robert Axelrod estudou uma extenso ao cenrio clssico do dilema do prisioneiro que denominou dilema do prisioneiro iterado (DPI). Aqui, os participantes devem escolher uma e outra vez a sua estratgia mtua, e tm memria dos seus encontros prvios. Axelrod convidou colegas acadmicos de todo o mundo a conceber estratgias automatizadas para competir num torneio de DPI. Os programas que participaram variavam amplamente na complexidade do algoritmo: hostilidade inicial, capacidade de perdo e similares. Axelrod descobriu que quando se repetem estes encontros durante um longo perodo de tempo com muitos jogadores, cada um com distintas estratgias, as estratgias "egostas" tendiam a ser piores a longo prazo, enquanto que as estratgias "altrustas" eram melhores, julgando-as unicamente com respeito ao interesse prprio. Usou isto para mostrar um possvel mecanismo que explicasse o que antes tinha sido um difcil ponto na teoria da evoluo: como pode evoluir um comportamento altrusta a partir de mecanismos puramente egostas na seleco natural? Descobriu-se que a melhor estratgia determinista era a de "olho por olho" ("tit for tat"), que foi desenvolvida e apresentada no torneio por Anatol Rapoport. Era o mais simples de todos os programas apresentados, contendo apenas quatro linhas de BASIC, e foi o que ganhou o concurso. A estratgia consiste simplesmente em cooperar na primeira iterao do jogo, e depois de isso escolher o que o oponente escolheu na ronda anterior. Uma estratgia ligeiramente melhor "Tit for Tat com capacidade de perdo". Quando o oponente deserta, na seguinte ronda coopera-se por vezes com ele com uma pequena probabilidade (de 1% a 5%). Isto permite a recuperao ocasional de ficar encerrado num crculo vicioso de deseres. A probabilidade exacta depende do alinhamento dos oponentes. "Tit for Tat com capacidade de perdo" a melhor estratgia quando se introduzem problemas de comunicao no jogo. Isto significa que a vezes a jogada transmitida incorrectamente ao oponente: coopera-se mas o oponente cr que se desertou. Tit for Tat funcionava, segundo Axelrod, por dois motivos. O primeiro que "amvel", isto , comea cooperando e apenas deserta como resposta desero de outro jogador, e assim nunca o responsvel por iniciar um ciclo de deseres mtuas. O segundo que pode ser provocado, ao responder sempre o que faz o outro jogador. Castiga imediatamente o outro jogador se este deserta, mas igualmente responde adequadamente se cooperam de novo. Este comportamento claro e directo significa que o outro jogador entende facilmente a lgica por trs das aces de Tit for Tat, e pode portanto encontrar uma forma de trabalhar com ele produtivamente. No uma coincidncia que a maioria das estratgias que funcionaram pior no torneio de Axelrod fossem as que no estavam desenhadas para responder s escolhas dos outros jogadores. Contra esse tipo de jogador, a melhor estratgia desertar sempre, j que nunca se pode assegurar ter estabelecido uma cooperao mtua fivel.

Para o DPI, nem sempre correcto dizer que uma certa estratgia a melhor. Por exemplo, considere-se uma populao onde todos desertam sempre, excepto um nico individuo que continua a estratgia Tit for Tat. Este individuo tem uma pequena desvantagem porque perde a primeira ronda. Numa populao com um certa percentagem de indivduos que desertam sempre e outros que continuam a estratgia Tit for Tat, a estratgia ptima para um indivduo depende da percentagem, e da durao do jogo. Realizaram-se simulaes de populaes, onde morrem os indivduos com pontuaes baixas e se reproduzem aqueles com pontuaes altas. A mistura de algoritmos na populao final depende da mistura na populao inicial. Se um DPI vai ser iterado exactamente N vezes, para alguma constante conhecida N, h outro dato interessante. O equilbrio de Nash desertar sempre. Isto prova-se facilmente por induo: Pode-se desertar a ltima ronda, j que o oponente no ter oportunidade de castigar. Por isso, ambos desertaro na ltima ronda. Ento, pode-se desertar a ronda anterior, j que o oponente desertar na ltima faa-se o que se fizer. E continua-se deste modo. Para que a cooperao continue atractiva, o futuro deve ser indeterminado para ambos os jogadores. Uma soluo consiste em fazer aleatrio o nmero total de rondas N. Outro caso especial "jogar eternamente" o dilema do prisioneiro. O jogo repete-se um nmero infinito de rondas, e a pontuao a mdia. O jogo do dilema do prisioneiro fundamental para entender certas teorias de cooperao e confiana humana. Na suposio de que as transaces entre duas pessoas que exijam confiana podem ser modeladas pelo dilema do prisioneiro, o comportamento cooperativo em populaes pode ser modelado por uma verso para varios jogadores e iterada do jogo. Por isso tem fascinado muitos estudiosos ao longo dos anos. Uma estimativa no demasiado actualizada (Grofman and Pool, 1975) situa o nmero de artigos dedicados ao mesmo acima dos 2.000. Ao analisar as estratgias que conseguiram melhor pontuao, Axelrod estabeleceu vrias condies necessrias para que uma estratgia tivesse xito: Amabilidade A condio mais importante a de que a estratgia deve ser "amvel", ou seja, no desertar antes que o opositor o faa. Quase todas as estratgias melhor pontuadas eram amveis; da uma estratgia puramente egosta no far "batota" com o oponente, principalmente por razes puramente utilitrias. Retaliao Todavia, notou Axelrod, a estratgia vencedora no pode ser optimista cega. De vez em quando tem de retaliar. Um exemplo de uma estratgia no retaliadora a de "colaborar sempre". uma escolha muito m, pois estratgias oportunistas ou maldosas iro explorar essa fraqueza sem piedade. Perdo Uma qualidade das estratgias vencedoras que so capazes de perdoar. Embora retaliem, tornam a cooperar logo que o opositor no continue a desertar. Isto evita grandes sequncias de vinganas em crculo vicioso, maximizando os pontos. No-inveja A ltima qualidade no serem invejosas, ou seja, no tentarem fazer mais pontos que os opositores (impossvel para uma estratgia "amvel", isto , uma estratgia "amvel" nunca pode fazer mais pontos que o opositor). Assim, Axelrod atinge a concluso talvez utpica de que os indivduos egostas pelo seu prprio egosmo tendero a ser amveis e colaborantes, indulgentes e no invejosos. Uma das mais importantes concluses

do estudo de Axelrod's quanto a este problema que os indivduos "amveis" acabam com as melhores classificaes.

[editar] Sociedades secretas no dilema do prisioneiro iterado


No vigsimo aniversrio da competio do dilema do prisioneiro iterado (2004), a equipa da Universidade de Southampton ganhou as primeiras posies, vencendo, entre os demais competidores, algoritmos modelo tit-for-tat e seus derivados. A competio era da variante do dilema do prisioneiro iterado com problemas de comunicao (isto , algumas vezes no se comunicavam bem os movimentos ao outro jogador). Nessa edio apresentaram-se 223 competidores, dos quais 60 foram inscritos por Southampton. Todos eram variantes de um mesmo algoritmo, e nas primeiras 5 a 10 iteraes do dilema do prisioneiro utilizavam as suas respostas como "saudao secreta" para se identificarem entre si. Ento, identificavam-se ao outro jogador como pertencentes "sociedade", e alguns algoritmos estavam desenhados para sacrificar-se colaborando sempre, de modo que os outros, traindo-os sempre, pudessem conseguir uma pontuao mxima. Se no identificavam o outro algoritmo como pertencente sociedade, aps ver as suas jogadas iniciais, todas as variantes o traam sempre para baixar tanto quanto possvel a sua pontuao. Esta estratgia, embora de discutvel correspondncia com o esprito do jogo, j que requer uma comunicao inicial entre os participantes da "sociedade" para decidir o formato da "saudao", ajusta-se s regras da competio. Seguindo-a, Southampton conseguiu que trs de seus participantes ocupassem as trs primeiras posies, mas custa de muitos dos seus outros algoritmos terem ficado entre os de pior pontuao.

[editar] Psicologia da aprendizagem e teoria dos jogos


Quando os jogadores aprendem a estimar a probabilidade de desero dos outros, o seu prprio comportamento influenciado pela sua experincia desse comportamento externo. Estatsticas simples mostram que jogadores sem experincia so mais propensos a ter globalmente interaces invulgarmente boas ou ms com os outros. Se agem na base dessas experincias (desertando ou cooperando mais do que fariam em outros casos) mais provvel que sofram em transaces futuras. Ao ganhar experincia consegue-se uma impresso mais verdadeira da probabilidade de desero e o jogo torna-se mais favorvel. As transaces iniciais feitas por jogadores imaturos podero ter maior efeito no jogo futuro do que as que o so por jogadores j experientes. Este princpio explicar porque experincias formativas de jovens so to influentes e porque que estes so particularmente vulnerveis a violncias psicolgicas como o bullying, por vezes tornando-se eles prprios abusadores. A probabilidade de traio/desero numa populao pode ser reduzida pela experincia da cooperao em anteriores jogos permitindo a construo de uma relao de confiana.[3] Da o comportamento de autosacrifcio poder, em alguns casos, aumentar a coeso moral de um grupo. Se o grupo for pequeno o comportamento positivo mais provvel de retornar de forma mtua, encorajando os indivduos no grupo para que continuem a cooperar. Estes processos so preocupaes de relevo no estudo do altrusmo recproco, seleco de grupo, seleco de parentesco e filosofia moral.