Escolar Documentos
Profissional Documentos
Cultura Documentos
Origem: Wikipdia, a enciclopdia livre. (Redirecionado de Dilema do Prisioneiro) Ir para: navegao, pesquisa
Iro cooperar ambos os prisioneiros para minimizar a perda da liberdade, ou um dos presos, confiando na cooperao do outro, o trair para ganhar a liberdade? O dilema do prisioneiro um problema da teoria dos jogos e um exemplo claro, mas atpico, de um problema de soma no nula. Neste problema, como em outros muitos, supe-se que cada jogador, de modo independente, quer aumentar ao mximo a sua prpria vantagem sem lhe importar o resultado do outro jogador. As tcnicas de anlise da teoria de jogos padro - por exemplo determinar o equilbrio de Nash - podem levar cada jogador a escolher trair o outro, mas curiosamente ambos os jogadores obteriam um resultado melhor se colaborassem. Infelizmente (para os prisioneiros), cada jogador incentivado individualmente para defraudar o outro, mesmo aps lhe ter prometido colaborar. Este o ponto-chave do dilema. No dilema do prisioneiro iterado, a cooperao pode obter-se como um resultado de equilbrio. Aqui jogase repetidamente, pelo que, quando se repete o jogo, oferece-se a cada jogador a oportunidade de castigar ao outro jogador pela no cooperao em jogos anteriores. Assim, o incentivo para defraudar pode ser superado pela ameaa do castigo, o que conduz a um resultado melhor, cooperativo. O dilema do prisioneiro foi originalmente formulado por Merrill Flood e Melvin Dresher enquanto trabalhavam na RAND em 1950. Mais tarde, Albert W. Tucker fez a sua formalizao com o tema da pena de priso e deu ao problema geral esse nome especfico. O dilema do prisioneiro (DP) dito clssico funciona da seguinte forma: Dois suspeitos, A e B, so presos pela polcia. A polcia tem provas insuficientes para os condenar, mas, separando os prisioneiros, oferece a ambos o mesmo acordo: se um dos prisioneiros, confessando, testemunhar contra o outro e esse outro permanecer em silncio, o que confessou sai livre enquanto o cmplice silencioso cumpre 10 anos de sentena. Se ambos ficarem em silncio, a polcia s pode conden-los a 6 meses de cadeia cada um. Se ambos trarem o comparsa, cada um leva 5 anos de cadeia. Cada prisioneiro faz a sua deciso sem saber que deciso o outro vai tomar, e nenhum tem certeza da deciso do outro. A questo que o dilema prope : o que vai acontecer? Como o prisioneiro vai reagir? O fato que pode haver dois vencedores no jogo, sendo esta ltima soluo a melhor para ambos, quando analisada em conjunto. Entretanto, os jogadores confrontam-se com alguns problemas: Confiam no cmplice e permanecem negando o crime, mesmo correndo o risco de serem colocados numa situao ainda pior, ou confessam e esperam ser libertados, apesar de que, se ele fizer o mesmo, ambos ficaro numa situao pior do que se permanecessem calados?
Um experimento baseado no simples dilema encontrou que cerca de 40% de participantes cooperaram (i.e., ficaram em silncio).[1] Em abstracto, no importa os valores das penas, mas o clculo das vantagens de uma deciso cujas consequncias esto atreladas s decises de outros agentes, onde a confiana e traio fazem parte da estratgia em jogo. Casos como este so recorrentes na economia, na biologia e na estratgia. O estudo das tticas mais vantajosas num cenrio onde esse dilema se repita um dos temas da teoria dos jogos.
ndice
[esconder]
1 O dilema do prisioneiro clssico 2 Um jogo similar 3 Matriz de ganhos do dilema do prisioneiro 4 Exemplos na vida real 5 O dilema do prisioneiro iterado (DPI) o 5.1 Sociedades secretas no dilema do prisioneiro iterado o 5.2 Psicologia da aprendizagem e teoria dos jogos 6 Variantes o 6.1 Galinha o 6.2 Jogo de confiana o 6.3 Amigo ou inimigo o 6.4 A "tragdia dos comuns" 7 Bibliografia 8 Referncias 9 Ligaes externas
"A" "A" sai livre; "B" condenado a 10 Ambos so condenados a 5 anos anos
O prisioneiro est perante o dilema de confessar ou negar a participao no crime, tendo de lidar com a possibilidade de uma dura pena. Vamos supor que ambos os prisioneiros so completamente egostas e a sua nica meta reduzir a sua prpria estadia na priso. Como prisioneiros tm duas opes: ou cooperar com o seu cmplice e permanecer calado, ou trair o seu cmplice e confessar. O resultado de cada escolha depende da escolha do cmplice. Infelizmente, um no sabe o que o outro escolheu fazer. Incluso se pudessem falar entre si, no poderiam estar seguros de confiar mutuamente. Se se esperar que o cmplice escolha cooperar com ele e permanecer em silncio, a opo ptima para o primeiro seria confessar, o que significaria que seria libertado imediatamente, enquanto o cmplice ter que cumprir uma pena de 10 anos. Se espera que seu cmplice decida confessar, a melhor opo confessar tambm, j que ao menos no receber a pena completa de 10 anos, e apenas ter que esperar 5, tal como o cmplice. Se ambos decidirem cooperar e permanecerem em silncio, ambos sero libertados em apenas 6 meses. Confessar uma estratgia dominante para ambos os jogadores. Seja qual for a eleio do outro jogador, podem reduzir sempre sua sentena confessando. Por desgraa para os prisioneiros, isto conduz a um resultado regular, no qual ambos confessam e ambos recebem longas condenaes. Aqui se encontra o ponto chave do dilema. O resultado das interaces individuais produz um resultado que no ptimo no sentido de Pareto; existe uma situao tal que a utilidade de um dos detidos poderia melhorar (ou mesmo a de ambos) sem que isto implique uma pioria para o resto. Por outras palavras, o resultado no qual ambos os detidos no confessam domina o resultado no qual os dois escolhem confessar. Se se pensar pela perspectiva do interesse ptimo do grupo (dos dois prisioneiros), o resultado correcto seria que ambos cooperassem, j que isto reduziria o tempo total de pena do grupo a um total de um ano. Qualquer outra deciso seria pior para ambos se se considerar conjuntamente. Apesar disso, se continuarem no seu prprio interesse egosta, cada um dos dos prisioneiros receber uma dura pena. Se um jogador tiver uma oportunidade para castigar o outro jogador ao confessar, ento um resultado cooperativo pode manter-se. A forma iterada de este jogo (mencionada mais abaixo) oferece uma oportunidade para este tipo de castigo. Nesse jogo, se o cmplice trai e confessa uma vez, pode-se castig-lo traindo-o na prxima. Assim, o jogo iterado oferece uma opo de castigo que est ausente no modo clssico do jogo. Este jogo possui como soluo do ponto de vista timo de Pareto a estratgia:
A e B negam
Confessa 0, -10
O dilema do prisioneiro cumpre a frmula : 0 > -0,5 > -5 > -10 (em negativo porquanto os nmeros representam anos de crcere). Costuma tambm cumprir-se (T + C)/2 < R, e isto exigido no caso iterado[2]. As frmulas anteriores asseguram que, independentemente dos nmeros exactos em cada parte da matriz de ganhos, sempre "melhor" para cada jogador desertar, faa o que fizer o outro. Seguindo este princpio, e simplificando o dilema do prisioneiro ao cenrio da troca de malas anterior (ou a um jogo de dois jogadores tipo Axelrod ver mais abaixo), obteremos a seguinte matriz de ganhos cannica para o dilema do prisioneiro, isto , a que se costuma mostrar na literatura sobre este tema: Cooperar Desertar Cooperar 3, 3 Desertar 5, -5 -5, 5 -1, -1
Em terminologia "ganho-ganho" a tabela seria semelhante a esta: Cooperar Cooperar ganho - ganho Desertar Desertar perda substancial- ganho substancial
militares, ou chegar a um acordo para reduzir o seu armamento. Nenhum dos dois estados pode estar seguro de que o outro acatar o acordo; deste modo, ambos se inclinam para a expanso militar. A ironia est em que ambos os estados parecem actuar racionalmente, mas o resultado completamente irracional. Outro interessante exemplo tem a ver com um conceito conhecido das corridas no ciclismo, por exemplo, na Volta Frana. Considerem-se dois ciclistas a metade da corrida, com o peloto a grande distncia. Os dois ciclistas trabalham em cooperao mtua, compartindo a pesada carga da posio dianteira, donde no se podem refugiar do vento. Se nenhum dos ciclistas faz um esforo para permanecer adiante, o peloto alcan-los- rapidamente (desero mtua). Um exemplo visto com frequncia que um ciclista faz sozinho todo o seu trabalho, mantendo ambos longe do peloto. No final, isto levar provavelmente a uma vitria do segundo ciclista, que teve uma corrida mais fcil graas o trabalho do primeiro corredor. Por ltimo, a concluso terica do dilema do prisioneiro a razo pela qual, em muitos pases, se probem os acordos judiciais. Frequentemente aplica-se precisamente o cenrio do dilema do prisioneiro: do interesse de ambos os suspeitos ou confessar ou testemunhar contra o outro prisioneiro/suspeito, mesmo que ambos sejam inocentes do suposto crime ou actividade ilcita. Pode-se dizer que o pior caso d-se quando apenas um deles culpado: no provvel que o inocente confesse, enquanto o culpado tender a confessar e a testemunhar contra o inocente.
Para o DPI, nem sempre correcto dizer que uma certa estratgia a melhor. Por exemplo, considere-se uma populao onde todos desertam sempre, excepto um nico individuo que continua a estratgia Tit for Tat. Este individuo tem uma pequena desvantagem porque perde a primeira ronda. Numa populao com um certa percentagem de indivduos que desertam sempre e outros que continuam a estratgia Tit for Tat, a estratgia ptima para um indivduo depende da percentagem, e da durao do jogo. Realizaram-se simulaes de populaes, onde morrem os indivduos com pontuaes baixas e se reproduzem aqueles com pontuaes altas. A mistura de algoritmos na populao final depende da mistura na populao inicial. Se um DPI vai ser iterado exactamente N vezes, para alguma constante conhecida N, h outro dato interessante. O equilbrio de Nash desertar sempre. Isto prova-se facilmente por induo: Pode-se desertar a ltima ronda, j que o oponente no ter oportunidade de castigar. Por isso, ambos desertaro na ltima ronda. Ento, pode-se desertar a ronda anterior, j que o oponente desertar na ltima faa-se o que se fizer. E continua-se deste modo. Para que a cooperao continue atractiva, o futuro deve ser indeterminado para ambos os jogadores. Uma soluo consiste em fazer aleatrio o nmero total de rondas N. Outro caso especial "jogar eternamente" o dilema do prisioneiro. O jogo repete-se um nmero infinito de rondas, e a pontuao a mdia. O jogo do dilema do prisioneiro fundamental para entender certas teorias de cooperao e confiana humana. Na suposio de que as transaces entre duas pessoas que exijam confiana podem ser modeladas pelo dilema do prisioneiro, o comportamento cooperativo em populaes pode ser modelado por uma verso para varios jogadores e iterada do jogo. Por isso tem fascinado muitos estudiosos ao longo dos anos. Uma estimativa no demasiado actualizada (Grofman and Pool, 1975) situa o nmero de artigos dedicados ao mesmo acima dos 2.000. Ao analisar as estratgias que conseguiram melhor pontuao, Axelrod estabeleceu vrias condies necessrias para que uma estratgia tivesse xito: Amabilidade A condio mais importante a de que a estratgia deve ser "amvel", ou seja, no desertar antes que o opositor o faa. Quase todas as estratgias melhor pontuadas eram amveis; da uma estratgia puramente egosta no far "batota" com o oponente, principalmente por razes puramente utilitrias. Retaliao Todavia, notou Axelrod, a estratgia vencedora no pode ser optimista cega. De vez em quando tem de retaliar. Um exemplo de uma estratgia no retaliadora a de "colaborar sempre". uma escolha muito m, pois estratgias oportunistas ou maldosas iro explorar essa fraqueza sem piedade. Perdo Uma qualidade das estratgias vencedoras que so capazes de perdoar. Embora retaliem, tornam a cooperar logo que o opositor no continue a desertar. Isto evita grandes sequncias de vinganas em crculo vicioso, maximizando os pontos. No-inveja A ltima qualidade no serem invejosas, ou seja, no tentarem fazer mais pontos que os opositores (impossvel para uma estratgia "amvel", isto , uma estratgia "amvel" nunca pode fazer mais pontos que o opositor). Assim, Axelrod atinge a concluso talvez utpica de que os indivduos egostas pelo seu prprio egosmo tendero a ser amveis e colaborantes, indulgentes e no invejosos. Uma das mais importantes concluses
do estudo de Axelrod's quanto a este problema que os indivduos "amveis" acabam com as melhores classificaes.