Você está na página 1de 7

Computao Evolucionria

em Machine Learning
Programas capazes de construir novo conhecimento
ou de aperfeioar conhecimento existente, usando
informao de entrada.
Ambiente
do
Problema
Informao
Novo
Conhecimento

Aprendizado
por
Computador

Aplicaes:
Jogos
Robtica
Biologia e Medicina
Engenharia
Cincias Sociais

Dilema dos Prisioneiros


l

l
l

l
l

Algoritmo Gentico usado para aprender uma


estratgia para um jogo.
INDIVDUO estratgia de jogo, regra de comportamento
APTIDO funo da interao com outros jogadores
(pontuao)
AMBIENTE interativo entre indivduos coevolventes
Problema usado para estudar fatores associados com a
evoluo de cooperao e agresso em comunidades
sociais.(Merrill Flood & Melvin Dresher 1950s)

Dilema dos Prisioneiros


l

Dois suspeitos de terem cometido um crime esto em celas separadas


e a polcia prope um acordo. O que pode acontecer?

Os prisioneiros tm duas opes:


Delatar : fazer um acordo com a polcia e delatar o parceiro
Cooperar : manter silncio sobre o delito e cooperar com o parceiro
O que pode acontecer ?

Nenhum aceita trair


Apenas um trai
Ambos traem

Recompensa = Mximo - Penalidade


l

Nenhum aceita trair:


ambos cooperam e recebem pequena punio (2 anos) por
falta de provas; Recompensa intermediria= (5-2) =3
Apenas um trai:
o traidor libertado (0 anos); o outro punido (5 anos) ;
recompensa por trair uma Tentao=(5-0) =5; recompensa
do ingnuo (Sucker) baixa= (5-5)=0.
Ambos traem:
punio intermediria (Punishment) para ambos (4 anos)
=(5-4)=1

Tabela de Recompensas
Jogador B

Jogador B

(1, 1)

(2, 3)

Jogador A

(3, 3)

(0, 5)

(5, 0)

(1, 1)

Jogador A

(3, 2)

(4, 4)

D = Delatar

D = Delatar

C = Cooperar

C = Cooperar

Restries:

3> 1> 4> 2 delatar mais atraente do que cooperar porm,


2 1> 2

+ 3 cooperar aumenta a recompensa de ambos a longo prazo

2 + 3 > 2 4 se ambos sempre delatam o resultado ainda pior

Caractersticas do DP
l
l
l
l

jogo no cooperativo para 2 jogadores


pode ser disputado em torneio entre vrios jogadores
Axelrod promoveu 2 torneios mundiais de estratgias p/ DP
Estratgia vencedora: Tit_for_Tat (Anatol Rapoport)
coopera na primeira jogada e depois repete a titude do oponente na
jogada anterior.
Coopera no primeiro encontro e a seguir retribui na mesma moeda

Axelrod usou Algoritmos Genticos para evoluir novas


estratgias; as 8 melhores estratgias (humanas) dos
torneios serviram para avaliar os indivduos (ambiente de
avaliao esttico).

Modelagem do GA
l

Indivduo (Estratgia)
um indivduo do GA representa uma estratgia de um jogador cuja
atitude funo dos 3 ltimos resultados (histria).

Representao
Ao final de cada jogada podemos ter 4 possibilidades:
Os dois jogadores delataram: DD
11
Punishment
Apenas o jogador A delatou: DC
10
Temptation
Apenas o jogador B delatou: CD
01
Sucker
Nenhum jogador delatou:
CC
00
Reward
Nas ltimas 3 jogadas h: 4 x 4 x 4= 64 histrias diferentes
Cromossoma possui 64 bits: 1 ou 0 (D ou C)
Cada bit define a atitude do jogador para cada uma das 64 histrias
Posio do bit identifica a histria

Representao
Posio
Histria
Base 2
Base 4
String
Deciso

l
l
l

0
CCCCCC
000000
RRR
0
C
coopera

1
DCCCCC
100000
TRR
1
D
delata

2
CDCCCC
010000
SRR
1
D
delata

......
......
......
......
......
......
......

63
6 bits
DDDDDD
111111
PPP
1
010000
D
delata
(SRR)4 = 2

Posio no cromossoma corresponde a uma histria.


Contedo de cada posio corresponde atitude do jogador.
Smbolos da base 4 correspondem s iniciais da tabela de
recompensa (Reward, Temptation, Sucker e Punishment).
R=0, T=1, S=2, P=3
Exemplo: (RST)4= Rx40 + Sx41 + Tx42 = 000110 = 24

Representao
l

Para fazer a estratgia funcionar no incio do jogo, so


adicionados 6 bits correspondentes a 3 partidas hipotticas.

Posio
Histria
Base 2
Base 4
String
Deciso

0
CCCCCC
000000
RRR
0
C
coopera

1
DCCCCC
100000
TRR
1
D
delata

2
CDCCCC
010000
SRR
1
D
delata

......
......
......
......
......
......
......

63
6 bits
DDDDDD
111111
PPP
1
010000
D
delata
(SRR)4 = 2

Atitude na primeira jogada = D.


Na 2 e 3 jogadas utiliza-se parte
dos 6 bits e os resultados reais.

Modelagem do GA
l

Avaliao
cada indivduo (estratgia) da populao joga com cada um
dos 8 oponentes um torneio de 151 partidas
m
Ai = pi,j / m
pi,j : pontos do jogador i na partida j
m: total de partidas contra todos oponentes

Operadores Genticos
crossover e mutao sobre binrios

Seleo
avaliao na mdia
avaliao acima da mdia
avaliao abaixo da mdia

1 cruzamento
2 cruzamentos
0 cruzamentos

Resultados
l

l
l
l

Indivduos evoluiram regras de comportamento a partir da


interao com outros indivduos.
40 rodadas de 50 geraes de 20 indivduos.
O GA evoluiu estratgias que venceram Tit-for-Tat.
Cromossomas de aptido mdia eram to bons quanto as
melhores heursticas.
Caractersticas das estratgias:
traem no 1 e no 2 movimentos;
sabem pedir desculpas e entrar em cooperao;
tm comportamento diferenciado para indivduos traidores e notraidores

Padres encontrados
l
l

Maioria dos indivduos apresentava os seguintes padres:


C aps (CC) (CC) (CC)
No deixei o barco virar, continue cooperando.

D aps (CC) (CC) (CD)


Aceite a provocao, traia depois que outro traiu por nada.

C aps (CD) (DC) (CC)


Aceite as desculpas, coopere aps cooperao ser restabelecida.

C aps (DC) (CC) (CC)


Coopere quando cooperao mtua restabelecida depois de
uma agresso.

D aps (DD) (DD) (DD)


Aceite a provocao, traia aps trs agresses.

Segundo GA
l

Axelrod desenvolveu um segundo experimento,


permitindo que os indivduos jogassem uns contra os
outros e contra si mesmos (ambiente de avaliao
dinmico).
Nas primeiras geraes, estratgias cooperativas no
encontravam reciprocidade e tendiam a desaparecer.
Aps 10 a 20 geraes, o panorama se revertia: GA
encontrava estratgias de cooperao recproca, que
puniam traio.
Essas estratgias no foram derrotadas pelas menos
cooperativas e conseguiram proliferar nas geraes
seguintes.

Você também pode gostar