Você está na página 1de 21

Resumo

Artificial Intelligence A Modern Approach, Russel and Norvig


Captulos 1 e 2
Disciplina de Sistemas Multi-agentes
Manoel Campos da Silva Filho

O que IA?
Definies de inteligncia artificial so mostradas na figura 1.1, de acordo com oito livros
texto. Estas definies variam ao longo de duas principais dimenses. Grosseiramente, as no topo
so preocupadas com processos de pensamento e raciocnio, enquanto as de baixo endeream a
comportamento. As definies esquerda medem sucesso em termos de fidelidade para a
performance humana, enquanto as da direita medem contra um conceito ideal de inteligncia, que
chamaremos de racionalidade. Um sistema racional se ele faz a coisa certa, dado o que ele
sabe.
Sistemas que pensam como humanos

Sistemas que pensam racionalmente

O excitante novo esforo para fazer O estudo de faculdades mentais por meio do
computadores pensarem mquinas com uso de modelos computacionais. (Charniak e
mentes, no sentido literal e completo. McDermott, 1985)
(Haugeland, 1985)
[A automao de] atividades que ns O estudo de computaes que fazem possvel
associamos com pensamento humano, atividades perceber, raciocinar e agir. (Winston, 1992)
tais como tomada de deciso, resoluo de
problemas, aprendizagem... (Bellman, 1978)
Sistemas que agem como humanos

Sistemas que agem racionalmente

A arte de criar mquinas que realizam funes Inteligncia Computacional o estudo do


que requerem inteligncia quando realizadas por projeto de agentes inteligentes. (Poole et al.,
pessoas. (Kurzweil, 1990)
1998)
O estudo de como fazer computadores IA ... preocupada comportamento inteligente
realizarem coisas em que, no momento, pessoas em artefatos. (Nilssom, 1998)
so melhores. (Rick e Knight, 1991)
Figura 1.1 - Algumas definies de inteligncia artificial, organizadas em quatro categorias
Historicamente todas as quatro propostas tm sido seguidas. Como algum pode esperar,
uma tenso existe entre propostas centradas ao redor de humanos e propostas centradas ao redor de
racionalidade (no estamos dizendo que humanos so irracionais no sentido de emocionalmente
instveis ou insanos, apenas que no somos perfeitos). Uma proposta centrada em humanos deve
ser uma cincia emprica, envolvendo hipteses e confirmaes experimentais. Uma proposta
racionalista envolve uma combinao de matemtica e engenharia.

1 de 21

Agir humanamente: A proposta do Teste de Turing


O Teste de Turing, proposto por Alan Turing (1950), foi projetado para prover uma
definio satisfatria de inteligncia. Um computador passa no teste se um humano interrogador,
depois de colocar algumas questes escritas, no puder dizer se as respostas escritas so de uma
pessoa ou no. Um computador, para passar no teste, precisa ter as seguintes capacidades:

representao de conhecimento para armazenar o que ele sabe ou ouve;

raciocnio automatizado para usar a informao armazenada para responder questes e


para tirar novas concluses;

aprendizado de mquina para se adaptar novas circunstncias e para detectar e extrapolar


padres.

O chamado Teste Total de Turing requer do computador outras capacidades como:

viso computacional para perceber objetos, e

robtica para manipular objetos.

Pensar humanamente: A proposta de modelagem cognitiva


Se formos dizer que um programa pensa como um humano, precisamos de alguma forma de
determinar como humanos pensam. Precisamos estar por dentro do funcionamento da mente
humana. Existem duas formas de fazer isto: atravs de introspeco tentando pegar nossos
prprios pensamentos a medida que eles surgem e atravs de experimentos psicolgicos. Uma
vez que temos uma teoria precisa o suficiente sobre a mente, se torna possvel expressar essa teoria
como um programa de computador. Se as entradas e sadas do programa e o tempo dos
comportamentos correspondem com comportamentos humanos, evidente que alguns mecanismos
de programas podem tambm estar operando em humanos. Por exemplo, Allen Newell e Herbert
Simon, que desenvolveram o GPS, o General Problem Solver (1961) no estavam contentes que seu
programa resolvesse problemas corretamente, eles queriam comparar os passos do seu raciocnio
com os de como um humano resolve o mesmo problema.

Pensar racionalmente: A proposta das leis do pensamento


O filsofo grego Aristteles foi um dos primeiros a tentar codificar o pensamento correto,
que , irrefutavelmente, o processo de raciocnio. Seu silogismo prov padres para estruturas de
argumentos que sempre produzem concluses corretas quando dadas corretas premissas por
exemplo, Scrates um homem; todos os homens so mortais; logo, Scrates mortal. Estas
leis de pensamento eram supostas por governar a operao da mente; seu estudo iniciou o campo
chamado lgica.

Agir racionalmente: A proposta de agente racional


Um agente apenas algo que age (agente vem do latim agere, fazer). Mas agentes de
computador so esperados por terem outros atributos que distinguem eles de meros programas, tal
como operando sobre controle autnomo, percebendo seu ambiente, persistindo sobre um
prologando perodo de tempo, se adaptando mudanas e sendo capaz de pensar em outros
2 de 21

objetivos. Um agente racional um que age de forma a alcanar o melhor resultado ou, quando em
incerteza, o melhor resultado esperado.
Na proposta das leis do pensamento a enfase foi em inferncias corretas. Fazendo corretas
inferncias algumas vezes parte de ser um agente racional, devido uma forma de agir
racionalmente raciocinar logicamente para a concluso que uma dada ao ir alcanar um
objetivo e ento agir na concluso. Por outro lado, inferncias corretas no so tudo de
racionalidade, devido existirem frequentemente aes onde no h uma coisa provavelmente correta
a fazer, mas alguma coisa deve ser feita. Existem tambm formas de agir racionalmente que no
podem envolver inferncia. Por exemplo, se afastar de um forno quente uma ao de reflexo que
tem normalmente mais sucesso que uma ao mais lenta tomada depois de cuidadosa deliberao.

As Fundaes da Inteligncia Artificial


A IA se fundamente em diversas reas do conhecimento, como mostrado a seguir.

Neurocincia
Chips de computador podem executar instrues em nanosegundos, enquanto neurnios so
milhes de vezes mais lentos. A lei de Moore diz que o nmero de transistores por polegada
quadrada dobra a cada 1 ou 1,5 ano. A capacidade do crebro humano dobra grosseiramente a cada
2 a 4 milhes de anos.

Filosofia
Kenneth Craik especificou os trs passos chaves de um agente baseado em conhecimento
(DEFINIR AGENTE BASEADO EM CONHECIMENTO): 1) o estmulo deve ser traduzido em
representaes internas, 2) a representao manipulada pelo processo cognitivo (DEFINIR
COGNITIVO) para derivar novas representaes internas, e 3) estes so por sua vez, retraduzidos
de volta em ao. Ele claramente explicou por que isso era um bom projeto para um agente:
Se o organismo transporta um modelo de pequena escala de realidade externa e de
suas prprias possveis aes dentro de sua cabea, ele capaz de tentar vrias
alternativas, concluir qual a melhor delas, reagir a situaes futuras antes que elas
surjam, utilizar o conhecimento de eventos passados tratando com o presente e o futuro,
e em cada forma de reagir de uma muito mais completa, segura e mais competente
maneira emergncias com as quais ele encara.

Engenharia de Computao
O primeiro computador eletrnico, o ABC, foi montado por John Atanasoff e seu estudante
Clifford Berry entre 1940 e 1942 na universidade estadual de Iowa. Sua pesquisa recebeu pouco
suporte e reconhecimento; foi o ENIAC, desenvolvido como parte de um projeto militar secreto na
universidade de Pennsylvania pelo time incluindo John Mauchly e John Eckert, que provou ser o
mais influente precursor dos computadores modernos.
Na metade do sculo, desde ento, cada gerao de hardware de computador tem trazido um
aumento na velocidade e capacidade e reduzido no preo. Performance dobra a cada 18 meses ou
mais, com uma dcada ou duas nesta taxa de crescimento. Depois disto, ns precisaremos de
engenharia molecular ou alguma outra nova tecnologia.
3 de 21

A mquina analtica de Charles Babbage (1792-1871) foi de longe a mais ambiciosa: ele
inclua memria enderevel, programas armazenados e pulos condicionais, e foi a primeira capaz
de realizar computao universal. A colega de Babbage, Ada Lovelace, foi talvez a primeira
programadora do mundo (a linguagem de programao Ada foi nomeada depois dela).
A IA tem pioneirizado muitos trabalhos na rea de cincia da computao, como time
sharing, interpretadores interativos, computadores pessoais com janelas e mouse, ambientes de
desenvolvimento rpido de aplicaes (Rapid Application Development Tools RAD Tools), tipos
de dados de listas encadeadas, gerenciamento automtico de armazenamento e conceitos chaves de
programao simblica, funcional, dinmica e orientada a objetos.

Teoria do controle e ciberntica


Lingustica moderna e IA, nasceram ao mesmo tempo, e cresceram juntas, tendo
interseco em um campo hbrido chamado lingustica computacional ou processamento de
linguagem natural. O problema de se entender linguagem em breve se tornou consideravelmente
mais complexo do que parecia ser em 1957. Entender linguagem requer um entendimento do
assunto e contexto, no apenas entender da estrutura das sentenas. Isto pode parecer bvio, mas
no era amplamente apreciado at a dcada de 1960. Muito dos trabalhos anteriores em
representao do conhecimento (o estudo de como colocar o conhecimento em uma forma que o
computador possa raciocinar sobre ele) foi ligado a linguagem e informado pesquisas em
lingustica, que foi conectado por sua vez, a dcadas de trabalho de anlise filosfica de linguagem.

A histria da Inteligncia Artificial


A gestao da inteligncia artificial
O primeiro trabalho que hoje geralmente reconhecido como IA foi feito por Warren
McCulloch e Walter Pitts (1943). Eles usaram 3 fontes: conhecimento de filosofia bsica e funo
dos neurnios no crebro; uma anlise formal da lgica proposicional devido a Russel e Whitehead;
e a teoria da computao de Turing. Eles proporam um modelo de neurnios artificiais em que cada
neurnio caracterizado como estando ligado ou desligado, com a mudana para ligado
ocorrendo em resposta a estimulao por um suficiente nmero de neurnios vizinhos. O estado do
neurnio foi concebido como realmente equivalente a proposio que prope seu adequado
estmulo. Eles mostraram, por exemplo, que qualquer funo computvel poderia ser computada
pela mesma rede de neurnios conectados, e que todos os conectivos lgicos (and, or, not, etc)
poderiam ser implementados por simples estruturas de rede. Eles tambm sugeriram que redes
definidas adequadamente tambm poderiam aprender.
Dois alunos de graduao no departamento de matemtica de Princeton, Marvin Minsky e
Dean Edmonds, construram a primeira rede neural de computador em 1951. O SNARC, como foi
chamada, usou 3000 tubos de vcuo para simular uma rede de 40 neurnios.
Existiram outros trabalhos anteriores que podem ser caracterizados como IA, mas foi Alan
Turing quem primeiro articulou uma viso completa de IA em seu artigo Computao de Mquina
e Inteligncia em 1950. L ele introduziu o teste de Turing, aprendizado de mquina, algoritmos
genticos e reforo da aprendizagem.

4 de 21

O nascimento da IA (1956)
Princeton foi a casa de outra figura influente em IA, John McCarthy. Depois da graduao
foi para o Dartmouth College, que se tornou o local oficial de nascimento da rea de IA.

Entusiamo anterior, grandes expectativas (1952-1969)


Sucessos anteriores de Newell e Herbert Simon foram seguidos do General Problem Solver
ou GPS. Diferente da Lgica Teorista, este programa foi projetado no incio para imitar os
protocolos humanos de resoluo de problemas. Dentro de uma limitada classe de jogos/quebracabeas que ele podia manipular, ele revelou que a ordem em que o programa considerava sub
objetivos e possveis aes era semelhante quela em que o homem abordava os mesmos
problemas. Assim, o programa GPS foi provavelmente o primeiro a incorporar a proposta do
pensar humanamente. O sucesso do GPS e programas subsequentes como modelos de cognio
guiaram Newell e Simon (1976) para formular a famosa hiptese do sistema de smbolos fsicos,
que afirma que um sistema de smbolo fsico tem os meios necessrios e suficientes para aes
inteligentes gerais. O que eles quiseram dizer que qualquer sistema (homem ou mquina)
exibindo inteligncia devem operar pela manipulao de estruturas de dados compostas de
smbolos.
John McCarthy foi de Dartmouth para o MIT e l fez 3 cruciais contribuies em um ano
histrico de 1958: definiu a linguagem de alto nvel chamada Lisp, que se tornou a linguagem
dominante para programao de IA. Lisp a segunda mais velha linguagem de alto nvel em uso,
um ano mais nova que FORTRAN. Com Lisp, McCarthy tinha a ferramenta que precisava, mas
acesso escasso e caro a recursos computacionais era um srio problema. Em resposta, ele e outros
no MIT invetaram o time sharing. Tambm em 1958 ele publicou o artigo Programs with Common
Sense em que ele descreveu o Advice Taker (Tomador de Conselhos), um programa hipottico que
pode ser visto como o primeiro sistema de IA completo. Como a Teoria Lgica e o Provador de
Teoremas Geomtricos, o programa de McCarthy foi projetado para usar conhecimento para
encontrar solues para problemas. Mas diferente de outros, ele incorporou o conhecimento geral
do mundo. Por exemplo, ele mostrou como alguns axiomas (DEFINIR AXIOMAS) simples
poderiam permitir a programas gerarem um plano para dirigir at o aeroporto. O programa foi
projetado tambm para que possa aceitar novos axiomas durante o curso normal de operao,
permitindo que ele alcance competncia em novas reas sem ser reprogramado. O Advice Taker
ento incorpora os princpios centrais de representao do conhecimento e raciocnio: que til ter
uma representao explcita e formal do mundo, e da forma que as aes dos agentes afetam o
mundo e ser capaz de manipular essas representaes com processo dedutivos.

Uma dose de realidade


Desde o incio, pesquisadores de IA no eram tmidos em fazer predies de seus prximos
sucessos. Termos como futuro visvel podem ser interpretados de vrias formas mas Simon
tambm fez uma predio mais concreta: que em 10 anos um computador poderia ser campeo
mundial de xadrez.
Uma tpica histria ocorrida no incio dos esforos de traduo de textos por mquina, que
foram generosamente financiados pelo Conselho Nacional de Pesquisa dos EUA na tentativa de
agilizar a traduo de artigos cientficos em russo, no fraco lanamento do Sputnik (nome do
programa de lanamento de satlites artificiais da antiga URSS- Unio das Repblicas Socialistas
5 de 21

Soviticas) em 1957. Foi pensado inicialmente que seriam simples transformaes sintticas
baseadas nas gramticas russa e inglesa, e substituio de palavras usando um dicionrio
eletrnico, bastaria para preservar o exato significado das sentenas. O fato que a traduo requer
conhecimento geral do assunto para resolver ambiguidades e estabelecer o contedo da sentena.
O segundo tipo de dificuldade foi a no intratabilidade de problemas que a AI estava
tentando resolver. Muitos dos primeiros programas de IA resolveram problemas tentando diferentes
combinaes de passos at a soluo ser encontrada. Esta estratgia funcionou inicialmente porque
micro mundos continham pouqussimos objetos e portanto, pouqussimas aes possveis e
curtssimas sequncias de soluo. Antes da teoria de complexidade computacional ser
desenvolvida, era amplamente pensado que resolver problemas maiores era simplesmente uma
questo de hardware mais rpido e mais memria.

Sistemas baseados em conhecimento: A chave do poder? (1969-1979)


A figura da resoluo de problemas que surgiu durante a primeira dcada de pesquisa em IA
foi de um mecanismo de pesquisa para fins gerais tentando juntar passos elementares de raciocnio
para encontrar solues completas. Tais propostas foram chamadas de mtodos fracos, pois, apesar
de gerais, elas no funcionam para problemas de maior escala. A alternativa para os mtodos fracos
usar conhecimento de domnio especfico mais poderosos que permita maiores passos de
raciocnio e possa mais facilmente manusear tipicamente casos de ocorrncia em estreitas reas de
expertise. Algum pode dizer que para resolver um problema difcil, voc precisa quase j conhecer
a resposta.
O programa DENDRAL foi um exemplo inicial desta proposta, que objetivava resolver o
problema de inferncia de estruturas moleculares a partir de informaes providas por um
espectrmetro de massa. Ele foi significante pois foi o primeiro sistema de conhecimento intenso de
sucesso: sua expertise derivava de um amplo nmero de regras de propsito especial. Sistemas
posteriores tambm incorporaram o principal tema da proposta do programa Advice Taker de
McCarthy a clara separao do conhecimento (na forma de regras) do componente de raciocnio.
Com esta lio em mente, Feigenbaum e outros em Stanford iniciaram o Heuristic
Programming Project (HPP), para investigar a onde a nova metodologia de sistemas especialistas
poderia ser aplicada para outras reas do conhecimento humano. O prximo maior esforo foi na
rea de diagnsticos mdicos. Feigenbaum, Buchanan e o Dr Edward Shortliffe desenvolveram o
MYCIN para diagnsticos de infeces sanguneas. Com cerca de 450 regras, o MYCIN era capaz
de trabalhar to bem como um especialista, e consideravelmente melhor que um mdico estagirio.
Ele tambm continha duas maiores diferenas do DENDRAL. Primeiro, diferente das regras do
DENDRAL, no existia nenhum modelo terico geral a partir do qual as regras do MYCIN
poderiam ser deduzidas. Elas tinham que ser adquiridas em extensas entrevistas com especialistas,
que por sua vez adquiriam em livros, outros especialistas e experincia vividas. Segundo, as regras
tinham que refletir as incertezas associadas com o conhecimento mdico. O MYCIN incorporou um
clculo de incertezas chamado fatores de certeza, que pareciam (na poca) se adequar bem na
forma como os mdicos avaliavam o impacto de evidncias no diagnstico.
A importncia do domnio do conhecimento foi tambm evidente na rea da compreenso de
linguagem natural.
O crescimento generalizado de aplicaes para problemas do mundo real causaram um
aumento paralelo na demanda de exequveis esquemas de representao do conhecimento. Um
amplo nmero de diferentes representaes e linguagens de raciocnio foram desenvolvidas.
Algumas foram baseadas na lgica - por exemplo, a linguagem Prolog se tornou popular na Europa.

6 de 21

IA se torna um padro de indstria (1980 at o presente)


Em toda parte, a indstria de IA estourou, de poucos milhes de dlares em 1980 para
bilhes de dlares em 1988. Logo depois veio o perodo chamado Inverno da IA, em que muitas
companhia sofreram por terem feito promessas extravagantes.
Embora a cincia da computao tenha amplamente abandonado o campo de redes neurais
no final da dcada de 1970, o trabalho continuou em outros campos. Fsicos como John Hopfield
(1982) usou tcnicas de mquinas estatsticas para analisar o armazenamento e propriedades de
otimizao de redes neurais, tratando colees de ns como colees de tomos. Psiclogos
incluindo David Rumelhart e Geoff Hinton continuaram o estudo de modelos de memria de redes
neurais. O real impulso veio em meados da dcada de 1980 quando pelo menos quatro diferentes
grupos reinventaram o algoritmo de aprendizagem back-propagation (retro propagao) primeiro
encontrado em 1969 por Bryson e Ho. O algoritmo foi aplicado para muitos problemas de
aprendizado em cincia da computao e psicologia, e a generalizada disseminao dos resultados
na coleo Parallel Distributed Processing (Rumelhart e McClelland, 1986) causou grande
excitao.

AI se tornou uma cincia (1987 at o presente)


Usando metodologias melhoradas e frameworks tericos, o campo chegou no entendimento
de que redes neurais podem atualmente ser comparadas com correspondentes tcnicas da estatstica,
reconhecimento de padres, aprendizado de mquina e a mais promissora tcnica pode ser aplicada
para cada aplicao. Como resultado destes desenvolvimento, a ento chamada tecnologia de data
mining tem dado novos vigorosos padres de indstria.
O formalismo das redes Bayesianas foi inventado para permitir representao eficiente de
um rigoroso raciocnio com conhecimento incerto. Esta proposta amplamente resultou muitos
problemas de sistemas de raciocnio probabilstico de 1960 e 1970; ela agora domina as pesquisa de
IA em raciocnio incerto e sistemas especialistas.

Resumo

7 de 21

Diferentes pessoas pensam sobre IA diferentemente. Duas importantes questes para


perguntar so: Voc est preocupado com o conhecimento ou com o comportamento? Voc
quer modelar humanos ou trabalhar a partir de um padro ideal?
Neste livro, adotamos a viso de que inteligncia se preocupa principalmente com ao
racional. Idealmente, um agente inteligente executa a melhor ao possvel em uma
situao. Ns estudaremos o problema de construo de agentes que so inteligentes neste
sentido.
Filsofos (anteriores a 400 a.C.) conceberam IA considerando as idias que a mente de
alguma forma como uma mquina, que ela opera sobre conhecimento codificado em alguma
linguagem interna, e que o pensamento pode ser usado para escolher quais aes executar.
Matemticos proveram ferramentas para manipular declaraes de certezas lgicas bem
como incertezas e declaraes probabilsticas. Eles tambm configuraram a base para
compreender computao e raciocnio sobre algoritmos.
Economistas formalizaram o problema de tomar decises que maximizem os resultados
esperados pelo administrador (decision-marker).

Psiclogos adotaram a idia de que humanos e animais podem ser considerados mquinas de
processamento de informaes. Linguistas mostraram qual uso de linguagem adequado
neste modelo.
Engenheiros de computao proveram os artefatos que fazem as aplicaes de IA possveis.
Programas de IA tendem a ser grandes, e eles podem no funcionar sem um grande avano
na velocidade e memria que a indstria de computadores tem provido.
Teoria do controle trata com projeto de dispositivos que agem opcionalmente na base de
feedbacks do ambiente. Inicialmente, as ferramentas matemticas de teoria do controle eram
muito diferentes da IA, mas os campos esto ficando mais prximos.
A histria da IA tem ciclos de sucesso, otimismos mal colocados, resultando cortes no
entusiamo e financiamento. Houveram tambm ciclos de introduo de novas propostas
criativas e sistemtico refinamento das melhores.
IA tem avanado mais rapidamente na dcada passada devido ao grande uso de mtodos
cientficos em experimentos e propostas de comparao.
Progresso recente no entendimento da base terica de inteligncia tem sido disseminado,
com melhorias nas capacidades reais do sistema. As sub-reas da IA tem se tornado mais
integradas, e a AI tem encontrado base comum com outras disciplinas.

2. Agentes Inteligentes
Agentes e Ambientes
Um agente qualquer coisa que pode perceber seu ambiente atravs de sensores e e agir
nesse ambiente por meio de atuadores. Esta simples idia ilustrada na figura 2.1. Um agente
humano tem olhos, orelhas e outros rgos como sensores, e mos, pernas, boca e outras partes do
corpo como atuadores. Um agente rob pode ter cmeras e localizadores infravermelho como
sensores, e vrios motores como atuadores. Um agente de software recebe entradas do teclado,
contedo de arquivos e pacotes de rede como sensores de entrada e age no ambiente mostrando
resultados na tela, gravando em arquivos e enviando pacotes pela rede.

8 de 21

Em geral, a ao de escolha de um agente a qualquer instante pode depender de todo o


histrico de percepes at o momento atual.
Matematicamente falando, ns dizemos que um comportamento de agente descrito por
uma funo de agente que mapeia qualquer dada sequncia de percepes para uma ao.
Podemos imaginar tabular a funo de agente que descreve qualquer agente; para a maioria
dos agentes, esta poderia ser uma tabela muito grande, at infinita, de fato, ao menos que
coloquemos uma fronteira no tamanho das sequncias de percepes que queremos considerar.
Dado um agente como experimento, podemos, em princpio, construir sua tabela tentando todas as
possveis sequncias de percepes e gravando cada ao que o agente faz em resposta. A tabela ,
obviamente, uma caracterizao externa do agente. Internamente, a funo de agente para um
agente artificial ser implementada por um programa de agente. importante distinguir essas duas
idias. A funo de agente uma descrio matemtica abstrata; o programa do agente uma
implementao concreta, rodando na arquitetura do agente.

Para ilustrar essas idias, usaremos um exemplo simples do mundo do aspirador de p,


mostrado na figura 2.2, que bem simples e podemos descrever tudo que acontece nele. Ele tem
apenas dois locais, quadrado A e quadrado B. O agente aspirador de p percebe em que quadrado
ele est e se h sujeira l. Ele pode se mover para direita ou esquerda, aspirar a sujeira ou no fazer
nada. Uma muito simples funo de agente : se o quadrado atual est sujo, aspire a sujeira, seno,
9 de 21

v para o outro quadrado. Uma tabulao parcial desta funo de agente mostrada na figura 2.3.
Um simples programa de agente para esta funo de agente dado posteriormente na figura 2.8.

Bom comportamento: O conceito de racionalidade


Um agente racional um que faz a coisa certa conceitualmente falando, cada entrada na
tabela para a funo de agente preenchida corretamente. Obviamente, fazer a coisa certa melhor
que fazer a errada, mas o que significa fazer a coisa certa? Como uma primeira aproximao,
diremos que a ao correta aquela que permite ao agente ter mais sucesso.

Medidas de performance
A medida de performance incorpora o critrio de sucesso do comportamento de um
agente. Quando um agente atirado em um ambiente, ele gera uma sequncia de aes de acordo
com as percepes que ele recebe. Se a sequncia desejvel, ento o agente tem desempenhado
seu trabalho bem. Obviamente, no existe nenhuma medida fixa adequada para todos os agentes.
Podemos propor como uma medida de performance, a quantidade de sujeira limpa em um
nico turno de 8 horas. Um agente racional pode maximizar esta medida de performance, limpando
a sujeira e jogando ela no cho novamente, ento limpando outra vez, e assim consecutivamente.
Uma medida de performance mais adequada poderia premiar o agente por ter limpado o cho. Por
exemplo, um ponto pode ser conseguido por cada quadrado limpo a cada passo (talvez com uma
penalidade por consumo de energia e gerao de rudo).
A seleo de uma medida de performance no sempre fcil. Por exemplo, a noo de
cho limpo no pargrafo anterior baseada na mdia de limpeza sobre o tempo. Ainda que a
mesma mdia de limpeza possa ser alcanada por dois diferentes agentes, um pode fazer um
trabalho medocre todo o tempo enquanto o outro limpa energicamente mas faz longas paradas.

10 de 21

Racionalidade
O que racional em um dado intervalo depende de 4 coisas:

A medida de performance que define os critrios de sucesso


O conhecimento prvio do agente sobre o ambiente
As aes que o agente pode realizar
A sequncia de percepes do agente at o momento atual
Isto guia para uma definio de agente racional:
Para cada sequncia de percepes possveis, um agente racional deve selecionar
uma ao que esperada para maximizar suas medida de performance, dada a
evidncia provida pela sequncia de percepes, e ignorar o conhecimento
embutido que o agente tem.

Considerando o agente aspirador de p, ele pode ser considerado racional, pois ele realiza as
aes visando maximizar sua performance, a geografia do ambiente conhecida, mas a sua
distribuio da sujeira e localizao inicial no, as aes de ir para esquerda ou direita so
executadas de modo que o agente no saia dos dois quadrados, o agente percebe sua localizao e se
existe sujeira nela.
Algum pode ver facilmente que um mesmo agente poderia ser irracional sobre diferentes
circunstncias. Por exemplo, uma vez que toda a sujeira limpa, ele ir ficar se movendo
desnecessariamente; se a medida de performance inclui uma penalidade de um ponto para cada
movimento, o agente ir ter um desempenho baixssimo. Um agente melhor para este caso poderia
no fazer nada, uma vez que ele est certo de que todos os quadrados esto limpos. Se o quadrado
pode se tornar sujo novamente, o agente poderia ocasionalmente checar e limpar novamente se
necessrio.

Oniscincia, aprendizagem e autonomia


Precisamos ser cuidadosos em distinguir entre racionalidade e oniscincia. Um agente
onisciente conhece o resultado atual de suas aes e pode agir de acordo; mas oniscincia
impossvel na realidade. Considere o exemplo seguinte: Eu estou caminhando em direo Champs
Elyses e vejo um velho amigo cruzar a rua. No h trfego prximo e eu no estou ocupado, ento,
sendo racional, eu inicio a travessia da rua. Enquanto isso, a 10.000 metros de altitude, uma carga
cai de um avio que estava passando, e antes que eu chegue ao outro lado da rua, sou achatado pela
carga. Ento, eu fui irracional ao atravessar a rua?
Este exemplo mostra que racionalidade no o mesmo que perfeio. Racionalidade
maximiza a performance esperada, enquanto perfeio maximiza a performance atual.
Nossa definio de racionalidade no requer oniscincia, devido a escolha racional depender
somente da sequncia de percepes at o momento atual. Ns tambm asseguramos que no temos
inadvertidamente permitido ao agente aderir em atividades decididamente no inteligentes. Por
exemplo, se um agente no olha para ambos os lados antes de atravessar uma rua movimentada,
ento sua sequncia de percepes no dir a ele que h um grande caminho se aproximando em
alta velocidade. Nossa definio de racionalidade diz que est tudo OK para cruzar a rua? Longe
disso. Primeiro, poderia no ser racional cruzar a rua dado essa sequncia de percepes no
informativas: o risco de acidente ao cruzar uma rua sem olhar para ambos os lados muito grande.
Segundo, um agente racional deveria escolher a ao de olhar antes de atravessar a rua, porque
11 de 21

olhar ajuda a maximizar a performance esperada. Fazendo aes para modificar percepes futuras
algumas vezes chamada de obteno de informaes uma importante parte da racionalidade.
Um segundo exemplo de obteno de informaes provido pela explorao que deve ser
responsabilidade do agente aspirador de p em um ambiente inicialmente desconhecido.
Nossa definio de agente racional no somente no sentido de obter informaes, mas
tambm de aprender tanto quanto possvel a partir de suas percepes. O agente pode ter algum
conhecimento prvio do ambiente. Existem casos extremos em que o ambiente totalmente
conhecido a priori, nestes casos, o agente no precisa perceber ou aprender; ele simplesmente age
corretamente. Obviamente, tais agentes so muito frgeis. Ver exemplo do besouro e da vespa na
pgina 37.

A natureza dos ambientes


Especificando o ambiente de tarefas
Em nossas discusses de racionalidade do simples agente aspirador de p, ns tivemos que
especificar a medida de performance, o ambiente, os atuadores e sensores do agente. Iremos agrupar
tudo isso sobre o ttulo de ambiente de tarefas, onde definiremos a sigla PEAS (Performance,
Environment, Actuators, Sensors, na primeira verso do livro era denominado PAGE Percepts,
Actions, Goals, Environment) como descrio do ambiente. Em projeto de agentes, o primeiro
passo sempre especificar o ambiente to completo quanto possvel.
O mundo do aspirador foi um exemplo muito simples; vamos considerar um problema mais
complexo: um motorista automtico de txi. A figura 2.4 resume a descrio PEAS para o ambiente
do txi.
Tipo de
Agente

Medidas de Performance
(Performance Measure)

Ambiente
(Environment)

Atuadores
(Actuators)

Sensores
(Sensors)

Txi
Seguro, rpido, legal, viagem Ruas,
trfego, Direo, acelerador, Cmeras,
sonar,
automatizado confortvel,
maximizar pedestre, clientes
frio, setas, buzina, velocmetro,
GPS,
lucros
painel
odmetro, medidor de
acelerao, sensores
no motor, teclado

Figura 2.4

PEAS para o ambiente de tarefa de um txi automatizado

Primeiro, qual a medida de performance que gostaramos que nosso txi aspire?
Qualidades desejveis incluem pegar o destino correto; minimizar consumo de combustvel e
desgaste; minimizar tempo de viagem e/ou custo; minimizar violaes de leis de trnsito e
perturbaes a outros motoristas; maximizar a segurana e conforto do passageiro; maximizar os
lucros. Obviamente, alguns desses objetivos conflitam, logo, existiro trocas envolvidas.
Em seguida, qual o ambiente que o txi ir encarar? Qualquer motorista de txi deve tratar
com uma variedade de ruas, desde vielas rurais e becos urbanos a auto-estradas. As ruas contm
outros trfegos, pedestres, animais debandados, ruas em obras, carros de polcia, poas e buracos. O
txi deve tambm interagir com potenciais e atuais passageiros. Existem tambm algumas escolhas
opcionais. O txi pode precisar operar na Califrnia do Sul, onde neve um problema rarssimo, ou
no Alasca, onde constantemente . Ele pode sempre dirigir pela direita, mas pode ser flexvel para
dirigir pela esquerda quando estiver no Japo ou Gr-Bretanha. Obviamente, quanto mais restrito o
ambiente, mais fcil de projetar uma soluo.
Os atuadores disponveis em um txi automatizado sero quase os mesmos dos disponveis
para um motorista humano: controle sobre o motor atravs do acelerador e controle sobre a direo
e frenagem. Adicionalmente, ele necessitar de uma sada para uma tela ou sintetizador de voz para
falar com os passageiros, e talvez alguma forma de se comunicar com outros veculos,
12 de 21

educadamente.
Para alcanar seus objetivos no ambiente, o txi necessitar conhecer onde ele est, o que
mais h na rua, e a velocidade que ele est indo. Seus sensores bsicos podem ento incluir uma ou
mais cmeras de TV controlveis, um velocmetro e um odmetro. Ele pode ter um GPS para dar
informaes precisas de seu posicionamento e sensores de infra-vermelho ou sonares para detectar a
distncia de outros carros ou obstculos. Finalmente, ele precisa de um microfone ou teclado para
os passageiros requisitarem um destino.
Na figura 2.5 temos um esboo dos elementos PEAS bsicos para diversos outros tipos de
agentes. De fato, o que importa a complexidade do relacionamento entre o comportamento do
agente, a sequncia de percepes geradas pelo ambiente e a medida de performance. Alguns
ambientes reais so muito simples. Por exemplo, um rob projetado para inspecionar peas vindas
por uma esteira rolante pode fazer algumas suposies simples: que as nicas coisas vindas pela
esteira so peas que ele conhece e que existem apenas duas aes (aceitar ou rejeitar).
Tipo de
Agente

Medidas de Performance
(Performance Measure)

Ambiente
(Environment)

Atuadores
(Actuators)

Sensores
(Sensors)

Sistema de
diagnstico
mdico

Sade
do
paciente, Paciente,
hospital, Mostrar
questes, Entrada dos sintomas
minimizar custos, causas
equipe mdica
testes, diagnsticos, por teclado, respostas do
tratamentos,
paciente, pesquisa
orientao

Sistema de
anlise de
imagem de
satlite

Categorizao correta da Downlink a partir do Mostrar


Arrays
imagem
satlite em rbita
categorizao da cena cores

Rob coletor
de partes

Percentual de partes na Esteira rolante com Brao


caixa correta
partes; caixas
mo

Controlador de Maximizar
pureza, Refinaria, operadores
refinaria
produo, segurana

articulado

de

pixels

de

e Cmera, sensores
ngulo articulado

de

Vlvulas, bombas de Temperatura, presso,


gua,
aquecedores, sensores qumicos
telas

Tutor de ingls Maximizar a pontuao de Conjunto


de Mostrar exerccios, Entrada pelo teclado
interativo
estudantes em testes
estudantes, agncia de sugestes, correes
testes

Figura 2.5

Exemplos de tipos de agentes e suas descries PEAS

Em contraste, alguns agentes de software (softwares robs ou sofbots) existem em


domnios ricos e ilimitados. Imagine um softbot projetado para voar em um simulador de voo. O
simulador muito detalhado, o ambiente complexo inclui outros avies e operaes em terra, e o
agente de software deve escolher uma ao, a partir de uma ampla variedade de aes, em tempo
real. Ou imagine um sofbot projetado para scanear fontes de notcias na internet e mostrar itens de
interesse para seus clientes. Para fazer isso bem, ele necessitar de habilidades de processamento de
linguagem natural, aprender os interesses de cada cliente e mudar os planos dinamicamente por
exemplo, quando a conexo para um fonte de notcias cai ou quando outra se torna online.

Propriedades dos ambientes de tarefa


A faixa de ambientes que podem surgir em IA obviamente vasta. Ns podemos, todavia,
identificar um suficiente pequeno nmero de dimenses em que o ambiente pode ser categorizado.

Totalmente observvel x parcialmente observvel (acessvel x inacessvel): se o sensor

13 de 21

do agente tem acesso completo ao estado do ambiente o tempo todo, conseguindo


observar todos os aspectos relevantes para escolher uma ao a executar, assim, o ambiente
completamente observvel, sendo que relevncia depende das medidas de performance.
Um ambiente pode ser parcialmente observvel devido a rudo ou sensores no acurados ou
parte do estado do ambiente que estejam faltando - por exemplo, o agente aspirador de p
com apenas um sensor de sujeira local no pode dizer se h sujeira em outros quadrados, e
um txi automatizado no pode saber o que outros motoristas esto pensando.
Determinstico x estocstico (determinstico x no determinstico): Se o prximo estado
do ambiente completamente determinado pelo estado atual e aes executadas pelo
agente, ento podemos dizer que o ambiente determinstico, ou seja, previsvel;
seno, estocstico. Em princpio, um agente no precisa se preocupar sobre incertezas em
um ambiente determinstico e completamente observvel. Se o ambiente parcialmente
observvel, todavia, ele pode parecer ser estocstico. Motorista de txi claramente
estocstico, porque ele no pode predizer o comportamento do trfego, alm do mais, um
pneu pode estourar. O mundo do aspirador de p, como descrevemos, determinstico, mas
variaes podem incluir elementos estocsticos como aparecimento randmico de sujeira e
um mecanismo de suco no confivel. Se o ambiente determinstico, exceto pelas aes
de outros agentes, dizemos que o ambiente estratgico.
Episdico x sequencial (episdico x no episdico): em um ambiente episdico, a
experincia do agente dividida em episdios atmicos. Cada episdio consiste da
percepo do agente e realizao de uma nica ao. Crucialmente, o prximo episdio
no depende de aes realizadas em episdios anteriores. Em um ambiente episdico, a
escolha de uma ao depende somente do prprio episdio. Um agente para apontar peas
defeituosas em uma linha de montagem baseia cada deciso somente na pea atual, sem se
preocupar com decises anteriores, e a deciso atual no afeta decises futuras. Em
ambientes sequenciais, a deciso atual pode afetar todas as decises futuras. Xadrez e
um motorista de txi so sequenciais: em ambos os casos, aes de curto prazo podem ter
consequncias de longo prazo. Ambientes episdicos so mais simples porque o agente
no tem que pensar a frente, ou seja, no tem que pensar nas consequncias futuras de
suas aes, apenas nas consequncias da ao atual.
Esttico x dinmico: Se o ambiente pode mudar enquanto o agente est deliberando,
podemos dizer que ele dinmico, seno, esttico. Ambientes estticos so mais fceis
de lidar pois o agente no precisa ficar observando o mundo enquanto est decidindo uma
ao a executar, nem precisa se preocupar com a passagem do tempo. Ambientes dinmicos,
por outro lado, esto continuamente perguntando ao agente o que ele quer fazer; se ele no
decidiu ainda, isto conta como se tivesse decidido por fazer nada. Se o ambiente no muda
com a passagem do tempo mas a performance do agente sim, ento dizemos que ele
semi-dinmico. Dirigir um txi claramente dinmico. Xadrez, quando jogado com um
relgio, semi-dinmico. Jogos de palavras cruzadas so estticos.
Discreto x continuo: Um ambiente discreto, como o jogo de xadrez, tem um conjunto
finito de estados, alm de um discreto(finito) conjunto de percepes e aes. Dirigir um
txi um problema de estados, aes e tempo contnuos.
Agente nico x multi agente: Um jogo de palavras cruzadas claramente de apenas
um agente, j o xadrez um ambiente de 2 agentes. Xadrez um ambiente multi
agente competitivo. No ambiente do txi, evitar colises maximiza a performance de
todos os agentes, logo ele um ambiente multi agente parcialmente cooperativo, alm
de parcialmente competitivo, por exemplo, competindo por vagas de estacionamento e
passageiros.
Como podemos esperar, o mais difcil caso parcialmente observvel, estocstico,

14 de 21

sequencial, dinmico, contnuo e multi agente.


A figura 2.6 lista algumas propriedades de diversos ambientes. Algumas podem variar de
acordo com a forma que o ambiente foi definido e a especificidade com a qual deseja-se
implementar a soluo. Por exemplo, muitos ambientes so episdicos em um nvel mais alto do
que as aes individuais do agente, como em um torneio de xadrez, que consiste de uma sequncia
de jogos, onde cada jogo um episdio, assim, a contribuio de um movimento em um jogo para a
performance geral do agente no afetada pelos movimentos no jogo anterior. Por outro lado,
decises feitas em um nico jogo so certamente sequenciais.
Ambiente

Observvel

Determinstico

Episdico

Esttico

Discreto

Agentes

Palavras cruzadas

Totalmente

Determinstico

Sequencial

Esttico

Discreto

Single

Xadrez com relgio

Totalmente

Estratgico

Sequencial

Semi-Dinmico

Discreto

Multi

Dirigir txi

Parcialmente

Estocstico

Sequencial

Dinmico

Contnuo

Multi

Diagnstico mdico

Parcialmente

Estocstico

Sequencial

Dinmico

Contnuo

Single

Anlise de imagens

Totalmente

Determinstico

Episdico

Semi-Dinmico Contnuo

Single

Rob coletor de partes

Parcialmente

Estocstico

Episdico

Dinmico

Contnuo

Single

Controlador de Refinaria

Parcialmente

Estocstico

Sequencial

Dinmico

Contnuo

Single

Tutor de ingls interativo

Parcialmente

Estocstico

Sequencial

Dinmico

Discreto

Multi

Figura 2.6

Exemplos de ambientes e suas caractersticas

A estrutura de agentes
O trabalho da IA projetar o programa do agente que implementa a funo de agente
mapeando percepes para aes. Ns assumimos que este programa rodar em algum tipo de
dispositivo computacional com sensores fsicos e atuadores, o que chamamos de arquitetura:
agente = arquitetura + programa.
Obviamente, o programa que escolhemos deve ser apropriado para a arquitetura, que pode
ser um PC comum ou um carro rob com muitas cpu's, cmeras e outros sensores. Em geral, a
arquitetura faz as percepes para o programa a partir dos sensores, roda o programa e alimenta as
escolhas de aes do mesmo para os atuadores.

Programas de agente
O programa do agente que projetaremos ter o mesmo skeleton: ele pega as percepes
atuais como entradas a partir de sensores e retorna uma ao para os atuadores. Note a diferena
entre o programa do agente, que toma a percepo atual como entrada, e a funo de agente, que
toma todo o histrico de percepes. O programa do agente toma apenas a percepo atual como
entrada pois nada mais disponibilizado pelo ambiente; se as aes do agente dependem de toda a
sequncia de percepes, ele deve armazenar as percepes.
Por exemplo, a figura 2.7 mostra um programa de agente realmente trivial, que fica de olho
na sequncia de percepes e ento as usa para indexar uma tabela de aes para decidir o que
fazer. A tabela representa explicitamente a funo de agente que o programa do agente incorpora.
Para construir um agente racional desta forma, precisamos construir uma tabela que contenha as
aes apropriadas para cada sequncia de percepes possvel.

15 de 21

instrutivo considerar porque uma proposta baseada em tabelas para construo de agentes
condenada a falhar. Considere um txi automtico: a entrada visual a partir de uma nica cmera
vem na faixa de grosseiramente, 27Mbps (30 frames/s, 640x480 pixels com 24 bits de informao
de cor). Isto d uma tabela com cerca de 10 250.000.000.000 entradas para uma hora de direo. At uma
tabela para xadrez poderia ter 10150 entradas. O nmero de tomos em um universo observvel
menos que 1080.
Apesar disto, um agente dirigido por tabelas faz o que queremos: implementa a funo
desejvel de agente. O desafio chave para IA encontrar como escrever programas que, para uma
extenso possvel, produzam comportamento racional a partir de uma quantidade pequena de
cdigo no lugar de um grande nmero de entradas de tabela.

Os tipos bsicos de programas de agentes, que incorporam os princpios subjacentes de


quase todos os sistemas inteligentes so:

Agentes reflexivos simples: O tipo mais simples de agente, que selecionam aes com base
na percepo atual, ignorando o resto do histrico de percepes. Por exemplo, o agente
aspirador de p, pois suas decises so baseadas somente na localizao atual e se l h
sujeira. Um programa para esse agente mostrado na figura 2.8. Imagine voc dirigindo um
carro. Se a luz de freio do carro da frente acende, voc nota isto e comea a frenar. Em
outras palavras, alguns processamentos so feitos em entradas visuais para estabelecer a
condio que chamamos O carro na frente est parando. Ento, isto dispara alguma
conexo estabelecida no programa do agente para a ao iniciar frenagem. Ns chamamos
tal conexo de regra de condio-ao, escrita como:
if car-in-front-is-braking then initiate-braking.
Humanos tem muitas conexes, algumas das quais so aprendidas (como dirigir) e outras

16 de 21

que so reflexos natos (como piscar). O programa da figura 2.8 especfico para um ambiente
particular. Uma proposta mais genrica e flexvel primeiro construir um interpretador de propsito
geral para regras de condio-ao e ento criar um conjunto de regras para um ambiente
especfico. A figura 2.9 d a estrutura desse programa geral em uma forma esquemtica, mostrando
como as regras de condio-ao permitem ao agente fazer conexes de percepes para aes. O
programa do agente mostrado na figura 2.10.

Agentes reflexivos baseados em modelos: A forma mais efetiva de gerenciar ambientes


parcialmente observveis manter estados internos que depende do histrico de percepes,
e com isso, tem-se informaes de estado da rea parcialmente observvel do ambiente.
Atualizar esta informao com o tempo requer que dois tipos de conhecimento sejam
codificados no programa do agente. Primeiro, precisamos de informaes de como o mundo
evolui, independentemente do agente. Segundo, precisamos de algumas informaes sobre
como as aes do agente afetam o mundo. Este conhecimento do mundo chamado de
modelo do mundo. Um agente que usa tal modelo chamado de agente baseado em modelo.
A figura 2.11 d a estrutura de um agente reflexivo com estado interno, mostrando como a
percepo atual combinado com um estado interno antigo para gerar a descrio atualizada
do estado atual. O programa do agente mostrado na figura 2.12.

17 de 21

Agentes baseados em objetivo: Conhecer o estado atual do ambiente no sempre


suficiente para decidir o que fazer. Por exemplo, em uma juno de ruas, o txi pode virar
esquerda, direita ou ir em frente. A deciso correta depende de onde ele est tentando
chegar, ou seja, alm da descrio do estado atual, o agente precisa de algum tipo de
informao de objetivo que descreva situaes que so desejveis por exemplo, o destino
do passageiro. O agente pode combinar isso com o resultado de possveis aes para poder
escolher aes que alcancem seus objetivos. A figura 2.13 mostra a estrutura deste tipo de
agente.

Note que tomar decises desse tipo fundamentalmente diferente das regras de
condio-ao descritas anteriormente, pois envolvem consideraes sobre o futuro como
O que acontecer se eu fizer isto e isto? e Isto me far feliz?. No projeto de agentes
reflexivos, esta informao no explicitamente representada, porque as regras embutidas
18 de 21

mapeiam diretamente percepes para aes.


Embora um agente baseado em objetivo parea menos eficiente, ele mais flexvel
pois o conhecimento que suporta suas decises representado explicitamente e pode ser
modificado. Se comear a chover, o agente pode atualizar seu conhecimento de como
efetivamente seu freio ir operar; isto automaticamente far com que todos os
comportamentos relevantes sejam alterados para se adequarem s novas condies. Para um
agente reflexivo, por outro lado, ns podemos ter que reescrever muitas regras de condioao. O comportamento do agente baseado em objetivo pode facilmente ser alterado para ir
a um local diferente. As regras do agente reflexivo para quando virar e quando ir em frente
funcionam somente para um nico destino; elas devem ser todas substitudas para ir a
qualquer lugar novo.

Agentes baseados em utilidade (no sentido de ser til): Objetivos sozinhos no so


realmente suficientes para gerar comportamento de alta qualidade na maioria dos ambientes.
Por exemplo, existem muitas sequncias de aes que levariam o txi ao seu destino (desta
forma, alcanando seu objetivo) mas algumas so mais rpidas, seguras e confiveis, ou
mais baratas que outras. Objetivos apenas proveem uma distino binria crua entre os
estados feliz e infeliz, enquanto uma medida de performance mais geral pode permitir
uma comparao de diferentes estados do mundo de acordo com exatamente quo feliz eles
podem fazer o agente e se eles podem ser alcanados. Devido feliz no soar muito
cientfico, uma terminologia costumeira dizer que um estado prefervel do que outro,
ento ele tem maior utilidade para o agente. A figura 2.14 mostra a estrutura deste tipo de
agente.
A funo de utilidade mapeia estados (ou uma sequncia de estados) em nmeros
reais, que descrevem o associado grau de felicidade. Uma completa especificao da funo
de utilidade permite decises racionais de dois tipos de casos onde os objetivos so
inadequados. Primeiro, quando existem objetivos conflitantes, somente um dos quais pode
ser alcanado (por exemplo, velocidade e segurana), a funo de utilidade especifica a
troca apropriada. Segundo, quando existem muitos objetivos que o agente pode mirar, e
nenhum dos quais pode ser alcanado com certeza, a utilidade prov uma forma em que a
probabilidade de sucesso pode ser ponderada contra a importncia dos objetivos. Um agente
que possui uma explcita funo de utilidade pode tomar decises racionais.

19 de 21

Aprendizado de agentes
Em um famoso paper anterior, Turing (1950) considerou a idia de programar sua mquina
inteligente mo. O mtodo que ele props para construir mquinas de aprendizagem e ento
ensin-las. Em muitas reas de IA, isto atualmente o mtodo preferido para criao de sistemas no
estado da arte. Aprendizado tem outra vantagem: permite ao agente operar em um ambiente
inicialmente desconhecido e se tornar mais competente que seu conhecimento inicial sozinho
poderia permitir.
Um aprendizado de agente pode ser dividido em quatro componentes conceituais, como
mostra a figura 2.15. A mais importante distino entre o elemento de aprendizagem, que
responsvel por fazer melhorias, e o elemento de performance, que responsvel por selecionar
aes externas. O elemento de performance o que ns temos previamente considerado ser o agente
inteiro: ele toma as percepes e decide em aes. O elemento de aprendizagem usa feedbacks a
partir da crtica de como o agente est agindo e determina como o elemento de performance deve
ser modificado para operar melhor no futuro.

O projeto do elemento de aprendizagem depende muito do projeto do elemento de


performance. Quando tentamos projetar um agente que aprende uma certa capacidade, a primeira
questo no Como vou coloc-lo para aprender isto? mas Que tipo de elemento de
performance meu agente necessitar para fazer isto uma vez e aprender como fazer?. Dado um
projeto de agente, mecanismos de aprendizagem podem ser construdos para melhorar cada parte do
agente.
O elemento crtica diz ao elemento de aprendizagem quo bem o agente est operando
com respeito a um padro de performance fixo. A crtica necessria porque as percepes por elas
mesmas no proveem indicao do sucesso do agente.
O ltimo componente do aprendizado do agente o gerador de problemas. Ele
responsvel por sugerir aes que iro guiar para novas e informativas experincias. O ponto que,
se o elemento de performance tem sua forma, ele pode continuar fazendo as aes que so
melhores, dado o que ele conhece. Mas se o agente est desejando explorar um pouco, e fazer talvez
algumas aes opcionais num curto prazo, ele pode descobrir muito melhores aes a longo prazo.
O trabalho do gerador de problemas sugerir estas aes exploratrias.
20 de 21

Para tornar todo o projeto mais concreto, vamos retornar ao exemplo do txi automatizado.
O elemento de performance consiste de ignorar colees de conhecimento e procedimentos que o
txi tem para selecionar suas aes de direo. O txi vai a rua e dirige, usando seu elemento de
performance. A crtica observa o mundo e passa informaes para o elemento de aprendizagem. Por
exemplo, depois que o txi faz uma virada rpida esquerda entre trs ruas de grande trfego, a
crtica observa a linguagem chocante dos outros motoristas. A partir desta experincia, o elemento
de aprendizagem capaz de formular uma regra dizendo que aquilo foi uma ao ruim, e o
elemento de performance modificado instalando a nova regra. O gerador de problemas pode
identificar certas reas de comportamento necessitando de melhoria e sugerir experimentos, tal
como tentar parar em ruas de diferentes superfcies, sobre diferentes condies de tempo.
O elemento de aprendizagem pode fazer mudanas para qualquer componente de
conhecimento mostrado no diagrama do agente (figuras 2.9, 2.11, 2.13 e 2.14). O caso mais
simples envolve aprender diretamente a partir de sequncias de percepes. Observaes de pares
de sucessivos estados do ambiente podem permitir que o agente aprenda como o mundo evolui e
observaes dos resultados de suas aes podem permitir ao agente aprender o que minhas aes
fazem. Por exemplo, se um txi exerce uma certa presso de frenagem enquanto dirigindo em uma
rua molhada, ento ele ir em breve encontrar quanto de desacelerao ele ir alcanar.

Resumo

Um agente alguma coisa que percebe e age no ambiente. A funo de agente para um
agente especifica a ao tomada por um agente em resposta a qualquer sequncia de
percepes.

A medida de performance avalia o comportamento do agente no ambiente. Um agente


racional age para maximizar o valor esperado da medida de performance, dada a sequncia
de percepes que ele v.

Uma especificao de ambiente inclui uma medida de performance, o ambiente externo, os


atuadores e os sensores. Projetando um agente, o primeiro passo deve sempre ser especificar
o ambiente to completamente quanto possvel.

Ambientes variam ao longo de vrias dimenses significantes. Eles podem ser


completamente ou parcialmente observveis, determinsticos ou estocsticos, episdicos ou
sequenciais, estticos ou dinmicos, discretos ou contnuos e de nico agente ou multi
agente.

O programa do agente implementa a funo do agente.

Agentes reflexivos simples respondem diretamente a percepes, enquanto um agente


reflexivo baseado em modelo mantem um estado interno para rastrear aspectos do mundo
que no so evidentes na percepo atual. Agentes baseados em objetivo agem para
alcanar seus objetivos, e agentes baseados em utilidade tentam maximizar suas prprias
expectativas de felicidade.

Todos os agentes podem melhorar suas performance atravs de aprendizado.

21 de 21

Você também pode gostar