Você está na página 1de 21

Resumo Artificial Intelligence A Modern Approach, Russel and Norvig Captulos 1 e 2 Disciplina de Sistemas Multi-agentes

Manoel Campos da Silva Filho

O que IA?
Definies de inteligncia artificial so mostradas na figura 1.1, de acordo com oito livros texto. Estas definies variam ao longo de duas principais dimenses. Grosseiramente, as no topo so preocupadas com processos de pensamento e raciocnio, enquanto as de baixo endeream a comportamento. As definies esquerda medem sucesso em termos de fidelidade para a performance humana, enquanto as da direita medem contra um conceito ideal de inteligncia, que chamaremos de racionalidade. Um sistema racional se ele faz a coisa certa, dado o que ele sabe. Sistemas que pensam como humanos Sistemas que pensam racionalmente O excitante novo esforo para fazer O estudo de faculdades mentais por meio do computadores pensarem mquinas com uso de modelos computacionais. (Charniak e mentes, no sentido literal e completo. McDermott, 1985) (Haugeland, 1985) [A automao de] atividades que ns O estudo de computaes que fazem possvel associamos com pensamento humano, atividades perceber, raciocinar e agir. (Winston, 1992) tais como tomada de deciso, resoluo de problemas, aprendizagem... (Bellman, 1978) Sistemas que agem como humanos Sistemas que agem racionalmente A arte de criar mquinas que realizam funes Inteligncia Computacional o estudo do que requerem inteligncia quando realizadas por projeto de agentes inteligentes. (Poole et al., pessoas. (Kurzweil, 1990) 1998) O estudo de como fazer computadores IA ... preocupada comportamento inteligente realizarem coisas em que, no momento, pessoas em artefatos. (Nilssom, 1998) so melhores. (Rick e Knight, 1991) Figura 1.1 - Algumas definies de inteligncia artificial, organizadas em quatro categorias Historicamente todas as quatro propostas tm sido seguidas. Como algum pode esperar, uma tenso existe entre propostas centradas ao redor de humanos e propostas centradas ao redor de racionalidade (no estamos dizendo que humanos so irracionais no sentido de emocionalmente instveis ou insanos, apenas que no somos perfeitos). Uma proposta centrada em humanos deve ser uma cincia emprica, envolvendo hipteses e confirmaes experimentais. Uma proposta racionalista envolve uma combinao de matemtica e engenharia.

1 de 21

Agir humanamente: A proposta do Teste de Turing


O Teste de Turing, proposto por Alan Turing (1950), foi projetado para prover uma definio satisfatria de inteligncia. Um computador passa no teste se um humano interrogador, depois de colocar algumas questes escritas, no puder dizer se as respostas escritas so de uma pessoa ou no. Um computador, para passar no teste, precisa ter as seguintes capacidades: representao de conhecimento para armazenar o que ele sabe ou ouve; raciocnio automatizado para usar a informao armazenada para responder questes e para tirar novas concluses; aprendizado de mquina para se adaptar novas circunstncias e para detectar e extrapolar padres. viso computacional para perceber objetos, e robtica para manipular objetos.

O chamado Teste Total de Turing requer do computador outras capacidades como:

Pensar humanamente: A proposta de modelagem cognitiva


Se formos dizer que um programa pensa como um humano, precisamos de alguma forma de determinar como humanos pensam. Precisamos estar por dentro do funcionamento da mente humana. Existem duas formas de fazer isto: atravs de introspeco tentando pegar nossos prprios pensamentos a medida que eles surgem e atravs de experimentos psicolgicos. Uma vez que temos uma teoria precisa o suficiente sobre a mente, se torna possvel expressar essa teoria como um programa de computador. Se as entradas e sadas do programa e o tempo dos comportamentos correspondem com comportamentos humanos, evidente que alguns mecanismos de programas podem tambm estar operando em humanos. Por exemplo, Allen Newell e Herbert Simon, que desenvolveram o GPS, o General Problem Solver (1961) no estavam contentes que seu programa resolvesse problemas corretamente, eles queriam comparar os passos do seu raciocnio com os de como um humano resolve o mesmo problema.

Pensar racionalmente: A proposta das leis do pensamento


O filsofo grego Aristteles foi um dos primeiros a tentar codificar o pensamento correto, que , irrefutavelmente, o processo de raciocnio. Seu silogismo prov padres para estruturas de argumentos que sempre produzem concluses corretas quando dadas corretas premissas por exemplo, Scrates um homem; todos os homens so mortais; logo, Scrates mortal. Estas leis de pensamento eram supostas por governar a operao da mente; seu estudo iniciou o campo chamado lgica.

Agir racionalmente: A proposta de agente racional


Um agente apenas algo que age (agente vem do latim agere, fazer). Mas agentes de computador so esperados por terem outros atributos que distinguem eles de meros programas, tal como operando sobre controle autnomo, percebendo seu ambiente, persistindo sobre um prologando perodo de tempo, se adaptando mudanas e sendo capaz de pensar em outros 2 de 21

objetivos. Um agente racional um que age de forma a alcanar o melhor resultado ou, quando em incerteza, o melhor resultado esperado. Na proposta das leis do pensamento a enfase foi em inferncias corretas. Fazendo corretas inferncias algumas vezes parte de ser um agente racional, devido uma forma de agir racionalmente raciocinar logicamente para a concluso que uma dada ao ir alcanar um objetivo e ento agir na concluso. Por outro lado, inferncias corretas no so tudo de racionalidade, devido existirem frequentemente aes onde no h uma coisa provavelmente correta a fazer, mas alguma coisa deve ser feita. Existem tambm formas de agir racionalmente que no podem envolver inferncia. Por exemplo, se afastar de um forno quente uma ao de reflexo que tem normalmente mais sucesso que uma ao mais lenta tomada depois de cuidadosa deliberao.

As Fundaes da Inteligncia Artificial


A IA se fundamente em diversas reas do conhecimento, como mostrado a seguir.

Neurocincia
Chips de computador podem executar instrues em nanosegundos, enquanto neurnios so milhes de vezes mais lentos. A lei de Moore diz que o nmero de transistores por polegada quadrada dobra a cada 1 ou 1,5 ano. A capacidade do crebro humano dobra grosseiramente a cada 2 a 4 milhes de anos.

Filosofia
Kenneth Craik especificou os trs passos chaves de um agente baseado em conhecimento (DEFINIR AGENTE BASEADO EM CONHECIMENTO): 1) o estmulo deve ser traduzido em representaes internas, 2) a representao manipulada pelo processo cognitivo (DEFINIR COGNITIVO) para derivar novas representaes internas, e 3) estes so por sua vez, retraduzidos de volta em ao. Ele claramente explicou por que isso era um bom projeto para um agente: Se o organismo transporta um modelo de pequena escala de realidade externa e de suas prprias possveis aes dentro de sua cabea, ele capaz de tentar vrias alternativas, concluir qual a melhor delas, reagir a situaes futuras antes que elas surjam, utilizar o conhecimento de eventos passados tratando com o presente e o futuro, e em cada forma de reagir de uma muito mais completa, segura e mais competente maneira emergncias com as quais ele encara.

Engenharia de Computao
O primeiro computador eletrnico, o ABC, foi montado por John Atanasoff e seu estudante Clifford Berry entre 1940 e 1942 na universidade estadual de Iowa. Sua pesquisa recebeu pouco suporte e reconhecimento; foi o ENIAC, desenvolvido como parte de um projeto militar secreto na universidade de Pennsylvania pelo time incluindo John Mauchly e John Eckert, que provou ser o mais influente precursor dos computadores modernos. Na metade do sculo, desde ento, cada gerao de hardware de computador tem trazido um aumento na velocidade e capacidade e reduzido no preo. Performance dobra a cada 18 meses ou mais, com uma dcada ou duas nesta taxa de crescimento. Depois disto, ns precisaremos de engenharia molecular ou alguma outra nova tecnologia. 3 de 21

A mquina analtica de Charles Babbage (1792-1871) foi de longe a mais ambiciosa: ele inclua memria enderevel, programas armazenados e pulos condicionais, e foi a primeira capaz de realizar computao universal. A colega de Babbage, Ada Lovelace, foi talvez a primeira programadora do mundo (a linguagem de programao Ada foi nomeada depois dela). A IA tem pioneirizado muitos trabalhos na rea de cincia da computao, como time sharing, interpretadores interativos, computadores pessoais com janelas e mouse, ambientes de desenvolvimento rpido de aplicaes (Rapid Application Development Tools RAD Tools), tipos de dados de listas encadeadas, gerenciamento automtico de armazenamento e conceitos chaves de programao simblica, funcional, dinmica e orientada a objetos.

Teoria do controle e ciberntica


Lingustica moderna e IA, nasceram ao mesmo tempo, e cresceram juntas, tendo interseco em um campo hbrido chamado lingustica computacional ou processamento de linguagem natural. O problema de se entender linguagem em breve se tornou consideravelmente mais complexo do que parecia ser em 1957. Entender linguagem requer um entendimento do assunto e contexto, no apenas entender da estrutura das sentenas. Isto pode parecer bvio, mas no era amplamente apreciado at a dcada de 1960. Muito dos trabalhos anteriores em representao do conhecimento (o estudo de como colocar o conhecimento em uma forma que o computador possa raciocinar sobre ele) foi ligado a linguagem e informado pesquisas em lingustica, que foi conectado por sua vez, a dcadas de trabalho de anlise filosfica de linguagem.

A histria da Inteligncia Artificial A gestao da inteligncia artificial


O primeiro trabalho que hoje geralmente reconhecido como IA foi feito por Warren McCulloch e Walter Pitts (1943). Eles usaram 3 fontes: conhecimento de filosofia bsica e funo dos neurnios no crebro; uma anlise formal da lgica proposicional devido a Russel e Whitehead; e a teoria da computao de Turing. Eles proporam um modelo de neurnios artificiais em que cada neurnio caracterizado como estando ligado ou desligado, com a mudana para ligado ocorrendo em resposta a estimulao por um suficiente nmero de neurnios vizinhos. O estado do neurnio foi concebido como realmente equivalente a proposio que prope seu adequado estmulo. Eles mostraram, por exemplo, que qualquer funo computvel poderia ser computada pela mesma rede de neurnios conectados, e que todos os conectivos lgicos (and, or, not, etc) poderiam ser implementados por simples estruturas de rede. Eles tambm sugeriram que redes definidas adequadamente tambm poderiam aprender. Dois alunos de graduao no departamento de matemtica de Princeton, Marvin Minsky e Dean Edmonds, construram a primeira rede neural de computador em 1951. O SNARC, como foi chamada, usou 3000 tubos de vcuo para simular uma rede de 40 neurnios. Existiram outros trabalhos anteriores que podem ser caracterizados como IA, mas foi Alan Turing quem primeiro articulou uma viso completa de IA em seu artigo Computao de Mquina e Inteligncia em 1950. L ele introduziu o teste de Turing, aprendizado de mquina, algoritmos genticos e reforo da aprendizagem.

4 de 21

O nascimento da IA (1956)
Princeton foi a casa de outra figura influente em IA, John McCarthy. Depois da graduao foi para o Dartmouth College, que se tornou o local oficial de nascimento da rea de IA.

Entusiamo anterior, grandes expectativas (1952-1969)


Sucessos anteriores de Newell e Herbert Simon foram seguidos do General Problem Solver ou GPS. Diferente da Lgica Teorista, este programa foi projetado no incio para imitar os protocolos humanos de resoluo de problemas. Dentro de uma limitada classe de jogos/quebracabeas que ele podia manipular, ele revelou que a ordem em que o programa considerava sub objetivos e possveis aes era semelhante quela em que o homem abordava os mesmos problemas. Assim, o programa GPS foi provavelmente o primeiro a incorporar a proposta do pensar humanamente. O sucesso do GPS e programas subsequentes como modelos de cognio guiaram Newell e Simon (1976) para formular a famosa hiptese do sistema de smbolos fsicos, que afirma que um sistema de smbolo fsico tem os meios necessrios e suficientes para aes inteligentes gerais. O que eles quiseram dizer que qualquer sistema (homem ou mquina) exibindo inteligncia devem operar pela manipulao de estruturas de dados compostas de smbolos. John McCarthy foi de Dartmouth para o MIT e l fez 3 cruciais contribuies em um ano histrico de 1958: definiu a linguagem de alto nvel chamada Lisp, que se tornou a linguagem dominante para programao de IA. Lisp a segunda mais velha linguagem de alto nvel em uso, um ano mais nova que FORTRAN. Com Lisp, McCarthy tinha a ferramenta que precisava, mas acesso escasso e caro a recursos computacionais era um srio problema. Em resposta, ele e outros no MIT invetaram o time sharing. Tambm em 1958 ele publicou o artigo Programs with Common Sense em que ele descreveu o Advice Taker (Tomador de Conselhos), um programa hipottico que pode ser visto como o primeiro sistema de IA completo. Como a Teoria Lgica e o Provador de Teoremas Geomtricos, o programa de McCarthy foi projetado para usar conhecimento para encontrar solues para problemas. Mas diferente de outros, ele incorporou o conhecimento geral do mundo. Por exemplo, ele mostrou como alguns axiomas (DEFINIR AXIOMAS) simples poderiam permitir a programas gerarem um plano para dirigir at o aeroporto. O programa foi projetado tambm para que possa aceitar novos axiomas durante o curso normal de operao, permitindo que ele alcance competncia em novas reas sem ser reprogramado. O Advice Taker ento incorpora os princpios centrais de representao do conhecimento e raciocnio: que til ter uma representao explcita e formal do mundo, e da forma que as aes dos agentes afetam o mundo e ser capaz de manipular essas representaes com processo dedutivos.

Uma dose de realidade


Desde o incio, pesquisadores de IA no eram tmidos em fazer predies de seus prximos sucessos. Termos como futuro visvel podem ser interpretados de vrias formas mas Simon tambm fez uma predio mais concreta: que em 10 anos um computador poderia ser campeo mundial de xadrez. Uma tpica histria ocorrida no incio dos esforos de traduo de textos por mquina, que foram generosamente financiados pelo Conselho Nacional de Pesquisa dos EUA na tentativa de agilizar a traduo de artigos cientficos em russo, no fraco lanamento do Sputnik (nome do programa de lanamento de satlites artificiais da antiga URSS- Unio das Repblicas Socialistas 5 de 21

Soviticas) em 1957. Foi pensado inicialmente que seriam simples transformaes sintticas baseadas nas gramticas russa e inglesa, e substituio de palavras usando um dicionrio eletrnico, bastaria para preservar o exato significado das sentenas. O fato que a traduo requer conhecimento geral do assunto para resolver ambiguidades e estabelecer o contedo da sentena. O segundo tipo de dificuldade foi a no intratabilidade de problemas que a AI estava tentando resolver. Muitos dos primeiros programas de IA resolveram problemas tentando diferentes combinaes de passos at a soluo ser encontrada. Esta estratgia funcionou inicialmente porque micro mundos continham pouqussimos objetos e portanto, pouqussimas aes possveis e curtssimas sequncias de soluo. Antes da teoria de complexidade computacional ser desenvolvida, era amplamente pensado que resolver problemas maiores era simplesmente uma questo de hardware mais rpido e mais memria.

Sistemas baseados em conhecimento: A chave do poder? (1969-1979)


A figura da resoluo de problemas que surgiu durante a primeira dcada de pesquisa em IA foi de um mecanismo de pesquisa para fins gerais tentando juntar passos elementares de raciocnio para encontrar solues completas. Tais propostas foram chamadas de mtodos fracos, pois, apesar de gerais, elas no funcionam para problemas de maior escala. A alternativa para os mtodos fracos usar conhecimento de domnio especfico mais poderosos que permita maiores passos de raciocnio e possa mais facilmente manusear tipicamente casos de ocorrncia em estreitas reas de expertise. Algum pode dizer que para resolver um problema difcil, voc precisa quase j conhecer a resposta. O programa DENDRAL foi um exemplo inicial desta proposta, que objetivava resolver o problema de inferncia de estruturas moleculares a partir de informaes providas por um espectrmetro de massa. Ele foi significante pois foi o primeiro sistema de conhecimento intenso de sucesso: sua expertise derivava de um amplo nmero de regras de propsito especial. Sistemas posteriores tambm incorporaram o principal tema da proposta do programa Advice Taker de McCarthy a clara separao do conhecimento (na forma de regras) do componente de raciocnio. Com esta lio em mente, Feigenbaum e outros em Stanford iniciaram o Heuristic Programming Project (HPP), para investigar a onde a nova metodologia de sistemas especialistas poderia ser aplicada para outras reas do conhecimento humano. O prximo maior esforo foi na rea de diagnsticos mdicos. Feigenbaum, Buchanan e o Dr Edward Shortliffe desenvolveram o MYCIN para diagnsticos de infeces sanguneas. Com cerca de 450 regras, o MYCIN era capaz de trabalhar to bem como um especialista, e consideravelmente melhor que um mdico estagirio. Ele tambm continha duas maiores diferenas do DENDRAL. Primeiro, diferente das regras do DENDRAL, no existia nenhum modelo terico geral a partir do qual as regras do MYCIN poderiam ser deduzidas. Elas tinham que ser adquiridas em extensas entrevistas com especialistas, que por sua vez adquiriam em livros, outros especialistas e experincia vividas. Segundo, as regras tinham que refletir as incertezas associadas com o conhecimento mdico. O MYCIN incorporou um clculo de incertezas chamado fatores de certeza, que pareciam (na poca) se adequar bem na forma como os mdicos avaliavam o impacto de evidncias no diagnstico. A importncia do domnio do conhecimento foi tambm evidente na rea da compreenso de linguagem natural. O crescimento generalizado de aplicaes para problemas do mundo real causaram um aumento paralelo na demanda de exequveis esquemas de representao do conhecimento. Um amplo nmero de diferentes representaes e linguagens de raciocnio foram desenvolvidas. Algumas foram baseadas na lgica - por exemplo, a linguagem Prolog se tornou popular na Europa.

6 de 21

IA se torna um padro de indstria (1980 at o presente)


Em toda parte, a indstria de IA estourou, de poucos milhes de dlares em 1980 para bilhes de dlares em 1988. Logo depois veio o perodo chamado Inverno da IA, em que muitas companhia sofreram por terem feito promessas extravagantes. Embora a cincia da computao tenha amplamente abandonado o campo de redes neurais no final da dcada de 1970, o trabalho continuou em outros campos. Fsicos como John Hopfield (1982) usou tcnicas de mquinas estatsticas para analisar o armazenamento e propriedades de otimizao de redes neurais, tratando colees de ns como colees de tomos. Psiclogos incluindo David Rumelhart e Geoff Hinton continuaram o estudo de modelos de memria de redes neurais. O real impulso veio em meados da dcada de 1980 quando pelo menos quatro diferentes grupos reinventaram o algoritmo de aprendizagem back-propagation (retro propagao) primeiro encontrado em 1969 por Bryson e Ho. O algoritmo foi aplicado para muitos problemas de aprendizado em cincia da computao e psicologia, e a generalizada disseminao dos resultados na coleo Parallel Distributed Processing (Rumelhart e McClelland, 1986) causou grande excitao.

AI se tornou uma cincia (1987 at o presente)


Usando metodologias melhoradas e frameworks tericos, o campo chegou no entendimento de que redes neurais podem atualmente ser comparadas com correspondentes tcnicas da estatstica, reconhecimento de padres, aprendizado de mquina e a mais promissora tcnica pode ser aplicada para cada aplicao. Como resultado destes desenvolvimento, a ento chamada tecnologia de data mining tem dado novos vigorosos padres de indstria. O formalismo das redes Bayesianas foi inventado para permitir representao eficiente de um rigoroso raciocnio com conhecimento incerto. Esta proposta amplamente resultou muitos problemas de sistemas de raciocnio probabilstico de 1960 e 1970; ela agora domina as pesquisa de IA em raciocnio incerto e sistemas especialistas.

Resumo
Diferentes pessoas pensam sobre IA diferentemente. Duas importantes questes para perguntar so: Voc est preocupado com o conhecimento ou com o comportamento? Voc quer modelar humanos ou trabalhar a partir de um padro ideal? Neste livro, adotamos a viso de que inteligncia se preocupa principalmente com ao racional. Idealmente, um agente inteligente executa a melhor ao possvel em uma situao. Ns estudaremos o problema de construo de agentes que so inteligentes neste sentido. Filsofos (anteriores a 400 a.C.) conceberam IA considerando as idias que a mente de alguma forma como uma mquina, que ela opera sobre conhecimento codificado em alguma linguagem interna, e que o pensamento pode ser usado para escolher quais aes executar. Matemticos proveram ferramentas para manipular declaraes de certezas lgicas bem como incertezas e declaraes probabilsticas. Eles tambm configuraram a base para compreender computao e raciocnio sobre algoritmos. Economistas formalizaram o problema de tomar decises que maximizem os resultados esperados pelo administrador (decision-marker).

7 de 21

Psiclogos adotaram a idia de que humanos e animais podem ser considerados mquinas de processamento de informaes. Linguistas mostraram qual uso de linguagem adequado neste modelo. Engenheiros de computao proveram os artefatos que fazem as aplicaes de IA possveis. Programas de IA tendem a ser grandes, e eles podem no funcionar sem um grande avano na velocidade e memria que a indstria de computadores tem provido. Teoria do controle trata com projeto de dispositivos que agem opcionalmente na base de feedbacks do ambiente. Inicialmente, as ferramentas matemticas de teoria do controle eram muito diferentes da IA, mas os campos esto ficando mais prximos. A histria da IA tem ciclos de sucesso, otimismos mal colocados, resultando cortes no entusiamo e financiamento. Houveram tambm ciclos de introduo de novas propostas criativas e sistemtico refinamento das melhores. IA tem avanado mais rapidamente na dcada passada devido ao grande uso de mtodos cientficos em experimentos e propostas de comparao. Progresso recente no entendimento da base terica de inteligncia tem sido disseminado, com melhorias nas capacidades reais do sistema. As sub-reas da IA tem se tornado mais integradas, e a AI tem encontrado base comum com outras disciplinas.

2. Agentes Inteligentes
Agentes e Ambientes
Um agente qualquer coisa que pode perceber seu ambiente atravs de sensores e e agir nesse ambiente por meio de atuadores. Esta simples idia ilustrada na figura 2.1. Um agente humano tem olhos, orelhas e outros rgos como sensores, e mos, pernas, boca e outras partes do corpo como atuadores. Um agente rob pode ter cmeras e localizadores infravermelho como sensores, e vrios motores como atuadores. Um agente de software recebe entradas do teclado, contedo de arquivos e pacotes de rede como sensores de entrada e age no ambiente mostrando resultados na tela, gravando em arquivos e enviando pacotes pela rede.

8 de 21

Em geral, a ao de escolha de um agente a qualquer instante pode depender de todo o histrico de percepes at o momento atual. Matematicamente falando, ns dizemos que um comportamento de agente descrito por uma funo de agente que mapeia qualquer dada sequncia de percepes para uma ao. Podemos imaginar tabular a funo de agente que descreve qualquer agente; para a maioria dos agentes, esta poderia ser uma tabela muito grande, at infinita, de fato, ao menos que coloquemos uma fronteira no tamanho das sequncias de percepes que queremos considerar. Dado um agente como experimento, podemos, em princpio, construir sua tabela tentando todas as possveis sequncias de percepes e gravando cada ao que o agente faz em resposta. A tabela , obviamente, uma caracterizao externa do agente. Internamente, a funo de agente para um agente artificial ser implementada por um programa de agente. importante distinguir essas duas idias. A funo de agente uma descrio matemtica abstrata; o programa do agente uma implementao concreta, rodando na arquitetura do agente.

Para ilustrar essas idias, usaremos um exemplo simples do mundo do aspirador de p, mostrado na figura 2.2, que bem simples e podemos descrever tudo que acontece nele. Ele tem apenas dois locais, quadrado A e quadrado B. O agente aspirador de p percebe em que quadrado ele est e se h sujeira l. Ele pode se mover para direita ou esquerda, aspirar a sujeira ou no fazer nada. Uma muito simples funo de agente : se o quadrado atual est sujo, aspire a sujeira, seno, 9 de 21

v para o outro quadrado. Uma tabulao parcial desta funo de agente mostrada na figura 2.3. Um simples programa de agente para esta funo de agente dado posteriormente na figura 2.8.

Bom comportamento: O conceito de racionalidade


Um agente racional um que faz a coisa certa conceitualmente falando, cada entrada na tabela para a funo de agente preenchida corretamente. Obviamente, fazer a coisa certa melhor que fazer a errada, mas o que significa fazer a coisa certa? Como uma primeira aproximao, diremos que a ao correta aquela que permite ao agente ter mais sucesso.

Medidas de performance
A medida de performance incorpora o critrio de sucesso do comportamento de um agente. Quando um agente atirado em um ambiente, ele gera uma sequncia de aes de acordo com as percepes que ele recebe. Se a sequncia desejvel, ento o agente tem desempenhado seu trabalho bem. Obviamente, no existe nenhuma medida fixa adequada para todos os agentes. Podemos propor como uma medida de performance, a quantidade de sujeira limpa em um nico turno de 8 horas. Um agente racional pode maximizar esta medida de performance, limpando a sujeira e jogando ela no cho novamente, ento limpando outra vez, e assim consecutivamente. Uma medida de performance mais adequada poderia premiar o agente por ter limpado o cho. Por exemplo, um ponto pode ser conseguido por cada quadrado limpo a cada passo (talvez com uma penalidade por consumo de energia e gerao de rudo). A seleo de uma medida de performance no sempre fcil. Por exemplo, a noo de cho limpo no pargrafo anterior baseada na mdia de limpeza sobre o tempo. Ainda que a mesma mdia de limpeza possa ser alcanada por dois diferentes agentes, um pode fazer um trabalho medocre todo o tempo enquanto o outro limpa energicamente mas faz longas paradas.

10 de 21

Racionalidade
O que racional em um dado intervalo depende de 4 coisas: A medida de performance que define os critrios de sucesso O conhecimento prvio do agente sobre o ambiente As aes que o agente pode realizar A sequncia de percepes do agente at o momento atual Isto guia para uma definio de agente racional: Para cada sequncia de percepes possveis, um agente racional deve selecionar uma ao que esperada para maximizar suas medida de performance, dada a evidncia provida pela sequncia de percepes, e ignorar o conhecimento embutido que o agente tem. Considerando o agente aspirador de p, ele pode ser considerado racional, pois ele realiza as aes visando maximizar sua performance, a geografia do ambiente conhecida, mas a sua distribuio da sujeira e localizao inicial no, as aes de ir para esquerda ou direita so executadas de modo que o agente no saia dos dois quadrados, o agente percebe sua localizao e se existe sujeira nela. Algum pode ver facilmente que um mesmo agente poderia ser irracional sobre diferentes circunstncias. Por exemplo, uma vez que toda a sujeira limpa, ele ir ficar se movendo desnecessariamente; se a medida de performance inclui uma penalidade de um ponto para cada movimento, o agente ir ter um desempenho baixssimo. Um agente melhor para este caso poderia no fazer nada, uma vez que ele est certo de que todos os quadrados esto limpos. Se o quadrado pode se tornar sujo novamente, o agente poderia ocasionalmente checar e limpar novamente se necessrio.

Oniscincia, aprendizagem e autonomia


Precisamos ser cuidadosos em distinguir entre racionalidade e oniscincia. Um agente onisciente conhece o resultado atual de suas aes e pode agir de acordo; mas oniscincia impossvel na realidade. Considere o exemplo seguinte: Eu estou caminhando em direo Champs Elyses e vejo um velho amigo cruzar a rua. No h trfego prximo e eu no estou ocupado, ento, sendo racional, eu inicio a travessia da rua. Enquanto isso, a 10.000 metros de altitude, uma carga cai de um avio que estava passando, e antes que eu chegue ao outro lado da rua, sou achatado pela carga. Ento, eu fui irracional ao atravessar a rua? Este exemplo mostra que racionalidade no o mesmo que perfeio. Racionalidade maximiza a performance esperada, enquanto perfeio maximiza a performance atual. Nossa definio de racionalidade no requer oniscincia, devido a escolha racional depender somente da sequncia de percepes at o momento atual. Ns tambm asseguramos que no temos inadvertidamente permitido ao agente aderir em atividades decididamente no inteligentes. Por exemplo, se um agente no olha para ambos os lados antes de atravessar uma rua movimentada, ento sua sequncia de percepes no dir a ele que h um grande caminho se aproximando em alta velocidade. Nossa definio de racionalidade diz que est tudo OK para cruzar a rua? Longe disso. Primeiro, poderia no ser racional cruzar a rua dado essa sequncia de percepes no informativas: o risco de acidente ao cruzar uma rua sem olhar para ambos os lados muito grande. Segundo, um agente racional deveria escolher a ao de olhar antes de atravessar a rua, porque 11 de 21

olhar ajuda a maximizar a performance esperada. Fazendo aes para modificar percepes futuras algumas vezes chamada de obteno de informaes uma importante parte da racionalidade. Um segundo exemplo de obteno de informaes provido pela explorao que deve ser responsabilidade do agente aspirador de p em um ambiente inicialmente desconhecido. Nossa definio de agente racional no somente no sentido de obter informaes, mas tambm de aprender tanto quanto possvel a partir de suas percepes. O agente pode ter algum conhecimento prvio do ambiente. Existem casos extremos em que o ambiente totalmente conhecido a priori, nestes casos, o agente no precisa perceber ou aprender; ele simplesmente age corretamente. Obviamente, tais agentes so muito frgeis. Ver exemplo do besouro e da vespa na pgina 37.

A natureza dos ambientes Especificando o ambiente de tarefas


Em nossas discusses de racionalidade do simples agente aspirador de p, ns tivemos que especificar a medida de performance, o ambiente, os atuadores e sensores do agente. Iremos agrupar tudo isso sobre o ttulo de ambiente de tarefas, onde definiremos a sigla PEAS (Performance, Environment, Actuators, Sensors, na primeira verso do livro era denominado PAGE Percepts, Actions, Goals, Environment) como descrio do ambiente. Em projeto de agentes, o primeiro passo sempre especificar o ambiente to completo quanto possvel. O mundo do aspirador foi um exemplo muito simples; vamos considerar um problema mais complexo: um motorista automtico de txi. A figura 2.4 resume a descrio PEAS para o ambiente do txi.
Tipo de Agente Medidas de Performance (Performance Measure) Ambiente (Environment) Atuadores (Actuators) Sensores (Sensors)

Txi Seguro, rpido, legal, viagem Ruas, trfego, Direo, acelerador, Cmeras, sonar, automatizado confortvel, maximizar pedestre, clientes frio, setas, buzina, velocmetro, GPS, lucros painel odmetro, medidor de acelerao, sensores no motor, teclado

Figura 2.4

PEAS para o ambiente de tarefa de um txi automatizado

Primeiro, qual a medida de performance que gostaramos que nosso txi aspire? Qualidades desejveis incluem pegar o destino correto; minimizar consumo de combustvel e desgaste; minimizar tempo de viagem e/ou custo; minimizar violaes de leis de trnsito e perturbaes a outros motoristas; maximizar a segurana e conforto do passageiro; maximizar os lucros. Obviamente, alguns desses objetivos conflitam, logo, existiro trocas envolvidas. Em seguida, qual o ambiente que o txi ir encarar? Qualquer motorista de txi deve tratar com uma variedade de ruas, desde vielas rurais e becos urbanos a auto-estradas. As ruas contm outros trfegos, pedestres, animais debandados, ruas em obras, carros de polcia, poas e buracos. O txi deve tambm interagir com potenciais e atuais passageiros. Existem tambm algumas escolhas opcionais. O txi pode precisar operar na Califrnia do Sul, onde neve um problema rarssimo, ou no Alasca, onde constantemente . Ele pode sempre dirigir pela direita, mas pode ser flexvel para dirigir pela esquerda quando estiver no Japo ou Gr-Bretanha. Obviamente, quanto mais restrito o ambiente, mais fcil de projetar uma soluo. Os atuadores disponveis em um txi automatizado sero quase os mesmos dos disponveis para um motorista humano: controle sobre o motor atravs do acelerador e controle sobre a direo e frenagem. Adicionalmente, ele necessitar de uma sada para uma tela ou sintetizador de voz para falar com os passageiros, e talvez alguma forma de se comunicar com outros veculos, 12 de 21

educadamente. Para alcanar seus objetivos no ambiente, o txi necessitar conhecer onde ele est, o que mais h na rua, e a velocidade que ele est indo. Seus sensores bsicos podem ento incluir uma ou mais cmeras de TV controlveis, um velocmetro e um odmetro. Ele pode ter um GPS para dar informaes precisas de seu posicionamento e sensores de infra-vermelho ou sonares para detectar a distncia de outros carros ou obstculos. Finalmente, ele precisa de um microfone ou teclado para os passageiros requisitarem um destino. Na figura 2.5 temos um esboo dos elementos PEAS bsicos para diversos outros tipos de agentes. De fato, o que importa a complexidade do relacionamento entre o comportamento do agente, a sequncia de percepes geradas pelo ambiente e a medida de performance. Alguns ambientes reais so muito simples. Por exemplo, um rob projetado para inspecionar peas vindas por uma esteira rolante pode fazer algumas suposies simples: que as nicas coisas vindas pela esteira so peas que ele conhece e que existem apenas duas aes (aceitar ou rejeitar).
Tipo de Agente Sistema de diagnstico mdico Sistema de anlise de imagem de satlite Rob coletor de partes Medidas de Performance (Performance Measure) Ambiente (Environment) Atuadores (Actuators) Sensores (Sensors)

Sade do paciente, Paciente, hospital, Mostrar questes, Entrada dos sintomas minimizar custos, causas equipe mdica testes, diagnsticos, por teclado, respostas do tratamentos, paciente, pesquisa orientao Categorizao correta da Downlink a partir do Mostrar Arrays imagem satlite em rbita categorizao da cena cores de pixels de

Percentual de partes na Esteira rolante com Brao caixa correta partes; caixas mo

articulado

e Cmera, sensores ngulo articulado

de

Controlador de Maximizar pureza, Refinaria, operadores refinaria produo, segurana

Vlvulas, bombas de Temperatura, presso, gua, aquecedores, sensores qumicos telas

Tutor de ingls Maximizar a pontuao de Conjunto de Mostrar exerccios, Entrada pelo teclado interativo estudantes em testes estudantes, agncia de sugestes, correes testes

Figura 2.5

Exemplos de tipos de agentes e suas descries PEAS

Em contraste, alguns agentes de software (softwares robs ou sofbots) existem em domnios ricos e ilimitados. Imagine um softbot projetado para voar em um simulador de voo. O simulador muito detalhado, o ambiente complexo inclui outros avies e operaes em terra, e o agente de software deve escolher uma ao, a partir de uma ampla variedade de aes, em tempo real. Ou imagine um sofbot projetado para scanear fontes de notcias na internet e mostrar itens de interesse para seus clientes. Para fazer isso bem, ele necessitar de habilidades de processamento de linguagem natural, aprender os interesses de cada cliente e mudar os planos dinamicamente por exemplo, quando a conexo para um fonte de notcias cai ou quando outra se torna online.

Propriedades dos ambientes de tarefa


A faixa de ambientes que podem surgir em IA obviamente vasta. Ns podemos, todavia, identificar um suficiente pequeno nmero de dimenses em que o ambiente pode ser categorizado. Totalmente observvel x parcialmente observvel (acessvel x inacessvel): se o sensor

13 de 21

do agente tem acesso completo ao estado do ambiente o tempo todo, conseguindo observar todos os aspectos relevantes para escolher uma ao a executar, assim, o ambiente completamente observvel, sendo que relevncia depende das medidas de performance. Um ambiente pode ser parcialmente observvel devido a rudo ou sensores no acurados ou parte do estado do ambiente que estejam faltando - por exemplo, o agente aspirador de p com apenas um sensor de sujeira local no pode dizer se h sujeira em outros quadrados, e um txi automatizado no pode saber o que outros motoristas esto pensando. Determinstico x estocstico (determinstico x no determinstico): Se o prximo estado do ambiente completamente determinado pelo estado atual e aes executadas pelo agente, ento podemos dizer que o ambiente determinstico, ou seja, previsvel; seno, estocstico. Em princpio, um agente no precisa se preocupar sobre incertezas em um ambiente determinstico e completamente observvel. Se o ambiente parcialmente observvel, todavia, ele pode parecer ser estocstico. Motorista de txi claramente estocstico, porque ele no pode predizer o comportamento do trfego, alm do mais, um pneu pode estourar. O mundo do aspirador de p, como descrevemos, determinstico, mas variaes podem incluir elementos estocsticos como aparecimento randmico de sujeira e um mecanismo de suco no confivel. Se o ambiente determinstico, exceto pelas aes de outros agentes, dizemos que o ambiente estratgico. Episdico x sequencial (episdico x no episdico): em um ambiente episdico, a experincia do agente dividida em episdios atmicos. Cada episdio consiste da percepo do agente e realizao de uma nica ao. Crucialmente, o prximo episdio no depende de aes realizadas em episdios anteriores. Em um ambiente episdico, a escolha de uma ao depende somente do prprio episdio. Um agente para apontar peas defeituosas em uma linha de montagem baseia cada deciso somente na pea atual, sem se preocupar com decises anteriores, e a deciso atual no afeta decises futuras. Em ambientes sequenciais, a deciso atual pode afetar todas as decises futuras. Xadrez e um motorista de txi so sequenciais: em ambos os casos, aes de curto prazo podem ter consequncias de longo prazo. Ambientes episdicos so mais simples porque o agente no tem que pensar a frente, ou seja, no tem que pensar nas consequncias futuras de suas aes, apenas nas consequncias da ao atual. Esttico x dinmico: Se o ambiente pode mudar enquanto o agente est deliberando, podemos dizer que ele dinmico, seno, esttico. Ambientes estticos so mais fceis de lidar pois o agente no precisa ficar observando o mundo enquanto est decidindo uma ao a executar, nem precisa se preocupar com a passagem do tempo. Ambientes dinmicos, por outro lado, esto continuamente perguntando ao agente o que ele quer fazer; se ele no decidiu ainda, isto conta como se tivesse decidido por fazer nada. Se o ambiente no muda com a passagem do tempo mas a performance do agente sim, ento dizemos que ele semi-dinmico. Dirigir um txi claramente dinmico. Xadrez, quando jogado com um relgio, semi-dinmico. Jogos de palavras cruzadas so estticos. Discreto x continuo: Um ambiente discreto, como o jogo de xadrez, tem um conjunto finito de estados, alm de um discreto(finito) conjunto de percepes e aes. Dirigir um txi um problema de estados, aes e tempo contnuos. Agente nico x multi agente: Um jogo de palavras cruzadas claramente de apenas um agente, j o xadrez um ambiente de 2 agentes. Xadrez um ambiente multi agente competitivo. No ambiente do txi, evitar colises maximiza a performance de todos os agentes, logo ele um ambiente multi agente parcialmente cooperativo, alm de parcialmente competitivo, por exemplo, competindo por vagas de estacionamento e passageiros. Como podemos esperar, o mais difcil caso parcialmente observvel, estocstico,

14 de 21

sequencial, dinmico, contnuo e multi agente. A figura 2.6 lista algumas propriedades de diversos ambientes. Algumas podem variar de acordo com a forma que o ambiente foi definido e a especificidade com a qual deseja-se implementar a soluo. Por exemplo, muitos ambientes so episdicos em um nvel mais alto do que as aes individuais do agente, como em um torneio de xadrez, que consiste de uma sequncia de jogos, onde cada jogo um episdio, assim, a contribuio de um movimento em um jogo para a performance geral do agente no afetada pelos movimentos no jogo anterior. Por outro lado, decises feitas em um nico jogo so certamente sequenciais.
Ambiente Palavras cruzadas Xadrez com relgio Dirigir txi Diagnstico mdico Anlise de imagens Rob coletor de partes Controlador de Refinaria Tutor de ingls interativo Observvel Totalmente Totalmente Parcialmente Parcialmente Totalmente Parcialmente Parcialmente Parcialmente Determinstico Determinstico Estratgico Estocstico Estocstico Determinstico Estocstico Estocstico Estocstico Episdico Sequencial Sequencial Sequencial Sequencial Episdico Episdico Sequencial Sequencial Esttico Esttico Semi-Dinmico Dinmico Dinmico Dinmico Dinmico Dinmico Discreto Discreto Discreto Contnuo Contnuo Contnuo Contnuo Discreto Agentes Single Multi Multi Single Single Single Single Multi

Semi-Dinmico Contnuo

Figura 2.6

Exemplos de ambientes e suas caractersticas

A estrutura de agentes
O trabalho da IA projetar o programa do agente que implementa a funo de agente mapeando percepes para aes. Ns assumimos que este programa rodar em algum tipo de dispositivo computacional com sensores fsicos e atuadores, o que chamamos de arquitetura: agente = arquitetura + programa. Obviamente, o programa que escolhemos deve ser apropriado para a arquitetura, que pode ser um PC comum ou um carro rob com muitas cpu's, cmeras e outros sensores. Em geral, a arquitetura faz as percepes para o programa a partir dos sensores, roda o programa e alimenta as escolhas de aes do mesmo para os atuadores.

Programas de agente
O programa do agente que projetaremos ter o mesmo skeleton: ele pega as percepes atuais como entradas a partir de sensores e retorna uma ao para os atuadores. Note a diferena entre o programa do agente, que toma a percepo atual como entrada, e a funo de agente, que toma todo o histrico de percepes. O programa do agente toma apenas a percepo atual como entrada pois nada mais disponibilizado pelo ambiente; se as aes do agente dependem de toda a sequncia de percepes, ele deve armazenar as percepes. Por exemplo, a figura 2.7 mostra um programa de agente realmente trivial, que fica de olho na sequncia de percepes e ento as usa para indexar uma tabela de aes para decidir o que fazer. A tabela representa explicitamente a funo de agente que o programa do agente incorpora. Para construir um agente racional desta forma, precisamos construir uma tabela que contenha as aes apropriadas para cada sequncia de percepes possvel.

15 de 21

instrutivo considerar porque uma proposta baseada em tabelas para construo de agentes condenada a falhar. Considere um txi automtico: a entrada visual a partir de uma nica cmera vem na faixa de grosseiramente, 27Mbps (30 frames/s, 640x480 pixels com 24 bits de informao de cor). Isto d uma tabela com cerca de 10 250.000.000.000 entradas para uma hora de direo. At uma tabela para xadrez poderia ter 10150 entradas. O nmero de tomos em um universo observvel menos que 1080. Apesar disto, um agente dirigido por tabelas faz o que queremos: implementa a funo desejvel de agente. O desafio chave para IA encontrar como escrever programas que, para uma extenso possvel, produzam comportamento racional a partir de uma quantidade pequena de cdigo no lugar de um grande nmero de entradas de tabela.

Os tipos bsicos de programas de agentes, que incorporam os princpios subjacentes de quase todos os sistemas inteligentes so: Agentes reflexivos simples: O tipo mais simples de agente, que selecionam aes com base na percepo atual, ignorando o resto do histrico de percepes. Por exemplo, o agente aspirador de p, pois suas decises so baseadas somente na localizao atual e se l h sujeira. Um programa para esse agente mostrado na figura 2.8. Imagine voc dirigindo um carro. Se a luz de freio do carro da frente acende, voc nota isto e comea a frenar. Em outras palavras, alguns processamentos so feitos em entradas visuais para estabelecer a condio que chamamos O carro na frente est parando. Ento, isto dispara alguma conexo estabelecida no programa do agente para a ao iniciar frenagem. Ns chamamos tal conexo de regra de condio-ao, escrita como: if car-in-front-is-braking then initiate-braking. Humanos tem muitas conexes, algumas das quais so aprendidas (como dirigir) e outras 16 de 21

que so reflexos natos (como piscar). O programa da figura 2.8 especfico para um ambiente particular. Uma proposta mais genrica e flexvel primeiro construir um interpretador de propsito geral para regras de condio-ao e ento criar um conjunto de regras para um ambiente especfico. A figura 2.9 d a estrutura desse programa geral em uma forma esquemtica, mostrando como as regras de condio-ao permitem ao agente fazer conexes de percepes para aes. O programa do agente mostrado na figura 2.10.

Agentes reflexivos baseados em modelos: A forma mais efetiva de gerenciar ambientes parcialmente observveis manter estados internos que depende do histrico de percepes, e com isso, tem-se informaes de estado da rea parcialmente observvel do ambiente. Atualizar esta informao com o tempo requer que dois tipos de conhecimento sejam codificados no programa do agente. Primeiro, precisamos de informaes de como o mundo evolui, independentemente do agente. Segundo, precisamos de algumas informaes sobre como as aes do agente afetam o mundo. Este conhecimento do mundo chamado de modelo do mundo. Um agente que usa tal modelo chamado de agente baseado em modelo. A figura 2.11 d a estrutura de um agente reflexivo com estado interno, mostrando como a percepo atual combinado com um estado interno antigo para gerar a descrio atualizada do estado atual. O programa do agente mostrado na figura 2.12.

17 de 21

Agentes baseados em objetivo: Conhecer o estado atual do ambiente no sempre suficiente para decidir o que fazer. Por exemplo, em uma juno de ruas, o txi pode virar esquerda, direita ou ir em frente. A deciso correta depende de onde ele est tentando chegar, ou seja, alm da descrio do estado atual, o agente precisa de algum tipo de informao de objetivo que descreva situaes que so desejveis por exemplo, o destino do passageiro. O agente pode combinar isso com o resultado de possveis aes para poder escolher aes que alcancem seus objetivos. A figura 2.13 mostra a estrutura deste tipo de agente.

Note que tomar decises desse tipo fundamentalmente diferente das regras de condio-ao descritas anteriormente, pois envolvem consideraes sobre o futuro como O que acontecer se eu fizer isto e isto? e Isto me far feliz?. No projeto de agentes reflexivos, esta informao no explicitamente representada, porque as regras embutidas 18 de 21

mapeiam diretamente percepes para aes. Embora um agente baseado em objetivo parea menos eficiente, ele mais flexvel pois o conhecimento que suporta suas decises representado explicitamente e pode ser modificado. Se comear a chover, o agente pode atualizar seu conhecimento de como efetivamente seu freio ir operar; isto automaticamente far com que todos os comportamentos relevantes sejam alterados para se adequarem s novas condies. Para um agente reflexivo, por outro lado, ns podemos ter que reescrever muitas regras de condioao. O comportamento do agente baseado em objetivo pode facilmente ser alterado para ir a um local diferente. As regras do agente reflexivo para quando virar e quando ir em frente funcionam somente para um nico destino; elas devem ser todas substitudas para ir a qualquer lugar novo. Agentes baseados em utilidade (no sentido de ser til): Objetivos sozinhos no so realmente suficientes para gerar comportamento de alta qualidade na maioria dos ambientes. Por exemplo, existem muitas sequncias de aes que levariam o txi ao seu destino (desta forma, alcanando seu objetivo) mas algumas so mais rpidas, seguras e confiveis, ou mais baratas que outras. Objetivos apenas proveem uma distino binria crua entre os estados feliz e infeliz, enquanto uma medida de performance mais geral pode permitir uma comparao de diferentes estados do mundo de acordo com exatamente quo feliz eles podem fazer o agente e se eles podem ser alcanados. Devido feliz no soar muito cientfico, uma terminologia costumeira dizer que um estado prefervel do que outro, ento ele tem maior utilidade para o agente. A figura 2.14 mostra a estrutura deste tipo de agente. A funo de utilidade mapeia estados (ou uma sequncia de estados) em nmeros reais, que descrevem o associado grau de felicidade. Uma completa especificao da funo de utilidade permite decises racionais de dois tipos de casos onde os objetivos so inadequados. Primeiro, quando existem objetivos conflitantes, somente um dos quais pode ser alcanado (por exemplo, velocidade e segurana), a funo de utilidade especifica a troca apropriada. Segundo, quando existem muitos objetivos que o agente pode mirar, e nenhum dos quais pode ser alcanado com certeza, a utilidade prov uma forma em que a probabilidade de sucesso pode ser ponderada contra a importncia dos objetivos. Um agente que possui uma explcita funo de utilidade pode tomar decises racionais.

19 de 21

Aprendizado de agentes
Em um famoso paper anterior, Turing (1950) considerou a idia de programar sua mquina inteligente mo. O mtodo que ele props para construir mquinas de aprendizagem e ento ensin-las. Em muitas reas de IA, isto atualmente o mtodo preferido para criao de sistemas no estado da arte. Aprendizado tem outra vantagem: permite ao agente operar em um ambiente inicialmente desconhecido e se tornar mais competente que seu conhecimento inicial sozinho poderia permitir. Um aprendizado de agente pode ser dividido em quatro componentes conceituais, como mostra a figura 2.15. A mais importante distino entre o elemento de aprendizagem, que responsvel por fazer melhorias, e o elemento de performance, que responsvel por selecionar aes externas. O elemento de performance o que ns temos previamente considerado ser o agente inteiro: ele toma as percepes e decide em aes. O elemento de aprendizagem usa feedbacks a partir da crtica de como o agente est agindo e determina como o elemento de performance deve ser modificado para operar melhor no futuro.

O projeto do elemento de aprendizagem depende muito do projeto do elemento de performance. Quando tentamos projetar um agente que aprende uma certa capacidade, a primeira questo no Como vou coloc-lo para aprender isto? mas Que tipo de elemento de performance meu agente necessitar para fazer isto uma vez e aprender como fazer?. Dado um projeto de agente, mecanismos de aprendizagem podem ser construdos para melhorar cada parte do agente. O elemento crtica diz ao elemento de aprendizagem quo bem o agente est operando com respeito a um padro de performance fixo. A crtica necessria porque as percepes por elas mesmas no proveem indicao do sucesso do agente. O ltimo componente do aprendizado do agente o gerador de problemas. Ele responsvel por sugerir aes que iro guiar para novas e informativas experincias. O ponto que, se o elemento de performance tem sua forma, ele pode continuar fazendo as aes que so melhores, dado o que ele conhece. Mas se o agente est desejando explorar um pouco, e fazer talvez algumas aes opcionais num curto prazo, ele pode descobrir muito melhores aes a longo prazo. O trabalho do gerador de problemas sugerir estas aes exploratrias. 20 de 21

Para tornar todo o projeto mais concreto, vamos retornar ao exemplo do txi automatizado. O elemento de performance consiste de ignorar colees de conhecimento e procedimentos que o txi tem para selecionar suas aes de direo. O txi vai a rua e dirige, usando seu elemento de performance. A crtica observa o mundo e passa informaes para o elemento de aprendizagem. Por exemplo, depois que o txi faz uma virada rpida esquerda entre trs ruas de grande trfego, a crtica observa a linguagem chocante dos outros motoristas. A partir desta experincia, o elemento de aprendizagem capaz de formular uma regra dizendo que aquilo foi uma ao ruim, e o elemento de performance modificado instalando a nova regra. O gerador de problemas pode identificar certas reas de comportamento necessitando de melhoria e sugerir experimentos, tal como tentar parar em ruas de diferentes superfcies, sobre diferentes condies de tempo. O elemento de aprendizagem pode fazer mudanas para qualquer componente de conhecimento mostrado no diagrama do agente (figuras 2.9, 2.11, 2.13 e 2.14). O caso mais simples envolve aprender diretamente a partir de sequncias de percepes. Observaes de pares de sucessivos estados do ambiente podem permitir que o agente aprenda como o mundo evolui e observaes dos resultados de suas aes podem permitir ao agente aprender o que minhas aes fazem. Por exemplo, se um txi exerce uma certa presso de frenagem enquanto dirigindo em uma rua molhada, ento ele ir em breve encontrar quanto de desacelerao ele ir alcanar.

Resumo
Um agente alguma coisa que percebe e age no ambiente. A funo de agente para um agente especifica a ao tomada por um agente em resposta a qualquer sequncia de percepes. A medida de performance avalia o comportamento do agente no ambiente. Um agente racional age para maximizar o valor esperado da medida de performance, dada a sequncia de percepes que ele v. Uma especificao de ambiente inclui uma medida de performance, o ambiente externo, os atuadores e os sensores. Projetando um agente, o primeiro passo deve sempre ser especificar o ambiente to completamente quanto possvel. Ambientes variam ao longo de vrias dimenses significantes. Eles podem ser completamente ou parcialmente observveis, determinsticos ou estocsticos, episdicos ou sequenciais, estticos ou dinmicos, discretos ou contnuos e de nico agente ou multi agente. O programa do agente implementa a funo do agente. Agentes reflexivos simples respondem diretamente a percepes, enquanto um agente reflexivo baseado em modelo mantem um estado interno para rastrear aspectos do mundo que no so evidentes na percepo atual. Agentes baseados em objetivo agem para alcanar seus objetivos, e agentes baseados em utilidade tentam maximizar suas prprias expectativas de felicidade. Todos os agentes podem melhorar suas performance atravs de aprendizado.

21 de 21

Você também pode gostar