Você está na página 1de 19

FUNDAMENTOS DE

APRENDIZAGEM
DE MÁQUINA

Maikon Lucian Lenz


Abordagens de
aprendizagem de máquina
e principais tarefas
Objetivos de aprendizagem
Ao final deste texto, você deve apresentar os seguintes aprendizados:

„„ Reconhecer os tipos de aprendizado de máquina.


„„ Categorizar tarefas de aprendizado de máquina de acordo com os
tipos propostos.
„„ Diferenciar o processo de aprendizado de máquina de acordo com
os tipos propostos.

Introdução
O aprendizado de máquina é uma área abrangente e em constante
crescimento. Nos últimos anos, muitas tarefas de aprendizado foram
desenvolvidas, o que contribui para o avanço não só da inteligência
artificial, mas da tecnologia como um todo. Soluções antes inimagináveis
estão sendo criadas graças ao aprendizado de máquina. Entretanto,
há muitas características em comum entre as tarefas desenvolvidas.
O tipo de aprendizado de máquina é um dos fatores mais importantes
de determinada tarefa, além de um conceito que permite ao iniciante
na área de aprendizado de máquina compreender muitos dos princípios
envolvidos sem que seja necessário analisar toda a imensidão de algo-
ritmos e exemplos de cada um deles.
O aprendizado de máquina é dividido em quatro tipos, de acordo com
a forma como o sistema compreende se o modelo que está utilizando
é mais ou menos adequado aos dados apresentados. Para tanto, a má-
quina passa por um processo de treinamento. Enquanto o aprendizado
supervisionado demanda o conhecimento prévio dos atributos-alvo, o
tipo de aprendizado não supervisionado busca estruturas intrínsecas aos
dados para tentar agrupá-los conforme as similaridades que apresentam.
2 Abordagens de aprendizagem de máquina e principais tarefas

Há ainda os tipos de aprendizado semissupervisionado e por reforço.


O primeiro combina os tipos anteriormente citados, de modo geral,
devido ao fato de somente uma parte dos dados ser acompanhada
de atributos-alvo. O segundo recebe estímulos que reforçarão ou não
determinada característica do modelo.
Neste capítulo, você estudará sobre quatro tipos de aprendizados
de máquina.

1 Aprendizado de máquina
Apesar de a etapa de treinamento ser a mais enfatizada, o aprendizado de
máquina envolve ainda outras etapas. Um exemplo é a seleção e preparação
dos dados, que permite que os dados estejam adequados ao modelo e às tare-
fas utilizadas. Também têm vital importância para o sucesso no processo de
aprendizado as etapas de teste, de validação e, quando necessário, o ajuste e
refinamento de parâmetros para melhorar o desempenho do modelo. A Figura 1
apresenta um resumo das etapas de aprendizado.

Figura 1. Etapas do aprendizado de máquina. ­­


Abordagens de aprendizagem de máquina e principais tarefas 3

O processamento de dados em aprendizado de máquina pode ser de na-


tureza preditiva ou descritiva. Tarefas preditivas são aquelas que têm como
objetivo estimar o atributo-alvo de uma nova instância a partir de um modelo
previamente gerado. Em outras palavras, como o próprio nome sugere, elas são
capazes de prever os valores de atributo-alvo para uma dada combinação de
atributos previsores. Para treinar uma máquina do tipo preditivo, é necessário
que as instâncias fornecidas durante o processo sejam acompanhadas do
respectivo atributo-alvo, também conhecido como rótulo. Assim, o algoritmo
poderá comparar o resultado obtido com o resultado esperado e proceder aos
ajustes necessários na tentativa de melhorar sua previsão.
As tarefas descritivas, por sua vez, têm por função explorar um conjunto de
dados sem qualquer interferência externa, seja simultânea ou previamente definida,
com o intuito de organizar e separar os dados a partir de padrões percebidos entre
eles. A Figura 2 detalha como são organizadas as tarefas de aprendizado de má-
quina segundo a perspectiva do tipo de aprendizado utilizado e quais são os tipos
de aplicações comuns a elas. É possível observar que as tarefas de classificação,
regressão e agrupamento (na qual estão inclusas, ainda, associação e sumarização)
podem ser aninhadas em diferentes tipos de aprendizado, como supervisionado,
não supervisionado, semissupervisionado e por reforço.

Regressão
Atributos de saída
contínuos
Estimativa de preço
residencial
Aprendizado
supervisionado
Classificação
Atributos de saída
discretos
Exames de imagem

Segmentação de
Clusterização clientes
Aprendizado não Variável de destino
supervisionado não disponível
Tipos de
aprendizado de Associação Análise de mercado
máquinas

Rótulo Classificação Classificação de


texto
Aprendizado
semissupervisionado
Localização de vias
Clusterização em dados no GPS

Variável-alvo Classificação Otimização de


marketing
Aprendizado por
reforço
Variável de destino Controle Veículo autônomo
não disponível

Figura 2. Classificação dos tipos de aprendizado de máquina.


4 Abordagens de aprendizagem de máquina e principais tarefas

As maiores diferenças ficam por conta dos tipos de aprendizado super-


visionado, não supervisionado e por reforço, uma vez que o aprendizado
semissupervisionado é uma mescla dos dois primeiros. O Quadro 1 apresenta
um resumo das principais diferenças entre os três tipos.

Quadro 1. Comparativo das principais características entre os tipos de aprendizado

Tipos de aprendizado

Características Semissupervisionado

Não Reforço
Supervisionado
supervisionado

Valores para Dados não Sem


Conjunto
atributo previsor rotulados. atributo-alvo.
de dados
e alvo.

Treinamento Análise Recompensas


do modelo intrínseca. e punições.
Aprimoramento com base nas
instâncias
rotuladas.

Prever a resposta Agrupar Buscar novas


ou o rótulo instâncias com hipóteses no
correto. características sentido de
Tarefa similares. tentar reduzir
as punições e
aumentar as
recompensas.

Todavia, uma aplicação nem sempre é fácil de enquadrar de maneira rígida


e restrita ao esquema apresentado na Figura 2. É comum que um problema
demande o uso de diferentes tipos de aprendizado, um exemplo é a própria
existência de uma categoria denominada semissupervisionada, que combina
os tipos supervisionado e não supervisionado.
Abordagens de aprendizagem de máquina e principais tarefas 5

Cada uma das categorias envolve diferentes tipos de aplicações, no entanto,


os problemas reais costumeiramente podem abranger fenômenos e dados de
naturezas diversas, misturando características de dois ou mais tipos de apren-
dizado. Muitas vezes, o dado a ser examinado não decorre nem de uma, nem
de outra natureza específica, mas da própria interação em si, o que terminará,
por sua vez, na mixagem de tipos de aprendizado e tarefas.
Um ótimo exemplo para demonstrar o quão complexo pode se tornar um
problema de aprendizado de máquina é a própria fala humana. A máquina
não apenas deverá ser capaz de compreender a estrutura sintática e semântica
da linguagem utilizada pelo interlocutor como também reconhecer padrões
vocais, além de diferenciar entonações para avaliar diferentes ênfases que
podem sugerir desde uma apresentação literal de determinada informação
até o seu inverso, utilizando-se de tom irônico na pronúncia.

Aprendizado supervisionado
Imagine uma máquina capaz de melhorar a sua performance de previsão
somente quando lhe são informados de maneira direta os valores de saída espe-
rados. Nesse caso, pode-se dizer que o aprendizado é supervisionado, porque,
apesar de a máquina varrer os dados em busca de padrões que a permitam
melhorar o modelo que utiliza para a previsão, o conhecimento dos atributos
corretos de alvo para determinado conjunto de atributos previsores requer que
outro indivíduo ou máquina os tenha classificado em um momento anterior.
Mesmo que não haja qualquer interferência externa durante o tempo de
execução do algoritmo, compreende-se que o programa está sendo orientado
por dados que demandaram algum conhecimento prévio. Assim, o aprendizado
supervisionado pressupõe a existência, ou emulação, de um supervisor que
o orienta quanto à assertividade objetiva de suas previsões (FACELI et al.,
2011). Esse tipo de aprendizado configura uma instrução objetiva e difere
de outras formas de retorno de caráter qualitativo quanto à assertividade do
algoritmo. Assim, o valor fornecido como objetivo do treinamento só pode
ser do mesmo tipo do valor de saída.
São exemplos recorrentes de aprendizado supervisionado: a classificação de
caracteres manuscritos, utilizando imagens da letra, do número ou do símbolo
escrito para determinar o símbolo digital equivalente; a previsão de preços
de determinado bem a partir de um conjunto de características; o diagnóstico
de doenças a partir de exames diversos; entre outros. A Figura 3 mostra um
6 Abordagens de aprendizagem de máquina e principais tarefas

conjunto de imagens já rotuladas de vários números manuscritos todos de


mesmo tamanho. Essa base de dados é utilizada para pesquisa e desenvol-
vimento de algoritmos capazes de reconhecer a escrita humana, e o rótulo
de cada caractere identifica um valor equivalente na tabela ASCII utilizada
pelos computadores para representar números, letras e símbolos nesse padrão.

Figura 3. Conjunto de dados MNIST.


Fonte: Adaptada de Baldominos, Saez e Isasi (2019).

Ao se utilizar aprendizado de máquina, espera-se que, com o modelo


adequado e treinamento suficiente, o algoritmo seja capaz de analisar cada
pixel de uma imagem na entrada e classificá-la segundo o dígito que deveria
representar. Trata-se de um exemplo clássico de aprendizado supervisionado,
preditivo, cuja tarefa principal é a de classificação dos dados. O padrão de
entrada é determinado pela quantidade fixa de pixels, e o rótulo fornecido junto
de cada imagem a orienta quanto à exatidão de suas previsões. Um algoritmo
de aprendizado de máquina pode ser muito elaborado. Para implementar uma
tarefa de aprendizado sobre imagens, parte considerável do problema reside em
determinar de que forma os arquivos de imagem devem ser analisados, quais
valores ou grupos de valores devem ser observados e como estão relacionados.
Abordagens de aprendizagem de máquina e principais tarefas 7

O exemplo do Quadro 2 é mais simples e vai direto ao ponto: cada uma das
colunas representa um atributo (característica). No aprendizado supervisio-
nado, pelo menos uma dessas colunas deve fazer menção a um atributo-alvo,
ou seja, a um rótulo ou classe que identifique aquela instância. Assim, cada
linha representa uma instância com os respectivos valores para cada um dos
seus atributos. Nesse caso, o quadro mostra uma parte das instâncias de um
conjunto de dados que relaciona os preços de casas na Califórnia com os
atributos de: renda mediana na região (MedInc); idade mediana das casas
na região (HouseAge); número de salas (AvgRooms); número de quartos
(AvgBedrms); habitantes na região (Population); taxa de ocupação média das
casas na região (AveOccup); latitude e longitude.

Quadro 2. Amostra de preços de casas (atributo-alvo) na Califórnia e suas respectivas


características (atributos previsores)
AveBedrms

Population
AveRooms

Longitude
HouseAge

AveOccup

Latitude
MedInc

0 8.3252 41.0 6.984127 1.023810 322.0 2.555556 37.88 –122.23 Price


4.526
1 8.3014 21.0 6.238137 0.971880 2401.0 2.109842 37.86 –122.22 3.585
2 7.2574 52.0 8.288136 1.073446 496.0 2.802260 37.85 –122.24 3.521
3 5.6431 52.0 5.817352 1.073059 558.0 2.547945 37.85 –122.25 3.413
4 3.8462 52.0 6.281853 1.081081 565.0 2.181467 37.85 –122.25 3.422

Fonte: Adaptado de Scikit-Learn (c2019).

Formalmente, o aprendizado supervisionado é definido segundo as três


equações a seguir.

y = f(x)

onde:

„„ y: atributo de saída
„„ x: atributo de entrada
„„ f: função que relaciona as entradas (x) com as saídas (y)
8 Abordagens de aprendizagem de máquina e principais tarefas

D = {(xi, yi), i = 1, …, n}

onde:

„„ D: conjunto de pares de entrada (xi) e saída (yi)


„„ i: i-ésimo objeto do conjunto
„„ n: quantidade total de objetos do conjunto

h = argmaxhϵℋP(h|D)

onde:

„„ h: hipótese mais provável


„„ ℋ: conjunto de hipóteses
„„ P: função de probabilidade

A terceira equação determina que o aprendizado supervisionado ocorre


quando a hipótese selecionada (h) dentro do conjunto de hipóteses (ℋ) é o
parâmetro que maximiza (argmax) a função de probabilidade que relaciona
cada hipótese ao conjunto de dados de entrada e saída (D) (RUSSEL; NORVIG,
2013). Cabe ressaltar que os dados presentes em x e y não são necessariamente
de tipo numérico, podendo ser de tipo simbólico. Ao final, espera-se que a
função h seja tão próxima quanto possível da função f(x) da primeira equação.
O algoritmo só é capaz de generalizar (quando h ≅ f ) se o conjunto de
hipóteses conter a hipótese (h) esperada e se os atributos de entrada seleciona-
dos possuírem características relevantes para o problema. Para tanto, pode-se
imaginar que, quanto maior o conjunto de hipóteses e de atributos, melhor
será a resolução. Contudo, à medida que eles aumentam, é possível que supe-
radaptações ocorram, situação em que o algoritmo acredita erroneamente que
determinada característica tem relevância para um dado conjunto de entradas.
Esse problema pode ser contornado aumentando a quantidade de exemplos
ou encontrando um ponto de equilíbrio para cada um desses parâmetros, já
que ampliar os conjuntos de dados, hipóteses e atributos levará sempre a um
custo de processamento maior (RUSSEL; NORVIG, 2013).
Abordagens de aprendizagem de máquina e principais tarefas 9

Aprendizado não supervisionado


Comum em tarefas descritivas, o aprendizado é considerado não supervisio-
nado quando a máquina deve aprender sobre a estrutura intrínseca dos dados,
identificando similaridades ou dissimilaridades que permitam separar as
instâncias em diferentes grupos (FACELI et al., 2011). Analogamente, pode-se
pensar em diversas situações corriqueiras em que recorremos ao aprendizado
não supervisionado, por exemplo, quando buscamos um padrão por meio da
simples observação de algum evento. Esse é o caso, por exemplo, em que
uma pessoa tenta compreender os elementos que compõem um novo jogo
enquanto apenas o assiste pela primeira vez, mesmo que ninguém a esteja
orientando sobre isso.

Após algum esforço e mesmo sem acompanhamento ou orientação, uma criança é


capaz de reconhecer os elementos que fazem parte de um jogo de uma modalidade
qualquer: jogadores, equipes, estrutura do ambiente, diferentes classes de acessórios,
equipamentos e assim por diante — basta assistir a alguns eventos. Uma vez que ela
tenha observado diversas partidas de esportes com bola, por exemplo, é provável
que já saiba diferenciar com facilidade uma bola de outro objeto esférico qualquer,
ou de outros objetos com outros formatos. Por meio de agrupamentos e associa-
ções, ela também é capaz de reconhecer indivíduos uniformizados, pertencentes ao
mesmo grupo ou equipe. O mesmo ocorre com a máquina que se utiliza desse tipo de
aprendizado, buscando por características similares entre cada instância presente no
conjunto de dados que permitam agrupar ou separar essas instâncias umas das outras.

Contudo, é importante destacar que não se pode esperar do indivíduo que


tenha reconhecido diferentes agrupamentos de objetos — apenas pela contínua
observação — que saiba nomear ou, em outras palavras, rotular cada um dos
objetos. Seria necessário que um observador o orientasse quanto aos rótulos
que devem ou podem ser atribuídos às estruturas que ele identificou, o que já
extrapola as atribuições do aprendizado não supervisionado.
10 Abordagens de aprendizagem de máquina e principais tarefas

Enquanto no aprendizado supervisionado são conhecidos os rótulos corre-


tos, no aprendizado não supervisionado, a máquina poderá encontrar diferentes
estruturas para um mesmo conjunto de dados conforme a variação dos parâ-
metros do algoritmo. Os grupos podem ou não ter algum significado válido,
mas somente o observador poderá determinar isso, visto que o simples fato de
encontrar alguma similaridade entre instâncias não garante que as estruturas
formadas possam ser aproveitadas para a analisar ou melhor compreender os
dados. O aprendizado não supervisionado acarreta uma série de dificuldades
adicionais se comparado ao aprendizado supervisionado. Entretanto, existem
situações em que esse tipo de abordagem é a mais adequada ou a única possível
de se resolver o problema.
Um radiotelescópio pode ser programado para buscar determinados padrões
em uma imagem a fim de detectar novos planetas, estrelas, cometas e outros
objetos. Mesmo assim, é evidente que a imensidão do universo é demais para
que se ouse pensar que qualquer pesquisa deva se restringir ao mundo que
já se tem conhecimento atualmente. Logo, seria interessante que, paralelo
às pesquisas convencionais, outros algoritmos objetivassem a busca não por
padrões já conhecidos, mas por relações ainda não imaginadas pela comunidade
científica, o que demandaria a flexibilidade que somente o aprendizado não
supervisionado é capaz de fornecer.
Outras situações comuns envolvem aplicações de gestão e marketing
empresarial, em que um algoritmo tem por finalidade encontrar produtos que
estão frequentemente associados a uma base de dados de vendas, permitindo
ao gestor determinar campanhas de publicidade mais eficientes, melhorar o
mix de produtos e alterar o seu posicionamento nas prateleiras na tentativa de
maximizar as vendas.
A Figura 4 mostra vários indivíduos de cores diferentes posteriormente
agrupados com base nessa característica. No entanto, apesar de ser possível
compreender a estrutura identificada, não quer dizer que esse tipo de agrupa-
mento tenha algum significado relevante. Pode ser que os indivíduos tivessem
outras características mais significativas segundo as quais formariam outras
estruturas, como altura, peso e até mesmo o gênero, conforme pode ser visto
na imagem.
Abordagens de aprendizagem de máquina e principais tarefas 11

Figura 4. Agrupamento de indivíduos com base no atributo cor.


Fonte: Orn Rin/Shutterstock.com.

É possível que a quantidade de amostras fosse insuficiente para o modelo


identificar outras estruturas. Os parâmetros utilizados também podem in-
fluenciar os resultados, por exemplo, se o algoritmo utilizado for orientado a
buscar por um agrupamento que resulte em três clusters. Havendo, coinciden-
temente, três cores diferentes e uma distribuição igualitária de amostras para
essa característica, são grandes as chances de que, sem considerar os demais
atributos, este seja favorecido no processo de treinamento. Caso o algoritmo
fosse parametrizado para identificar dois grupos, as chances de a estrutura
encontrada dividir os indivíduos entre homens e mulheres aumentam. Muitas
são as aplicações desse tipo de aprendizado, e as tarefas de agrupamento e
associação são as mais comuns

Aprendizado semissupervisionado
Nem sempre haverá uma classificação rígida dos métodos de aprendizado e
treinamento adotados, e casos híbridos são muito utilizados. É o caso, por
exemplo, dos métodos de aprendizado semissupervisionados. Esse tipo de
12 Abordagens de aprendizagem de máquina e principais tarefas

aprendizado tem por objetivo efetuar tarefas de classificação, porém, partindo


de dados não completamente rotulados (WITTEN; FRANK, 2005).
A grande vantagem em utilizar ambas as abordagens em conjunto é o
ganho em quantidade de dados disponíveis para o aprendizado. A técnica
de aprendizado supervisionado depende dos dados previamente rotulados, o
que envolve custos, já que alguém deverá filtrar e preparar esses dados para
que possam ser utilizados. Ocorre que a quantidade de dados não rotulados
existentes é muito maior, o que poderá impactar de forma positiva na qualidade
do treinamento, caso seja possível utilizá-los em conjunto com os demais.
O processo pode ser dividido em quatro etapas. Primeiramente, deve-se
treinar de maneira supervisionada a partir do conjunto de entradas que já
possuem rótulo. Na sequência, o classificador deverá ser aplicado sobre o
conjunto de dados que não possuem rótulos. Feito isso, a máquina precisa
ser novamente treinada, agora utilizando todo o conjunto de dados. Por fim,
a iteração deve ser repetida até que se possa obter um resultado satisfatório.
As etapas dois e três — de classificação dos dados não rotulados e de trei-
namento do conjunto completamente rotulado — podem recorrer a algoritmos
como o de maximização de expectativa. Trata-se de um algoritmo iterativo
de elevado grau de precisão para inferência bayesiana. É possível utilizar
tanto as técnicas de MLE (maximum likelihood estimation, ou inferência por
maximização de verossimilhança, em português) como de MAP (maximum a
posteriori probability, ou probabilidade posterior máxima, em português). Em
ambos os casos, pretende-se obter os parâmetros que minimizam as incertezas
de se classificar um objeto em uma classe específica.
De forma resumida, espera-se que o algoritmo busque, por meio de fer-
ramentas estatísticas, características presentes nos objetos rotulados que
aparecem também nos objetos não rotulados e que permitam associar um
ao outro assumindo as mesmas classes. Assim, a característica em comum
pode não ser a mesma utilizada para classificar os objetos já rotulados, mas
serve de ponte para que o segundo obtenha a mesma classificação (WITTEN;
FRANK, 2015).
Um exemplo bastante didático é o desenvolvimento de um algoritmo para
prever a idade de um indivíduo com base em fotografias. Os rótulos são
fornecidos pelos próprios indivíduos junto à sua imagem. No entanto, nem
todos informam a sua idade, e outros podem eventualmente mentir a respeito
dela. Em ambas as situações, faz-se necessária a aplicação de técnicas de
aprendizado não supervisionado em conjunto com o supervisionado, tanto
para estimar e reduzir a quantidade de erros pelos dados falsos fornecidos
quanto pela falta de dados daqueles que nem mesmo informaram a sua idade.
Abordagens de aprendizagem de máquina e principais tarefas 13

No exemplo anterior, a máquina buscará por características nas imagens


que tenham relação direta com a idade, como sinais na pele (rugas). Utilizando
os dados rotulados, a máquina pode aproximar as regras que levam de deter-
minadas características para a previsão da idade em si e, a partir do algoritmo
não supervisionado, estimar, primeiramente, os erros de rotulação que podem
existir, para só então tentar rotular as demais já com o algoritmo corrigido.

Aprendizado por reforço


O aprendizado por reforço, como o próprio nome sugere, visa reforçar ou
atenuar parâmetros do modelo a partir dos resultados obtidos, conforme
recompensas ou punições são dadas a cada tentativa. Pode-se imaginar esse
tipo de aprendizado como uma espécie de adestramento, em que o que se está
treinando (ou adestrando), apesar de ser incapaz de avaliar rótulos, pode ser
instruído quanto à qualidade das decisões ou previsões tomadas por meio de
recompensas e punições (RUSSEL; NORVIG, 2013).
A Figura 5 mostra a interação entre o agente (máquina) e o ambiente
nesse tipo de aprendizado. A partir de uma situação ou estado atual (dados), o
agente realiza uma ação com base no aprendizado acumulado até o momento,
alterando o estado. O resultado dessa ação fará com que o ambiente retorne
para o agente uma recompensa ou punição. Esse reforço servirá de guia para
que o agente possa melhorar o seu desempenho.

Figura 5. Ciclo de aprendizado por reforço.


14 Abordagens de aprendizagem de máquina e principais tarefas

Trata-se de um tipo de aprendizado mais abrangente, assim como o apren-


dizado não supervisionado, o que não acarreta necessariamente um melhor
desempenho, uma vez que cada tipo de aprendizado tem suas vantagens e
desvantagens. Mesmo assim, o algoritmo não está limitado a dados de en-
trada já avaliados por outro indivíduo, e compreender se as decisões tomadas
resultaram em falha ou sucesso é suficiente para o algoritmo. Então, caberá
ao algoritmo, utilizando ferramentas de probabilidade e recursos próprios do
aprendizado de máquina, encontrar as decisões ou os parâmetros que foram
mais relevantes para os casos repetidos de sucesso.

Imagine, por exemplo, um robô aspirador de pó que possui sensores de colisão e GPS
para guiá-lo através do ambiente que se pretende limpar. Enquanto o GPS fornece
as coordenadas atuais e permite que o robô armazene o caminho já percorrido, os
sensores de colisão detectam a necessidade de mudança de percurso. Sem qualquer
outro meio de sensoriamento, o robô só saberá que concluiu a limpeza do ambiente
quando tiver encontrado todos os caminhos possíveis.
Para que o robô aspirador melhore a sua performance, serão necessárias várias
repetições de um processo completo de limpeza, tentando encontrar rotas que o
permitam concluir em menor tempo o percurso completo. Dessa forma, o tempo de
conclusão da tarefa em conjunto com a quantidade de colisões funcionarão como
mecanismos de reforço, permitindo que a máquina compreenda se as hipóteses
adotadas na última iteração são melhores ou piores que as anteriores.

Esse também é um método de aprendizado muito utilizado pelos seres


humanos. Ao contrário do exemplo citado no aprendizado não supervisionado,
em que um indivíduo aprenderia as regras de um esporte a partir da observa-
ção de vários jogos, o aprendizado por reforço poderia representar o método
utilizado pelo indivíduo para aprender as técnicas corretas de movimento para
determinada modalidade que o levarão a resultados mais satisfatórios. À medida
que os seus movimentos se tornem mais precisos, o resultado, provavelmente,
será mais positivo, reforçando o que foi aprendido.
Abordagens de aprendizagem de máquina e principais tarefas 15

Outra situação em que o aprendizado por reforço é o mais adequado ocorre


quando as hipóteses para cada novo movimento ou etapa de um processo
são muitas, como em um jogo de xadrez. A máquina precisa saber qual é a
movimentação mais recomendada a cada jogada. No entanto, dificilmente
disporá de orientações diretas para cada uma das combinações e, tanto para a
máquina quanto para um jogador real, é comum tomar decisões com o intuito
de atingir um objetivo muito mais distante. O resultado obtido pela execução
da estratégia servirá como mecanismo de recompensa ou punição (RUSSEL;
NORVIG, 2013).
No caso do xadrez, a recompensa é obtida sempre que, por algum motivo,
um xeque-mate tenha ocorrido a seu favor, assim como a punição é obtida
caso tenha ocorrido em favor do adversário. Alvos menores também podem
ser determinados, até mesmo fracionando o algoritmo em partes menores,
em que recompensas seriam ativadas conforme a quantidade de peças do
adversário diminui ou, ainda, quando um xeque é aplicado. Quaisquer que
sejam os gatilhos pretendidos de recompensa ou punição, eles deverão ser
explicitamente determinados no algoritmo para que seja possível diferenciar
essa entrada específica de todas as demais.
Em resumo, o aprendizado por reforço pode iniciar de maneira aleatória
e concluir no momento em que se tornar capaz de tomar as decisões corretas
para que atinja sempre a recompensa e não a punição. Quanto melhor for a
capacidade de exploração do algoritmo, mais bem-sucedido ele será.

BALDOMINOS, A.; SAEZ, Y.; ISASI, P. A survey of handwritten recognition with MNIST
and EMNIST. Applied Sciences, v. 9, n. 3169, p. 1–16, 2019. Disponível em: https://www.
mdpi.com/2076-3417/9/15/3169/pdf. Acesso em: 14 fev. 2020.
FACELI, K. et al. Inteligência artificial: uma abordagem de aprendizado de máquina. Rio
de Janeiro: LTC, 2011.
RUSSEL, S. J.; NORVIG, P. Inteligência artificial. 3. ed. Rio de Janeiro: LTC, 2013.
SCIKIT-LEARN. California housing dataset. c2019. Disponível em: https://scikit-learn.org/
stable/modules/generated/sklearn.datasets.fetch_california_housing.html#sklearn.
datasets.fetch_california_housing. Acesso em: 14 fev. 2020.
WITTEN, I. H.; FRANK, E. Data mining: practical machine learning tools and techniques.
San Francisco, CA: Morgan Kaufmann Publishers, 2005.
16 Abordagens de aprendizagem de máquina e principais tarefas

Os links para sites da web fornecidos neste capítulo foram todos testados, e seu fun­
cionamento foi comprovado no momento da publicação do material. No entanto, a
rede é extremamente dinâmica; suas páginas estão constantemente mudando de
local e conteúdo. Assim, os editores declaram não ter qualquer responsabilidade
sobre qualidade, precisão ou integralidade das informações referidas em tais links.

Você também pode gostar