Aprendizado de Maquina

APRENDIZADO DE MÁQUINA
Introdução
Viu algum erro neste material? Contate-nos em: degravacoes@grancursosonline.com.br
INTRODUÇÃO
Nestas aulas, o conteúdo programático estará voltado a um entendimento introdutório e

teórico, que não se relaciona em grande medida com a estatística e questões mais práticas
que não serão abordadas nos concursos.
Como a cobrança de aprendizado de máquina ainda é muito incipiente nos concursos
brasileiros, a tendência é que ainda leve cerca de três anos para que conteúdos mais densos
sejam cobrados.
Agenda:
O curso será dividido nestas cinco etapas:

5m
• Aprendizado de máquina – introdução.

• Classificação: o modelo interessado em previsões por meio de auxílio de máquina. É
o que acontece com os modelos de programas lógicos que têm substituído o trabalho
de analistas de crédito em instituições financeiras.
• RNA.
• Regressão: modelos que abordam a questão de valores contínuos.
• Clusterização.
Aprendizado de Máquina
É uma área de IA cujo objetivo é o desenvolvimento de técnicas computacionais sobre

o aprendizado bem como a construção de sistemas capazes de adquirir conhecimento de
forma automática.
Em suma, trata-se da capacidade de treinar uma máquina com base em um gigantesco
banco de dados para que a máquina seja capaz de reconhecer padrões e classificar automa-
ticamente os dados de modo a aperfeiçoar determinado processo.
Dessa forma, as máquinas podem aprender com seus próprios erros, reconhecer padrões,
analisar os dados registrados em seu banco de dados e aprender e desempenhar funções de
forma extremamente eficiente.
10m
ANOTAÇÕES
www.grancursosonline.com.br 1
Introdução
A inteligência artificial consiste em dotar as máquinas de níveis sofisticados de raciocínio,

que podem se equiparar ou se aproximar ao raciocínio abstrato dos seres humanos e supe-
rá-los em termos de raciocínio lógico.
A inteligência artificial agrupa conceitos como aprendizado de máquina, robótica e mine-
ração de dados, realizando processos estatísticos para analisar dados extraídos de gigan-
tescos bancos de dados.
A partir do aprendizado de máquina, parte-se para um campo que engloba o reconheci-
mento de padrões, a visão computacional e o processamento de imagem.
Com isso, a máquina pode aprimorar o seu aprendizado com base em informações extra-
ídas padrões dentro de bases de dados, imagens, vídeos etc.
15m
• (Simon, 1983): “Aprender implica em alterações no sistema que são adaptativas, no

sentido que elas capacitam o sistema a realizar a mesma tarefa, ou tarefas provenien-
tes da mesma população, de forma mais eficiente e eficaz na próxima vez”.
Obs.: destarte, o sistema classificador é treinado com uma base de dados, tornando-se apto
para lidar com informações distintas.
• (Weiss & Kulikowski, 1991): “Um sistema de aprendizado [supervisionado] é um pro-

grama de computador que toma decisões baseadas na experiência contida em exem-
plos solucionados com sucesso”.
ANOTAÇÕES
Introdução
Obs.: na prática, consiste na criação de uma função lógica que possibilita o aprendizado da
máquina, que pode ser aprimorada com o tempo.
20m
• (Russel& Norvig 1995): “[...] todo aprendizado pode ser visto como o aprendizado de
uma função”.
Obs.: a classificação e a reversão trabalham com a previsão de saídas, enquanto a clusteri-

zação e o agrupamento são tarefas que separam os dados em grupos.
Tarefas Descritivas:
• Busca-se o desenvolvimento de algoritmos que descreverão os dados.

• Exemplo: agrupamento.
Tarefas Preditivas:
• Fazem previsões de alguma coisa a partir de uma entrada de dados.

• Podem ser divididas em tarefas de classificação e tarefas de regressão.
Paradigmas de AM:
• Simbólico.
– Construção de uma representação simbólica de um conceito por meio de exemplos
e contraexemplos.
25m
– Representação simbólica na forma de alguma expressão lógica, como árvores de
decisão e regras.
Os paradigmas costumam ser constituídos por árvores de parâmetros que descrevem de

maneira simbólica como a saída foi construída a partir de cada entrada.
ANOTAÇÕES
Introdução
Protótipo ou Memorização (Instance Based).
• Sistema que classifica um exemplo por meio de exemplos similares conhecidos.

• % Sistemas lazy necessitam manter os exemplos na memória para classificar novos
exemplos, em oposição aos sistemas gulosos (eager), que utilizam os exemplos para
induzir o modelo, descartando-os logo após.
• Exemplo: K-NN.
Ao imaginar um espaço com dois atributos (x, y) e três grupos (A, B e C) que comparti-
lham espaço entre os dois atributos. A partir do momento que o K-NN, por exemplo, é inse-
rido no meio dos dois atributos, o classificador acabam adicionando-o ao grupo com que tiver
maior afinidade, ou seja, utiliza-se de exemplos conhecidos para criar novos exemplos.
Paradigmas de AM – Conexionista:
• Redes neurais, as quais envolvem unidades altamente interconectadas.
O sistema conexionista é semelhante a uma rede neural artificial altamente conectada.
• Genético:
– Um classificador genético consiste de uma população de elementos de classificação
que competem para fazer a predição.
30m
– Elementos que possuem um desempenho ruim são descartados, enquanto os ele-
mentos mais fortes proliferam, produzindo variações.
– Alguns operadores genéticos básicos que aplicados à população geram novos indi-
víduos são: Reprodução, Cruzamento, Mutação e Inversão.
• Paradigmas de AM – Estatístico:
– Utilização de modelos estatísticos para encontrar uma boa aproximação do con-
ceito induzido.
– Vários desses métodos são paramétricos, assumindo alguma forma de modelo,
e então encontrando valores apropriados para os parâmetros do modelo a partir
dos exemplos.
ANOTAÇÕES
Introdução
– Dentre os métodos estatísticos, destacam-se os de aprendizado Bayesiano, que

utilizam um modelo probabilístico baseado no conhecimento prévio do problema, o
qual é combinado com os exemplos de treinamento para determinar a probabilidade
final de uma hipótese.
Em suma, lembre-se de que são utilizados cinco paradigmas de máquina: os simbólicos,

utilizados para representar o aprendizado que está sendo feito; protótipo, que é baseado em
exemplos; o conexionista, que faz uso da conexão de redes neurais; o genético, que gera classi-
ficadores genéticos e o estatístico que se utiliza de modelos estatísticos para realizar previsões.
�Este material foi elaborado pela equipe pedagógica do Gran Cursos Online, de acordo com a aula
preparada e ministrada pelo professor Vitor Alexandre Kessler de Almeida.
A presente degravação tem como objetivo auxiliar no acompanhamento e na revisão do conteúdo
ministrado na videoaula. Não recomendamos a substituição do estudo em vídeo pela leitura exclu-
siva deste material.
ANOTAÇÕES
Introdução II
INTRODUÇÃO II
O slide abaixo inicia a aula com uma informação nova acerca do aprendizado de
máquina: a divisão entre o aprendizado supervisionado e o aprendizado não supervisionado,
duas facetas do aprendizado intuitivo, que parte de exemplos externos coletados de uma
base de dados.
No aprendizado supervisionado, os exemplos estão rotulados, isto é, a classe é conhe-
cida, enquanto que no aprendizado não supervisionado não existe uma classe associada.
No aprendizado supervisionado ocorrem problemas de regressão e classificação.
Os exemplos estão rotulados quando a saída é conhecida. Tratam-se de diversos atribu-
tos de entradas que resultam em uma saída (x1, x2, x3, xn = y1). Quando a classe de saída
é conhecida, tem-se o aprendizado supervisionado, quando não há exemplo de saída, então
há um problema de exemplos que não são rotulados.
Seguindo o exemplo do classificador de pessoas, o modelo que possui a saída esperada
com base nas informações de uma pessoa que já recebeu crédito no passado, tem-se o
aprendizado supervisionado. Contudo, quanto não se tem tais informações acerca dos pre-
cedentes dessa pessoa, então o aprendizado não é supervisionado, pois os exemplos ofer-
tados, apesar de pautadas em determinada realidade, não constituem uma definição acerca
da pessoa em questão.
5m
ANOTAÇÕES
Introdução II
• Tipos de sistemas de aprendizado:

• Não Simbólico ou Caixa-preta:
– Não facilmente interpretado por humanos.
– Desenvolve sua própria representação de conceitos.
– Não fornece esclarecimento ou explicação sobre o processo de classificação.
No aprendizado de máquina, o teste caixa-preta indica a falta de conhecimento acerca

do processo que ocorre após a entrada dos dados, isto é, apesar de conhecer os dados de
entrada e observar os dados de saída, não se sabe qual foi o processo que ocorreu de trans-
formação dos dados.
Esse processo não é o mais indicado, pois não elucida os critérios que levaram à deter-
minada classificação.
• Simbólico ou Orientado a conhecimento:

– Cria estruturas simbólicas que podem ser compreendidas por seres humanos.
– ”Os resultados da indução devem ser descrições simbólicas das entidades dadas...
devem ser compreensíveis como simples ‘pedaços’ de informação, diretamente
interpretáveis em linguagem natural...” (Michalski 1983a).
10m
Indutor: Programa que gera uma hipótese (classificador) a partir de um conjunto de exemplos.
Na imagem acima, é possível observar os passos que envolvem inserir um dataset em

um indutor para gerar árvore de decisão. O classificador é uma instância do indutor.
ANOTAÇÕES
Introdução II
• Exemplo, caso ou registro (instance):

– É um conjunto fixo de atributos.
– Um exemplo descreve o objeto de interesse, tal como um paciente, exemplos médi-
cos sobre uma determinada doença ou histórico de clientes de uma dada companhia.
• Atributo ou campo (feature):

– Uma única característica de um exemplo.
• Domínio:
– Conjunto de valores que um atributo pode assumir.
• Classe:
– Atributo especial que descreve o fenômeno de interesse (somente no Aprendizado
Supervisionado).
• Tipos de atributo:
– Nominal (ou discreto ou categórico), quando o atributo assume valores em um con-
junto finito, sendo que alguns indutores podem também aceitar uma subdivisão entre
os atributos nominais:
15m
– Ordenado: o domínio é ordenado, mas a diferença absoluta dos valores é des-
conhecida (ex.: escala de temperatura: baixa, média, alta ou severidade de um
machucado).
– Não ordenado: não existe uma ordem entre os valores (ex.: cor: vermelho, verde,
azul; ocupação; estado civil, raça).
– Contínuo (ou numérico ou real), quando o domínio é ordenado e pode ser represen-
tado por um valor real (ex.: peso um número real).
• Tipos de atributo:
• Desconhecido ou faltante.
• Não se aplica: quando a informação não faz sentido em determinado contexto.
• Atributos relevantes e irrelevantes: certas informações podem influenciar conside-
ravelmente a depender do contexto e outras informações não. A cor de uma fruta em
uma foto, por exemplo, pode ser essencial para identificá-la, diferentemente do que
aconteceria com a data em que a foto foi tirada.
ANOTAÇÕES
Introdução II
• Um atributo é irrelevante se existe uma descrição completa e consistente das classes a

serem aprendidas que não usa aquele atributo.
• A busca é por atributos com alto poder preditivo.
ATENÇÃO
Durante a modelagem dos dados, a dimensionalidade pode fazer com que o excesso de
atributos em um modelo o torne ineficiente.
20m
Conjunto de exemplos:
A imagem abaixo mostra o exemplo de um dataset com n exemplos e n atributos. Além

disso, a classe é extremamente importante e deverá possuir um número determinado de
valores distintos, sendo utilizada para descrever os exemplos. No caso à direita, observa-se
um dataset de aprendizado não supervisionado, por conta da ausência de classe para orien-
tar os exemplos que nortearam, por sua vez, o aprendizado da máquina.
ANOTAÇÕES
Introdução II
Conjunto de exemplos de classificação:
Baseado em categorias discretas de rótulos com duas respostas possíveis.
• Conjunto de Exemplos de Regressão:
A saída no caso dos exemplos de regressão são números diversos.

ANOTAÇÕES
Introdução II
Conjunto de Exemplos de Aprendizado não Supervisionado:
Conjunto de Treinamento e de Testes:
O conjunto de exemplos é introduzido no indutor para prever a classe a partir dos dados
fornecidos e devolver o valor de um rótulo.
25m
O slide mostra a separação de um conjunto de dados entre um conjunto de treinamento e

um conjunto de teste. O treinamento é introduzido no indutor para gerar um classificador por
meio do cálculo do erro. Contudo, se o conjunto de treinamento for enviado diretamente para
calcular o erro, então será gerada uma taxa de erro aparente do classificador.
ANOTAÇÕES
Introdução II
O erro real, por outro lado, ocorre quando o indutor é treinado com um conjunto de dados
de treinamento e testa o indutor com um conjunto de teste, que não passou pelo treinamento.
Dessa forma, torna-se possível encontrar a taxa de erro verdadeira do classificador.
Em outros termos, a seleção de 500 exemplos de pessoas aprovadas em concurso inse-
ridas é feita, separando-se 400 casos para serem introduzidos no indutor e outros 100 casos
para utilizar como teste no classificador. Dessa forma, é possível observar a saída com taxa
de erro verdadeira.
30m
ANOTAÇÕES
Introdução III
INTRODUÇÃO III
• Classificador:
– Dado um conjunto de treinamento, um indutor gera como saída um classificador
(hipótese ou descrição de conceito) de forma que, dado um novo exemplo, ele possa
predizer precisamente sua classe.
– Cada exemplo é um par (x, f(x)), onde x é a entrada e f(x) é a saída (f desconhecida!).
– se y=f(x) assume valores discretos y ∈ {C1, C2,…,Ck}: classificação.
– se y=f(x) assume valores reais: regressão.
– Indução ou inferência indutiva: dada uma coleção de exemplos de f(·), retornar
uma função h(·) que aproxima f(·), ou seja, h(x) ≅ f(x).
O classificador é criado para simular a função de f(x). O classificador gera uma função
equivalente à função que está aprendendo.
Classificador:
A função F(x), dentre as opções abaixo, é o exemplo (b), pois é possível identificar todos
os elementos presentes no espaço bidimensional para a classificação. Contudo, diversas
funções diferentes podem ser utilizadas para representar F(x).
5m
O melhor classificador é aquele que mais se aproxima da função real.
ANOTAÇÕES
Introdução III
No aprendizado de máquina são utilizadas funções para identificar saídas. O classifica-

dor trabalha em um espaço n dimensional, apesar de não ser comum existirem dados com
dezenas de variáveis de entrada e apenas uma saída.
• Bias: qualquer critério de preferência de uma hipótese sobre outra (além da consistên-
cia com os exemplos).
• Um indutor é instável se uma pequena perturbação (variação) no conjunto de treina-
mento pode causar modificação no classificador gerado.
• Um indutor é estável se o classificador gerado não muda muito caso os exemplos de
treinamento se alterem.
• Há sempre um trade-off entre bias e variância:
– indutores instáveis, em geral, geram classificadores com alta variância mas com
pequeno bias.
– indutores estáveis, em geral, geram classificadores com baixa variância, mas com
alto bias.
Indutor não incremental (modo batch) versus indutor incremental.
O indutor não incremental recebe todo o conjunto de treinamento para resultar em um

classificador, enquanto que o indutor incremental precisa ser trabalhado exemplo a exemplo.
10m
Overfitting (overtraining):
• A hipótese extraída a partir dos exemplos é muito específica para o conjunto de

treinamento.
ANOTAÇÕES
Introdução III
O gráfico acima mostra uma área enfatizada que representa um conjunto extremamente
específico gerado pela repetição do conjunto de treinamento, o que pode acarretar em erros
quando as variáveis divergirem da hipótese induzida.
• Underfitting (pouco treino):

– A hipótese induzida apresenta um desempenho ruim tanto no conjunto de treina-
mento como de teste.
– Poucos exemplos representativos foram dados ao sistema de aprendizado (ex.:
algoritmos de árvores de decisão ou de indução de regras).
– O usuário predefiniu um tamanho muito pequeno para o classificador (ex.: insuficien-
tes neurônios em uma rede neural ou um alto valor de poda para árvores de decisão).
Com essas informações, pode-se compreender o gráfico acima como resultante do

excesso ou da falta de treino com o conjunto de treinamento e de teste. Perceba que, quanto
mais o modelo utiliza o conjunto de treinamento, melhores são os seus resultados com esse
conjunto; contudo, é necessário manter o equilíbrio adequado para não tornar o modelo ine-
ficiente no trato com o conjunto teste.
15m
ANOTAÇÕES
Introdução III
Consistência e Completude de um Classificador:
Nos primeiros dois conjuntos (a) e (c), os desempenhos são perfeitos, enquanto que os
modelos incompletos revelam certas inconsistências.
• Aprendizado Supervisionado:
– Compreender o relacionamento entre os atributos e a classe.
– Predizer a classe de novos exemplos o melhor possível.
Obs.: o conjunto de treinamento é acompanhado do rótulo.
Aprendizado Não Supervisionado:

– Encontrar representações úteis dos exemplos, tais como:
20m
- Encontrar agrupamentos (clusters).
- Redução da dimensão.
- Encontrar as causas ou as fontes ocultas dos exemplos.
- Modelar a densidade dos exemplos.
ANOTAÇÕES
Introdução III
Aprendizado Supervisionado:
O modelo de aprendizado supervisionado permite revelar para a classe do sujeito utili-

zado no exemplo, diferentemente do modelo não supervisionado em que o indutor precisa
decifrar a base para realiza o agrupamento.
Caso a saída do sistema de aprendizado resultar em dados consonantes com os exem-

plos, tem-se um reforço do aprendizado; caso contrário, o sistema receba um sinal de erro.
Aprendizado Não Supervisionado:
Neste caso, qualquer resultado pode ser obtido com base nos dados ofertados para
o indutor.
ANOTAÇÕES
Introdução III
Treinamento supervisionado e não supervisionado.
O exemplo acima mostra o modelo preditivo gerado pelo sistema supervisionado, que
permite ao modelo entender o que é um pato a partir dos exemplos dados e identificar uma
imagem diferente de um pato por já conseguir identificar os padrões ofertados. O segundo
exemplo mostra um resultado incerto ofertado pelo modelo não supervisionado, que não
busca trabalhar com uma previsão, mas apenas descreve os dados ofertados.
25m
ANOTAÇÕES
Métricas de Classificação
MÉTRICAS DE CLASSIFICAÇÃO
Matriz de Confusão
É uma tabela que permite a visualização do desempenho de um algoritmo de classificação.

Estas métricas são utilizadas, originalmente, em problemas de classificação, isto é,
quando a saída do modelo é uma classe, rótulo, ou qualquer dado não numérico. Por exem-
plo, utiliza-se o sistema para avaliar se um tumor é cancerígeno ou não.
A matriz irá indicar a quantidade que o modelo acertou e errou.
Em primeiro lugar, é preciso um indutor para gerar o modelo de classificação. Suponha-

-se que a imagem represente uma rede neural que irá avaliar se as amostras são fotos de
tumores malignos ou benignos. Das mil amostras, 100 são nódulos cancerígenos e 900 são
benignos. A rede neural irá receber essas fotos e aprender a classificar uma nova foto em
tumor maligno ou benigno.
5m
Agora, supondo que, das 100 imagens de nódulos cancerígenos, o sistema tenha classifi-
cado 20 imagens de maneira errada; e, dos benignos, tenha classificado 10 imagens erradas.
ANOTAÇÕES
Assim se organiza a matriz de confusão:
Nos quadros pretos estão as imagens que o sistema acertou a classificação.

Verdadeiro positivo: o modelo acertou a classificação positiva (encontrou o que estava
procurando).
Falso negativo: classificou como não sendo tumor maligno, mas era.
Falso positivo: classificou como sendo tumor maligno, mas não era.
Verdadeiro negativo: classificou como não sendo tumor maligno e, de fato, não era.
A Matriz de Confusão é uma tabela que permite a visualização do desempenho de um
algoritmo de classificação.
ANOTAÇÕES
Observa-se que se pode colocar o valor previsto e o valor verdadeiro no eixo x ou y, sem
afetar os resultados.
10m
Métricas
• Verdadeiro positivo (VP): quando o método diz que a classe é positiva e, ao verificar a
resposta, vê-se que a classe era realmente positiva;
• Verdadeiro negativo (VN): quando o método diz que a classe é negativa e, ao verificar
a resposta, vê-se que a classe era realmente negativa;
• Falso positivo (FP): quando o método diz que a classe é positiva, mas ao verificar a
resposta, vê-se que a classe era negativa;
• Falso negativo (FN): quando o método diz que a classe é negativa, mas ao verificar a
resposta, vê-se que a classe era positiva.
15m
A acurácia avalia o percentual de acertos, ou seja, ela pode ser obtida pela razão entre
a quantidade de acertos e o total de entradas:
Calculando a acurácia do modelo de exemplo: 80 + 890 / 80 + 20 + 10 + 890 =

970/1000 = 97,0%.
É importante se atentar ao problema de detecção de anomalia. Em uma base de dados
com poucos exemplos da anomalia, uma solução é passar os mesmos exemplos mais vezes
para que a máquina possa aprender.
Por outro lado, é preciso ter cautela com a acurácia, porque se a amostra tivesse, por
exemplo, 980 positivos, caso a rede neural dissesse que tudo é negativo, ela ainda iria acer-
tar 98% das vezes. Isso porque a rede neural sempre tenta encontrar a classificação que vai
fazê-la acertar na maior parte das vezes.
20m
Erro é igual a 1 – acurácia:
Erro = 1 – 0,97 = 3%.
A precisão é uma métrica que indica, das classificações positivas do modelo, quantas
foram acertadas.
ANOTAÇÕES
Verdadeiros Positivos = 80, Falsos Positivos = 10.
Em outras palavras, é a relação entre o que o modelo realmente acertou e o que o modelo
classificou como positivo, tendo acertado ou não.
A revocação (sensibilidade ou recall) é uma métrica que indica, das amostras positivas
existentes, quantas o modelo conseguiu classificar corretamente.
Verdadeiros Positivos = 80, Falsos Positivos = 10.
A especificidade avalia a capacidade do método de detectar resultados negativos.

Pode ser considerado o contrário do recall.
Especificidade = 890 / 890 + 10 = 890/900 = 98,9%

F-measure, F-score ou score F1 é uma média harmônica calculada com base na preci-
são e na revocação.
F1 = 2*0,88*0,80/0,88+0,80 = 2*0,704/1,68 = 83,8%.

25m
Trata-se da relação entre a quantidade que o modelo acerta de positivos e a quantidade
que o modelo tem de classificações acertadas.
Quanto maior o valor (VP+VN) em relação a (FN+FP), melhor é o modelo.
Navalha de Occam
Do latim “lex parsimoniae” – A lei da parcimônia (economia).

A explicação de qualquer fenômeno deve fazer o menor número possível de suposições,
eliminando aquelas que não fazem diferença nas predições observáveis da hipótese explica-
tiva ou da teoria.
ANOTAÇÕES
Em outras palavras, a ideia de “o que parece ser realmente é”.

O Dilema de Occam: infelizmente, em AM, acurácia e simplicidade estão em conflito.
Há uma tendência de diminuir o número de exemplos e atributos incluídos no modelo,
porém, na prática, quanto mais exemplos o modelo tiver, melhor será o seu treinamento. Em
certa medida, quanto mais atributos relevantes houver, há aumento da acurácia (teoricamente).
Maldição da Dimensionalidade
Aprender a partir de um espaço de característica de alta dimensionalidade requer uma

quantidade enorme de dados de treinamento para garantir que haja várias amostras com
cada combinação de valores.
Quanto mais atributos forem incluídos no modelo, mais exemplos são necessários para
encontrar todas as combinações de atributos possíveis. No entanto, mais complexo e lento
fica o treinamento do modelo.
O ideal é diminuir os atributos ou combiná-los (criar uma média entre eles, converter um
atributo numérico em não numérico etc.) a fim de diminuir a dimensionalidade.
Com uma quantidade fixa de número de instâncias de treinamento, o poder de preditibili-
dade reduz à medida que aumenta a dimensionalidade.
Observa-se que ao jogar os exemplos no espaço dimensional (figura do meio), já é pos-

sível dividi-los de forma linear. No entanto, ao adicionar um terceiro atributo (x3), o modelo se
complica desnecessariamente. Nesse caso, aumentar a quantidade de tributos não aumenta
o seu poder de previsão.
Questões de Concurso e Introdução à Aprendizagem de Máquina
QUESTÕES DE CONCURSO E INTRODUÇÃO À APRENDIZAGEM DE

MÁQUINA
DIRETO DO CONCURSO
1. (FGV/2021/TJ-RO/ANALISTA JUDICIÁRIO/ANALISTA DE SISTEMA/DESENVOLVI-
MENTO DE SISTEMA) A Inteligência Artificial (IA) apoia o desenvolvimento de soluções
tecnológicas capazes de realizar atividades similares às capacidades cognitivas huma-
nas. Como exemplo, a plataforma Sinapses, desenvolvida pelo Tribunal de Justiça do
Estado de Rondônia (TJRO) e adaptada para uso nacional, gerencia o treinamento su-
pervisionado de modelos de IA. Em soluções de IA, a tecnologia que possui a capacida-
de de melhorar o desempenho na realização de alguma tarefa por meio da experiência
usando dados de treinamento, podendo ser supervisionado ou não, é o(a):
a. Motor de Inferência (Inference Engine) de Sistemas Especialistas (Expert Systems);
b. Raciocínio Automatizado (Automated Reasoning);
c. Compreensão de Linguagem Natural (Natural-Language Understanding);
d. D Representação do Conhecimento (Knowledge Representation) usando Lógica de
Primeira Ordem (First Logic Order);
e. Aprendizado de Máquina (Machine Learning).
2. (FGV/2022/SEFAZ-AM/TÉCNICO DA FAZENDA ESTADUAL) O tipo de aprendizado

máquina, que consiste em treinar um sistema a partir de dados que não estão rotulados
e/ou classificados e utilizar algoritmos que buscam descobrir padrões ocultos que agru-
pam as informações de acordo com semelhanças ou diferenças, é denominado
a. dinâmico.
b. sistêmico.
c. por reforço.
d. supervisionado.
e. não supervisionado.
5m
3. (CESGRANRIO/2021/BANCO DO BRASIL/AGENTE DE TECNOLOGIA) Ao tentar re-

solver um problema de aprendizado de máquina que separava um evento entre duas
classes, um desenvolvedor encontrou uma acurácia de exatamente 90%.
Analisando a matriz de confusão, o desenvolvedor constatou que os verdadeiros posi-
tivos eram 14169, que os verdadeiros negativos eram 15360, os falsos positivos eram
1501, e os falsos negativos eram
a. 1778.
b. 1779.
c. 1780.
d. 1781.
e. 1782.
RESOLUÇÃO
4. (CESPE/CEBRASPE/2022/PETROBRAS/CIÊNCIA DE DADOS) As métricas de avalia-

ção de desempenho de um modelo de aprendizado de máquina, que é um componente
integrante de qualquer projeto de ciência de dados, destinam-se a estimar a precisão da
generalização de um modelo sobre os dados futuros (não vistos ou fora da amostra).
A matriz de confusão a seguir apresenta três rótulos de classe; os elementos diagonais
representam o número de pontos para os quais o rótulo previsto é igual ao rotulo verda-
deiro, enquanto qualquer coisa fora da diagonal teve um rótulo atribuído erroneamente
pelo classificador. Quanto menores forem os valores diagonais da matriz de confusão,
melhor o modelo adotado.
ANOTAÇÕES
COMENTÁRIO
Quanto mais verdadeiros legumes, verdadeiras hortaliças e verdadeiras frutas houver no
modelo, mais o modelo está acertando.
5. (FGV/2022/CGU/AUDITOR FEDERAL DE FINANÇAS E CONTROLE/TECNOLOGIA

DA INFORMAÇÃO) Considere uma matriz de confusão de um modelo de classificação
binária de relatórios financeiros. O modelo classifica os relatórios em fraudulentos ou
não fraudulentos. Se essa matriz apresenta 200 verdadeiros positivos, 100 verdadeiros
negativos, 40 erros do “tipo 1” e 20 erros do “tipo 2”, podem-se calcular as métricas de
desempenho aproximadas como:
10m
a. Precision = 0.71. Recall = 0.83;
b. Precision = 0.83. Recall = 0.71;
c. Precision = 0.83. Recall = 0.90;
d. Precision = 0.90. Recall = 0.71;
e. Precision = 0.90. Recall = 0.83.
RESOLUÇÃO
Obs.: caberia recurso, porque o ideal seria arredondar o 0,909 para 0,91, não para 0,90.
6. (NC-UFPR/2019/ITAIPU BINACIONAL/PROFISSIONAL DE NÍVEL UNIVERSITÁRIO

JR/GESTÃO DA INFORMAÇÃO) Classificação é uma tarefa que identifica a qual classe
um objeto pertence. O desempenho do classificador depende da sua flexibilidade (bias)
e da qualidade do treinamento (variância). No entanto, não existe um classificador que
seja melhor que todos os outros para todos os problemas de classificação. As medidas
de avaliação de desempenho de classificadores trazem informações sobre taxas de
erro ou acerto para um ou mais conjuntos de dados. Nesse sentido, considere a matriz
de confusão binária abaixo:
Realize os cálculos e identifique como verdadeiras (V) ou falsas (F) as seguintes

afirmativas:
�( ) TVP (Taxa de Verdadeiros Positivos) = 0,9.

�( ) TFP (Taxa de Falsos Positivos) = 0,1.( ) ACC (Acurácia) = 0,7.
�( ) E (Erro) = 0,3.
Assinale a alternativa que apresenta a sequência correta, de cima para baixo.

a. V – F – V – F.
b. F – F – F – V.
c. V – V – F – V.
d. F – F – V – V.
e. V – V – F – F.
RESOLUÇÃO
Com base na tabela:
VP = 8;
FN = 2;
FP = 4;
VN = 6.
Começando com a acurácia:
15m
Sendo assim, a taxa de erros é de 0,3.

Apenas com essas duas afirmações é possível saber qual a alternativa correta.
7. (FUNDEP/GESTÃO DE CONCURSOS/2018/CODEMIG/ANALISTA DE GEOPROCES-

SAMENTO) O processo de atribuir um significado a um pixel de uma imagem digital em
função de suas propriedades numéricas é denominado de classificação. Em decorrência
do grau de participação do analista no processo de classificação, esse processo pode ser
denominado de classificação supervisionada e classificação não supervisionada. Posto

isso, analise as afirmativas a seguir e assinale com V as verdadeiras e com F as falsas.
�( ) A classificação supervisionada é um passo importante a ser executado antes da

classificação não supervisionada.
�( ) Na classificação não supervisionada, os pixels de uma imagem são alocados auto-
maticamente em classes criadas pelo sistema computacional.

�( ) A matriz de confusão é um artifício utilizado para computar os erros do processo de
classificação e conhecer a qualidade desse processo, seja pelo método supervisio-

nado ou pelo não supervisionado.
�( ) O método de classificação pelas K-médias tem por essência fazer com que todas
as classes tenham valor médio e variância similares.

Assinale a sequência CORRETA.
a. V F V V.
b. F V V F.
c. V F F V.
d. V F V F.
COMENTÁRIO
Se há alguém supervisionando e trazendo informações, trata-se de classificação supervi-
sionada; se não, é classificação não supervisionada.
I. Não existe relação entre as classificações.
II. É uma espécie de cluster.
III. No agrupamento, que é método não supervisionado, não há rótulos: o próprio sistema
atribui os exemplos em classes, sem conhecimento dos rótulos. Porém, é possível que, no
conjunto de validação, o programador conheça os rótulos para verificar se o agrupamento
foi bem ou não.
IV. No método de K-médias, as classes não têm valor médio.
8. (CESPE/CEBRASPE/2021/PC-DF/AGENTE DE POLÍCIA DA CARREIRA DE POLÍCIA

CIVIL DO DISTRITO FEDERAL) Uma das aplicações de Python é o aprendizado de
máquina, que pode ser exemplificado por um programa de computador que aprende
com a experiência de detectar imagens de armas e de explosivos em vídeos, tendo
ANOTAÇÕES
seu desempenho medido e melhorado por meio dos erros e de acertos decorrentes da
experiência de detecção.
20m
COMENTÁRIO
Aprender com experiência significa que a máquina é treinada com um conjunto de dados e
fica experiente nesse conjunto, de modo que é capaz de fazer previsões em um conjunto
de dados que ela não conhece.
9. (CESGRANRIO/2012/EPE/ANALISTA DE GESTÃO CORPORATIVA/TECNOLOGIA

DA INFORMAÇÃO) As técnicas de mineração de dados podem ser categorizadas em
supervisionadas e não supervisionadas.
As técnicas de árvores de decisão, agrupamento e regras de associação são categori-
zadas, respectivamente, como
a. não supervisionada, não supervisionada, não supervisionada.
b. não supervisionada, supervisionada e não supervisionada.
c. supervisionada, não supervisionada e não supervisionada.
d. supervisionada, não supervisionada e supervisionada.
e. supervisionada, supervisionada e supervisionada.
COMENTÁRIO
Árvore de decisão é supervisionada; agrupamento e regras de associação não são super-
visionados.
10. (CESGRANRIO/2018/BANCO DO BRASIL/ESCRITURÁRIO) Um desenvolvedor de

uma instituição bancária foi designado para tentar usar técnicas de aprendizado de má-
quina para, dado o saldo diário durante um ano de um cliente, classificá-lo como BOM
ou MAU candidato a receber um cartão de crédito VIP. Para isso, a única informação
que pode usar – e que ele recebeu – é um conjunto de treinamento com 50.000 clientes
pré- classificados pelos seus gerentes, contendo 365 campos com os saldos diários e
um campo com o número 1, caso o cliente fosse um BOM candidato, ou o número 0
(zero), caso fosse um MAU candidato. Essas respostas são consideradas corretas.
ANOTAÇÕES
Considerando as práticas tradicionais de aprendizado de máquina, o desenvolvedor

deve escolher um algoritmo
a. supervisionado, porque humanos precisarão verificar a execução do algoritmo.
b. supervisionado, porque o conjunto de treinamento possui dados e rótulo, sendo
necessário aprender a função que prediz o rótulo correto.
c. não supervisionado, porque humanos não precisarão verificar a execução do algoritmo.
d. não supervisionado, porque o conjunto de treinamento possui dados e rótulo, sendo
necessário aprender a função que prediz o rótulo correto.
e. não supervisionado, porque, no futuro, os rótulos não estarão disponíveis.
11. (FGV/2022/CGU/AUDITOR FEDERAL DE FINANÇAS E CONTROLE/TECNOLOGIA

DA INFORMAÇÃO) Um time de ciência de dados utilizou um modelo linear para resol-
ver uma tarefa de análise de dados financeiros provenientes de diferentes unidades
de uma organização. Um membro do time, que não participou da modelagem, testa o
modelo e verifica que ele apresenta um péssimo resultado. Preocupado, ele busca os
resultados apresentados no treino e pode concluir que ocorreu:
a. underfitting, se o resultado do treino foi ótimo. Uma possível solução é a utilização de
um modelo mais complexo e a redução do tempo de treinamento;
b. underfitting, se o resultado do treino também foi péssimo. Uma possível solução é a
utilização de um modelo menos complexo e métodos de validação cruzada;
c. overfitting, se o resultado do treino também foi péssimo. Uma possível solução é a
utilização de técnicas de regularização e métodos de validação cruzada;
d. overfitting, se o resultado do treino foi ótimo. Uma possível solução é a utilização de
um modelo menos complexo e métodos de validação cruzada;
e. overfitting, se o resultado do treino foi ótimo. Uma possível solução é a utilização de
um modelo mais complexo e o aumento do tempo de treinamento
COMENTÁRIO
Underfitting é quando a máquina não é treinada o suficiente e, por isso, o sistema come-
te erros.
25m
Overfitting, por outro lado, é quando se treina demais; no entanto, se o sistema deve avaliar
um conjunto de dados ao qual ele não teve acesso anteriormente, ele erra.
ANOTAÇÕES
O método de validação cruzada funciona da seguinte maneira: ao mesmo tempo em que

os sistemas são treinados com o conjunto de treinamento, realiza-se a validação com as
métricas do conjunto de validação. Em determinado momento, o sistema começa a acertar
mais do que o conjunto de validação.
GABARITO
1. e
2. e
3. c
4. E
5. c
6. d
7. b
8. C
9. c
10. b
11. d
ANOTAÇÕES
Introdução à Classificação e Árvores de Decisão
INTRODUÇÃO À CLASSIFICAÇÃO E ÁRVORES DE DECISÃO
CLASSIFICAÇÃO E ÁRVORES DE DECISÃO
Classificação
Um problema de classificação tem um valor discreto como saída. Utilizando como exem-
plo os dados abaixo, em que o tributo é a idade, e a classificação é se a pessoa gosta de
abacaxi na pizza ou não: é atribuído 1 para quem gosta de abacaxi na pizza, e 0 para quem
não gosta. Jogando esses dados em um problema de classificação, o modelo vai dizer se a
pessoa gosta ou não de abacaxi na pizza a partir de sua idade.
idade gosta de abacaxi na pizza

42 1
65 1
50 1
76 1
96 1
50 1
91 0
58 1
25 1
23 1
75 1
46 0
87 0
96 0
45 0
32 1
63 0
21 1
26 1
93 0
68 1
96 0
Assim, em classificação, tem-se valor discreto na saída; é uma classe, um valor não con-
tínuo, um ABC, um 0 ou 1. Atribui-se um objeto/evento a uma categoria, pertencente a um
conjunto finito de categorias.
Alguns exemplos de algoritmo de aprendizagem de máquina de classificação já comuns
na literatura e utilizados no dia a dia:
• Diagnóstico médico: analisar qual o diagnóstico de um paciente através dos sintomas

apresentados na anamnese, ou através de fotos e exames;
• Detecção de fraude em cartões de crédito: verificar anomalias nas compras de um
determinado cliente (uma compra que não faz sentido de acordo com o histórico
dessa pessoa);
• Detecção de vírus em redes de computadores;
• Filtragem de spam em e-mails;
• Bioinformática (sequências de DNA);
• Reconhecimento de caracteres;
• Reconhecimento de imagens.
Exemplos de Classificadores:
• Árvore de Decisão;
5m
• Random Forest;
• k-Nearest Neighbor;
• Naïve Bayes;
• Regressão Logística;
• Análise Discriminante Linear;
• SVM (Support Vector Machines);
• RNA (Redes Neurais Artificiais) – esta merece maior atenção, por ser a mais conhe-
cida e a mais é cobrada em concursos.
ANOTAÇÕES
DIRETO DO CONCURSO
1. (CESPE/2018/POLÍCIA FEDERAL/AGENTE DE POLÍCIA FEDERAL) Julgue o item que
segue, relativo a noções de mineração de dados, big data e aprendizado de máquina.
Situação hipotética: Na ação de obtenção de informações por meio de aprendizado de
máquina, verificou-se que o processo que estava sendo realizado consistia em exami-
nar as características de determinado objeto e atribuir-lhe uma ou mais classes; verifi-
cou-se também que os algoritmos utilizados eram embasados em algoritmos de apren-
dizagem supervisionados.
Assertiva: Nessa situação, a ação em realização está relacionada ao processo de
classificação.
COMENTÁRIO
A classificação é um processo de aprendizagem supervisionado em que são analisadas as
características de determinado objeto para atribuir-lhe um ou mais rótulos (classes).
2. (CESGRANRIO/2018/TRANSPETRO/ANALISTA DE SISTEMAS JÚNIOR/SAP) Clas-

sificação é uma importante tarefa utilizada na etapa de mineração de dados, que tem
como uma de suas características básicas:
a. construir seus modelos de enquadramento, a partir de um conjunto de dados contínuos.
b. poder ser implementada por algoritmos estáveis e de significativa eficácia, tais como
C4.5, classificadores bayesianos ou K-Prototypes.
c. ser um método de aprendizado de máquina não supervisionado, observando o teo-
rema NFL ‒ No Free Lunch.
d. ter a sua eficácia avaliada por uma métrica denominada suporte, que indica quantas
vezes um item de dado foi corretamente classificado.
e. ter como seu primeiro processo o aprendizado de uma função de mapeamento y =
f(X), que associa uma ocorrência de dados X em uma classe.
ANOTAÇÕES
COMENTÁRIO
a. Não está relacionado à classificação.
b. K-Prototypes é um algoritmo de agrupamento.
c. A classificação é supervisionada.
d. Essa métrica não está relacionada à classificação.
3. (INSTITUTO AOCP/2020/MJSP/CIENTISTA DE DADOS - BIG DATA) Dentre os mé-

todos de mineração de dados, existem aqueles que são supervisionados e os não su-
pervisionados. Assinale a alternativa que apresenta corretamente um dos métodos su-
pervisionados mais comuns para a aplicação da mineração de dados que é voltado às
tarefas frequentes do dia a dia.
a. A Regras de associação.
b. Bubble sort
c. Clusterização
d. Classificação.
e. Formulação.
COMENTÁRIO
a. Regras de associação são não supervisionadas.
b. Bubble sort é algoritmo de ordenação.
c. Clusterização é não supervisionada.
e. Formulação não é parte dessa matéria.
ÁRVORE DE DECISÃO
A árvore de decisão é uma técnica utilizada para Classificação e consiste em um mapa

dos possíveis resultados de uma série de escolhas (white model). Começando pela raiz, é
possível seguir caminhos diferentes; é como se houvessem vários “se” (“if”) da programação
criando um caminho da raiz até as folhas a cada tomada de decisão (“nó”).
ANOTAÇÕES
A árvore de decisões é formada por 3 partes principais:
• Raiz: é a primeira decisão a ser tomada pelo usuário. A partir dela as pessoas são redi-
recionadas a outras decisões, de acordo com sua escolha nessa questão;
• Nós: são todas as decisões apresentadas ao longo da árvore;
• Folhas: são os resultados da árvore de decisões. A classificação é realizada nas folhas.
10m
ATENÇÃO
Não é cobrada em concursos a construção matemática por trás de uma árvore de decisão.
Mais um exemplo de árvore de decisão, indicando a classificação de frutas:
É importante notar que as folhas não estão apenas ao fim das árvores. Alguns galhos
da árvore são mais complexos e necessitam de mais decisões para chegar à classificação,
enquanto outros, mais simples, permitem chegar a ela mais rapidamente.
Em resumo, a árvore de decisão é um método de classificação com diversas tomadas de
decisão até chegar na classificação. Essas árvores dividem o espaço de características em
eixos paralelos retangulares e rotulam cada retângulo com uma classe.
Podem ser reescritas como um conjunto de regras, por exemplo, em forma normal disjun-
tiva (DNF) e, por isso, pode ser lida:
– red ^ circle → pos
green → pos
– red ^ circle → A
blue → B; red ^ square → B
green → C; red ^ triangle → C
ANOTAÇÕES
Atributos contínuos podem ser usados, fazendo o nó dividir o domínio do atributo entre
dois intervalos baseados em um limite (ex.: tamanho < 3 e tamanho ≥ 3). Além disso, não é
preciso normalizar os dados para que sejam utilizados nas árvores, diferentemente do que é
feito nas redes neurais artificiais.
15m
As árvores de classificação têm valores discretos nas folhas, pois é onde fica a classifica-
ção; as árvores de regressão têm valores reais nas folhas.
Algoritmos para encontrar árvores consistentes são eficientes e podem processar gran-
des quantidades de dados de treinamento. Quanto mais dados de treinamento a árvore de
decisão tiver, melhor ela será.
Como dito anteriormente, as árvores de decisão não necessitam de manipulação de
dados (exemplo: métodos de normalização). Alguns conceitos são de difícil aprendizagem
em árvores de decisão, gerando árvores extremamente grandes ‒ por exemplo, XOR, que
resulta em um valor lógico verdadeiro se e somente se os dois operandos forem diferentes;
ou seja, se um for verdadeiro e o outro for falso. As árvores não são tão boas para trabalhar
dados não lineares; elas funcionam, mas ficam gigantescas.
A maioria dos algoritmos de aprendizagem de árvores derivam do algoritmo ID3:
• C4.5 e C5.0 são os mais recentes;

• O ID3 aprende a árvore usando uma estratégia top-down: ele passa por toda a base
de dados e escolhe os atributos mais relevantes do conjunto para formar a raiz; os
segundos atributos mais relevantes são colocados na segunda estrutura de decisão, e
assim por diante, até chegar às folhas.
Algoritmo Básico
O melhor atributo é selecionado e usado como raiz da árvore. Um descendente (sub-ár-

vore) do nó raiz é criado para cada valor possível desse atributo, e os exemplos de treina-
mento são ordenados para o nó descendente apropriado.
Esse processo é repetido, usando exemplos com cada nó descendente para selecionar
o melhor atributo para avaliar naquele ponto da árvore.
20m
ANOTAÇÕES
Overfitting
Quando mais nódulos forem colocados na árvore, melhor fica o treinamento, e a acurácia
se aproxima de 1. Porém, enquanto o conjunto de treinamento melhora, o conjunto de teste
se estabiliza e, então, se deteriora. Isso acontece, porque a árvore de decisão vai apren-
dendo e criando nós, crescendo, de acordo com o conjunto de treinamento – que, geral-
mente, não representa o conjunto de exemplos por completo.
Quando se adicionam exemplos aos quais a árvore de decisão não teve acesso, ela
começa a errar a classificação na medida em que ela se especializa no conjunto de treina-
mento. Isso resulta em overfitting.
Para evitar overfitting:
• Pré-Poda: parar de crescer a árvore quando não há mais dados suficientes para fazer
previsões confiáveis (ou seja, quando o conjunto de testes começar a dar errado);
• Pós-Poda: constrói-se a árvore toda, mas só vai funcionar com o treinamento, e depois
são removidas as sub-árvores com menos relevância, ou seja, com mais erros.
Métodos para Poda:
• Validação Cruzada: reservar alguns dados de treinamento (conjunto de validação)

para avaliar utilidade das sub-árvores;
ANOTAÇÕES
• Testes Estatísticos: usa o teste para determinar se a regularidade observada foi devida
ao acaso, ou se aquele pedaço de árvore, de maneira relevante e estatisticamente
comprovada, piora o modelo;
• Comprimento da Descrição Mínima (MDL): determina se a complexidade adicional da
hipótese é mais complexa que lembrar explicitamente as exceções resultantes da poda.
DIRETO DO CONCURSO
4. (IADES/2018/SES – DF/ANALISTA DE SISTEMAS) A árvore de decisão apresentada é
utilizada para decidir se a compra de um notebook deve ser realizada ou não. De acor-
do com essa árvore de decisão, qual perfil resultaria em uma indicação positiva quanto
à compra do computador?
a. Jovem estudante.
b. Jovem estudante sem emprego fixo.
ANOTAÇÕES
c. Pessoa de meia idade com saúde ruim.

d. Pessoa idosa com crédito razoável.
e. Pessoa de meia idade com boa saúde com seguro de vida.
COMENTÁRIO
As indicações positivas são as que resultam em “sim”; há três “sim” nas folhas da árvore,
resultados das seguintes sequências: jovem, não estudante e com emprego fixo; pessoa de
meia-idade, com boa saúde e sem seguro de vida; e uma pessoa idosa com crédito razoável.
25m
5. (CS-UFG/2018/UFG/ASSISTENTE EM ADMINISTRAÇÃO) Uma das ferramentas que

auxilia no processo de tomada de decisão é a árvore de decisão. Ela se caracteriza por:
a. ser uma técnica que permite a visualização gráfica das possibilidades ou alternativas
de decisões.
b. gerar uma tabela ilustrativa das várias possibilidades de decisões e seus respectivos
resultados.
c. idealizar uma matriz que compara várias alternativas com atribuições de pesos para
diferentes critérios de decisões.
d. analisar prós e contras, vantagens e desvantagens sobre diferentes tomadas
de decisões.
COMENTÁRIO
b. A árvore de decisão não é uma tabela.
c. A árvore de decisão não é uma matriz.
d. Essa não é a principal característica da árvore.
6. (CESPE/CEBRASPE/2022/PETROBRAS/CIÊNCIA DE DADOS) Uma árvore de deci-

são representa um determinado número de caminhos possíveis de decisão e os resul-
tados de cada um deles, apresentando muitos pontos positivos, ou seja, são fáceis de
entender e interpretar. Elas têm processo de previsão completamente transparente e
lidam facilmente com diversos atributos numéricos, assim como atributos categóricos,
podendo até mesmo classificar dados sem atributos definidos.
De acordo com os aspectos construtivos de uma árvore de decisão, julgue o item a seguir:
ANOTAÇÕES
A entropia de uma árvore de decisão aborda o aspecto da quantidade de informações

que está associada às respostas que podem ser obtidas às perguntas formuladas, re-
presentando o grau de incerteza associado aos dados.
COMENTÁRIO
A entropia das árvores de decisão está ligada à quantidade de nós que cada árvore está
criando. É a quantidade de informação que está associada às respostas que podem ser
obtidas às perguntas formuladas, representando o grau de incerteza associado aos dados.
A entropia, então, é a incerteza relacionada ao conjunto de dados que é colocado na árvore
de decisão, e influencia diretamente a construção da decisão.
7. (CESPE-CEBRASPE/2022/TCE-RJ/ANALISTA DE CONTROLE EXTERNO) Com refe-

rência aos conceitos e técnicas de mineração de dados, julgue o item seguinte:
Em um modelo para um aprendizado supervisionado dos dados no formato de uma
árvore de decisão, um algoritmo de construção da árvore busca minimizar a informação
necessária para classificar os dados nas partições da árvore.
COMENTÁRIO
O algoritmo de construção de árvore trabalha minimizando a entropia dos dados: quanto
menos decisões necessárias, melhor.
8. (CESPE-CEBRASPE/2021/SERPRO/ANALISTA/ESPECIALIZAÇÃO: CIÊNCIA DE
DADOS) As árvores de decisão apresentam significativa independência dos dados de
treinamento, o que garante forte estabilidade dos caminhos em caso de mudanças
nos dados.
COMENTÁRIO
A árvore de decisão é criada de acordo com o conjunto de treinamento. Se esse conjunto
for mudado, a árvore criada será completamente diferente.
30m
ANOTAÇÕES
GABARITO
1. C
2. e
3. d
4. d
5. a
6. C
7. C
8. E
ANOTAÇÕES
Algoritmos de Classificação
ALGORITMOS DE CLASSIFICAÇÃO
Random Forest
Random Forest (ou floresta randômica) é um algoritmo de classificação baseado em

árvore de decisão. Nesse sentido, cada árvore de decisão tem uma saída/uma folha dife-
rente ou não. Diante disso, todas as decisões são consideradas, tira-se a média de todas
as previsões da floresta da árvore de decisão. Logo, essa média será a previsão da floresta
randômica.
Portanto, o algoritmo Random Forest nada mais é que uma floresta de árvores de deci-
são. Assim, treina-se diversas árvores de decisão escolhendo a melhor saída que representa
todas as árvores que foram treinadas.
ANOTAÇÕES
DIRETO DO CONCURSO
(QUADRIX/2022/CRA-PR/ANALISTA SISTEMAS I) Com relação aos conceitos de
machine learning e deep learning, julgue o item.
Entre as técnicas de machine learning, a random forest é capaz de solucionar proble-
mas de classificação e de regressão, por meio da construção e dos treinamentos de
árvores de decisão.
k-Nearest Neighbors
KNN é um algoritmo que classifica novos dados com base em uma medida de similari-
dade entre seus “vizinhos” mais próximos, ou seja, aqueles que têm características seme-
lhantes às suas.
Nesse método, utiliza-se a distância (usualmente a Euclidiana) entre uma nova observa-
ção e as demais observações de um training set para observação mais próxima. .
5m
abaixo, é possível observar exemplos com duas variáveis de dois atributos, em que os
vermelhos são da classe vermelha e os azuis da classe azul. Com isso, classifica-se um
novo elemento com base numa medida de similaridade entre os seus vizinhos. Esse novo
elemento é representado pelo quadradinho cinza.
Por sua vez, dependendo da medida de similaridade que se utilizará, será possível ava-
liar de qual dos atributos (vermelho ou azul) o quadrado cinza está mais próximo.
Nesse método, geralmente se utiliza a distância euclidiana, que é aquela distância repre-
sentada no gráfico pelas linhas cinzas. Já o “k” determina o número de vizinhos que serão
utilizados para a classificação. Em suma, o KN consiste em plotar um conjunto de dados de
treinamento no espaço dimensional onde se sabe qual é a classe de cada um. No exemplo
ANOTAÇÕES
Sendo k igual a 2, o quadrado cinza é da classe azul. Caso k seja igual a 5, ele migra para
a classe vermelha. Agora observe nas próximas imagens a confirmação do que foi dito sobre
essa migração de classe do k de acordo com os diferentes valores que ele pode possuir.
ANOTAÇÕES
O elemento que acabou de ser inserido na base treinamento será roxo. Isso porque dos
três mais próximos dele dois são roxos.
Nessa imagem acima, sendo o k igual a 3, o elemento vermelho será roxo. Já se o k for
igual a 6, o vermelho se torna amarelo. Portanto, esta é a ideia do K-NN: constrói-se um
espaço dimensional e, de acordo com o número de variáveis, plota-se todos os elementos
de treinamento, de modo que cada um terá sua classe definida (roxo, amarelo, azul, etc). .
10m
A partir disso, plota-se novos elementos no espalho n dimensional, verificando quais são os
vizinhos mais próximos.
DIRETO DO CONCURSO
1. (CESGRANRIO/2021/BANCO DO BRASIL/AGENTE DE TECNOLOGIA) Um pesqui-
sador conseguiu uma base de dados que mostrava terrenos classificados de acordo
com: características físicas; tipo de negócio a ser nele implantado; risco esperado, que
compreendia os rótulos alto, médio, baixo ou nenhum. Decidiu, então, usar um algo-
ANOTAÇÕES
ritmo de aprendizado de máquina que, a partir das características físicas do terreno e

do tipo de negócio a ser nele implantado, aprenderia a determinar o risco esperado,
enquadrando o terreno em questão em um daqueles rótulos.
Nesse cenário, que algoritmo de aprendizado de máquina é indicado para resolver
esse problema?
A. PCA
B. K-NN
C. DBSCAN
D. K-Medoids
E. Redes de Kohonen
COMENTÁRIO
• Letra a: É um algoritmo que se utiliza para reduzir principalmente a dimensionalidade.
• Letra d: É um algoritmo mais de agrupamento.
• Letra e: É uma rede neural artificial não supervisionada que é utilizada para problemas
de agrupamento.
2. (CESPE/CEBRASPE/2021/SEFAZ-AL/AUDITOR FISCAL DE FINANÇAS E CON-

TROLE DE ARRECADAÇÃO DA FAZENDA ESTADUAL) O método k-NN (k-nearest
neighbors) é um dos classificadores não paramétricos baseados em distância.
COMENTÁRIO
Pode-se classificar os classificadores em paramétricos e não paramétricos. Isso não tem
nada a ver com o número de parâmetros e sim com a função que eles irão mapear. Nes-
se sentido, se um classificador utiliza uma função majoritariamente para classificar que
já existe no mercado, ele é paramétrico. Então, a regressão logística é um classificador
paramétrico e se comporta como uma função. Já se o classificador não se comporta como
uma função, ele é não paramétrico. .
15m
Por serem não lineares, a maioria dos algoritmos de classificação exprimem funções que
não são possíveis de serem expressas por meio de uma equação.
ANOTAÇÕES
3. (CESPE/CEBRASPE/2022/PETROBRAS - CIÊNCIA DE DADOS) Com respeito a

métodos para imputação de dados, julgue o seguinte item. O método de imputação
K-NN (k-nearest neighbours) leva em consideração os padrões de similaridade pre-
sentes no conjunto de dados para predizer os valores faltantes. No entanto, a escolha
da função de distância para a aplicação desse método, como, por exemplo, HEOM
(heterogeneous euclidean-overlap metric) ou HVDM (heterogeneous value difference
metric), pode influenciar significativamente nos resultados da imputação.
COMENTÁRIO
• Imputar dados é inserir dados onde se eles estão faltantes.
• Mesmo existindo variações, a principal função de distância é a euclidiana.
• Posto isso, a escolha da função de distância pode influenciar significativamente nos re-
sultados da imputação.
20m
Naive Bayes
Utiliza-se um conjunto de estatísticas e probabilidades para fazer a classificação. Nesse

sentido, a aplicação mais famosa das ideias de Naive Bayes é ilustrada pelo seguinte exem-
plo: Tem-se um e-mail e se deseja saber se ele é ou não um spam. Logo, isso é um problema
clássico de classificação. Para isso, tem-se que ter uma base de treinamentos de e-mails
que são spams e outra que não são. E nessa base de e-mails de spam, os atributos serão
as palavras que estão escritas no e-mail. Diante disso, pode-se decidir por fazer uma análise
das palavras-chave que mais definem um rótulo que mais tem probabilidade de ser um spam.
Por sua vez, a proposta de Bayes sustenta pegar todas as probabilidades condicionais e cal-
cular suas as probabilidades, montando uma matriz de probabilidades. Com isso, prende-se
essa matriz na base de treinamento. Após isso, pega-se um novo exemplo, que ainda não foi
classificado como spam ou não, e o joga dentro da máquina de probabilidades para verificar
se ele é spam ou não. Portanto a ideia de Bayes é descobrir a classificação de um exemplo
a partir das probabilidades condicionais.
Assim, a proposta de Naive Bayes consiste numa família de algoritmos de aprendizado
supervisionado baseados em probabilidade.
ANOTAÇÕES
• Teorema de Bayes:
Ou seja, duas pessoas a cada dez mil que chegam no consultório tem meningite. Veja
que a probabilidade de meningite que uma pessoa que chega no consultório é de 1 a cada
50.000. Porém, se a pessoa já chega reclamando de torcicolo, a chance é dez vezes maior
da pessoa ter meningite. .
25m
Assim, pega-se todos os outros atributos para calcular as probabilidades condicionais de
cada um dos sintomas. A partir disso, junta-se todas essas probabilidades no classificador
para se obter a probabilidade final da pessoa ter meningite.
O nome dele é Naive Bayes porque ele faz duas suposições ingênuas:
• Todas as características do conjunto de dados não dependem um do outro. (Essa é

uma suposição ingênua porque se sabe que geralmente existe essa relação).
Por exemplo: a cor da casca de uma fruta sendo vermelha, a chance do outro atributo
(interior) ser amarela é grande. Logo, dado que uma fruta é vermelha por fora, a probabili-
dade do interior da fruta ser amarela é alta. Assim, existe uma dependência entre esses dois
atributos no classificador de fotos de fruta.
De todo modo, mesmo sabendo que essa é uma suposição ingênua, Bayes fez a propo-
sição de que os atributos de um conjunto de dados não dependem um do outro.
• Cada evento contribui igualmente para classificar o resultado. (Isso quer dizer que
cada exemplo que se utiliza tem o mesmo poder de classificação. Ou seja, eles ajudam
igualmente na classificação).
ANOTAÇÕES
Agora veja mais características do teorema de Naive Bayes:
• É rápido -> previsão em tempo real. Isto é, ele funciona rápido

• Famoso como classificador de spam, de sentimentos e de recomendações.
Já quanto ao seu funcionamento:
• Prevê uma tabela de probabilidades condicionais e depois calcula a saída com base
nessa tabela. .
30m
DIRETO DO CONCURSO
4. (CESPE/CEBRASPE/2021/SEFAZ-CE/AUDITOR FISCAL DE TECNOLOGIA DA
INFORMAÇÃO DA RECEITA ESTADUAl) A classificação Naive Bayes parte da supo-
sição de que as variáveis envolvidas em machine learning são independentes entre si.
5. (CESPE/CEBRASPE/2021/SERPRO/ANALISTA - ESPECIALIZAÇÃO: CIÊNCIA DE

DADOS) Devido ao fato de pressupor independência entre atributos, o algoritmo Naive
Bayes é capaz de realizar, com precisão, o treinamento de um modelo com uma quan-
tidade reduzida de amostras.
COMENTÁRIO
Não é necessário um conjunto gigante de amostras para conseguir realizar o treinamento
de um modelo usando o classificador de Naive Bayes.
ANOTAÇÕES
6. (INSTITUTO AOCP/2020/MJSP/CIENTISTA DE DADOS - BIG DATA) Um cientista de

dados deve utilizar uma técnica de mineração de dados que não usa regras ou árvore
de decisão ou qualquer outra representação explícita do classificador, mas que usa o
ramo da matemática conhecido como teoria das probabilidades para encontrar a mais
provável das possíveis classificações. Sabendo disso, assinale a alternativa que apre-
senta corretamente o nome da técnica a ser utilizada pelo cientista de dados.
A. Regras de decisão.
B. Árvore binária.
C. Entropia.
D. Classificação Naive Bayes.
E. Agrupamento.
COMENTÁRIO
Entropia é uma característica das árvores de decisão.
GABARITO
1. C
2. b
3. C
4. C
5. C
6. d
ANOTAÇÕES
Algoritmos de Classificação III
ALGORITMOS DE CLASSIFICAÇÃO III
Redes Neurais Artificiais
Modelo baseado no neurônio.
• Uma Rede Neural Artificial consiste em uma estrutura conexionista, na qual o pro-
cessamento é distribuído por um grande número de pequenas unidades densamente
interligadas.
• A habilidade das redes neurais em realizar mapeamentos não lineares entre suas entra-
das e saídas as tem tornado prósperas no reconhecimento de padrões e na modela-
gem de sistemas complexos.
Assim, essa rede tem um funcionamento em blocos, simulando neurônios e o comporta-

mento humano, ou seja, aprendendo a partir de conhecimentos e experiências passadas.
ANOTAÇÕES
O funcionamento do neurônio se dá a partir do recebimento de descargas elétricas, pelas

“pontas” menores, o processamento no núcleo e a saída pela “ponta” maior. Assim, a rede
neural artificial tenta repetir essa lógica com dados, em vez de descarga elétrica.
• Exemplos de uso de RNA:

– Avaliação de imagens captadas por satélite.
Por exemplo, em vez de o auditor ir pessoalmente, cria-se uma rede abastecida com
fotos de satélite. A rede neural ia absorvendo as experiências, aprendendo e se tornava
capaz analisar sozinha se a obra foi feita ou não.
5m
– Classificação de padrões de escrita e fala.
– Reconhecimento de faces com visão computacional.
– Sistemas de controle e previsão financeira.
– Identificaçãode anomalias e patologias na área médica com base em imagens.
– Controle automatizado de equipamentos eletrônicos.
• Perceptron (resolvem problemas lineares):

– Sinais são apresentados à entrada.
– Cada sinal é multiplicado por um número, ou peso, que indica a sua influência na
saída da unidade.
– É feita a soma ponderada dos sinais que produz um nível de atividade.
– Se este nível de atividade exceder um certo limite (threshold), a unidade produz uma
determinada resposta de saída.
ANOTAÇÕES
O y de saída é alcançado quando o algoritmo acerta a resposta, de modo que se deve

ir ajustando o “peso” (W). A entrada da informação pode ser o próprio X ou a saída de
outro neurônio.
A primeira rede neural que deu certo foi uma MLP.

Redes Multilayer perceptron (MLP):
• Organizada em diversas camadas:

– Uma camada de entrada, formada pelos neurônios que estão conectados às entra-
das da rede;
– Uma camada de saída, contendo os neurônios que apresentam as saídas da rede
neural ao ambiente externo;
– Uma ou mais camadas intermediárias (ou escondidas), compostas de neurônios
cujas entradas e saídas estão conectadas somente a outros neurônios.
10m
ANOTAÇÕES
De baixo pra cima, na horizontal, tem-se: camadas de entrada, camadas intermediárias

e camadas de saída.
Funcionamento:
Na maioria das aplicações, usa-se uma rede feed-forward com uma única camada escon-
dida e com função de ativação sigmóide nos neurônios da camada escondida e com função
de ativação linear nos neurônios da camada de saída.
ANOTAÇÕES
A função sigmóide é a mais famosa.
• Treinamento por backpropagation:
Correção dos pesos pela diferença entre o valor obtido e o esperado.

15m
Assim, de uma forma que resuma os tipos acima, eles são capazes de receber informa-
ções sem organização e organizá-las numa saída.
• Treinamento por backpropagation:

• A ideia principal deste algoritmo de aprendizado é que os erros das unidades da camada
escondida sejam determinados retro propagando os erros da camada de saída.
• O algoritmo funciona em duas fases:
– O passo para frente (forward pass), onde nossas entradas são passadas através da
rede e as previsões de saída obtidas (essa etapa também é conhecida como fase
de propagação).
– O passo para trás (backward pass), onde calculamos o gradiente da função de perda
na camada final (ou seja, camada de previsão) da rede e usamos esse gradiente
para aplicar recursivamente a regra da cadeia (chain rule) para atualizar os pesos
em nossa rede (etapa também conhecida como fase de atualização de pesos ou
retro-propagação).
• Método do gradiente descendente: ajusta os parâmetros das redes para melhor adaptar
um conjunto de treinamento de pares entrada – saída.
• Taxa de aprendizado (learning rate): indica a que ritmo os pesos são atualizados. Isso
pode ser fixado ou alterado de modo adaptativo. O método atual mais popular é cha-
mado Adam, o qual é um método que adapta a taxa de aprendizado.
20m
• Quando devemos parar o treinamento, i.e. parar de atualizar os pesos?
• Escolha óbvia: continuar o treinamento até que o erro seja menor do que um valor
préestabelecido.
• Porém, isto implica em sobre ajuste (overfitting)!!!
ANOTAÇÕES
A ideia de overfitting pressupõe que se deve separar um conjunto de dado de treinamento

e outro de validação, visando que o sistema não se acostume a trabalhar com um mesmo
conjunto. Esta situação seria prejudicial, pois a inserção de novos dados resultaria em erros.
Curiosidade
O site de busca Google também usa rede neural. Lá, a rede estava tão competente que
começou a “pensar” como humano. Assim, o sistema de autopreenchimento começou a com-
pletar a busca com frases racistas, homofóbicas e pornográficas, uma vez que essas áreas
causam satisfação em certos grupos humanos. Visto isso, foi necessário fazer intervenções.
25m
• Mínimos Locais:
– O treinamento é um processo de otimização por gradiente em uma superfície.
– Nesta superfície existem “vales” com menor profundidade que outros; estes são os
mínimos locais, e não representam a melhor solução.
– O algoritmo backpropagation pode permitir a entrada em um mínimo local, não permi-
tindo que se encontre a melhor solução do problema mapeado pela rede.
ANOTAÇÕES
ANOTAÇÕES
Tipos de Redes Neurais e Questões
TIPOS DE REDES NEURAIS E QUESTÕES
Redes Neurais Artificiais
Redes Recorrentes ou retroalimentadas

– Permitem a realimentação de uma camada com as informações geradas pela camada
posterior.
– Possibilidade de realimentação do neurônio com a sua própria saída (selffeedback).
– Por terem essa característica, essas redes podem modelar problemas com caracte-
rística temporal, como, por exemplo, a previsão do tempo dado o histórico climático
em uma janela do passado.
Observe que a bolinha sai e retorna alimentando as outras bolinhas. Essa rede neural foi
criada e teve sucesso na relação de séries temporais. Observa-se a relação da informação
ao longo do tempo.
ANOTAÇÕES
Markov Chain
Essa rede parece não ter entrada nem saída.

– O objetivo é responder a uma pergunta do tipo: dada a presença de um dado em
determinado nodo, qual a probabilidade de este dado passar para outro nodo?
– As cadeias de Markov não contêm memória, de forma que o estado seguinte depende
exclusivamente do estado atual, e não de seus antecessores.
– Cadeias de Markov são utilizadas, por exemplo, para representar a probabilidade
de mutação de um aminoácido durante a evolução, o que é muito importante na
área de biologia evolutiva para determinar o grau de parentesco entre as espécies.
Rede Neural Convolucional
Essa rede visa identificar padrões em imagens e vídeos. Além disso, ela entra no con-
texto de Deep learn. Que é um aprendizado de máquina mais aprofundado.
ANOTAÇÕES
– Convolutional neural network (CNN) ou Deep convolutional network (DCN).

– Nas camadas de convolução (as rosas), a informação passa por vários filtros (que,
na prática, são matrizes numéricas) com a função de acentuar padrões regula-
res locais, ao mesmo tempo em que vão reduzindo a dimensão dos dados origi-
nais (pixels).
– Os resultados de vários filtros são sumarizados por operações de pooling.
10m
– Na parte mais profunda das convoluções, espera-se que os dados num espaço
dimensional reduzido contenham informação suficiente sobre esses padrões locais
para atribuir um valor semântico ao dado original.
– Esses dados passam então por uma estrutura de FFN clássica para a tarefa de
classificação.
• RedeNeural Convolucional
– Por essas características, a aplicação mais comum das CNNs é na classificação
de imagens.
– Os filtros acentuam atributos dos objetos necessários à sua correta classificação.
– Uma CNN especializada em classificar rostos, por exemplo, nas primeiras cama-
das reconhece contornos, curvas e bordas; mais adiante, usa essa informação para
reconhecer boca, olhos, orelha e nariz; e no final, reconhece o rosto inteiro.
– Além de imagens, qualquer informação com regularidade local pode se beneficiar do
uso de CNNs, como áudio por exemplo.
ANOTAÇÕES
Mapas Auto Organizáveis (SOM)

– São redes com aprendizado não supervisionado e baseada em Aprendizagem
Competitiva.
RELEMBRANDO
O aprendizado não supervisionado não possui o rótulo e a classificação para fazer o trei-
namento dos dados. Se abastece o sistema e o algoritmo, deve realizar o agrupamen-
to sozinho.
– Quando um neurônio é excitado, o seu redor, uma área entre 50 e 100 μm, também
sofre excitação e, a partir desta distância, sofre inibição, de forma a impedir a propa-
gação do sinal a áreas não relacionadas.
– Os neurônios de saída da RNA competem entre si para serem ativados, onde apenas
um neurônio de saída (ou um neurônio por grupo) está “ligado” a qualquer instante.
– O neurônio vencedor define uma vizinhança topológica (em função da grade) de
neurônios excitados.
– Ela usa aprendizado competitivo para classificar os dados sem supervisão.
15m
– Os dados de entrada são comparados com os valores dos neurônios (inicializados
aleatoriamente) por meio de uma métrica de similaridade, e as conexões que repre-
sentam maior similaridade são fortalecidas.
ANOTAÇÕES
Uma rede SOM funciona com vários neurônios posicionados no espaço, conforme
imagem abaixo:
A partir disso, insere-se um exemplo de treinamento, este exemplo excitará os neurônios

que estão em volta, isso irá fortalecer as conexões desses neurônios. Fazendo isso repetidas
vezes, criam-se grupos de neurônios especializados, os chamados clusters.
– Os neurônios, então, se ajustam para representar os dados originais de forma ainda
mais similar, “arrastando” junto os neurônios em sua proximidade.
– Assim, ao final do treinamento, os dados originais podem ser classificados em clus-
ters de similaridade na forma de um mapa definido pelos neurônios da rede.
DIRETO DO CONCURSO
1. (CESPE/MPOG/TECNOLOGIA DA INFORMAÇÃO/2013) As redes neurais são sistemas
computacionais embasados em codificação do conjunto das possíveis soluções, e não
nos parâmetros de otimização; para relacionar cada caso a uma categoria, entre as
várias categorias existentes, elas utilizam regras.
20m
COMENTÁRIO
A rede neural artificial é não linear, ou seja, não há a utilização de regras de classificação.
2. (INSTITUTO AOCP/MJSP/CIENTISTA DE DADOS/BIG DATA/2020) Um cientista de da-

dos utiliza uma técnica de mineração de dados complexa e baseada nos neurônios
humanos, em que um conjunto de entrada é utilizado para prever uma ou mais saídas.
Qual é o nome dessa técnica utilizada pelo cientista de dados?
a. Reasoning.
b. Regressão.
c. Redes neurais.
d. Redes bayesianas.
e. Regras de inteligência.
COMENTÁRIO
A questão estabelece a relação com NEURÔNIOS humanos, portanto, é a rede NEURAL.
3. (CESPE/TCE-RO/AUDITOR DE CONTROLE EXTERNO/CIÊNCIAS CONTÁBEIS/2019)

No que se refere aos diversos tipos de algoritmos utilizados para minerar dados, a téc-
nica utilizada em tarefas de classificação, regressão e segmentação de dados em tipos
de dados heterogêneos é denominada
a. banco objeto relacional.
b. classes privadas.
c. redes privadas.
d. algoritmos genéticos.
e. redes neurais.
COMENTÁRIO
Embora o gabarito seja simples, convém entender a questão como uma afirmação acerca
do tema, sendo, assim, informações a respeito das redes neurais.
4. (CESPE/TCE-MG/ANALISTA DE CONTROLE EXTERNO/CIÊNCIA DA COMPUTA-

ÇÃO/2018) Determinada empresa, ao realizar um programa de aceleração, selecionou
fintechs que já trabalham na análise de fraudes em sistemas de cartão de crédito. Uma
das premissas adotadas para a seleção foi a de que a fintech tivesse experiência em
redes multilayer perceptrons. Nesse contexto, perceptron é
a. um algoritmo simples dedicado a efetuar uma análise binária para identificar se deter-
minada transação é fraude ou não fraude.
b. composto por duas redes simétricas que têm quatro ou cinco camadas rasas que
representam a metade da codificação (encoder) da rede.
c. constituído por redes neurais artificiais profundas que podem ser usadas para classi-
ficar transações e agrupá-las por similaridade.
d. um poderoso conjunto de algoritmos de redes neurais artificiais especialmente úteis
para o processamento de dados sequenciais.
e. o método-padrão em redes neurais artificiais para cálculo da contribuição de erro de
cada neurônio após processamento de um lote de dados.
ANOTAÇÕES
COMENTÁRIO
b) Não existe essa disposição em duas redes simétricas. Há uma entrada de dados, uma
função de ativação e uma saída.
c) É o contrário, as RNA é que são construídas por perceptrons.
d) Conjunto de algoritmos não.
e) Utiliza-se, na verdade, o gradiente do erro.
25m
5. (CESPE/CEBRASPE/PETROBRAS/CIÊNCIA DE DADOS/2022) Julgue o próximo item,

relativos a redes neurais artificiais (RNA). Em RNA, o uso de early stopping, ainda que
não evite o overfitting, permite calcular com mais precisão a classificação nos dados de
validação e, assim, melhorar a acurácia do treinamento.
COMENTÁRIO
Imagine o gráfico com o erro x o treinamento.
Erro
T
Conforme acontecem treinamentos, o erro vai diminuindo. Por sua vez, o conjunto de va-
lidação também diminui, mas em um momento ele cresce, a partir do ponto de overfitting
(treino em excesso com os mesmos dados).
Val
Erro
Train
T
6. (CESPE/CEBRASPE/PETROBRAS/CIÊNCIA DE DADOS/2022) O algoritmo de backpro-

pagation consiste das fases de propagação e de retro propagação: na primeira, as en-
tradas são passadas através da rede e as previsões de saída são obtidas; na segunda,
se calcula o termo de correção dos pesos e, por conseguinte, a atualização dos pesos.

relativos a redes neurais artificiais (RNA). Uma rede neural convolucional é composta
por camadas convolucionais, unidades de processamento não linear e camadas de
subamostragem (pooling); ela possui como característica a habilidade em explorar cor-
relações temporais e espaciais nos dados.

relativos a redes neurais artificiais (RNA). Rede neural recorrente é uma arquitetura
similar à feedforward; a diferença é que a cada nova camada oculta (hidden layer) é
acrescentada outra camada recorrente à arquitetura conectada à camada anterior, du-
plicando assim a quantidade de camadas.
COMENTÁRIO
O correto é dizer que a saída dos neurônios volta para as camadas anteriores.
GABARITO
1. E
2. c
3. e
4. a
5. E
6. C
7. C
8. E
Funções de Ativação
FUNÇÕES DE ATIVAÇÃO
O Que é Uma Função de Ativação?
A função de ativação é uma função matemática que decide se um neurônio será ativado
ou não. É responsável por receber os números que chegam aos dendritos do neurônio, pro-
cedimento seguido pela saída pelo axônio. Tal entrada de dados, geralmente, apresenta
diversos números que passam por um somatório. O valor que adentra a função de ativação,
um número x, passa pela função de ativação e gera o valor de saída y, alimentando o próximo
neurônio ou a própria saída da rede neural. Ocorre uma transformação não linear da entrada
em saída, uma vez que informações são sumarizadas, gerando o valor de saída.
Quais São as Principais Funções de Ativação?
• Função limiar: caso o valor de entrada seja negativo, a saída do neurônio é igual a zero;
caso o valor de entrada seja positivo, a saída do neurônio é igual a um.
ANOTAÇÕES
• Função linear: aplica um fator de multiplicação ao valor que recebe. Neste caso, o
neurônio só não será ativado caso o valor recebido seja 0:
– f(x) = ax
5m
• Função logística: a função logística ou sigmóide, utilizada em regressão logística,

produz valores no intervalo [0, 1].
Trata-se de uma função que permite a entrega de valores intermediários entre 0 e 1 como
saída da ativação de seu neurônio.
• Função softmax: Softmax é uma generalização da função sigmóide para casos não biná-
rios. É aplicada na camada de saída caso exista mais de uma classificação possível
para a saída do conjunto de dados, ou seja uma saída não binária.
– A função softmax recebe como entrada um vetor z de K números reais e o normaliza
em uma distribuição de probabilidade que consiste em K probabilidades proporcio-
nais aos exponenciais dos números de entrada.
• Função Maxout: a saída da função é o valor máximo entre as diversas entradas.
• Função Gaussiana: função radial, isto é, função utilizada para desfoque radial de ima-
gens típica usada majoritariamente em redes RBF (função de base radial). A depender
de seus parâmetros, pode atribuir diversos tamanhos.
ANOTAÇÕES
Além da Sigmóide, pode-se fazer uso das funções Tangente, ReLU (caso a entrada seja
0, terá saída de 0, assim como para outros números, cuja saída será equivalente ao valor de
entrada) e Leaky ReLU.
ANOTAÇÕES
ATENÇÃO
A função de ativação, inserida no neurônio, recebe dados e os converte em uma saída
única, que é a ativação ou não do neurônio. Uma vez ativado, o neurônio resultará em um
número que entrará na próxima camada da rede neural (ou a saída da rede neural), caso
contrário, resultará em 0. Neurônios não ativados são importantes para a camada de saída,
que permite uma classificação assertiva a partir dos exemplos fornecidos na entrada.
10m
DIRETO DO CONCURSO
1. (FGV/PREFEITURA DE NITERÓI-RJ/ANALISTA DE POLÍTICAS PÚBLICAS E GESTÃO
GOVERNAMENTAL/GESTÃO DE TECNOLOGIA/2018) No contexto das redes neurais,
é comum o uso da função sigmóide no papel de função de ativação. Assinale a defini-
ção correta dessa função na referida aplicação.
a. .
b. .
c. .
d. .
e. .
ANOTAÇÕES
COMENTÁRIO
A função sigmóide é a mais cobrada em concursos.
2. (CESPE/CEBRASPE/PETROBRAS/CIÊNCIA DE DADOS/2022) As funções de ativação

são elementos importantes nas redes neurais artificiais; essas funções introduzem
componente não linear nas redes neurais, fazendo que elas possam aprender mais do
que relações lineares entre as variáveis dependentes e independentes, tornando-as
capazes de modelar também relações não lineares.
3. (CESPE/CEBRASPE/PETROBRAS/CIÊNCIA DE DADOS/2022) Em RNA formada unica-

mente de perceptron, uma pequena alteração nos pesos de um único perceptron na
rede pode ocasionar grandes mudanças na saída desse perceptron; mesmo com a
inserção das funções de ativação, não é possível controlar o nível da mudança, por
isso, essas redes são voltadas para a resolução de problemas específicos, tais como
regressão e previsão de séries temporais.
COMENTÁRIO
O peso e o valor de entrada multiplicados são somados e inseridos na função de ativação,
que, provavelmente, diminuirá a entropia de dados e resultará em 0 ou 1, minimizando o
problema relacionado aos pesos da rede neural, especialmente se tratando de uma fun-
ção degrau.
15m
GABARITO
1. e
2. C
3. E
ANOTAÇÕES
Regressão
REGRESSÃO
O aprendizado de máquina visa o funcionamento da máquina a partir de conjuntos de

dados, realizando previsões e inferências a partir do que foi aprendido. Uma vez dados à
máquina o conjunto de dados, rótulos e classificações, entende-se como aprendizado super-
visionado, caso contrário, como não supervisionado, que corresponde às tarefas de clusteri-
zação, ou seja, agrupamento.
No aprendizado supervisionado, enquadra-se a classificação e a regressão. Enquanto na
classificação a saída, rótulo e y são variáveis discretas e categóricas, na regressão, a saída é
o número real, um valor contínuo. Sendo assim, na classificação, pode-se criar, por exemplo,
uma máquina que avalie a disponibilidade de crédito para um novo cliente de um banco a
partir de seu histórico bancário, atribuindo seu perfil de bom ou mau pagador em uma saída
categórica binária. A regressão, contudo, seria usada para estimar qual o valor de crédito
seria disponibilizado ao cliente.
Sendo assim, regressão se refere a prever a saída de uma variável numérica (depen-
dente) a partir de um conjunto de uma ou mais variáveis independentes.
5m
Uma equação de regressão é usada em estatística para descobrir qual relação existe e
se existe entre conjuntos de dados.
Em Aprendizado de Máquina, essa equação é obtida através de um algoritmo de treina-
mento utilizando os m dados x (i), y (i).
Regressão
A hipótese h é a equação que gera a reta:

ANOTAÇÕES
Regressão
Neste caso, partindo da regressão linear, o conjunto de dados permitiu a inferência do

aumento da pressão arterial conforme a idade do indivíduo. Tal modelo permite inferir a
média de pressão arterial com base na idade, funcionando por meio da inserção do conjunto
de dados.
10m
Regressão Linear
Principal ferramenta de regressão é denominada dessa forma por ser uma reta traçada a
partir de uma relação em um diagrama de dispersão. Essa reta resume uma relação entre os
dados de duas variáveis e também pode ser utilizada para realizar previsões.
• Sua origem vem da correlação linear, que é a verificação da existência de um relacio-

namento entre duas variáveis.
• Sendo assim, dado X e Y, analisa-se o quanto X explica Y.
• O resultado da regressão linear é sempre um número.
• É utilizada adequadamente quando o dataset apresenta algum tipo de tendência de
crescimento/decrescimento constante (quanto maior a variável independente, maior a
variável dependente).
ANOTAÇÕES
Regressão
Resíduo e Erro
O resíduo é calculado após a execução do modelo de regressão e é a diferença entre os

valores observados e os valores estimados.
O erro do conjunto de dados é a diferença entre os valores observados e os valores ver-
dadeiros, não observáveis. O cálculo de cada erro permite a minimização do erro ao mínimo,
gerando uma reta mais próxima do real.
ANOTAÇÕES
Regressão
A regressão linear pode ser de dois tipos:

• Regressão linear simples, onde é utilizada apenas uma variável independente.
• Regressão linear múltipla, onde múltiplas variáveis independentes são definidas.
Para quantificar a relação entre duas variáveis quantitativas, utiliza-se o coeficiente de

correlação linear de Pearson, que explica a relação entre as variáveis dependente e inde-
pendente:
15m
As correlações podem ser positiva (r maior que 0) e negativa (r menor que 0). A corre-
lação negativa representa o aumento da variável independente e a diminuição da variável
dependente.
ANOTAÇÕES
Regressão
ATENÇÃO
Nas questões de regressão, estima-se um número que seja o resultado de uma previsão
a partir da entrada de um conjunto de dados x. Para isso, o algoritmo mais utilizado é a
regressão linear, ou seja, com a construção de uma reta que funciona como um modelo,
atribuindo um novo x para descobrir o valor y. Calcula-se a, a inclinação da reta, e b, o al-
cance da reta no eixo y.
DIRETO DO CONCURSO
1. (CESGRANRIO/2018/BANCO DO BRASIL/ESCRITURÁRIO) Para ilustrar a importân-
cia da análise gráfica em análises de regressão linear, F. J. Anscombe produziu quatro
conjuntos de pares (x, y) a partir das mesmas estatísticas suficientes, como: coeficien-
tes linear e angular; soma dos quadrados dos resíduos e da regressão; e número de
observações. Os diagramas de dispersão para as quatro bases de dados, juntamente
com a reta da regressão (y = 4 + 0,5 x), encontram-se abaixo.
ANOTAÇÕES
Regressão
Com base nesses gráficos, considere as seguintes afirmativas:

I – O gráfico B mostra um valor influente para gerar uma regressão linear.
II – O gráfico C mostra uma possível observação outlier na regressão linear.
III – O gráfico D mostra uma possível observação outlier na regressão linear.
Está correto somente o que se afirma em
a. II e III.
b. I e III.
c. I.
d. II.
e. III.
COMENTÁRIO
Os outliers devem ser excluídos ao se trabalhar com regressão linear, dado que podem
introduzir erros nas análises.
20m
2. (2013/QUADRIX/DATAPREV) Assinale a alternativa que contém uma justificativa para

a utilização de um modelo de regressão linear múltipla em substituição a um modelo de
regressão linear simples para a análise de dados.
a. Quando existe um número excessivo de dados a serem analisados.
b. Quando o resíduo é muito grande.
c. Quando a regressão é ausente.
d. Quando se necessita de mais de uma variável independente no modelo de regressão.
e. Quando a regressão é fracamente positiva.
3. (FMP CONCURSOS/2012/PROCEMPA/ANALISTA DE LOGÍSTICA) Com um conjunto

de dados, apresentados na forma de diagrama de dispersão, onde são identificadas
duas variáveis (exemplo: renda e produtos vendidos), pode-se utilizar as seguintes fer-
ramentas estatísticas:
I – regressão linear simples.
II – correlação.
III – regressão linear múltipla.
ANOTAÇÕES
Regressão
As alternativas corretas são:

a. apenas I e II.
b. apenas I e III.
c. apenas II e III.
d. I, II e III.
e. Nenhuma das alternativas está correta.
GABARITO
1. d
2. d
3. a
ANOTAÇÕES
Algoritmos de Agrupamento
ALGORITMOS DE AGRUPAMENTO
CLUSTERIZAÇÃO
Diferentemente do aprendizado supervisionado, para os agrupamentos, a base de dados

contará apenas com os atributos que descrevem os exemplos, não havendo uma classe
pré-definida, uma classificação ou uma atribuição de um valor numérico ao exemplo. Sendo
assim, na prática, o algoritmo de aprendizado se baseará na base de dados para distribuir os
elementos por grupos, clusterizando os elementos.
A clusterização é usada para, por exemplo, identificação de diferentes perfis de consu-
midores de um determinado supermercado com base nas compras efetuadas por meio do
agrupamento.
A primeira imagem introduz variadas formas geométricas com diferentes traços em seus
interiores, representando o conjunto de dados de treinamento. Ao sofrer o processo de cluste-
rização, aprendendo os dados inseridos, a máquina poderá agrupar os dados conforme suas
correspondências, representado pelos quatro grupos distintos formados na segunda imagem.
ANOTAÇÕES
• Agrupamento natural é o agrupamento real encontrado na natureza.
O que é um agrupamento natural entre os seguintes objetos?
Grupo é um conceito subjetivo, uma vez que varia conforme a perspectiva de identificação:
Desta forma, é possível classificar, por exemplo, os mesmos animais em grupos diferen-
tes a partir de uma classificação distinta:
ANOTAÇÕES
ATENÇÃO
A clusterização nada mais é do que o agrupamento de um conjunto de dados, organizados
em clusters.
Ao agrupar, deve-se considerar duas distâncias: a interna, a distância entre cada um dos
elementos do próprio agrupamento, e a externa, que separa um agrupamento de outro.
5m
Etapas do processo de aprendizagem não supervisionada:
As etapas do processo de aprendizagem não supervisionada são:

1. Seleção de atributos: serão armazenados para cada exemplo do conjunto. É uma
etapa importante, uma vez que determina qual será a classificação dos grupos.
2. Medida de proximidade: é a medida que distancia os clusters interna e externamente.
3. Critério de agrupamento: determina o que será considerado para a definição dos grupos.
4. Algoritmo de agrupamento: une todas as etapas anteriores e identifica os agrupamen-
tos dos clusters.
5. Verificação dos resultados: avalia a validade dos agrupamentos.
6. Interpretação dos resultados.
Seleção de Atributos
• Atributos devem ser adequadamente selecionados de forma a codificar a maior quan-

tidade possível de informações relacionadas à tarefa de interesse.
ANOTAÇÕES
• Os atributos devem ter também uma redundância mínima entre eles, uma vez que os
algoritmos de agrupamentos, via de regra, são sensíveis ao impacto que os dados
exercem sobre a clusterização.
Medida de Proximidade
• Medida para quantificar quão similar ou dissimilar são dois vetores de atributos.
• É ideal que todos os atributos contribuam de maneira igual no cálculo da medida de
proximidade.
10m
• Um atributo não pode ser dominante sobre o outro, ou seja, é importante normali-
zar os dados.
Critério de Agrupamento
• Depende da interpretação que o especialista dá ao termo sensível com base no tipo de

cluster que são esperados.
• Por exemplo, um cluster compacto de vetores de atributos pode ser sensível de acordo
com um critério enquanto outro cluster alongado, pode ser sensível de acordo com
outro critério.
Algoritmo de Agrupamento
• Tendo adotado uma medida de proximidade e um critério de agrupamento devemos

escolher um algoritmo de agrupamento que revele a estrutura agrupada do con-
junto de dados.
ANOTAÇÕES
Validação dos Resultados
• Uma vez obtidos os resultados do algoritmo de agrupamento, devemos verificar se o

resultado está correto.
• Isto geralmente é feito através de testes apropriados.
Interpretação dos Resultados
• Em geral, os resultados do agrupamento devem ser integrados com outras evidências

experimentais e análises para chegar às conclusões corretas.
Com diversos exemplos do conjunto de treinamento plotados, calcula-se a similaridade

para definição de agrupamento por meio das medidas de dissimilaridade e similaridade:
MEDIDAS DE DISSIMILARIDADE
• Métrica lp ponderada;
• Métrica Norma l∞ ponderada;
• Métrica l2 ponderada (Mahalanobis);
• Métrica lp especial (Manhattan); e
• Distância de Hamming.
MEDIDAS DE SIMILARIDADE:
• Produto interno (inner);

• Medida de Tanimoto;
Os algoritmos de agrupamento buscam identificar padrões existentes em conjuntos de

dados e podem ser divididos em varias categorias:
• Métodos Hierárquicos;
• Métodos Particionais;
• Métodos Baseados em Densidade;
• Métodos Baseados em Grade;
• Métodos Baseados em Modelos;
ANOTAÇÕES
• Métodos Baseados em Redes Neurais;

• Métodos Baseados em Lógica Fuzzy;
• Métodos Baseados em Kernel;
• Métodos Baseados em Grafos; e
• Métodos Baseados em Computação Evolucionária.
Particionais: constroem uma partição de dados.

Hierárquicos: constroem uma hierarquia de partições.
15m
A clusterização hierárquica possui dois métodos principais: single e complete link,

enquanto a particional possui a Métrica Euclidiana (que gera o método mais famoso, o k-me-
ans), a Teoria de Grafos e a Mistura de Densidades:
ANOTAÇÕES
Algoritmos de Particionamento
• Os algoritmos particionais dividem a base de dados em k-grupos, onde o número k é

dado pelo usuário.
• São algoritmos diretos e rápidos.
• Geralmente, todos os vetores de características são apresentados ao algoritmo uma
ou várias vezes.
• O resultado final geralmente depende da ordem de apresentação dos vetores de carac-
terísticas.
Algoritmos Hierárquicos
• Algoritmos de clusterização baseados no método hierárquico (HC) organizam um con-

junto de dados em uma estrutura hierárquica de acordo com a proximidade entre os
indivíduos.
• Os resultados de um algoritmo HC são normalmente mostrados como uma árvore
binária ou dendograma, que é uma árvore que interativamente divide a base de dados
em subconjuntos menores.
• A raiz do dendograma representa o conjunto de dados inteiro e os nós folhas represen-
tam os indivíduos.
No caso concreto abaixo, há quatro grupos fruto do algoritmo hierárquico, que forma
grupos a partir da inserção de exemplos de treinamento.
ANOTAÇÕES
Os algoritmos hierárquicos se dividem entre aglomerativos e divisivos.
Aglomerativos (Bottom-Up)
• Produzem uma sequência de agrupamentos com um número decrescente de clusters

a cada passo.
• Os agrupamentos produzidos em cada passo resultam da fusão de dois clusters em um.
Divisivos (Top-Down)
• Atuam na direção oposta, isto é, eles produzem uma sequência de agrupamentos com
um número crescente de clusters a cada passo.
• Os agrupamentos produzidos em cada passo resultam da partição de um único clus-
ter em dois.
Algoritmos Baseados em Densidade
• Clusters são definidos como regiões densas, separadas por regiões menos densas
que representam os ruídos.
• Algoritmos Baseados em Grade.
• Usam uma estrutura de dados em grade de multiresolução.
Algoritmos Baseados em Modelo
• Usam um modelo de referência para cada cluster.

ANOTAÇÕES
Algoritmos Baseados em Lógica Fuzzy
• Os métodos de clusterização baseados em Lógica Fuzzy são métodos não ‘hard’, que
permitem associar um indivíduo a todos os clusters usando uma função de pertinên-
cia. Sendo assim, se um elemento está na fronteira, poderá fazer parte da direita ou
esquerda, a depender do algoritmo aplicado.
• A Lógica Fuzzy apresenta algoritmos com partições etéreas, com bordas menos
definidas.
Algoritmos Baseados em RNA
Têm suas raízes no método de clusterização ART (Teoria Ressonante Adaptativa) ou nos
Mapas Auto Organizáveis de Kohonen.
Algoritmos Baseados em Kernel
• Usam do espaço de características para permitir uma separação não linear no espaço

de entrada, como no caso da SVN.
25m
• São capazes de produzir uma separação não linear entre os hiperespaços dos clusters,
ao contrário dos algoritmos tradicionais que produzem por partes fronteiras lineares
entre os dados
Algoritmos Baseados em Grafos
Buscam representar um conjunto de dados em um grafo, onde cada vértice representa

um elemento do conjunto de dados e a existência de uma aresta conectando dois vértices é
feita com base na proximidade entre os dois dados.
Algoritmos Baseados em Computação Evolucionária
Compreende um conjunto de técnicas de busca e otimização baseados em mecanis-

mos da evolução biológica, tais como reprodução, mutação, recombinação e seleção natural
e estão sendo utilizados amplamente pela comunidade de inteligência artificial para obter
modelos de inteligência computacional.
Algoritmos de Agrupamento II
ALGORITMOS DE AGRUPAMENTO II
K-Means
• É a técnica mais simples de aprendizagem não supervisionada.

• Consiste em fixar k centróides (de maneira aleatória), um para cada grupo (clusters).
• Associar cada indivíduo ao seu centróide mais próximo a partir de um recálculo dos
centróides com base nos indivíduos classificados.
• O principal problema do K-Means é a dependência de uma boa inicialização.
• Algoritmo k-means funciona bem se:
– Clusters são (hiper)esféricos e bem separados.
– Clusters de volumes aproximadamente iguais.
– Cluster com quantidades de pontos semelhantes (densidade).
O algoritmo do k-means funciona da seguinte maneira:

1. Selecione k centróides iniciais.
5m
2. Forme k clusters associando cada exemplo ao seu centróide mais próximo.
3. Recalcule a posição dos centróides com base no centro de gravidade do cluster.
4. Repita os passos 2 e 3 até que os centróides não sejam mais movimentados.
ANOTAÇÕES
DIRETO DO CONCURSO
1. (CESPE/CEBRASPE/2021/POLÍCIA FEDERAL/ESCRIVÃO DE POLÍCIA FEDERAL)
Acerca dos conceitos de mineração de dados, aprendizado de máquina e bigdata, jul-
gue o próximo item.
A análise de clustering é uma tarefa que consiste em agrupar um conjunto de objetos

de tal forma que estes, juntos no mesmo grupo, sejam mais semelhantes entre si que
em outros grupos.
ANOTAÇÕES
COMENTÁRIO
A proximidade intracluster é o fator decisivo para que elementos façam parte do mesmo
grupo, uma vez que a distância interna é menor se comparada à distância externa.
(CESPE/2013/SERPRO/PROGRAMADOR DE COMPUTADOR) Julgue os itens que se

seguem à luz dos conceitos básicos de datamining e datawarehouse.
2. Em algoritmos de clusterização hierárquica, os clusters são formados gradativamen-

te por meio de aglomerações ou divisões de elementos, gerando uma hierarquia
de clusters.
COMENTÁRIO
Em algoritmos de clusterização hierárquica, em que se tem dendrogramas, caracteriza-se
como bottom-up.
10m
3. Nos métodos de particionamento para k-clusterização e k-medoids, o elemento que me-

lhor representa o cluster é definido de acordo com seus atributos, sem que haja muita
influência dos valores próximos aos limites do cluster.
COMENTÁRIO
Quanto mais distante um exemplo estiver, menor sua influência sobre a posição do cluster.
4. (CESPE/2017/TCE-PE/ANALISTA DE CONTROLE EXTERNO/AUDITORIA DE CON-

TAS PÚBLICAS) Em relação à análise de agrupamentos (clusterização) em mineração
de dados, julgue o item seguinte.
O método de clustering k-means objetiva particionar ‘n’ observações entre ‘k’ grupos;
cada observação pertence ao grupo mais próximo da média.
COMENTÁRIO
O ‘k’ se refere aos grupos, enquanto ‘n’ aos exemplos do conjunto de treinamento.
ANOTAÇÕES
5. (CESPE/CEBRASPE/2013/SERPRO/ANALISTA/NEGÓCIOS EM TECNOLOGIA DA
INFORMAÇÃO) Com relação a datamining, datawarehouse, gerenciamento de conteú-
do, ambientes colaborativos e portais corporativos, julgue os próximos itens.
Clusterização é a tarefa preditiva relativa à identificação de um conjunto finito de cate-

gorias empregadas para descrever uma informação. Essas categorias nunca poderão
ser mutuamente exclusivas.
COMENTÁRIO
Sabe-se que um dos métodos de agrupamento é a Lógica Fuzzy, que permite que um ele-
mento esteja em mais de um grupo, dadas as fronteiras etéreas.
6. (FGV/2021/SEFAZ-ES/AUDITOR FISCAL DA RECEITA ESTADUAL/MANHÃ) Maria

está preparando um relatório sobre as empresas de serviços de um município, de modo
a identificar e estudar o porte dessas empresas com vistas ao estabelecimento de po-
líticas públicas e previsões de arrecadação. Maria pretende criar nove grupos de em-
presas, de acordo com os valores de faturamento, e recorreu às técnicas usualmente
empregadas em procedimentos de data mining para estabelecer as faixas de valores
de cada grupo. Assinale a opção que apresenta a técnica diretamente aplicável a esse
tipo de classificação.
a. Algoritmos de associação.
b. Algoritmos de clusterização.
c. Árvores de decisão.
d. Modelagem de dados.
e. Regressão linear.
7. (CESPE/CEBRASPE/2022/DPE-RO/ANALISTA DA DEFENSORIA PÚBLICA/ADMI-

NISTRAÇÃO) Para a realização de clustering utilizando-se o algoritmo k-médias (k-me-
ans), o número mínimo de variáveis ou recursos necessário é
a. 0.
b. 1.
c. 4.
d. 2.
e. 3.
15m
ANOTAÇÕES
GABARITO
1. C
2. C
3. C
4. C
5. E
6. b
7. b
ANOTAÇÕES

Aprendizado de Maquina

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aprendizado de Maquina

Enviado por

Direitos autorais:

Formatos disponíveis

APRENDIZADO DE MÁQUINA

Nestas aulas, o conteúdo programático estará voltado a um entendimento introdutório e

O curso será dividido nestas cinco etapas:

• Aprendizado de máquina – introdução.

É uma área de IA cujo objetivo é o desenvolvimento de técnicas computacionais sobre

A inteligência artificial consiste em dotar as máquinas de níveis sofisticados de raciocínio,

• (Simon, 1983): “Aprender implica em alterações no sistema que são adaptativas, no

• (Weiss & Kulikowski, 1991): “Um sistema de aprendizado [supervisionado] é um pro-

Obs.: a classificação e a reversão trabalham com a previsão de saídas, enquanto a clusteri-

• Busca-se o desenvolvimento de algoritmos que descreverão os dados.

• Fazem previsões de alguma coisa a partir de uma entrada de dados.

Os paradigmas costumam ser constituídos por árvores de parâmetros que descrevem de

Protótipo ou Memorização (Instance Based).

• Sistema que classifica um exemplo por meio de exemplos similares conhecidos.

• Redes neurais, as quais envolvem unidades altamente interconectadas.

O sistema conexionista é semelhante a uma rede neural artificial altamente conectada.

– Dentre os métodos estatísticos, destacam-se os de aprendizado Bayesiano, que

Em suma, lembre-se de que são utilizados cinco paradigmas de máquina: os simbólicos,

• Tipos de sistemas de aprendizado:

No aprendizado de máquina, o teste caixa-preta indica a falta de conhecimento acerca

• Simbólico ou Orientado a conhecimento:

Na imagem acima, é possível observar os passos que envolvem inserir um dataset em

• Exemplo, caso ou registro (instance):

• Atributo ou campo (feature):

• Um atributo é irrelevante se existe uma descrição completa e consistente das classes a

A imagem abaixo mostra o exemplo de um dataset com n exemplos e n atributos. Além

Conjunto de exemplos de classificação:

Baseado em categorias discretas de rótulos com duas respostas possíveis.

• Conjunto de Exemplos de Regressão:

A saída no caso dos exemplos de regressão são números diversos.

Conjunto de Exemplos de Aprendizado não Supervisionado:

Conjunto de Treinamento e de Testes:

O slide mostra a separação de um conjunto de dados entre um conjunto de treinamento e

No aprendizado de máquina são utilizadas funções para identificar saídas. O classifica-

Indutor não incremental (modo batch) versus indutor incremental.

O indutor não incremental recebe todo o conjunto de treinamento para resultar em um

• A hipótese extraída a partir dos exemplos é muito específica para o conjunto de

• Underfitting (pouco treino):

Com essas informações, pode-se compreender o gráfico acima como resultante do

Consistência e Completude de um Classificador:

Obs.: o conjunto de treinamento é acompanhado do rótulo.

Aprendizado Não Supervisionado:

O modelo de aprendizado supervisionado permite revelar para a classe do sujeito utili-

Caso a saída do sistema de aprendizado resultar em dados consonantes com os exem-

Aprendizado Não Supervisionado:

Treinamento supervisionado e não supervisionado.

É uma tabela que permite a visualização do desempenho de um algoritmo de classificação.

Em primeiro lugar, é preciso um indutor para gerar o modelo de classificação. Suponha-

Assim se organiza a matriz de confusão:

Nos quadros pretos estão as imagens que o sistema acertou a classificação.

Calculando a acurácia do modelo de exemplo: 80 + 890 / 80 + 20 + 10 + 890 =

Verdadeiros Positivos = 80, Falsos Positivos = 10.

A especificidade avalia a capacidade do método de detectar resultados negativos.

Especificidade = 890 / 890 + 10 = 890/900 = 98,9%

F1 = 2*0,88*0,80/0,88+0,80 = 2*0,704/1,68 = 83,8%.

Do latim “lex parsimoniae” – A lei da parcimônia (economia).

Em outras palavras, a ideia de “o que parece ser realmente é”.

Aprender a partir de um espaço de característica de alta dimensionalidade requer uma

Observa-se que ao jogar os exemplos no espaço dimensional (figura do meio), já é pos-

QUESTÕES DE CONCURSO E INTRODUÇÃO À APRENDIZAGEM DE

2. (FGV/2022/SEFAZ-AM/TÉCNICO DA FAZENDA ESTADUAL) O tipo de aprendizado

3. (CESGRANRIO/2021/BANCO DO BRASIL/AGENTE DE TECNOLOGIA) Ao tentar re-

F1 = 20,880,80/0,88+0,80 = 2*0,704/1,68 = 83,8%.