Unidade 1

10/11/22, 09:51 E-book
MACHINE LEARNING
FUNDAMENTOS DA MACHINE
LEARNING
Autor: Me. Jackson Luis Schirigatti
Revisor: Rodrigo Ramos Nogueira
Tempo de leitura do conteúdo estimado em 1 hora e 34 minutos.
Introdução
Olá, estudante! É com entusiasmo que convido você para a leitura desta unidade. Por meio da
Inteligência Artificial
(IA), uma máquina pode aprender de diversas formas, por indução ou
dedução, por hábito ou conceito, de forma conexionista, emergente ou probabilística. A maneira
como ela pode resolver os problemas do mundo real, no entanto, em termos de decisões, ocorre
https://ambienteacademico.com.br/course/view.php?id=18504 1/34
10/11/22, 09:51 E-book
mediante o aprendizado simbólico, a partir de técnicas de aprendizagem por buscas heurísticas, por
reconhecimento de padrões e relações.
Entretanto, caro(a) estudante,

como é possível obter a inteligência necessária para uma tomada de
decisão eficiente?
Para entender esse conceito, nesta unidade, direcionaremos seus estudos para o
entendimento da aquisição de inteligência a partir de bases de dados transacionais,
multidimensionais e do big data. Ademais, apresentaremos os fundamentos de machine learning,
big data, a organização de dados para análise e a mensuração da performance.
Boa leitura.
Introdução a
Big Data
e
Machine Learning
Prezado(a) estudante, para compreender o que é Aprendizado Máquina (AM),

machine learning
, e
big data
, é necessário entender que a definição exata de Inteligência Artificial (IA) é discutível, mas,
literalmente, a palavra “artificial” corresponde a tudo que é feito pelo homem e o termo “inteligência”
é a capacidade de compreender, aprender e resolver problemas. A Figura 1.1 ilustra uma aplicação
da IA, mediante a robótica e o AM, em tarefas de montagem e detecção de defeitos em peças.
10/11/22, 09:51 E-book
Figura 1.1 - Robô automatizando e aprendendo por meio da detecção de defeitos
Fonte: wklzzz / 123RF.
#PraCegoVer
: a imagem representa um braço de robô com garra, que automatiza uma tarefa em uma
indústria 4.0. Ao mesmo tempo que automatiza a tarefa, aprende com a detecção de defeitos nas peças.
Para Luger (2013, p. 19), “a inteligência artificial pode ser definida como o ramo da ciência da
computação que se ocupa da automação do comportamento inteligente”. A seguir, discutiremos o
que significa a automação do comportamento inteligente.
O comportamento inteligente
A inteligência já não é mais teoria, mas é uma aplicação para benefício humano. Segundo Faceli
et
al
. (2021), há alguns anos, a área de IA era considerada uma parte da ciência da computação
teórica, com aplicações em pequenos problemas práticos curiosos, desafiadores, mas de pouco
valor prático, e resolvidos pela codificação da computação. Essa codificação refere-se aos
algoritmos ou pseudocódigos que especificam, passo a passo, como o problema pode ser
resolvido.
A ideia básica de programar máquinas para executar tarefas é que elas podem resolver problemas
que nós humanos não conseguiríamos ou demoraríamos muito tempo para resolver. Exemplos
práticos de solução de problemas são: resolução de cálculos com grande quantidade de dados e
informações; aplicações de modelos matemáticos e estatísticos; outras tarefas que estariam além
da nossa capacidade de processamento e memória. As máquinas realizam bem essas tarefas
automatizadas e programadas pelos humanos, mas a questão é:
as máquinas podem aprender
igual aos humanos?
A resposta é sim.
Para Faceli
et al
. (2021), a capacidade de aprendizado é essencial para o comportamento
inteligente, que está relacionado às tarefas de aprendizagem como: memorização, observação,
exploração de situações para o aprendizado de fatos, aperfeiçoamento das habilidades
motoras/cognitivas, por meio de práticas, e organização do conhecimento em representações
adequadas.
10/11/22, 09:51 E-book
Machine learning
A capacidade da inteligência humana é aprender, e todo progresso humano é o resultado dos
esforços anteriores e da evolução do nosso entendimento. A aprendizagem automática das
máquinas, também denominada Aprendizado Máquina (AM), ou
machine learning
, é um ramo da
ciência da computação no qual, há décadas, os cientistas estão fazendo as máquinas aprenderem.
O avanço da computação, em termos de processamento e memória e por meio dos algoritmos de
aprendizagem, contribuiu para a revolução da IA.
É importante salientar que o campo da aprendizagem de máquina estuda como construir

programas de computador que melhorem a experiência da máquina, de forma automática.
Atualmente, as máquinas já aprendem por meio dos sistemas inteligentes, e os robôs, em fábricas,
já são utilizados para automatizar diversas tarefas. Um exemplo dessa automação é a aplicação de
chatbots
integrados à base de dados, caso em que máquinas e humanos conversam, de forma
natural, para a resolução de problemas, deixando os serviços mais ágeis.
A IA também pode ser utilizada em mecanismos de segurança que avaliam padrões de ataques em
bases de dados treinadas e cujos algoritmos aprendem com novos padrões, a partir de bases não
treinadas. A Figura 1.2 mostra um robô secretária, que realiza diversas tarefas em um escritório.
Hoje, uma realidade próxima.
Figura 1.2 - Robô secretária, um desenho que representava um futuro distante, hoje, é o presente
Fonte: studiostoks / 123RF.
#PraCegoVer
: a imagem representa um robô secretária realizando múltiplas tarefas. Em um balão de
conversa, o robô diz “Eu não sou robô!”, e, no outro, “Não é problema meu”.
Para Luger (2013), o aprendizado é importante para aplicações práticas de IA, e o aprendizado
acontece quando ocorrem mudanças em um sistema, o qual melhora quando a mesma tarefa for
realizada pela segunda vez, caso contrário, a máquina não aprendeu. Nesse sentido, o aprendizado
envolve a generalização a partir da experiência e, para uma generalização ideal, o desempenho deve
melhorar na repetição da mesma tarefa e em tarefas semelhantes do domínio, mediante um viés
indutivo.
10/11/22, 09:51 E-book
O aprendizado indutivo utiliza a generalização, a partir de um conjunto de exemplos. Neste estudo

de AM, apresentaremos quais são os métodos, os algoritmos e as técnicas que se baseiam no viés
indutivo, ou seja, na teoria da aprendizagem automática.
Para Bengfort e Kim (2016), o objetivo do AM é derivar modelos preditivos, a partir de dados atuais e
históricos. De acordo com as premissas, um algoritmo realiza o aprendizado quando obtém as
devidas melhorias, com uma excessiva quantidade de treinamento ou experiência. Tais resultados
eficientes são alcançados pelos algoritmos de AM para domínios muito restritos, usando modelos
treinados a partir de um grande conjunto de dados.
Para Siegel (2017), os métodos de indução estão relacionados ao AM. Os métodos de modelagem
variam, mas todos enfrentam o mesmo problema, aprender o máximo possível. Portanto, o objetivo
do AM é a
indução
, ou seja, o raciocínio, que parte de fatos detalhados para princípios gerais (do
efeito para a causa). Por sua vez, a dedução é o raciocínio que parte do geral para o particular (ou
da causa para o efeito). Ademais, a
dedução
é direta e parte da aplicação direta de regras, e a
indução parte dos detalhes para generalizar e verificar padrões que continuarão se aplicando em
situações ainda não vistas.
Visão geral dos problemas e das técnicas

No AM, existem várias formas de modelar a aprendizagem e, como exposto anteriormente, uma
delas, a mais utilizada, é o
viés indutivo
com informações de uma base de dados do passado e do
presente. Essa abordagem, segundo Coppin (2017), compreende a maioria dos problemas de
aprendizado, sendo que a tarefa é aprender a classificar entradas de acordo com um conjunto finito,
ou até infinito, de classificações.
Um sistema de aprendizado tem uma base de dados de treinamento que é classificada

manualmente. O sistema aprende quando, a partir dessa base de treinamento, a máquina tenta
classificar esses mesmos dados e uma nova base ainda não observada. Nesse contexto, existem
algumas maneiras de aprender:
por hábito;
por conceito.
A palavra “hábito” está relacionada a uma tarefa ou a um comportamento permanentes, frequentes

ou costumeiros. Na IA, segundo Coppin (2017), a aprendizagem por hábitos está relacionada ao
treinamento que envolve a armazenagem de cada fragmento de dados e sua classificação. Depois,
verifica-se cada novo item de informação que está armazenado na memória. Se estiver na memória,
a classificação armazenada com aquele item será retornada. Nesse método, o aprendiz só
consegue classificar os dados que já conhece e não há esforços para aproximar a função de
mapeamento.
Na prática, esses tipos de sistemas ou robôs efetuam tarefas automatizadas e aprendem de acordo
com novas informações armazenadas. Esses são os sistemas especialistas, que têm uma base de
fatos e dados (base de conhecimento). Sempre que a base é alimentada com novas informações,
que se relacionam de acordo com fatos e regras (conhecimento), um aprendizado é realizado.
10/11/22, 09:51 E-book
Fonte: sentavio / 123RF.
Associação de tarefas programadas em uma linha de produção

: o robô aprenderá de acordo com o que é ensinado em sua
base de conhecimento. Nenhum outro mapeamento é realizado
automaticamente. Uma diferença em relação a um algoritmo
que realiza um conjunto de tarefas pré-programadas e um
algoritmo que classifica dados mediante critérios (regras) e
fatos, gerando um resultado verdadeiro ou falso, é que o
primeiro algoritmo, que realiza tarefas pré-programadas, é um
conjunto de ações predefinidas, e o segundo, algoritmo que
classifica dados, é um conjunto de informações programadas
que geram classificações e decisões.
Dois elementos-chave são necessários para que os computadores aprendam: a base de

conhecimento e a inferência. A base de conhecimento é um conjunto de fatos e regras a respeito de
um objeto; o mecanismo de inferência é o algoritmo que realiza o acesso, a seleção e a
interpretação de um conjunto de regras do objeto. Por exemplo: Patrícia é esposa de Pedro,
consequentemente, há um novo fato: Pedro é marido de Patrícia. Uma regra seria: se X é esposa de
Y, então, Y é marido de X. Dessa forma, o computador pode aplicar a regra ao fato (BELMIRO, 2014).
Por seu turno, o aprendizado por conceitos envolve determinar um mapeamento, a partir de um
conjunto de variáveis de entrada, em um valor booleano (verdadeiro ou falso). Os métodos que
conseguem mapear, corretamente, um conjunto de dados de treinamento, por meio de
classificações, também conseguem mapear dados não observados anteriormente, ou seja,
conseguem realizar generalizações, a partir de um conjunto de dados de treinamento.
Ademais, os métodos de aprendizado do tipo conceito podem ser de diversos tipos, segundo Luger
(2013), e há uma divisão de métodos, técnicas e algoritmos de aprendizagem indutiva.
O Quadro 1.1 apresenta as características, os algoritmos, os métodos ou as técnicas de cada AM.
10/11/22, 09:51 E-book
Aprendizado Características Algoritmos, métodos, técnicas
● Os algoritmos baseiam-se na ● Algoritmos de espaços de conceitos.

suposição de que a principal
influência sobre o comportamento ● Linguagem Lex: busca heurística.
do programa é a sua base de
Aprendizado
conhecimento do domínio ● Algoritmo de eliminação de
simbólico
representada explicitamente. candidatos.
● Baseada em sentenças em ● Algoritmo ID3 para a indução de
linguagem simbólica. árvore de decisão.
● Algoritmos de treinamento de
● O conhecimento está implícito na Perceptron.
organização e na interação desses
neurônios. ● Aprendizado por retroprogramação.
● Neurônios artificiais conectados. ● Aprendizado competitivo: o

vencedor leva tudo — rede de
Aprendizado ● As redes neurais não aprendem Kohonen, redes Outstar e
conexionista adicionando representações a sua contraprogramação, máquinas de
base de conhecimento, em vez disso, vetor de suporte.
elas aprendem modificando a sua
estrutura global. Assim, as redes ● Aprendizado hebbiano por
neurais se adaptam às contingências coincidência.
do mundo que habitam.
● Redes de atratores ou “memórias”.
● O aprendizado é realizado por meio ● Modelos de aprendizados social e

de adaptação por analogias emergente.
biológicas.
● Algoritmo genético.
Aprendizado
genético e ● Aprendizado inspirado na evolução,
● Sistemas classificadores e
emergente mediante a modelagem de uma
programação genética.
população de indivíduos, por meio da
sobrevivência de seus membros ● Algoritmos de autômatos celulares
mais ajustados. (o jogo da vida).
AM probabilístico ● Representações complexas do ● Modelos estocásticos e dinâmicos

mundo, por meio das ferramentas de aprendizado: Modelo de Markov e
probabilísticas. Redes Bayesianas.
● Os eventos podem ser

relacionados uns aos outros, de
forma probabilística.
10/11/22, 09:51 E-book
● Os modelos estocásticos capturam

bem as mudanças do mundo.
Quadro 1.1 - Aprendizado, características, algoritmos, métodos e técnicas do AM
Fonte: Adaptado de Luger (2013).
#PraCegoVer
: o quadro apresenta as características de AM, sendo divido em três colunas e
cinco linhas. Na primeira linha, há os termos “Aprendizado”, “Características” e “Algoritmos,
métodos, técnicas”. Na segunda linha, há “Aprendizado simbólico” e, em seguida, sua
característica é descrita da seguinte forma: “os algoritmos estão baseados na suposição de
que a principal influência sobre o comportamento do programa seja a sua base de
conhecimento do domínio representada explicitamente“ e “baseada em sentenças em
linguagem simbólica”. Em seguida, há: “Algoritmos de espaços de conceitos”, “Linguagem Lex:
busca heurística”, “Algoritmo de eliminação de candidatos” e “Algoritmo ID3 para indução de
árvore de decisão”. Na terceira linha, há “aprendizado conexionista”, seguido por suas
características: “O conhecimento está implícito na organização e na interação desses
neurônios”, “Neurônios artificiais conectados” e “As redes neurais não aprendem adicionando
representações a sua base de conhecimento, em vez disso, elas aprendem modificando a sua
estrutura global. Assim, as redes neurais se adaptam às contingências do mundo que habitam”.
A seguir, ainda na terceira linha, há: “Algoritmos de treinamento de Perceptron”, “Aprendizado
por retroprogramação”, “Aprendizado competitivo (o vencedor leva tudo: rede de Kohonen,
redes Outstar e contraprogramação, máquinas de vetor de suporte)”, “Aprendizado hebbiano
por coincidência” e “Redes de atratores ou ‘memórias”’. Na quarta linha, há “Aprendizado
genético e emergente”, seguido das seguintes características: “O aprendizado é realizado por
meio de adaptação por analogias biológicas” e “Aprendizado inspirado na evolução, mediante a
modelagem de uma população de indivíduos, por meio da sobrevivência de seus membros
mais ajustados”. Em seguida, ainda na quarta linha, há: “Modelos de aprendizado social e
emergente”, “Algoritmo genético”, “Sistemas classificadores e programação genética” e
“Algoritmos de autômatos celulares (o jogo da vida)”. Na quinta e última linha, há “Aprendizado
conexionista”, seguido por suas características: “O conhecimento está implícito na organização
e na interação desses neurônios”, “Neurônios artificiais conectados” e “As redes neurais não
aprendem adicionando representações a sua base de conhecimento, em vez disso, elas
aprendem modificando a sua estrutura global. Assim, as redes neurais se adaptam às
contingências do mundo que habitam”.
Portanto, o AM computacional é a aplicação de técnicas computacionais na tentativa de encontrar

padrões explícitos e observáveis. Para Fawcett e Provost (2018), o AM preocupa-se com muitos
tipos de melhoria de desempenho, incluindo campos da robótica e da visão computacional, usando
o conhecimento aprendido para raciocinar e interagir com o ambiente.
Outro campo em que o AM atua é na

mineração de dados
, que faz parte da descoberta do
conhecimento, não atuando no ambiente propriamente dito, mas nas bases de dados, preparando e
analisando os dados e criando modelos de aprendizagem para as eficientes tomadas de decisões.
10/11/22, 09:51 E-book
A seguir, discutiremos como o AM é realizado no contexto da mineração de dados, ou seja, na

busca de grandes bases de informações, nas quais há o conhecimento de uma forma implícita ou
não compreendida.
Aprendizado máquina no contexto de mineração

de dados
Os computadores registram e processam dados que são organizados de acordo com
características idênticas. Esses dados são armazenados em uma base de dados relacional. Essa
organização é denominada
tabelas de dados
, sendo uma espécie de planilha de cálculo composta
por linhas e colunas. As decisões que são tomadas, e que nos envolvem (como cidadãos,
consumidores ou agentes de negócios) implicam que os dados e as informações devem estar
disponibilizadas para uso imediato ou posterior (resultado do armazenamento em dispositivos não
voláteis). Assim, há diversos tipos de bases de dados associados ao AM, conforme exposto a
seguir.
Os
dados estruturados
advêm de bases relacionais e transacionais das empresas, indústrias e
nuvens de dados, já armazenados, normalizados e de fáceis operação e análise. O gerenciamento
dessas informações, nesses dispositivos, é realizado pelo Sistema Gerenciador de Banco de Dados
Relacional (SGBD ou, em inglês, DBMS – Database Management Systems). Como exemplo de
manipulação relacional, é possível citar a realizada por meio da linguagem SQL (Standard Query
Language).
O MySQL é um típico banco de dados relacional. Nesse caso, o SGBD e o SQL trabalham no apoio
ao pré-processamento de dados, para que uma base apropriada seja utilizada e processada pelos
algoritmos de mineração. Outra forma estruturada de dados, utilizada para a mineração e o AM,
refere-se às planilhas eletrônicas, cuja extensão de arquivo é o .xls. Em uma planilha eletrônica, os
dados são dispostos em colunas e linhas de fácil manipulação para o pré-processamento de dados
para mineração.
No que se refere às
bases de dados não estruturados e semiestruturados
, outras formas de
armazenamento de dados podem ser mineradas, como os dados não estruturados, os quais são os
bancos de dados NoSQL (Not only Standard
Query Language
– não é um modelo SQL, não
relacional), de nuvens e páginas
web
, pois a maior quantidade de dados está sendo gerada de
forma não estruturada, ou seja, de forma não normalizada, advinda de redes sociais,
logs
, bases
nativas, documentos e sensores dos aplicativos de smartphones e de páginas
web
. Ademais, os
modelos não estruturados se afastam do modelo relacional e são considerados dados não
uniformes e orientados a documentos em que as informações não estão normalizadas e
organizadas mediante uma relação entre elas.
Além das bases não estruturadas, as

semiestruturadas
são muito utilizadas para a leitura dos
algoritmos de mineração e contemplam características mais organizadas do que os dados não
estruturados. Essa organização refere-se a como um dado é delimitado, por exemplo, mediante uma
separação por um delimitador, vírgula (,) ou ponto e vírgula (;). Um exemplo de base
semiestruturada é um arquivo de texto CSV, no qual os dados são separados por delimitadores
ponto e vírgula (;). Outro exemplo é uma consulta JSON (JavaScript Object Notation), que é um
10/11/22, 09:51 E-book
modelo para armazenamento simples e compacto, muito utilizado em aplicações web para acesso
a um grande volume de dados.
Além desses modelos de bases semiestruturadas, existem diversos outros, que se ajustam às
necessidades e aos fatores como velocidade de acesso, capacidade de compactação dos dados,
organização e facilidade de acesso. As bases semiestruturadas (ou denominadas de forma híbrida)
têm certa organização e precisam passar por tratamentos antes de serem utilizadas. Essas
variedades de estruturas de dados exigem complexas atividades de coleta, tratamento,
processamento e visualização, para que haja a tomada de decisão nas organizações. Assim, as
bases semiestruturadas e não estruturadas, advindas das mais diversas fontes, precisam de um
alto pré-processamento de dados, para que os algoritmos de mineração sejam executados.
SAIBA MAIS
Existem sites de referência em base de dados de

machine learning
, como o Repositório de AM da UCI,
uma comunidade que contém 585 conjuntos de dados pesquisáveis. Para conhecer esse repositório,
acesse:
https://archive.ics.uci.edu/ml/index.php
No que se refere às
bases de fatos e regras
, é possível que, além de dados, os computadores
processem informações, mediante modelos matemáticos e seus algoritmos computacionais. As
máquinas recebem informações dos usuários e realizam o processamento necessário, o qual utiliza
uma “base de conhecimento” composta por “conhecimentos de regras” e “fatos” dos especialistas
da empresa; isso representa um conjunto de informações específicas de determinada área do
conhecimento.
O conhecimento está relacionado a um conjunto de informações, ao contexto que envolve a

percepção do ambiente, ao sistema em que foi composto e ao funcionamento do sistema. O
conhecimento é derivado de diversas fontes de informações que, comparadas, permitem que seja
apresentado um cenário de fenômenos e evoluções de uma situação. Esse conjunto de atividades é
denominado processo de construção de um Data Pipeline – Pipeline de Dados. As atividades mais
difíceis do processo Pipeline de Dados estão concentradas na primeira camada (camada de
ingestão de dados e coletora de dados).
Quanto à
base
big
data
, outro importante conceito utilizado na mineração de dados e no AM é a
ingestão de dados, sendo um conceito mais atualizado da aquisição de diversas fontes de dados,
dentro de um processo maior, denominado Pipeline de Dados, e de uma arquitetura
big data
, de
sistema de processamento em lote (
batch
),
real time
ou híbrido. A ingestão de dados é uma das
camadas mais complexas do processo Pipeline de Dados e tem como objetivo importar e mover os
dados estruturados, semiestruturados e não estruturados para uma localização em que eles
10/11/22, 09:51 E-book
possam ser acessados. A camada de ingestão de dados exige um conjunto de atividades de

planejamento, conexão, extração e transformação de dados.
Um
big data
utiliza, normalmente, uma ingestão de dados nos sistemas de armazenamento e,
segundo Pereira
et al
. (2019, p. 44), “a complexidade dessa operação depende muito do formato e
da qualidade das fontes de dados e da distância que os dados estão do estado desejado antes do
processamento”. Esses dados de um
big data
são de diversas fontes, são heterogêneos – formatos
variados imagens, vídeos, textos, áudios – e devem ser inseridos (extração e carregamento)
diretamente no
big data
, antes mesmo de seu processamento, para que, assim, sejam distribuídos
para os consumidores específicos.
Conforme expõem Castro e Ferrari (2016), a mineração de dados pode proporcionar uma
capacidade
preditiva
poderosa de dados. As funcionalidades da mineração de dados são usadas
para especificar os tipos de informações nas tarefas descritivas e preditivas. As tarefas
descritivas
caracterizam as propriedades gerais dos dados, e as
preditivas
fazem inferência a partir dos dados,
objetivando predições. Para entender melhor esse conceito, analise a Figura 1.3.
Figura 1.3 - Processo KDD (Knowledge Discovery in Databases) de descoberta do conhecimento
Fonte: Adaptada de Sharda, Delen e Turban (2019 apud Mariano et al., 2020).
#PraCegoVer
: a figura representa um diagrama do processo KDD (Knowledge Discovery in Databases) de
descoberta de conhecimento, a partir de uma fonte de dados brutos. É realizada uma seleção de dados,
gerando dados-alvo. Depois, é realizada a tarefa de limpeza de dados, gerando dados pré-processados.
Após, há uma tarefa de transformação de dados, gerando dados transformados. Em seguida, é executada
a mineração, propriamente dita, obtendo-se padrões. Depois, realiza-se a tarefa de externalização, gerando
conhecimento (
insight
com aplicação prática).
As ferramentas de mineração de dados aplicam algoritmos a conjuntos de informações, para que

haja a descoberta de tendências e padrões (BALTZAN, PHILLIPS, 2012). Assim, a mineração de
dados faz parte de um processo de descoberta de conhecimento em bases de dados – Knowledge
Discovery in Databases (KDD). O processo KDD é constituído por tarefas de seleção, pré-
processamento, transformação, mineração e interpretação de dados. Assim, a Figura. 1.3 ilustra um
processamento de descoberta de conhecimento em que são coletados dados de diversas bases
transacionais; a seguir, eles são selecionados, transformados e, mediante ferramentas e algoritmos,
estimativas, padrões ou agrupamentos são encontrados, para que haja uma eficiente tomada de
decisão.
10/11/22, 09:51 E-book
Uma mineração não significa aprendizagem, a qual é a próxima etapa possível da mineração de
dados. Para encontrar informações necessárias, pode ser suficiente encontrar uma análise
descritiva ou um agrupamento, mas, para que haja a descoberta de conhecimento, em uma base de
dados, é necessário fazer o algoritmo aprender de acordo com o seu desempenho (classificando,
estimando ou associando dados).
Na etapa de
análise descritiva
, é possível realizar a sumarização e a compreensão dos objetos da
base e seus atributos, mediante distribuições de frequências, medidas de centro e variação,
medidas de posição relativa e associação de dados. Na
predição
, é utilizado ou desenvolvido um
modelo para avaliar a classe de um objeto não rotulado ou para estimar o valor de um ou mais
atributos de dados-objeto. A etapa de
avaliação da classe
, por sua vez, também é denominada
tarefa de classificação, e a estimação do valor pode ser chamada de regressão ou estatística.
A etapa de
análise de grupos
é um processo de posicionamento ou de segmentação de um
conjunto de objetos em
clusters
de objetos similares. Enfim, na etapa de
associação
, são
encontradas relações (grupos, classes ou estimativas) entre os objetos da base (CASTRO; FERRARI,
2016). A regra de associação refere-se à descoberta de regras de associações que apresentam
valores de atributos de coocorrência (ocorrência conjunta na mesma base de dados transacionais).
Portanto, é possível dividir uma mineração de dados em uma sequência, para que seja possível a
descoberta do conhecimento, sendo essa uma proposta adaptada de
machine learning
.
Pré-processamento de dados
: preparação da base de dados, limpeza, integração,
redução, transformação e discretização dos dados.
Análise descritiva dos dados
: visualização dos dados.
Análise de grupos
: agrupamento de dados (similaridades e formas de representação
dos agrupamentos).
Aprendizagem
: há algoritmos de aprendizagem que podem ser por classificação,
estimação ou por regras de associação.
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
10/11/22, 09:51 E-book
Um processo sequencial de atividades de mineração de dados que utiliza um modelo preditivo

corresponde a tarefas como pré-processamento da base de dados, descrição dos dados de
treinamento, aplicação do treinamento de testes e avaliação do resultado. Assinale a alternativa
correta quanto ao pré-processamento da base.
a)
Definição dos algoritmos de mineração.
b)
Definição de quais dados da base serão treinados.
c)
Realização de uma pré-avaliação da base de dados.
d)
Limpezas, integrações, transformações e discretizações da base de dados.
e)
Uma pré-visualização dos dados em forma de gráficos.
praticar
Vamos praticar
Este é um diálogo entre uma suposta analista de sistema e um
bot
, um robô (ou sistemas
inteligentes), que irá explicar as aplicações dos sistemas tutoriais inteligentes e AM em escolas e
fábricas.
Personagem analista de sistemas:
– Sou o analista de sistemas e irei apresentar a importância do AM e dos tutoriais inteligentes no

contexto da mineração de dados.
Personagem
bot
:
– Olá, sou um
bot
; rastreio informações sobre a vida dos humanos, suas preferências, faço
mineração de dados, descobrindo tendências do que os humanos podem comprar ou realizar, e
sugiro possibilidades diversas. Dentro das organizações, utilizo as bases transacionais para
rastrear padrões e tendências para as complexas tomadas de decisões em qualquer nível
organizacional, para analistas e gestores. Nós
bots
temos como função a mineração de dados, a
qual é uma área da IA que está ajudando a encontrar conhecimento em grandes bases de dados,
para que seja possível resolver problemas.
Softwares
de mineração, como eu, são implementados
nas navegações de
sites
de buscas e em sites de comércio eletrônico móvel. Nós, algoritmos de
mineração, em conjunto com as técnicas de processamento da linguagem natural, temos outro
nome: tutores inteligentes. Assim, conseguimos orientar e ensinar os humanos. Estamos em
escolas, nos treinamentos em fábricas e em muitas outras aplicações.
Agora, realize uma pesquisa e desenvolva um texto de, aproximadamente, dois parágrafos,
apresentando uma aplicação/um exemplo do uso de tutoriais inteligentes. No primeiro parágrafo,
apresente a importância e a aplicação/o exemplo de um sistema tutorial. No segundo parágrafo,
10/11/22, 09:51 E-book
descreva como o sistema tutorial apoia o aprendizado e explique se esse sistema também
aprende com o aprendiz. Cite exemplos de soluções comerciais que utilizam tutoriais inteligentes.
Organizando os Dados
para Análise (Pré-
Processamento)
Prezado(a) aluno(a), você sabia que a

primeira
etapa da mineração de dados está relacionada à
preparação
da base de dados, também denominada
pré-processamento
? Antes de realizar
qualquer análise em uma base de dados, é necessário o
preparo
, devido às
inconsistências
e aos
ruídos
contidos na seleção de dados. O diagrama ilustrado na Figura 1.4 mostra as
etapas
de
preparação
da base de dados para a análise. Nesse caso, há: (1) definição do problema, (2) seleção
dos dados brutos, (3) pré-processamento da base e definição do algoritmo. Depois, há a aplicação
do algoritmo ou a aplicação do processo de análise descritiva.
10/11/22, 09:51 E-book
Figura 1.4 - Etapas de preparação da base de dados para a mineração de dados
Fonte: Adaptada de Castro e Ferrari (2016).
#PraCegoVer
: a figura representa um diagrama das etapas de preparação da base de dados para o
processo de mineração de dados. A primeira etapa é a definição do problema; a segunda etapa refere-se à
seleção dos dados brutos; a terceira etapa refere-se ao pré-processamento da base e à definição do
algoritmo e é constituída por tarefas de limpeza, integração, redução, transformação e discretização. Na
quarta etapa, são realizadas as tarefas de aplicação do algoritmo ou a análise descritiva. A última etapa
refere-se aos resultados da mineração.
Por meio da eliminação das inconsistências e dos ruídos, é mais fácil obter o conhecimento
presente na seleção dos dados brutos. As atividades de pré-processamento, apresentadas na Figura
1.4, podem ser detalhadas, segundo Castro e Ferrari (2016), como:
etapa de limpeza: de acordo com o conceito KDD, após a seleção dos dados em um base
bruta, a limpeza de dados é uma das primeiras tarefas de pré-processamento. Essa tarefa
está relacionada ao procedimento de imputação de valores ausentes, à remoção de ruídos e
à correção de inconsistências;
etapa de integração: é uma das tarefas do processo KDD; o objetivo é unir dados de
múltiplas fontes em um único local, como o armazém de dados (

data warehouse
) e os
dados de uma planilha eletrônica. Para alguns autores, essa etapa, no processo de KDD,
pertence à etapa de limpeza da base;
etapa de redução: é uma tarefa que tem como objetivo reduzir a dimensão da base de dados,
por exemplo, agrupando ou eliminando atributos redundantes, ou reduzir a quantidade de
objetos da base, sumarizando os dados. Para alguns autores, essa etapa, no processo de
KDD, pertence à etapa de limpeza da base de dados;
etapa de transformação: é uma tarefa do processo KDD que tem o objetivo de padronizar e
deixar os dados em um formato passível de aplicação das diferentes técnicas de mineração;
10/11/22, 09:51 E-book
etapa de discretização: nesse caso, os métodos que trabalham apenas com atributos
nominais podem ser empregados em um conjunto maior de problemas. Dentro de um
processo KDD, essa etapa pode pertencer a etapa de transformação;
etapa de análise descritiva: é importante diferenciar análise descritiva de mineração de
dados. A
análise descritiva
visa encontrar o que há nos dados (características), e os
algoritmos de mineração conseguem realizar inferências a partir dos dados, ou seja, realizar
um aprendizado. Como exemplo de uma análise descritiva de uma base de dados de câncer
em exames de mamas, é possível encontrar características nos dados, por exemplo, verificar
a média de idade das mulheres que têm câncer de mama. Por sua vez, a mineração pode
predizer se determinada pessoa terá ou não câncer, a partir de características (CASTRO;
FERRARI, 2016).
A Figura 1.5 ilustra a sequência de uma extração de dados, a partir de uma base de dados, para uma
planilha. Os dados são pré-processados e, depois, é gerada uma distribuição de dados, por meio de
um histograma (gráfico em forma de barras).
Figura 1.5 - Sequência de uma extração de dados
Fonte: Elaborada pelo autor.
#PraCegoVer
: a figura representa uma sequência de extração de dados, iniciando com a extração da base
de dados para uma planilha com os dados pré-processados. Em uma segunda etapa, os dados geram um
histograma, apresentando características deles.
Por meio da distribuição de dados e da visualização do histograma, é possível encontrar, nos dados
armazenados, as características que não estão visíveis ou compreensíveis em uma base de dados
ou em uma planilha eletrônica. O processo de análise descritiva de dados, segundo Castro e Ferrari
(2016), é desmembrado em três passos:
1. organização dos dados em distribuição de frequência;
2. visualização dos dados;
10/11/22, 09:51 E-book
3. cálculos das médias de frequências, variação e associação.
Para Castro e Ferrari (2016), é útil organizar e resumir os dados a partir da construção de uma
tabela que lista os valores dos atributos de maneira individual ou agrupada. Também, devem ser
incluídas as frequências correspondentes (distribuição de frequências), que representam o número
de vezes que os valores listados ocorrem. Uma distribuição de frequência é um resumo
(sumarização) dos dados agrupados em classes.
O exemplo a seguir ilustra a base de dados de mamografia (Quadro 1.2) e contém informações de
lesões de massas mamográficas obtidas a partir de atributos da classificação BI-RAIDS (Breast
Imaging-Reporting and Data System). Cada objeto identificado por ID corresponde a um exame por
imagem de diagnóstico realizado, mas esse atributo não é utilizado para a análise. O Quadro 1.2 é
uma pequena parte da base de 961 objetos (CASTRO; FERRARI, 2016), assim, são apresentados
apenas os 10 primeiros objetos, para que haja uma melhor compreensão.
10/11/22, 09:51 E-book
BI-
ID Idade Forma Margem Densidade Severidade
RADS
1 5 67 Lobular Especulada Baixa Maligno
2 4 43 Redonda Circunscrita ? Maligno
3 5 58 Irregular Especulada Baixa Maligno
4 4 28 Redonda Circunscrita Baixa Benigno
5 5 74 Redonda Especulada ? Maligno
6 4 65 Redonda ? Baixa Benigno
7 4 70 ? ? Baixa Benigno
8 5 42 Redonda ? Baixa Benigno
9 5 57 Redonda Especulada Baixa Maligno
10 5 60 ? Especulada Alta Maligno
Quadro 1.2 – Base de dados de mamografia
Fonte: Castro e Ferrari (2016, p. 61).
#PraCegoVer
: o quadro representa uma parte dos dados de uma base mamográfica, 10 itens.
A primeira coluna representa a ID (identificação) correspondente a um exame por imagem de
diagnóstico. A segunda coluna corresponde à classificação BI-RAIDS (Breast Imaging-
Reporting and Data System). A terceira coluna corresponde à idade do paciente. A quarta
coluna apresenta a forma do tumor, se é lobular, irregular, redonda ou não identificada. Na
quinta coluna, há uma margem especulada ou circunscrita. Na sexta coluna, há a densidade do
tumor, que pode ser baixa, alta ou indefinida. A última coluna corresponde à severidade do
tumor: maligno ou benigno. Na segunda linha, há os valores da pesquisa, na ordem: 1, 5, 67,
lobular, especulada, baixa e maligno. Na terceira linha, há: 2, 4, 43, redonda, circunscrita, um
ponto de interrogação e maligno. Na quarta linha, há: 3, 5, 58, irregular, especulada, baixa e
maligno. Na quinta linha, há: 4, 4, 28, redonda, circunscrita, baixa e benigno. Na sexta linha, há:
5, 5, 74, redonda, especulada, um ponto de interrogação e maligno. Na sétima linha, há: 6, 4, 65,
redonda, um ponto de interrogação, baixa e benigno. Na oitava linha, há: 7, 4, 70, um ponto de
interrogação, outro ponto de interrogação, baixa e benigno. Na nona linha, há: 8, 5, 42, redonda
e benigno. Na décima linha, há: 9, 5, 57, redonda, especulada, baixa e maligno. Na décima
primeira linha, há: 10, 5, 60, um ponto de interrogação, especulada, alta e maligno.
10/11/22, 09:51 E-book
A partir da base de dados apresentada, são realizados cinco passos para a construção da
distribuição de frequência mediante os objetos de aprendizagem, conforme exposto a seguir.
Um exemplo detalhado de informações utilizadas para o cálculo da distribuição de frequência é

dado por Castro e Ferrari (2016) e está exposto a seguir.
Passo 1: os valores dos atributos são grupos de intervalo que se deseja dividir. Nesse caso,
há cinco faixas de idades. A sugestão é de 5 a 20 classes.
Passo 2: amplitude de classe, que é a diferença entre o maior valor e o menor valor de uma
variável. Amplitude = (maior valor) – (menor valor). A amplitude de classe = (maior valor –
menor valor) / número de classes. (81 – 23) / 5 = 11,6. O valor 81 é a maior idade, e 23 é a
menor idade da base de mamografias, dos 961 objetos. Essas informações podem ser
obtidas com os objetos, em uma planilha eletrônica, mediante a execução de um filtro de
classificação (crescente e decrescente). Normalmente, o valor da amplitude é arredondado
para cima. Portanto, o valor da amplitude fica com valor igual a 12.
Passo 3: é o limite inferior inicial, é o número para o limite inferior da primeira classe. Nesse
caso, o valor é 23.
Passo 4: são os limites inferiores das classes, ou seja, os menores números que podem
pertencer às diferentes classes. Os limites inferiores a essas cinco classes são: 23 (classe
1), 35 (classe 2), 47 (classe 3), 59 (classe 4) e 71 (classe 5).
Passo 5: são os maiores números que podem pertencer às diferentes classes. Os limites
superiores das cinco classes são: 34 (classe 1), 46 (classe 2), 58 (classe 3), 70 (classe 4) e
82 (classe 5).
Passo 6: cada valor deve ser rotulado com a classe à qual pertence. Por exemplo, o valor 67,
ID 1, pertence à classe 4. O próximo valor 43, ID 2, pertence à classe 2.
Assim, estes são os rótulos para os primeiros 80 objetos de estudo: 4, 2, 3,

1
,
5
, 4, 4, 2, 3, 4,
5
, 2, 4,
2, 4, 3, 3, 4, 3, 2, 4, 3, 2, 2, 4,
5
, 4, 4, 2, 3, 2, 3, 3, 2,
5
,
5
, 4, 4, 3, 3, 4,
5
, 3, 4, 4, 2, 4,
1
, 2, 4,
5
,
5
,
1
, 4, 3,
2, 3, 3, 2, 4, 3, 4, 3, 3,
5
,
1
, 3,
5
, 2, 4,
5
, 4, 3, 4, 4,
1
,
5
,4, 4, 4.
Por meio dos rótulos, é encontrada a

frequência absoluta
. Por exemplo, a frequência absoluta da
classe 1 é a quantidade do rótulo 1 que aparece na sequência do passo 6, identificando a
quantidade em destaque. O valor é: 5 rótulos de valor 1. Por sua vez, a classe 5 aparece 12 vezes na
relação exposta anteriormente.
No Quadro 1.3, há os seguintes atributos: classe, limite inferior, limite superior, frequência absoluta e
cálculo da frequência relativa, dado em percentual. A frequência relativa de uma classe corresponde
a quanto ela ocorre em relação a toda a distribuição de frequências. Nesse caso, a fórmula é: FR =
(FA / (número de objetos)) * 100. Por exemplo, FR da classe 1:
FR1 = 5 / 80 = 0,0625 * 100 = 6,25%
10/11/22, 09:51 E-book
Frequência Frequência
Classe Limite inferior Limite superior
absoluta relativa
1 23 34 5 6,25%
2 35 46 15 18,75%
3 47 58 20 25%
4 59 70 28 35%
5 71 82 12 15%
Quadro 1.3 – Base de dados de mamografia
Fonte: Adaptada de Castro e Ferreira (2016).
#PraCegoVer
: o quadro, dividido em cinco colunas e seis linhas, apresenta, em cada coluna, os
seguintes atributos: classe, limite inferior, limite superior, frequência absoluta e cálculo da
frequência relativa dado em percentual, referente aos rótulos dos primeiros 80 objetos de
estudo. Na segunda linha, há: 1, 23, 34, 5 e 6,25%. Na terceira linha, há: 2, 35, 46, 15 e 18,75%.
Na quarta linha, há: 3, 47, 58, 20 e 25%. Na quinta linha, há: 4, 59, 70, 28 e 35%. Na sexta linha,
há: 5, 71, 82, 12 e 15%.
Depois de ser calculada a frequência absoluta e relativa, é possível visualizar os dados por meio de
gráficos do tipo histograma. Para Castro e Ferreira (2016, p. 65), a visualização dos dados tem o
“objetivo de se entender a natureza das distribuições dos dados, extrair conhecimento mais fácil e
rapidamente e permitir o compartilhamento desse conhecimento de maneira direta entre diferentes
pessoas e entidades”. Uma das representações gráficas mais utilizadas para a visualização da
distribuição dos dados é o histograma, o qual é um tipo de frequência tabulada na forma de
retângulos adjacentes ou barras adjacentes. Cada barra é a representação das classes da
distribuição de frequência, também denominada
bins
. Na Figura 1.6, há um exemplo de histograma
referente ao Quadro 1.3 (distribuição de frequência).
10/11/22, 09:51 E-book
Figura 1.6 – Histograma do atributo idade para a amostra da base de mamografia (frequência
absoluta)
Fonte: Adaptada de Castro e Ferrari (2016).
#PraCegoVer
: o gráfico representa um histograma do atributo idade para a amostra da base de
mamografia (frequência absoluta). As barras representam as classes da distribuição de frequência (bins).
A primeira barra representa a classe 1 e tem limite inferior a 23 e superior a 34; a classe 2 tem limite
inferior a 35 e superior a 46; a classe 3 tem limite inferior a 47 e superior a 58; a classe 4 tem limite inferior
a 59 e superior a 70; a classe 5 tem limite inferior a 71 e superior a 82.
Por meio do histograma, é possível visualizar as classes e suas variações de distribuição de

frequências. A escala horizontal corresponde às classes de 1 a 5, e a escala vertical representa as
frequências. A maior concentração de exames mamográficos realizados está na classe 4, ou seja,
mulheres entre 59 e 70 anos, enquanto a menor frequência está concentrada na classe 1: mulheres
entre 23 e 34 anos.
A análise descritiva de dados pode ser utilizada antecipadamente, antes da mineração mais
complexa (uso de algoritmos de mineração de dados). Nesse contexto, a análise descritiva é
considerada uma etapa inicial do processo de mineração e utiliza ferramentas estatísticas simples,
como frequência absoluta e relativa. Portanto, as análises descritivas permitem a sumarização e a
melhor visualização dos objetos de dados e da distribuição de frequências por meio dos
histogramas.
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
10/11/22, 09:51 E-book
A primeira etapa está relacionada à preparação da base de dados e é realizada antes de qualquer
análise em uma base de dados. Assim, é necessário o preparo da base de dados, devido às
inconsistências e aos ruídos contidos na seleção de dados que será analisada. Como essa etapa é
denominada?
a)
Pré-processamento de dados.
b)
Limpeza de dados.
c)
Análise de dados.
d)
Processamento de dados.
e)
Seleção dos dados brutos.
Mensuração e
Performance
Caro(a) estudante, você sabia que as medidas de avaliação dos resultados dos algoritmos
aplicados no processo de mineração são
vitais
para a
conclusão
dos resultados? Nesse sentido, é
importante salientar que a mensuração e a
performance
dependem da abordagem da mineração de
dados e das ferramentas e dos algoritmos utilizados. Uma seleção incorreta da abordagem, da
ferramenta ou dos algoritmos pode prejudicar a
performance
e a mensuração dos resultados dos
algoritmos. Desse modo, o pós-processamento da mineração de dados considera:
o pré-processamento dos dados (limpeza, integração, redução, transformação e
discretização);
a seleção adequada dos sistemas de processamento (algoritmos de mineração);

as ferramentas de mensuração da capacidade e da qualidade dos resultados.
Portanto, é essencial que todas as etapas do processo de mineração estejam alinhadas com o
objetivo do AM.
No desenvolvimento de projetos de
machine learning
, é essencial o uso de métricas de avaliação
para a resolução de cada problema. Assim, a escolha correta das métricas influencia a avaliação de
10/11/22, 09:51 E-book
um modelo ideal de aprendizagem ou demonstra quão distante esse modelo está de um modelo
ideal. Um tipo de métrica de avaliação é a classificação.
Segundo Amaral (2016), em um modelo de classificação, devem ser analisadas quais são as
características que definem cada forma e como essa forma é atribuída a cada um dos grupos,
como mostra a Figura 1.7: dentro dos retângulos, as formas já estão classificadas de acordo com o
seu tipo – triângulo, quadrado ou círculo. Uma forma à esquerda do retângulo, no entanto, com uma
interrogação no centro, ainda não teve seu tipo identificado. Em uma base de dados relacional, os
dados já estão classificados de forma equivalente aos elementos do retângulo (triângulos,
quadrados e círculos), como mostra a Figura 1.8, sendo classificados em categorias do tipo:
clientes, produtos, fornecedores, compras, vendas etc. Ademais, um algoritmo de aprendizado
aprenderá a classificar um objeto que ainda não foi classificado.
Figura 1.8 - Aprendizagem por classificação
Fonte: Adaptada de Amaral (2016).
#PraCegoVer
: a figura representa um retângulo com figuras geométricas, dividido em três grupos:
triângulos, quadrados e círculos (que representam bases treinadas). Além disso, há uma incógnita, que é
uma figura desconhecida.
A classificação funciona com dados históricos, contudo, em uma base de dados relacional de
clientes ou produtos, essa classificação já está pronta, pois as tabelas ou a classe dos objetos já
estão na forma estruturada. É necessário verificar, no entanto, se os dados são necessários,
convenientes e preparados para o propósito, caso contrário, será preciso aplicar a primeira etapa de
pré-processamento (limpeza, integração, redução, transformação e discretização). Então, o próximo
passo do AM é criar um modelo preditivo, a partir dos dados históricos já classificados.
Um exemplo da construção de um modelo do AM está ilustrado no diagrama na Figura 1.9. A partir

de uma base de dados transacional, são extraídos os dados históricos do cliente. Uma parte dos
dados disponíveis é usada para a geração do modelo preditivo (um conjunto de treinamento) e a
outra parte é usada para avaliar a qualidade do modelo (conjunto de testes).
10/11/22, 09:51 E-book
Figura 1.9 - Construção de um modelo preditivo
#PraCegoVer
: a figura representa um modelo de classificação. A partir da base de dados transacional,
são selecionados os dados históricos de clientes e são preparadas as bases de treino para a criação de
um modelo preditivo e a base de teste para a avaliação do modelo.
O treinamento consiste em usar os dados de treino para ajustar parâmetros livres do modelo (em
redes neurais, seriam os pesos do modelo; nas árvores de decisão, seriam os nós da árvore) e para
que haja um desempenho avaliado pela aplicação do modelo.
Com base nos elementos da Figura 1.10, é possível melhorar o exemplo de figuras geométricas para
a classificação. Assim, de forma mais lúdica, na Figura 1.9, as formas têm, além do rótulo (nome da
figura), características de cor e tamanho.
Figura 1.10 - Conjunto de figuras geométricas
#PraCegoVer
: a figura representa um conjunto de formas geométricas: triângulo vermelho, círculo laranja,
triângulo azul-escuro, quadrado azul-claro, círculo laranja. Abaixo dessas figuras, há outras: quadrado azul-
claro, triângulo verde, círculo amarelo, triângulo vermelho e quadrado azul-escuro.
A seguir, há os rótulos e algumas características do conjunto de dados do quadro 1.4:
10/11/22, 09:51 E-book
Características
Código do
Rótulos
identificador
Cor Tamanho
1 Vermelho Grande Triângulo
2 Laranja Pequeno Círculo
3 Azul-escuro Grande Triângulo
4 Azul-claro Pequeno Quadrado
5 Azul-claro Grande Quadrado
6 Verde Grande Triângulo
7 Amarelo Grande Círculo
8 Vermelho Pequeno Triângulo
9 Azul-escuro Grande Quadrado
Quadro 1.4 – Conjunto de dados de figuras geométricas
Fonte: Elaborado pelo autor.
#PraCegoVer
: o quadro está dividido em quatro colunas e nove linhas. As colunas são: código
do identificador, características (dividida em cor e tamanho) e rótulos do conjunto de dados. No
código Id 1, há as características cor (vermelho), tamanho (grande) e rótulo (triângulo). No
código Id 2, cor: laranja, tamanho: pequeno, rótulo: círculo. No código Id 3, cor: azul-escuro,
tamanho: grande, rótulo: triângulo. No código Id 4, cor: azul-claro, tamanho: pequeno, rótulo:
quadrado. No código Id 5, cor: azul-claro, tamanho: grande, rótulo: quadrado. No código Id 6,
cor: verde, tamanho: grande, rótulo: triângulo. No código Id 7, cor: amarelo, tamanho: grande,
rótulo: círculo. No código Id 8, cor: vermelho, tamanho: pequeno, rótulo: quadrado.
A partir do conjunto de dados organizados no Quadro 1.4 (dados de entrada), é possível criar um
modelo para a identificação de novos itens, como o exemplo da Figura 1.8 (ponto de interrogação).
Segundo Mariano
et al
. (2020, p. 192), é possível observar que “há itens com rótulos semelhantes,
mas com características diferentes. Da mesma forma, há itens diferentes com características
semelhantes”. Assim, no processo de construção desse modelo de predição, é preciso dividir a base
de dados em uma base de treino e uma de teste, como ilustra a Figura 1.9.
Não existe, contudo, uma regra específica da quantidade de elementos que devem ser distribuídos
entre as bases de teste e treino. Conforme expõem Mariano
et al.
(2020, p. 193), “costuma-se utilizar
os valores 50–50%, 60–40%, 70–30%, 80–20% ou 90–10% para treino e teste, respectivamente. Em
10/11/22, 09:51 E-book
geral, a quantidade de dados no conjunto de treinamento deve sobrepor a quantidade de dados no

conjunto de teste”.
O treinamento é realizado por um algoritmo de aprendizagem, como ilustra a Figura 1.9,

classificando-se os itens rotulados, mas, para a base de teste, não se sabe qual é o rótulo dos
dados. Assim, por meio de uma comparação entre as bases de treino e testes, é possível determinar
prováveis rótulos para os novos elementos contidos na base de teste. Em um processo de
mineração de dados, como na abordagem por classificação, é necessário fazer ajustes durante o
processo, para que haja a melhoria do modelo, ou seja, para que seja possível medir o desempenho
da aprendizagem. Nesse sentido, é necessário medir para ajustar. Para isso, são necessárias
métricas específicas, como as expostas a seguir.
Acurácia total
: é uma medida de desempenho muito utilizada na avaliação de
classificadores e também é denominada taxa de acerto do classificador. “A acurácia é uma

função denominada de taxa de erro ou taxa de classificação incorreta” (GOLDSCHMIDT;
PASSOS; BEZERRA, 2015, p. 82). Essa acurácia é definida pela equação:
Acurácia = total de acerto / total de dados do conjunto
Acurácia = (verdadeiro-positivo + verdadeiro-negativo) / (positivo + negativo)
Os valores da equação são obtidos através de uma matriz, denominada de matriz

confusão. A Matriz de Confusão de um Classificador procura oferecer um detalhamento
do desempenho do modelo de Classificação correspondente, ao mostrar, para cada
classe, o número de classificações corretas em relação ao número de classificações
indicadas pelo modelo (GOLDSCHMIDT; PASSOS; BEZERRA, 2015, p. 82).
Sensibilidade ou consistência
: está relacionada à capacidade de predizer a situação, sem
erros (classificar corretamente) e com acertos positivos. A fórmula que determina a

sensibilidade, a partir da matriz confusão, é:
Sensibilidade/consistência = acertos positivos / total de positivos
Sensibilidade/consistência = verdadeiros-positivos / (verdadeiro-positivo + falso-negativo)
Especificidade
: está relacionada à capacidade de predizer a situação, sem erros (classificar
corretamente; acertos positivos). A fórmula que determinada a sensibilidade, a partir da

matriz confusão, é:
Especificidade = acertos negativos / total de negativos
Especificidade = verdadeiros-negativos / (verdadeiro-negativo + falso-positivo)
10/11/22, 09:51 E-book
Eficiência
: corresponde à média aritmética da sensibilidade e da especificidade. A fórmula
que determina a eficiência, a partir da matriz confusão, é:
Eficiência = (sensibilidade + especificidade) / 2
Etapas e
características da
mineração de dados
Pré-processamento
Análise descritiva
dedados
Análise de grupos
Aprendizagem de
máquina
Fonte: vectorjuice / Freepik.
#PraCegoVer
: o infográfico apresenta o título “Etapas e características da mineração de dados” e contém
uma figura em desenho de fundo e abas sobre essa imagem para interagir. O desenho é um
tablet
grande
com uma mulher e um homem minúsculos interagindo com ele. O homem segura uma picareta e parece
utilizá-la para clicar nas teclas de número 0 e 1 do
tablet
, enquanto a mulher está sentada sobre uma pilha
de quatro livros e ao topo do
tablet
, estando mais alta na imagem. Ela utiliza um
notebook
, que está
posicionado sobre suas pernas. As abas ao lado da figura possuem os respectivos conteúdos: 1º “Pré-
processamento: torna o processo de mineração de dados mais eficiente e eficaz, preparando a base de
dados, manipulando e transformando os dados brutos, fazendo o conhecimento mais fácil de ser
corretamente obtido”, 2º “Análise descritiva de dados: descreve, simplifica ou sumariza as principais
características de uma base de dados, formando o princípio de uma análise quantitativa de dados, além
de organizá-lo usando distribuições de frequências”, 3º “Análise de grupos: realiza o agrupamento de uma
10/11/22, 09:51 E-book
base de dados para que ela seja mais facilmente compreendida ou pesquisada, utilizando medidas de
similaridade para o agrupamento de objetos” e 4º “Aprendizagem de máquina: por classificação de dados
ou por estimação. Na classificação de dados, os classificadores são baseados em conhecimento. Já na
estimação a abordagem pode ser conexionista, em que os classificadores são modelos baseados em
redes de unidades interconectadas”.
praticar
Vamos praticar
As aplicações da mineração de dados são vastas, devido à multidisciplinaridade relacionada à
estatística, à matemática, à engenharia (análise espacial), à IA, ao banco de dados (recuperação de
informações), ao sistema de informação e à visão computacional (reconhecimento de padrões em
imagens). Castro e Ferrari (2016) comentam que as siderúrgicas, por exemplo, utilizam a
mineração de dados para alcançar a excelência operacional, aumentando a produtividade das
usinas.
Ademais, algoritmos de mineração de dados são utilizados para determinar os principais

elementos químicos do aço (análise de conformidade) durante o processo produtivo. Na indústria
elétrica, uma das contribuições da mineração de dados é o uso de algoritmos de predição de
demanda de energia elétrica. Segundo Castro e Ferrari (2016), como a energia elétrica só pode ser
armazenada em baterias, a única maneira é prever a quantidade de energia que as usinas
geradoras podem gerar a cada dia. Essa predição e o planejamento dessa quantidade de
produção de energia são realizados mediante técnicas de análise de dados de previsão de carga
(consumo) em curto, médio e longo prazos de um sistema elétrico de potência. Antes de se iniciar
a execução do processo de análise de dados, no entanto, deve haver a preparação.
Com base nesse contexto, explique, brevemente, cada etapa do processo de preparação para a
mineração dos dados.
10/11/22, 09:51 E-book
Material
Complementar
FILME
Ex_Machina
Ano:
2015
‍
Comentário:
O filme apresenta diversas questões éticas sobre o uso da
tecnologia inteligente, por meio de uma trama entre uma humanoide, Ada,
um programador, Caleb, e o diretor de uma empresa de motor de busca,
Nathan. O filme foca também o teste de Turing, com o personagem Caleb
junto ao robô, além de discutir as expressões corporais de usuários
utilizadas na humanoide. O filme permite compreender melhor o
comportamento inteligente e o AM, aspectos relevantes para o conteúdo de
machine learning
. Para conhecer mais sobre o filme, assista ao trailer
disponível em:
TRAILER
10/11/22, 09:51 E-book
LIVRO
Introdução à Mineração de Dados: conceitos

básicos, algoritmos e aplicações
Leandro Nunes de Castro e Daniel Gomes Ferrari.
Editora:
Saraiva
Ano:
2016
ISBN:
978-85-472-0098-5
Comentário:
Essa é uma obra completa e detalhada sobre a mineração de
dados e suas aplicações. Os autores exploram a mineração de dados como
ferramentas algorítmicas (pseudocódigos) para a busca do AM e aquisição
de conhecimento para as organizações. No capítulo 1, são apresentados os
conceitos e princípios da mineração de dados. No capítulo 2, discute-se a
tarefa de pré-processamento de dados, que define a preparação para a
descoberta de conhecimento nas bases de dados. Nos demais capítulos, 3 a
8, são apresentadas as análises descritiva e de grupos, a classificação, a
estimação e as regras de associação, que definem as etapas 2 (análise
descritiva), 3 (análise de grupos) e 4 (aprendizagem) de nosso tópico. A
leitura desses capítulos é importante para consolidar os conhecimentos
sobre as tarefas de pré-processamento de dados, bem como as abordagens
de mineração de dados (Biblioteca ).
LIVRO
Data Mining: conceitos, técnicas, algoritmos e

aplicações
Diego César Batista Mariano, Leonardo Torres Marques, Marcel Santos Silva,
José Francisco Meireles Aleixo Júnior, Marcelo da Silva dos Santos e
Talysson Manoel de Oliveira Santos.
Editora:
LTC
Ano:
2015
ISBN:
978-85-352-7822-4
Comentário:
Essa é uma obra completa e detalhada sobre a mineração de
dados e suas aplicações. Os autores exploram a mineração de dados como
ferramentas algorítmicas (pseudocódigos) para a busca do AM e aquisição
de conhecimento para as organizações. No capítulo 1, são apresentados os
conceitos e princípios da mineração de dados. No capítulo 2, discute-se a
tarefa de pré-processamento de dados, que define a preparação para a
descoberta de conhecimento nas bases de dados. Nos demais capítulos, 3 a
8, são apresentadas as análises descritiva e de grupos, a classificação, a
estimação e as regras de associação, que definem as etapas 2 (análise
10/11/22, 09:51 E-book
descritiva), 3 (análise de grupos) e 4 (aprendizagem) de nosso tópico. A

leitura desses capítulos é importante para consolidar os conhecimentos
sobre as tarefas de pré-processamento de dados, bem como as abordagens
de mineração de dados (Biblioteca ).
10/11/22, 09:51 E-book
Conclusão
Prezado(a) estudante, chegamos ao fim deste estudo. Como exposto, por meio de algoritmos avançados
de aprendizagem, é possível programar máquinas, com uma grande equipe de programadores e técnicos
que podem realizar automações em fábricas, mediante robôs inteligentes. Além disso, é possível utilizar
grandes bases transacionais, de
marketing
, produção, vendas e de outras áreas funcionais, para que os
algoritmos procurem padrões ou tendências e aprendam em novas bases de dados.
Ademais, é possível ensinar algo às máquinas, mediante treinamentos, ou seja, hábitos perceptivos.
Assim, surge um questionamento: elas podem aprender com os humanos? Na verdade, as máquinas
podem realizar tarefas automatizadas, enquanto os humanos podem se especializar em outras tarefas.
Este material foi produzido para fornecer possibilidades conceituais, para que você, caro(a) estudante,
possa explorar vários conteúdos. Esperamos que tenha gostado. Até a próxima.
Referências
AMARAL, F.
Introdução à ciência de dados
: mineração de
dados e big data. Rio de Janeiro: Alta Books, 2016.
BALTZAN, P.; PHILLIPS, A.

Sistemas de informação
. São
Paulo: Bookman, 2012.
BELMIRO, N. J.
Informática aplicada
. São Paulo: Pearson Educação do Brasil, 2014.
BENGFORT, B.; KIM, J.

Analítica de dados com Hadoop
: uma introdução para cientistas de dados. São
Paulo: Novatec, 2016.
Comentário:
Essa é uma obra completa e detalhada sobre a mineração de dados e suas aplicações. Os
autores exploram a mineração de dados como ferramentas algorítmicas (pseudocódigos) para a busca do
AM e aquisição de conhecimento para as organizações. No capítulo 1, são apresentados os conceitos e
princípios da mineração de dados. No capítulo 2, discute-se a tarefa de pré-processamento de dados, que
define a preparação para a descoberta de conhecimento nas bases de dados. Nos demais capítulos, 3 a 8,
são apresentadas as análises descritiva e de grupos, a classificação, a estimação e as regras de
10/11/22, 09:51 E-book
associação, que definem as etapas 2 (análise descritiva), 3 (análise de grupos) e 4 (aprendizagem) de

nosso tópico. A leitura desses capítulos é importante para consolidar os conhecimentos sobre as tarefas
de pré-processamento de dados, bem como as abordagens de mineração de dados (Biblioteca ).
COPPIN, B.
. Rio de Janeiro: LTC: 2017.
EX_Machina – Trailer Oficial Legendado (Portugal) HD. [

S. l.: s. n
.], 2015. 1 vídeo (2m35s). Publicado pelo
canal Universal Pictures Portugal. Disponível em:
https://www.youtube.com/watch?v=54nzsdLPs9I
.
Acesso em: 9 maio 2021.
Comentário:
FAWCETT, T.; PROVOST, F.

Data Science para negócios
: o que você precisa saber sobre mineração de
dados e pensamento analítico de dados. Rio de Janeiro: AltaBooks, 2018.
Comentário:
LUGER, G. F.
. 6. ed. São Paulo: Pearson Education do Brasil, 2013.
MARIANO, D. C. B.
et al
.
Data mining
. Porto Alegre: SAGAH, 2020.
Comentário:
SIEGEL, E.
Análise preditiva
: o poder de prever quem vai clicar, comprar, mentir ou morrer. Rio de Janeiro:
Alta Book, 2017.
10/11/22, 09:51 E-book
UCI – UNIVERSITY OF CALIFORNIA.

Machine Learning Repository
. [2021]. Disponível em:
https://archive.ics.uci.edu/ml/index.php
. Acesso em: 17 maio 2020.

Unidade 1

Enviado por

Dados do documento

Descrição original:

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Unidade 1

Enviado por

Direitos autorais:

Formatos disponíveis

10/11/22, 09:51 E-book

Revisor: Rodrigo Ramos Nogueira

Tempo de leitura do conteúdo estimado em 1 hora e 34 minutos.

Entretanto, caro(a) estudante,

Prezado(a) estudante, para compreender o que é Aprendizado Máquina (AM),

Figura 1.1 - Robô automatizando e aprendendo por meio da detecção de defeitos

Fonte: wklzzz / 123RF.

É importante salientar que o campo da aprendizagem de máquina estuda como construir

Fonte: studiostoks / 123RF.

O aprendizado indutivo utiliza a generalização, a partir de um conjunto de exemplos. Neste estudo

Visão geral dos problemas e das técnicas

Um sistema de aprendizado tem uma base de dados de treinamento que é classificada

A palavra “hábito” está relacionada a uma tarefa ou a um comportamento permanentes, frequentes

Fonte: sentavio / 123RF.

Associação de tarefas programadas em uma linha de produção

Dois elementos-chave são necessários para que os computadores aprendam: a base de

O Quadro 1.1 apresenta as características, os algoritmos, os métodos ou as técnicas de cada AM.

Aprendizado Características Algoritmos, métodos, técnicas

● Os algoritmos baseiam-se na ● Algoritmos de espaços de conceitos.

● Baseada em sentenças em ● Algoritmo ID3 para a indução de

linguagem simbólica. árvore de decisão.

● Neurônios artificiais conectados. ● Aprendizado competitivo: o

● O aprendizado é realizado por meio ● Modelos de aprendizados social e

AM probabilístico ● Representações complexas do ● Modelos estocásticos e dinâmicos

● Os eventos podem ser

● Os modelos estocásticos capturam

Quadro 1.1 - Aprendizado, características, algoritmos, métodos e técnicas do AM

Fonte: Adaptado de Luger (2013).

Portanto, o AM computacional é a aplicação de técnicas computacionais na tentativa de encontrar

Outro campo em que o AM atua é na

A seguir, discutiremos como o AM é realizado no contexto da mineração de dados, ou seja, na

Aprendizado máquina no contexto de mineração

Além das bases não estruturadas, as

Existem sites de referência em base de dados de

O conhecimento está relacionado a um conjunto de informações, ao contexto que envolve a

possam ser acessados. A camada de ingestão de dados exige um conjunto de atividades de

Figura 1.3 - Processo KDD (Knowledge Discovery in Databases) de descoberta do conhecimento

As ferramentas de mineração de dados aplicam algoritmos a conjuntos de informações, para que

(Atividade não pontuada)

Um processo sequencial de atividades de mineração de dados que utiliza um modelo preditivo

Personagem analista de sistemas:

– Sou o analista de sistemas e irei apresentar a importância do AM e dos tutoriais inteligentes no

Prezado(a) aluno(a), você sabia que a

Figura 1.4 - Etapas de preparação da base de dados para a mineração de dados

Fonte: Adaptada de Castro e Ferrari (2016).

está relacionada ao procedimento de imputação de valores ausentes, à remoção de ruídos e

múltiplas fontes em um único local, como o armazém de dados (

pertence à etapa de limpeza da base;

por exemplo, agrupando ou eliminando atributos redundantes, ou reduzir a quantidade de

KDD, pertence à etapa de limpeza da base de dados;

deixar os dados em um formato passível de aplicação das diferentes técnicas de mineração;

nominais podem ser empregados em um conjunto maior de problemas. Dentro de um

processo KDD, essa etapa pode pertencer a etapa de transformação;

etapa de análise descritiva: é importante diferenciar análise descritiva de mineração de

predizer se determinada pessoa terá ou não câncer, a partir de características (CASTRO;

Figura 1.5 - Sequência de uma extração de dados

Fonte: Elaborada pelo autor.

1. organização dos dados em distribuição de frequência;

2. visualização dos dados;

3. cálculos das médias de frequências, variação e associação.

1 5 67 Lobular Especulada Baixa Maligno

2 4 43 Redonda Circunscrita ? Maligno

3 5 58 Irregular Especulada Baixa Maligno