Escolar Documentos
Profissional Documentos
Cultura Documentos
MACHINE LEARNING
FUNDAMENTOS DA MACHINE
LEARNING
Autor: Me. Jackson Luis Schirigatti
Introdução
Olá, estudante! É com entusiasmo que convido você para a leitura desta unidade. Por meio da
Inteligência Artificial (IA), uma máquina pode aprender de diversas formas, por indução ou
dedução, por hábito ou conceito, de forma conexionista, emergente ou probabilística. A maneira
como ela pode resolver os problemas do mundo real, no entanto, em termos de decisões, ocorre
https://student.ulife.com.br/ContentPlayer/Index?lc=0mVZRnEv2SVYhLXvIJ8Fyw%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXIRv… 1/37
17/10/2022 14:02 E-book
mediante o aprendizado simbólico, a partir de técnicas de aprendizagem por buscas heurísticas, por
reconhecimento de padrões e relações.
Entretanto, caro(a) estudante, como é possível obter a inteligência necessária para uma tomada de
decisão eficiente? Para entender esse conceito, nesta unidade, direcionaremos seus estudos para o
entendimento da aquisição de inteligência a partir de bases de dados transacionais,
multidimensionais e do big data. Ademais, apresentaremos os fundamentos de machine learning,
big data, a organização de dados para análise e a mensuração da performance.
Boa leitura.
Prezado(a) estudante, para compreender o que é Aprendizado Máquina (AM), machine learning , e
big data , é necessário entender que a definição exata de Inteligência Artificial (IA) é discutível, mas,
literalmente, a palavra “artificial” corresponde a tudo que é feito pelo homem e o termo “inteligência”
é a capacidade de compreender, aprender e resolver problemas. A Figura 1.1 ilustra uma aplicação
da IA, mediante a robótica e o AM, em tarefas de montagem e detecção de defeitos em peças.
https://student.ulife.com.br/ContentPlayer/Index?lc=0mVZRnEv2SVYhLXvIJ8Fyw%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXIRv… 2/37
17/10/2022 14:02 E-book
#PraCegoVer : a imagem representa um braço de robô com garra, que automatiza uma tarefa em uma
indústria 4.0. Ao mesmo tempo que automatiza a tarefa, aprende com a detecção de defeitos nas peças.
Para Luger (2013, p. 19), “a inteligência artificial pode ser definida como o ramo da ciência da
computação que se ocupa da automação do comportamento inteligente”. A seguir, discutiremos o
que significa a automação do comportamento inteligente.
O comportamento inteligente
A inteligência já não é mais teoria, mas é uma aplicação para benefício humano. Segundo Faceli et
al . (2021), há alguns anos, a área de IA era considerada uma parte da ciência da computação
teórica, com aplicações em pequenos problemas práticos curiosos, desafiadores, mas de pouco
valor prático, e resolvidos pela codificação da computação. Essa codificação refere-se aos
algoritmos ou pseudocódigos que especificam, passo a passo, como o problema pode ser
resolvido.
A ideia básica de programar máquinas para executar tarefas é que elas podem resolver problemas
que nós humanos não conseguiríamos ou demoraríamos muito tempo para resolver. Exemplos
práticos de solução de problemas são: resolução de cálculos com grande quantidade de dados e
informações; aplicações de modelos matemáticos e estatísticos; outras tarefas que estariam além
da nossa capacidade de processamento e memória. As máquinas realizam bem essas tarefas
automatizadas e programadas pelos humanos, mas a questão é: as máquinas podem aprender
igual aos humanos? A resposta é sim.
https://student.ulife.com.br/ContentPlayer/Index?lc=0mVZRnEv2SVYhLXvIJ8Fyw%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXIRv… 3/37
17/10/2022 14:02 E-book
Machine learning
A capacidade da inteligência humana é aprender, e todo progresso humano é o resultado dos
esforços anteriores e da evolução do nosso entendimento. A aprendizagem automática das
máquinas, também denominada Aprendizado Máquina (AM), ou machine learning , é um ramo da
ciência da computação no qual, há décadas, os cientistas estão fazendo as máquinas aprenderem.
O avanço da computação, em termos de processamento e memória e por meio dos algoritmos de
aprendizagem, contribuiu para a revolução da IA.
A IA também pode ser utilizada em mecanismos de segurança que avaliam padrões de ataques em
bases de dados treinadas e cujos algoritmos aprendem com novos padrões, a partir de bases não
treinadas. A Figura 1.2 mostra um robô secretária, que realiza diversas tarefas em um escritório.
Hoje, uma realidade próxima.
Figura 1.2 - Robô secretária, um desenho que representava um futuro distante, hoje, é o presente
Fonte: studiostoks / 123RF.
Para Luger (2013), o aprendizado é importante para aplicações práticas de IA, e o aprendizado
acontece quando ocorrem mudanças em um sistema, o qual melhora quando a mesma tarefa for
realizada pela segunda vez, caso contrário, a máquina não aprendeu. Nesse sentido, o aprendizado
envolve a generalização a partir da experiência e, para uma generalização ideal, o desempenho deve
melhorar na repetição da mesma tarefa e em tarefas semelhantes do domínio, mediante um viés
indutivo.
https://student.ulife.com.br/ContentPlayer/Index?lc=0mVZRnEv2SVYhLXvIJ8Fyw%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXIRv… 4/37
17/10/2022 14:02 E-book
Para Bengfort e Kim (2016), o objetivo do AM é derivar modelos preditivos, a partir de dados atuais e
históricos. De acordo com as premissas, um algoritmo realiza o aprendizado quando obtém as
devidas melhorias, com uma excessiva quantidade de treinamento ou experiência. Tais resultados
eficientes são alcançados pelos algoritmos de AM para domínios muito restritos, usando modelos
treinados a partir de um grande conjunto de dados.
Para Siegel (2017), os métodos de indução estão relacionados ao AM. Os métodos de modelagem
variam, mas todos enfrentam o mesmo problema, aprender o máximo possível. Portanto, o objetivo
do AM é a indução , ou seja, o raciocínio, que parte de fatos detalhados para princípios gerais (do
efeito para a causa). Por sua vez, a dedução é o raciocínio que parte do geral para o particular (ou
da causa para o efeito). Ademais, a dedução é direta e parte da aplicação direta de regras, e a
indução parte dos detalhes para generalizar e verificar padrões que continuarão se aplicando em
situações ainda não vistas.
por hábito;
por conceito.
Na prática, esses tipos de sistemas ou robôs efetuam tarefas automatizadas e aprendem de acordo
com novas informações armazenadas. Esses são os sistemas especialistas, que têm uma base de
fatos e dados (base de conhecimento). Sempre que a base é alimentada com novas informações,
que se relacionam de acordo com fatos e regras (conhecimento), um aprendizado é realizado.
https://student.ulife.com.br/ContentPlayer/Index?lc=0mVZRnEv2SVYhLXvIJ8Fyw%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXIRv… 5/37
17/10/2022 14:02 E-book
Por seu turno, o aprendizado por conceitos envolve determinar um mapeamento, a partir de um
conjunto de variáveis de entrada, em um valor booleano (verdadeiro ou falso). Os métodos que
conseguem mapear, corretamente, um conjunto de dados de treinamento, por meio de
classificações, também conseguem mapear dados não observados anteriormente, ou seja,
conseguem realizar generalizações, a partir de um conjunto de dados de treinamento.
Ademais, os métodos de aprendizado do tipo conceito podem ser de diversos tipos, segundo Luger
(2013), e há uma divisão de métodos, técnicas e algoritmos de aprendizagem indutiva.
https://student.ulife.com.br/ContentPlayer/Index?lc=0mVZRnEv2SVYhLXvIJ8Fyw%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXIRv… 6/37
17/10/2022 14:02 E-book
● Algoritmos de treinamento de
● O conhecimento está implícito na Perceptron.
organização e na interação desses
neurônios. ● Aprendizado por retroprogramação.
https://student.ulife.com.br/ContentPlayer/Index?lc=0mVZRnEv2SVYhLXvIJ8Fyw%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXIRv… 7/37
17/10/2022 14:02 E-book
Outro campo em que o AM atua é na mineração de dados , que faz parte da descoberta do
conhecimento, não atuando no ambiente propriamente dito, mas nas bases de dados, preparando e
analisando os dados e criando modelos de aprendizagem para as eficientes tomadas de decisões.
https://student.ulife.com.br/ContentPlayer/Index?lc=0mVZRnEv2SVYhLXvIJ8Fyw%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXIRv… 8/37
17/10/2022 14:02 E-book
O MySQL é um típico banco de dados relacional. Nesse caso, o SGBD e o SQL trabalham no apoio
ao pré-processamento de dados, para que uma base apropriada seja utilizada e processada pelos
algoritmos de mineração. Outra forma estruturada de dados, utilizada para a mineração e o AM,
refere-se às planilhas eletrônicas, cuja extensão de arquivo é o .xls. Em uma planilha eletrônica, os
dados são dispostos em colunas e linhas de fácil manipulação para o pré-processamento de dados
para mineração.
Além das bases não estruturadas, as semiestruturadas são muito utilizadas para a leitura dos
algoritmos de mineração e contemplam características mais organizadas do que os dados não
estruturados. Essa organização refere-se a como um dado é delimitado, por exemplo, mediante uma
separação por um delimitador, vírgula (,) ou ponto e vírgula (;). Um exemplo de base
semiestruturada é um arquivo de texto CSV, no qual os dados são separados por delimitadores
ponto e vírgula (;). Outro exemplo é uma consulta JSON (JavaScript Object Notation), que é um
https://student.ulife.com.br/ContentPlayer/Index?lc=0mVZRnEv2SVYhLXvIJ8Fyw%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXIRv… 9/37
17/10/2022 14:02 E-book
modelo para armazenamento simples e compacto, muito utilizado em aplicações web para acesso
a um grande volume de dados.
Além desses modelos de bases semiestruturadas, existem diversos outros, que se ajustam às
necessidades e aos fatores como velocidade de acesso, capacidade de compactação dos dados,
organização e facilidade de acesso. As bases semiestruturadas (ou denominadas de forma híbrida)
têm certa organização e precisam passar por tratamentos antes de serem utilizadas. Essas
variedades de estruturas de dados exigem complexas atividades de coleta, tratamento,
processamento e visualização, para que haja a tomada de decisão nas organizações. Assim, as
bases semiestruturadas e não estruturadas, advindas das mais diversas fontes, precisam de um
alto pré-processamento de dados, para que os algoritmos de mineração sejam executados.
SAIBA MAIS
Existem sites de referência em base de dados de machine learning , como o Repositório de AM da UCI,
uma comunidade que contém 585 conjuntos de dados pesquisáveis. Para conhecer esse repositório,
acesse: https://archive.ics.uci.edu/ml/index.php
No que se refere às bases de fatos e regras , é possível que, além de dados, os computadores
processem informações, mediante modelos matemáticos e seus algoritmos computacionais. As
máquinas recebem informações dos usuários e realizam o processamento necessário, o qual utiliza
uma “base de conhecimento” composta por “conhecimentos de regras” e “fatos” dos especialistas
da empresa; isso representa um conjunto de informações específicas de determinada área do
conhecimento.
Quanto à base big data , outro importante conceito utilizado na mineração de dados e no AM é a
ingestão de dados, sendo um conceito mais atualizado da aquisição de diversas fontes de dados,
dentro de um processo maior, denominado Pipeline de Dados, e de uma arquitetura big data , de
sistema de processamento em lote ( batch ), real time ou híbrido. A ingestão de dados é uma das
camadas mais complexas do processo Pipeline de Dados e tem como objetivo importar e mover os
dados estruturados, semiestruturados e não estruturados para uma localização em que eles
https://student.ulife.com.br/ContentPlayer/Index?lc=0mVZRnEv2SVYhLXvIJ8Fyw%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 10/37
17/10/2022 14:02 E-book
Um big data utiliza, normalmente, uma ingestão de dados nos sistemas de armazenamento e,
segundo Pereira et al . (2019, p. 44), “a complexidade dessa operação depende muito do formato e
da qualidade das fontes de dados e da distância que os dados estão do estado desejado antes do
processamento”. Esses dados de um big data são de diversas fontes, são heterogêneos – formatos
variados imagens, vídeos, textos, áudios – e devem ser inseridos (extração e carregamento)
diretamente no big data , antes mesmo de seu processamento, para que, assim, sejam distribuídos
para os consumidores específicos.
Conforme expõem Castro e Ferrari (2016), a mineração de dados pode proporcionar uma
capacidade preditiva poderosa de dados. As funcionalidades da mineração de dados são usadas
para especificar os tipos de informações nas tarefas descritivas e preditivas. As tarefas descritivas
caracterizam as propriedades gerais dos dados, e as preditivas fazem inferência a partir dos dados,
objetivando predições. Para entender melhor esse conceito, analise a Figura 1.3.
https://student.ulife.com.br/ContentPlayer/Index?lc=0mVZRnEv2SVYhLXvIJ8Fyw%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXIR… 11/37
17/10/2022 14:02 E-book
Uma mineração não significa aprendizagem, a qual é a próxima etapa possível da mineração de
dados. Para encontrar informações necessárias, pode ser suficiente encontrar uma análise
descritiva ou um agrupamento, mas, para que haja a descoberta de conhecimento, em uma base de
dados, é necessário fazer o algoritmo aprender de acordo com o seu desempenho (classificando,
estimando ou associando dados).
Portanto, é possível dividir uma mineração de dados em uma sequência, para que seja possível a
descoberta do conhecimento, sendo essa uma proposta adaptada de machine learning .
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
https://student.ulife.com.br/ContentPlayer/Index?lc=0mVZRnEv2SVYhLXvIJ8Fyw%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 12/37
17/10/2022 14:02 E-book
praticar
Vamos praticar
Este é um diálogo entre uma suposta analista de sistema e um bot , um robô (ou sistemas
inteligentes), que irá explicar as aplicações dos sistemas tutoriais inteligentes e AM em escolas e
fábricas.
Personagem bot :
– Olá, sou um bot ; rastreio informações sobre a vida dos humanos, suas preferências, faço
mineração de dados, descobrindo tendências do que os humanos podem comprar ou realizar, e
sugiro possibilidades diversas. Dentro das organizações, utilizo as bases transacionais para
rastrear padrões e tendências para as complexas tomadas de decisões em qualquer nível
organizacional, para analistas e gestores. Nós bots temos como função a mineração de dados, a
qual é uma área da IA que está ajudando a encontrar conhecimento em grandes bases de dados,
para que seja possível resolver problemas. Softwares de mineração, como eu, são implementados
nas navegações de sites de buscas e em sites de comércio eletrônico móvel. Nós, algoritmos de
mineração, em conjunto com as técnicas de processamento da linguagem natural, temos outro
nome: tutores inteligentes. Assim, conseguimos orientar e ensinar os humanos. Estamos em
escolas, nos treinamentos em fábricas e em muitas outras aplicações.
Agora, realize uma pesquisa e desenvolva um texto de, aproximadamente, dois parágrafos,
apresentando uma aplicação/um exemplo do uso de tutoriais inteligentes. No primeiro parágrafo,
apresente a importância e a aplicação/o exemplo de um sistema tutorial. No segundo parágrafo,
https://student.ulife.com.br/ContentPlayer/Index?lc=0mVZRnEv2SVYhLXvIJ8Fyw%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 13/37
17/10/2022 14:02 E-book
descreva como o sistema tutorial apoia o aprendizado e explique se esse sistema também
aprende com o aprendiz. Cite exemplos de soluções comerciais que utilizam tutoriais inteligentes.
Organizando os Dados
para Análise (Pré-
Processamento)
Prezado(a) aluno(a), você sabia que a primeira etapa da mineração de dados está relacionada à
preparação da base de dados, também denominada pré-processamento ? Antes de realizar
qualquer análise em uma base de dados, é necessário o preparo , devido às inconsistências e aos
ruídos contidos na seleção de dados. O diagrama ilustrado na Figura 1.4 mostra as etapas de
preparação da base de dados para a análise. Nesse caso, há: (1) definição do problema, (2) seleção
dos dados brutos, (3) pré-processamento da base e definição do algoritmo. Depois, há a aplicação
do algoritmo ou a aplicação do processo de análise descritiva.
https://student.ulife.com.br/ContentPlayer/Index?lc=0mVZRnEv2SVYhLXvIJ8Fyw%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 14/37
17/10/2022 14:02 E-book
#PraCegoVer : a figura representa um diagrama das etapas de preparação da base de dados para o
processo de mineração de dados. A primeira etapa é a definição do problema; a segunda etapa refere-se à
seleção dos dados brutos; a terceira etapa refere-se ao pré-processamento da base e à definição do
algoritmo e é constituída por tarefas de limpeza, integração, redução, transformação e discretização. Na
quarta etapa, são realizadas as tarefas de aplicação do algoritmo ou a análise descritiva. A última etapa
refere-se aos resultados da mineração.
Por meio da eliminação das inconsistências e dos ruídos, é mais fácil obter o conhecimento
presente na seleção dos dados brutos. As atividades de pré-processamento, apresentadas na Figura
1.4, podem ser detalhadas, segundo Castro e Ferrari (2016), como:
etapa de limpeza: de acordo com o conceito KDD, após a seleção dos dados em um base
bruta, a limpeza de dados é uma das primeiras tarefas de pré-processamento. Essa tarefa
à correção de inconsistências;
etapa de integração: é uma das tarefas do processo KDD; o objetivo é unir dados de
dados de uma planilha eletrônica. Para alguns autores, essa etapa, no processo de KDD,
objetos da base, sumarizando os dados. Para alguns autores, essa etapa, no processo de
etapa de transformação: é uma tarefa do processo KDD que tem o objetivo de padronizar e
https://student.ulife.com.br/ContentPlayer/Index?lc=0mVZRnEv2SVYhLXvIJ8Fyw%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 15/37
17/10/2022 14:02 E-book
etapa de discretização: nesse caso, os métodos que trabalham apenas com atributos
algoritmos de mineração conseguem realizar inferências a partir dos dados, ou seja, realizar
um aprendizado. Como exemplo de uma análise descritiva de uma base de dados de câncer
em exames de mamas, é possível encontrar características nos dados, por exemplo, verificar
a média de idade das mulheres que têm câncer de mama. Por sua vez, a mineração pode
FERRARI, 2016).
A Figura 1.5 ilustra a sequência de uma extração de dados, a partir de uma base de dados, para uma
planilha. Os dados são pré-processados e, depois, é gerada uma distribuição de dados, por meio de
um histograma (gráfico em forma de barras).
#PraCegoVer : a figura representa uma sequência de extração de dados, iniciando com a extração da base
de dados para uma planilha com os dados pré-processados. Em uma segunda etapa, os dados geram um
histograma, apresentando características deles.
Por meio da distribuição de dados e da visualização do histograma, é possível encontrar, nos dados
armazenados, as características que não estão visíveis ou compreensíveis em uma base de dados
ou em uma planilha eletrônica. O processo de análise descritiva de dados, segundo Castro e Ferrari
(2016), é desmembrado em três passos:
https://student.ulife.com.br/ContentPlayer/Index?lc=0mVZRnEv2SVYhLXvIJ8Fyw%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 16/37
17/10/2022 14:02 E-book
Para Castro e Ferrari (2016), é útil organizar e resumir os dados a partir da construção de uma
tabela que lista os valores dos atributos de maneira individual ou agrupada. Também, devem ser
incluídas as frequências correspondentes (distribuição de frequências), que representam o número
de vezes que os valores listados ocorrem. Uma distribuição de frequência é um resumo
(sumarização) dos dados agrupados em classes.
O exemplo a seguir ilustra a base de dados de mamografia (Quadro 1.2) e contém informações de
lesões de massas mamográficas obtidas a partir de atributos da classificação BI-RAIDS (Breast
Imaging-Reporting and Data System). Cada objeto identificado por ID corresponde a um exame por
imagem de diagnóstico realizado, mas esse atributo não é utilizado para a análise. O Quadro 1.2 é
uma pequena parte da base de 961 objetos (CASTRO; FERRARI, 2016), assim, são apresentados
apenas os 10 primeiros objetos, para que haja uma melhor compreensão.
https://student.ulife.com.br/ContentPlayer/Index?lc=0mVZRnEv2SVYhLXvIJ8Fyw%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 17/37
17/10/2022 14:02 E-book
BI-
ID Idade Forma Margem Densidade Severidade
RADS
7 4 70 ? ? Baixa Benigno
#PraCegoVer : o quadro representa uma parte dos dados de uma base mamográfica, 10 itens.
A primeira coluna representa a ID (identificação) correspondente a um exame por imagem de
diagnóstico. A segunda coluna corresponde à classificação BI-RAIDS (Breast Imaging-
Reporting and Data System). A terceira coluna corresponde à idade do paciente. A quarta
coluna apresenta a forma do tumor, se é lobular, irregular, redonda ou não identificada. Na
quinta coluna, há uma margem especulada ou circunscrita. Na sexta coluna, há a densidade do
tumor, que pode ser baixa, alta ou indefinida. A última coluna corresponde à severidade do
tumor: maligno ou benigno. Na segunda linha, há os valores da pesquisa, na ordem: 1, 5, 67,
lobular, especulada, baixa e maligno. Na terceira linha, há: 2, 4, 43, redonda, circunscrita, um
ponto de interrogação e maligno. Na quarta linha, há: 3, 5, 58, irregular, especulada, baixa e
maligno. Na quinta linha, há: 4, 4, 28, redonda, circunscrita, baixa e benigno. Na sexta linha, há:
5, 5, 74, redonda, especulada, um ponto de interrogação e maligno. Na sétima linha, há: 6, 4, 65,
redonda, um ponto de interrogação, baixa e benigno. Na oitava linha, há: 7, 4, 70, um ponto de
interrogação, outro ponto de interrogação, baixa e benigno. Na nona linha, há: 8, 5, 42, redonda
e benigno. Na décima linha, há: 9, 5, 57, redonda, especulada, baixa e maligno. Na décima
primeira linha, há: 10, 5, 60, um ponto de interrogação, especulada, alta e maligno.
https://student.ulife.com.br/ContentPlayer/Index?lc=0mVZRnEv2SVYhLXvIJ8Fyw%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 18/37
17/10/2022 14:02 E-book
A partir da base de dados apresentada, são realizados cinco passos para a construção da
distribuição de frequência mediante os objetos de aprendizagem, conforme exposto a seguir.
Passo 1: os valores dos atributos são grupos de intervalo que se deseja dividir. Nesse caso,
Passo 2: amplitude de classe, que é a diferença entre o maior valor e o menor valor de uma
variável. Amplitude = (maior valor) – (menor valor). A amplitude de classe = (maior valor –
menor valor) / número de classes. (81 – 23) / 5 = 11,6. O valor 81 é a maior idade, e 23 é a
menor idade da base de mamografias, dos 961 objetos. Essas informações podem ser
para cima. Portanto, o valor da amplitude fica com valor igual a 12.
Passo 3: é o limite inferior inicial, é o número para o limite inferior da primeira classe. Nesse
Passo 4: são os limites inferiores das classes, ou seja, os menores números que podem
pertencer às diferentes classes. Os limites inferiores a essas cinco classes são: 23 (classe
Passo 5: são os maiores números que podem pertencer às diferentes classes. Os limites
superiores das cinco classes são: 34 (classe 1), 46 (classe 2), 58 (classe 3), 70 (classe 4) e
82 (classe 5).
Passo 6: cada valor deve ser rotulado com a classe à qual pertence. Por exemplo, o valor 67,
Por meio dos rótulos, é encontrada a frequência absoluta . Por exemplo, a frequência absoluta da
classe 1 é a quantidade do rótulo 1 que aparece na sequência do passo 6, identificando a
quantidade em destaque. O valor é: 5 rótulos de valor 1. Por sua vez, a classe 5 aparece 12 vezes na
relação exposta anteriormente.
No Quadro 1.3, há os seguintes atributos: classe, limite inferior, limite superior, frequência absoluta e
cálculo da frequência relativa, dado em percentual. A frequência relativa de uma classe corresponde
a quanto ela ocorre em relação a toda a distribuição de frequências. Nesse caso, a fórmula é: FR =
(FA / (número de objetos)) * 100. Por exemplo, FR da classe 1:
https://student.ulife.com.br/ContentPlayer/Index?lc=0mVZRnEv2SVYhLXvIJ8Fyw%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 19/37
17/10/2022 14:02 E-book
Frequência Frequência
Classe Limite inferior Limite superior
absoluta relativa
1 23 34 5 6,25%
2 35 46 15 18,75%
3 47 58 20 25%
4 59 70 28 35%
5 71 82 12 15%
#PraCegoVer : o quadro, dividido em cinco colunas e seis linhas, apresenta, em cada coluna, os
seguintes atributos: classe, limite inferior, limite superior, frequência absoluta e cálculo da
frequência relativa dado em percentual, referente aos rótulos dos primeiros 80 objetos de
estudo. Na segunda linha, há: 1, 23, 34, 5 e 6,25%. Na terceira linha, há: 2, 35, 46, 15 e 18,75%.
Na quarta linha, há: 3, 47, 58, 20 e 25%. Na quinta linha, há: 4, 59, 70, 28 e 35%. Na sexta linha,
há: 5, 71, 82, 12 e 15%.
Depois de ser calculada a frequência absoluta e relativa, é possível visualizar os dados por meio de
gráficos do tipo histograma. Para Castro e Ferreira (2016, p. 65), a visualização dos dados tem o
“objetivo de se entender a natureza das distribuições dos dados, extrair conhecimento mais fácil e
rapidamente e permitir o compartilhamento desse conhecimento de maneira direta entre diferentes
pessoas e entidades”. Uma das representações gráficas mais utilizadas para a visualização da
distribuição dos dados é o histograma, o qual é um tipo de frequência tabulada na forma de
retângulos adjacentes ou barras adjacentes. Cada barra é a representação das classes da
distribuição de frequência, também denominada bins . Na Figura 1.6, há um exemplo de histograma
referente ao Quadro 1.3 (distribuição de frequência).
https://student.ulife.com.br/ContentPlayer/Index?lc=0mVZRnEv2SVYhLXvIJ8Fyw%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 20/37
17/10/2022 14:02 E-book
Figura 1.6 – Histograma do atributo idade para a amostra da base de mamografia (frequência
absoluta)
Fonte: Adaptada de Castro e Ferrari (2016).
A análise descritiva de dados pode ser utilizada antecipadamente, antes da mineração mais
complexa (uso de algoritmos de mineração de dados). Nesse contexto, a análise descritiva é
considerada uma etapa inicial do processo de mineração e utiliza ferramentas estatísticas simples,
como frequência absoluta e relativa. Portanto, as análises descritivas permitem a sumarização e a
melhor visualização dos objetos de dados e da distribuição de frequências por meio dos
histogramas.
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
https://student.ulife.com.br/ContentPlayer/Index?lc=0mVZRnEv2SVYhLXvIJ8Fyw%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 21/37
17/10/2022 14:02 E-book
A primeira etapa está relacionada à preparação da base de dados e é realizada antes de qualquer
análise em uma base de dados. Assim, é necessário o preparo da base de dados, devido às
inconsistências e aos ruídos contidos na seleção de dados que será analisada. Como essa etapa é
denominada?
a) Pré-processamento de dados.
b) Limpeza de dados.
c) Análise de dados.
d) Processamento de dados.
e) Seleção dos dados brutos.
Mensuração e
Performance
Caro(a) estudante, você sabia que as medidas de avaliação dos resultados dos algoritmos
aplicados no processo de mineração são vitais para a conclusão dos resultados? Nesse sentido, é
importante salientar que a mensuração e a performance dependem da abordagem da mineração de
dados e das ferramentas e dos algoritmos utilizados. Uma seleção incorreta da abordagem, da
ferramenta ou dos algoritmos pode prejudicar a performance e a mensuração dos resultados dos
algoritmos. Desse modo, o pós-processamento da mineração de dados considera:
discretização);
Portanto, é essencial que todas as etapas do processo de mineração estejam alinhadas com o
objetivo do AM.
https://student.ulife.com.br/ContentPlayer/Index?lc=0mVZRnEv2SVYhLXvIJ8Fyw%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 22/37
17/10/2022 14:02 E-book
um modelo ideal de aprendizagem ou demonstra quão distante esse modelo está de um modelo
ideal. Um tipo de métrica de avaliação é a classificação.
Segundo Amaral (2016), em um modelo de classificação, devem ser analisadas quais são as
características que definem cada forma e como essa forma é atribuída a cada um dos grupos,
como mostra a Figura 1.7: dentro dos retângulos, as formas já estão classificadas de acordo com o
seu tipo – triângulo, quadrado ou círculo. Uma forma à esquerda do retângulo, no entanto, com uma
interrogação no centro, ainda não teve seu tipo identificado. Em uma base de dados relacional, os
dados já estão classificados de forma equivalente aos elementos do retângulo (triângulos,
quadrados e círculos), como mostra a Figura 1.8, sendo classificados em categorias do tipo:
clientes, produtos, fornecedores, compras, vendas etc. Ademais, um algoritmo de aprendizado
aprenderá a classificar um objeto que ainda não foi classificado.
#PraCegoVer : a figura representa um retângulo com figuras geométricas, dividido em três grupos:
triângulos, quadrados e círculos (que representam bases treinadas). Além disso, há uma incógnita, que é
uma figura desconhecida.
A classificação funciona com dados históricos, contudo, em uma base de dados relacional de
clientes ou produtos, essa classificação já está pronta, pois as tabelas ou a classe dos objetos já
estão na forma estruturada. É necessário verificar, no entanto, se os dados são necessários,
convenientes e preparados para o propósito, caso contrário, será preciso aplicar a primeira etapa de
pré-processamento (limpeza, integração, redução, transformação e discretização). Então, o próximo
passo do AM é criar um modelo preditivo, a partir dos dados históricos já classificados.
https://student.ulife.com.br/ContentPlayer/Index?lc=0mVZRnEv2SVYhLXvIJ8Fyw%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 23/37
17/10/2022 14:02 E-book
O treinamento consiste em usar os dados de treino para ajustar parâmetros livres do modelo (em
redes neurais, seriam os pesos do modelo; nas árvores de decisão, seriam os nós da árvore) e para
que haja um desempenho avaliado pela aplicação do modelo.
Com base nos elementos da Figura 1.10, é possível melhorar o exemplo de figuras geométricas para
a classificação. Assim, de forma mais lúdica, na Figura 1.9, as formas têm, além do rótulo (nome da
figura), características de cor e tamanho.
#PraCegoVer : a figura representa um conjunto de formas geométricas: triângulo vermelho, círculo laranja,
triângulo azul-escuro, quadrado azul-claro, círculo laranja. Abaixo dessas figuras, há outras: quadrado azul-
claro, triângulo verde, círculo amarelo, triângulo vermelho e quadrado azul-escuro.
https://student.ulife.com.br/ContentPlayer/Index?lc=0mVZRnEv2SVYhLXvIJ8Fyw%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 24/37
17/10/2022 14:02 E-book
Características
Código do
Rótulos
identificador
Cor Tamanho
#PraCegoVer : o quadro está dividido em quatro colunas e nove linhas. As colunas são: código
do identificador, características (dividida em cor e tamanho) e rótulos do conjunto de dados. No
código Id 1, há as características cor (vermelho), tamanho (grande) e rótulo (triângulo). No
código Id 2, cor: laranja, tamanho: pequeno, rótulo: círculo. No código Id 3, cor: azul-escuro,
tamanho: grande, rótulo: triângulo. No código Id 4, cor: azul-claro, tamanho: pequeno, rótulo:
quadrado. No código Id 5, cor: azul-claro, tamanho: grande, rótulo: quadrado. No código Id 6,
cor: verde, tamanho: grande, rótulo: triângulo. No código Id 7, cor: amarelo, tamanho: grande,
rótulo: círculo. No código Id 8, cor: vermelho, tamanho: pequeno, rótulo: quadrado.
A partir do conjunto de dados organizados no Quadro 1.4 (dados de entrada), é possível criar um
modelo para a identificação de novos itens, como o exemplo da Figura 1.8 (ponto de interrogação).
Segundo Mariano et al . (2020, p. 192), é possível observar que “há itens com rótulos semelhantes,
mas com características diferentes. Da mesma forma, há itens diferentes com características
semelhantes”. Assim, no processo de construção desse modelo de predição, é preciso dividir a base
de dados em uma base de treino e uma de teste, como ilustra a Figura 1.9.
Não existe, contudo, uma regra específica da quantidade de elementos que devem ser distribuídos
entre as bases de teste e treino. Conforme expõem Mariano et al. (2020, p. 193), “costuma-se utilizar
os valores 50–50%, 60–40%, 70–30%, 80–20% ou 90–10% para treino e teste, respectivamente. Em
https://student.ulife.com.br/ContentPlayer/Index?lc=0mVZRnEv2SVYhLXvIJ8Fyw%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 25/37
17/10/2022 14:02 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0mVZRnEv2SVYhLXvIJ8Fyw%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 26/37
17/10/2022 14:02 E-book
Etapas e
características da
mineração de dados
Pré-processamento
Análise descritiva
dedados
Análise de grupos
Aprendizagem de
máquina
https://student.ulife.com.br/ContentPlayer/Index?lc=0mVZRnEv2SVYhLXvIJ8Fyw%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 27/37
17/10/2022 14:02 E-book
base de dados para que ela seja mais facilmente compreendida ou pesquisada, utilizando medidas de
similaridade para o agrupamento de objetos” e 4º “Aprendizagem de máquina: por classificação de dados
ou por estimação. Na classificação de dados, os classificadores são baseados em conhecimento. Já na
estimação a abordagem pode ser conexionista, em que os classificadores são modelos baseados em
redes de unidades interconectadas”.
praticar
Vamos praticar
As aplicações da mineração de dados são vastas, devido à multidisciplinaridade relacionada à
estatística, à matemática, à engenharia (análise espacial), à IA, ao banco de dados (recuperação de
informações), ao sistema de informação e à visão computacional (reconhecimento de padrões em
imagens). Castro e Ferrari (2016) comentam que as siderúrgicas, por exemplo, utilizam a
mineração de dados para alcançar a excelência operacional, aumentando a produtividade das
usinas.
Com base nesse contexto, explique, brevemente, cada etapa do processo de preparação para a
mineração dos dados.
https://student.ulife.com.br/ContentPlayer/Index?lc=0mVZRnEv2SVYhLXvIJ8Fyw%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 28/37
17/10/2022 14:02 E-book
Material
Complementar
FILME
Ex_Machina
Ano: 2015
TRAILER
https://student.ulife.com.br/ContentPlayer/Index?lc=0mVZRnEv2SVYhLXvIJ8Fyw%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 29/37
17/10/2022 14:02 E-book
LIVRO
Editora: Saraiva
Ano: 2016
ISBN: 978-85-472-0098-5
LIVRO
Editora: LTC
Ano: 2015
ISBN: 978-85-352-7822-4
https://student.ulife.com.br/ContentPlayer/Index?lc=0mVZRnEv2SVYhLXvIJ8Fyw%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 30/37
17/10/2022 14:02 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0mVZRnEv2SVYhLXvIJ8Fyw%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 31/37
17/10/2022 14:02 E-book
Conclusão
Prezado(a) estudante, chegamos ao fim deste estudo. Como exposto, por meio de algoritmos avançados
de aprendizagem, é possível programar máquinas, com uma grande equipe de programadores e técnicos
que podem realizar automações em fábricas, mediante robôs inteligentes. Além disso, é possível utilizar
grandes bases transacionais, de marketing , produção, vendas e de outras áreas funcionais, para que os
algoritmos procurem padrões ou tendências e aprendam em novas bases de dados.
Ademais, é possível ensinar algo às máquinas, mediante treinamentos, ou seja, hábitos perceptivos.
Assim, surge um questionamento: elas podem aprender com os humanos? Na verdade, as máquinas
podem realizar tarefas automatizadas, enquanto os humanos podem se especializar em outras tarefas.
Este material foi produzido para fornecer possibilidades conceituais, para que você, caro(a) estudante,
possa explorar vários conteúdos. Esperamos que tenha gostado. Até a próxima.
Referências
AMARAL, F. Introdução à ciência de dados : mineração de
dados e big data. Rio de Janeiro: Alta Books, 2016.
BENGFORT, B.; KIM, J. Analítica de dados com Hadoop : uma introdução para cientistas de dados. São
Paulo: Novatec, 2016.
Comentário: Essa é uma obra completa e detalhada sobre a mineração de dados e suas aplicações. Os
autores exploram a mineração de dados como ferramentas algorítmicas (pseudocódigos) para a busca do
AM e aquisição de conhecimento para as organizações. No capítulo 1, são apresentados os conceitos e
princípios da mineração de dados. No capítulo 2, discute-se a tarefa de pré-processamento de dados, que
define a preparação para a descoberta de conhecimento nas bases de dados. Nos demais capítulos, 3 a 8,
são apresentadas as análises descritiva e de grupos, a classificação, a estimação e as regras de
associação, que definem as etapas 2 (análise descritiva), 3 (análise de grupos) e 4 (aprendizagem) de
https://student.ulife.com.br/ContentPlayer/Index?lc=0mVZRnEv2SVYhLXvIJ8Fyw%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 32/37
17/10/2022 14:02 E-book
nosso tópico. A leitura desses capítulos é importante para consolidar os conhecimentos sobre as tarefas
de pré-processamento de dados, bem como as abordagens de mineração de dados (Biblioteca Ânima).
EX_Machina – Trailer Oficial Legendado (Portugal) HD. [ S. l.: s. n .], 2015. 1 vídeo (2m35s). Publicado pelo
canal Universal Pictures Portugal. Disponível em: https://www.youtube.com/watch?v=54nzsdLPs9I .
Acesso em: 9 maio 2021.
Comentário: Essa é uma obra completa e detalhada sobre a mineração de dados e suas aplicações. Os
autores exploram a mineração de dados como ferramentas algorítmicas (pseudocódigos) para a busca do
AM e aquisição de conhecimento para as organizações. No capítulo 1, são apresentados os conceitos e
princípios da mineração de dados. No capítulo 2, discute-se a tarefa de pré-processamento de dados, que
define a preparação para a descoberta de conhecimento nas bases de dados. Nos demais capítulos, 3 a 8,
são apresentadas as análises descritiva e de grupos, a classificação, a estimação e as regras de
associação, que definem as etapas 2 (análise descritiva), 3 (análise de grupos) e 4 (aprendizagem) de
nosso tópico. A leitura desses capítulos é importante para consolidar os conhecimentos sobre as tarefas
de pré-processamento de dados, bem como as abordagens de mineração de dados (Biblioteca Ânima).
FAWCETT, T.; PROVOST, F. Data Science para negócios : o que você precisa saber sobre mineração de
dados e pensamento analítico de dados. Rio de Janeiro: AltaBooks, 2018.
Comentário: Essa é uma obra completa e detalhada sobre a mineração de dados e suas aplicações. Os
autores exploram a mineração de dados como ferramentas algorítmicas (pseudocódigos) para a busca do
AM e aquisição de conhecimento para as organizações. No capítulo 1, são apresentados os conceitos e
princípios da mineração de dados. No capítulo 2, discute-se a tarefa de pré-processamento de dados, que
define a preparação para a descoberta de conhecimento nas bases de dados. Nos demais capítulos, 3 a 8,
são apresentadas as análises descritiva e de grupos, a classificação, a estimação e as regras de
associação, que definem as etapas 2 (análise descritiva), 3 (análise de grupos) e 4 (aprendizagem) de
nosso tópico. A leitura desses capítulos é importante para consolidar os conhecimentos sobre as tarefas
de pré-processamento de dados, bem como as abordagens de mineração de dados (Biblioteca Ânima).
LUGER, G. F. Inteligência Artificial . 6. ed. São Paulo: Pearson Education do Brasil, 2013.
Comentário: Essa é uma obra completa e detalhada sobre a mineração de dados e suas aplicações. Os
autores exploram a mineração de dados como ferramentas algorítmicas (pseudocódigos) para a busca do
AM e aquisição de conhecimento para as organizações. No capítulo 1, são apresentados os conceitos e
princípios da mineração de dados. No capítulo 2, discute-se a tarefa de pré-processamento de dados, que
define a preparação para a descoberta de conhecimento nas bases de dados. Nos demais capítulos, 3 a 8,
são apresentadas as análises descritiva e de grupos, a classificação, a estimação e as regras de
associação, que definem as etapas 2 (análise descritiva), 3 (análise de grupos) e 4 (aprendizagem) de
nosso tópico. A leitura desses capítulos é importante para consolidar os conhecimentos sobre as tarefas
de pré-processamento de dados, bem como as abordagens de mineração de dados (Biblioteca Ânima).
SIEGEL, E. Análise preditiva : o poder de prever quem vai clicar, comprar, mentir ou morrer. Rio de Janeiro:
Alta Book, 2017.
https://student.ulife.com.br/ContentPlayer/Index?lc=0mVZRnEv2SVYhLXvIJ8Fyw%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 33/37
17/10/2022 14:02 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0mVZRnEv2SVYhLXvIJ8Fyw%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 34/37
17/10/2022 14:02 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0mVZRnEv2SVYhLXvIJ8Fyw%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 35/37
17/10/2022 14:02 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0mVZRnEv2SVYhLXvIJ8Fyw%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 36/37
17/10/2022 14:02 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0mVZRnEv2SVYhLXvIJ8Fyw%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 37/37