Escolar Documentos
Profissional Documentos
Cultura Documentos
MACHINE LEARNING
FUNDAMENTOS DA MACHINE
LEARNING
Autor: Me. Jackson Luis Schirigatti
Introdução
Olá, estudante! É com entusiasmo que convido você para a leitura desta unidade. Por meio da
Inteligência Artificial
(IA), uma máquina pode aprender de diversas formas, por indução ou
dedução, por hábito ou conceito, de forma conexionista, emergente ou probabilística. A maneira
como ela pode resolver os problemas do mundo real, no entanto, em termos de decisões, ocorre
https://ambienteacademico.com.br/course/view.php?id=18504 1/34
10/11/22, 09:51 E-book
mediante o aprendizado simbólico, a partir de técnicas de aprendizagem por buscas heurísticas, por
reconhecimento de padrões e relações.
Boa leitura.
Introdução a
Big Data
e
Machine Learning
https://ambienteacademico.com.br/course/view.php?id=18504 2/34
10/11/22, 09:51 E-book
#PraCegoVer
: a imagem representa um braço de robô com garra, que automatiza uma tarefa em uma
indústria 4.0. Ao mesmo tempo que automatiza a tarefa, aprende com a detecção de defeitos nas peças.
Para Luger (2013, p. 19), “a inteligência artificial pode ser definida como o ramo da ciência da
computação que se ocupa da automação do comportamento inteligente”. A seguir, discutiremos o
que significa a automação do comportamento inteligente.
O comportamento inteligente
A inteligência já não é mais teoria, mas é uma aplicação para benefício humano. Segundo Faceli
et
al
. (2021), há alguns anos, a área de IA era considerada uma parte da ciência da computação
teórica, com aplicações em pequenos problemas práticos curiosos, desafiadores, mas de pouco
valor prático, e resolvidos pela codificação da computação. Essa codificação refere-se aos
algoritmos ou pseudocódigos que especificam, passo a passo, como o problema pode ser
resolvido.
A ideia básica de programar máquinas para executar tarefas é que elas podem resolver problemas
que nós humanos não conseguiríamos ou demoraríamos muito tempo para resolver. Exemplos
práticos de solução de problemas são: resolução de cálculos com grande quantidade de dados e
informações; aplicações de modelos matemáticos e estatísticos; outras tarefas que estariam além
da nossa capacidade de processamento e memória. As máquinas realizam bem essas tarefas
automatizadas e programadas pelos humanos, mas a questão é:
as máquinas podem aprender
igual aos humanos?
A resposta é sim.
Para Faceli
et al
. (2021), a capacidade de aprendizado é essencial para o comportamento
inteligente, que está relacionado às tarefas de aprendizagem como: memorização, observação,
exploração de situações para o aprendizado de fatos, aperfeiçoamento das habilidades
motoras/cognitivas, por meio de práticas, e organização do conhecimento em representações
adequadas.
https://ambienteacademico.com.br/course/view.php?id=18504 3/34
10/11/22, 09:51 E-book
Machine learning
A capacidade da inteligência humana é aprender, e todo progresso humano é o resultado dos
esforços anteriores e da evolução do nosso entendimento. A aprendizagem automática das
máquinas, também denominada Aprendizado Máquina (AM), ou
machine learning
, é um ramo da
ciência da computação no qual, há décadas, os cientistas estão fazendo as máquinas aprenderem.
O avanço da computação, em termos de processamento e memória e por meio dos algoritmos de
aprendizagem, contribuiu para a revolução da IA.
A IA também pode ser utilizada em mecanismos de segurança que avaliam padrões de ataques em
bases de dados treinadas e cujos algoritmos aprendem com novos padrões, a partir de bases não
treinadas. A Figura 1.2 mostra um robô secretária, que realiza diversas tarefas em um escritório.
Hoje, uma realidade próxima.
Figura 1.2 - Robô secretária, um desenho que representava um futuro distante, hoje, é o presente
#PraCegoVer
: a imagem representa um robô secretária realizando múltiplas tarefas. Em um balão de
conversa, o robô diz “Eu não sou robô!”, e, no outro, “Não é problema meu”.
Para Luger (2013), o aprendizado é importante para aplicações práticas de IA, e o aprendizado
acontece quando ocorrem mudanças em um sistema, o qual melhora quando a mesma tarefa for
realizada pela segunda vez, caso contrário, a máquina não aprendeu. Nesse sentido, o aprendizado
envolve a generalização a partir da experiência e, para uma generalização ideal, o desempenho deve
melhorar na repetição da mesma tarefa e em tarefas semelhantes do domínio, mediante um viés
indutivo.
https://ambienteacademico.com.br/course/view.php?id=18504 4/34
10/11/22, 09:51 E-book
Para Bengfort e Kim (2016), o objetivo do AM é derivar modelos preditivos, a partir de dados atuais e
históricos. De acordo com as premissas, um algoritmo realiza o aprendizado quando obtém as
devidas melhorias, com uma excessiva quantidade de treinamento ou experiência. Tais resultados
eficientes são alcançados pelos algoritmos de AM para domínios muito restritos, usando modelos
treinados a partir de um grande conjunto de dados.
Para Siegel (2017), os métodos de indução estão relacionados ao AM. Os métodos de modelagem
variam, mas todos enfrentam o mesmo problema, aprender o máximo possível. Portanto, o objetivo
do AM é a
indução
, ou seja, o raciocínio, que parte de fatos detalhados para princípios gerais (do
efeito para a causa). Por sua vez, a dedução é o raciocínio que parte do geral para o particular (ou
da causa para o efeito). Ademais, a
dedução
é direta e parte da aplicação direta de regras, e a
indução parte dos detalhes para generalizar e verificar padrões que continuarão se aplicando em
situações ainda não vistas.
por hábito;
por conceito.
Na prática, esses tipos de sistemas ou robôs efetuam tarefas automatizadas e aprendem de acordo
com novas informações armazenadas. Esses são os sistemas especialistas, que têm uma base de
fatos e dados (base de conhecimento). Sempre que a base é alimentada com novas informações,
que se relacionam de acordo com fatos e regras (conhecimento), um aprendizado é realizado.
https://ambienteacademico.com.br/course/view.php?id=18504 5/34
10/11/22, 09:51 E-book
Por seu turno, o aprendizado por conceitos envolve determinar um mapeamento, a partir de um
conjunto de variáveis de entrada, em um valor booleano (verdadeiro ou falso). Os métodos que
conseguem mapear, corretamente, um conjunto de dados de treinamento, por meio de
classificações, também conseguem mapear dados não observados anteriormente, ou seja,
conseguem realizar generalizações, a partir de um conjunto de dados de treinamento.
Ademais, os métodos de aprendizado do tipo conceito podem ser de diversos tipos, segundo Luger
(2013), e há uma divisão de métodos, técnicas e algoritmos de aprendizagem indutiva.
https://ambienteacademico.com.br/course/view.php?id=18504 6/34
10/11/22, 09:51 E-book
● Algoritmos de treinamento de
● O conhecimento está implícito na Perceptron.
organização e na interação desses
neurônios. ● Aprendizado por retroprogramação.
https://ambienteacademico.com.br/course/view.php?id=18504 7/34
10/11/22, 09:51 E-book
#PraCegoVer
: o quadro apresenta as características de AM, sendo divido em três colunas e
cinco linhas. Na primeira linha, há os termos “Aprendizado”, “Características” e “Algoritmos,
métodos, técnicas”. Na segunda linha, há “Aprendizado simbólico” e, em seguida, sua
característica é descrita da seguinte forma: “os algoritmos estão baseados na suposição de
que a principal influência sobre o comportamento do programa seja a sua base de
conhecimento do domínio representada explicitamente“ e “baseada em sentenças em
linguagem simbólica”. Em seguida, há: “Algoritmos de espaços de conceitos”, “Linguagem Lex:
busca heurística”, “Algoritmo de eliminação de candidatos” e “Algoritmo ID3 para indução de
árvore de decisão”. Na terceira linha, há “aprendizado conexionista”, seguido por suas
características: “O conhecimento está implícito na organização e na interação desses
neurônios”, “Neurônios artificiais conectados” e “As redes neurais não aprendem adicionando
representações a sua base de conhecimento, em vez disso, elas aprendem modificando a sua
estrutura global. Assim, as redes neurais se adaptam às contingências do mundo que habitam”.
A seguir, ainda na terceira linha, há: “Algoritmos de treinamento de Perceptron”, “Aprendizado
por retroprogramação”, “Aprendizado competitivo (o vencedor leva tudo: rede de Kohonen,
redes Outstar e contraprogramação, máquinas de vetor de suporte)”, “Aprendizado hebbiano
por coincidência” e “Redes de atratores ou ‘memórias”’. Na quarta linha, há “Aprendizado
genético e emergente”, seguido das seguintes características: “O aprendizado é realizado por
meio de adaptação por analogias biológicas” e “Aprendizado inspirado na evolução, mediante a
modelagem de uma população de indivíduos, por meio da sobrevivência de seus membros
mais ajustados”. Em seguida, ainda na quarta linha, há: “Modelos de aprendizado social e
emergente”, “Algoritmo genético”, “Sistemas classificadores e programação genética” e
“Algoritmos de autômatos celulares (o jogo da vida)”. Na quinta e última linha, há “Aprendizado
conexionista”, seguido por suas características: “O conhecimento está implícito na organização
e na interação desses neurônios”, “Neurônios artificiais conectados” e “As redes neurais não
aprendem adicionando representações a sua base de conhecimento, em vez disso, elas
aprendem modificando a sua estrutura global. Assim, as redes neurais se adaptam às
contingências do mundo que habitam”.
https://ambienteacademico.com.br/course/view.php?id=18504 8/34
10/11/22, 09:51 E-book
Os
dados estruturados
advêm de bases relacionais e transacionais das empresas, indústrias e
nuvens de dados, já armazenados, normalizados e de fáceis operação e análise. O gerenciamento
dessas informações, nesses dispositivos, é realizado pelo Sistema Gerenciador de Banco de Dados
Relacional (SGBD ou, em inglês, DBMS – Database Management Systems). Como exemplo de
manipulação relacional, é possível citar a realizada por meio da linguagem SQL (Standard Query
Language).
O MySQL é um típico banco de dados relacional. Nesse caso, o SGBD e o SQL trabalham no apoio
ao pré-processamento de dados, para que uma base apropriada seja utilizada e processada pelos
algoritmos de mineração. Outra forma estruturada de dados, utilizada para a mineração e o AM,
refere-se às planilhas eletrônicas, cuja extensão de arquivo é o .xls. Em uma planilha eletrônica, os
dados são dispostos em colunas e linhas de fácil manipulação para o pré-processamento de dados
para mineração.
No que se refere às
bases de dados não estruturados e semiestruturados
, outras formas de
armazenamento de dados podem ser mineradas, como os dados não estruturados, os quais são os
bancos de dados NoSQL (Not only Standard
Query Language
– não é um modelo SQL, não
relacional), de nuvens e páginas
web
, pois a maior quantidade de dados está sendo gerada de
forma não estruturada, ou seja, de forma não normalizada, advinda de redes sociais,
logs
, bases
nativas, documentos e sensores dos aplicativos de smartphones e de páginas
web
. Ademais, os
modelos não estruturados se afastam do modelo relacional e são considerados dados não
uniformes e orientados a documentos em que as informações não estão normalizadas e
organizadas mediante uma relação entre elas.
https://ambienteacademico.com.br/course/view.php?id=18504 9/34
10/11/22, 09:51 E-book
modelo para armazenamento simples e compacto, muito utilizado em aplicações web para acesso
a um grande volume de dados.
Além desses modelos de bases semiestruturadas, existem diversos outros, que se ajustam às
necessidades e aos fatores como velocidade de acesso, capacidade de compactação dos dados,
organização e facilidade de acesso. As bases semiestruturadas (ou denominadas de forma híbrida)
têm certa organização e precisam passar por tratamentos antes de serem utilizadas. Essas
variedades de estruturas de dados exigem complexas atividades de coleta, tratamento,
processamento e visualização, para que haja a tomada de decisão nas organizações. Assim, as
bases semiestruturadas e não estruturadas, advindas das mais diversas fontes, precisam de um
alto pré-processamento de dados, para que os algoritmos de mineração sejam executados.
SAIBA MAIS
No que se refere às
bases de fatos e regras
, é possível que, além de dados, os computadores
processem informações, mediante modelos matemáticos e seus algoritmos computacionais. As
máquinas recebem informações dos usuários e realizam o processamento necessário, o qual utiliza
uma “base de conhecimento” composta por “conhecimentos de regras” e “fatos” dos especialistas
da empresa; isso representa um conjunto de informações específicas de determinada área do
conhecimento.
Quanto à
base
big
data
, outro importante conceito utilizado na mineração de dados e no AM é a
ingestão de dados, sendo um conceito mais atualizado da aquisição de diversas fontes de dados,
dentro de um processo maior, denominado Pipeline de Dados, e de uma arquitetura
big data
, de
sistema de processamento em lote (
batch
),
real time
ou híbrido. A ingestão de dados é uma das
camadas mais complexas do processo Pipeline de Dados e tem como objetivo importar e mover os
dados estruturados, semiestruturados e não estruturados para uma localização em que eles
https://ambienteacademico.com.br/course/view.php?id=18504 10/34
10/11/22, 09:51 E-book
Um
big data
utiliza, normalmente, uma ingestão de dados nos sistemas de armazenamento e,
segundo Pereira
et al
. (2019, p. 44), “a complexidade dessa operação depende muito do formato e
da qualidade das fontes de dados e da distância que os dados estão do estado desejado antes do
processamento”. Esses dados de um
big data
são de diversas fontes, são heterogêneos – formatos
variados imagens, vídeos, textos, áudios – e devem ser inseridos (extração e carregamento)
diretamente no
big data
, antes mesmo de seu processamento, para que, assim, sejam distribuídos
para os consumidores específicos.
Conforme expõem Castro e Ferrari (2016), a mineração de dados pode proporcionar uma
capacidade
preditiva
poderosa de dados. As funcionalidades da mineração de dados são usadas
para especificar os tipos de informações nas tarefas descritivas e preditivas. As tarefas
descritivas
caracterizam as propriedades gerais dos dados, e as
preditivas
fazem inferência a partir dos dados,
objetivando predições. Para entender melhor esse conceito, analise a Figura 1.3.
Fonte: Adaptada de Sharda, Delen e Turban (2019 apud Mariano et al., 2020).
#PraCegoVer
: a figura representa um diagrama do processo KDD (Knowledge Discovery in Databases) de
descoberta de conhecimento, a partir de uma fonte de dados brutos. É realizada uma seleção de dados,
gerando dados-alvo. Depois, é realizada a tarefa de limpeza de dados, gerando dados pré-processados.
Após, há uma tarefa de transformação de dados, gerando dados transformados. Em seguida, é executada
a mineração, propriamente dita, obtendo-se padrões. Depois, realiza-se a tarefa de externalização, gerando
conhecimento (
insight
com aplicação prática).
https://ambienteacademico.com.br/course/view.php?id=18504 11/34
10/11/22, 09:51 E-book
Uma mineração não significa aprendizagem, a qual é a próxima etapa possível da mineração de
dados. Para encontrar informações necessárias, pode ser suficiente encontrar uma análise
descritiva ou um agrupamento, mas, para que haja a descoberta de conhecimento, em uma base de
dados, é necessário fazer o algoritmo aprender de acordo com o seu desempenho (classificando,
estimando ou associando dados).
Na etapa de
análise descritiva
, é possível realizar a sumarização e a compreensão dos objetos da
base e seus atributos, mediante distribuições de frequências, medidas de centro e variação,
medidas de posição relativa e associação de dados. Na
predição
, é utilizado ou desenvolvido um
modelo para avaliar a classe de um objeto não rotulado ou para estimar o valor de um ou mais
atributos de dados-objeto. A etapa de
avaliação da classe
, por sua vez, também é denominada
tarefa de classificação, e a estimação do valor pode ser chamada de regressão ou estatística.
A etapa de
análise de grupos
é um processo de posicionamento ou de segmentação de um
conjunto de objetos em
clusters
de objetos similares. Enfim, na etapa de
associação
, são
encontradas relações (grupos, classes ou estimativas) entre os objetos da base (CASTRO; FERRARI,
2016). A regra de associação refere-se à descoberta de regras de associações que apresentam
valores de atributos de coocorrência (ocorrência conjunta na mesma base de dados transacionais).
Portanto, é possível dividir uma mineração de dados em uma sequência, para que seja possível a
descoberta do conhecimento, sendo essa uma proposta adaptada de
machine learning
.
Pré-processamento de dados
: preparação da base de dados, limpeza, integração,
redução, transformação e discretização dos dados.
Análise descritiva dos dados
: visualização dos dados.
Análise de grupos
: agrupamento de dados (similaridades e formas de representação
dos agrupamentos).
Aprendizagem
: há algoritmos de aprendizagem que podem ser por classificação,
estimação ou por regras de associação.
Conhecimento
Teste seus Conhecimentos
https://ambienteacademico.com.br/course/view.php?id=18504 12/34
10/11/22, 09:51 E-book
a)
Definição dos algoritmos de mineração.
b)
Definição de quais dados da base serão treinados.
c)
Realização de uma pré-avaliação da base de dados.
d)
Limpezas, integrações, transformações e discretizações da base de dados.
e)
Uma pré-visualização dos dados em forma de gráficos.
praticar
Vamos praticar
Este é um diálogo entre uma suposta analista de sistema e um
bot
, um robô (ou sistemas
inteligentes), que irá explicar as aplicações dos sistemas tutoriais inteligentes e AM em escolas e
fábricas.
Personagem
bot
:
– Olá, sou um
bot
; rastreio informações sobre a vida dos humanos, suas preferências, faço
mineração de dados, descobrindo tendências do que os humanos podem comprar ou realizar, e
sugiro possibilidades diversas. Dentro das organizações, utilizo as bases transacionais para
rastrear padrões e tendências para as complexas tomadas de decisões em qualquer nível
organizacional, para analistas e gestores. Nós
bots
temos como função a mineração de dados, a
qual é uma área da IA que está ajudando a encontrar conhecimento em grandes bases de dados,
para que seja possível resolver problemas.
Softwares
de mineração, como eu, são implementados
nas navegações de
sites
de buscas e em sites de comércio eletrônico móvel. Nós, algoritmos de
mineração, em conjunto com as técnicas de processamento da linguagem natural, temos outro
nome: tutores inteligentes. Assim, conseguimos orientar e ensinar os humanos. Estamos em
escolas, nos treinamentos em fábricas e em muitas outras aplicações.
Agora, realize uma pesquisa e desenvolva um texto de, aproximadamente, dois parágrafos,
apresentando uma aplicação/um exemplo do uso de tutoriais inteligentes. No primeiro parágrafo,
apresente a importância e a aplicação/o exemplo de um sistema tutorial. No segundo parágrafo,
https://ambienteacademico.com.br/course/view.php?id=18504 13/34
10/11/22, 09:51 E-book
descreva como o sistema tutorial apoia o aprendizado e explique se esse sistema também
aprende com o aprendiz. Cite exemplos de soluções comerciais que utilizam tutoriais inteligentes.
Organizando os Dados
para Análise (Pré-
Processamento)
https://ambienteacademico.com.br/course/view.php?id=18504 14/34
10/11/22, 09:51 E-book
#PraCegoVer
: a figura representa um diagrama das etapas de preparação da base de dados para o
processo de mineração de dados. A primeira etapa é a definição do problema; a segunda etapa refere-se à
seleção dos dados brutos; a terceira etapa refere-se ao pré-processamento da base e à definição do
algoritmo e é constituída por tarefas de limpeza, integração, redução, transformação e discretização. Na
quarta etapa, são realizadas as tarefas de aplicação do algoritmo ou a análise descritiva. A última etapa
refere-se aos resultados da mineração.
Por meio da eliminação das inconsistências e dos ruídos, é mais fácil obter o conhecimento
presente na seleção dos dados brutos. As atividades de pré-processamento, apresentadas na Figura
1.4, podem ser detalhadas, segundo Castro e Ferrari (2016), como:
etapa de limpeza: de acordo com o conceito KDD, após a seleção dos dados em um base
bruta, a limpeza de dados é uma das primeiras tarefas de pré-processamento. Essa tarefa
à correção de inconsistências;
etapa de integração: é uma das tarefas do processo KDD; o objetivo é unir dados de
dados de uma planilha eletrônica. Para alguns autores, essa etapa, no processo de KDD,
etapa de redução: é uma tarefa que tem como objetivo reduzir a dimensão da base de dados,
objetos da base, sumarizando os dados. Para alguns autores, essa etapa, no processo de
etapa de transformação: é uma tarefa do processo KDD que tem o objetivo de padronizar e
https://ambienteacademico.com.br/course/view.php?id=18504 15/34
10/11/22, 09:51 E-book
etapa de discretização: nesse caso, os métodos que trabalham apenas com atributos
dados. A
análise descritiva
visa encontrar o que há nos dados (características), e os
algoritmos de mineração conseguem realizar inferências a partir dos dados, ou seja, realizar
um aprendizado. Como exemplo de uma análise descritiva de uma base de dados de câncer
em exames de mamas, é possível encontrar características nos dados, por exemplo, verificar
a média de idade das mulheres que têm câncer de mama. Por sua vez, a mineração pode
FERRARI, 2016).
A Figura 1.5 ilustra a sequência de uma extração de dados, a partir de uma base de dados, para uma
planilha. Os dados são pré-processados e, depois, é gerada uma distribuição de dados, por meio de
um histograma (gráfico em forma de barras).
#PraCegoVer
: a figura representa uma sequência de extração de dados, iniciando com a extração da base
de dados para uma planilha com os dados pré-processados. Em uma segunda etapa, os dados geram um
histograma, apresentando características deles.
Por meio da distribuição de dados e da visualização do histograma, é possível encontrar, nos dados
armazenados, as características que não estão visíveis ou compreensíveis em uma base de dados
ou em uma planilha eletrônica. O processo de análise descritiva de dados, segundo Castro e Ferrari
(2016), é desmembrado em três passos:
https://ambienteacademico.com.br/course/view.php?id=18504 16/34
10/11/22, 09:51 E-book
Para Castro e Ferrari (2016), é útil organizar e resumir os dados a partir da construção de uma
tabela que lista os valores dos atributos de maneira individual ou agrupada. Também, devem ser
incluídas as frequências correspondentes (distribuição de frequências), que representam o número
de vezes que os valores listados ocorrem. Uma distribuição de frequência é um resumo
(sumarização) dos dados agrupados em classes.
O exemplo a seguir ilustra a base de dados de mamografia (Quadro 1.2) e contém informações de
lesões de massas mamográficas obtidas a partir de atributos da classificação BI-RAIDS (Breast
Imaging-Reporting and Data System). Cada objeto identificado por ID corresponde a um exame por
imagem de diagnóstico realizado, mas esse atributo não é utilizado para a análise. O Quadro 1.2 é
uma pequena parte da base de 961 objetos (CASTRO; FERRARI, 2016), assim, são apresentados
apenas os 10 primeiros objetos, para que haja uma melhor compreensão.
https://ambienteacademico.com.br/course/view.php?id=18504 17/34
10/11/22, 09:51 E-book
BI-
ID Idade Forma Margem Densidade Severidade
RADS
7 4 70 ? ? Baixa Benigno
#PraCegoVer
: o quadro representa uma parte dos dados de uma base mamográfica, 10 itens.
A primeira coluna representa a ID (identificação) correspondente a um exame por imagem de
diagnóstico. A segunda coluna corresponde à classificação BI-RAIDS (Breast Imaging-
Reporting and Data System). A terceira coluna corresponde à idade do paciente. A quarta
coluna apresenta a forma do tumor, se é lobular, irregular, redonda ou não identificada. Na
quinta coluna, há uma margem especulada ou circunscrita. Na sexta coluna, há a densidade do
tumor, que pode ser baixa, alta ou indefinida. A última coluna corresponde à severidade do
tumor: maligno ou benigno. Na segunda linha, há os valores da pesquisa, na ordem: 1, 5, 67,
lobular, especulada, baixa e maligno. Na terceira linha, há: 2, 4, 43, redonda, circunscrita, um
ponto de interrogação e maligno. Na quarta linha, há: 3, 5, 58, irregular, especulada, baixa e
maligno. Na quinta linha, há: 4, 4, 28, redonda, circunscrita, baixa e benigno. Na sexta linha, há:
5, 5, 74, redonda, especulada, um ponto de interrogação e maligno. Na sétima linha, há: 6, 4, 65,
redonda, um ponto de interrogação, baixa e benigno. Na oitava linha, há: 7, 4, 70, um ponto de
interrogação, outro ponto de interrogação, baixa e benigno. Na nona linha, há: 8, 5, 42, redonda
e benigno. Na décima linha, há: 9, 5, 57, redonda, especulada, baixa e maligno. Na décima
primeira linha, há: 10, 5, 60, um ponto de interrogação, especulada, alta e maligno.
https://ambienteacademico.com.br/course/view.php?id=18504 18/34
10/11/22, 09:51 E-book
A partir da base de dados apresentada, são realizados cinco passos para a construção da
distribuição de frequência mediante os objetos de aprendizagem, conforme exposto a seguir.
Passo 1: os valores dos atributos são grupos de intervalo que se deseja dividir. Nesse caso,
Passo 2: amplitude de classe, que é a diferença entre o maior valor e o menor valor de uma
variável. Amplitude = (maior valor) – (menor valor). A amplitude de classe = (maior valor –
menor valor) / número de classes. (81 – 23) / 5 = 11,6. O valor 81 é a maior idade, e 23 é a
menor idade da base de mamografias, dos 961 objetos. Essas informações podem ser
para cima. Portanto, o valor da amplitude fica com valor igual a 12.
Passo 3: é o limite inferior inicial, é o número para o limite inferior da primeira classe. Nesse
Passo 4: são os limites inferiores das classes, ou seja, os menores números que podem
pertencer às diferentes classes. Os limites inferiores a essas cinco classes são: 23 (classe
Passo 5: são os maiores números que podem pertencer às diferentes classes. Os limites
superiores das cinco classes são: 34 (classe 1), 46 (classe 2), 58 (classe 3), 70 (classe 4) e
82 (classe 5).
Passo 6: cada valor deve ser rotulado com a classe à qual pertence. Por exemplo, o valor 67,
No Quadro 1.3, há os seguintes atributos: classe, limite inferior, limite superior, frequência absoluta e
cálculo da frequência relativa, dado em percentual. A frequência relativa de uma classe corresponde
a quanto ela ocorre em relação a toda a distribuição de frequências. Nesse caso, a fórmula é: FR =
(FA / (número de objetos)) * 100. Por exemplo, FR da classe 1:
https://ambienteacademico.com.br/course/view.php?id=18504 19/34
10/11/22, 09:51 E-book
Frequência Frequência
Classe Limite inferior Limite superior
absoluta relativa
1 23 34 5 6,25%
2 35 46 15 18,75%
3 47 58 20 25%
4 59 70 28 35%
5 71 82 12 15%
#PraCegoVer
: o quadro, dividido em cinco colunas e seis linhas, apresenta, em cada coluna, os
seguintes atributos: classe, limite inferior, limite superior, frequência absoluta e cálculo da
frequência relativa dado em percentual, referente aos rótulos dos primeiros 80 objetos de
estudo. Na segunda linha, há: 1, 23, 34, 5 e 6,25%. Na terceira linha, há: 2, 35, 46, 15 e 18,75%.
Na quarta linha, há: 3, 47, 58, 20 e 25%. Na quinta linha, há: 4, 59, 70, 28 e 35%. Na sexta linha,
há: 5, 71, 82, 12 e 15%.
Depois de ser calculada a frequência absoluta e relativa, é possível visualizar os dados por meio de
gráficos do tipo histograma. Para Castro e Ferreira (2016, p. 65), a visualização dos dados tem o
“objetivo de se entender a natureza das distribuições dos dados, extrair conhecimento mais fácil e
rapidamente e permitir o compartilhamento desse conhecimento de maneira direta entre diferentes
pessoas e entidades”. Uma das representações gráficas mais utilizadas para a visualização da
distribuição dos dados é o histograma, o qual é um tipo de frequência tabulada na forma de
retângulos adjacentes ou barras adjacentes. Cada barra é a representação das classes da
distribuição de frequência, também denominada
bins
. Na Figura 1.6, há um exemplo de histograma
referente ao Quadro 1.3 (distribuição de frequência).
https://ambienteacademico.com.br/course/view.php?id=18504 20/34
10/11/22, 09:51 E-book
Figura 1.6 – Histograma do atributo idade para a amostra da base de mamografia (frequência
absoluta)
#PraCegoVer
: o gráfico representa um histograma do atributo idade para a amostra da base de
mamografia (frequência absoluta). As barras representam as classes da distribuição de frequência (bins).
A primeira barra representa a classe 1 e tem limite inferior a 23 e superior a 34; a classe 2 tem limite
inferior a 35 e superior a 46; a classe 3 tem limite inferior a 47 e superior a 58; a classe 4 tem limite inferior
a 59 e superior a 70; a classe 5 tem limite inferior a 71 e superior a 82.
A análise descritiva de dados pode ser utilizada antecipadamente, antes da mineração mais
complexa (uso de algoritmos de mineração de dados). Nesse contexto, a análise descritiva é
considerada uma etapa inicial do processo de mineração e utiliza ferramentas estatísticas simples,
como frequência absoluta e relativa. Portanto, as análises descritivas permitem a sumarização e a
melhor visualização dos objetos de dados e da distribuição de frequências por meio dos
histogramas.
Conhecimento
Teste seus Conhecimentos
https://ambienteacademico.com.br/course/view.php?id=18504 21/34
10/11/22, 09:51 E-book
A primeira etapa está relacionada à preparação da base de dados e é realizada antes de qualquer
análise em uma base de dados. Assim, é necessário o preparo da base de dados, devido às
inconsistências e aos ruídos contidos na seleção de dados que será analisada. Como essa etapa é
denominada?
a)
Pré-processamento de dados.
b)
Limpeza de dados.
c)
Análise de dados.
d)
Processamento de dados.
e)
Seleção dos dados brutos.
Mensuração e
Performance
Caro(a) estudante, você sabia que as medidas de avaliação dos resultados dos algoritmos
aplicados no processo de mineração são
vitais
para a
conclusão
dos resultados? Nesse sentido, é
importante salientar que a mensuração e a
performance
dependem da abordagem da mineração de
dados e das ferramentas e dos algoritmos utilizados. Uma seleção incorreta da abordagem, da
ferramenta ou dos algoritmos pode prejudicar a
performance
e a mensuração dos resultados dos
algoritmos. Desse modo, o pós-processamento da mineração de dados considera:
discretização);
Portanto, é essencial que todas as etapas do processo de mineração estejam alinhadas com o
objetivo do AM.
No desenvolvimento de projetos de
machine learning
, é essencial o uso de métricas de avaliação
para a resolução de cada problema. Assim, a escolha correta das métricas influencia a avaliação de
https://ambienteacademico.com.br/course/view.php?id=18504 22/34
10/11/22, 09:51 E-book
um modelo ideal de aprendizagem ou demonstra quão distante esse modelo está de um modelo
ideal. Um tipo de métrica de avaliação é a classificação.
Segundo Amaral (2016), em um modelo de classificação, devem ser analisadas quais são as
características que definem cada forma e como essa forma é atribuída a cada um dos grupos,
como mostra a Figura 1.7: dentro dos retângulos, as formas já estão classificadas de acordo com o
seu tipo – triângulo, quadrado ou círculo. Uma forma à esquerda do retângulo, no entanto, com uma
interrogação no centro, ainda não teve seu tipo identificado. Em uma base de dados relacional, os
dados já estão classificados de forma equivalente aos elementos do retângulo (triângulos,
quadrados e círculos), como mostra a Figura 1.8, sendo classificados em categorias do tipo:
clientes, produtos, fornecedores, compras, vendas etc. Ademais, um algoritmo de aprendizado
aprenderá a classificar um objeto que ainda não foi classificado.
#PraCegoVer
: a figura representa um retângulo com figuras geométricas, dividido em três grupos:
triângulos, quadrados e círculos (que representam bases treinadas). Além disso, há uma incógnita, que é
uma figura desconhecida.
A classificação funciona com dados históricos, contudo, em uma base de dados relacional de
clientes ou produtos, essa classificação já está pronta, pois as tabelas ou a classe dos objetos já
estão na forma estruturada. É necessário verificar, no entanto, se os dados são necessários,
convenientes e preparados para o propósito, caso contrário, será preciso aplicar a primeira etapa de
pré-processamento (limpeza, integração, redução, transformação e discretização). Então, o próximo
passo do AM é criar um modelo preditivo, a partir dos dados históricos já classificados.
https://ambienteacademico.com.br/course/view.php?id=18504 23/34
10/11/22, 09:51 E-book
#PraCegoVer
: a figura representa um modelo de classificação. A partir da base de dados transacional,
são selecionados os dados históricos de clientes e são preparadas as bases de treino para a criação de
um modelo preditivo e a base de teste para a avaliação do modelo.
O treinamento consiste em usar os dados de treino para ajustar parâmetros livres do modelo (em
redes neurais, seriam os pesos do modelo; nas árvores de decisão, seriam os nós da árvore) e para
que haja um desempenho avaliado pela aplicação do modelo.
Com base nos elementos da Figura 1.10, é possível melhorar o exemplo de figuras geométricas para
a classificação. Assim, de forma mais lúdica, na Figura 1.9, as formas têm, além do rótulo (nome da
figura), características de cor e tamanho.
#PraCegoVer
: a figura representa um conjunto de formas geométricas: triângulo vermelho, círculo laranja,
triângulo azul-escuro, quadrado azul-claro, círculo laranja. Abaixo dessas figuras, há outras: quadrado azul-
claro, triângulo verde, círculo amarelo, triângulo vermelho e quadrado azul-escuro.
https://ambienteacademico.com.br/course/view.php?id=18504 24/34
10/11/22, 09:51 E-book
Características
Código do
Rótulos
identificador
Cor Tamanho
#PraCegoVer
: o quadro está dividido em quatro colunas e nove linhas. As colunas são: código
do identificador, características (dividida em cor e tamanho) e rótulos do conjunto de dados. No
código Id 1, há as características cor (vermelho), tamanho (grande) e rótulo (triângulo). No
código Id 2, cor: laranja, tamanho: pequeno, rótulo: círculo. No código Id 3, cor: azul-escuro,
tamanho: grande, rótulo: triângulo. No código Id 4, cor: azul-claro, tamanho: pequeno, rótulo:
quadrado. No código Id 5, cor: azul-claro, tamanho: grande, rótulo: quadrado. No código Id 6,
cor: verde, tamanho: grande, rótulo: triângulo. No código Id 7, cor: amarelo, tamanho: grande,
rótulo: círculo. No código Id 8, cor: vermelho, tamanho: pequeno, rótulo: quadrado.
A partir do conjunto de dados organizados no Quadro 1.4 (dados de entrada), é possível criar um
modelo para a identificação de novos itens, como o exemplo da Figura 1.8 (ponto de interrogação).
Segundo Mariano
et al
. (2020, p. 192), é possível observar que “há itens com rótulos semelhantes,
mas com características diferentes. Da mesma forma, há itens diferentes com características
semelhantes”. Assim, no processo de construção desse modelo de predição, é preciso dividir a base
de dados em uma base de treino e uma de teste, como ilustra a Figura 1.9.
Não existe, contudo, uma regra específica da quantidade de elementos que devem ser distribuídos
entre as bases de teste e treino. Conforme expõem Mariano
et al.
(2020, p. 193), “costuma-se utilizar
os valores 50–50%, 60–40%, 70–30%, 80–20% ou 90–10% para treino e teste, respectivamente. Em
https://ambienteacademico.com.br/course/view.php?id=18504 25/34
10/11/22, 09:51 E-book
Acurácia total
: é uma medida de desempenho muito utilizada na avaliação de
Sensibilidade ou consistência
: está relacionada à capacidade de predizer a situação, sem
Especificidade
: está relacionada à capacidade de predizer a situação, sem erros (classificar
https://ambienteacademico.com.br/course/view.php?id=18504 26/34
10/11/22, 09:51 E-book
Eficiência
: corresponde à média aritmética da sensibilidade e da especificidade. A fórmula
que determina a eficiência, a partir da matriz confusão, é:
Etapas e
características da
mineração de dados
Pré-processamento
Análise descritiva
dedados
Análise de grupos
Aprendizagem de
máquina
#PraCegoVer
: o infográfico apresenta o título “Etapas e características da mineração de dados” e contém
uma figura em desenho de fundo e abas sobre essa imagem para interagir. O desenho é um
tablet
grande
com uma mulher e um homem minúsculos interagindo com ele. O homem segura uma picareta e parece
utilizá-la para clicar nas teclas de número 0 e 1 do
tablet
, enquanto a mulher está sentada sobre uma pilha
de quatro livros e ao topo do
tablet
, estando mais alta na imagem. Ela utiliza um
notebook
, que está
posicionado sobre suas pernas. As abas ao lado da figura possuem os respectivos conteúdos: 1º “Pré-
processamento: torna o processo de mineração de dados mais eficiente e eficaz, preparando a base de
dados, manipulando e transformando os dados brutos, fazendo o conhecimento mais fácil de ser
corretamente obtido”, 2º “Análise descritiva de dados: descreve, simplifica ou sumariza as principais
características de uma base de dados, formando o princípio de uma análise quantitativa de dados, além
de organizá-lo usando distribuições de frequências”, 3º “Análise de grupos: realiza o agrupamento de uma
https://ambienteacademico.com.br/course/view.php?id=18504 27/34
10/11/22, 09:51 E-book
base de dados para que ela seja mais facilmente compreendida ou pesquisada, utilizando medidas de
similaridade para o agrupamento de objetos” e 4º “Aprendizagem de máquina: por classificação de dados
ou por estimação. Na classificação de dados, os classificadores são baseados em conhecimento. Já na
estimação a abordagem pode ser conexionista, em que os classificadores são modelos baseados em
redes de unidades interconectadas”.
praticar
Vamos praticar
As aplicações da mineração de dados são vastas, devido à multidisciplinaridade relacionada à
estatística, à matemática, à engenharia (análise espacial), à IA, ao banco de dados (recuperação de
informações), ao sistema de informação e à visão computacional (reconhecimento de padrões em
imagens). Castro e Ferrari (2016) comentam que as siderúrgicas, por exemplo, utilizam a
mineração de dados para alcançar a excelência operacional, aumentando a produtividade das
usinas.
Com base nesse contexto, explique, brevemente, cada etapa do processo de preparação para a
mineração dos dados.
https://ambienteacademico.com.br/course/view.php?id=18504 28/34
10/11/22, 09:51 E-book
Material
Complementar
FILME
Ex_Machina
Ano:
2015
Comentário:
O filme apresenta diversas questões éticas sobre o uso da
tecnologia inteligente, por meio de uma trama entre uma humanoide, Ada,
um programador, Caleb, e o diretor de uma empresa de motor de busca,
Nathan. O filme foca também o teste de Turing, com o personagem Caleb
junto ao robô, além de discutir as expressões corporais de usuários
utilizadas na humanoide. O filme permite compreender melhor o
comportamento inteligente e o AM, aspectos relevantes para o conteúdo de
machine learning
. Para conhecer mais sobre o filme, assista ao trailer
disponível em:
TRAILER
https://ambienteacademico.com.br/course/view.php?id=18504 29/34
10/11/22, 09:51 E-book
LIVRO
Editora:
Saraiva
Ano:
2016
ISBN:
978-85-472-0098-5
Comentário:
Essa é uma obra completa e detalhada sobre a mineração de
dados e suas aplicações. Os autores exploram a mineração de dados como
ferramentas algorítmicas (pseudocódigos) para a busca do AM e aquisição
de conhecimento para as organizações. No capítulo 1, são apresentados os
conceitos e princípios da mineração de dados. No capítulo 2, discute-se a
tarefa de pré-processamento de dados, que define a preparação para a
descoberta de conhecimento nas bases de dados. Nos demais capítulos, 3 a
8, são apresentadas as análises descritiva e de grupos, a classificação, a
estimação e as regras de associação, que definem as etapas 2 (análise
descritiva), 3 (análise de grupos) e 4 (aprendizagem) de nosso tópico. A
leitura desses capítulos é importante para consolidar os conhecimentos
sobre as tarefas de pré-processamento de dados, bem como as abordagens
de mineração de dados (Biblioteca ).
LIVRO
Editora:
LTC
Ano:
2015
ISBN:
978-85-352-7822-4
Comentário:
Essa é uma obra completa e detalhada sobre a mineração de
dados e suas aplicações. Os autores exploram a mineração de dados como
ferramentas algorítmicas (pseudocódigos) para a busca do AM e aquisição
de conhecimento para as organizações. No capítulo 1, são apresentados os
conceitos e princípios da mineração de dados. No capítulo 2, discute-se a
tarefa de pré-processamento de dados, que define a preparação para a
descoberta de conhecimento nas bases de dados. Nos demais capítulos, 3 a
8, são apresentadas as análises descritiva e de grupos, a classificação, a
estimação e as regras de associação, que definem as etapas 2 (análise
https://ambienteacademico.com.br/course/view.php?id=18504 30/34
10/11/22, 09:51 E-book
https://ambienteacademico.com.br/course/view.php?id=18504 31/34
10/11/22, 09:51 E-book
Conclusão
Prezado(a) estudante, chegamos ao fim deste estudo. Como exposto, por meio de algoritmos avançados
de aprendizagem, é possível programar máquinas, com uma grande equipe de programadores e técnicos
que podem realizar automações em fábricas, mediante robôs inteligentes. Além disso, é possível utilizar
grandes bases transacionais, de
marketing
, produção, vendas e de outras áreas funcionais, para que os
algoritmos procurem padrões ou tendências e aprendam em novas bases de dados.
Ademais, é possível ensinar algo às máquinas, mediante treinamentos, ou seja, hábitos perceptivos.
Assim, surge um questionamento: elas podem aprender com os humanos? Na verdade, as máquinas
podem realizar tarefas automatizadas, enquanto os humanos podem se especializar em outras tarefas.
Este material foi produzido para fornecer possibilidades conceituais, para que você, caro(a) estudante,
possa explorar vários conteúdos. Esperamos que tenha gostado. Até a próxima.
Referências
AMARAL, F.
Introdução à ciência de dados
: mineração de
dados e big data. Rio de Janeiro: Alta Books, 2016.
BELMIRO, N. J.
Informática aplicada
. São Paulo: Pearson Educação do Brasil, 2014.
Comentário:
Essa é uma obra completa e detalhada sobre a mineração de dados e suas aplicações. Os
autores exploram a mineração de dados como ferramentas algorítmicas (pseudocódigos) para a busca do
AM e aquisição de conhecimento para as organizações. No capítulo 1, são apresentados os conceitos e
princípios da mineração de dados. No capítulo 2, discute-se a tarefa de pré-processamento de dados, que
define a preparação para a descoberta de conhecimento nas bases de dados. Nos demais capítulos, 3 a 8,
são apresentadas as análises descritiva e de grupos, a classificação, a estimação e as regras de
https://ambienteacademico.com.br/course/view.php?id=18504 32/34
10/11/22, 09:51 E-book
COPPIN, B.
Inteligência Artificial
. Rio de Janeiro: LTC: 2017.
Comentário:
Essa é uma obra completa e detalhada sobre a mineração de dados e suas aplicações. Os
autores exploram a mineração de dados como ferramentas algorítmicas (pseudocódigos) para a busca do
AM e aquisição de conhecimento para as organizações. No capítulo 1, são apresentados os conceitos e
princípios da mineração de dados. No capítulo 2, discute-se a tarefa de pré-processamento de dados, que
define a preparação para a descoberta de conhecimento nas bases de dados. Nos demais capítulos, 3 a 8,
são apresentadas as análises descritiva e de grupos, a classificação, a estimação e as regras de
associação, que definem as etapas 2 (análise descritiva), 3 (análise de grupos) e 4 (aprendizagem) de
nosso tópico. A leitura desses capítulos é importante para consolidar os conhecimentos sobre as tarefas
de pré-processamento de dados, bem como as abordagens de mineração de dados (Biblioteca ).
Comentário:
Essa é uma obra completa e detalhada sobre a mineração de dados e suas aplicações. Os
autores exploram a mineração de dados como ferramentas algorítmicas (pseudocódigos) para a busca do
AM e aquisição de conhecimento para as organizações. No capítulo 1, são apresentados os conceitos e
princípios da mineração de dados. No capítulo 2, discute-se a tarefa de pré-processamento de dados, que
define a preparação para a descoberta de conhecimento nas bases de dados. Nos demais capítulos, 3 a 8,
são apresentadas as análises descritiva e de grupos, a classificação, a estimação e as regras de
associação, que definem as etapas 2 (análise descritiva), 3 (análise de grupos) e 4 (aprendizagem) de
nosso tópico. A leitura desses capítulos é importante para consolidar os conhecimentos sobre as tarefas
de pré-processamento de dados, bem como as abordagens de mineração de dados (Biblioteca ).
LUGER, G. F.
Inteligência Artificial
. 6. ed. São Paulo: Pearson Education do Brasil, 2013.
MARIANO, D. C. B.
et al
.
Data mining
. Porto Alegre: SAGAH, 2020.
Comentário:
Essa é uma obra completa e detalhada sobre a mineração de dados e suas aplicações. Os
autores exploram a mineração de dados como ferramentas algorítmicas (pseudocódigos) para a busca do
AM e aquisição de conhecimento para as organizações. No capítulo 1, são apresentados os conceitos e
princípios da mineração de dados. No capítulo 2, discute-se a tarefa de pré-processamento de dados, que
define a preparação para a descoberta de conhecimento nas bases de dados. Nos demais capítulos, 3 a 8,
são apresentadas as análises descritiva e de grupos, a classificação, a estimação e as regras de
associação, que definem as etapas 2 (análise descritiva), 3 (análise de grupos) e 4 (aprendizagem) de
nosso tópico. A leitura desses capítulos é importante para consolidar os conhecimentos sobre as tarefas
de pré-processamento de dados, bem como as abordagens de mineração de dados (Biblioteca ).
SIEGEL, E.
Análise preditiva
: o poder de prever quem vai clicar, comprar, mentir ou morrer. Rio de Janeiro:
Alta Book, 2017.
https://ambienteacademico.com.br/course/view.php?id=18504 33/34
10/11/22, 09:51 E-book
https://ambienteacademico.com.br/course/view.php?id=18504 34/34