Unidade 2

19/11/22, 09:24 E-book
MACHINE LEARNING
PROCESSO DE APRENDIZADO
SUPERVISIONADO E NÃO
SUPERVISIONADO
Autor: Me. Jackson Luis Schirigatti
Revisor: Rodrigo Ramos Nogueira
Tempo de leitura do conteúdo estimado 1 hora e 40 minutos.
https://ambienteacademico.com.br/course/view.php?id=18504 1/60
19/11/22, 09:24 E-book
Introdução
Olá, aluno(a)! Seja bem-vindo(a)! Nesta unidade, vamos compreender que, em
um processo de mineração de dados, são utilizados, amplamente,
procedimentos que
conduzam
a uma
aprendizagem
voltada a resultados
esperados
e
não esperados
, tais como o aprendizado supervisionado e o não
supervisionado.
E quando devemos utilizar o aprendizado supervisionado ou o não

supervisionado?
Essa pergunta será respondida ao longo deste estudo,
devidamente direcionado para o entendimento acerca das tarefas preditivas e
contínuas, do aprendizado não supervisionado por clusterização e por análise
de componentes principais, bem como da linguagem R.
Boa leitura!
Aprendizado
Supervisionado e
19/11/22, 09:24 E-book
Aprendizado não
Supervisionado
Para compreendermos os conceitos de aprendizado supervisionado e de

aprendizado não supervisionado, veremos algumas
tarefas ou
funcionalidades
da mineração de dados.
A mineração de dados é constituída por diversas atividades de

análise
e de
descoberta
do conhecimento, em uma base de dados
estruturada
,
não
estruturada
ou
semiestruturada
, de forma pré-processada.
Essas atividades, também chamadas de tarefas, têm início com a

preparação
da base
e a
análise descritiva
(área de pesquisa de dados – busca de fatos
relevantes, por meio de uma abordagem visual). Após isso, são realizadas
diversas outras funcionalidades, como a análise de grupos (
clustering
), a
classificação (predição discreta) e a estimação (predição contínua).
Tarefas de predição discreta e de

predição contínua
Nas funções de aprendizagem de máquina, é aplicado um
modelo
para
analisar
a classe de um
objeto
sem rótulo ou estimar um
valor
de uma ou
mais
características
dos dados do objeto. Segundo Castro e Ferrari (2016, p.
156), o uso de modelos preditivos é muito
intenso
na
automação
de
processos de tomadas de decisões, por exemplo, classificação de objetos,
controle de qualidade de processos etc.
19/11/22, 09:24 E-book
Sempre que houver um conjunto de objetos que possam ser

rotulados
(como
na análise descritiva ou na clusterização) e utilizados para
treinar
um modelo
de forma supervisionada, será possível
projetar
um
modelo preditivo
.
Um exemplo de predição discreta e de predição contínua é dado a seguir, de

acordo com Castro e Ferrari (2016).
Predição discreta
(classificação)
Um exemplo prático do uso da
predição discreta (ou
classificação) é o caso de uma
financeira de cartão de crédito
Fonte: Oleksandr Rybitskyi / 123RF. que poderá realizar ou não a
concessão de crédito
. Essa
tarefa se dá por meio de
árvores
de
decisão
ou por regras de
classificação.
Predição contínua
(estimação)
Um exemplo prático do uso da
predição contínua (ou
estimação) pode ser visualizado
quando determinada financeira
Fonte: Dmitrii Shironosov / 123RF. de cartão de crédito vai efetuar a
concessão de crédito e precisa
conhecer o limite que será
atribuído. O valor dessa
19/11/22, 09:24 E-book
concessão corresponde ao perfil

do solicitante. Essa tarefa de
análise de perfil por estimação é
feita por meio de
algoritmos de
redes neurais artificiais
.
Tanto a predição discreta quanto a predição contínua possuem o mesmo

objetivo:
encontrar
um
modelo
de
predição satisfatório
que vai demonstrar
uma capacidade de
generalização
(aprendizagem).
A
predição contínua
possui muitas características da predição discreta
(classificação), no entanto, tem como esforço principal a predição de valores
contínuos de uma variável (estimação), a qual será do tipo
aprendizagem
supervisionada
ou
paradigma de aprendizagem
. Para Castro e Ferrari (2016,
p. 200):
À tarefa de predizer um valor contínuo de uma variável dá-se o

nome de estimação, a qual também é do tipo aprendizagem
supervisionada e, portanto, requer pares entrada-saída desejada
para a construção do estimador e possui muitas características e
processo em comum como a classificação. Este processo
equivalente se refere à preparação da base de dados, à separação
dos dados em treinamento e teste, à definição de critérios de parada
do algoritmo e ao treinamento e testes.
Vejamos, a seguir, os conceitos e os paradigmas relacionados à

aprendizagem de máquina preditiva (por hipótese) – de maneira
supervisionada – e descritiva – de maneira não supervisionada.
19/11/22, 09:24 E-book
Aprendizagem supervisionada e
aprendizagem não supervisionada
O processo de aprendizagem de máquina pode ser melhor orientado por meio
de um paradigma supervisionado ou não supervisionado; ambos utilizam
algoritmos estatísticos e matemáticos.
Castro e Ferrari (2016, p. 16) apresentam uma definição de paradigma de

aprendizagem:
[...] um procedimento bem definido para treinar uma técnica de

aprendizagem de máquina (MA) que é denominado algoritmo de
aprendizagem ou algoritmo de treinamento, e a maneira pela qual o
ambiente influencia a técnica em seu aprendizado define o
paradigma de aprendizagem.
Para obtermos um melhor conhecimento sobre a aprendizagem de máquina e

o conceito de aprendizado indutivo (capacidade de aprender a partir de
exemplos), veremos os
dois paradigmas
de aprendizagem mais comuns,
amplamente utilizados
na mineração de dados e na inteligência artificial.
Esses paradigmas, descritos por Castro e Ferrari (2016, p. 16), são:
● Aprendizado supervisionado
É baseado em um conjunto de objetos para os

quais as saídas desejadas são conhecidas ou
em algum outro tipo de informação que
apresente um comportamento esperado pelo
sistema. Por exemplo: um conjunto de dados
com rótulos, uma amostra de diversas garrafas
rotuladas etc.
19/11/22, 09:24 E-book
Fonte: igorr / 123RF.
Um exemplo numérico de aprendizado supervisionado é dado pela Tabela 2.1,

que contém um conjunto de dados: quilômetros por litro (eficiência do motor)
x polegadas cúbicas (dimensão do motor). Esse conjunto de dados
representa uma base para uma regressão estatística que busca encontrar um
comportamento (esperado), ou seja, como uma variável se comporta
(evolução) à medida que outra sofre variações.
19/11/22, 09:24 E-book
Polegadas cúbicas (dimensão do

id Quilômetros x Litros
motor)
1 5 480
2 5,6 450
3 7 430
4 8 400
5 7,6 350
6 6,4 360
7 7,5 280
Tabela 2.1 - Quilômetros por litro x Polegadas cúbicas (dimensão do motor)
Fonte: Elaborada pelo autor (2021).
#PraCegoVer
: a tabela contém três colunas e sete linhas. Da esquerda
para a direita, temos as seguintes colunas, respectivamente: “id”,
“Quilômetros x Litros” e “Polegadas cúbicas (dimensão do motor”. Na
coluna “id”, temos os seguintes dados, de cima para baixo: “1”, “2”, “3”,
“4”, “5”, “6” e “7”. Já na coluna "Quilômetros x Litros”, temos os seguintes
dados, de cima para baixo: “5”, “5,6”, “7”, “8”, “7,6”, “6,4” e “7,5”. Por fim,
na coluna “Polegadas cúbicas (dimensão do motor)”, temos os
seguintes dados, de cima para baixo: “480”, “450”, “430”, “400”, “350”,
“360” e “280”.
Um comportamento esperado é que, à medida que diminui a dimensão do

motor, sua eficiência aumenta. É possível encontrar o melhor comportamento
19/11/22, 09:24 E-book
por meio de uma técnica de aprendizagem supervisionada, por exemplo, a

regressão linear.
● Aprendizado não supervisionado
É baseado, apenas, em objetos cujos rótulos

são desconhecidos. Basicamente, o algoritmo
deve aprender a “categorizar” (ou rotular)
objetos. Por exemplo, é possível considerar um
conjunto de dados não rotulados, como garrafas
sem rótulos.
Fonte: eugene78 / 123RF.
O sistema aprenderá a classificar os tipos de garrafas pelos seus atributos

(forma, cor, tamanho, volume etc.). Uma das abordagens não
supervisionadas mais conhecidas é a da clusterização, em que o modelo
procura dados semelhantes entre si e os aproxima.
Um exemplo numérico de aprendizado não supervisionado pode ser a

descoberta do perfil dos clientes que compram determinado tipo de produto
em determinada loja.
Nesse sentido, em um conjunto de dados, a busca não supervisionada pode

ser feita por meio de indivíduos semelhantes ou de itens de compras
semelhantes, como apresenta a Tabela 2.2, a seguir:
19/11/22, 09:24 E-book
Renda
Produtos Existe familiar
Clientes Categoria
comprados qualidade (salário
mínimo)
Agasalho
1 Não <=4 B
esportivo
2 Calçado social Sim >=4 A
Barraca de
1 Não <=4 B
camping
4 Bebidas Sim <4 C
4 Carnes Sim <4 C
2 Roupa social Sim >=4 A
Tabela 2.2 - Perfil de compras
Fonte: Elaborada pelo autor.
#PraCegoVer
: a tabela contém cinco colunas e seis linhas. Da esquerda
para a direita, temos as seguintes colunas, respectivamente: “Clientes”,
“Produtos comprados”, “Existe qualidade”, “Renda familiar (salário
mínimo)” e “Categoria”. Na coluna “Clientes”, temos os seguintes dados,
de cima para baixo: “1”, “2”, “1”, “4”, “4” e “2”. Já na coluna "Produtos
comprados”, temos os seguintes dados, de cima para baixo: “Agasalho
esportivo”, “Calçado social”, “Barraca de camping”, “Bebidas”, “Carnes” e
“Roupa social”. Por sua vez, na coluna “Existe qualidade”, temos os
seguintes dados, de cima para baixo: “Não”, “Sim”, “Não”, “Sim”, “Sim” e
“Sim”. Na coluna “Renda familiar (salário mínimo)”, temos os seguintes
dados, de cima para baixo: “<=4”, “>=4”, “<=4”, “<4”, “<4” e “>=4”. Por fim,
19/11/22, 09:24 E-book
na coluna “Categoria”, temos os seguintes dados, de cima para baixo:

“B”, “A”, “B”, “C”, “C” e “A”.
Assim, a partir de um conjunto de dados de clientes (Tabela 2.2), é possível

obter o algoritmo não supervisionado e categorizar um novo cliente.
Tarefas de aprendizagem preditivas e

descritivas
O aprendizado de máquina tem sido amplamente utilizado em diversas
tarefas, que podem ser organizadas por meio de diferentes critérios. Um
deles é referente ao paradigma de aprendizado, o qual vai liderar a tarefa.
De acordo com os critérios de aprendizado de máquina, as tarefas podem ser

preditivas (tarefas supervisionadas) ou descritivas (tarefas não
supervisionadas).
●
Aprendizado preditivo:
As tarefas preditivas estão relacionadas à hipótese por

indução
, cujo objetivo
é encontrar uma função (modelo) que, a partir de dados de treinamento,
possa ser utilizada para prever um rótulo ou um valor que caracterize um
exemplo, com base nos valores de entrada. Os algoritmos seguem o
paradigma de aprendizado supervisionado.
O termo “supervisionado” vem da
simulação de um supervisor externo.
● Aprendizado descritivo
Nas tarefas de descrição, o objetivo é

explorar
ou
descrever
um conjunto de dados. Os
algoritmos da tarefa descritiva não utilizam o
atributo “saída”, por isso, seguem o paradigma
19/11/22, 09:24 E-book
de
aprendizado não supervisionado.
A Fonte: Clare Louise Jackson / 123RF.
finalidade é
encontrar
objetos
semelhantes
no
conjunto de dados ou
regras de associação
que
relacionam
um grupo de atributos a um outro
grupo de atributos.
O diagrama a seguir ilustra a hierarquia de aprendizado, de acordo com os

tipos de tarefas de aprendizado. No topo da hierarquia, está o aprendizado
indutivo, em que são realizadas as generalizações a partir dos dados. Na
sequência, estão os tipos de aprendizado: supervisionado (preditivo) e não
supervisionado (descritivo). Vamos analisar o diagrama para entender melhor
esse conceito:
19/11/22, 09:24 E-book
Figura 2.1 - Hierarquia de aprendizado
#PraCegoVer
: a figura mostra um diagrama hierárquico. No topo da hierarquia,
está o “Aprendizado induzido”, o qual está dividido em “Supervisionado ‘preditivo’”
e “Não supervisionado ‘descritivo’”. As tarefas supervisionadas estão divididas
em “Classificação” e “Regressão” (tipos de rótulos de dados). Já as tarefas não
supervisionadas estão divididas em “Agrupamento”, “Associação” e
“Sumarização”.
Podemos observar, na Figura 2.1, que o aprendizado indutivo é dividido em

tarefas supervisionadas e não supervisionadas.
Com relação às tarefas supervisionadas (tarefas preditivas), elas são

divididas em:
classificação
e
regressão
(tipos de rótulos de dados).
Classificação
: é denominada de predição discreta. Castro e Ferrari
(2016, p. 200) comentam que “a tarefa de classificação pode ser vista
como um caso particular de estimação, no qual a saída é discreta

(discretização). Assim, todos os algoritmos de estimação podem ser
usados na classificação, mas a recíproca não é verdadeira”.
19/11/22, 09:24 E-book
Regressão
: é denominada de predição contínua. Busca encontrar um
comportamento esperado, ou seja, como uma variável se comporta de

acordo com outras variáveis que sofrem variações.
Já o aprendizado não supervisionado (tarefas descritivas) é dividido em:
Agrupamento
: dados agrupados por similaridade. Também podemos
chamar de clusterização, em que o objetivo é encontrar similaridades

entre os objetos de um conjunto de dados, agrupando-os.
Associação
: a finalidade é encontrar padrões frequentes entre os
atributos de um conjunto de dados ou relações entre as variáveis;
elementos de causa e efeito.

Sumarização
: realiza a descoberta de descrição simples e compacta
para um conjunto de dados.
Aprendizado não
supervisionado:
cluster
19/11/22, 09:24 E-book
A clusterização é um tipo de técnica não supervisionada que reúne e organiza

os objetos em
cluster
ou em grupos com características ou propriedades em
comum. O agrupamento de dados também é chamado de
clusterização
e tem
o objetivo de
particionar
os registros ou as informações de uma base de
dados. Essa partição é chamada de
cluster
. O objetivo do agrupamento, ou
da clusterização, é identificar, automaticamente, os rótulos em uma base de
dados.
Segundo Castro e Ferrari (2016, p. 88), a ideia de análise de grupos, também

denominada
agrupamento de dados
ou
clusterização
, é algo já antigo e que
tem como objetivo a organização de coisas
similares em categorias.
É
utilizada para organizar grandes bases de dados (ou um conjunto de objetos)
para que sejam facilmente compreendidas ou pesquisadas.
19/11/22, 09:24 E-book
Figura 2.2 - Análise de grupos
#PraCegoVer
:a figura traz objetos geométricos, como círculos, quadrados e
triângulos, de forma desorganizada, à esquerda. Em seguida, à direita, temos os
objetos geométricos organizados em grupos.
A Figura 2.2 mostra como os objetos podem ser melhor compreendidos

quando
agrupados
e
organizados
de acordo com
similaridades
ou
características em comum
. Cada grupo possui características de
similaridade ou de distância. Essa visualização é chamada de
grupos
naturais.
Castro e Ferrari (2016, p. 88) comentam que “o agrupamento é uma técnica

comum em análise de dados, [...] utilizada em diversas áreas, incluindo
aprendizagem de máquina, mineração de dados, reconhecimento de padrões
e análise de imagens”. É importante compreender a diferença entre
classificação (ou análise descritiva) e agrupamento, assim, vejamos a seguir.
Diferença entre classificação e

agrupamento
19/11/22, 09:24 E-book
Na classificação, a base é rotulada:
Figura 2.3 - Análise de níveis de energia de A a G
Fonte: Kristijan Zontar / 123RF.
#PraCegoVer
: a figura apresenta os níveis de eficiência energética em uma
escala crescente, de A a G. Cada nível representa um agrupamento.
Na classificação (ou análise descritiva), cada objeto da base possui uma

classe correspondente.
Um exemplo é ilustrado na Figura 2.3, que apresenta
as classes de níveis de A a G, identificando uma correspondência a um
determinado produto. A tarefa dos algoritmos de classificação é
identificar
a
classe à qual pertence um novo objeto ainda não apresentado e com rótulo
desconhecido.
Um exemplo de base de dados para uma abordagem por classificação seriam

os dados de pacientes doentes e saudáveis, em que temos as seguintes
variáveis consideradas: peso, sexo e idade. Vejamos a tabela a seguir:
19/11/22, 09:24 E-book
Paciente Peso Sexo Idade
1 80 M 60
2 75 F 44
3 78 M 55
4 68 F 50
5 81 M 70
Tabela 2.3 - Conjunto de dados de pacientes
#PraCegoVer
: a tabela contém quatro colunas e cinco linhas. Da
esquerda para a direita, temos as seguintes colunas: “Paciente”, “Peso”,
“Sexo” e “Idade”. Na coluna “Paciente”, temos os seguintes dados, de
cima para baixo: “1”, “2”, “3”, “4” e “5”. Já na coluna “Peso”, temos os
seguintes dados, de cima para baixo: “80”, “75”, “78”, “68” e “81”. Por sua
vez, na coluna “Sexo”, temos os seguintes dados, de cima para baixo:
“M”, “F”, “M”, “F” e “M”. Na coluna “Idade”, por fim, temos os seguintes
dados, de cima para baixo: “60”, “44”, “55”, “50” e “70”.
Os atributos são critérios ou condicionais lógicas ou relacionais, como peso

<=60 ou >80, e sexo =M ou =F, que segmentam os dados heterogêneos, por
meio de similaridades, em dados mais homogêneos em relação à variável
alvo.
No agrupamento, a base é segmentada:
19/11/22, 09:24 E-book
Figura 2.4 - Peças de peões não rotuladas, dispostas em grupos que possuem
formas idênticas, mas cores diferentes
Fonte: Andriy Popov / 123RF.
#PraCegoVer
: a figura traz três grupos de peças de peões, com formas idênticas,
organizadas pelas cores verde, vermelho e azul.
No agrupamento, o objetivo é
segmentar
uma base de dados
não rotulada
em grupos que possuem algum
significado
. Ela não será
rotulada
ou
identificada
por uma classe, mas, sim,
agrupada
por
similaridades
,
dimensões
ou
características
.
O exemplo da Figura 2.4 mostra que cada grupo de peões possui um atributo
de similaridade: a cor. O atributo “tamanho” não poderá ser utilizado, pois
todos os peões têm o mesmo tamanho. As características do agrupamento
podem ser atributos diversos, como
cor
,
tamanho
ou
ação
. Assim, criam-se
grupos por similaridades. Os grupos devem ter os mesmos atributos, mas
com valores que os identificam especificamente em um agrupamento.
A seguir, temos a Tabela 2.4, com dados de períodos (meses) e de percentual

de vendas. Vamos analisá-la:
19/11/22, 09:24 E-book
Período (meses) % de vendas
1 5,1
2 2,2
3 2,1
4 2,3
5 2,1
6 2,2
7 3,4
8 4,9
9 5,8
10 3,2
11 3,1
12 3,3
Tabela 2.4 - Percentual de vendas em cada mês
#PraCegoVer
: a tabela contém duas colunas e 12 linhas. Da esquerda
para a direita, temos as seguintes colunas: “Período (meses)” e “% de
vendas”. A coluna “Período (meses)” apresenta os seguintes dados, de
cima para baixo: “1”, “2”, “3”, “4”, “5”, “6”, “7”, “8”, “9”, “10”, “11” e “12”. Já a
19/11/22, 09:24 E-book
coluna “% de vendas” apresenta os seguintes dados, de cima para baixo:

“5,1”, “2,2”, “2,1”, “2,3”, “2,1”, “2,2”, “3,4”, “4,9”, “5,8”, “3,2”, “3,1” e “3,3”.
Um possível gráfico da tabela de agrupamento é ilustrado na figura a seguir.

Uma maior concentração de vendas com percentuais baixos está localizada
entre os meses 2 e 6, e, após nova concentração, entre os meses 10 e 12. Já
entre esses períodos, há uma dispersão de percentuais altos de venda.
Figura 2.5 - Gráfico de clusterização ou agrupamento
#PraCegoVer
: a figura apresenta um gráfico de dispersão. No eixo “x”, estão os
períodos (meses), com os seguintes indicadores: “0”, “2”, “4”, “6”, “8”, “10”, “12” e
“14”. Já no eixo “y”, está o % de vendas, com os seguintes indicadores: “0”, “1”,
“2”, “3”, “4”, “5”, “6” e “7”. Os valores dispersos no gráfico, nos termos dos eixos
“x” e “y”, são: “1;5,1” - “2;2,2” - “3;2,1” - “4;2,3” - “5;2,1” - “6;2,2” - “7;3,4” - “8;4,9” -
“9;5,8” - “10;3,2” - “11;3,1” - “12;3,3”.
O gráfico de dispersão é utilizado para mostrar a relação, no máximo, entre

duas variáveis (correlações). Na Figura 2.5, vimos a relação entre os períodos
de venda e o percentual de venda de determinado produto. As conclusões do
19/11/22, 09:24 E-book
gráfico de dispersão são bem visíveis, principalmente por conta da

representação de concentrações ou agrupamentos, ou seja, estes
correspondem aos percentuais similares de vendas.
Para Castro e Ferrari (2016, p. 96), o processo de agrupamento de dados é

dividido em cinco etapas: (1) pré-processamento de dados; (2) definição das
medidas de similaridade; (3) execução dos métodos de agrupamento; (4)
representação dos grupos; e (5) avaliação do agrupamento.
Pré-processamento de dados:
‍
Consiste na preparação da base para a realização do agrupamento.
Etapas: limpeza, integração, redução, transformação e discretização.
Medidas de similaridade:
‍
A definição das medidas de similaridade é necessária para que o
método de agrupamento reúna os objetos similares e dissimilares

entre si. Normalmente, os métodos de agrupamento utilizam uma
medida de similaridade por meio de uma matriz de dados, que

representa os objetos associados aos seus atributos. Cada objeto
possui uma relação de similaridade e de dissimilaridade com outros

objetos, por meio de atributos específicos.
Métodos de agrupamento:
‍
Aqui, algoritmos computacionais específicos de agrupamento são
aplicados, como, por exemplo, k-medoides, fuzzy k-médias, árvore

geradora mínima e DBSCAN (Density Based Spatial Clustering of
Applications). Veremos, na sequência, quais são as características

desses algoritmos.
19/11/22, 09:24 E-book
‍
Representação dos grupos:
‍
São representações gráficas simples e compactas dos grupos. As
formas típicas são protótipos (representações concentradas tipo

centroides), estrutura do tipo grafo e subgrafo (conexões), estrutura
em árvore e rotulação (representação não explícita, numérica).

Avaliação do agrupamento:
‍
O agrupamento resultante de algoritmos, aplicado a um determinado
conjunto de dados, deve ser aferido por meio de indicadores. Os
critérios de avaliação podem ser do tipo (1) compactação, em que os

objetos de cada grupo devem estar o mais próximo possível uns dos
outros, ou (2) separação, em que os grupos devem estar o mais

distante possível uns dos outros.
REFLITA
No aprendizado por classificação, o objetivo é

identificar a classe à qual pertence um novo
objeto e de rótulo desconhecido. Já na
clusterização, o objetivo é segmentar uma base
de dados que não possui um rótulo em grupos
que possuem algum significado ou
características em comum. Diante disso, reflita:
em quais situações práticas devemos aplicar
tais abordagens?
19/11/22, 09:24 E-book
Veremos, a seguir, alguns algoritmos de agrupamento de dados mais

populares na mineração de dados, os quais partem de um conjunto inicial de
protótipos e de um processo iterativo de alocação de objetos a protótipos.
Algoritmos de agrupamento de dados

Algoritmo k-médias:
também chamado de
k-means
, segundo Castro e
Ferrari (2016), esse algoritmo toma como entrada um
parâmetro k,
correspondente ao número de grupos desejados, e
particiona
o conjunto de n
objetos em k grupos, de modo que a similaridade entre o conjunto de objetos
do grupo seja alta e que a similaridade entre os grupos seja baixa. Uma das
principais características desse algoritmo é
operar
por meio de uma
técnica
de
refinamento iterativo.
Segundo Goldschmidt, Passos e Bezerra (2015), o método

k-means
é um
método popular da tarefa de clusterização
, em que os objetos ou dados
numéricos são os centroides (elementos centrais) dos
clusters
(classes). A
sequência de passos da execução do algoritmo é descrita a seguir.
19/11/22, 09:24 E-book
Fonte: kjpargeter / Freepik.
#PraCegoVer
: o infográfico estático apresenta imagem de fundo e quatro abas,
sendo duas de um lado e duas do outro. A imagem é de cubos coloridos que
caem de cima até embaixo, formando uma pilha de quadrados coloridos. As abas
apresentam os respectivos conteúdos. 1ª aba: “Passo 1: Cada registro da base
de dados é atribuído ao cluster (uma classe)”. 2ª aba: “Passo 2: Calcular a menor
distância dos clusters, ou seja, a distância do ponto atribuído ao centroide é a
menor dentre todas as distâncias calculadas”. 3ª aba: “Passo 3: Um novo
centroide para cada cluster é atribuído pela média dos pontos do cluster, o que
pode promover um reposicionamento dos centroides e uma nova alocação dos
objetos (atualização dos clusters)”. 4ª aba: “Passo 4: O processo termina quando
os centroides do cluster param de se modificar”.
Algoritmo medoide:
segundo Castro e Ferrari (2016, p. 119), “pode ser
definido como um objeto com a menor dissimilaridade média a todos os
outros objetos, ou seja, é o objeto mais centralmente localizado no grupo”.
O objetivo do algoritmo é
encontrar o medoide
. Os objetos restantes são
clusterizados
(agrupados) ao medoide ao qual eles são mais
similares
.
Haverá uma troca interativa de um medoide e um não medoide para a
melhoria da clusterização.
19/11/22, 09:24 E-book
De acordo com Mariano

et al
. (2020, p. 278), o algoritmo
k-medoids
foi
proposto em 1987, por Kaufman e Rousseeuw. Um medoide pode ser definido
como o
ponto
no
cluster
em que as
dissimilaridades
com todos os outros
pontos desse
cluster
são
mínimas
.
A implementação do algoritmo é executada em quatro passos:
1
2
3
4
Se o custo total for maior que o da etapa anterior, deve-se desfazer a troca.
Algoritmo
fuzzy
k-médias:
segundo Castro e Ferrari (2016, p. 122), “é uma
extensão do algoritmo k-médias, na qual cada objeto possui um grau de
pertinência em relação aos grupos de base”. No algoritmo
fuzzy
k-médias, um
objeto pode
pertencer a mais de um grupo
, no entanto, com diversos graus
de pertinência.
Vejamos, agora, os passos do processo de clusterização por meio das

representações gráficas geradas pelo algoritmo do método por protótipos (k-
médias):
Inicialização das médias:
Na inicialização das médias, o elemento representante de cada

cluster
é a
média dos registros que pertencem ao
cluster
, conforme apresentado na
Figura 2.6:
19/11/22, 09:24 E-book
Figura 2.6 - Gráfico de clusterização gerado pelo algoritmo k-médias (médias

dos registros)
Fonte: Adaptada de Goldschmidt, Passos e Bezerra (2015).
#PraCegoVer:
a figura apresenta um gráfico de clusterização. Na parte superior, à
esquerda, há seis círculos, um deles destacado com o número “2”. Mais abaixo,
também à esquerda, há cinco círculos, um deles destacado com o número “1”.
Por fim, no canto direito, há cinco círculos, um deles destacado com o número
“3”. Os círculos em destaque, a saber, 1, 2 e 3, são as médias relacionadas a cada
cluster.
Atribuição dos rótulos:
Após a inicialização, todo o

cluster
é rotulado conforme o seu representante,
como apresentado na Figura 2.7, a seguir:
19/11/22, 09:24 E-book
Figura 2.7 - Gráfico de clusterização gerado pelo algoritmo k-médias (define o

representante dos clusters)
#PraCegoVer:
a figura apresenta um gráfico de clusterização. Na parte superior, à
esquerda, há seis círculos, um deles destacado com o número “2”, em azul; os
demais círculos estão destacados apenas com o número “2”, sem nenhuma cor
específica. Mais abaixo, ainda à esquerda, há cinco círculos, um deles destacado
com o número “1”, em azul; os demais círculos estão destacados apenas com o
número “1”, sem nenhuma cor específica. À direita, finalmente, há cinco círculos,
um deles destacado com o número “3”, em azul; os demais círculos estão
destacados apenas com o número “3”. Os círculos em destaque, a saber, 1, 2 e 3,
são os representantes de cada cluster.
Atualização das médias:
Após a rotulagem dos elementos, um novo centroide é atribuído para cada

cluster
, pela média dos seus pontos, conforme ilustrado na Figura 2.8:
19/11/22, 09:24 E-book
Figura 2.8 - Gráfico de clusterização gerado pelo algoritmo k-médias

(representante dos clusters)
#PraCegoVer:
a figura apresenta um gráfico de clusterização. Os círculos em
destaque são os novos representantes de cada
cluster
, obtidos pela média dos
seus pontos. Na parte superior, à esquerda, há seis círculos, um deles (em azul)
marcado com uma cruz em destaque, além de uma seta apontando para um
círculo preto (centroide); os demais círculos estão destacados apenas com o
número “2”. Mais abaixo, também à esquerda, há cinco círculos, um deles (em
azul) marcado com uma cruz em destaque, além de uma seta apontando para um
círculo preto (centroide); os demais círculos estão destacados apenas com o
número “1”. Por fim, à direita, há cinco círculos, um deles (em azul) marcado com
uma cruz em destaque, além de uma seta apontando para um círculo preto
(centroide).
Além dos algoritmos baseados em protótipos, outros métodos “

cauterizam
”
valores de maneira diferente; um deles é o método baseado no
particionamento
(método particional). Ele se baseia na
teoria dos grafos
,
especificamente, de árvores geradoras mínimas (MST – Minimum Spanning
Tree). Esse método não requer a
definição de protótipos
e não
impõe
uma
19/11/22, 09:24 E-book
forma aos grupos. Tal abordagem define os membros de cada grupo e

determina, automaticamente, o número de grupos (CASTRO; FERRARI, 2016).
Vimos, neste tópico, que o processo de agrupamento (ou clusterização) é um

processo de mineração de dados por meio do qual se encontram os rótulos
das classes dispersas ou concentradas. Ele é diferente da análise discreta,
em que se utiliza a distribuição de frequência para classificar os objetos.
Linguagem R
Para a execução da implementação dos algoritmos de mineração, a
linguagem de programação R é o
ambiente ideal
. Segundo Silva, Peres e
Boscarioli (2016, p. 221), trata-se de “um ambiente para desenvolvimento de
ferramentas computacionais que envolvam conceitos de estatísticas e
apresentação de resultados na forma de gráficos”.
SAIBA MAIS
Para fazer o
download
gratuito da linguagem R
para as várias plataformas, acesse o
site
“The R
Project for Statistical Computing” e escolha a
opção que deseja baixar. Como sugestão direta
de
download
para a versão Windows 4.0.5,
acesse.
‍
ACESSAR
19/11/22, 09:24 E-book
Operações em R:
os códigos da linguagem R podem ser executados por
linhas de comando
, por meio de um terminal identificado pelo curso “>” e de
um comando da linguagem R. Um exemplo seria a operação de soma a
seguir:
> 1+4+3
[1] 8
A Figura 2.9 ilustra a interface e a linha de comando da linguagem R, com a operação de

soma:
19/11/22, 09:24 E-book
Figura 2.9 - Interface e

prompt
de comando da linguagem R (operação de
soma)
#PraCegoVer:
a figura apresenta a interface da linguagem R, com os seguintes
comandos presentes no menu, da esquerda para a direita, respectivamente:
“Arquivo”, “Editar”, “Visualizar”, “Misc”, “Pacotes”, “Janelas” e “Ajuda”. Ainda, a
figura apresenta ícones e informações sobre a versão da linguagem R: versão
4.0.5 (2021-03-31) e direitos de
copyright
e licença. Após isso, apresenta o
comando de prompt “>” e a operação “1+4+3” e, na próxima linha, indicada por [1],
o resultado “8”.
O sinal [1] indica o resultado da operação anterior em uma linha.
Funções em R:
no caso de funções matemáticas, o exemplo a seguir ilustra a
função raiz quadrada. O sinal ‘#’ indica um comentário:
>#raiz quadrada
>sqrt (4)
[1]
19/11/22, 09:24 E-book
Atribuição e tipos de dados em R:

na linguagem R, para proceder à atribuição
de dados em variáveis, é utilizado o sinal de atribuição ‘<-’, seguido do valor;
nas versões atuais, é possível atribuir o sinal de ‘=’. Não é necessário definir o
tipo de dado, porém, em alguns momentos, é necessário realizar a consulta
do tipo. Para tanto, é preciso utilizar a função
class
(). Um exemplo de
atribuição e de consulta do tipo de dado pode ser visualizado na Figura 2.10,
em que “x” recebe o valor decimal 2.14. A função class (x) informa que o tipo
de dado é numérico.
Figura 2.10 - Interface e prompt de comando da linguagem R (uso da função

class())
#PraCegoVer:
“Arquivo”, “Editar”, “Visualizar”, “Misc”, “Pacotes”, “Janelas” e “Ajuda”. Ainda,
apresenta os ícones e a linha de comando ‘>’, com atribuição de valor.
Leitura de dados externos:

em um primeiro momento, é necessário que os
dados estejam dispostos em linhas e colunas, por exemplo, de uma planilha
eletrônica e convertidos em formato ‘csv’. Contudo, os dados da tabela, a
serem lidos pelo código em linguagem R, devem estar no
formato decimal
19/11/22, 09:24 E-book
(uso do ponto decimal), ASCII e separados por ponto e vírgula [;]. Vejamos o
exemplo:
1;0.7;0.9
2;0.7;0.8
3;0.8;0.2
4;0.6;0.9
5;0.9;0.4
Para realizar a importação de dados para uma variável, é necessário fazer a

carga de um pacote
denominado
stats
(estatística). Selecione a opção
‘pacotes/carregar pacote/stats’, conforme mostrado na Figura 2.11:
19/11/22, 09:24 E-book
Figura 2.11 - Interface e prompt de comando da linguagem R (carga do pacote

‘stats’)
#PraCegoVer:
“Arquivo”, “Editar”, “Visualizar”, “Misc”, “Pacotes”, “Janelas” e “Ajuda”. Ainda,
apresenta os ícones e, após selecionada a opção ‘pacotes/carregar pacote/stats’,
a linha de comando ‘>’ e o código de carga do pacote ‘stats’.
Em um segundo momento, deve-se utilizar a função

read.table
(“
C:\\Local do
arquivo de dados\\nome_da_tabela.csv”, header=FALSE/TRUE, sep=”;”
), em
que o primeiro argumento é o local de arquivo de dados, separado por aspas
(“”).
O segundo argumento verifica se a tabela importada possui ou não um

cabeçalho
. Já o terceiro argumento está relacionado ao
separador
dos
campos da tabela de dados, nesse caso, (“;” – ponto e vírgula), contendo
linhas
e
colunas
. A função do
read.table
é realizar uma leitura de uma tabela
de dados ou
data.frame
, no formato ‘txt’, para uma variável ou um objeto na
linguagem R.
19/11/22, 09:24 E-book
A Figura 2.12 ilustra o código de importação de dados no console da

linguagem R. Por meio da função
class()
, é possível identificar que a variável
‘atendimento’ é do tipo
data.frame.
Figura 2.12 - Interface e prompt de comando da linguagem R – leitura do

arquivo de dados (tabela nome_da_tabela.csv) e verificação do tipo de dados
da variável ‘dados’
#PraCegoVer:
“Arquivo”, “Editar”, “Visualizar”, “Misc”, “Pacotes”, “Janelas” e “Ajuda”. Está
digitado, na linha de comando da interface, o código de leitura do arquivo
‘c:\\Users\\jacks\\nome_da_tabela.csv’, por meio da função
read.table
. A tabela
é atribuída para a variável ‘dados’. O tipo de dado é visualizado no console como
data.frame.
O passo seguinte é atribuir o resultado da função

kmeans
para uma variável
‘resultado’: resultado <- kmeans(dados,2,iter.max=5). Vejamos a Figura 2.13:
19/11/22, 09:24 E-book
Figura 2.13 - Interface e prompt de comando da linguagem R – leitura do

arquivo de dados (tabela nome_da_tabela.csv) e execução da função kmeans
#PraCegoVer:
“Arquivo”, “Editar”, “Visualizar”, “Misc”, “Pacotes”, “Janelas” e “Ajuda”. Está
digitado, na linha de comando da interface, o código de leitura do arquivo
‘c:\\Users\\jacks\\nome_da_tabela.csv’, por meio da função read.table. A tabela é
atribuída para a variável ‘dados’.
Para visualizar o resultado do algoritmo, é necessário digitar a variável

‘resultado’, que recebeu os valores da função
kmeans
, e, após, aplicar um
<enter>. Observe que o algoritmo informa como resultado o número de
clusters
formado, no caso, dois
clusters
de tamanhos 3 e 2 (número de
exemplares associados a cada grupo).
Na sequência, tem-se a apresentação dos centroides finais, na forma de uma

matriz de médias dos exemplares associados a cada grupo. Logo depois,
tem-se o índice do grupo ao qual cada exemplar foi associado. Em nosso
exemplo, o primeiro e segundo exemplares pertencem ao grupo 2, e o
terceiro, quarto e quinto exemplares pertencem ao grupo 1.
19/11/22, 09:24 E-book
praticar
Vamos Praticar
Implementação do algoritmo k-médias
A linguagem R possui funções específicas para a aplicação do algoritmo k-

médias, que trata do particionamento de um conjunto de dados referentes,
por exemplo, a avaliações de pacientes acerca do atendimento de uma
unidade de saúde. Nesse sentido, é considerado o tempo para efetuar o
atendimento, além da nota atribuída a ele.
Uma possível tabela normalizada dos dados para a aplicação do algoritmo k-

médias pode ser visualizada a seguir, relativa à eficiência do atendimento.
Por meio do uso da linguagem R e da função

kmeans
do pacote ‘stats’,
construa uma matriz de similaridade, com dois grupos a serem descobertos
e com um máximo de cinco iterações. Para tanto, analise a tabela a seguir:
19/11/22, 09:24 E-book
Número do
Tempo (horas) Nota
atendimento
1 0,30 0,57
2 0,50 1,00
3 1,00 0,50
4 0,50 1,00
5 1,00 0,85
6 1,00 1,0
7 0,9 1,0
Tabela 2.5 - Eficiência do atendimento ao paciente, por tempo e nota atribuída

ao atendimento
#PraCegoVer:
a tabela contém três colunas e sete linhas. Da esquerda
para a direita, temos as seguintes colunas, respectivamente: “Número do
atendimento”, “Tempo (horas)” e “Nota”. Na coluna “Número do
atendimento”, temos os seguintes dados, de cima para baixo: “1”, “2”, “3”,
“4”, “5”, “6” e “7”. Já na coluna “Tempo (horas)”, temos os seguintes
dados, de cima para baixo: “0,30”, “0,50”, “1,00”, “0,50”, “1,00”, “1,00” e
“0,9”. Por fim, na coluna “Nota”, temos os seguintes dados, de cima para
baixo: “0,57”, “1,00”, “0,50”, “1,00”, “0,85”, “1,0” e “1,0”.
Lembrando que:
19/11/22, 09:24 E-book
O primeiro passo
é criar uma tabela em uma planilha eletrônica,
salvando-a em formato CSV, para que a linguagem R possa importar
os dados da eficiência no atendimento.
O segundo passo
é importar os dados numéricos, por meio de
codificação em linguagem R, para serem submetidos ao processo de

agrupamento.
O terceiro passo
é aplicar à função
kmeans
a codificação da
linguagem R.
Apresente o resultado da variável ‘resultado’, gerado pela linguagem R por

meio da função
kmeans
. Depois, faça uma análise dos resultados do
algoritmo de clusterização.
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
A análise de grupos, também conhecida como agrupamento ou

clusterização, é utilizada para organizar grandes bases de dados ou um
conjunto de objetos em subconjuntos ou grupos (
clusters
), para que sejam
facilmente compreendidos ou pesquisados. O agrupamento pode ser
interpretado como um problema de otimização, diferentemente da
classificação, em que os registros estão associados a rótulos predefinidos.
19/11/22, 09:24 E-book
No agrupamento, os objetos são considerados como entrada e não

possuem rótulos associados.
GOLDSCHMIDT, R.; PASSOS, E.; BEZERRA, E.

Data Mining
: conceitos,
técnicas, algoritmos e aplicações. 2. ed. Rio de Janeiro: Elsevier, 2015.
(Biblioteca ).
Diante dessas informações, é possível afirmar que a análise de grupos está

relacionada à:
a)
Amplitude dos elementos.
b)
Geometria dos elementos.
c)
Similaridade dos elementos.
d)
Distribuição de frequências.
e)
Repetição dos elementos.
Aprendizado não
supervisionado:
Análise de
19/11/22, 09:24 E-book
Componentes
Principais
Você sabia que, na etapa de integração de dados, um dos problemas que

deve ser trabalhado é a redundância de dados? Esse problema ocorre,
principalmente, devido a três fatores:
uso de nomenclaturas diferentes
para
atributos equivalentes, mas provenientes de diferentes fontes de dados;
prática de
armazenar atributos do tipo derivado
(cujos valores são previstos
a partir de valores de outros atributos); e
adição de exemplares repetidos no
conjunto de dados
, decorrente de um erro de obtenção de dados. Nesses
casos, é interessante fazer a redução do conjunto (SILVA; PERES;
BOSCARIOLI, 2016).
Portanto, dentro de um processo KDD, na fase

de pré-processamento e de tarefas de seleção e
redução de dados, pode ser feita a análise de
componentes principais (PCA – Principal
Component Analysis), “também chamada
Karhunen-Loève ou Método K-L, é uma técnica
de redução de dados vertical que utiliza
conceitos da álgebra linear, mais
especificamente, os conceitos de autovetores e
autovalores de uma matriz” (GOLDSCHMIDT;
PASSOS; BEZERRA, 2015, p. 35).
Fonte: vectorjuice / Freepik.
19/11/22, 09:24 E-book
Podemos relacionar as principais características da técnica de análise de

componentes principais:
técnica estatística de baixo custo computacional;
pode ser aplicada a qualquer conjunto de dados numéricos, com mais
de duas dimensões;
identificação de padrões ocultos de dados;
reduz a dimensionalidade por meio da redução da redundância de
dados;
realiza uma correlação entre as variáveis.
Para exemplificarmos o método PCA, utilizaremos a seguinte base de dados

multivariada para resolução pelo algoritmo na linguagem R, transformando
esses dados em variáveis numéricas iguais ou inferiores à amostra inicial
(PCA).
Esta base corresponde a dados de variáveis químicas de sedimento

amostradas em 24 locais:
N P K Ca Mg S Al Fe Mn Zn Mo

pH Cd
19.8 42.1 139.9 519.4 90.0 32.3 39.0 40.9 58.1 4.5
0.30 2.7 2.2
13.4 39.1 167.3 356.7 70.7 35.2 88.1 39.0 52.4 5.4
0.30 2.8 2.2
20.2 67.7 207.1 973.3 209.1 58.1 138.0 35.4 32.1 16.8
0.80 3.0 2.0
20.6 60.8 233.7 834.0 127.2 40.7 15.4 4.4 132.0 10.7
0.20 2.8 2.9
19/11/22, 09:24 E-book
23.8 54.5 180.6 777.0 125.8 39.5 24.2 3.0 50.1 6.6
0.30 2.7 3.0
22.8 40.9 171.4 691.8 151.4 40.8 104.8 17.6 43.6 9.1
0.40 2.7 3.8
26.6 36.7 171.4 738.6 94.9 33.8 20.7 2.5 77.6 7.4
0.30 2.8 2.8
24.2 31.0 138.2 394.6 45.3 27.1 74.2 9.8 24.4 5.2
0.30 2.8 2.0
29.8 73.5 260.0 748.6 105.3 42.5 17.9 2.4 106.6 9.3
0.30 2.8 3.0
28.1 40.5 313.8 540.7 118.9 60.2 329.7 109.9 61.7 9.1
0.50 2.8 2.2
21.8 38.1 146.8 512.2 75.0 36.6 92.3 4.6 29.0 8.1
0.50 2.7 2.7
26.2 61.9 202.2 741.2 86.3 48.6 124.3 23.6 94.5 10.2
0.60 2.9 2.5
22.8 50.6 151.7 648.0 64.8 30.2 12.1 2.3 122.9 8.1
0.20 2.9 2.6
30.5 24.6 78.7 188.5 55.5 25.3 294.9 123.8 10.1 3.0
0.40 3.1 1.7
33.1 22.7 43.6 240.3 25.7 14.9 39.0 8.4 26.8 8.4
0.20 3.1 1.0
19.1 26.4 61.1 259.1 37.0 21.4 155.1 81.4 20.6 4.0
0.60 3.0 1.9
31.1 32.3 73.7 219.0 52.5 25.5 304.6 204.4 14.2 2.6
0.50 3.3 1.8
19/11/22, 09:24 E-book
18.0 64.9 224.5 517.6 59.7 52.9 435.1 101.2 38.0 9.5
1.10 2.9 1.8
22.3 47.4 165.9 436.1 64.3 42.3 316.5 200.1 28.2 7.2
0.30 2.9 1.5
15.0 48.4 127.4 499.6 75.1 46.9 227.1 32.2 35.1 8.9
0.70 3.0 2.2
16.0 32.7 126.4 471.4 61.3 31.1 108.8 9.5 26.4 6.0
0.40 2.9 2.2
14.3 62.8 215.2 709.7 102.5 48.6 168.2 32.0 46.9 8.7
0.05 3.2 1.2
16.7 55.8 205.3 1169.7 126.3 35.9 253.6 96.4 25.1 8.2
0.05 3.6 1.1
21.0 26.5 104.4 484.8 74.4 22.2 35.8 5.9 27.5 5.3
0.20 3.0 2.5
Assim, esses dados de elementos químicos, de variáveis multivariadas, estão

armazenados em um arquivo sedimento.txt.
Primeiro passo:
verificar a existência do pacote vegan (Community Ecology
Package) e atualizar; caso não tenha, é preciso instalá-lo, conforme Figura
2.14. No menu do console, acesse a opção ‘Pacotes/Instalar pacotes’ e, logo
depois, selecione o pacote vegan:
19/11/22, 09:24 E-book
Figura 2.14 - Interface e prompt de comando da linguagem R (instalação do

pacote vegan)
#PraCegoVer:
a figura apresenta a interface da linguagem R, com a caixa de
instalação de pacotes. Na caixa de pacotes, mostra-se o pacote vegan
selecionado.
Segundo passo:
realizar a leitura da base de dados sedimento.txt, por meio
da função
read.table
, no console da linguagem R:
> dados <-

read.table("C:\\Users\\jacks\\sedimento.txt",header=T)
Terceiro passo:
carregar a biblioteca vegan por meio do comando
library
(nome), em que o ‘nome’ é o nome do pacote: >
library
(vegan), como ilustra a
Figura 2.15.
19/11/22, 09:24 E-book
Figura 2.15 - Interface e prompt de comando da linguagem R (carregamento do

pacote vegan)
#PraCegoVer:
a figura apresenta a interface da linguagem R, com informações de
carregamento de pacotes exigidos pelo
vegan
.
Quarto passo:
construir o PCA, aplicando a função
prcomp
(dados) (PCA de
covariância), conforme Figura 2.16, a seguir.. A função prcomp é atribuída no
objeto resultado:
resultado<-prcomp
(dados)
19/11/22, 09:24 E-book
Figura 2.16 - Interface e prompt de comando da linguagem R (execução da

função PCA covariante)
#PraCegoVer:
a figura apresenta a interface da linguagem R, com informações de
execução da função
prcomp
(dados). Ainda, mostra os autovalores e autovetores
na matriz de covariância.
O resultado da função de análise de componentes principais,

prcomp
(dados),
é ilustrado pela Figura 2.16, que apresenta os desvios dos componentes
principais ‘Standard deviations (1, .., p=13)’, que são os autovalores. Após
isso, são apresentados os autovetores (PC1,...PC13), sendo que cada
autovetor está associado a um autovalor, a saber, um número real que
expressa a variância dos dados na direção do autovetor correspondente:
quanto maior a variância, maior o autovalor correspondente.
Quinto passo:
para fazer a plotagem dos resultados, é necessário utilizar a
função
biplot
(resultados), conforme Figura 2.17, a seguir:
19/11/22, 09:24 E-book
Figura 2.17 - Interface e prompt de comando da linguagem R – execução da

função biplot(resultados)
#PraCegoVer:
: a figura apresenta a interface da linguagem R, com o gráfico dos
resultados da função PCA.
Podemos observar, na Figura 2.17, o conjunto de dados gerados pela função

biplot
(resultados), correspondente à projeção do conjunto de dados originais
sobre o espaço relativo aos
dois maiores componentes principais
, PC1 e
PC2. A análise de componentes principais descobre quais elementos são
mais similares, com base em seus atributos; em nosso exemplo, os
elementos químicos do sedimento.
O PCA faz com que uma representação multidimensional se torne

viável
por
um espaço bidimensional (os dois principais componentes), tornando visíveis
as similaridades entre os dados. Para Mariano et al. (2020, p. 82), a análise de
componentes principais permite a
detecção
de
padrões imperceptíveis
à
visão humana. Por isso, tem sido bastante utilizada em vários campos, como,
por exemplo, na observação de movimentação de moléculas em simulações
computacionais usadas na produção de fármacos.
19/11/22, 09:24 E-book
praticar
Vamos Praticar
Implementação do algoritmo de análise de componentes principais
A linguagem R possui funções específicas para a aplicação do algoritmo de

componentes principais, como, por exemplo, a função
prcomp
(dados), com
objetivo de reduzir a dimensionalidade, por meio da redução da
redundância de dados.
Vamos aproveitar os dados anteriores, relacionados a avaliações de

pacientes acerca do atendimento de uma unidade de saúde. Nesse sentido,
é considerado o tempo para efetuar o atendimento, além da nota atribuída
a ele.
Assim, vejamos uma possível tabela normalizada dos dados, a seguir:
19/11/22, 09:24 E-book
Número do
Tempo (horas) Nota
atendimento
1 0,30 0,57
2 0,50 1,00
3 1,00 0,50
4 0,50 1,00
5 1,00 0,85
6 1,00 1,0
7 0,9 1,0
Tabela 2.6 - Eficiência no atendimento
#PraCegoVer:
a tabela contém três colunas e sete linhas. Da esquerda
para a direita, temos as seguintes colunas, respectivamente: “Número do
atendimento”, “Tempo (horas)” e “Nota”. Na coluna “Número do
atendimento”, temos os seguintes dados, de cima para baixo: “1”, “2”, “3”,
“4”, “5”, “6” e “7”. Já na coluna “Tempo (horas)”, temos os seguintes
dados, de cima para baixo: “0,30”, “0,50”, “1,00”, “0,50”, “1,00”, “1,00” e
“0,9”. Por fim, na coluna “Nota”, temos os seguintes dados, de cima para
baixo: “0,57”, “1,00”, “0,50”, “1,00”, “0,85”, “1,0” e “1,0”.
Agora, por meio do uso da linguagem R e da função

prcomp
(dados) do
pacote vegan, gere os autovalores e os autovetores, e plote o gráfico da
19/11/22, 09:24 E-book
função PCA, mostrando a redução da redundância de dados e identificando

os principais componentes do conjunto de dados.
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
O PCA é um método estatístico para redução de dimensionalidade que

detecta os componentes que representam as maiores variabilidades nos
dados, denominados componentes principais. Assim, o conceito básico do
método de análise de componentes principais envolve a projeção dos dados
em um(a):
MARIANO, D. C. B.
et al.
Data Mining
. Porto Alegre: SAGAH, 2020.
a)
Espaço multidimensional ampliado.
b)
Espaço dimensional reduzido.
c)
Matriz tridimensional variável.
d)
Vetor comprimido de uma dimensão.
e)
Vetor multidimensional.
19/11/22, 09:24 E-book
Material
Complementar
FILME
Chappie: um robô consciente

Ano:
2015
‍
Comentário:
O filme mostra a aplicação da inteligência
artificial em um robô pensante, denominado Chappie. A
história apresenta uma evolução em aprendizagem de
máquina que impressiona e, ao mesmo tempo, preocupa
alguns que são contra a evolução das máquinas
inteligentes.
TRAILER
19/11/22, 09:24 E-book
LIVRO
Data Mining: conceitos, técnicas,

algoritmos e aplicações
Ronaldo Goldschmidt, Emmanuel Passos e Eduardo
Bezerra
Editora:
Elsevier
Ano:
2015
ISBN:
978-85-352-7822-4
Comentário:
Esse livro é uma obra completa e detalhada
sobre a mineração de dados e suas técnicas, orientações,
aplicações e algoritmos. Faça a leitura do tópico 4.2.8, que
aborda a clusterização/agrupamento. Por meio dessa
leitura, você vai complementar os seus conhecimentos
sobre a temática.
LIVRO
Introdução à mineração de dados: com

aplicações em R
Leandro Augusto da Silva, Sarajane Marques Peres e
Clodis Boscarioli
Editora:
Elsevier
Ano:
2016
ISBN:
978-85-352-8446-1
Comentário:
Faça a leitura do apêndice, “Iniciando em R”
(p. 220-250), o qual aborda a linguagem R e os seguintes
assuntos: pacotes, variáveis, funções matemáticas, tipos
19/11/22, 09:24 E-book
de dados, vetores, listas, matrizes,

arrays
, importação de
dados de arquivos e gráficos.
GOLDSCHMIDT, R.; PASSOS, E.; BEZERRA, E.

Data Mining
:
conceitos, técnicas, algoritmos e aplicações. 2. ed. Rio de
Janeiro: Elsevier, 2015. (Biblioteca ).
19/11/22, 09:24 E-book
Conclusão
Caro(a) aluno(a), chegamos ao fim do nosso estudo! Como vimos, podemos
concluir que, para guiar o processo de mineração de dados, são necessárias uma
abordagem de aprendizagem supervisionada
(utilizada em modelos preditivos) e
uma abordagem de aprendizagem não supervisionada
(utilizada em modelos
descritivos).
Além disso, estudamos o conceito e a aplicação prática do modelo de

clusterização (ou agrupamento) e, também, do modelo de análise de componentes
principais, utilizando ferramentas de linguagem de programação R.
Este conteúdo foi produzido de forma a explorar vários temas e fornecer múltiplas
possibilidades conceituais. Assim, esperamos que você tenha gostado! Até a
próxima!
Referências
GOLDSCHMIDT, R.; PASSOS, E.;
BEZERRA, E.
Data Mining
: conceitos,
técnicas, algoritmos e aplicações. 2. ed.
19/11/22, 09:24 E-book
Rio de Janeiro: Elsevier, 2015.

(Biblioteca ).
GOLDSCHMIDT, R.; PASSOS, E.;

BEZERRA, E.
Data Mining
: conceitos,
técnicas, algoritmos e aplicações. 2. ed.
Rio de Janeiro: Elsevier, 2015.
(Biblioteca ).
MARIANO, D. C. B.
et al
.
Data Mining.
Porto Alegre: SAGAH, 2020.
SILVA, L. A. da.; PERES, S. M.; BOSCARIOLI, C.

Introdução à mineração de dados
:
com aplicações em R. Rio de Janeiro: Elsevier, 2016.
19/11/22, 09:24 E-book
19/11/22, 09:24 E-book
19/11/22, 09:24 E-book

Unidade 2

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Unidade 2

Enviado por

Direitos autorais:

Formatos disponíveis

19/11/22, 09:24 E-book

Revisor: Rodrigo Ramos Nogueira

Tempo de leitura do conteúdo estimado 1 hora e 40 minutos.

E quando devemos utilizar o aprendizado supervisionado ou o não

Para compreendermos os conceitos de aprendizado supervisionado e de

A mineração de dados é constituída por diversas atividades de

Essas atividades, também chamadas de tarefas, têm início com a

Tarefas de predição discreta e de

Sempre que houver um conjunto de objetos que possam ser

Um exemplo de predição discreta e de predição contínua é dado a seguir, de

concessão corresponde ao perfil

Tanto a predição discreta quanto a predição contínua possuem o mesmo

À tarefa de predizer um valor contínuo de uma variável dá-se o

Vejamos, a seguir, os conceitos e os paradigmas relacionados à

Castro e Ferrari (2016, p. 16) apresentam uma definição de paradigma de

[...] um procedimento bem definido para treinar uma técnica de

Para obtermos um melhor conhecimento sobre a aprendizagem de máquina e

É baseado em um conjunto de objetos para os

Fonte: igorr / 123RF.

Um exemplo numérico de aprendizado supervisionado é dado pela Tabela 2.1,

Polegadas cúbicas (dimensão do

Tabela 2.1 - Quilômetros por litro x Polegadas cúbicas (dimensão do motor)

Fonte: Elaborada pelo autor (2021).

Um comportamento esperado é que, à medida que diminui a dimensão do

por meio de uma técnica de aprendizagem supervisionada, por exemplo, a

● Aprendizado não supervisionado

É baseado, apenas, em objetos cujos rótulos

Fonte: eugene78 / 123RF.

O sistema aprenderá a classificar os tipos de garrafas pelos seus atributos

Um exemplo numérico de aprendizado não supervisionado pode ser a

Nesse sentido, em um conjunto de dados, a busca não supervisionada pode

2 Calçado social Sim >=4 A

4 Bebidas Sim <4 C

4 Carnes Sim <4 C

2 Roupa social Sim >=4 A

Tabela 2.2 - Perfil de compras

Fonte: Elaborada pelo autor.

na coluna “Categoria”, temos os seguintes dados, de cima para baixo:

Assim, a partir de um conjunto de dados de clientes (Tabela 2.2), é possível

Tarefas de aprendizagem preditivas e

De acordo com os critérios de aprendizado de máquina, as tarefas podem ser

As tarefas preditivas estão relacionadas à hipótese por

Nas tarefas de descrição, o objetivo é

O diagrama a seguir ilustra a hierarquia de aprendizado, de acordo com os

Figura 2.1 - Hierarquia de aprendizado

Fonte: Elaborada pelo autor.

Podemos observar, na Figura 2.1, que o aprendizado indutivo é dividido em

Com relação às tarefas supervisionadas (tarefas preditivas), elas são

como um caso particular de estimação, no qual a saída é discreta

usados na classificação, mas a recíproca não é verdadeira”.

comportamento esperado, ou seja, como uma variável se comporta de

Já o aprendizado não supervisionado (tarefas descritivas) é dividido em:

chamar de clusterização, em que o objetivo é encontrar similaridades

elementos de causa e efeito.

para um conjunto de dados.

A clusterização é um tipo de técnica não supervisionada que reúne e organiza

Segundo Castro e Ferrari (2016, p. 88), a ideia de análise de grupos, também

Figura 2.2 - Análise de grupos

Fonte: Elaborada pelo autor.

A Figura 2.2 mostra como os objetos podem ser melhor compreendidos

Castro e Ferrari (2016, p. 88) comentam que “o agrupamento é uma técnica

Diferença entre classificação e

Na classificação, a base é rotulada:

Figura 2.3 - Análise de níveis de energia de A a G