Você está na página 1de 60

19/11/22, 09:24 E-book

MACHINE LEARNING
PROCESSO DE APRENDIZADO
SUPERVISIONADO E NÃO
SUPERVISIONADO
Autor: Me. Jackson Luis Schirigatti

Revisor: Rodrigo Ramos Nogueira

Tempo de leitura do conteúdo estimado 1 hora e 40 minutos.

https://ambienteacademico.com.br/course/view.php?id=18504 1/60
19/11/22, 09:24 E-book

Introdução
Olá, aluno(a)! Seja bem-vindo(a)! Nesta unidade, vamos compreender que, em
um processo de mineração de dados, são utilizados, amplamente,
procedimentos que
conduzam
a uma
aprendizagem
voltada a resultados
esperados
e
não esperados
, tais como o aprendizado supervisionado e o não
supervisionado.

E quando devemos utilizar o aprendizado supervisionado ou o não


supervisionado?
Essa pergunta será respondida ao longo deste estudo,
devidamente direcionado para o entendimento acerca das tarefas preditivas e
contínuas, do aprendizado não supervisionado por clusterização e por análise
de componentes principais, bem como da linguagem R.

Boa leitura!

Aprendizado
Supervisionado e
https://ambienteacademico.com.br/course/view.php?id=18504 2/60
19/11/22, 09:24 E-book

Aprendizado não
Supervisionado

Para compreendermos os conceitos de aprendizado supervisionado e de


aprendizado não supervisionado, veremos algumas
tarefas ou
funcionalidades
da mineração de dados.

A mineração de dados é constituída por diversas atividades de


análise
e de
descoberta
do conhecimento, em uma base de dados
estruturada
,
não
estruturada
ou
semiestruturada
, de forma pré-processada.

Essas atividades, também chamadas de tarefas, têm início com a


preparação
da base
e a
análise descritiva
(área de pesquisa de dados – busca de fatos
relevantes, por meio de uma abordagem visual). Após isso, são realizadas
diversas outras funcionalidades, como a análise de grupos (
clustering
), a
classificação (predição discreta) e a estimação (predição contínua).

Tarefas de predição discreta e de


predição contínua
Nas funções de aprendizagem de máquina, é aplicado um
modelo
para
analisar
a classe de um
objeto
sem rótulo ou estimar um
valor
de uma ou
mais
características
dos dados do objeto. Segundo Castro e Ferrari (2016, p.
156), o uso de modelos preditivos é muito
intenso
na
automação
de
processos de tomadas de decisões, por exemplo, classificação de objetos,
controle de qualidade de processos etc.

https://ambienteacademico.com.br/course/view.php?id=18504 3/60
19/11/22, 09:24 E-book

Sempre que houver um conjunto de objetos que possam ser


rotulados
(como
na análise descritiva ou na clusterização) e utilizados para
treinar
um modelo
de forma supervisionada, será possível
projetar
um
modelo preditivo
.

Um exemplo de predição discreta e de predição contínua é dado a seguir, de


acordo com Castro e Ferrari (2016).

Predição discreta
(classificação)
Um exemplo prático do uso da
predição discreta (ou
classificação) é o caso de uma
financeira de cartão de crédito
Fonte: Oleksandr Rybitskyi / 123RF. que poderá realizar ou não a
concessão de crédito
. Essa
tarefa se dá por meio de
árvores
de
decisão
ou por regras de
classificação.

Predição contínua
(estimação)
Um exemplo prático do uso da
predição contínua (ou
estimação) pode ser visualizado
quando determinada financeira
Fonte: Dmitrii Shironosov / 123RF. de cartão de crédito vai efetuar a
concessão de crédito e precisa
conhecer o limite que será
atribuído. O valor dessa

https://ambienteacademico.com.br/course/view.php?id=18504 4/60
19/11/22, 09:24 E-book

concessão corresponde ao perfil


do solicitante. Essa tarefa de
análise de perfil por estimação é
feita por meio de
algoritmos de
redes neurais artificiais
.

Tanto a predição discreta quanto a predição contínua possuem o mesmo


objetivo:
encontrar
um
modelo
de
predição satisfatório
que vai demonstrar
uma capacidade de
generalização
(aprendizagem).

A
predição contínua
possui muitas características da predição discreta
(classificação), no entanto, tem como esforço principal a predição de valores
contínuos de uma variável (estimação), a qual será do tipo
aprendizagem
supervisionada
ou
paradigma de aprendizagem
. Para Castro e Ferrari (2016,
p. 200):

À tarefa de predizer um valor contínuo de uma variável dá-se o


nome de estimação, a qual também é do tipo aprendizagem
supervisionada e, portanto, requer pares entrada-saída desejada
para a construção do estimador e possui muitas características e
processo em comum como a classificação. Este processo
equivalente se refere à preparação da base de dados, à separação
dos dados em treinamento e teste, à definição de critérios de parada
do algoritmo e ao treinamento e testes.

Vejamos, a seguir, os conceitos e os paradigmas relacionados à


aprendizagem de máquina preditiva (por hipótese) – de maneira
supervisionada – e descritiva – de maneira não supervisionada.

https://ambienteacademico.com.br/course/view.php?id=18504 5/60
19/11/22, 09:24 E-book

Aprendizagem supervisionada e
aprendizagem não supervisionada
O processo de aprendizagem de máquina pode ser melhor orientado por meio
de um paradigma supervisionado ou não supervisionado; ambos utilizam
algoritmos estatísticos e matemáticos.

Castro e Ferrari (2016, p. 16) apresentam uma definição de paradigma de


aprendizagem:

[...] um procedimento bem definido para treinar uma técnica de


aprendizagem de máquina (MA) que é denominado algoritmo de
aprendizagem ou algoritmo de treinamento, e a maneira pela qual o
ambiente influencia a técnica em seu aprendizado define o
paradigma de aprendizagem.

Para obtermos um melhor conhecimento sobre a aprendizagem de máquina e


o conceito de aprendizado indutivo (capacidade de aprender a partir de
exemplos), veremos os
dois paradigmas
de aprendizagem mais comuns,
amplamente utilizados
na mineração de dados e na inteligência artificial.
Esses paradigmas, descritos por Castro e Ferrari (2016, p. 16), são:

● Aprendizado supervisionado

É baseado em um conjunto de objetos para os


quais as saídas desejadas são conhecidas ou
em algum outro tipo de informação que
apresente um comportamento esperado pelo
sistema. Por exemplo: um conjunto de dados
com rótulos, uma amostra de diversas garrafas
rotuladas etc.

https://ambienteacademico.com.br/course/view.php?id=18504 6/60
19/11/22, 09:24 E-book

Fonte: igorr / 123RF.

Um exemplo numérico de aprendizado supervisionado é dado pela Tabela 2.1,


que contém um conjunto de dados: quilômetros por litro (eficiência do motor)
x polegadas cúbicas (dimensão do motor). Esse conjunto de dados
representa uma base para uma regressão estatística que busca encontrar um
comportamento (esperado), ou seja, como uma variável se comporta
(evolução) à medida que outra sofre variações.

https://ambienteacademico.com.br/course/view.php?id=18504 7/60
19/11/22, 09:24 E-book

Polegadas cúbicas (dimensão do


id Quilômetros x Litros
motor)

1 5 480

2 5,6 450

3 7 430

4 8 400

5 7,6 350

6 6,4 360

7 7,5 280

Tabela 2.1 - Quilômetros por litro x Polegadas cúbicas (dimensão do motor)

Fonte: Elaborada pelo autor (2021).

#PraCegoVer
: a tabela contém três colunas e sete linhas. Da esquerda
para a direita, temos as seguintes colunas, respectivamente: “id”,
“Quilômetros x Litros” e “Polegadas cúbicas (dimensão do motor”. Na
coluna “id”, temos os seguintes dados, de cima para baixo: “1”, “2”, “3”,
“4”, “5”, “6” e “7”. Já na coluna "Quilômetros x Litros”, temos os seguintes
dados, de cima para baixo: “5”, “5,6”, “7”, “8”, “7,6”, “6,4” e “7,5”. Por fim,
na coluna “Polegadas cúbicas (dimensão do motor)”, temos os
seguintes dados, de cima para baixo: “480”, “450”, “430”, “400”, “350”,
“360” e “280”.

Um comportamento esperado é que, à medida que diminui a dimensão do


motor, sua eficiência aumenta. É possível encontrar o melhor comportamento

https://ambienteacademico.com.br/course/view.php?id=18504 8/60
19/11/22, 09:24 E-book

por meio de uma técnica de aprendizagem supervisionada, por exemplo, a


regressão linear.

● Aprendizado não supervisionado

É baseado, apenas, em objetos cujos rótulos


são desconhecidos. Basicamente, o algoritmo
deve aprender a “categorizar” (ou rotular)
objetos. Por exemplo, é possível considerar um
conjunto de dados não rotulados, como garrafas
sem rótulos.

Fonte: eugene78 / 123RF.

O sistema aprenderá a classificar os tipos de garrafas pelos seus atributos


(forma, cor, tamanho, volume etc.). Uma das abordagens não
supervisionadas mais conhecidas é a da clusterização, em que o modelo
procura dados semelhantes entre si e os aproxima.

Um exemplo numérico de aprendizado não supervisionado pode ser a


descoberta do perfil dos clientes que compram determinado tipo de produto
em determinada loja.

Nesse sentido, em um conjunto de dados, a busca não supervisionada pode


ser feita por meio de indivíduos semelhantes ou de itens de compras
semelhantes, como apresenta a Tabela 2.2, a seguir:

https://ambienteacademico.com.br/course/view.php?id=18504 9/60
19/11/22, 09:24 E-book

Renda
Produtos Existe familiar
Clientes Categoria
comprados qualidade (salário
mínimo)

Agasalho
1 Não <=4 B
esportivo

2 Calçado social Sim >=4 A

Barraca de
1 Não <=4 B
camping

4 Bebidas Sim <4 C

4 Carnes Sim <4 C

2 Roupa social Sim >=4 A

Tabela 2.2 - Perfil de compras

Fonte: Elaborada pelo autor.

#PraCegoVer
: a tabela contém cinco colunas e seis linhas. Da esquerda
para a direita, temos as seguintes colunas, respectivamente: “Clientes”,
“Produtos comprados”, “Existe qualidade”, “Renda familiar (salário
mínimo)” e “Categoria”. Na coluna “Clientes”, temos os seguintes dados,
de cima para baixo: “1”, “2”, “1”, “4”, “4” e “2”. Já na coluna "Produtos
comprados”, temos os seguintes dados, de cima para baixo: “Agasalho
esportivo”, “Calçado social”, “Barraca de camping”, “Bebidas”, “Carnes” e
“Roupa social”. Por sua vez, na coluna “Existe qualidade”, temos os
seguintes dados, de cima para baixo: “Não”, “Sim”, “Não”, “Sim”, “Sim” e
“Sim”. Na coluna “Renda familiar (salário mínimo)”, temos os seguintes
dados, de cima para baixo: “<=4”, “>=4”, “<=4”, “<4”, “<4” e “>=4”. Por fim,

https://ambienteacademico.com.br/course/view.php?id=18504 10/60
19/11/22, 09:24 E-book

na coluna “Categoria”, temos os seguintes dados, de cima para baixo:


“B”, “A”, “B”, “C”, “C” e “A”.

Assim, a partir de um conjunto de dados de clientes (Tabela 2.2), é possível


obter o algoritmo não supervisionado e categorizar um novo cliente.

Tarefas de aprendizagem preditivas e


descritivas
O aprendizado de máquina tem sido amplamente utilizado em diversas
tarefas, que podem ser organizadas por meio de diferentes critérios. Um
deles é referente ao paradigma de aprendizado, o qual vai liderar a tarefa.

De acordo com os critérios de aprendizado de máquina, as tarefas podem ser


preditivas (tarefas supervisionadas) ou descritivas (tarefas não
supervisionadas).


Aprendizado preditivo:

As tarefas preditivas estão relacionadas à hipótese por


indução
, cujo objetivo
é encontrar uma função (modelo) que, a partir de dados de treinamento,
possa ser utilizada para prever um rótulo ou um valor que caracterize um
exemplo, com base nos valores de entrada. Os algoritmos seguem o
paradigma de aprendizado supervisionado.
O termo “supervisionado” vem da
simulação de um supervisor externo.

● Aprendizado descritivo

Nas tarefas de descrição, o objetivo é


explorar
ou
descrever
um conjunto de dados. Os
algoritmos da tarefa descritiva não utilizam o
atributo “saída”, por isso, seguem o paradigma

https://ambienteacademico.com.br/course/view.php?id=18504 11/60
19/11/22, 09:24 E-book

de
aprendizado não supervisionado.
A Fonte: Clare Louise Jackson / 123RF.
finalidade é
encontrar
objetos
semelhantes
no
conjunto de dados ou
regras de associação
que
relacionam
um grupo de atributos a um outro
grupo de atributos.

O diagrama a seguir ilustra a hierarquia de aprendizado, de acordo com os


tipos de tarefas de aprendizado. No topo da hierarquia, está o aprendizado
indutivo, em que são realizadas as generalizações a partir dos dados. Na
sequência, estão os tipos de aprendizado: supervisionado (preditivo) e não
supervisionado (descritivo). Vamos analisar o diagrama para entender melhor
esse conceito:

https://ambienteacademico.com.br/course/view.php?id=18504 12/60
19/11/22, 09:24 E-book

Figura 2.1 - Hierarquia de aprendizado

Fonte: Elaborada pelo autor.

#PraCegoVer
: a figura mostra um diagrama hierárquico. No topo da hierarquia,
está o “Aprendizado induzido”, o qual está dividido em “Supervisionado ‘preditivo’”
e “Não supervisionado ‘descritivo’”. As tarefas supervisionadas estão divididas
em “Classificação” e “Regressão” (tipos de rótulos de dados). Já as tarefas não
supervisionadas estão divididas em “Agrupamento”, “Associação” e
“Sumarização”.

Podemos observar, na Figura 2.1, que o aprendizado indutivo é dividido em


tarefas supervisionadas e não supervisionadas.

Com relação às tarefas supervisionadas (tarefas preditivas), elas são


divididas em:
classificação
e
regressão
(tipos de rótulos de dados).

Classificação
: é denominada de predição discreta. Castro e Ferrari
(2016, p. 200) comentam que “a tarefa de classificação pode ser vista

como um caso particular de estimação, no qual a saída é discreta


(discretização). Assim, todos os algoritmos de estimação podem ser

usados na classificação, mas a recíproca não é verdadeira”.

https://ambienteacademico.com.br/course/view.php?id=18504 13/60
19/11/22, 09:24 E-book

Regressão
: é denominada de predição contínua. Busca encontrar um

comportamento esperado, ou seja, como uma variável se comporta de


acordo com outras variáveis que sofrem variações.

Já o aprendizado não supervisionado (tarefas descritivas) é dividido em:

Agrupamento
: dados agrupados por similaridade. Também podemos

chamar de clusterização, em que o objetivo é encontrar similaridades


entre os objetos de um conjunto de dados, agrupando-os.

Associação
: a finalidade é encontrar padrões frequentes entre os
atributos de um conjunto de dados ou relações entre as variáveis;

elementos de causa e efeito.


Sumarização
: realiza a descoberta de descrição simples e compacta

para um conjunto de dados.

Aprendizado não
supervisionado:
cluster
https://ambienteacademico.com.br/course/view.php?id=18504 14/60
19/11/22, 09:24 E-book

A clusterização é um tipo de técnica não supervisionada que reúne e organiza


os objetos em
cluster
ou em grupos com características ou propriedades em
comum. O agrupamento de dados também é chamado de
clusterização
e tem
o objetivo de
particionar
os registros ou as informações de uma base de
dados. Essa partição é chamada de
cluster
. O objetivo do agrupamento, ou
da clusterização, é identificar, automaticamente, os rótulos em uma base de
dados.

Segundo Castro e Ferrari (2016, p. 88), a ideia de análise de grupos, também


denominada
agrupamento de dados
ou
clusterização
, é algo já antigo e que
tem como objetivo a organização de coisas
similares em categorias.
É
utilizada para organizar grandes bases de dados (ou um conjunto de objetos)
para que sejam facilmente compreendidas ou pesquisadas.

https://ambienteacademico.com.br/course/view.php?id=18504 15/60
19/11/22, 09:24 E-book

Figura 2.2 - Análise de grupos

Fonte: Elaborada pelo autor.

#PraCegoVer
:a figura traz objetos geométricos, como círculos, quadrados e
triângulos, de forma desorganizada, à esquerda. Em seguida, à direita, temos os
objetos geométricos organizados em grupos.

A Figura 2.2 mostra como os objetos podem ser melhor compreendidos


quando
agrupados
e
organizados
de acordo com
similaridades
ou
características em comum
. Cada grupo possui características de
similaridade ou de distância. Essa visualização é chamada de
grupos
naturais.

Castro e Ferrari (2016, p. 88) comentam que “o agrupamento é uma técnica


comum em análise de dados, [...] utilizada em diversas áreas, incluindo
aprendizagem de máquina, mineração de dados, reconhecimento de padrões
e análise de imagens”. É importante compreender a diferença entre
classificação (ou análise descritiva) e agrupamento, assim, vejamos a seguir.

Diferença entre classificação e


agrupamento

https://ambienteacademico.com.br/course/view.php?id=18504 16/60
19/11/22, 09:24 E-book

Na classificação, a base é rotulada:

Figura 2.3 - Análise de níveis de energia de A a G

Fonte: Kristijan Zontar / 123RF.

#PraCegoVer
: a figura apresenta os níveis de eficiência energética em uma
escala crescente, de A a G. Cada nível representa um agrupamento.

Na classificação (ou análise descritiva), cada objeto da base possui uma


classe correspondente.
Um exemplo é ilustrado na Figura 2.3, que apresenta
as classes de níveis de A a G, identificando uma correspondência a um
determinado produto. A tarefa dos algoritmos de classificação é
identificar
a
classe à qual pertence um novo objeto ainda não apresentado e com rótulo
desconhecido.

Um exemplo de base de dados para uma abordagem por classificação seriam


os dados de pacientes doentes e saudáveis, em que temos as seguintes
variáveis consideradas: peso, sexo e idade. Vejamos a tabela a seguir:

https://ambienteacademico.com.br/course/view.php?id=18504 17/60
19/11/22, 09:24 E-book

Paciente Peso Sexo Idade

1 80 M 60

2 75 F 44

3 78 M 55

4 68 F 50

5 81 M 70

Tabela 2.3 - Conjunto de dados de pacientes

Fonte: Elaborada pelo autor (2021).

#PraCegoVer
: a tabela contém quatro colunas e cinco linhas. Da
esquerda para a direita, temos as seguintes colunas: “Paciente”, “Peso”,
“Sexo” e “Idade”. Na coluna “Paciente”, temos os seguintes dados, de
cima para baixo: “1”, “2”, “3”, “4” e “5”. Já na coluna “Peso”, temos os
seguintes dados, de cima para baixo: “80”, “75”, “78”, “68” e “81”. Por sua
vez, na coluna “Sexo”, temos os seguintes dados, de cima para baixo:
“M”, “F”, “M”, “F” e “M”. Na coluna “Idade”, por fim, temos os seguintes
dados, de cima para baixo: “60”, “44”, “55”, “50” e “70”.

Os atributos são critérios ou condicionais lógicas ou relacionais, como peso


<=60 ou >80, e sexo =M ou =F, que segmentam os dados heterogêneos, por
meio de similaridades, em dados mais homogêneos em relação à variável
alvo.

No agrupamento, a base é segmentada:

https://ambienteacademico.com.br/course/view.php?id=18504 18/60
19/11/22, 09:24 E-book

Figura 2.4 - Peças de peões não rotuladas, dispostas em grupos que possuem
formas idênticas, mas cores diferentes

Fonte: Andriy Popov / 123RF.

#PraCegoVer
: a figura traz três grupos de peças de peões, com formas idênticas,
organizadas pelas cores verde, vermelho e azul.

No agrupamento, o objetivo é
segmentar
uma base de dados
não rotulada
em grupos que possuem algum
significado
. Ela não será
rotulada
ou
identificada
por uma classe, mas, sim,
agrupada
por
similaridades
,
dimensões
ou
características
.

O exemplo da Figura 2.4 mostra que cada grupo de peões possui um atributo
de similaridade: a cor. O atributo “tamanho” não poderá ser utilizado, pois
todos os peões têm o mesmo tamanho. As características do agrupamento
podem ser atributos diversos, como
cor
,
tamanho
ou
ação
. Assim, criam-se
grupos por similaridades. Os grupos devem ter os mesmos atributos, mas
com valores que os identificam especificamente em um agrupamento.

A seguir, temos a Tabela 2.4, com dados de períodos (meses) e de percentual


de vendas. Vamos analisá-la:

https://ambienteacademico.com.br/course/view.php?id=18504 19/60
19/11/22, 09:24 E-book

Período (meses) % de vendas

1 5,1

2 2,2

3 2,1

4 2,3

5 2,1

6 2,2

7 3,4

8 4,9

9 5,8

10 3,2

11 3,1

12 3,3

Tabela 2.4 - Percentual de vendas em cada mês

Fonte: Elaborada pelo autor (2021).

#PraCegoVer
: a tabela contém duas colunas e 12 linhas. Da esquerda
para a direita, temos as seguintes colunas: “Período (meses)” e “% de
vendas”. A coluna “Período (meses)” apresenta os seguintes dados, de
cima para baixo: “1”, “2”, “3”, “4”, “5”, “6”, “7”, “8”, “9”, “10”, “11” e “12”. Já a

https://ambienteacademico.com.br/course/view.php?id=18504 20/60
19/11/22, 09:24 E-book

coluna “% de vendas” apresenta os seguintes dados, de cima para baixo:


“5,1”, “2,2”, “2,1”, “2,3”, “2,1”, “2,2”, “3,4”, “4,9”, “5,8”, “3,2”, “3,1” e “3,3”.

Um possível gráfico da tabela de agrupamento é ilustrado na figura a seguir.


Uma maior concentração de vendas com percentuais baixos está localizada
entre os meses 2 e 6, e, após nova concentração, entre os meses 10 e 12. Já
entre esses períodos, há uma dispersão de percentuais altos de venda.

Figura 2.5 - Gráfico de clusterização ou agrupamento

Fonte: Elaborada pelo autor (2021).

#PraCegoVer
: a figura apresenta um gráfico de dispersão. No eixo “x”, estão os
períodos (meses), com os seguintes indicadores: “0”, “2”, “4”, “6”, “8”, “10”, “12” e
“14”. Já no eixo “y”, está o % de vendas, com os seguintes indicadores: “0”, “1”,
“2”, “3”, “4”, “5”, “6” e “7”. Os valores dispersos no gráfico, nos termos dos eixos
“x” e “y”, são: “1;5,1” - “2;2,2” - “3;2,1” - “4;2,3” - “5;2,1” - “6;2,2” - “7;3,4” - “8;4,9” -
“9;5,8” - “10;3,2” - “11;3,1” - “12;3,3”.

O gráfico de dispersão é utilizado para mostrar a relação, no máximo, entre


duas variáveis (correlações). Na Figura 2.5, vimos a relação entre os períodos
de venda e o percentual de venda de determinado produto. As conclusões do

https://ambienteacademico.com.br/course/view.php?id=18504 21/60
19/11/22, 09:24 E-book

gráfico de dispersão são bem visíveis, principalmente por conta da


representação de concentrações ou agrupamentos, ou seja, estes
correspondem aos percentuais similares de vendas.

Para Castro e Ferrari (2016, p. 96), o processo de agrupamento de dados é


dividido em cinco etapas: (1) pré-processamento de dados; (2) definição das
medidas de similaridade; (3) execução dos métodos de agrupamento; (4)
representação dos grupos; e (5) avaliação do agrupamento.

Pré-processamento de dados:


Consiste na preparação da base para a realização do agrupamento.
Etapas: limpeza, integração, redução, transformação e discretização.

Medidas de similaridade:


A definição das medidas de similaridade é necessária para que o

método de agrupamento reúna os objetos similares e dissimilares


entre si. Normalmente, os métodos de agrupamento utilizam uma

medida de similaridade por meio de uma matriz de dados, que


representa os objetos associados aos seus atributos. Cada objeto

possui uma relação de similaridade e de dissimilaridade com outros


objetos, por meio de atributos específicos.

Métodos de agrupamento:


Aqui, algoritmos computacionais específicos de agrupamento são

aplicados, como, por exemplo, k-medoides, fuzzy k-médias, árvore


geradora mínima e DBSCAN (Density Based Spatial Clustering of

Applications). Veremos, na sequência, quais são as características


desses algoritmos.

https://ambienteacademico.com.br/course/view.php?id=18504 22/60
19/11/22, 09:24 E-book


Representação dos grupos:


São representações gráficas simples e compactas dos grupos. As

formas típicas são protótipos (representações concentradas tipo


centroides), estrutura do tipo grafo e subgrafo (conexões), estrutura

em árvore e rotulação (representação não explícita, numérica).


Avaliação do agrupamento:


O agrupamento resultante de algoritmos, aplicado a um determinado
conjunto de dados, deve ser aferido por meio de indicadores. Os

critérios de avaliação podem ser do tipo (1) compactação, em que os


objetos de cada grupo devem estar o mais próximo possível uns dos

outros, ou (2) separação, em que os grupos devem estar o mais


distante possível uns dos outros.

REFLITA

No aprendizado por classificação, o objetivo é


identificar a classe à qual pertence um novo
objeto e de rótulo desconhecido. Já na
clusterização, o objetivo é segmentar uma base
de dados que não possui um rótulo em grupos
que possuem algum significado ou
características em comum. Diante disso, reflita:
em quais situações práticas devemos aplicar
tais abordagens?

https://ambienteacademico.com.br/course/view.php?id=18504 23/60
19/11/22, 09:24 E-book

Veremos, a seguir, alguns algoritmos de agrupamento de dados mais


populares na mineração de dados, os quais partem de um conjunto inicial de
protótipos e de um processo iterativo de alocação de objetos a protótipos.

Algoritmos de agrupamento de dados


Algoritmo k-médias:
também chamado de
k-means
, segundo Castro e
Ferrari (2016), esse algoritmo toma como entrada um
parâmetro k,
correspondente ao número de grupos desejados, e
particiona
o conjunto de n
objetos em k grupos, de modo que a similaridade entre o conjunto de objetos
do grupo seja alta e que a similaridade entre os grupos seja baixa. Uma das
principais características desse algoritmo é
operar
por meio de uma
técnica
de
refinamento iterativo.

Segundo Goldschmidt, Passos e Bezerra (2015), o método


k-means
é um
método popular da tarefa de clusterização
, em que os objetos ou dados
numéricos são os centroides (elementos centrais) dos
clusters
(classes). A
sequência de passos da execução do algoritmo é descrita a seguir.

https://ambienteacademico.com.br/course/view.php?id=18504 24/60
19/11/22, 09:24 E-book

Fonte: kjpargeter / Freepik.

#PraCegoVer
: o infográfico estático apresenta imagem de fundo e quatro abas,
sendo duas de um lado e duas do outro. A imagem é de cubos coloridos que
caem de cima até embaixo, formando uma pilha de quadrados coloridos. As abas
apresentam os respectivos conteúdos. 1ª aba: “Passo 1: Cada registro da base
de dados é atribuído ao cluster (uma classe)”. 2ª aba: “Passo 2: Calcular a menor
distância dos clusters, ou seja, a distância do ponto atribuído ao centroide é a
menor dentre todas as distâncias calculadas”. 3ª aba: “Passo 3: Um novo
centroide para cada cluster é atribuído pela média dos pontos do cluster, o que
pode promover um reposicionamento dos centroides e uma nova alocação dos
objetos (atualização dos clusters)”. 4ª aba: “Passo 4: O processo termina quando
os centroides do cluster param de se modificar”.

Algoritmo medoide:
segundo Castro e Ferrari (2016, p. 119), “pode ser
definido como um objeto com a menor dissimilaridade média a todos os
outros objetos, ou seja, é o objeto mais centralmente localizado no grupo”.

O objetivo do algoritmo é
encontrar o medoide
. Os objetos restantes são
clusterizados
(agrupados) ao medoide ao qual eles são mais
similares
.
Haverá uma troca interativa de um medoide e um não medoide para a
melhoria da clusterização.

https://ambienteacademico.com.br/course/view.php?id=18504 25/60
19/11/22, 09:24 E-book

De acordo com Mariano


et al
. (2020, p. 278), o algoritmo
k-medoids
foi
proposto em 1987, por Kaufman e Rousseeuw. Um medoide pode ser definido
como o
ponto
no
cluster
em que as
dissimilaridades
com todos os outros
pontos desse
cluster
são
mínimas
.

A implementação do algoritmo é executada em quatro passos:

1
2
3
4

Se o custo total for maior que o da etapa anterior, deve-se desfazer a troca.

Algoritmo
fuzzy
k-médias:
segundo Castro e Ferrari (2016, p. 122), “é uma
extensão do algoritmo k-médias, na qual cada objeto possui um grau de
pertinência em relação aos grupos de base”. No algoritmo
fuzzy
k-médias, um
objeto pode
pertencer a mais de um grupo
, no entanto, com diversos graus
de pertinência.

Vejamos, agora, os passos do processo de clusterização por meio das


representações gráficas geradas pelo algoritmo do método por protótipos (k-
médias):

Inicialização das médias:

Na inicialização das médias, o elemento representante de cada


cluster
é a
média dos registros que pertencem ao
cluster
, conforme apresentado na
Figura 2.6:

https://ambienteacademico.com.br/course/view.php?id=18504 26/60
19/11/22, 09:24 E-book

Figura 2.6 - Gráfico de clusterização gerado pelo algoritmo k-médias (médias


dos registros)

Fonte: Adaptada de Goldschmidt, Passos e Bezerra (2015).

#PraCegoVer:
a figura apresenta um gráfico de clusterização. Na parte superior, à
esquerda, há seis círculos, um deles destacado com o número “2”. Mais abaixo,
também à esquerda, há cinco círculos, um deles destacado com o número “1”.
Por fim, no canto direito, há cinco círculos, um deles destacado com o número
“3”. Os círculos em destaque, a saber, 1, 2 e 3, são as médias relacionadas a cada
cluster.

Atribuição dos rótulos:

Após a inicialização, todo o


cluster
é rotulado conforme o seu representante,
como apresentado na Figura 2.7, a seguir:

https://ambienteacademico.com.br/course/view.php?id=18504 27/60
19/11/22, 09:24 E-book

Figura 2.7 - Gráfico de clusterização gerado pelo algoritmo k-médias (define o


representante dos clusters)

Fonte: Adaptada de Goldschmidt, Passos e Bezerra (2015).

#PraCegoVer:
a figura apresenta um gráfico de clusterização. Na parte superior, à
esquerda, há seis círculos, um deles destacado com o número “2”, em azul; os
demais círculos estão destacados apenas com o número “2”, sem nenhuma cor
específica. Mais abaixo, ainda à esquerda, há cinco círculos, um deles destacado
com o número “1”, em azul; os demais círculos estão destacados apenas com o
número “1”, sem nenhuma cor específica. À direita, finalmente, há cinco círculos,
um deles destacado com o número “3”, em azul; os demais círculos estão
destacados apenas com o número “3”. Os círculos em destaque, a saber, 1, 2 e 3,
são os representantes de cada cluster.

Atualização das médias:

Após a rotulagem dos elementos, um novo centroide é atribuído para cada


cluster
, pela média dos seus pontos, conforme ilustrado na Figura 2.8:

https://ambienteacademico.com.br/course/view.php?id=18504 28/60
19/11/22, 09:24 E-book

Figura 2.8 - Gráfico de clusterização gerado pelo algoritmo k-médias


(representante dos clusters)

Fonte: Adaptada de Goldschmidt, Passos e Bezerra (2015).

#PraCegoVer:
a figura apresenta um gráfico de clusterização. Os círculos em
destaque são os novos representantes de cada
cluster
, obtidos pela média dos
seus pontos. Na parte superior, à esquerda, há seis círculos, um deles (em azul)
marcado com uma cruz em destaque, além de uma seta apontando para um
círculo preto (centroide); os demais círculos estão destacados apenas com o
número “2”. Mais abaixo, também à esquerda, há cinco círculos, um deles (em
azul) marcado com uma cruz em destaque, além de uma seta apontando para um
círculo preto (centroide); os demais círculos estão destacados apenas com o
número “1”. Por fim, à direita, há cinco círculos, um deles (em azul) marcado com
uma cruz em destaque, além de uma seta apontando para um círculo preto
(centroide).

Além dos algoritmos baseados em protótipos, outros métodos “


cauterizam

valores de maneira diferente; um deles é o método baseado no
particionamento
(método particional). Ele se baseia na
teoria dos grafos
,
especificamente, de árvores geradoras mínimas (MST – Minimum Spanning
Tree). Esse método não requer a
definição de protótipos
e não
impõe
uma

https://ambienteacademico.com.br/course/view.php?id=18504 29/60
19/11/22, 09:24 E-book

forma aos grupos. Tal abordagem define os membros de cada grupo e


determina, automaticamente, o número de grupos (CASTRO; FERRARI, 2016).

Vimos, neste tópico, que o processo de agrupamento (ou clusterização) é um


processo de mineração de dados por meio do qual se encontram os rótulos
das classes dispersas ou concentradas. Ele é diferente da análise discreta,
em que se utiliza a distribuição de frequência para classificar os objetos.

Linguagem R
Para a execução da implementação dos algoritmos de mineração, a
linguagem de programação R é o
ambiente ideal
. Segundo Silva, Peres e
Boscarioli (2016, p. 221), trata-se de “um ambiente para desenvolvimento de
ferramentas computacionais que envolvam conceitos de estatísticas e
apresentação de resultados na forma de gráficos”.

SAIBA MAIS

Para fazer o
download
gratuito da linguagem R
para as várias plataformas, acesse o
site
“The R
Project for Statistical Computing” e escolha a
opção que deseja baixar. Como sugestão direta
de
download
para a versão Windows 4.0.5,
acesse.

ACESSAR

https://ambienteacademico.com.br/course/view.php?id=18504 30/60
19/11/22, 09:24 E-book

Operações em R:
os códigos da linguagem R podem ser executados por
linhas de comando
, por meio de um terminal identificado pelo curso “>” e de
um comando da linguagem R. Um exemplo seria a operação de soma a
seguir:

> 1+4+3

[1]  8

A Figura 2.9 ilustra a interface e a linha de comando da linguagem R, com a operação de


soma:

https://ambienteacademico.com.br/course/view.php?id=18504 31/60
19/11/22, 09:24 E-book

Figura 2.9 - Interface e


prompt
de comando da linguagem R (operação de
soma)

Fonte: Elaborada pelo autor.

#PraCegoVer:
a figura apresenta a interface da linguagem R, com os seguintes
comandos presentes no menu, da esquerda para a direita, respectivamente:
“Arquivo”, “Editar”, “Visualizar”, “Misc”, “Pacotes”, “Janelas” e “Ajuda”. Ainda, a
figura apresenta ícones e informações sobre a versão da linguagem R: versão
4.0.5 (2021-03-31) e direitos de
copyright
e licença. Após isso, apresenta o
comando de prompt “>” e a operação “1+4+3” e, na próxima linha, indicada por [1],
o resultado “8”.

O sinal [1] indica o resultado da operação anterior em uma linha.

Funções em R:
no caso de funções matemáticas, o exemplo a seguir ilustra a
função raiz quadrada. O sinal ‘#’ indica um comentário:

>#raiz quadrada

>sqrt (4)

[1]

https://ambienteacademico.com.br/course/view.php?id=18504 32/60
19/11/22, 09:24 E-book

Atribuição e tipos de dados em R:


na linguagem R, para proceder à atribuição
de dados em variáveis, é utilizado o sinal de atribuição ‘<-’, seguido do valor;
nas versões atuais, é possível atribuir o sinal de ‘=’. Não é necessário definir o
tipo de dado, porém, em alguns momentos, é necessário realizar a consulta
do tipo. Para tanto, é preciso utilizar a função
class
(). Um exemplo de
atribuição e de consulta do tipo de dado pode ser visualizado na Figura 2.10,
em que “x” recebe o valor decimal 2.14. A função class (x) informa que o tipo
de dado é numérico.

Figura 2.10 - Interface e prompt de comando da linguagem R (uso da função


class())

Fonte: Elaborada pelo autor.

#PraCegoVer:
a figura apresenta a interface da linguagem R, com os seguintes
comandos presentes no menu, da esquerda para a direita, respectivamente:
“Arquivo”, “Editar”, “Visualizar”, “Misc”, “Pacotes”, “Janelas” e “Ajuda”. Ainda,
apresenta os ícones e a linha de comando ‘>’, com atribuição de valor.

Leitura de dados externos:


em um primeiro momento, é necessário que os
dados estejam dispostos em linhas e colunas, por exemplo, de uma planilha
eletrônica e convertidos em formato ‘csv’. Contudo, os dados da tabela, a
serem lidos pelo código em linguagem R, devem estar no
formato decimal

https://ambienteacademico.com.br/course/view.php?id=18504 33/60
19/11/22, 09:24 E-book

(uso do ponto decimal), ASCII e separados por ponto e vírgula [;]. Vejamos o
exemplo:

1;0.7;0.9

2;0.7;0.8

3;0.8;0.2

4;0.6;0.9

5;0.9;0.4

Para realizar a importação de dados para uma variável, é necessário fazer a


carga de um pacote
denominado
stats
(estatística). Selecione a opção
‘pacotes/carregar pacote/stats’, conforme mostrado na Figura 2.11:

https://ambienteacademico.com.br/course/view.php?id=18504 34/60
19/11/22, 09:24 E-book

Figura 2.11 - Interface e prompt de comando da linguagem R (carga do pacote


‘stats’)

Fonte: Elaborada pelo autor.

#PraCegoVer:
a figura apresenta a interface da linguagem R, com os seguintes
comandos presentes no menu, da esquerda para a direita, respectivamente:
“Arquivo”, “Editar”, “Visualizar”, “Misc”, “Pacotes”, “Janelas” e “Ajuda”. Ainda,
apresenta os ícones e, após selecionada a opção ‘pacotes/carregar pacote/stats’,
a linha de comando ‘>’ e o código de carga do pacote ‘stats’.

Em um segundo momento, deve-se utilizar a função


read.table
(“
C:\\Local do
arquivo de dados\\nome_da_tabela.csv”, header=FALSE/TRUE, sep=”;”
), em
que o primeiro argumento é o local de arquivo de dados, separado por aspas
(“”).

O segundo argumento verifica se a tabela importada possui ou não um


cabeçalho
. Já o terceiro argumento está relacionado ao
separador
dos
campos da tabela de dados, nesse caso, (“;” – ponto e vírgula), contendo
linhas
e
colunas
. A função do
read.table
é realizar uma leitura de uma tabela
de dados ou
data.frame
, no formato ‘txt’, para uma variável ou um objeto na
linguagem R.

https://ambienteacademico.com.br/course/view.php?id=18504 35/60
19/11/22, 09:24 E-book

A Figura 2.12 ilustra o código de importação de dados no console da


linguagem R. Por meio da função
class()
, é possível identificar que a variável
‘atendimento’ é do tipo
data.frame.

Figura 2.12 - Interface e prompt de comando da linguagem R – leitura do


arquivo de dados (tabela nome_da_tabela.csv) e verificação do tipo de dados
da variável ‘dados’

Fonte: Elaborada pelo autor.

#PraCegoVer:
a figura apresenta a interface da linguagem R, com os seguintes
comandos presentes no menu, da esquerda para a direita, respectivamente:
“Arquivo”, “Editar”, “Visualizar”, “Misc”, “Pacotes”, “Janelas” e “Ajuda”. Está
digitado, na linha de comando da interface, o código de leitura do arquivo
‘c:\\Users\\jacks\\nome_da_tabela.csv’, por meio da função
read.table
. A tabela
é atribuída para a variável ‘dados’. O tipo de dado é visualizado no console como
data.frame.

O passo seguinte é atribuir o resultado da função


kmeans
para uma variável
‘resultado’: resultado <- kmeans(dados,2,iter.max=5). Vejamos a Figura 2.13:

https://ambienteacademico.com.br/course/view.php?id=18504 36/60
19/11/22, 09:24 E-book

Figura 2.13 - Interface e prompt de comando da linguagem R – leitura do


arquivo de dados (tabela nome_da_tabela.csv) e execução da função kmeans

Fonte: Elaborada pelo autor.

#PraCegoVer:
a figura apresenta a interface da linguagem R, com os seguintes
comandos presentes no menu, da esquerda para a direita, respectivamente:
“Arquivo”, “Editar”, “Visualizar”, “Misc”, “Pacotes”, “Janelas” e “Ajuda”. Está
digitado, na linha de comando da interface, o código de leitura do arquivo
‘c:\\Users\\jacks\\nome_da_tabela.csv’, por meio da função read.table. A tabela é
atribuída para a variável ‘dados’.

Para visualizar o resultado do algoritmo, é necessário digitar a variável


‘resultado’, que recebeu os valores da função
kmeans
, e, após, aplicar um
<enter>. Observe que o algoritmo informa como resultado o número de
clusters
formado, no caso, dois
clusters
de tamanhos 3 e 2 (número de
exemplares associados a cada grupo).

Na sequência, tem-se a apresentação dos centroides finais, na forma de uma


matriz de médias dos exemplares associados a cada grupo. Logo depois,
tem-se o índice do grupo ao qual cada exemplar foi associado. Em nosso
exemplo, o primeiro e segundo exemplares pertencem ao grupo 2, e o
terceiro, quarto e quinto exemplares pertencem ao grupo 1.

https://ambienteacademico.com.br/course/view.php?id=18504 37/60
19/11/22, 09:24 E-book

praticar
Vamos Praticar
Implementação do algoritmo k-médias

A linguagem R possui funções específicas para a aplicação do algoritmo k-


médias, que trata do particionamento de um conjunto de dados referentes,
por exemplo, a avaliações de pacientes acerca do atendimento de uma
unidade de saúde. Nesse sentido, é considerado o tempo para efetuar o
atendimento, além da nota atribuída a ele.

Uma possível tabela normalizada dos dados para a aplicação do algoritmo k-


médias pode ser visualizada a seguir, relativa à eficiência do atendimento.

Por meio do uso da linguagem R e da função


kmeans
do pacote ‘stats’,
construa uma matriz de similaridade, com dois grupos a serem descobertos
e com um máximo de cinco iterações. Para tanto, analise a tabela a seguir:

https://ambienteacademico.com.br/course/view.php?id=18504 38/60
19/11/22, 09:24 E-book

Número do
Tempo (horas) Nota
atendimento

1 0,30 0,57

2 0,50 1,00

3 1,00 0,50

4 0,50 1,00

5 1,00 0,85

6 1,00 1,0

7 0,9 1,0

Tabela 2.5 - Eficiência do atendimento ao paciente, por tempo e nota atribuída


ao atendimento

Fonte: Elaborada pelo autor.

#PraCegoVer:
a tabela contém três colunas e sete linhas. Da esquerda
para a direita, temos as seguintes colunas, respectivamente: “Número do
atendimento”, “Tempo (horas)” e “Nota”. Na coluna “Número do
atendimento”, temos os seguintes dados, de cima para baixo: “1”, “2”, “3”,
“4”, “5”, “6” e “7”. Já na coluna “Tempo (horas)”, temos os seguintes
dados, de cima para baixo: “0,30”, “0,50”, “1,00”, “0,50”, “1,00”, “1,00” e
“0,9”. Por fim, na coluna “Nota”, temos os seguintes dados, de cima para
baixo: “0,57”, “1,00”, “0,50”, “1,00”, “0,85”, “1,0” e “1,0”.

Lembrando que:

https://ambienteacademico.com.br/course/view.php?id=18504 39/60
19/11/22, 09:24 E-book

O primeiro passo
é criar uma tabela em uma planilha eletrônica,
salvando-a em formato CSV, para que a linguagem R possa importar

os dados da eficiência no atendimento.

O segundo passo
é importar os dados numéricos, por meio de

codificação em linguagem R, para serem submetidos ao processo de


agrupamento.

O terceiro passo
é aplicar à função
kmeans
a codificação da

linguagem R.

Apresente o resultado da variável ‘resultado’, gerado pela linguagem R por


meio da função
kmeans
. Depois, faça uma análise dos resultados do
algoritmo de clusterização.

Conhecimento
Teste seus Conhecimentos

(Atividade não pontuada)

A análise de grupos, também conhecida como agrupamento ou


clusterização, é utilizada para organizar grandes bases de dados ou um
conjunto de objetos em subconjuntos ou grupos (
clusters
), para que sejam
facilmente compreendidos ou pesquisados. O agrupamento pode ser
interpretado como um problema de otimização, diferentemente da
classificação, em que os registros estão associados a rótulos predefinidos.

https://ambienteacademico.com.br/course/view.php?id=18504 40/60
19/11/22, 09:24 E-book

No agrupamento, os objetos são considerados como entrada e não


possuem rótulos associados.

GOLDSCHMIDT, R.; PASSOS, E.; BEZERRA, E.


Data Mining
: conceitos,
técnicas, algoritmos e aplicações. 2. ed. Rio de Janeiro: Elsevier, 2015.
(Biblioteca ).

Diante dessas informações, é possível afirmar que a análise de grupos está


relacionada à:

a)
Amplitude dos elementos.
b)
Geometria dos elementos.
c)
Similaridade dos elementos.
d)
Distribuição de frequências.
e)
Repetição dos elementos.

Aprendizado não
supervisionado:
Análise de

https://ambienteacademico.com.br/course/view.php?id=18504 41/60
19/11/22, 09:24 E-book

Componentes
Principais

Você sabia que, na etapa de integração de dados, um dos problemas que


deve ser trabalhado é a redundância de dados? Esse problema ocorre,
principalmente, devido a três fatores:
uso de nomenclaturas diferentes
para
atributos equivalentes, mas provenientes de diferentes fontes de dados;
prática de
armazenar atributos do tipo derivado
(cujos valores são previstos
a partir de valores de outros atributos); e
adição de exemplares repetidos no
conjunto de dados
, decorrente de um erro de obtenção de dados. Nesses
casos, é interessante fazer a redução do conjunto (SILVA; PERES;
BOSCARIOLI, 2016).

Portanto, dentro de um processo KDD, na fase


de pré-processamento e de tarefas de seleção e
redução de dados, pode ser feita a análise de
componentes principais (PCA – Principal
Component Analysis), “também chamada
Karhunen-Loève ou Método K-L, é uma técnica
de redução de dados vertical que utiliza
conceitos da álgebra linear, mais
especificamente, os conceitos de autovetores e
autovalores de uma matriz” (GOLDSCHMIDT;
PASSOS; BEZERRA, 2015, p. 35).

Fonte: vectorjuice / Freepik.

https://ambienteacademico.com.br/course/view.php?id=18504 42/60
19/11/22, 09:24 E-book

Podemos relacionar as principais características da técnica de análise de


componentes principais:

técnica estatística de baixo custo computacional;

pode ser aplicada a qualquer conjunto de dados numéricos, com mais

de duas dimensões;
identificação de padrões ocultos de dados;

reduz a dimensionalidade por meio da redução da redundância de

dados;

realiza uma correlação entre as variáveis.

Para exemplificarmos o método PCA, utilizaremos a seguinte base de dados


multivariada para resolução pelo algoritmo na linguagem R, transformando
esses dados em variáveis numéricas iguais ou inferiores à amostra inicial
(PCA).

Esta base corresponde a dados de variáveis químicas de sedimento


amostradas em 24 locais:

N     P     K     Ca    Mg    S     Al    Fe    Mn    Zn    Mo


  pH    Cd

19.8  42.1  139.9 519.4 90.0  32.3  39.0  40.9  58.1  4.5  
0.30  2.7   2.2

13.4  39.1  167.3 356.7 70.7  35.2  88.1  39.0  52.4  5.4  
0.30  2.8   2.2

20.2  67.7  207.1 973.3 209.1 58.1  138.0 35.4  32.1  16.8
 0.80  3.0   2.0

20.6  60.8  233.7 834.0 127.2 40.7  15.4  4.4   132.0 10.7
 0.20  2.8   2.9

https://ambienteacademico.com.br/course/view.php?id=18504 43/60
19/11/22, 09:24 E-book

23.8  54.5  180.6 777.0 125.8 39.5  24.2  3.0   50.1  6.6  
0.30  2.7   3.0

22.8  40.9  171.4 691.8 151.4 40.8  104.8 17.6  43.6  9.1  
0.40  2.7   3.8

26.6  36.7  171.4 738.6 94.9  33.8  20.7  2.5   77.6  7.4  
0.30  2.8   2.8

24.2  31.0  138.2 394.6 45.3  27.1  74.2  9.8   24.4  5.2  
0.30  2.8   2.0

29.8  73.5  260.0 748.6 105.3 42.5  17.9  2.4   106.6 9.3  
0.30  2.8   3.0

28.1  40.5  313.8 540.7 118.9 60.2  329.7 109.9 61.7  9.1  
0.50  2.8   2.2

21.8  38.1  146.8 512.2 75.0  36.6  92.3  4.6   29.0  8.1  
0.50  2.7   2.7

26.2  61.9  202.2 741.2 86.3  48.6  124.3 23.6  94.5  10.2
 0.60  2.9   2.5

22.8  50.6  151.7 648.0 64.8  30.2  12.1  2.3   122.9 8.1  
0.20  2.9   2.6

30.5  24.6  78.7  188.5 55.5  25.3  294.9 123.8 10.1  3.0  
0.40  3.1   1.7

33.1  22.7  43.6  240.3 25.7  14.9  39.0  8.4   26.8  8.4  
0.20  3.1   1.0

19.1  26.4  61.1  259.1 37.0  21.4  155.1 81.4  20.6  4.0  
0.60  3.0   1.9

31.1  32.3  73.7  219.0 52.5  25.5  304.6 204.4 14.2  2.6  
0.50  3.3   1.8

https://ambienteacademico.com.br/course/view.php?id=18504 44/60
19/11/22, 09:24 E-book

18.0  64.9  224.5 517.6 59.7  52.9  435.1 101.2 38.0  9.5  
1.10  2.9   1.8

22.3  47.4  165.9 436.1 64.3  42.3  316.5 200.1 28.2  7.2  
0.30  2.9   1.5

15.0  48.4  127.4 499.6 75.1  46.9  227.1 32.2  35.1  8.9  
0.70  3.0   2.2

16.0  32.7  126.4 471.4 61.3  31.1  108.8 9.5   26.4  6.0  
0.40  2.9   2.2

14.3  62.8  215.2 709.7 102.5 48.6  168.2 32.0  46.9  8.7  
0.05  3.2   1.2

16.7  55.8  205.3 1169.7      126.3 35.9  253.6 96.4  25.1  8.2
  0.05  3.6   1.1

21.0  26.5  104.4 484.8 74.4  22.2  35.8  5.9   27.5  5.3  
0.20  3.0   2.5

Fonte: Elaborada pelo autor.

Assim, esses dados de elementos químicos, de variáveis multivariadas, estão


armazenados em um arquivo sedimento.txt.

Primeiro passo:
verificar a existência do pacote vegan (Community Ecology
Package) e atualizar; caso não tenha, é preciso instalá-lo, conforme Figura
2.14. No menu do console, acesse a opção ‘Pacotes/Instalar pacotes’ e, logo
depois, selecione o pacote vegan:

https://ambienteacademico.com.br/course/view.php?id=18504 45/60
19/11/22, 09:24 E-book

Figura 2.14 - Interface e prompt de comando da linguagem R (instalação do


pacote vegan)

Fonte: Elaborada pelo autor (2021).

#PraCegoVer:
a figura apresenta a interface da linguagem R, com a caixa de
instalação de pacotes. Na caixa de pacotes, mostra-se o pacote vegan
selecionado.

Segundo passo:
realizar a leitura da base de dados sedimento.txt, por meio
da função
read.table
, no console da linguagem R:

> dados <-


read.table("C:\\Users\\jacks\\sedimento.txt",header=T)

Terceiro passo:
carregar a biblioteca vegan por meio do comando
library
(nome), em que o ‘nome’ é o nome do pacote: >
library
(vegan), como ilustra a
Figura 2.15.

https://ambienteacademico.com.br/course/view.php?id=18504 46/60
19/11/22, 09:24 E-book

Figura 2.15 - Interface e prompt de comando da linguagem R (carregamento do


pacote vegan)

Fonte: Elaborada pelo autor.

#PraCegoVer:
a figura apresenta a interface da linguagem R, com informações de
carregamento de pacotes exigidos pelo
vegan
.

Quarto passo:
construir o PCA, aplicando a função
prcomp
(dados) (PCA de
covariância), conforme Figura 2.16, a seguir.. A função prcomp é atribuída no
objeto resultado:
resultado<-prcomp
(dados)

https://ambienteacademico.com.br/course/view.php?id=18504 47/60
19/11/22, 09:24 E-book

Figura 2.16 - Interface e prompt de comando da linguagem R (execução da


função PCA covariante)

Fonte: Elaborada pelo autor (2021).

#PraCegoVer:
a figura apresenta a interface da linguagem R, com informações de
execução da função
prcomp
(dados). Ainda, mostra os autovalores e autovetores
na matriz de covariância.

O resultado da função de análise de componentes principais,


prcomp
(dados),
é ilustrado pela Figura 2.16, que apresenta os desvios dos componentes
principais ‘Standard deviations (1, .., p=13)’, que são os autovalores. Após
isso, são apresentados os autovetores (PC1,...PC13), sendo que cada
autovetor está associado a um autovalor, a saber, um número real que
expressa a variância dos dados na direção do autovetor correspondente:
quanto maior a variância, maior o autovalor correspondente.

Quinto passo:
para fazer a plotagem dos resultados, é necessário utilizar a
função
biplot
(resultados), conforme Figura 2.17, a seguir:

https://ambienteacademico.com.br/course/view.php?id=18504 48/60
19/11/22, 09:24 E-book

Figura 2.17 - Interface e prompt de comando da linguagem R – execução da


função biplot(resultados)

Fonte: Elaborada pelo autor (2021).

#PraCegoVer:
: a figura apresenta a interface da linguagem R, com o gráfico dos
resultados da função PCA.

Podemos observar, na Figura 2.17, o conjunto de dados gerados pela função


biplot
(resultados), correspondente à projeção do conjunto de dados originais
sobre o espaço relativo aos
dois maiores componentes principais
, PC1 e
PC2. A análise de componentes principais descobre quais elementos são
mais similares, com base em seus atributos; em nosso exemplo, os
elementos químicos do sedimento.

O PCA faz com que uma representação multidimensional se torne


viável
por
um espaço bidimensional (os dois principais componentes), tornando visíveis
as similaridades entre os dados. Para Mariano et al. (2020, p. 82), a análise de
componentes principais permite a
detecção
de
padrões imperceptíveis
à
visão humana. Por isso, tem sido bastante utilizada em vários campos, como,
por exemplo, na observação de movimentação de moléculas em simulações
computacionais usadas na produção de fármacos.

https://ambienteacademico.com.br/course/view.php?id=18504 49/60
19/11/22, 09:24 E-book

praticar
Vamos Praticar
Implementação do algoritmo de análise de componentes principais

A linguagem R possui funções específicas para a aplicação do algoritmo de


componentes principais, como, por exemplo, a função
prcomp
(dados), com
objetivo de reduzir a dimensionalidade, por meio da redução da
redundância de dados.

Vamos aproveitar os dados anteriores, relacionados a avaliações de


pacientes acerca do atendimento de uma unidade de saúde. Nesse sentido,
é considerado o tempo para efetuar o atendimento, além da nota atribuída
a ele.

Assim, vejamos uma possível tabela normalizada dos dados, a seguir:

https://ambienteacademico.com.br/course/view.php?id=18504 50/60
19/11/22, 09:24 E-book

Número do
Tempo (horas) Nota
atendimento

1 0,30 0,57

2 0,50 1,00

3 1,00 0,50

4 0,50 1,00

5 1,00 0,85

6 1,00 1,0

7 0,9 1,0

Tabela 2.6 - Eficiência no atendimento

Fonte: Elaborada pelo autor.

#PraCegoVer:
a tabela contém três colunas e sete linhas. Da esquerda
para a direita, temos as seguintes colunas, respectivamente: “Número do
atendimento”, “Tempo (horas)” e “Nota”. Na coluna “Número do
atendimento”, temos os seguintes dados, de cima para baixo: “1”, “2”, “3”,
“4”, “5”, “6” e “7”. Já na coluna “Tempo (horas)”, temos os seguintes
dados, de cima para baixo: “0,30”, “0,50”, “1,00”, “0,50”, “1,00”, “1,00” e
“0,9”. Por fim, na coluna “Nota”, temos os seguintes dados, de cima para
baixo: “0,57”, “1,00”, “0,50”, “1,00”, “0,85”, “1,0” e “1,0”.

Agora, por meio do uso da linguagem R e da função


prcomp
(dados) do
pacote vegan, gere os autovalores e os autovetores, e plote o gráfico da

https://ambienteacademico.com.br/course/view.php?id=18504 51/60
19/11/22, 09:24 E-book

função PCA, mostrando a redução da redundância de dados e identificando


os principais componentes do conjunto de dados.

Conhecimento
Teste seus Conhecimentos

(Atividade não pontuada)

O PCA é um método estatístico para redução de dimensionalidade que


detecta os componentes que representam as maiores variabilidades nos
dados, denominados componentes principais. Assim, o conceito básico do
método de análise de componentes principais envolve a projeção dos dados
em um(a):

MARIANO, D. C. B.
et al.
Data Mining
. Porto Alegre: SAGAH, 2020.

a)
Espaço multidimensional ampliado.
b)
Espaço dimensional reduzido.
c)
Matriz tridimensional variável.
d)
Vetor comprimido de uma dimensão.
e)
Vetor multidimensional.

https://ambienteacademico.com.br/course/view.php?id=18504 52/60
19/11/22, 09:24 E-book

Material
Complementar

FILME

Chappie: um robô consciente


Ano:
2015


Comentário:
O filme mostra a aplicação da inteligência
artificial em um robô pensante, denominado Chappie. A
história apresenta uma evolução em aprendizagem de
máquina que impressiona e, ao mesmo tempo, preocupa
alguns que são contra a evolução das máquinas
inteligentes.

TRAILER

https://ambienteacademico.com.br/course/view.php?id=18504 53/60
19/11/22, 09:24 E-book

LIVRO

Data Mining: conceitos, técnicas,


algoritmos e aplicações
Ronaldo Goldschmidt, Emmanuel Passos e Eduardo
Bezerra

Editora:
Elsevier

Ano:
2015

ISBN:
978-85-352-7822-4

Comentário:
Esse livro é uma obra completa e detalhada
sobre a mineração de dados e suas técnicas, orientações,
aplicações e algoritmos. Faça a leitura do tópico 4.2.8, que
aborda a clusterização/agrupamento. Por meio dessa
leitura, você vai complementar os seus conhecimentos
sobre a temática.

LIVRO

Introdução à mineração de dados: com


aplicações em R
Leandro Augusto da Silva, Sarajane Marques Peres e
Clodis Boscarioli

Editora:
Elsevier

Ano:
2016

ISBN:
978-85-352-8446-1

Comentário:
Faça a leitura do apêndice, “Iniciando em R”
(p. 220-250), o qual aborda a linguagem R e os seguintes
assuntos: pacotes, variáveis, funções matemáticas, tipos

https://ambienteacademico.com.br/course/view.php?id=18504 54/60
19/11/22, 09:24 E-book

de dados, vetores, listas, matrizes,


arrays
, importação de
dados de arquivos e gráficos.

GOLDSCHMIDT, R.; PASSOS, E.; BEZERRA, E.


Data Mining
:
conceitos, técnicas, algoritmos e aplicações. 2. ed. Rio de
Janeiro: Elsevier, 2015. (Biblioteca ).

https://ambienteacademico.com.br/course/view.php?id=18504 55/60
19/11/22, 09:24 E-book

Conclusão
Caro(a) aluno(a), chegamos ao fim do nosso estudo! Como vimos, podemos
concluir que, para guiar o processo de mineração de dados, são necessárias uma
abordagem de aprendizagem supervisionada
(utilizada em modelos preditivos) e
uma abordagem de aprendizagem não supervisionada
(utilizada em modelos
descritivos).

Além disso, estudamos o conceito e a aplicação prática do modelo de


clusterização (ou agrupamento) e, também, do modelo de análise de componentes
principais, utilizando ferramentas de linguagem de programação R.

Este conteúdo foi produzido de forma a explorar vários temas e fornecer múltiplas
possibilidades conceituais. Assim, esperamos que você tenha gostado! Até a
próxima!

Referências
GOLDSCHMIDT, R.; PASSOS, E.;
BEZERRA, E.
Data Mining
: conceitos,
técnicas, algoritmos e aplicações. 2. ed.

https://ambienteacademico.com.br/course/view.php?id=18504 56/60
19/11/22, 09:24 E-book

Rio de Janeiro: Elsevier, 2015.


(Biblioteca ).

GOLDSCHMIDT, R.; PASSOS, E.;


BEZERRA, E.
Data Mining
: conceitos,
técnicas, algoritmos e aplicações. 2. ed.
Rio de Janeiro: Elsevier, 2015.
(Biblioteca ).

MARIANO, D. C. B.
et al
.
Data Mining.
Porto Alegre: SAGAH, 2020.

SILVA, L. A. da.; PERES, S. M.; BOSCARIOLI, C.


Introdução à mineração de dados
:
com aplicações em R. Rio de Janeiro: Elsevier, 2016.

https://ambienteacademico.com.br/course/view.php?id=18504 57/60
19/11/22, 09:24 E-book

https://ambienteacademico.com.br/course/view.php?id=18504 58/60
19/11/22, 09:24 E-book

https://ambienteacademico.com.br/course/view.php?id=18504 59/60
19/11/22, 09:24 E-book

https://ambienteacademico.com.br/course/view.php?id=18504 60/60

Você também pode gostar