Escolar Documentos
Profissional Documentos
Cultura Documentos
MACHINE LEARNING
PROCESSO DE APRENDIZADO
SUPERVISIONADO E NÃO
SUPERVISIONADO
Autor: Me. Jackson Luis Schirigatti
https://ambienteacademico.com.br/course/view.php?id=18504 1/60
19/11/22, 09:24 E-book
Introdução
Olá, aluno(a)! Seja bem-vindo(a)! Nesta unidade, vamos compreender que, em
um processo de mineração de dados, são utilizados, amplamente,
procedimentos que
conduzam
a uma
aprendizagem
voltada a resultados
esperados
e
não esperados
, tais como o aprendizado supervisionado e o não
supervisionado.
Boa leitura!
Aprendizado
Supervisionado e
https://ambienteacademico.com.br/course/view.php?id=18504 2/60
19/11/22, 09:24 E-book
Aprendizado não
Supervisionado
https://ambienteacademico.com.br/course/view.php?id=18504 3/60
19/11/22, 09:24 E-book
Predição discreta
(classificação)
Um exemplo prático do uso da
predição discreta (ou
classificação) é o caso de uma
financeira de cartão de crédito
Fonte: Oleksandr Rybitskyi / 123RF. que poderá realizar ou não a
concessão de crédito
. Essa
tarefa se dá por meio de
árvores
de
decisão
ou por regras de
classificação.
Predição contínua
(estimação)
Um exemplo prático do uso da
predição contínua (ou
estimação) pode ser visualizado
quando determinada financeira
Fonte: Dmitrii Shironosov / 123RF. de cartão de crédito vai efetuar a
concessão de crédito e precisa
conhecer o limite que será
atribuído. O valor dessa
https://ambienteacademico.com.br/course/view.php?id=18504 4/60
19/11/22, 09:24 E-book
A
predição contínua
possui muitas características da predição discreta
(classificação), no entanto, tem como esforço principal a predição de valores
contínuos de uma variável (estimação), a qual será do tipo
aprendizagem
supervisionada
ou
paradigma de aprendizagem
. Para Castro e Ferrari (2016,
p. 200):
https://ambienteacademico.com.br/course/view.php?id=18504 5/60
19/11/22, 09:24 E-book
Aprendizagem supervisionada e
aprendizagem não supervisionada
O processo de aprendizagem de máquina pode ser melhor orientado por meio
de um paradigma supervisionado ou não supervisionado; ambos utilizam
algoritmos estatísticos e matemáticos.
● Aprendizado supervisionado
https://ambienteacademico.com.br/course/view.php?id=18504 6/60
19/11/22, 09:24 E-book
https://ambienteacademico.com.br/course/view.php?id=18504 7/60
19/11/22, 09:24 E-book
1 5 480
2 5,6 450
3 7 430
4 8 400
5 7,6 350
6 6,4 360
7 7,5 280
#PraCegoVer
: a tabela contém três colunas e sete linhas. Da esquerda
para a direita, temos as seguintes colunas, respectivamente: “id”,
“Quilômetros x Litros” e “Polegadas cúbicas (dimensão do motor”. Na
coluna “id”, temos os seguintes dados, de cima para baixo: “1”, “2”, “3”,
“4”, “5”, “6” e “7”. Já na coluna "Quilômetros x Litros”, temos os seguintes
dados, de cima para baixo: “5”, “5,6”, “7”, “8”, “7,6”, “6,4” e “7,5”. Por fim,
na coluna “Polegadas cúbicas (dimensão do motor)”, temos os
seguintes dados, de cima para baixo: “480”, “450”, “430”, “400”, “350”,
“360” e “280”.
https://ambienteacademico.com.br/course/view.php?id=18504 8/60
19/11/22, 09:24 E-book
https://ambienteacademico.com.br/course/view.php?id=18504 9/60
19/11/22, 09:24 E-book
Renda
Produtos Existe familiar
Clientes Categoria
comprados qualidade (salário
mínimo)
Agasalho
1 Não <=4 B
esportivo
Barraca de
1 Não <=4 B
camping
#PraCegoVer
: a tabela contém cinco colunas e seis linhas. Da esquerda
para a direita, temos as seguintes colunas, respectivamente: “Clientes”,
“Produtos comprados”, “Existe qualidade”, “Renda familiar (salário
mínimo)” e “Categoria”. Na coluna “Clientes”, temos os seguintes dados,
de cima para baixo: “1”, “2”, “1”, “4”, “4” e “2”. Já na coluna "Produtos
comprados”, temos os seguintes dados, de cima para baixo: “Agasalho
esportivo”, “Calçado social”, “Barraca de camping”, “Bebidas”, “Carnes” e
“Roupa social”. Por sua vez, na coluna “Existe qualidade”, temos os
seguintes dados, de cima para baixo: “Não”, “Sim”, “Não”, “Sim”, “Sim” e
“Sim”. Na coluna “Renda familiar (salário mínimo)”, temos os seguintes
dados, de cima para baixo: “<=4”, “>=4”, “<=4”, “<4”, “<4” e “>=4”. Por fim,
https://ambienteacademico.com.br/course/view.php?id=18504 10/60
19/11/22, 09:24 E-book
●
Aprendizado preditivo:
● Aprendizado descritivo
https://ambienteacademico.com.br/course/view.php?id=18504 11/60
19/11/22, 09:24 E-book
de
aprendizado não supervisionado.
A Fonte: Clare Louise Jackson / 123RF.
finalidade é
encontrar
objetos
semelhantes
no
conjunto de dados ou
regras de associação
que
relacionam
um grupo de atributos a um outro
grupo de atributos.
https://ambienteacademico.com.br/course/view.php?id=18504 12/60
19/11/22, 09:24 E-book
#PraCegoVer
: a figura mostra um diagrama hierárquico. No topo da hierarquia,
está o “Aprendizado induzido”, o qual está dividido em “Supervisionado ‘preditivo’”
e “Não supervisionado ‘descritivo’”. As tarefas supervisionadas estão divididas
em “Classificação” e “Regressão” (tipos de rótulos de dados). Já as tarefas não
supervisionadas estão divididas em “Agrupamento”, “Associação” e
“Sumarização”.
Classificação
: é denominada de predição discreta. Castro e Ferrari
(2016, p. 200) comentam que “a tarefa de classificação pode ser vista
https://ambienteacademico.com.br/course/view.php?id=18504 13/60
19/11/22, 09:24 E-book
Regressão
: é denominada de predição contínua. Busca encontrar um
Agrupamento
: dados agrupados por similaridade. Também podemos
Associação
: a finalidade é encontrar padrões frequentes entre os
atributos de um conjunto de dados ou relações entre as variáveis;
Aprendizado não
supervisionado:
cluster
https://ambienteacademico.com.br/course/view.php?id=18504 14/60
19/11/22, 09:24 E-book
https://ambienteacademico.com.br/course/view.php?id=18504 15/60
19/11/22, 09:24 E-book
#PraCegoVer
:a figura traz objetos geométricos, como círculos, quadrados e
triângulos, de forma desorganizada, à esquerda. Em seguida, à direita, temos os
objetos geométricos organizados em grupos.
https://ambienteacademico.com.br/course/view.php?id=18504 16/60
19/11/22, 09:24 E-book
#PraCegoVer
: a figura apresenta os níveis de eficiência energética em uma
escala crescente, de A a G. Cada nível representa um agrupamento.
https://ambienteacademico.com.br/course/view.php?id=18504 17/60
19/11/22, 09:24 E-book
1 80 M 60
2 75 F 44
3 78 M 55
4 68 F 50
5 81 M 70
#PraCegoVer
: a tabela contém quatro colunas e cinco linhas. Da
esquerda para a direita, temos as seguintes colunas: “Paciente”, “Peso”,
“Sexo” e “Idade”. Na coluna “Paciente”, temos os seguintes dados, de
cima para baixo: “1”, “2”, “3”, “4” e “5”. Já na coluna “Peso”, temos os
seguintes dados, de cima para baixo: “80”, “75”, “78”, “68” e “81”. Por sua
vez, na coluna “Sexo”, temos os seguintes dados, de cima para baixo:
“M”, “F”, “M”, “F” e “M”. Na coluna “Idade”, por fim, temos os seguintes
dados, de cima para baixo: “60”, “44”, “55”, “50” e “70”.
https://ambienteacademico.com.br/course/view.php?id=18504 18/60
19/11/22, 09:24 E-book
Figura 2.4 - Peças de peões não rotuladas, dispostas em grupos que possuem
formas idênticas, mas cores diferentes
#PraCegoVer
: a figura traz três grupos de peças de peões, com formas idênticas,
organizadas pelas cores verde, vermelho e azul.
No agrupamento, o objetivo é
segmentar
uma base de dados
não rotulada
em grupos que possuem algum
significado
. Ela não será
rotulada
ou
identificada
por uma classe, mas, sim,
agrupada
por
similaridades
,
dimensões
ou
características
.
O exemplo da Figura 2.4 mostra que cada grupo de peões possui um atributo
de similaridade: a cor. O atributo “tamanho” não poderá ser utilizado, pois
todos os peões têm o mesmo tamanho. As características do agrupamento
podem ser atributos diversos, como
cor
,
tamanho
ou
ação
. Assim, criam-se
grupos por similaridades. Os grupos devem ter os mesmos atributos, mas
com valores que os identificam especificamente em um agrupamento.
https://ambienteacademico.com.br/course/view.php?id=18504 19/60
19/11/22, 09:24 E-book
1 5,1
2 2,2
3 2,1
4 2,3
5 2,1
6 2,2
7 3,4
8 4,9
9 5,8
10 3,2
11 3,1
12 3,3
#PraCegoVer
: a tabela contém duas colunas e 12 linhas. Da esquerda
para a direita, temos as seguintes colunas: “Período (meses)” e “% de
vendas”. A coluna “Período (meses)” apresenta os seguintes dados, de
cima para baixo: “1”, “2”, “3”, “4”, “5”, “6”, “7”, “8”, “9”, “10”, “11” e “12”. Já a
https://ambienteacademico.com.br/course/view.php?id=18504 20/60
19/11/22, 09:24 E-book
#PraCegoVer
: a figura apresenta um gráfico de dispersão. No eixo “x”, estão os
períodos (meses), com os seguintes indicadores: “0”, “2”, “4”, “6”, “8”, “10”, “12” e
“14”. Já no eixo “y”, está o % de vendas, com os seguintes indicadores: “0”, “1”,
“2”, “3”, “4”, “5”, “6” e “7”. Os valores dispersos no gráfico, nos termos dos eixos
“x” e “y”, são: “1;5,1” - “2;2,2” - “3;2,1” - “4;2,3” - “5;2,1” - “6;2,2” - “7;3,4” - “8;4,9” -
“9;5,8” - “10;3,2” - “11;3,1” - “12;3,3”.
https://ambienteacademico.com.br/course/view.php?id=18504 21/60
19/11/22, 09:24 E-book
Pré-processamento de dados:
Consiste na preparação da base para a realização do agrupamento.
Etapas: limpeza, integração, redução, transformação e discretização.
Medidas de similaridade:
A definição das medidas de similaridade é necessária para que o
Métodos de agrupamento:
Aqui, algoritmos computacionais específicos de agrupamento são
https://ambienteacademico.com.br/course/view.php?id=18504 22/60
19/11/22, 09:24 E-book
Representação dos grupos:
São representações gráficas simples e compactas dos grupos. As
O agrupamento resultante de algoritmos, aplicado a um determinado
conjunto de dados, deve ser aferido por meio de indicadores. Os
REFLITA
https://ambienteacademico.com.br/course/view.php?id=18504 23/60
19/11/22, 09:24 E-book
https://ambienteacademico.com.br/course/view.php?id=18504 24/60
19/11/22, 09:24 E-book
#PraCegoVer
: o infográfico estático apresenta imagem de fundo e quatro abas,
sendo duas de um lado e duas do outro. A imagem é de cubos coloridos que
caem de cima até embaixo, formando uma pilha de quadrados coloridos. As abas
apresentam os respectivos conteúdos. 1ª aba: “Passo 1: Cada registro da base
de dados é atribuído ao cluster (uma classe)”. 2ª aba: “Passo 2: Calcular a menor
distância dos clusters, ou seja, a distância do ponto atribuído ao centroide é a
menor dentre todas as distâncias calculadas”. 3ª aba: “Passo 3: Um novo
centroide para cada cluster é atribuído pela média dos pontos do cluster, o que
pode promover um reposicionamento dos centroides e uma nova alocação dos
objetos (atualização dos clusters)”. 4ª aba: “Passo 4: O processo termina quando
os centroides do cluster param de se modificar”.
Algoritmo medoide:
segundo Castro e Ferrari (2016, p. 119), “pode ser
definido como um objeto com a menor dissimilaridade média a todos os
outros objetos, ou seja, é o objeto mais centralmente localizado no grupo”.
O objetivo do algoritmo é
encontrar o medoide
. Os objetos restantes são
clusterizados
(agrupados) ao medoide ao qual eles são mais
similares
.
Haverá uma troca interativa de um medoide e um não medoide para a
melhoria da clusterização.
https://ambienteacademico.com.br/course/view.php?id=18504 25/60
19/11/22, 09:24 E-book
1
2
3
4
Se o custo total for maior que o da etapa anterior, deve-se desfazer a troca.
Algoritmo
fuzzy
k-médias:
segundo Castro e Ferrari (2016, p. 122), “é uma
extensão do algoritmo k-médias, na qual cada objeto possui um grau de
pertinência em relação aos grupos de base”. No algoritmo
fuzzy
k-médias, um
objeto pode
pertencer a mais de um grupo
, no entanto, com diversos graus
de pertinência.
https://ambienteacademico.com.br/course/view.php?id=18504 26/60
19/11/22, 09:24 E-book
#PraCegoVer:
a figura apresenta um gráfico de clusterização. Na parte superior, à
esquerda, há seis círculos, um deles destacado com o número “2”. Mais abaixo,
também à esquerda, há cinco círculos, um deles destacado com o número “1”.
Por fim, no canto direito, há cinco círculos, um deles destacado com o número
“3”. Os círculos em destaque, a saber, 1, 2 e 3, são as médias relacionadas a cada
cluster.
https://ambienteacademico.com.br/course/view.php?id=18504 27/60
19/11/22, 09:24 E-book
#PraCegoVer:
a figura apresenta um gráfico de clusterização. Na parte superior, à
esquerda, há seis círculos, um deles destacado com o número “2”, em azul; os
demais círculos estão destacados apenas com o número “2”, sem nenhuma cor
específica. Mais abaixo, ainda à esquerda, há cinco círculos, um deles destacado
com o número “1”, em azul; os demais círculos estão destacados apenas com o
número “1”, sem nenhuma cor específica. À direita, finalmente, há cinco círculos,
um deles destacado com o número “3”, em azul; os demais círculos estão
destacados apenas com o número “3”. Os círculos em destaque, a saber, 1, 2 e 3,
são os representantes de cada cluster.
https://ambienteacademico.com.br/course/view.php?id=18504 28/60
19/11/22, 09:24 E-book
#PraCegoVer:
a figura apresenta um gráfico de clusterização. Os círculos em
destaque são os novos representantes de cada
cluster
, obtidos pela média dos
seus pontos. Na parte superior, à esquerda, há seis círculos, um deles (em azul)
marcado com uma cruz em destaque, além de uma seta apontando para um
círculo preto (centroide); os demais círculos estão destacados apenas com o
número “2”. Mais abaixo, também à esquerda, há cinco círculos, um deles (em
azul) marcado com uma cruz em destaque, além de uma seta apontando para um
círculo preto (centroide); os demais círculos estão destacados apenas com o
número “1”. Por fim, à direita, há cinco círculos, um deles (em azul) marcado com
uma cruz em destaque, além de uma seta apontando para um círculo preto
(centroide).
https://ambienteacademico.com.br/course/view.php?id=18504 29/60
19/11/22, 09:24 E-book
Linguagem R
Para a execução da implementação dos algoritmos de mineração, a
linguagem de programação R é o
ambiente ideal
. Segundo Silva, Peres e
Boscarioli (2016, p. 221), trata-se de “um ambiente para desenvolvimento de
ferramentas computacionais que envolvam conceitos de estatísticas e
apresentação de resultados na forma de gráficos”.
SAIBA MAIS
Para fazer o
download
gratuito da linguagem R
para as várias plataformas, acesse o
site
“The R
Project for Statistical Computing” e escolha a
opção que deseja baixar. Como sugestão direta
de
download
para a versão Windows 4.0.5,
acesse.
ACESSAR
https://ambienteacademico.com.br/course/view.php?id=18504 30/60
19/11/22, 09:24 E-book
Operações em R:
os códigos da linguagem R podem ser executados por
linhas de comando
, por meio de um terminal identificado pelo curso “>” e de
um comando da linguagem R. Um exemplo seria a operação de soma a
seguir:
> 1+4+3
[1] 8
https://ambienteacademico.com.br/course/view.php?id=18504 31/60
19/11/22, 09:24 E-book
#PraCegoVer:
a figura apresenta a interface da linguagem R, com os seguintes
comandos presentes no menu, da esquerda para a direita, respectivamente:
“Arquivo”, “Editar”, “Visualizar”, “Misc”, “Pacotes”, “Janelas” e “Ajuda”. Ainda, a
figura apresenta ícones e informações sobre a versão da linguagem R: versão
4.0.5 (2021-03-31) e direitos de
copyright
e licença. Após isso, apresenta o
comando de prompt “>” e a operação “1+4+3” e, na próxima linha, indicada por [1],
o resultado “8”.
Funções em R:
no caso de funções matemáticas, o exemplo a seguir ilustra a
função raiz quadrada. O sinal ‘#’ indica um comentário:
>#raiz quadrada
>sqrt (4)
[1]
https://ambienteacademico.com.br/course/view.php?id=18504 32/60
19/11/22, 09:24 E-book
#PraCegoVer:
a figura apresenta a interface da linguagem R, com os seguintes
comandos presentes no menu, da esquerda para a direita, respectivamente:
“Arquivo”, “Editar”, “Visualizar”, “Misc”, “Pacotes”, “Janelas” e “Ajuda”. Ainda,
apresenta os ícones e a linha de comando ‘>’, com atribuição de valor.
https://ambienteacademico.com.br/course/view.php?id=18504 33/60
19/11/22, 09:24 E-book
(uso do ponto decimal), ASCII e separados por ponto e vírgula [;]. Vejamos o
exemplo:
1;0.7;0.9
2;0.7;0.8
3;0.8;0.2
4;0.6;0.9
5;0.9;0.4
https://ambienteacademico.com.br/course/view.php?id=18504 34/60
19/11/22, 09:24 E-book
#PraCegoVer:
a figura apresenta a interface da linguagem R, com os seguintes
comandos presentes no menu, da esquerda para a direita, respectivamente:
“Arquivo”, “Editar”, “Visualizar”, “Misc”, “Pacotes”, “Janelas” e “Ajuda”. Ainda,
apresenta os ícones e, após selecionada a opção ‘pacotes/carregar pacote/stats’,
a linha de comando ‘>’ e o código de carga do pacote ‘stats’.
https://ambienteacademico.com.br/course/view.php?id=18504 35/60
19/11/22, 09:24 E-book
#PraCegoVer:
a figura apresenta a interface da linguagem R, com os seguintes
comandos presentes no menu, da esquerda para a direita, respectivamente:
“Arquivo”, “Editar”, “Visualizar”, “Misc”, “Pacotes”, “Janelas” e “Ajuda”. Está
digitado, na linha de comando da interface, o código de leitura do arquivo
‘c:\\Users\\jacks\\nome_da_tabela.csv’, por meio da função
read.table
. A tabela
é atribuída para a variável ‘dados’. O tipo de dado é visualizado no console como
data.frame.
https://ambienteacademico.com.br/course/view.php?id=18504 36/60
19/11/22, 09:24 E-book
#PraCegoVer:
a figura apresenta a interface da linguagem R, com os seguintes
comandos presentes no menu, da esquerda para a direita, respectivamente:
“Arquivo”, “Editar”, “Visualizar”, “Misc”, “Pacotes”, “Janelas” e “Ajuda”. Está
digitado, na linha de comando da interface, o código de leitura do arquivo
‘c:\\Users\\jacks\\nome_da_tabela.csv’, por meio da função read.table. A tabela é
atribuída para a variável ‘dados’.
https://ambienteacademico.com.br/course/view.php?id=18504 37/60
19/11/22, 09:24 E-book
praticar
Vamos Praticar
Implementação do algoritmo k-médias
https://ambienteacademico.com.br/course/view.php?id=18504 38/60
19/11/22, 09:24 E-book
Número do
Tempo (horas) Nota
atendimento
1 0,30 0,57
2 0,50 1,00
3 1,00 0,50
4 0,50 1,00
5 1,00 0,85
6 1,00 1,0
7 0,9 1,0
#PraCegoVer:
a tabela contém três colunas e sete linhas. Da esquerda
para a direita, temos as seguintes colunas, respectivamente: “Número do
atendimento”, “Tempo (horas)” e “Nota”. Na coluna “Número do
atendimento”, temos os seguintes dados, de cima para baixo: “1”, “2”, “3”,
“4”, “5”, “6” e “7”. Já na coluna “Tempo (horas)”, temos os seguintes
dados, de cima para baixo: “0,30”, “0,50”, “1,00”, “0,50”, “1,00”, “1,00” e
“0,9”. Por fim, na coluna “Nota”, temos os seguintes dados, de cima para
baixo: “0,57”, “1,00”, “0,50”, “1,00”, “0,85”, “1,0” e “1,0”.
Lembrando que:
https://ambienteacademico.com.br/course/view.php?id=18504 39/60
19/11/22, 09:24 E-book
O primeiro passo
é criar uma tabela em uma planilha eletrônica,
salvando-a em formato CSV, para que a linguagem R possa importar
O segundo passo
é importar os dados numéricos, por meio de
O terceiro passo
é aplicar à função
kmeans
a codificação da
linguagem R.
Conhecimento
Teste seus Conhecimentos
https://ambienteacademico.com.br/course/view.php?id=18504 40/60
19/11/22, 09:24 E-book
a)
Amplitude dos elementos.
b)
Geometria dos elementos.
c)
Similaridade dos elementos.
d)
Distribuição de frequências.
e)
Repetição dos elementos.
Aprendizado não
supervisionado:
Análise de
https://ambienteacademico.com.br/course/view.php?id=18504 41/60
19/11/22, 09:24 E-book
Componentes
Principais
https://ambienteacademico.com.br/course/view.php?id=18504 42/60
19/11/22, 09:24 E-book
de duas dimensões;
identificação de padrões ocultos de dados;
dados;
19.8 42.1 139.9 519.4 90.0 32.3 39.0 40.9 58.1 4.5
0.30 2.7 2.2
13.4 39.1 167.3 356.7 70.7 35.2 88.1 39.0 52.4 5.4
0.30 2.8 2.2
20.2 67.7 207.1 973.3 209.1 58.1 138.0 35.4 32.1 16.8
0.80 3.0 2.0
20.6 60.8 233.7 834.0 127.2 40.7 15.4 4.4 132.0 10.7
0.20 2.8 2.9
https://ambienteacademico.com.br/course/view.php?id=18504 43/60
19/11/22, 09:24 E-book
23.8 54.5 180.6 777.0 125.8 39.5 24.2 3.0 50.1 6.6
0.30 2.7 3.0
22.8 40.9 171.4 691.8 151.4 40.8 104.8 17.6 43.6 9.1
0.40 2.7 3.8
26.6 36.7 171.4 738.6 94.9 33.8 20.7 2.5 77.6 7.4
0.30 2.8 2.8
24.2 31.0 138.2 394.6 45.3 27.1 74.2 9.8 24.4 5.2
0.30 2.8 2.0
29.8 73.5 260.0 748.6 105.3 42.5 17.9 2.4 106.6 9.3
0.30 2.8 3.0
28.1 40.5 313.8 540.7 118.9 60.2 329.7 109.9 61.7 9.1
0.50 2.8 2.2
21.8 38.1 146.8 512.2 75.0 36.6 92.3 4.6 29.0 8.1
0.50 2.7 2.7
26.2 61.9 202.2 741.2 86.3 48.6 124.3 23.6 94.5 10.2
0.60 2.9 2.5
22.8 50.6 151.7 648.0 64.8 30.2 12.1 2.3 122.9 8.1
0.20 2.9 2.6
30.5 24.6 78.7 188.5 55.5 25.3 294.9 123.8 10.1 3.0
0.40 3.1 1.7
33.1 22.7 43.6 240.3 25.7 14.9 39.0 8.4 26.8 8.4
0.20 3.1 1.0
19.1 26.4 61.1 259.1 37.0 21.4 155.1 81.4 20.6 4.0
0.60 3.0 1.9
31.1 32.3 73.7 219.0 52.5 25.5 304.6 204.4 14.2 2.6
0.50 3.3 1.8
https://ambienteacademico.com.br/course/view.php?id=18504 44/60
19/11/22, 09:24 E-book
18.0 64.9 224.5 517.6 59.7 52.9 435.1 101.2 38.0 9.5
1.10 2.9 1.8
22.3 47.4 165.9 436.1 64.3 42.3 316.5 200.1 28.2 7.2
0.30 2.9 1.5
15.0 48.4 127.4 499.6 75.1 46.9 227.1 32.2 35.1 8.9
0.70 3.0 2.2
16.0 32.7 126.4 471.4 61.3 31.1 108.8 9.5 26.4 6.0
0.40 2.9 2.2
14.3 62.8 215.2 709.7 102.5 48.6 168.2 32.0 46.9 8.7
0.05 3.2 1.2
16.7 55.8 205.3 1169.7 126.3 35.9 253.6 96.4 25.1 8.2
0.05 3.6 1.1
21.0 26.5 104.4 484.8 74.4 22.2 35.8 5.9 27.5 5.3
0.20 3.0 2.5
Primeiro passo:
verificar a existência do pacote vegan (Community Ecology
Package) e atualizar; caso não tenha, é preciso instalá-lo, conforme Figura
2.14. No menu do console, acesse a opção ‘Pacotes/Instalar pacotes’ e, logo
depois, selecione o pacote vegan:
https://ambienteacademico.com.br/course/view.php?id=18504 45/60
19/11/22, 09:24 E-book
#PraCegoVer:
a figura apresenta a interface da linguagem R, com a caixa de
instalação de pacotes. Na caixa de pacotes, mostra-se o pacote vegan
selecionado.
Segundo passo:
realizar a leitura da base de dados sedimento.txt, por meio
da função
read.table
, no console da linguagem R:
Terceiro passo:
carregar a biblioteca vegan por meio do comando
library
(nome), em que o ‘nome’ é o nome do pacote: >
library
(vegan), como ilustra a
Figura 2.15.
https://ambienteacademico.com.br/course/view.php?id=18504 46/60
19/11/22, 09:24 E-book
#PraCegoVer:
a figura apresenta a interface da linguagem R, com informações de
carregamento de pacotes exigidos pelo
vegan
.
Quarto passo:
construir o PCA, aplicando a função
prcomp
(dados) (PCA de
covariância), conforme Figura 2.16, a seguir.. A função prcomp é atribuída no
objeto resultado:
resultado<-prcomp
(dados)
https://ambienteacademico.com.br/course/view.php?id=18504 47/60
19/11/22, 09:24 E-book
#PraCegoVer:
a figura apresenta a interface da linguagem R, com informações de
execução da função
prcomp
(dados). Ainda, mostra os autovalores e autovetores
na matriz de covariância.
Quinto passo:
para fazer a plotagem dos resultados, é necessário utilizar a
função
biplot
(resultados), conforme Figura 2.17, a seguir:
https://ambienteacademico.com.br/course/view.php?id=18504 48/60
19/11/22, 09:24 E-book
#PraCegoVer:
: a figura apresenta a interface da linguagem R, com o gráfico dos
resultados da função PCA.
https://ambienteacademico.com.br/course/view.php?id=18504 49/60
19/11/22, 09:24 E-book
praticar
Vamos Praticar
Implementação do algoritmo de análise de componentes principais
https://ambienteacademico.com.br/course/view.php?id=18504 50/60
19/11/22, 09:24 E-book
Número do
Tempo (horas) Nota
atendimento
1 0,30 0,57
2 0,50 1,00
3 1,00 0,50
4 0,50 1,00
5 1,00 0,85
6 1,00 1,0
7 0,9 1,0
#PraCegoVer:
a tabela contém três colunas e sete linhas. Da esquerda
para a direita, temos as seguintes colunas, respectivamente: “Número do
atendimento”, “Tempo (horas)” e “Nota”. Na coluna “Número do
atendimento”, temos os seguintes dados, de cima para baixo: “1”, “2”, “3”,
“4”, “5”, “6” e “7”. Já na coluna “Tempo (horas)”, temos os seguintes
dados, de cima para baixo: “0,30”, “0,50”, “1,00”, “0,50”, “1,00”, “1,00” e
“0,9”. Por fim, na coluna “Nota”, temos os seguintes dados, de cima para
baixo: “0,57”, “1,00”, “0,50”, “1,00”, “0,85”, “1,0” e “1,0”.
https://ambienteacademico.com.br/course/view.php?id=18504 51/60
19/11/22, 09:24 E-book
Conhecimento
Teste seus Conhecimentos
MARIANO, D. C. B.
et al.
Data Mining
. Porto Alegre: SAGAH, 2020.
a)
Espaço multidimensional ampliado.
b)
Espaço dimensional reduzido.
c)
Matriz tridimensional variável.
d)
Vetor comprimido de uma dimensão.
e)
Vetor multidimensional.
https://ambienteacademico.com.br/course/view.php?id=18504 52/60
19/11/22, 09:24 E-book
Material
Complementar
FILME
Comentário:
O filme mostra a aplicação da inteligência
artificial em um robô pensante, denominado Chappie. A
história apresenta uma evolução em aprendizagem de
máquina que impressiona e, ao mesmo tempo, preocupa
alguns que são contra a evolução das máquinas
inteligentes.
TRAILER
https://ambienteacademico.com.br/course/view.php?id=18504 53/60
19/11/22, 09:24 E-book
LIVRO
Editora:
Elsevier
Ano:
2015
ISBN:
978-85-352-7822-4
Comentário:
Esse livro é uma obra completa e detalhada
sobre a mineração de dados e suas técnicas, orientações,
aplicações e algoritmos. Faça a leitura do tópico 4.2.8, que
aborda a clusterização/agrupamento. Por meio dessa
leitura, você vai complementar os seus conhecimentos
sobre a temática.
LIVRO
Editora:
Elsevier
Ano:
2016
ISBN:
978-85-352-8446-1
Comentário:
Faça a leitura do apêndice, “Iniciando em R”
(p. 220-250), o qual aborda a linguagem R e os seguintes
assuntos: pacotes, variáveis, funções matemáticas, tipos
https://ambienteacademico.com.br/course/view.php?id=18504 54/60
19/11/22, 09:24 E-book
https://ambienteacademico.com.br/course/view.php?id=18504 55/60
19/11/22, 09:24 E-book
Conclusão
Caro(a) aluno(a), chegamos ao fim do nosso estudo! Como vimos, podemos
concluir que, para guiar o processo de mineração de dados, são necessárias uma
abordagem de aprendizagem supervisionada
(utilizada em modelos preditivos) e
uma abordagem de aprendizagem não supervisionada
(utilizada em modelos
descritivos).
Este conteúdo foi produzido de forma a explorar vários temas e fornecer múltiplas
possibilidades conceituais. Assim, esperamos que você tenha gostado! Até a
próxima!
Referências
GOLDSCHMIDT, R.; PASSOS, E.;
BEZERRA, E.
Data Mining
: conceitos,
técnicas, algoritmos e aplicações. 2. ed.
https://ambienteacademico.com.br/course/view.php?id=18504 56/60
19/11/22, 09:24 E-book
MARIANO, D. C. B.
et al
.
Data Mining.
Porto Alegre: SAGAH, 2020.
https://ambienteacademico.com.br/course/view.php?id=18504 57/60
19/11/22, 09:24 E-book
https://ambienteacademico.com.br/course/view.php?id=18504 58/60
19/11/22, 09:24 E-book
https://ambienteacademico.com.br/course/view.php?id=18504 59/60
19/11/22, 09:24 E-book
https://ambienteacademico.com.br/course/view.php?id=18504 60/60