Q4022 PW2 (AED) Grupo7

UNIVERSIDADE DO PORTO
FACULDADE DE CIÊNCIAS
MESTRADO EM QUÍMICA
TRABALHO 2- Análise Exploratória de Dados (AED)
Nayara Glória dos Reis da Silva
Porto, 2021
LISTA DE FIGURAS
Figura 1:Box-Whiskers (OCTAVE) ............................................................................. 9
Figura 2: Box-Whishers (STATISTICA) ..................................................................... 9
Figura 3: Gráfico da Matriz de Correlação de Pearson (OCTAVE) ..................... 11
Figura 4: Gráfico da Matriz de Correlação de Pearson (STATISTICA) .............. 11
Figura 5: Mapa de Cor (OCTAVE) ............................................................................ 12
Figura 6: Mapa de Cor (STATISTICA) ..................................................................... 12
Figura 7: Scree Plot (OCTAVE)................................................................................. 13
Figura 8: Scree Plot (STATISTICA) .......................................................................... 13
Figura 9: Score Plot (OCTAVE)................................................................................. 14
Figura 10: Score Plot (STATISTICA)........................................................................ 14
Figura 11:Loadings Plot (OCTAVE) .......................................................................... 14
Figura 12: Loadings Plot (STATISTICA) .................................................................. 14
Figura 13: Dendrograma variáveis (OCTAVE) ....................................................... 15
Figura 14: Dendrograma variáveis (STATISTICA) ................................................. 15
Figura 15: Dendrogramas Casos (OCTAVE) .......................................................... 15
Figura 16:Dendrograma Casos (STATISTICA) ...................................................... 15
LISTA DE QUADROS E TABELAS
Quadro 1: Classificação das variáveis qualitativas e quantitativas.................................3

Tabela 1: Resultados de Análise de Óxidos em Cerâmicas .......................................... 7
Tabela 2: Medidas de posição ...................................................................................... 8
Tabela 3: Medidas de Dispersão, de Forma ou Distribuição ......................................... 8
Tabela 4: Matriz Covariância (OCTAVE)..................................................................... 10
Tabela 5: Matriz Covariância (STATISTICA) ............................................................... 10
Tabela 6: Matriz de Correlação (OCTAVE) ................................................................. 11
Tabela 7: Matriz de Correlação (STATISTICA) ........................................................... 11
LISTA DE NOTAÇÕES
AED – Análise Exploratória de Dados

HCA – Hierarchical Cluster Analysis
PCA – Principal Component Analysis
PCR – Principal Components Regression
SIMCA – Soft Independent Modeling of Class Analogy
SUMÁRIO
1. Introdução .......................................................................................................................... 1
1.1. Análise Exploratória de Dados ..................................................................................... 1
1.1.1. Recolha de dados..................................................................................................... 2
1.1.2. Limpeza de dados .................................................................................................... 3
1.1.3. Pré-processamento de dados ............................................................................... 3
1.1.4. Visualização de dados ............................................................................................ 4
1.2. Data mining (Mineração de dados) .............................................................................. 4
1.3. Análise multivariada ........................................................................................................ 5
2. Objetivo ............................................................................................................................... 6
3. Análise e discussão de resultados.............................................................................. 6
3.1. Medidas de Posição, Dispersão e de Distribuição .................................................. 8
3.2. Análise dos Componentes Principais (PCA) .......................................................... 13
4. Conclusão ........................................................................................................................ 16
Referências Bibliográficas................................................................................................... 17
1. Introdução
1.1. Análise Exploratória de Dados
As técnicas clássicas da estatística foram delineadas para serem as melhores

possíveis sob rigorosas suposições. Entretanto, a experiência tem forçado os
estudiosos a conhecer que as técnicas clássicas se comportam mal quando situações
práticas não apresentam o ideal descrito por tais suposições. O desenvolvimento
recente de métodos exploratórios robustos tem aumentado a eficiência da análise
estatística.
Os bons profissionais de estatística têm sempre olhado com detalhes os dados
antes de levantar suposições estatísticas e testes de hipóteses. Mas o uso
indiscriminado de pacotes estatísticos computacionais, sem o exame cuidadoso dos
dados profissionais da área, conduz, às vezes, a resultados aberrantes. A análise
exploratória de dados nos fornece um extenso repertório de métodos para um estudo
detalhado dos dados, antes de adaptá-los.
Nessa abordagem, a finalidade é obter dos dados a maior quantidade possível
de informação, que indique modelos plausíveis a serem utilizados numa fase posterior,
a análise confirmatória de dados ou inferência estatística (Medri, 2011).
A análise exploratória de dados é uma filosofia que consiste [...] no estudo dos
dados a partir de todas as perspectivas e com todas as ferramentas possíveis,
incluindo as já existentes. O propósito é extrair toda as informações possíveis e gerar
novas hipóteses, no sentido de construir conjecturas sobre as observações que
dispomos (Coutinho & Miguel).
Além da construção de tabelas e gráficos, a análise exploratória de dados,
consiste também de cálculos de medidas estatísticas que resumem as informações
obtidas dando uma visão global dos dados. Essas medidas, também conhecidas como
medidas descritivas, recebem o nome genérico de estatísticas quando calculada com
os dados da amostra, e de parâmetros quando calculadas com dados populacionais.
Dentre as medidas estatísticas as mais utilizadas são:
• As de tendência central (ou de posição): Média, mediana, moda
• As de dispersão (ou de variabilidade): Amplitude, desvio médio, variância,
desvio padrão, erro padrão, coeficiente de variação.
Destacam-se, ainda, as separatrizes, as assimetrias, Curtoses e os box plot (Medri,
2011).
1
Para que a análise exploratória de dados seja executada, são necessárias algumas
etapas como descritas a seguir.
1.1.1. Recolha de dados
Qualquer pesquisa é baseada em levantamento ou coleta de dados. Os dados

podem ser obtidos diretamente da pesquisa, através de banco de dados, arquivos,
textos, planilhas, data warehouses, vídeos ou imagens, sem terem passados por
nenhum processo de síntese ou análise. A Estatística Descritiva ajuda na percepção,
avaliação e quantificação da variabilidade em tabelas e gráficos obtidos a partir de um
conjunto de dados que sintetizem os valores, com o objetivo de se ter uma visão global
e clara da variação existente nas variáveis (Medri, 2011) (Silca, 2014).
Ao se fazer um estudo estatístico de um determinado fato ou grupo, tem-se que
considerar o tipo de variável. Pode ter variáveis qualitativas ou variáveis quantitativas.
Variáveis qualitativas são aquelas em que a variável assume “valores” em
categorias, classes ou rótulos. São, portanto, por natureza, dados não numéricos.
Variáveis qualitativas denotam características individuais das unidades sob análise, tais
como sexo, estado civil, naturalidade, raça, grau de instrução, dentre outras, permitindo
estratificar as unidades para serem analisadas de acordo com outras variáveis.
Variáveis quantitativas são aquelas expressas pelas variáveis com níveis de
mensuração intervalar ou de razão. Ou seja, são aqueles nas quais as variáveis
assumem valores numa escala métrica definida por uma origem e uma unidade, por
exemplo: idade, salário, peso etc. As variáveis qualitativas podem ser, também,
classificadas como nominal e ordinal. Por outro lado, as variáveis quantitativas podem
ser classificadas como discretas, quando assumem um número finito de valores, ou
contínuas, quando assume um número infinito de valores, geralmente em intervalos,
como apresentam no quadro 1 (Medri, 2011).
2
Quadro 1: Classificação das variáveis qualitativas e quantitativas
Variáveis Tipos Descrição Exemplos

Não existe nenhuma Cor de olho, sexo, estado civil,
Qualitativas Nominal
ordenação tipo sanguíneo
ou
Existe uma ordenação: Nível de escolaridade, estado da
Categóricas Ordinal
I, II, III doença, colocação de concurso
Valor pertence a um Número de filhos por casal,
Discretas
conjunto enumerável quantidade de leitos
Qualitativas
Quando o valor pertence Medidas de altura e peso, taxa de
Contínuas
a um intervalo real glicose, nível de colesterol
(Medri, 2011)
1.1.2. Limpeza de dados
Essa etapa de limpeza dos dados visa eliminar os problemas como registros
incompletos, dados inconsistentes, faltas, valores nulos e possíveis outliers de modo que
eles não influenciem no resultado dos algoritmos usados. As técnicas usadas nesta
etapa vão desde a remoção do registro com problemas, passando pela atribuição de
valores padrões, até a aplicação de técnicas de agrupamento para auxiliar na
descoberta dos melhores valores (Silca, 2014).
1.1.3. Pré-processamento de dados
Bancos de dados reais de hoje são altamente suscetíveis a ruídos, ausência de

dados e inconsistentes devido a seu tamanho, geralmente grande, e sua provável
origem de múltiplas fontes heterogêneas. Consequentemente, é possível que a
qualidade desses dados esteja comprometida, e dados de baixa qualidade irão levar a
resultados de Mineração de Dados de baixa qualidade. Portanto, necessita-se de uma
fase anterior, que consiste na preparação dos dados para que possam ser aplicados os
algoritmos de mineração, essa fase é denominada pré-processamento. As principais
etapas envolvidas no pré-processamento são:
• Redução dos dados: O volume de dados usado na mineração costuma ser alto,
em alguns casos este volume é tão grande que torna o processo de análise dos
dados e da própria mineração impraticável. As estratégias adotadas nesta etapa
são a criação de estruturas otimizadas para os dados (cubos de dados), a
seleção de um subconjunto dos atributos, a redução da dimensionalidade e a
discretização.
3
• Transformação dos dados: Não existe um critério único para transformação dos
dados e diversas técnicas podem ser usadas de acordo com os objetivos
pretendidos. Algumas das técnicas empregadas nesta etapa são a suavização,
o agrupamento, a generalização, a normalização e a criação de novos atributos
a partir de outros já pré-existente (Silca, 2014).
1.1.4. Visualização de dados
Na última etapa a de interpretação de resultados é onde as regras indicadas pelo

processo anterior serão interpretadas e avaliadas. Após a interpretação poderão surgir
padrões, relacionamentos e descoberta de novos fatos, que podem ser utilizados para
pesquisas, otimização e outros. Nessa etapa são usados gráficos estatísticos e todo o
tipo de ferramentas que facilitem a visualização e comunicação da informação, de forma
clara e eficiente. Programas como o STATISTICA, OCTAVE ou mesmo o EXCEL podem
serem utilizados para esse fim, gerando histogramas, dendogramas, mapas de calor
entre outros, que nos possibilita a visualização dos padrões extraídos e a interpretação
dos dados explorados.
1.2. Data mining (Mineração de dados)
O desenvolvimento, melhoria ou adaptação de materiais é geralmente

construído com base em dados anteriores. Isso se baseia no conhecimento derivado da
experiência, experimentos e teoria. O advento da computação de alta velocidade abriu
o caminho da simulação de estudos, o que efetivamente forneceu outra fonte de geração
de dados além dos experimentos tradicionais. A classificação dessas informações para
buscar relacionamentos potencialmente novos é o objetivo da mineração de dados
(Rajan, Rajagopalan, & Suh, 2002).
Data Míning é o processo de fazer a triagem de grandes quantidades de dados,
para recolher as informações mais pertinentes e originar conhecimento, sendo cada vez
mais utilizado nas ciências, para extrair informações de enormes conjuntos de dados
gerados pelos modernos métodos experimentais e observacionais. Pode ser descrito
como "a extracção de informação implícita, previamente desconhecida e potencialmente
útil, a partir de dados", como "a ciência de extrair informações úteis a partir de grandes
conjuntos de dados ou bases de dados", ou ainda como " ... relacionado com o
planeamento de recursos nas organizações, data mining consiste na análise lógica e
estatística de grandes conjuntos de dados, à procura de padrões que podem auxiliar a
tomada de decisões" (Pereira, 2008).
4
A Mineração de Dados é geralmente reconhecida pela capacidade de realizar
algumas tarefas, as mais comuns são:
• Classificação: Uma das tarefas mais comuns, a classificação, visa identificar a
qual classe um determinado registro pertence. Nesta tarefa, o modelo analisa o
conjunto de registros fornecidos, com cada registro já contendo a indicação à
qual classe pertence, a fim de “aprender” como classificar um novo registro
(aprendizado supervisionado).
• Estimação: A estimação é similar à classificação, porém é usada quando o
registro é identificado por um valor numérico e não um nominal. Assim, pode-se
estimar o valor de uma determinada variável analisando-se os valores das
demais.
• Predição: A tarefa de predição é similar às tarefas de classificação e estimação,
porém ela visa descobrir o valor futuro de um determinado atributo.
• Agrupamento: A tarefa de agrupamento visa identificar e aproximar os registros
similares. Um agrupamento (ou cluster) é uma coleção de registros similares
entre si, porém diferentes dos outros registros nos demais agrupamentos
• Associação: A tarefa de associação consiste em identificar quais atributos estão
relacionados. É uma das tarefas mais conhecidas devido aos bons resultados
obtidos, principalmente nas análises da “Cestas de Compras” (Market Basket),
onde se identifica quais produtos são levados juntos pelos consumidores (Silca,
2014).
1.3. Análise multivariada
A Análise multivariada trata da descrição integrada do ambiente mediante a

detecção multivariada de suas relações espaciais mais relevantes. Esse tipo de análise
busca uma visão global ou de conjunto, sem respeitar temas ou aspectos físicos
individualizados e sem fazer suposições à priori sobre os parâmetros que vão
desempenhar um papel importante na diferenciação de setores espaciais nas diferentes
escalas, detectando-se tendências de variação e grupos de variáveis espacialmente
relacionadas.
A principal vantagem de se utilizar análise multivariada diz respeito às
sucessivas aproximações que podem ser feitas sobre o território e as inter-relações
espaciais entre elementos que podem ser obtidas em cada caso. Sem o uso dessas
técnicas a possibilidade de se incluir ou excluir novas variáveis é muito trabalhosa.
Neste sentido, a abordagem incluindo esses tipos de análises é bastante
promissora. Salienta-se que para tal abordagem é necessária a existência de uma área
5
delimitada fisicamente contendo uma base temática de dados consistentes, um SIG e
um software estatístico adequados, bem como a definição acertada dos métodos para
que sejam efetuadas as análises necessárias (Silca, 2014).
A análise de componentes principais (PCA) é uma das técnicas mais importantes
na análise multivariada de dados. Muitas vezes, é aplicado para analisar dados
multivariados, como para visualizar a estrutura de dados, para detectar outliers e reduzir
a dimensionalidade dos dados, e muitos métodos importantes são baseados em PCA.
Por exemplo, os conhecidos métodos PCR e SIMCA são derivados de PCA. O
desenvolvimento de novas técnicas químicas analíticas tornou muito fácil e rápido para
o analista para obter centenas ou mesmo milhares de medições (variáveis) de uma
amostra (objeto) (Wu, Massart, & Jong, 1997).
2. Objetivo
O objetivo desse trabalho foi a análise exploratória dos dados, de uma análise
de óxidos em cerâmicas, utilizando o data mining e a análise multivariada de dados. Os
dados foram obtidos através da UCI, Machine Learning Repository (UCI - Machine
Learning Repository, 2021).
3. Análise e discussão de resultados
Visto que os dados obtidos através da UCI continham 17 variáveis e 88 casos,

primeiramente reduziu-se os dados para uma análise mais clara, obtendo-se a
Tabela 1 com 8 variáveis e 36 casos.
6
Tabela 1: Resultados de Análise de Óxidos em Cerâmicas
Nome da
Tipo Na2O MgO Al2O3 SiO2 K2O CaO TiO2 Fe2O3
Cerâmica
FLQ-1-b Corpo 0,62 0,38 19,61 71,99 4,84 0,31 0,07 1,18
FLQ-2-b Corpo 0,57 0,47 21,19 70,09 4,98 0,49 0,09 1,12
FLQ-3-b Corpo 0,49 0,19 18,60 74,70 3,47 0,43 0,06 1,07
DY-BS-1-b Corpo 0,03 0,26 18,34 73,26 5,11 0,14 0,12 1,74
DY-BS-2-b Corpo 0,71 0,31 24,47 65,20 6,16 0,17 0,09 1,89
DY-BS-3-b Corpo 0,25 0,24 23,07 67,37 5,80 0,18 0,14 1,94
DY-NS-1-b Corpo 0,03 0,36 25,13 64,58 6,56 0,17 0,07 2,11
DY-NS-2-b Corpo 0,24 0,55 22,81 66,31 5,59 0,20 0,18 3,11
DY-NS-3-b Corpo 0,29 0,33 23,49 67,94 4,46 0,17 0,16 2,15
DY-Y-1-b Corpo 0,30 0,37 25,00 65,09 6,17 0,18 0,07 1,83
DY-Y-2-b Corpo 0,50 0,32 25,15 65,37 5,34 0,12 0,10 2,10
DY-Y-3-b Corpo 0,31 0,41 22,77 67,75 4,50 0,18 0,24 2,85
DY-M-1-b Corpo 0,18 0,18 23,25 67,86 5,37 0,14 0,11 1,92
DY-M-2-b Corpo 0,42 0,18 22,09 69,03 5,17 0,17 0,07 1,86
DY-M-3-b Corpo 0,29 0,21 24,35 65,43 6,07 0,13 0,10 2,41
DY-QC-1-b Corpo 0,55 0,27 21,58 69,91 4,61 0,13 0,10 1,86
DY-QC-2-b Corpo 0,64 0,19 21,31 69,34 4,90 0,22 0,14 2,27
DY-QC-3-b Corpo 0,14 0,27 24,01 66,70 5,47 0,23 0,09 2,08
FLQ-1-g Esmalte 0,97 0,07 11,42 74,41 5,70 5,34 0,05 1,04
FLQ-2-g Esmalte 1,46 0,47 12,96 68,79 4,85 8,88 0,11 1,49
FLQ-3-g Esmalte 1,05 0,23 13,64 69,90 4,46 8,43 0,07 1,22
DY-BS-1-g Esmalte 0,28 0,52 14,76 68,65 3,63 10,46 0,07 0,64
DY-BS-2-g Esmalte 0,34 0,97 13,76 65,53 3,57 13,69 0,06 1,07
DY-BS-3-g Esmalte 0,50 0,66 11,30 69,90 3,88 11,72 0,06 0,98
DY-NS-1-g Esmalte 0,20 0,53 12,83 72,24 5,03 6,92 0,07 1,18
DY-NS-2-g Esmalte 0,19 0,57 13,61 70,06 4,70 9,14 0,07 0,66
DY-NS-3-g Esmalte 0,69 0,35 13,86 71,38 4,94 6,71 0,16 0,91
DY-Y-1-g Esmalte 0,25 0,50 12,93 71,59 5,50 6,99 0,06 1,18
DY-Y-2-g Esmalte 0,11 0,32 11,33 75,95 5,87 4,37 0,09 0,96
DY-Y-3-g Esmalte 0,24 0,39 12,64 74,08 5,11 5,76 0,08 0,71
DY-M-1-g Esmalte 0,03 1,32 13,55 67,66 5,41 8,91 0,11 2,00
DY-M-2-g Esmalte 0,37 0,47 13,56 72,77 6,54 4,12 0,08 1,09
DY-M-3-g Esmalte 0,34 0,55 12,37 70,70 5,33 8,06 0,06 1,61
DY-QC-1-g Esmalte 0,72 0,34 12,20 72,19 6,19 6,06 0,04 1,27
DY-QC-2-g Esmalte 0,23 0,24 12,99 71,81 5,25 7,15 0,05 1,29
DY-QC-3-g Esmalte 0,14 0,46 12,62 69,16 4,34 11,03 0,05 1,20
Os dados foram analisados no OCTAVE e no STATISTICA gerando os

seguintes resultados:
7
3.1. Medidas de Posição, Dispersão e de Distribuição
Os resultados das medidas de posição estão dispostos na Tabela 2:
Tabela 2: Medidas de posição
Média Intervalo de
Substâncias Média Mediana Moda 1° Quartil 3° Quartil
Geométrica Confiança
mín. máx.
Na2O 0,4075 0,3050 0,03 0,2969 0,3212 0,4938 0,0300 0,3050
MgO 0,4014 0,3550 0,47 0,3508 0,3363 0,4665 0,0700 0,3550
Al2O3 17,7370 16,5500 11,30 17,0080 16,2840 19,1905 11,3000 16,5500
SiO2 69,5750 69,6200 69,90 69,5110 68,7200 70,4293 64,5800 69,6200
K2O 5,1353 5,1400 4,46 5,0729 4,9127 5,3578 3,4700 5,1400
CaO 4,0972 2,3050 0,17 1,2082 2,8766 5,3179 0,1200 2,3050
TiO2 0,0928 0,0800 0,07 0,0853 0,0809 0,1047 0,0400 0,0800
Fe2O3 1,5553 1,3900 1,18 1,4418 1,3845 1,7261 0,6400 1,3900
Segundo a tabela 2 percebe-se que todos os valores de média estão dentro do

intervalo de confiança, mostrando que não existem outliers.
Os resultados das medidas de dispersão estão dispostos na Tabela 3:
Tabela 3: Medidas de Dispersão, de Forma ou Distribuição
Substâncias amplitude desvio padrão variância curtose assimetria
Na2O 1,43 0,306588 0,0940 5,3840 1,4413

MgO 1,25 0,231198 0,0535 8,7340 2,0777
Al2O3 13,85 5,159893 26,6240 1,2991 0,1656
SiO2 11,37 3,034887 9,2105 2,1789 0,1610
K2O 3,09 0,790369 0,6247 2,6628 -0,2688
CaO 13,57 4,334780 18,7900 1,8745 0,5180
TiO2 0,20 0,042333 0,0018 5,5367 1,5479
Fe2O3 2,47 0,606453 0,3678 2,7317 0,5625
A partir da tabela 3 foi possível observar que as substâncias que apresentavam

maiores valores de amplitude, desvio padrão e variância são o Al2O3 e o CaO, o que
significa que as observações para cada grupo estão distantes da média deste grupo. A
8
substância que obteve menor amplitude, desvio padrão e variância é o TiO2, o que
significa que as observações deste grupo estão próximas da média.
Quanto a Curtose, quanto maior for a concentração de valores em torno do
centro da distribuição unimodal, maior será o seu valor. Graficamente isto será
associado a uma curva com a parte central mais afilada, mostrando um pico de
frequência simples mais destacado, mais pontiagudo, caracterizando a moda da
distribuição de forma mais nítida (Lociks). Os maiores valores de curtose estão
presentes nos Na2O, TiO2 e MgO, respectivamente.
O coeficiente de assimetria permite distinguir as distribuições assimétricas. Um
valor negativo indica que a cauda do lado esquerdo da função densidade de
probabilidade é maior que a do lado direito. Um valor positivo para a assimetria indica
que a cauda do lado direito é maior que a do lado esquerdo. Somente o K2O apresentou
um valor negativo de assimetria (Lociks).
Figura 2: Box-Whishers (STATISTICA)

Figura 1:Box-Whiskers (OCTAVE)
Os gráficos de Box-Whiskers obtidos pelo OCTAVE e pelo STATISTICA (Figura

1 e 2) estão em acordo entre si, e em acordo com os valores das medidas de posição e
de dispersão, pois demonstraram que o Al2O3 e o CaO apresentavam maiores
dispersões além de confirmar que não possui nenhum outlier.
9
Tabela 4: Matriz Covariância (OCTAVE)
Na2O MgO Al2O3 SiO2 K2O CaO TiO2 Fe2O3

Na2O 0,093996 -0,017571 -0,269200 0,104160 -0,030012 0,150900 -0,000770 -0,031024
MgO -0,017571 0,053452 -0,422560 -0,139370 -0,038516 0,579200 -0,000290 -0,014753
Al2O3 -0,269200 -0,422560 26,624000 -10,349000 1,007700 -19,025000 0,097970 2,327600
SiO2 0,104160 -0,139370 -10,349000 9,210500 -0,301450 2,665800 -0,035562 -1,149000
K2O -0,030012 -0,038516 1,007700 -0,301450 0,624680 -1,411900 -0,000504 0,149670
CaO 0,150900 0,579200 -19,025000 2,665800 -1,411900 18,790000 -0,079469 -1,668000
TiO2 -0,000770 -0,000290 0,097970 -0,035562 -0,000504 -0,079469 0,001792 0,016773
Fe2O3 -0,031024 -0,014753 2,327600 -1,149000 0,149670 -1,668000 0,016773 0,367790
Tabela 5: Matriz Covariância (STATISTICA)
As matrizes de covariância obtidas pelo OCTAVE e pelo STATISTICA (Tabela 4

e 5) estão em acordo. Os coeficientes positivos indicam que ambas as variáveis tendem
a aumentar ou diminuir em conjunto, já os coeficientes negativos indicam que uma
variável tende a aumentar à medida que as outras diminuem. Como a covariância é
calculada sem a padronização dos dados, não é possível usar a estatística de
covariância para avaliar a força de uma relação linear.
10
Tabela 7: Matriz de Correlação (OCTAVE)
Na2O MgO Al2O3 SiO2 K2O CaO TiO2 Fe2O3

Na2O 1,000000 -0,247885 -0,170171 0,111945 -0,123854 0,113544 -0,059328 -0,166855
MgO -0,247885 1,000000 -0,354217 -0,198629 -0,210780 0,577932 -0,029598 -0,105222
Al2O3 -0,170171 -0,354217 1,000000 -0,660840 0,247090 -0,850570 0,448514 0,743808
SiO2 0,111945 -0,198629 -0,660840 1,000000 -0,125671 0,202633 -0,276801 -0,624296
K2O -0,123854 -0,210780 0,247090 -0,125671 1,000000 -0,412095 -0,015053 0,312251
CaO 0,113544 0,577932 -0,850570 0,202633 -0,412095 1,000000 -0,433067 -0,634481
TiO2 -0,059328 -0,029598 0,448514 -0,276801 -0,015053 -0,433067 1,000000 0,653355
Fe2O3 -0,166855 -0,105222 0,743808 -0,624296 0,312251 -0,634481 0,653355 1,000000
Tabela 6: Matriz de Correlação (STATISTICA)
As matrizes de correlação obtidas pelo OCTAVE e pelo STATISTICA (Tabela 6

e 7) estão em acordo. Como os valores de correlação são obtidos a partir da
padronização dos dados, eles indicam a força e a direção do relacionamento linear entre
as variáveis. Os valores que estão marcados de vermelho na tabela 7 mostram as
correlações que são significativas.
Figura 3: Gráfico da Matriz de Correlação de Pearson (OCTAVE) Figura 4: Gráfico da Matriz de Correlação de Pearson (STATISTICA)
11
Os gráficos da matriz de correlação obtidos pelo OCTAVE e pelo STATISTICA
(Figura 3 e 4) estão em acordo. Eles ilustram os dados obtidos pela matriz de correlação
em que as correlações significativas apresentam tendências lineares.
Figura 5: Mapa de Cor (OCTAVE)
Figura 6: Mapa de Cor (STATISTICA)
Os mapas de cor obtidos pelo OCTAVE e pelo STATISTICA (Figura 5 e 6) estão

em acordo. Assim como os gráficos da matriz de correlação, eles ilustram os dados
obtidos pela matriz de correlação através da diferenciação das cores. Na figura 5 as
cores mais claras e as cores bem escuras indicam correlações significativa. Já na figura
6 isso é verdade para as cores azuis, valores próximos do 1. As duas substâncias que
apresentaram correlação mais significativa (0,850570) foram Al2O3 e CaO.
12
3.2. Análise dos Componentes Principais (PCA)
Figura 7: Scree Plot (OCTAVE)
Figura 8: Scree Plot (STATISTICA)
Os Gráficos de Scree plot demostraram que o primeiro e segundo componente

explicam 98,03% da variabilidade e, portanto, são os principais componentes.
13
Após se determinar os componentes principais plotou-se os Scores plot, como
apresentados nas figuras 9 e 10:
Figura 10: Score Plot (OCTAVE) Figura 9: Score Plot (STATISTICA)
A partir dos Scores plot foi possível perceber claramente dois grupos distintos,
correspondentes aos dois tipos de casos, os primeiros em que a análise foi realizada no
corpo da cerâmica e os seguintes, em que as análises foram realizadas no esmalte das
cerâmicas.
Figura 11:Loadings Plot (OCTAVE) Figura 12: Loadings Plot (STATISTICA)
Os gráficos de Loadings Plot obtido pelo OCTAVE e pelo STATISTICA

apresentaram diferenças significativas.
14
3.3. Análise Hierárquica de Clusters (HCA)
Figura 13: Dendrograma variáveis (OCTAVE) Figura 14: Dendrograma variáveis (STATISTICA)
Os dendrogramas obtidos pelo OCTAVE e pelo STATISTICA contém as mesmas

informações, apesar de estarem dispostos de forma oposta. É possível perceber Dois
grupos de variáveis, o primeiro formado pelo K2O, TiO2, Fe2O3 e Al2O3 e o segundo
formado pelo CaO, MgO, SiO2 e Na2O.
Figura 16:Dendrograma Casos (STATISTICA)

Figura 15: Dendrogramas Casos (OCTAVE)
A partir dos dendrogramas dos casos foi possível perceber a formação de dois
Clusters, diferenciando assim as amostras retiradas do corpo da cerâmica (C1 à C18) e
as amostras retiradas do esmalte da cerâmica (C19 à C36).
15
4. Conclusão
Utilizando-se os programas OCTAVE e STATISTICA foi possível fazer uma
análise exploratória dos dados coletados na UCI, através do data mining e da análise
multivariada de dados. Foi possível calcular as medidas de posição, dispersão e de
distribuição, analisar as matrizes de covariância e correlação, fazer uma análise de PCA
e HCA.
Observou-se que os dados obtidos através do OCTAVE estavam quase todos
em acordo com os dados obtidos pelo STATISTICA, com exceção dos gráficos de
Scores Plot e Dendrogramas que apresentaram diferentes rotação e ainda os gráficos
Loadings Plot que apresentaram diferenças significativas.
A partir das análises de posição foi possível perceber que todas as medidas de
média estavam dentro dos intervalos de confiança, o que indicou não haver outliers.
Através das medidas de dispersão foi possível identificar que o Al2O3 e o CaO
apresentavam maiores valores de amplitude, desvio padrão e variância e o TiO2
menores valores. Observou-se ainda que os maiores valores de curtose estão presentes
nos Na2O, TiO2 e MgO, respectivamente. E que somente o K2O apresentou um valor
negativo de assimetria.
Na análise de correlação foi possível perceber que as duas substâncias que
apresentavam correlação mais significativa foram Al2O3 e CaO. Já na análise de PCA
foi possível identificar que os dois primeiros componentes principais explicavam 98,03%
da variabilidade. E Na análise de HCA foi possível visualizar claramente a presença de
dois cluster, justificados pelas duas espécies de amostras, uma coletada no corpo e a
outra no esmalte da cerâmica.
16
Referências Bibliográficas
Coutinho, C. d., & Miguel, M. I. (s.d.). Análise Exploratória de Dados: Um Estudo
Diagnóstico Sobre Concepções de Professores. São Paulo: GT: Educação
Matemática / n.19.
Lociks, J. (s.d.). Medidas de Assimetria e de Curtose. Acesso em 8 de maio de 2021,

disponível em
https://www.grancursospresencial.com.br/novo/upload/A419092005194957.pdf
Medri, W. (2011). Análise Exploratória de Dados. Universidade Estadual de Londrina,

Departamento de Estatística, Londrina.
Pereira, P. a. (2008). Data Mining e o seu Potencial Para a Gestão do Conhecimento em

Educação. Revista Portuguesa de Investigação Educacional, 107-125.
Rajan, K., Rajagopalan, A., & Suh, C. (2002). Data Mining and Multivariate Analysis
in Materials Science: nformatics Strategies for Materials Databases. Molten
Salts, 241-248. doi:10.1007/978-94-010-0458-9_8
Silca, M. d. (2014). O pré-Processamento em Mineração de Dados. Dissertação

(Mestrado em Modelagem Computacionalde Sistema), Universidade Federal de
Tocantins, Palmas.
Silva, J. d. (2003). Análise Multivariada em Zoneamento Para Planejamento Ambiental.

Tese (Doutorado em Engenharia Agrícola), Universidade Estadual de Campinas,
Faculdade de Engenharia Agrícola, Campinas.
UCI - Machine Learning Repository. (29 de março de 2021). Fonte: Center for Machine
Learning and Intelligent Systems: https://archive.ics.uci.edu/ml/datasets.php
Wu, W., Massart, D., & Jong, S. d. (1997). The kernel PCA algorithms for wide data.
Part I: theory and algorithms. Chemometrics and Intelligent Laboratory Systems,
165-172.
17

Q4022 PW2 (AED) Grupo7

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Q4022 PW2 (AED) Grupo7

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE DO PORTO

TRABALHO 2- Análise Exploratória de Dados (AED)

Nayara Glória dos Reis da Silva

Quadro 1: Classificação das variáveis qualitativas e quantitativas.................................3

AED – Análise Exploratória de Dados

As técnicas clássicas da estatística foram delineadas para serem as melhores

1.1.1. Recolha de dados

Qualquer pesquisa é baseada em levantamento ou coleta de dados. Os dados

Variáveis Tipos Descrição Exemplos

1.1.2. Limpeza de dados

1.1.3. Pré-processamento de dados

Bancos de dados reais de hoje são altamente suscetíveis a ruídos, ausência de

1.1.4. Visualização de dados

Na última etapa a de interpretação de resultados é onde as regras indicadas pelo

1.2. Data mining (Mineração de dados)

O desenvolvimento, melhoria ou adaptação de materiais é geralmente

1.3. Análise multivariada

A Análise multivariada trata da descrição integrada do ambiente mediante a

3. Análise e discussão de resultados

Visto que os dados obtidos através da UCI continham 17 variáveis e 88 casos,

Os dados foram analisados no OCTAVE e no STATISTICA gerando os

Os resultados das medidas de posição estão dispostos na Tabela 2:

Tabela 2: Medidas de posição

Segundo a tabela 2 percebe-se que todos os valores de média estão dentro do

Tabela 3: Medidas de Dispersão, de Forma ou Distribuição

Substâncias amplitude desvio padrão variância curtose assimetria

Na2O 1,43 0,306588 0,0940 5,3840 1,4413

A partir da tabela 3 foi possível observar que as substâncias que apresentavam

Figura 2: Box-Whishers (STATISTICA)

Os gráficos de Box-Whiskers obtidos pelo OCTAVE e pelo STATISTICA (Figura

Na2O MgO Al2O3 SiO2 K2O CaO TiO2 Fe2O3

Tabela 5: Matriz Covariância (STATISTICA)

As matrizes de covariância obtidas pelo OCTAVE e pelo STATISTICA (Tabela 4

Na2O MgO Al2O3 SiO2 K2O CaO TiO2 Fe2O3

As matrizes de correlação obtidas pelo OCTAVE e pelo STATISTICA (Tabela 6

Figura 5: Mapa de Cor (OCTAVE)

Figura 6: Mapa de Cor (STATISTICA)

Os mapas de cor obtidos pelo OCTAVE e pelo STATISTICA (Figura 5 e 6) estão

Figura 7: Scree Plot (OCTAVE)

Figura 8: Scree Plot (STATISTICA)

Os Gráficos de Scree plot demostraram que o primeiro e segundo componente

Figura 10: Score Plot (OCTAVE) Figura 9: Score Plot (STATISTICA)

Figura 11:Loadings Plot (OCTAVE) Figura 12: Loadings Plot (STATISTICA)

Os gráficos de Loadings Plot obtido pelo OCTAVE e pelo STATISTICA

Os dendrogramas obtidos pelo OCTAVE e pelo STATISTICA contém as mesmas

Figura 16:Dendrograma Casos (STATISTICA)

Lociks, J. (s.d.). Medidas de Assimetria e de Curtose. Acesso em 8 de maio de 2021,

Medri, W. (2011). Análise Exploratória de Dados. Universidade Estadual de Londrina,

Pereira, P. a. (2008). Data Mining e o seu Potencial Para a Gestão do Conhecimento em

Silca, M. d. (2014). O pré-Processamento em Mineração de Dados. Dissertação

Silva, J. d. (2003). Análise Multivariada em Zoneamento Para Planejamento Ambiental.

Você também pode gostar