Escolar Documentos
Profissional Documentos
Cultura Documentos
FACULDADE DE CIÊNCIAS
MESTRADO EM QUÍMICA
Porto, 2021
LISTA DE FIGURAS
Figura 1:Box-Whiskers (OCTAVE) ............................................................................. 9
Figura 2: Box-Whishers (STATISTICA) ..................................................................... 9
Figura 3: Gráfico da Matriz de Correlação de Pearson (OCTAVE) ..................... 11
Figura 4: Gráfico da Matriz de Correlação de Pearson (STATISTICA) .............. 11
Figura 5: Mapa de Cor (OCTAVE) ............................................................................ 12
Figura 6: Mapa de Cor (STATISTICA) ..................................................................... 12
Figura 7: Scree Plot (OCTAVE)................................................................................. 13
Figura 8: Scree Plot (STATISTICA) .......................................................................... 13
Figura 9: Score Plot (OCTAVE)................................................................................. 14
Figura 10: Score Plot (STATISTICA)........................................................................ 14
Figura 11:Loadings Plot (OCTAVE) .......................................................................... 14
Figura 12: Loadings Plot (STATISTICA) .................................................................. 14
Figura 13: Dendrograma variáveis (OCTAVE) ....................................................... 15
Figura 14: Dendrograma variáveis (STATISTICA) ................................................. 15
Figura 15: Dendrogramas Casos (OCTAVE) .......................................................... 15
Figura 16:Dendrograma Casos (STATISTICA) ...................................................... 15
LISTA DE QUADROS E TABELAS
1
Para que a análise exploratória de dados seja executada, são necessárias algumas
etapas como descritas a seguir.
2
Quadro 1: Classificação das variáveis qualitativas e quantitativas
Essa etapa de limpeza dos dados visa eliminar os problemas como registros
incompletos, dados inconsistentes, faltas, valores nulos e possíveis outliers de modo que
eles não influenciem no resultado dos algoritmos usados. As técnicas usadas nesta
etapa vão desde a remoção do registro com problemas, passando pela atribuição de
valores padrões, até a aplicação de técnicas de agrupamento para auxiliar na
descoberta dos melhores valores (Silca, 2014).
3
• Transformação dos dados: Não existe um critério único para transformação dos
dados e diversas técnicas podem ser usadas de acordo com os objetivos
pretendidos. Algumas das técnicas empregadas nesta etapa são a suavização,
o agrupamento, a generalização, a normalização e a criação de novos atributos
a partir de outros já pré-existente (Silca, 2014).
4
A Mineração de Dados é geralmente reconhecida pela capacidade de realizar
algumas tarefas, as mais comuns são:
• Classificação: Uma das tarefas mais comuns, a classificação, visa identificar a
qual classe um determinado registro pertence. Nesta tarefa, o modelo analisa o
conjunto de registros fornecidos, com cada registro já contendo a indicação à
qual classe pertence, a fim de “aprender” como classificar um novo registro
(aprendizado supervisionado).
• Estimação: A estimação é similar à classificação, porém é usada quando o
registro é identificado por um valor numérico e não um nominal. Assim, pode-se
estimar o valor de uma determinada variável analisando-se os valores das
demais.
• Predição: A tarefa de predição é similar às tarefas de classificação e estimação,
porém ela visa descobrir o valor futuro de um determinado atributo.
• Agrupamento: A tarefa de agrupamento visa identificar e aproximar os registros
similares. Um agrupamento (ou cluster) é uma coleção de registros similares
entre si, porém diferentes dos outros registros nos demais agrupamentos
• Associação: A tarefa de associação consiste em identificar quais atributos estão
relacionados. É uma das tarefas mais conhecidas devido aos bons resultados
obtidos, principalmente nas análises da “Cestas de Compras” (Market Basket),
onde se identifica quais produtos são levados juntos pelos consumidores (Silca,
2014).
5
delimitada fisicamente contendo uma base temática de dados consistentes, um SIG e
um software estatístico adequados, bem como a definição acertada dos métodos para
que sejam efetuadas as análises necessárias (Silca, 2014).
A análise de componentes principais (PCA) é uma das técnicas mais importantes
na análise multivariada de dados. Muitas vezes, é aplicado para analisar dados
multivariados, como para visualizar a estrutura de dados, para detectar outliers e reduzir
a dimensionalidade dos dados, e muitos métodos importantes são baseados em PCA.
Por exemplo, os conhecidos métodos PCR e SIMCA são derivados de PCA. O
desenvolvimento de novas técnicas químicas analíticas tornou muito fácil e rápido para
o analista para obter centenas ou mesmo milhares de medições (variáveis) de uma
amostra (objeto) (Wu, Massart, & Jong, 1997).
2. Objetivo
O objetivo desse trabalho foi a análise exploratória dos dados, de uma análise
de óxidos em cerâmicas, utilizando o data mining e a análise multivariada de dados. Os
dados foram obtidos através da UCI, Machine Learning Repository (UCI - Machine
Learning Repository, 2021).
6
Tabela 1: Resultados de Análise de Óxidos em Cerâmicas
Nome da
Tipo Na2O MgO Al2O3 SiO2 K2O CaO TiO2 Fe2O3
Cerâmica
FLQ-1-b Corpo 0,62 0,38 19,61 71,99 4,84 0,31 0,07 1,18
FLQ-2-b Corpo 0,57 0,47 21,19 70,09 4,98 0,49 0,09 1,12
FLQ-3-b Corpo 0,49 0,19 18,60 74,70 3,47 0,43 0,06 1,07
DY-BS-1-b Corpo 0,03 0,26 18,34 73,26 5,11 0,14 0,12 1,74
DY-BS-2-b Corpo 0,71 0,31 24,47 65,20 6,16 0,17 0,09 1,89
DY-BS-3-b Corpo 0,25 0,24 23,07 67,37 5,80 0,18 0,14 1,94
DY-NS-1-b Corpo 0,03 0,36 25,13 64,58 6,56 0,17 0,07 2,11
DY-NS-2-b Corpo 0,24 0,55 22,81 66,31 5,59 0,20 0,18 3,11
DY-NS-3-b Corpo 0,29 0,33 23,49 67,94 4,46 0,17 0,16 2,15
DY-Y-1-b Corpo 0,30 0,37 25,00 65,09 6,17 0,18 0,07 1,83
DY-Y-2-b Corpo 0,50 0,32 25,15 65,37 5,34 0,12 0,10 2,10
DY-Y-3-b Corpo 0,31 0,41 22,77 67,75 4,50 0,18 0,24 2,85
DY-M-1-b Corpo 0,18 0,18 23,25 67,86 5,37 0,14 0,11 1,92
DY-M-2-b Corpo 0,42 0,18 22,09 69,03 5,17 0,17 0,07 1,86
DY-M-3-b Corpo 0,29 0,21 24,35 65,43 6,07 0,13 0,10 2,41
DY-QC-1-b Corpo 0,55 0,27 21,58 69,91 4,61 0,13 0,10 1,86
DY-QC-2-b Corpo 0,64 0,19 21,31 69,34 4,90 0,22 0,14 2,27
DY-QC-3-b Corpo 0,14 0,27 24,01 66,70 5,47 0,23 0,09 2,08
FLQ-1-g Esmalte 0,97 0,07 11,42 74,41 5,70 5,34 0,05 1,04
FLQ-2-g Esmalte 1,46 0,47 12,96 68,79 4,85 8,88 0,11 1,49
FLQ-3-g Esmalte 1,05 0,23 13,64 69,90 4,46 8,43 0,07 1,22
DY-BS-1-g Esmalte 0,28 0,52 14,76 68,65 3,63 10,46 0,07 0,64
DY-BS-2-g Esmalte 0,34 0,97 13,76 65,53 3,57 13,69 0,06 1,07
DY-BS-3-g Esmalte 0,50 0,66 11,30 69,90 3,88 11,72 0,06 0,98
DY-NS-1-g Esmalte 0,20 0,53 12,83 72,24 5,03 6,92 0,07 1,18
DY-NS-2-g Esmalte 0,19 0,57 13,61 70,06 4,70 9,14 0,07 0,66
DY-NS-3-g Esmalte 0,69 0,35 13,86 71,38 4,94 6,71 0,16 0,91
DY-Y-1-g Esmalte 0,25 0,50 12,93 71,59 5,50 6,99 0,06 1,18
DY-Y-2-g Esmalte 0,11 0,32 11,33 75,95 5,87 4,37 0,09 0,96
DY-Y-3-g Esmalte 0,24 0,39 12,64 74,08 5,11 5,76 0,08 0,71
DY-M-1-g Esmalte 0,03 1,32 13,55 67,66 5,41 8,91 0,11 2,00
DY-M-2-g Esmalte 0,37 0,47 13,56 72,77 6,54 4,12 0,08 1,09
DY-M-3-g Esmalte 0,34 0,55 12,37 70,70 5,33 8,06 0,06 1,61
DY-QC-1-g Esmalte 0,72 0,34 12,20 72,19 6,19 6,06 0,04 1,27
DY-QC-2-g Esmalte 0,23 0,24 12,99 71,81 5,25 7,15 0,05 1,29
DY-QC-3-g Esmalte 0,14 0,46 12,62 69,16 4,34 11,03 0,05 1,20
7
3.1. Medidas de Posição, Dispersão e de Distribuição
Média Intervalo de
Substâncias Média Mediana Moda 1° Quartil 3° Quartil
Geométrica Confiança
mín. máx.
Na2O 0,4075 0,3050 0,03 0,2969 0,3212 0,4938 0,0300 0,3050
MgO 0,4014 0,3550 0,47 0,3508 0,3363 0,4665 0,0700 0,3550
Al2O3 17,7370 16,5500 11,30 17,0080 16,2840 19,1905 11,3000 16,5500
SiO2 69,5750 69,6200 69,90 69,5110 68,7200 70,4293 64,5800 69,6200
K2O 5,1353 5,1400 4,46 5,0729 4,9127 5,3578 3,4700 5,1400
CaO 4,0972 2,3050 0,17 1,2082 2,8766 5,3179 0,1200 2,3050
TiO2 0,0928 0,0800 0,07 0,0853 0,0809 0,1047 0,0400 0,0800
Fe2O3 1,5553 1,3900 1,18 1,4418 1,3845 1,7261 0,6400 1,3900
8
substância que obteve menor amplitude, desvio padrão e variância é o TiO2, o que
significa que as observações deste grupo estão próximas da média.
Quanto a Curtose, quanto maior for a concentração de valores em torno do
centro da distribuição unimodal, maior será o seu valor. Graficamente isto será
associado a uma curva com a parte central mais afilada, mostrando um pico de
frequência simples mais destacado, mais pontiagudo, caracterizando a moda da
distribuição de forma mais nítida (Lociks). Os maiores valores de curtose estão
presentes nos Na2O, TiO2 e MgO, respectivamente.
O coeficiente de assimetria permite distinguir as distribuições assimétricas. Um
valor negativo indica que a cauda do lado esquerdo da função densidade de
probabilidade é maior que a do lado direito. Um valor positivo para a assimetria indica
que a cauda do lado direito é maior que a do lado esquerdo. Somente o K2O apresentou
um valor negativo de assimetria (Lociks).
9
Tabela 4: Matriz Covariância (OCTAVE)
10
Tabela 7: Matriz de Correlação (OCTAVE)
Figura 3: Gráfico da Matriz de Correlação de Pearson (OCTAVE) Figura 4: Gráfico da Matriz de Correlação de Pearson (STATISTICA)
11
Os gráficos da matriz de correlação obtidos pelo OCTAVE e pelo STATISTICA
(Figura 3 e 4) estão em acordo. Eles ilustram os dados obtidos pela matriz de correlação
em que as correlações significativas apresentam tendências lineares.
12
3.2. Análise dos Componentes Principais (PCA)
13
Após se determinar os componentes principais plotou-se os Scores plot, como
apresentados nas figuras 9 e 10:
A partir dos Scores plot foi possível perceber claramente dois grupos distintos,
correspondentes aos dois tipos de casos, os primeiros em que a análise foi realizada no
corpo da cerâmica e os seguintes, em que as análises foram realizadas no esmalte das
cerâmicas.
14
3.3. Análise Hierárquica de Clusters (HCA)
Figura 13: Dendrograma variáveis (OCTAVE) Figura 14: Dendrograma variáveis (STATISTICA)
A partir dos dendrogramas dos casos foi possível perceber a formação de dois
Clusters, diferenciando assim as amostras retiradas do corpo da cerâmica (C1 à C18) e
as amostras retiradas do esmalte da cerâmica (C19 à C36).
15
4. Conclusão
Utilizando-se os programas OCTAVE e STATISTICA foi possível fazer uma
análise exploratória dos dados coletados na UCI, através do data mining e da análise
multivariada de dados. Foi possível calcular as medidas de posição, dispersão e de
distribuição, analisar as matrizes de covariância e correlação, fazer uma análise de PCA
e HCA.
Observou-se que os dados obtidos através do OCTAVE estavam quase todos
em acordo com os dados obtidos pelo STATISTICA, com exceção dos gráficos de
Scores Plot e Dendrogramas que apresentaram diferentes rotação e ainda os gráficos
Loadings Plot que apresentaram diferenças significativas.
A partir das análises de posição foi possível perceber que todas as medidas de
média estavam dentro dos intervalos de confiança, o que indicou não haver outliers.
Através das medidas de dispersão foi possível identificar que o Al2O3 e o CaO
apresentavam maiores valores de amplitude, desvio padrão e variância e o TiO2
menores valores. Observou-se ainda que os maiores valores de curtose estão presentes
nos Na2O, TiO2 e MgO, respectivamente. E que somente o K2O apresentou um valor
negativo de assimetria.
Na análise de correlação foi possível perceber que as duas substâncias que
apresentavam correlação mais significativa foram Al2O3 e CaO. Já na análise de PCA
foi possível identificar que os dois primeiros componentes principais explicavam 98,03%
da variabilidade. E Na análise de HCA foi possível visualizar claramente a presença de
dois cluster, justificados pelas duas espécies de amostras, uma coletada no corpo e a
outra no esmalte da cerâmica.
16
Referências Bibliográficas
Coutinho, C. d., & Miguel, M. I. (s.d.). Análise Exploratória de Dados: Um Estudo
Diagnóstico Sobre Concepções de Professores. São Paulo: GT: Educação
Matemática / n.19.
Rajan, K., Rajagopalan, A., & Suh, C. (2002). Data Mining and Multivariate Analysis
in Materials Science: nformatics Strategies for Materials Databases. Molten
Salts, 241-248. doi:10.1007/978-94-010-0458-9_8
UCI - Machine Learning Repository. (29 de março de 2021). Fonte: Center for Machine
Learning and Intelligent Systems: https://archive.ics.uci.edu/ml/datasets.php
Wu, W., Massart, D., & Jong, S. d. (1997). The kernel PCA algorithms for wide data.
Part I: theory and algorithms. Chemometrics and Intelligent Laboratory Systems,
165-172.
17