Escolar Documentos
Profissional Documentos
Cultura Documentos
Porto Alegre
2019
David Alvarenga Drumond
Porto Alegre
2019
David Alvarenga Drumond
Estimativa e classificação de variáveis geometalúrgicas a partir de técnicas de
aprendizado de máquinas/ David Alvarenga Drumond. – Porto Alegre, 2019-
205 p. : il. (algumas color.) ; 30 cm.
CDU 02:141:005.7
Este trabalho é dedicado aos meus pais, Marcos José Santos Drumond e Maria Inêz
Alvarenga Drumond, que sempre me apoiaram ao longo de minha vida.
Agradecimentos
Agradeço este trabalho ao meu orientador João Felipe Coimbra Leite Costa, uma pessoa
admirável e um profissional dedicado.
Agradeço ao coorientador Áttila Leães Rodrigues, pelo auxílio e dedicação ao decorrer da
tese.
Agradeço a geóloga Mariana Gazire Lemos, pelo auxílio prestado no desenvolvimento
desta tese, juntamente com a Anglo Gold
.
R
Figura 1 – Geometalurgia como uma união das áreas da mineração: pesquisa mi-
neral, lavra e beneficiamento mineral. A pesquisa mineral compreende
a primeira etapa de descobrimento e avaliação do depósito mineral, a
lavra consiste na etapa de explotação do minério e o beneficiamento o
conjunto de técnicas industriais para transformar o o minério em um
concentrado ou produto final. A seta representa a união destas três
grandes áreas que possuem direção de produção contínua. . . . . . . . 39
Figura 4 – (A) mineral minério (B) ganga. Representação de uma separação perfeita
entre dois componentes binários (caso ideal), onde as partículas pretas
(mineral minério) estão completamente divididas das partículas brancas
(ganga). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
Figura 5 – (a) Partícula de mineral minério liberada (branco) (b) Partícula in-
tercrescida (contém mineral minério(branco) e ganga(pontos negros))
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Figura 31 – Fluxograma utilizado por Shu et al. (2018) para determinar classificação
do tamanho de partículas minerais. . . . . . . . . . . . . . . . . . . . 87
Figura 38 – Em (a) e em (b): Imagens de raio x geradas para alta e baixa frequência.
Cada pixel em cinza representa a transmissão de dois canais para o raio
x. Em (c) cada pixel cinza representa os pixels das imagens de (a) e (b).
Esses pontos estão dispersos envolta de uma curva de calibração contínua
negra, para o mineral de interesse. A decisão se o pixel apresenta valores
de alta e baixa densidade é determinado a partir da comparação com a
curva de calibração. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
Figura 42 – Mapa de localização das minas da Anglo Gold Ashanti, MG, Brasil. Em
(1) e (2), é representado o complexo de Cuiabá e Lamego, aos quais são
tratados os problemas de estimativa de variáveis geometalúrgicas. Em
(4) e (5), é representado Córrego do Sítio, onde é abordado o problema
do ore sorting. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
Figura 50 – Equipamento de classificação com laser. (1) e (2) são os lasers utilizados
para atingir as partículas minerais. Em (4) é realizada a alimentação
da máquina e (3) o sopro para a concentração do material. . . . . . . 108
Figura 51 – Amostragem dos grãos pelo teste de hand sorting. Diferentes classifi-
cações são apresentadas de acordo com as variações mineralógicas das
partículas. (A) xisto grafitoso, (B) clorita, (C) minério sulfetado e (D)
quartzo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
Figura 56 – Circuito de lixiviação e calcinação. (A) lixiviação em garrafa. (B) mufla. 111
Figura 147 – Gráfico dos valores reais x preditos no banco de dados de teste. (y)
representa os dados originais e (ŷ) representa os valores estimados.
Regressão da recuperação metalúrgica de ouro do algoritmo de florestas
aleatórias - janela de 1 dia. . . . . . . . . . . . . . . . . . . . . . . . . 170
Figura 148 – Gráfico dos valores reais x preditos no banco de dados de teste. (y)
representa os dados originais e (ŷ) representa os valores estimados.
Regressão da recuperação metalúrgica de ouro do algoritmo de florestas
aleatórias - janela de 3 dias. . . . . . . . . . . . . . . . . . . . . . . . . 171
Figura 149 – Gráfico dos valores reais x preditos no banco de dados de teste. (y)
representa os dados originais e (ŷ) representa os valores estimados.
Recuperação metalúrgica de ouro do algoritmo de florestas aleatórias -
janela de 5 dias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
Figura 150 – Gráfico dos valores reais x preditos no banco de dados de teste. (y)
representa os dados originais e (ŷ) representa os valores estimados.
Recuperação metalúrgica de ouro do algoritmo de florestas aleatórias -
janela de 15 dias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
Figura 151 – Gráfico dos valores reais x preditos no banco de dados de teste. (y)
representa os dados originais e (ŷ) representa os valores estimados.
Recuperação metalúrgica de ouro do algoritmo de florestas aleatórias -
janela de 20 dias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
Figura 152 – Gráfico dos valores reais x preditos no banco de dados de teste. (y)
representa os dados originais e (ŷ) representa os valores estimados.
Recuperação metalúrgica de ouro do algoritmo de florestas aleatórias -
janela de 30 dias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
Figura 153 – Precisão da predição da recuperação de ouro (R2 ) em termos do tempo
da janela da média móvel para o algoritmo de florestas aleatórias. . . . 173
Figura 154 – Gráfico de resíduos para a regressão da recuperação metalúrgica de ouro
do algoritmo de máquinas de vetores de suporte - janela de 1 dia. Pontos
verdes representando os dados de teste e pontos azuis correspondendo
ao dados de treinamento. . . . . . . . . . . . . . . . . . . . . . . . . . . 174
Figura 155 – Gráfico de resíduos para a regressão da recuperação metalúrgica de ouro
do algoritmo máquinas de vetores de suporte - janela de 3 dias. Pontos
verdes representando os dados de teste e pontos azuis correspondendo
ao dados de treinamento. . . . . . . . . . . . . . . . . . . . . . . . . . . 175
Figura 156 – Gráfico de resíduos para a regressão da recuperação metalúrgica de ouro
do algoritmo máquinas de vetores de suporte - janela de 5 dias. Pontos
verdes representando os dados de teste e pontos azuis correspondendo
ao dados de treinamento. . . . . . . . . . . . . . . . . . . . . . . . . . . 175
Figura 157 – Gráfico de resíduos para a regressão da recuperação metalúrgica de ouro
do algoritmo máquinas de vetores de suporte - janela de 15 dias. Pontos
verdes representando os dados de teste e pontos azuis correspondendo
ao dados de treinamento. . . . . . . . . . . . . . . . . . . . . . . . . . . 176
Figura 158 – Gráfico de resíduos para a regressão da recuperação metalúrgica de
ouro do algoritmo de máquinas de vetores de suporte - janela de 20
dias. Pontos verdes representando os dados de teste e pontos azuis
correspondendo ao dados de treinamento. . . . . . . . . . . . . . . . . 176
Figura 159 – Gráfico de resíduos para a regressão da recuperação metalúrgica de ouro
do algoritmo máquinas de vetores de suporte - janela de 30 dias. Pontos
verdes representando os dados de teste e pontos azuis correspondendo
ao dados de treinamento. . . . . . . . . . . . . . . . . . . . . . . . . . . 177
Figura 160 – Gráfico dos valores reais x preditos no banco de dados de teste. (y)
representa os dados originais e (ŷ) representa os valores estimados.
Recuperação metalúrgica de ouro do algoritmo máquinas de vetores de
suporte - janela de 1 dia. . . . . . . . . . . . . . . . . . . . . . . . . . . 177
Figura 161 – Gráfico dos valores reais x preditos no banco de dados de teste. (y)
representa os dados originais e (ŷ) representa os valores estimados.
Recuperação metalúrgica de ouro do algoritmo máquinas de vetores de
suporte - janela de 3 dias. . . . . . . . . . . . . . . . . . . . . . . . . . 178
Figura 162 – Gráfico dos valores reais x preditos no banco de dados de teste. (y)
representa os dados originais e (ŷ) representa os valores estimados.
Recuperação metalúrgica de ouro do algoritmo máquinas de vetores de
suporte - janela de 5 dias. . . . . . . . . . . . . . . . . . . . . . . . . . 178
Figura 163 – Gráfico dos valores reais x preditos no banco de dados de teste. (y)
representa os dados originais e (ŷ) representa os valores estimados.
Recuperação metalúrgica de ouro do algoritmo máquinas de vetores de
suporte - janela de 15 dias. . . . . . . . . . . . . . . . . . . . . . . . . 179
Figura 164 – Gráfico dos valores reais x preditos no banco de dados de teste. (y)
representa os dados originais e (ŷ) representa os valores estimados.
Recuperação metalúrgica de ouro do algoritmo máquinas de vetores de
suporte - janela de 20 dias. . . . . . . . . . . . . . . . . . . . . . . . . 179
Figura 165 – Gráfico dos valores reais x preditos no banco de dados de teste. (y)
representa os dados originais e (ŷ) representa os valores estimados.
Recuperação metalúrgica de ouro do algoritmo máquinas de vetores de
suporte - janela de 30 dias. . . . . . . . . . . . . . . . . . . . . . . . . 180
Figura 166 – Precisão da predição da recuperação de ouro (R2 ) em termos do tempo
da janela da média móvel para o algoritmo de máquinas de vetores de
suporte. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
Figura 167 – Gráfico de resíduos para a regressão da recuperação metalúrgica de
enxofre do algoritmo florestas aleatórias - janela de 1 dia. Pontos verdes
representando os dados de teste e pontos azuis correspondendo ao dados
de treinamento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
Figura 168 – Gráfico de resíduos para a regressão da recuperação metalúrgica de
enxofre do algoritmo florestas aleatórias - janela de 3 dias. Pontos verdes
representando os dados de teste e pontos azuis correspondendo ao dados
de treinamento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
Figura 173 – Gráfico dos valores reais x preditos no banco de dados de teste. (y)
representa os dados originais e (ŷ) representa os valores estimados.
Recuperação metalúrgica de enxofre do algoritmo de florestas aleatórias
- janela de 1 dia. y são os valores reais, enquanto ŷ representa os valores
estimados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
Figura 174 – Gráfico dos valores reais x preditos no banco de dados de teste. (y)
representa os dados originais e (ŷ) representa os valores estimados.
Recuperação metalúrgica de enxofre do algoritmo de florestas aleatórias
- janela de 3 dias. y são os valores reais, enquanto ŷ representa os valores
estimados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
Figura 175 – Gráfico dos valores reais x preditos no banco de dados de teste. (y)
representa os dados originais e (ŷ) representa os valores estimados.
Recuperação metalúrgica de enxofre do algoritmo de florestas aleatórias
- janela de 5 dias. y são os valores reais, enquanto ŷ representa os valores
estimados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
Figura 176 – Gráfico dos valores reais x preditos no banco de dados de teste. (y)
representa os dados originais e (ŷ) representa os valores estimados.
Recuperação metalúrgica de enxofre do algoritmo de florestas aleatórias
- janela de 15 dias. y são os valores reais, enquanto ŷ representa os
valores estimados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
Figura 177 – Gráfico dos valores reais x preditos no banco de dados de teste. (y)
representa os dados originais e (ŷ) representa os valores estimados.
Recuperação metalúrgica de enxofre do algoritmo de florestas aleatórias
- janela de 20 dias. y são os valores reais, enquanto ŷ representa os
valores estimados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
Figura 178 – Gráfico dos valores reais x preditos no banco de dados de teste. (y)
representa os dados originais e (ŷ) representa os valores estimados.
Recuperação metalúrgica de enxofre do algoritmo de florestas aleatórias
- janela de 30 dias. y são os valores reais, enquanto ŷ representa os
valores estimados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
At = transposta da matriz A
σ = variância
c = teor do concentrado
a = teor da alimentação
ln = função logarítimica
R = recuperação Metalúrgica
Cov = covariância
χ = distribuição qui-quadrado
Sumário
1 ESTADO DA ARTE . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
1.1.1 História do aprendizado de máquinas . . . . . . . . . . . . . . . . . . . . . 41
1.2 Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
1.3 Metas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
1.4 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
1.5 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
1.6 Contribuições da Tese . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
1.7 Organização da Tese . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2 REVISÃO BIBLIOGRÁFICA . . . . . . . . . . . . . . . . . . . . . . 47
2.1 Geometalurgia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.1.1 Classificação das variáveis geometalúrgicas . . . . . . . . . . . . . . . . . . 48
2.1.2 Características das variáveis geometalúrgicas . . . . . . . . . . . . . . . . . 49
2.1.3 Variáveis aleatórias regionalizadas e domínios geometalúrgicos . . . . . . . 50
2.1.4 Propriedades das variáveis geometalúrgicas . . . . . . . . . . . . . . . . . 52
2.1.4.1 Aditividade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.1.4.2 Linearidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.1.4.3 Independência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.2 Beneficiamento de ouro . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.2.1 Introdução ao beneficiamento . . . . . . . . . . . . . . . . . . . . . . . . 53
2.2.2 Recuperação Metalúrgica . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2.3 Técnicas de aprendizado de máquinas . . . . . . . . . . . . . . . . . . 57
2.3.1 Seleção de modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.3.1.1 Máxima Verossimilhança . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.3.1.2 Validação cruzada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.3.1.3 Matriz de confusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
2.3.1.4 Acurácia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
2.3.1.5 Precisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.3.1.6 Revocação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.3.1.7 f1-score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.3.1.8 Área sobre a curva ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.3.1.9 Erro médio absoluto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
2.3.1.10 Erro médio quadrático . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
2.3.1.11 Coeficiente de determinação . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2.3.1.12 Curva de aprendizado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2.3.2 Seleção de variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.3.3 Fatorização de variáveis e redução da dimensionalidade . . . . . . . . . . . 66
2.3.3.1 Análise de componentes principais . . . . . . . . . . . . . . . . . . . . . . . 66
2.3.3.2 Fatores de máxima correlação . . . . . . . . . . . . . . . . . . . . . . . . . 68
2.3.3.3 t-Distributed Stochastic Neighbor Embendding (t-SNE) . . . . . . . . . . . . . 69
2.3.4 Pré-processamento dos dados . . . . . . . . . . . . . . . . . . . . . . . . 71
2.3.4.1 Normalização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
2.3.4.2 Gaussianização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
2.3.4.3 Codificação de variáveis categóricas . . . . . . . . . . . . . . . . . . . . . . 73
2.3.5 Aprendizado supervisionado . . . . . . . . . . . . . . . . . . . . . . . . . 74
2.3.5.1 Modelos de função de base lineares . . . . . . . . . . . . . . . . . . . . . . . 74
2.3.5.2 Regressão Linear Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
2.3.5.3 Funções discriminantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
2.3.5.4 Regressão logística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
2.3.5.5 Máquinas de vetores de suporte . . . . . . . . . . . . . . . . . . . . . . . . 79
2.3.5.6 Redes neurais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
2.3.5.7 k vizinhos mais próximos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
2.3.5.8 Florestas aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
2.3.6 Aprendizado não supervisionado . . . . . . . . . . . . . . . . . . . . . . . 84
2.3.6.1 Multi dimensional scaling - MDS . . . . . . . . . . . . . . . . . . . . . . . . 84
2.3.6.2 Agrupamento hierárquico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
2.3.7 Aplicações modernas do aprendizado de máquinas em beneficiamento mineral
e engenharia de minas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
2.4 Fundamentos do ore sorting e da transmissão de raios x . . . . . . . 89
2.4.1 Fundamentos da transmissividade por raio x . . . . . . . . . . . . . . . . . 91
2.4.2 Benefícios e restrições do uso do ore sorting . . . . . . . . . . . . . . . . . 96
3 APRESENTAÇÃO DO PROBLEMA . . . . . . . . . . . . . . . . . . 99
3.1 Apresentação geográfica do problema . . . . . . . . . . . . . . . . . . 99
3.2 Contexto geológico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
3.3 O depósito mineral de Lamego . . . . . . . . . . . . . . . . . . . . . . 103
3.4 O depósito mineral de Cuiabá . . . . . . . . . . . . . . . . . . . . . . 103
3.5 O depósito Córrego do Sítio . . . . . . . . . . . . . . . . . . . . . . . 103
3.6 Contexto da produção . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
3.7 Ore Sorting - Santa Bárbara . . . . . . . . . . . . . . . . . . . . . . . 105
3.8 Cuiabá e Lamego . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
3.9 Considerações finais sobre o problema . . . . . . . . . . . . . . . . . . 112
REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
1 Estado da arte
1.1 Introdução
A geometalurgia é um campo multidisciplinar, que estuda como correlacionar
propriedades metalúrgicas com variáveis regionalizadas do depósito mineral. O objetivo é
definir, a partir das características geológicas da jazida, quais influenciam no processo de
beneficiamento, aprimorando o planejamento estratégico da mina, definindo os limiares da
reserva mineral e avaliando riscos econômicos que afetam o investimento na mineração.
A geometalurgia permite unir grandes áreas da mineração: pesquisa mineral, lavra e
beneficiamento, de forma a otimizar a cadeia de produção. A figura 1 representa esta união
entre as fases do empreendimento mineiro.
Figura 1 – Geometalurgia como uma união das áreas da mineração: pesquisa mineral, lavra
e beneficiamento mineral. A pesquisa mineral compreende a primeira etapa de
descobrimento e avaliação do depósito mineral, a lavra consiste na etapa de
explotação do minério e o beneficiamento o conjunto de técnicas industriais
para transformar o o minério em um concentrado ou produto final. A seta
representa a união destas três grandes áreas que possuem direção de produção
contínua.
Fonte:Próprio Autor
Página 40
CAPÍTULO 1. ESTADO DA ARTE
Página 41
CAPÍTULO 1. ESTADO DA ARTE
ligadas ao cotidiano, mesmo que tais mudanças tenham se desenvolvido nos últimos 50
anos. Com a gênese da linguagem de programação, desenvolvida por Rossum e Jr (1995),
chamada P ython
R
, intensificou-se a facilidade de implementação dos algoritmos de
aprendizado de máquinas. Em tempos antigos, a atividade era exclusiva de profissionais
com expertise em programação, não obstante, está atualmente acessível a profissionais
de vários ramos. As diversas bibliotecas, fornecidas pela linguagem, permitem o uso de
algoritmos complexos com poucas instruções.
Esta popularização de tecnologias, nos leva a crer que, futuramente, os profissionais
da mineração precisarão se atualizar, incorporando estas tecnologias no seu ambiente de
trabalho. Embora esta difusão das técnicas tenha crescido, sua aplicação é restrita no
ramo da mineração, seja pela disponibilidade de informação ou da falta de qualificação
dos profissionais.
1.2 Problema
1.3 Metas
Página 42
CAPÍTULO 1. ESTADO DA ARTE
1.4 Objetivos
Para alcançar as metas previstas, esta tese propõe como objetivos principais:
1.5 Metodologia
A metodologia da tese envolve o estudo estatístico e geometalúrgico dos depósitos
minerais. As técnicas de aprendizado de máquinas exigem a análise exploratória dos dados,
seguidos dos passos para se definir os modelos preditivos, e suas validações.
Para o problema do ore sorting tem-se:
Página 43
CAPÍTULO 1. ESTADO DA ARTE
Página 44
CAPÍTULO 1. ESTADO DA ARTE
Capítulo 6 Apresenta a conclusão do trabalho e indica trabalhos futuros a partir desta tese.
Página 45
2 Revisão Bibliográfica
2.1 Geometalurgia
A geometalurgia é uma ciência multidisciplinar, que integra informações geológicas
do depósito mineral, planejamento de mina e tratamento de minérios em uma única
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
Página 48
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
Página 49
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
(iv) Geralmente, um número pequeno de amostras e variáveis não é suficiente para acessar
a variabilidade do fenômeno,
(v) Os modelos de continuidade espacial, das variáveis que afetam o processo, como
litologia, alteração, textura, liberação, propriedades superficiais ou zonas de alteração
podem não estar disponíveis,
Página 50
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
Página 51
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
2.1.4.1 Aditividade
Q1 + Q2
Qm = (2.2)
T1 + T2
enquanto a média das quantidades pode ser dada pela por:
1 Q1 Q2
Q̄ = + (2.3)
2 T1 T2
logo, se e somente se T1 = T2 é possível que as variáveis sejam aditivas. Portanto, o suporte
igual das amostras é essencial para aplicações de técnicas de geoestatística clássica. A
principal variável aditiva na geoestatística é o teor do elemento metálico no depósito
mineral, no entanto, algumas variáveis como moabilidade e grau de liberação não podem
ser consideradas aditivas.
2.1.4.2 Linearidade
Uma função linear deve satisfazer não apenas o critério de aditividade, mas também
o critério de homogeneidade. Seja uma função f (x), então f (ax) = af (x)∀a. Isso significa
que o comportamento médio de duas variáveis pode ser descrito a partir de uma combinação
linear entre elas. Este é o princípio dos métodos geoestatísticos lineares que utilizam médias
3
"Kriging techniques classified as nonlinear methods including lognormal kriging, disjuntive kriging,
and indicator kriging were investigated by Moyeed and Papritz (2002) and found to perform relatively
poorly for the estimation of skewed variables.". Página 162
4
"Quantities are said to be additive if the averaged quantity equals the average of the quantities"
Página 52
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
2.1.4.3 Independência
P (X = x, Y = y) = P (X = x)P (Y = y) (2.4)
onde Zi e Zj são duas variáveis diferentes, Cij (0) é um patamar diferente para cada
covariograma e ρ(h) é um modelo de correlograma único, chamado de intrínseco. Dife-
rentes metodologias como PCA (Principal component analysis) ou SVD (Singular Value
Decomposition ) são alternativas para a decomposição de variáveis dependentes em fatores
descorrelacionados.
Uma alternativa para o teste de independência entre variáveis aleatórias é o teste chi-
quadrado de Pearson. A premissa para a utilização do teste é a amostragem seja aleatória
(MCHUGH, 2013) . Isso nem sempre é possível em bancos de dados regionalizados,
considerando que as amostras podem ser agrupadas, segundo critérios econômicos ou
geológicos.
Página 53
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
Figura 4 – (A) mineral minério (B) ganga. Representação de uma separação perfeita entre
dois componentes binários (caso ideal), onde as partículas pretas (mineral
minério) estão completamente divididas das partículas brancas (ganga).
Fonte:(CHAVES, 2006)
(i) Liberação das partículas de mineral minério e ganga. Deve haver uma divisão física
entre os componentes minerais, geralmente efetuada por um processo de cominuição,
(ii) Um meio fluido que permita um gradiente de forças atue, geralmente água ou ar, de
forma que as partículas possam ser selecionadas,
Página 54
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
Figura 5 – (a) Partícula de mineral minério liberada (branco) (b) Partícula intercrescida
(contém mineral minério(branco) e ganga(pontos negros))
Fonte:(CHAVES, 2006)
(i) Operações de cominuição: Visa reduzir o tamanho das partículas minerais. Dentre
elas, há processos de britagem, realizadas em material grosseiro e de moagem,
praticadas em material fino. Estas operações são acompanhadas da separação das
partículas por tamanho, como no peneiramento e classificação,
Página 55
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
c a−e
R= (2.6)
a c−e
em que ’c’ é o teor do concentrado, ’a’ o teor da alimentação e ’e’ o teor do rejeito. A
recuperação metalúrgica não é uma variável aditiva, assim como o teor de concentrado e do
rejeito. Não obstante, o teor da alimentação ser uma variável aditiva, o teor do concentrado
e do rejeito não são (CARRASCO et al., 2008). Carrasco et al. (2008) propoem estimar
4
"Conventional magnetic separation devices are generally restricted to separating strongly magnetic
materials, such as iron and magnetite". Página 223
Página 56
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
Página 57
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
aos bancos de teste. Modelos que se adequam bem a base de treino, mas não de teste,
apresentam overfitting.
A figura 7 apresenta os modelos que atingiram o estado de overfitting, underfit-
ting e ajustes adequados. Os modelos acordados excessivamente aos dados, ou parcamente
ajustados apresentam baixo potencial preditivo. O princípio epistemológico da navalha de
Occam justifica que deve-se assumir a menor quantidade de premissas possíveis na mode-
lagem de fenômenos, portanto, modelos complexos podem produzir estimativas espúrias,
não representativas dos bancos de dados.
Página 58
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
Página 59
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
Página 60
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
Figura 11 – Matriz de confusão para duas classes. No gráfico TP representa (true positives
ou positivo verdadeiros), TN(true negatives, ou falso negativos), FP (false
postives ou falsos positivos), FN(false negatives ou falsos negativos). TN e TP
representam valores corretamente classificados enquanto FP e FN representam
valores incorretamente classificados.
Fonte: (MÜLLER et al., 2016)
2.3.1.4 Acurácia
A acurácia pode ser representada como a razão entre valores preditos corretamente
pela quantidade de valores no total. Em relação a figura 11, podemos determinar a acurácia
como:
TP + TN
Acurácia = (2.7)
TP + TN + FP + FN
em que TP e TN são os positivos verdadeiros e negativos verdadeiros, e FP e FN são os
falsos positivos e falsos negativos.
Página 61
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
2.3.1.5 Precisão
A precisão demonstra quantos valores positivos são realmente positivos. Pode ser
expressa por:
TP
Precisão = (2.8)
TP + FP
em que TP são os positivos verdadeiros e FP são os falsos positivos.
2.3.1.6 Revocação
A revocação mede quantos valores positivos são capturados pelas predições positivas,
de acordo com:
TP
Revocação = (2.9)
TP + FN
em que TP são os positivos verdadeiros e FN são os falsos negativos.
2.3.1.7 f1-score
precisão.revocação
f1-score = 2 (2.10)
precisão + revocação
FP
FPR = 2 (2.11)
FP + TN
Página 62
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
Figura 12 – Curva ROC (receiver operating characteristcs curve). Valores do eixo x repre-
sentados pela razão de falsos positivos (FPR). Valores do eixo y representados
pela razão de positivos verdadeiros (TPR) ou revocação.
Fonte: (MÜLLER et al., 2016)
A curva ROC está ligada com a probabilidade de classificação dos modelos. A partir
da escolha desta probabilidade é possível identificar as melhores métricas de classificação,
atingindo pontos distintos da curva ROC. Um menor valor da área sobre a curva ROC
determina que o modelo de classificação é mais adequado. Ao contrário, uma maior área
abaixo da curva ROC representa um melhor modelo.
Pode ser representado pela média das diferenças absolutas entre os valores preditos
e os valores reais. É uma métrica utilizada para modelos de regressão. Pode ser expresso
por:
n
1X
EMA = (|ŷi − yi |) (2.12)
n i=1
Página 63
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
expresso por:
n
1X
EMQ = (ŷi − yi )2 (2.13)
n i=1
em que n é o número de amostras, ŷi é o valor modelado, e yi o valor real. Um menor erro
quadrático indica um melhor modelo de regressão.
(yi − ŷi )2
Pn
2 i=1
R =1− (2.14)
(yi − ȳi )2
Pn
i=1
em que ŷi representa o valor estimado para a classe, yi o valor real da classe e ȳi representa
o valor médio da classe. Valores de R2 mais próximos de 1 significam melhores modelos de
regressão. Os valores de coeficiente de determinação podem ser negativos.
Página 64
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
Página 65
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
1 X
JD = (yi − zi )2 (2.15)
2 xi ∈D
em que yi é o valor da classe xi para cada valor i pertencente ao conjunto dos dados e
zi os valores classificados. Combinando o RFE com o modelo de florestas aleatórias, é
possível determinar as variáveis mais importantes para relação não-lineares complexas
como apresentadas pelas variáveis geometalúrgicas.
Página 66
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
at Σa − µ aat − 1 = 0 (2.16)
(Σ − λI) a = 0 (2.17)
Página 67
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
n o 1 wt γ(∆)k w
Corr wt Zuk , wt Zu+h
k
=1− = 1 − R(w) (2.18)
2 wt Σw
em que γ(∆) representa a matriz de variogramas experimentais diretos e cruzados para
uma determinada distância δ, Σ representa a matriz de covariância dos dados e R(w)
também é chamado de coeficiente de Rayleigh na teoria dos sinais. Para minimizar a
correlação da combinação linear entre as variáveis, é necessário maximizar o coeficiente
Página 68
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
R(w), maximizando a variância dos dados originais e reduzindo a variabilidade para uma
distância determinada. A técnica de MAF e PCA somente podem ser utilizadas para um
conjunto de dados isotópicos, aos quais é possível calcular a matriz de covariância entre as
variáveis geometalúrgicas.
iii Aumenta a dispersão dos dados reduzindo a chance de formar grupos no centro do
mapa,
(iii) O algoritmo é aleatório, gerando padrões diferentes de acordo com uma semente
selecionada,
(iv) O t-SNE não preserva e estrutura global dos dados, pois deforma o espaço multi-
dimensional dos dados, para que pequenas distâncias sejam mais valorizadas, e a
formação de agrupamentos locais seja mais evidente.
Página 69
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
exp (− k xi − xj k2 /2σi2 )
pj|i = P 2
(2.19)
k6=j (− k xi − xk k /2σi )
2
exp (− k yi − yj k2 )
qj|i = P (2.20)
k6=j (− k yi − yk k )
2
onde y representa a variável no novo espaço reduzido. A função de custo pode ser encontrada
a partir do critério de entropia para as duas distribuições dado por:
XX pj|i
C= pj|i log (2.21)
i j qj|i
δC X
= 2 (pj|i − qj|i + pi|j − qi|j )(yi − yj ) (2.22)
δyi j
Página 70
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
2.3.4.1 Normalização
Página 71
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
pelo uso de dados em escalas diferentes, como redes neurais e k vizinhos mais próximos
(KOTSIANTIS et al., 2006). Os métodos tradicionais consistem na normalização de
mínimos e máximos e na normalização z-score. A normalização de mínimos e máximos
consiste em:
X − min(X)
X0 = (nmaxX − nminX ) + nminX (2.23)
max(X) − min(X)
X −X
X0 = (2.24)
s(X)
0
em que X é a variável transformada, X é a variável a ser transformada, X é o valor médio
de X, e s(X) o valor do desvio padrão de X.
2.3.4.2 Gaussianização
Página 72
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
Variáveis categóricas são aquelas que apresentam instâncias sem explícita hierarquia.
Por exemplo, uma variável binária X = {0 homem0 ,0 mulher0 } poderia ser considerada
categórica, para predizer o número de livros que leem ao ano. Não existe uma justificativa,
a priori, para se considerar que homens ou mulheres leiam mais, ou menos. No entanto, para
o tempo de corridas em maratonas, é considerável dizer que homens possuem vantagens
(HUNTER; STEVENS, 2013) 2 . Desta forma a variável binária ’homem’, ’mulher’, neste
caso, é ordinal, podendo atribuir X = {0 homem0 = 0,0 mulher0 = 1}, correspondendo aos
homens um número menor, associado ao tempo menor de corrida em maratonas. Este
tipo de abordagem é importante nos algoritmos de aprendizado, pois muitos destes não
permitem o uso de variáveis textuais como valores de entrada nos modelos matemáticos.
Assumir valores numéricos indistintamente para as classes pode constituir em um erro de
avaliação, pois estes algoritmos podem ponderar uma classe em detrimento de outra a
partir da diferença numérica destes valores.
Nesta tese, foi utilizado a técnica de codificação baseada em objetivo (Target-based
Encoding). O objetivo da técnica é numerizar a variável categórica a partir da classe
de predição. Esta é substituída por um novo valor, correspondente à probabilidade da
categoria pertencer à classe de predição (MCGINNIS, 2016). A figura 18 representa o
processo de tranformação de uma variável categórica. Em (A), são apresentadas as variáveis,
a classe preditora e o valor carimbado para cada categoria. Em (B), é formada a tabela de
frequências, que computa a proporção de cada categoria segundo a classe preditora. Cada
categoria recebe portanto, um valor associado com a classe a ser predita.
2
"Men were faster than women for all the marathons for first place (10.9%) and across the first five
runners (11.6%)." Página 11
Página 73
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
Os métodos lineares de classificação são aqueles que utilizam funções lineares para
a definição das regiões das classes contidas no problema. Um modelo linear simples envolve
uma combinação de uma série de variáveis segundo:
M
X −1
y(x, w) = w0 + wj φj (x) (2.27)
j=1
x − µj
φj (x) = σ (2.28)
s
Página 74
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
demonstrada por:
1
σ(a) = (2.29)
1 + exp(−a)
x−µj
em que a = s
y = w 1 x1 + w 0 + (2.30)
onde 2 representa o erro médio quadrádico e y o vetor das classes. O sinal (ˆ) é atribuído
ao valor estimado de um parâmetro, a medida que ŵ0 e ŵ1 são os parâmetros a serem
determinados pela regressão a partir das amostras. Assumindo a hipótese de normalidade
tal que |x1 ∼ N (µ, σ 2 ), podemos determinar que a solução dos mínimos quadrados é
também um estimador de máxima verossimilhança para o problema da regressão linear
(WASSERMAN, 2013).
Para o caso multivariado, possuímos uma matriz Xi,j em que i é considerada a
amostra, ou realização, variando de 1 a n e j cada uma das variáveis consideradas
X X12 ... X1k
11
X21 X22 ... X2k
X=
.. .. .. .. (2.32)
. . . .
Xn1 Xn2 ... Xnk
Página 75
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
W
1
W2
W = .
(2.33)
..
Wn
1
2
=
..
(2.34)
.
n
Y = XW + (2.35)
Ŵ = (X t X)−1 X t Y (2.36)
Considere uma variável binária y(x,w) que assume valores iguais a 1 ou 0, tal que
1 corresponde ao valor contido dentro do domínio e 0 fora do domínio. O modelo linear
pode ser descrito como:
Y (X, w) = wt X + w0 (2.37)
4
"One technique that is often used to control the over-fitting phenomenon in such cases is that of
regularization...Techniques such as this are known in the statistics literature as shrinkage methods
because they reduce the value of the coefficients" - página 10
Página 76
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
wt x w0
=− (2.38)
||w|| ||w||
w t Sb w
J(w) = (2.39)
wt Sw w
em que w é o vetor de pesos. Sb e Sw representam respectivamente as diferenças entre
centróides das classes e a diferença entre as dispersões das classes, e podem ser definidos
como:
(xi − mj )(xi − mj )t
X X
Sw = (2.41)
j=1,2 i∈X
Página 77
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
1
πi = (2.42)
1 + e−yi
em que yi é o valor atribuído da classe. Logo, a probabilidade condicional P r(y(x, w)|πi ) =
πiyi (1 − πi )1−yi demonstra a probabilidade associada para um valor de uma classe y. King
e Zeng (2001) demonstram como obter os parâmetros wi a partir da otimização da função
de máxima verossimilhança. A equação 2.43 demonstra a função logarítmica da função de
máxima verossimilhança para a regressão logística.
n n n
ln 1 + e(1−2Yi )xi wi
X X X
ln(L(w|y)) = ln(πi ) + ln(1 − πi ) = (2.43)
i=1 i=1 i=1
Página 78
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
Figura 20 – Exemplo da regressão logística. Curva negra representada pela função logit.
A linha verde indica 50% de probabilidade para separação das classes 1 ou
0. Triângulos azuis representam a classe 0, e círculos laranjas representam
a classe 1. Eixo horizontal representa os valores das variáveis e eixo vertical
representa as probabilidades.
Fonte:Próprio autor
Página 79
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
Em alguns casos utiliza-se uma função kernel para encontrar classificações não
lineares. O objetivo é alterar o espaço original, transformando o problema em uma
classificação linear. Funções kernels são transformações não lineares realizadas por funções
ortogonais, comumente utilizadas nos algoritmos de aprendizado de máquinas. Segundo
Lorena e Carvalho (2007), define-se um kernel por uma função que recebe dois pontos
xi e xj , do espaço de entradas e computa o produto escalar destes dados no espaço de
características (Φ). A figura 22 exemplifica esta situação.
A seção 2.3.5.1 também refere aos modelos lineares como uma combinação linear de
funções não lineares. O objetivo das redes neurais é formar um conjunto de combinações
lineares "ativadas", por funções não lineares, em uma cadeia que resulte na predição
de uma classe. O sistema é comparado ao funcionamento de um neurônio, tal como os
impulsos elétricos que atravessam um neurônio precisam de uma ”ativação” por um limite
de potencial elétrico. De acordo com Bishop (2006), um sistema de redes neurais pode ser
descrito como:
M
X
y(x, w) = f w j xj (2.44)
j=1
Página 80
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
Figura 23 – Exemplo de redes neurais. Valores de input dos dados à esquerda e valores de
output à direita. Unidades escondidas demonstradas como as variáveis z não
diretamente ligadas às variáveis originais.
Fonte:(BISHOP, 2006)
Página 81
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
Müller et al. (2016) demonstram como o número de vizinhos mais próximos interfere
na superfície de classificação. A figura 26 apresenta a superfície de decisão de acordo com
o número de vizinhos mais próximos. Um aumento do número de vizinhos tende a produzir
superfícies mais suavizadas evitando overfitting.
Página 82
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
Segundo Breiman (1996), a divisão entre os ramos das árvores de decisão é realizado
escolhendo um critério de otimização utilizando funções que meçam o máximo espalhamento
Página 83
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
Cox e Cox (2000) apresentam diversas métricas para medir dissimilaridade entre
variáveis. A Figura 29 apresenta algumas dessas medidas, tal que a distância euclidiana é
a mais usual.
Página 84
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
Página 85
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
Segundo Jain et al. (1999) muitos dos algoritmos de agrupamento hierárquico são
derivados das variantes single-link e complete-link. Esses dois algoritmos se diferem na
forma de caracterizar a similaridade entre grupos. No primeiro método, a distância entre
dois grupos é a distância mínima entre todas as amostras entre grupos, enquanto no
segundo método a distância entre dois grupos é o máximo de todas as distâncias par a par.
Página 86
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
Figura 31 – Fluxograma utilizado por Shu et al. (2018) para determinar classificação do
tamanho de partículas minerais.
Fonte:(SHU et al., 2018)
Página 87
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
Figura 32 – Classificação de partículas minerais automática obtida por Maitre et al. (2019).
Em (A) observa-se a segmentação dos grãos e em (B) a classificação das
diferentes partículas minerais.
Fonte:(MAITRE et al., 2019)
Página 88
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
Página 89
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
Página 90
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
em que Idet representa os raios detectados pelo equipamento, I0 representa os raios emitidos,
µ(λ) representa o coeficiente de absorção de massa dependente da frequência da onda
emitida, ρ a densidade do material e d a espessura da partícula de minério.
A equação de Lambert representa o processo físico de atenuação dos raios x quando
atravessados por um material de determinada composição. No processo ao qual os elétrons
emitidos pelo raio x transpassam a partícula mineral, as partículas emitidas interagem com
os átomos, causando efeitos de espalhamento clássico, efeito foto-elétrico e efeito Compton
(SOARES et al., 2006).
A figura 37 demonstra esquematicamente a equação de Lambert: um raio emitido
pela fonte radioativa atravessa a partícula mineral, com certa espessura, e é atenuado de
acordo com as propriedades desta partícula. O raio atenuado é então identificado pelo
sensor.
Página 91
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
I1
= (e−ρ∆µ )d = Cm
d
(2.46)
I2
Página 92
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
Figura 38 – Em (a) e em (b): Imagens de raio x geradas para alta e baixa frequência. Cada
pixel em cinza representa a transmissão de dois canais para o raio x. Em (c)
cada pixel cinza representa os pixels das imagens de (a) e (b). Esses pontos
estão dispersos envolta de uma curva de calibração contínua negra, para o
mineral de interesse. A decisão se o pixel apresenta valores de alta e baixa
densidade é determinado a partir da comparação com a curva de calibração.
Fonte: Próprio Autor
Cada pixel, para as imagens de alta e baixa frequência, podem ser representado
como um par conjugado na equação 2.46. Na figura 38, (a) e (b) representam as imagens
para os canais de alta energia e baixa energia. Estes valores representam um par conjugado,
para cada pixel, se o seu valor está abaixo ou acima da curva de densidade, demonstrada
na figura 38. Como a curva de densidade é uma função dependente do tamanho das
partículas, a relação entre os píxeis e a curva, apresenta apenas o efeito da densidade.
Esta propriedade é importante, pois píxeis contendo alta densidade e pequena espessura,
contendo por exemplo, altas quantidades de ouro, podem ser equivalentes a píxeis com
baixa densidade e grande espessura, contendo pouco ouro, se desconsiderado o efeito do
tamanho da partícula mineral.
Página 93
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
Página 94
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
Página 95
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
ii A qualidade dos sensores escolhidos pode não ser adequada para diferenciar fases
minerais muito finas, devido à resolução das imagens obtidas pelo equipamento,
Página 96
CAPÍTULO 2. REVISÃO BIBLIOGRÁFICA
Página 97
3 Apresentação do problema
Figura 42 – Mapa de localização das minas da Anglo Gold Ashanti, MG, Brasil. Em (1) e
(2), é representado o complexo de Cuiabá e Lamego, aos quais são tratados
os problemas de estimativa de variáveis geometalúrgicas. Em (4) e (5), é
representado Córrego do Sítio, onde é abordado o problema do ore sorting.
Fonte:(ASHANTI, 2016)
Página 100
CAPÍTULO 3. APRESENTAÇÃO DO PROBLEMA
Página 101
CAPÍTULO 3. APRESENTAÇÃO DO PROBLEMA
O greenstone belt arqueano do Rio das Velhas cobre aproximadamente 4000 km2
no Quadrilátero Ferrífero e é dividido nos grupos de base de Nova Lima e Maquiné. O
grupo de Nova Lima compreende rochas ultramáficas, gralvacas e arenitos com rochas
quartzo-dolomito e quartzo-ankerita, conglomerados e pelitos carbonáceos. O grupo de
Nova Lima apresenta um grande número de depósitos de ouro incluindo Lamego. O grupo
Maquiné é dividido nas formações basal Palmital e topo Casa Forte (MARTINS et al.,
2016). A sequência do greenstone belt foi em sua maioria metamorfizada na fácies xisto
verde. A figura 45 demonstra a estratigrafia simplificada do depósito de Lamego.
Página 102
CAPÍTULO 3. APRESENTAÇÃO DO PROBLEMA
Página 103
CAPÍTULO 3. APRESENTAÇÃO DO PROBLEMA
Página 104
CAPÍTULO 3. APRESENTAÇÃO DO PROBLEMA
Página 105
CAPÍTULO 3. APRESENTAÇÃO DO PROBLEMA
Página 106
CAPÍTULO 3. APRESENTAÇÃO DO PROBLEMA
Página 107
CAPÍTULO 3. APRESENTAÇÃO DO PROBLEMA
partir de sensores laser, em uma segunda etapa do processo. Devido a difração, brilho e
reflexão de determinadas cores, é possível realizar uma nova concentração. Materiais como
o quartzo apresentam alta difração com o laser e podem ser facilmente separáveis a partir
do uso destes sensores. A Figura 50 demonstra o equipamento em Santa Bárbara. Em 1 e
2, podemos ver os sensores de laser, que são aplicados diretamente na partícula mineral,
atingindo ambos os lados. Ao determinar se o material deve ou não ser classificado, os
sopradores agem dividindo em concentrado e rejeito as partículas.
Figura 50 – Equipamento de classificação com laser. (1) e (2) são os lasers utilizados para
atingir as partículas minerais. Em (4) é realizada a alimentação da máquina e
(3) o sopro para a concentração do material.
Fonte:Próprio Autor
Página 108
CAPÍTULO 3. APRESENTAÇÃO DO PROBLEMA
Figura 51 – Amostragem dos grãos pelo teste de hand sorting. Diferentes classificações
são apresentadas de acordo com as variações mineralógicas das partículas. (A)
xisto grafitoso, (B) clorita, (C) minério sulfetado e (D) quartzo.
Fonte:Próprio Autor
O objetivo principal desta primeira parte da tese é investigar uma possível correla-
ção entre os dados obtidos pela análise de raio x do ore sorting com dados da mineralogia
analisados pela amostragem e classificação manual.Existindo relação, pretende-se estabele-
cer um modelo de classificação que possa incorporar estas variáveis, analisadas na previsão
Página 109
CAPÍTULO 3. APRESENTAÇÃO DO PROBLEMA
Página 110
CAPÍTULO 3. APRESENTAÇÃO DO PROBLEMA
Figura 55 – Circuito de concentração. (A) concentração Falcon, (B) mesa vibratória e (C)
célula de flotação.
Fonte: Próprio Autor
Página 111
CAPÍTULO 3. APRESENTAÇÃO DO PROBLEMA
Página 112
4 Estudo de caso - Ore Sorting
Figura 57 – Projeto de geometalurgia. Primeira etapa realizada pela Anglo Gold Ashanti
R
O fluxograma realizado pela Anglo Gold Ashanti , R pode ser resumido na figura
Página 114
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
Página 115
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
Página 116
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
Página 117
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
A acurácia pode ser demonstrada na figura 65. Esta representa a quantidade total de
partículas corretamente classificadas. A relação do subconjunto de minério no concentrado
e ganga no rejeito, pelo número de partículas totais representa esta medida.
Página 118
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
Neste trabalho, define-se tais métricas de classicação, referindo-se aos melhores usos
de parâmetros e modelos para os classificadores matemáticos do equipamento. Pode-se
adequar a otimização das métricas metalúrgicas, de acordo com as necessidades previstas
da engenharia.
Página 119
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
Página 120
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
Página 121
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
Para criar estas classes, o algoritmo 1 foi utilizado, determinando um teor de corte
acima de 0.4ppm e mineralogias de interesse como arsenopirita, pirita, sulfetos, etc.
Figura 68 – Gráfico de barras para a variável mista criada. Partículas consideradas minério
como aquelas em que o teor está acima do teor de corte ou a mineralogia
contém sulfetos, quartzo e arsenopirita fina.
Página 122
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
pixels escuros constatam um efeito pepita natural deste minério. Também são apresentados
os histogramas das variáveis do domínio geológico "Ore body"e as variáveis de localização
da pilha no processo "Source", pré processadas pelo algoritmo de codificação de variáveis
baseadas em objetivo (observar seção 2.3.4.3) .
Página 123
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
A importância das variáveis foi estimada de acordo com três técnicas principais, a
correlação de Pearson com a variável preditora, o critério de Gini 1 para o algoritmo florestas
aleatórias e o critério de Gini para o algoritmo classificador de aumento do gradiente. Para
1
O coeficiente de Gini é um dos critérios na literatura de aprendizado de máquinas para divisão entre
classes em um modelo supervisionado.
Página 124
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
cada critério de importância a variável mais importante recebeu o maio valor, neste caso
18 devido ao número de variáveis consideradas, e a variável menos importante recebeu
apenas 1. Após calculada as importâncias individuais para cada critério, a importância
global foi definida a partir da média destas três medidas, como indicado na figura 71.
Figura 71 – Importância das variáveis utilizando a média de valores obtidos para diferentes
tipos de algoritmos (correlação de Pearson com a variável preditora, a impor-
tância segundo o critério de Gini para o algoritmo de florestas aleatórias e
para o algoritmo classificador de aumento do gradiente). Variáveis da curva de
densidade 90 apresentam grande importância na classificação, se comparados
com valores da curva de 60% e 70%
Página 125
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
Tabela 2 – Contribuição acumulada da variância para cada fator das componentes princi-
pais
A figura 72 (b) apresenta a projeção dos dados nas variáveis LOW 80% e HIGH
80%, como a primeira e a segunda componente principal dos dados em (a). Os valores
calculados desconsideraram a variável escura, pois esta apresenta uma grande quantidade
de valores nulos que acabam por distorcer os padrões dispostos pelo PCA.
(a) (b)
Página 126
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
Figura 73 – Projeção nas variáveis Low 80 e High 80. Grupo 1 representado por minerais em
sua maioria sulfetados. Grupo 2 representado em grande maioria por quartzo
e grupo 3 representado pela grande expressão de mineralogias presentes.
Página 127
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
melhor performance. Neste caso o valor da acurácia de classificação foi escolhido como a
métrica de avaliação para o algoritmo de classificação.
Os algoritmos utilizados são compatíveis com o sklearn 0.20.1.
(i) Regressão Logística (solver = newton cg, penalty = l2, dual = Falso, tol = 10−4 ,C
= 1.0, intercept scaling = 1.0, class weight = Nenhum, random state = Nenhum)
(LOGISTIC).
(iv) florestas aleatórias (max depth = 4, n estimators = 100, criterion = entropia, min
samples split = 15, min samples leaf = 1, min weight fraction leaf = 0, max features
= "auto", max leaf nodes = Nenhum, min impurity decrease = 0, min impurity split
= 1e-7, boostrap = Verdadeiro, oob score = Falso, n jobs = Nenhum, random state
= Nenhum, verbose = 0, warm start = Falso, class weight = Nenhum) (RF).
(vi) k vizinhos mais próximos (número de vizinhos = 15, weights =’uniform’, leaf
size = 30, p= 2, metric = minkowski, metric params = Nenhum, n jobs = Nenhum)
(KNC).
(viii) Bernoulli Naïve Bayes (alpha = 0.5, binarize = 0.0, fit prior= Verdadeiro, class
prior= Nenhum) (NB)
Página 128
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
Página 129
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
Página 130
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
Página 131
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
Foram calculadas as curvas ROC para todos os modelos selecionados (figura 83). De
acordo com alterações na probabilidades de classificação, é possível determinar diferentes
revocações para estes modelos.
Página 132
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
Página 133
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
Página 134
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
(vi) Transição
(vii) CVDQ
Além das curvas de densidade demonstradas na seção 4.3, o banco de dados também
apresenta o valor dos teores de ouro (ppm) e enxofre (%), o peso da partícula mineral, e a
variável categórica "Source", que representa a região amostrada no processo de produção.
Representam-se estas variáveis em quatro grandes grupos:
Página 135
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
O rastreamento dos outliers foi realizado por gráficos de caixas (boxplot) (figura
85). Definiu-se que apenas as partículas minerais que possuíssem valores de teor de ouro
abaixo de 400 ppm, peso abaixo de 200 g, e teores de enxofre menores que 100 % fossem
utilizadas nos modelos.
Página 136
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
Página 137
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
4.4.2 Avaliação dos modelos para origem geológica das partículas do ore
sorting
Apresentam-se seis modelos supervisionados para a classificação da origem geológica
da partícula. Os parâmetros ajustados dos modelos estão estão representados em 4.4.2, bem
como as respectivas siglas. Determinou-se uma procura em grid, buscando os parâmetros
que resultassem em maior acurácia nos modelos. Os algoritmos são compatíveis com a
biblioteca sklearn 0.20.1 da linguagem Python
.R
(i) Regressão logística (solver = newton cg, penalty = l2, dual = Falso, tol = 10−4 ,C
= 1.0, intercept scaling = 1.0, class weight = Nenhum, random state = Nenhum)
(LOGISTIC).
(iv) Florestas aleatórias (max depth = 25, n estimators = 50, criterion = gini, min
samples split = 2, min samples leaf =1, min weight fraction leaf =0, max features
="auto", max leaf nodes = Nenhum, min impurity decrease = 0, min impurity split
= 1e-7, boostrap = Verdadeiro, oob score= Falso, n jobs = Nenhum, random state
= Nenhum, verbose= 0, warm start = Falso, class weight = Nenhum) (RF).
(vi) K vizinhos mais próximos (número de vizinhos = 10, weights = ’uniform’, leaf
size = 30, p= 2, metric = minkowski, metric params = Nenhum, n jobs = Nenhum)
(KNC).
(vii) Árvore de decisão (maximum depth = 25, criterion = gini, minimum samples
split = 2, min samples leaf = 1, min weight fraction leaf = 0, max features = Nenhum,
random state = Nenhum, max leaf nodes = Nenhum, min impurity decrease = 0,
min impurity split = 10−7 , class weight = Nenhum, presort = Falso) (DT).
Página 138
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
(viii) Bernoulli Naïve Bayes (alpha = 0.5, binarize = 0.0, fit prior = Verdadeiro, class
prior = Nenhum) (NB)
Página 139
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
Página 140
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
Página 141
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
Página 142
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
Figura 100 – Resumo das estatísticas de classificação para o algoritmo de florestas aleató-
rias.
Página 143
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
Figura 101 – Resumo para as estatísticas de classificação para o algoritmo redes neurais
utilizando multi-layer perceptron.
Página 144
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
Figura 104 – Resumo das estatísticas de classificação para o algoritmo Bernoulli Naive
Bayes.
Página 145
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
Figura 105 – Curva de aprendizado para o algoritmo de regressão logística. Curva azul
representando o treinamento, enquanto curva verde representa o teste.
Figura 106 – Curva de aprendizado para o algoritmo de análise discriminante linear. Curva
azul representando o treinamento, enquanto curva verde representa o teste.
Página 146
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
Figura 108 – Curva de aprendizado para o algoritmo de florestas aleatórias. Curva azul
representando o treinamento, enquanto curva verde representa o teste.
Página 147
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
Figura 109 – Curva de aprendizado para o algoritmo redes neurais utilizando multi-layer
perceptron. Curva azul representando o treinamento, enquanto curva verde
representa o teste.
Figura 110 – Curva de aprendizado para o algoritmo de k vizinhos mais próximos. Curva
azul representando o treinamento, enquanto curva verde representa o teste.
Página 148
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
Figura 111 – Curva de aprendizado para o algoritmo de árvores de decisão. Curva azul
representando o treinamento, enquanto curva verde representa o teste
Figura 112 – Curva de aprendizado para o algoritmo Bernoulli Naive Bayes. Curva azul
representando o treinamento, enquanto curva verde representa o teste.
Página 149
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
Figura 114 – Predição das classes para o algoritmo de análise discriminante linear.
Página 150
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
Figura 115 – Predição das classes para o algoritmo de máquinas de vetores suportados.
Página 151
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
Figura 117 – Predição das classes para o algoritmo redes neurais utilizando multi-layer
perceptron.
Figura 118 – Predição das classes para o algoritmo de k vizinhos mais próximos.
Página 152
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
Figura 120 – Predição das classes para o algoritmo Bernoulli Naive Bayes.
Página 153
CAPÍTULO 4. ESTUDO DE CASO - ORE SORTING
variáveis metalúrgicas. O ore sorting, neste caso, desempenha papel de identificador tal
como de um classificador.
As variáveis representando a mineralogia e a posição da partícula mineral no
processo podem ser consideradas as mais importantes na determinação dos domínios
estacionários. Em contrapartida, a variáveis ’Dark’, das diferentes curvas de calibração,
apresentam baixa influência na previsão dos domínios. Devido o controle estrutural da
gênese do depósito mineral, as componentes de alta densidade ’Dark’, que apresentam as
inclusões de ouro, não estão diretamente relacionadas ao domínio geológico, mas à presença
de estruturas que favorecem o hidrotermalismo. Neste caso, justifica-se o baixo potencial
preditivo desta variável nos domínios geológicos presentes neste depósito mineral.
Observou-se pelo t-SNE, que os domínios de transição, sangue de boi e laranjeiras
apresentam propriedades distintas dos demais. Esta divisão pode ser atribuída às diferenças
mineralógicas entre os domínios. A divisão entre Sangue de Boi, Transição e Laranjeiras dos
demais domínios geológicos é mais precisa e acurada que as demais regiões. As categorias
que apresentam mais classificações errôneas são Cachorro Bravo, São Bento e CVDQ.
Os algoritmos de redes neurais, florestas aleatórias e máquinas de vetores de suporte
apresentam melhor desempenho na definição dos domínios estacionários a partir das
propriedades físicas.
Os valores das métricas de classificação foram altos para a precisão e acurácia
dos domínios. A identificação dos domínios geológicos da partícula, a partir de medidas
físicas e químicas parece factível, e pode ser utilizado não apenas no ore sorting, mas
como também em tecnologias de beneficiamento mineral. Com o avanço das técnicas de
análise químicas automáticas, reconhecimento de imagens e sensores multi espectrais é
possível criar tecnologias que identifiquem partículas durante o processo de beneficiamento
mineral. Desta forma, seria possível registrar a origem das partículas e sua performance de
qualquer processo unitário no beneficiamento. A geometalurgia poderia ser desenvolvida
de forma automática, unindo informações diretas e simultâneas da eficiência da tecnologia
de beneficiamento com as estratégias de planejamento mineral.
Página 154
5 Estudo de caso - Cuiabá e Lamego
Página 156
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
Página 157
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
Página 158
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
Figura 124 – Valores de produção para 3 dias para a recuperação metalúrgica de ouro da
flotação.Valores de 01/2017 até 04/2019.
Figura 125 – Valores de produção para 5 dias para a recuperação metalúrgica de ouro da
flotação. Valores de 01/2017 até 04/2019.
Figura 126 – Valores de produção para 15 dias para a recuperação metalúrgica de ouro da
flotação. Valores de 01/2017 até 04/2019.
Página 159
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
Figura 127 – Valores de produção para 20 dias para a recuperação metalúrgica de ouro da
flotação. Valores de 01/2017 até 04/2019.
Figura 128 – Valores de produção para 30 dias para a recuperação metalúrgica de ouro da
flotação. Valores de 01/2017 até 04/2019.
Página 160
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
A alternativa utilizada para o cálculo das médias foi a mesma empregada pelo ouro.
Na seção 5.2 apresenta-se o procedimento de cálculo. Geram-se diferentes séries temporais
com janelas de 3, 5 ,15, 20 e 30 dias representados pelas figuras 130 até 134:
Página 161
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
Figura 130 – Valores de produção para 3 dias para a recuperação metalúrgica de enxofre
da flotação. Valores de 01/2017 até 04/2019.
Figura 131 – Valores de produção para 5 dias para a recuperação metalúrgica de enxofre
da flotação. Valores de 01/2017 até 04/2019.
Figura 132 – Valores de produção para 15 dias para a recuperação metalúrgica de enxofre
da flotação. Valores de 01/2017 até 04/2019.
Página 162
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
Figura 133 – Valores de produção para 20 dias para a recuperação metalúrgica de enxofre
da flotação. Valores de 01/2017 até 04/2019.
Figura 134 – Valores de produção para 30 dias para a recuperação metalúrgica de enxofre
da flotação. Valores de 01/2017 até 04/2019.
Tal como considerado no ouro, o cálculo das médias móveis permitem significativa-
mente reduzir a variabilidade das séries temporais e auxiliar na previsão da recuperação. A
tabela 4 demonstra os testes de Dickey-Fuller para as séries temporais de teor de enxofre.
Podemos notar que os testes falham em rejeitar a hipótese de não estacionaridade dos
dados (p-valor < 0.005).
Página 163
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
Página 164
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
Página 165
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
Página 166
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
modelo e suas respectivas siglas são apresentados em 5.6. O ajuste dos melhores parâmetros
utilizou uma procura em grid, variando opções que retornasse o maior R2 . O ajuste foi
realizado nas médias móveis de 15 dias, procurando encontrar a melhor reprodução média
dos modelos. Os algoritmos são compatíveis com a biblioteca sklearn 0.20.1 da linguagem
Python
R
.
(ii) Florestas aleatórias (max depth = 50, n estimators = 1000, criterion = gini, min
samples split = 2, min samples leaf = 1, min weight fraction leaf = 0, max features
= "auto", max leaf nodes = Nenhum, min impurity decrease = 0, min impurity split
= 1e-7, boostrap = True, oob score = Falso, n jobs = Nenhum, random state =
Nenhum, verbose = 0, warm start = Falso) (RF).
Página 167
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
Página 168
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
Página 169
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
Figura 147 – Gráfico dos valores reais x preditos no banco de dados de teste. (y) repre-
senta os dados originais e (ŷ) representa os valores estimados. Regressão da
recuperação metalúrgica de ouro do algoritmo de florestas aleatórias - janela
de 1 dia.
Página 170
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
Figura 148 – Gráfico dos valores reais x preditos no banco de dados de teste. (y) repre-
senta os dados originais e (ŷ) representa os valores estimados. Regressão da
recuperação metalúrgica de ouro do algoritmo de florestas aleatórias - janela
de 3 dias.
Figura 149 – Gráfico dos valores reais x preditos no banco de dados de teste. (y) repre-
senta os dados originais e (ŷ) representa os valores estimados. Recuperação
metalúrgica de ouro do algoritmo de florestas aleatórias - janela de 5 dias.
Página 171
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
Figura 150 – Gráfico dos valores reais x preditos no banco de dados de teste. (y) repre-
senta os dados originais e (ŷ) representa os valores estimados. Recuperação
metalúrgica de ouro do algoritmo de florestas aleatórias - janela de 15 dias.
Figura 151 – Gráfico dos valores reais x preditos no banco de dados de teste. (y) repre-
senta os dados originais e (ŷ) representa os valores estimados. Recuperação
metalúrgica de ouro do algoritmo de florestas aleatórias - janela de 20 dias.
Página 172
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
Figura 152 – Gráfico dos valores reais x preditos no banco de dados de teste. (y) repre-
senta os dados originais e (ŷ) representa os valores estimados. Recuperação
metalúrgica de ouro do algoritmo de florestas aleatórias - janela de 30 dias.
Página 173
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
Página 174
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
Página 175
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
Página 176
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
Figura 160 – Gráfico dos valores reais x preditos no banco de dados de teste. (y) repre-
senta os dados originais e (ŷ) representa os valores estimados. Recuperação
metalúrgica de ouro do algoritmo máquinas de vetores de suporte - janela de
1 dia.
Página 177
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
Figura 161 – Gráfico dos valores reais x preditos no banco de dados de teste. (y) repre-
senta os dados originais e (ŷ) representa os valores estimados. Recuperação
metalúrgica de ouro do algoritmo máquinas de vetores de suporte - janela de
3 dias.
Figura 162 – Gráfico dos valores reais x preditos no banco de dados de teste. (y) repre-
senta os dados originais e (ŷ) representa os valores estimados. Recuperação
metalúrgica de ouro do algoritmo máquinas de vetores de suporte - janela de
5 dias.
Página 178
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
Figura 163 – Gráfico dos valores reais x preditos no banco de dados de teste. (y) repre-
senta os dados originais e (ŷ) representa os valores estimados. Recuperação
metalúrgica de ouro do algoritmo máquinas de vetores de suporte - janela de
15 dias.
Figura 164 – Gráfico dos valores reais x preditos no banco de dados de teste. (y) repre-
senta os dados originais e (ŷ) representa os valores estimados. Recuperação
metalúrgica de ouro do algoritmo máquinas de vetores de suporte - janela de
20 dias.
Página 179
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
Figura 165 – Gráfico dos valores reais x preditos no banco de dados de teste. (y) repre-
senta os dados originais e (ŷ) representa os valores estimados. Recuperação
metalúrgica de ouro do algoritmo máquinas de vetores de suporte - janela de
30 dias.
Página 180
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
(ii) Florestas aleatórias (max depth = 50, n estimators = 800, criterion = gini, min
samples split = 2, min samples leaf = 1, min weight fraction leaf = 0, max features
= "auto", max leaf nodes = Nenhum, min impurity decrease = 0, min impurity split
= 1e-7, boostrap = True, oob score= Falso, n jobs = Nenhum, random state =
Nenhum, verbose = 0, warm start = Falso) (RF).
Para o ajuste dos melhores parâmetros, foi utilizada uma procura em grid variando
diversos tipos de opção e escolhendo aquela com maior R2 . Os parâmetros foram iterados
no banco de dados referente a janela móvel de 15 dias, procurando os parâmetros que
melhor se ajustem a um limite de tempo médio entre a melhor e pior precisão encontrada.
Os algoritmos utilizados são compatíveis com a biblioteca sklearm 0.20.1 da linguagem
Python
R
. Os bancos de dados de treino e teste foram divididos de acordo com uma
validação cruzada, considerando 30% dos dados como a população de teste.
As figuras de 167 até 172 representam os gráficos de resíduos obtidos para a previsão
da recuperação metalúrgica de enxofre com o algoritmo de florestas aleatórias.
Página 181
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
Página 182
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
Página 183
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
Página 184
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
Figura 173 – Gráfico dos valores reais x preditos no banco de dados de teste. (y) repre-
senta os dados originais e (ŷ) representa os valores estimados. Recuperação
metalúrgica de enxofre do algoritmo de florestas aleatórias - janela de 1 dia.
y são os valores reais, enquanto ŷ representa os valores estimados.
Figura 174 – Gráfico dos valores reais x preditos no banco de dados de teste. (y) repre-
senta os dados originais e (ŷ) representa os valores estimados. Recuperação
metalúrgica de enxofre do algoritmo de florestas aleatórias - janela de 3 dias.
y são os valores reais, enquanto ŷ representa os valores estimados.
Página 185
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
Figura 175 – Gráfico dos valores reais x preditos no banco de dados de teste. (y) repre-
senta os dados originais e (ŷ) representa os valores estimados. Recuperação
metalúrgica de enxofre do algoritmo de florestas aleatórias - janela de 5 dias.
y são os valores reais, enquanto ŷ representa os valores estimados.
Figura 176 – Gráfico dos valores reais x preditos no banco de dados de teste. (y) repre-
senta os dados originais e (ŷ) representa os valores estimados. Recuperação
metalúrgica de enxofre do algoritmo de florestas aleatórias - janela de 15
dias. y são os valores reais, enquanto ŷ representa os valores estimados.
Página 186
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
Figura 177 – Gráfico dos valores reais x preditos no banco de dados de teste. (y) repre-
senta os dados originais e (ŷ) representa os valores estimados. Recuperação
metalúrgica de enxofre do algoritmo de florestas aleatórias - janela de 20
dias. y são os valores reais, enquanto ŷ representa os valores estimados.
Figura 178 – Gráfico dos valores reais x preditos no banco de dados de teste. (y) repre-
senta os dados originais e (ŷ) representa os valores estimados. Recuperação
metalúrgica de enxofre do algoritmo de florestas aleatórias - janela de 30
dias. y são os valores reais, enquanto ŷ representa os valores estimados.
Página 187
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
Página 188
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
Página 189
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
Página 190
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
Podemos também obter os gráficos dos valores reais e preditos de acordo com as
figuras de 186 até 191
Página 191
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
Figura 186 – Gráfico dos valores reais x preditos no banco de dados de teste. (y) repre-
senta os dados originais e (ŷ) representa os valores estimados. Recuperação
metalúrgica de enxofre do algoritmo máquinas de vetores de suporte - janela
de 1 dia. y são os valores reais, enquanto ŷ representa os valores estimados.
Figura 187 – Gráfico dos valores reais x preditos no banco de dados de teste. (y) repre-
senta os dados originais e (ŷ) representa os valores estimados. Recuperação
metalúrgica de enxofre do algoritmo máquinas de vetores de suporte - janela
de 3 dias. y são os valores reais, enquanto ŷ representa os valores estimados.
Página 192
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
Figura 188 – Gráfico dos valores reais x preditos no banco de dados de teste. (y) repre-
senta os dados originais e (ŷ) representa os valores estimados. Recuperação
metalúrgica de enxofre do algoritmo máquinas de vetores de suporte - janela
de 5 dias. y são os valores reais, enquanto ŷ representa os valores estimados.
Figura 189 – Gráfico dos valores reais x preditos no banco de dados de teste. (y) repre-
senta os dados originais e (ŷ) representa os valores estimados. Recuperação
metalúrgica de enxofre do algoritmo máquinas de vetores de suporte - janela
de 15 dias. y são os valores reais, enquanto ŷ representa os valores estimados.
Página 193
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
Figura 190 – Gráfico dos valores reais x preditos no banco de dados de teste. (y) repre-
senta os dados originais e (ŷ) representa os valores estimados. Recuperação
metalúrgica de enxofre do algoritmo máquinas de vetores de suporte - janela
de 20 dias. y são os valores reais, enquanto ŷ representa os valores estimados.
Figura 191 – Gráfico dos valores reais x preditos no banco de dados de teste. (y) repre-
senta os dados originais e (ŷ) representa os valores estimados. Recuperação
metalúrgica de enxofre do algoritmo máquinas de vetores de suporte - janela
de 30 dias. y são os valores reais, enquanto ŷ representa os valores estimados.
Página 194
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
Página 195
CAPÍTULO 5. ESTUDO DE CASO - CUIABÁ E LAMEGO
com a natureza destas variáveis, mas também com erros de amostragem, erros de medição
e, também, erro humano ao completar o banco de dados. A melhora de precisão destes
modelos somente é alcançada ao aumentar o suporte temporal das amostras. Os resultados
apresentaram um valor de precisão (R2 ) acima de 0.8 na maioria dos casos que se usou
uma janela móvel de 15 dias, excetuando no modelo de máquinas de vetores de suporte
para a variável enxofre. Neste último caso, apesar das tentativas de se ajustar os melhores
parâmetros para este modelo, não se obteve precisões iguais ou superiores em relação ao
modelo de florestas aleatórias. Os testes de estacionaridade de séries temporais foram um
forte indicativo que as varições da recuperação metalúrgica foram aleatórias, e remetem às
variações de processo, independentes do tempo.
De acordo com este modelo criado, é possível prever com razoável precisão para
uma dada janela temporal, qual é o valor de recuperação metalúrgica de interesse dado as
variáveis geológicas de entrada na usina. A planta de Queiroz recebe um blend constituinte
da produção das minas de Cuiabá e Lamego. Os modelos, neste caso, fazem consideração
das variáveis primárias de entrada na usina (Run of Mine) e não baseados em características
geológicas de cada mina. Com o devido planejamento, é possível projetar este blend para
alcançar uma recuperação metalúrgica adequada.
Página 196
6 Considerações finais
6.1 Conclusão
(ii) A utilização de mais sensores medindo outras propriedades físicas para o equipamento
ore sorting pode ser uma alternativa interessante para a criação de novas variáveis
que possam classificar melhor as partículas minerais.
(iii) A alta variabilidade das recuperações metalúrgicas diárias da usina sugerem reavaliar
os processos amostragem e planejamento mineral.
Página 198
CAPÍTULO 6. CONSIDERAÇÕES FINAIS
(v) Obter informações de planejamento dos stopes, correlacionando não apenas o blend
de alimentação da usina, mas sim de cada região específica do depósito mineral, com
as informações de desempenho do beneficiamento mineral.
Página 199
Referências
AMIDI, A. Machine Learning tips and tricks cheatsheet. 2018. Disponível em: <https://
stanford.edu/~shervine/teaching/cs-229/cheatsheet-machine-learning-tips-and-tricks>.
Citado na página 58.
ASHANTI, A. Mineral resource and ore reserve report 2015. 2016. 104–108 p. Citado 3
vezes nas páginas 99, 103 e 104.
BISHOP, C. M. Pattern recognition and machine learning. [S.l.]: Springer, 2006. Citado 7
vezes nas páginas 59, 74, 76, 77, 78, 80 e 81.
BREIMAN, L. Some properties of splitting criteria. [S.l.]: Springer, 1996. 41–47 p. Citado
na página 83.
COVER, T.; HART, P. Nearest neighbor pattern classification. [S.l.]: IEEE, 1967. 21–27 p.
Citado na página 41.
COX, T. F.; COX, M. A. Multidimensional scaling. [S.l.]: Chapman and hall/CRC, 2000.
Citado 2 vezes nas páginas 84 e 85.
HEARST, M. A. et al. Support vector machines. [S.l.]: IEEE, 1998. 18–28 p. Citado na
página 80.
JAIN, A. K.; MURTY, M. N.; FLYNN, P. J. Data clustering: a review. [S.l.]: Acm, 1999.
264–323 p. Citado 2 vezes nas páginas 85 e 86.
JOLLIFFE, I. T. Principal component analysis and factor analysis. [S.l.]: Springer, 1986.
115–128 p. Citado 2 vezes nas páginas 66 e 67.
KING, G.; ZENG, L. Logistic regression in rare events data. [S.l.]: Cambridge University
Press, 2001. 137–163 p. Citado na página 78.
KNAPP, H. et al. Viable applications of sensor-based sorting for the processing of mineral
resources. [S.l.]: Wiley Online Library, 2014. 86–95 p. Citado na página 97.
Página 202
REFERÊNCIAS
Página 203
REFERÊNCIAS
PRATI, R.; BATISTA, G.; MONARD, M. Curvas ROC para avaliação de classificadores.
2008. 215–222 p. Citado na página 62.
ROSSUM, G. V.; JR, F. L. D. Python reference manual. [S.l.]: Centrum voor Wiskunde
en Informatica Amsterdam, 1995. Citado na página 42.
SAMUEL, A. L. Some studies in machine learning using the game of checkers. [S.l.]: IBM,
1959. 210–229 p. Citado na página 41.
SEPULVEDA, E.; DOWD, P.; XU, C. Modelling geometallurgical response variables using
Projection Pursuit regression. 2015. 1-10 p. Citado na página 40.
SHU, L. et al. An automatic methodology for analyzing sorting level of rock particles. [S.l.]:
Elsevier, 2018. 97–104 p. Citado 2 vezes nas páginas 16 e 87.
SIAMEH, T. Graph analytics methods in feature engineering. 2017. Citado na página 69.
Página 204
REFERÊNCIAS
SUORTTI, P. Effects of porosity and surface roughness on the X-ray intensity reflected
from a powder specimen. [S.l.]: International Union of Crystallography, 1972. 325–331 p.
Citado na página 120.
TAGGART, A. F. Handbook of ore dressing. [S.l.]: J. Wiley & sons, Incorporated, 1927.
Citado na página 39.
VIAL, D. et al. Smaller gold deposits in the Archean Rio das Velhas greenstone belt,
Quadrilátero Ferrífero, Brazil. [S.l.]: Elsevier, 2007. 651–673 p. Citado na página 100.
VIAL, D. S. et al. The geology of the Morro Velho gold deposit in the Archean Rio das
Velhas greenstone belt, Quadrilátero Ferrífero, Brazil. [S.l.]: Elsevier, 2007. 511–542 p.
Citado na página 101.
ZUO, R.; XIONG, Y. Big data analytics of identifying geochemical anomalies supported
by machine learning methods. [S.l.]: Springer, 2018. 5–13 p. Citado na página 88.
Página 205