Escolar Documentos
Profissional Documentos
Cultura Documentos
geológicos multivariados
2010
Dúvidas, questões, sugestões, etc. sobre o texto deverão ser encaminhadas para o endereço
plandim@rc.unesp.br, as quais serão sempre bem recebidas
1
ÍNDICE
01. INTRODUÇÃO…………………………………………………………………………….. 03
2
1. INTRODUÇÃO
3
uma ferramenta fundamental. Isto porque, como os fenômenos geológicos são
resultantes de diversos fatores condicionantes, o seu entendimento é facilitado
quando o estudo é submetido a um tratamento quantitativo multidimensional.
Deve ser enfatizado, porem, que a pura utilização de técnicas estatísticas, e hoje
em dia bastante facilitada graças à vasta disposição de programas
computacionais, não é condição suficiente se o estudo não for embasado num
sólido conhecimento geológico.
No caso de uma única variável ter sido medida em amostras, no sentido
geológico, a análise de tais dados é feita por intermédio da estatística univariada.
Se porém valores de diversas variáveis forem obtidos em cada uma das amostras,
as técnicas para a análise desses dados são fornecidas pela estatística
multivariada ou multidimensional. Tal análise estatística de mensurações múltiplas
efetuadas sobre uma amostra fornece um melhor entendimento na razão direta do
número de variáveis utilizadas e permite considerar simultaneamente a
variabilidade existente nas diversas propriedades medidas.
Os resultados de análises de dados uni ou bi variados podem se apresentar
na forma de gráficos em 1D, 2D e mesmo 3D, de fácil compreensão. No caso
porem de, por exemplo, 10 variáveis o resultado ocorre num espaço a 10
dimensões, concebível apenas de um modo abstrato. Uma das funções, porem,
dos métodos multivariados é, ao apresentar os resultados, ser capaz de reduzir a
dimensão dos dados tornando possível um melhor entendimento gráfico a duas ou
três dimensões.
Entre os métodos mais utilizados em Geociências destacam-se a análise de
agrupamentos , a análise das componentes principais e a análise discriminante.
A análise de agrupamentos é utilizada quando se deseja explorar as
similaridades entre indivíduos (modo Q) ou entre variáveis (modo R) definindo-os
em grupos, considerando simultaneamente, no primeiro caso, todas as variáveis
observadas em cada indivíduo e, no segundo, todos os indivíduos nos quais foram
feitas as mesmas medidas. Segundo esse método, procura-se por agrupamentos
homogêneos de itens representados por pontos num espaço n-dimensional em um
número conveniente de grupos relacionando-os através de coeficientes de
similaridade ou de distância.
4
A análise das componentes principais procura interpretar a estrutura de um
conjunto de dados multivariados, tanto em modo “Q” como em modo “R”, a partir
da respectiva matriz de variâncias-covariâncias ou de correlações, pela obtenção
de “autovalores” e “autovetores”. Consiste numa transformação linear das "m"
variáveis originais correlacionadas entre si em "m" novas variáveis ortogonais e
não deve ser confundida com a análise fatorial, segundo a qual supõe-se que as
relações existentes dentro de um conjunto de "m" variáveis seja o reflexo das
correlações de cada uma dessas variáveis com "p" fatores, mutuamente não
correlacionáveis entre si, sendo "p" menor que "m". A matriz de carregamentos de
cada variavel nas componentes principais, ao ser multiplicada pela matriz original
de dados, fornece a matriz de contagens (scores) de cada caso em relação às
componentes principais.
A análise discriminante é aplicada quando em relação a um indivíduo, sobre
o qual tenham sido feitas diversas medidas, é necessário decidir à qual de dois ou
mais possíveis grupos, o mesmo pertence. A idéia básica é substituir o conjunto
original das diversas mensurações por um único valor Di, definido como uma
combinação linear delas. Para fornecer um único valor os termos são adicionados
nessa função linear e esta transformação é realizada de tal modo a fornecer a
razão mínima entre a diferença entre pares de médias multivariadas e a variância
multivariada dentro dos dois grupos. Conhecido os Di's, estes serão comparados
com um certo Do , ou seja, o valor situado, ao longo da linha expressa pela
função discriminante, a meio caminho entre os centros dos grupos, com a
finalidade de verificar a qual deles os indivíduos pertencem.
A utilidade dos métodos multivariados pode ser apresentada em termos
geométricos. Assim, observações univariadas podem ser assinaladas sobre uma
linha reta e se essa linha for dividida em intervalos de classes e contando o
número de observações em cada intervalo, um histograma poderá ser construído.
Esse histograma irá requerer duas dimensões para a sua representação.
Observações bivariadas podem ser assinaladas em um sistema de dispersão a
duas dimensões. Se o diagrama for dividido em celas, o número de observações
em cada cela pode ser contado e o respectivo histograma construído. Esse
histograma requer três dimensões e pode ser representado por um mapa de
5
isovalores. Observações trivariadas podem ser assinaladas em um gráfico de
dispersão a três dimensões e a configuração nos pontos no espaço definirá uma
elipsóide. Se o espaço tri-dimensional for dividido em cubos os números de
observações dentro de cada figura geométrica poderão ser contados e obtida a
distribuição de freqüências. Para a construção do respectivo histograma quatro
dimensões serão necessárias. Em observações com quatro ou mais variáveis não é
possível a representação gráfica segundo os métodos comuns, embora MERTIE
6
Exemplos de situações que apresentam dados multivariados são comuns
em Geociências, como: análises geoquímicas de elementos maiores e/ou
elementos traços; caracteres morfológicos medidos em fósseis; características
físicas de rochas sedimentares, como distribuição granulométrica, porosidade,
permeabilidade; conteúdo mineralógico em rochas; variáveis fluviais, como
descarga, material em suspensão, profundidade, sólidos dissolvidos, pH e
conteúdo em oxigênio; características geotécnias de solos e rochas; bandas
espectrais em imagens de satélites, etc.. Em alguns casos trata-se de simples
extensão de problemas ligados à estatística univariada e outros pertencem,
todavia, a uma nova classe de problemas.
Esses métodos clássicos da análise estatística multivariada não levam,
porém, em consideração a localização dos pontos de amostragem, nem as suas
relações espaciais e também não refletem as diferenças quanto o suporte das
amostras ou com relação ao suporte da região onde o estudo esta sendo
realizado. A metodologia geoestatística univariada, de recente aplicação, tem
essas propriedades, mas não é capaz de tratar da correlação espacial entre
diversas variáveis. Ferramentas se tornaram, então, necessárias para incorporar
essas importantes feições e daí a necessidade de métodos estatísticos que
enfoquem a análise espacial de dados geológicos multivariados.
Para tanto duas soluções tem sido apresentadas: uma, adaptativa,
procurando, a partir dos resultados dos métodos clássicos, verificar se os mesmos
apresentam uma organização espacial significativa e outra, específica,
desenvolvendo metodologia própria para esta problemática, com destaque para a
a cokrigagem e a krigagem fatorial.
Caso as amostras, no sentido geológico, sejam georreferenciadas os grupos
resultantes da análise de agrupamentos/modo Q poderão ser submetidos a uma
verificação espacial para a constatação de algum padrão de distribuição espacial
desses grupos. De modo idêntico os “scores”, calculados a partir da análise das
componentes principais ou da análise de fatores, que tenham suas coordenadas
geográficas conhecidas poderão fornecer mapas de distribuição ou de tendência
espacial. A análise discriminante pode ser aplicada para avaliar e comparar
alterações ocorridas a intervalos de tempo indicando que variáveis mais
7
contribuíram para essas mudanças. São adaptações de métodos estatísticos
multivariados procurando modelar espacial ou cronologicamente fenômenos
geológicos. Isso, porém, somente é possível se as amostras da matriz de dados
multidimensionais apresentarem perfeitamente conhecidas as suas coordenadas
geográficas.
A cokrigagem é um procedimento geoestatístico segundo o qual
diversas variáveis regionalizadas podem ser estimadas em conjunto, com base na
correlação espacial entre si. É uma extensão multivariada do método da krigagem
quando, para cada local amostrado, obtém-se um vetor de valores em lugar de um
único valor. A aplicação da cokrigagem torna-se bastante evidente quando duas ou
mais variáveis são amostradas nos mesmos locais dentro de um mesmo domínio
espacial e apresentam significativo grau de correlação. Valores ausentes não se
tornam problemáticos, pois o método deve ser usado exatamente quando uma
das variáveis apresenta-se sub-amostrada em relação às demais. Essa variável é
conhecida como “primária” e as demais como “secundárias”. O objetivo é,
portanto, melhorar a estimativa da variável sub-amostrada utilizando aquelas mais
densamente amostradas.
No caso da krigagem fatorial deve-se efetuar: 1) modelagem de
corregionalização das variáveis usando o denominado modelo linear de
corregionalização: todos os p(p + 1)/2 variogramas diretos e cruzados das p
variáveis são modelados por uma combinação linear dos N´s variogramas
padronizados para um mesmo alcance (sill); nesta modelagem supõe-se que o
comportamento espacial das variáveis é o resultado da interação de diferentes
processos atuando independentemente a diferentes escalas espaciais; 2) analise
da estrutura de correlações entre as variáveis, levando em consideração as
diferentes escalas, com aplicação da análise das componentes principais; um
“círculo de correlações” entre as variáveis originais e os dois mais importantes
fatores regionalizados é utilizado para resumir as relações entre as variáveis a
cada escala espacial; 3) estimação das relações entre os fatores regionalizados e
variáveis, como componentes espaciais, a diferentes escalas por cokrigagem,
para, finalmente, mapeà-los.
8
Em qualquer das circunstâncias citadas a preocupação é com:
Descrição dos dados: os dados precisam ser explorados, tanto espacial
como cronologicamente, em sua estrutura multidimensional para o seu
entendimento e constatação de eventuais valores anômalos que possam mascarar
tal estrutura. Existem a disposição, graças à moderna tecnologia computacional,
ferramentas gráficas que permitem a visualização simultânea de amostras no
espaço e/ou no tempo e as primeiras idéias a respeito da estrutura
multidimensional podem começar a surgir a partir dessas exibições gráficas.
Interpretação: os produtos gráficos obtidos a partir das informações
numéricas são avaliados levando em consideração tanto o conhecimento já
adquirido com dados similares como fatos científicos relacionados às variáveis sob
estudo. A interpretação da estrutura espacial ou temporal, as associações e as
relações casuais entre variáveis devem, então, ser organizadas num modelo que
se ajuste aos dados.
Estimação: A modelagem, se correta, não apenas descreve o fenômeno
nos locais amostrados, mas pode se tornar válida para interpolações em locais ou
intervalos de tempo adjacentes, não amostrados, representando um passo alem
com relação às informações contidas nos dados numéricos. Na verdade este é o
grande desafio da análise multivariada de dados espaciais, a estimação de valores
para situações de previsão quantitativa.
A pretensão deste texto, escrito de maneira a mais simples possível, por
um Professor de Geologia, é apresentar uma introdução aos métodos estatísticos
multidimensionais que possam ser aplicados na análise de dados, sem uma
abordagem matemática complexa, porem sempre, que possível, com um enfoque
espacial e que permita ao usuário iniciar-se na Geologia Quantitativa. Não
pretende ser um livro-texto detalhado. Pressume-se que os leitores tenham um
conhecimento básico de estatística descritiva, alem de dominar conceitos simples
de álgebra matricial e familiaridade com manuseio de computadores pessoais. Os
exemplos são voltados às Geociências, mas a metodologia pode perfeitamente ser
utilizada em outras áreas que disponham de dados com estas mesmas
características, ou seja, multivariados e regionalizados.
9
Existe à disposição uma variedade muito grande de livros e pacotes
computacionais e entre os principais livros textos que tratam de métodos
quantitativos em Geologia podem ser citados: MILLER & KAHN (1962), SOKAL & SNEATH
(1963), KRUMBEIN & GRAYBILL (1965), KOCH & LINK (1971), DAVIS (1973, 1986 E 2002),
JORESKOG, KLOVAN & REYMENT (1976) , LE MAITRE (1982), HOWARTH & SIDING-LARSEN
(1985), SWAN & SANDILANDS (1995), GRIFFITH & AMRHEIN (1997), REYMENT & SAVAZZI
10
REFERÊNCIAS BIBLIOGRÁFICAS
AYRES, M.; AYRES JR., M.; AYRES, D. L. & SANTOS, A. S. (2000) – BioEstat 2.0:
aplicações estatísticas nas áreas das ciências biológicas e médicas: Sociedade Civil
Mamirauá, MCT-CNPq, mizayres@zaz.com.br
DAVIS, J.C. (1973) - Statistics and Data Analysis in Geology: John Wiley and Sons.
DAVIS, J.C (1986) - Statistics and Data Analysis in Geology: 2nd ed., John Wiley and Sons.
DAVIS, J.C (2002) - Statistics and Data Analysis in Geology: 3rd ed., John Wiley and Sons.
GRIFFITH, D.A. & AMRHEIN, C.G. (1997) – Multivariate Statistical Analysis for
Geographers – Prentice Hall.
HAMMER. O. & HARPER, D.A.T. (2004) – PAST. PAlaentological STatistics, versão 1.20.
http://folk.uio.no/ohammer/past
JORESKOG, K.G., KLOVAN, J.E. & REYMENT, R.A. (1976) - Geological factor analysis:
Elsevier.
KOCH JR, G.S. & LINK, .F. (1971) - Statistical analysis of geological data: vol. 2, John
Wiley & Sons.
11
MERRIAM, D. F. (2004) – The quantification of geology: from abacus to Pentium. A
chronicle of people, places, and phenomena: Earth-Science Reviews, 67:55-89
MERTIE JR, J.B. (1949) - Charting five and six variables on the bounding tetrahedral of
hyper tetrahedral: Am. Mineralogist, 34:706-716.
MILLER, R.L. & KAHN, J.S. (1962) - Statistical analysis in the geological sciences: John
Wiley and Sons.
SOKAL, R.R. & SNEATH, P.H.A. (1963) - Principles of numerical taxonomy: W.H. Freeman.
12
2. NOÇÕES DE ÁLGEBRA MATRICIAL
13
z1,1 z1,2
y y y
[Y2,3 ] = 1,1 1,2 1,3 [Z3,2 ] = z2,1 z2,2
y 2,1 y 2,2 y 2,3 z
3,1 z 3,2
[Y] é uma matriz com 2 linhas e 3 colunas e [Z] é uma matriz com 3 linhas
e 2 colunas, sendo ambas retangulares.
Matriz diagonal é uma matriz quadrada onde os elementos fora da diagonal
principal são todos iguais a 0 (zero):
x11 0 0
[X ] = 0 x 22 0
0 0 x 33
1 0 0
[I] = 0 1 0
0 0 1
y1
y
[X] = [x1 x1 ...x m ] ou [Y ] = 2
M
yn
14
33 48 63
28 33 28 12 45
40 55
se [ A ] = , então [ A ]' = 48 40 78 89
12 78 93
63 55 93 22
45 89 22
2 5 1 3 2 + 1 5 + 3 3 8
3 7 + 2 4 = 3 + 2 7 + 4 = 5 11
Multiplicação: para efetuar a multiplicação, por exemplo [A]*[B]=[C], o
número de linhas em [B] deve ser igual ao número de colunas em [A]. O resultado
em [C] terá o mesmo número de linhas que [A] e o mesmo número de colunas
que [B]
[ A lj ] * [B jk ] = [Clk ]
r
c ij = ∑ aik * bkj
k =1
onde r é o número de colunas em [A] ou linhas em [B]. Isto significa que, por
exemplo para c11, deve-se multiplicar a primeira linha em [A] vezes a primeira
coluna em [B]; para encontrar c23 multiplicar a segunda linha de [A] pela terceira
coluna de [B]
2 5 (2 * 4) + (5 * 6) (2 * 2) + (5 * 3) (2 * 1) + (5 * 2) 38 19 12
0 7 * 4 2 1 = (2 * 4) + (7 * 6) (0 * 2) + (7 * 3) (0 * 1) + (7 * 2) = 42 21 14
6 3 2
4 3 (2 * 4) + (3 * 6) ( 4 * 2) + (3 * 3) ( 4 * 1) + (3 * 2) 34 17 10
15
2 5
4 2 1 12 37
6 3 2 * 0 7 = 20 57
4 3
a11 a12
= (a11 * a 22 ) − (a12 * a 21 )
a 21 a 22
16
onde [A] e [B] contém valores conhecidos e [X] valores desconhecidos a serem
determinados.
Multiplicando ambos os lados da equação por [A]-1
[A]-1*[A]*[X]=[A]-1*[B],
Como [A]-1*[A]=[I], a equação se reduz para
[X]=[A]-1*[B]
Em notação matricial:
04 10 x1 038
* =
10 30 x 2 110
04 10 1 0
10 30 0 1
17
1 0 1,5 − 0,5
0 1 − 0,5 0,2
x1=2 e x2=3
xj = ; Sj = m ; s i = s 2j
m m−1
18
x ij − x j
zij =
sj
M M M M
z1,n z 2,n z 3,n zm,n
m−1 M M M
rn,1 rn,2 rn,n
19
Exemplo
1 2 3
2 3 4
[X] = 1 2 3
5 4 3
4 4 4
Médias: x1=2,6; x2=3,0; x3=3,4
Desvios padrão: s1 = 1,8; s2=1,0; s3=0,55
− 0,889 − 1,000 − 0,727
− 0,333 0,000 1,091
[Z] = − 0,889 − 1,000 − 0,727
1,333 1,000 − 0727
0,778 1,000 1,091
20
x1,1 x1,2 x1,3 L x1,n
x x 2,n
2,1 x 2,2 x 2,3 L
[ X] = x 3,1 x 3,2 x 3,3 L x 3,n
M M M O M
x m,1 x m,2 x m,3 L x m.n
M M M M
x *1,n x * 2,n x * 3,n x *m,n
[A] = [X*]’[X*]
a12 a1a 2 ... a1an
a 2a1 a 22 a 2an
[A] =
M M M
a a ana 2 an2
n1
21
3. Finalmente criar uma matriz de variâncias e covariâncias [S] multiplicando o
m−1 M M M
sn,1 sn,2 sn,n
Exemplo
1 2 3
2 3 4
[X ] = 1 2 3
5 4 3
4 4 4
22
Cada elemento da diagonal se refere à variância de uma variável e fora da
diagonal à covariância entre o par de variáveis em questão. A soma dos elementos
da diagonal é a variância total no sistema.
Notar que a matriz de correlações é a matriz de variâncias e covariância
com cada elemento dividido pelo produto dos desvios padrões das respectivas
variáveis. A matriz de correlações é também a matriz de variâncias e covariâncias
de variáveis padronizadas.
a21x1+a22x2+...+a2nxn=λx2
a31x1+a32x2+...+a3nxn=λx3
Essas equações podem ser escritas em forma de matriz, onde [A],
contendo os coeficientes aij’s, multiplicada por um vetor [X], de desconhecidos xi’s,
23
λ 1 0 0
0 λ 2 0
0 0 λ 3
1 2 4
4 2 3
7 3 2
8 5 1
Desenvolvendo:
(1,000 - λ1)(1,000 - λ2)(1,000 - λ3) + (0,820)(- 0,913)(- 0,980) + (- 0,980)(0,820)
(- 0,913) - (- 0,980)(1,000 - λ1)(- 0,980) - (1,000 - λ2)(- 0,913)(- 0,913) -
(0,820)(0,820)(1,000 - λ3) =
≅ (λ1 - 2,810)(λ2 - 0,188)(λ3 - 0,002)
Os autovalores são iguais a: λ1 = 2,810; λ2 = 0,188; λ3 = 0,002 (soma = 3)
e a porcentagem da variância total explicada por cada autovalor:
24
λ1 = (2,810/3)*100 = 93,66
λ2 = (0,188/3)*100 = 6,27
λ3 = (0,002/3)*100 = 0,07
25
Autovetores
Variáveis V1 V2 V3
X1 -0.58 -0.60 0.56
X2 -0.56 0.79 0.26
X3 0.59 0.16 0.79
F1 F2 F3
X1 -0.97 -0.26 0.03
X2 -0.94 0.34 0.01
X3 1.00 0.07 0.04
Em termos geométricos:
Variáveis
0,5
V2
Eixo F2: 6%
0
V3
V1
-0,5
-1
-1 -0,5 0 0,5 1
26
A matriz original de dados ao ser multiplicada pela matriz de autovalores
fornecerá a matriz de pontuações (scores).
F1 F2 F3
Obs1 2.10 0.45 0.03
Obs2 0.93 -0.35 -0.07
Obs3 -0.69 -0.51 0.06
Obs4 -2.34 0.41 -0.02
Em termos geométricos:
Observações
2,5
1,5
1
Eixo F2: 6.27 %
0,5
A4 A1
0
A2
-0,5 A3
-1
-1,5
-2
-2,5
-2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5
27
A orientação dos autovetores no espaço multivariado é determinada pela
direção da máxima variância. Como a contribuição da variância para cada
autovetor, em alguns casos, deve ser maximizada, há necessidade de rotação da
matriz fatorial inicial.
Matriz fatorial inicial:
Fatores
F1 F2
X1 0,966 -0,259
X2 0,940 0,340
X -0,997 0,070
28
4∑ 2X JP X JQ (X2JP - X 2JQ ) - [4∑ (X2JP - X 2JQ )∑ X JP X JQ ]/n
tan4Θ = J J J
∑(X
J
2
JP - X ) - (2∑ X JP X JQ ) - [( ∑ ΣX X ) - (2∑ X JP X JQ )2 ]/n
2
JQ
2
J
2
J
2
JP
2
JQ
2
UJ = X 2JP − X 2JQ
VJ = 2 X JP X JQ
A = ∑U
J
J = 2,6222; A2 = 6,8789
B = ∑V
J
J = -0,0001; B2 = 0,0000
C = ∑ (U
J
2
J − VJ2 ) = 1,6365
D = 2∑ (UJ VJ ) = -0,0797
J
D − 2AB / n
tan 4θ = = - 0,1592/- 0,6555 = 0,2429
C − ( A 2 − B2 ) / n
0,7515 − 0,6598
[T ] =
− 0,6598 0,7515
29
Em termos geométricos:
Variáveis
0,9
0,4
V2
V3
-0,1
V1
-0,6
-1,1
-1,1 -0,6 -0,1 0,4 0,9
0,86 V2
0,66
V1
Eixo F2: 45.17 %
0,46
0,26
0,06
-0,14
-0,34
-0,54
V3
-0,74
-0,94
-0,9 -0,7 -0,5 -0,3 -0,14 0,06 0,26 0,46 0,66 0,86
4 4 4 4
30
Observações
1,2
A4
0,7 A1
-0,3
A2
-0,8
A3
-1,3
-1,3 -0,8 -0,3 0,2 0,7 1,2
0,9
Eixo F2: 45.17 %
0,4
-0,1
A1
-0,6 A2
A3
-1,1
-1,6
-1,6 -1,1 -0,6 -0,1 0,4 0,9 1,4
Gráfico mostrando o arranjo espacial dos pontos Xi, em 2D, antes e depois
da rotação dos eixos F1 e F2:
31
32
REFERÊNCIAS BIBLIOGRAFICAS
AYRES JR., F. (1962) – Schaum’s Outline of Theory and Problems of Matrices: Schaum
Publ. Co.
GOLUB, G.H. & VAN LOAN, C.F. (1996) – Matrix Computations, 3rd. ed.: Johns Hopkins
Univ. Press.
33
3. REGRESSÃO LINEAR MÚLTIPLA
As relações entre duas variáveis "X", considerada independente, e "Y",
considerada dependente, pode ser representada num diagrama de dispersão, com
os valores yi em ordenada e os xi em abscissa. Cada par de valores xi,yi fornecerá
um ponto e utilizando-se, por exemplo, o método dos desvios mínimos ao
quadrado, pode-se calcular a equação de uma curva de tendência que melhor se
ajuste à nuvem de distribuição de pontos. O modelo mais simples que pode ser
adotado é o da análise de regressão linear que fornece a equação de uma reta:
yi = αι + βxi + εi
onde α e β são constantes desconhecidas a serem determinadas e ε representa
toda a fonte de variabilidade em Y não explicada por X. Operacionalmente
encontra-se a equação da reta para a previsão dos valores yi segundo:
y i = a + bx i ,
34
pode ser resolvida segundo:
n ∑ x1i L ∑ x ni ao ∑ yi
∑ x ∑ x12i L ∑ x1i x ni a ∑ x y
1i 1 1i i
∑ x 2i ∑ x 2i x1i L ∑ x 2i x ni a 2 = ∑ x 2i y i
M M O M M M
∑ x ni ∑ x ni x1i L ∑ x ni2 an ∑ x ni y i
[ X] [A] [ Y]
35
Fonte de Soma de Média
variação g.l. quadrados quadrática Razão F
Regressão n SQR MQR MQR/MQD
Resíduos m-n-1 SQD MQD
Total m-1 SQT
m −1 MQR
R aj2 = 1 − (1 − R 2 ) = 1 −
m−n MQT
36
variação da variável dependente Y, sem que o comportamento das variáveis
independentes X’s seja objeto de análise.
Uma das mais importantes aplicações da análise de regressão linear
múltipla é a escolha, entre diversas variáveis independentes, daquelas mais úteis
na previsão de Y. A questão se torna, então, saber se certas variáveis
explanatórias podem ser retiradas, ou não, do modelo de regressão.
O método mais usual para essa seleção é a regressão múltipla “passo-a-
passo” (stepwise multiple regression). O processo de seleção é iniciado com a
adição da variável com a maior contribuição para o modelo. A partir daí são
estabelecidas probabilidades limiares tanto para a retirada como para inclusão de
novas variáveis ao modelo. Se uma segunda variável apresenta uma probabilidade
menor do que a probabilidade "de entrada", ela é adicionada ao modelo. O
mesmo para uma terceira variável. Após a terceira variável ser adicionado, o
impacto da remoção de cada variável presente no modelo, depois de ter sido
adicionada, é avaliada. Se a probabilidade é maior do que a probabilidade "de
remoção", a variável é removida. O processo continua até que não haja mais
variáveis que possam ser acrescentadas ou removidas.
Outra maneira é calcular os valores de R2 segundo 2n-1 combinações, onde
n é o número de variáveis independentes. Ao final verifica-se a contribuição de
cada variável independente por comparações sucessivas entre os diversos
resultados.
3.1. Exemplos
3.1.1. DAWSON & WHITTEN (1962), num estudo petrográfico sobre o complexo
granítico da região de Lacorne, La Motte e Preissac, no Canadá, obtiveram valores
para peso específico, quartzo, índice de cor (porcentagem de silicatos escuros ou
máficos), feldspato, e as coordenadas N-S e E-W para cada ponto de amostragem
(Matriz de dados 3.1., no Apêndice ao final do texto) .
Para verificar se o peso específico pode ser previsto em função das outras 5
variáveis, aplica-se a análise de regressão múltipla para a indicação das variáveis
por ordem de importância nessa previsão.
37
Inicialmente é feita uma análise de regressão levando em consideração
todas as 5 variáveis, consideradas independentes, e uma análise de variância para
verificar a validade do modelo (Tabela 3.1.).
A equação inicial encontrada é:
Y = 4,0607 -0,0158X1 -0,0106X2 -0,0143X3 + 0,0080X4 -0,0006X5,
com R2 = 0,9177
38
Parâmetros do modelo:
Erro Pr >
Fonte Valor padrão t |t|
Intercepto 4.00673 0.59719 6.70934 < 0.0001
Quartzo -0.01528 0.00599 -2.55232 0.01473
Cor -0.01014 0.00599 -1.69193 0.09864
Feldspato -0.01377 0.00601 -2.28959 0.02754
NS 0.00767 0.00187 4.10426 0.00020
EW 0.00000 0.00000
Isto significa que as variáveis, em ordem de importância para a explicação
do peso específico, são: cor, N-S, quartzo, feldspato, sendo praticamente nula a
contribuição de E-W.
Uma outra maneira para verificar essa ordenação, segundo KRUMBEIN &
GRAYBILL (1965), é calcular os coeficientes R2s referentes às variáveis
independentes, uma de cada vez e, em seguida, combinadas duas a duas, três a
três e quatro a quatro. Esse procedimento fornece um número total de
combinações da ordem de 25 – 1, isto é, 31. A seguir estão os coeficientes que
apresentaram os maiores resultados (Tabela 3.3.):
Variáveis R2s
Cor 0,8404
Quartzo 0,7277
EW 0,4673
NS 0,3258
Feldspato 0,1364
Cor+NS 0,8887
Cor+Quartzo 0,8640
Cor+Feldspato 0.8600
Cor+EW 0,8526
Cor+NS+Quartzo 0,9061
Cor+NS+Feldspato 0,9034
Cor+NS+EW 0,8896
Quarzto+EW+Felspato 0,8750
Cor+NS+Quartzo+Feldspato 0,9172
Cor+NS+Quartzo+EW 0,9061
Cor+NS+Quartzo+Feldspato+EW 0,9177
39
ela atribuída; em seguida apresentam-se cor+NS com 88,87% e desse modo a
variável NS é escolhida com a contribuição de 88,87 – 84,04 = 4,83% para a
explicação de Y; de modo idêntico quartzo é escolhida como a terceira variável
com 1,74%, resultado de 90,61 – 88,87; feldspato, como a quarta variável, com
1,11%, resultado de 91,72 – 90,61 e, finalmente, EW com 0,05%. Desse modo, a
explicação para o comportamento da variável peso específico é mostrada na
Tabela 3.4.:
40
Figura 3.1. Mapa com valores interpolados para as varáveis estudadas
41
3.1.2. Comparação entre mapas têm sido preocupação dos geólogos, pela sua
utilidade na localização espacial e mesmo interpretação de qualquer banco de
dados temático. Se existem, porém, diversos algoritmos à disposição para a
confecção de mapas o mesmo não pode ser afirmado em relação à comparação
entre mapas. Alguns trabalhos que tratam do assunto podem ser encontrados em
BROWER & MERRIAM (1990, 1992) usando técnicas estatísticas; e HERZFELD &
SONDERGARD (1988); HERZFELD & MERRIAM (1991) usando técnicas algébricas
orientadas para uso em computador. Um interessante enfoque é apresentado por
BROWER & MERRIAM (2001) que utilizam a análise de regressão múltipla para
comparar mapas de contorno estrutural com finalidade de entender a história
geológica de uma certa região. Se a variável considerada dependente for a
camada mais jovem e as demais camadas as variáveis independentes, pode-se
verificar qual delas teve maior influência na configuração dessa camada mais
jovem.
Utilizando essa idéia LEITE & LANDIM (2003) aplicaram a análise de regressão
múltipla para quantificar a influência de diversas variáveis no comportamento da
superfície potenciométrica de um aqüífero livre (superfície), considerada como
variável dependente. As variáveis consideradas independentes foram cota do
terreno (topografia), base da formação aqüífera ou cota do topo do basalto
(basalto), espessura da formação aqüífera (espessura), e coordenadas UTM (X e
Y). Esses valores foram obtidos a partir de 188 poços (Matriz de dados 3.2.).
42
entre os níveis 310-350 m, com profundidades máximas do nível d’água (N.A.)
pouco superiores a 10 metros.
Variável Coeficientes R2
Topografia 0,814
Topografia + Coord X 0,830
Topografia + Coord X + Espessura do aquífero 0,833
Topografia + Coord X + Espessura do aquífero + Coord Y 0,836
Topografia + Coord X + Espessura do aquífero + Coord Y + 0,836
Topo Basalto
43
Com estes resultados, estabelece-se a contribuição específica de cada
variável independente para a variabilidade da variável dependente H, isto é,
superfície potenciométrica do aqüífero livre:
Variável Contribuição
Topografia 81,4% (0,814)
Coordenada X 1,6% (0,830 - 0,814)
Espessura do aquífero 0,3% (0,833 – 0,830)
Coordenada Y 0,3% (0,836 – 0,833)
Topo do basalto 0,0% (0,836 – 0,836)
44
Figura 3.3. Mapa da topografia local com pontos de amostragem.
Neste caso a análise de regressão múltipla foi efetuada a partir de 188
pontos, com coordenadas X-Y. Pode-se, porém, efetuar este mesmo tipo de
análise, comparando superfícies segundo metodologia encontrada no software
IDRISI 3.2 (2001). Um exemplo pode ser encontrado em LOURENÇO & LANDIM
(2004)
45
O comportamento espacial de variáveis mapeáveis pode ser mostrado com
os valores distribuindo-se segundo curvas de mesmo valor, também conhecidas
como isopletas. Tais mapas, como os topográficos ou os de isópacas, com linhas
de mesma espessura de camadas, fornecem importantes informações, porém, em
algumas situações os padrões de variação não se mostram muito claros devido a
flutuações locais ou a valores anômalos. É comum nessas circunstâncias falar-se
em tendências regionais que são mascaradas por anomalias locais. O método da
análise de superfícies de tendência pode, então, ser utilizado para evidenciar tal
situação, pois, segundo esse procedimento define-se, além das grandes e
sistemáticas mudanças existentes na área, aquelas pequenas, aparentemente não
ordenadas flutuações, que se impõem aos padrões mais gerais. Esta metodologia
foi originalmente introduzida nas Ciências da Terra por OLDHAM & SUTHERLAND
46
A coleta tendo sido feita, porém, de modo irregular, o que normalmente
acontece em Geologia, o recurso a ser usado é o do método dos polinômios não
ortogonais, tentando encaixar a preliminarmente uma superfície linear aos dados,
em seguida uma quadrática, uma cúbica e assim por diante. O método usual para
o ajustamento aos dados é o da regressão pelos mínimos quadrados. Em alguns
casos, como em problemas de suavização, o interesse é pelo melhor ajuste aos
dados e assim procura-se pela superfície de mais alto grau possível. Em outros,
como na detecção de anomalias, o que interessa são os resíduos e calculam-se,
então, superfícies de baixo grau com os respectivos mapas de resíduos positivos e
negativos.
n ∑ xi ∑ yi a0 ∑ zi
∑ x
i ∑ x i2 ∑ x i y i
a1 = ∑ zi x i
∑ y i ∑ xi yi ∑ y i2 a ∑ zi y i
2
[ XY] [A] [ Z]
[ A ] = [ XY]−1[ Z]
47
zi ( X, Y ) = b0 + b1xi + b2 y i + b3 xi2 + b 4 xiyi + b5 yi2 + ei ,
de grau 2 torna-se:
−1
b0 n ∑ xi ∑ yi ∑ x i2 ∑ xi yi ∑ y i2 ∑ zi
b
∑ xi ∑ x i2 ∑ xi y ∑ x i3 ∑ x i2 y i ∑ x i y i2 ∑ x i zi
1 i
b 2 ∑y ∑ xi yi ∑ y i2 ∑ x i2 y i ∑ x i y i2 ∑ y i3 ∑ y i zi
=
i
∑ xi ∑ x i3 ∑ x i2 y ∑ x i4 ∑ x i3 y i ∑ x i2 y i2 ∑ x i2 zi
2
b3 i
b 4
∑ x i y i ∑x y2
∑ xi y 2
∑ x i3 y i ∑ x i2 y i2 ∑ x i y i3 ∑ x i y i zi
i
i i
5
b ∑ y2 ∑ xi yi
2
∑ yi
3 2
∑ xi yi
2
∑ xiyi
3
∑ y i ∑ y i zi
4 2
i
48
Sendo computadas a soma de quadrados da variável dependente, a soma
de quadrados devido à superfície polinomial e a soma de quadrados dos resíduos,
pode-se obter uma indicação da validade da superfície de tendência calculada por
uma análise de variância:
[
variação total: SQT = ∑ y i2 − (∑ yi) / n
2
]
[
variação devido à superfície calculada: SQP = ∑ y *i2 − (∑ y *i )2 /n ]
variação devido aos resíduos ou desvios: SQR = SQT - SQP
porcentagem de ajuste da superfície: R2 = ( SQP / SQT ) 100%
49
Tabela 3.6. Análise de variância para verificação da contribuição do incremento
polinomial
Fontes de Variação SQ g.l. MQ F
Regressão de grau “p” SQP k MSP
Resíduos referentes à “p” (1)MSP/MSR
SQR n-k-1 MSR
Regressão de grau “p+1” SQP1 m MSP1
Resíduos referentes à
SQR1 n-m-1 MSR1 (2) MSP1/MSR1
“p+1”
Regressão devido ao
incremento de “p” para SQI=SQP1 - SQP m - k (3) MSI/MSR1
MSI
“p+1” grau
Total SQT n - 1
n: número de observações
grau p: k coeficientes, não contando o termo a0
grau p+1: m coeficientes, não contando o termo b0
(1) teste de significância relativo à superfície de tendência de grau p
(2) teste de significância relativo à superfície de tendência de grau p+1
(3) teste de significância relativo à melhoria de ajuste da superfície p+1 em
comparação com a superfície p
H0: a contribuição do incremento polinomial para o ajuste aos dados é nula.
H1: a contribuição do incremento polinomial para o ajuste aos dados é
significativa.
Na prática cuidados devem ser tomados em relação à aplicação destes
testes estatísticos porque os mesmos somente fornecem resultados confiáveis
quando os resíduos são estocasticamente independentes, o que nem sempre
ocorre, pois freqüentemente os resíduos apresentam uma significante
autocorrelação espacial. Ver uma discussão a respeito desse tema em AGTERBERG
50
z*(xi,yj): valores estimados pela superfície de tendência;
k: número de coeficientes da superfície, igual a 3 para o caso da linear;
Fα: valor a ser comparado, com k e n-k graus de liberdade e nível de significância
α
n: número total de pontos utilizados para a obtenção da superfície.
s2: estimativa da variância da população, estimada pela média quadrática;
1
Q ( xi, y j ) = [1 xi y j ][S] xi
2 −1
y j
(1963); HARBAUGH (1964); FOX (1967), que trata da análise de dados vetoriais;
51
SAMPSON & DAVIS (1967); HARBAUGH & MERRIAM (1968); PFLUG (1976); CLARK (1977) e
HAINING (1987).
3.3.3. Exemplos
São aqui apresentadas duas aplicações desta metodologia, a primeira
quando se elaborou um mapa topográfico suavizado da região centro-sul do Brasil
com vistas ao estudo da superfície Sul Americana (SOARES & LANDIM, 1976), e a
segunda sobre a avaliação do impacto ambiental causado por uma pluma de
contaminação em um corpo de água receptor (BERNARDI ET AL., 2001).
52
Figura 3.4. Mapa topográfico da Superfície Sul Americana e pontos com altitudes
coletadas.
53
FIGURA 3.5. Mapas de tendência de graus 1 à 5 referentes às cotas topográficas da
“Superfície Sul Americana”.
Bo
livi
a
7800
Barretos
S. J. Do R. Preto
700
Pa Araçatuba R. Preto
7600 rag
u ai
Pres. Prudente
Marília
Ponta Porã
Paranavaí Guaratinguetá
Londrina Campinas
7400 30 1100
0 700 Sorocaba São Paulo
54
cercanias de Pindamonhangaba (SP), utilizando como variável a distribuição
espacial de gêneros do plâncton (Matriz de dados 3.4.). A área estudada, com
2.900 m de comprimento por 100 m de largura, corresponde à fase meandrante
do rio, porem retificado no trecho estudado. Foram coletados 90 pontos
distribuídos, em malha regular, com intervalos ao longo da coordenada “X”,
paralela ao leito do rio, de 100 m e ao longo da coordenada “Y”, perpendicular ao
canal, com intervalos de 50 m a partir da margem direita (0 m), localizando-se o
ponto 50 na região central e o ponto 100 na margem esquerda. O efluente entra
no receptor a 1.100 m a jusante do ponto zero.
A superfície de tendência de primeiro grau mostrou uma tendência de
aumento do número de gêneros da margem direita para a esquerda. Esta
configuração está ligada à entrada do efluente, que fica na margem direita, como
mostrado na Figura 3.7. O mapa de resíduos correspondente a essa superfície
indica com clareza a distribuição espacial do número de gêneros antes da entrada
do efluente e, principalmente, depois delimitando a pluma resultante dentro da
malha de estudo e caracterizada por valores negativos (Figura 3.8.).
FIGURA 3.8. Mapa de resíduos da superfície de 1o. grau. A região com valores positivos
indica valores para o numero de gêneros do plâncton acima da media regional,
representada pela curva 0, e valores negativos valores abaixo dessa média.
55
O controle de agentes poluidores, pelos órgãos competentes, é feito,
geralmente, em termos pontuais e apenas na entrada dos efluentes, não cobrindo
a pluma toda do contaminante. Como se nota por este resultado, para a
avaliação do impacto causado em um corpo de água receptor, torna-se
necessário, porém, o uso de técnicas de análise espacial.
56
REFERÊNCIAS BIBLIOGRAFICAS
AGTERBERG, F.P. (1984) - Trend Surface Analysis: in "Spatial Statistics and Models",
pp.147-171. D. Reidel Publ. Co.
BROWER, J.C. & MERRIAM, D.F. (1990). Geological map analysis and comparison of
adjacent multivariate algorithms. Geol Survey Canada Paper 89-9, p. 123-134.Thematic
map analysis using multiple regression: Math. Geology, v. 33(3), p. 353-368
BROWER, J.C. & MERRIAM, D.F. (1992). A simple method for comparison of adjacent
points on thematic maps, in Kurzl, H. and Merriam, D.F., ed. Use microcomputers in
geology. Plenum Press, New York, p. 227-240.
BROWER, J.C. & MERRIAM, D.F. (2001). Thematic map analysis using multiple regression:
Math. Geology, v. 33(3), p. 353-368
DAVIS, J.C (1986) - Statistics and Data Analysis in Geology: 2nd ed., John Wiley and
Sons.
FOX, W.T. (1967) - FORTRAN IV Program for Vector Trend Analysis of Directional Data:
Kansas Geol. Survey, Computer Contr., n. 11.
HAINING, R. (1987) - Trend-Surface Models with Regional and Local Scales of Variation
with an Application to Aerial Survey Data: Technometrics, 29:461-469.
HERZFELD, H.C. & SONDERGARD, M.A., (1988) - MAPCOMP - A FORTRAN program for
weighted thematic map comparison: Computers & Geosciences, v.14, no.5, p.699-713.
57
HERZFELD, H.C. & MERRIAM, D.F. (1991). A map comparison technique utilizing weighted
input parameters, in GAAL G., and MERRIAM, D.F. Eds. Computer applications in resource
estimations. Pergamon Press, Oxford, p. 43-52.
KING, L.C. (1956) - A Geomorfologia do Brasil Oriental: Rev. Bras. Geografia, 18:147-
265.
KRUMBEIN, W.C. (1956) – Regional and local components in facies maps: Bull. A. Assoc.
Petrol. Geologists, 40:2163-2194.
KRUMBEIN, W.C. (1959) - Trend Surface Analysis of Contour-Type Maps with Irregular
Control-Point Spacing: Jour.Geophys.Res., 64:823-834.
LANDIM, P.M.B. (2003) – Análise estatística de dados geológicos: 2ª. Edição, Editora
UNESP
LEITE, C.B.B. & LANDIM, P.M.B. (2003) –Relação entre mapas temáticos por meio da
Análise de Regressão Múltipla. Solos e Rochas – Revista Latino-americana de Geotecnia,
26(3):195-203
OLDHAM, C.W.G. & SUTHERLAND, D.B. (1955) - Orthogonal polynomials: their use in
estimating the regional effect: Geophysics, 20:295-306
PFLUG, R. (1976) - Trend-Surface Analysis and Graphic Representation Using a 2-K Disk
Computer: Computers & Geosciences, 1:331-334
SOARES, P.C. & LANDIM, P.M.B. (1976) - Depósitos Cenozóicos na Região centro-sul do
Brasil : Not. Geomorfológica, 16 (31): 17-39.
WHITTEN, E.H. T. (1959) – Compositional trends in a granite: modal variation and ghost
stratigraphy in part of the Donegal granite, Eire: Jour. Geophys. Res. 64:835-849.
58
4. ANÁLISE DE AGRUPAMENTOS
4.1. Introdução
Análise de agrupamentos (cluster analysis) é um termo usado para
descrever diversas técnicas numéricas cujo propósito fundamental é classificar
valores de uma matriz de dados, sob estudo, em grupos discretos. A técnica
classificatória multivariada da análise de agrupamentos pode ser utilizada quando
se deseja explorar as similaridades entre indivíduos (modo Q) ou entre variáveis
(modo R) definindo-os em grupos, considerando simultaneamente, no primeiro
caso, todas as variáveis medidas em cada indivíduo e, no segundo, todos os
indivíduos nos quais foram feitas as mesmas mensurações. Segundo esse método,
desenvolvido, inicialmente em Zoologia por taxonomistas numéricos, procura-se
por agrupamentos homogêneos de itens representados por pontos num espaço n-
dimensional em um número conveniente de grupos relacionando-os através de
coeficientes de similaridades ou de correspondências.
59
d) Métodos por agrupamentos hierárquicos: são as técnicas mais comumente
usadas em Geologia; a partir da matriz inicial de dados obtém-se uma matriz
simétrica de similaridades e incia-se a detecção de pares de casos com a mais
alta similaridade, ou a mais baixa distância; para essa combinação, segundo
níveis hierárquicos de similaridade, escolhe-se entre os diversos procedimentos
aglomerativo de tal modo que cada ciclo de agrupamento obedeça a uma
ordem sucessiva no sentido do decréscimo de similaridade.
60
pair-group method”, UPGM); “variância mínima” (minimum variance clustering ou
Ward’s method of sum-of-squares method).
No método de ligação simples os grupos iniciais são determinados pelos
mais altos coeficientes de associação mútua. Para admissão de novos membros
aos grupos é suficiente encontrar quais os que apresentam os maiores
coeficientes de associação com um dos elementos de determinado grupo. A
ligação será estabelecida a esse nível de associação com todo o grupo. No método
de ligação completa os grupos são determinados pelos mais baixos coeficientes de
associação mútua. Ambos são métodos muito simples, mas também os que
apresentam os resultados mais distorcidos.
61
Aplicação desta metodologia tem mostrado que os métodos pareados
igualmente ponderados são superiores aos demais e que o coeficiente distância
usualmente agrupa melhor espécimes ou amostras, enquanto o coeficiente de
correlação é recomendado para o agrupamento entre variáveis. Essas afirmações
são baseadas na correlação cofenética que ao apresentar valores abaixo de 0,8
indicam distorções significativas no dendrograma obtido.
O método hierárquico tem sido preferido em relação ao que utiliza
centróides. Este porém mostra-se, em termos computacionais, mais útil quando se
tem que manipular grandes matrizes de dados, por exemplo com mais de 1.000
casos. Como “k” geralmente é pequeno, da ordem de 5, por exemplo, é mais
rápido o manuseio de uma matriz de similaridade “k x n” do que uma com
dimensões “n x n”.
4.2.2. Dendrograma
A forma gráfica mais usada para representar o resultado final dos diversos
agrupamentos é o dendrograma (Figura 4.1.). Nele estão dispostos linhas ligadas
segundo os níveis de similaridade que agruparam pares de espécimes ou de
variáveis. Como este gráfico é uma simplificação em duas dimensões de uma
relação n-dimensional é inevitável que algumas distorções quanto à similaridade
apareçam. A medida de tal distorção pode ser obtida por um coeficiente de
correlação, dito "cofenético", entre os valores da matriz inicial de similaridade e
aqueles derivados do dendrograma.
Visualmente isso pode ser também verificado por meio da construção de
um sistema de eixos ortogonais. Nele os valores dos coeficientes de similaridade
originais estarão na abcissa e os coeficientes de similaridade a partir do
dendrograma em ordenada. Se ambas as matrizes forem idênticas os pontos
cairão sobre uma linha reta que passa pela origem do sistema. Desvios dos pontos
em relação a essa reta indicarão as distorções. Se situadas acima da reta indicarão
coeficientes de similaridade apontados pelo dendrograma mais altos que os
originais e vice-versa.
62
DENDROGRAMA
9
8
11
12
2
1
6
5
3
10
7
4
16
15
28
14
13
29
26
27
30
25
24
23
22
21
20
19
18
17
63
Figura 4.2. Esquema de construção de um dendrograma pelo método de
agrupamentos pareados igualmente ponderados (adaptado de DAVIS, 1986)
D1.2 = ( x1 − x 2 )2 + ( y1 − y 2 )2
Onde x1, x2, y1 e y2 são valores das coordenadas dos dois pontos.
Para a distância entre k pontos, num espaço n-dimensional, a fórmula
generalizada é:
n
Dij = ∑ (x
k =1
ik − x jk )2 / n
64
Cosθpq =
∑x x ip iq
, p e q = valores comparados
(∑ x ∑ x
ip
2
iq )
2 1/ 2
Σ( xi − x ) ( yi − y )
cov( x,y ) n−1
r= =
Σ( xi − x ) Σ( yi − y )2 1/ 2
2
[var( x ) var( y )]1/ 2 [ . ]
n−1 n−1
65
totalmente direto entre as duas variáveis. Quando r=0 significa que não há
relação linear entre x e y.
• Coeficiente de correlação não-paramétrico de Spearman
É um coeficiente de correlação não paramétrico entre duas variáveis, xi e yi
, em que para o seu cálculo inicialmente xi e yi são ordenados segundo os seus
6Σdi2 , ,
r = 1− n = número de pares de valores x ,y
s i i
n3 −n
Caso ocorram muitos casos com valores de posto empatados usa-se a
fórmula:
Σx ,e + Σy ,e − Σdi2
r =
s
2 Σx ,e Σy ,e
onde
3 3
, n −n , n −n
Σx = − ΣT ; Σy = − ΣT
e 12 x e 12 y
t3 − t
T= ; T = número de observações repetidas em um determinado
12
posto.
Como um exemplo numérico seja uma matriz, de dados, fictícios, composta
por 7 amostras tendo sido obtidas em cada uma delas 6 variáveis (Tabela 4.1.).
Tabela 4.1. Tabela com 7 casos e 6 variáveis
V01 V02 V03 V04 V05 V06
Am01 1.0 2.0 3.0 4.0 5.0 6.0
Am02 5.0 4.0 1.0 8.0 7.0 9.0
Am03 6.0 5.0 4.0 2.0 7.0 9.0
Am04 6.0 4.0 2.0 1.0 3.0 7.0
Am05 9.0 2.0 1.0 4.0 7.0 8.0
66
Am06 9.0 6.0 3.0 4.0 5.0 6.0
Am07 1.0 5.0 9.0 7.0 5.0 3.0
Am04
Am03
Am06
Am05
Am02
Am01
Am07
-1 0 1 2 3 4 5 6 7 8 9
67
Dendrograma: ligação completa
Am05
Am02
Am04
Am03
Am06
Am07
Am01
-1 1 3 5 7 9 11 13
Am04
Am03
Am06
Am05
Am02
Am01
Am07
-1 1 3 5 7 9 11
Am04
Am03
Am06
Am05
Am02
Am01
Am07
-1 1 3 5 7 9 11
Am02
Am01
Am06
Am05
Am04
Am03
Am07
-8 2 12 22 32 42 52 62 72 82
Figura 4.3. Dendrogramas resultantes dos métodos ligação simples, ligação completa,
agrupamento pareado proporcionalmente ponderado, agrupamento pareado igualmente
ponderado e variância mínima.
68
Se tomados dois objetos (A e B) e um mesmo atributo estiver presente em
ambos, tal situação será representada por "a"; se presente em A, porém ausente
em B, por "c"; se presente em B, porém ausente em A , por "b" ; se ausentes em
ambos, por “d’.
Presente Ausente
Presente a b
Ausente c d
Otsuka : a / (a + b)(a + c )
69
c) coeficientes de equiparação: expressam a similaridade entre dois objetos em
termos de equiparações positivas, isto é, presença de um mesmo atributo em
ambos os objetos, em relação a equiparações negativas, isto é, ausência de um
mesmo atributo em ambos os objetos, mais equiparações desencontradas;
Simples : (a + d) / n
Hamann : (a + d − b − c ) / n
Sackin : a/n
d) coeficientes de distâncias: expressam o distanciamento entre dois objetos em
um espaço multi-dimensional;
Sokal : (b + c ) / n
Novamente, como exemplo numérico, seja uma matriz com dados binários
em que o valor “1” significa presente e o valor “0” ausente (Tabela 4.3.).
Tabela 4.3. Matriz com dados binários
V01 V02 V03 V04 V05 V06
Am01 1 1 0 0 0 1
Am02 0 0 1 1 0 0
Am03 0 1 1 0 0 0
Am04 1 1 1 1 1 0
Am05 0 0 1 1 1 1
Am06 1 1 0 0 0 1
Am07 0 0 1 1 1 1
70
O dendrograma resultante esta exposto na Figura 4.4.
Am07
Am05
Am02
Am04
Am03
Am06
Am01
1.08 0.98 0.88 0.78 0.68 0.58 0.48 0.38 0.28 0.18
Jaccard/UPGA
71
variâncias (análise de variância multivariada), podem ser posteriormente aplicados
aos agrupamentos encontrados para a verificação da sua validade estatística.
4.4. Exemplos
Como primeiro exemplo são utilizados os dados obtidos por ARAÚJO (1976),
e já analisados por LANDIM & PERINOTTO (1981), para exemplares de
mesossaurídeos coletados em diversas localidades ao longo da faixa de
afloramentos da Formação Irati na borda leste da Bacia do Paraná. Foram
consideradas três espécies: Stereosternum tumidum (COPE, 1886), Mesosaurus
brasiliensis (MACGREGOR, 1908) e Brazilosaurus sampauloensis (SIKAMA & OAKI,
S28
S23
S21
S16
S19
M01
S26
S24
S27
M15
M09
S22
S17
M13
S20
S18
S25
B32
B29
B31
B30
M06
M05
M11
M14
M03
M02
M07
M12
M08
M04
M10
Distância euclidiana/Ward
72
quatro exemplares B29, B32, B31 e B30, todos do genero Brazilosaurus, formam
um grupo integrado ao do Stereosternum. Tal constatação merece uma reflexão
sobre a validade ou não de atribuir os exemplares M01, M09, M13 e M15 ao
gênero Mesosaurus. Alerta também para a relação próxima entre Brazilosaurus e
Stereosternum. Seriam gêneros distintos ou não?
Neste segundo exemplo, com enfoque espacial, foram utilizados dados de
RHODES (1969) ao estudar o granito “Mount Shoobridge” no norte da Austrália.
(Figura 4.6.). Nesse trabalho o Autor conseguiu mapear o corpo subdividindo-o
em três zonas petrográficas: granodiorito marginal, granodiorito porfirítico e
adamelito leucocrático na região central. Foram efetuadas análises químicas tanto
para óxidos e como para elementos traços (Matriz de dados 4.2.)
29 Pontos amostrados
21
22
35
11 2
33 9
0 400 800 m
12
34
28
25
31 26
32
30
Figura 4.6. Localização das amostras do granito “Mount Shoobridge”, Austrália (RHODES, 1969).
73
Tabela 4.5.
ID SiO2 TiO2 Al2O3 Fe2O3 MnO MgO CaO Na2O K2O P2O5 Rb Sr Y Th U Zr Nb Pb
35 1,9 -2,4 -2,2 -2 -1,8 -1,7 -1,8 1,3 0,1 -2,1 2,2 -2,2 -1,4 -1,8 2,4 -2,5 0,5 3,7
11 1,6 -1,6 -1,4 -1,5 -1,5 -1,5 -1,1 1,2 -0,9 -1,7 0,9 -1,6 -2 0,1 0,7 -0,9 0,1 -0,3
33 1,6 -1,5 -1,3 -1,5 -1,5 -1,5 -1,4 1,2 -0,3 -1,7 1,8 -1,7 -1,8 0,1 0,1 -1 1,1 -0,3
34 0,5 -0,4 -0,8 -0,6 -0,6 -0,5 -0,8 0,9 -0,2 -0,6 0 -0,6 -0,4 1,3 0,9 0,6 0,9 -0,3
12 0,4 0 0,4 -0,3 -0,1 -0,3 -0,5 0,5 0,4 0 0,3 0 -0,1 0,9 0,3 0,6 1,5 -0,4
31 0,3 -0,1 -0,3 -0,3 -0,3 -0,5 -0,5 0,4 -2,9 -0,1 0,6 0 -0,1 1,6 1,1 1 0,7 -0,3
22 0,3 -0,1 0 -0,3 -0,3 -0,3 -0,7 0,5 0,1 0 -1,3 -0,1 -0,1 1,3 0,4 0,9 1,1 -0,4
25 -0,3 0,6 0,5 0,2 0,2 -0,1 0,2 0,6 0,9 0,7 0,1 0,6 0,1 0,6 0 1,1 0,7 -0,2
28 -0,4 0,7 1,6 0,3 -0,1 -0,1 0,5 0,1 0,1 0,6 -0,2 0,8 0,3 -0,3 0,1 1,2 0,1 -0,4
21 -0,3 0,6 0,4 0,3 0,2 0,4 0,2 0,3 0,1 0,7 -0,3 0,6 0,3 0 -0,6 0,3 0 -0,2
30 -1,1 0,7 0,4 1 1,4 0,8 1,1 -1,1 1,2 0,6 -1,1 0,3 0,7 -1 -1,4 -0,1 -1,7 0,2
29 -0,9 0,7 0,8 1 1,1 0,8 0,9 -0,8 0,2 0,4 -0,4 0,6 0,9 -0,7 -1,2 0,2 -0,9 -0,3
9 -0,8 0,5 0,5 0,8 0,6 0,7 0,5 -1,4 1,4 0,7 -0,5 0,7 0,9 0 -1 -0,1 -0,5 -0,2
26 -0,9 0,7 1,2 0,9 0,9 1,1 0,8 -1,4 0,8 0,7 -0,6 1,1 0,9 -0,2 -0,4 -0,2 -1,4 -0,1
2 -0,8 0,7 0,3 0,9 0,9 1 1,2 -1,3 -0,7 0,7 -0,1 0,6 1,3 -0,3 -0,3 0 -1,1 -0,2
32 -1,3 0,9 0,1 1,2 1,1 1,6 1,5 -1,1 -0,4 1,2 -1,3 0,8 0,7 -1,7 -1,2 -1,1 -1,1 -0,3
22
12
34
31
21
25
28
26
9
30
2
29
32
33
11
35
Distância euclidiana/Ward
Figura 4.6.
74
Figura 4.7. Comparação entre o resultado obtido por Rhodes (1969) e o coincidente obtido pela
análise de agrupamentos.
75
REFERÊNCIAS BIBLIOGRÁFICAS
DAVIS, J.C (1986) - Statistics and Data Analysis in Geology: 2nd. ed., John Wiley and Sons,
Inc.
RHODES, J.M. (1969) - The application of cluster and discriminatory analysis in mapping
granite intrusions: Lithos, 2:223-237.
76
5. ANÁLISE DE COMPONENTES PRINCIPAIS
77
sendo "p" menor que "n". O extremo cuidado que se deve ter é com relação à
especificação do número e, principalmente, do significado dos "p" fatores que
emergem a partir dessa análise. Ver a respeito JÖRESKOG, KLOVAN & REYMENT (1976)
e REYMENT E JÖRESKOG (1996)
A análise das componentes principais é, portanto, uma técnica de
transformação de variáveis. O método apresenta melhores resultados se,
originalmente, já existe alguma correlação entre variáveis ou grupo de variáveis e
se o número de variáveis é significativo.
v1 v2 v3 v4
v 2 0,84
v 3 0,80 0,96
v 4 0,21 0,18 0,31
v 5 0,13 0,23 0,24 0,91
Neste exemplo com apenas 5 variáveis facilmente se verifica que existem
dois grupos de variáveis, devido ao grau de correlação entre si, um grupo
constituído pelas variáveis 1,2 e 3 e outro pelas variáveis 4 e 5.
Como dito, se cada variável medida pode ser considerada como um eixo de
variabilidade, estando usualmente correlacionada com outras variáveis, esta
análise transforma os dados de tal modo a descrever a mesma variabilidade total
existente, com o mesmo número de eixos originais, porém não mais
correlacionados entre si. A posição espacial dos pontos no espaço
multidimensional permanece a mesma, mudando apenas, por rotação ortogonal,
os eixos originais que passam a ser denomnados componentes principais (Figura
5.1.).
78
Figura 5.1. Diagrama bivariado mostrando a distribuição dos pontos em relação às variáveis
originais X1 e X2 e em relação às novas componentes, C1 e C2. A componente C1 representa a
maior porcentagem da variabilidade total presente e C2, diposta ortogonalmente, a variabilidade
restante.
A análise de componentes principais inicia-se a partir de uma matriz de m
casos com n variáveis.
casos X1 X 2 L Xn
1 x11 x12 L x1n
2 x 21 x 22 L x 2n
M M M O M
m x m1 x m 2 L x mn
79
Os pesos ai, também conhecidos como carregamentos (loadings) são
obtidos a partir de uma matriz de variâncias-covariâncias amostrais ou de
correlações lineares amostrais.
c 11 c 12 L c 12
c c 22 L c 2n
C = 21
M M O M
c n1 c n2 L c nn
80
corresponderá a maior variabilidade possível existente, ao segundo a maior
variabilidade possível restante e assim por diante.
Na tabela 5.1. estão valores para as variáveis X1 e X2 que apresenta um
coeficiente de correlação igual a -0,11. Esses valores foram ordenados em ordem
crescente originando as novas variáveis X1* e X2* com coeficiente de correlação
igual a 0,98.
Tabela 5.1. Valores para as variáveis X1, X2, X1* e X2*
ID X1 X2 X1* X2*
1 36 42 10 3
2 92 63 11 7
3 73 51 17 12
4 61 22 20 13
5 10 33 21 17
6 91 87 23 18
7 21 3 23 22
8 91 17 23 28
9 98 18 27 33
10 96 71 36 37
11 52 54 39 42
12 39 44 43 43
13 77 43 43 43
14 53 7 47 44
15 63 28 52 51
16 23 89 53 54
17 86 58 54 58
18 43 80 58 63
19 23 43 61 64
20 58 13 63 64
21 47 64 73 65
22 27 12 77 71
23 54 81 86 71
24 95 37 91 71
25 23 76 91 76
26 20 71 92 80
27 11 94 95 81
28 96 64 96 87
29 43 65 96 89
30 17 71 98 94
81
100
27
90
16
6
80 18 23
25
70 26 10
30
29 21 28
2
60
17
11
3
X2
50
19 12 13
1
40
24
5
30
15
4
20
8 9
22 20
10
14
7
0
0 10 20 30 40 50 60 70 80 90 100
X1
CP1 CP2
Autovalor 905.724 670.273
Variabilidade (%) 57.470 42.530
% acumulada 57.470 100.000
82
Análise de componentes principais
80
60
6
40 10
Componente II (42.53 %)
23 28
27 16 18 2
20
25 17
29 21 3
30 26 11 24
13
0
12
9
-20 19 1 15 8
4
5 20
-40
14
22
-60 7
-80
-80 -60 -40 -20 0 20 40 60 80
Componente I (57.47 %)
30
90
29
28
26
80 27
25
70 22 23 24
18 20 21
60 19
17
16
X2*
50 15
12
14
11 13
40
10
9
30
8
7
20
5 6
3 4
10
2
1
0
0 10 20 30 40 50 60 70 80 90 100
X1*
83
Variáveis X1* X2*
X1* 870.4471 765.829
X2* 765.829 705.5506
CP1 CP2
Autovalor 1558.253 17.745
Variabilidade (%) 98.874 1.126
% acumulada 98.874 100.000
20
10
Componente II (1.13 %)
18
9 17 19
8 11 20
16 30
10 13 15
12 29
14 22
0
7 28
21
56 26
2 3
4 27
1 23 25
-10 24
-20
-80 -60 -40 -20 0 20 40 60 80
Componente I (98.87 %)
Figura 5.3. Análise das components principais referente às variáveis X1* e X2*.
84
utilizando-se da multiplicação da matriz de dados originais pela matriz de
autovetores, obtém-se uma matriz de dados transformados que representam
projeções dos pontos, num espaço multidimensional, sobre as diversas
componentes principais. Esses valores poderão então ser dispostos num diagrama
de coordenadas cartesianas, em que os eixos são as duas componentes mais
importantes, e mostrar o relacionamento entre os casos condicionados pelas
variáveis medidas.
Eventualmente num mesmo gráfico, denominado “biplot”, poderão constar
tanto a disposição espacial das amostras como das variáveis que condicionam tal
distribuição (XLStat, v. 2010). Ver a propósito GABRIEL (1971), GOWER & HAND
85
5.2. Análise das Coordenadas Principais
A Análise das Coordenadas Principais é uma técnica de ordenação para o
modo Q, ou seja, entre casos, espécimes ou objetos. Enquanto a Análise das
Componentes Principais é aplicada principalmente para o modo R e, para tanto,
utiliza matrizes de variâncias-covariâncias ou de correlações, a Análise das
Coordenaadas Principais pode usar uma variedade de diferentes medidas de
distância ou de similaridade, mas sempre medidas diretamente entre os espécimes
e não entre variáveis. Neste caso os autovetores resultantes representam os
scores para os espécimes. Fornece, assim, uma ordenação direta entre casos e é
muito útil nas situações quando se dispõe de uma matriz de dados com mais
variáveis do que espécimes. Nessa análise, porém, não são fornecidos cargas ou
pesos (loadings) para as variáveis. Recomenda-se o trabalho de Gower (1966)
para o detalhamento desta análise.
O primeiro passo é a obtenção de uma matriz m x m de similaridades, na
forma de distâncias entre os objetos e diversas categorias de medidas de distância
ou de sililaridade podem ser usadas. Se os dados a serem analisados forem uma
mistura de valores contínuos e medições binárias ou multiestados, o coeficiente de
distância de Gower pode ser aplicado. Outras distâncias, como a euclidiana ou a
“Manhattan métrica”, podem também ser utilizadas. O uso da distância euclidiana
para esta análise fornece o mesmo resultado que uma análise das componentes
principais no modo “Q”.
A formula para o coeficiente de distância de Gower é:
n
| x ik − x xj |
Gij = ∑ 1 − /n
k =1 alcance k
86
n
MMdij = ∑ | x ik − x jk | ,
k =1
colunas são também encontrados, &a&& . Os elementos ajk são, então, transformados,
para originar uma nova matriz [Q], pela seguinte operação:
q jk = a jk + &a&&•• − ( a j• + a•k )
87
como num conjunto de coeficientes de correlação se os valores forem tratados
como “distâncias” não será possível escolher três entre eles para traçar um
triângulo.
Nesse sentido a Análise das Coordenadas Principais deve ser usada para a
visualização gráfica de uma matriz quadrada que descreva similaridades ou
dissimilaridades entre objetos. O exemplo a seguir ilustra tal afirmação. Os dados
são os mesmos usados para a aplicação da análise de agrupamentos, com o
coeficiente de Jaccard, para dados binários. A matriz de similaridades inicial foi,
portanto, aquela matriz obtida pelos coeficientes de Jaccard (Tabela 4.4.).
Am03
0.3
Am02
CoP II
0.1
Am04
Am06
-0.1
Am01
Am07
Am05
-0.3
CoP I
88
gráfica e, consequentemente, o entendimento sobre o relacionamento entre as
amostras, é superior ao dendrograma que havia sido obtido.
08.Q-Diorito
04.Monzonito
10.Gabro
09.Gabro
05.Diorito
20.Diabasio
03.Sienito
19.Monzonito
07.Diorito
15.Sienito
02.Sienito
18.Monzonito
01.Sienito
16.Q-Sienito
13.Hip-Gabro
12.Norito
17.SienitoA
11.Norito
06.Diorito
14.Hip-Gabro
Distância euclidiana/Ward
Figura 5.7. Dendrograma mostrando 3 grupos de rochas com base nos óxidos presentes.
89
siálicos. Em apoio a essa hipótese na Tabela 5.2. estão os valores médios dos três
grupos.
Amostras e variáveis
20
CaO
13.Hip-Gabro
10
Componente II (12.67 %)
Al2O3 05.Diorito
12.Norito 09.Gabro 18.Monzonito
20.Diabasio Fe2O3
06.Diorito 03.Sienito
04.Monzonito 02.Sienito
10.Gabro Na2O
0
08.Q-Diorito 15.Sienito
07.Diorito 01.Sienito
17.SienitoA
K2O 19.Monzonito SiO2
11.Norito MgO
16.Q-Sienito
-10
FeO
14.Hip-Gabro
-20
-40 -30 -20 -10 0 10 20 30 40 50
Componente I (70.37 %)
Figura 5.8. Análise de components principais mostrando a distribuição e relação simultânea entre
amostras e variáveis.
Tabela 5.2. Valores médios dos óxidos para cada um dos três grupos encontrados pela análise de
agrupamentos
Si Al Fe+3 Fe+2 Mg Ca Na K
06Diorito 46.9 15.9 2.9 10 7 9.6 2.7 0.7
11 Norito 47.2 14.5 1.6 13.8 5.2 8.1 3.1 1.2
12Norito 48.2 18.3 1.3 6.1 10.8 9.4 1.3 0.7
13 HipGabro 44.8 18.8 2.2 4.7 11.3 14.6 0.9 0.1
14HipGabro 47 14.1 0.8 15 16 2.3 0.4 1.7
17SienitoAIt 50 9.9 3.5 5 11.9 8.3 2.4 5
Teor médio 46.95 15 1.85 12.5 11.5 5.95 1.55 1.2
03Sienito 51.2 17.6 3.5 4.3 3.2 4.5 5.7 4.4
04Monzonito 54.4 14.3 3.3 4.1 6.1 7.7 3.4 4.2
05Diorito 58 15.7 0.7 2.8 5 10.9 3 3.2
08QDiorito 55.5 16.5 1.7 4.6 6.7 6.7 3.2 2.5
09Gabro 55.4 15.3 2.7 5.5 5.8 9.9 2.9 1.5
10Gabro 55.9 13.5 2.7 5.9 6.5 8.9 2.4 1.7
20Diabasio 52.2 18.2 3.3 4.4 4.7 6.5 4.6 1.9
Teor médio 55.15 13.9 3 5 6.3 8.3 2.9 2.95
01Sienito 61.7 15.1 2 2.3 3.7 4.6 4.4 4.5
02Sienito 58.3 17.9 3.2 1.7 1.5 3.7 5.9 5.3
07Diorito 58 17.3 2.2 3.8 2.2 4.3 4.3 4.1
15Sienito 59.8 17.3 3.6 1.6 1.2 3.8 5 5.1
16QSienito 66.2 16.2 2 0.2 0.8 1.3 6.5 5.8
18Monzonito 57.4 18.5 3.7 2.1 1.7 6.8 4.5 3.7
19 Monzonito 59.8 15.8 3.8 3.3 2.2 3.9 3 4.4
Teor médio 57.85 18.2 3.45 1.9 1.6 5.25 5.2 4.5
90
5.5. Exemplos
5.5.1.
Os mesmos dados referentes aos mesossaurídeos da Formação Irati foram
submetidos à análise de componentes principais, a qual forneceu o seguinte
resultado:
Autovalores:
Autovetores:
91
Variáveis (eixos F1 e F2: 83.32 %)
1
pescoço
0.75
0.5
Dlargura
0.25
F2 (28.69 %)
-0.25
cranio
Dcompr
-0.5
-0.75
-1
-1 -0.75 -0.5 -0.25 0 0.25 0.5 0.75 1
F1 (54.63 %)
B32
2 M12
B30
S24
B29
B31
CP2 (28.69 %)
1
S27
S26
S28
M11 M10
S25 S23
0
S21 M01
S16
S18 M08
S17 M14 M05
S20 M04
M06
M03
S22
-1 M09
S19
M13
M07
M15
M02
-2
-3 -2 -1 0 1 2 3 4
CP1 (54.63 %)
Figura 5.9. Resultado da análise de components principais mostrando a disribuição dos três grupos
de mesossaurídeos
Os resultados apresentados pela análise das componentes principais , são
bastante semelhantes aos obtidos pela análise de agrupamentos e, portanto,
92
merecem as mesmas considerações anteriormente apresentadas. Nesta análise
constata-se, porém, que os espécimes 01 e 13, Mesosaurus, é que estão mais
associados ao campo dos Stereosternum. Também a posição espacial de
Brazilosaurus fica mais clara, próxima mas separada de Stereosternum e distante
de Mesosaurus.
5.5.2.
O objetivo de qualquer análise estatística, inclusive a multidimensional, é
inferir propriedades da população a partir de amostras estudadas. Valores
anômalos (outliers) presentes podem, porém, levar a conclusões errôneas e daí o
interesse em detectá-los. A análise das componentes principais é capaz de tel
detecção e, como exemplo é apresentado a matriz de dados contendo a
composição mineral de uma rocha artificial, denominada “hongito” por Aitchison
(1986), constituída por 25 espécimes e 5 variáveis. A essa matriz foram
adicionados dois valores anômalos, com altos valores na 4ª e 5ª variáveis e baixos
valores na 1ª variável (Matriz 5.2.).
Na Figura 5.10. esta o resultado da análise das componentes
principais aplicada à amostra de hongito com 25 valores e na Figura 5.11. o
resultado com os dois valores anômalos. Comparando as duas figuras fica
evidente a identificação dos valores anômalos.
93
3
14
2
6
7 16
CP II (24.28 %)
22 21 20
23
17 4
18 8
0
11
5 25
2 24 3
10 9
-1
1 15
13
19
12
-2
-3 -2 -1 0 1 2 3 4
CP I (57.22 %)
2
8
16 13
3
1
9
20
19 24 15 10
14 11 1 12
0
21 4 18 17
2 5 23
CP II (21.26 %)
25 22 6
7
-1
-2 26
-3
27
-4
-5 -4 -3 -2 -1 0 1 2 3
CP I (57.46 %)
Figura 5.11. Análise das componentes principais aplicada à 25 espécimes de hongitos, acrescdos
de mais 2 espécimes anômalos.
5.5.3.
94
Dados retirados de MILLER & KAHN, 1962 (Matriz 5.3.). Medidas cranianas
foram obtidas em 7 espécies fósseis de oreodontes (mamífero do Eoceno-
Oligoceno dos Estados Unidos da América). As espécies consideradas são as
seguintes: Subdesmatochoerus sp. (Su), Megoreodon gigas loomisi (Me), O.
osborni (Oo), Psuedodesmatochoerus (Ps), Desmatochoerus hatcheri (De), M.
culbertsoni (Mc) e Prodesmatochoerus . meeki (Pr).
Autovalores:
CP I CP II CP III CP IV
Autovalor 3.444 0.390 0.112 0.054
Variabilidade % 86.099 9.750 2.790 1.361
% acumulada 86.099 95.849 98.639 100.000
Autovetores:
CP I CP II CP III CP IV
BC-W 0.497 -0.489 0.705 0.133
TR-L 0.501 -0.469 -0.601 -0.409
Bu-L 0.519 0.293 -0.303 0.744
Bu-HP 0.483 0.675 0.224 -0.511
95
A primeira componente principal tem um peso significativo, da ordem de
86,1 %, e é originada por carregamentos similares para cada variável,
provavelmente devido aos níveis de correlação entre elas. Isso pode ser
claramente interpretado como relações resultantes de variação no tamanho, pois
crânios maiores tendem a ter componentes maiores. No gráfico resultante nota-
se, inclusive, a distribuição dos valores formando agrupamentos segundo as
espécies estudadas (Figura 5.12.).
Su
Su De
1
Ps
Su Su Su Ps
Su Su Ps
Su Su
De
Su Bu-HP Ps Ps
CP II (9.75 %)
De
De
Ps De
Su Bu-L De Ps
Pr Ps
De De
Oo Oo De
Pr
Pr
0
Oo Oo De Me
Oo
Pr Oo Oo
Oo Oo Mc
Pr Pr Oo Oo Me
Mc De
Pr Pr Oo McOo
Pr Mc
Oo Mc
Oo McMc
Pr Pr Mc Mc Mc
Mc
Pr Mc Mc BC-W TR-L Me
Mc
Me
Me
Me Me
Me
Me
-1
-4 -2 0 2 4 6
CP I (86.10 %)
96
REFERÊNCIAS BIBLIOGRÁFICAS
AITCHISON, J. (1986) – The statistical analysis of compositional data: Chapman & Hall
DAVIS, J.C (1986) - Statistics And Data Analysis In Geology: 2ND. ED., JOHN WILEY AND SONS.
JOBSON J.D. (1992). Applied Multivariate Data Analysis. Volume II: Categorical and
Multivariate Methods. Springer-Verlag, New York.
GABRIEL K.R. (1971). The biplot graphic display of matrices with application to principal
component analysis. Biometrika, 58:453-467.
GOWER, J. C. (1966) – Some distancRe properties of latent root and vector methods used
in multivariate methods: Biometrika, 55: 325-338
GOWER J.C.; HAND D.J. (1996). Biplots. Monographs on Statistics and Applied Probability,
54, Chapman and Hall, London.
JORESKOG, K.G., KLOVAN, J.E. & REYMENT, R.A. (1976) - Geological factor analysis:
Elsevier.
MILLER, R.L. & KAHN, J.S. (1962) - STATISTICAL ANALYSIS IN THE GEOLOGICAL SCIENCES: JOHN
WILEY AND SONS.
97
6. ANÁLISE DE FATORES
98
correlações em que as variáveis originais foram padronisadas de modo a terem
todas o mesmo peso. Alem disso os autovetores são calculados de tal modo a
definir “n” vetores com tamanho unitário. Isso é conseguido multiplicando cada
elemento do autovetor normalizado pela raiz quadrada do correspondente
autovalor. O resultado é um fator, ou seja, um vetor constituído por cargas
fatoriais, cujos comprimentos são proporcionais à variação que representam.
Como na análise de fatores p < n, a variância nas n variáveis é, portanto,
derivada dos p fatores, porém a contribuição é feita por fontes únicas que afetam
independentemente as n variáveis originais. Esses p fatores subjacentes são
conhecidos como fatores comuns e resumem a contribuição independente como
um único fator.
Deve ser notado que p deve ser conhecido previamente à análise e isso
implica numa restrição. Caso p não seja especificado a partição de variáveis entre
os fatores comuns e o fator único torna-se indeterminada.
Os autovalores e, conseqüentemente, os fatores, representam a proporção
da variância total explicada pelo respectivo autovetor e cada carga fatorial é
proporcional à raiz quadrada da quantia de variância atribuída pela respectiva
variável ao fator.
As comunalidades ( h 2j ) indicam quanto da variabilidade total está sendo
( )
n
n
2 2
p ∑ a / h − ∑ a 2jp / h2j
2
jp j
sk2 =
j =i j =i
2
p
sk2 = variância das cargas fatoriais
99
p = número de fatores
n = número de variáveis originais
a jp = carregamento da variável j no fator p
ID X1 X2
1 36 42
2 92 63
3 73 51
4 61 22
5 10 33
6 91 87
7 21 3
8 91 17
9 98 18
10 96 71
11 52 54
12 39 44
13 77 43
14 53 7
15 63 28
100
16 23 89
17 86 58
18 43 80
19 23 43
20 58 13
21 47 64
22 27 12
23 54 81
24 95 37
25 23 76
26 20 71
27 11 94
28 96 64
29 43 65
30 17 71
Variáveis X1 X2
X1 870.4471 -84.033
X2 -84.033 705.5506
F1 F2
Autovalor 905.724 670.273
Variabilidade (%) 57.470 42.530
% acumulada 57.470 100.000
Autovetores:
F1 F2
X1 0.922 0.387
X2 -0.387 0.922
101
Os autovalores e autovetores passam a ser:
F1 F2
Autovalor 1.145 0.924
Variabilidade (%) 55.362 44.638
% acumulada 55.362 100.000
Autovetores:
F1 F2
X1* -0.707 0.707
X2* 0.707 0.707
[F]=[V]*[Λ]
-0,756492+0,756492 = 1,145
0,6794272+0,6794272 = 0,924
102
covariâncias n por n as comunalidades serão iguais às variâncias originais. Neste
caso em que as variáveis foram padronizadas as comunalidades deverão ser iguais
a 1 (um). Se, todavia, forem extraídos um numero de fatores menor que n, as
comunalidades terão valores menores que as variâncias originais. Esses valores
encontrados indicarão, porem, a eficiência alcançada com a redução do número
de fatores.
Surge aqui a questão com relação a quantos fatores devem ser retidos?
Infelizmente não há uma resposta segura, apenas orientações de ordem
pragmática como, por exemplo, um numero de fatores que expliquem 90% da
variabilidade, ou fatores cujos autovalores sejam maior que 1 (um).
m
∑ Xik jk
Cosθij = k =1
m m
∑ Xik2 ∑ X 2jk
k =1 k =1
103
ou uma mistura de diferentes populações é a “Análise das Coordenadas
Principais”, como visto no capítulo anterior. Para tanto recomenda-se o trabalho
de GOWER (1966) para o detalhamento desta análise, além de JÖRESKOG, KLOVAN &
REYMENT (1976) e REYMENT, BLACKITH & CAMPBELL (1984).
6.2. Exemplo
Exemplo retirado de KRUMBEIN & GRAYBILL (1965, caps. 14 e 15). Os dados
são provenientes de 31 poços perfurados nos estados norte-americanos de Kansas
e Colorado em rochas de idade permiana (KRUMBEIN, 1962; IMBRIE, 1963). São
espessuras de 4 litologias, arenito, folhelho, carbonato e evaporito, e mais duas. A
primeira (total) resultante da soma dessas quatro variáveis e a segunda (não
clásticos) resultante da soma de carbonato e evaporito (Matriz 6.1.).
À essa matriz de dados foi aplicada uma análise fatorial com o intuito de
verificar que fatores teriam controlado a deposição desses sedimentos.
Inicialmente foi calculada uma matriz de coeficientes de correlação entre as
6 variáveis, sendo duas delas, total e não clásticos, compostas:
total arenito folhelho nclástico carbonato evaporito
Total 1 0,241 0,887 0,844 0,145 0,818
Arenito 0,241 1 -0,119 -0,044 0,448 -0,115
Folhelho 0,887 -0,119 1 0,690 -0,053 0,696
nclástico 0,844 -0,044 0,690 1 0,059 0,987
carbonato 0,145 0,448 -0,053 0,059 1 -0,100
evaporito 0,818 -0,115 0,696 0,987 -0,100 1
104
Matriz fatorial (após rotação varimax)
F1 F2 F3 F4
Total 0,640 0,247 0,088 0,722
Arenito -0,032 0,972 0,233 0,000
Folhelho 0,412 -0,100 -0,035 0,899
nclástico 0,939 -0,030 0,066 0,337
carbonato 0,000 0,228 0,973 0,004
evaporito 0,935 -0,066 -0,089 0,336
105
2016 27 4,3 0,7
2017 29 5,7 1,4
2019 4 4,5 3,8
2021 5 5,5 3,7
2031 30 5,75 0,9
2034 6 5,55 4,6
8001 31 3,4 0,2
4.0 4
3 5
3.5 1
2
7 18
3.0 17
8 16
9 15
10
2.5 13
11
12
2.0 14
19 20
24
1.5 29
23
21 22
1.0 25 30
27
26 28
0.5
31
0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0
106
Como, porém, se dispõe das coordenadas geográficas, cada fator pode ser
mapeado fornecendo mapas faciológicos:
107
Casos X Y F1 F2 F3 F4
10 3,1 2,45 1083,19 417,05 144,40 1071,20
9 2,3 2,6 947,73 512,38 203,78 1115,09
8 1,15 2,7 768,37 620,01 211,26 930,57
7 0,2 3,05 384,57 383,38 115,45 448,84
23 3,1 1,15 1179,46 525,70 166,90 1258,59
22 2,6 1 1147,11 444,59 169,46 1201,47
19 0,6 1,65 299,60 319,33 109,95 377,29
1 1,85 3,4 597,83 486,75 152,48 629,64
2 2,35 3,15 724,50 338,58 110,22 806,32
20 1,15 1,7 633,77 372,03 131,72 737,32
11 2,9 2,2 1179,77 434,97 169,51 1144,18
12 3,6 2 1563,44 366,05 133,50 1607,39
21 2,25 1,05 778,12 369,01 143,69 884,14
3 2,6 3,7 597,62 185,30 73,04 626,13
13 3,7 2,35 1637,07 358,35 112,06 1567,14
14 3,85 1,8 1564,07 405,68 135,25 1736,07
24 4,25 1,6 1597,69 477,71 152,59 1628,04
25 4,1 0,9 1513,68 504,87 160,34 1501,16
26 3,8 0,5 1187,90 546,03 167,51 1329,95
15 4,8 2,55 1697,77 315,03 114,83 1678,38
16 5,1 2,7 1282,54 394,35 138,43 1364,22
17 5,55 2,9 780,13 355,16 113,49 938,29
18 6,2 3 799,79 361,30 131,53 1029,74
28 4,2 0,5 1260,26 472,48 155,22 1336,12
27 4,3 0,7 1529,81 437,83 163,15 1497,52
29 5,7 1,4 1135,61 434,10 149,98 1258,29
4 4,5 3,8 690,25 246,87 71,97 690,44
5 5,5 3,7 722,14 211,56 63,51 774,78
30 5,75 0,9 1071,31 440,70 135,63 1361,11
6 5,55 4,6 601,24 110,07 36,63 823,36
31 3,4 0,2 1436,73 475,76 207,94 1492,94
108
Mapa faciológico 1: Circulação restrita; alta taxa de evaporação; rápida subsidência
Mapa faciológico 2: Rápida introdução de clásticos grosseiros
Mapa faciológico 3: Níveis normais de circulação e evaporação; taxas lentas de
deposição; falta de aporte de clásticos
Mapa faciológico 4: Rápida subsidência; valores intermediários de circulação e
evaporação; aporte de detritos de granulação fina.
109
REFERÊNCIAS BIBLIOGRÁFICAS
DAVIS, J.C (2002) - Statistics and Data Analysis in Geology: 3rd ed., John Wiley and Sons.
GOWER, J. C. (1966) – Some distance properties of latent root and vector methods used
in multivariate methods: Biometrika, 55:325-338
IMBRIE, J. (1963) – Factor and vector analysis programs for analyzing geologic data:
Office Naval Res., Geography Branch, Tech. Rept. 6, ONR Task nº 389-135
JÖRESKOG, K.G., KLOVAN, J.E. & REYMENT, R.A. (1976) - Geological factor analysis:
Elsevier.
KRUMBEIN, W.C. (1962) – Open and Closed Number Systems in Stratigraphic Mapping:
Bull. Am. Ass. Petrol. Geologists, 46:2229-2245
110
7. ANÁLISE DE CORRESPONDÊNCIAS (ANÁLISE DE ASSOCIAÇÕES)
Tanto a Análise de Componentes Principais como a Análise de Fatores
exigem dados mensurados em escala numérica contínua e não são, portanto,
apropriadas para a análise de dados nominais, tais como contagem de diversos
tipos de fósseis em um nível estratigráficdo, número de fraturas com diferentes
orientações num maciço rochoso ou dados binários do tipo presente-ausente.
Nesses casos em que os dados podem ser agrupados em categorias, os
autovalores são extraídos a partir de tabelas de contingências e a técnica é
conhecida como “análise das correspondências”, tradução do francês “Analyse des
Correspondances” (BENZÉCRI et al., 1976). Talvez o termo que melhor descreva o
método seria “Análise de Associações” entre variáveis e espécimes ou casos.
Na tabela de contingências os valores originais podem ser transformados de
modo a poder ser interpretados como probabilidades condicionais. Por causa da
natureza dessa transformação as relações entre colunas e linhas da tabela
transformada são as mesmas que aquelas da matriz original da dados. Isso
significa que as soluções para o modo Q e para o modo R são equivalentes e
desse modo, o produto final mostra num espaço bidimensional, definido pelos dois
mais importantes autovetores, após decomposição em coordenadas principais, a
distribuição simultânea tanto das amostras como das variáveis.
111
Seja uma matriz de dados [X] , constituída por m linhas que representam
observações e n colunas que representam variáveis. Pode ser, por exemplo,
diversos níveis estratigráficos e em cada um deles tendo sido coletados diversos
microfósseis. A soma total de indivíduos é simplesmente a soma de todos os
elementos, geralmente na forma de contagem, que constituem a matriz de dados
m n
N = ∑∑ x ij
i=1 j=1
n
A soma da i’ésima linha li = ∑ x ij é o numero de microfósseis de todos os
j=1
112
calculando um produto cruzado que envolva as probabilidades observadas e
esperadas dessas variáveis. Tal é a medida de correlação usada na Análise de
Correspondências (KENDALL & STUART, 1967):
n p − p p
i• • j pik − pi•p •k
s jk = ∑
ij
p p p p
i=1
i• • j i• •k
onde pij é a probabilidade observada na linha i e coluna j na cela da tabela de
contingência e pi. e p.j são as probabilidades esperadas calculadas pelo produto
das probabilidades observadas.
A expressão acima pode ser representada por
n O − E
ij Oik − E ik
s jk = ∑
ij
E Eik
i=1
ij
2
A relação entre essa expressão e a estatística χ aplicada à tabelas de
contingências torna-se mais clara se um dos termos for elevado ao quadrado
2
Oij − Eij
= (Oij − Eij )
2
E Eij
ij
Isto significa que as relações na Análise de Correspondências não são
medidas pela métrica euclidiana, mas sim pela métrica qui-quadrática. Um valor
alto do qui-quadrado encontrado indica que as variáveis são independentes e,
portanto, sem possibilidade da aplicação da Análise de Correspondência.
Tabela de contingência
variáveis
1 2 ... n Total
1 x11 x12 ... x1n x1.
casos 2 x21 x22 ... x2n x2.
: : : ֻ : :
M xm1 xm2 ... xmn xm.
Total x.1 x.2 ... x.n x..
113
Adotando a sequencia de cálculos apresentada em DAVIS (2002), a Análise
de Correspondências tem início com a conversão dos valores da matriz X em
probabilidades conjuntas, dividindo cada valor pelo total de valores
B = (∑∑ x ij ) X
−1
Os autovalores de [R] e de [Q] são idênticos, exceto que [Q] tem (m-n)
autovalores adicionais, todos com o valor zero. Os autovetores de [R] podem ser
convertidos nos “fatores de correspondência (=associação)” multiplicando cada
vetor pelo seu valor singular correspondente, que é a raiz quadrada do autovalor
correspondente
carregamentos no modo R = λ . autovetores no modo R
114
Para o caso de autovalores de [Q], sendo [V], de dimensões m x m, a
matriz que contém n autovetores de [Q], de modo idêntico obtém-se
[ A Q ]=[ V ][ Λ ] e [SQ ]=[P]'[ A R ]
[ Â Q ]=[M]1/ 2[ A Q ]
(1975), TEIL & CHEMINÉE (1975), DAVID, DAGBERT & BEAUNCHEMIN (1977), DAVIS
(2002:557-560) e MOREIRA, RIEDEL & LANDIM (2008), entre outros. Em CARR (1990)
é apresentado um programa em FORTRAN-77 para o cálculo desta análise.
A forma mais simples dessa técnica de análise exploratória de dados é a
sua aplicação a uma tabela de contingência de dupla entrada. No caso de mais de
duas variáveis qualitativas aplica-se o caso geral da Análise de Correspondências
Múltiplas.
O exemplo a seguir ilustra a Análise de Correspondências e os dados são os
mesmos usados para a aplicação da análise de agrupamentos (Tabela 4.1.).
115
V01 V02 V03 V04 V05 V06
Am01 1.0 2.0 3.0 4.0 5.0 6.0
Am02 5.0 4.0 1.0 8.0 7.0 9.0
Am03 6.0 5.0 4.0 2.0 7.0 9.0
Am04 6.0 4.0 2.0 1.0 3.0 7.0
Am05 9.0 2.0 1.0 4.0 7.0 8.0
Am06 9.0 6.0 3.0 4.0 5.0 6.0
Am07 1.0 5.0 9.0 7.0 5.0 3.0
116
0.0000 0.0000 0.0000 0.1122 0.0000 0.0000 0.0000
0.0000 0.0000 0.0000 0.0000 0.1512 0.0000 0.0000
0.0000 0.0000 0.0000 0.0000 0.0000 0.1610 0.0000
0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.1463
0.4
V03
Am04
V02
0.2
V01 Am06
Am03
Coordenada II (22.16 %)
Am07
V06
Am05
V05
-0.2
Am01
Am02 V04
-0.4
-0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8
Coordenada I (63.64 %)
Interpretação do teste:
H0: As linhas e as colunas da tabela são independentes.
Ha: Há uma dependência entre as linhas e colunas da tabela.
Como o p-valor calculado é maior que o nível de significância alfa=0.05, não
rejeita-se a hipótese nula H0. O risco de rejeitar a hipótese nula H0 quando ela é
verdadeira é de 12.66%.
117
encontrados em GORDON (1981), JACKSON (1991), JOLLIFFE (1986) e GABRIEL
(1995,a,b).
118
7.2. Exemplo
A matriz de dados para este exemplo provem de um levantamento
efetuado pelo “Swiss Federal Institute of Technology” em Lausanne/Suíça, com a
seguinte estruturação por linhas ID X Y G, U, Z1, Z2, Z3, onde:
ID – identidade do ponto de coleta
X – coordenada X
Y – coordenada Y
G – Classificação geológica, identificando o nível estratigráfico onde a amostra foi
coletada (J1: Argoviano; J2: Kimmeridgiano; J3: Sequaniano; J4: Portlandiano; Q::
Quaternário)
U – uso da terra onde a amostra foi coletada (floresta; pastagem; pradaria;
lavoura
Zi – concentrações de tres metais pesados (cádmio, cobre, chumbo) coletados no
horizonte superior do solo.
Os limites máximos considerados toleráveis para o consumo humano são
para Cd, 0,8 ppm; para Cu, 50ppm; para PB, 50ppm. Maiores detalhes podem
ser encontrados em GOOVAERTS, (1997).
Tendo em vista esses valores, preliminarmente, foi efetuada uma
transformação, binária, para as variáveis Cd, Cu e Pb da seguinte maneira:
se Cdi ≥ 0.8, substituir pelo valor 1 (um); caso contrário pelo valor 0 (zero)
se Cu ≥ 50, substituir pelo valor 1 (um); caso contrário pelo valor 0 (zero)
se Pb ≥ 50, substituir pelo valor 1 (um); caso contrário pelo valor 0 (zero).
De posse dessa nova tabela, com valores binários, foi realizada uma
análise de correspondências múltiplas para confrontar as relações entre as 3
variáveis geoquímicas tanto com a litologia como com o uso da terra (Matriz de
dados 7.1.). O resultado encontra-se na Figura 7.1.
119
Figura 7.1. Análise de correspondências múltiplas. Valores 0 indicam abaixo do teor limite e
valores 1 acima desse teor.
120
Figura 7.2. Distribuição de valores de cobre. Quadrados em cinza indicam valores menores que 50
ppm e círculos em preto maiores que 50 pp.
Figura 7.3. Distribuição de valores de cadmio. Quadrados em cinza indicam valores menores que
0,8 ppm e círculos em preto maiores que 0,8 pp.
121
Figura 7.3. Distribuição de valores de chumbo. Quadrados em cinza indicam valores menores que
50 ppm e círculos em preto maiores que 50 pp.
122
REFERENCIAS BIBLIOGRAFICAS
BENZÉCRI, J. P. & others (1976) – L’Analyse des données. Vol. 2, L’Analyse des
correspondances: Dunod, Paris, 616p.
DAVID, M.; M., DAGBERT & BEAUCHEMIN, Y. (1977) - Statistical analysis in geology:
Correspondence analysis method: Quart. Colorado Sch. Mines, 7:60p.
DAVIS, J.C (2002) - Statistics and Data Analysis in Geology: 3rd ed., John Wiley and Sons.
TEIL, H. (1975) - Correspondence factor analysis: An outline of its method: Journ. Int’l.
Assoc. Mathematical Geology, 7:3-12.
TEIL, J. & CHEMINÉE (1975) - Application of correspondence factor analysis to the study
of major and trace elements in the Erta Ale Chain (Afar, Ethiopia): Jour. Int’l. Assoc.
Mathematical Geology, 7:13-30.
ZHOU, D., CHANG, T. & DAVIS, J. C. (1983) – Dual Extraction of R-Mode and Q-Mode
Factor Solutions: Math. Geology, 15: 581-606
123
8. ANÁLISE DISCRIMINANTE
124
Nos casos em que as matrizes de variâncias e covariâncias são diferentes torna-se
necessário escolher outro método que absorva tal diferença, como o procedimento da função
discriminante quadrática.
[ ]
Para a constituição de Vp 2 , determina-se:
onde:
n x
2
n ∑ 1i
SQX12 = ∑ x12i − i=1 / n − 1
i=1 n
∑ x1i ∑ x 2i
n n
n
SPX1X 2 = ∑ ( x1i.x 2i ) i=1 i=1 / n − 1
i=1 n
125
b) de modo similar determina-se a matriz de somas de quadrados e produtos
cruzados de todas as "p" variáveis do segundo grupo [Vb ]
[V ]=[nV n]+[−V2]
2
p
a b
a b
R1 X a1 X b1
R
2 X a2 X b2
[Rp] −
M
R p X ap X bp
Para o cálculo dos coeficientes λp, que irão constituir a equação da função
discriminante, determina-se o inverso da matriz da variâncias e covariâncias
combinadas e em seguida multiplica essa matriz pelo vetor de diferença entre
médias:
[λp]=[Vp2 ]−1[Rp]
O valor central do grupo A é determinado por
D a =λ1 x a1 +λ x a2 +L +λ p x ap
e do grupo B por
Db =λ1 x b1 +λ x b 2 +L +λ p x bp
126
populações, calcula-se a distância entre as duas médias multivariadas, DA - DB.
Esta medida de distância é conhecida como “distância generalizada de
Mehalanobis”, ou D², e mede a separação entre as duas médias multivariadas
expressa em unidades de variâncias combinadas.
D² é usada na seguinte expressão para ser testada pela distribuição F:
n + nb − p − 1 na nb 2
F = a D ,
(na + nb − 2 )p na + nb
Ho:[Rp] = 0, ou µ a = µb
H1:[Rp ] >0
λpRp
Cp = *100
D2
127
convencional a soma de quadrados entre grupos [E] mais a soma de quadrados
dentro dos grupos [D] é igual à soma total de quadrados [T]:
[T] = [E] + [D]
Quando a razão [E]/[D] apresentar um valor alto isto significará que as
médias dos grupos são bem diferentes entre si e os valores dentro de cada grupo
estão bem concentrados ao redor dos respectivos centroides, ou seja, há uma
discriminação significativa entre os grupos. O problema na análise discriminante é,
desse modo, encontrar um conjunto de pesos lineares para as variáveis que
tornem essa razão máxima. Se esse conjunto de pesos for o vetor [A1], a análise
discriminante pode ser efetuada ao encontrar os valores dos elementos de [A1] de
modo que a expressão
{[A1]´[E] [A1]}/{[A1]´[D] [A1]}, seja maximizada.
Nessa análise usualmente é especificado a restrição que o denominador
seja igual a 1
[A1]´[D] [A1] = 1.
Obedecida essa restrição, a razão é maximizada quando [A1] for o
autovetor correspondente ao maior autovalor de [D]-1 [E]. Pode-se em seguida,
como na análise fatorial, encontrar eixos ortogonais [A2], [A3], etc., numa
sucessão decrescente de funções discriminantes segundo as quais os grupos
podem ser distintos tanto quanto possível.
As observações usadas no cálculo das funções discriminantes podem ser
projetadas no espaço definido pelos eixos discriminantes. Isto é feito segundo a
multiplicação matricial
[Z] = [A]´[X],
onde [X] é a matriz inicial de dados [N x p] e [A] a matriz [p x t] cujas colunas “t”
são os maiores autovetores a serem usados nas funções discriminantes.
Os centróides dos g grupos podem ser projetados no espaço discriminante
por
[ZM] = [A1] [Xmk],
onde [Xmk] contém as médias de todas as variáveis para cada grupo.
Geralmente escolhem-se as duas funções discriminantes de maior peso para servir como
eixos ortogonais para uma distribuição das observações dos diversos grupos e os respectivos
centróides. Uma observação multidimensional de origem desconhecida pode ser projetada nesse
128
diagrama pela sua multiplicação com o transposto de [A] e verificada a sua distância aos diversos
centróides. Maiores detalhes podem ser vistos em DAVIS (2002).
129
D2 =R'.V −1.R
V − V12
onde R= 11
V21 − V22
S2 rv v .s .s
v1 1 2 v1 v 2
V=
rv v .s .s S2
1 2 v1 v 2 v2
8.4. Exemplos
8.4.1. Após a aplicação das análises de agrupamentos e das componentes
principais aos mesossaurídeos da Formação Irati e tendo sido constatado que os
fósseis se apresentam em 3 grupos, resta a questão de decidir se ocorre uma
separação significante, ou não, entre as populações estudadas. Caso seja esse o
caso quais as variáveis mais importantes para a discriminação entre esses taxas.
Para tanto a análise discriminante linear entre dois grupos pode ser usada.
Os resultados, já apresentados por LANDIM & PERINOTTO (1976), são os
seguintes:
a) Função discriminante para Mesosaurus brasiliensis x Stereosternum tumidum:
Di =2.659Cc i − 2.561Cpi +1.111Cdi −3.398Ldi
130
A porcentagem de contribuição direta de cada variável para a discriminação
entre os dois conjuntos de dados é:
comprimento dos dentes = 54,46%; comprimento do crânio = 47,79%;
comprimento do pescoço = 0,04%; largura dos dentes = - 2,29%
Esses resultados indicam que as variáveis mais importantes na distinção
entre as duas espécies são o comprimento dos dentes e secundariamente, o
comprimento do crânio. Além disso, demonstra a validade das afirmações de (op.
cit.) quando conclui que o comprimento do pescoço não demonstra diferença
significativa e que a largura dos dentes entre as duas espécimes não se altera.
b) Função discriminante para Stereosternum tumidum x Brazilosaurus
sanpauloensis:
Di =2.659Cc i − 2.561Cpi +1.111Cdi −3.398Ldi
131
largura dos dentes em nada contribuiu (-0,56%). Esses resultados quantificam e
demonstram a validade de dedução de ARAÚJO (op. cit.) em relação à distinção
entre essas duas espécies.
A análise multivariada das funções discriminantes mostra-se eficaz,
comprovando estatisticamente a existência dos três taxa, Sterreosternum
tumidum, Mesosaurus brasiliensis e Brazilosaurus sanpauloensis, trabalhando ao
mesmo tempo com as quatro variáveis consideradas para a discriminação e
fornecendo aquelas de maior importância na distinção entre esses taxa. Entre
Stereoternum tumidum e Mesosaurus brasiliensis, o comprimento dos dentes,
entre Stereosternum tumidum e Brazilosaurus sanpauloensis, o comprimento do
pescoço e entre Mesosaurus brasiliensis e Brazilosaurus sanpauloensis os
comprimentos de crânio e escoço.
O afastamento entre os grupos, usando a distância generalizada de
Mahalanobis (D2) entre os três grupos de fósseis é a seguinte:
A
Isso está de acordo com Bertini (informação verbal) quando afirma que o
gênero Brazilosaurus é provavelmente a forma ancestral dos outros dois gêneros e
o mais terrestre dos mesossauros, com pescoço longo que favorece a predação,
parecendo ter compartilhado seu nicho ecológico com Stereosternum. O gênero
Stereosternum teria vivido em águas rasas periféricas com maior energia de
deposição e condições mais aeróbicas. Quanto ao Mesosaurus teria habitado
águas depocêntricas e seria o mais aquático dos mesossaurídeos, providos de
longos e finos dentes, muito provavelmente filtrador suspensívoro, e com pescoço
curto.
132
Para esta mesma matriz de dados pode ser aplicada uma análise
discriminante multigrupos, que forneceu o resultado gráfico mostrado na Figura
8.1.
Tabela 8.1. Autovalores e autovetores correspondentes à análise discriminante aplicada aos valores
de mesossaurídeos
Autovalores:
F1 F2
Autovalor 5.615 0.354
133
Discriminação (%) 94.063 5.937
% acumulada 94.063 100.000
Correlações Variáveis/Fatores:
F1 F2
cranio 0.787 0.403
pescoço -0.521 0.711
Dcompr 0.831 0.549
Dlargura 0.202 0.538
8.4.2.
Os dados para este exemplo encontram-se na Matriz de dados 5.3., já
foram submetidos à análise de componentes principais. Neste caso foi utilizada a
análise discriminante multigrupos e o resultado encontra-se na Figura 8.2.
Figura 8.2. Análise discriminante multigrupos aplicada à Matriz de dados 5.3. com valores
cranianos de oreodontes (Subdesmatochoerus sp. (Su), Megoreodon gigas loomisi (Me), O.
osborni (Oo), Psuedodesmatochoerus (Ps), Desmatochoerus hatcheri (De), M. culbertsoni (Mc) e
Prodesmatochoerus . meeki (Pr)).
.
134
Tabela 8.2. Autovalores e autovetores correspondentes à análise discriminante aplicada aos valores
de oreodontes
Autovalores:
F1 F2 F3 F4
Autovalor 46.067 4.463 1.078 0.029
Discriminação (%) 89.212 8.643 2.089 0.056
% acumulada 89.212 97.855 99.944 100.000
Correlações Variáveis/Fatores:
F1 F2 F3 F4
BC-W 0.922 0.078 0.321 0.204
TR-L 0.982 0.176 -0.071 0.004
Bu-L 0.907 -0.321 -0.141 0.233
Bu-HP 0.823 -0.565 0.027 -0.056
8.4.3.
135
LANDIM, FERREIRA & BETTENCOURT (2010) aplicaram análise discriminante
multigrupos para a classificação regional de algumas unidades geológicas
existentes no Complexo Ultramáfico-Carbonatítico de Jacupiranga, de idade
cretácea, localizado no Sudoeste do Estado de São Paulo/Brasil, e alojado em
rochas pré-cambrianas do Grupo Açungui. Já haviam sido identificadas 12
unidades, classificadas segundo o objetivo de beneficiamento do minério, mas
nesse estudo apenas os carbonatitos foliado (CBF), branco (CBR) e norte (CBN)
foram enfocados. As variáveis consideradas foram teores dos óxidos CaO, MgO,
SiO2, Fe2O3, P2O5, MnO, SrO, S, MnO e perda ao fogo (PF) obtidos em 95
amostras analisadas (Matriz de dados 8.1.). A localização dos pontos de
amostragem encontra-se na Figura 8.4.
O objetivo da pesquisa foi realizar a avaliação comparativa dos atributos
geoquímicos com a finalidade de fornecer subsídios para a melhoria do modelo de
lavra e otimização do planejamento de lavra.
136
discriminantes de maior peso para servir como eixos ortogonais para uma
distribuição das observações dos diversos grupos e os respectivos centróides.
Para testar a significância das funções encontradas, ou seja, verificar se
entre dois grupos considerados os mesmos pertencem a uma única população ou
à duas distintas populações, calcula-se a distância entre as duas médias
multivariadas. Esta medida de distância é conhecida como “distância generalizada
de Mehalanobis”, ou D², e mede a separação entre as duas médias multivariadas
expressa em unidades de variâncias combinadas, a qual é usada para ser testada
pela distribuição F.
Tabela 8.3. Classificação das amostras posicionadas correta e incorretamente após a análise
discriminante
%
De \ A CBF CBN CBR Total correto
CBF 28 5 3 36 77.78%
CBN 1 35 1 37 94.59%
CBR 7 0 15 22 68.18%
137
Total 36 40 19 95 82.11%
... ... ... ... ... ... ... ... ... ... ...
138
FIGURA 8.6. Probabilidade de distribuição de amostras pertencentes à unidade litológica CBF
139
FIGURA 8.8. Probabilidade de distribuição de amostras pertencentes à unidade litológica CBF
140
REFERÊNCIAS BIBLIOGRÁFICAS
DAVIS, J.C (2002) - Statistics and Data Analysis in Geology: 3th ed., John Wiley and Sons,
Inc.
MILLER, R.L. & KAHN, J.S. (1962) - Statistical analysis in the geological sciences: John
Wiley and Sons.
RAO, C.R. (1952) - Advanced statistical methods in biometric research: John Wiley and
Sons.
141
9. INTRODUÇÃO À GEOESTATÍSTICA
Os métodos clássicos da análise estatística multivariada, como visto nos
capítulos anteriores, não levam em consideração a localização dos pontos de
amostragem, nem as relações espaciais entre os valores encontrados. Nas
circunstâncias em que se dispõe das coordenadas geográficas dos pontos que
constituem a rede de amostragem, soluções adaptadas podem ser aplicadas. Um
exemplo disso é a disposição gráfica em um mapa, ou seja em duas dimensões,
dos resultados obtidos por qualquer método multidimensional. Desse modo
ferramentas se tornaram necessárias para entender o comportamento espacial de
variáveis e daí a necessidade de métodos estatísticos que enfoquem a análise
espacial de dados geológicos. A metodologia geoestatística surgiu, então, e vem
sendo desenvolvida para encontrar soluções para essa problemática. Neste
capítulo será apresentado uma breve introdução ao assunto.
O termo “geoestatística” é aplicado para o estudo das chamadas variáveis
regionalizadas, ou seja, variáveis com condicionamento espacial (MATHERON 1962,
1963). Os métodos geoestatísticos fornecem um conjunto de técnicas necessárias
para entender a aparente aleatoriedade dos dados, os quais apresentam, porém,
uma possível estruturação espacial, estabelecendo, desse modo, uma função de
correlação espacial. Essa função representa a base da estimativa da variabilidade
espacial em geoestatística. CHILÉS & DELFINER (1999) e SOARES (2006) apresentam
uma revisão histórica sobre a geoestatística com uma síntese sobre o
desenvolvimento de suas técnicas, sendo o seu início ligado à problemas de lavra
mineira.
A estimativa de reservas sempre se constituiu parte fundamental do
planejamento mineiro. O conhecimento geológico que se tenha a respeito do bem
mineral a ser explorado, as eficientes instalações na boca da mina, os detalhes
precisos sobre a commoditie em questão são variáveis importantes, mas o que vai
decidir se o empreendimento será lucrativo ou não, dentro de um intervalo de
tempo considerado, é a reserva medida com precisão.
No planejamento mineiro tal estimativa é realizada por meio de blocos onde
as reservas mineráveis são amalgamadas para produzir reservas globais e curvas
de teor/tonelagem. O processo todo, e para cada bloco, é baseado na coleta de
142
amostras pontuais, ou seja, com volumes menores que os blocos. As amostras,
com teores conhecidos, é que irão estimar o teor médio dos blocos, a duas ou a
três dimensões.
Seja, por exemplo, um bloco a ser estimado a partir de 5 amostras (Figura
9.1.):
Figura 9.1. Determinação do valor de uma area a partir de cinco pontos com valores
conhecidos
Supondo que ocorra uma relação espacial entre os teores, os valores serão
muito próximos em dois pontos vizinhos e progressivamente mais diferentes à
medida que os pontos vão ficando mais distantes. Nesse sentido é intuitivo
esperar que o teor da amostra 3 seja similar, porém não necessariamente
idêntico, ao teor médio do bloco. Pode-se esperar que as amostras 1, 4 e 5
também apresentem teores similares ao valor médio do bloco, mas não tanto
como o teor em 3. Finalmente, com relação à amostra 2, situada mais distante,
seria necessário um conhecimento melhor sobre a disposição espacial de valores
no depósito para decidir se ela tem, ou não, relação com o valor médio do bloco.
Em outras palavras, amostras situadas perto do bloco deverão apresentar teores
altamente relacionados com ele e poderão, portanto, serem utilizadas para
estimar o seu valor médio, e à medida que se situem a distâncias maiores o seu
relacionamento diminui até se tornar independente. O peso da influência de cada
amostra é, pois, inversamente correspondente à distância e essa noção pode ser
aplicada para a estimativa do valor médio do bloco utilizando para tanto amostras
com valores conhecidos, mas situadas a distâncias julgadas “convenientes”.
Quanto mais próximas estiverem maior será o seu peso no processo de estimação.
Nesta estimativa surgem, evidentemente, algumas questões: Até que
143
distâncias devem ser consideradas as amostras? Quantas devem ser usadas?
Aquela eventualmente colocada no centro do bloco terá um peso maior que as
demais? Se amostras formarem grupos, qual a influência desses agrupamentos?
Como evitar que os resultados sejam sub ou super estimados? A relação espacial,
em termos geométricos, entre as amostras estimadoras e o bloco a ser estimado,
tem importância? Essa técnica de estimativa pode ser utilizada indistintamente
para depósitos do tipo cobre porfirítico, lateritas niquelíferas, veios de cassiterita,
depósitos de urânio e outros?
Para responder a essas questões tornou-se necessária a geoestatística, a
preocupar-se com o entendimento, por meio de análise matemática, da gênese e
leis naturais que governam fenômenos interpretados como regionais. Isso traz
como conseqüência direta a estimativa das variáveis regionais usando informações
e relações a partir de um conjunto discreto de amostras, juntamente com a
avaliação dos erros de estimativa, para estabelecer o grau de segurança em
previsões e os padrões ótimos de amostragem, que assegure que um erro máximo
de estimativa não seja excedido.
Inicialmente a aplicação era apenas para situações em geologia mineira na
lavra e prospecção, mas depois em Climatologia, Geologia Ambiental, Geologia de
Petróleo, Geotecnia, Hidrogeologia, Pedologia, , entre outros. Praticamente todas
as ultimas versões de softwares para confecção de mapas ou Sistemas de
Informações Georreferenciadas apresentam módulos com métodos
geoestatísticos.
As origens da geoestatística podem ser encontradas em trabalhos
pioneiros de KOLMOGOROV (1941a,b) sobre fluídos turbulentos, WIENER (1942) sobre
séries de tempo, KRIGE (1951), WIJS (1951, 1953), ambos sobre mineração, MATÉRN
(2003). Podem ser citados também diversos textos que tratam de aplicações da
144
geoestatística, como JOURNEL & HUIJBREGTS (1978), VALENTE (1982), GUERRA (1988),
ISAAKS & SRIVASTAVA (1989), SAMPER-CALVETE & CARRERA-RAMÍREZ (1996), GOOVAERTS
(1997), DEUTSCH & JOURNEL (1992), OLEA (1999), HOHN (1999), YAMAMOTO (2001),
SOARES (2006) e WEBSTER & OLIVER (2007)
Atualmente o termo geoestatística acha-se consagrado como um tópico
especial da estatística aplicada que trata de problemas referentes às variáveis
regionalizadas, as quais têm um comportamento espacial mostrando
características intermediárias entre as variáveis verdadeiramente aleatórias e as
totalmente determinísticas.
As variáveis regionalizadas são constituídas por um duplo aspecto
aparentemente contraditório. Pela sua característica “aleatória” apresenta
irregularidades e variação imprevisível de ser avaliada de um ponto para outro e
pela sua característica “estrutural” apresenta relações existentes entre os pontos
no espaço motivadas pela sua gênese. Em outras palavras: é impossível prever
com exatidão o teor do minério num determinado ponto da jazida (aspécto
aleatório), mas é provável que se encontre minério rico perto de minério rico
(aspecto estrutural). No estudo do comportamento das variáveis regionalizadas a
ferramenta fundamental é a análise variográfica.
9.1. Variograma
Cada ponto no espaço não apresenta, em teoria, um único valor, mas uma
distribuição de probabilidades de ocorrência de valores. No ponto x a propriedade
Z(x) é uma variável aleatória com média µ, variância σ2 e uma função de
distribuição acumulada. No espaço existem infinitos pontos xi, i = 1,2, ..., Z(xi),
com suas próprias funções de distribuição. O conjunto de variáveis aleatórias
constituem uma função aleatória, ou processo aleatório, ou processo estocástico.
O conjunto de valores reais de Z que inclui a realização da função aleatória é
conhecido como variável regionalizada.
Seja uma variável regionalizada Z(xi) coletada em diversos pontos i
distribuídos por uma certa região. Como definir, porém, e, por conseqüência,
prever o comportamento espacial da variável regionalizada?
145
Para entender a variação espacial do processo aleatório subjacente deve-
se levar em consideração a possibilidade que o valor de cada ponto no espaço
está relacionado de algum modo com valores obtidos a partir de pontos situados a
certa distância, sendo razoável supor que a influência é tanto maior quanto menor
for a distância entre os pontos. Daí que a inferência da continuidade espacial de
uma variável regionalizada possa ser feita a partir de valores amostrais tendo
como análise estrutural a estatística a dois pontos, como se verá a seguir.
O conjunto de variáveis aleatórias Z(xi), i = 1, 2, ...N, correlacionadas entre
si constituem uma função aleatória da qual se conhece apenas uma realização
z(xi), ou seja o conjunto dos dados experimentais. Com uma só realização é
teoricamente impossível determinar quaisquer parâmetros, como média ou
variância, da função. A solução proposta por MATHERON (1978) consiste em assumir
restrições segundo diversos graus de estacionariedade da função aleatória.
Uma variável regionalizada obedece a uma estacionariedade de 1ª ordem
quando seus atributos são invariantes por translação. Assim se for admitido que
todas as variáveis aleatórias tenham a mesma media, este parâmetro passa a ser
independente da localização de xi e pode ser estimado pela média aritmética dos
valores das realizações das variáveis aleatórias (SOARES, 2006):
E{Z(x1)}= E{Z(x2)}=... E{Z(xi)}= E{Z(x)}= m
1 N
m= ∑ Z( x α )
N α =1
Julgar, porém, que essa hipótese esteja correta significa supor que a média
das amostras seja representativa da área estudada, ou seja, que os valores não
homogêneos. A hogeneidade espacial dificilmente ocorre, sendo necessário a
verificação da variabilidade presente.
A hipótese de estacionariedade de 2ª ordem alem de definir que a
esperança matemática, E{Z(x)}, existe e não depende do suporte x, define
também que a correlação entre duas variáveis aleatórias depende somente da
distância espacial, h, que as separa e é independente da sua localização (JOURNEL
& HUIJBREGTS, 1978):
E{Z(x)} = m
146
Covariância= C(h)=E{Z(x+h)*Z(x)}-m2, onde h representa um vetor de
coordenadas (hu, hv, hw) no espaço tri-dimensional.
Como a covariância depende do tamanho do vetor h, se h=0, C(h) passará
a representar a variância, representada por C(0).
Var{Z(x)}=E{[Z(x)-m]2}=C(0).
valor desejado, na prática, era a metade dessa diferença, que fornece a variância
por ponto sendo os pontos considerados aos pares separados por h. O correto
deve ser, portanto, simplesmente variograma.
147
Como γ(h) = C(0) - C(h) isso significa que se o vetor h apresentando-se
infinitamente pequeno faz com que a variância seja mínima e a covariância
máxima. Haverá um valor ∆h para o qual ambas podem apresentar valores
aproximadamente iguais, porém, à medida que ∆h aumenta a covariância diminui
enquanto a variância aumenta, porque ocorre progressivamente maior
independência entre os pontos a distâncias cada vez maiores.
A variância distribui-se assim de 0, quando h=0, até um valor igual à
variância das observações para um alto valor de h, se os dados forem
estacionários, isto é, não ocorrer a presença de tendência nos valores. Essas
relações são mostradas quando a função γ(h) é colocada em gráfico contra h para
originar o variograma. A distância segundo a qual γ(h) atinge um patamar,
denominado soleira ou patamar (sill), igual à variância à priori dos dados, é
chamada de alcance ou amplitude (range). Geralmente a soleira é representada
por C e o alcance por a. A variância não é apenas igual à média das diferenças ao
quadrado entre pares de pontos espaçados às distâncias h, mas também é igual à
variância dessas diferenças.
O variograma mostra a medida do grau de dependência espacial entre
amostras ao longo de um suporte específico e, para sua construção, são usados
simplesmente as diferenças ao quadrado dos valores obtidos, assumindo-se uma
estacionaridade nos incrementos. Isso significa que o variograma é uma medida
da variabilidade geológica condicionada pela distância. Tal variabilidade pode ser
bastante diferente quando consideradas diferentes direções. Por exemplo, em
estratos sedimentares com inclinação ocorre maior correlação de valores na
direção das camadas do que no sentido do mergulho das mesmas.
Para construir um variograma é necessário, portanto, dispor de um
conjunto de valores obtidos a intervalos regulares dentro de um mesmo suporte
geométrico. Sendo x(1), x(2), .... x(i), .... x(n), valores de uma variável
regionalizada a seguinte fórmula fornece uma estimativa não tendenciosa da
variância:
1
γ (h) = ∑ (x i+h − x i )2
2n
148
O estudo é feito em uma direção ao longo de uma linha ou ao longo de uma
série de linhas paralelas, utilizando n possíveis diferenças a intervalos h ou
múltiplos de h.
Em CLARK (1979) é apresentada a construção de um variograma a partir de
uma rede regular, com espaçamento entre os pontos de 100 pés. Trata-se de um
depósito estratiforme de ferro com valores em porcentagem por peso (Figura
9.2.).
6
44 40 42 40 39 37 36
5
42 43 42 39 39 41 40 38
4
37 37 37 35 38 37 37 33 34
3
35 38 35 37 36 36 35
2
36 35 36 35 34 33 32 29 28
1
38 37 35 30 29 30 32
0
-1
-1 0 1 2 3 4 5 6 7 8 9
γ*(100) = [ (40 - 42)2 + (42 - 40)2 + (40 - 39)2 + (39 - 37)2 + (37 - 36)2 + (43 -
42)2 + (42 - 39)2 + (39 - 39)2 + (39 - 41)2 + (41 - 40)2 + (40 - 38)2 + (37 - 37)2 +
(37 - 37)2 + (37 - 35)2 + (35 - 38)2 + (38 - 37)2 + (37 – 37)2 + (37 - 33)2 + (33 -
34)2 + (35 - 38)2 + (35 - 37)2 + (37 - 36)2 + (36 - 36)2 + (36 - 35)2 + (36 - 35)2 +
(35 - 36)2 + (36 - 35)2 + (35 - 34)2 + (34 - 33)2 + (33 - 32)2 + (32 - 29)2 + (29 -
28)2 + (38 - 37)2 + (37 - 35)2 + (29 - 30)2 + (30 - 32)2 ] / [2 x 36] = 1,46
149
γ*(200) = [ (44 - 40)2 + (40 - 40)2 + (42 - 39)2 + (40 - 37)2 + (39 - 36)2 + (42 -
43)2 + (43 - 39)2 + (42 - 39)2 + (39 - 41)2 + (39 - 40)2 + (41 - 38)2 + (37 - 37)2 +
(37 - 35)2 + (37 - 38)2 + (35 - 37)2 + (38 - 37)2 + (37 – 33)2 + (37 - 34)2 + (38 -
35)2 + (35 - 36)2 + (37 - 36)2 + (36 - 35)2 + (36 - 36)2 + (35 - 35)2 + (36 - 34)2 +
(35 - 33)2 + (34 - 32)2 + (33 - 29)2 + (32 - 28)2 + (38 - 35)2 + (35 - 30)2 + (30 -
29)2 + (29 – 32 ] / [2 x 33] = 3,30
E assim por diante, tanto para esta direção como para a Norte-Sul. O
resultado, e apresentado na Tabela 9.1.:
Tabela 9.1. Valores para a confecção de variogramas em duas direções
Direção Distância Variograma No. Pares
Leste-Oeste 100 1,46 36
200 3,30 33
300 4,31 27
400 6,70 23
Norte-Sul 100 5,35 36
200 9,87 27
300 18,88 21
150
Os variogramas expressam o comportamento espacial da variável
regionalizada e mostram:
a) o tamanho da zona de influência em torno de uma amostra, pois toda amostra
cuja distância ao ponto a ser estimado for menor ou igual ao alcance, fornece
informações sobre o ponto;
b) a anisotropia, quando os variogramas mostram diferentes comportamentos
para diferentes direções de linhas de amostragem e de estudo da variável; neste
caso a anisotropia pode ser geométrica quando o alcance varia de acordo com as
diversas direções consideradas, mantendo constante a soleira e zonal quando o
alcance permanece constante e a soleira varia conforme for modificada a direção;
c) continuidade, pela forma do variograma, em que para h ≅ 0, γ(h) já apresenta
algum valor. Essa situação é conhecida como efeito pepita (nugget effect) e é
representada por C0. O efeito pepita pode ser atribuído a erros de medição ou ao
fato de que os dados não foram coletados a intervalos suficientemente pequenos
para mostrar o comportamento espacial subjacente do fenômeno em estudo.
151
E<0,15: componente aleatória pequena
0,15 ≤ E ≤ 0,30: componente aleatória significante
E > 0,30: componente aleatória muito significativa.
O extremo dessa situação é o modelo de pepita pura, onde não ocorre
covariância entre os valores e, portanto, a análise semivariográfica não se aplica,
sendo sugerido o uso de outros métodos de interpolação.
De posse do variograma experimental é necessário ajustá-lo a um modelo
teórico que definirá os parâmetros “efeito pepita”, “alcance” e “patamar”. Há
necessidade de ajustar uma função matemática que descreva continuamente a
variabilidade ou correlação espacial existente nos dados. O variograma
experimental não serve para esse fim, porque há necessidade de interpolação e os
pontos apresentar-se-ão com uma certa dispersão, principalmente para distâncias
grandes, quando o número de pares de amostras diminui. O variograma
experimental não avalia distâncias e direções intermediárias e uma interpolação
entre pontos do variograma experimental não garante a existência e unicidade de
solução para o sistema de krigagem. As funções matemáticas dos modelos devem
permitir que a matriz de covariâncias, neles baseada, possa ser invertida, para
fornecer os “pesos” para a interpolação por krigagem. Desse modo, somente
certos modelos podem ser usados:
γ(h) = C , para h ≥ a,
152
γ(h) = C[1 − e−3h / a ]
neste modelo a inclinação da tangente junto à origem é C/a; C é a assíntota de
uma curva exponencial e pode ser equalizada junto à soleira; “a” corresponde ao
alcance prático igual à distância segundo a qual 95% da soleira foi alcançada.
a.3) Modelo gaussiano
153
Para a estimativa do variograma experimental, não se tendo certeza se o
fenômeno sob estudo é isotrópico ou anisotrópico no espaço bidimensional,
inicialmente consideram-se quatro direções, E-W, N-S, NE-SW e NW-SE, com um
ângulo de abertura com tolerância de 45º. Quando se constata uma direção bem
marcante de anisotropia deve-se adotar tal direção com um pequeno ângulo de
tolerância (α0 ± ∆’α0) para estimar o variograma nessa direção. Melhores
estimativas são obtidas quando os modelos são baseados em variogramas
experimentais que apresentam a menor razão “efeito pepita/patamar” e, também,
o maior alcance.
Em resumo, para a utilização do variograma as seguintes suposições
básicas são requeridas:
a) as diferenças entre pares de valores de amostras são determinadas apenas pela
orientação espacial relativa dessas amostras;
b) o interesse é enfocado apenas na média e na variância das diferenças,
significando que esses dois parâmetros dependem unicamente da orientação;
c) por conveniência assume-se que os valores da área de interesse não
apresentam tendência que possa afetar os resultados e, assim, a preocupação é
apenas com a variância das diferenças entre valores das amostras.
A modelagem, ou seja, o ajuste de um variograma experimental a uma
função é um passo fundamental na análise variográfica, sendo um processo que
envolve várias tentativas e na qual a experiência pesa muito. Pode-se optar por
um ajuste manual por comparação visual, mais sujeito a erros, ou, com o auxílio
154
de algoritmos, para ajustes automáticos como apresentado, entre outros, em
PANNATIER (1996). Acrescentar, em seguida, a essa verificação a “validação
cruzada”. Nessa análise, depois de obtido o modelo variográfico, cada valor
original é removido do domínio espacial e, usando-se os demais, um novo valor é
estimado para esse ponto. Desse modo, um gráfico pode ser construído
mostrando a relação entre valores reais e estimados. A validação cruzada, porém,
não prova que o modelo escolhido é o mais correto, mas sim que o mesmo não é
inteiramente incorreto. A melhor verificação, então, é aquela resultante do
confronto entre os valores estimados e a realidade de campo.
Uma comparação entre os ajustes a um modelo esférico e a um modelo
linear é apresentada a seguir e o ajuste é indicado, no gráfico, pela relação entre
a reta a 45º e a obtida pela análise. Um valor igual a 1,0 significa a indicação de
ajuste perfeito.
Modelo esférico
648
5770
579
Valores reais
4327
510
Semivariância
2885
442
1442
373
0
373 442 510 579 648
0 4 7 10 14
Valores estimados
Distância "h"
Modelo linear
5870
4071
Valores reais
6093
4570 2271
Semivariância
3047 471
1523 -1328
-1328 471 2271 4071 5870
0
0 4 7 10 14
Valores estimados
Distância "h"
155
9.2. Krigagem
Krigagem é o processo de estimativa geoestatístico de valores de variáveis
distribuídas no espaço, e/ou no tempo, a partir de valores adjacentes enquanto
considerados como interdependentes pelo variograma. Trata-se, em último caso, de
um método de estimativa por médias móveis. O termo, tradução do francês
krigeage, e do inglês kriging, foi cunhado pela escola francesa de geoestatística
em homenagem ao engenheiro de minas sul-africano e pioneiro na aplicação de
técnicas estatísticas em avaliação mineira, Daniel G. Krige.
A krigagem pode ser usada, como algoritmo estimador, para:
156
9.2.1. Krigagem ordinária
Seja um ponto que se deseja estimar, sendo o valor real desconhecido
representado por V. O valor estimado (V*) é calculado, utilizando n amostras
localizadas segundo coordenadas conhecidas, com valores x1, x2, x3....xn
(conjunto S), de forma linear, como por exemplo, através da técnica da
ponderação pelo inverso das distâncias.
V* = p1 x1 + p2x2 + p3x3 + ... + pnxn, onde os pi são os pesos atributos a
cada amostra i.
É evidente que existe associado a esse estimador um erro ε=V-V* e que se,
teoricamente, diversas estimativas forem feitas a média de erros é zero. Se os
erros, portanto, apresentarem valores próximos a zero, o estimador é de
confiança e isso pode ser verificado pela distribuição desses valores. A maneira
mais simples de medir estatisticamente tal distribuição é via o desvio padrão ou a
variância. No caso em questão, porém, a variância não pode ser obtida porque
não se conhece o valor real que se esta estimando e, portanto, também não se
sabe qual o erro associado.
σ2
ε = 2γ(h)
Desse modo, para o processo de estimativa de um ponto utilizando o
método da krigagem, procede-se da seguinte maneira:
V* = p1x1 + p 2 x 2 + p3 x 3 + ...pn x n
Se a soma dos pesos for igual a 1 e não ocorrer tendência local dos valores,
esse estimador é o melhor e não tendencioso, pois a partir dos pesos atribuídos a
cada amostra, minimiza a estimativa da variância.
157
Isso é obtido construindo-se um sistema de n equações com n incógnitas
(λ1, λ2, λ3, ... λn) e havendo a restrição de que Σλi=1, passa-se a n+1 equações.
Como se tem apenas n incógnitas desconhecidas, introduz-se uma outra, também
desconhecida, para balancear o sistema, ou seja, o chamado multiplicador de
Lagrange, µ.
∂ 2 − λ(Σλi − 1) = 0 , se Σλi − 1 = 0
ε
O objetivo da krigagem é procurar pelo conjunto ótimo de ponderadores de
modo que a variância do erro de estimativa seja a menor possível. Para tanto é
organizado um sistema de equações com n+1 incógnitas, para a estimativa de um
ponto (So)
λ γ(S1 , S1 ) + λ γ(S1 , S 2 ) + λ γ(S1 , S 3 ) + L +
1
2 3
λ γ(S1 , Sn ) + µ = γ(S1 , S 0 )
n
λ γ(S 2 , S1 ) + λ γ(S 2 , S 2 ) + λ γ(S 2 , S 3 ) + L + λ γ(S , S ) + µ = γ(S , S )
2 2 n 2 0
1 3 n
λ γ(Sn , S ) + λ γ(Sn , S 2 ) + λ γ(Sn , S 3 ) + L + λ n γ(Sn , Sn ) + µ = γ(Sn , S 0 )
1
1 2 3
λ1 + λ + λ + L + λ + 0 = 1
n
2 3
Em notação matricial:
γ(S1 , S1 ) γ(S1 , S 2 ) L γ(S1 , S n ) 1 λ1 γ(S1 , S 0 )
γ(S 2 , S1 ) γ(S 2 , S 2 ) L γ(S 2 , S n ) 1 λ 2 γ(S 2 , S 0 )
M M M M = M
γ(S n , S ) γ(S n , S 2 ) L γ(S n , S n ) 1 λ n γ(S n , S 0 )
1
1 1 L 1 0 µ 1
[S i , S i ] [λ i ] [S i , S 0 ]
Estas equações constituem equações normais a n+1 incógnitas, as quais podem ser
resolvidas, para a obtenção dos coeficientes, por cálculo matricial, segundo:
[λι] = [SiSi]-1.[SiS0]
158
A matriz [Si,Si] contém os valores obtidos no variograma referentes às
distâncias entre as amostras estimadoras; o vetor [Si,S0] contém os valores
obtidos no variograma referentes às distâncias entre cada amostra e o ponto (S0)
a ser estimado e o vetor [λι] contém os ponderadores a serem calculados.
Resolvido o sistema de equações, obtém-se os pesos λi e o multiplicador de
Lagrange, µ, segundo:
-1
[λi] = [Si,Si] [Si,S0]
Para o ponto S0 a ser estimado, obtém-se uma combinação linear dos
valores dos pontos vizinhos e respectivos pesos
S0 = ΣλiSi
Para o cálculo da variância (σ²) associada ao valor S0 obtido por estimativa
usa-se a expressão:
σ 2
= Σλ i γ(Si , S0 ) + µ = [λ i ]' [Si , S0 ] ,
sendo [λi]' = vetor transposto com os pesos λi e [Si,S0] = vetor com os valores
obtidos no variograma referentes às distâncias entre cada amostra e o ponto (S0)
a ser estimado.
159
Os dados para este exemplo provêm de uma jazida de carvão, localizada
em Sapopema/PR, na qual foram obtidos 38 valores para a variável espessura em
metros (Matriz de dados 9.1.). Como descrito por CAVA (1985) e LANDIM (2003)
esse depósito situa-se a cerca de 20 km a noroeste de Figueira, no nordeste do
Estado do Paraná, em sedimentos da parte superior do Membro Triunfo da
Formação Rio Bonito. Na Figura 9.3. esta a localização da rede de amostragem.
160
Figura 9.4. Reticulado em que os nós apresentam valores conhecidos e valores a serem estimados
por krigagem ordinária.
161
livre de erro e isso é muito útil para a verificação da qualidade do produto final
obtido. Sendo a krigagem um método que fornece interpoladores exatos, ao
prever valores em pontos previamente conhecidos o faz sem erro.
Figura 9.6. Distribuição de valores de espessura de carvão, obtida por krigagem ordinária.
Figura 9.7. Mapa dos desvios-padrão dos valores obtidos por krigagem ordinária.
162
preciso calcular um semivariograma experimental e em seguida modelá-lo. Seja,
portanto, o exemplo mostrado na Figura 9.8. onde apenas quatro valores
conhecidos são usados para determinar um ponto desconhecido.
Figura 9.9. Relação entre os 4 pontos estimadores 1, com valor 1,3, 2, com valor 1,18, 3, com
valor 1,4, e 4, com calor 1,0, e o ponto 0 com valor a ser estimado
Não são as distâncias euclidianas, porém, que são utilizadas, mas sim os
valores resultantes da análise espacial pelo variograma modelado. Isso pode ser
obtido graficamente colocando os valores no variograma ou analiticamente
utilizando a formula de um modelo, no caso, o esférico. Assim o valor γ para a
163
distância euclidiana 0,50, entre o ponto 4, o mais próximo, e 0, é calculado
segundo:
1h
3
γ(h) = C 32 ah − + C0
2a
3 0,50 1 0,50 3
γ (0,50) = 0,102 − + 0 = 0,031
2 2,5 2 2,5
−1
0 0,043 0,043 0,082 1 0,059 λ1
0,043 0 0,059 0,065 1 0,043 λ 2
0,043 0,059 0 0,065 1 0,043 = λ 3
0,082 0,065 0,065 0 1 0,031 λ 4
1 1 1 1 0 1 µ
164
0 = (-0,017*1,30) + (0,272*1,18) + (0,272*1,40) + (0,473*1,00) = 1,153 m
165
BIBLIOGRAFIA
ARMSTRONG, M. (1998) – Basic Linear Geostatistics: Springer
CAVA, L.T., Coord. (1985) - Potencial e Perspectivas para o Carvão Mineral do Estado do
Paraná: MINEROPAR/PR.
DEUTSCH, C.V. AND JOURNEL, A.G. (1992) - GSLIB-Geoestatistical Software Library and
User’s Guide. Oxford University Press
JOURNEL, A.G. & HUIJBREGTS, J.C.H. (1978) - Mining geostatistics: Academic Press.
166
KRIGE, D. G. (1951) – A statistical approach of some basic mine valuation problems on
the Witwatersrand: Journal of the Chemical, Metallurgical and Mining Society of South
Africa, December:119-139.
MATÉRN, B. (1960) – Spatial Variation. Stochastic Models and Their Application to Some
Problems in Forest Surveys and Other Samplng Investigations. Meddelanden frän Statens
Skogsforskningsinstitut, vol. 49, n. 5, Almaenna Foerlaget, Stockholm. Second edition
(1986), Springer.
OLEA, R. A. (1999) – Geostatistics for Engineers and Earth Scientists: Kluwer Academic
Publishers
PANNATIER Y. (1996) - VARIOWIN. Software for Spatial Data Analysis in 2D: Springer-
Verlag.
167
WIJS, H. J. de (1951): Statistics of ore distribution. Part I: Frequency distribution of assay
values: Geologie em Mijnbouw (Journal of the Royal Netherlands Geological and Mining
Society), New Series, 13(11):365-375.
WIJS, H. J. de (1953): Statistics of ore distribution. Part II: Theory of binomial distribution
applied to sampling and engeneering problems: Geologie em Mijnbouw (Journal of the
Royal Netherlands Geological and Mining Society), New Series, 15(1):12-24.
168
10. CLASSIFICAÇÃO REGIONALIZADA
Uma das mais importantes tarefas em Geociências é resolver problemas por
medição de atributos regionalizados. A classificação multivariada de unidades
estratigráficas, perfis de poços ou amostras petrográficas combinada com o
conceito de variáveis regionalizadas podem fornecer procedimentos para uma
identificação de regiões geográficas homogêneas. Os resultados podem, então,
serem usados para a formulação de hipóteses de trabalho que procurarão explicar
os processos que levaram à formação do fenômeno em estudo. Como os
processos geológicos são bastante complexos e a amostragem geralmente não é
suficiente, a simplificação da realidade se impõe por meio de modelos.
Classificação regionalizada de espécimes geológicas em grupos é um desses
modelos simplificadores, segundo o qual os resultados de análises de dados
multidimensionais georreferenciados podem ser transferidos para o espaço
geográfico real possibilitando mapeamentos.
Na Classificação Regionalizada procura-se, portanto, atribuir, em termos
probabilísticos, amostras multivariadas e georreferenciadas a grupos previamente
determinados. Assim o primeiro, e fundamental, passo é a definição dos grupos, o
que pode ser feito utilizando um método estatístico multivariado, como a análise
de agrupamentos, ou por um conhecimento específico “a priori” sobre o assunto.
Definido os grupos, as amostras serão submetidas a uma análise discriminante
multigrupos e com o auxílio de medidas, como a distância generalizada de
Mahalanobis associada à krigagem, verificar a respectiva atribuição para os grupos
considerados.
De acordo com OLEA (1999) não há nada de novo em termos conceituais na
Classificação Regionalizada. A novidade é a junção de diversas técnicas
estatísticas multivariadas e geoestatísticas para a construção de um modelo
geológico. HARFF & DAVIS (1990) publicaram a primeira formulação do método
combinando elementos geoestatísticos com idéias provenientes de VORONIN (1967),
RODIONOV (1981) e KOGAN (1986). Outros autores que apresentaram contribuições
ao assunto foram HARFF, DAVIS & OLEA (1991), HARFF, DAVIS, OLEA & BOHLING (1991),
HARFF, BOHLING & OLEA (1993). Em BOHLING (1997), além de um programa para o
169
cálculo da Classificação Regionalizada, são apresentadas diversas alternativas para
a implementação do método.
Neste texto é adotado o enfoque apresentado por PACHECO & LANDIM (2005).
Segundo esses Autores os principais problemas associados a esta metodologia
são: a) a interpretação geológica dos grupos e se os mesmos são espacialmente
autocorrelacionados ou não, pois os algoritmos convencionais para análise de
agrupamentos acabam por definir os grupos encontrados de maneira subjetiva; e
b) a atribuição de amostras que não apresentam probabilidades bem definidas de
pertencer a um determinado grupo.
Para a definição inicial dos grupos foi proposto um agrupamento natural,
baseado no conhecimento geológico, operação denominada “primeiro modo”. Em
seguida o mesmo conjunto de amostras deve ser submetido a uma análise de
agrupamentos clássica, usando método de WARD (1963), operação denominada
“segundo modo”. Ambos os resultados são submetidos a uma análise
discriminante multigrupos para verificar se as amostras estão devidamente
classificadas em seus respectivos grupos. Escolhendo duas diferentes
metodologias para tal verificação espera-se que as amostras que forem mantidas
nos mesmos grupos, independentemente do método, estejam realmente bem
classificadas dentro de certos espaços geográficos. Aquelas, porém, que mudarem
de grupo, conforme o método aplicado, são consideradas como pertencentes a
regiões híbridas.
Um fluxograma desse enfoque para a Classificação Regionalizada a dois
modos é apresentado na Figura 10.1.
170
Figura 10.1. Fluxograma da Classificação Regionalizada a dois modos, Segundo PACHECO & LANDIM
(2005).
10.1. Exemplo
Neste exemplo aplicou-se a Classificação Regionalizada para mapear, em
termos probabilísticos, as influências principais que teriam agido no controle da
composição química de águas subterrâneas de uma região granitóide no centro-
leste de Portugal, conhecida como plutonito do Fundão (PACHECO & LANDIM, 2005).
A matriz de dados analisada é composta por 160 análises geoquímicas de
águas subterrâneas, provenientes da citada região, com teores em µmol/L dos
maiores anions e sílica dissolvida: Cl-, SO42-, NO3-, HCO3- e SiO2. (Matriz de dados
10.1. e Figura 10.2.). Tais dados já tinham sido analisados por PACHECO (1998b)
171
que utilizou a análise das correspondências para determinar as principais
influências sobre a composição química dessas águas. Segundo esse estudo, que
conseguiu identificar águas poluídas e não poluídas, por regressão linear múltipla,
três seriam os fatores controladores: alteração por intemperismo, contaminação
agrícola e contaminação doméstica (Figura 10.3.).
172
aglomerativo, foi o de Ward. Nessa técnica o agrupamento é baseado na variância
mínima, onde o enfoque é sobre a variabilidade que existe dentro de cada caso e
os agrupamentos são efetuados ao se determinar que pares de casos, quando
tomados em conjunto, apresentam o menor acréscimo de variabilidade. O
resultado dessa análise indicou três grandes grupos com a distribuição das
amostras de maneira muito semelhante àquela encontrada por PACHECO (1998b).
Depois de obtido o dendrograma e verificada a presença dos três grupos, os
mesmos foram submetidos à análise discriminante multigrupos.
A análise discriminante confirmou três grupos, que foram interpretados de
acordo com o trabalho de Pacheco (1998b), como águas não poluídas em que a
composição é influenciada fundamentalmente pela alteração das rochas e águas
poluídas, seja por efluentes domésticos seja por contaminação de defensivos
agrícolas (Figura 10.4.).
173
Tabela 10.1.
Coordenadas Coordenadas
ID relativas Gauss
X Y X Y
28 176 127 253543.9 353824.6
30 181 129 253719.3 353894.7
31 166 110 253193 353228.1
32 165 118 253157.9 353508.8
35 144 76 252421.1 352035.1
39 148 149 252561.4 354596.5
41 124 160 251719.3 354982.5
42 145 180 252456.1 355684.2
45 202 261 254456.1 358526.3
51 172 272 253403.5 358912.3
59 138 259 252210.5 358456.1
60 176 227 253543.9 357333.3
61 190 235 254035.1 357614
63 180 110 253684.2 353228.1
66 118 122 251508.8 353649.1
67 123 116 251684.2 353438.6
71 88 109 250456.1 353193
72 85 100 250350.9 352877.2
... ... ... ... ...
174
78 115 71 0.002 0.993 0.005
79 94 74 0.849 0.000 0.151
84 120 106 0.698 0.000 0.302
85 118 101 0.785 0.000 0.215
86 216 113 0.668 0.000 0.332
87 253 106 0.791 0.000 0.209
90 285 172 0.656 0.000 0.344
92 301 208 0.767 0.000 0.233
96 312 165 0.852 0.000 0.148
99 333 158 0.533 0.000 0.467
202 78 159 0.000 1.000 0.000
203 79 175 0.491 0.000 0.509
204 127 210 0.849 0.000 0.151
205 146 217 0.452 0.000 0.548
206 103 195 0.697 0.000 0.303
207 85 151 0.621 0.021 0.358
208 92 167 0.854 0.000 0.146
209 86 127 0.750 0.000 0.250
210 84 112 0.878 0.000 0.122
211 124 188 0.205 0.000 0.795
212 128 174 0.845 0.000 0.155
213 150 197 0.400 0.420 0.180
214 140 150 0.743 0.000 0.257
215 150 155 0.655 0.000 0.345
216 80 74 0.305 0.000 0.695
217 110 86 0.666 0.000 0.334
218 130 123 0.002 0.000 0.998
219 77 146 0.925 0.018 0.057
220 170 277 0.000 1.000 0.000
221 200 228 0.805 0.000 0.195
222 174 231 0.690 0.000 0.310
223 163 214 0.755 0.000 0.245
224 173 188 0.361 0.000 0.639
225 166 172 0.800 0.000 0.200
226 178 175 0.816 0.000 0.184
227 186 184 0.857 0.000 0.143
228 145 80 0.400 0.000 0.600
229 235 64 0.767 0.000 0.233
230 288 86 0.531 0.000 0.469
231 221 83 0.438 0.000 0.562
232 203 111 0.909 0.000 0.091
233 200 129 0.000 1.000 0.000
234 175 153 0.737 0.000 0.263
235 227 214 0.830 0.000 0.170
236 234 218 0.000 1.000 0.000
237 212 192 0.874 0.000 0.126
238 220 198 0.828 0.000 0.172
239 209 164 0.678 0.000 0.322
241 364 221 0.934 0.000 0.066
242 351 230 0.952 0.000 0.048
243 190 282 0.046 0.003 0.951
244 240 182 0.766 0.000 0.234
175
245 213 150 0.668 0.000 0.332
246 205 197 0.762 0.000 0.238
247 214 221 0.646 0.000 0.354
248 90 181 0.624 0.000 0.376
249 41 100 0.819 0.000 0.181
250 317 233 0.866 0.000 0.134
251 325 226 0.940 0.000 0.060
252 332 211 0.954 0.000 0.046
253 342 192 0.918 0.000 0.082
254 358 173 0.903 0.000 0.097
255 361 173 0.906 0.000 0.094
256 347 191 0.917 0.000 0.083
257 342 185 0.912 0.000 0.088
258 335 187 0.962 0.000 0.038
259 314 125 0.653 0.000 0.347
260 227 114 0.776 0.000 0.224
261 248 129 0.533 0.003 0.464
262 245 132 0.000 1.000 0.000
263 247 138 0.000 1.000 0.000
264 242 151 0.794 0.000 0.206
265 244 145 0.823 0.000 0.177
266 244 160 0.000 1.000 0.000
267 257 155 0.317 0.000 0.683
268 259 166 0.544 0.000 0.456
269 253 133 0.000 1.000 0.000
270 275 150 0.004 0.955 0.041
271 294 141 0.873 0.000 0.127
272 277 124 0.914 0.000 0.086
273 155 64 0.796 0.000 0.204
274 242 91 0.839 0.000 0.161
275 253 82 0.860 0.000 0.140
276 265 70 0.836 0.000 0.164
277 269 90 0.763 0.000 0.237
278 300 79 0.899 0.000 0.101
279 316 91 0.705 0.000 0.295
280 347 42 0.883 0.000 0.117
402 262 28 0.948 0.000 0.052
404 272 31 0.919 0.000 0.081
406 195 292 0.570 0.000 0.430
407 210 286 0.012 0.000 0.988
408 275 274 0.776 0.000 0.224
410 377 141 0.926 0.000 0.074
411 396 118 0.917 0.000 0.083
415 34 182 0.866 0.000 0.134
420 207 43 0.887 0.000 0.113
421 240 40 0.898 0.000 0.102
423 370 137 0.924 0.000 0.076
424 318 53 0.884 0.000 0.116
425 318 47 0.706 0.000 0.294
427 348 54 0.889 0.000 0.111
430 36 216 0.481 0.000 0.519
432 375 96 0.911 0.000 0.089
176
433 369 83 0.904 0.000 0.096
434 380 86 0.922 0.000 0.078
435 371 69 0.891 0.000 0.109
438 245 281 0.868 0.000 0.132
439 179 58 0.763 0.000 0.237
440 191 51 0.781 0.000 0.219
441 264 53 0.570 0.000 0.430
442 317 78 0.809 0.000 0.191
443 348 141 0.821 0.000 0.179
444 348 111 0.906 0.000 0.094
446 259 135 0.797 0.000 0.203
447 247 114 0.446 0.000 0.554
452 148 81 0.381 0.000 0.619
453 118 141 0.422 0.000 0.578
457 92 34 0.846 0.000 0.154
458 230 57 0.855 0.000 0.145
463 43 27 0.921 0.000 0.079
514 208 188 0.769 0.000 0.231
522 182 195 0.402 0.000 0.598
523 150 118 0.563 0.000 0.437
524 154 158 0.435 0.000 0.565
525 123 177 0.795 0.000 0.205
530 248 119 0.514 0.000 0.486
534 287 105 0.866 0.000 0.134
535 294 81 0.605 0.000 0.395
536 239 65 0.801 0.000 0.199
539 287 156 0.684 0.000 0.316
540 258 133 0.845 0.000 0.155
573 338 181 0.954 0.000 0.046
574 317 190 0.671 0.000 0.329
575 325 164 0.435 0.000 0.565
583 43 241 0.778 0.063 0.159
589 253 82 0.853 0.000 0.147
591 85 227 0.497 0.000 0.503
177
Figura 10.5. Probabilidades de distribuição das águas com composição química controlada
por fertilizantes agrícolas
Figura 10.6. Probabilidades de distribuição das águas com composição química controlada
por intemperismo
178
Figura 10.7. Probabilidades de distribuição das águas com composição química controlada
por efluentes domésticos
Tabela 10.3. Resultados da análise discriminante. CA/DA são os valores para a análise no primeiro
momento e ClA/Da para o segundo momento
Identificação Dados originais CA/DA ClA/DA
ID X (m) Y (m) [HCO3-] [Cl-] [SO42-] [NO3-] [SIO2] Prior Post Prior Post
28 253614 353895 780 440 356 371 656 3 1 C C
30 253789 353965 844 485 458 460 639 3 3 C C
31 253263 353298 490 423 185 387 506 3 3 A A
32 253228 353579 390 282 129 371 558 3 1 A A
35 252491 352105 729 347 341 221 614 1 1 C C
39 252631 354666 619 231 129 216 260 3 3 A A
41 251789 355052 261 189 198 55 463 1 1 A A
42 252526 355754 370 130 127 139 421 1 1 A A
179
45 254526 358596 1280 668 464 121 571 1 2 C C
51 253474 358982 780 499 458 189 100 2 2 C C
59 252281 358526 2260 2115 635 150 674 2 2 B C
60 253614 357403 560 248 158 63 524 1 1 A A
61 254105 357684 580 231 83 18 560 1 1 A A
63 253754 353298 229 790 735 998 399 3 3 B B
66 251579 353719 480 296 325 366 474 3 3 A A
67 251754 353509 1052 243 4 0 684 1 1 C C
71 250526 353263 639 183 433 0 626 1 1 C C
72 250421 352947 239 164 56 1 478 1 1 A A
74 249930 353123 660 149 44 32 609 1 1 A A
75 249719 352772 480 138 62 0 399 1 1 A A
... ... ... ... ... ... ... ... ... ... ... ...
360000
N CA group (influence)
358000
3 (farmland fertilizers)
2.7
2 (domestic effluents)
356000 1.8
1 (weathering)
0.9
354000
352000
350000
248000 250000 252000 254000 256000 258000 260000 262000
Figura 10.8. Distribuição espacial dos grupos determinados pelo resultado do agrupamento natural
otimizado pela análise discriminante.
180
A Análise de Agrupamentos, também otimizada pela Análise Discriminante,
apresentou uma distribuição alternativa dessas mesmas amostras, porem também
em três grupos: intemperismo (A); efluentes domésticos (C); fertilizantes (B)
(Figura 10.9.).
360000
N
ClA group (influence)
358000
B (farmland fertilizers)
2.7
A (weathering)
354000 0.9
352000
350000
248000 250000 252000 254000 256000 258000 260000 262000
Figura 10.9. Distribuição espacial dos grupos determinados pelo resultado do análise de
agrupamentos otimizada pela análise discriminante
Fazendo a análise dos nós dos retículos, ou seja, combinando essas duas
figuras anteriores obteve-se o mapa final (Figura 10.10). O recadastramento dos
nós foi obtido da seguinte maneira: 1) quando os nós da Classificação
Regionalizada/primeiro modo apresentaram os mesmos valores, ou seja,
coincidindo 1 com A, 2 com C e 3 com B, os grupos foram mantidos como bem
classificados; 2) quando o valor 3 não coincidia, recebia o valor 4 e passou a ser
interpretado como mistura entre fertilizante e outras influências; 3) em todos os
outros casos o valor passou a 0 e interpretado como mistura de intemperismo e
efluentes domésticos.
181
360000 Alcaria N Code and Influence
Mixing between
4 agriculture and
358000 the other
influences
3 Agriculture
356000
Telhado
Fatela
Carvalhal 2 Effluents
Valverde
354000
Fundão 1 Weathering
Joanes
352000 Cabo Alcaide
Mixing between
0 weathering
Souto da Casa
and effluents
350000
248000 250000 252000 254000 256000 258000 260000 262000
182
BIBLIOGRAFIA
BOHLING, G. C. , (1997) - GSLIB-Style Programs for Discriminant Analysis and
Regionalized Classification: Computers & Geosciences, 23, no. 7, p.739-76A
HARFF, J., DAVIS, J.C. & OLEA, R.A. (1991) – Quantitative assessment of mineral
resources with an application to petroleum geology: Nonrenewable Resources, vol. 1, n.
1:74-84
HARFF, J., DAVIS, J.C., OLEA, R.A. & BOHLING, G. (1991) – Regionalization of Western
Kansas Based on Multivariate Classification of Stratigraphic Data from Oil Wells, II: Kansas
Geol. Survey, Open-File Report 91-40, 30 pp.
HARFF, J., OLEA, R.A. & BOHLING, G. (1993) – From Multivariate Sampling to Thematic
Maps with an Application to Marine Geochemistry: in J. Davis & U.C. Herzfeld (eds.)
“Computers in Geology. 25 Years of Progress”, I.A.M.G., Studies in Mathematical Geology
n.5:265-274
OLEA, R.A. (1999) - Geostatistics for engineers and earth scientists: Kluwer Academic
Publishers, chapter A4.
PACHECO, F.A.L. (1998a) - Finding the number of natural clusters in groundwater data
sets using the concept of equivalence class: Computers & Geosciences, v. 24, no. A, p. 7-
A5.
RODIONOV, D.A., (1981), Statisticheskie Rezhenija v Geologii: Nedra Press, Moscow, 23A
pp.
VORONIN, J.A. (1967) - Geologija I Matematika: Nauka Press, Novosibirsk, 253 pp.
183
11. GEOESTATÍSTICA MULTIVARIADA
11.1. Cokrigagem
A Cokrigagem é um procedimento geoestatístico segundo o qual diversas
variáveis regionalizadas podem ser estimadas em conjunto, com base na
correlação espacial entre si. É, portanto, uma extensão multivariada do método da
krigagem quando para cada local amostrado obtém-se um vetor de valores em lugar
de um único valor.
Uma das mais freqüentes aplicações ocorre quando a amostragem de uma
variável, denominada primária, é insuficiente e o objetivo é, então, melhorar a sua
estimação utilizando a correlação, por ventura existente, com variáveis mais
densamente amostradas, conhecidas como secundárias. Ou quando a variável
primária exibe uma baixa autocorrelação espacial e as variáveis secundárias
apresentam uma alta continuidade. Normalmente o estudo é feito considerando
uma variável primária e apenas uma secundária. Se o numero total de variável
primária e secundárias for igual a n, serão necessários n(n+1)/2 variogramas e
covariogramas cruzados. No caso de mais de duas variáveis secundárias o sistema
de cokrigagem torna-se extremamente complicado.
Fundamental na utilização da cokrigagem é a verificação prévia da
correlação existente entre a variável primária e as variáveis secundárias, a qual
deve ser alta para que as estimativas sejam consistentes (WATANABE et al., 2009).
Quando os pontos de amostragem são totalmente coincidentes (isotopia),
não se obtém uma melhoria substancial quando se aplica a cokrigagem em
relação à krigagem ordinária. Por outro lado é imposível estimar covariancias
cruzadas com todos os dados não coincidentes (heterotopia). A melhoria de
interpretação somente é significativa quando a variável primária tem um número
184
extremamente reduzido de casos em relação às demais secundárias (heterotopia
parcial).
Se Z1 e Z2 são funções aleatórias estacionárias ou intrínsecas, o variograma
cruzado delas, define-se como :
1
λ Z1Z 2 (h) = E[Z1 ( x ) − Z1 ( x + h))(Z 2 ( x ) − Z 2 ( x + h))]
2
A solução, por cálculo matricial, para a cokrigagem entre duas variáveis é
fornecida por:
1 0
C1,1 x 0 , x α
C1,1 x α , x α´ C2,1 x α , y α
M M ω 1
1 1 1 2 α 1
1 0
0 1
=
C y , x C y , y M M
2 ,1 2α α
1 2 ,2 2α α´
2 υα C1,2 x 0 , x α2
2
0 1
1L1 0L0 0 0 −µ
1 1
0L0 1L1 0 0 − µ 2
0
[A ] [X] [B]
variável z1 ;
variável z 2 ;
185
subvetor , que depende da configuração geométrica relativa do ponto
C11 x 0 , x a1
186
11.1.2. Cokrigagem ordinária colocalizada
11.1.4. Exemplo
Este exemplo é apresentado com poucos dados para ilustrar como se
desenvolve a aplicação da cokrigagem. Seja uma situação com 3 pontos onde V é
a covariância medida nesses três pontos e U, a variável de interesse, medida em
apenas duas dessas três localidades. A questão é estimar U em um local não
amostrado como mostra a figura abaixo:
Distribuição dos pontos, com coordenadas (0,0) para U0; (-3,6) para o ponto1; (-8,-5) para o
ponto 2; (3,-3) para o ponto 3
Estes dados provém de uma amostragem mais densa constituída por 275
pontos para U e 470 pontos para V, apresentados e amplamente discutidos no
texto de ISAAKS & SRIVASTAVA (1989). A análise covariográfica desses dados revelou
as seguintes relações:
γU(h) = 440000 + 70000γ(h’1) + 95000γ(h’2)
γV(h) = 22000 + 40000γ(h’1) + 45000γ(h’2)
γUV(h) = 47000 + 50000γ(h’1) + 40000γ(h’2)
187
• Efeito pepita
22000 47000
= 7.471.000.000 > 0
47000 440000
• Segunda estrutura
40000 50000
= 300.000.000 > 0
50000 70000
• Terceira estrutura
45000 40000
= 2.675.000.000 > 0
40000 95000
188
U0U1 6,7 2,6 134229
U0U2 9,4 9,0 102334
U0V1 6,7 2,6 70210
U0V2 9,4 9,0 52697
U0V3 4,2 2,5 75887
Pesos da cokrigagem:
ponto U1: a1 = 0,512 ponto U2: a2 = 0,488
ponto V1: b1 = -0,216 ponto V2: b2 = -0,397 ponto V3: b3 = 0,666
Multiplicadores de Lagrange:
µ1 = -205963 µ2 = -13823
189
Apenas a título de informação, se fosse aplicada a krigagem ordinária o
valor estimado para U0 seria 630, com a previsão de variância dessa estimativa da
ordem de 719509.
190
(2) escala local ou curto alcance: pode estar relacionada às concentrações
anômalas de um metal, acima do limite máximo tolerável, e pode ser resultado de
rochas naturalmente ricas de tal metal ou originar-se de atividades humanas, cujo
impacto é temporariamente balanceado por pequenas concentrações naturais;
(3) escala regional ou longo alcance: geralmente relacionada à influência da
geologia regional (QUEIROZ, 2003).
Seja {zi(u); i = 1, ..., p}, um conjunto de p variáveis regionalizadas
conhecidas em n pontos amostrais, com coordenadas u. Neste caso, {Zi(u); i = 1,
..., p} é uma função aleatória a indicar um conjunto de variáveis aleatórias
definidas sobre uma área específica. Um incremento espacial [zi(u) – zi(u+h)] é
definido como a diferença entre os valores de uma variável zi em u e em u+h
separados pelo vetor h. Sob a hipótese de estacionaridade de segunda ordem,
define-se:
Vetor com valor médio: m = E{Z(u)}
Matriz de covariâncias: C(h) = E[{Z(u) - m}-1{Z(u+h) – m}]
Matriz de variogramas: γh) = 1/2E[{Z(u) – Z(u+h)}T{Z(u) – Z(u+h)}],
Para h = 0, a matriz de covariâncias C(h) é igual à matriz de variâncias-
covariâncias clássica V:
C(0) = E[{Z(u) – m}T{Z(u) – m}] = V
Também C(h) e Γ(h) são relacionados pela expressão:
γ(h) = C(0) – ½(C(h) + C(-h)
A matriz de variogramas experimental Γh) é uma matriz pxp, onde na
diagonal estão os valores para os variogramas diretos e nos postos fora da
diagonal, os valores para os variogramas cruzados, para um determinado h:
γ11
*
(h)L γ1*p (h)
Γ * (h) = M
γ * (h)L γ * (h)
p1 pp
Os variogramas experimentais são calculados a partir dos dados amostrais
e, em muitas situações, diversos modelos variográficos podem ser ajustados,
revelando diversas escalas de variabilidade espacial. Cada escala de variabilidade
pode ser representada por um modelo de semivariograma, de modo que a
191
variabilidade espacial é modelada pela soma dos semivariogramas embricados. A
krigagem fatorial permite, desse modo, analisar as relações entre as variáveis
Zi(u) nas escalas espaciais detectadas pelos semivariogramas experimentais
embricados.
Resumidamente os passos básicos da krigagem fatorial são:
1. modelagem por corregionalização das variáveis usando o denominado modelo linear de
corregionalização; todos os p(p + 1)/2 variogramas diretos e cruzados das p variáveis são
modelados por uma combinação linear dos N´s variogramas padronizados para um mesmo
alcance (sill); nesta modelagem supõe-se que o comportamento espacial das variáveis seja o
resultado da interação de diferentes processos atuando independentemente a diferentes
escalas espaciais.
Ni Ni
γ αβ (h) = ∑ γ uαβ (h) = ∑ buαβ gu (h) ,
u =1 u =1
192
m n
Z ( x 0 ) = ∑∑ λ ji Zi ( x j ) .
u*
k
i=1 j
∑∑ λ
η=1 τ =1
τη iηγ ( x j − x τ ) − µi = buik gu ( x j − x 0 )
n
e ∑λ
τ =1
τi =0
193
correlação é afetada pela escala espacial, torna-se necessário ajustar um modelo
linear de co-regionalização e co-krigar os fatores.
11.2.1. Exemplo
Em QUEIROZ ET AL. (2008) é apresentada uma metodologia baseada na
análise da krigagem fatorial para a quantificação do risco de contaminação por
metais pesados na área portuária de Santana/Amapá, onde anteriormente tinham
sido desenvolvidas atividades relacionadas ao beneficiamento e comercialização
do minério de manganês oriundo das minas de Serra do Navio/AP. As análises de
49 amostras de águas foram feitas por espectometria de emissão atômica por
plasma induzido (QUEIROZ, 2003). Foram determinadas as concentrações (em ppm)
de 16 elementos (Matriz de dados 11.1).
Para a aplicação da krigagem fatorial foram consideradas somente as
variáveis que apresentaram concentrações acima dos limites estabelecidos pelo
CONAMA (1986), ou seja, arsênio (As), manganês (Mn), alumínio (Al), ferro (Fe),
chumbo (Pb), selênio (Se), cádmio (Cd) e cobre (Cu).
A Tabela 11.1. apresenta a matriz de correlações entre as variáveis. Os
valores em destaque indicam correlação significativa a um nível abaixo de 5%.
Observa-se forte correlação entre Fe e Cd (r = 0.934) e com Pb com Se (r =
0.965).
TABELA 11.1. Matriz de correlação das variáveis.
As Mn Al Fe Pb Se Cd Cu
As 1.000
Mn 0.024 1.000
Al -0.094 -0.090 1.000
Fe 0.070 0.166 0.369 1.000
Pb 0.172 0.336 0.105 0.415 1.000
Se 0.093 0.344 0.096 0.405 0.965 1.000
Cd 0.085 0.196 0.349 0.934 0.475 0.428 1.000
Cu -0.046 -0.006 -0.026 0.050 0.525 0.559 0.047 1.000
194
contribuição à explicação da variância total dos dados são mostradas na Tabela a
seguir .
TABELA 11.2. Cargas dos fatores das três primeiras Componentes Principais
As Mn Al Fe Pb Se Cd Cu λ % % ac.
Componentes
CP 1 0.142 0.387 0.303 0.753 0.888 0.876 0.779 0.460 3.202 40.0 40.0
– – –
CP 2 0.073 0.177 0.584 0.560 0.356 0.389 0.529 0.597 1.607 20.1 60.1
– – – –
CP 3 0.667 0.508 0.425 0.059 0.005 0.066 0.091 0.467 1.118 14.0 74.1
Figura 11.1.
195
Figura 11.2.
Figura 11.3.
196
Figura 11.4.
Figura 11.5.
Figura 11.6.
197
Figura 11.7.
198
todas as variáveis, exceto o cobre, é relativamente alta com destaque para o
chumbo e selênio. O cobre é mais fortemente correlacionado com o segundo fator
e nenhuma variável apresenta contribuição significativa para o terceiro fator, que
explica somente 3,2 % da variabilidade total. O alumínio apresenta correlação
mais forte com o primeiro fator regionalizado na longa escala.
TABELA 11.3.Fatores Regionalizados na pequena (B1) e longa (B2) escala espacial.
Cargas dos Fatores Cargas dos Fatores
Regionalizados – Matriz Regionalizados – Matriz
Variáveis B1 B2
199
distância acima de 0,33 km, no caso da pequena escala, e acima de 2,0 km, no
caso da longa escala.
As Figuras abaixo mostram os mapas cokrigados do primeiro fator
associados às escalas espaciais consideradas. Para a escala local (curto alcance), a
presença de áreas que podem ser consideradas anômalas – com valores mais
altos (ou baixos) – é observada principalmente dentro dos limites da ICOMI.
Figura 11.8.
Figura 11.9.
200
A drenagem da área de estudo (em linha azul) foi plotada nos mapas
relacionados à longa escala. Pode-se observar uma boa concordância das linhas
de drenagem com o padrão espacial apresentado, sobretudo pelo mapa do
primeiro fator regionalizado associado com o modelo esférico de longa escala, que
explica a maior parte da variabilidade (84,1%) com contribuição razoável de quase
todas as variáveis, exceto o cobre.
Foi realizado também o mapeamento do As, Mn, Fe e Cd, que mostraram
indícios de estarem vinculados a uma escala local. O mapa do arsênio na pequena
escala apresenta duas pequenas áreas com anomalias negativas, uma dentro da
área industrial da ICOMI e outra no bairro do Elesbão à margem do Rio
Amazonas. No mapa desse mesmo elemento associado à longa escala observa-se
regiões com altos valores positivos dentro da área da ICOMI, no bairro do Elesbão
– à noroeste – e na área residencial, no bairro da Hospitalidade, parecendo indicar
uma disseminação do referido elemento na área de estudo.
A ocorrência de valores altos para os elementos analisados na área de
estudo pode indicar a presença de fontes de contaminação possivelmente
vinculadas às atividades industriais desenvolvidas pela ICOMI durante os últimos
anos.
Figura 11.10.
201
Componente Espacial estimada para o Arsênio (Longa escala = 2,0 km)
996 CENTRAL
NOVA BRASÍLIA 0.4
995.5 0.2
UTM ( Km )
0
HOSPITALIDADE
995 COMERCIAL
REMÉDIOS
ELESBÃO -0.2
ICOMI
994.5
-0.4
994 RIO A
MAZO N.HORIZONTE
-0.6
NAS
-0.8
478 478.5 479 479.5 480 480.5 481 481.5 482
Escala
UTM ( Km )
0 250 500 750 1000 metros
Figura 11.11.
202
BIBLIOGRAFIA
ABOUFIRASSI, M. & MARIÑO, M. A. (1984) – Cokriging of Aquifer Transmissivities from
Field Measurements of Specific Capacity: Math. Geology, 16:19-35
CARR, J., MYERS, D.E. & GLASS, C.H. (1985) - Co-Kriging: a Computer Program:
Computers & Geosciences, 11:111-127.
CASTRIGNANÒ, A., CONVERTINI, G., LOSAVIO, N. & HOXHA, I. (1995) – Studio delle
relazioni tra le proprietà fisico-chimiche di un suolo argilloso del litorale ionico-lucano
mediante la geostatistica multivariata: Proceedings of the 13th Symposium of Italian
Chemistry Society, Florence, pp. 61-70
CONDE, R.P. & YAMAMOTO (2000) – Evaluation of kriging and cokrigin for asbestos ore
reserve estimation at Cana Brava mine, Goiás, Brazil: in “Geostat 2000, Proceedings of
the Mining and Petroleum Geostatistics Sessions at the 31IGC. Ed(s) M. Armstrong, C.
Bettini, N. Champigny, A. Galli, A. Remacre. Kluwer Academic Publishers, pp. 189-201
DEUTSCH, C.V. AND JOURNEL, A.G.- GSLIB-Geoestatistical Software Library and User’s
Guide. Oxford University Press, 1992
GOOVAERTS, P. (1992) – Factorial kriging analysis: a useful tool for exploring the
structure of multivariate spatial soil information: Jour. Soil Science, 43:597-619
MATHERON, G. (1982) – Pour une analyse Krigeante des données regionalisées: Centre
de Geostatistique, Fontainebleau, Report 732
203
OLEA, R. A. (1999) – Geostatistics for Engineers and Earth Scientists: Kluwer Academic
Publishers
WATANABE, J.; YAMAMOTO, J.K.; ROCHA, M.M. & FONSECA, P.P. (2009) - Estudo da
Influência da Correlação Inicial entre Variáveis nos Resultados de Co-Estimativas: São
Paulo, UNESP, Geociências, v. 28, n. 4, p. 467-484
YATES, S.R. & YATES, M.V. (1990) - Geostatistics for Waste Managment: A User’s Manual
for the GEOPACK (version 1.0) Geostatistical Software System: U.S. Environmental
Protection Agency Report 600/8-90/004.
204
ANÉXO
Neste anexo são apresentadas listadas as tabelas de dados usadas como
exemplos ao longo dos diversos capítulos. Poderão ser úteis para quem quiser
usá-las em suas próprias análises.
Matriz de dados 3.1. Valores para peso específico, quartzo, índice de cor (porcentagem
de silicatos escuros ou máficos), feldspato, e coordenadas N-S e E-W para cada ponto de
amostragem ( DAWSON & WHITTEN, 1962),
P. E. (Y) Quartzo (X1) Cor (X2) Feldspato (X3) NS (X4) EW (X5)
2,63 21,3 5,5 73,0 0,92 6,09
2,64 38,9 2,7 57,4 1,15 3,62
2,64 26,1 11,1 62,6 1,16 6,75
2,63 29,3 6 63,6 1,3 3,01
2,64 24,5 6,6 69,1 1,4 7,40
2,61 30,9 3,3 65,1 1,59 8,63
2,63 27,9 1,9 69,1 1,75 4,22
2,63 22,8 1,2 76,0 1,82 2,42
2,65 20,1 5,6 74,1 1,83 8,84
2,69 16,4 21,3 61,7 1,855 10,92
2,67 15,0 18,9 65,6 2,01 14,22
2,83 0,6 35,9 62,5 2,04 10,60
2,7 18,4 16,6 64,9 2,05 8,32
2,68 19,5 14,2 65,4 2,21 8,06
2,62 34,4 4,6 60,7 2,27 2,73
2,63 26,9 8,6 63,6 2,53 3,5
2,61 28,7 5,5 65,8 2,62 7,44
2,62 28,5 3,9 67,8 3,025 5,06
2,61 38,4 3,0 57,6 3,06 5,42
2,63 28,1 12,9 59 3,07 12,55
2,63 37,4 3,5 57,6 3,12 12,13
2,78 0,9 22,9 74,4 3,4 15,4
2,76 8,8 34,9 55,4 3,52 9,91
2,63 16,2 5,5 77,6 3,61 11,52
2,74 2,2 28,4 69,3 4,22 16,4
2,64 29,1 5,1 65,7 4,25 11,43
2,7 24,9 6,9 67,8 4,94 5,91
2,63 39,6 3,6 56,6 5,04 1,84
2,71 17,1 11,3 70,9 5,06 11,76
2,84 0 47,8 52,2 5,09 16,43
2,68 19,9 11,6 67,2 5,24 11,33
2,84 1,2 34,8 64 5,32 8,78
2,74 13,2 18,8 67,4 5,32 13,73
2,74 13,7 21,2 64,0 5,33 12,45
2,61 26,1 2,3 71,2 5,35 1,43
2,63 19,9 4,1 76,0 5,61 4,15
2,77 4,9 18,8 74,3 5,85 13,84
2,72 15,5 12,2 69,7 6,46 11,66
2,83 0 39,7 60,2 6,59 14,64
2,77 4,5 30,5 63,9 7,26 12,81
2,92 0 63,8 35,2 7,42 16,61
2,77 4 24,1 71,8 7,91 14,65
2,79 23,4 12,4 63,1 8,47 13,33
2,69 29,5 9,8 60,4 8,74 15,77
205
Matriz de dados 3.2. Valores da superfície potenciométrica de um aqüífero livre,
como variável dependente, e variáveis consideradas independentes: cota do terreno
(topografia), base da formação aqüífera ou cota do topo do basalto (basalto), espessura
da formação aqüífera (espessura), e coordenadas em UTM (LEITE & LANDIM, 2003)
ID X Y superfície topografia basalto espessura
1 486450 7714380 291.189 296.429 217.2 79.23
2 486630 7714170 289.067 290.612 217.2 73.41
3 486850 7717900 315.241 329.716 217.2 112.52
4 486680 7718240 317.682 344.277 217.2 127.08
5 486690 7717400 309.052 328.542 217.2 111.34
6 486580 7717100 308.604 328.274 217.2 111.07
7 486480 7716800 304.559 327.428 217.2 110.23
8 486560 7716520 302.352 315.592 217.2 98.39
9 486400 7716100 299.957 311.337 217.2 94.14
10 486070 7716150 303.822 325.457 217.2 108.26
11 485900 7715630 294.954 309.294 217.2 92.09
12 485510 7716020 293.871 318.611 217.2 101.41
13 492430 7719100 340.94 350.875 217.2 133.67
14 492610 7718200 342.341 354.741 217.2 137.54
15 490450 7716520 314.986 323.636 217.2 106.44
16 490800 7717170 315.645 318.945 217.2 101.74
17 491110 7719280 339.994 357.334 276.61 80.73
18 490970 7718950 339.635 343.945 275.98 67.96
19 490780 7718340 331.465 348.535 271.98 76.55
20 490500 7718030 329.644 345.289 272.92 72.37
21 490180 7716840 309.333 309.333 255.97 53.37
22 489940 7716980 314.421 324.011 266.19 57.82
23 489680 7716700 309.574 314.339 273.96 40.38
24 489240 7716800 320.553 336.913 289.16 47.75
25 488910 7716510 319.572 331.902 295.78 36.12
26 489070 7716340 313.844 325.134 291.7 33.43
27 489310 7716190 306.693 319.468 286.14 33.32
28 489930 7715900 309.23 319.175 217.2 101.97
29 489060 7715800 306.059 322.889 295.57 27.32
30 488850 7715240 301.6 309.85 305.17 4.68
31 489380 7714810 304 315.205 217.2 98
32 487880 7715530 303.3 315.88 306.75 9.13
33 487100 7715460 293.445 315.035 311.5 3.53
34 487310 7715940 301.393 321.143 314.05 7.1
35 487510 7716030 306.945 330.475 311.62 18.85
36 487240 7716270 301.731 313.431 320.52 0
37 487670 7716830 314.373 329.643 318.09 11.56
38 487600 7717580 314.439 320.469 317.13 3.34
39 487400 7716640 313.914 316.489 320.33 0
40 487340 7717370 312.307 312.387 318.25 0
41 487110 7717370 310.257 314.562 217.2 97.36
42 487060 7717710 313.124 321.144 217.2 103.94
43 487290 7718000 314.958 318.208 217.2 101.01
44 487279 7718226 316.01 326.695 217.2 109.49
45 487800 7717970 318.55 330.06 319.17 10.89
46 488240 7718560 326.71 340.665 323.48 17.19
47 488070 7718660 322.91 330.4 322.85 7.55
48 488320 7718900 326.546 335.166 322.59 12.58
206
49 488510 7719040 328.253 340.693 322.07 18.63
50 487050 7718560 319.844 341.789 217.2 124.59
51 490100 7719190 343.673 369.283 295.23 74.06
52 487400 7716960 310.772 318.922 320.25 0
53 487790 7717160 315.613 330.443 317.1 13.34
54 487835 7717675 319.285 330.405 317.77 12.63
55 488025 7717850 322.906 338.746 319.09 19.66
56 488400 7718215 329.23 351.46 322.49 28.97
57 488460 7717960 329.427 350.687 319.97 30.72
58 487850 7716770 316.643 335.043 315.46 19.59
59 488095 7717515 323.488 336.278 316.84 19.43
60 488100 7717310 322.822 338.492 315.61 22.88
61 488499 7718069 330.254 352.544 321.14 31.41
62 487820 7716415 313.403 339.123 312.73 26.4
63 488070 7716830 319.43 336.13 312.93 23.2
64 488790 7718370 333.417 352.867 323.95 28.92
65 489300 7718935 340.285 356.655 317.83 38.83
66 488280 7716265 318.283 334.233 305.48 28.75
67 488478 7716358 319.171 333.491 303.23 30.26
68 489263 7717831 329.833 344.383 308.58 35.8
69 489330 7717190 326.779 339.849 291.86 47.99
70 489645 7717725 331.372 344.902 294.1 50.81
71 489660 7718870 342.73 363.79 310 53.79
72 489625 7718700 342.445 362.875 311.94 50.93
73 489800 7718850 342.888 364.883 305.94 58.94
74 489890 7718595 342.712 357.112 302.56 54.55
75 490470 7718670 340.816 354.331 284.36 69.97
76 488990 7719165 335.329 348.12 318.71 29.41
77 489210 7718470 339.618 361.278 322.9 38.38
78 489070 7718485 338.763 361.883 324.09 37.79
79 488765 7717920 332.309 359.319 318.04 41.28
80 489110 7717710 332.627 350.717 308.95 41.77
81 489125 7718720 339.86 360.53 322.76 37.77
82 489220 7719400 338.511 355.581 312.38 43.2
83 488690 7719920 333.997 342.407 217.2 125.21
84 488810 7720120 336.713 347.553 217.2 130.35
85 489400 7720480 340.446 342.806 217.2 125.61
86 489240 7720870 343.336 357.056 217.2 139.86
87 489010 7720840 342.626 359.596 217.2 142.4
88 489650 7721570 345.82 359 217.2 141.8
89 489977 7721238 349.795 359.005 302.72 56.29
90 492730 7721150 349.267 366.367 217.2 149.17
91 492450 7721460 343.002 367.242 217.2 150.04
92 492370 7722130 364.586 378.991 217.2 161.79
93 493120 7722800 347.574 363.194 217.2 145.99
94 491340 7720510 345.68 359.545 281.92 77.62
95 491120 7720180 346.502 362.602 282.4 80.21
96 491080 7720640 347.757 361.987 284.77 77.22
97 492950 7720350 349.514 366.264 217.2 149.06
98 491530 7720200 342.489 354.074 278.74 75.33
99 491300 7719690 342.434 358.899 277.4 81.5
100 490213 7719747 347.297 360.467 290.36 70.11
101 490210 7719840 347.486 361.236 290.59 70.64
102 490400 7720080 341.665 371.099 289.5 81.6
207
103 490280 7719380 346.235 363.575 290.22 73.36
104 491920 7725350 324.4 350.985 217.2 133.78
105 489250 7722740 357.81 372 217.2 154.8
106 489740 7721580 351.352 359.722 217.2 142.52
107 485840 7716520 310.637 339.087 217.2 121.89
108 487670 7715190 301.426 322.166 308.26 13.9
109 489350 7717470 329.952 341.102 297.09 44.01
110 492660 7723500 326.29 367.647 217.2 150.45
111 492780 7720710 347.513 366.743 217.2 149.54
112 493800 7723830 353.549 363.384 217.2 146.18
113 493170 7723530 346.161 357.281 217.2 140.08
114 492370 7724150 331.013 358.983 217.2 141.78
115 493100 7722150 352.799 374.599 217.2 157.4
116 492420 7722820 342.155 373.115 217.2 155.91
117 492050 7723500 333.039 364.689 217.2 147.49
118 491540 7721530 339.815 370.835 282.15 88.68
119 490740 7723250 351.821 364.151 217.2 146.95
120 490080 7722980 344.837 357.577 217.2 140.38
121 490280 7721630 354.373 371.483 217.2 154.28
122 490560 7720870 352.056 377.076 291.68 85.4
123 490750 7720170 349.969 364.979 286.26 78.72
124 489880 7720300 345.489 361.639 297.22 64.42
125 489060 7719850 335.555 339.695 311 28.69
126 489590 7719520 344.656 359.046 303.15 55.89
127 488600 7718760 332.881 351.45 323.84 27.61
128 488700 7717180 327.97 350.45 307.06 43.39
129 488280 7715657 308.118 327.258 304.72 22.54
130 489112 7716700 320.736 337.896 291.92 45.97
131 488558 7716928 325.005 342.795 306.54 36.26
132 487975 7717228 319.315 336.535 316.09 20.44
133 490213 7719747 347.297 360.467 290.36 70.11
134 486990.2 7716692 301 301 217.2 83.8
135 487014.2 7716773 302 302 217.2 84.8
136 487038.2 7716857 303 303 217.2 85.8
137 487042.2 7716952 304 304 217.2 86.8
138 487079.9 7717039 305 305 217.2 87.8
139 487140.6 7717120 306 306 217.2 88.8
140 487208.2 7717201 307 307 217.2 89.8
141 487247.6 7717282 308 308 217.2 90.8
142 487271.7 7717361 309 309 217.2 91.8
143 487277 7717395 310 310 217.2 92.8
144 487313.2 7717479 311 311 217.2 93.8
145 487298 7717600 312 312 217.2 94.8
146 487279.6 7717716 313 313 217.2 95.8
147 487392.2 7717847 314 314 217.2 96.8
148 487441.6 7717990 315 315 217.2 97.8
149 487515.7 7718130 316 316 217.2 98.8
150 487603.5 7718264 317 317 217.2 99.8
151 487669.4 7718388 318 318 217.2 100.8
152 487702.4 7718528 319 319 217.2 101.8
153 487776 7718714 320 320 217.2 102.8
154 487835.7 7718797 321 321 217.2 103.8
155 487927.5 7718904 322 322 217.2 104.8
156 488052.3 7718979 323 323 217.2 105.8
208
157 488131.3 7719042 324 324 217.2 106.8
158 488189 7719112 325 325 217.2 107.8
159 488236 7719144 326 326 217.2 108.8
160 488473 7719462 327 327 217.2 109.8
161 488584 7719570 328 328 217.2 110.8
162 488584 7719626 328 328 217.2 110.8
163 488663 7719722 329 329 217.2 111.8
164 488722 7719732 330 330 217.2 112.8
165 489016 7715190 300 300 217.2 82.8
166 489101.2 7715325 301 301 217.2 83.8
167 489168.8 7715483 302 302 217.2 84.8
168 489293.6 7715640 303 303 217.2 85.8
169 489453.8 7715832 304 304 217.2 86.8
170 489580.8 7716058 305 305 279.85 25.15
171 489740.3 7716223 306 306 273.52 32.48
172 489911.7 7716328 307 307 217.2 89.8
173 490055.8 7716478 308 308 217.2 90.8
174 490177.4 7716682 309 309 217.2 91.8
175 490345 7716855 310 310 217.2 92.8
176 490432.9 7716910 311 311 217.2 93.8
177 490577.9 7717018 312 312 217.2 94.8
178 490632.5 7717185 313 313 217.2 95.8
179 490725.9 7717337 314 314 217.2 96.8
180 490855.5 7717489 315 315 217.2 97.8
181 490962.5 7717613 316 316 217.2 98.8
182 491075.2 7717715 317 317 217.2 99.8
183 491214.5 7717850 318 318 217.2 100.8
184 491317.6 7717955 319 319 217.2 101.8
185 491403 7718100 320 320 217.2 102.8
186 491396.7 7718108 320 320 217.2 102.8
187 491679 7718877 325 325 217.2 107.8
188 492030 7719830 330 330 217.2 112.8
Matriz de dados 3.3. Cotas topográficas da região centro-sul do Brasil (SOARES & LANDIM,
1976),
X Y cotas
844.908 7385.947 600
886.245 7469.696 400
829.668 7574.06 500
842.643 7736.755 500
983.743 7705.089 396
916.506 7663.891 400
946.108 7470.424 400
994.355 7419.168 600
1071.117 7377.078 795
1067.357 7544.969 479
1084.42 7666.747 464
1075.596 7784.785 400
1141.768 7757.085 500
1149.904 7570.752 516
1182.299 7513.421 600
1123.745 7353.099 1275
209
1266.953 7414.911 800
1272.767 7475.757 600
1295.504 7654.525 500
1301.584 7728.276 580
1409.455 7730.351 800
1408.522 7588.141 817
1360.039 7474.511 800
1328.981 7458.395 800
1458.949 7360.331 1000
1410.022 7518.3 1000
1483.678 7657.956 1000
1487.371 7777.973 1200
1545.062 7760.13 1406
1543.355 7573.746 1500
1578.276 7511.314 1700
1548.192 7433.532 1200
1654.093 7388.106 1200
1657.172 7500.666 1700
1601.83 7583.441 1200
1604.63 7694.152 1200
254.946 7853.227 200
351.087 7872.721 100
438.668 7878.757 1065
561.029 7790.229 200
697.062 7789.228 509
761 7865.926 740
244.687 7398.872 100
242.793 7509.647 100
240.981 7620.411 100
239.248 7731.165 100
346.831 7400.294 100
345.698 7511.022 100
344.612 7621.738 100
343.573 7732.441 100
415.126 7363.941 100
467.447 7502.536 300
475.805 7639.067 600
467.076 7683.324 600
551.052 7401.005 200
601.269 7529.914 600
532.879 7661.188 628
517.327 7683.347 708
651.938 7446.45 565
636.89 7481.66 600
625.758 7586.937 665
646.106 7745.447 600
797.224 7449.812 540
724.48 7500.928 500
752.848 7668.513 570
771.537 7753.153 683
1466.833 7293.976 1132
1511.853 7340.81 600
216.949 7252.41 116
298.603 7318.473 109
210
449.201 7329.04 100
597.658 7249.432 500
684.588 7327.933 610
707.868 7298.067 500
850.76 7247.521 600
965.403 7238.044 811
1009.04 7255.015 1198
1198.06 7306.645 1187
1213.277 7306.531 1272
1323.909 7244.263 1125
874.024 7868.24 770
898.72 7853.767 720
1007.275 7849.114 670
1161.244 7852.937 500
1218.969 7848.961 600
1374.459 7828.805 800
1464.285 7809.054 1200
1500.127 7885.151 1244
1601.887 7874.909 1130
211
900 100 38
1000 0 41
1000 50 17
1000 100 38
1100 0 3
1100 50 13
1100 100 37
1200 0 4
1200 50 7
1200 100 35
1300 0 4
1300 50 6
1300 100 30
1400 0 5
1400 50 6
1400 100 32
1500 0 8
1500 50 6
1500 100 33
1600 0 10
1600 50 6
1600 100 32
1700 0 10
1700 50 5
1700 100 36
1800 0 10
1800 50 6
1800 100 35
1900 0 12
1900 50 7
1900 100 38
2000 0 13
2000 50 8
2000 100 40
2100 0 15
2100 50 10
2100 100 41
2200 0 15
2200 50 11
2200 100 36
2300 0 17
2300 50 9
2300 100 37
2400 0 20
2400 50 9
2400 100 39
2500 0 24
2500 50 9
2500 100 38
2600 0 25
2600 50 13
2600 100 37
2700 0 26
2700 50 11
212
2700 100 34
2800 0 28
2800 50 10
2800 100 35
2900 0 29
2900 50 9
2900 100 40
Matriz de dados 4.2. Análises químicas tanto para óxidos e como para elementos traços
(RHODES, 1969).
ID Si Ti Al Fe Mn Mg Ca Na K P Rb Sr Y Th U Zr Nb Pb
35 73 0,08 14,1 0,64 0,01 0,17 0,7 3,66 5,16 0,03 228 180 9 16 13,8 112 18,5 352
11 71,6 0,23 14,6 1,91 0,02 0,54 1,61 3,63 4,59 0,08 193 340 6 30 10 196 17,6 40
33 71,3 0,24 14,6 1,84 0,02 0,52 1,21 3,59 4,93 0,08 218 305 7 30 8,5 191 19,9 34
34 65,2 0,46 15 4,03 0,06 2,16 2,08 3,45 4,99 0,22 170 586 14 39 10,4 273 19,6 37
12 64,6 0,54 15,8 4,7 0,08 2,45 2,48 3,19 5,36 0,3 176 754 15 36 8,9 277 20,9 33
31 63,9 0,52 15,4 4,55 0,07 2,14 2,52 3,1 3,35 0,28 185 766 15 41 10,9 297 19 36
213
22 63,6 0,52 15,5 4,64 0,07 2,43 2,2 3,15 5,18 0,29 134 733 15 39 9,2 290 20 31
25 60,4 0,66 15,9 5,68 0,09 2,78 3,54 3,24 5,66 0,38 172 917 16 34 8,4 301 18,9 49
28 59,6 0,68 16,7 5,98 0,08 2,73 3,92 2,92 5,17 0,37 165 954 17 27 8,6 308 17,4 32
21 60,1 0,65 15,8 6,11 0,09 3,52 3,54 3,06 5,2 0,38 160 916 17 29 7 261 17,3 43
30 55,4 0,68 15,8 7,67 0,14 4,17 4,75 2,17 5,85 0,37 140 828 19 22 5,2 241 12,9 75
29 56,8 0,67 16,1 7,53 0,13 4,07 4,55 2,36 5,26 0,35 159 903 20 24 5,6 255 15,1 35
9 57,5 0,63 15,9 7,1 0,11 3,94 3,99 1,95 5,99 0,38 155 939 20 29 6 237 16,1 48
26 56,6 0,68 16,4 7,48 0,12 4,62 4,33 1,98 5,59 0,39 152 1055 20 28 7,4 234 13,7 55
2 57,4 0,67 15,7 7,31 0,12 4,48 4,87 2,06 4,69 0,39 166 924 22 27 7,7 243 14,6 46
32 54,5 0,72 15,6 8,05 0,13 5,37 5,37 2,14 4,88 0,45 135 961 19 17 5,7 188 14,5 36
Matriz de dados 5.2. Composição mineral de uma rocha artificial, denominada “hongito”
por AITCHISON (1986).
N V1 V2 V3 V4 V5
01 4880.0 3170.0 380.0 640.0 930.0
02 4820.0 2380.0 900.0 920.0 980.0
03 3700.0 910.0 3420.0 950.0 1020.0
04 5090.0 2380.0 720.0 1010.0 800.0
05 4420.0 3830.0 290.0 770.0 690.0
06 5230.0 2620.0 420.0 1250.0 480.0
07 4460.0 3300.0 460.0 1220.0 560.0
08 3460.0 520.0 4290.0 960.0 770.0
09 4120.0 1170.0 2670.0 960.0 1080.0
10 4260.0 4660.0 70.0 560.0 450.0
11 4990.0 1950.0 1140.0 950.0 970.0
12 4520.0 3730.0 270.0 550.0 930.0
13 3270.0 850.0 3890.0 800.0 1190.0
214
14 4140.0 1290.0 2340.0 1580.0 650.0
15 4620.0 1750.0 1580.0 830.0 1220.0
16 3230.0 730.0 4090.0 1290.0 660.0
17 4320.0 4430.0 100.0 780.0 370.0
18 4950.0 3230.0 310.0 870.0 630.0
19 4230.0 1580.0 2040.0 830.0 1320.0
20 4460.0 1150.0 2380.0 1160.0 850.0
21 4580.0 1660.0 1680.0 1200.0 880.0
22 4990.0 2500.0 680.0 1090.0 740.0
23 4860.0 3400.0 250.0 940.0 550.0
24 4550.0 1660.0 1760.0 960.0 1070.0
25 4590.0 2490.0 970.0 980.0 970.0
26 3130.0 2944.0 1068.0 1526.0 1332.0
27 3012.0 1200.0 1232.0 2051.0 2505.0
Matriz de dados 5.3. Medidas cranianas em 7 espécies fósseis de oreodontes (MILLER &
KAHN,1962)
Grupos Espécies BC-W TR-L Bu-L Bu-HP
Su Su01 47.0 99.0 26.0 15.0
Su Su02 42.0 93.0 26.0 16.0
Su Su03 40.0 90.0 22.0 13.0
Su Su04 46.0 100.0 22.0 11.0
Su Su05 46.0 96.0 24.0 16.0
Su Su06 42.0 88.0 26.0 15.0
Su Su07 43.0 89.0 23.0 14.0
Su Su08 44.0 78.0 23.0 13.0
Su Su09 44.0 90.0 25.0 11.0
Su Su10 47.0 99.0 27.0 15.0
Su Su11 47.0 92.0 27.0 13.0
Me Me01 78.0 165.0 35.0 18.0
Me Me02 77.0 165.0 37.0 19.0
Me Me03 65.0 148.0 30.0 20.0
Me Me04 74.0 163.0 31.0 15.0
Me Me05 65.0 169.0 31.0 16.0
Me Me06 70.0 176.0 34.0 23.0
Me Me07 69.0 161.0 28.0 13.0
Me Me08 67.0 178.0 31.0 14.0
Me Me09 65.0 174.0 34.0 18.0
Me Me10 64.0 168.0 28.0 13.0
Me Me11 68.0 166.0 32.0 15.0
Oo Oo01 42.0 81.0 15.0 8.0
Oo Oo02 48.0 83.0 18.0 8.6
Oo Oo03 45.0 87.0 18.0 9.0
Oo Oo04 48.0 83.0 17.0 8.0
Oo Oo05 46.0 84.0 16.0 6.1
Oo Oo06 51.0 87.0 21.0 7.9
Oo Oo07 46.0 80.0 17.0 7.0
Oo Oo08 50.0 90.0 18.0 8.1
Oo Oo09 46.0 85.0 16.0 6.5
Oo Oo10 48.0 85.0 15.0 7.2
Oo Oo11 47.0 85.0 17.0 8.0
Oo Oo12 49.0 83.0 18.0 7.7
Oo Oo13 43.0 79.0 15.0 7.1
215
Oo Oo14 47.0 87.0 19.0 7.5
Oo Oo15 46.0 87.0 18.0 8.0
Ps Ps01 60.0 114.0 27.0 20.0
Ps Ps02 60.0 118.0 31.0 19.0
Ps Ps03 60.0 111.0 31.0 21.0
Ps Ps04 58.0 102.0 30.0 20.0
Ps Ps05 55.0 116.0 28.0 20.0
Ps Ps06 59.0 117.0 29.0 17.0
Ps Ps07 59.0 114.0 24.0 17.0
Ps Ps08 60.0 121.0 25.0 19.0
De De01 58.0 129.0 26.0 16.0
De De02 52.0 126.0 27.0 18.0
De De03 50.0 122.0 28.0 22.0
De De04 52.0 123.0 29.0 18.0
De De05 60.0 138.0 33.0 17.0
De De06 61.0 122.0 28.0 17.0
De De07 54.0 132.0 30.0 17.0
De De08 65.0 131.0 32.0 18.0
De De09 55.0 130.0 32.0 17.0
De De10 64.0 125.0 26.0 16.0
De De11 56.0 124.0 28.00 16.0
Mc Mc01 45.0 91.0 16.00 7.5
Mc Mc02 46.0 93.0 17.00 6.5
Mc Mc03 48.0 92.0 19.00 5.0
Mc Mc04 46.0 91.0 19.00 6.0
Mc Mc05 45.0 86.0 15.00 6.5
Mc Mc06 51.0 93.0 19.00 7.5
Mc Mc07 47.0 92.0 16.00 5.0
Mc Mc08 48.0 89.0 18.00 6.5
Mc Mc09 47.0 91.0 17.5 6.0
Mc Mc10 50.0 91.0 17.0 7.2
Mc Mc11 48.0 91.0 19.0 7.6
Mc Mc12 49.0 93.0 17.5 7.0
Mc Mc13 49.0 87.0 17.0 6.5
Mc Mc14 49.0 91.0 19.0 7.7
Pr Pr01 37.0 88.0 17.0 3.9
Pr Pr02 43.0 79.0 14.0 4.0
Pr Pr03 43.0 84.0 19.0 4.2
Pr Pr04 42.0 80.0 17.0 5.2
Pr Pr05 39.0 83.0 12.0 4.5
Pr Pr06 39.0 87.0 15.0 4.5
Pr Pr07 40.0 86.0 18.0 4.5
Pr Pr08 34.0 77.0 16.0 4.8
Pr Pr09 35.0 82.0 15.0 4.6
Pr Pr10 45.0 88.0 17.0 4.9
Pr Pr11 33.0 80.0 15.0 3.9
Pr Pr12 42.0 85.0 13.0 4.0
216
Matriz de dados 6.1. Dados estratigráficos (KRUMBEIN, 1962; IMBRIE, 1963; KRUMBEIN &
GRAYBILL,
1965, caps. 14 e 15).
Codigo Casos total arenito folhelho nclástico carbonato evaporito
1001 10 845 266 350 229 24 205
1004 9 906 337 432 137 60 77
1006 8 844 451 311 82 42 40
1007 7 447 293 116 38 12 26
1009 23 1001 348 450 203 17 186
1010 22 933 275 435 223 41 182
1012 19 374 240 110 24 24 0,0001
1014 1 608 365 148 95 20 75
1015 2 640 224 304 112 14 98
1017 20 614 255 272 87 28 59
1019 11 915 265 355 265 43 222
1020 12 1139 179 643 317 20 297
1021 21 702 237 341 124 39 85
1023 3 464 104 242 118 18 100
2002 13 1118 180 568 370 0,0001 370
2003 14 1224 207 758 259 11 248
2004 24 1204 277 610 317 10 307
2005 25 1144 310 520 314 12 302
2006 26 1048 362 510 176 12 164
2008 15 1162 130 659 373 13 360
2009 16 1003 224 542 237 21 216
2011 17 721 229 400 92 12 80
2012 18 775 223 477 75 28 47
2015 28 1023 295 501 227 18 209
2016 27 1114 246 528 340 32 308
2017 29 955 267 502 186 24 162
2019 4 532 157 238 137 0,0001 137
2021 5 562 120 316 126 0,0001 126
2031 30 1005 271 637 97 8 89
2034 6 530 30 461 39 0,0001 39
8001 31 1126 270 558 298 68 230
217
14 3.74 5.134 J1 floresta 0.772 0 8.16 0 30.16 0
15 1.678 2.327 J3 pradaria 1.188 1 31.36 0 72.4 1
16 4.399 3.18 J4 pradaria 1.615 1 91.2 1 108.8 1
17 3.935 4.368 J3 pradaria 3.023 1 19.72 0 45.6 0
18 3.33 1.604 J3 pradaria 2.315 1 113.12 1 144.36 1
19 3.557 2.64 J2 floresta 2.65 1 12.3 0 54.4 1
20 1.376 0.945 J1 pradaria 3.78 1 32.76 0 94.4 1
21 2.024 2.251 J3 pradaria 1.805 1 55.6 1 142 1
22 3.31 4.594 Q pradaria 1.58 1 56.4 1 93.6 1
23 4.097 1.798 J2 lavoura 1.93 1 19.3 0 46.4 0
24 2.326 3.633 J1 pradaria 0.415 0 18.32 0 31.92 0
25 3.514 4.098 J3 pastagem 0.675 0 9.24 0 27.24 0
26 3.168 4.173 J1 pradaria 0.745 0 8.52 0 30.28 0
27 4.292 1.039 Q pradaria 1.42 1 18.8 0 36.48 0
28 2.834 0.988 J3 pastagem 1.425 1 13.32 0 53.6 1
29 4.443 1.723 Q pastagem 1.31 1 17.7 0 48.4 0
30 3.482 2.295 J2 pastagem 1.765 1 127 1 300 1
31 3.665 4.789 J1 pradaria 0.647 0 9.76 0 21.76 0
32 4.173 2.144 J2 pastagem 1.81 1 17.9 0 48.8 0
33 2.143 1.139 J1 pradaria 0.394 0 39.56 0 105.6 1
34 3.061 2.025 J2 pradaria 1.6 1 20.6 0 35.75 0
35 2.985 1.679 J2 pradaria 1.675 1 22.92 0 61.44 1
36 3.438 3.752 J2 pastagem 1.28 1 13.04 0 43.6 0
37 4.637 0.956 J2 pradaria 0.87 1 16.5 0 35.32 0
38 3.049 5.285 J2 floresta 0.8 0 7.68 0 48.4 0
39 1.106 1.366 J1 pradaria 0.475 0 22.68 0 55.2 1
40 3.633 2.986 J2 pradaria 0.855 1 25.5 0 51.6 1
41 3.708 3.331 J2 pradaria 1.34 1 10.32 0 41.2 0
42 2.909 1.334 J1 pradaria 1.805 1 28.92 0 74.36 1
43 2.102 2.597 J2 pradaria 0.825 1 31.2 0 70.4 1
44 1.797 1.215 J1 pradaria 0.545 0 33.08 0 58 1
45 3.255 1.253 J3 pradaria 1.78 1 154.6 1 239.96 1
46 4.129 3.601 J2 floresta 2.566 1 7.88 0 55.2 1
47 3.363 3.407 J2 pastagem 0.61 0 7.86 0 34.84 0
48 1.452 1.29 J1 pradaria 0.585 0 15.16 0 56.4 1
49 4.745 3.105 J1 floresta 1.436 1 14.2 0 32.68 0
50 0.491 1.862 J3 floresta 2.415 1 21.32 0 48.4 0
51 2.369 2.176 Q pradaria 0.75 0 73.12 1 139.16 1
52 3.676 1.528 J3 pradaria 0.805 1 38.72 0 88.32 1
53 1.257 2.057 J3 pastagem 0.65 0 12.8 0 41.6 0
54 3.903 2.565 J2 floresta 0.51 0 5.96 0 62.4 1
55 1.603 1.981 J2 lavoura 0.705 0 16.04 0 38.24 0
56 3.395 5.21 J3 pradaria 1.112 1 13.12 0 25.56 0
57 2.564 1.409 J1 lavoura 1.31 1 117.6 1 152.8 1
58 0.912 2.132 J2 pastagem 2.2 1 11.88 0 51.6 1
59 3.093 3.828 J3 pradaria 0.45 0 11.5 0 30.92 0
60 0.836 1.787 J3 pradaria 0.825 1 12.96 0 50 0
61 2.758 0.643 J2 floresta 1.245 1 13.08 0 88 1
62 3.017 3.482 J2 pastagem 1.09 1 8.8 0 26.32 0
63 3.212 2.716 J3 pradaria 0.78 0 29.8 0 60.4 1
64 4.022 1.453 J2 pastagem 1.95 1 22.6 0 52 1
65 4.054 3.256 J2 pradaria 1.31 1 21.16 0 52.8 1
66 2.521 2.867 J2 pastagem 1.585 1 11.4 0 39.36 0
67 3.319 4.864 J1 pastagem 0.52 0 6.04 0 21.12 0
218
68 2.823 4.249 J1 floresta 1.005 1 7.08 0 35.4 0
69 1.722 0.869 J1 pradaria 0.57 0 21.36 0 67.2 1
70 2.251 3.288 Q pradaria 0.33 0 5.72 0 18.68 0
71 1.182 1.711 J3 pastagem 2.535 1 8.72 0 55.6 1
72 1.83 3.018 J3 pradaria 2.685 1 32.68 0 69.32 1
73 3.752 1.874 J2 pastagem 0.69 0 20.8 0 55.6 1
74 2.218 1.485 J1 pastagem 0.375 0 19.36 0 45.2 0
75 1.873 1.56 J3 pradaria 1.955 1 26.08 0 60.4 1
76 3.6 1.183 J2 pradaria 1.185 1 22.72 0 49.72 0
77 2.887 4.889 J1 floresta 1.325 1 5.4 0 37.52 0
78 1.527 1.636 J3 pradaria 0.795 0 42 0 84.8 1
79 1.333 2.407 J2 pradaria 1.63 1 20.56 0 46 0
80 2.413 0.718 J3 pradaria 0.677 0 11.92 0 38.16 0
81 1.948 1.906 J3 pradaria 1.298 1 22.44 0 45.6 0
82 1.754 2.672 J2 pradaria 1.53 1 16.24 0 43.6 0
83 2.294 1.83 J2 pastagem 0.67 0 8.72 0 32.76 0
84 2.639 1.755 J3 floresta 1.01 1 5.96 0 67.36 1
85 1.905 3.363 J1 pradaria 0.5 0 16.68 0 39.76 0
86 2.175 2.942 J3 pastagem 1.665 1 37 0 43.8 0
87 2.791 2.446 J2 pradaria 1.52 1 16.32 0 57.52 1
88 2.866 2.791 J2 pradaria 1.315 1 14 0 45.96 0
89 3.407 1.953 J2 pastagem 1.325 1 9.92 0 38.4 0
90 3.946 1.107 J2 pastagem 0.495 0 7.52 0 33 0
91 2.452 3.995 J1 pradaria 0.395 0 12.72 0 28.24 0
92 2.747 3.903 J1 pastagem 0.38 0 3.55 0 21.12 0
93 3.287 3.061 Q pradaria 2.085 1 39 0 52.4 1
94 4.367 1.377 Q pradaria 2.61 1 24 0 47.2 0
95 4.713 1.302 J2 pradaria 0.845 1 10.28 0 33.64 0
96 4.248 2.489 J4 floresta 1.22 1 5.52 0 48.8 0
97 3.784 3.677 J2 floresta 0.64 0 6.68 0 34.32 0
98 4.324 2.835 J2 floresta 1.65 1 8.88 0 60 1
99 3.859 4.022 J3 pradaria 1.433 1 43.6 0 60.8 1
100 2.593 3.312 J3 pradaria 0.325 0 8.08 0 26.2 0
Matriz de dados 8.1. Teores dos óxidos CaO, MgO, SiO2, Fe2O3, P2O5, MnO, SrO, S,
MnO e perda ao fogo (PF) (LANDIM, FERREIRA & BETTENCOURT, 2010) .
Furo Unidade X Y CaO MgO SiO2 Al2O3 Fe2O3 P2O5 SrO S MnO PF
05F CBF 790336.766 265354.5738 49.150 3.643 0.573 0.078 4.373 4.070 0.650 0.193 0.143 37.875
06F CBF 790355.0464 265242.683 43.529 6.934 0.399 0.371 7.704 5.201 0.584 0.229 0.176 35.443
07F CBF 790365.8315 265220.596 45.286 5.373 0.583 0.313 7.874 5.976 0.609 0.360 0.164 33.643
08F CBF 790377.1039 265198.3276 45.775 4.000 1.190 0.375 7.975 7.540 0.555 0.295 0.135 31.660
111F CBF 790410.5716 265273.5501 48.700 4.121 0.441 0.191 4.621 4.427 0.690 0.384 0.146 36.486
115F CBF 790295.576 265237.0378 45.010 6.585 0.565 0.420 5.900 6.465 0.645 0.285 0.155 34.155
116F CBF 790282.8074 265221.9122 43.682 7.372 0.610 0.332 6.113 7.047 0.595 0.257 0.150 33.628
117F CBF 790258.5078 265227.702 45.836 5.990 0.480 0.294 5.962 5.634 0.648 0.336 0.158 35.286
118F CBF 790303.0444 265205.5345 45.710 4.150 2.180 1.280 6.517 4.660 0.597 0.320 0.140 34.163
120F CBF 790288.4736 265238.7317 46.451 5.373 0.590 0.386 5.859 5.909 0.651 0.334 0.151 34.741
121F CBF 790404.3505 265304.2823 49.640 3.784 0.434 0.188 3.812 5.508 0.690 0.406 0.130 35.220
126F CBF 790400.4614 265323.9046 47.429 3.697 0.419 0.283 7.586 4.469 0.643 0.400 0.153 34.800
129F CBF 790237.546 265242.3255 43.290 7.285 0.490 0.238 7.190 7.528 0.555 0.290 0.160 32.735
130F CBF 790215.9311 265269.3777 46.345 4.808 1.968 1.143 4.980 5.328 0.660 0.340 0.135 34.628
134F CBF 790386.8723 265344.5345 46.571 4.706 0.566 0.341 7.284 5.876 0.596 0.214 0.146 34.271
219
135F CBF 790403.1756 265356.4009 47.680 2.670 0.870 0.210 4.980 7.800 0.460 0.230 0.110 34.030
139F CBF 790373.3914 265368.4275 49.740 3.398 0.428 0.222 4.014 5.192 0.692 0.348 0.128 35.580
140F CBF 790267.3233 265330.1964 49.090 3.920 0.600 0.140 4.730 4.380 0.720 0.500 0.130 36.290
142F CBF 790221.8056 265288.646 48.589 4.574 0.401 0.229 5.646 6.490 0.634 0.359 0.141 32.497
146F CBF 790249.5974 265335.146 48.709 3.853 0.429 0.146 4.814 4.464 0.696 0.274 0.139 36.656
147F CBF 790239.4874 265311.6 46.786 5.663 0.341 0.131 4.387 4.944 0.643 0.241 0.137 37.044
149F CBF 790182.9489 265297.624 46.035 6.260 0.443 0.230 5.158 6.613 0.635 0.320 0.143 34.705
158F CBF 790257.9578 265354.2415 48.400 4.062 0.592 0.096 4.312 5.184 0.694 0.356 0.132 35.520
160F CBF 790226.9237 265346.302 47.843 3.974 0.444 0.190 6.281 4.060 0.670 0.270 0.144 36.394
162F CBF 790176.1688 265321.0418 47.541 4.721 0.543 0.289 5.357 5.710 0.649 0.306 0.139 34.704
225F CBF 790264.7943 265381.9099 48.000 4.222 0.896 0.130 4.976 5.398 0.680 0.474 0.136 34.780
233F CBF 790409.9352 265244.2395 46.214 5.361 0.441 0.316 6.223 5.523 0.659 0.311 0.161 34.800
234F CBF 790421.7405 265220.2972 49.000 3.605 0.400 0.210 5.015 5.285 0.650 0.285 0.140 35.500
256F CBF 790345.2308 265242.843 39.475 11.880 0.330 0.250 4.705 6.800 0.504 0.199 0.155 35.488
257F CBF 790315.5576 265361.9837 48.629 3.761 0.510 0.089 4.857 3.591 0.670 0.411 0.134 37.200
261F CBF 790235.9653 265366.9188 48.014 3.877 0.594 0.083 5.686 5.330 0.646 0.373 0.134 35.000
262F CBF 790292.2312 265371.6455 50.300 3.673 0.593 0.091 3.681 4.623 0.706 0.366 0.130 36.886
282F CBF 790211.1295 265245.335 48.620 3.380 0.820 0.220 6.290 5.850 0.640 0.420 0.130 33.930
28F CBF 790296.9385 265318.5696 48.170 3.730 0.410 0.130 4.680 4.830 0.680 0.230 0.130 36.680
31F CBF 790337.2959 265223.2882 42.782 6.274 0.840 0.512 9.116 5.914 0.604 0.246 0.172 33.522
32F CBF 790351.2113 265218.6836 46.761 4.836 0.313 0.223 6.483 5.401 0.629 0.264 0.157 35.297
01N CBN 790219.8385 265456.1197 47.168 3.712 0.918 0.060 6.428 6.638 0.630 0.404 0.124 33.788
02N CBN 790250.3006 265507.4621 43.497 5.547 5.843 0.799 6.563 4.613 0.490 0.200 0.137 31.899
03N CBN 790259.3306 265481.6155 44.810 3.911 0.827 0.173 12.246 8.850 0.577 0.333 0.143 28.373
04N CBN 790275.0552 265458.0606 48.420 3.383 0.394 0.064 6.959 6.719 0.639 0.340 0.130 33.374
153N CBN 790219.3081 265624.3257 41.834 6.074 0.634 0.213 11.761 7.147 0.530 0.226 0.157 31.210
159N CBN 790228.3696 265610.6935 49.540 4.250 0.223 0.070 2.520 5.040 0.627 0.257 0.123 37.827
177N CBN 790253.0228 265557.8403 44.940 7.630 0.530 0.170 3.450 5.270 0.530 0.270 0.130 37.110
180N CBN 790213.2072 265479.851 44.533 5.965 2.955 0.192 5.895 5.380 0.590 0.398 0.135 33.200
181N CBN 790307.7232 265498.4849 48.933 3.386 0.293 0.050 5.491 5.597 0.659 0.360 0.116 34.950
182N CBN 790310.3341 265531.5845 48.014 3.777 1.364 0.269 3.941 6.440 0.620 0.263 0.104 35.229
189N CBN 790280.5507 265552.0877 45.850 4.602 0.715 0.227 8.193 7.523 0.562 0.345 0.137 31.642
192N CBN 790269.1942 265575.0211 44.040 4.424 0.972 0.382 12.454 7.254 0.478 0.340 0.168 29.400
193N CBN 790299.0035 265581.1476 48.557 3.984 0.447 0.086 4.233 5.834 0.606 0.304 0.129 36.057
195N CBN 790269.346 265521.0303 48.517 3.718 0.547 0.140 6.515 6.152 0.580 0.312 0.125 34.213
197N CBN 790256.3818 265596.1975 45.500 4.143 0.753 0.483 10.723 6.145 0.525 0.363 0.163 31.875
198N CBN 790287.5296 265603.2798 45.716 4.043 0.633 0.113 9.107 7.510 0.560 0.359 0.139 31.529
203N CBN 790250.8883 265611.5217 47.143 4.497 0.573 0.266 6.316 5.674 0.563 0.284 0.147 34.971
204N CBN 790295.0701 265470.8839 50.220 3.812 0.508 0.087 2.740 3.215 0.733 0.373 0.117 37.843
205N CBN 790275.1001 265625.055 45.857 6.814 0.930 0.161 3.289 5.066 0.603 0.259 0.137 37.114
208N CBN 790243.3695 265636.8618 48.114 4.037 0.467 0.124 6.437 5.843 0.659 0.310 0.151 34.829
209N CBN 790256.0752 265644.0958 47.733 5.125 0.640 0.095 3.868 6.398 0.625 0.143 0.135 35.735
20N CBN 790143.859 265606.2149 48.042 4.323 0.868 0.092 4.775 6.082 0.662 0.263 0.135 35.245
21N CBN 790147.8956 265572.3116 44.285 4.030 0.668 0.173 12.988 8.683 0.575 0.300 0.170 28.315
22N CBN 790165.6153 265546.5723 49.040 4.678 0.250 0.066 2.878 5.326 0.670 0.282 0.126 37.248
230N CBN 790146.2025 265597.5671 47.657 4.162 0.778 0.100 5.575 6.752 0.623 0.252 0.130 33.708
23N CBN 790197.8799 265500.1982 47.162 5.410 2.173 0.157 4.357 6.343 0.617 0.273 0.127 33.320
245N CBN 790239.3459 265628.349 40.764 6.260 0.784 0.278 12.836 7.100 0.522 0.172 0.164 30.802
248N CBN 790163.8539 265624.4107 45.037 5.282 0.443 0.135 7.303 5.923 0.608 0.200 0.148 35.398
249N CBN 790167.7598 265610.5195 46.280 4.448 0.607 0.205 7.497 6.077 0.618 0.252 0.152 34.380
24N CBN 790208.9623 265478.1797 50.417 3.116 0.354 0.050 3.380 6.206 0.670 0.264 0.111 35.900
250N CBN 790219.1768 265516.8922 44.338 5.774 0.512 0.108 7.352 8.090 0.514 0.266 0.126 32.468
251N CBN 790223.5913 265497.3779 46.663 5.152 0.603 0.188 4.513 6.377 0.617 0.308 0.125 36.127
252N CBN 790242.9795 265470.0058 41.909 7.913 0.534 0.214 8.807 7.919 0.521 0.274 0.147 31.716
220
253N CBN 790253.9778 265449.783 44.790 3.621 0.766 0.304 11.913 6.639 0.581 0.266 0.143 31.169
25N CBN 790219.2885 265456.912 43.290 5.146 1.473 0.219 11.514 5.699 0.581 0.221 0.160 32.217
26N CBN 790223.2727 265441.1552 43.033 7.123 1.028 0.110 5.975 8.413 0.520 0.145 0.123 33.203
311N CBN 790241.7395 265523.8196 47.887 4.151 0.299 0.089 3.931 5.664 0.561 0.309 0.117 36.659
05R CBR 790331.9359 265356.8555 50.467 3.527 0.170 0.000 2.527 2.777 0.723 0.203 0.130 40.067
115R CBR 790308.5022 265226.5087 37.962 13.174 0.618 0.552 4.234 5.372 0.490 0.194 0.156 37.856
120R CBR 790289.36 265238.1324 48.080 4.760 1.090 0.210 4.450 3.650 0.690 0.350 0.140 37.240
121R CBR 790409.59 265300.62 48.200 3.955 0.475 0.160 5.610 5.120 0.655 0.310 0.140 35.450
125R CBR 790419.4187 265333.7415 47.578 3.794 0.560 0.178 4.568 5.764 0.660 0.278 0.118 36.356
127R CBR 790276.0008 265268.6881 45.209 6.377 0.691 0.237 4.040 4.094 0.619 0.277 0.141 38.330
130R CBR 790220.1745 265266.3275 44.170 5.795 2.550 1.490 5.555 7.320 0.600 0.330 0.130 32.360
132R CBR 790253.1782 265279.7257 43.519 8.913 0.419 0.190 3.964 4.833 0.587 0.266 0.143 36.954
140R CBR 790272.4731 265325.0938 48.530 4.023 0.478 0.215 4.716 4.735 0.681 0.290 0.135 36.479
141R CBR 790262.7211 265302.4015 46.773 4.703 0.571 0.186 5.239 4.813 0.654 0.259 0.139 37.477
158R CBR 790246.1206 265363.8835 49.200 3.515 0.315 0.000 3.790 3.830 0.680 0.260 0.130 37.900
223R CBR 790349.6598 265354.6945 48.289 3.766 0.223 0.100 4.277 4.281 0.683 0.309 0.127 37.924
254R CBR 790305.8446 265339.71 48.257 4.414 0.316 0.116 4.273 4.270 0.691 0.379 0.136 36.914
255R CBR 790328.064 265327.6803 48.744 3.604 0.701 0.231 3.014 2.660 0.720 0.217 0.113 40.314
27R CBR 790281.7358 265346.9323 47.557 4.010 0.480 0.161 5.973 4.327 0.686 0.336 0.143 35.800
28R CBR 790294.4998 265320.2417 49.150 3.552 0.447 0.100 3.502 3.263 0.687 0.250 0.118 39.073
30R CBR 790300.8495 265265.4571 43.674 5.995 1.110 0.363 6.866 6.010 0.584 0.224 0.151 34.646
313R CBR 790330.7541 265273.7652 47.321 4.269 0.330 0.220 4.846 4.549 0.667 0.319 0.133 37.196
314R CBR 790355.5347 265265.2112 42.143 9.023 0.308 0.134 4.364 6.193 0.558 0.254 0.141 37.016
315R CBR 790375.3054 265311.1251 47.063 3.881 0.636 0.171 5.344 5.390 0.664 0.350 0.127 36.209
316R CBR 790364.3355 265284.3547 47.536 3.789 0.491 0.190 5.591 6.054 0.651 0.340 0.129 34.713
36R CBR 790377.1098 265254.2877 42.021 9.926 0.526 0.233 2.991 4.966 0.566 0.261 0.134 38.693
Matriz de dados 9.1. Espessuras de uma jazida de carvão (CAVA, 1985 e LANDIM, 2003)
ID X Y ESPESSURA
1 1 5 0.8
2 2 5 0.72
3 4 5 0.69
4 3 4.5 0.8
5 4.5 4.5 0.73
6 0.5 4 1.19
7 1.5 4 0.94
8 2.5 4 0.96
9 3.5 4 1.05
10 5 4 1.32
11 1 3.5 1.02
12 2 3.5 1.2
13 3 3.5 1.1
14 4 3.5 1.18
15 6 3.5 1.3
16 1.5 3 1.55
17 2.5 3 1.57
18 3.5 3 1.3
19 5 3 1
20 0.5 2.5 1.18
21 1.5 2.5 1.4
22 2 2.5 1.3
23 2.5 2.5 1.5
24 4 2.5 1.4
221
25 1.5 2 1.85
26 2.5 2 1.2
27 3 2 1.23
28 4 2 1.3
29 0.5 1.5 1.62
30 1.5 1.5 2.09
31 2 1.5 1.6
32 2.5 1.5 1.4
33 3 1.5 1.41
34 3.5 1.5 1.38
35 4 1.5 1.04
36 2 1 1.31
37 3.5 1 1.28
38 2.5 0.5 0.55
222
86 255017 353403 870 279 35 60 663
87 256316 353158 451 243 177 1 613
90 257438 355474 760 248 125 47 506
92 258000 356737 580 186 117 0 552
96 258386 355228 480 336 58 32 652
99 259123 354982 600 567 366 37 353
202 250175 355017 239 1297 1307 839 573
203 250210 355579 610 372 417 185 440
204 251895 356807 352 254 172 158 657
205 252561 357052 716 536 404 379 485
206 251052 356281 472 677 289 37 441
207 250421 354737 244 621 580 500 489
208 250666 355298 328 181 171 92 474
209 250456 353895 367 231 323 240 532
210 250386 353368 388 183 76 82 626
211 251789 356035 1080 395 383 71 587
212 251930 355544 357 85 173 144 603
213 252702 356351 429 691 431 855 405
214 252351 354702 215 220 437 203 437
215 252702 354877 690 121 173 18 564
216 250245 352035 1113 189 227 53 660
217 251298 352456 787 243 90 3 654
218 252000 353754 2994 485 228 181 635
219 250140 354561 167 762 139 871 465
220 253403 359158 3655 2482 1047 1081 264
221 254456 357438 477 209 137 3 522
222 253544 357544 642 259 194 216 634
223 253158 356947 326 254 371 435 485
224 253509 356035 1155 130 138 77 411
225 253263 355474 372 133 227 58 472
226 253684 355579 436 113 158 85 545
227 253965 355895 367 124 154 226 581
228 252526 352245 836 268 342 177 750
229 255684 351684 557 536 162 205 666
230 257544 352456 664 203 318 21 546
231 255193 352351 626 178 448 124 508
232 254561 353333 334 175 81 435 745
233 254456 353965 690 790 514 2903 687
234 253579 354807 433 158 278 132 670
235 255403 356947 523 155 70 65 668
236 255649 357088 601 1354 1144 1387 586
237 254877 356175 400 118 96 248 207
238 255158 356386 438 141 135 68 535
239 254772 355193 600 324 274 500 558
241 260210 357193 231 79 24 61 514
223
242 259754 357509 136 65 10 71 445
243 254105 359333 1529 874 515 435 776
244 255859 355824 323 265 336 250 476
245 254912 354702 692 310 173 131 608
246 254631 356351 564 127 151 131 519
247 254947 357193 454 282 372 166 532
248 250596 355789 526 195 384 500 415
249 248877 352947 408 107 170 52 560
250 258561 357614 187 268 279 324 579
251 258842 357368 203 93 15 35 467
252 259088 356842 128 104 7 66 414
253 259438 356175 249 90 66 61 619
254 260000 355509 295 116 75 29 600
255 260105 355509 293 124 72 66 672
256 259614 356140 236 130 75 35 520
257 259438 355930 243 144 99 140 613
258 259193 356000 59 96 9 66 237
259 258456 353824 723 262 173 190 740
260 255403 353438 647 141 62 44 760
261 256140 353965 675 931 365 452 620
262 256035 354070 1047 3328 749 1516 617
263 256105 354281 1721 3159 1450 1242 740
264 255930 354737 451 333 204 250 550
265 256000 354526 567 152 43 9 697
266 256000 355052 533 1297 1784 532 486
267 256456 354877 1278 564 113 182 739
268 256526 355263 526 527 439 282 581
269 256316 354105 877 6770 1117 1048 567
270 257088 354702 1169 1326 675 726 452
271 257754 354386 449 214 50 139 842
272 257158 353789 367 259 12 187 573
273 252877 351684 652 164 24 4 723
274 255930 352631 470 305 105 150 530
275 256316 352316 516 282 25 105 662
276 256737 351895 531 480 71 176 615
277 256877 352596 606 361 119 113 736
278 257965 352210 375 203 37 113 760
279 258526 352631 688 592 134 118 692
280 259614 350912 434 152 23 13 583
402 256631 350421 150 115 14 22 211
404 256982 350526 308 188 19 32 399
406 254281 359684 853 623 151 60 692
407 254807 359474 2081 745 399 106 757
408 257088 359052 551 268 140 113 711
410 260666 354386 272 107 25 74 530
224
411 261333 353579 214 199 93 30 209
415 248631 355824 470 244 34 8 612
420 254702 350947 390 209 46 14 340
421 255859 350842 353 188 45 23 339
423 260421 354245 262 88 32 29 352
424 258596 351298 365 232 79 81 445
425 258596 351088 819 91 21 11 812
427 259649 351333 433 162 10 30 534
430 248702 357017 725 241 324 34 464
432 260596 352807 338 161 19 25 689
433 260386 352351 280 107 82 24 524
434 260772 352456 292 79 16 13 524
435 260456 351859 421 64 10 5 581
438 256035 359298 430 152 60 30 487
439 253719 351474 714 128 25 0 709
440 254140 351228 636 127 58 7 729
441 256702 351298 956 166 67 8 875
442 258561 352175 607 832 50 75 838
443 259649 354386 549 378 65 33 569
444 259649 353333 351 157 27 36 442
446 256526 354175 651 255 28 33 887
447 256105 353438 974 533 189 107 548
452 252631 352281 838 338 351 105 774
453 251579 354386 1123 276 92 17 752
457 250666 350631 566 93 3 1 568
458 255509 351438 526 195 18 22 670
463 248947 350386 231 241 67 31 366
514 254737 356035 558 161 133 27 497
522 253824 356281 1149 181 95 32 600
523 252702 353579 650 302 299 34 860
524 252842 354982 918 248 228 21 679
525 251754 355649 503 126 138 48 554
530 256140 353614 643 454 356 62 742
534 257509 353123 310 277 162 100 604
535 257754 352281 625 725 286 105 568
536 255824 351719 529 236 111 42 431
539 257509 354912 600 685 226 150 375
540 256491 354105 520 224 46 63 806
573 259298 355789 96 195 20 19 280
574 258561 356105 652 914 189 29 515
575 258842 355193 875 426 261 30 514
583 248947 357895 305 2350 269 284 415
589 256316 352316 501 205 39 24 679
591 250421 357403 572 412 418 20 228
225
Matriz de dados 11.1. Valores em mg/L (Queiroz, 2003)
No. Amostra X(UTM) Y(UTM) Fe Mn As Al Se Pb Cu Cd
1 EL-01 478.3 994.15 0.11650 0.0341 < LD 0.368 < LD 0.0097 < LD < LD
2 EL02 478.52 994.09 0.58765 0.0314 < LD 0.426 0.0321 0.0262 0.00547 < LD
3 EL-03 478.12 994.44 12.26500 0.0862 < LD 0.867 0.0341 0.0265 0.00650 0.00080
4 EL-04 477.75 994.3 0.80137 0.0926 < LD 0.672 0.0339 0.0262 0.00672 0.00023
5 EL-05 477.99 994.8 0.29743 0.0052 < LD 0.851 0.0342 0.0256 0.01003 < LD
6 EL-06 478.03 994.84 0.07179 0.0064 < LD 0.156 < LD 0.0085 < LD 0.00022
7 EL-07 478.75 995.55 12.81900 0.4187 < LD 0.217 0.0336 0.0253 0.00348 0.00056
8 EL-08 478.16 995.22 0.09604 0.0039 < LD 0.021 0.0335 0.0261 0.03419 < LD
9 EL-09 478.62 995.69 0.83601 0.0391 < LD 13.007 < LD 0.0096 < LD 0.00043
10 EL-10 478.71 995.76 0.18773 0.0152 < LD 0.225 0.0334 0.0250 0.00344 < LD
11 EL-11 479.65 996.06 0.07150 0.0140 < LD 0.120 < LD 0.0106 < LD 0.00090
12 STN-01 480.92 996.14 0.01392 0.0108 < LD 0.362 < LD 0.0107 < LD < LD
13 STN-02 480.98 995.15 0.00829 0.0050 < LD 0.195 < LD 0.0100 < LD < LD
14 STN-03 480.3 994.68 0.49047 0.0194 < LD 10.851 < LD 0.0154 < LD 0.00031
15 STN-04 480.44 994.26 0.03515 0.0665 < LD 0.762 0.0328 0.0261 0.00218 < LD
16 STN-05 481.54 995.23 0.03505 0.0164 < LD 0.210 < LD 0.0090 < LD < LD
17 STN-06.1 481.3 994.5 0.04155 0.0226 < LD 0.287 < LD 0.0100 < LD < LD
18 STN-06.2 481.305 994.505 23.44100 11.9860 0.0128 0.215 0.0344 0.0272 0.00638 0.00138
19 STN-07 481.51 994.36 0.01077 0.0037 < LD 0.111 < LD 0.0101 < LD < LD
20 STN-08 481.96 995.06 0.29245 0.0090 < LD 0.155 < LD 0.0094 < LD < LD
21 STN-09 482.09 995.1 0.06507 0.0057 < LD 0.264 < LD 0.0109 < LD < LD
22 STN-10 482.1 995.47 0.05772 0.0070 < LD 0.109 < LD 0.0091 < LD < LD
23 STN-11 482.1 995.71 0.08928 0.0436 < LD 0.367 < LD 0.0098 < LD < LD
24 STN-12 480.33 994.25 0.08941 0.0162 < LD 0.369 0.0338 0.0273 0.02686 0.00006
25 STN-13 480.86 994.28 17.55400 0.3536 < LD 0.558 0.0339 0.0267 0.00562 0.00051
26 STN-14 480.93 994.76 0.09411 0.0540 < LD 0.254 0.0341 0.0265 0.00757 < LD
27 STN-15 481.03 995.3 0.01638 0.0016 < LD 0.090 < LD 0.0080 < LD < LD
28 STN-16 480.47 995.5 0.04004 0.0335 < LD 0.575 < LD 0.0109 < LD < LD
29 STN-17 480.6 995.34 0.12924 0.0173 < LD 0.205 < LD 0.0090 < LD < LD
30 STN-18 480.92 995.5 0.14526 0.0200 < LD 0.330 < LD 0.0127 < LD < LD
31 STN-19 481.58 995.75 0.00571 0.0126 < LD 0.040 < LD 0.0095 < LD < LD
32 STN-20 480.33 994.27 0.03577 0.0159 < LD 0.767 < LD 0.0123 < LD < LD
33 PM-02 479.89 993.86 72.25700 0.4187 < LD 21.777 0.0336 0.0253 0.00527 0.00244
34 PM-04 479.52 993.8 0.04456 51.4410 < LD 0.088 0.0392 0.0264 0.00235 < LD
35 PM-11 479.91 994.19 0.89852 0.0302 < LD 14.031 0.0355 0.0290 0.00450 < LD
36 PM-14 479.21 994.25 24.15000 0.3373 22.9240 0.160 0.0331 0.0263 0.00320 0.00082
37 PM-18.A 479.52 994.33 0.31176 0.1903 0.6081 0.113 < LD 0.0092 < LD < LD
38 PM-24.A 479.32 994.33 0.46094 12.7720 10.7270 0.232 0.0361 0.0393 0.00517 0.00080
39 PM-26 479.47 994.12 0.07938 0.8195 18.1120 0.129 0.0000 0.0124 < LD < LD
40 PM-27.A 479.41 994.52 85.41300 14.8640 0.0248 0.102 0.0412 0.0350 0.00354 0.00306
41 PM-37 479.69 995.3 0.47740 0.8153 0.0013 0.317 0.0342 0.0275 0.00524 0.00065
42 ICOMI 479.91 994.06 0.00500 0.0070 0.020
43 ICOMI 479.69 994.1 0.02000 0.8260 0.009
44 ICOMI 479.9 993.71 0.02000 0.0800 0.010
45 ICOMI 479.91 993.74 < LD 0.0370 0.008
46 ICOMI 479.75 994.97 < LD 0.0070 0.014
47 ICOMI 479.82 995.34 < LD 0.0010 0.015
48 ICOMI 479.31 994.42 < LD 6.8200 0.008
49 ICOMI 479.67 995.1 <LD 0.0010 0.017
226
Tabela de dados 11.1. (Continuação)
No Sample X(UTM) Y(UTM) Ba Sr Mo Zn(x100) Co(x100) Ni(x100) Cr(x100) Ag(x1000)
1 EL-01 478.3 994.15 0.092191 0.15712 < LD < LD 0.1266 0.2241 0.0713 0.25200
2 EL02 478.52 994.09 0.114780 26.17500 12533.00000 32.11700 0.1969 < LD 0.1970 < LD
3 EL-03 478.12 994.44 0.145050 26.46300 13526.00000 34.07600 0.3513 < LD 0.2878 < LD
4 EL-04 477.75 994.3 0.142460 26.17900 13292.00000 33.91900 0.5644 < LD 0.1701 < LD
5 EL-05 477.99 994.8 0.025527 25.55100 0.17351 34.17900 0.1024 < LD 0.0903 < LD
6 EL-06 478.03 994.84 0.011847 0.00205 < LD < LD 0.0904 < LD < LD < LD
7 EL-07 478.75 995.55 0.108260 25.30500 14162.00000 33.60900 0.2034 < LD 0.1112 0.11800
8 EL-08 478.16 995.22 0.003825 26.08100 0.02419 33.53800 0.2468 < LD < LD 0.75500
9 EL-09 478.62 995.69 0.086669 0.04087 < LD < LD 0.2313 0.1544 < LD < LD
10 EL-10 478.71 995.76 0.010024 2.50300 0.09834 33.41200 0.1385 < LD 0.0540 < LD
11 EL-11 479.65 996.06 0.020496 0.01546 < LD < LD 0.1331 0.1481 0.0327 0.16400
12 STN-01 480.92 996.14 0.100110 0.03525 < LD < LD < LD 0.1117 < LD < LD
13 STN-02 480.98 995.15 0.043718 0.00875 < LD < LD < LD < LD < LD 0.20500
14 STN-03 480.3 994.68 0.076806 0.05146 < LD 56.52400 0.2356 0.3162 0.0383 < LD
15 STN-04 480.44 994.26 0.078890 0.05096 < LD 29.07800 0.1274 < LD < LD 0.42900
16 STN-05 481.54 995.23 0.028611 0.01034 < LD < LD < LD < LD < LD < LD
17 STN-06.1 481.3 994.5 0.028787 0.03599 < LD < LD 0.0871 < LD < LD < LD
18 STN-06.2 481.305 994.505 0.166270 0.20905 < LD 42.25900 0.5293 0.6248 0.2640 0.30700
19 STN-07 481.51 994.36 0.014461 0.00114 < LD < LD 0.1203 < LD < LD < LD
20 STN-08 481.96 995.06 0.008233 < LD < LD < LD 0.1077 < LD < LD 0.12300
21 STN-09 482.09 995.1 0.037578 0.00890 < LD < LD 0.1332 < LD 0.2720 < LD
22 STN-10 482.1 995.47 0.007237 0.00101 < LD < LD 0.1504 < LD < LD < LD
23 STN-11 482.1 995.71 0.026344 0.04903 < LD < LD 0.1331 0.1739 0.0539 0.08900
24 STN-12 480.33 994.25 0.052630 0.01049 < LD 4.31300 0.1151 < LD 0.0403 0.44000
25 STN-13 480.86 994.28 0.124270 0.16663 < LD 3.85700 0.3534 < LD 0.2708 < LD
26 STN-14 480.93 994.76 0.045176 0.01191 < LD 58.21900 0.1200 0.5493 0.1109 0.18900
27 STN-15 481.03 995.3 0.017184 0.00252 < LD < LD 0.1350 < LD 0.1261 < LD
28 STN-16 480.47 995.5 0.078681 0.05520 < LD < LD 0.1984 0.2763 < LD 1.30500
29 STN-17 480.6 995.34 0.036680 0.01277 < LD < LD 0.1995 < LD < LD 0.10400
30 STN-18 480.92 995.5 0.099789 0.03337 < LD < LD 0.2197 < LD < LD < LD
31 STN-19 481.58 995.75 0.007444 0.00459 < LD < LD < LD 0.4341 < LD 1.19200
32 STN-20 480.33 994.27 0.146770 0.02213 < LD < LD 0.2726 < LD < LD < LD
33 PM-02 479.89 993.86 0.014136 0.17306 < LD 29.10600 0.1958 0.1155 18.1490 < LD
34 PM-04 479.52 993.8 0.597380 0.93706 < LD 31.18300 16.3050 0.1678 0.3677 0.59900
35 PM-11 479.91 994.19 0.009663 < LD < LD 30.57200 0.2382 < LD 0.2295 0.08200
36 PM-14 479.21 994.25 0.045501 0.03161 0.34308 3.17100 0.0458 < LD < LD < LD
37 PM-18.A 479.52 994.33 0.005707 0.00604 0.15249 < LD 0.1663 0.1466 < LD < LD
38 PM-24.A 479.32 994.33 0.021973 0.06867 0.40726 30.56200 0.4410 0.4963 0.1584 < LD
39 PM-26 479.47 994.12 0.988510 0.43134 0.88389 < LD 0.4923 18.5190 < LD 0.22000
40 PM-27.A 479.41 994.52 0.924810 0.76909 0.02643 30.98900 2.6110 17.6580 0.7862 1.27800
41 PM-37 479.69 995.3 0.016442 0.01003 < LD 44.30600 0.4014 0.3557 0.2746 0.25900
227
REFERÊNCIAS BIBLIOGRAFICAS
AITCHISON, J. (1986) – The statistical analysis of compositional data: Chapman & Hall
CAVA, L.T., Coord. (1985) - Potencial e Perspectivas para o Carvão Mineral do Estado do
Paraná: MINEROPAR/PR.
DAVIS, J.C (1986) - Statistics and Data Analysis in Geology: 2ND. ED., JOHN WILEY AND SONS.
IMBRIE, J. (1963) – Factor and vector analysis programs for analyzing geologic data:
Office Naval Res., Geography Branch, Tech. Rept. 6, ONR Task nº 389-135
KRUMBEIN, W.C. (1962) – Open and Closed Number Systems in Stratigraphic Mapping:
Bull. Am. Ass. Petrol. Geologists, 46:2229-2245
LEITE, C.B.B. & LANDIM, P.M.B. (2003) –Relação entre mapas temáticos por meio da
Análise de Regressão Múltipla. Solos e Rochas – Revista Latino-americana de Geotecnia,
26(3):195-203
MILLER, R.L. & KAHN, J.S. (1962) - Statistical Analysis in the Geological Sciences: John
Wiley and Sons.
PACHECO, F.A.L. & LANDIM, P.M.B. (2005) - Two-Way Regionalized Classification of
Multivariate Datasets and its Application to the Assessment of Hydrodynamic Dispersion:
Mathematical Geology, v.37, no. 4, p. 393-4A7
228
QUEIROZ, J.C.B. (2003) –Utilização da geoestatística na quantificação do risco de
contaminação por metais pesados na área portuária de Santana-Amapa/Brasil: Tese de
Doutorado, Pós-Graduação em Geociências, IGCE, UNESP/Rio Claro, 199p.
RHODES, J.M. (1969) - The application of cluster and discriminatory analysis in mapping
granite intrusions: Lithos, 2:223-237.
SOARES, P.C. & LANDIM, P.M.B. (1976) - Depósitos Cenozóicos na Região centro-sul do
Brasil : Not. Geomorfológica, 16 (31): 17-39.
229