Você está na página 1de 229

Introdução à análise estatística de dados

geológicos multivariados

PAULO M. BARBOSA LANDIM


Professor Emérito da Universidade Estadual Paulista/UNESP
Professor Voluntário do Depto. Geologia Aplicada, UNESP/Rio Claro

2010

Reprodução autorizada desde que citada a fonte


Norma 6023-2000/ABNT ( http://www.abnt.org.br):
LANDIM, P.M.B. Introdução à análise estatística de dados geológicos multivariados.
DGA,IGCE,UNESP/Rio Claro, Texto Didático 15, 229 pp., 2010. Disponível em
<http://www.rc.unesp.br/igce/aplicada/textodi.html>. Acesso em:....

Dúvidas, questões, sugestões, etc. sobre o texto deverão ser encaminhadas para o endereço
plandim@rc.unesp.br, as quais serão sempre bem recebidas

1
ÍNDICE

01. INTRODUÇÃO…………………………………………………………………………….. 03

02. NOÇÕES DE ÁLGEBRA MATRICIAL……………………………………………….. 13

03. REGRESSÃO LINEAR MÚLTIPLA………………………………………………….... 34

04. ANÁLISE DE AGRUPAMENTOS......................................................... 59

05. ANÁLISE DE COMPONENTES PRINCIPAIS........................................ 77

06. ANÁLISE DE FATORES................................................................... 98

07. ANÁLISE DE CORRESPONDÊNCIAS (ANÁLISE DE ASSOCIAÇÕES)..... 111

08. ANÁLISE DISCRIMINANTE.............................................................. 124

09. INTRODUÇÃO À GEOESTATÍSTICA.................................................. 142

10. CLASSIFICAÇÃO REGIONALIZADA................................................... 169

11. GEOESTATÍSTICA MULTIVARIADA................................................... 184

12. ANEXO: MATRIZ DE DADOS ........................................................... 205

2
1. INTRODUÇÃO

A aplicação de métodos quantitativos em Geologia é muito antiga e dois


exemplos emblemáticos podem ser citados. Agrícola (1556) utilisou trigonometria
para mapeamento mineiro, como visto em seu clássico De Re Mettalica e, quando
do início da Geologia como ciência moderna, Charles Lyell em 1830 ao classificar
os estratos terciários da Bacia de Paris, o fez baseado na presença relativa de
espécies recentes de moluscos, num procedimento estratigráfico-estatístico. A
partir desse início, porém, a Geologia permanece qualitativa e puramente
descritiva e apenas nos anos 20 do século passado é que o enfoque quantitativo
começa a se tornar mais presente. Assim nessa época William C. Krumbein propõe
a amostragem geológica em bases probabilísticas e introduz os modelos
“processo-resposta”. O entendimento das relações de causa-e-efeito para a
explicação dos processos geológicos leva Andrei Vistelius, no início dos anos 40, a
iniciar a formulação da chamada Geologia Matemática. Em que pese essas
iniciativas, entre outras, a Geologia até há bem pouco tempo, era freqüentemente
considerada uma ciência baseada em interpretações puramente qualitativas dos
fenômenos geológicos. Nos últimos 40 anos, porém, tem sido notável a mudança
da fase descritiva para a utilização de métodos quantitativos, principalmente nas
diversas áreas da Geologia Aplicada. Na área mineral, com destaque para a do
petróleo, onde a interpretação geológica, alem de estar fundamentada em
conceitos científicos, precisa ter aplicação econômica, observa-se uma marcante
tendência quantitativa que vem possibilitando avanços importantes principalmente
no uso de técnicas espaciais. Um consistente relato sobre a quantificação em
Geologia encontra-se em MERRIAM (2004).
Nas últimas décadas, graças a avanços tecnológicos tanto em termos
computacionais como em equipamentos de laboratório e de campo mais
refinados, tem sido intensa a obtenção de dados geológicos quantitativos. A sua
análise, porem, esta muito aquém dessa imensa quantidade de informações
coletadas. Basta ver os relatórios de pesquisa e mesmo os bancos de dados com
um grande número de matrizes de informações não trabalhadas. Verbas e tempo
são gastos com essa coleta que precisa ser devidamente manuseada e para essa
análise dos dados o emprego de técnicas estatísticas multidimensionais torna-se

3
uma ferramenta fundamental. Isto porque, como os fenômenos geológicos são
resultantes de diversos fatores condicionantes, o seu entendimento é facilitado
quando o estudo é submetido a um tratamento quantitativo multidimensional.
Deve ser enfatizado, porem, que a pura utilização de técnicas estatísticas, e hoje
em dia bastante facilitada graças à vasta disposição de programas
computacionais, não é condição suficiente se o estudo não for embasado num
sólido conhecimento geológico.
No caso de uma única variável ter sido medida em amostras, no sentido
geológico, a análise de tais dados é feita por intermédio da estatística univariada.
Se porém valores de diversas variáveis forem obtidos em cada uma das amostras,
as técnicas para a análise desses dados são fornecidas pela estatística
multivariada ou multidimensional. Tal análise estatística de mensurações múltiplas
efetuadas sobre uma amostra fornece um melhor entendimento na razão direta do
número de variáveis utilizadas e permite considerar simultaneamente a
variabilidade existente nas diversas propriedades medidas.
Os resultados de análises de dados uni ou bi variados podem se apresentar
na forma de gráficos em 1D, 2D e mesmo 3D, de fácil compreensão. No caso
porem de, por exemplo, 10 variáveis o resultado ocorre num espaço a 10
dimensões, concebível apenas de um modo abstrato. Uma das funções, porem,
dos métodos multivariados é, ao apresentar os resultados, ser capaz de reduzir a
dimensão dos dados tornando possível um melhor entendimento gráfico a duas ou
três dimensões.
Entre os métodos mais utilizados em Geociências destacam-se a análise de
agrupamentos , a análise das componentes principais e a análise discriminante.
A análise de agrupamentos é utilizada quando se deseja explorar as
similaridades entre indivíduos (modo Q) ou entre variáveis (modo R) definindo-os
em grupos, considerando simultaneamente, no primeiro caso, todas as variáveis
observadas em cada indivíduo e, no segundo, todos os indivíduos nos quais foram
feitas as mesmas medidas. Segundo esse método, procura-se por agrupamentos
homogêneos de itens representados por pontos num espaço n-dimensional em um
número conveniente de grupos relacionando-os através de coeficientes de
similaridade ou de distância.

4
A análise das componentes principais procura interpretar a estrutura de um
conjunto de dados multivariados, tanto em modo “Q” como em modo “R”, a partir
da respectiva matriz de variâncias-covariâncias ou de correlações, pela obtenção
de “autovalores” e “autovetores”. Consiste numa transformação linear das "m"
variáveis originais correlacionadas entre si em "m" novas variáveis ortogonais e
não deve ser confundida com a análise fatorial, segundo a qual supõe-se que as
relações existentes dentro de um conjunto de "m" variáveis seja o reflexo das
correlações de cada uma dessas variáveis com "p" fatores, mutuamente não
correlacionáveis entre si, sendo "p" menor que "m". A matriz de carregamentos de
cada variavel nas componentes principais, ao ser multiplicada pela matriz original
de dados, fornece a matriz de contagens (scores) de cada caso em relação às
componentes principais.
A análise discriminante é aplicada quando em relação a um indivíduo, sobre
o qual tenham sido feitas diversas medidas, é necessário decidir à qual de dois ou
mais possíveis grupos, o mesmo pertence. A idéia básica é substituir o conjunto
original das diversas mensurações por um único valor Di, definido como uma
combinação linear delas. Para fornecer um único valor os termos são adicionados
nessa função linear e esta transformação é realizada de tal modo a fornecer a
razão mínima entre a diferença entre pares de médias multivariadas e a variância
multivariada dentro dos dois grupos. Conhecido os Di's, estes serão comparados
com um certo Do , ou seja, o valor situado, ao longo da linha expressa pela
função discriminante, a meio caminho entre os centros dos grupos, com a
finalidade de verificar a qual deles os indivíduos pertencem.
A utilidade dos métodos multivariados pode ser apresentada em termos
geométricos. Assim, observações univariadas podem ser assinaladas sobre uma
linha reta e se essa linha for dividida em intervalos de classes e contando o
número de observações em cada intervalo, um histograma poderá ser construído.
Esse histograma irá requerer duas dimensões para a sua representação.
Observações bivariadas podem ser assinaladas em um sistema de dispersão a
duas dimensões. Se o diagrama for dividido em celas, o número de observações
em cada cela pode ser contado e o respectivo histograma construído. Esse
histograma requer três dimensões e pode ser representado por um mapa de

5
isovalores. Observações trivariadas podem ser assinaladas em um gráfico de
dispersão a três dimensões e a configuração nos pontos no espaço definirá uma
elipsóide. Se o espaço tri-dimensional for dividido em cubos os números de
observações dentro de cada figura geométrica poderão ser contados e obtida a
distribuição de freqüências. Para a construção do respectivo histograma quatro
dimensões serão necessárias. Em observações com quatro ou mais variáveis não é
possível a representação gráfica segundo os métodos comuns, embora MERTIE

(1949) tenha proposto para tanto complicados hipertetraedros.


Utilizando, assim, a interpretação geométrica em três dimensões para
observações trivariadas, os seguintes exemplos de procedimentos em estatística
multidimensional podem ser apresentados:
a) na análise de agrupamentos procura-se por grupos em que as distâncias ao
respectivo centróide sejam minimizadas e as distâncias entre centróides dos
grupos sejam maximizadas;
b) na análise das componentes principais é verificado se as observações
multivariadas ocupam um número de dimensões igual ao número de variáveis
medidas inicialmente e para tanto os eixos do elipsóide devem ser sispostos de
tal modo a colocar o centro do elipsóide coincidente com o centro do sistema de
coordenadas;
c) na análise discriminante localizam-se os centros dos elipsóides e calcula-se a
distância entre pares de centros de elipsóides;
Como salientado por DAVIS (1986), os métodos multivariados são
poderosos, permitindo o pesquisador manipular diversas variáveis
simultaneamente. São, porém, bastante complexos, tanto na sua estrutura teórica
como na metodologia operacional. Em alguns casos os testes estatísticos a serem
utilizados exigem requisitos muito rígidos e em outros, muitas vezes quando quer
relacioná-los com problemas reais, não apresentam base estatística teórica e
desse modo impossibilidade de testes de significância. De qualquer modo, são
métodos extremamente promissores para a análise de dados geológicos tendo em
vista que normalmente a maioria das situações geológica envolve um conjunto
complexo de fatores atuando no sistema, sendo impossível isolá-los e estudá-los
isoladamente.

6
Exemplos de situações que apresentam dados multivariados são comuns
em Geociências, como: análises geoquímicas de elementos maiores e/ou
elementos traços; caracteres morfológicos medidos em fósseis; características
físicas de rochas sedimentares, como distribuição granulométrica, porosidade,
permeabilidade; conteúdo mineralógico em rochas; variáveis fluviais, como
descarga, material em suspensão, profundidade, sólidos dissolvidos, pH e
conteúdo em oxigênio; características geotécnias de solos e rochas; bandas
espectrais em imagens de satélites, etc.. Em alguns casos trata-se de simples
extensão de problemas ligados à estatística univariada e outros pertencem,
todavia, a uma nova classe de problemas.
Esses métodos clássicos da análise estatística multivariada não levam,
porém, em consideração a localização dos pontos de amostragem, nem as suas
relações espaciais e também não refletem as diferenças quanto o suporte das
amostras ou com relação ao suporte da região onde o estudo esta sendo
realizado. A metodologia geoestatística univariada, de recente aplicação, tem
essas propriedades, mas não é capaz de tratar da correlação espacial entre
diversas variáveis. Ferramentas se tornaram, então, necessárias para incorporar
essas importantes feições e daí a necessidade de métodos estatísticos que
enfoquem a análise espacial de dados geológicos multivariados.
Para tanto duas soluções tem sido apresentadas: uma, adaptativa,
procurando, a partir dos resultados dos métodos clássicos, verificar se os mesmos
apresentam uma organização espacial significativa e outra, específica,
desenvolvendo metodologia própria para esta problemática, com destaque para a
a cokrigagem e a krigagem fatorial.
Caso as amostras, no sentido geológico, sejam georreferenciadas os grupos
resultantes da análise de agrupamentos/modo Q poderão ser submetidos a uma
verificação espacial para a constatação de algum padrão de distribuição espacial
desses grupos. De modo idêntico os “scores”, calculados a partir da análise das
componentes principais ou da análise de fatores, que tenham suas coordenadas
geográficas conhecidas poderão fornecer mapas de distribuição ou de tendência
espacial. A análise discriminante pode ser aplicada para avaliar e comparar
alterações ocorridas a intervalos de tempo indicando que variáveis mais

7
contribuíram para essas mudanças. São adaptações de métodos estatísticos
multivariados procurando modelar espacial ou cronologicamente fenômenos
geológicos. Isso, porém, somente é possível se as amostras da matriz de dados
multidimensionais apresentarem perfeitamente conhecidas as suas coordenadas
geográficas.
A cokrigagem é um procedimento geoestatístico segundo o qual
diversas variáveis regionalizadas podem ser estimadas em conjunto, com base na
correlação espacial entre si. É uma extensão multivariada do método da krigagem
quando, para cada local amostrado, obtém-se um vetor de valores em lugar de um
único valor. A aplicação da cokrigagem torna-se bastante evidente quando duas ou
mais variáveis são amostradas nos mesmos locais dentro de um mesmo domínio
espacial e apresentam significativo grau de correlação. Valores ausentes não se
tornam problemáticos, pois o método deve ser usado exatamente quando uma
das variáveis apresenta-se sub-amostrada em relação às demais. Essa variável é
conhecida como “primária” e as demais como “secundárias”. O objetivo é,
portanto, melhorar a estimativa da variável sub-amostrada utilizando aquelas mais
densamente amostradas.
No caso da krigagem fatorial deve-se efetuar: 1) modelagem de
corregionalização das variáveis usando o denominado modelo linear de
corregionalização: todos os p(p + 1)/2 variogramas diretos e cruzados das p
variáveis são modelados por uma combinação linear dos N´s variogramas
padronizados para um mesmo alcance (sill); nesta modelagem supõe-se que o
comportamento espacial das variáveis é o resultado da interação de diferentes
processos atuando independentemente a diferentes escalas espaciais; 2) analise
da estrutura de correlações entre as variáveis, levando em consideração as
diferentes escalas, com aplicação da análise das componentes principais; um
“círculo de correlações” entre as variáveis originais e os dois mais importantes
fatores regionalizados é utilizado para resumir as relações entre as variáveis a
cada escala espacial; 3) estimação das relações entre os fatores regionalizados e
variáveis, como componentes espaciais, a diferentes escalas por cokrigagem,
para, finalmente, mapeà-los.

8
Em qualquer das circunstâncias citadas a preocupação é com:
Descrição dos dados: os dados precisam ser explorados, tanto espacial
como cronologicamente, em sua estrutura multidimensional para o seu
entendimento e constatação de eventuais valores anômalos que possam mascarar
tal estrutura. Existem a disposição, graças à moderna tecnologia computacional,
ferramentas gráficas que permitem a visualização simultânea de amostras no
espaço e/ou no tempo e as primeiras idéias a respeito da estrutura
multidimensional podem começar a surgir a partir dessas exibições gráficas.
Interpretação: os produtos gráficos obtidos a partir das informações
numéricas são avaliados levando em consideração tanto o conhecimento já
adquirido com dados similares como fatos científicos relacionados às variáveis sob
estudo. A interpretação da estrutura espacial ou temporal, as associações e as
relações casuais entre variáveis devem, então, ser organizadas num modelo que
se ajuste aos dados.
Estimação: A modelagem, se correta, não apenas descreve o fenômeno
nos locais amostrados, mas pode se tornar válida para interpolações em locais ou
intervalos de tempo adjacentes, não amostrados, representando um passo alem
com relação às informações contidas nos dados numéricos. Na verdade este é o
grande desafio da análise multivariada de dados espaciais, a estimação de valores
para situações de previsão quantitativa.
A pretensão deste texto, escrito de maneira a mais simples possível, por
um Professor de Geologia, é apresentar uma introdução aos métodos estatísticos
multidimensionais que possam ser aplicados na análise de dados, sem uma
abordagem matemática complexa, porem sempre, que possível, com um enfoque
espacial e que permita ao usuário iniciar-se na Geologia Quantitativa. Não
pretende ser um livro-texto detalhado. Pressume-se que os leitores tenham um
conhecimento básico de estatística descritiva, alem de dominar conceitos simples
de álgebra matricial e familiaridade com manuseio de computadores pessoais. Os
exemplos são voltados às Geociências, mas a metodologia pode perfeitamente ser
utilizada em outras áreas que disponham de dados com estas mesmas
características, ou seja, multivariados e regionalizados.

9
Existe à disposição uma variedade muito grande de livros e pacotes
computacionais e entre os principais livros textos que tratam de métodos
quantitativos em Geologia podem ser citados: MILLER & KAHN (1962), SOKAL & SNEATH
(1963), KRUMBEIN & GRAYBILL (1965), KOCH & LINK (1971), DAVIS (1973, 1986 E 2002),
JORESKOG, KLOVAN & REYMENT (1976) , LE MAITRE (1982), HOWARTH & SIDING-LARSEN

(1985), SWAN & SANDILANDS (1995), GRIFFITH & AMRHEIN (1997), REYMENT & SAVAZZI

(1999) E WACKERNAGEL (2003). Em Geologia, principalmente em Geoquímica, é


comum a existência de variáveis cuja soma é constante, isto é, quando os dados
são composicionais apresentando-se os valores em porcentagem ou em razão.
Nestes casos surgem problemas que acarretam resultados distorcidos. Existem,
porém, diversas técnicas estatísticas para contornar tais situações como expostas,
entre outros, em CHAYES & KRUSKAL (1966), CHAYES (1971), AITCHISON (1986),
BARCELÓ ET AL. (1996), AITCHISON (1997) e PAWLOWSKY-GLAHN & OLEA (2004).
Existem tambem diversos softwares estatísticos de aplicação geral, bem
elaborados e completos como SAS, S-Plus, Statistica, Systat, todos em constante
atualização. Dois outros, bastante amigáveis, para serem utilizados, e com boa
saida gráfica, são o MVSP e o Xlstat, este baseado no aplicativo Excel®. Um
pacote desenvolvido no Brasil voltado para aplicações em Ciências Biológicas e
Médicas é o Bioestat e um outro proveniente da Noruega, com aplicações em
Paleontologia, é o PAST, ambos obtidos gratuitamente nos endereços
mizayres.bel@orm.com.br e http://folk.uio.no/ohammer/past
Alem disso na revista “Computers & Geosciences”, editada pela
International Association for Mathematical Geology, freqüentemente são
apresentados programas listados e/ou executáveis descarregáveis a partir do
endereço www.iamg.org.

10
REFERÊNCIAS BIBLIOGRÁFICAS

AGRICOLA, G. (1556) – De Re Metallica: Froben, Basel (traduzido do Latim por Hoover,


H.C., Hoover, L.H. 1912 e publicado por Dover Publ., New York, 1950)

AITCHISON, J. (1986) – The Statistical Analysis of Compositional Data: Chapman and


Hall. Reprinted in 2003 with additional material by the Blackburn Press.

AITCHISON, J. (1997) – The one-hour course in compositional data analysis or


compositional data analysis is easy, in Pawlowsky Glahn V., ed., Proceedings of the Third
Annual Conference of the International Association for Mathematical Geology: CIMNE,
Barcelona, p. 3-35.

AYRES, M.; AYRES JR., M.; AYRES, D. L. & SANTOS, A. S. (2000) – BioEstat 2.0:
aplicações estatísticas nas áreas das ciências biológicas e médicas: Sociedade Civil
Mamirauá, MCT-CNPq, mizayres@zaz.com.br

BARCELÓ, C., PAWLOWSKY, V. & GRUNSKY, E. (1996) – Some aspects of transformations


of compositional data and the identification of outliers : Math. Geology, 28:501-518

CHAYES, F. (1971) - Ratio Correlation: A Manual for Students of Petrology and


Geochemistry: University of Chicago Press.

CHAYES. F. & KRUSKAL, W. (1966) - An Approximate Statistical Test for Correlation


between Proportions: Jour. Geology, 74: 692-702.

DAVIS, J.C. (1973) - Statistics and Data Analysis in Geology: John Wiley and Sons.

DAVIS, J.C (1986) - Statistics and Data Analysis in Geology: 2nd ed., John Wiley and Sons.

DAVIS, J.C (2002) - Statistics and Data Analysis in Geology: 3rd ed., John Wiley and Sons.

GRIFFITH, D.A. & AMRHEIN, C.G. (1997) – Multivariate Statistical Analysis for
Geographers – Prentice Hall.

HAMMER. O. & HARPER, D.A.T. (2004) – PAST. PAlaentological STatistics, versão 1.20.
http://folk.uio.no/ohammer/past

HOWARTH, R.J. & SINDING-LARSEN, R. (1985) - Multivariate analysis: in (G.J.S. Govett,


ed.) “Statistics and Data Analysis in Geochemical Prospecting”, vol. 2:207-289, Elsevier.

JORESKOG, K.G., KLOVAN, J.E. & REYMENT, R.A. (1976) - Geological factor analysis:
Elsevier.

KOCH JR, G.S. & LINK, .F. (1971) - Statistical analysis of geological data: vol. 2, John
Wiley & Sons.

KRUMBEIN, W.C. & GRAYBILL, F.A. (1965) - An introduction to Statistical Model in


Geology: McGraw Hill Book.

LE MAITRE, R.W. (1982) - Numerical Petrology. Statistical Interpretation of Geochemical


Data: Elsevier.

11
MERRIAM, D. F. (2004) – The quantification of geology: from abacus to Pentium. A
chronicle of people, places, and phenomena: Earth-Science Reviews, 67:55-89

MERTIE JR, J.B. (1949) - Charting five and six variables on the bounding tetrahedral of
hyper tetrahedral: Am. Mineralogist, 34:706-716.

MILLER, R.L. & KAHN, J.S. (1962) - Statistical analysis in the geological sciences: John
Wiley and Sons.

MVSP – Multi-Variate Statistical Package: Kovach Computing Services,


http://www.kovcomp.co.uk

PAWLOWSKY-GLAHN, V., OLEA, R.A. (2004) – Geostatiitical Analysis of Compositional


Data: I.A.M.G., Stud. Math. Geology n. 7, Oxford University Press

REYMENT, R.A. & SAVAZZI, E. (1999) – Aspects of Multivariate Statistical Analysis in


Geology - Elsevier.

SAS – SAS Institute, http://www.sas.com

SOKAL, R.R. & SNEATH, P.H.A. (1963) - Principles of numerical taxonomy: W.H. Freeman.

S-PLUS – Mathsoft, http://www.mathsoft.com

STATISTICA – StatSoft Inc., http://www.statsoft.com

SYSTAT – SPSS Inc., http://www.spss.com

SWAN, A.R.H. & SANDILANDS (1995) – Introduction to Geological Data Analysis:


Blackwell Science Ltd.

WACKERNAGEL, H. (2003) – Multivariate Geostatistics. Springer.

XLSTAT – AddinSoft SARL, http://www.xlstat.com

12
2. NOÇÕES DE ÁLGEBRA MATRICIAL

Os métodos estatísticos multivariados são normalmente baseados em


manipulação de matrizes, porque os dados multidimensionais são apresentados
nesse formato, o que, inclusive, facilita a confecção de algoritmos a serem
utilizados por computador.
 x1,1 x1,2 L x1,n 
x x 2,2 L x 2,n 
 2,1
[X ]
i, j =  x 3,1 x 3, 2 L x 3,n 
 
M M O M 
 x m,1 x m,2 L x m,n 

A álgebra matricial torna-se, portanto, uma ferramenta básica para o
entendimento desses métodos e neste capítulo são apresentadas algumas noções
elementares. Cada tópico é acompanhado por exemplos numéricos de pequenas
dimensões. Maiores detalhes sobre álgebra linear podem ser encontrados, entre
outros, em AYRES JR. (1962), DAVIS (1984), FERGUNSON (1988, cap. 6 e 7), GOLUB &
VAN LOAN (1996) e HARVILLE (1997)..

2.1. Matrizes e vetores


Matriz é um arranjo bidimensional constituído por elementos xij, onde i
representa linha e j coluna. Normalmente as linhas são indivíduos ou casos ou
objetos ou amostras, no sentido geológico, e as colunas, variáveis.

 x1,1 x1,2 x1,3 x1,4 


 
x x 2,2 x 2,3 x 2,4 
[X4,4 ] =  2,1
x x 3,2 x 3,3 x 3,4 
 3,1 
 x 4,1 x 4,2 x 4,3 x 4,4 

Se o número de linhas é igual ao número de colunas a matriz é conhecida


como quadrada. [X] é, portanto, uma matriz quadrada. O número de linhas não
precisa, porém, ser igual ao número de colunas, ou vice-versa:

13
z1,1 z1,2 
y y y 
[Y2,3 ] =  1,1 1,2 1,3  [Z3,2 ] = z2,1 z2,2 
 y 2,1 y 2,2 y 2,3  z 
 3,1 z 3,2 
[Y] é uma matriz com 2 linhas e 3 colunas e [Z] é uma matriz com 3 linhas
e 2 colunas, sendo ambas retangulares.
Matriz diagonal é uma matriz quadrada onde os elementos fora da diagonal
principal são todos iguais a 0 (zero):

 x11 0 0 
[X ] = 0 x 22 0 
0 0 x 33 

Matriz de identidade ou matriz unitária é uma matriz diagonal onde os


elementos da diagonal principal são todos iguais a 1 e os demais 0 (zero):

1 0 0 
[I] = 0 1 0
0 0 1

O traço de uma matriz é a soma dos termos da diagonal principal, sendo


definido somente para uma matriz quadrada
Uma matriz com apenas uma linha é chamada de vetor linha e uma matriz
com apenas uma coluna é chamada de vetor coluna:

 y1 
 
y
[X] = [x1 x1 ...x m ] ou [Y ] =  2 
M
 
yn 

Escalar é uma matriz com dimensões 1x1.

2.2. Operações com matrizes


Transposição: permuta linhas por colunas e vice-versa; representada por
[ ]’, de modo que um elemento aij em [A] passa a ser aji em [A]’

14
33 48 63
28 33 28 12 45 
40 55
se [ A ] =  , então [ A ]' = 48 40 78 89
12 78 93 
  63 55 93 22 
45 89 22

Uma matriz simétrica é uma matriz quadrada que é imutável quando


transposta, de modo que [S]’ = [S].
.
Adição e subtração: similar à álgebra linear. O número de linhas e de
colunas precisa ser igual nas duas matrizes a serem adicionadas ou subtraídas

2 5 1 3  2 + 1 5 + 3  3 8 
3 7 + 2 4 = 3 + 2 7 + 4 = 5 11
       
Multiplicação: para efetuar a multiplicação, por exemplo [A]*[B]=[C], o
número de linhas em [B] deve ser igual ao número de colunas em [A]. O resultado
em [C] terá o mesmo número de linhas que [A] e o mesmo número de colunas
que [B]
[ A lj ] * [B jk ] = [Clk ]

A formula geral para determinar cada elemento em [C] é

r
c ij = ∑ aik * bkj
k =1

onde r é o número de colunas em [A] ou linhas em [B]. Isto significa que, por
exemplo para c11, deve-se multiplicar a primeira linha em [A] vezes a primeira
coluna em [B]; para encontrar c23 multiplicar a segunda linha de [A] pela terceira
coluna de [B]
2 5  (2 * 4) + (5 * 6) (2 * 2) + (5 * 3) (2 * 1) + (5 * 2)  38 19 12
0 7  * 4 2 1  = (2 * 4) + (7 * 6) (0 * 2) + (7 * 3) (0 * 1) + (7 * 2)  = 42 21 14 
   6 3 2    
4 3   (2 * 4) + (3 * 6) ( 4 * 2) + (3 * 3) ( 4 * 1) + (3 * 2) 34 17 10
   

Importante notar que o resultado de [A]*[B] geralmente não é o mesmo


que [B]*[A]:

15
2 5 
4 2 1    12 37 
6 3 2 * 0 7  = 20 57
  4 3  
 

Multiplicação por escalar: cada elemento da matriz é multiplicado pelo


escalar
2 5 3 15
3* = 
3 7 9 21

Determinantes: número singular associado a uma matriz quadrada. O


determinante da matriz [A] é representado por |A|.
Para uma matriz de dimensões 2x2 o determinante é calculado pelo
produto dos elementos de uma diagonal menos o produto dos elementos da outra
diagonal:

a11 a12 
  = (a11 * a 22 ) − (a12 * a 21 )
a 21 a 22 

Inverso de uma matriz


Como não há divisão em álgebra matricial, o procedimento adotado é
utilizar o inverso da matriz. Na álgebra linear se A*B = C, para resolver A calcula-
C 1 1
se A = ou também A = C * . O inverso da matriz é análogo a .
B B B
O inverso de uma matriz [X] é representado por [X]-1 e para o seu cálculo é
necessário satisfazer a condição [X]*[X]-1=[I]. Em algumas situações isso não é
possível porque é encontrada uma divisão por zero durante o processo de
inversão. Nesse caso, de impossibilidade de inversão, a matriz é conhecida como
singular.
Esta é uma das mais importantes técnicas em álgebra matricial e essencial
para a solução de sistema de equações simultâneas do tipo:
[A]*[X]=[B],

16
onde [A] e [B] contém valores conhecidos e [X] valores desconhecidos a serem
determinados.
Multiplicando ambos os lados da equação por [A]-1
[A]-1*[A]*[X]=[A]-1*[B],
Como [A]-1*[A]=[I], a equação se reduz para
[X]=[A]-1*[B]

Seja o seguinte sistema de equações onde se quer determinar x1 e x2


04x1+10x2= 38
10x1+30x2=110

Em notação matricial:
04 10   x1  038
 *  =  
10 30   x 2  110 

Para encontrar os valores xi, basta inverter a matriz [A] e multiplicar o


inverso pelo vetor coluna [B]
O inverso de [A] é encontrado da seguinte maneira:

04 10  1 0 
10 30  0 1
  

01 2,5 0,25 0 


10 30  0 1 
 

01 2,5 0,25 0 


10 05  − 2,5 1
  

01 2,5 0,25 0 


0 01  − 0,5 0,2
  

17
1 0   1,5 − 0,5
0 1 − 0,5 0,2 
  

Verificação da inversão de matriz:


 1,5 − 0,5 04 10  1 0 
− 0,5 0,2  * 10 30  = 0 1
     

Cálculo dos xi:

 1,5 − 0,5 038 2


− 0,5 0,2  * 110  = 3
     

x1=2 e x2=3

2.3. Algumas matrizes especiais


2.3.1. Matriz de coeficientes de correlação
A matriz original de dados é constituída por m indivíduos (unidades de
observação) e n variáveis, em que cada linha i representa um indivíduo e cada
coluna j uma variável.

 x1,1 x1,2 x1,3 L x1,n 


x x 2,n 
 2,1 x 2,2 x 2,3
[ X ] =  x 3,1 x 3,2 x 3,3 x 3,n 
i, j  
 M M M M 
 x m,1 x m,2 x m,3 L x m,n 

Para o cálculo de uma matriz de coeficientes de correlação a seguinte


seqüência deve ser obedecida:
1. Encontrar para cada coluna a respectiva média e o desvio padrão:
(Σxi )2
Σx j Σx i −
2

xj = ; Sj = m ; s i = s 2j
m m−1

2. Encontrar o valor zij para cada observação:

18
x ij − x j
zij =
sj

3. A partir daí, constituir a matriz [Z] , também de dimensões mxn:

 z1,1 z1,2 z1,3 L z1,n 


z z 2,n 
 2,1 z 2,2 z 2,3
[ Z] =  z 3,1 z 3,2 z 3,3 z 3,n 
 
 M M M M 
zm,1 zm,2 zm,3 L zm.n 

4. Encontrar o transposto da matriz [Z]

 z1,1 z 2,1 z 3,1 z m,1 


z z 2,2 z 3,2 zm,2 
[ Z] = 
' 1,2

 M M M M 
 
 z1,n z 2,n z 3,n zm,n 

5. Multiplicando [Z]’ por [Z], encontrar a matriz [V], de dimensões nxn


[V] = [Z]’ [Z]
 v 12 v 1v 2 ... v 1v n 
 
v 2 v 1 v 22 v 2vn 
[V] =  
 M M M 
v v vnv 2 v n2 
 n 1

6. Finalmente, calcular a matriz de coeficientes de correlação, multiplicando o

escalar 1 por [V]


m−1
 r1,1 r1,2 L r1,n 
r r2,2 L r2,n 
1
[R] = [V ] = 
 2,1

m−1 M M M 
 
rn,1 rn,2 rn,n 

19
Exemplo
1 2 3
2 3 4 

[X] = 1 2 3
 
5 4 3
4 4 4 

Médias: x1=2,6; x2=3,0; x3=3,4
Desvios padrão: s1 = 1,8; s2=1,0; s3=0,55
− 0,889 − 1,000 − 0,727 
− 0,333 0,000 1,091

[Z] = − 0,889 − 1,000 − 0,727
 
 1,333 1,000 − 0727 
 0,778 1,000 1,091

− 0,889 − 0,333 − 0,889 1,333 0,778 


[Z] =  − 1,000 0,000 − 1,000 1,000 1,000 
| 
− 0,727 1,091 − 0,727 − 0,727 1,091

4,074 3,889 0,809 


[V ] = 3,889 4,000 1,818 
0,808 1,818 3,967 

 1,000 0,972 0,202


[R] = 0,972 1,000 0,455
0,202 0,455 1,000 

Cada elemento desta matriz se refere à correlação entre o par de variáveis


em questão.

2.3.2. Matriz de variâncias e covariâncias


A matriz original de dados é constituída por m indivíduos e n variáveis, em que
cada linha i representa um indivíduo e cada coluna j uma variável.

20
 x1,1 x1,2 x1,3 L x1,n 
x x 2,n 
 2,1 x 2,2 x 2,3 L
[ X] =  x 3,1 x 3,2 x 3,3 L x 3,n 
 
 M M M O M 
 x m,1 x m,2 x m,3 L x m.n 

Para o cálculo de uma matriz de variâncias e covariâncias, a seguinte


seqüência deve ser obedecida:
1. Encontrar a média de cada coluna e subtrair esse valor de cada elemento:
Σx j
xj = ; x *ij = x ij − x j
m

 x *1,1 x *1,2 x *1,3 L x *1,n 


x * L x * 2,n 
 2,1 x * 2,2 x * 2,3
[ X*] =  x * 3,1 x * 3,2 x * 3,3 L x * 3,n 
 
 M M M O M 
 x *m,1 x *m,2 x *m,3 L x *m.n 

2. Criar uma matriz de somas de quadrados e produtos cruzados [A], pela


multiplicação de [X*]’ por [X*], de dimensões mxm.

 x *1,1 x * 2,1 x * 3,1 x * m,1 


x * x * 2,2 x * 3, 2 x * m,2 
[ X*] = 
' 1,2

 M M M M 
 
 x *1,n x * 2,n x * 3,n x *m,n 

[A] = [X*]’[X*]
 a12 a1a 2 ... a1an 
 
a 2a1 a 22 a 2an 
[A] =  
 M M M 
a a ana 2 an2 
 n1

21
3. Finalmente criar uma matriz de variâncias e covariâncias [S] multiplicando o

escalar 1 por [A]


n −1
 s1,1 s1,2 L s1,n 
s s2,2 L s2,n 
1
[ S] = [A ] = 
 2,1

m−1 M M M 
 
sn,1 sn,2 sn,n 

Exemplo
1 2 3
 
2 3 4
[X ] = 1 2 3
 
5 4 3
4 4 4 

Médias: x1=2,6; x2=3,0; x3=3,4


 − 1,6 − 1,0 − 0,4
− 0,6 0,0 0,6

[X *] =  − 1,6 − 1,0 − 0,4
 
 2,4 1,0 − 0,4
 1,4 1,0 0,6

 − 1,6 − 0,6 − 1,6 2,4 1,4


[X *] =  − 1,0 0,0 − 1,0 1,0 1,0
| 
− 0,4 0,6 − 0,4 − 0,4 0,6

13,2 7,0 0,8


[A ] =  7,0 4,0 1,0
 0,8 1,0 1,2

3,30 1,75 0,20


[S] =  1,75 1,00 0,25
0,20 0,25 0,30

22
Cada elemento da diagonal se refere à variância de uma variável e fora da
diagonal à covariância entre o par de variáveis em questão. A soma dos elementos
da diagonal é a variância total no sistema.
Notar que a matriz de correlações é a matriz de variâncias e covariância
com cada elemento dividido pelo produto dos desvios padrões das respectivas
variáveis. A matriz de correlações é também a matriz de variâncias e covariâncias
de variáveis padronizadas.

2.3.3. Autovalores (eingenvalues) e Autovetores (eigenvectors)


Este tópico é geralmente considerado de difícil entendimento dentro da
álgebra matricial, não tanto pela maneira de cálculo, mas principalmente pelo
entendimento que se possa ter de seu resultado. Uma interpretação geométrica
como apresentada a seguir, baseada em GOULD (1967), pode ajudar a entender o
significado de autovalores e autovetores. Considerando os valores de uma matriz
como coordenadas de pontos num espaço multidimensional, autovalores e
autovetores passam a ser propriedades geométricas do arranjo desses pontos.
Seja um conjunto de 3 equações lineares:
a11x1+a12x2+...+a1nxn=λx1

a21x1+a22x2+...+a2nxn=λx2

a31x1+a32x2+...+a3nxn=λx3
Essas equações podem ser escritas em forma de matriz, onde [A],
contendo os coeficientes aij’s, multiplicada por um vetor [X], de desconhecidos xi’s,

é igual a este vetor [X] multiplicado por um escalar λ.


[A][X] = λ[X],

Para encontrar os valores de λi que satisfaçam a relação acima, a equação


pode ser reescrita como:
([A] – λ[I])[X] = 0,
onde λ[I] é a matriz de identidade, de dimensões 3x3, multiplicada por λ:

23
λ 1 0 0 
 
0 λ 2 0 
0 0 λ 3 

Cálculo das raízes da equação (autovalores) para uma matriz 3 x 3:


(a11 – λ1)x1 + a12 x2 + a13x3 = 0
a21x1 + (a22 – λ2)x2 + a23x3 = 0
a31x1 + a32 x2 + (a33 – λ3)x3 = 0

Como exemplo, seja a seguinte matriz de dados:

1 2 4
4 2 3

7 3 2
 
8 5 1

Para essa matriz de dados é encontrada a seguinte matriz de coeficientes


de correlação [A]
 1,000 0,820 − 0,980 

[ A ] =  0,820 1,000 − 0,913  ,
− 0,980 − 0,913 1,000 

com variância total no sistema: 1+1+1=3 e para o cálculo dos autovalores:

1,000 − λ1 0,820 − 0,980 



[ A ] − λ[I] =  0,820 1,000 − λ 2 − 0,913  = 0
 − 0,980 − 0,913 1,000 − λ 3 

Desenvolvendo:
(1,000 - λ1)(1,000 - λ2)(1,000 - λ3) + (0,820)(- 0,913)(- 0,980) + (- 0,980)(0,820)
(- 0,913) - (- 0,980)(1,000 - λ1)(- 0,980) - (1,000 - λ2)(- 0,913)(- 0,913) -
(0,820)(0,820)(1,000 - λ3) =
≅ (λ1 - 2,810)(λ2 - 0,188)(λ3 - 0,002)
Os autovalores são iguais a: λ1 = 2,810; λ2 = 0,188; λ3 = 0,002 (soma = 3)
e a porcentagem da variância total explicada por cada autovalor:

24
λ1 = (2,810/3)*100 = 93,66
λ2 = (0,188/3)*100 = 6,27
λ3 = (0,002/3)*100 = 0,07

Para o cálculo dos correspondentes autovetores, calcular inicialmente as


componentes do autovetor V1:
(1,000 - 2,810)X1 + 0,820X2 - 0,980X3 = 0
0,820 - (1,000 - 2,810)X2 - 0,913X3 = 0
-0,980X1 - 0,913X2 - (1,000 - 2,810)X3 = 0

X1 = - 1,000; X2 = - 0,974; X3 = 1,032


V1 = - 1,000
- 0,974
1,032
Padronização do autovetor V1 para o tamanho unitário
Q = -12 + (-0,974)2 + (1,032)2 = 3,012
Q = 1,735
Vn1 = -1/1,735 = -0,58
Vn1 = - 0,974/1,735 = - 0,56
Vn1 = 1,032/1,734 = 0,59

Para as componentes do autovetor V2:


(1,000 – 0,188)X1 + 0,820X2 - 0,980X3 = 0
0,820 - (1,000 – 0,188)X2 - 0,913X3 = 0
-0,980X1 - 0,913X2 - (1,000 – 0,188)X3 = 0
Vn2 = -0,60
Vn2 = 0,79
Vn2 = 016
.....

25
Autovetores
Variáveis V1 V2 V3
X1 -0.58 -0.60 0.56
X2 -0.56 0.79 0.26
X3 0.59 0.16 0.79

Factor loadings (carregamento das variáveis nas componentes principais):


(autovetor padronizad o ∗ autovalor correspon dente ) )

F1 F2 F3
X1 -0.97 -0.26 0.03
X2 -0.94 0.34 0.01
X3 1.00 0.07 0.04

Em termos geométricos:

Variáveis

0,5

V2
Eixo F2: 6%

0
V3

V1
-0,5

-1
-1 -0,5 0 0,5 1

Eixo F1: 94%

26
A matriz original de dados ao ser multiplicada pela matriz de autovalores
fornecerá a matriz de pontuações (scores).

1 2 4  − 0,58 − 0,60 0,56 


4 2 3 − 0,56 0,79 0,26
“factor scores” =  *
7 3 2   0,59 0,16 0,79 
   
8 5 1  

F1 F2 F3
Obs1 2.10 0.45 0.03
Obs2 0.93 -0.35 -0.07
Obs3 -0.69 -0.51 0.06
Obs4 -2.34 0.41 -0.02

Em termos geométricos:

Observações

2,5

1,5

1
Eixo F2: 6.27 %

0,5
A4 A1
0

A2
-0,5 A3
-1

-1,5

-2

-2,5
-2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5

Eixo F1: 93.66 %

27
A orientação dos autovetores no espaço multivariado é determinada pela
direção da máxima variância. Como a contribuição da variância para cada
autovetor, em alguns casos, deve ser maximizada, há necessidade de rotação da
matriz fatorial inicial.
Matriz fatorial inicial:
Fatores
F1 F2
X1 0,966 -0,259
X2 0,940 0,340
X -0,997 0,070

Para o cálculo do ângulo de rotação dos fatores, pelo critério varimax, o


seguinte procedimento deve ser adotado:

A rotação ortogonal de uma matriz de carregamentos [X], em um novo


conjunto de coordenadas [X’], requer uma matriz operacional [T]
[X’] = [T] [X]

 X1'  cos Θ − senΘ  X1 


 ' =   
 X 2  senΘ cos Θ   X 2 

ângulo de rotação Θ = ?, para variavel “j” e fatores “p” e “q”

28
4∑ 2X JP X JQ (X2JP - X 2JQ ) - [4∑ (X2JP - X 2JQ )∑ X JP X JQ ]/n
tan4Θ = J J J

∑(X
J
2
JP - X ) - (2∑ X JP X JQ ) - [( ∑ ΣX X ) - (2∑ X JP X JQ )2 ]/n
2
JQ
2

J
2

J
2
JP
2
JQ
2

UJ = X 2JP − X 2JQ

VJ = 2 X JP X JQ

A = ∑U
J
J = 2,6222; A2 = 6,8789

B = ∑V
J
J = -0,0001; B2 = 0,0000

C = ∑ (U
J
2
J − VJ2 ) = 1,6365

D = 2∑ (UJ VJ ) = -0,0797
J

D − 2AB / n
tan 4θ = = - 0,1592/- 0,6555 = 0,2429
C − ( A 2 − B2 ) / n

arctan 0,2429 = -166° 21’ = 4Θ; Θ = 41° 17’


sen Θ = - 0,6598
cos Θ = 0,7515

 0,7515 − 0,6598 
[T ] =  
− 0,6598 0,7515 

 X'J1   0,7515 − 0,6598   X J1 


 '  =   
 X J2  − 0,6598 0,7515   X J2 
'
X11 = T11X11 + T12 X12 X’1j = (0,9656)(0,715) + (- 0,2590)(- 0,6598) = 0,894

Matriz fatorial rotacionada:


Fatores
F’1 F’2
X1 0,894 0,447
X2 0,477 0,879
X3 -0,792 -0,609

29
Em termos geométricos:

Variáveis

0,9

Eixo F2: 5.70 %

0,4
V2

V3
-0,1

V1

-0,6

-1,1
-1,1 -0,6 -0,1 0,4 0,9

Eixo F1: 94.30 %

Variáveis depois da rotação


varimax

0,86 V2
0,66

V1
Eixo F2: 45.17 %

0,46

0,26

0,06

-0,14

-0,34

-0,54
V3
-0,74

-0,94
-0,9 -0,7 -0,5 -0,3 -0,14 0,06 0,26 0,46 0,66 0,86
4 4 4 4

Eixo F1: 54.82

30
Observações

1,2

A4
0,7 A1

Eixo F2: 5.70 %


0,2

-0,3
A2

-0,8

A3
-1,3
-1,3 -0,8 -0,3 0,2 0,7 1,2

Eixo F1: 94.30 %

Observações depois da rotação


varimax
1,4 A4

0,9
Eixo F2: 45.17 %

0,4

-0,1
A1

-0,6 A2
A3

-1,1

-1,6
-1,6 -1,1 -0,6 -0,1 0,4 0,9 1,4

Eixo F1: 54.82 %

Gráfico mostrando o arranjo espacial dos pontos Xi, em 2D, antes e depois
da rotação dos eixos F1 e F2:

31
32
REFERÊNCIAS BIBLIOGRAFICAS

AYRES JR., F. (1962) – Schaum’s Outline of Theory and Problems of Matrices: Schaum
Publ. Co.

DAVIS, P.J. (1984) – The Mathematics of Matrices: R.E. Krieger Publ. Co

FERGUNSON, J. (1988) – Mathematics in Geology: Allen & Unwin Ltd.

GOLUB, G.H. & VAN LOAN, C.F. (1996) – Matrix Computations, 3rd. ed.: Johns Hopkins
Univ. Press.

GOULD, P. (1967) – On the geographic interpretation of eigenvalues: An initial


exploration: Trans. Inst. British Geographers, n. 42, p. 53-86

HARVILLE, D. A. (1997) – Matrix Álgebra from a Statistician’s Perspective: Springer

33
3. REGRESSÃO LINEAR MÚLTIPLA
As relações entre duas variáveis "X", considerada independente, e "Y",
considerada dependente, pode ser representada num diagrama de dispersão, com
os valores yi em ordenada e os xi em abscissa. Cada par de valores xi,yi fornecerá
um ponto e utilizando-se, por exemplo, o método dos desvios mínimos ao
quadrado, pode-se calcular a equação de uma curva de tendência que melhor se
ajuste à nuvem de distribuição de pontos. O modelo mais simples que pode ser
adotado é o da análise de regressão linear que fornece a equação de uma reta:
yi = αι + βxi + εi
onde α e β são constantes desconhecidas a serem determinadas e ε representa
toda a fonte de variabilidade em Y não explicada por X. Operacionalmente
encontra-se a equação da reta para a previsão dos valores yi segundo:
y i = a + bx i ,

onde a e b são os coeficientes que determinam a intersecção na ordenada e a


inclinação da reta calculada.
Não é raro, porém, que o termo εi seja numericamente mais importante
que a explicação motivada pela variável X, significando que outras variáveis
devem ser incorporadas ao modelo a fim de explicar o comportamento de Y. O
modelo exige então uma "análise de regressão linear múltipla”. A regressão
múltipla é usada, portanto, para testar dependências cumulativas de uma única
variável dependente em relação à diversas variáveis independentes.
Alguns cuidados, porem, que devem ser tomados quando da utilização da
análise de regressão: as relações entre as variáveis devem ser lineares; evitar um
número inferior de casos em relação ao número de variáveis consideradas, sendo
recomendado que tal relação seja da ordem de 10 a 20 vezes superior; evitar
variáveis independentes redundantes, isto é, que tenham um alto coeficiente de
correlação entre si; verificar, utilizando resíduos, a presença de valores anômalos.
O modelo geral é representado por
y i = α o + α1x1i + L + α n x ni + εi

A análise de regressão múltipla linear de quaisquer n variáveis


independentes sobre uma variável dependente, sendo expressa por:
Yi = ao + a1X1i + a 2 X 2i + L + an Xni

34
pode ser resolvida segundo:

 n ∑ x1i L ∑ x ni  ao   ∑ yi 
∑ x ∑ x12i L ∑ x1i x ni  a  ∑ x y 
 1i  1  1i i 
 ∑ x 2i ∑ x 2i x1i L ∑ x 2i x ni  a 2  = ∑ x 2i y i 
     
 M M O M  M  M 
 ∑ x ni ∑ x ni x1i L ∑ x ni2  an   ∑ x ni y i 
[ X] [A] [ Y]

Para a obtenção dos coeficientes ai a solução obedece à relação:


[A] = [X]−1 [ Y ]

Os coeficientes “ai” são conhecidos como parciais de regressão porque cada


um deles fornece a taxa de mudança na variável dependente correspondente à
respectiva variável independente, mantendo constantes as demais variáveis
independentes. Esses coeficientes terão valores diferentes, para cada variável, dos
coeficientes de regressão totais obtidos pela análise de regressão simples entre a
variável dependente e apenas uma variável independente considerada por vez. Na
análise de regressão linear múltipla são consideradas todas as possíveis interações
entre a variável dependente e as diversas combinações com e entre as variáveis
independentes.
Sendo calculadas a soma de quadrados da variável dependente, a soma de
quadrados devido à análise linear múltipla e a soma de quadrados dos desvios,
pode-se obter uma indicação da validade do resultado por uma análise de
variância, sendo m o número total de observações:
[
Variação total: SQT = ∑ y i2 − (∑ yi) / m
2
]
Variação devido à análise de regressão linear múltipla: SQR = ∑ y *i2 − (∑ y *i )2 /m [ ]
Variação devido aos desvios ou resíduos: SQD = SQT - SQR
Porcentagem de ajuste da superfície: R2 = ( SQR/SQT ) 100%

35
Fonte de Soma de Média
variação g.l. quadrados quadrática Razão F
Regressão n SQR MQR MQR/MQD
Resíduos m-n-1 SQD MQD
Total m-1 SQT

H0: α1= α2= α3=... αn=0


H1: pelo menos um α é diferente de 0
Ao recusar H0 e, portanto, aceitar H1, pode-se afirmar que as variáveis
independentes “explicam” a variável dependente, mas não se pode afirmar qual
variável é a mais importante. Ao afirmar, também, que a variância total de Y é em
parte "explicada" pelas diversas variáveis X's e o restante pela variabilidade devido
ao erro ( ε ), fica implícito que o termo "explicada" tem apenas um significado
numérico e não necessariamente um conhecimento, do tipo causa-efeito, sobre o
porquê da relação existente.
Os tamanhos relativos dessas duas componentes de variância são
obviamente de grande interesse quando da aplicação da análise de regressão
múltipla. A proporção da variância de Y "explicada" por uma equação de regressão
ajustada é representada pelo coeficiente de determinação R².
(variância de Y explicada pela análise de regressão) SQR
R2 = = ,
(variância total) SQT
sendo a porcentagem de ajuste da superfície igual a R2 x 100.
Valores de R2 estão no intervalo 0-1, fornecendo uma medida dimensional
de quantidade do ajuste do modelo de regressão múltipla aos dados. Se o valor
de R² for próximo de 1 isso significa que as diversas variáveis X's medidas são
responsáveis quase que totalmente pela variabilidade de Y. Caso contrário, R²
apresentará um valor próximo a zero.
O R2 pode ser ajustado em função dos graus de liberdade:

m −1 MQR
R aj2 = 1 − (1 − R 2 ) = 1 −
m−n MQT

Embora a regressão múltipla seja multivariada no sentido de que mais de


uma variável é medida simultaneamente em cada observação, trata-se na
realidade de uma técnica univariada, pois o enfoque é apenas em relação à

36
variação da variável dependente Y, sem que o comportamento das variáveis
independentes X’s seja objeto de análise.
Uma das mais importantes aplicações da análise de regressão linear
múltipla é a escolha, entre diversas variáveis independentes, daquelas mais úteis
na previsão de Y. A questão se torna, então, saber se certas variáveis
explanatórias podem ser retiradas, ou não, do modelo de regressão.
O método mais usual para essa seleção é a regressão múltipla “passo-a-
passo” (stepwise multiple regression). O processo de seleção é iniciado com a
adição da variável com a maior contribuição para o modelo. A partir daí são
estabelecidas probabilidades limiares tanto para a retirada como para inclusão de
novas variáveis ao modelo. Se uma segunda variável apresenta uma probabilidade
menor do que a probabilidade "de entrada", ela é adicionada ao modelo. O
mesmo para uma terceira variável. Após a terceira variável ser adicionado, o
impacto da remoção de cada variável presente no modelo, depois de ter sido
adicionada, é avaliada. Se a probabilidade é maior do que a probabilidade "de
remoção", a variável é removida. O processo continua até que não haja mais
variáveis que possam ser acrescentadas ou removidas.
Outra maneira é calcular os valores de R2 segundo 2n-1 combinações, onde
n é o número de variáveis independentes. Ao final verifica-se a contribuição de
cada variável independente por comparações sucessivas entre os diversos
resultados.
3.1. Exemplos
3.1.1. DAWSON & WHITTEN (1962), num estudo petrográfico sobre o complexo
granítico da região de Lacorne, La Motte e Preissac, no Canadá, obtiveram valores
para peso específico, quartzo, índice de cor (porcentagem de silicatos escuros ou
máficos), feldspato, e as coordenadas N-S e E-W para cada ponto de amostragem
(Matriz de dados 3.1., no Apêndice ao final do texto) .
Para verificar se o peso específico pode ser previsto em função das outras 5
variáveis, aplica-se a análise de regressão múltipla para a indicação das variáveis
por ordem de importância nessa previsão.

37
Inicialmente é feita uma análise de regressão levando em consideração
todas as 5 variáveis, consideradas independentes, e uma análise de variância para
verificar a validade do modelo (Tabela 3.1.).
A equação inicial encontrada é:
Y = 4,0607 -0,0158X1 -0,0106X2 -0,0143X3 + 0,0080X4 -0,0006X5,
com R2 = 0,9177

Tabela 3.1. ANOVA


Fonte de Soma de Médias Teste F(0,05)
variação g.l. quadrados quadráticas Razão F
Modelo 5 0,249 0,050 50 2,45
Residuos 38 0,022 0,001
Total 43 0,271

Este resultado mostra que as 5 variáveis explicam 92% da variabilidade de


Y e que o modelo pode ser aceito, pois a razão F encontrada, em confronto com o
teste F crítico tabelado indica que essas variáveis reduzem significativamente a
variação da variável dependente.
O interesse, porém, é verificar a contribuição específica de cada variável,
tendo em vista que há correlações entre as mesmas (Tabela 3.2.)

Tabela 3.2. Matriz de coeficientes de correlação (Pearson)


Peso spc. Quartzo Cor Feldspato NS EW
Peso spc. 1 -0,853 0,917 -0,369 0,571 0,684
Quartzo -0,853 1 -0,840 -0,011 -0,389 -0,663
Cor 0,917 -0,840 1 -0,532 0,403 0,655
Feldspato -0,369 -0,011 -0,532 1 -0,147 -0,185
NS 0,571 -0,389 0,403 -0,147 1 0,526
EW 0,684 -0,663 0,655 -0,185 0,526 1

Estabelecendo probabilidades limiares igual 0,10 tanto para a retirada


como para a entrada de uma variável no modelo o seguinte resultado foi
encontrado:
No. de Variável
variáveis Variáveis IN/OUT Status MQE R²
1 Cor Máficos IN 0.00103 0.840
2 Cor / NS NS IN 0.00074 0.889
3 Cor/NS/Quartzo Quartzo IN 0.00064 0.906
4 Cor/NS/Quartzo/ Feldspato Feldspato IN 0.00058 0.917

38
Parâmetros do modelo:

Erro Pr >
Fonte Valor padrão t |t|
Intercepto 4.00673 0.59719 6.70934 < 0.0001
Quartzo -0.01528 0.00599 -2.55232 0.01473
Cor -0.01014 0.00599 -1.69193 0.09864
Feldspato -0.01377 0.00601 -2.28959 0.02754
NS 0.00767 0.00187 4.10426 0.00020
EW 0.00000 0.00000
Isto significa que as variáveis, em ordem de importância para a explicação
do peso específico, são: cor, N-S, quartzo, feldspato, sendo praticamente nula a
contribuição de E-W.
Uma outra maneira para verificar essa ordenação, segundo KRUMBEIN &
GRAYBILL (1965), é calcular os coeficientes R2s referentes às variáveis
independentes, uma de cada vez e, em seguida, combinadas duas a duas, três a
três e quatro a quatro. Esse procedimento fornece um número total de
combinações da ordem de 25 – 1, isto é, 31. A seguir estão os coeficientes que
apresentaram os maiores resultados (Tabela 3.3.):

Tabela 3.3. Coeficientes de R2

Variáveis R2s
Cor 0,8404
Quartzo 0,7277
EW 0,4673
NS 0,3258
Feldspato 0,1364
Cor+NS 0,8887
Cor+Quartzo 0,8640
Cor+Feldspato 0.8600
Cor+EW 0,8526
Cor+NS+Quartzo 0,9061
Cor+NS+Feldspato 0,9034
Cor+NS+EW 0,8896
Quarzto+EW+Felspato 0,8750
Cor+NS+Quartzo+Feldspato 0,9172
Cor+NS+Quartzo+EW 0,9061

Cor+NS+Quartzo+Feldspato+EW 0,9177

A contribuição específica de cada variável independente, com vistas ao seu


ordenamento por importância, é encontrada da seguinte maneira: a variável cor é
a primeira a ser selecionada com 84,04% do total da soma de quadrados de Y a

39
ela atribuída; em seguida apresentam-se cor+NS com 88,87% e desse modo a
variável NS é escolhida com a contribuição de 88,87 – 84,04 = 4,83% para a
explicação de Y; de modo idêntico quartzo é escolhida como a terceira variável
com 1,74%, resultado de 90,61 – 88,87; feldspato, como a quarta variável, com
1,11%, resultado de 91,72 – 90,61 e, finalmente, EW com 0,05%. Desse modo, a
explicação para o comportamento da variável peso específico é mostrada na
Tabela 3.4.:

Tabela 3.4. Contribuição específica de cada variável independente


Máficos 84,04%
N-S 4,83%
Quartzo 2,24%
Feldspato 0,61%
E-W 0,05%

Esses resultados indicam novamente que, para a explicação do


comportamento do peso específico, a variável mais importante é a cor, o que é
coerente pois esta variável nada mais é que o resultado da presença de minerais
máficos. Além disso, como a segunda variável em importância é a coordenada NS
isso também esta a indicar que a variabilidade do peso específico ocorre mais ao
longo dessa direção do que no sentido EW.
Como se tem à disposição a coordenada geográfica, o que não é muito
comum nesse tipo de análise, pode-se examinar o comportamento espacial das
três variáveis, quartzo, feldspato e cor, em confronto com a distribuição do peso
específico (Figura 3.1).
Novamente é constatada, por simples comparação visual entre os mapas, a
semelhança entre os mapas para peso específico e para cor. Também pode ser
observada a maior variabilidade no sentido norte-sul para o peso específico e a
relação inversa entre esta variável e quartzo, como já indicada pelo coeficiente de
correlação.

40
Figura 3.1. Mapa com valores interpolados para as varáveis estudadas

41
3.1.2. Comparação entre mapas têm sido preocupação dos geólogos, pela sua
utilidade na localização espacial e mesmo interpretação de qualquer banco de
dados temático. Se existem, porém, diversos algoritmos à disposição para a
confecção de mapas o mesmo não pode ser afirmado em relação à comparação
entre mapas. Alguns trabalhos que tratam do assunto podem ser encontrados em
BROWER & MERRIAM (1990, 1992) usando técnicas estatísticas; e HERZFELD &
SONDERGARD (1988); HERZFELD & MERRIAM (1991) usando técnicas algébricas
orientadas para uso em computador. Um interessante enfoque é apresentado por
BROWER & MERRIAM (2001) que utilizam a análise de regressão múltipla para
comparar mapas de contorno estrutural com finalidade de entender a história
geológica de uma certa região. Se a variável considerada dependente for a
camada mais jovem e as demais camadas as variáveis independentes, pode-se
verificar qual delas teve maior influência na configuração dessa camada mais
jovem.
Utilizando essa idéia LEITE & LANDIM (2003) aplicaram a análise de regressão
múltipla para quantificar a influência de diversas variáveis no comportamento da
superfície potenciométrica de um aqüífero livre (superfície), considerada como
variável dependente. As variáveis consideradas independentes foram cota do
terreno (topografia), base da formação aqüífera ou cota do topo do basalto
(basalto), espessura da formação aqüífera (espessura), e coordenadas UTM (X e
Y). Esses valores foram obtidos a partir de 188 poços (Matriz de dados 3.2.).

O local objeto do estudo compreendeu a área urbana do município de


Pereira Barreto/SP, situada junto ao Reservatório de Três Irmãos, formado no rio
Tietê, pela construção da barragem de mesmo nome, com extensão de
aproximadamente 150 km. A cidade de Pereira Barreto situa-se na vertente sul de
uma colina ampla, de topo aplainado, com altitude máxima de aproximadamente
450 m, limitada ao sul pelo remanso do reservatório da barragem Três Irmãos no
rio Tietê e a norte pelo remanso do reservatório de Ilha Solteira (rio Paraná) no
tributário São José dos Dourados, em zona de transição dos grupos Caiuá e Bauru,
com afloramentos de basaltos do grupo São Bento restritos às proximidades das
margens do rio Tietê. A superfície potenciométrica do aqüífero livre na área
ocupada pela cidade, anteriormente à formação do reservatório encontrava-se

42
entre os níveis 310-350 m, com profundidades máximas do nível d’água (N.A.)
pouco superiores a 10 metros.

Figura 3.2. Mapa da superfície potenciométrica

Os maiores coeficientes de determinação obtidos foram :

Variável Coeficientes R2
Topografia 0,814
Topografia + Coord X 0,830
Topografia + Coord X + Espessura do aquífero 0,833
Topografia + Coord X + Espessura do aquífero + Coord Y 0,836
Topografia + Coord X + Espessura do aquífero + Coord Y + 0,836
Topo Basalto

43
Com estes resultados, estabelece-se a contribuição específica de cada
variável independente para a variabilidade da variável dependente H, isto é,
superfície potenciométrica do aqüífero livre:

Variável Contribuição
Topografia 81,4% (0,814)
Coordenada X 1,6% (0,830 - 0,814)
Espessura do aquífero 0,3% (0,833 – 0,830)
Coordenada Y 0,3% (0,836 – 0,833)
Topo do basalto 0,0% (0,836 – 0,836)

Analisando-se o peso de cada variável dependente observa-se que a


variável Topografia do Terreno é a que melhor explica a variação da Superfície
Potenciométrica, da ordem de 81,4%, fato esse já bem conhecido em
Hidrogeologia. As demais variáveis apresentam pequenas interferências na
variabilidade da potenciometria.
Os resultados encontrados confirmam quantitativamente que a superfície
potenciométrica do aqüífero livre se comporta, em linhas gerais, como a superfície
topográfica do terreno. Observa-se, no entanto, que apesar da excelente
correlação obtida no processo de comparação entre o mapa potenciométrico e o
mapa topográfico, a variável Superfície Potenciométrica não é totalmente
explicada pela variável Topografia do Terreno, ou seja, devem existir outros
fatores que auxiliam no condicionamento desse comportamento.

44
Figura 3.3. Mapa da topografia local com pontos de amostragem.
Neste caso a análise de regressão múltipla foi efetuada a partir de 188
pontos, com coordenadas X-Y. Pode-se, porém, efetuar este mesmo tipo de
análise, comparando superfícies segundo metodologia encontrada no software
IDRISI 3.2 (2001). Um exemplo pode ser encontrado em LOURENÇO & LANDIM

(2004)

3.3. Aplicação do modelo linear múltiplo à confecção de mapas: análise


de superfícies de tendência.
A análise de superfícies de tendência é simplesmente um tipo de análise de
regressão múltipla em que as variáveis independentes são as coordenadas
geográficas E-W e N-S.

45
O comportamento espacial de variáveis mapeáveis pode ser mostrado com
os valores distribuindo-se segundo curvas de mesmo valor, também conhecidas
como isopletas. Tais mapas, como os topográficos ou os de isópacas, com linhas
de mesma espessura de camadas, fornecem importantes informações, porém, em
algumas situações os padrões de variação não se mostram muito claros devido a
flutuações locais ou a valores anômalos. É comum nessas circunstâncias falar-se
em tendências regionais que são mascaradas por anomalias locais. O método da
análise de superfícies de tendência pode, então, ser utilizado para evidenciar tal
situação, pois, segundo esse procedimento define-se, além das grandes e
sistemáticas mudanças existentes na área, aquelas pequenas, aparentemente não
ordenadas flutuações, que se impõem aos padrões mais gerais. Esta metodologia
foi originalmente introduzida nas Ciências da Terra por OLDHAM & SUTHERLAND

(1955), KRUMBEIN (1956,1959), GRANT (1957) e WHITTEN (1959). Esses Autores


usaram o método para obter mapas gravitacionais, mapas estratigráficos, mapas
de isópacas e mapas com atributos específicos em rochas sedimentares e ígneas.
Desde então, o número de aplicações tem crescido significantemente e o método
em si sido generalizado e refinado.
A análise de superfícies de tendência é uma técnica relativamente simples e
muito útil quando os mapas de tendência e os respectivos resíduos podem ser
interpretados a partir de um ponto de vista espacial ou então quando o número de
observações é limitado de modo que a interpolação possa ser baseada nesses
poucos dados.
Com a aplicação dessa análise consegue-se separar dados mapeáveis
em duas componentes: uma de natureza regional, representada pela própria
superfície, e outra que revela as flutuações locais, representadas pelos valores
residuais.
Se as coordenadas forem determinadas a partir de uma grade regular em
que os intervalos são iguais segundo cada uma das duas direções e se existe a
possibilidade da variação de zi ocorrer segundo um padrão cíclico, o modelo da
análise das séries de Fourier pode ser aplicado. Se as observações, porém, não
obedecem a uma periodicidade e são coletadas segundo uma grade regular é
possível efetuar uma análise de tendência a partir de polinômios ortogonais.

46
A coleta tendo sido feita, porém, de modo irregular, o que normalmente
acontece em Geologia, o recurso a ser usado é o do método dos polinômios não
ortogonais, tentando encaixar a preliminarmente uma superfície linear aos dados,
em seguida uma quadrática, uma cúbica e assim por diante. O método usual para
o ajustamento aos dados é o da regressão pelos mínimos quadrados. Em alguns
casos, como em problemas de suavização, o interesse é pelo melhor ajuste aos
dados e assim procura-se pela superfície de mais alto grau possível. Em outros,
como na detecção de anomalias, o que interessa são os resíduos e calculam-se,
então, superfícies de baixo grau com os respectivos mapas de resíduos positivos e
negativos.

3.3.1. Cálculo das superfícies


O modelo para a representação da superfície pelo método dos polinômios
não ortogonais é:

zi ( X, Y ) = [a0 + a1xi + a2 yi + a3 xi2 + a 4 xi yi + a5 yi2 + ... ] + ei ( xi, yi ) ,

onde zi ( X, Y ) é a variável mapeada em função das coordenadas xi e yi e

ei ( xi, y i ) representa os resíduos, ou seja, a fonte não-sistemática de variação.

A representação de uma superfície linear é dada por:


z( X, Y ) = a0 + a1x i + a 2 yi + ei

Para o cálculo dos coeficientes ai, dispõe-se os dados num sistema de


equações normais, sendo resolvido por cálculo matricial:

 n ∑ xi ∑ yi  a0   ∑ zi 
∑ x  
 i ∑ x i2 ∑ x i y i  
a1  = ∑ zi x i 

 ∑ y i ∑ xi yi ∑ y i2  a  ∑ zi y i 
 2
[ XY] [A] [ Z]

[XY] [A] = [Z]

[ A ] = [ XY]−1[ Z]

Para o cálculo do vetor de coeficientes [A] basta inverter a matriz [XY] e


multiplicar esse resultado pelo vetor [Z].
A superfície quadrática é representada por:

47
zi ( X, Y ) = b0 + b1xi + b2 y i + b3 xi2 + b 4 xiyi + b5 yi2 + ei ,

e a determinação dos coeficientes b0, b1, b2, b3 ,b4 e b5 para a superfície

de grau 2 torna-se:
−1
b0   n ∑ xi ∑ yi ∑ x i2 ∑ xi yi ∑ y i2   ∑ zi 
 
b 
 ∑ xi ∑ x i2 ∑ xi y ∑ x i3 ∑ x i2 y i ∑ x i y i2   ∑ x i zi 
 1 i  
b 2   ∑y ∑ xi yi ∑ y i2 ∑ x i2 y i ∑ x i y i2 ∑ y i3   ∑ y i zi 
  =   
i

 ∑ xi ∑ x i3 ∑ x i2 y ∑ x i4 ∑ x i3 y i ∑ x i2 y i2   ∑ x i2 zi 
2
b3  i
 
b 4 
∑ x i y i ∑x y2
∑ xi y 2
∑ x i3 y i ∑ x i2 y i2 ∑ x i y i3  ∑ x i y i zi 
  i
i i
 
 5 
b  ∑ y2 ∑ xi yi
2
∑ yi
3 2
∑ xi yi
2
∑ xiyi
3
∑ y i   ∑ y i zi 
4 2
 i

As superfícies de grau superior a dois seguem o mesmo processo de


desenvolvimento polinomial.
Alguns cuidados devem ser tomados quando da aplicação da análise de
tendência:
a) procurar tecer considerações apenas em relação à área coberta pelos pontos
evitando as extremidades dos mapas, pois a extrapolação pode apresentar
distorções;
b) o número de pontos deve ser maior que o número de coeficientes do polinômio
a ser calculado;
c) o arranjo dos pontos, ainda que irregular, deve ser casual e razoavelmente bem
distribuído, evitando agrupamentos;
d) quando da inversão da matriz, por programas em microcomputador, podem
ocorrer problemas com os resultados obtidos para superfícies de mais alto grau,
isso porque em sistemas com valores de diversos dígitos, tipo UTM, a precisão
computacional se deteriora exigindo formato de dupla precisão. Mesmo assim
podem ocorrer limitações e, então, a solução é a transformação das
coordenadas xi e yi, conforme as equações, que fornecem valores para as
coordenadas entre 0 e 1 e não modifica a forma das superfícies:
x i − x min y i − y min
x* = y* =
x max − x min y max − y min

3.3.2. Verificação do ajuste das superfícies de tendência aos dados


observados e intervalos de confiança

48
Sendo computadas a soma de quadrados da variável dependente, a soma
de quadrados devido à superfície polinomial e a soma de quadrados dos resíduos,
pode-se obter uma indicação da validade da superfície de tendência calculada por
uma análise de variância:
[
variação total: SQT = ∑ y i2 − (∑ yi) / n
2
]
[
variação devido à superfície calculada: SQP = ∑ y *i2 − (∑ y *i )2 /n ]
variação devido aos resíduos ou desvios: SQR = SQT - SQP
porcentagem de ajuste da superfície: R2 = ( SQP / SQT ) 100%

Tabela 3.5. Análise de variância para verificação do ajuste de superfície


Fontes de variação SQ g.l. MQ F
Regressão polinomial SQP m MSP MSP
MSR
Resíduos SQR n-m-1 MSR
Total SQT n-1

m: número de coeficientes da equação polinomial, não contando o termo a0


n: número de observações
H0: variância dos dados estimados pela superfície encontrada é igual à variância
dos dados originais, ou seja, não ocorre ajuste significativo da superfície aos
dados.
H1: variância dos dados estimados pela superfície encontrada é menor que a
variância dos dados originais, ou seja, ocorre ajuste significativo da superfície aos
dados.

Na análise de tendência é usual calcular uma série de equações polinomiais


de graus sucessivamente superiores e tentar adaptá-las aos dados. Nesse tipo de
análise a soma de quadrados devido a regressão polinomial aumentará conforme
aumentar o grau de superfície. Para verificar qual a contribuição dos sucessivos
coeficientes parciais de regressão e fornecer uma medida do ajustamento aos
dados devido a cada um dos incrementos da equação polinomial, é utilizada
também a análise de variância.
Desse modo para a verificação de qual, entre duas superfícies, que melhor
ajustou-se aos dados o seguinte teste é efetuado (DAVIS, 1986):

49
Tabela 3.6. Análise de variância para verificação da contribuição do incremento
polinomial
Fontes de Variação SQ g.l. MQ F
Regressão de grau “p” SQP k MSP
Resíduos referentes à “p” (1)MSP/MSR
SQR n-k-1 MSR
Regressão de grau “p+1” SQP1 m MSP1
Resíduos referentes à
SQR1 n-m-1 MSR1 (2) MSP1/MSR1
“p+1”
Regressão devido ao
incremento de “p” para SQI=SQP1 - SQP m - k (3) MSI/MSR1
MSI
“p+1” grau
Total SQT n - 1

n: número de observações
grau p: k coeficientes, não contando o termo a0
grau p+1: m coeficientes, não contando o termo b0
(1) teste de significância relativo à superfície de tendência de grau p
(2) teste de significância relativo à superfície de tendência de grau p+1
(3) teste de significância relativo à melhoria de ajuste da superfície p+1 em
comparação com a superfície p
H0: a contribuição do incremento polinomial para o ajuste aos dados é nula.
H1: a contribuição do incremento polinomial para o ajuste aos dados é
significativa.
Na prática cuidados devem ser tomados em relação à aplicação destes
testes estatísticos porque os mesmos somente fornecem resultados confiáveis
quando os resíduos são estocasticamente independentes, o que nem sempre
ocorre, pois freqüentemente os resíduos apresentam uma significante
autocorrelação espacial. Ver uma discussão a respeito desse tema em AGTERBERG

(1964, 1984a) e WATSON (1971).


Se considerado o modelo linear
z(X,Y) = a00 + a10Xi + a01Yj+ eij ,
e assumindo que os eij tenham média zero, sejam não correlacionados e
normalmente distribuídos com variância σ2, superfícies representando intervalos
de confiança podem ser determinadas segundo:

z * ( xi, y j ) ± [kFαQ2 ( xi, y j )s2 ]

50
z*(xi,yj): valores estimados pela superfície de tendência;
k: número de coeficientes da superfície, igual a 3 para o caso da linear;
Fα: valor a ser comparado, com k e n-k graus de liberdade e nível de significância
α
n: número total de pontos utilizados para a obtenção da superfície.
s2: estimativa da variância da população, estimada pela média quadrática;

Q2 ( x i, y j ) : valor a ser computado para pontos com coordenadas xi e yi

1
Q ( xi, y j ) = [1 xi y j ][S] xi 
2 −1
 
 y j 

[S]: matriz de somas não corrigidas de quadrados e produtos de zi


Geralmente a aplicação desta metodologia ocorre em situações em que se
procura estudar o comportamento de uma única variável espacial, ou um único
fenômeno, sobre uma determinada área. Existem, porém, situações mais
complexas, tais como:
a) distribuição de uma variável por diversas áreas diferentes como, por exemplo
porcentagem de feldspatos em diversos corpos graníticos;
b) distribuição de uma variável numa mesma área, porém a intervalos de tempo
diferentes, por exemplo variação do diâmetro médio dos sedimentos em uma
praia no transcorrer de um ano;
c) distribuição de diversas variáveis, correlacionadas entre si, sobre uma mesma
área com valores obtidos não necessariamente nos mesmos locais de
amostragem, por exemplo, distribuição geoquímica de elementos-traço.

Nessas situações surge sempre a questão de como comparar as superfícies


de tendência obtidas e para tanto existem alguns procedimentos para medir o
grau de semelhança entre elas, os quais podem ser baseados em diferentes
critérios. Ver a propósito LANDIM (2003).
Para o cálculo de superfícies de tendência existem na literatura diversos
programas. O primeiro foi publicado por KRUMBEIN (1959) e entre os que se
seguiram podem ser citados, entre outros, aqueles desenvolvidos por PEIKERT

(1963); HARBAUGH (1964); FOX (1967), que trata da análise de dados vetoriais;

51
SAMPSON & DAVIS (1967); HARBAUGH & MERRIAM (1968); PFLUG (1976); CLARK (1977) e
HAINING (1987).

3.3.3. Exemplos
São aqui apresentadas duas aplicações desta metodologia, a primeira
quando se elaborou um mapa topográfico suavizado da região centro-sul do Brasil
com vistas ao estudo da superfície Sul Americana (SOARES & LANDIM, 1976), e a
segunda sobre a avaliação do impacto ambiental causado por uma pluma de
contaminação em um corpo de água receptor (BERNARDI ET AL., 2001).

No estudo sobre os depósitos cenozóicos na região centro-sul do Brasil, foi


investigada a posição da superfície de cimeira denominada "Sul Americana" por
KING (1956), onde os testemunhos mais elevados de sedimentação cenozóica
ocorrem. Para tanto, foram escolhidos os pontos de maior altitude, na carta ao
milionésimo dessa região do Brasil por cela de 1º x 1º, e a partir dessas cotas
topográficas calculou-se superfícies de tendência desde grau 1 até grau 6 (Figura
3.4. e Matriz de dados 3.3.). Nesse trabalho o interesse dos Autores era verificar,
em escala regional, a configuração suavizada da Superfície Sul Americana. Os
resultados para as superfícies de grau 1 até grau 5 estão na Figura 3.5. Os
coeficientes de ajuste, R2, para cada uma das superfícies foram: 0,638 para grau
1; 0,678 para grau 2; 0,750para grau 3; 0,816 para grau 4; 0,855 para grau 5.

Na Figura 3.6. esta a superfície de grau 6, com R2 igual a 0,881, com a


localização dos pontos, drenagem e algumas localidades associadas para facilitar
a visualização geográfica da área estudada.

52
Figura 3.4. Mapa topográfico da Superfície Sul Americana e pontos com altitudes
coletadas.

53
FIGURA 3.5. Mapas de tendência de graus 1 à 5 referentes às cotas topográficas da
“Superfície Sul Americana”.

Bo
livi
a
7800

Barretos

S. J. Do R. Preto
700

Pa Araçatuba R. Preto
7600 rag
u ai
Pres. Prudente
Marília
Ponta Porã

Paranavaí Guaratinguetá
Londrina Campinas
7400 30 1100
0 700 Sorocaba São Paulo

400 600 800 1000 1200 1400 1600

Figura 3.6. Configuração da “Superfície Sul Americana” suavizada pela análise de


tendência de grau 6.

O outro exemplo de aplicação da análise de superfície de tendência foi


verificar o impacto da emissão de um efluente no Rio Paraíba do Sul, nas

54
cercanias de Pindamonhangaba (SP), utilizando como variável a distribuição
espacial de gêneros do plâncton (Matriz de dados 3.4.). A área estudada, com
2.900 m de comprimento por 100 m de largura, corresponde à fase meandrante
do rio, porem retificado no trecho estudado. Foram coletados 90 pontos
distribuídos, em malha regular, com intervalos ao longo da coordenada “X”,
paralela ao leito do rio, de 100 m e ao longo da coordenada “Y”, perpendicular ao
canal, com intervalos de 50 m a partir da margem direita (0 m), localizando-se o
ponto 50 na região central e o ponto 100 na margem esquerda. O efluente entra
no receptor a 1.100 m a jusante do ponto zero.
A superfície de tendência de primeiro grau mostrou uma tendência de
aumento do número de gêneros da margem direita para a esquerda. Esta
configuração está ligada à entrada do efluente, que fica na margem direita, como
mostrado na Figura 3.7. O mapa de resíduos correspondente a essa superfície
indica com clareza a distribuição espacial do número de gêneros antes da entrada
do efluente e, principalmente, depois delimitando a pluma resultante dentro da
malha de estudo e caracterizada por valores negativos (Figura 3.8.).

FIGURA 3.7. Superfície de tendência de grau 1 mostrando a distribuição do numero de


gêneros do plâncton diminuindo para a margem direita. Estão assinalados também os
locais de coleta (•).

FIGURA 3.8. Mapa de resíduos da superfície de 1o. grau. A região com valores positivos
indica valores para o numero de gêneros do plâncton acima da media regional,
representada pela curva 0, e valores negativos valores abaixo dessa média.

55
O controle de agentes poluidores, pelos órgãos competentes, é feito,
geralmente, em termos pontuais e apenas na entrada dos efluentes, não cobrindo
a pluma toda do contaminante. Como se nota por este resultado, para a
avaliação do impacto causado em um corpo de água receptor, torna-se
necessário, porém, o uso de técnicas de análise espacial.

56
REFERÊNCIAS BIBLIOGRAFICAS

AGTERBERG, F.P. (1984) - Trend Surface Analysis: in "Spatial Statistics and Models",
pp.147-171. D. Reidel Publ. Co.

BERNARDI, J. V. E.; FOWLER, H. G. & LANDIM, P. M. B. (2001) - Um estudo de impacto


ambiental utilizando análises estatísticas espacial e multivariada: Holos Environment,
1(2):162-172

BROWER, J.C. & MERRIAM, D.F. (1990). Geological map analysis and comparison of
adjacent multivariate algorithms. Geol Survey Canada Paper 89-9, p. 123-134.Thematic
map analysis using multiple regression: Math. Geology, v. 33(3), p. 353-368

BROWER, J.C. & MERRIAM, D.F. (1992). A simple method for comparison of adjacent
points on thematic maps, in Kurzl, H. and Merriam, D.F., ed. Use microcomputers in
geology. Plenum Press, New York, p. 227-240.

BROWER, J.C. & MERRIAM, D.F. (2001). Thematic map analysis using multiple regression:
Math. Geology, v. 33(3), p. 353-368

CLARK, I. (1977) - SNARK: A Four-Dimensional Trend-Surface Computer Program:


Computers & Geosciences, 3:283-308

DAVIS, J.C (1986) - Statistics and Data Analysis in Geology: 2nd ed., John Wiley and
Sons.

DAWSON, K. R. & WHITTEN, E. H. T. (1962) – The quantitative mineralogical composition


and variation of the Lacorne, La Motte, and Preissac granitic complex, Quebec, Canada:
Jour. Petrology, 3(1):1-37

FOX, W.T. (1967) - FORTRAN IV Program for Vector Trend Analysis of Directional Data:
Kansas Geol. Survey, Computer Contr., n. 11.

GRANT, F. (1957) – A problem in the analysis of geophysical data: Geophysics, 22:309-


344

HAINING, R. (1987) - Trend-Surface Models with Regional and Local Scales of Variation
with an Application to Aerial Survey Data: Technometrics, 29:461-469.

HARBAUGH, J.W. (1964) - A Computer Method for Four-Variable Trend Analysis


Illustrated by a Study of Oil-gravity Variations in Southeastern Kansas: Kansas Geological
Survey, Bull. 171.

HARBAUGH, J.W. & MERRIAM, D.F. (1968) - Computer Applications in Stratigraphic


Analysis: John Wiley and Sons.

HERZFELD, H.C. & SONDERGARD, M.A., (1988) - MAPCOMP - A FORTRAN program for
weighted thematic map comparison: Computers & Geosciences, v.14, no.5, p.699-713.

57
HERZFELD, H.C. & MERRIAM, D.F. (1991). A map comparison technique utilizing weighted
input parameters, in GAAL G., and MERRIAM, D.F. Eds. Computer applications in resource
estimations. Pergamon Press, Oxford, p. 43-52.

IDRISI 32 (2001) – Clark Labs, Clark University, MA, USA.

KING, L.C. (1956) - A Geomorfologia do Brasil Oriental: Rev. Bras. Geografia, 18:147-
265.

KRUMBEIN, W.C. (1956) – Regional and local components in facies maps: Bull. A. Assoc.
Petrol. Geologists, 40:2163-2194.

KRUMBEIN, W.C. (1959) - Trend Surface Analysis of Contour-Type Maps with Irregular
Control-Point Spacing: Jour.Geophys.Res., 64:823-834.

KRUMBEIN, W.C. & GRAYBILL, F.A. (1965) - An introduction to Statistical Model in


Geology: McGraw Hill Book.

LANDIM, P.M.B. (2003) – Análise estatística de dados geológicos: 2ª. Edição, Editora
UNESP

LEITE, C.B.B. & LANDIM, P.M.B. (2003) –Relação entre mapas temáticos por meio da
Análise de Regressão Múltipla. Solos e Rochas – Revista Latino-americana de Geotecnia,
26(3):195-203

LOURENÇO, R. W. & LANDIM, P.M.B. (2004) - Análise de regressão múltipla espacial.


UNESP/Rio Claro, IGCE, DGA, Lab. Geomatemática,Texto Didático 13, 34 pp. Disponível
em <http://www.rc.unesp.br/igce/aplicada/textodi.html

OLDHAM, C.W.G. & SUTHERLAND, D.B. (1955) - Orthogonal polynomials: their use in
estimating the regional effect: Geophysics, 20:295-306

PEIKERT,E.W.(1963) - IBM/709 Program for Least-Squares Analysis of Three Dimensional


Geological and Geophysical Observations: Tech.Rept. n.4, ONR Task n. 389-135,
Northwestern University

PFLUG, R. (1976) - Trend-Surface Analysis and Graphic Representation Using a 2-K Disk
Computer: Computers & Geosciences, 1:331-334

SAMPSON, R. & DAVIS, J.C. (1967) - Three-Dimensional Response Surface Program in


FORTRAN-II for the IBM/1620 Computer: Kansas Geol. Survey, Computer Contr., n. 10

SOARES, P.C. & LANDIM, P.M.B. (1976) - Depósitos Cenozóicos na Região centro-sul do
Brasil : Not. Geomorfológica, 16 (31): 17-39.

WATSON, G.S. (1971) – Trend-surface analysis: Journ. Int’l. Assoc. Mathematical


Geology, 3:215-226

WHITTEN, E.H. T. (1959) – Compositional trends in a granite: modal variation and ghost
stratigraphy in part of the Donegal granite, Eire: Jour. Geophys. Res. 64:835-849.

58
4. ANÁLISE DE AGRUPAMENTOS

4.1. Introdução
Análise de agrupamentos (cluster analysis) é um termo usado para
descrever diversas técnicas numéricas cujo propósito fundamental é classificar
valores de uma matriz de dados, sob estudo, em grupos discretos. A técnica
classificatória multivariada da análise de agrupamentos pode ser utilizada quando
se deseja explorar as similaridades entre indivíduos (modo Q) ou entre variáveis
(modo R) definindo-os em grupos, considerando simultaneamente, no primeiro
caso, todas as variáveis medidas em cada indivíduo e, no segundo, todos os
indivíduos nos quais foram feitas as mesmas mensurações. Segundo esse método,
desenvolvido, inicialmente em Zoologia por taxonomistas numéricos, procura-se
por agrupamentos homogêneos de itens representados por pontos num espaço n-
dimensional em um número conveniente de grupos relacionando-os através de
coeficientes de similaridades ou de correspondências.

4.2. Métodos de classificação


Segundo DAVIS (1986) os diversos métodos para a análise de agrupamentos
podem ser enquadrados em quatro tipos gerais:

a) Métodos de partição: procura classificar regiões no espaço, definido em função


de variáveis, que sejam densamente ocupados em termos de observações
daqueles com ocupação mais esparsa.

b) Métodos com origem arbitrária: procura classificar as observações segundo “k”


conjuntos previamente definidos; neste caso “k” pontos arbitrários servirão
como centróides iniciais e as observações irão se agrupando, por similaridade,
em torno desses centróides para formar agrupamentos.

c) Métodos por similaridade mútua: procura agrupar observações que tenham


uma similaridade comum com outras observações; inicialmente uma matriz n x
n de similaridades entre todos os pares da observação é calculada; em seguida,
as similaridades entre colunas são repetidamente recalculadas; colunas
representando membros de um único agrupamento tenderão apresentar
intercorrelações próximas a 1 e valores menores com não membros.

59
d) Métodos por agrupamentos hierárquicos: são as técnicas mais comumente
usadas em Geologia; a partir da matriz inicial de dados obtém-se uma matriz
simétrica de similaridades e incia-se a detecção de pares de casos com a mais
alta similaridade, ou a mais baixa distância; para essa combinação, segundo
níveis hierárquicos de similaridade, escolhe-se entre os diversos procedimentos
aglomerativo de tal modo que cada ciclo de agrupamento obedeça a uma
ordem sucessiva no sentido do decréscimo de similaridade.

4.2.1. Metodologia para agrupamentos hierárquicos


Partindo de uma matriz inicial de dados [m*n], onde "m" linhas
representam casos ou espécimes ou amostras, no sentido geológico, e as "n"
colunas são as variáveis, após terem sido feitas as comparações, usando um
coeficiente de similaridade qualquer entre linhas, obtém-se uma matriz inicial de
coeficiente de similaridade de tamanho [m*m], que será utilizada no modo Q. Se
a comparação for entre colunas, obter-se-á uma matriz inicial de coeficientes de
similaridade inicial [n*n], que será utilizada no modo R. Embora diversas medidas
de similaridade tenham sido propostas, somente duas são geralmente usadas: o
coeficiente de correlação de Pearson e a medida de distância euclidiana. Se as
variáveis forem padronizadas a partir da matriz inicial de dados, dando o mesmo
peso a cada uma delas, qualquer um desses coeficientes poderá ser diretamente
transformado no outro.
Na matriz inicial de coeficientes de similaridade estes representam o grau
de semelhança entre pares de objetos e os mesmos deverão ser arranjados de
acordo com os respectivos graus de similaridade de modo a ficarem agrupados
segundo uma disposição hierárquica. Os resultados quando organizados em
gráfico, do tipo dendrograma, mostrarão as relações entre os grupos encontrados.
Existem várias técnicas de agrupamentos, e os métodos mais comumente
usados são: “ligação simples” (single linkage method ou nearest neighbor);
“ligação completa” (complete linkage method ou farthest neighbor);
”agrupamento pareado proporcionalmente ponderado" (weighted pair-group
method, WPGM); “agrupamento pareado igualmente ponderado” (unweighted

60
pair-group method”, UPGM); “variância mínima” (minimum variance clustering ou
Ward’s method of sum-of-squares method).
No método de ligação simples os grupos iniciais são determinados pelos
mais altos coeficientes de associação mútua. Para admissão de novos membros
aos grupos é suficiente encontrar quais os que apresentam os maiores
coeficientes de associação com um dos elementos de determinado grupo. A
ligação será estabelecida a esse nível de associação com todo o grupo. No método
de ligação completa os grupos são determinados pelos mais baixos coeficientes de
associação mútua. Ambos são métodos muito simples, mas também os que
apresentam os resultados mais distorcidos.

No método de agrupamento pareado procuram-se também inicialmente


pelos mais altos coeficientes de associação mútua. Em seguida esses pares de
casos fornecerão valores médios originando um novo elemento singular. No
"método de agrupamento pareado igualmente ponderado" para o cálculo dos
valores médios atribui-se sempre o mesmo peso aos dois elementos que estão
sendo integrados. No método de agrupamento pareado proporcionalmente
ponderado para cada agrupamento é dado um peso proporcional ao número de
objetos que o constitui, de tal modo que a incorporação e um novo elemento a
um grupo baseia-se no nível médio de similaridade desse elemento com todos os
que fazem parte do grupo. Tanto num caso como no outro, alternativamente, em
vez de obter valores médios entre os casos podem ser utilizados centroides e
verificados as distâncias entre os mesmos.
No método de agrupamento pela variância mínima o enfoque é sobre a
variabilidade que existe dentro de cada grupo e os agrupamentos são efetuados
ao se determinar que pares de casos, quando tomados em conjunto, apresentam
o menor acréscimo de variabilidade.
No método de ligações singulares as ligações tendem a ocorrer a níveis
mais altos do que nos métodos de agrupamento pareado. No método de
agrupamento pareado igualmente ponderado como cada membro adicionado ao
agrupamento tem sempre o mesmo peso, isso traz como efeito que os últimos
elementos a se integrarem tem maior influência que os primeiros. No caso do
método de agrupamento pareado proporcionalmente ponderado, tal não acontece.

61
Aplicação desta metodologia tem mostrado que os métodos pareados
igualmente ponderados são superiores aos demais e que o coeficiente distância
usualmente agrupa melhor espécimes ou amostras, enquanto o coeficiente de
correlação é recomendado para o agrupamento entre variáveis. Essas afirmações
são baseadas na correlação cofenética que ao apresentar valores abaixo de 0,8
indicam distorções significativas no dendrograma obtido.
O método hierárquico tem sido preferido em relação ao que utiliza
centróides. Este porém mostra-se, em termos computacionais, mais útil quando se
tem que manipular grandes matrizes de dados, por exemplo com mais de 1.000
casos. Como “k” geralmente é pequeno, da ordem de 5, por exemplo, é mais
rápido o manuseio de uma matriz de similaridade “k x n” do que uma com
dimensões “n x n”.

4.2.2. Dendrograma
A forma gráfica mais usada para representar o resultado final dos diversos
agrupamentos é o dendrograma (Figura 4.1.). Nele estão dispostos linhas ligadas
segundo os níveis de similaridade que agruparam pares de espécimes ou de
variáveis. Como este gráfico é uma simplificação em duas dimensões de uma
relação n-dimensional é inevitável que algumas distorções quanto à similaridade
apareçam. A medida de tal distorção pode ser obtida por um coeficiente de
correlação, dito "cofenético", entre os valores da matriz inicial de similaridade e
aqueles derivados do dendrograma.
Visualmente isso pode ser também verificado por meio da construção de
um sistema de eixos ortogonais. Nele os valores dos coeficientes de similaridade
originais estarão na abcissa e os coeficientes de similaridade a partir do
dendrograma em ordenada. Se ambas as matrizes forem idênticas os pontos
cairão sobre uma linha reta que passa pela origem do sistema. Desvios dos pontos
em relação a essa reta indicarão as distorções. Se situadas acima da reta indicarão
coeficientes de similaridade apontados pelo dendrograma mais altos que os
originais e vice-versa.

62
DENDROGRAMA

9
8
11
12
2
1
6
5
3
10
7
4
16
15
28
14
13
29
26
27
30
25
24
23
22
21
20
19
18
17

0 5000 10000 15000 20000 25000 30000 35000


Coeficiente de Dimilaridade

Figura 4.1. Exemplo de dendrograma

A construção de um dendrograma pode ser esquematizada, de acordo com


o exposto na Figura 4.2. Nessa Figura, inicialmente, os mais altos índices de
correlação ocorrem entre as amostras D e E (0,66) e entre as amostras A e B
(0,57) que irão constituir novos casos na matriz de correlações já pareadas. Nessa
matriz os mais altos coeficientes de correlação ocorrem entre DE e F (0,41) e AB e
C(0,29). Finalmente a correlação final ocorre ao nível de –0,59 entre ABC e DEF.

63
Figura 4.2. Esquema de construção de um dendrograma pelo método de
agrupamentos pareados igualmente ponderados (adaptado de DAVIS, 1986)

4.2.3. Coeficientes de Similaridade


Os coeficientes de similaridade mais usuais, obtidos num espaço
multidimensional, podem ser subdivididos em três categorias:
a) os que medem a distância, ou a separação angular, entre pares de pontos;
b) os que medem a correlação entre pares de valores;
c) os que medem a associação entre pares de caracteres qualitativos.
Existem diversas publicações que discutem esses diversos tipos de medidas
como, por exemplo, SNEATH & SOKAL (1973), EVERITT (1980), PRENTICE (1980),
GORDON (1981), GREIG-SMITH (1983), PIELOU (1984), além do resumo, sobre 23
coeficientes de similaridades, constante no pacote MVSP, versão 3.1.

4.2.3.1. Medida de distância


Expressa o grau de similaridade como distância em um espaço multi-
dimensional. Quanto maior a distância, menor o grau de similaridade e vice-versa.
A distância D entre dois pontos, cuja localização é especificada num sistema de
coordenadas cartesianas, é fornecida, segundo o teorema de Pitágoras, por:

D1.2 = ( x1 − x 2 )2 + ( y1 − y 2 )2

Onde x1, x2, y1 e y2 são valores das coordenadas dos dois pontos.
Para a distância entre k pontos, num espaço n-dimensional, a fórmula
generalizada é:
n
Dij = ∑ (x
k =1
ik − x jk )2 / n

Tendo todas as variáveis o mesmo peso, conseqüentemente a função


distância será limitada a valores entre 0 (maior similaridade) e 1.0 (menor
similaridade).
Pode, também, ser utilizado o coeficiente cosseno-teta, que é uma medida
de proporcionalidade expressando o grau de similaridade em termos de separação
angular:

64
Cosθpq =
∑x x ip iq
, p e q = valores comparados
(∑ x ∑ x
ip
2
iq )
2 1/ 2

Quando a similaridade é completa, a separação angular é 0º e cos θ = 1.0;


quando não ocorre similaridade nenhuma, a separação angular é 90° e o cos θ =
0.0

4.2.3.2. Coeficientes de Correlação


Medem o grau de associação entre valores pela representação de pontos
num sistema de coordenadas e suas respectivas posições em relação a uma linha
reta. Podem tanto ser considerado o coeficiente de correlação paramétrico
(Pearson) como o não paramétrico (Spearman).
• coeficiente de correlação paramétrico (Pearson)
O coeficiente de correlação da amostra r (ou ρ*) o qual é uma estimativa
do coeficiente de correlação populacional ρ, é dado por:

Σ( xi − x ) ( yi − y )
cov( x,y ) n−1
r= =
Σ( xi − x ) Σ( yi − y )2 1/ 2
2
[var( x ) var( y )]1/ 2 [ . ]
n−1 n−1

Onde n é o número de pares de valores para xi e y i , variáveis com

distribuição normal, e x e y são os valores médios para xi e yi .


Utilizando o método dos mínimos quadrados para o cálculo do coeficiente
de correlação, a seguinte fórmula simplificada é usada:
SPXY
r=
SQX.SQY
SPXY = Σxy -(Σx. Σy) / n
SQX = Σx2 - (Σx)2 / n
SQY = Σy2 - (Σy)2 / n
Valores de r , os quais são medidas adimensionais, podem variar entre -1 à
+1, expressando desde comportamento totalmente inverso até comportamento

65
totalmente direto entre as duas variáveis. Quando r=0 significa que não há
relação linear entre x e y.
• Coeficiente de correlação não-paramétrico de Spearman
É um coeficiente de correlação não paramétrico entre duas variáveis, xi e yi
, em que para o seu cálculo inicialmente xi e yi são ordenados segundo os seus

valores de posto ( x,i e y ,i ) e em seguida encontrados os valores d = x,i − y,i .


i
Para que os valores negativos de di não cancelem os valores positivos de di

é determinado para cada caso d2 . Finalmente encontra-se a somatória dos d2 .


i i
O coeficiente de correlação será fornecido pela fórmula:

6Σdi2 , ,
r = 1− n = número de pares de valores x ,y
s i i
n3 −n
Caso ocorram muitos casos com valores de posto empatados usa-se a
fórmula:

Σx ,e + Σy ,e − Σdi2
r =
s
2 Σx ,e Σy ,e

onde
3 3
, n −n , n −n
Σx = − ΣT ; Σy = − ΣT
e 12 x e 12 y

t3 − t
T= ; T = número de observações repetidas em um determinado
12
posto.
Como um exemplo numérico seja uma matriz, de dados, fictícios, composta
por 7 amostras tendo sido obtidas em cada uma delas 6 variáveis (Tabela 4.1.).
Tabela 4.1. Tabela com 7 casos e 6 variáveis
V01 V02 V03 V04 V05 V06
Am01 1.0 2.0 3.0 4.0 5.0 6.0
Am02 5.0 4.0 1.0 8.0 7.0 9.0
Am03 6.0 5.0 4.0 2.0 7.0 9.0
Am04 6.0 4.0 2.0 1.0 3.0 7.0
Am05 9.0 2.0 1.0 4.0 7.0 8.0

66
Am06 9.0 6.0 3.0 4.0 5.0 6.0
Am07 1.0 5.0 9.0 7.0 5.0 3.0

Utilizando a medida “distância euclidiana”, obtém-se a matriz inicial de


similaridades exibida na Tabela 4.2.
Tabela 4.2.
Am01 Am02 Am03 Am04 Am05 Am06 Am07
Am01 0.0 7.3 7.2 6.6 8.7 8.9 7.9
Am02 7.3 0.0 6.9 8.4 6.1 7.3 11.0
Am03 7.2 6.9 0.0 5.1 5.7 5.3 10.7
Am04 6.6 8.4 5.1 0.0 6.3 5.3 11.4
Am05 8.7 6.1 5.7 6.3 0.0 5.3 13.2
Am06 8.9 7.3 5.3 5.3 5.3 0.0 10.9
Am07 7.9 11.0 10.7 11.4 13.2 10.9 0.0

Na Figura 4.3. estão os dendrogramas resultantes da aplicação de


cinco métodos: ligação simples, ligação completa, agrupamento pareado
proporcionalmente ponderado, agrupamento pareado igualmente ponderado e
variância mínima.
Verificar que os dendrogramas resultantes indicam praticamente os
mesmos resultados, em que pese as diferenças mostradas entre os gráficos com
relação aos níveis para agrupamentos. Não existindo testes robustos que possam
indicar qual deles é o melhor dendrograma obtido, ou seja, qual o que representa
melhor a relação entre casos, a escolha torna-se subjetiva.

Dendrograma: ligação simples

Am04

Am03

Am06

Am05

Am02

Am01

Am07

-1 0 1 2 3 4 5 6 7 8 9

67
Dendrograma: ligação completa

Am05

Am02

Am04

Am03

Am06

Am07

Am01

-1 1 3 5 7 9 11 13

Dendrograma: agrupamento pareado proporcionalmente ponderado

Am04

Am03

Am06

Am05

Am02

Am01

Am07

-1 1 3 5 7 9 11

Dendrograma: agrupamento pareado igualmente ponderado

Am04

Am03

Am06

Am05

Am02

Am01

Am07

-1 1 3 5 7 9 11

Dendrograma: variância mínima (Ward)

Am02

Am01

Am06

Am05

Am04

Am03

Am07

-8 2 12 22 32 42 52 62 72 82

Figura 4.3. Dendrogramas resultantes dos métodos ligação simples, ligação completa,
agrupamento pareado proporcionalmente ponderado, agrupamento pareado igualmente
ponderado e variância mínima.

4.2.3.3. Coeficientes binários


Expressam similaridades em termos de equiparações (matches) quando são
utilizados dados qualitativos. Neste caso comparações são feitas entre
observações reduzidas a duas categorias do tipo sim-não, presente-ausente etc.
Se verificado em 4 perfís estratigráficos a presença ou ausência de 4 tipos de
fósseis a seguinte matriz de dados binários pode ser construída:

68
Se tomados dois objetos (A e B) e um mesmo atributo estiver presente em
ambos, tal situação será representada por "a"; se presente em A, porém ausente
em B, por "c"; se presente em B, porém ausente em A , por "b" ; se ausentes em
ambos, por “d’.

Presente Ausente
Presente a b
Ausente c d

Os coeficientes binários, podem ser agrupados em:


a) coeficientes de similaridade: expressam a proporção de atributos que dois
objetos possuem mutuamente quando comparados com o número total de
atributos possuídos por um dos objetos ou pelo outro, ou por ambos;
Jaccard: a /(a + b + c )

Otsuka : a / (a + b)(a + c )

Fager : a / (a + b)(a + c ) −1/ 2 {min( a + b), (a + c ) }

b) coeficientes de associação: expressam a probabilidade de acontecimento, por


acaso, de um certo número de atributos comuns a dois objetos;
Yule : (ad − bc ) /(ad + bc )

Phi : (ad − bc )/ (a + b)(a + c )(b + d)(c + d)

69
c) coeficientes de equiparação: expressam a similaridade entre dois objetos em
termos de equiparações positivas, isto é, presença de um mesmo atributo em
ambos os objetos, em relação a equiparações negativas, isto é, ausência de um
mesmo atributo em ambos os objetos, mais equiparações desencontradas;
Simples : (a + d) / n

Hamann : (a + d − b − c ) / n

Sackin : a/n
d) coeficientes de distâncias: expressam o distanciamento entre dois objetos em
um espaço multi-dimensional;
Sokal : (b + c ) / n

Novamente, como exemplo numérico, seja uma matriz com dados binários
em que o valor “1” significa presente e o valor “0” ausente (Tabela 4.3.).
Tabela 4.3. Matriz com dados binários
V01 V02 V03 V04 V05 V06
Am01 1 1 0 0 0 1
Am02 0 0 1 1 0 0
Am03 0 1 1 0 0 0
Am04 1 1 1 1 1 0
Am05 0 0 1 1 1 1
Am06 1 1 0 0 0 1
Am07 0 0 1 1 1 1

Nessa matriz as amostras 01 e 06 são idênticas, o mesmo acontecendo


com as amostras 05 e 07.
A matriz inicial de similaridades, após calculados os coeficientes de Jaccard,
acha-se na Tabela 4.4.
Tabela 4.4. Coeficientes de Jaccard
Am01 Am02 Am03 Am04 Am05 Am06 Am07
Am01 1 0.000 0.250 0.333 0.167 1.000 0.167
Am02 0.000 1 0.333 0.400 0.500 0.000 0.500
Am03 0.250 0.333 1 0.400 0.200 0.250 0.200
Am04 0.333 0.400 0.400 1 0.500 0.333 0.500
Am05 0.167 0.500 0.200 0.500 1 0.167 1.000
Am06 1.000 0.000 0.250 0.333 0.167 1 0.167
Am07 0.167 0.500 0.200 0.500 1.000 0.167 1

70
O dendrograma resultante esta exposto na Figura 4.4.

Am07

Am05

Am02

Am04

Am03

Am06

Am01

1.08 0.98 0.88 0.78 0.68 0.58 0.48 0.38 0.28 0.18
Jaccard/UPGA

Figura 4.4. Dendrograma resultante da aplicação do coeficiente binário de Jaccard pelo


método de ligação simples. Notar as relações entre amostras 01 e 06 e entre amostras 05 e 07,
todas ao nível 1.0

4.3. Considerações finais


A aplicação desta análise é controversa entre os pesquisadores, pois pouco
se sabe a respeito dos pressupostos estatísticos dos seus vários métodos. Quando
da análise introdutória de dados tornam-se, porém, bastante eficientes para
auxiliar na formulação de hipóteses a respeito da homogeneidade ou não dessa
matriz de dados.

Existindo à disposição diversas técnicas para a análise de agrupamentos,


alem de diversos coeficientes de similaridade recomendados, e não havendo
testes estatísticos válidos para os resultados obtidos, o pesquisador geralmente
fica em dúvida sobre qual atitude tomar. Entendendo que esta análise sempre
deve ser aplicada com caráter introdutório, e nesse sentido tem o seu mérito, a
consideração de ordem pragmática a ser adotada é que o melhor método é aquele
que fornece os resultados mais coerentes com a realidade geológica em estudo.
Eventualmente, testes, como o de Hotteling ou a análise generalizada de

71
variâncias (análise de variância multivariada), podem ser posteriormente aplicados
aos agrupamentos encontrados para a verificação da sua validade estatística.

4.4. Exemplos
Como primeiro exemplo são utilizados os dados obtidos por ARAÚJO (1976),
e já analisados por LANDIM & PERINOTTO (1981), para exemplares de
mesossaurídeos coletados em diversas localidades ao longo da faixa de
afloramentos da Formação Irati na borda leste da Bacia do Paraná. Foram
consideradas três espécies: Stereosternum tumidum (COPE, 1886), Mesosaurus
brasiliensis (MACGREGOR, 1908) e Brazilosaurus sampauloensis (SIKAMA & OAKI,

1966). Os valores estão expostos na Matriz de dados 4.1.


Para a análise de agrupamentos, usando o modo Q com o coeficiente
“distância euclidiana” e método de Ward, foi obtido o dendrograma exibido na
Figura 4.5.

S28
S23
S21
S16
S19
M01
S26
S24
S27
M15
M09
S22
S17
M13
S20
S18
S25
B32
B29
B31
B30
M06
M05
M11
M14
M03
M02
M07
M12
M08
M04
M10

-20 30 80 130 180 230 280

Distância euclidiana/Ward

Figura 4.5. Dendrograma

Verifica-se que os exemplares M01, M09, M13 e M15, tidos como


Mesosaurus, estão localizados dentro de grupo do Stereosternum. Além disso os

72
quatro exemplares B29, B32, B31 e B30, todos do genero Brazilosaurus, formam
um grupo integrado ao do Stereosternum. Tal constatação merece uma reflexão
sobre a validade ou não de atribuir os exemplares M01, M09, M13 e M15 ao
gênero Mesosaurus. Alerta também para a relação próxima entre Brazilosaurus e
Stereosternum. Seriam gêneros distintos ou não?
Neste segundo exemplo, com enfoque espacial, foram utilizados dados de
RHODES (1969) ao estudar o granito “Mount Shoobridge” no norte da Austrália.
(Figura 4.6.). Nesse trabalho o Autor conseguiu mapear o corpo subdividindo-o
em três zonas petrográficas: granodiorito marginal, granodiorito porfirítico e
adamelito leucocrático na região central. Foram efetuadas análises químicas tanto
para óxidos e como para elementos traços (Matriz de dados 4.2.)

29 Pontos amostrados
21
22
35
11 2
33 9

0 400 800 m
12
34
28

25
31 26

32

30

Figura 4.6. Localização das amostras do granito “Mount Shoobridge”, Austrália (RHODES, 1969).

Como na matriz original de dados há uma mistura de óxidos com elementos


traços, com escalas diferentes de valores, antes da aplicação da análise de
agrupamentos, foi feita uma padronização, do tipo “z” das variáveis (Tabela 4.5.).

73
Tabela 4.5.
ID SiO2 TiO2 Al2O3 Fe2O3 MnO MgO CaO Na2O K2O P2O5 Rb Sr Y Th U Zr Nb Pb
35 1,9 -2,4 -2,2 -2 -1,8 -1,7 -1,8 1,3 0,1 -2,1 2,2 -2,2 -1,4 -1,8 2,4 -2,5 0,5 3,7
11 1,6 -1,6 -1,4 -1,5 -1,5 -1,5 -1,1 1,2 -0,9 -1,7 0,9 -1,6 -2 0,1 0,7 -0,9 0,1 -0,3
33 1,6 -1,5 -1,3 -1,5 -1,5 -1,5 -1,4 1,2 -0,3 -1,7 1,8 -1,7 -1,8 0,1 0,1 -1 1,1 -0,3
34 0,5 -0,4 -0,8 -0,6 -0,6 -0,5 -0,8 0,9 -0,2 -0,6 0 -0,6 -0,4 1,3 0,9 0,6 0,9 -0,3
12 0,4 0 0,4 -0,3 -0,1 -0,3 -0,5 0,5 0,4 0 0,3 0 -0,1 0,9 0,3 0,6 1,5 -0,4
31 0,3 -0,1 -0,3 -0,3 -0,3 -0,5 -0,5 0,4 -2,9 -0,1 0,6 0 -0,1 1,6 1,1 1 0,7 -0,3
22 0,3 -0,1 0 -0,3 -0,3 -0,3 -0,7 0,5 0,1 0 -1,3 -0,1 -0,1 1,3 0,4 0,9 1,1 -0,4
25 -0,3 0,6 0,5 0,2 0,2 -0,1 0,2 0,6 0,9 0,7 0,1 0,6 0,1 0,6 0 1,1 0,7 -0,2
28 -0,4 0,7 1,6 0,3 -0,1 -0,1 0,5 0,1 0,1 0,6 -0,2 0,8 0,3 -0,3 0,1 1,2 0,1 -0,4
21 -0,3 0,6 0,4 0,3 0,2 0,4 0,2 0,3 0,1 0,7 -0,3 0,6 0,3 0 -0,6 0,3 0 -0,2
30 -1,1 0,7 0,4 1 1,4 0,8 1,1 -1,1 1,2 0,6 -1,1 0,3 0,7 -1 -1,4 -0,1 -1,7 0,2
29 -0,9 0,7 0,8 1 1,1 0,8 0,9 -0,8 0,2 0,4 -0,4 0,6 0,9 -0,7 -1,2 0,2 -0,9 -0,3
9 -0,8 0,5 0,5 0,8 0,6 0,7 0,5 -1,4 1,4 0,7 -0,5 0,7 0,9 0 -1 -0,1 -0,5 -0,2
26 -0,9 0,7 1,2 0,9 0,9 1,1 0,8 -1,4 0,8 0,7 -0,6 1,1 0,9 -0,2 -0,4 -0,2 -1,4 -0,1
2 -0,8 0,7 0,3 0,9 0,9 1 1,2 -1,3 -0,7 0,7 -0,1 0,6 1,3 -0,3 -0,3 0 -1,1 -0,2
32 -1,3 0,9 0,1 1,2 1,1 1,6 1,5 -1,1 -0,4 1,2 -1,3 0,8 0,7 -1,7 -1,2 -1,1 -1,1 -0,3

Aplicando a análise de agrupamentos aos dados padronizados, o resultado


mostra três conjuntos (Figura 4.6).

22
12
34
31
21
25
28
26
9
30
2
29
32
33
11
35

0 20 40 60 80 100 120 140 160

Distância euclidiana/Ward

Figura 4.6.

A distribuição espacial, de acordo com a análise de agrupamentos acha-se


na Figura 4.7., a qual esta de acordo com os resultados obtidos por RHODES (1969)

74
Figura 4.7. Comparação entre o resultado obtido por Rhodes (1969) e o coincidente obtido pela
análise de agrupamentos.

75
REFERÊNCIAS BIBLIOGRÁFICAS

ARAÚJO, D.C. (1976) - Taxonomia e Relações dos Progranossauria da Bacia do Paraná:


An. Acad. Brasil. Ciênc., 48 (1):91-116

DAVIS, J.C (1986) - Statistics and Data Analysis in Geology: 2nd. ed., John Wiley and Sons,
Inc.

EVERITT, B. (1980) – Cluster Analysis: 2nd ed., Gower Publishing Co.

GORDON, A. D. (1981) – Classification: Chapman and Hall

GREIGH-SMITH, P. (1983) – Quantitative Plant Ecology: University of California Press,


Berkeley

LANDIM, P. M. B. & PERINOTTO, J A J. (1981) - Taxonomia numérica dos mesossaurídeos


da Formação Irati (Permiano da Bacia do Paraná). In: Simpósio Regional de Geologia, v.
2. p. 201-212.

MVPS/Plus (1998) – Multi-Variate Statistical Pacckage, version 3.1.: Kovach Computing


Services

PIELOU, E.C. (1984) – The Interpretation of Ecological Data: Wiley-Interscience

PRENTICE, I.C. (1980) – Multidimensional scaling as a research tool in Quaternary


palybology: A review of theory and methods: Review of Paleobotany & Palynology,
31:71-104

RHODES, J.M. (1969) - The application of cluster and discriminatory analysis in mapping
granite intrusions: Lithos, 2:223-237.

SNEATH, D. H. & SOKAL, R. R. (1973) – Numerical Taxonomy: W. H. Freeman & Co.

76
5. ANÁLISE DE COMPONENTES PRINCIPAIS

É o mais antigo método de ordenação, o mais conhecido e com mais


exemplos de aplicação em Geociências. Trata-se de uma técnica para encontrar
componentes lineares de variáveis correlacionadas por meio do cálculo dos
autovalores e correspondentes autovetores de uma matriz de variâncias-
covariâncias ou de uma matriz de coeficientes de correlação entre variáveis.
Tradicionalmente o coeficiente de correlação é mais usado, em vez de
covariância, para a matriz inicial de similaridades. Isso porque o coeficiente de
correlação elimina o efeito de escala: uma variável que oscile entre 0 e 1 não pesa
mais do que uma variável variando entre 0 e 1000. No entanto sendo as variáveis
obtidas em escalas idênticas ou quando se quer ressaltar a variância das
variáveis, que influenciam nas cargas fatoriais, a covariância é utilizada. Quando
as variáveis, devido a escalas diferentes de mensurações empregadas, não podem
ser diretamente comparadas, torna-se necessário preliminarmente padronização,
de modo que as variáveis transformadas passem a ter média zero e variância
unitária, o que é conseguido pela transformação "z". Nesses casos, com variáveis
padronizadas, a matriz de variâncias-covariâncias e a de coeficientes de correlação
tornam-se idênticas. Como tal padronização acarreta uma forte influência na
estrutura da matriz de variâncias-covariâncias e, conseqüentemente, nos
resultados da análise, a sua utilização deve ser criteriosa levando sempre em
conta a natureza dos dados em estudo e o enfoque que se pretende dar.
A análise das componentes principais não é sinônimo de análise fatorial ou
análise de fatores e essa confusão terminológica deve ser evitada. A primeira
análise consiste numa transformação linear de "n" variáveis originais,
normalmente correlacionadas entre si, em "n" novas variáveis não
correlacionadas. Essas novas variáveis são denominadas componentes principais,
de tal modo que a primeira nova variável computada seja responsável pela maior
variação possível existente no conjunto de dados, a segunda pela maior variação
possível restante e assim por diante até que toda a variação do conjunto tenha
sido explicada. Na análise de fatores supõe-se que as relações existentes dentro
de um conjunto de "n" variáveis seja o reflexo das correlações de cada uma
dessas variáveis com "p" fatores, mutuamente não correlacionáveis entre si,

77
sendo "p" menor que "n". O extremo cuidado que se deve ter é com relação à
especificação do número e, principalmente, do significado dos "p" fatores que
emergem a partir dessa análise. Ver a respeito JÖRESKOG, KLOVAN & REYMENT (1976)
e REYMENT E JÖRESKOG (1996)
A análise das componentes principais é, portanto, uma técnica de
transformação de variáveis. O método apresenta melhores resultados se,
originalmente, já existe alguma correlação entre variáveis ou grupo de variáveis e
se o número de variáveis é significativo.
v1 v2 v3 v4
v 2 0,84
v 3 0,80 0,96
v 4 0,21 0,18 0,31
v 5 0,13 0,23 0,24 0,91
Neste exemplo com apenas 5 variáveis facilmente se verifica que existem
dois grupos de variáveis, devido ao grau de correlação entre si, um grupo
constituído pelas variáveis 1,2 e 3 e outro pelas variáveis 4 e 5.
Como dito, se cada variável medida pode ser considerada como um eixo de
variabilidade, estando usualmente correlacionada com outras variáveis, esta
análise transforma os dados de tal modo a descrever a mesma variabilidade total
existente, com o mesmo número de eixos originais, porém não mais
correlacionados entre si. A posição espacial dos pontos no espaço
multidimensional permanece a mesma, mudando apenas, por rotação ortogonal,
os eixos originais que passam a ser denomnados componentes principais (Figura
5.1.).

78
Figura 5.1. Diagrama bivariado mostrando a distribuição dos pontos em relação às variáveis
originais X1 e X2 e em relação às novas componentes, C1 e C2. A componente C1 representa a
maior porcentagem da variabilidade total presente e C2, diposta ortogonalmente, a variabilidade
restante.
A análise de componentes principais inicia-se a partir de uma matriz de m
casos com n variáveis.
casos X1 X 2 L Xn
1 x11 x12 L x1n
2 x 21 x 22 L x 2n
M M M O M
m x m1 x m 2 L x mn

A primeira componente principal é definida como


Z1 = a11X1 + a12X2 + ... + a1nXn,
respeitada a condição de que
a211 + a212 + ... +a21n = 1.
Com essa restrição a variância de Z1 torna-se a maior possível. A segunda
componente principal, Z2, é definida como
Z2 = a21X1 + a22X2 + ... + a2nXn,
tambem respeitada a condição de que
a221 + a222 + ... +a22n = 1,
e também que Z1 e Z2 tenham correlação zero.
As componentes principais posteriores são definidas em continuação de
modo idêntico, de tal maneira que se existem n variáveis, deverão existir no
máximo n componentes principais.

79
Os pesos ai, também conhecidos como carregamentos (loadings) são
obtidos a partir de uma matriz de variâncias-covariâncias amostrais ou de
correlações lineares amostrais.
c 11 c 12 L c 12 
c c 22 L c 2n 
C =  21
 M M O M 
 
c n1 c n2 L c nn 

Cada elemento cij na diagonal de C é a variância de Xi, e os termos fora da


diagonal são as covariâncias entre as variáveis Xi e Xj.
As variâncias das componentes principais são os autovalores da matriz C.
Existem n desses autovalores, podendo alguns serem igual a zero, mas nenhum
com valor negativo.
Assumindo que os autovalores estão ordenados como λ1≥ λ2≥... λi≥0,

então λi corresponde à i-ésima componente principal


Zi = ai1X1 + ai2X2 + ... + ainXn.
Desse modo Var(Zi) = λi e as constantes ai1, ai2,...,ain, são os elementos do
correspondente autovetor, escalonado de modo que
a2i1 + a2i2 + ... + a2in = 1.
Uma importante propriedade dos autovalores é que a sua soma é igual à
soma dos elementos da diagonal da matriz C, ou seja, do seu traço
λ1 + λ2 + ... + λn = c11 + c22 + ... + cnn.
Sendo cij a variância de Xi e λi a variância de Zi, isto significa que a soma as
variâncias das componentes principais é igual à soma das variâncias das variáveis
originais. Em outras palavras, pode-se definir a variância total existente em um
conjunto de dados multivariados pela soma das variâncias de cada uma das
variáveis. Numa matriz de variâncias-covariâncias essas variâncias individuais
constituem os elementos da diagonal principal. Basta somá-los, portanto,
encontrando o traço da matriz para se obter a variabilidade total, e em seguida a
contribuição de cada variável. A soma dos autovalores dessa matriz, igual também
ao seu traço, representa também a variabilidade total da mesma e a contribuição
de cada autovalor em termos de variabilidade pode ser determinada. Ao primeiro

80
corresponderá a maior variabilidade possível existente, ao segundo a maior
variabilidade possível restante e assim por diante.
Na tabela 5.1. estão valores para as variáveis X1 e X2 que apresenta um
coeficiente de correlação igual a -0,11. Esses valores foram ordenados em ordem
crescente originando as novas variáveis X1* e X2* com coeficiente de correlação
igual a 0,98.
Tabela 5.1. Valores para as variáveis X1, X2, X1* e X2*
ID X1 X2 X1* X2*
1 36 42 10 3
2 92 63 11 7
3 73 51 17 12
4 61 22 20 13
5 10 33 21 17
6 91 87 23 18
7 21 3 23 22
8 91 17 23 28
9 98 18 27 33
10 96 71 36 37
11 52 54 39 42
12 39 44 43 43
13 77 43 43 43
14 53 7 47 44
15 63 28 52 51
16 23 89 53 54
17 86 58 54 58
18 43 80 58 63
19 23 43 61 64
20 58 13 63 64
21 47 64 73 65
22 27 12 77 71
23 54 81 86 71
24 95 37 91 71
25 23 76 91 76
26 20 71 92 80
27 11 94 95 81
28 96 64 96 87
29 43 65 96 89
30 17 71 98 94

A distribuição espacial das variáveis X1 e X2 pode ser observada na Figura


5.2., onde se constata facilmente a não correlação linear entre os valores.

81
100

27
90
16
6

80 18 23
25
70 26 10
30
29 21 28
2
60
17
11
3
X2

50

19 12 13
1
40
24
5
30
15
4
20
8 9
22 20
10
14
7
0
0 10 20 30 40 50 60 70 80 90 100

X1

Figura 5.2. Distribuição dos pontos em relação às variáveis X1 e X2.

Aplicando a esses valores uma análise de componentes principais a partir


de uma matriz de variâncias-covariâncias obtem-se o seguinte resultado:
Variáveis X1 X2
X1 870.4471 -84.033
X2 -84.033 705.5506

CP1 CP2
Autovalor 905.724 670.273
Variabilidade (%) 57.470 42.530
% acumulada 57.470 100.000

A variação total no sistema é igual a 1576,00 (870,45 + 705,55) sendo esse


mesmo valor a soma dos dois autovalores. Como a correlação entre as variáveis é
praticamente nula as duas componentes principais tem valores muito
semelhantes. O resultado encontra-se na Figura 5.3.

82
Análise de componentes principais

80

60
6
40 10
Componente II (42.53 %)

23 28
27 16 18 2
20
25 17
29 21 3
30 26 11 24
13
0

12
9
-20 19 1 15 8
4
5 20
-40
14
22
-60 7

-80
-80 -60 -40 -20 0 20 40 60 80
Componente I (57.47 %)

Figura 5.3. Análise das components principais referente às variáveis X1 e X2.

No caso das variáveis X1* e X2* a relação é nitidamente linear (Figura


5.4.).
100

30
90
29
28
26
80 27
25
70 22 23 24
18 20 21
60 19
17
16
X2*

50 15
12
14
11 13
40
10
9
30
8
7
20
5 6
3 4
10
2
1
0
0 10 20 30 40 50 60 70 80 90 100

X1*

Figura 5.2. Distribuição dos pontos em relação às variáveis X1* e X2*.

A variação total no sistema permanence a mesma, porem neste caso a


primeira componente principal se destaca, com um valor de 98,87%. Isso pode
ser verificado na Figura 5.5.

83
Variáveis X1* X2*
X1* 870.4471 765.829
X2* 765.829 705.5506

CP1 CP2
Autovalor 1558.253 17.745
Variabilidade (%) 98.874 1.126
% acumulada 98.874 100.000

Análise de componentes principais

20

10
Componente II (1.13 %)

18
9 17 19
8 11 20
16 30
10 13 15
12 29
14 22
0
7 28
21
56 26
2 3
4 27
1 23 25

-10 24

-20
-80 -60 -40 -20 0 20 40 60 80
Componente I (98.87 %)

Figura 5.3. Análise das components principais referente às variáveis X1* e X2*.

A matriz obtida, resultado das interrelações entre variáveis pode ser


interpretada como um procedimento estatístico no qual os dados seriam amostras
de populações multidimensionais. Já a matriz, que apresenta as interrelações
entre casos ou amostras, no sentido geológico, não são usualmente passíveis de
serem submetidas a testes estatísticos. Os autovetores correspondem às
componentes principais e são o resultado do carregamento das variáveis originais
em cada um deles. Tais carregamentos podem ser considerados como uma
medida da relativa importância de cada variável em relação às componentes
principais e os respectivos sinais, se positivos ou negativos, indicam relações
diretamente e inversamente proporcionais.
A matriz de carregamentos de cada variável nas componentes principais ao
ser multiplicada pela matriz original de dados fornecera a matriz de pontuações
(scores) de cada caso em relação às componentes principais. Desse modo,

84
utilizando-se da multiplicação da matriz de dados originais pela matriz de
autovetores, obtém-se uma matriz de dados transformados que representam
projeções dos pontos, num espaço multidimensional, sobre as diversas
componentes principais. Esses valores poderão então ser dispostos num diagrama
de coordenadas cartesianas, em que os eixos são as duas componentes mais
importantes, e mostrar o relacionamento entre os casos condicionados pelas
variáveis medidas.
Eventualmente num mesmo gráfico, denominado “biplot”, poderão constar
tanto a disposição espacial das amostras como das variáveis que condicionam tal
distribuição (XLStat, v. 2010). Ver a propósito GABRIEL (1971), GOWER & HAND

(1996) e LEGENDRE (1998). A representação gráfica simultânea de amostras e


variáveis não pode, porem, ser feita diretamente tomando as respectivas
coordenadas resultantes no espaço 2D. Torna-se necessária uma transformação
para que o resultado respeite o fato de que a projeção das observações sobre os
vetores de variáveis sejam representativos da relação original.
Um dos métodos usados para a representação gráfica é o da “correlação”.
Esse tipo de “biplot” interpreta os ângulos entre os vetores de variáveis como
sendo diretamente relacionados com as correspondentes correlações. A posição
de observações projetadas no vetor-variavel representa a sua importância para a
constituição desse vetor. A distância entre duas observações é uma aproximação
da distância de Mahalanobis existente no espaço multidimensional entre essas
mesmas observações e o tamanho do vetor-variável equivale ao desvio padrão
dessa variável.
Um outro médoto é o da “distância”. Interpreta as distâncias entre
observações como sendo uma aproximação da distância euclidiana no espaço n-
dimensional. A posição de duas observações projetadas em um vetor-variável
pode ser usada para determinar o seu nível de importância em relação a essa
variável e o comprimento de um vetor-variável no espaço de representação é
indicativo do nível de contribuição da variável para a construção desse espaço.
Um terceiro tipo de representação gráfica é conhecido como “simétrico” e é
uma proposta intermediária entre os dois anteriormente apresentados (JOBSON,
1992).

85
5.2. Análise das Coordenadas Principais
A Análise das Coordenadas Principais é uma técnica de ordenação para o
modo Q, ou seja, entre casos, espécimes ou objetos. Enquanto a Análise das
Componentes Principais é aplicada principalmente para o modo R e, para tanto,
utiliza matrizes de variâncias-covariâncias ou de correlações, a Análise das
Coordenaadas Principais pode usar uma variedade de diferentes medidas de
distância ou de similaridade, mas sempre medidas diretamente entre os espécimes
e não entre variáveis. Neste caso os autovetores resultantes representam os
scores para os espécimes. Fornece, assim, uma ordenação direta entre casos e é
muito útil nas situações quando se dispõe de uma matriz de dados com mais
variáveis do que espécimes. Nessa análise, porém, não são fornecidos cargas ou
pesos (loadings) para as variáveis. Recomenda-se o trabalho de Gower (1966)
para o detalhamento desta análise.
O primeiro passo é a obtenção de uma matriz m x m de similaridades, na
forma de distâncias entre os objetos e diversas categorias de medidas de distância
ou de sililaridade podem ser usadas. Se os dados a serem analisados forem uma
mistura de valores contínuos e medições binárias ou multiestados, o coeficiente de
distância de Gower pode ser aplicado. Outras distâncias, como a euclidiana ou a
“Manhattan métrica”, podem também ser utilizadas. O uso da distância euclidiana
para esta análise fornece o mesmo resultado que uma análise das componentes
principais no modo “Q”.
A formula para o coeficiente de distância de Gower é:
n
 | x ik − x xj | 
Gij = ∑ 1 −  /n
k =1  alcance k 

Para o cáculo desse coeficiente entre os objetos i e j, a diferença absoluta


entre ambos para a variável k é dividida pelo alcance de k. Isso fornece um valor
entre 0 e 1, onde um valor pequeno representa alta similaridade e um valor
próximo a 1 indica máxima dissimilaridade. Para tornar esta medida semelhante
ao coeficiente de correlação essa quantia é subtraída de 1. Os cálculos se repetem
para as demais variáveis medidas nos objetos i e j e após a soma final o total é
dividido pelo numero de variáveis.
A distância métrica de Manhattan é calculada segundo:

86
n
MMdij = ∑ | x ik − x jk | ,
k =1

onde “i” e “j” representam duas linhas (casos ou espécimes) de uma


matriz de dados e “k” representa as colunas (variáveis) e “n” número total de
variáveis:
Se usado o coeficiente de Gower para a obtenção da matriz [A], de
dimensões m x m, ela será simétrica com valores 1 na diagonal principal e valores
entre o e 1 nas demais posições. Os valores de cada linha e cada coluna dessa
matriz são somados e após a divisão por m fornecerão as medias das linhas e das
colunas, a j• e a•k respectivamente. O total geral tanto das linhas como das

colunas são também encontrados, &a&& . Os elementos ajk são, então, transformados,
para originar uma nova matriz [Q], pela seguinte operação:
q jk = a jk + &a&&•• − ( a j• + a•k )

Os m objetos, ou casos, estão localizados no espaço n-dimensional definido


pelas n variáveis e a tranformação “q” move a origem do sistema de coordenadas
de modo a coincidir com o centróide da nuvem de dstribuição de pontos. A
operação também acarreta intervalos fechados para os dados já que todas as
linhas e colunas somam zero, resultando que nenhum autovalor de [Q] seja
forçado a apresentar o valor zero. Em seguida os autovalores e autovetores de
[Q] são calculados, sendo estes as coordenadas principais.
A importância relativa de cada coordenada pode ser determinada ao
calcular a porcentagem do traço de [Q] contida em cada autovalor sucessivo.
Geralmente somente as primeiras duas ou três coordenadas são de interesse. O
último passo é colocar em gráfico 2-D os carregamentos das coordenadas
principais.
Os resultados da análise das coordenadas principais são métricos e essa
característica apresenta um interesse especial. Para uma medida ser considerada
métrica tem que obedecer certos pressupostos matemáticos, como poder ser
visualizada de um modo gráfico. Assim, por exemplo, as distâncias entre três
pontos devem obedecer aos vértices de um triângulo. Isso significa que a
distância entre dois dos pontos, ou seja, um dos lados do triângulo, deve ser
sempre menor que soma das outras duas distâncias. Isso nem sempre ocorre

87
como num conjunto de coeficientes de correlação se os valores forem tratados
como “distâncias” não será possível escolher três entre eles para traçar um
triângulo.
Nesse sentido a Análise das Coordenadas Principais deve ser usada para a
visualização gráfica de uma matriz quadrada que descreva similaridades ou
dissimilaridades entre objetos. O exemplo a seguir ilustra tal afirmação. Os dados
são os mesmos usados para a aplicação da análise de agrupamentos, com o
coeficiente de Jaccard, para dados binários. A matriz de similaridades inicial foi,
portanto, aquela matriz obtida pelos coeficientes de Jaccard (Tabela 4.4.).

Am01 Am02 Am03 Am04 Am05 Am06 Am07


Am01 1 0.000 0.250 0.333 0.167 1.000 0.167
Am02 0.000 1 0.333 0.400 0.500 0.000 0.500
Am03 0.250 0.333 1 0.400 0.200 0.250 0.200
Am04 0.333 0.400 0.400 1 0.500 0.333 0.500
Am05 0.167 0.500 0.200 0.500 1 0.167 1.000
Am06 1.000 0.000 0.250 0.333 0.167 1 0.167
Am07 0.167 0.500 0.200 0.500 1.000 0.167 1

O resultado esta na Figura 5.4.


0.5

Am03

0.3

Am02
CoP II

0.1

Am04

-0.6 -0.4 -0.2 0 0.2 0.4 0.6

Am06
-0.1
Am01

Am07

Am05
-0.3

CoP I

Figura 5.4. Gráfico resultante da Análise das Coordenadas Principais

Este resultado é semelhante ao encontrado pela aplicação da análise de


agrupamentos usando o coefficiente de Jaccard. Neste caso, porem, a visualização

88
gráfica e, consequentemente, o entendimento sobre o relacionamento entre as
amostras, é superior ao dendrograma que havia sido obtido.

5.3. Análise de agrupamentos e Análise das componentes principais


Ambos os métodos tem início a partir de uma única matriz de dados e,
embora, baseados em metodologias diferentes, isto é, uso de coeficientes de
similaridades e cálculo de autovalores, seus resultados são equivalentes podendo,
portanto, serem aplicados em conjunto. O exemplo enfocado é constituído por
análises químicas de óxidos provenientes de 20 tipos de rochas, retirado de DAVIS,

1986:569 (Matriz de dados 5.1.).


Na Figura 5.7. esta o resultado da análise de agrupamento mostrando
apenas 3 grupos, mas sem apresentar uma indicação do por que de tal separação.

08.Q-Diorito
04.Monzonito
10.Gabro
09.Gabro
05.Diorito
20.Diabasio
03.Sienito
19.Monzonito
07.Diorito
15.Sienito
02.Sienito
18.Monzonito
01.Sienito
16.Q-Sienito
13.Hip-Gabro
12.Norito
17.SienitoA
11.Norito
06.Diorito
14.Hip-Gabro

-110 -10 90 190 290 390 490 590 690 790

Distância euclidiana/Ward

Figura 5.7. Dendrograma mostrando 3 grupos de rochas com base nos óxidos presentes.

Já o resultado da análise das componentes principais, mostrado num


gráfico “biplot”, alem de confirmar a separação entre as rochas fornece
informações sobre a relação entre as mesmas e os óxidos analisados (Figura 5.8.).
Por essa relação pode-se formular a hipotese de que tal separação tem origem no
processo geoquímico de diferenciação magmática. À esquerda estão rochas
constituídas por minerais máficos ou fêmicos e à direita por minerais félsicos ou

89
siálicos. Em apoio a essa hipótese na Tabela 5.2. estão os valores médios dos três
grupos.

Amostras e variáveis
20

CaO
13.Hip-Gabro

10
Componente II (12.67 %)

Al2O3 05.Diorito
12.Norito 09.Gabro 18.Monzonito
20.Diabasio Fe2O3
06.Diorito 03.Sienito
04.Monzonito 02.Sienito
10.Gabro Na2O
0
08.Q-Diorito 15.Sienito
07.Diorito 01.Sienito
17.SienitoA
K2O 19.Monzonito SiO2
11.Norito MgO
16.Q-Sienito

-10

FeO

14.Hip-Gabro

-20
-40 -30 -20 -10 0 10 20 30 40 50

Componente I (70.37 %)

Figura 5.8. Análise de components principais mostrando a distribuição e relação simultânea entre
amostras e variáveis.
Tabela 5.2. Valores médios dos óxidos para cada um dos três grupos encontrados pela análise de
agrupamentos
Si Al Fe+3 Fe+2 Mg Ca Na K
06Diorito 46.9 15.9 2.9 10 7 9.6 2.7 0.7
11 Norito 47.2 14.5 1.6 13.8 5.2 8.1 3.1 1.2
12Norito 48.2 18.3 1.3 6.1 10.8 9.4 1.3 0.7
13 HipGabro 44.8 18.8 2.2 4.7 11.3 14.6 0.9 0.1
14HipGabro 47 14.1 0.8 15 16 2.3 0.4 1.7
17SienitoAIt 50 9.9 3.5 5 11.9 8.3 2.4 5
Teor médio 46.95 15 1.85 12.5 11.5 5.95 1.55 1.2
03Sienito 51.2 17.6 3.5 4.3 3.2 4.5 5.7 4.4
04Monzonito 54.4 14.3 3.3 4.1 6.1 7.7 3.4 4.2
05Diorito 58 15.7 0.7 2.8 5 10.9 3 3.2
08QDiorito 55.5 16.5 1.7 4.6 6.7 6.7 3.2 2.5
09Gabro 55.4 15.3 2.7 5.5 5.8 9.9 2.9 1.5
10Gabro 55.9 13.5 2.7 5.9 6.5 8.9 2.4 1.7
20Diabasio 52.2 18.2 3.3 4.4 4.7 6.5 4.6 1.9
Teor médio 55.15 13.9 3 5 6.3 8.3 2.9 2.95
01Sienito 61.7 15.1 2 2.3 3.7 4.6 4.4 4.5
02Sienito 58.3 17.9 3.2 1.7 1.5 3.7 5.9 5.3
07Diorito 58 17.3 2.2 3.8 2.2 4.3 4.3 4.1
15Sienito 59.8 17.3 3.6 1.6 1.2 3.8 5 5.1
16QSienito 66.2 16.2 2 0.2 0.8 1.3 6.5 5.8
18Monzonito 57.4 18.5 3.7 2.1 1.7 6.8 4.5 3.7
19 Monzonito 59.8 15.8 3.8 3.3 2.2 3.9 3 4.4
Teor médio 57.85 18.2 3.45 1.9 1.6 5.25 5.2 4.5

90
5.5. Exemplos
5.5.1.
Os mesmos dados referentes aos mesossaurídeos da Formação Irati foram
submetidos à análise de componentes principais, a qual forneceu o seguinte
resultado:

Autovalores:

CP1 CP2 CP3 CP4


Autovalor 2.185 1.148 0.533 0.134
Variabilidade (%) 54.627 28.693 13.323 3.357
% acumulada 54.627 83.321 96.643 100.000

Autovetores:

CP1 CP2 CP3 CP4


cranio 0.611 -0.174 -0.414 -0.652
pescoço 0.138 0.856 -0.459 0.193
Dcompr 0.609 -0.315 -0.102 0.721
Dlargura 0.486 0.371 0.779 -0.138

Este resultado mostra que os maiores pesos para a constituição do


autovetor 1, que responde por 54,62% da variabilidade presente, são as variáveis
crânio e comprimento dos dentes e para o autovetor 2, com 28,69%, é a variável
“pescoço”.

91
Variáveis (eixos F1 e F2: 83.32 %)
1
pescoço

0.75

0.5

Dlargura

0.25

F2 (28.69 %)

-0.25
cranio

Dcompr
-0.5

-0.75

-1
-1 -0.75 -0.5 -0.25 0 0.25 0.5 0.75 1

F1 (54.63 %)

A multiplicação da matriz original de dados pela matriz de autovetores


fornece os factor scores dos espécimes. Escolhidos os dois principais eixos ou
componentes principais, correspondendo a uma porcentagem acumulada dos
autovalores da ordem de 96,83%, obtém-se a distribuição espacial dos factor
scores (Figura 5.9.).
3

B32

2 M12
B30
S24
B29
B31
CP2 (28.69 %)

1
S27
S26
S28

M11 M10
S25 S23
0
S21 M01
S16
S18 M08
S17 M14 M05
S20 M04
M06
M03
S22
-1 M09
S19
M13
M07
M15
M02

-2
-3 -2 -1 0 1 2 3 4
CP1 (54.63 %)

Figura 5.9. Resultado da análise de components principais mostrando a disribuição dos três grupos
de mesossaurídeos
Os resultados apresentados pela análise das componentes principais , são
bastante semelhantes aos obtidos pela análise de agrupamentos e, portanto,

92
merecem as mesmas considerações anteriormente apresentadas. Nesta análise
constata-se, porém, que os espécimes 01 e 13, Mesosaurus, é que estão mais
associados ao campo dos Stereosternum. Também a posição espacial de
Brazilosaurus fica mais clara, próxima mas separada de Stereosternum e distante
de Mesosaurus.

5.5.2.
O objetivo de qualquer análise estatística, inclusive a multidimensional, é
inferir propriedades da população a partir de amostras estudadas. Valores
anômalos (outliers) presentes podem, porém, levar a conclusões errôneas e daí o
interesse em detectá-los. A análise das componentes principais é capaz de tel
detecção e, como exemplo é apresentado a matriz de dados contendo a
composição mineral de uma rocha artificial, denominada “hongito” por Aitchison
(1986), constituída por 25 espécimes e 5 variáveis. A essa matriz foram
adicionados dois valores anômalos, com altos valores na 4ª e 5ª variáveis e baixos
valores na 1ª variável (Matriz 5.2.).
Na Figura 5.10. esta o resultado da análise das componentes
principais aplicada à amostra de hongito com 25 valores e na Figura 5.11. o
resultado com os dois valores anômalos. Comparando as duas figuras fica
evidente a identificação dos valores anômalos.

93
3

14

2
6

7 16
CP II (24.28 %)

22 21 20
23
17 4
18 8
0

11
5 25
2 24 3
10 9
-1

1 15
13
19
12
-2
-3 -2 -1 0 1 2 3 4

CP I (57.22 %)

Figura 5.10.: Análise das componentes principais aplicada à 25 espécimes de hongitos

2
8
16 13
3
1
9
20
19 24 15 10
14 11 1 12
0

21 4 18 17
2 5 23
CP II (21.26 %)

25 22 6
7
-1

-2 26

-3

27
-4
-5 -4 -3 -2 -1 0 1 2 3

CP I (57.46 %)

Figura 5.11. Análise das componentes principais aplicada à 25 espécimes de hongitos, acrescdos
de mais 2 espécimes anômalos.

5.5.3.

94
Dados retirados de MILLER & KAHN, 1962 (Matriz 5.3.). Medidas cranianas
foram obtidas em 7 espécies fósseis de oreodontes (mamífero do Eoceno-
Oligoceno dos Estados Unidos da América). As espécies consideradas são as
seguintes: Subdesmatochoerus sp. (Su), Megoreodon gigas loomisi (Me), O.
osborni (Oo), Psuedodesmatochoerus (Ps), Desmatochoerus hatcheri (De), M.
culbertsoni (Mc) e Prodesmatochoerus . meeki (Pr).

As variáveis medidas são as seguintes:


BC-W: largura da caixa craniana na altura da região parietal-escamosal
TR-L: comprimento máximo dos dentes molariformes
Bu-L: comprimento máximo da “bulla” timpânica
Bu-HP: comprimento máximo da “bulla” timpânica medida do bordo dorsal até o
processo paroxipital.
A aplicação da análise das componentes principais, a partir de uma matriz
de variâncias-covariâncias revelou o seguinte resultado:

Matriz de correlação (Pearson (n-1)):


Variáveis BC-W TR-L Bu-L Bu-HP
BC-W 1 0.897 0.813 0.711
TR-L 0.897 1 0.845 0.706
Bu-L 0.813 0.845 1 0.911
Bu-HP 0.711 0.706 0.911 1

Autovalores:
CP I CP II CP III CP IV
Autovalor 3.444 0.390 0.112 0.054
Variabilidade % 86.099 9.750 2.790 1.361
% acumulada 86.099 95.849 98.639 100.000

Autovetores:
CP I CP II CP III CP IV
BC-W 0.497 -0.489 0.705 0.133
TR-L 0.501 -0.469 -0.601 -0.409
Bu-L 0.519 0.293 -0.303 0.744
Bu-HP 0.483 0.675 0.224 -0.511

95
A primeira componente principal tem um peso significativo, da ordem de
86,1 %, e é originada por carregamentos similares para cada variável,
provavelmente devido aos níveis de correlação entre elas. Isso pode ser
claramente interpretado como relações resultantes de variação no tamanho, pois
crânios maiores tendem a ter componentes maiores. No gráfico resultante nota-
se, inclusive, a distribuição dos valores formando agrupamentos segundo as
espécies estudadas (Figura 5.12.).

Su
Su De
1
Ps
Su Su Su Ps
Su Su Ps
Su Su
De
Su Bu-HP Ps Ps
CP II (9.75 %)

De
De
Ps De

Su Bu-L De Ps
Pr Ps
De De
Oo Oo De
Pr
Pr
0
Oo Oo De Me
Oo
Pr Oo Oo
Oo Oo Mc
Pr Pr Oo Oo Me
Mc De
Pr Pr Oo McOo
Pr Mc
Oo Mc
Oo McMc
Pr Pr Mc Mc Mc
Mc
Pr Mc Mc BC-W TR-L Me

Mc
Me
Me

Me Me
Me
Me
-1
-4 -2 0 2 4 6
CP I (86.10 %)

Figura 5.12. Resultado da análise de componentes principais aplicada à oreodontes.

96
REFERÊNCIAS BIBLIOGRÁFICAS

AITCHISON, J. (1986) – The statistical analysis of compositional data: Chapman & Hall

BERNARDI, J. V. E.; FOWLER, H. G. & LANDIM, P. M. B. (1997) – Aplicação da estatística


multivariada em estudos de impacto ambiental: VII Simpósio de Quantificação em
Geociências, Bol Res. Expandidos, 12-16.

DAVIS, J.C (1986) - Statistics And Data Analysis In Geology: 2ND. ED., JOHN WILEY AND SONS.

JOBSON J.D. (1992). Applied Multivariate Data Analysis. Volume II: Categorical and
Multivariate Methods. Springer-Verlag, New York.

GABRIEL K.R. (1971). The biplot graphic display of matrices with application to principal
component analysis. Biometrika, 58:453-467.

GOWER, J. C. (1966) – Some distancRe properties of latent root and vector methods used
in multivariate methods: Biometrika, 55: 325-338

GOWER J.C.; HAND D.J. (1996). Biplots. Monographs on Statistics and Applied Probability,
54, Chapman and Hall, London.

JORESKOG, K.G., KLOVAN, J.E. & REYMENT, R.A. (1976) - Geological factor analysis:
Elsevier.

MILLER, R.L. & KAHN, J.S. (1962) - STATISTICAL ANALYSIS IN THE GEOLOGICAL SCIENCES: JOHN
WILEY AND SONS.

REYMENT, R. A. & JÖRESKOG, K. G. (1996) – Applied Factor Analysis in the Natural


Sciences: Cambridge University Press, second printing

ZHOU, D. (1989) – ROPCA: A FORTRAN Program for Robust Principal Components


Analysis: Computers & Geosciences, 15:59-78

97
6. ANÁLISE DE FATORES

Diferentemente da análise das componentes principais, que é uma


manipulação matemática, a análise de fatores, também conhecida como análise
fatorial, pode ser considerada como uma técnica estatística, pois baseada em
modelos . Num certo sentido a análise das componentes principais pode ser
descrita como um método introdutório para a análise de fatores em que após os
resultados obtidos é necessário uma rotação dos autovetores. Na análise das
componentes principais o número de componentes principais é igual ao numero
“n” de variáveis originais, enquanto na fatorial procura-se pela variação total que
seja representada por um numero menor de fatores “p”. Para tanto é necessário
um processo de rotação para maximisar a carga fatorial em cada fator. No
chamado método “varimax” a ortogonalidade dos eixos é mantida, o que não
acontece no método “oblíquo” em que os fatores podem se apresentar
correlacionados.
Importante é salientar que quando o método foi estabelecido por
psicólogos, interessados em testes de inteligência, a condição fundamental era
que o número de fatores "p" a se determinar, deveria ser conhecido "a priori"
antes da análise ser efetuada. Essa análise é conhecida como “confirmatória”, a
qual requer que o número de fatores e a estrutura dos fatores seja especificada
inicialmente. Em Geologia dificilmente essa condição é preenchida, pois
geralmente os "fatores geológicos" acabam sendo estabelecidos em função dos
resultados obtidos, o que os torna algumas vezes questionáveis. Essa análise é
conhecida como “exploratória” porque em seu início não há nenhuma suposição
sobre o número de fatores que existem ou a sua natureza. Isso significa que,
neste caso, é extremamente importante o conhecimento geológico que se tenha
sobre os dados, pois os cálculos matemáticos são facilmente obtidos por qualquer
programa computacional específico.
Entendendo a análise de fatores como um processo de modelagem
interativo, existem diversos esquemas que podem ser aplicados e um dos mais
usados é o que se baseia na análise de componentes principais (Davis, 2002).
Há, porém, neste caso uma diferença fundamental, pois a operação de
calculo dos autovalores é a partir de uma matriz de variâncias-covariâncias ou de

98
correlações em que as variáveis originais foram padronisadas de modo a terem
todas o mesmo peso. Alem disso os autovetores são calculados de tal modo a
definir “n” vetores com tamanho unitário. Isso é conseguido multiplicando cada
elemento do autovetor normalizado pela raiz quadrada do correspondente
autovalor. O resultado é um fator, ou seja, um vetor constituído por cargas
fatoriais, cujos comprimentos são proporcionais à variação que representam.
Como na análise de fatores p < n, a variância nas n variáveis é, portanto,
derivada dos p fatores, porém a contribuição é feita por fontes únicas que afetam
independentemente as n variáveis originais. Esses p fatores subjacentes são
conhecidos como fatores comuns e resumem a contribuição independente como
um único fator.
Deve ser notado que p deve ser conhecido previamente à análise e isso
implica numa restrição. Caso p não seja especificado a partição de variáveis entre
os fatores comuns e o fator único torna-se indeterminada.
Os autovalores e, conseqüentemente, os fatores, representam a proporção
da variância total explicada pelo respectivo autovetor e cada carga fatorial é
proporcional à raiz quadrada da quantia de variância atribuída pela respectiva
variável ao fator.
As comunalidades ( h 2j ) indicam quanto da variabilidade total está sendo

explicada pelo conjunto de fatores.


Para que os "p" fatores ortogonais situados no espaço n’dimensional sejam
mais facilmente entendidos é necessário que estejam em tal posição, de modo
que as projeções de cada variável sobre o eixo fatorial, situem-se da melhor
maneira possível, seja junto à extremidade, seja junto à origem. Em outras
palavras, haverá necessidade de um critério de maximização da variância dos
carregamentos sobre os fatores, o que é conseguido pela rotação dos eixos
fatoriais. Existindo diversos algorítmos à disposição, o mais comum é o critério
“varimax”.
2

( )
n 
n
2 2
p ∑ a / h − ∑ a 2jp / h2j 
2
jp j
sk2 =
j =i  j =i 
2
p
sk2 = variância das cargas fatoriais

99
p = número de fatores
n = número de variáveis originais
a jp = carregamento da variável j no fator p

h 2j = comunalidade da j-ésima variável

A quantidade que se deseja maximizar é:


p
V = ∑ sk2
k =1

A variância é calculada a partir das cargas fatoriais (factor loadings), ajp,


que são corrigidas pela sua divisão pelo respectiva comunalidade. Somente a
parte comum da variância de cada variável é considerada, removendo a restrição
imposta pelas componentes adicionais, n – p, necessárias para explicar toda a
variância de cada variável. A maximização das variâncias implica maximizar o
alcance dos carregamentos, tendendo a produzir valores tanto extremos,
negativos ou positivos, como próximos a zero.
Finalmente, após encontrada a matriz fatorial rotacionada, se a mesma for
multiplicada pela matriz inicial de dados obtém-se uma matriz dos "factor scores".
Esses “factor scores” representam estimativas das contribuições dos vários fatores
à cada observação original e são utilizados na classificação das amostras. Maiores
detalhes podem ser encontrados em DAVIS (2002) ou REYMENT & JÖRESKOG (1993).
Seja o exemplo exibido na Tabela 5.1., com valores artificiais para as
variáveis X1 e X2, a ser submetido a uma análise de fatores (Tabela 6.1.).
Tabela 6.1.

ID X1 X2
1 36 42
2 92 63
3 73 51
4 61 22
5 10 33
6 91 87
7 21 3
8 91 17
9 98 18
10 96 71
11 52 54
12 39 44
13 77 43
14 53 7
15 63 28

100
16 23 89
17 86 58
18 43 80
19 23 43
20 58 13
21 47 64
22 27 12
23 54 81
24 95 37
25 23 76
26 20 71
27 11 94
28 96 64
29 43 65
30 17 71

A matriz de variâncias-covariâncias entre as variáveis X1 e X2 é a seguinte:

Variáveis X1 X2
X1 870.4471 -84.033
X2 -84.033 705.5506

E os respectivos autovalores e autovetores:

F1 F2
Autovalor 905.724 670.273
Variabilidade (%) 57.470 42.530
% acumulada 57.470 100.000

Autovetores:
F1 F2
X1 0.922 0.387
X2 -0.387 0.922

Para a aplicação da análise de fatores torna-se necessário preliminarmente


a padronização das variáveis, subtraindo de cada valor a correspondente média e
dividindo o resultado pelo respectivo desvio padrão. São originadas, desse modo,
as variáveis X1* e X2* que fornecerão a seguinte matriz de variâncias-
covariâncias:

Variáveis X1* X2*


X1* 1.000 -0.111
X2* -0.111 1.000

101
Os autovalores e autovetores passam a ser:

F1 F2
Autovalor 1.145 0.924
Variabilidade (%) 55.362 44.638
% acumulada 55.362 100.000

Autovetores:
F1 F2
X1* -0.707 0.707
X2* 0.707 0.707

A partir desses valores obtem-se as matrizes de autovalores [Λ] e de


autovetores [V]:

1,145 0  − 0,707 0,707 


[Λ] =  [V] = 
 0 0,924   0,707 0,707 

Os autovetores podem ser convertidos em fatores, segundo a equação:

[F]=[V]*[Λ]

− 0,707 0,707   1,145 0  − 0,75649 0,679427 


[F] =   = 
 0,707 0,707   0 0,924   0,75649 0,679427 

Os elementos da matriz [F] são as cargas fatoriais, e as somas de seus


valores ao quadrado devem ser iguais aos autovalores:

-0,756492+0,756492 = 1,145

0,6794272+0,6794272 = 0,924

Se para cada variável os valores das cargas fatoriais forem elevados ao


quadrado e somados, os totais serão as comunalidades de cada variável retida nos
fatores

fatores comunalida des


1 2
X1 0,75649 2 0,679427 2  1,000 
var iáveis  2  = 1,000 
X2 0,75649 0,679427 2   

As comunalidades são representadas por h2j, em que o subscrito refere-se à


j’ésima variável. Se são extraídos n fatores de uma matriz de variâncias-

102
covariâncias n por n as comunalidades serão iguais às variâncias originais. Neste
caso em que as variáveis foram padronizadas as comunalidades deverão ser iguais
a 1 (um). Se, todavia, forem extraídos um numero de fatores menor que n, as
comunalidades terão valores menores que as variâncias originais. Esses valores
encontrados indicarão, porem, a eficiência alcançada com a redução do número
de fatores.
Surge aqui a questão com relação a quantos fatores devem ser retidos?
Infelizmente não há uma resposta segura, apenas orientações de ordem
pragmática como, por exemplo, um numero de fatores que expliquem 90% da
variabilidade, ou fatores cujos autovalores sejam maior que 1 (um).

6.1. Análise fatorial pelo modo “Q”


O modelo que acaba de ser exposto é a análise de fatores pelo modo “R”.
Quando se está interessado no relacionamento entre amostras, utiliza-se o modo
Q de análise de fatores, a qual parte de uma matriz inicial de coeficientes de
similaridade entre amostras. Para isso o coeficiente de similaridade mais usado é o
coeficiente cosseno-teta.

m
∑ Xik jk
Cosθij = k =1
m m
∑ Xik2 ∑ X 2jk
k =1 k =1

Se as "n" variáveis originais forem normalizadas, de modo a terem média 0


(zero) e variância 1 (um), haverá uma identidade entre valores do coeficiente
cosseno-teta e do coeficiente de correlação.
O propósito classificatório do modo Q é o mesmo da análise de
agrupamentos, porém é de muito mais difícil manuseio e muito mais dispendioso
quanto ao tempo de computação. Por isso se o objeto de uma análise é a
classificação de amostras em grupos, deve-se utilizar ou da análise de
agrupamentos ou dos "factor scores" obtidos pela análise fatorial, segundo o
modo R.
Um outro procedimento que procura tambem determinar se uma coleção
de observações multivariadas representam uma amostra de uma única população

103
ou uma mistura de diferentes populações é a “Análise das Coordenadas
Principais”, como visto no capítulo anterior. Para tanto recomenda-se o trabalho
de GOWER (1966) para o detalhamento desta análise, além de JÖRESKOG, KLOVAN &
REYMENT (1976) e REYMENT, BLACKITH & CAMPBELL (1984).

6.2. Exemplo
Exemplo retirado de KRUMBEIN & GRAYBILL (1965, caps. 14 e 15). Os dados
são provenientes de 31 poços perfurados nos estados norte-americanos de Kansas
e Colorado em rochas de idade permiana (KRUMBEIN, 1962; IMBRIE, 1963). São
espessuras de 4 litologias, arenito, folhelho, carbonato e evaporito, e mais duas. A
primeira (total) resultante da soma dessas quatro variáveis e a segunda (não
clásticos) resultante da soma de carbonato e evaporito (Matriz 6.1.).
À essa matriz de dados foi aplicada uma análise fatorial com o intuito de
verificar que fatores teriam controlado a deposição desses sedimentos.
Inicialmente foi calculada uma matriz de coeficientes de correlação entre as
6 variáveis, sendo duas delas, total e não clásticos, compostas:
total arenito folhelho nclástico carbonato evaporito
Total 1 0,241 0,887 0,844 0,145 0,818
Arenito 0,241 1 -0,119 -0,044 0,448 -0,115
Folhelho 0,887 -0,119 1 0,690 -0,053 0,696
nclástico 0,844 -0,044 0,690 1 0,059 0,987
carbonato 0,145 0,448 -0,053 0,059 1 -0,100
evaporito 0,818 -0,115 0,696 0,987 -0,100 1

Cálculo dos autovalores:


F1 F2 F3 F4
Autovalores 3,462 1,527 0,573 0,426
variância % 57,703 25,452 9,554 7,103
v. acumulada % 57,703 83,155 92,709 99,812

Matriz factorial (antes da rotação):


F1 F2 F3 F4
Total 0,953 0,226 -0,131 0,155
Arenito -0,006 0,866 -0,491 -0,093
Folhelho 0,872 -0,097 -0,029 0,467
nclástico 0,950 -0,010 0,115 -0,290
carbonato 0,021 0,834 0,548 0,055
evaporito 0,943 -0,142 0,028 -0,297

104
Matriz fatorial (após rotação varimax)
F1 F2 F3 F4
Total 0,640 0,247 0,088 0,722
Arenito -0,032 0,972 0,233 0,000
Folhelho 0,412 -0,100 -0,035 0,899
nclástico 0,939 -0,030 0,066 0,337
carbonato 0,000 0,228 0,973 0,004
evaporito 0,935 -0,066 -0,089 0,336

Pelo peso das variáveis em cada fator as seguinte explicações, de caráter


sedimentológico, foram dadas para cada um deles:
Fator 1: Circulação restrita; alta taxa de evaporação; rápida subsidência
Fator 2: Rápida introdução de clásticos grosseiros
Fator 3: Níveis normais de circulação e evaporação; taxas lentas de
deposição; falta de aporte de clásticos
Fator 4: Rápida subsidência; valores intermediários de circulação e
evaporação; aporte de detritos de granulação fina.
Em KRUMBEIN (1962) encontra-se, porém, as coordenadas geográficas
desses poços, o que possibilita um enfoque espacial para a análise fatorial desses
mesmos dados
Codigo Casos X Y
1001 10 3,1 2,45
1004 9 2,3 2,6
1006 8 1,15 2,7
1007 7 0,2 3,05
1009 23 3,1 1,15
1010 22 2,6 1
1012 19 0,6 1,65
1014 1 1,85 3,4
1015 2 2,35 3,15
1017 20 1,15 1,7
1019 11 2,9 2,2
1020 12 3,6 2
1021 21 2,25 1,05
1023 3 2,6 3,7
2002 13 3,7 2,35
2003 14 3,85 1,8
2004 24 4,25 1,6
2005 25 4,1 0,9
2006 26 3,8 0,5
2008 15 4,8 2,55
2009 16 5,1 2,7
2011 17 5,55 2,9
2012 18 6,2 3
2015 28 4,2 0,5

105
2016 27 4,3 0,7
2017 29 5,7 1,4
2019 4 4,5 3,8
2021 5 5,5 3,7
2031 30 5,75 0,9
2034 6 5,55 4,6
8001 31 3,4 0,2

Inicialmente obtém-se um mapa de localização dos poços:


6
4.5

4.0 4
3 5

3.5 1
2
7 18
3.0 17
8 16
9 15
10
2.5 13
11
12
2.0 14
19 20
24
1.5 29
23
21 22
1.0 25 30
27
26 28
0.5
31
0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0

Com esse tipo de dado estratigráfico georreferenciado normalmente o que


se faz são mapas de isópacas das litologias encontradas:

106
Como, porém, se dispõe das coordenadas geográficas, cada fator pode ser
mapeado fornecendo mapas faciológicos:

107
Casos X Y F1 F2 F3 F4
10 3,1 2,45 1083,19 417,05 144,40 1071,20
9 2,3 2,6 947,73 512,38 203,78 1115,09
8 1,15 2,7 768,37 620,01 211,26 930,57
7 0,2 3,05 384,57 383,38 115,45 448,84
23 3,1 1,15 1179,46 525,70 166,90 1258,59
22 2,6 1 1147,11 444,59 169,46 1201,47
19 0,6 1,65 299,60 319,33 109,95 377,29
1 1,85 3,4 597,83 486,75 152,48 629,64
2 2,35 3,15 724,50 338,58 110,22 806,32
20 1,15 1,7 633,77 372,03 131,72 737,32
11 2,9 2,2 1179,77 434,97 169,51 1144,18
12 3,6 2 1563,44 366,05 133,50 1607,39
21 2,25 1,05 778,12 369,01 143,69 884,14
3 2,6 3,7 597,62 185,30 73,04 626,13
13 3,7 2,35 1637,07 358,35 112,06 1567,14
14 3,85 1,8 1564,07 405,68 135,25 1736,07
24 4,25 1,6 1597,69 477,71 152,59 1628,04
25 4,1 0,9 1513,68 504,87 160,34 1501,16
26 3,8 0,5 1187,90 546,03 167,51 1329,95
15 4,8 2,55 1697,77 315,03 114,83 1678,38
16 5,1 2,7 1282,54 394,35 138,43 1364,22
17 5,55 2,9 780,13 355,16 113,49 938,29
18 6,2 3 799,79 361,30 131,53 1029,74
28 4,2 0,5 1260,26 472,48 155,22 1336,12
27 4,3 0,7 1529,81 437,83 163,15 1497,52
29 5,7 1,4 1135,61 434,10 149,98 1258,29
4 4,5 3,8 690,25 246,87 71,97 690,44
5 5,5 3,7 722,14 211,56 63,51 774,78
30 5,75 0,9 1071,31 440,70 135,63 1361,11
6 5,55 4,6 601,24 110,07 36,63 823,36
31 3,4 0,2 1436,73 475,76 207,94 1492,94

108
Mapa faciológico 1: Circulação restrita; alta taxa de evaporação; rápida subsidência
Mapa faciológico 2: Rápida introdução de clásticos grosseiros
Mapa faciológico 3: Níveis normais de circulação e evaporação; taxas lentas de
deposição; falta de aporte de clásticos
Mapa faciológico 4: Rápida subsidência; valores intermediários de circulação e
evaporação; aporte de detritos de granulação fina.

109
REFERÊNCIAS BIBLIOGRÁFICAS

DAVIS, J.C (2002) - Statistics and Data Analysis in Geology: 3rd ed., John Wiley and Sons.

GOWER, J. C. (1966) – Some distance properties of latent root and vector methods used
in multivariate methods: Biometrika, 55:325-338

IMBRIE, J. (1963) – Factor and vector analysis programs for analyzing geologic data:
Office Naval Res., Geography Branch, Tech. Rept. 6, ONR Task nº 389-135

JÖRESKOG, K.G., KLOVAN, J.E. & REYMENT, R.A. (1976) - Geological factor analysis:
Elsevier.

KRUMBEIN, W.C. (1962) – Open and Closed Number Systems in Stratigraphic Mapping:
Bull. Am. Ass. Petrol. Geologists, 46:2229-2245

KRUMBEIN, W.C. & GRAYBILL, F.A. (1965) – An Introduction to Statistical Models in


Geology: McGraw-Hill Book Co.

REYMENT, R. A., BLACKITH, R. E. & CAMPBELL, N. A. (1984) – Multivariate


Morphometrics: 2d. edition, Academic Press

REYMENT, R. A. & JÖRESKOG, K. G. (1993) – Applied Factor Analysis in the Natural


Sciences. Cambridge University Press.

110
7. ANÁLISE DE CORRESPONDÊNCIAS (ANÁLISE DE ASSOCIAÇÕES)
Tanto a Análise de Componentes Principais como a Análise de Fatores
exigem dados mensurados em escala numérica contínua e não são, portanto,
apropriadas para a análise de dados nominais, tais como contagem de diversos
tipos de fósseis em um nível estratigráficdo, número de fraturas com diferentes
orientações num maciço rochoso ou dados binários do tipo presente-ausente.
Nesses casos em que os dados podem ser agrupados em categorias, os
autovalores são extraídos a partir de tabelas de contingências e a técnica é
conhecida como “análise das correspondências”, tradução do francês “Analyse des
Correspondances” (BENZÉCRI et al., 1976). Talvez o termo que melhor descreva o
método seria “Análise de Associações” entre variáveis e espécimes ou casos.
Na tabela de contingências os valores originais podem ser transformados de
modo a poder ser interpretados como probabilidades condicionais. Por causa da
natureza dessa transformação as relações entre colunas e linhas da tabela
transformada são as mesmas que aquelas da matriz original da dados. Isso
significa que as soluções para o modo Q e para o modo R são equivalentes e
desse modo, o produto final mostra num espaço bidimensional, definido pelos dois
mais importantes autovetores, após decomposição em coordenadas principais, a
distribuição simultânea tanto das amostras como das variáveis.

111
Seja uma matriz de dados [X] , constituída por m linhas que representam
observações e n colunas que representam variáveis. Pode ser, por exemplo,
diversos níveis estratigráficos e em cada um deles tendo sido coletados diversos
microfósseis. A soma total de indivíduos é simplesmente a soma de todos os
elementos, geralmente na forma de contagem, que constituem a matriz de dados
m n
N = ∑∑ x ij
i=1 j=1

n
A soma da i’ésima linha li = ∑ x ij é o numero de microfósseis de todos os
j=1

tipos que foram encontrados no i’ésimo nível estratigráfico. De mesmo modo a


m
soma da j’ésima coluna c j = ∑ x ij é o total do microfóssil da espécie j que se
i=1

encontra em todos os níveis estratigráficos.


As contagens encontradas podem ser convertidas em porcentagens do total
x ij
e entendidas como probabilidades conjuntas pij =
N
Os totais das linhas, bem como das colunas, divididos pela soma total
fornecem as probabilidades marginais:
li c
pi• = e p• j = j
N N
Se as probabilidades conjuntas forem divididas pelas correspondentes
probabilidades marginais os resultados serão as probabilidades condicionais
pij pij
p(i| j ) = e p( j|i ) =
p• j pi•

A primeira expressão descreve a probabilidade de um específico microfóssil


j ocorrer num determinado nível i. A segunda expressão, baseada no total de
linhas, fornece a probabilidade de um determinado nível i conter o microfóssil j.
Numa tabela de contingências as observações em cada cela podem ser
expressas como proporções do número total de observações. Se as linhas e as
colunas da tabela forem independentes, as observações devem ser
aproximadamente iguais ao produto das probabilidades marginais das respectivas
linhas e colunas. O mesmo não acontece se forem relacionadas. Isso significa que
pode ser encontrado um nível de similaridade entre duas variáveis, j e k,

112
calculando um produto cruzado que envolva as probabilidades observadas e
esperadas dessas variáveis. Tal é a medida de correlação usada na Análise de
Correspondências (KENDALL & STUART, 1967):
n  p − p p  
i• • j  pik − pi•p •k 
s jk = ∑ 
ij
 p p  p p 
i=1
 i• • j  i• •k 
onde pij é a probabilidade observada na linha i e coluna j na cela da tabela de
contingência e pi. e p.j são as probabilidades esperadas calculadas pelo produto
das probabilidades observadas.
A expressão acima pode ser representada por
n  O − E  
ij  Oik − E ik 
s jk = ∑ 
ij
 E  Eik 
i=1
 ij 
2
A relação entre essa expressão e a estatística χ aplicada à tabelas de
contingências torna-se mais clara se um dos termos for elevado ao quadrado
2
 Oij − Eij 
 = (Oij − Eij )
2

 E  Eij
 ij 
Isto significa que as relações na Análise de Correspondências não são
medidas pela métrica euclidiana, mas sim pela métrica qui-quadrática. Um valor
alto do qui-quadrado encontrado indica que as variáveis são independentes e,
portanto, sem possibilidade da aplicação da Análise de Correspondência.

Tabela de contingência
variáveis
1 2 ... n Total
1 x11 x12 ... x1n x1.
casos 2 x21 x22 ... x2n x2.
: : : ֻ : :
M xm1 xm2 ... xmn xm.
Total x.1 x.2 ... x.n x..

113
Adotando a sequencia de cálculos apresentada em DAVIS (2002), a Análise
de Correspondências tem início com a conversão dos valores da matriz X em
probabilidades conjuntas, dividindo cada valor pelo total de valores

B = (∑∑ x ij ) X
−1

Em seguida é definida matriz diagonal [L], de dimensões m por m,


conhecida como perfil de linhas, que contem na diagonal principal as
probabilidades marginais das linhas e nas demais posições o valor 0. Também é
definida a matriz diagonal [C], de dimensões n por n, conhecida como perfil de
colunas, que contem na diagonal principal as probabilidades marginais das colunas
e nas demais posições o valor 0. Desse modo é possível transformar a matriz de
dados originais [X] numa matriz de probabilidades condicionais, [H] com as
mesmas dimensões.
P = L-1/2XC-1/2
A matriz de produtos-cruzados entre colunas é
[R]=[P]'[P]

E a matriz de produtos-cruzados entre linhas é


[Q]=[P][P]'

Os autovalores de [R] e de [Q] são idênticos, exceto que [Q] tem (m-n)
autovalores adicionais, todos com o valor zero. Os autovetores de [R] podem ser
convertidos nos “fatores de correspondência (=associação)” multiplicando cada
vetor pelo seu valor singular correspondente, que é a raiz quadrada do autovalor
correspondente
carregamentos no modo R = λ . autovetores no modo R

Em notação matricial os valores singulares podem ser pensados como


presentes ao longo da diagonal de uma matriz n x n, [λ], sendo zero os demais
elementos. Os autovalores de [R] formam as colunas de uma matriz n x n, [U]. A
equação matricial para determinar os carregamentos no modo R é então:
[ A R ]=[U][ Λ ]

Os “scores” de cada m observação sobre os n fatores de correspondências


são
[SR ]=[P][ A R ]

114
Para o caso de autovalores de [Q], sendo [V], de dimensões m x m, a
matriz que contém n autovetores de [Q], de modo idêntico obtém-se
[ A Q ]=[ V ][ Λ ] e [SQ ]=[P]'[ A R ]

Há uma relação direta entre as soluções para o modo R e para o modo Q:


[ A Q ]=[P][ A R ][ Λ]−1 = [SR ]=[ Λ ]−1

O carregamento nos fatores de correspondências no modo Q é igual aos


“scores” de correspondências no modo R, dividido pelos valores singulares
apropriados. Pode-se obter uma solução para o modo Q resolvendo-o no modo R,
o que é uma vantagem em termos computacionais, pois normalmente [R] tem
dimensões menores que [Q].
A conseqüência direta disso é que se pode plotar tanto amostras como
variáveis no mesmo espaço, usando os mesmos eixos. A obtenção de mesmas
escalas tanto para R como para Q é obtida por
[ Â R ]=[N]1/ 2 [ A R ]

[ Â Q ]=[M]1/ 2[ A Q ]

A apresentação de resultados simultâneos, referentes à variáveis e


amostras, num mesmo diagrama de dispersão é bastante útil e de fácil
interpretação.
Para um detalhamento sobre o método recomenda-se o trabalho de
GREENACRE (1984). Aplicações dessa metodologia em Geociências estão em TEIL

(1975), TEIL & CHEMINÉE (1975), DAVID, DAGBERT & BEAUNCHEMIN (1977), DAVIS

(2002:557-560) e MOREIRA, RIEDEL & LANDIM (2008), entre outros. Em CARR (1990)
é apresentado um programa em FORTRAN-77 para o cálculo desta análise.
A forma mais simples dessa técnica de análise exploratória de dados é a
sua aplicação a uma tabela de contingência de dupla entrada. No caso de mais de
duas variáveis qualitativas aplica-se o caso geral da Análise de Correspondências
Múltiplas.
O exemplo a seguir ilustra a Análise de Correspondências e os dados são os
mesmos usados para a aplicação da análise de agrupamentos (Tabela 4.1.).

115
V01 V02 V03 V04 V05 V06
Am01 1.0 2.0 3.0 4.0 5.0 6.0
Am02 5.0 4.0 1.0 8.0 7.0 9.0
Am03 6.0 5.0 4.0 2.0 7.0 9.0
Am04 6.0 4.0 2.0 1.0 3.0 7.0
Am05 9.0 2.0 1.0 4.0 7.0 8.0
Am06 9.0 6.0 3.0 4.0 5.0 6.0
Am07 1.0 5.0 9.0 7.0 5.0 3.0

V01 V02 V03 V04 V05 V06 Total


Am01 1 2 3 4 5 6 21
Am02 5 4 1 8 7 9 34
Am03 6 5 4 2 7 9 33
Am04 6 4 2 1 3 7 23
Am05 9 2 1 4 7 8 31
Am06 9 6 3 4 5 6 33
Am07 1 5 9 7 5 3 30
Total 37 28 23 30 39 48 205

0.0049 0.0098 0.0146 0.0195 0.0244 0.0293 0.1024


0.0244 0.0195 0.0049 0.0390 0.0341 0.0439 0.1659
0.0293 0.0244 0.0195 0.0098 0.0341 0.0439 0.1610
0.0293 0.0195 0.0098 0.0049 0.0146 0.0341 0.1122
0.0439 0.0098 0.0049 0.0195 0.0341 0.0390 0.1512
0.0439 0.0293 0.0146 0.0195 0.0244 0.0293 0.1610
0.0049 0.0244 0.0439 0.0341 0.0244 0.0146 0.1463
0.1805 0.1366 0.1122 0.1463 0.1902 0.2341 1.0000

0.1805 0.0000 0.0000 0.0000 0.0000 0.0000


0.0000 0.1366 0.0000 0.0000 0.0000 0.0000
0.0000 0.0000 0.1122 0.0000 0.0000 0.0000
0.0000 0.0000 0.0000 0.1463 0.0000 0.0000
0.0000 0.0000 0.0000 0.0000 0.1902 0.0000
0.0000 0.0000 0.0000 0.0000 0.0000 0.2341

0.1024 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000


0.0000 0.1659 0.0000 0.0000 0.0000 0.0000 0.0000
0.0000 0.0000 0.1610 0.0000 0.0000 0.0000 0.0000

116
0.0000 0.0000 0.0000 0.1122 0.0000 0.0000 0.0000
0.0000 0.0000 0.0000 0.0000 0.1512 0.0000 0.0000
0.0000 0.0000 0.0000 0.0000 0.0000 0.1610 0.0000
0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.1463

0.4

V03
Am04
V02
0.2
V01 Am06
Am03
Coordenada II (22.16 %)

Am07

V06
Am05
V05
-0.2

Am01

Am02 V04
-0.4
-0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8
Coordenada I (63.64 %)

Teste de independência entre as linhas e as colunas:

Qui-quadrado ajustado (Valor observado) 38.962


Qui-quadrado ajustado (Valor crítico) 43.773
GL 30
p-valor 0.127
alfa 0.05

Interpretação do teste:
H0: As linhas e as colunas da tabela são independentes.
Ha: Há uma dependência entre as linhas e colunas da tabela.
Como o p-valor calculado é maior que o nível de significância alfa=0.05, não
rejeita-se a hipótese nula H0. O risco de rejeitar a hipótese nula H0 quando ela é
verdadeira é de 12.66%.

Além desta análise de associações, pode também ser mencionado o método


proposto por GABRIEL (1971) que aborda de um modo mais geral o relacionamento
entre linhas e colunas de uma tabela de contigência. Detalhes podem ser

117
encontrados em GORDON (1981), JACKSON (1991), JOLLIFFE (1986) e GABRIEL

(1995,a,b).

7.1. Análise fatorial R-Q simultânea


Embora o teorema de Eckart-Young estabeleça ser possível extrair fatores
simultâneamente pelos modos R e Q, na prática os resultados podem não ser os
mesmos devido a maneira como os dados são transformados antes do processo
fatorial. O escalonamento de valores condiciona as medidas de similaridade e,
desse modo, a natureza da solução fatorial.
No modo R a solução fatorial inicia-se pela matriz simétrica dos menores
produtos [P]´[P], enquanto no modo Q a solução inicia-se pela matriz simétrica
dos maiores produtos [P][P]´. Isso significa que os procedimentos de
escalonamento de valores não são os mesmos para originar [P] a partir dos dados
originais [X]. Por exemplo, na análise das componentes principais cada elemento
de [X] é dividido pelo desvio padrão das colunas para produzir [P]. Na análise
fatorial pelo modo Q ocorre uma padronização que inclui a divisão de cada
elemento de [X] pela raiz quadrada da soma de quadrados das linhas para
originar [P]. Como a matriz [P] originada pelo modo R não é idêntida à matriz [P]
originada pelo modo Q, tal diferença entre escalas não fornece os mesmos
resultados (DAVIS, 2002).
A “análise das associações” usa uma matriz simétrica com a mesma escala
de valores para linhas e colunas e procura medidas de similaridade proporcional
entre objetos e variáveis. A similaridade resultante é a distância χ2 utilizável
apenas para tabelas de contingência que estima probabilidades. Uma tabela de
medidas com valores contínuos, porém, tem diferentes propriedades e
necessidade de metodologia própria para tratar simultâneamente os objetos e as
variáveis, como apresentado por ZHOU, CHANG & DAVIS (1983).
Segundo esses autores, se os dados forem escalonados de modo que o
produto menor [P]´[P] seja uma matriz de correlações e o produto maior [P][P]´
uma matriz de distâncias euclideanas, o modo R ao ser executado por uma análise
das componentes principais e o modo Q por uma análise das coordenadas
principais, os resultados apresentarão a mesma configuração espacial.

118
7.2. Exemplo
A matriz de dados para este exemplo provem de um levantamento
efetuado pelo “Swiss Federal Institute of Technology” em Lausanne/Suíça, com a
seguinte estruturação por linhas ID X Y G, U, Z1, Z2, Z3, onde:
ID – identidade do ponto de coleta
X – coordenada X
Y – coordenada Y
G – Classificação geológica, identificando o nível estratigráfico onde a amostra foi
coletada (J1: Argoviano; J2: Kimmeridgiano; J3: Sequaniano; J4: Portlandiano; Q::
Quaternário)
U – uso da terra onde a amostra foi coletada (floresta; pastagem; pradaria;
lavoura
Zi – concentrações de tres metais pesados (cádmio, cobre, chumbo) coletados no
horizonte superior do solo.
Os limites máximos considerados toleráveis para o consumo humano são
para Cd, 0,8 ppm; para Cu, 50ppm; para PB, 50ppm. Maiores detalhes podem
ser encontrados em GOOVAERTS, (1997).
Tendo em vista esses valores, preliminarmente, foi efetuada uma
transformação, binária, para as variáveis Cd, Cu e Pb da seguinte maneira:
se Cdi ≥ 0.8, substituir pelo valor 1 (um); caso contrário pelo valor 0 (zero)
se Cu ≥ 50, substituir pelo valor 1 (um); caso contrário pelo valor 0 (zero)
se Pb ≥ 50, substituir pelo valor 1 (um); caso contrário pelo valor 0 (zero).
De posse dessa nova tabela, com valores binários, foi realizada uma
análise de correspondências múltiplas para confrontar as relações entre as 3
variáveis geoquímicas tanto com a litologia como com o uso da terra (Matriz de
dados 7.1.). O resultado encontra-se na Figura 7.1.

119
Figura 7.1. Análise de correspondências múltiplas. Valores 0 indicam abaixo do teor limite e
valores 1 acima desse teor.

As concentrações de Cd e Pb acima dos limites toleráveis estão


associadas à lavoura. Ocorre associação entre pradaria e terrenos J3 e entre
floresta e terrenos J2. Alem disso há indicação da associação dos teores dos três
metais pesados com os locais de amostragem. A associação dos teores de cobre
acima de 50 ppm não se mostra clara. Isso, talvez, seja devido ao fato que
apenas em 8 locais são encontrados tais teores e no restante da área não (Figura
7.2.). O mesmo não acontece com a distribuição de cádmio (Figura 7.3.) e
chumbo (Figura 7.4).

120
Figura 7.2. Distribuição de valores de cobre. Quadrados em cinza indicam valores menores que 50
ppm e círculos em preto maiores que 50 pp.

Figura 7.3. Distribuição de valores de cadmio. Quadrados em cinza indicam valores menores que
0,8 ppm e círculos em preto maiores que 0,8 pp.

121
Figura 7.3. Distribuição de valores de chumbo. Quadrados em cinza indicam valores menores que
50 ppm e círculos em preto maiores que 50 pp.

122
REFERENCIAS BIBLIOGRAFICAS

BENZÉCRI, J. P. & others (1976) – L’Analyse des données. Vol. 2, L’Analyse des
correspondances: Dunod, Paris, 616p.

CARR, J.R. (1990) - CORSPOND: a portable FORTRAN-77 program for correspondence


analysis: Computers & Geosciences 16(3):289-307.

DAVID, M.; M., DAGBERT & BEAUCHEMIN, Y. (1977) - Statistical analysis in geology:
Correspondence analysis method: Quart. Colorado Sch. Mines, 7:60p.

DAVIS, J.C (2002) - Statistics and Data Analysis in Geology: 3rd ed., John Wiley and Sons.

GABRIEL, K. R. (1971) – The biplot display of matrices with application to principal


components analysis: Biometrica, 58:453-467

GABRIEL, K. R. (1995,a) : Biplot displays of multivatiate categorical data, with comments


on multiple correspondence analysis: Recent Advances in Descriptive Multivariate Analysis
(ed.: W. J. Krzanowski): 190-226, Oxford Science Publ.

GABRIEL, K. R. (1995,B): MANOVA biplots for two-contingency tables: Ibid., 227-268

GOOVAERTS, P. (1997) – Geostatistics for Natural Resouces Evaluation: Oxford University


Press.

GORDON, A. D. (1981): Classification: Monographs on Applied Probability and Statistics,


Chapman and Hall

GREENACRE, M. J. (1984) – Theory and Applications of Correspondence Analysis:


Academic Prees, 364 pp.

JACKSON, J. E. (1991) – A User´s Guide to Principal Components: Wiley

JOLLIFFE, I. T. (1986) – Principal Components Analysis: Springer Verlag

KENDALL, M. G. & STUART, A. (1967) – Advanced Theory of Statistics, v. 2, 2nd. Ed.,


Charles Griffin & Co. Ltd., 690 pp.

MOREIRA, M. R. ; RIEDEL, P. S. ; LANDIM, P. M. B. (2008) - Aplicação de técnicas


estatísticas multivariadas como subsídio à compartimentação fisiográfica. RBC. Revista
Brasileira de Cartografia, v. 60, p. 339-353

TEIL, H. (1975) - Correspondence factor analysis: An outline of its method: Journ. Int’l.
Assoc. Mathematical Geology, 7:3-12.

TEIL, J. & CHEMINÉE (1975) - Application of correspondence factor analysis to the study
of major and trace elements in the Erta Ale Chain (Afar, Ethiopia): Jour. Int’l. Assoc.
Mathematical Geology, 7:13-30.

ZHOU, D., CHANG, T. & DAVIS, J. C. (1983) – Dual Extraction of R-Mode and Q-Mode
Factor Solutions: Math. Geology, 15: 581-606

123
8. ANÁLISE DISCRIMINANTE

8.1. Análise discriminante linear


A análise estatística multivariada utilizando funções discriminantes foi
inicialmente aplicada para decidir à qual de dois grupos pertenceriam indivíduos
sobre os quais tinham sido feitas diversas e idênticas mensurações. Nessa análise,
conhecida como análise discriminante linear, a idéia básica é substituir o conjunto
original das diversas mensurações por um único valor Di, definido como uma
combinação linear delas
Di =λ1x1 + λ 2 x 2 + L + λ p x p

Para fornecer um único valor os termos são adicionados nessa função


linear, e esta transformação é realizada de tal modo a fornecer a razão mínima
entre a diferença entre pares de médias multivariadas e a variância multivariada
dentro dos dois grupos. Conhecido o valor Di, este será comparado com um certo
D0, ou seja, o valor situado na linha expressa pela função discriminante a meio
caminho entre os centros de dois grupos, com a finalidade de verificar a qual
deles o indivíduo pertence. Tal processo exige, portanto, um conhecimento "a
priori" das relações existentes entre os grupos estudados. Isso contrasta com
métodos classificatórios multivariados, como por exemplo a análise de
agrupamentos ou das componentes principais, quando os grupos constituídos por
indivíduos similares entre si emergem através do esquema de classificação
adotado.
Além disso, para a aplicação de testes de significância às funções
discriminantes, os seguintes pressupostos são necessários:
a) que as observações em cada grupo tenham sido escolhidas ao acaso;
b) que a probabilidade de um indivíduo desconhecido pertencer a um dos grupos
seja a mesma;
c) que as variáveis tenham distribuição normal;
d) que as matrizes de variância de grupos comparados sejam de dimensões
idênticas;
e) que todas as observações usadas para o cálculo das funções discriminantes
tenham sido classificadas sem erro.

124
Nos casos em que as matrizes de variâncias e covariâncias são diferentes torna-se
necessário escolher outro método que absorva tal diferença, como o procedimento da função
discriminante quadrática.

Um dos métodos utilizados para o cálculo das funções discriminantes


lineares é o da regressão linear, onde a variável dependente consiste na diferença
entre as médias multivariadas de dois grupos e as variáveis independentes as
variâncias e covariâncias das variáveis em estudo. Ver a propósito DAVIS (2002).
A solução do sistema de equações lineares resultante pode ser resolvido,
por cálculo matricial, a partir de:
[Vp ][λp]=[Rp]
2

[Vp ] = matriz, pxp, das variâncias e covariâncias combinadas das p variáveis;


2

[λ ] = vetor coluna, px1, representando os coeficientes desconhecidos;


[Rp] = vetor coluna, px1, das "p" diferenças entre as médias das variáveis de dois
grupos A e B.

[ ]
Para a constituição de Vp 2 , determina-se:

a) inicialmente a matriz de soma de quadrados e produtos cruzados de todas as


"p" variáveis, do primeiro grupo [Va ] (matriz de variâncias e covariâncias):

 SQX12 SPX1X 2 L SPX1XP 


 
SQX 22
[Va ]=SPX1X2 L SPX 2 XP 

M
 
 SPX1SP SPX 2 XP L SPXP2 

onde:
  n x  
2
n  ∑ 1i 
SQX12 = ∑ x12i −  i=1   / n − 1
 i=1 n 
 
 

 ∑ x1i ∑ x 2i 
n n
n
SPX1X 2 = ∑ ( x1i.x 2i ) i=1 i=1  / n − 1
 i=1 n 
 

125
b) de modo similar determina-se a matriz de somas de quadrados e produtos
cruzados de todas as "p" variáveis do segundo grupo [Vb ]

c) calcula-se, então, a matriz combinada segundo:

[V ]=[nV n]+[−V2]
2
p
a b

a b

Para o cálculo de [Rp] encontram-se as diferenças segundo:

 R1   X a1   X b1 
 R    
2  X a2   X b2 
[Rp]    − 

M
    
 R p   X ap   X bp 

Para o cálculo dos coeficientes λp, que irão constituir a equação da função
discriminante, determina-se o inverso da matriz da variâncias e covariâncias
combinadas e em seguida multiplica essa matriz pelo vetor de diferença entre
médias:

[λp]=[Vp2 ]−1[Rp]
O valor central do grupo A é determinado por

D a =λ1 x a1 +λ x a2 +L +λ p x ap

e do grupo B por

Db =λ1 x b1 +λ x b 2 +L +λ p x bp

O índice discriminante, D0, ou seja, o ponto na linha descrita pela função


discriminante situado exatamente na metade da distância entre os centros dos
grupos A e B, é encontrado segundo:
 X a1 + X b1   X a2 + X b2   
D o =λ 1  +λ 2  + L +λ p  X ap + X bp 
2   2   2 
     
Para testar a significância da função encontrada, ou seja, verificar se os
dois grupos considerados pertencem a uma única população ou à duas distintas

126
populações, calcula-se a distância entre as duas médias multivariadas, DA - DB.
Esta medida de distância é conhecida como “distância generalizada de
Mehalanobis”, ou D², e mede a separação entre as duas médias multivariadas
expressa em unidades de variâncias combinadas.
D² é usada na seguinte expressão para ser testada pela distribuição F:
 n + nb − p − 1  na nb  2
F =  a  D ,
 (na + nb − 2 )p  na + nb 

com "p" graus de liberdade para o numerador e " na + nb − p − 1 " para o

denominador. A hipótese nula a ser testada, estabelece que as duas médias


multivariadas são iguais, ou que a distância entre ambos os grupos é igual a zero
significando que se trata de um único grupo.

Ho:[Rp] = 0, ou µ a = µb

H1:[Rp ] >0

A contribuição relativa, em percentagem, de cada variável para o


distanciamento entre os dois grupos é fornecida pela expressão:

λpRp
Cp = *100
D2

Cp mede apenas a contribuição direta da variável, sem levar em


consideração o seu inter-relacionamento com as demais existentes.

8.2. Análise discriminante multigrupos


Quando se trata de discriminar entre mais de dois grupos torna-se
necessário uma generalização na metodologia. A análise discriminante
multigrupos, que utiliza procedimentos combinados da análise de variância e da
análise fatorial, pode, então, ser utilizada.
A analogia com a análise de variância é que a matriz inicial de todas as
variâncias e covariâncias pode ser subdividida entre categorias ou grupos e
verificada a soma total de quadrados, a soma de quadrados entre grupos e a
soma de quadrados dentro dos grupos. Como no caso da análise de variância

127
convencional a soma de quadrados entre grupos [E] mais a soma de quadrados
dentro dos grupos [D] é igual à soma total de quadrados [T]:
[T] = [E] + [D]
Quando a razão [E]/[D] apresentar um valor alto isto significará que as
médias dos grupos são bem diferentes entre si e os valores dentro de cada grupo
estão bem concentrados ao redor dos respectivos centroides, ou seja, há uma
discriminação significativa entre os grupos. O problema na análise discriminante é,
desse modo, encontrar um conjunto de pesos lineares para as variáveis que
tornem essa razão máxima. Se esse conjunto de pesos for o vetor [A1], a análise
discriminante pode ser efetuada ao encontrar os valores dos elementos de [A1] de
modo que a expressão
{[A1]´[E] [A1]}/{[A1]´[D] [A1]}, seja maximizada.
Nessa análise usualmente é especificado a restrição que o denominador
seja igual a 1
[A1]´[D] [A1] = 1.
Obedecida essa restrição, a razão é maximizada quando [A1] for o
autovetor correspondente ao maior autovalor de [D]-1 [E]. Pode-se em seguida,
como na análise fatorial, encontrar eixos ortogonais [A2], [A3], etc., numa
sucessão decrescente de funções discriminantes segundo as quais os grupos
podem ser distintos tanto quanto possível.
As observações usadas no cálculo das funções discriminantes podem ser
projetadas no espaço definido pelos eixos discriminantes. Isto é feito segundo a
multiplicação matricial
[Z] = [A]´[X],
onde [X] é a matriz inicial de dados [N x p] e [A] a matriz [p x t] cujas colunas “t”
são os maiores autovetores a serem usados nas funções discriminantes.
Os centróides dos g grupos podem ser projetados no espaço discriminante
por
[ZM] = [A1] [Xmk],
onde [Xmk] contém as médias de todas as variáveis para cada grupo.
Geralmente escolhem-se as duas funções discriminantes de maior peso para servir como
eixos ortogonais para uma distribuição das observações dos diversos grupos e os respectivos
centróides. Uma observação multidimensional de origem desconhecida pode ser projetada nesse

128
diagrama pela sua multiplicação com o transposto de [A] e verificada a sua distância aos diversos
centróides. Maiores detalhes podem ser vistos em DAVIS (2002).

8.3. Distância Generalizada D² de Mahalanobis


A distância generalizada D² de Mahalanobis também pode ser usada como
uma técnica de comparação quanto à separação entre diversos grupos permitindo
avaliar a extensão e a direção dos afastamentos entre os valores médios das
variáveis usadas na discriminação. As diferenças entre cada par de grupos que
estão sendo comparados são assim examinados simultaneamente através das
diversas variáveis, que podem ser correlacionadas, de modo que a informação
fornecida por uma delas pode não ser independente da fornecida pelas demais.
O valor numérico da maior separação possível entre dois grupos quaisquer
é chamado Distância Generalizada entre os grupos e mede, em escala
independente da originalmente utilizada para as várias variáveis, a clareza das
disjunção entre elas.
Assim, o valor da distância generalizada D² ligando dois grupos é um
número puro, com propriedades da distância comum, e mede a extensão com que
diferem entre si em tamanho e forma.
A Distância Generalizada de Mahalanobis entre os grupos i e j é usualmente
estimada, segundo RAO (1952) por:

Dij2 =[x i − x j ]'[S] [x i − x j ]


−1

onde, xi é o vetor de médias do i-ésimo grupo

xj é o vetor de médias do j-ésimo grupo

[S] é a estimativa combinada da matriz de dispersão dentro dos grupos


dois grupos.

Este método de representação de diferenças entre grupos leva em conta


qualquer correlação que exista entre as variáveis usadas e é também
independente das unidades de medida com que as variáveis estão expressas.
Para o cálculo da distância generalizada, por exemplo, usando apenas duas
variáveis (V1 e V2), correlacionáveis, utiliza-se da expressão:

129
D2 =R'.V −1.R

V − V12 
onde R= 11 
 V21 − V22 

R'=[V11 − V12,V21 − V22 ]

 S2 rv v .s .s 
 v1 1 2 v1 v 2 
V= 
rv v .s .s S2 
 1 2 v1 v 2 v2 

8.4. Exemplos
8.4.1. Após a aplicação das análises de agrupamentos e das componentes
principais aos mesossaurídeos da Formação Irati e tendo sido constatado que os
fósseis se apresentam em 3 grupos, resta a questão de decidir se ocorre uma
separação significante, ou não, entre as populações estudadas. Caso seja esse o
caso quais as variáveis mais importantes para a discriminação entre esses taxas.
Para tanto a análise discriminante linear entre dois grupos pode ser usada.
Os resultados, já apresentados por LANDIM & PERINOTTO (1976), são os
seguintes:
a) Função discriminante para Mesosaurus brasiliensis x Stereosternum tumidum:
Di =2.659Cc i − 2.561Cpi +1.111Cdi −3.398Ldi

DM = 12,46; DS = 3,55; D0 = 8,00; D² = 8,91


Teste F = 13,72 (F4/23 = 2,80), significando que a separação entre essas
duas espécies é significativa ao nível de 5%.
De acordo com a função discriminante, entre os exemplares utilizados para
a análise, os de designação (M01) e (M13), assinaláveis a Mesosaurus brasiliensis,
apresentam respectivamente os valores Di = 7,087 e Di = 5,824, o que indica
provavelmente que esses espécimes estejam mal classificados e que talvez,
levando em consideração as quatro variáveis estudadas, pertençam à espécie
Stereosternum tumidum. Recomenda-se neste caso uma análise osteológica mais
detalhada ou mesmo verificação do nível estratigráfico de onde provenham.

130
A porcentagem de contribuição direta de cada variável para a discriminação
entre os dois conjuntos de dados é:
comprimento dos dentes = 54,46%; comprimento do crânio = 47,79%;
comprimento do pescoço = 0,04%; largura dos dentes = - 2,29%
Esses resultados indicam que as variáveis mais importantes na distinção
entre as duas espécies são o comprimento dos dentes e secundariamente, o
comprimento do crânio. Além disso, demonstra a validade das afirmações de (op.
cit.) quando conclui que o comprimento do pescoço não demonstra diferença
significativa e que a largura dos dentes entre as duas espécimes não se altera.
b) Função discriminante para Stereosternum tumidum x Brazilosaurus
sanpauloensis:
Di =2.659Cc i − 2.561Cpi +1.111Cdi −3.398Ldi

DS = 11,55; DB = -16,86; D0 = -2,65; D² = 28,40;


Teste F = 17,38 (F4/12 = 3,26), signicando que a separação é significativa
ao nível de 5%.
Cada variável considerada na discriminação contribuiu diretamente com a
seguinte porcentagem: comprimento do pescoço = 63,03%; comprimento do
crânio = 23,09%; comprimento dos dentes = 14,00%; largura dos dentes = -
0,14%
Com esses resultados, é correto dizer que o comprimento do pescoço é a
variável mais significativa na distinção entre essas espécies, o que vem corroborar
com as conclusões de ARAÚJO (op. cit.) ao testar as afirmativas de SHIKAMA & OZAKI
(op.cit.).
c) Função discriminante para Mesosaurus brasiliensis x Brazilosaurus
sampauloensis
Di =2.659Cc i − 2.561Cpi +1.111Cdi −3.398Ldi

DM = 14,30; DB = -27,43; D0 = -6,56; D² = 41,73


Teste F = 27,13 (F4/14 = 3,11), signicando que a separação é significativa
ao nível de 5%
As variáveis mais importantes na distinção entre as duas espécies são o
comprimento do crânio (48,80%) e o comprimento do pescoço (41,99%). A
contribuição direta do comprimento dos dentes é de 9,76%, enquanto que a

131
largura dos dentes em nada contribuiu (-0,56%). Esses resultados quantificam e
demonstram a validade de dedução de ARAÚJO (op. cit.) em relação à distinção
entre essas duas espécies.
A análise multivariada das funções discriminantes mostra-se eficaz,
comprovando estatisticamente a existência dos três taxa, Sterreosternum
tumidum, Mesosaurus brasiliensis e Brazilosaurus sanpauloensis, trabalhando ao
mesmo tempo com as quatro variáveis consideradas para a discriminação e
fornecendo aquelas de maior importância na distinção entre esses taxa. Entre
Stereoternum tumidum e Mesosaurus brasiliensis, o comprimento dos dentes,
entre Stereosternum tumidum e Brazilosaurus sanpauloensis, o comprimento do
pescoço e entre Mesosaurus brasiliensis e Brazilosaurus sanpauloensis os
comprimentos de crânio e escoço.
O afastamento entre os grupos, usando a distância generalizada de
Mahalanobis (D2) entre os três grupos de fósseis é a seguinte:

A
Isso está de acordo com Bertini (informação verbal) quando afirma que o
gênero Brazilosaurus é provavelmente a forma ancestral dos outros dois gêneros e
o mais terrestre dos mesossauros, com pescoço longo que favorece a predação,
parecendo ter compartilhado seu nicho ecológico com Stereosternum. O gênero
Stereosternum teria vivido em águas rasas periféricas com maior energia de
deposição e condições mais aeróbicas. Quanto ao Mesosaurus teria habitado
águas depocêntricas e seria o mais aquático dos mesossaurídeos, providos de
longos e finos dentes, muito provavelmente filtrador suspensívoro, e com pescoço
curto.

132
Para esta mesma matriz de dados pode ser aplicada uma análise
discriminante multigrupos, que forneceu o resultado gráfico mostrado na Figura
8.1.

Figura 8.1. Análise discriminante multigrupos aplicada aos dados de mesossaurídeos.

Novamente é constatada uma nítida separação entre os três grupos,


estando Brazilosaurus mais próximo a Stereosternum e a indicação que os fósseis
M01 e M13, classificados como Mesosaurus, provavelmente pertencem ao gênero
Stereosternum.
Na Tabela 8.1. é verificado também que o eixo fatorial I corresponde à
94% da variabilidade presente sendo correlacionado com as variáveis crânio e
comprimento dos dentes. Quanto ao eixo fatorial II a sua correlação é com o
comprimento do pescoço.

Tabela 8.1. Autovalores e autovetores correspondentes à análise discriminante aplicada aos valores
de mesossaurídeos
Autovalores:
F1 F2
Autovalor 5.615 0.354

133
Discriminação (%) 94.063 5.937
% acumulada 94.063 100.000

Correlações Variáveis/Fatores:
F1 F2
cranio 0.787 0.403
pescoço -0.521 0.711
Dcompr 0.831 0.549
Dlargura 0.202 0.538

8.4.2.
Os dados para este exemplo encontram-se na Matriz de dados 5.3., já
foram submetidos à análise de componentes principais. Neste caso foi utilizada a
análise discriminante multigrupos e o resultado encontra-se na Figura 8.2.

Figura 8.2. Análise discriminante multigrupos aplicada à Matriz de dados 5.3. com valores
cranianos de oreodontes (Subdesmatochoerus sp. (Su), Megoreodon gigas loomisi (Me), O.
osborni (Oo), Psuedodesmatochoerus (Ps), Desmatochoerus hatcheri (De), M. culbertsoni (Mc) e
Prodesmatochoerus . meeki (Pr)).
.

Na Tabela 8.2. pode-se constatar que o eixo fatorial I corresponde à 89%


da variabilidade presente e o eixo fatorial II à 8,6%. Os altos carregamentos
similares de cada variável no eixo I, provavelmente devido aos níveis de
correlação entre si, podem ser claramente interpretados como relações resultantes
de variação no tamanho, pois crânios maiores tendem a ter componentes maiores.
Tal hipótese já tinha sido levantada quando da aplicação da análise de
componentes principais a estes mesmos dados

134
Tabela 8.2. Autovalores e autovetores correspondentes à análise discriminante aplicada aos valores
de oreodontes
Autovalores:
F1 F2 F3 F4
Autovalor 46.067 4.463 1.078 0.029
Discriminação (%) 89.212 8.643 2.089 0.056
% acumulada 89.212 97.855 99.944 100.000

Correlações Variáveis/Fatores:
F1 F2 F3 F4
BC-W 0.922 0.078 0.321 0.204
TR-L 0.982 0.176 -0.071 0.004
Bu-L 0.907 -0.321 -0.141 0.233
Bu-HP 0.823 -0.565 0.027 -0.056

No trabalho de MILLER & KAHN (1962), de onde provem os valores da Tabela


de dados 5.3., são também apresentadas as afinidades taxonômicas entre as
espécies de oreodontes (Figura 8.3.).

Figura 8.3. Afinidades taxonômicas entre as sete espécies de oreodontes

Ao confrontar esta distribuição taxonômica com os resultados da análise


discriminante mostrada na Figura 8.2. pode-se levantar a hipótese que as espécies
Merychoidodon culbertsoni, Prodesmatochoerus meeki e O. osborni estão mais
próximas entre si, podendo eventualmente ser ai incluída Subdesmatochoerus. Por
outro lado há uma relação entre Psuedodesmatochoerus e Desmatochoerus
hatcheri, ficando Megoreodon mais afastada.

8.4.3.

135
LANDIM, FERREIRA & BETTENCOURT (2010) aplicaram análise discriminante
multigrupos para a classificação regional de algumas unidades geológicas
existentes no Complexo Ultramáfico-Carbonatítico de Jacupiranga, de idade
cretácea, localizado no Sudoeste do Estado de São Paulo/Brasil, e alojado em
rochas pré-cambrianas do Grupo Açungui. Já haviam sido identificadas 12
unidades, classificadas segundo o objetivo de beneficiamento do minério, mas
nesse estudo apenas os carbonatitos foliado (CBF), branco (CBR) e norte (CBN)
foram enfocados. As variáveis consideradas foram teores dos óxidos CaO, MgO,
SiO2, Fe2O3, P2O5, MnO, SrO, S, MnO e perda ao fogo (PF) obtidos em 95
amostras analisadas (Matriz de dados 8.1.). A localização dos pontos de
amostragem encontra-se na Figura 8.4.
O objetivo da pesquisa foi realizar a avaliação comparativa dos atributos
geoquímicos com a finalidade de fornecer subsídios para a melhoria do modelo de
lavra e otimização do planejamento de lavra.

Figura 8.4. Localização dos pontos de amostragem

A aplicação da análise discriminante forneceu o resultado exibido na Figura


8.5. As observações usadas no cálculo das funções discriminantes, assim como os
respectivos centróides dos grupos, podem ser projetadas no espaço definido pelos
eixos discriminantes mais importantes. Geralmente escolhem-se as duas funções

136
discriminantes de maior peso para servir como eixos ortogonais para uma
distribuição das observações dos diversos grupos e os respectivos centróides.
Para testar a significância das funções encontradas, ou seja, verificar se
entre dois grupos considerados os mesmos pertencem a uma única população ou
à duas distintas populações, calcula-se a distância entre as duas médias
multivariadas. Esta medida de distância é conhecida como “distância generalizada
de Mehalanobis”, ou D², e mede a separação entre as duas médias multivariadas
expressa em unidades de variâncias combinadas, a qual é usada para ser testada
pela distribuição F.

Figura 8.5. Análise discriminante multigrupos aplicada aos valores de carbonatito

O resultado gráfico mostra que ocorrem zonas de recobrimentos entre os


três grupos, o que indica a possibilidade de algumas amostras estarem
erroneamente classificadas. Isso fica evidenciado pela Tabela 8.3. a qual mostra a
porcentagem de amostras mal classificadas

Tabela 8.3. Classificação das amostras posicionadas correta e incorretamente após a análise
discriminante
%
De \ A CBF CBN CBR Total correto
CBF 28 5 3 36 77.78%
CBN 1 35 1 37 94.59%
CBR 7 0 15 22 68.18%

137
Total 36 40 19 95 82.11%

Como os grupos estão discriminados, as amostras pertencentes a


cada um deles são dispostas de maneira a indicar a que distâncias estão do seu
respectivo centróide. Para cada caso são utilizadas as funções discriminantes
calculadas e em seguida verificado se as classificações originais estavam corretas
ou não (Tabela 8.4.). Tais resultados são apresentados em termos probabilísticos
e como se tem à disposição a coordenada geográfica de cada uma das amostras
foram construídos três mapas de probabilidade de ocorrência (Figuras 8.6., 8.7.,
8.8.).
Tabela 8.4. Identificação da amostra, Coordenada XY do ponto de amostragem, classificação a
priori, classificação a posterior, probabilidade de ocorrência no grupo discriminado, distâncias ao
quadrado ao centróide do grupo.
ID X Y Prior Post Prob. CBF Prob. CBN Prob. CBR d²(i,CBF) d²(i,CBN) d²(i,CBR)
05F 790336.766 265354.574 CBF CBF 0.479 0.409 0.112 11.121 11.491 13.038
06F 790355.046 265242.683 CBF CBF 0.890 0.007 0.103 8.572 18.291 11.897
07F 790365.832 265220.596 CBF CBF 0.966 0.014 0.020 4.315 12.883 11.038
08F 790377.104 265198.328 CBF CBN 0.200 0.790 0.009 7.579 4.891 12.742
111F 790410.572 265273.55 CBF CBF 0.928 0.004 0.068 2.995 13.993 7.238
115F 790295.576 265237.038 CBF CBF 0.963 0.005 0.032 5.039 15.573 10.877
116F 790282.807 265221.912 CBF CBF 0.901 0.039 0.060 4.896 11.229 9.342
117F 790258.508 265227.702 CBF CBF 0.926 0.017 0.057 4.333 12.439 8.911
118F 790303.044 265205.535 CBF CBF 0.716 0.000 0.284 27.940 43.753 28.805
120F 790288.474 265238.732 CBF CBF 0.946 0.015 0.039 2.347 10.676 7.718
121F 790404.351 265304.282 CBF CBF 0.970 0.014 0.016 4.081 12.677 11.281
126F 790400.461 265323.905 CBF CBF 0.909 0.007 0.083 6.219 15.949 10.012
129F 790237.546 265242.326 CBF CBF 0.939 0.050 0.011 6.308 12.219 14.246
130F 790215.931 265269.378 CBF CBF 0.735 0.001 0.264 19.667 32.843 20.733
134F 790386.872 265344.535 CBF CBN 0.170 0.820 0.010 8.787 5.700 13.478
135F 790403.176 265356.401 CBF CBN 0.034 0.962 0.005 41.789 35.142 44.733

... ... ... ... ... ... ... ... ... ... ...

138
FIGURA 8.6. Probabilidade de distribuição de amostras pertencentes à unidade litológica CBF

FIGURA 8.7. Probabilidade de distribuição de amostras pertencentes à unidade litológica CBF

139
FIGURA 8.8. Probabilidade de distribuição de amostras pertencentes à unidade litológica CBF

Os trabalhos desenvolvidos por Ferreira (2007) forneceram uma visão geral


das características mineralógicas, texturais e composicionais das principais
unidades faciológicas estudadas. A partir do arranjo espacial das fácies e dos
mapeamentos geológicos realizados, foi inferido que no contato entre o
Carbonatito Foliado e o Carbonatito Branco, e entre o Carbonatito Norte e o
Carbonatito Dolomítico, ocorre uma zona de transição onde a interdigitação dos
litotipos e a ocorrência de corpos dolomíticos é comum e de difícil delimitação.
Isso dificulta a separação de litotipos na amostragem, podendo, inclusive, ser
verificado a presença de diversos litotipos em uma mesma amostra. Em assim
sendo, tal dificultada pode ser amenizada, como visto neste trabalho, com a
aplicação da classificação regionalizada que fornece mapas de ocorrência em
bases probabilísticas.

140
REFERÊNCIAS BIBLIOGRÁFICAS
DAVIS, J.C (2002) - Statistics and Data Analysis in Geology: 3th ed., John Wiley and Sons,
Inc.

FERREIRA, T.C.O., 2007. Avaliação comparativa dos atributos geológicos, mineralógicos,


químicos e estruturais de corpos carbonatíticos da mina de apatita de Cajati, SP.:
implicações no modelo de lavra. Monografia do Trabalho de Formatura (TF-2007/41),
I.Gc., USP. São Paulo, 48p.

LANDIM, P.M.B.; FERREIRA, T.C.O.; BETTENCOURT, J.S. (2010) – Regionalized


classification of multivariate geochemical data from Jacupiranga Alkaline Complex (Ribeira
de Iguape Valley/São Paulo, Brazil): Revista Brasileira de Geociências, 40(2):

LANDIM, P. M. B. & PERINOTTO, J A J. (1981) - Taxonomia numérica dos mesossaurídeos


da Formação Irati (Permiano da Bacia do Paraná). In: Simpósio Regional de Geologia, v.
2. p. 201-212.

MILLER, R.L. & KAHN, J.S. (1962) - Statistical analysis in the geological sciences: John
Wiley and Sons.

RAO, C.R. (1952) - Advanced statistical methods in biometric research: John Wiley and
Sons.

141
9. INTRODUÇÃO À GEOESTATÍSTICA
Os métodos clássicos da análise estatística multivariada, como visto nos
capítulos anteriores, não levam em consideração a localização dos pontos de
amostragem, nem as relações espaciais entre os valores encontrados. Nas
circunstâncias em que se dispõe das coordenadas geográficas dos pontos que
constituem a rede de amostragem, soluções adaptadas podem ser aplicadas. Um
exemplo disso é a disposição gráfica em um mapa, ou seja em duas dimensões,
dos resultados obtidos por qualquer método multidimensional. Desse modo
ferramentas se tornaram necessárias para entender o comportamento espacial de
variáveis e daí a necessidade de métodos estatísticos que enfoquem a análise
espacial de dados geológicos. A metodologia geoestatística surgiu, então, e vem
sendo desenvolvida para encontrar soluções para essa problemática. Neste
capítulo será apresentado uma breve introdução ao assunto.
O termo “geoestatística” é aplicado para o estudo das chamadas variáveis
regionalizadas, ou seja, variáveis com condicionamento espacial (MATHERON 1962,
1963). Os métodos geoestatísticos fornecem um conjunto de técnicas necessárias
para entender a aparente aleatoriedade dos dados, os quais apresentam, porém,
uma possível estruturação espacial, estabelecendo, desse modo, uma função de
correlação espacial. Essa função representa a base da estimativa da variabilidade
espacial em geoestatística. CHILÉS & DELFINER (1999) e SOARES (2006) apresentam
uma revisão histórica sobre a geoestatística com uma síntese sobre o
desenvolvimento de suas técnicas, sendo o seu início ligado à problemas de lavra
mineira.
A estimativa de reservas sempre se constituiu parte fundamental do
planejamento mineiro. O conhecimento geológico que se tenha a respeito do bem
mineral a ser explorado, as eficientes instalações na boca da mina, os detalhes
precisos sobre a commoditie em questão são variáveis importantes, mas o que vai
decidir se o empreendimento será lucrativo ou não, dentro de um intervalo de
tempo considerado, é a reserva medida com precisão.
No planejamento mineiro tal estimativa é realizada por meio de blocos onde
as reservas mineráveis são amalgamadas para produzir reservas globais e curvas
de teor/tonelagem. O processo todo, e para cada bloco, é baseado na coleta de

142
amostras pontuais, ou seja, com volumes menores que os blocos. As amostras,
com teores conhecidos, é que irão estimar o teor médio dos blocos, a duas ou a
três dimensões.
Seja, por exemplo, um bloco a ser estimado a partir de 5 amostras (Figura
9.1.):

Figura 9.1. Determinação do valor de uma area a partir de cinco pontos com valores
conhecidos

Supondo que ocorra uma relação espacial entre os teores, os valores serão
muito próximos em dois pontos vizinhos e progressivamente mais diferentes à
medida que os pontos vão ficando mais distantes. Nesse sentido é intuitivo
esperar que o teor da amostra 3 seja similar, porém não necessariamente
idêntico, ao teor médio do bloco. Pode-se esperar que as amostras 1, 4 e 5
também apresentem teores similares ao valor médio do bloco, mas não tanto
como o teor em 3. Finalmente, com relação à amostra 2, situada mais distante,
seria necessário um conhecimento melhor sobre a disposição espacial de valores
no depósito para decidir se ela tem, ou não, relação com o valor médio do bloco.
Em outras palavras, amostras situadas perto do bloco deverão apresentar teores
altamente relacionados com ele e poderão, portanto, serem utilizadas para
estimar o seu valor médio, e à medida que se situem a distâncias maiores o seu
relacionamento diminui até se tornar independente. O peso da influência de cada
amostra é, pois, inversamente correspondente à distância e essa noção pode ser
aplicada para a estimativa do valor médio do bloco utilizando para tanto amostras
com valores conhecidos, mas situadas a distâncias julgadas “convenientes”.
Quanto mais próximas estiverem maior será o seu peso no processo de estimação.
Nesta estimativa surgem, evidentemente, algumas questões: Até que

143
distâncias devem ser consideradas as amostras? Quantas devem ser usadas?
Aquela eventualmente colocada no centro do bloco terá um peso maior que as
demais? Se amostras formarem grupos, qual a influência desses agrupamentos?
Como evitar que os resultados sejam sub ou super estimados? A relação espacial,
em termos geométricos, entre as amostras estimadoras e o bloco a ser estimado,
tem importância? Essa técnica de estimativa pode ser utilizada indistintamente
para depósitos do tipo cobre porfirítico, lateritas niquelíferas, veios de cassiterita,
depósitos de urânio e outros?
Para responder a essas questões tornou-se necessária a geoestatística, a
preocupar-se com o entendimento, por meio de análise matemática, da gênese e
leis naturais que governam fenômenos interpretados como regionais. Isso traz
como conseqüência direta a estimativa das variáveis regionais usando informações
e relações a partir de um conjunto discreto de amostras, juntamente com a
avaliação dos erros de estimativa, para estabelecer o grau de segurança em
previsões e os padrões ótimos de amostragem, que assegure que um erro máximo
de estimativa não seja excedido.
Inicialmente a aplicação era apenas para situações em geologia mineira na
lavra e prospecção, mas depois em Climatologia, Geologia Ambiental, Geologia de
Petróleo, Geotecnia, Hidrogeologia, Pedologia, , entre outros. Praticamente todas
as ultimas versões de softwares para confecção de mapas ou Sistemas de
Informações Georreferenciadas apresentam módulos com métodos
geoestatísticos.
As origens da geoestatística podem ser encontradas em trabalhos
pioneiros de KOLMOGOROV (1941a,b) sobre fluídos turbulentos, WIENER (1942) sobre
séries de tempo, KRIGE (1951), WIJS (1951, 1953), ambos sobre mineração, MATÉRN

(1960) sobre silvicultura e GANDIN(1963) sobre meteorologia. A obra clássica sobre


o assunto, porem é de autoria de MATHERON (1962-1963), ao estabelecer as bases
para uma metodologia que representa a grande contribuição das Geociências para
a Estatística Aplicada.
Como fontes introdutórias são recomendados os livros de RENDU (1981),
CLARK (1979), ARMSTRONG (1998), BROOKER (1991), CLARK & HARPER (2000) e LANDIM

(2003). Podem ser citados também diversos textos que tratam de aplicações da

144
geoestatística, como JOURNEL & HUIJBREGTS (1978), VALENTE (1982), GUERRA (1988),
ISAAKS & SRIVASTAVA (1989), SAMPER-CALVETE & CARRERA-RAMÍREZ (1996), GOOVAERTS

(1997), DEUTSCH & JOURNEL (1992), OLEA (1999), HOHN (1999), YAMAMOTO (2001),
SOARES (2006) e WEBSTER & OLIVER (2007)
Atualmente o termo geoestatística acha-se consagrado como um tópico
especial da estatística aplicada que trata de problemas referentes às variáveis
regionalizadas, as quais têm um comportamento espacial mostrando
características intermediárias entre as variáveis verdadeiramente aleatórias e as
totalmente determinísticas.
As variáveis regionalizadas são constituídas por um duplo aspecto
aparentemente contraditório. Pela sua característica “aleatória” apresenta
irregularidades e variação imprevisível de ser avaliada de um ponto para outro e
pela sua característica “estrutural” apresenta relações existentes entre os pontos
no espaço motivadas pela sua gênese. Em outras palavras: é impossível prever
com exatidão o teor do minério num determinado ponto da jazida (aspécto
aleatório), mas é provável que se encontre minério rico perto de minério rico
(aspecto estrutural). No estudo do comportamento das variáveis regionalizadas a
ferramenta fundamental é a análise variográfica.

9.1. Variograma
Cada ponto no espaço não apresenta, em teoria, um único valor, mas uma
distribuição de probabilidades de ocorrência de valores. No ponto x a propriedade
Z(x) é uma variável aleatória com média µ, variância σ2 e uma função de
distribuição acumulada. No espaço existem infinitos pontos xi, i = 1,2, ..., Z(xi),
com suas próprias funções de distribuição. O conjunto de variáveis aleatórias
constituem uma função aleatória, ou processo aleatório, ou processo estocástico.
O conjunto de valores reais de Z que inclui a realização da função aleatória é
conhecido como variável regionalizada.
Seja uma variável regionalizada Z(xi) coletada em diversos pontos i
distribuídos por uma certa região. Como definir, porém, e, por conseqüência,
prever o comportamento espacial da variável regionalizada?

145
Para entender a variação espacial do processo aleatório subjacente deve-
se levar em consideração a possibilidade que o valor de cada ponto no espaço
está relacionado de algum modo com valores obtidos a partir de pontos situados a
certa distância, sendo razoável supor que a influência é tanto maior quanto menor
for a distância entre os pontos. Daí que a inferência da continuidade espacial de
uma variável regionalizada possa ser feita a partir de valores amostrais tendo
como análise estrutural a estatística a dois pontos, como se verá a seguir.
O conjunto de variáveis aleatórias Z(xi), i = 1, 2, ...N, correlacionadas entre
si constituem uma função aleatória da qual se conhece apenas uma realização
z(xi), ou seja o conjunto dos dados experimentais. Com uma só realização é
teoricamente impossível determinar quaisquer parâmetros, como média ou
variância, da função. A solução proposta por MATHERON (1978) consiste em assumir
restrições segundo diversos graus de estacionariedade da função aleatória.
Uma variável regionalizada obedece a uma estacionariedade de 1ª ordem
quando seus atributos são invariantes por translação. Assim se for admitido que
todas as variáveis aleatórias tenham a mesma media, este parâmetro passa a ser
independente da localização de xi e pode ser estimado pela média aritmética dos
valores das realizações das variáveis aleatórias (SOARES, 2006):
E{Z(x1)}= E{Z(x2)}=... E{Z(xi)}= E{Z(x)}= m
1 N
m= ∑ Z( x α )
N α =1
Julgar, porém, que essa hipótese esteja correta significa supor que a média
das amostras seja representativa da área estudada, ou seja, que os valores não
homogêneos. A hogeneidade espacial dificilmente ocorre, sendo necessário a
verificação da variabilidade presente.
A hipótese de estacionariedade de 2ª ordem alem de definir que a
esperança matemática, E{Z(x)}, existe e não depende do suporte x, define
também que a correlação entre duas variáveis aleatórias depende somente da
distância espacial, h, que as separa e é independente da sua localização (JOURNEL
& HUIJBREGTS, 1978):
E{Z(x)} = m

146
Covariância= C(h)=E{Z(x+h)*Z(x)}-m2, onde h representa um vetor de
coordenadas (hu, hv, hw) no espaço tri-dimensional.
Como a covariância depende do tamanho do vetor h, se h=0, C(h) passará
a representar a variância, representada por C(0).
Var{Z(x)}=E{[Z(x)-m]2}=C(0).

A função variograma é definida como a variância do incremento [Z(x+h) –


Z(x)]:
1
γ(h)= E{[Z(x+h)-Z(x)]2}=C(0)-C(h).
2
Esta hipótese de estacionariedade de 2ª ordem assume a existência da
variância e, portanto, de uma variância a priori finita. Existem porem fenômenos
físicos e, consequentemente variáveis regionais, com uma capacidade infinita de
dispersão nos quais não se pode definir a priori nem a covariância nem a
variância. MATHERON (1965) reconheceu o problema e propôs, pela hipótese
intrínsica, que se geralmente a media pode não ser constante, para intervalos
pequnos de h, as diferenças esperadas poderiam ser zero:
E[Z(x) – Z(x+h)] = 0
Alem disso substituiu a covariância pela variância das diferenças como
medida de relação espacial, assumindo a existência e estacionariedade do
variograma. Para todos os vetores h o incremento [Z(x+h) – Z(x)] tem uma
variância finita, a qual não depende do suporte x:
Var{Z(x+h) – Z(x)} = E{[Z(x+h) – Z(x)]2=2γ(h).
Com relação ao termo variograma há uma confusão terminológica na
literatura geoestatística. Alguns autores preferem essa terminologia, como
WACKERNAGEL (2003), por exemplo, enquanto outros a denominação semi-
variograma, como JOURNEL & HUIJBREGTS (1978), por exemplo. Segundo BACHMAIER &
BACKES(2008) a confusão com respeito ao prefixo “semi” surgiu porque MATHERON
r
(1965) tinha em mente a variância das diferenças Var[Z( x + h) − Z( x )] , mas o

valor desejado, na prática, era a metade dessa diferença, que fornece a variância
por ponto sendo os pontos considerados aos pares separados por h. O correto
deve ser, portanto, simplesmente variograma.

147
Como γ(h) = C(0) - C(h) isso significa que se o vetor h apresentando-se
infinitamente pequeno faz com que a variância seja mínima e a covariância
máxima. Haverá um valor ∆h para o qual ambas podem apresentar valores
aproximadamente iguais, porém, à medida que ∆h aumenta a covariância diminui
enquanto a variância aumenta, porque ocorre progressivamente maior
independência entre os pontos a distâncias cada vez maiores.
A variância distribui-se assim de 0, quando h=0, até um valor igual à
variância das observações para um alto valor de h, se os dados forem
estacionários, isto é, não ocorrer a presença de tendência nos valores. Essas
relações são mostradas quando a função γ(h) é colocada em gráfico contra h para
originar o variograma. A distância segundo a qual γ(h) atinge um patamar,
denominado soleira ou patamar (sill), igual à variância à priori dos dados, é
chamada de alcance ou amplitude (range). Geralmente a soleira é representada
por C e o alcance por a. A variância não é apenas igual à média das diferenças ao
quadrado entre pares de pontos espaçados às distâncias h, mas também é igual à
variância dessas diferenças.
O variograma mostra a medida do grau de dependência espacial entre
amostras ao longo de um suporte específico e, para sua construção, são usados
simplesmente as diferenças ao quadrado dos valores obtidos, assumindo-se uma
estacionaridade nos incrementos. Isso significa que o variograma é uma medida
da variabilidade geológica condicionada pela distância. Tal variabilidade pode ser
bastante diferente quando consideradas diferentes direções. Por exemplo, em
estratos sedimentares com inclinação ocorre maior correlação de valores na
direção das camadas do que no sentido do mergulho das mesmas.
Para construir um variograma é necessário, portanto, dispor de um
conjunto de valores obtidos a intervalos regulares dentro de um mesmo suporte
geométrico. Sendo x(1), x(2), .... x(i), .... x(n), valores de uma variável
regionalizada a seguinte fórmula fornece uma estimativa não tendenciosa da
variância:
1
γ (h) = ∑ (x i+h − x i )2
2n

148
O estudo é feito em uma direção ao longo de uma linha ou ao longo de uma
série de linhas paralelas, utilizando n possíveis diferenças a intervalos h ou
múltiplos de h.
Em CLARK (1979) é apresentada a construção de um variograma a partir de
uma rede regular, com espaçamento entre os pontos de 100 pés. Trata-se de um
depósito estratiforme de ferro com valores em porcentagem por peso (Figura
9.2.).
6

44 40 42 40 39 37 36
5

42 43 42 39 39 41 40 38
4

37 37 37 35 38 37 37 33 34
3

35 38 35 37 36 36 35
2

36 35 36 35 34 33 32 29 28
1

38 37 35 30 29 30 32
0

-1
-1 0 1 2 3 4 5 6 7 8 9

Figura 9.2. Distribuição de pontos em rede regular, segundo CLARK (1979)

Para o cálculo dos variogramas, em diversas direções, são encontradas as


somatórias dos quadrados das diferenças e posterior divisão por duas vezes o
número dessas diferenças. Assim para a direção Leste-Oeste inicia-se com o
menor intervalo possível, ou seja, 100 pés da seguinte maneira:

γ*(100) = [ (40 - 42)2 + (42 - 40)2 + (40 - 39)2 + (39 - 37)2 + (37 - 36)2 + (43 -
42)2 + (42 - 39)2 + (39 - 39)2 + (39 - 41)2 + (41 - 40)2 + (40 - 38)2 + (37 - 37)2 +
(37 - 37)2 + (37 - 35)2 + (35 - 38)2 + (38 - 37)2 + (37 – 37)2 + (37 - 33)2 + (33 -
34)2 + (35 - 38)2 + (35 - 37)2 + (37 - 36)2 + (36 - 36)2 + (36 - 35)2 + (36 - 35)2 +
(35 - 36)2 + (36 - 35)2 + (35 - 34)2 + (34 - 33)2 + (33 - 32)2 + (32 - 29)2 + (29 -
28)2 + (38 - 37)2 + (37 - 35)2 + (29 - 30)2 + (30 - 32)2 ] / [2 x 36] = 1,46

Para o intervalo de 200 pés:

149
γ*(200) = [ (44 - 40)2 + (40 - 40)2 + (42 - 39)2 + (40 - 37)2 + (39 - 36)2 + (42 -
43)2 + (43 - 39)2 + (42 - 39)2 + (39 - 41)2 + (39 - 40)2 + (41 - 38)2 + (37 - 37)2 +
(37 - 35)2 + (37 - 38)2 + (35 - 37)2 + (38 - 37)2 + (37 – 33)2 + (37 - 34)2 + (38 -
35)2 + (35 - 36)2 + (37 - 36)2 + (36 - 35)2 + (36 - 36)2 + (35 - 35)2 + (36 - 34)2 +
(35 - 33)2 + (34 - 32)2 + (33 - 29)2 + (32 - 28)2 + (38 - 35)2 + (35 - 30)2 + (30 -
29)2 + (29 – 32 ] / [2 x 33] = 3,30

E assim por diante, tanto para esta direção como para a Norte-Sul. O
resultado, e apresentado na Tabela 9.1.:
Tabela 9.1. Valores para a confecção de variogramas em duas direções
Direção Distância Variograma No. Pares
Leste-Oeste 100 1,46 36
200 3,30 33
300 4,31 27
400 6,70 23
Norte-Sul 100 5,35 36
200 9,87 27
300 18,88 21

Estes resultados permitem a construção dos variogramas experimentais nas


duas direções consideradas, e o que se pode perceber é que há uma distinta
diferença na estrutura dos dados, ou seja, a presença de uma anisotropia. Na
direção Norte-Sul os valores aumentam muito mais rapidamente, sugerindo uma
maior continuidade na direção Leste-Oeste.

150
Os variogramas expressam o comportamento espacial da variável
regionalizada e mostram:
a) o tamanho da zona de influência em torno de uma amostra, pois toda amostra
cuja distância ao ponto a ser estimado for menor ou igual ao alcance, fornece
informações sobre o ponto;
b) a anisotropia, quando os variogramas mostram diferentes comportamentos
para diferentes direções de linhas de amostragem e de estudo da variável; neste
caso a anisotropia pode ser geométrica quando o alcance varia de acordo com as
diversas direções consideradas, mantendo constante a soleira e zonal quando o
alcance permanece constante e a soleira varia conforme for modificada a direção;
c) continuidade, pela forma do variograma, em que para h ≅ 0, γ(h) já apresenta
algum valor. Essa situação é conhecida como efeito pepita (nugget effect) e é
representada por C0. O efeito pepita pode ser atribuído a erros de medição ou ao
fato de que os dados não foram coletados a intervalos suficientemente pequenos
para mostrar o comportamento espacial subjacente do fenômeno em estudo.

Na construção do variograma, as somatórias necessárias para o cálculo de


γ(h) devem ser constituídas por um número suficiente de pares, que tornem o
resultado consistente. Como regra prática adota-se para tanto um mínimo de 30
pares, o que pode ser conseguido se for escolhido como maior ∆h, a metade da
maior distância existente entre os pontos. Isto significa que, para uma análise
geoestatística, exige-se que o número mínimo de pontos amostrados seja
razoável, por volta de 30 a 40.
Uma outra consideração importante a ser feita é determinar o grau de
aleatoriedade presente nos dados pela fórmula E = C0/C (GUERRA 1988):

151
E<0,15: componente aleatória pequena
0,15 ≤ E ≤ 0,30: componente aleatória significante
E > 0,30: componente aleatória muito significativa.
O extremo dessa situação é o modelo de pepita pura, onde não ocorre
covariância entre os valores e, portanto, a análise semivariográfica não se aplica,
sendo sugerido o uso de outros métodos de interpolação.
De posse do variograma experimental é necessário ajustá-lo a um modelo
teórico que definirá os parâmetros “efeito pepita”, “alcance” e “patamar”. Há
necessidade de ajustar uma função matemática que descreva continuamente a
variabilidade ou correlação espacial existente nos dados. O variograma
experimental não serve para esse fim, porque há necessidade de interpolação e os
pontos apresentar-se-ão com uma certa dispersão, principalmente para distâncias
grandes, quando o número de pares de amostras diminui. O variograma
experimental não avalia distâncias e direções intermediárias e uma interpolação
entre pontos do variograma experimental não garante a existência e unicidade de
solução para o sistema de krigagem. As funções matemáticas dos modelos devem
permitir que a matriz de covariâncias, neles baseada, possa ser invertida, para
fornecer os “pesos” para a interpolação por krigagem. Desse modo, somente
certos modelos podem ser usados:

a) Modelos com patamar

a.1) Modelo esférico


3  h  1h 
3

γ(h) = C   −    , para h < a


 2  a  2  a  

γ(h) = C , para h ≥ a,

neste modelo a inclinação da tangente junto à origem (h≅0) é 3C/2a; é o modelo


mais comum, podendo-se afirmar que equivale à função de distribuição normal da
estatística clássica.
a.2) Modelo exponencial

152
γ(h) = C[1 − e−3h / a ]
neste modelo a inclinação da tangente junto à origem é C/a; C é a assíntota de
uma curva exponencial e pode ser equalizada junto à soleira; “a” corresponde ao
alcance prático igual à distância segundo a qual 95% da soleira foi alcançada.
a.3) Modelo gaussiano

γ(h) = C[1 − e(−3h / a)


2
]

a curva é parabólica junto à origem e a tangente nesse ponto é horizontal, o que


indica pequena variabilidade para curtas distâncias; “a” corresponde ao alcance
prático igual à distância segundo a qual 95% da soleira foi alcançada.

b) Modelos sem patamar


b.1) Modelo potencial
γ (h)=Chα, com a potência α assumindo valores entre 0 e próximo a 2;
quando α = 1 o modelo torna-se linear;
γ(h) = ph, sendo p a inclinação da reta;
é o modelo mais simples e representado por uma reta passando pela origem do
gráfico.

Para dados que estão irregularmente distribuídos no espaço bidimensional


não é possível, em princípio, encontrar pares de amostras suficientes com
exatamente o mesmo espaçamento h para o cálculo em uma determinada direção,
como feito com dados dispostos em malha regular. Para contornar essa situação
define-se uma distância de tolerância ∆’h para o espaçamento h entre os pares de
amostras de um ângulo de tolerância ∆’α para a direção α considerada. Assim,
para o cálculo do variograma de uma distribuição irregular de pontos ao longo de
uma determinada direção α, consideram-se todas as amostras que se encontram
no ângulo α ± ∆’α, e, em seguida, classificam-se os pares de amostras em classes
de distância ∆h ± ∆’h, 2∆h ± ∆’h, onde ∆h é a distância básica. As direções
consideradas e seus respectivos ângulos de tolerância devem cobrir a área toda.

153
Para a estimativa do variograma experimental, não se tendo certeza se o
fenômeno sob estudo é isotrópico ou anisotrópico no espaço bidimensional,
inicialmente consideram-se quatro direções, E-W, N-S, NE-SW e NW-SE, com um
ângulo de abertura com tolerância de 45º. Quando se constata uma direção bem
marcante de anisotropia deve-se adotar tal direção com um pequeno ângulo de
tolerância (α0 ± ∆’α0) para estimar o variograma nessa direção. Melhores
estimativas são obtidas quando os modelos são baseados em variogramas
experimentais que apresentam a menor razão “efeito pepita/patamar” e, também,
o maior alcance.
Em resumo, para a utilização do variograma as seguintes suposições
básicas são requeridas:
a) as diferenças entre pares de valores de amostras são determinadas apenas pela
orientação espacial relativa dessas amostras;
b) o interesse é enfocado apenas na média e na variância das diferenças,
significando que esses dois parâmetros dependem unicamente da orientação;
c) por conveniência assume-se que os valores da área de interesse não
apresentam tendência que possa afetar os resultados e, assim, a preocupação é
apenas com a variância das diferenças entre valores das amostras.
A modelagem, ou seja, o ajuste de um variograma experimental a uma
função é um passo fundamental na análise variográfica, sendo um processo que
envolve várias tentativas e na qual a experiência pesa muito. Pode-se optar por
um ajuste manual por comparação visual, mais sujeito a erros, ou, com o auxílio

154
de algoritmos, para ajustes automáticos como apresentado, entre outros, em
PANNATIER (1996). Acrescentar, em seguida, a essa verificação a “validação
cruzada”. Nessa análise, depois de obtido o modelo variográfico, cada valor
original é removido do domínio espacial e, usando-se os demais, um novo valor é
estimado para esse ponto. Desse modo, um gráfico pode ser construído
mostrando a relação entre valores reais e estimados. A validação cruzada, porém,
não prova que o modelo escolhido é o mais correto, mas sim que o mesmo não é
inteiramente incorreto. A melhor verificação, então, é aquela resultante do
confronto entre os valores estimados e a realidade de campo.
Uma comparação entre os ajustes a um modelo esférico e a um modelo
linear é apresentada a seguir e o ajuste é indicado, no gráfico, pela relação entre
a reta a 45º e a obtida pela análise. Um valor igual a 1,0 significa a indicação de
ajuste perfeito.

Modelo esférico
648
5770
579
Valores reais

4327
510
Semivariância

2885
442

1442
373

0
373 442 510 579 648
0 4 7 10 14
Valores estimados
Distância "h"

Modelo linear
5870

4071
Valores reais

6093

4570 2271
Semivariância

3047 471

1523 -1328
-1328 471 2271 4071 5870
0
0 4 7 10 14
Valores estimados
Distância "h"

Num estudo geoestatístico, portanto, a parte fundamental refere-se à


determinação do variograma. Isso é importante e todo o cuidado deve ser tomado
na análise variografica para que possa obter uma criteriosa análise geoestatística.

155
9.2. Krigagem
Krigagem é o processo de estimativa geoestatístico de valores de variáveis
distribuídas no espaço, e/ou no tempo, a partir de valores adjacentes enquanto
considerados como interdependentes pelo variograma. Trata-se, em último caso, de
um método de estimativa por médias móveis. O termo, tradução do francês
krigeage, e do inglês kriging, foi cunhado pela escola francesa de geoestatística
em homenagem ao engenheiro de minas sul-africano e pioneiro na aplicação de
técnicas estatísticas em avaliação mineira, Daniel G. Krige.
A krigagem pode ser usada, como algoritmo estimador, para:

a) previsão do valor pontual de uma variável regionalizada em um determinado


local dentro do campo geométrico; é um procedimento de interpolação exato
que leva em consideração todos os valores observados, o qual pode ser a base
para cartografia automática por computador quando se dispõe de valores de
uma variável regionalizada dispostos por uma determinada área;

b) cálculo médio de uma variável regionalizada para um volume maior que o


suporte geométrico como, por exemplo, no cálculo do teor médio de uma jazida
a partir de informações obtidas de testemunhas de sondagens;

Em todas essas situações o método fornece, além dos valores estimados, o


“erro” associado a tal estimativa, o que o distingue dos demais algoritmos à
disposição. A krigagem usa informações a partir do variograma para encontrar os
pesos ótimos a serem associados às amostras que irão estimar um ponto, um área
ou um bloco. Como o variograma é uma função da distância entre locais de
amostragens, mantendo o mesmo número de amostras, os pesos são diferentes
de acordo com o seu arranjo geográfico. O uso do variograma para a estimativa
por krigagem não exige que os dados tenham distribuição normal, mas a presença
de distribuição assimétrica, com muitos valores anômalos, deve ser considerada,
pois a krigagem é um estimador linear.

Este termo abrange uma família de algoritmos conhecidos como krigagem


simples, krigagem ordinária, krigagem universal, krigagem indicativa, krigagem
com deriva externa. O estimador mais usual é a krigagem ordinária cuja tradução,
do frances “krigeage ordinaire”, deveria ser krigagem normal (SOARES, 2006). A
tradução, porem, esta consagrada entre nós e será a usada neste texto.

156
9.2.1. Krigagem ordinária
Seja um ponto que se deseja estimar, sendo o valor real desconhecido
representado por V. O valor estimado (V*) é calculado, utilizando n amostras
localizadas segundo coordenadas conhecidas, com valores x1, x2, x3....xn
(conjunto S), de forma linear, como por exemplo, através da técnica da
ponderação pelo inverso das distâncias.
V* = p1 x1 + p2x2 + p3x3 + ... + pnxn, onde os pi são os pesos atributos a
cada amostra i.
É evidente que existe associado a esse estimador um erro ε=V-V* e que se,
teoricamente, diversas estimativas forem feitas a média de erros é zero. Se os
erros, portanto, apresentarem valores próximos a zero, o estimador é de
confiança e isso pode ser verificado pela distribuição desses valores. A maneira
mais simples de medir estatisticamente tal distribuição é via o desvio padrão ou a
variância. No caso em questão, porém, a variância não pode ser obtida porque
não se conhece o valor real que se esta estimando e, portanto, também não se
sabe qual o erro associado.

Variância dos erros = σ2


ε = desvios ao quadrado em relação ao erro médio
= média de (V-V*)2.
Para encontro da variância pode-se, porém, utilizar o variograma, em que
são medidas as diferenças ao quadrado. Num variograma, previamente calculado,
dada uma distância h entre os pontos, pode-se estimar a variância simplesmente
lendo o valor no eixo dos γ´s e multiplicando-o por 2

σ2
ε = 2γ(h)
Desse modo, para o processo de estimativa de um ponto utilizando o
método da krigagem, procede-se da seguinte maneira:
V* = p1x1 + p 2 x 2 + p3 x 3 + ...pn x n

Se a soma dos pesos for igual a 1 e não ocorrer tendência local dos valores,
esse estimador é o melhor e não tendencioso, pois a partir dos pesos atribuídos a
cada amostra, minimiza a estimativa da variância.

∂σε2 / ∂λi = 0 , i = 1,2,3,4,...n

157
Isso é obtido construindo-se um sistema de n equações com n incógnitas
(λ1, λ2, λ3, ... λn) e havendo a restrição de que Σλi=1, passa-se a n+1 equações.
Como se tem apenas n incógnitas desconhecidas, introduz-se uma outra, também
desconhecida, para balancear o sistema, ou seja, o chamado multiplicador de
Lagrange, µ.

∂ 2 − λ(Σλi − 1) = 0 , se Σλi − 1 = 0
ε
O objetivo da krigagem é procurar pelo conjunto ótimo de ponderadores de
modo que a variância do erro de estimativa seja a menor possível. Para tanto é
organizado um sistema de equações com n+1 incógnitas, para a estimativa de um
ponto (So)
λ γ(S1 , S1 ) + λ γ(S1 , S 2 ) + λ γ(S1 , S 3 ) + L +
1
2 3
λ γ(S1 , Sn ) + µ = γ(S1 , S 0 )
n
λ γ(S 2 , S1 ) + λ γ(S 2 , S 2 ) + λ γ(S 2 , S 3 ) + L + λ γ(S , S ) + µ = γ(S , S )
2 2 n 2 0
1 3 n
λ γ(Sn , S ) + λ γ(Sn , S 2 ) + λ γ(Sn , S 3 ) + L + λ n γ(Sn , Sn ) + µ = γ(Sn , S 0 )
1
1 2 3
λ1 + λ + λ + L + λ + 0 = 1
n
2 3

Em notação matricial:
 γ(S1 , S1 ) γ(S1 , S 2 ) L γ(S1 , S n ) 1   λ1   γ(S1 , S 0 ) 
 γ(S 2 , S1 ) γ(S 2 , S 2 ) L γ(S 2 , S n ) 1  λ 2   γ(S 2 , S 0 )
     
M M M  M  = M 
 γ(S n , S ) γ(S n , S 2 ) L γ(S n , S n ) 1  λ n   γ(S n , S 0 )
 1     
 1 1 L 1 0 µ  1 
[S i , S i ] [λ i ] [S i , S 0 ]
Estas equações constituem equações normais a n+1 incógnitas, as quais podem ser
resolvidas, para a obtenção dos coeficientes, por cálculo matricial, segundo:

[SiSi ][λ i ] = [SiS 0 ]

Multiplicando ambos os termos da equação pelo inverso de [SiSi]:


[SiSi]-1.[SiSi].[λι] = [SiSi]-1.[SiS0] ;

como [SiSi]-1.[SiSi] = [I] (matriz de identidade), portanto, [I].[ λι] = [λι] e


[I].[ A ] = [ A ] ,

e, desse modo, a solução para o cálculo dos pesos λι torna-se

[λι] = [SiSi]-1.[SiS0]

158
A matriz [Si,Si] contém os valores obtidos no variograma referentes às
distâncias entre as amostras estimadoras; o vetor [Si,S0] contém os valores
obtidos no variograma referentes às distâncias entre cada amostra e o ponto (S0)
a ser estimado e o vetor [λι] contém os ponderadores a serem calculados.
Resolvido o sistema de equações, obtém-se os pesos λi e o multiplicador de
Lagrange, µ, segundo:
-1
[λi] = [Si,Si] [Si,S0]
Para o ponto S0 a ser estimado, obtém-se uma combinação linear dos
valores dos pontos vizinhos e respectivos pesos
S0 = ΣλiSi
Para o cálculo da variância (σ²) associada ao valor S0 obtido por estimativa
usa-se a expressão:
σ 2
= Σλ i γ(Si , S0 ) + µ = [λ i ]' [Si , S0 ] ,

sendo [λi]' = vetor transposto com os pesos λi e [Si,S0] = vetor com os valores
obtidos no variograma referentes às distâncias entre cada amostra e o ponto (S0)
a ser estimado.

9.2.2. Exemplo: interpolação de pontos para a confecção de mapas de


contornos
Existe a disposição diversos algoritmos para a estimativa de pontos que são
utilizados na interpolação para a confecção de mapas, como o inverso ao
quadrado da distância, curvatura mínima, vizinho mais próximo, regressão
polinomial, entre outros, alem da krigagem. A diferença entre os diversos métodos
esta em como, a partir de valores conhecidos, podem ser estimados os nós de
uma rede regular necessária para a obtenção dos mapas. Normalmente nesse tipo
de estudo parte-se de uma série de pontos regular ou irregularmente distribuídos
com valores conhecidos e a partir deles procura-se por construir uma rede regular
de pontos interpolados. O que distingue a krigagem dos demais métodos é que
ela leva consideração a variabilidade espacial dos dados, alem de fornecer uma
medida indicativa do erro de interpolação.

159
Os dados para este exemplo provêm de uma jazida de carvão, localizada
em Sapopema/PR, na qual foram obtidos 38 valores para a variável espessura em
metros (Matriz de dados 9.1.). Como descrito por CAVA (1985) e LANDIM (2003)
esse depósito situa-se a cerca de 20 km a noroeste de Figueira, no nordeste do
Estado do Paraná, em sedimentos da parte superior do Membro Triunfo da
Formação Rio Bonito. Na Figura 9.3. esta a localização da rede de amostragem.

Figura 9.3. Rede regular de amostragem contendo os valores de espessura.

A partir desses 38 valores de espessura da jazida de carvão a krigagem


ordinária é aplicada para estimar valores em pontos não amostrados e,
consequentemente, fazer um mapa com a distribuição espacial dessa variável. Na
Figura 9.4. encontra-se o reticulado em que para cada nó valores serão
estimados.

160
Figura 9.4. Reticulado em que os nós apresentam valores conhecidos e valores a serem estimados
por krigagem ordinária.

Na Figura 9.5. é mostrado, após modelagem, o variograma esférico que


forneceu os seguintes parâmetros: C0 = 0; C = 0.102 e a = 2.45

Figura 9.5. Variograma esférico com C0 = 0; C = 0.102 e a = 2,45

Com esse resultado da análise estrutural os valores para a rede regular


foram estimados por krigagem ordinária. A Figura 9.6 mostra o mapa obtido e a
Figura 9.7. o respectivo mapa com os desvios-padrão da krigagem. Esta medida
associada à estimativa é que distingue o método da krigagem em relação aos
demais algoritmos e, desse modo, quando da sua aplicação sempre resultam dois
mapas: um com a distribuição dos valores interpolados e outro com a variância,
ou o desvio padrão, referentes aos valores estimados. Nestes a localização dos
menores valores coincide com as áreas com maior densidade de pontos. Nos
locais onde os nós da rede coincidir com um ponto já conhecido a estimativa é

161
livre de erro e isso é muito útil para a verificação da qualidade do produto final
obtido. Sendo a krigagem um método que fornece interpoladores exatos, ao
prever valores em pontos previamente conhecidos o faz sem erro.

Figura 9.6. Distribuição de valores de espessura de carvão, obtida por krigagem ordinária.

Figura 9.7. Mapa dos desvios-padrão dos valores obtidos por krigagem ordinária.

Como estimar, porem, valores desconhecidos a partir de valores


conhecidos utilizando a krigagem? Nesse método há necessidade de encontrar,
preliminarmente, a variabilidade espacial dos dados o que é conseguido por uma
análise variográfica. Em outras palavras, antes da aplicação da krigagem é

162
preciso calcular um semivariograma experimental e em seguida modelá-lo. Seja,
portanto, o exemplo mostrado na Figura 9.8. onde apenas quatro valores
conhecidos são usados para determinar um ponto desconhecido.

Figura 9.8. Estimativa do valor no ponto 0

Neste método para a estimativa do ponto 0 são necessários não apenas os


valores das distâncias de cada um dos 4 pontos em relação a ele, mas também
as distâncias entre os pontos (Figura 9.9.)

Figura 9.9. Relação entre os 4 pontos estimadores 1, com valor 1,3, 2, com valor 1,18, 3, com
valor 1,4, e 4, com calor 1,0, e o ponto 0 com valor a ser estimado

Não são as distâncias euclidianas, porém, que são utilizadas, mas sim os
valores resultantes da análise espacial pelo variograma modelado. Isso pode ser
obtido graficamente colocando os valores no variograma ou analiticamente
utilizando a formula de um modelo, no caso, o esférico. Assim o valor γ para a

163
distância euclidiana 0,50, entre o ponto 4, o mais próximo, e 0, é calculado
segundo:

 1h 
3
γ(h) = C  32  ah  −    + C0
2a 
   

 3  0,50  1  0,50 3 
γ (0,50) = 0,102   −    + 0 = 0,031
 2  2,5  2  2,5  

De modo idêntico são encontrados todos os demais valores:


Pontos Distâncias γ(h)
1-2 0.707 0.043
1-3 0.707 0.043
1-4 1.500 0.082
1-0 1.000 0.059
2-3 1.000 0.059
2-4 1.118 0.065
2-0 0.707 0.043
3-4 1.118 0.065
3-0 0.707 0.043
4-0 0.500 0.031

De posse desses valores pode-se organizar o sistema de krigagem para o


cálculo dos pesos λi e do multiplicador de LaGrange µ:

−1
 0 0,043 0,043 0,082 1 0,059  λ1 
     
0,043 0 0,059 0,065 1 0,043 λ 2 
0,043 0,059 0 0,065 1 0,043 =  λ 3 
     
0,082 0,065 0,065 0 1 0,031 λ 4 
 1 1 1 1 0   1   µ 

− 17,783 9,207 9,207 − 0,631 0,261  0,059 − 0,017 


 − 15,733 1,222     
 9,207 5,304 0,188  0,043  0,272 
 9,207 1,222 − 15,733 5,304 0,188  0,043 =  0,272 
     
 − 0,631 5,304 5,304 − 9,977 0,362  0,031  0,473 
 0,261 0,188 0,188 0,362 − 0,046   1   − 0,003

Pesos: λ1=-0,017; λ2=0,272; λ3=0,272; λ4=0,473, somando 1.


Para o cálculo do teor em 0:

164
0 = (-0,017*1,30) + (0,272*1,18) + (0,272*1,40) + (0,473*1,00) = 1,153 m

Para este resultado é necessário o estabelecimento de um intervalo de


confiança. A variância associada à estimativa pela krigagem é:
S2k=(-0,017*0,059)+(0,272*0,053)+(0,272*0,053)+(0,473*0,031)-0,003=0,034
Sk = 0,185
Usando este desvio padrão para estabelecer um intervalo de confiança e
supondo que a distribuição dos valores de estimativa apresente distribuição
normal em torno do valor real e que, portanto, 95% dessa distribuição estão no
intervalo de mais ou menos 1,96 desvios padrão, tem-se que o intervalo de
confiança é da ordem de ± 0,185 * 1,96 = 0,363
O valor do ponto 0 deve estar, portanto entre 0,790 e 1,516 m.
Todos os demais valores a serem estimados, com os respectivos desvios
padrão da krigagem, são calculados de forma idêntica.

165
BIBLIOGRAFIA
ARMSTRONG, M. (1998) – Basic Linear Geostatistics: Springer

BACHMAIER, M. & BACKES, M. (2008): Variogram orsemivariogram? Understanding the


variances in a variogram: Precision Agric., 9:173-175.

BROOKER, P. I. (1991) – A Geostatistical Primer: World Scientific.

CAVA, L.T., Coord. (1985) - Potencial e Perspectivas para o Carvão Mineral do Estado do
Paraná: MINEROPAR/PR.

CHILÉS, J. P. & DELFINER, P. (1999) Geostatistics. Modeling spatial uncertainty: John


Wiley and Sons.

CLARK I. (1979) – Practical Geostatistics: Applied Science Publishers Ltd, 129p.


http://uk.geocities.com/drisobelclark/practica.html

CLARK, I. & HARPER, W. V. (2000) - Practical Geostatistics 2000: Geostokos (Ecosse)


Limited

DEUTSCH, C.V. AND JOURNEL, A.G. (1992) - GSLIB-Geoestatistical Software Library and
User’s Guide. Oxford University Press

GANDIN, L. S. (1963) – Ob”ektivnyi analiz meteorologicheskikh polei:


Gidrometeologicheskoe Izdatel’stvo, Leningrad. Translation (1965): Objective Analysis of
Meteorological Fields. Israel Program for Scientific Translations, Jerusalém.

GOOVAERTS, P. (1997) - Geostatistics for Natural Resources Evaluation: Oxford University


Press

GUERRA P.A.G. (1988) - Geoestatística Operacional: Departamento Nacional da Produção


Mineral.

HOHN, M. E. (1999): Geostatistics and Petroleum Geology: Kluwer Academic Publishers.

ISAAKS, E. & SRIVASTAVA, R.M. (1989) - An Introduction to Applied Geostatistics: Oxford


University Press.

JOURNEL, A.G. & HUIJBREGTS, J.C.H. (1978) - Mining geostatistics: Academic Press.

KOLMOGOROV, A. N. (1941a) – The local structure of turbulence in incompressible


viscous fluid at very large Reynold’s numbers : Comptes Rendus (Doklady) de l’Académie
des Sciences de l’URSS, 30(4):301-305. Reprinted (1961) in “Turbulence: Classic Papers
on Statistical Theory”, S. K. Friedlander and L. Topping, eds.: Interscience Publishers,
151-155

KOLMOGOROV, A. N. (1941b) – Dissipation of energy in the locally isotropic turbulence:


Comptes Rendus (Doklady) de l’Académie des Sciences de l’URSS, 32(1):16-18. Reprinted
(1961) in “Turbulence: Classic Papers on Statistical Theory”, S. K. Friedlander and L.
Topping, eds.: Interscience Publishers, 159-161.

166
KRIGE, D. G. (1951) – A statistical approach of some basic mine valuation problems on
the Witwatersrand: Journal of the Chemical, Metallurgical and Mining Society of South
Africa, December:119-139.

LANDIM, P. M. B. (2003) – Análise estatística de dados geológicos: Editora UNESP, 2ª.


edição.

MATÉRN, B. (1960) – Spatial Variation. Stochastic Models and Their Application to Some
Problems in Forest Surveys and Other Samplng Investigations. Meddelanden frän Statens
Skogsforskningsinstitut, vol. 49, n. 5, Almaenna Foerlaget, Stockholm. Second edition
(1986), Springer.

MATHERON, G. (1962-1963) - Traité de Géostatistique Appliquée, Tome I; Tome II: Le


krigeage: I. Mémoires du Bureau de Recherches Géologiques et Minières, n.14 (1962),
Editions Technip, Paris ; II. Mémoires du Bureau de Recherches Géologiques et Minières,
n. 24 (1963), Editions B.R.G.M., Paris

MATHERON, G. (1965) – Les variables regionalisées et leur estimation. : Masson, Paris.

OLEA, R. A. (1999) – Geostatistics for Engineers and Earth Scientists: Kluwer Academic
Publishers

PANNATIER Y. (1996) - VARIOWIN. Software for Spatial Data Analysis in 2D: Springer-
Verlag.

RENDU, J-M. (1981): Na Introduction to Geostatistical Methods of Mineral Evaluation:


South African Institute of Mining and Metallurgy Monograph Series, Geostistics 2, 2nd. Ed.

SAMPER-CALVETE, F. J. & CARRERA-RAMÍREZ, J. (1996): Geoestadística. Aplicaciones a


la hidrogeologia subterrânea: Centro Internacional de Métodos Numéricos em Ingenieria,
Universitat Politécnica de Catalunya.

SOARES, A. (2006) – Geoestatística para as ciências da terra e do ambiente: IST Press,


Lisboa.

VALENTE, J. M. G. P. (1982) – Geomatemática. Lições de Geoestatística: Ed. Fundação


Gorceix, vol. I-VIII.

WACKERNAGEL, H. (2003) – Multivariate Geostatistics: An Introduction with Applications:


Springer-Verlag, 3th. Ed.

WEBSTER, R. & OLIVER, M. A. (2007) – Geostatistics for Environmental Scientists, 2nd.


Ed.: Wiley

WIENER, N. (1942): The Extrapolation, Interpolation and Smooting of Stationary Time


Series. With Engineering Applications: Report of the Services 19, Research Project DIC-
6037, MIT, Cambridge, Massachusetts. Printed in book form (1949): Wiley and Sons.

167
WIJS, H. J. de (1951): Statistics of ore distribution. Part I: Frequency distribution of assay
values: Geologie em Mijnbouw (Journal of the Royal Netherlands Geological and Mining
Society), New Series, 13(11):365-375.

WIJS, H. J. de (1953): Statistics of ore distribution. Part II: Theory of binomial distribution
applied to sampling and engeneering problems: Geologie em Mijnbouw (Journal of the
Royal Netherlands Geological and Mining Society), New Series, 15(1):12-24.

YAMAMOTO, J.K. (2001) – Avaliação e Classificação de Reservas Minerais (Editor): Edusp

168
10. CLASSIFICAÇÃO REGIONALIZADA
Uma das mais importantes tarefas em Geociências é resolver problemas por
medição de atributos regionalizados. A classificação multivariada de unidades
estratigráficas, perfis de poços ou amostras petrográficas combinada com o
conceito de variáveis regionalizadas podem fornecer procedimentos para uma
identificação de regiões geográficas homogêneas. Os resultados podem, então,
serem usados para a formulação de hipóteses de trabalho que procurarão explicar
os processos que levaram à formação do fenômeno em estudo. Como os
processos geológicos são bastante complexos e a amostragem geralmente não é
suficiente, a simplificação da realidade se impõe por meio de modelos.
Classificação regionalizada de espécimes geológicas em grupos é um desses
modelos simplificadores, segundo o qual os resultados de análises de dados
multidimensionais georreferenciados podem ser transferidos para o espaço
geográfico real possibilitando mapeamentos.
Na Classificação Regionalizada procura-se, portanto, atribuir, em termos
probabilísticos, amostras multivariadas e georreferenciadas a grupos previamente
determinados. Assim o primeiro, e fundamental, passo é a definição dos grupos, o
que pode ser feito utilizando um método estatístico multivariado, como a análise
de agrupamentos, ou por um conhecimento específico “a priori” sobre o assunto.
Definido os grupos, as amostras serão submetidas a uma análise discriminante
multigrupos e com o auxílio de medidas, como a distância generalizada de
Mahalanobis associada à krigagem, verificar a respectiva atribuição para os grupos
considerados.
De acordo com OLEA (1999) não há nada de novo em termos conceituais na
Classificação Regionalizada. A novidade é a junção de diversas técnicas
estatísticas multivariadas e geoestatísticas para a construção de um modelo
geológico. HARFF & DAVIS (1990) publicaram a primeira formulação do método
combinando elementos geoestatísticos com idéias provenientes de VORONIN (1967),
RODIONOV (1981) e KOGAN (1986). Outros autores que apresentaram contribuições
ao assunto foram HARFF, DAVIS & OLEA (1991), HARFF, DAVIS, OLEA & BOHLING (1991),
HARFF, BOHLING & OLEA (1993). Em BOHLING (1997), além de um programa para o

169
cálculo da Classificação Regionalizada, são apresentadas diversas alternativas para
a implementação do método.
Neste texto é adotado o enfoque apresentado por PACHECO & LANDIM (2005).
Segundo esses Autores os principais problemas associados a esta metodologia
são: a) a interpretação geológica dos grupos e se os mesmos são espacialmente
autocorrelacionados ou não, pois os algoritmos convencionais para análise de
agrupamentos acabam por definir os grupos encontrados de maneira subjetiva; e
b) a atribuição de amostras que não apresentam probabilidades bem definidas de
pertencer a um determinado grupo.
Para a definição inicial dos grupos foi proposto um agrupamento natural,
baseado no conhecimento geológico, operação denominada “primeiro modo”. Em
seguida o mesmo conjunto de amostras deve ser submetido a uma análise de
agrupamentos clássica, usando método de WARD (1963), operação denominada
“segundo modo”. Ambos os resultados são submetidos a uma análise
discriminante multigrupos para verificar se as amostras estão devidamente
classificadas em seus respectivos grupos. Escolhendo duas diferentes
metodologias para tal verificação espera-se que as amostras que forem mantidas
nos mesmos grupos, independentemente do método, estejam realmente bem
classificadas dentro de certos espaços geográficos. Aquelas, porém, que mudarem
de grupo, conforme o método aplicado, são consideradas como pertencentes a
regiões híbridas.
Um fluxograma desse enfoque para a Classificação Regionalizada a dois
modos é apresentado na Figura 10.1.

170
Figura 10.1. Fluxograma da Classificação Regionalizada a dois modos, Segundo PACHECO & LANDIM
(2005).

Como os dados são georreferenciados o produto de ambas as Classificações


Regionalizadas podem originar arranjos reticulares regulares com o auxílio de
algoritmos estimadores como a krigagem. Nos nós desses retículos estarão
distribuídas espacialmente as amostras identificadas pelos agrupamentos
encontrados. Desse modo pela comparação entre ambos os retículos encontrados
faz-se uma análise dos nós. Havendo coincidência de identificação as amostras
permanecem no grupo em questão. Caso contrário passam a pertencer a um
grupo híbrido, ou de transição entre grupos bem caracterizados.

10.1. Exemplo
Neste exemplo aplicou-se a Classificação Regionalizada para mapear, em
termos probabilísticos, as influências principais que teriam agido no controle da
composição química de águas subterrâneas de uma região granitóide no centro-
leste de Portugal, conhecida como plutonito do Fundão (PACHECO & LANDIM, 2005).
A matriz de dados analisada é composta por 160 análises geoquímicas de
águas subterrâneas, provenientes da citada região, com teores em µmol/L dos
maiores anions e sílica dissolvida: Cl-, SO42-, NO3-, HCO3- e SiO2. (Matriz de dados
10.1. e Figura 10.2.). Tais dados já tinham sido analisados por PACHECO (1998b)

171
que utilizou a análise das correspondências para determinar as principais
influências sobre a composição química dessas águas. Segundo esse estudo, que
conseguiu identificar águas poluídas e não poluídas, por regressão linear múltipla,
três seriam os fatores controladores: alteração por intemperismo, contaminação
agrícola e contaminação doméstica (Figura 10.3.).

Figura 10.2. Distribuição dos pontos

Figura 10.3. Distribuição das águas na região do plutonito do Fundão (Pacheco,1998b)

Inicialmente, como no caso do exemplo 8.4.3., aplicou-se uma análise de


agrupamentos aos dados. Naquele exemplo já havia um conhecimento “a priori”
de quantos grupos existiam. Neste caso procurou-se, pela análise de
agrupamentos, determiná-los. O método utilizado foi o do agrupamento
hierárquico e o coeficiente de similaridade adotado, para o procedimento

172
aglomerativo, foi o de Ward. Nessa técnica o agrupamento é baseado na variância
mínima, onde o enfoque é sobre a variabilidade que existe dentro de cada caso e
os agrupamentos são efetuados ao se determinar que pares de casos, quando
tomados em conjunto, apresentam o menor acréscimo de variabilidade. O
resultado dessa análise indicou três grandes grupos com a distribuição das
amostras de maneira muito semelhante àquela encontrada por PACHECO (1998b).
Depois de obtido o dendrograma e verificada a presença dos três grupos, os
mesmos foram submetidos à análise discriminante multigrupos.
A análise discriminante confirmou três grupos, que foram interpretados de
acordo com o trabalho de Pacheco (1998b), como águas não poluídas em que a
composição é influenciada fundamentalmente pela alteração das rochas e águas
poluídas, seja por efluentes domésticos seja por contaminação de defensivos
agrícolas (Figura 10.4.).

Figura 10.4. Resultado da análise discriminante multigrupos

Como os grupos estão discriminados, as amostras pertencentes a cada um


deles são dispostas de maneira a indicar a que distâncias estão do seu respectivo
centróide. Para cada caso são utilizadas as funções discriminantes calculadas e em
seguida verificado se as classificações originais estavam corretas ou não. Esse
resultado é apresentado em termos probabilísticos. Como se tem à disposição a
coordenada geográfica de cada uma das amostras foram construídos três mapas
de probabilidade de ocorrência Neste caso foram utilizados as coordenadas
relativas dos pontos e não as absolutas (Tabelas 10.1. e 10.2.).

173
Tabela 10.1.
Coordenadas Coordenadas
ID relativas Gauss
X Y X Y
28 176 127 253543.9 353824.6
30 181 129 253719.3 353894.7
31 166 110 253193 353228.1
32 165 118 253157.9 353508.8
35 144 76 252421.1 352035.1
39 148 149 252561.4 354596.5
41 124 160 251719.3 354982.5
42 145 180 252456.1 355684.2
45 202 261 254456.1 358526.3
51 172 272 253403.5 358912.3
59 138 259 252210.5 358456.1
60 176 227 253543.9 357333.3
61 190 235 254035.1 357614
63 180 110 253684.2 353228.1
66 118 122 251508.8 353649.1
67 123 116 251684.2 353438.6
71 88 109 250456.1 353193
72 85 100 250350.9 352877.2
... ... ... ... ...

Tabela 10.2. Probabilidades de ocorrência de amostras nos três grupos considerados


ID X Y Pr(A) Pr(B) Pr(C)
28 176 127 0.452 0.000 0.548
30 181 129 0.319 0.001 0.680
31 166 110 0.800 0.000 0.200
32 165 118 0.870 0.000 0.130
35 144 76 0.485 0.000 0.515
39 148 149 0.757 0.000 0.243
41 124 160 0.862 0.000 0.138
42 145 180 0.864 0.000 0.136
45 202 261 0.095 0.000 0.905
51 172 272 0.330 0.000 0.670
59 138 259 0.003 0.016 0.981
60 176 227 0.753 0.000 0.247
61 190 235 0.793 0.000 0.207
63 180 110 0.001 0.998 0.001
66 118 122 0.695 0.000 0.305
67 123 116 0.563 0.000 0.437
71 88 109 0.428 0.000 0.572
72 85 100 0.921 0.000 0.079
74 71 105 0.781 0.000 0.219
75 65 95 0.847 0.000 0.153
76 66 85 0.647 0.000 0.353
77 131 77 0.508 0.000 0.492

174
78 115 71 0.002 0.993 0.005
79 94 74 0.849 0.000 0.151
84 120 106 0.698 0.000 0.302
85 118 101 0.785 0.000 0.215
86 216 113 0.668 0.000 0.332
87 253 106 0.791 0.000 0.209
90 285 172 0.656 0.000 0.344
92 301 208 0.767 0.000 0.233
96 312 165 0.852 0.000 0.148
99 333 158 0.533 0.000 0.467
202 78 159 0.000 1.000 0.000
203 79 175 0.491 0.000 0.509
204 127 210 0.849 0.000 0.151
205 146 217 0.452 0.000 0.548
206 103 195 0.697 0.000 0.303
207 85 151 0.621 0.021 0.358
208 92 167 0.854 0.000 0.146
209 86 127 0.750 0.000 0.250
210 84 112 0.878 0.000 0.122
211 124 188 0.205 0.000 0.795
212 128 174 0.845 0.000 0.155
213 150 197 0.400 0.420 0.180
214 140 150 0.743 0.000 0.257
215 150 155 0.655 0.000 0.345
216 80 74 0.305 0.000 0.695
217 110 86 0.666 0.000 0.334
218 130 123 0.002 0.000 0.998
219 77 146 0.925 0.018 0.057
220 170 277 0.000 1.000 0.000
221 200 228 0.805 0.000 0.195
222 174 231 0.690 0.000 0.310
223 163 214 0.755 0.000 0.245
224 173 188 0.361 0.000 0.639
225 166 172 0.800 0.000 0.200
226 178 175 0.816 0.000 0.184
227 186 184 0.857 0.000 0.143
228 145 80 0.400 0.000 0.600
229 235 64 0.767 0.000 0.233
230 288 86 0.531 0.000 0.469
231 221 83 0.438 0.000 0.562
232 203 111 0.909 0.000 0.091
233 200 129 0.000 1.000 0.000
234 175 153 0.737 0.000 0.263
235 227 214 0.830 0.000 0.170
236 234 218 0.000 1.000 0.000
237 212 192 0.874 0.000 0.126
238 220 198 0.828 0.000 0.172
239 209 164 0.678 0.000 0.322
241 364 221 0.934 0.000 0.066
242 351 230 0.952 0.000 0.048
243 190 282 0.046 0.003 0.951
244 240 182 0.766 0.000 0.234

175
245 213 150 0.668 0.000 0.332
246 205 197 0.762 0.000 0.238
247 214 221 0.646 0.000 0.354
248 90 181 0.624 0.000 0.376
249 41 100 0.819 0.000 0.181
250 317 233 0.866 0.000 0.134
251 325 226 0.940 0.000 0.060
252 332 211 0.954 0.000 0.046
253 342 192 0.918 0.000 0.082
254 358 173 0.903 0.000 0.097
255 361 173 0.906 0.000 0.094
256 347 191 0.917 0.000 0.083
257 342 185 0.912 0.000 0.088
258 335 187 0.962 0.000 0.038
259 314 125 0.653 0.000 0.347
260 227 114 0.776 0.000 0.224
261 248 129 0.533 0.003 0.464
262 245 132 0.000 1.000 0.000
263 247 138 0.000 1.000 0.000
264 242 151 0.794 0.000 0.206
265 244 145 0.823 0.000 0.177
266 244 160 0.000 1.000 0.000
267 257 155 0.317 0.000 0.683
268 259 166 0.544 0.000 0.456
269 253 133 0.000 1.000 0.000
270 275 150 0.004 0.955 0.041
271 294 141 0.873 0.000 0.127
272 277 124 0.914 0.000 0.086
273 155 64 0.796 0.000 0.204
274 242 91 0.839 0.000 0.161
275 253 82 0.860 0.000 0.140
276 265 70 0.836 0.000 0.164
277 269 90 0.763 0.000 0.237
278 300 79 0.899 0.000 0.101
279 316 91 0.705 0.000 0.295
280 347 42 0.883 0.000 0.117
402 262 28 0.948 0.000 0.052
404 272 31 0.919 0.000 0.081
406 195 292 0.570 0.000 0.430
407 210 286 0.012 0.000 0.988
408 275 274 0.776 0.000 0.224
410 377 141 0.926 0.000 0.074
411 396 118 0.917 0.000 0.083
415 34 182 0.866 0.000 0.134
420 207 43 0.887 0.000 0.113
421 240 40 0.898 0.000 0.102
423 370 137 0.924 0.000 0.076
424 318 53 0.884 0.000 0.116
425 318 47 0.706 0.000 0.294
427 348 54 0.889 0.000 0.111
430 36 216 0.481 0.000 0.519
432 375 96 0.911 0.000 0.089

176
433 369 83 0.904 0.000 0.096
434 380 86 0.922 0.000 0.078
435 371 69 0.891 0.000 0.109
438 245 281 0.868 0.000 0.132
439 179 58 0.763 0.000 0.237
440 191 51 0.781 0.000 0.219
441 264 53 0.570 0.000 0.430
442 317 78 0.809 0.000 0.191
443 348 141 0.821 0.000 0.179
444 348 111 0.906 0.000 0.094
446 259 135 0.797 0.000 0.203
447 247 114 0.446 0.000 0.554
452 148 81 0.381 0.000 0.619
453 118 141 0.422 0.000 0.578
457 92 34 0.846 0.000 0.154
458 230 57 0.855 0.000 0.145
463 43 27 0.921 0.000 0.079
514 208 188 0.769 0.000 0.231
522 182 195 0.402 0.000 0.598
523 150 118 0.563 0.000 0.437
524 154 158 0.435 0.000 0.565
525 123 177 0.795 0.000 0.205
530 248 119 0.514 0.000 0.486
534 287 105 0.866 0.000 0.134
535 294 81 0.605 0.000 0.395
536 239 65 0.801 0.000 0.199
539 287 156 0.684 0.000 0.316
540 258 133 0.845 0.000 0.155
573 338 181 0.954 0.000 0.046
574 317 190 0.671 0.000 0.329
575 325 164 0.435 0.000 0.565
583 43 241 0.778 0.063 0.159
589 253 82 0.853 0.000 0.147
591 85 227 0.497 0.000 0.503

Os mapas de probabilidade de distribuição de cada um desses grupos são


mostrados nas Figuras 10.5, 10.5. e 10.7.

177
Figura 10.5. Probabilidades de distribuição das águas com composição química controlada
por fertilizantes agrícolas

Figura 10.6. Probabilidades de distribuição das águas com composição química controlada
por intemperismo

178
Figura 10.7. Probabilidades de distribuição das águas com composição química controlada
por efluentes domésticos

Esses resultados mostram a aplicação da análise discriminante em dados


multivariados georreferenciados, porém, como visto, são apresentados três mapas
em separados, quando o ideal seria os resultados num único mapa. Para tanto foi
necessário a aplicação da Classificação Regionalizada.

Segundo a metodologia proposta por PACHECO & LANDIM (2005) a definição


inicial do agrupamento, denominado natural, foi feita baseada na análise de
correspondências, sendo os grupos interpretados em termos de processos e/ou
fontes controladores (PACHECO, 1998a). Num segundo momento foi feita uma
classificação baseada na análise de agrupamentos, com o método de Ward como
critério de aglomeração. Ambos os resultados foram submetidos a uma análise
discriminante multigrupos que forneceu a probabilidade de cada amostra
pertencer a um dos três grupos considerados (Tabela 10.3.).

Tabela 10.3. Resultados da análise discriminante. CA/DA são os valores para a análise no primeiro
momento e ClA/Da para o segundo momento
Identificação Dados originais CA/DA ClA/DA
ID X (m) Y (m) [HCO3-] [Cl-] [SO42-] [NO3-] [SIO2] Prior Post Prior Post
28 253614 353895 780 440 356 371 656 3 1 C C
30 253789 353965 844 485 458 460 639 3 3 C C
31 253263 353298 490 423 185 387 506 3 3 A A
32 253228 353579 390 282 129 371 558 3 1 A A
35 252491 352105 729 347 341 221 614 1 1 C C
39 252631 354666 619 231 129 216 260 3 3 A A
41 251789 355052 261 189 198 55 463 1 1 A A
42 252526 355754 370 130 127 139 421 1 1 A A

179
45 254526 358596 1280 668 464 121 571 1 2 C C
51 253474 358982 780 499 458 189 100 2 2 C C
59 252281 358526 2260 2115 635 150 674 2 2 B C
60 253614 357403 560 248 158 63 524 1 1 A A
61 254105 357684 580 231 83 18 560 1 1 A A
63 253754 353298 229 790 735 998 399 3 3 B B
66 251579 353719 480 296 325 366 474 3 3 A A
67 251754 353509 1052 243 4 0 684 1 1 C C
71 250526 353263 639 183 433 0 626 1 1 C C
72 250421 352947 239 164 56 1 478 1 1 A A
74 249930 353123 660 149 44 32 609 1 1 A A
75 249719 352772 480 138 62 0 399 1 1 A A
... ... ... ... ... ... ... ... ... ... ... ...

Dispondo das coordenadas geográficas de cada valor obtido por esta


análise, segundo classificação posterior, foi construída uma rede regular de pontos
com o auxílio do método interpolador da krigagem. Necessário enfatizar que
ambos os retículos tem as mesmas dimensões.

A Análise de Correspondências, otimizada pela Análise Discriminante


revelou três agrupamentos naturais com geoquimismo controlado por:
intemperismo (1); efluentes domésticos (2) e fertilizantes (3) (Figura 10.8.)

360000

N CA group (influence)

358000
3 (farmland fertilizers)
2.7

2 (domestic effluents)
356000 1.8

1 (weathering)
0.9

354000

352000

350000
248000 250000 252000 254000 256000 258000 260000 262000

Figura 10.8. Distribuição espacial dos grupos determinados pelo resultado do agrupamento natural
otimizado pela análise discriminante.

180
A Análise de Agrupamentos, também otimizada pela Análise Discriminante,
apresentou uma distribuição alternativa dessas mesmas amostras, porem também
em três grupos: intemperismo (A); efluentes domésticos (C); fertilizantes (B)
(Figura 10.9.).

360000
N
ClA group (influence)

358000
B (farmland fertilizers)
2.7

356000 C (domestic effluents)


1.8

A (weathering)
354000 0.9

352000

350000
248000 250000 252000 254000 256000 258000 260000 262000

Figura 10.9. Distribuição espacial dos grupos determinados pelo resultado do análise de
agrupamentos otimizada pela análise discriminante

Fazendo a análise dos nós dos retículos, ou seja, combinando essas duas
figuras anteriores obteve-se o mapa final (Figura 10.10). O recadastramento dos
nós foi obtido da seguinte maneira: 1) quando os nós da Classificação
Regionalizada/primeiro modo apresentaram os mesmos valores, ou seja,
coincidindo 1 com A, 2 com C e 3 com B, os grupos foram mantidos como bem
classificados; 2) quando o valor 3 não coincidia, recebia o valor 4 e passou a ser
interpretado como mistura entre fertilizante e outras influências; 3) em todos os
outros casos o valor passou a 0 e interpretado como mistura de intemperismo e
efluentes domésticos.

181
360000 Alcaria N Code and Influence
Mixing between
4 agriculture and
358000 the other
influences

3 Agriculture
356000
Telhado
Fatela
Carvalhal 2 Effluents
Valverde
354000

Fundão 1 Weathering
Joanes
352000 Cabo Alcaide
Mixing between
0 weathering
Souto da Casa
and effluents
350000
248000 250000 252000 254000 256000 258000 260000 262000

Figura 10.10. Resultado da análise dos nós do reticulado.

182
BIBLIOGRAFIA
BOHLING, G. C. , (1997) - GSLIB-Style Programs for Discriminant Analysis and
Regionalized Classification: Computers & Geosciences, 23, no. 7, p.739-76A

HARFF, J. & DAVIS, J.C. (1990) - Regionalization in geology by multivariate classification:


Mathematical Geology, v. 22, no. 5, p. 577-588.

HARFF, J., DAVIS, J.C. & OLEA, R.A. (1991) – Quantitative assessment of mineral
resources with an application to petroleum geology: Nonrenewable Resources, vol. 1, n.
1:74-84

HARFF, J., DAVIS, J.C., OLEA, R.A. & BOHLING, G. (1991) – Regionalization of Western
Kansas Based on Multivariate Classification of Stratigraphic Data from Oil Wells, II: Kansas
Geol. Survey, Open-File Report 91-40, 30 pp.

HARFF, J., OLEA, R.A. & BOHLING, G. (1993) – From Multivariate Sampling to Thematic
Maps with an Application to Marine Geochemistry: in J. Davis & U.C. Herzfeld (eds.)
“Computers in Geology. 25 Years of Progress”, I.A.M.G., Studies in Mathematical Geology
n.5:265-274

KOGAN, R.I. (1986) - Interval’nye ocenki v Geologicheskich Issledovanijach: Nedra Prss,


Moscow, 335 pp.

OLEA, R.A. (1999) - Geostatistics for engineers and earth scientists: Kluwer Academic
Publishers, chapter A4.

PACHECO, F.A.L. (1998a) - Finding the number of natural clusters in groundwater data
sets using the concept of equivalence class: Computers & Geosciences, v. 24, no. A, p. 7-
A5.

PACHECO, F.A.L. (1998b) - Application of correspondence analysis in the assessment of


groundwater chemistry: Mathematical Geology, v. 30, no. 2, p. A29-A6A.

PACHECO, F.A.L. & LANDIM, P.M.B. (2005) - Two-Way Regionalized Classification of


Multivariate Datasets and its Application to the Assessment of Hydrodynamic Dispersion:
Mathematical Geology, v.37, no. 4, p. 393-4A7

RODIONOV, D.A., (1981), Statisticheskie Rezhenija v Geologii: Nedra Press, Moscow, 23A
pp.

VORONIN, J.A. (1967) - Geologija I Matematika: Nauka Press, Novosibirsk, 253 pp.

WARD, J.H. (1963) - Hierarchical grouping to optimize an objective function: Journal of


the American Statistical Association, v. 58, p. 238-244.

183
11. GEOESTATÍSTICA MULTIVARIADA

A utilização da krigagem, em suas diversas formas, permite uma análise


geoestatística univariada. Freqüentemente, porém, quando diversas variáveis são
obtidas nos mesmos pontos torna-se necessário uma análise geoestatística
multivariada de corregionalização. Nesse caso duas técnicas se destacam: a
“cokrigagem” e a “krigagem fatorial”.

11.1. Cokrigagem
A Cokrigagem é um procedimento geoestatístico segundo o qual diversas
variáveis regionalizadas podem ser estimadas em conjunto, com base na
correlação espacial entre si. É, portanto, uma extensão multivariada do método da
krigagem quando para cada local amostrado obtém-se um vetor de valores em lugar
de um único valor.
Uma das mais freqüentes aplicações ocorre quando a amostragem de uma
variável, denominada primária, é insuficiente e o objetivo é, então, melhorar a sua
estimação utilizando a correlação, por ventura existente, com variáveis mais
densamente amostradas, conhecidas como secundárias. Ou quando a variável
primária exibe uma baixa autocorrelação espacial e as variáveis secundárias
apresentam uma alta continuidade. Normalmente o estudo é feito considerando
uma variável primária e apenas uma secundária. Se o numero total de variável
primária e secundárias for igual a n, serão necessários n(n+1)/2 variogramas e
covariogramas cruzados. No caso de mais de duas variáveis secundárias o sistema
de cokrigagem torna-se extremamente complicado.
Fundamental na utilização da cokrigagem é a verificação prévia da
correlação existente entre a variável primária e as variáveis secundárias, a qual
deve ser alta para que as estimativas sejam consistentes (WATANABE et al., 2009).
Quando os pontos de amostragem são totalmente coincidentes (isotopia),
não se obtém uma melhoria substancial quando se aplica a cokrigagem em
relação à krigagem ordinária. Por outro lado é imposível estimar covariancias
cruzadas com todos os dados não coincidentes (heterotopia). A melhoria de
interpretação somente é significativa quando a variável primária tem um número

184
extremamente reduzido de casos em relação às demais secundárias (heterotopia
parcial).
Se Z1 e Z2 são funções aleatórias estacionárias ou intrínsecas, o variograma
cruzado delas, define-se como :
1
λ Z1Z 2 (h) = E[Z1 ( x ) − Z1 ( x + h))(Z 2 ( x ) − Z 2 ( x + h))]
2
A solução, por cálculo matricial, para a cokrigagem entre duas variáveis é
fornecida por:

 1 0 

  C1,1  x 0 , x α  
  
   
 C1,1  x α , x α´  C2,1  x α , y α 
 M M  ω     1 

  1 1    1 2     α 1    
 1 0  
 0 1
   
  =
 
  
 C  y , x  C  y , y  M M     
 2 ,1  2α α  
1   2 ,2  2α α´ 
2     υα   C1,2  x 0 , x α2  
 2 


0 1
    
 1L1 0L0 0 0  −µ 
1   1 


 0L0 1L1 0 0  − µ 2 
 0 
[A ] [X] [B]

onde α = 1...n ; α' =1...n ; α = 1...n ; α' =1...n .


1 1 1 1 2 2 2 2
A matriz [A] é composta por:
sub-matriz    , que descreve a distribuição espacial da primeira
C11  x α 1 , x a'1 

variável z1 ;

sub-matriz    , que descreve a distribuição espacial da segunda


C22  y α 2 , γ α'2 

variável z 2 ;

sub-matrizes    e    , que descrevem a


C12  x α 1 , y α2 

C21  y α 2 , x α1 

variabilidade cruzada das variáveis z1 e z 2 consideradas em conjunto;

os termos restantes 0 e 1 correspondem a condições de não enviés.


A matriz [A] não contém nenhuma informação sobre o ponto x0 para o qual
é necessária a estimação. Toda a informação necessária está contida no vetor [B].
O vetor [B] é composto por:

185
subvetor    , que depende da configuração geométrica relativa do ponto
C11  x 0 , x a1  

x0 em relação aos pontos xα 1 , onde z1 é observada;

sub-vetor    , que depende da configuração geométrica relativa do


C12  x 0 , y a2 

ponto x 0 em relação aos pontos yα 2 , onde z 2 é observada;

os termos vertentes 0 e 1 correspondem à condições de não enviés.


A solução do sistema, ou seja, cálculo dos n1 λ α1 coeficientes e n2 λ α 2

coeficientes para diferentes pontos x0 , é obtida pela inversão de [A] e

subsequente multiplicação por [B] ; µ 1 e µ 2 são os multiplicadores de Lagrange.

As equações da cokrigagem são formuladas na suposição que as


variáveis primária e secundária apresentam covariâncias, com matriz positiva
definitiva, para ser considerada uma matriz de covariâncias-cruzada válida. Uma
maneira simples para a obtenção dessa matriz é utilizar o “modelo linear de
corregionalização”.
O modelo linear de corregionalização fornece um método para ajustar os
auto-variogramas e variogramas cruzados entre duas variáveis ou mais de tal
maneira que a variância de qualquer combinação linear possível dessas variáveis
seja sempre positiva. Tal combinação usa a mesmas estruturas dos auto-
variogramas e dos variogramas cruzados, mantendo o mesmo valor para o
alcance. Detalhes podem ser encontrados, entre outros, em ISAAKS & SRIVASTAVA

(1989). Em termos bem simples, ambos os determinantes das matrizes abaixo,


referentes aos valores do efeito pepita (C0) e soleira (C), devem ser positivos,
para que se possa considerar válida a aplicação da cokrigagem:
C0 U C 0 UV CU CUV
>0 >0
C 0 UV C0V CUV CV

Maiores detalhes sobre aplicações da cokrigagem podem ser obtidos em


ABOUFIRASSI & MARIÑO (1984), STURARO & LANDIM (1994), CONDE & YAMAMOTO (2000),
ROCHA, YAMAMOTO & FONTELES (2009) entre outros, além de livros textos de autores
como WACKERNAGEL (1998), DEUTSCH & JOURNEL (1998), OLEA (1999) e CLARK & HARPER
(2000). Existem a disposição diversos programas (CARR, MYERS & GLASS, 1985; YATES

& YATES, 1990; MARCOTTE, 1991 e DEUTSCH & JOURNEL, 1992).

186
11.1.2. Cokrigagem ordinária colocalizada

11.1.3. Cokrigagem ordinária com deriva externa

11.1.4. Exemplo
Este exemplo é apresentado com poucos dados para ilustrar como se
desenvolve a aplicação da cokrigagem. Seja uma situação com 3 pontos onde V é
a covariância medida nesses três pontos e U, a variável de interesse, medida em
apenas duas dessas três localidades. A questão é estimar U em um local não
amostrado como mostra a figura abaixo:

Distribuição dos pontos, com coordenadas (0,0) para U0; (-3,6) para o ponto1; (-8,-5) para o
ponto 2; (3,-3) para o ponto 3

Estes dados provém de uma amostragem mais densa constituída por 275
pontos para U e 470 pontos para V, apresentados e amplamente discutidos no
texto de ISAAKS & SRIVASTAVA (1989). A análise covariográfica desses dados revelou
as seguintes relações:
γU(h) = 440000 + 70000γ(h’1) + 95000γ(h’2)
γV(h) = 22000 + 40000γ(h’1) + 45000γ(h’2)
γUV(h) = 47000 + 50000γ(h’1) + 40000γ(h’2)

Para verificar a validade do modelo linear de corregionalização foram


calculados os determinantes das matrizes referentes a cada estrutura:

187
• Efeito pepita
22000 47000
= 7.471.000.000 > 0
47000 440000

• Segunda estrutura
40000 50000
= 300.000.000 > 0
50000 70000

• Terceira estrutura
45000 40000
= 2.675.000.000 > 0
40000 95000

A Tabela, a seguir, mostra os valores de covariâncias e covariâncias


cruzadas necessários para o cálculo de U0.

Pares de Distância Distância CU(h) CV(h) CUV(h)


variáveis reticulado estrutural
U1U1 0,0 0,0 605000
U1U2 12,1 9,1 99155
U2U2 0,0 0,0 605000
V1V1 0,0 0,0 107000
V1V2 12,1 9,1 49623
V1V3 10,8 5,0 57158
V2V2 0,0 0,0 107000
V2V3 11,2 11,2 45164
V3V3 0,0 0,0 107000
U1V1 0,0 0,0 137000
U1V2 12,1 9,1 49715
U1V3 10,8 5,0 57615
U2V1 12,1 9,1 49715
U2V2 0,0 0,0 137000
U2V3 11,2 11,2 45554

188
U0U1 6,7 2,6 134229
U0U2 9,4 9,0 102334
U0V1 6,7 2,6 70210
U0V2 9,4 9,0 52697
U0V3 4,2 2,5 75887

Esses valores compõem as equações de cokrigagem:

605000 99155 137000 49715 57615 1 0  a1  134229


 99155 605000 49715 137000 45554 1 0  a 2  102334
     
     
     
137000 49715 107000 49623 57158 0 1  b1   70210 
 49715 137000 49623 107000 45164 0 1 ×  b2  =  52697 
     
 57615 45554 57158 45164 107000 0 1  b3   75887 
     
     
 1 1 0 0 0 0 0  µ1   1 
 0 0 1 1 1 0 0  µ 2   0 

Resolvendo essas equações, os seguintes valores para pesos da


cokrigagem, valor da estimativa para U0 e variância da estimativa por cokrigagem
são encontrados:

Pesos da cokrigagem:
ponto U1: a1 = 0,512 ponto U2: a2 = 0,488
ponto V1: b1 = -0,216 ponto V2: b2 = -0,397 ponto V3: b3 = 0,666

Multiplicadores de Lagrange:
µ1 = -205963 µ2 = -13823

Valores estimados no ponto de estimativa por cockrigagem:


Estimativa de U0 = 398 Variância de U0 = 681549

189
Apenas a título de informação, se fosse aplicada a krigagem ordinária o
valor estimado para U0 seria 630, com a previsão de variância dessa estimativa da
ordem de 719509.

11.2. KRIGAGEM FATORIAL


A krigagem fatorial é uma metodologia desenvolvida por MATHERON (1982) e
talvez a mais conhecida entre os métodos geoestatísticos multivariados. A teoria
pode ser encontrada em GOOVAERTS, 1992; GOOVAERTS & WEBSTER, 1994;
CASTRIGNANÒ ET AL. 1995; CASTRIGNANÒ ET AL., 2000; WACKERNAGEL, 2003. Um
software foi escrito por PARDO-IQUIZGUIZA & DOWD (2002).
A variabilidade natural presente na origem dos fenômenos geológicos é
governada por diversos fatores, os quais podem atuar em diversas escalas
espaciais. A questão que se coloca, portanto, é verificar se a correlação entre
variáveis, controladas por esses fatores, é dependente da escala espacial ou não.
O objetivo da krigagem fatorial pode ser, por exemplo, no caso de ocorrência de
um metal, descobrir qual a origem dessa concentração. Traços desse metal no
solo ou na água podem originar-se naturalmente por intemperismo de rochas ou
podem ser resultado de atividades humanas, tais como mineração, resíduos
industriais ou agricultura. Se as escalas, segundo as quais os diferentes fatores
operam, forem diferentes umas das outras, isso poderia ser observado nos
variogramas das concentrações dos metais, por meio da análise estrutural
realizada com modelos variográficos aninhados. Sendo identificadas no
variograma, a correspondente componente espacial pode ser estimada e mapeada
utilizando-se a krigagem ordinária onde cada componente espacial é associada
com o respectivo variograma. Os mapas das estimativas das componentes
espaciais podem auxiliar na separação de características locais e regionais do
fenômeno em estudo. Em geral, o modelamento semivariográfico tem 3 escalas de
variação espacial:
(1) micro-escala: corresponde à componente do efeito pepita, onde o alcance é
zero e as estimativas são nulas em qualquer localização não amostrada; pode
estar relacionada à remobilização local da concentração da variável sob estudo
e/ou erros de medidas;

190
(2) escala local ou curto alcance: pode estar relacionada às concentrações
anômalas de um metal, acima do limite máximo tolerável, e pode ser resultado de
rochas naturalmente ricas de tal metal ou originar-se de atividades humanas, cujo
impacto é temporariamente balanceado por pequenas concentrações naturais;
(3) escala regional ou longo alcance: geralmente relacionada à influência da
geologia regional (QUEIROZ, 2003).
Seja {zi(u); i = 1, ..., p}, um conjunto de p variáveis regionalizadas
conhecidas em n pontos amostrais, com coordenadas u. Neste caso, {Zi(u); i = 1,
..., p} é uma função aleatória a indicar um conjunto de variáveis aleatórias
definidas sobre uma área específica. Um incremento espacial [zi(u) – zi(u+h)] é
definido como a diferença entre os valores de uma variável zi em u e em u+h
separados pelo vetor h. Sob a hipótese de estacionaridade de segunda ordem,
define-se:
Vetor com valor médio: m = E{Z(u)}
Matriz de covariâncias: C(h) = E[{Z(u) - m}-1{Z(u+h) – m}]
Matriz de variogramas: γh) = 1/2E[{Z(u) – Z(u+h)}T{Z(u) – Z(u+h)}],
Para h = 0, a matriz de covariâncias C(h) é igual à matriz de variâncias-
covariâncias clássica V:
C(0) = E[{Z(u) – m}T{Z(u) – m}] = V
Também C(h) e Γ(h) são relacionados pela expressão:
γ(h) = C(0) – ½(C(h) + C(-h)
A matriz de variogramas experimental Γh) é uma matriz pxp, onde na
diagonal estão os valores para os variogramas diretos e nos postos fora da
diagonal, os valores para os variogramas cruzados, para um determinado h:

 γ11
*
(h)L γ1*p (h) 
 
Γ * (h) = M 
 γ * (h)L γ * (h)
 p1 pp 
Os variogramas experimentais são calculados a partir dos dados amostrais
e, em muitas situações, diversos modelos variográficos podem ser ajustados,
revelando diversas escalas de variabilidade espacial. Cada escala de variabilidade
pode ser representada por um modelo de semivariograma, de modo que a

191
variabilidade espacial é modelada pela soma dos semivariogramas embricados. A
krigagem fatorial permite, desse modo, analisar as relações entre as variáveis
Zi(u) nas escalas espaciais detectadas pelos semivariogramas experimentais
embricados.
Resumidamente os passos básicos da krigagem fatorial são:
1. modelagem por corregionalização das variáveis usando o denominado modelo linear de
corregionalização; todos os p(p + 1)/2 variogramas diretos e cruzados das p variáveis são
modelados por uma combinação linear dos N´s variogramas padronizados para um mesmo
alcance (sill); nesta modelagem supõe-se que o comportamento espacial das variáveis seja o
resultado da interação de diferentes processos atuando independentemente a diferentes
escalas espaciais.

2. análise da estrutura de correlações entre as variáveis, levando em


consideração as diferentes escalas, com aplicação da análise das componentes
principais; um “círculo de correlações” entre as variáveis originais e os dois
mais importantes fatores regionalizados, ortogonais, é utilizado para resumir as
relações entre as variáveis a cada escala espacial.
3. estimação das relações entre os fatores regionalizados e variáveis, como
componentes espaciais, a diferentes escalas por cokrigagem, para, finalmente,
mapeá-los.

A regionalização multivariada de um conjunto de funções aleatórias pode


ser representada por um modelo linear multivariado espacial que permita uma
fácil manipulação dos dados espaciais (WACKERNAGEL, 1995). Os variogramas
cruzados embricados podem então ser modelados como combinações lineares:

Ni Ni
γ αβ (h) = ∑ γ uαβ (h) = ∑ buαβ gu (h) ,
u =1 u =1

onde Ni é o número de escalas espaciais, buαβ são coeficientes e guαβ(h) as funções


variográficas.
Um conjunto de funções aleatórias, Zi(x), pode ser decomposto em
subconjuntos de fatores espacialmente não correlacionáveis (ROUHANI &
WACKERNAGEL, 1990; GOOVAERTS, 1922; WACKERNAGEL, 1995).
O estimador por cokrigagem da componente espacial Zuk no ponto x0 é:

192
m n
Z ( x 0 ) = ∑∑ λ ji Zi ( x j ) .
u*
k
i=1 j

O sistema de krigagem pode, então, ser resolvido segundo:


m n

∑∑ λ
η=1 τ =1
τη iηγ ( x j − x τ ) − µi = buik gu ( x j − x 0 )

n
e ∑λ
τ =1
τi =0

onde µi é o multiplicador de Lagrange; gu(xj,x0) é o valor proveniente da u-ésima


função variográfica básica, gu(h), entre o ponto amostrado e x0; i = 1, ..., p, e j =
1, ..., n.
Com relação à análise multivariada regionalizada WACKERNAGEL (2003)
pondera que a questão fundamental a investigar é se a correlação entre variáveis
é espacialmente dependente ou não. Apresenta, então, três maneiras para
verificar se a correlação é dependente do espaço.
1) A co-dispersão dos coeficientes ccij(h) pode ser calculada e disposta em
gráficos; se elas não são constantes para cada par de variável, a estrutura de
correlação do conjunto de variáveis é afetada pela escala espacial.
2) Variogramas cruzados entre componentes principais das variáveis podem
ser calculados; se eles não forem iguais a zero para cada par de componente
principal a qualquer distância h, a componente principal clássica não tem sentido
porque a matriz de variância-covariância do conjunto de variáveis é meramente
uma mistura de diferentes estruturas de variâncias-covariâncias segundo várias
escalas espaciais.
3) Gráficos de círculos de correlação numa análise de componentes
principais regionalizada podem ser examinados; se os padrões de associação entre
as variáveis não são idênticos para as matrizes de co-regionalização, o modelo de
correlação intrínseco não é apropriado para o conjunto de dados. Com apenas
poucas variáveis é possível perceber a tabela de coeficientes de correlação
regionalizados em lugar das componentes principais regionalizadas.
Se os dados parecem ser intrinsecamente correlacionados, pode-se aplicar
qualquer método da análise multivariada fatorial, calcular diretamente os
variogramas dos fatores, estimá-los por krigagem e mapeá-los. Se, porém, a

193
correlação é afetada pela escala espacial, torna-se necessário ajustar um modelo
linear de co-regionalização e co-krigar os fatores.

11.2.1. Exemplo
Em QUEIROZ ET AL. (2008) é apresentada uma metodologia baseada na
análise da krigagem fatorial para a quantificação do risco de contaminação por
metais pesados na área portuária de Santana/Amapá, onde anteriormente tinham
sido desenvolvidas atividades relacionadas ao beneficiamento e comercialização
do minério de manganês oriundo das minas de Serra do Navio/AP. As análises de
49 amostras de águas foram feitas por espectometria de emissão atômica por
plasma induzido (QUEIROZ, 2003). Foram determinadas as concentrações (em ppm)
de 16 elementos (Matriz de dados 11.1).
Para a aplicação da krigagem fatorial foram consideradas somente as
variáveis que apresentaram concentrações acima dos limites estabelecidos pelo
CONAMA (1986), ou seja, arsênio (As), manganês (Mn), alumínio (Al), ferro (Fe),
chumbo (Pb), selênio (Se), cádmio (Cd) e cobre (Cu).
A Tabela 11.1. apresenta a matriz de correlações entre as variáveis. Os
valores em destaque indicam correlação significativa a um nível abaixo de 5%.
Observa-se forte correlação entre Fe e Cd (r = 0.934) e com Pb com Se (r =
0.965).
TABELA 11.1. Matriz de correlação das variáveis.
As Mn Al Fe Pb Se Cd Cu
As 1.000
Mn 0.024 1.000
Al -0.094 -0.090 1.000
Fe 0.070 0.166 0.369 1.000
Pb 0.172 0.336 0.105 0.415 1.000
Se 0.093 0.344 0.096 0.405 0.965 1.000
Cd 0.085 0.196 0.349 0.934 0.475 0.428 1.000
Cu -0.046 -0.006 -0.026 0.050 0.525 0.559 0.047 1.000

As relações entre as variáveis foram, primeiramente, estudadas de uma


maneira clássica, com a aplicação do método de análise de componentes
principais (ACP). As componentes principais ordenadas de acordo com sua

194
contribuição à explicação da variância total dos dados são mostradas na Tabela a
seguir .

TABELA 11.2. Cargas dos fatores das três primeiras Componentes Principais
As Mn Al Fe Pb Se Cd Cu λ % % ac.
Componentes

CP 1 0.142 0.387 0.303 0.753 0.888 0.876 0.779 0.460 3.202 40.0 40.0
– – –
CP 2 0.073 0.177 0.584 0.560 0.356 0.389 0.529 0.597 1.607 20.1 60.1
– – – –
CP 3 0.667 0.508 0.425 0.059 0.005 0.066 0.091 0.467 1.118 14.0 74.1

A Tabela 11.2. apresenta as cargas dos fatores com a percentagem da


variância explicada das três primeiras componentes principais. Essas componentes
explicam, juntas, 74% da variância total. A primeira componente é fortemente
correlacionada com os elementos Se, Pb, Cd e Fe.
Os variogramas experimentais omnidirecionais diretos e cruzados obtidos a
partir dos escores das três componentes principais são apresentados em seguida.
Um modelo linear de co-regionalização foi ajustado e utilizado no mapeamento
das componentes, onde, cada componente foi estimada por cokrigagem. Foram
ajustados dois modelos esféricos com alcances de 0,33 km e 2,0 km,
respectivamente, além do efeito pepita presente em todos os casos.

Figura 11.1.

195
Figura 11.2.

Figura 11.3.

Observa-se uma pequena predominância da estrutura de longo alcance (2,0


km) na componente principal 1 e da estrutura de curto alcance (0,33 km) na
componente principal 3.
Embora nenhuma estrutura de longo ou pequeno alcance predomine
fortemente em quaisquer das componentes, selênio e chumbo podem estar
vinculadas à estrutura de longo alcance e ferro e cádmio à estrutura de curta
escala. Isso pode ser obervado nos seguintes variogramas

196
Figura 11.4.

Figura 11.5.

Figura 11.6.

197
Figura 11.7.

Esses alcances foram utilizados no modelamento variográfico direto e


cruzado das variáveis para se determinar os coeficientes bsij(patamar) que
fornecem o nível de variabilidade do variograma, onde s representa a escala de
variabilidade e i,j as variáveis.
Os coeficientes bsij são os elementos das matrizes de co-regionalização Bs.
Desse modo as matrizes B1 e B2 descrevem a estrutura de correlação para curta
escala (0,33 km) e longa escala (2,0 km). Os resultados da análise das
componentes principais dessas duas matrizes fornecem os fatores regionalizados
Ysk(u), que são as componentes principais de cada matriz na respectiva escala “s”
e as componentes espaciais Zsi(u).
Os resultados da análise de componentes principais das duas matrizes B1 e
B2 são apresentados na Tabela a seguir. Os três primeiros fatores regionalizados
explicam 86,2 % e 99,5 % da variância total para as matrizes B1 e B2,
respectivamente. Para a matriz B1 (curta escala espacial) observa-se forte
correlação do ferro e cádmio com o primeiro fator regionalizado. O manganês é
fortemente correlacionado com o segundo fator regionalizado e a contribuição do
arsênio predomina fortemente em relação às outras variáveis no terceiro fator
regionalizado. Isso sugere uma possível relação da contaminação desses
elementos a fontes de contaminação vinculada a atividades humanas que, em
geral, ocorrem em pequena escala espacial, neste caso, descrita pela matriz B1. A
matriz B1 não mostra correlação entre o arsênio e o manganês na escala
considerada. Para a matriz B2 (longa escala espacial) o primeiro fator
regionalizado explica a maior parte da variabilidade sendo que a contribuição de

198
todas as variáveis, exceto o cobre, é relativamente alta com destaque para o
chumbo e selênio. O cobre é mais fortemente correlacionado com o segundo fator
e nenhuma variável apresenta contribuição significativa para o terceiro fator, que
explica somente 3,2 % da variabilidade total. O alumínio apresenta correlação
mais forte com o primeiro fator regionalizado na longa escala.
TABELA 11.3.Fatores Regionalizados na pequena (B1) e longa (B2) escala espacial.
Cargas dos Fatores Cargas dos Fatores
Regionalizados – Matriz Regionalizados – Matriz
Variáveis B1 B2

Y11 Y21 Y31 Y12 Y22 Y32


As 0.000 -0.003 0.517 0.663 0.098 -0.116
Mn 0.001 0.817 0.006 0.447 -0.044 -0.144
Al 0.316 -0.007 -0.011 0.438 0.097 0.025
Fé 0.803 -0.002 0.002 0.417 0.077 0.038
Pb 0.223 0.005 -0.003 0.735 -0.147 0.092
Se 0.219 0.010 -0.009 0.685 -0.147 0.140
Cd 0.836 -0.001 0.005 0.415 0.078 -0.116
Cu -0.006 -0.104 0.033 0.097 0.520 0.092
Autovalores 1.732 0.734 0.368 2.439 0.354 0.094
% da Variância 52,7 22.3 11.2 84.1 12.2 3.2
% Acumulada 52.7 75.0 86.2 84.1 96.3 99.5

A análise das matrizes de co-regionalização permite a observação de


relações entre as variáveis de acordo com a escala espacial que não poderiam ser
detectadas na análise convencional da matriz R de correlações (ou a matriz V de
variância-covariância). Por exemplo, a correlação entre ferro e cádmio é mais forte
na pequena escala enquanto que selênio e chumbo apresentam maior correlação
na longa escala. Os valores das cargas do primeiro fator regionalizado das
matrizes B1 e B2 mostram que é mais provável que ocorra alguma correlação
entre arsênio e manganês na longa do que na pequena escala espacial.
Os fatores regionalizados Ysk(u) e componentes espaciais Zsi(u), s=1,2 e
k=1,...,8, foram mapeados por co-krigagem. O valor de qualquer fator
regionalizado é igual à sua média local estabelecida como zero para qualquer

199
distância acima de 0,33 km, no caso da pequena escala, e acima de 2,0 km, no
caso da longa escala.
As Figuras abaixo mostram os mapas cokrigados do primeiro fator
associados às escalas espaciais consideradas. Para a escala local (curto alcance), a
presença de áreas que podem ser consideradas anômalas – com valores mais
altos (ou baixos) – é observada principalmente dentro dos limites da ICOMI.

Figura 11.8.

Figura 11.9.

200
A drenagem da área de estudo (em linha azul) foi plotada nos mapas
relacionados à longa escala. Pode-se observar uma boa concordância das linhas
de drenagem com o padrão espacial apresentado, sobretudo pelo mapa do
primeiro fator regionalizado associado com o modelo esférico de longa escala, que
explica a maior parte da variabilidade (84,1%) com contribuição razoável de quase
todas as variáveis, exceto o cobre.
Foi realizado também o mapeamento do As, Mn, Fe e Cd, que mostraram
indícios de estarem vinculados a uma escala local. O mapa do arsênio na pequena
escala apresenta duas pequenas áreas com anomalias negativas, uma dentro da
área industrial da ICOMI e outra no bairro do Elesbão à margem do Rio
Amazonas. No mapa desse mesmo elemento associado à longa escala observa-se
regiões com altos valores positivos dentro da área da ICOMI, no bairro do Elesbão
– à noroeste – e na área residencial, no bairro da Hospitalidade, parecendo indicar
uma disseminação do referido elemento na área de estudo.
A ocorrência de valores altos para os elementos analisados na área de
estudo pode indicar a presença de fontes de contaminação possivelmente
vinculadas às atividades industriais desenvolvidas pela ICOMI durante os últimos
anos.

Figura 11.10.

201
Componente Espacial estimada para o Arsênio (Longa escala = 2,0 km)

996 CENTRAL
NOVA BRASÍLIA 0.4

995.5 0.2
UTM ( Km )

0
HOSPITALIDADE
995 COMERCIAL
REMÉDIOS
ELESBÃO -0.2
ICOMI

994.5
-0.4

994 RIO A
MAZO N.HORIZONTE
-0.6
NAS

-0.8
478 478.5 479 479.5 480 480.5 481 481.5 482
Escala
UTM ( Km )
0 250 500 750 1000 metros

Figura 11.11.

Os resultados obtidos pela krigagem fatorial multivariada mostraram que o


arsênio, manganês, ferro e cádmio provavelmente estão vinculados a fontes de
contaminações localizadas (curta escala), ou seja, provenientes de atividades
humanas, enquanto alumínio, selênio, chumbo e cobre apresentaram indícios de
que suas concentrações são provenientes do próprio meio natural, por causa da
correlação mais forte com variações de longa escala desses elementos.

202
BIBLIOGRAFIA
ABOUFIRASSI, M. & MARIÑO, M. A. (1984) – Cokriging of Aquifer Transmissivities from
Field Measurements of Specific Capacity: Math. Geology, 16:19-35

CARR, J., MYERS, D.E. & GLASS, C.H. (1985) - Co-Kriging: a Computer Program:
Computers & Geosciences, 11:111-127.

CASTRIGNANÒ, A., CONVERTINI, G., LOSAVIO, N. & HOXHA, I. (1995) – Studio delle
relazioni tra le proprietà fisico-chimiche di un suolo argilloso del litorale ionico-lucano
mediante la geostatistica multivariata: Proceedings of the 13th Symposium of Italian
Chemistry Society, Florence, pp. 61-70

CASTRIGNANÒ, A., GIUGLIARINI, L., RISALITI, R. & MARTINELLI, N. (2000) – Study of


spatial relationships among some soil physico-chemical properties of a field in central Italy
using multivariate geostatistics: Geoderma, 97:39-60

CLARK, I. & HARPER, W. V. (2000) - Practical Geostatistics 2000: Geostokos (Ecosse)


Limited
CONAMA/CONSELHO NACIONAL DE MEIO AMBIENTE – Resolução n0. 20 de 18 de junho
de 1986. (D.O.U. de 30/07/86. pag. 11.356). Brasília.

CONDE, R.P. & YAMAMOTO (2000) – Evaluation of kriging and cokrigin for asbestos ore
reserve estimation at Cana Brava mine, Goiás, Brazil: in “Geostat 2000, Proceedings of
the Mining and Petroleum Geostatistics Sessions at the 31IGC. Ed(s) M. Armstrong, C.
Bettini, N. Champigny, A. Galli, A. Remacre. Kluwer Academic Publishers, pp. 189-201

DEUTSCH, C.V. AND JOURNEL, A.G.- GSLIB-Geoestatistical Software Library and User’s
Guide. Oxford University Press, 1992

FONETELES, H. R. da N.; YAMAMOTO, J. K.; ROCHA, M. M.; GANDOLFI, N. Geoestatística


aplicada à modelagem da superfície freática a partir de dados do nível estático: o caso da
porção nordeste de Fortaleza (CE). Solos e rochas. Revista Brasileira de Geotecnia, v. 29,
n. 3, p. 331-339, 2006.

GOOVAERTS, P. (1992) – Factorial kriging analysis: a useful tool for exploring the
structure of multivariate spatial soil information: Jour. Soil Science, 43:597-619

GOOVAERTS, P. & WEBSTER, R. (1994) – Scale-dependent correlation between topsoil


copper and cobalt concentrations in Scotland: Eur. Jour. Soil Science, 45:79-95

ISAAKS & SRIVASTAVA (1989)

MARCOTTE, D. (1991) - Cokriging with Matlab: Computers & Geociences, 17:1265-1280

MATHERON, G. (1982) – Pour une analyse Krigeante des données regionalisées: Centre
de Geostatistique, Fontainebleau, Report 732

MYERS, D. E. (1982) – Matrix formulation of co-kriging: Math. Geology, 14:249-258

203
OLEA, R. A. (1999) – Geostatistics for Engineers and Earth Scientists: Kluwer Academic
Publishers

PARDO-IGÚZQUIZA, E & DOWD, P.A. (2002) – FACTOR2D: a computer program for


factorial cokriging: Computers & Geosciences, 28:857-875

QUEIROZ, J.C.B. (2003) –Utilização da geoestatística na quantificação do risco de


contaminação por metais pesados na área portuária de Santana-Amapa/Brasil: Tese de
Doutorado, Pós-Graduação em Geociências, IGCE, UNESP/Rio Claro, 199p.

QUEIROZ, J.C.B.; STURARO, J.R.; SARAIVA, A.C.F.; LANDIM, P. M. B. (2008) -


Geochemical characterization of heavy metal contaminated area using multivariate
factorial kriging : Environmental Geology, 55:95-105, DOI 10.1007/s00254-007-0968-3

STURARO, J. R.; LANDIM, P. M. (1994) Técnica geoestatística para extrapolação da


superfície potenciométrica em centros urbanos. CONGRESSO BRASILEIRO DE GEOLOGIA,
38., 1994, Camboriu. Anais... Camboriu: SBG, p. 511-512. v. 1

WACKERNAGEL, H. (2003) – Multivariate Geostatistics: An Introduction with Applications:


Springer-Verlag, 3th. Ed. 387 pp.

WATANABE, J.; YAMAMOTO, J.K.; ROCHA, M.M. & FONSECA, P.P. (2009) - Estudo da
Influência da Correlação Inicial entre Variáveis nos Resultados de Co-Estimativas: São
Paulo, UNESP, Geociências, v. 28, n. 4, p. 467-484

YATES, S.R. & YATES, M.V. (1990) - Geostatistics for Waste Managment: A User’s Manual
for the GEOPACK (version 1.0) Geostatistical Software System: U.S. Environmental
Protection Agency Report 600/8-90/004.

204
ANÉXO
Neste anexo são apresentadas listadas as tabelas de dados usadas como
exemplos ao longo dos diversos capítulos. Poderão ser úteis para quem quiser
usá-las em suas próprias análises.
Matriz de dados 3.1. Valores para peso específico, quartzo, índice de cor (porcentagem
de silicatos escuros ou máficos), feldspato, e coordenadas N-S e E-W para cada ponto de
amostragem ( DAWSON & WHITTEN, 1962),
P. E. (Y) Quartzo (X1) Cor (X2) Feldspato (X3) NS (X4) EW (X5)
2,63 21,3 5,5 73,0 0,92 6,09
2,64 38,9 2,7 57,4 1,15 3,62
2,64 26,1 11,1 62,6 1,16 6,75
2,63 29,3 6 63,6 1,3 3,01
2,64 24,5 6,6 69,1 1,4 7,40
2,61 30,9 3,3 65,1 1,59 8,63
2,63 27,9 1,9 69,1 1,75 4,22
2,63 22,8 1,2 76,0 1,82 2,42
2,65 20,1 5,6 74,1 1,83 8,84
2,69 16,4 21,3 61,7 1,855 10,92
2,67 15,0 18,9 65,6 2,01 14,22
2,83 0,6 35,9 62,5 2,04 10,60
2,7 18,4 16,6 64,9 2,05 8,32
2,68 19,5 14,2 65,4 2,21 8,06
2,62 34,4 4,6 60,7 2,27 2,73
2,63 26,9 8,6 63,6 2,53 3,5
2,61 28,7 5,5 65,8 2,62 7,44
2,62 28,5 3,9 67,8 3,025 5,06
2,61 38,4 3,0 57,6 3,06 5,42
2,63 28,1 12,9 59 3,07 12,55
2,63 37,4 3,5 57,6 3,12 12,13
2,78 0,9 22,9 74,4 3,4 15,4
2,76 8,8 34,9 55,4 3,52 9,91
2,63 16,2 5,5 77,6 3,61 11,52
2,74 2,2 28,4 69,3 4,22 16,4
2,64 29,1 5,1 65,7 4,25 11,43
2,7 24,9 6,9 67,8 4,94 5,91
2,63 39,6 3,6 56,6 5,04 1,84
2,71 17,1 11,3 70,9 5,06 11,76
2,84 0 47,8 52,2 5,09 16,43
2,68 19,9 11,6 67,2 5,24 11,33
2,84 1,2 34,8 64 5,32 8,78
2,74 13,2 18,8 67,4 5,32 13,73
2,74 13,7 21,2 64,0 5,33 12,45
2,61 26,1 2,3 71,2 5,35 1,43
2,63 19,9 4,1 76,0 5,61 4,15
2,77 4,9 18,8 74,3 5,85 13,84
2,72 15,5 12,2 69,7 6,46 11,66
2,83 0 39,7 60,2 6,59 14,64
2,77 4,5 30,5 63,9 7,26 12,81
2,92 0 63,8 35,2 7,42 16,61
2,77 4 24,1 71,8 7,91 14,65
2,79 23,4 12,4 63,1 8,47 13,33
2,69 29,5 9,8 60,4 8,74 15,77

205
Matriz de dados 3.2. Valores da superfície potenciométrica de um aqüífero livre,
como variável dependente, e variáveis consideradas independentes: cota do terreno
(topografia), base da formação aqüífera ou cota do topo do basalto (basalto), espessura
da formação aqüífera (espessura), e coordenadas em UTM (LEITE & LANDIM, 2003)
ID X Y superfície topografia basalto espessura
1 486450 7714380 291.189 296.429 217.2 79.23
2 486630 7714170 289.067 290.612 217.2 73.41
3 486850 7717900 315.241 329.716 217.2 112.52
4 486680 7718240 317.682 344.277 217.2 127.08
5 486690 7717400 309.052 328.542 217.2 111.34
6 486580 7717100 308.604 328.274 217.2 111.07
7 486480 7716800 304.559 327.428 217.2 110.23
8 486560 7716520 302.352 315.592 217.2 98.39
9 486400 7716100 299.957 311.337 217.2 94.14
10 486070 7716150 303.822 325.457 217.2 108.26
11 485900 7715630 294.954 309.294 217.2 92.09
12 485510 7716020 293.871 318.611 217.2 101.41
13 492430 7719100 340.94 350.875 217.2 133.67
14 492610 7718200 342.341 354.741 217.2 137.54
15 490450 7716520 314.986 323.636 217.2 106.44
16 490800 7717170 315.645 318.945 217.2 101.74
17 491110 7719280 339.994 357.334 276.61 80.73
18 490970 7718950 339.635 343.945 275.98 67.96
19 490780 7718340 331.465 348.535 271.98 76.55
20 490500 7718030 329.644 345.289 272.92 72.37
21 490180 7716840 309.333 309.333 255.97 53.37
22 489940 7716980 314.421 324.011 266.19 57.82
23 489680 7716700 309.574 314.339 273.96 40.38
24 489240 7716800 320.553 336.913 289.16 47.75
25 488910 7716510 319.572 331.902 295.78 36.12
26 489070 7716340 313.844 325.134 291.7 33.43
27 489310 7716190 306.693 319.468 286.14 33.32
28 489930 7715900 309.23 319.175 217.2 101.97
29 489060 7715800 306.059 322.889 295.57 27.32
30 488850 7715240 301.6 309.85 305.17 4.68
31 489380 7714810 304 315.205 217.2 98
32 487880 7715530 303.3 315.88 306.75 9.13
33 487100 7715460 293.445 315.035 311.5 3.53
34 487310 7715940 301.393 321.143 314.05 7.1
35 487510 7716030 306.945 330.475 311.62 18.85
36 487240 7716270 301.731 313.431 320.52 0
37 487670 7716830 314.373 329.643 318.09 11.56
38 487600 7717580 314.439 320.469 317.13 3.34
39 487400 7716640 313.914 316.489 320.33 0
40 487340 7717370 312.307 312.387 318.25 0
41 487110 7717370 310.257 314.562 217.2 97.36
42 487060 7717710 313.124 321.144 217.2 103.94
43 487290 7718000 314.958 318.208 217.2 101.01
44 487279 7718226 316.01 326.695 217.2 109.49
45 487800 7717970 318.55 330.06 319.17 10.89
46 488240 7718560 326.71 340.665 323.48 17.19
47 488070 7718660 322.91 330.4 322.85 7.55
48 488320 7718900 326.546 335.166 322.59 12.58

206
49 488510 7719040 328.253 340.693 322.07 18.63
50 487050 7718560 319.844 341.789 217.2 124.59
51 490100 7719190 343.673 369.283 295.23 74.06
52 487400 7716960 310.772 318.922 320.25 0
53 487790 7717160 315.613 330.443 317.1 13.34
54 487835 7717675 319.285 330.405 317.77 12.63
55 488025 7717850 322.906 338.746 319.09 19.66
56 488400 7718215 329.23 351.46 322.49 28.97
57 488460 7717960 329.427 350.687 319.97 30.72
58 487850 7716770 316.643 335.043 315.46 19.59
59 488095 7717515 323.488 336.278 316.84 19.43
60 488100 7717310 322.822 338.492 315.61 22.88
61 488499 7718069 330.254 352.544 321.14 31.41
62 487820 7716415 313.403 339.123 312.73 26.4
63 488070 7716830 319.43 336.13 312.93 23.2
64 488790 7718370 333.417 352.867 323.95 28.92
65 489300 7718935 340.285 356.655 317.83 38.83
66 488280 7716265 318.283 334.233 305.48 28.75
67 488478 7716358 319.171 333.491 303.23 30.26
68 489263 7717831 329.833 344.383 308.58 35.8
69 489330 7717190 326.779 339.849 291.86 47.99
70 489645 7717725 331.372 344.902 294.1 50.81
71 489660 7718870 342.73 363.79 310 53.79
72 489625 7718700 342.445 362.875 311.94 50.93
73 489800 7718850 342.888 364.883 305.94 58.94
74 489890 7718595 342.712 357.112 302.56 54.55
75 490470 7718670 340.816 354.331 284.36 69.97
76 488990 7719165 335.329 348.12 318.71 29.41
77 489210 7718470 339.618 361.278 322.9 38.38
78 489070 7718485 338.763 361.883 324.09 37.79
79 488765 7717920 332.309 359.319 318.04 41.28
80 489110 7717710 332.627 350.717 308.95 41.77
81 489125 7718720 339.86 360.53 322.76 37.77
82 489220 7719400 338.511 355.581 312.38 43.2
83 488690 7719920 333.997 342.407 217.2 125.21
84 488810 7720120 336.713 347.553 217.2 130.35
85 489400 7720480 340.446 342.806 217.2 125.61
86 489240 7720870 343.336 357.056 217.2 139.86
87 489010 7720840 342.626 359.596 217.2 142.4
88 489650 7721570 345.82 359 217.2 141.8
89 489977 7721238 349.795 359.005 302.72 56.29
90 492730 7721150 349.267 366.367 217.2 149.17
91 492450 7721460 343.002 367.242 217.2 150.04
92 492370 7722130 364.586 378.991 217.2 161.79
93 493120 7722800 347.574 363.194 217.2 145.99
94 491340 7720510 345.68 359.545 281.92 77.62
95 491120 7720180 346.502 362.602 282.4 80.21
96 491080 7720640 347.757 361.987 284.77 77.22
97 492950 7720350 349.514 366.264 217.2 149.06
98 491530 7720200 342.489 354.074 278.74 75.33
99 491300 7719690 342.434 358.899 277.4 81.5
100 490213 7719747 347.297 360.467 290.36 70.11
101 490210 7719840 347.486 361.236 290.59 70.64
102 490400 7720080 341.665 371.099 289.5 81.6

207
103 490280 7719380 346.235 363.575 290.22 73.36
104 491920 7725350 324.4 350.985 217.2 133.78
105 489250 7722740 357.81 372 217.2 154.8
106 489740 7721580 351.352 359.722 217.2 142.52
107 485840 7716520 310.637 339.087 217.2 121.89
108 487670 7715190 301.426 322.166 308.26 13.9
109 489350 7717470 329.952 341.102 297.09 44.01
110 492660 7723500 326.29 367.647 217.2 150.45
111 492780 7720710 347.513 366.743 217.2 149.54
112 493800 7723830 353.549 363.384 217.2 146.18
113 493170 7723530 346.161 357.281 217.2 140.08
114 492370 7724150 331.013 358.983 217.2 141.78
115 493100 7722150 352.799 374.599 217.2 157.4
116 492420 7722820 342.155 373.115 217.2 155.91
117 492050 7723500 333.039 364.689 217.2 147.49
118 491540 7721530 339.815 370.835 282.15 88.68
119 490740 7723250 351.821 364.151 217.2 146.95
120 490080 7722980 344.837 357.577 217.2 140.38
121 490280 7721630 354.373 371.483 217.2 154.28
122 490560 7720870 352.056 377.076 291.68 85.4
123 490750 7720170 349.969 364.979 286.26 78.72
124 489880 7720300 345.489 361.639 297.22 64.42
125 489060 7719850 335.555 339.695 311 28.69
126 489590 7719520 344.656 359.046 303.15 55.89
127 488600 7718760 332.881 351.45 323.84 27.61
128 488700 7717180 327.97 350.45 307.06 43.39
129 488280 7715657 308.118 327.258 304.72 22.54
130 489112 7716700 320.736 337.896 291.92 45.97
131 488558 7716928 325.005 342.795 306.54 36.26
132 487975 7717228 319.315 336.535 316.09 20.44
133 490213 7719747 347.297 360.467 290.36 70.11
134 486990.2 7716692 301 301 217.2 83.8
135 487014.2 7716773 302 302 217.2 84.8
136 487038.2 7716857 303 303 217.2 85.8
137 487042.2 7716952 304 304 217.2 86.8
138 487079.9 7717039 305 305 217.2 87.8
139 487140.6 7717120 306 306 217.2 88.8
140 487208.2 7717201 307 307 217.2 89.8
141 487247.6 7717282 308 308 217.2 90.8
142 487271.7 7717361 309 309 217.2 91.8
143 487277 7717395 310 310 217.2 92.8
144 487313.2 7717479 311 311 217.2 93.8
145 487298 7717600 312 312 217.2 94.8
146 487279.6 7717716 313 313 217.2 95.8
147 487392.2 7717847 314 314 217.2 96.8
148 487441.6 7717990 315 315 217.2 97.8
149 487515.7 7718130 316 316 217.2 98.8
150 487603.5 7718264 317 317 217.2 99.8
151 487669.4 7718388 318 318 217.2 100.8
152 487702.4 7718528 319 319 217.2 101.8
153 487776 7718714 320 320 217.2 102.8
154 487835.7 7718797 321 321 217.2 103.8
155 487927.5 7718904 322 322 217.2 104.8
156 488052.3 7718979 323 323 217.2 105.8

208
157 488131.3 7719042 324 324 217.2 106.8
158 488189 7719112 325 325 217.2 107.8
159 488236 7719144 326 326 217.2 108.8
160 488473 7719462 327 327 217.2 109.8
161 488584 7719570 328 328 217.2 110.8
162 488584 7719626 328 328 217.2 110.8
163 488663 7719722 329 329 217.2 111.8
164 488722 7719732 330 330 217.2 112.8
165 489016 7715190 300 300 217.2 82.8
166 489101.2 7715325 301 301 217.2 83.8
167 489168.8 7715483 302 302 217.2 84.8
168 489293.6 7715640 303 303 217.2 85.8
169 489453.8 7715832 304 304 217.2 86.8
170 489580.8 7716058 305 305 279.85 25.15
171 489740.3 7716223 306 306 273.52 32.48
172 489911.7 7716328 307 307 217.2 89.8
173 490055.8 7716478 308 308 217.2 90.8
174 490177.4 7716682 309 309 217.2 91.8
175 490345 7716855 310 310 217.2 92.8
176 490432.9 7716910 311 311 217.2 93.8
177 490577.9 7717018 312 312 217.2 94.8
178 490632.5 7717185 313 313 217.2 95.8
179 490725.9 7717337 314 314 217.2 96.8
180 490855.5 7717489 315 315 217.2 97.8
181 490962.5 7717613 316 316 217.2 98.8
182 491075.2 7717715 317 317 217.2 99.8
183 491214.5 7717850 318 318 217.2 100.8
184 491317.6 7717955 319 319 217.2 101.8
185 491403 7718100 320 320 217.2 102.8
186 491396.7 7718108 320 320 217.2 102.8
187 491679 7718877 325 325 217.2 107.8
188 492030 7719830 330 330 217.2 112.8

Matriz de dados 3.3. Cotas topográficas da região centro-sul do Brasil (SOARES & LANDIM,
1976),
X Y cotas
844.908 7385.947 600
886.245 7469.696 400
829.668 7574.06 500
842.643 7736.755 500
983.743 7705.089 396
916.506 7663.891 400
946.108 7470.424 400
994.355 7419.168 600
1071.117 7377.078 795
1067.357 7544.969 479
1084.42 7666.747 464
1075.596 7784.785 400
1141.768 7757.085 500
1149.904 7570.752 516
1182.299 7513.421 600
1123.745 7353.099 1275

209
1266.953 7414.911 800
1272.767 7475.757 600
1295.504 7654.525 500
1301.584 7728.276 580
1409.455 7730.351 800
1408.522 7588.141 817
1360.039 7474.511 800
1328.981 7458.395 800
1458.949 7360.331 1000
1410.022 7518.3 1000
1483.678 7657.956 1000
1487.371 7777.973 1200
1545.062 7760.13 1406
1543.355 7573.746 1500
1578.276 7511.314 1700
1548.192 7433.532 1200
1654.093 7388.106 1200
1657.172 7500.666 1700
1601.83 7583.441 1200
1604.63 7694.152 1200
254.946 7853.227 200
351.087 7872.721 100
438.668 7878.757 1065
561.029 7790.229 200
697.062 7789.228 509
761 7865.926 740
244.687 7398.872 100
242.793 7509.647 100
240.981 7620.411 100
239.248 7731.165 100
346.831 7400.294 100
345.698 7511.022 100
344.612 7621.738 100
343.573 7732.441 100
415.126 7363.941 100
467.447 7502.536 300
475.805 7639.067 600
467.076 7683.324 600
551.052 7401.005 200
601.269 7529.914 600
532.879 7661.188 628
517.327 7683.347 708
651.938 7446.45 565
636.89 7481.66 600
625.758 7586.937 665
646.106 7745.447 600
797.224 7449.812 540
724.48 7500.928 500
752.848 7668.513 570
771.537 7753.153 683
1466.833 7293.976 1132
1511.853 7340.81 600
216.949 7252.41 116
298.603 7318.473 109

210
449.201 7329.04 100
597.658 7249.432 500
684.588 7327.933 610
707.868 7298.067 500
850.76 7247.521 600
965.403 7238.044 811
1009.04 7255.015 1198
1198.06 7306.645 1187
1213.277 7306.531 1272
1323.909 7244.263 1125
874.024 7868.24 770
898.72 7853.767 720
1007.275 7849.114 670
1161.244 7852.937 500
1218.969 7848.961 600
1374.459 7828.805 800
1464.285 7809.054 1200
1500.127 7885.151 1244
1601.887 7874.909 1130

Matriz de dados 3.4. Distribuição espacial do número de gêneros do plâncton em um


corpo de água receptor, após contaminação por uma pluma (BERNARDI ET AL., 2001).
X Y Plancton
0 0 30
0 50 17
0 100 33
100 0 35
100 50 13
100 100 36
200 0 38
200 50 10
200 100 40
300 0 39
300 50 12
300 100 43
400 0 37
400 50 9
400 100 44
500 0 32
500 50 13
500 100 38
600 0 31
600 50 12
600 100 39
700 0 28
700 50 11
700 100 36
800 0 44
800 50 13
800 100 39
900 0 42
900 50 16

211
900 100 38
1000 0 41
1000 50 17
1000 100 38
1100 0 3
1100 50 13
1100 100 37
1200 0 4
1200 50 7
1200 100 35
1300 0 4
1300 50 6
1300 100 30
1400 0 5
1400 50 6
1400 100 32
1500 0 8
1500 50 6
1500 100 33
1600 0 10
1600 50 6
1600 100 32
1700 0 10
1700 50 5
1700 100 36
1800 0 10
1800 50 6
1800 100 35
1900 0 12
1900 50 7
1900 100 38
2000 0 13
2000 50 8
2000 100 40
2100 0 15
2100 50 10
2100 100 41
2200 0 15
2200 50 11
2200 100 36
2300 0 17
2300 50 9
2300 100 37
2400 0 20
2400 50 9
2400 100 39
2500 0 24
2500 50 9
2500 100 38
2600 0 25
2600 50 13
2600 100 37
2700 0 26
2700 50 11

212
2700 100 34
2800 0 28
2800 50 10
2800 100 35
2900 0 29
2900 50 9
2900 100 40

Matriz de dados 4.1. Medidas obtidas em Mesosaurus brasiliensis (M), Stereosternum


tumidum (S), e Brazilosaurus sampauloensis (B) (ARAÚJO, 1976),
Dentes (mm)
Exemplar Crânio (cm) Pescoço (cm) Comprimento Largura
M01 7,1 6,0 4,75 0,50
M02 6,7 4,8 7,50 0,37
M03 6,7 5,3 7,00 0,50
M04 8,9 5,6 11,25 0,75
M05 7,1 5,2 8,75 0,75
M06 7,2 4,9 8,75 0,75
M07 7,6 4,9 7,50 0,50
M08 7,9 5,8 11,25 0,75
M09 7,8 5,1 5,75 0,50
M10 9,2 6,8 11,75 0,75
M11 7,1 6,0 8,25 0,75
M12 9,6 8,3 7,75 0,75
M13 5,1 4,2 4,25 0,50
M14 7,9 6,2 9,25 0,50
M15 7,2 4,3 4,00 0,50
S16 6,0 5,5 4,00 0,50
S17 5,8 4,6 3,25 0,50
S18 5,8 5,1 2,00 0,50
S19 6,6 5,3 4,25 0,37
S20 4,7 4,6 2,25 0,50
‘S21 6,4 5,8 3,75 0,50
S22 5,8 4,7 3,50 0,50
S23 6,2 6,0 4,50 0,50
S24 6,5 7,1 3,50 0,75
S25 5,2 5,6 3,00 0,50
S26 6,2 6,6 3,75 0,50
S27 6,5 5,8 3,00 0,75
S28 5,5 5,6 4,50 0,75
B29 5,3 7,2 2,00 0,50
B30 4,9 7,6 0,75 0,45
B31 5,0 7,3 2,75 0,50
B32 5,2 7,7 2,00 0,75

Matriz de dados 4.2. Análises químicas tanto para óxidos e como para elementos traços
(RHODES, 1969).
ID Si Ti Al Fe Mn Mg Ca Na K P Rb Sr Y Th U Zr Nb Pb
35 73 0,08 14,1 0,64 0,01 0,17 0,7 3,66 5,16 0,03 228 180 9 16 13,8 112 18,5 352
11 71,6 0,23 14,6 1,91 0,02 0,54 1,61 3,63 4,59 0,08 193 340 6 30 10 196 17,6 40
33 71,3 0,24 14,6 1,84 0,02 0,52 1,21 3,59 4,93 0,08 218 305 7 30 8,5 191 19,9 34
34 65,2 0,46 15 4,03 0,06 2,16 2,08 3,45 4,99 0,22 170 586 14 39 10,4 273 19,6 37
12 64,6 0,54 15,8 4,7 0,08 2,45 2,48 3,19 5,36 0,3 176 754 15 36 8,9 277 20,9 33
31 63,9 0,52 15,4 4,55 0,07 2,14 2,52 3,1 3,35 0,28 185 766 15 41 10,9 297 19 36

213
22 63,6 0,52 15,5 4,64 0,07 2,43 2,2 3,15 5,18 0,29 134 733 15 39 9,2 290 20 31
25 60,4 0,66 15,9 5,68 0,09 2,78 3,54 3,24 5,66 0,38 172 917 16 34 8,4 301 18,9 49
28 59,6 0,68 16,7 5,98 0,08 2,73 3,92 2,92 5,17 0,37 165 954 17 27 8,6 308 17,4 32
21 60,1 0,65 15,8 6,11 0,09 3,52 3,54 3,06 5,2 0,38 160 916 17 29 7 261 17,3 43
30 55,4 0,68 15,8 7,67 0,14 4,17 4,75 2,17 5,85 0,37 140 828 19 22 5,2 241 12,9 75
29 56,8 0,67 16,1 7,53 0,13 4,07 4,55 2,36 5,26 0,35 159 903 20 24 5,6 255 15,1 35
9 57,5 0,63 15,9 7,1 0,11 3,94 3,99 1,95 5,99 0,38 155 939 20 29 6 237 16,1 48
26 56,6 0,68 16,4 7,48 0,12 4,62 4,33 1,98 5,59 0,39 152 1055 20 28 7,4 234 13,7 55
2 57,4 0,67 15,7 7,31 0,12 4,48 4,87 2,06 4,69 0,39 166 924 22 27 7,7 243 14,6 46
32 54,5 0,72 15,6 8,05 0,13 5,37 5,37 2,14 4,88 0,45 135 961 19 17 5,7 188 14,5 36

Matriz de dados 5.1. Análises químicas de óxidos provenientes de 20 tipos de rochas


(Davis, 1986:569).
Rochas SiO2 Al2O3 Fe2O3 FeO MgO CaO Na2O K2O
01.Sienito 61.7 15.1 2 2.3 3.7 4.6 4.4 4.5
02.Sienito 58.3 17.9 3.2 1.7 1.5 3.7 5.9 5.3
03.Sienito 51.2 17.6 3.5 4.3 3.2 4.5 5.7 4.4
04.Monzonito 54.4 14.3 3.3 4.1 6.1 7.7 3.4 4.2
05.Diorito 58 15.7 0.7 2.8 5 10.9 3 3.2
06.Diorito 46.9 15.9 2.9 10 7 9.6 2.7 0.7
07.Diorito 58 17.3 2.2 3.8 2.2 4.3 4.3 4.1
08.Q-Diorito 55.5 16.5 1.7 4.6 6.7 6.7 3.2 2.5
09.Gabro 55.4 15.3 2.7 5.5 5.8 9.9 2.9 1.5
10.Gabro 55.9 13.5 2.7 5.9 6.5 8.9 2.4 1.7
11.Norito 47.2 14.5 1.6 13.8 5.2 8.1 3.1 1.2
12.Norito 48.2 18.3 1.3 6.1 10.8 9.4 1.3 0.7
13.Hip-Gabro 44.8 18.8 2.2 4.7 11.3 14.6 0.9 0.1
14.Hip-Gabro 47 14.1 0.8 15 16 2.3 0.4 1.7
15.Sienito 59.8 17.3 3.6 1.6 1.2 3.8 5 5.1
16.Q-Sienito 66.2 16.2 2 0.2 0.8 1.3 6.5 5.8
17.SienitoA 50 9.9 3.5 5 11.9 8.3 2.4 5
18.Monzonito 57.4 18.5 3.7 2.1 1.7 6.8 4.5 3.7
19.Monzonito 59.8 15.8 3.8 3.3 2.2 3.9 3 4.4
20.Diabasio 52.2 18.2 3.3 4.4 4.7 6.5 4.6 1.9

Matriz de dados 5.2. Composição mineral de uma rocha artificial, denominada “hongito”
por AITCHISON (1986).
N V1 V2 V3 V4 V5
01 4880.0 3170.0 380.0 640.0 930.0
02 4820.0 2380.0 900.0 920.0 980.0
03 3700.0 910.0 3420.0 950.0 1020.0
04 5090.0 2380.0 720.0 1010.0 800.0
05 4420.0 3830.0 290.0 770.0 690.0
06 5230.0 2620.0 420.0 1250.0 480.0
07 4460.0 3300.0 460.0 1220.0 560.0
08 3460.0 520.0 4290.0 960.0 770.0
09 4120.0 1170.0 2670.0 960.0 1080.0
10 4260.0 4660.0 70.0 560.0 450.0
11 4990.0 1950.0 1140.0 950.0 970.0
12 4520.0 3730.0 270.0 550.0 930.0
13 3270.0 850.0 3890.0 800.0 1190.0

214
14 4140.0 1290.0 2340.0 1580.0 650.0
15 4620.0 1750.0 1580.0 830.0 1220.0
16 3230.0 730.0 4090.0 1290.0 660.0
17 4320.0 4430.0 100.0 780.0 370.0
18 4950.0 3230.0 310.0 870.0 630.0
19 4230.0 1580.0 2040.0 830.0 1320.0
20 4460.0 1150.0 2380.0 1160.0 850.0
21 4580.0 1660.0 1680.0 1200.0 880.0
22 4990.0 2500.0 680.0 1090.0 740.0
23 4860.0 3400.0 250.0 940.0 550.0
24 4550.0 1660.0 1760.0 960.0 1070.0
25 4590.0 2490.0 970.0 980.0 970.0
26 3130.0 2944.0 1068.0 1526.0 1332.0
27 3012.0 1200.0 1232.0 2051.0 2505.0

Matriz de dados 5.3. Medidas cranianas em 7 espécies fósseis de oreodontes (MILLER &
KAHN,1962)
Grupos Espécies BC-W TR-L Bu-L Bu-HP
Su Su01 47.0 99.0 26.0 15.0
Su Su02 42.0 93.0 26.0 16.0
Su Su03 40.0 90.0 22.0 13.0
Su Su04 46.0 100.0 22.0 11.0
Su Su05 46.0 96.0 24.0 16.0
Su Su06 42.0 88.0 26.0 15.0
Su Su07 43.0 89.0 23.0 14.0
Su Su08 44.0 78.0 23.0 13.0
Su Su09 44.0 90.0 25.0 11.0
Su Su10 47.0 99.0 27.0 15.0
Su Su11 47.0 92.0 27.0 13.0
Me Me01 78.0 165.0 35.0 18.0
Me Me02 77.0 165.0 37.0 19.0
Me Me03 65.0 148.0 30.0 20.0
Me Me04 74.0 163.0 31.0 15.0
Me Me05 65.0 169.0 31.0 16.0
Me Me06 70.0 176.0 34.0 23.0
Me Me07 69.0 161.0 28.0 13.0
Me Me08 67.0 178.0 31.0 14.0
Me Me09 65.0 174.0 34.0 18.0
Me Me10 64.0 168.0 28.0 13.0
Me Me11 68.0 166.0 32.0 15.0
Oo Oo01 42.0 81.0 15.0 8.0
Oo Oo02 48.0 83.0 18.0 8.6
Oo Oo03 45.0 87.0 18.0 9.0
Oo Oo04 48.0 83.0 17.0 8.0
Oo Oo05 46.0 84.0 16.0 6.1
Oo Oo06 51.0 87.0 21.0 7.9
Oo Oo07 46.0 80.0 17.0 7.0
Oo Oo08 50.0 90.0 18.0 8.1
Oo Oo09 46.0 85.0 16.0 6.5
Oo Oo10 48.0 85.0 15.0 7.2
Oo Oo11 47.0 85.0 17.0 8.0
Oo Oo12 49.0 83.0 18.0 7.7
Oo Oo13 43.0 79.0 15.0 7.1

215
Oo Oo14 47.0 87.0 19.0 7.5
Oo Oo15 46.0 87.0 18.0 8.0
Ps Ps01 60.0 114.0 27.0 20.0
Ps Ps02 60.0 118.0 31.0 19.0
Ps Ps03 60.0 111.0 31.0 21.0
Ps Ps04 58.0 102.0 30.0 20.0
Ps Ps05 55.0 116.0 28.0 20.0
Ps Ps06 59.0 117.0 29.0 17.0
Ps Ps07 59.0 114.0 24.0 17.0
Ps Ps08 60.0 121.0 25.0 19.0
De De01 58.0 129.0 26.0 16.0
De De02 52.0 126.0 27.0 18.0
De De03 50.0 122.0 28.0 22.0
De De04 52.0 123.0 29.0 18.0
De De05 60.0 138.0 33.0 17.0
De De06 61.0 122.0 28.0 17.0
De De07 54.0 132.0 30.0 17.0
De De08 65.0 131.0 32.0 18.0
De De09 55.0 130.0 32.0 17.0
De De10 64.0 125.0 26.0 16.0
De De11 56.0 124.0 28.00 16.0
Mc Mc01 45.0 91.0 16.00 7.5
Mc Mc02 46.0 93.0 17.00 6.5
Mc Mc03 48.0 92.0 19.00 5.0
Mc Mc04 46.0 91.0 19.00 6.0
Mc Mc05 45.0 86.0 15.00 6.5
Mc Mc06 51.0 93.0 19.00 7.5
Mc Mc07 47.0 92.0 16.00 5.0
Mc Mc08 48.0 89.0 18.00 6.5
Mc Mc09 47.0 91.0 17.5 6.0
Mc Mc10 50.0 91.0 17.0 7.2
Mc Mc11 48.0 91.0 19.0 7.6
Mc Mc12 49.0 93.0 17.5 7.0
Mc Mc13 49.0 87.0 17.0 6.5
Mc Mc14 49.0 91.0 19.0 7.7
Pr Pr01 37.0 88.0 17.0 3.9
Pr Pr02 43.0 79.0 14.0 4.0
Pr Pr03 43.0 84.0 19.0 4.2
Pr Pr04 42.0 80.0 17.0 5.2
Pr Pr05 39.0 83.0 12.0 4.5
Pr Pr06 39.0 87.0 15.0 4.5
Pr Pr07 40.0 86.0 18.0 4.5
Pr Pr08 34.0 77.0 16.0 4.8
Pr Pr09 35.0 82.0 15.0 4.6
Pr Pr10 45.0 88.0 17.0 4.9
Pr Pr11 33.0 80.0 15.0 3.9
Pr Pr12 42.0 85.0 13.0 4.0

216
Matriz de dados 6.1. Dados estratigráficos (KRUMBEIN, 1962; IMBRIE, 1963; KRUMBEIN &
GRAYBILL,
1965, caps. 14 e 15).
Codigo Casos total arenito folhelho nclástico carbonato evaporito
1001 10 845 266 350 229 24 205
1004 9 906 337 432 137 60 77
1006 8 844 451 311 82 42 40
1007 7 447 293 116 38 12 26
1009 23 1001 348 450 203 17 186
1010 22 933 275 435 223 41 182
1012 19 374 240 110 24 24 0,0001
1014 1 608 365 148 95 20 75
1015 2 640 224 304 112 14 98
1017 20 614 255 272 87 28 59
1019 11 915 265 355 265 43 222
1020 12 1139 179 643 317 20 297
1021 21 702 237 341 124 39 85
1023 3 464 104 242 118 18 100
2002 13 1118 180 568 370 0,0001 370
2003 14 1224 207 758 259 11 248
2004 24 1204 277 610 317 10 307
2005 25 1144 310 520 314 12 302
2006 26 1048 362 510 176 12 164
2008 15 1162 130 659 373 13 360
2009 16 1003 224 542 237 21 216
2011 17 721 229 400 92 12 80
2012 18 775 223 477 75 28 47
2015 28 1023 295 501 227 18 209
2016 27 1114 246 528 340 32 308
2017 29 955 267 502 186 24 162
2019 4 532 157 238 137 0,0001 137
2021 5 562 120 316 126 0,0001 126
2031 30 1005 271 637 97 8 89
2034 6 530 30 461 39 0,0001 39
8001 31 1126 270 558 298 68 230

Matriz de dados 7.1. Levantamento efetuado pelo “Swiss Federal Institute of


Technology” em Lausanne/Suíça (GOOVAERTS, 1997).
ID X Y Nível Uso Cd Cd* Cu Cu* Pb Pb*
1 2.672 3.558 Q pradaria 1.57 1 18.6 0 38.6 0
2 3.589 4.443 J1 pradaria 2.045 1 11.48 0 33.36 0
3 4.01 4.713 J1 pastagem 1.203 1 13.04 0 26.56 0
4 2.942 3.137 Q pastagem 0.49 0 5.64 0 25.88 0
5 1.409 2.748 J3 pradaria 0.692 0 10.32 0 31.16 0
6 3.978 2.91 J2 floresta 1.75 1 8.36 0 37.72 0
7 2.715 2.1 J2 floresta 0.415 0 4.44 0 41 0
8 3.87 0.762 J3 pastagem 0.685 0 10.92 0 30.84 0
9 2.445 2.521 J2 pradaria 0.92 1 30.28 0 68.12 1
10 3.827 2.219 J2 floresta 2.12 1 7.35 0 54.4 1
11 2.488 1.064 J1 pradaria 0.495 0 17.08 0 46.8 0
12 1.646 0.524 J2 pastagem 1.06 1 18.88 0 55.2 1
13 3.136 2.37 J4 floresta 0.79 0 3.98 0 35.28 0

217
14 3.74 5.134 J1 floresta 0.772 0 8.16 0 30.16 0
15 1.678 2.327 J3 pradaria 1.188 1 31.36 0 72.4 1
16 4.399 3.18 J4 pradaria 1.615 1 91.2 1 108.8 1
17 3.935 4.368 J3 pradaria 3.023 1 19.72 0 45.6 0
18 3.33 1.604 J3 pradaria 2.315 1 113.12 1 144.36 1
19 3.557 2.64 J2 floresta 2.65 1 12.3 0 54.4 1
20 1.376 0.945 J1 pradaria 3.78 1 32.76 0 94.4 1
21 2.024 2.251 J3 pradaria 1.805 1 55.6 1 142 1
22 3.31 4.594 Q pradaria 1.58 1 56.4 1 93.6 1
23 4.097 1.798 J2 lavoura 1.93 1 19.3 0 46.4 0
24 2.326 3.633 J1 pradaria 0.415 0 18.32 0 31.92 0
25 3.514 4.098 J3 pastagem 0.675 0 9.24 0 27.24 0
26 3.168 4.173 J1 pradaria 0.745 0 8.52 0 30.28 0
27 4.292 1.039 Q pradaria 1.42 1 18.8 0 36.48 0
28 2.834 0.988 J3 pastagem 1.425 1 13.32 0 53.6 1
29 4.443 1.723 Q pastagem 1.31 1 17.7 0 48.4 0
30 3.482 2.295 J2 pastagem 1.765 1 127 1 300 1
31 3.665 4.789 J1 pradaria 0.647 0 9.76 0 21.76 0
32 4.173 2.144 J2 pastagem 1.81 1 17.9 0 48.8 0
33 2.143 1.139 J1 pradaria 0.394 0 39.56 0 105.6 1
34 3.061 2.025 J2 pradaria 1.6 1 20.6 0 35.75 0
35 2.985 1.679 J2 pradaria 1.675 1 22.92 0 61.44 1
36 3.438 3.752 J2 pastagem 1.28 1 13.04 0 43.6 0
37 4.637 0.956 J2 pradaria 0.87 1 16.5 0 35.32 0
38 3.049 5.285 J2 floresta 0.8 0 7.68 0 48.4 0
39 1.106 1.366 J1 pradaria 0.475 0 22.68 0 55.2 1
40 3.633 2.986 J2 pradaria 0.855 1 25.5 0 51.6 1
41 3.708 3.331 J2 pradaria 1.34 1 10.32 0 41.2 0
42 2.909 1.334 J1 pradaria 1.805 1 28.92 0 74.36 1
43 2.102 2.597 J2 pradaria 0.825 1 31.2 0 70.4 1
44 1.797 1.215 J1 pradaria 0.545 0 33.08 0 58 1
45 3.255 1.253 J3 pradaria 1.78 1 154.6 1 239.96 1
46 4.129 3.601 J2 floresta 2.566 1 7.88 0 55.2 1
47 3.363 3.407 J2 pastagem 0.61 0 7.86 0 34.84 0
48 1.452 1.29 J1 pradaria 0.585 0 15.16 0 56.4 1
49 4.745 3.105 J1 floresta 1.436 1 14.2 0 32.68 0
50 0.491 1.862 J3 floresta 2.415 1 21.32 0 48.4 0
51 2.369 2.176 Q pradaria 0.75 0 73.12 1 139.16 1
52 3.676 1.528 J3 pradaria 0.805 1 38.72 0 88.32 1
53 1.257 2.057 J3 pastagem 0.65 0 12.8 0 41.6 0
54 3.903 2.565 J2 floresta 0.51 0 5.96 0 62.4 1
55 1.603 1.981 J2 lavoura 0.705 0 16.04 0 38.24 0
56 3.395 5.21 J3 pradaria 1.112 1 13.12 0 25.56 0
57 2.564 1.409 J1 lavoura 1.31 1 117.6 1 152.8 1
58 0.912 2.132 J2 pastagem 2.2 1 11.88 0 51.6 1
59 3.093 3.828 J3 pradaria 0.45 0 11.5 0 30.92 0
60 0.836 1.787 J3 pradaria 0.825 1 12.96 0 50 0
61 2.758 0.643 J2 floresta 1.245 1 13.08 0 88 1
62 3.017 3.482 J2 pastagem 1.09 1 8.8 0 26.32 0
63 3.212 2.716 J3 pradaria 0.78 0 29.8 0 60.4 1
64 4.022 1.453 J2 pastagem 1.95 1 22.6 0 52 1
65 4.054 3.256 J2 pradaria 1.31 1 21.16 0 52.8 1
66 2.521 2.867 J2 pastagem 1.585 1 11.4 0 39.36 0
67 3.319 4.864 J1 pastagem 0.52 0 6.04 0 21.12 0

218
68 2.823 4.249 J1 floresta 1.005 1 7.08 0 35.4 0
69 1.722 0.869 J1 pradaria 0.57 0 21.36 0 67.2 1
70 2.251 3.288 Q pradaria 0.33 0 5.72 0 18.68 0
71 1.182 1.711 J3 pastagem 2.535 1 8.72 0 55.6 1
72 1.83 3.018 J3 pradaria 2.685 1 32.68 0 69.32 1
73 3.752 1.874 J2 pastagem 0.69 0 20.8 0 55.6 1
74 2.218 1.485 J1 pastagem 0.375 0 19.36 0 45.2 0
75 1.873 1.56 J3 pradaria 1.955 1 26.08 0 60.4 1
76 3.6 1.183 J2 pradaria 1.185 1 22.72 0 49.72 0
77 2.887 4.889 J1 floresta 1.325 1 5.4 0 37.52 0
78 1.527 1.636 J3 pradaria 0.795 0 42 0 84.8 1
79 1.333 2.407 J2 pradaria 1.63 1 20.56 0 46 0
80 2.413 0.718 J3 pradaria 0.677 0 11.92 0 38.16 0
81 1.948 1.906 J3 pradaria 1.298 1 22.44 0 45.6 0
82 1.754 2.672 J2 pradaria 1.53 1 16.24 0 43.6 0
83 2.294 1.83 J2 pastagem 0.67 0 8.72 0 32.76 0
84 2.639 1.755 J3 floresta 1.01 1 5.96 0 67.36 1
85 1.905 3.363 J1 pradaria 0.5 0 16.68 0 39.76 0
86 2.175 2.942 J3 pastagem 1.665 1 37 0 43.8 0
87 2.791 2.446 J2 pradaria 1.52 1 16.32 0 57.52 1
88 2.866 2.791 J2 pradaria 1.315 1 14 0 45.96 0
89 3.407 1.953 J2 pastagem 1.325 1 9.92 0 38.4 0
90 3.946 1.107 J2 pastagem 0.495 0 7.52 0 33 0
91 2.452 3.995 J1 pradaria 0.395 0 12.72 0 28.24 0
92 2.747 3.903 J1 pastagem 0.38 0 3.55 0 21.12 0
93 3.287 3.061 Q pradaria 2.085 1 39 0 52.4 1
94 4.367 1.377 Q pradaria 2.61 1 24 0 47.2 0
95 4.713 1.302 J2 pradaria 0.845 1 10.28 0 33.64 0
96 4.248 2.489 J4 floresta 1.22 1 5.52 0 48.8 0
97 3.784 3.677 J2 floresta 0.64 0 6.68 0 34.32 0
98 4.324 2.835 J2 floresta 1.65 1 8.88 0 60 1
99 3.859 4.022 J3 pradaria 1.433 1 43.6 0 60.8 1
100 2.593 3.312 J3 pradaria 0.325 0 8.08 0 26.2 0

Matriz de dados 8.1. Teores dos óxidos CaO, MgO, SiO2, Fe2O3, P2O5, MnO, SrO, S,
MnO e perda ao fogo (PF) (LANDIM, FERREIRA & BETTENCOURT, 2010) .
Furo Unidade X Y CaO MgO SiO2 Al2O3 Fe2O3 P2O5 SrO S MnO PF
05F CBF 790336.766 265354.5738 49.150 3.643 0.573 0.078 4.373 4.070 0.650 0.193 0.143 37.875
06F CBF 790355.0464 265242.683 43.529 6.934 0.399 0.371 7.704 5.201 0.584 0.229 0.176 35.443
07F CBF 790365.8315 265220.596 45.286 5.373 0.583 0.313 7.874 5.976 0.609 0.360 0.164 33.643
08F CBF 790377.1039 265198.3276 45.775 4.000 1.190 0.375 7.975 7.540 0.555 0.295 0.135 31.660
111F CBF 790410.5716 265273.5501 48.700 4.121 0.441 0.191 4.621 4.427 0.690 0.384 0.146 36.486
115F CBF 790295.576 265237.0378 45.010 6.585 0.565 0.420 5.900 6.465 0.645 0.285 0.155 34.155
116F CBF 790282.8074 265221.9122 43.682 7.372 0.610 0.332 6.113 7.047 0.595 0.257 0.150 33.628
117F CBF 790258.5078 265227.702 45.836 5.990 0.480 0.294 5.962 5.634 0.648 0.336 0.158 35.286
118F CBF 790303.0444 265205.5345 45.710 4.150 2.180 1.280 6.517 4.660 0.597 0.320 0.140 34.163
120F CBF 790288.4736 265238.7317 46.451 5.373 0.590 0.386 5.859 5.909 0.651 0.334 0.151 34.741
121F CBF 790404.3505 265304.2823 49.640 3.784 0.434 0.188 3.812 5.508 0.690 0.406 0.130 35.220
126F CBF 790400.4614 265323.9046 47.429 3.697 0.419 0.283 7.586 4.469 0.643 0.400 0.153 34.800
129F CBF 790237.546 265242.3255 43.290 7.285 0.490 0.238 7.190 7.528 0.555 0.290 0.160 32.735
130F CBF 790215.9311 265269.3777 46.345 4.808 1.968 1.143 4.980 5.328 0.660 0.340 0.135 34.628
134F CBF 790386.8723 265344.5345 46.571 4.706 0.566 0.341 7.284 5.876 0.596 0.214 0.146 34.271

219
135F CBF 790403.1756 265356.4009 47.680 2.670 0.870 0.210 4.980 7.800 0.460 0.230 0.110 34.030
139F CBF 790373.3914 265368.4275 49.740 3.398 0.428 0.222 4.014 5.192 0.692 0.348 0.128 35.580
140F CBF 790267.3233 265330.1964 49.090 3.920 0.600 0.140 4.730 4.380 0.720 0.500 0.130 36.290
142F CBF 790221.8056 265288.646 48.589 4.574 0.401 0.229 5.646 6.490 0.634 0.359 0.141 32.497
146F CBF 790249.5974 265335.146 48.709 3.853 0.429 0.146 4.814 4.464 0.696 0.274 0.139 36.656
147F CBF 790239.4874 265311.6 46.786 5.663 0.341 0.131 4.387 4.944 0.643 0.241 0.137 37.044
149F CBF 790182.9489 265297.624 46.035 6.260 0.443 0.230 5.158 6.613 0.635 0.320 0.143 34.705
158F CBF 790257.9578 265354.2415 48.400 4.062 0.592 0.096 4.312 5.184 0.694 0.356 0.132 35.520
160F CBF 790226.9237 265346.302 47.843 3.974 0.444 0.190 6.281 4.060 0.670 0.270 0.144 36.394
162F CBF 790176.1688 265321.0418 47.541 4.721 0.543 0.289 5.357 5.710 0.649 0.306 0.139 34.704
225F CBF 790264.7943 265381.9099 48.000 4.222 0.896 0.130 4.976 5.398 0.680 0.474 0.136 34.780
233F CBF 790409.9352 265244.2395 46.214 5.361 0.441 0.316 6.223 5.523 0.659 0.311 0.161 34.800
234F CBF 790421.7405 265220.2972 49.000 3.605 0.400 0.210 5.015 5.285 0.650 0.285 0.140 35.500
256F CBF 790345.2308 265242.843 39.475 11.880 0.330 0.250 4.705 6.800 0.504 0.199 0.155 35.488
257F CBF 790315.5576 265361.9837 48.629 3.761 0.510 0.089 4.857 3.591 0.670 0.411 0.134 37.200
261F CBF 790235.9653 265366.9188 48.014 3.877 0.594 0.083 5.686 5.330 0.646 0.373 0.134 35.000
262F CBF 790292.2312 265371.6455 50.300 3.673 0.593 0.091 3.681 4.623 0.706 0.366 0.130 36.886
282F CBF 790211.1295 265245.335 48.620 3.380 0.820 0.220 6.290 5.850 0.640 0.420 0.130 33.930
28F CBF 790296.9385 265318.5696 48.170 3.730 0.410 0.130 4.680 4.830 0.680 0.230 0.130 36.680
31F CBF 790337.2959 265223.2882 42.782 6.274 0.840 0.512 9.116 5.914 0.604 0.246 0.172 33.522
32F CBF 790351.2113 265218.6836 46.761 4.836 0.313 0.223 6.483 5.401 0.629 0.264 0.157 35.297
01N CBN 790219.8385 265456.1197 47.168 3.712 0.918 0.060 6.428 6.638 0.630 0.404 0.124 33.788
02N CBN 790250.3006 265507.4621 43.497 5.547 5.843 0.799 6.563 4.613 0.490 0.200 0.137 31.899
03N CBN 790259.3306 265481.6155 44.810 3.911 0.827 0.173 12.246 8.850 0.577 0.333 0.143 28.373
04N CBN 790275.0552 265458.0606 48.420 3.383 0.394 0.064 6.959 6.719 0.639 0.340 0.130 33.374
153N CBN 790219.3081 265624.3257 41.834 6.074 0.634 0.213 11.761 7.147 0.530 0.226 0.157 31.210
159N CBN 790228.3696 265610.6935 49.540 4.250 0.223 0.070 2.520 5.040 0.627 0.257 0.123 37.827
177N CBN 790253.0228 265557.8403 44.940 7.630 0.530 0.170 3.450 5.270 0.530 0.270 0.130 37.110
180N CBN 790213.2072 265479.851 44.533 5.965 2.955 0.192 5.895 5.380 0.590 0.398 0.135 33.200
181N CBN 790307.7232 265498.4849 48.933 3.386 0.293 0.050 5.491 5.597 0.659 0.360 0.116 34.950
182N CBN 790310.3341 265531.5845 48.014 3.777 1.364 0.269 3.941 6.440 0.620 0.263 0.104 35.229
189N CBN 790280.5507 265552.0877 45.850 4.602 0.715 0.227 8.193 7.523 0.562 0.345 0.137 31.642
192N CBN 790269.1942 265575.0211 44.040 4.424 0.972 0.382 12.454 7.254 0.478 0.340 0.168 29.400
193N CBN 790299.0035 265581.1476 48.557 3.984 0.447 0.086 4.233 5.834 0.606 0.304 0.129 36.057
195N CBN 790269.346 265521.0303 48.517 3.718 0.547 0.140 6.515 6.152 0.580 0.312 0.125 34.213
197N CBN 790256.3818 265596.1975 45.500 4.143 0.753 0.483 10.723 6.145 0.525 0.363 0.163 31.875
198N CBN 790287.5296 265603.2798 45.716 4.043 0.633 0.113 9.107 7.510 0.560 0.359 0.139 31.529
203N CBN 790250.8883 265611.5217 47.143 4.497 0.573 0.266 6.316 5.674 0.563 0.284 0.147 34.971
204N CBN 790295.0701 265470.8839 50.220 3.812 0.508 0.087 2.740 3.215 0.733 0.373 0.117 37.843
205N CBN 790275.1001 265625.055 45.857 6.814 0.930 0.161 3.289 5.066 0.603 0.259 0.137 37.114
208N CBN 790243.3695 265636.8618 48.114 4.037 0.467 0.124 6.437 5.843 0.659 0.310 0.151 34.829
209N CBN 790256.0752 265644.0958 47.733 5.125 0.640 0.095 3.868 6.398 0.625 0.143 0.135 35.735
20N CBN 790143.859 265606.2149 48.042 4.323 0.868 0.092 4.775 6.082 0.662 0.263 0.135 35.245
21N CBN 790147.8956 265572.3116 44.285 4.030 0.668 0.173 12.988 8.683 0.575 0.300 0.170 28.315
22N CBN 790165.6153 265546.5723 49.040 4.678 0.250 0.066 2.878 5.326 0.670 0.282 0.126 37.248
230N CBN 790146.2025 265597.5671 47.657 4.162 0.778 0.100 5.575 6.752 0.623 0.252 0.130 33.708
23N CBN 790197.8799 265500.1982 47.162 5.410 2.173 0.157 4.357 6.343 0.617 0.273 0.127 33.320
245N CBN 790239.3459 265628.349 40.764 6.260 0.784 0.278 12.836 7.100 0.522 0.172 0.164 30.802
248N CBN 790163.8539 265624.4107 45.037 5.282 0.443 0.135 7.303 5.923 0.608 0.200 0.148 35.398
249N CBN 790167.7598 265610.5195 46.280 4.448 0.607 0.205 7.497 6.077 0.618 0.252 0.152 34.380
24N CBN 790208.9623 265478.1797 50.417 3.116 0.354 0.050 3.380 6.206 0.670 0.264 0.111 35.900
250N CBN 790219.1768 265516.8922 44.338 5.774 0.512 0.108 7.352 8.090 0.514 0.266 0.126 32.468
251N CBN 790223.5913 265497.3779 46.663 5.152 0.603 0.188 4.513 6.377 0.617 0.308 0.125 36.127
252N CBN 790242.9795 265470.0058 41.909 7.913 0.534 0.214 8.807 7.919 0.521 0.274 0.147 31.716

220
253N CBN 790253.9778 265449.783 44.790 3.621 0.766 0.304 11.913 6.639 0.581 0.266 0.143 31.169
25N CBN 790219.2885 265456.912 43.290 5.146 1.473 0.219 11.514 5.699 0.581 0.221 0.160 32.217
26N CBN 790223.2727 265441.1552 43.033 7.123 1.028 0.110 5.975 8.413 0.520 0.145 0.123 33.203
311N CBN 790241.7395 265523.8196 47.887 4.151 0.299 0.089 3.931 5.664 0.561 0.309 0.117 36.659
05R CBR 790331.9359 265356.8555 50.467 3.527 0.170 0.000 2.527 2.777 0.723 0.203 0.130 40.067
115R CBR 790308.5022 265226.5087 37.962 13.174 0.618 0.552 4.234 5.372 0.490 0.194 0.156 37.856
120R CBR 790289.36 265238.1324 48.080 4.760 1.090 0.210 4.450 3.650 0.690 0.350 0.140 37.240
121R CBR 790409.59 265300.62 48.200 3.955 0.475 0.160 5.610 5.120 0.655 0.310 0.140 35.450
125R CBR 790419.4187 265333.7415 47.578 3.794 0.560 0.178 4.568 5.764 0.660 0.278 0.118 36.356
127R CBR 790276.0008 265268.6881 45.209 6.377 0.691 0.237 4.040 4.094 0.619 0.277 0.141 38.330
130R CBR 790220.1745 265266.3275 44.170 5.795 2.550 1.490 5.555 7.320 0.600 0.330 0.130 32.360
132R CBR 790253.1782 265279.7257 43.519 8.913 0.419 0.190 3.964 4.833 0.587 0.266 0.143 36.954
140R CBR 790272.4731 265325.0938 48.530 4.023 0.478 0.215 4.716 4.735 0.681 0.290 0.135 36.479
141R CBR 790262.7211 265302.4015 46.773 4.703 0.571 0.186 5.239 4.813 0.654 0.259 0.139 37.477
158R CBR 790246.1206 265363.8835 49.200 3.515 0.315 0.000 3.790 3.830 0.680 0.260 0.130 37.900
223R CBR 790349.6598 265354.6945 48.289 3.766 0.223 0.100 4.277 4.281 0.683 0.309 0.127 37.924
254R CBR 790305.8446 265339.71 48.257 4.414 0.316 0.116 4.273 4.270 0.691 0.379 0.136 36.914
255R CBR 790328.064 265327.6803 48.744 3.604 0.701 0.231 3.014 2.660 0.720 0.217 0.113 40.314
27R CBR 790281.7358 265346.9323 47.557 4.010 0.480 0.161 5.973 4.327 0.686 0.336 0.143 35.800
28R CBR 790294.4998 265320.2417 49.150 3.552 0.447 0.100 3.502 3.263 0.687 0.250 0.118 39.073
30R CBR 790300.8495 265265.4571 43.674 5.995 1.110 0.363 6.866 6.010 0.584 0.224 0.151 34.646
313R CBR 790330.7541 265273.7652 47.321 4.269 0.330 0.220 4.846 4.549 0.667 0.319 0.133 37.196
314R CBR 790355.5347 265265.2112 42.143 9.023 0.308 0.134 4.364 6.193 0.558 0.254 0.141 37.016
315R CBR 790375.3054 265311.1251 47.063 3.881 0.636 0.171 5.344 5.390 0.664 0.350 0.127 36.209
316R CBR 790364.3355 265284.3547 47.536 3.789 0.491 0.190 5.591 6.054 0.651 0.340 0.129 34.713
36R CBR 790377.1098 265254.2877 42.021 9.926 0.526 0.233 2.991 4.966 0.566 0.261 0.134 38.693

Matriz de dados 9.1. Espessuras de uma jazida de carvão (CAVA, 1985 e LANDIM, 2003)
ID X Y ESPESSURA
1 1 5 0.8
2 2 5 0.72
3 4 5 0.69
4 3 4.5 0.8
5 4.5 4.5 0.73
6 0.5 4 1.19
7 1.5 4 0.94
8 2.5 4 0.96
9 3.5 4 1.05
10 5 4 1.32
11 1 3.5 1.02
12 2 3.5 1.2
13 3 3.5 1.1
14 4 3.5 1.18
15 6 3.5 1.3
16 1.5 3 1.55
17 2.5 3 1.57
18 3.5 3 1.3
19 5 3 1
20 0.5 2.5 1.18
21 1.5 2.5 1.4
22 2 2.5 1.3
23 2.5 2.5 1.5
24 4 2.5 1.4

221
25 1.5 2 1.85
26 2.5 2 1.2
27 3 2 1.23
28 4 2 1.3
29 0.5 1.5 1.62
30 1.5 1.5 2.09
31 2 1.5 1.6
32 2.5 1.5 1.4
33 3 1.5 1.41
34 3.5 1.5 1.38
35 4 1.5 1.04
36 2 1 1.31
37 3.5 1 1.28
38 2.5 0.5 0.55

Matriz de dados 10.1. Localização dos pontos em Coordenadas Hayford-Gauss,


sistema de coordenadas geográficas usado em Portugal; valores dos anions e sílica
dissolvida em µmol/L (PACHECO & LANDIM (2005)
ID X (m) Y (m) [HCO3-] [Cl-] [SO42-] [NO3-] [SIO2]
28 253614 353895 780 440 356 371 656
30 253789 353965 844 485 458 460 639
31 253263 353298 490 423 185 387 506
32 253228 353579 390 282 129 371 558
35 252491 352105 729 347 341 221 614
39 252631 354666 619 231 129 216 260
41 251789 355052 261 189 198 55 463
42 252526 355754 370 130 127 139 421
45 254526 358596 1280 668 464 121 571
51 253474 358982 780 499 458 189 100
59 252281 358526 2260 2115 635 150 674
60 253614 357403 560 248 158 63 524
61 254105 357684 580 231 83 18 560
63 253754 353298 229 790 735 998 399
66 251579 353719 480 296 325 366 474
67 251754 353509 1052 243 4 0 684
71 250526 353263 639 183 433 0 626
72 250421 352947 239 164 56 1 478
74 249930 353123 660 149 44 32 609
75 249719 352772 480 138 62 0 399
76 249754 352421 810 155 92 0 503
77 252035 352140 851 550 237 258 499
78 251474 351930 918 1664 473 874 438
79 250737 352035 410 181 125 121 634
84 251649 353158 451 307 323 211 426
85 251579 352982 590 169 94 82 606

222
86 255017 353403 870 279 35 60 663
87 256316 353158 451 243 177 1 613
90 257438 355474 760 248 125 47 506
92 258000 356737 580 186 117 0 552
96 258386 355228 480 336 58 32 652
99 259123 354982 600 567 366 37 353
202 250175 355017 239 1297 1307 839 573
203 250210 355579 610 372 417 185 440
204 251895 356807 352 254 172 158 657
205 252561 357052 716 536 404 379 485
206 251052 356281 472 677 289 37 441
207 250421 354737 244 621 580 500 489
208 250666 355298 328 181 171 92 474
209 250456 353895 367 231 323 240 532
210 250386 353368 388 183 76 82 626
211 251789 356035 1080 395 383 71 587
212 251930 355544 357 85 173 144 603
213 252702 356351 429 691 431 855 405
214 252351 354702 215 220 437 203 437
215 252702 354877 690 121 173 18 564
216 250245 352035 1113 189 227 53 660
217 251298 352456 787 243 90 3 654
218 252000 353754 2994 485 228 181 635
219 250140 354561 167 762 139 871 465
220 253403 359158 3655 2482 1047 1081 264
221 254456 357438 477 209 137 3 522
222 253544 357544 642 259 194 216 634
223 253158 356947 326 254 371 435 485
224 253509 356035 1155 130 138 77 411
225 253263 355474 372 133 227 58 472
226 253684 355579 436 113 158 85 545
227 253965 355895 367 124 154 226 581
228 252526 352245 836 268 342 177 750
229 255684 351684 557 536 162 205 666
230 257544 352456 664 203 318 21 546
231 255193 352351 626 178 448 124 508
232 254561 353333 334 175 81 435 745
233 254456 353965 690 790 514 2903 687
234 253579 354807 433 158 278 132 670
235 255403 356947 523 155 70 65 668
236 255649 357088 601 1354 1144 1387 586
237 254877 356175 400 118 96 248 207
238 255158 356386 438 141 135 68 535
239 254772 355193 600 324 274 500 558
241 260210 357193 231 79 24 61 514

223
242 259754 357509 136 65 10 71 445
243 254105 359333 1529 874 515 435 776
244 255859 355824 323 265 336 250 476
245 254912 354702 692 310 173 131 608
246 254631 356351 564 127 151 131 519
247 254947 357193 454 282 372 166 532
248 250596 355789 526 195 384 500 415
249 248877 352947 408 107 170 52 560
250 258561 357614 187 268 279 324 579
251 258842 357368 203 93 15 35 467
252 259088 356842 128 104 7 66 414
253 259438 356175 249 90 66 61 619
254 260000 355509 295 116 75 29 600
255 260105 355509 293 124 72 66 672
256 259614 356140 236 130 75 35 520
257 259438 355930 243 144 99 140 613
258 259193 356000 59 96 9 66 237
259 258456 353824 723 262 173 190 740
260 255403 353438 647 141 62 44 760
261 256140 353965 675 931 365 452 620
262 256035 354070 1047 3328 749 1516 617
263 256105 354281 1721 3159 1450 1242 740
264 255930 354737 451 333 204 250 550
265 256000 354526 567 152 43 9 697
266 256000 355052 533 1297 1784 532 486
267 256456 354877 1278 564 113 182 739
268 256526 355263 526 527 439 282 581
269 256316 354105 877 6770 1117 1048 567
270 257088 354702 1169 1326 675 726 452
271 257754 354386 449 214 50 139 842
272 257158 353789 367 259 12 187 573
273 252877 351684 652 164 24 4 723
274 255930 352631 470 305 105 150 530
275 256316 352316 516 282 25 105 662
276 256737 351895 531 480 71 176 615
277 256877 352596 606 361 119 113 736
278 257965 352210 375 203 37 113 760
279 258526 352631 688 592 134 118 692
280 259614 350912 434 152 23 13 583
402 256631 350421 150 115 14 22 211
404 256982 350526 308 188 19 32 399
406 254281 359684 853 623 151 60 692
407 254807 359474 2081 745 399 106 757
408 257088 359052 551 268 140 113 711
410 260666 354386 272 107 25 74 530

224
411 261333 353579 214 199 93 30 209
415 248631 355824 470 244 34 8 612
420 254702 350947 390 209 46 14 340
421 255859 350842 353 188 45 23 339
423 260421 354245 262 88 32 29 352
424 258596 351298 365 232 79 81 445
425 258596 351088 819 91 21 11 812
427 259649 351333 433 162 10 30 534
430 248702 357017 725 241 324 34 464
432 260596 352807 338 161 19 25 689
433 260386 352351 280 107 82 24 524
434 260772 352456 292 79 16 13 524
435 260456 351859 421 64 10 5 581
438 256035 359298 430 152 60 30 487
439 253719 351474 714 128 25 0 709
440 254140 351228 636 127 58 7 729
441 256702 351298 956 166 67 8 875
442 258561 352175 607 832 50 75 838
443 259649 354386 549 378 65 33 569
444 259649 353333 351 157 27 36 442
446 256526 354175 651 255 28 33 887
447 256105 353438 974 533 189 107 548
452 252631 352281 838 338 351 105 774
453 251579 354386 1123 276 92 17 752
457 250666 350631 566 93 3 1 568
458 255509 351438 526 195 18 22 670
463 248947 350386 231 241 67 31 366
514 254737 356035 558 161 133 27 497
522 253824 356281 1149 181 95 32 600
523 252702 353579 650 302 299 34 860
524 252842 354982 918 248 228 21 679
525 251754 355649 503 126 138 48 554
530 256140 353614 643 454 356 62 742
534 257509 353123 310 277 162 100 604
535 257754 352281 625 725 286 105 568
536 255824 351719 529 236 111 42 431
539 257509 354912 600 685 226 150 375
540 256491 354105 520 224 46 63 806
573 259298 355789 96 195 20 19 280
574 258561 356105 652 914 189 29 515
575 258842 355193 875 426 261 30 514
583 248947 357895 305 2350 269 284 415
589 256316 352316 501 205 39 24 679
591 250421 357403 572 412 418 20 228

225
Matriz de dados 11.1. Valores em mg/L (Queiroz, 2003)
No. Amostra X(UTM) Y(UTM) Fe Mn As Al Se Pb Cu Cd
1 EL-01 478.3 994.15 0.11650 0.0341 < LD 0.368 < LD 0.0097 < LD < LD
2 EL02 478.52 994.09 0.58765 0.0314 < LD 0.426 0.0321 0.0262 0.00547 < LD
3 EL-03 478.12 994.44 12.26500 0.0862 < LD 0.867 0.0341 0.0265 0.00650 0.00080
4 EL-04 477.75 994.3 0.80137 0.0926 < LD 0.672 0.0339 0.0262 0.00672 0.00023
5 EL-05 477.99 994.8 0.29743 0.0052 < LD 0.851 0.0342 0.0256 0.01003 < LD
6 EL-06 478.03 994.84 0.07179 0.0064 < LD 0.156 < LD 0.0085 < LD 0.00022
7 EL-07 478.75 995.55 12.81900 0.4187 < LD 0.217 0.0336 0.0253 0.00348 0.00056
8 EL-08 478.16 995.22 0.09604 0.0039 < LD 0.021 0.0335 0.0261 0.03419 < LD
9 EL-09 478.62 995.69 0.83601 0.0391 < LD 13.007 < LD 0.0096 < LD 0.00043
10 EL-10 478.71 995.76 0.18773 0.0152 < LD 0.225 0.0334 0.0250 0.00344 < LD
11 EL-11 479.65 996.06 0.07150 0.0140 < LD 0.120 < LD 0.0106 < LD 0.00090
12 STN-01 480.92 996.14 0.01392 0.0108 < LD 0.362 < LD 0.0107 < LD < LD
13 STN-02 480.98 995.15 0.00829 0.0050 < LD 0.195 < LD 0.0100 < LD < LD
14 STN-03 480.3 994.68 0.49047 0.0194 < LD 10.851 < LD 0.0154 < LD 0.00031
15 STN-04 480.44 994.26 0.03515 0.0665 < LD 0.762 0.0328 0.0261 0.00218 < LD
16 STN-05 481.54 995.23 0.03505 0.0164 < LD 0.210 < LD 0.0090 < LD < LD
17 STN-06.1 481.3 994.5 0.04155 0.0226 < LD 0.287 < LD 0.0100 < LD < LD
18 STN-06.2 481.305 994.505 23.44100 11.9860 0.0128 0.215 0.0344 0.0272 0.00638 0.00138
19 STN-07 481.51 994.36 0.01077 0.0037 < LD 0.111 < LD 0.0101 < LD < LD
20 STN-08 481.96 995.06 0.29245 0.0090 < LD 0.155 < LD 0.0094 < LD < LD
21 STN-09 482.09 995.1 0.06507 0.0057 < LD 0.264 < LD 0.0109 < LD < LD
22 STN-10 482.1 995.47 0.05772 0.0070 < LD 0.109 < LD 0.0091 < LD < LD
23 STN-11 482.1 995.71 0.08928 0.0436 < LD 0.367 < LD 0.0098 < LD < LD
24 STN-12 480.33 994.25 0.08941 0.0162 < LD 0.369 0.0338 0.0273 0.02686 0.00006
25 STN-13 480.86 994.28 17.55400 0.3536 < LD 0.558 0.0339 0.0267 0.00562 0.00051
26 STN-14 480.93 994.76 0.09411 0.0540 < LD 0.254 0.0341 0.0265 0.00757 < LD
27 STN-15 481.03 995.3 0.01638 0.0016 < LD 0.090 < LD 0.0080 < LD < LD
28 STN-16 480.47 995.5 0.04004 0.0335 < LD 0.575 < LD 0.0109 < LD < LD
29 STN-17 480.6 995.34 0.12924 0.0173 < LD 0.205 < LD 0.0090 < LD < LD
30 STN-18 480.92 995.5 0.14526 0.0200 < LD 0.330 < LD 0.0127 < LD < LD
31 STN-19 481.58 995.75 0.00571 0.0126 < LD 0.040 < LD 0.0095 < LD < LD
32 STN-20 480.33 994.27 0.03577 0.0159 < LD 0.767 < LD 0.0123 < LD < LD
33 PM-02 479.89 993.86 72.25700 0.4187 < LD 21.777 0.0336 0.0253 0.00527 0.00244
34 PM-04 479.52 993.8 0.04456 51.4410 < LD 0.088 0.0392 0.0264 0.00235 < LD
35 PM-11 479.91 994.19 0.89852 0.0302 < LD 14.031 0.0355 0.0290 0.00450 < LD
36 PM-14 479.21 994.25 24.15000 0.3373 22.9240 0.160 0.0331 0.0263 0.00320 0.00082
37 PM-18.A 479.52 994.33 0.31176 0.1903 0.6081 0.113 < LD 0.0092 < LD < LD
38 PM-24.A 479.32 994.33 0.46094 12.7720 10.7270 0.232 0.0361 0.0393 0.00517 0.00080
39 PM-26 479.47 994.12 0.07938 0.8195 18.1120 0.129 0.0000 0.0124 < LD < LD
40 PM-27.A 479.41 994.52 85.41300 14.8640 0.0248 0.102 0.0412 0.0350 0.00354 0.00306
41 PM-37 479.69 995.3 0.47740 0.8153 0.0013 0.317 0.0342 0.0275 0.00524 0.00065
42 ICOMI 479.91 994.06 0.00500 0.0070 0.020
43 ICOMI 479.69 994.1 0.02000 0.8260 0.009
44 ICOMI 479.9 993.71 0.02000 0.0800 0.010
45 ICOMI 479.91 993.74 < LD 0.0370 0.008
46 ICOMI 479.75 994.97 < LD 0.0070 0.014
47 ICOMI 479.82 995.34 < LD 0.0010 0.015
48 ICOMI 479.31 994.42 < LD 6.8200 0.008
49 ICOMI 479.67 995.1 <LD 0.0010 0.017

< LD: Menor que o Limite de Detecção

226
Tabela de dados 11.1. (Continuação)
No Sample X(UTM) Y(UTM) Ba Sr Mo Zn(x100) Co(x100) Ni(x100) Cr(x100) Ag(x1000)
1 EL-01 478.3 994.15 0.092191 0.15712 < LD < LD 0.1266 0.2241 0.0713 0.25200
2 EL02 478.52 994.09 0.114780 26.17500 12533.00000 32.11700 0.1969 < LD 0.1970 < LD
3 EL-03 478.12 994.44 0.145050 26.46300 13526.00000 34.07600 0.3513 < LD 0.2878 < LD
4 EL-04 477.75 994.3 0.142460 26.17900 13292.00000 33.91900 0.5644 < LD 0.1701 < LD
5 EL-05 477.99 994.8 0.025527 25.55100 0.17351 34.17900 0.1024 < LD 0.0903 < LD
6 EL-06 478.03 994.84 0.011847 0.00205 < LD < LD 0.0904 < LD < LD < LD
7 EL-07 478.75 995.55 0.108260 25.30500 14162.00000 33.60900 0.2034 < LD 0.1112 0.11800
8 EL-08 478.16 995.22 0.003825 26.08100 0.02419 33.53800 0.2468 < LD < LD 0.75500
9 EL-09 478.62 995.69 0.086669 0.04087 < LD < LD 0.2313 0.1544 < LD < LD
10 EL-10 478.71 995.76 0.010024 2.50300 0.09834 33.41200 0.1385 < LD 0.0540 < LD
11 EL-11 479.65 996.06 0.020496 0.01546 < LD < LD 0.1331 0.1481 0.0327 0.16400
12 STN-01 480.92 996.14 0.100110 0.03525 < LD < LD < LD 0.1117 < LD < LD
13 STN-02 480.98 995.15 0.043718 0.00875 < LD < LD < LD < LD < LD 0.20500
14 STN-03 480.3 994.68 0.076806 0.05146 < LD 56.52400 0.2356 0.3162 0.0383 < LD
15 STN-04 480.44 994.26 0.078890 0.05096 < LD 29.07800 0.1274 < LD < LD 0.42900
16 STN-05 481.54 995.23 0.028611 0.01034 < LD < LD < LD < LD < LD < LD
17 STN-06.1 481.3 994.5 0.028787 0.03599 < LD < LD 0.0871 < LD < LD < LD
18 STN-06.2 481.305 994.505 0.166270 0.20905 < LD 42.25900 0.5293 0.6248 0.2640 0.30700
19 STN-07 481.51 994.36 0.014461 0.00114 < LD < LD 0.1203 < LD < LD < LD
20 STN-08 481.96 995.06 0.008233 < LD < LD < LD 0.1077 < LD < LD 0.12300
21 STN-09 482.09 995.1 0.037578 0.00890 < LD < LD 0.1332 < LD 0.2720 < LD
22 STN-10 482.1 995.47 0.007237 0.00101 < LD < LD 0.1504 < LD < LD < LD
23 STN-11 482.1 995.71 0.026344 0.04903 < LD < LD 0.1331 0.1739 0.0539 0.08900
24 STN-12 480.33 994.25 0.052630 0.01049 < LD 4.31300 0.1151 < LD 0.0403 0.44000
25 STN-13 480.86 994.28 0.124270 0.16663 < LD 3.85700 0.3534 < LD 0.2708 < LD
26 STN-14 480.93 994.76 0.045176 0.01191 < LD 58.21900 0.1200 0.5493 0.1109 0.18900
27 STN-15 481.03 995.3 0.017184 0.00252 < LD < LD 0.1350 < LD 0.1261 < LD
28 STN-16 480.47 995.5 0.078681 0.05520 < LD < LD 0.1984 0.2763 < LD 1.30500
29 STN-17 480.6 995.34 0.036680 0.01277 < LD < LD 0.1995 < LD < LD 0.10400
30 STN-18 480.92 995.5 0.099789 0.03337 < LD < LD 0.2197 < LD < LD < LD
31 STN-19 481.58 995.75 0.007444 0.00459 < LD < LD < LD 0.4341 < LD 1.19200
32 STN-20 480.33 994.27 0.146770 0.02213 < LD < LD 0.2726 < LD < LD < LD
33 PM-02 479.89 993.86 0.014136 0.17306 < LD 29.10600 0.1958 0.1155 18.1490 < LD
34 PM-04 479.52 993.8 0.597380 0.93706 < LD 31.18300 16.3050 0.1678 0.3677 0.59900
35 PM-11 479.91 994.19 0.009663 < LD < LD 30.57200 0.2382 < LD 0.2295 0.08200
36 PM-14 479.21 994.25 0.045501 0.03161 0.34308 3.17100 0.0458 < LD < LD < LD
37 PM-18.A 479.52 994.33 0.005707 0.00604 0.15249 < LD 0.1663 0.1466 < LD < LD
38 PM-24.A 479.32 994.33 0.021973 0.06867 0.40726 30.56200 0.4410 0.4963 0.1584 < LD
39 PM-26 479.47 994.12 0.988510 0.43134 0.88389 < LD 0.4923 18.5190 < LD 0.22000
40 PM-27.A 479.41 994.52 0.924810 0.76909 0.02643 30.98900 2.6110 17.6580 0.7862 1.27800
41 PM-37 479.69 995.3 0.016442 0.01003 < LD 44.30600 0.4014 0.3557 0.2746 0.25900

< LD: Menor que o Limite de Detecção

227
REFERÊNCIAS BIBLIOGRAFICAS

AITCHISON, J. (1986) – The statistical analysis of compositional data: Chapman & Hall

ARAUJO, D.C. (1976) - Taxonomia e Relações dos Progranossauria da Bacia do Paraná:


An. Acad. Brasil. Ciênc., 48 (1):91-116

BERNARDI, J. V. E.; FOWLER, H. G. & LANDIM, P. M. B. (2001) - Um estudo de impacto


ambiental utilizando análises estatísticas espacial e multivariada: Holos Environment,
1(2):162-172

CAVA, L.T., Coord. (1985) - Potencial e Perspectivas para o Carvão Mineral do Estado do
Paraná: MINEROPAR/PR.

DAWSON, K. R. & WHITTEN, E. H. T. (1962) – The quantitative mineralogical composition


and variation of the Lacorne, La Motte, and Preissac granitic complex, Quebec, Canada:
Jour. Petrology, 3(1):1-37

DAVIS, J.C (1986) - Statistics and Data Analysis in Geology: 2ND. ED., JOHN WILEY AND SONS.

GOOVAERTS, P. (1997) – Geostatistics for Natural Resouces Evaluation: Oxford University


Press.

IMBRIE, J. (1963) – Factor and vector analysis programs for analyzing geologic data:
Office Naval Res., Geography Branch, Tech. Rept. 6, ONR Task nº 389-135

KRUMBEIN, W.C. (1962) – Open and Closed Number Systems in Stratigraphic Mapping:
Bull. Am. Ass. Petrol. Geologists, 46:2229-2245

KRUMBEIN, W.C. & GRAYBILL, F.A. (1965) – An Introduction to Statistical Models in


Geology: McGraw-Hill Book Co.

LANDIM, P. M. B. (2003) – Análise estatística de dados geológicos: Editora UNESP, 2ª.


edição.

LANDIM, P.M.B.; FERREIRA, T.C.O.; BETTENCOURT, J.S. (2010) – Regionalized


classification of multivariate geochemical data from Jacupiranga Alkaline Complex (Ribeira
de Iguape Valley/São Paulo, Brazil): Revista Brasileira de Geociências, 40(2):

LEITE, C.B.B. & LANDIM, P.M.B. (2003) –Relação entre mapas temáticos por meio da
Análise de Regressão Múltipla. Solos e Rochas – Revista Latino-americana de Geotecnia,
26(3):195-203

MILLER, R.L. & KAHN, J.S. (1962) - Statistical Analysis in the Geological Sciences: John
Wiley and Sons.
PACHECO, F.A.L. & LANDIM, P.M.B. (2005) - Two-Way Regionalized Classification of
Multivariate Datasets and its Application to the Assessment of Hydrodynamic Dispersion:
Mathematical Geology, v.37, no. 4, p. 393-4A7

228
QUEIROZ, J.C.B. (2003) –Utilização da geoestatística na quantificação do risco de
contaminação por metais pesados na área portuária de Santana-Amapa/Brasil: Tese de
Doutorado, Pós-Graduação em Geociências, IGCE, UNESP/Rio Claro, 199p.

RHODES, J.M. (1969) - The application of cluster and discriminatory analysis in mapping
granite intrusions: Lithos, 2:223-237.

SOARES, P.C. & LANDIM, P.M.B. (1976) - Depósitos Cenozóicos na Região centro-sul do
Brasil : Not. Geomorfológica, 16 (31): 17-39.

229