Você está na página 1de 120

ANLISE ESTATSTICA DE

DADOS GEOLGICOS
MULTIVARIADOS

PAULO M. BARBOSA LANDIM

Professor Emrito da Universidade Estadual Paulista


Professor Voluntrio do Depto. Geologia Aplicada
UNESP/Rio Claro

UNESP/campus de Rio Claro


Departamento de Geologia Aplicada - IGCE
Laboratrio de Geomatemtica
Texto Didtico 03
2000

Reproduo autorizada desde que citada a fonte


Norma 6023-2000/ABNT ( http://www.abnt.org.br):
LANDIM, P.M.B. Anlise estatstica de dados geolgicos multivariados.. Lab.
Geomatemtica, DGA,IGCE,UNESP/Rio Claro, Texto Didtico 03, 128 pp.
2000. Disponvel em <http://www.rc.unesp.br/igce/aplicada/textodi.html>.
Acesso em:....
NOTA:
Dvidas, questes, sugestes, etc. sobre o texto devero ser encaminhadas
para o endereo plandim@rc.unesp.br, as quais sero sempre bem recebidas.

1. INTRODUO
As primeiras aplicaes de mtodos quantitativos em Geologia coincide com o seu
estabelecimento como cincia moderna, pois a subdiviso do Tercirio, por Lyell em 1830, foi
baseada na classificao quantitativa de espcies recentes de moluscos presentes nos
diversos estratos da Bacia de Paris. A partir desse incio,

porem, a Geologia permanece

qualitativa e puramente descritiva e apenas nos anos 20 que o enfoque quantitativo se


estabelece. Por exemplo, Krumbein, pioneiro em 1958 no uso de computao em Geologia,
prope a amostragem geolgica em bases probabilsticas e introduz os modelos processoresposta. Graas a avanos tecnolgicos, tanto em termos computacionais como em
equipamentos de laboratrio e de campo mais refinados, tem sido intensa, nas ltimas ultimas
dcadas, a obteno de dados geolgicos quantitativos. A sua anlise, porem, esta muito
aquem dessa imensa quantidade de informaes coletadas. Basta ver os relatrios de
pesquisa e mesmo os bancos de dados com um grande nmero de matrizes de informaes
no trabalhadas. Ha verbas e tempo gastos com essa coleta que precisam ser acompanhados
do devido manuseio. Para essa anlise dos dados o emprego de tcnicas estatsticas
multidimensionais torna-se, ento, uma ferramenta fundamental. Constitue uma fase
intermediaria, as vezes at introdutria, porem necessria, para o entendimento dos
fenomenos geolgicos. A pura utilizao

de tcnicas estatsticas, e hoje em dia bastante

facilitada graas vasta disposio de programas, no condio suficiente se o estudo no


for embasado num slido conhecimento geolgico. A sua aplicao, porem, de extrema valia
metodolgica para auxiliar a interpretao geolgica.
No caso de uma nica varivel ter sido medida em espcimes de uma amostra, no
sentido estatstico, a anlise de tais dados feita por intermdio da estatstica univariada. Se
porm valores de diversas variveis forem obtidos em cada um dos espcimes dessa mesma
amostra, as tcnicas para a anlise desses dados so fornecidas pela estatstica multivariada
ou multidimensional. Tal anlise estatstica de mensuraes mltiplas efetuadas sobre uma
amostra fornece um melhor entendimento na razo direta do nmero de variveis utilizadas e
permite considerar simultaneamente a variabilidade existente nas diversas propriedades
medidas.
Pode-se afirmar que a anlise multivariada a rea da anlise estatstica que se
preocupa com as relaes entre variveis e como tal apresenta duas caractersticas principais:
os valores das diferentes variveis devem ser obtidos sobre os mesmos indivduos e as
mesmas devem ser interdependentes e consideradas simultaneamente (Kendal, 1963). Entre
os mtodos mais utilizados em Geocincias destacam-se a anlise de agrupamentos , a
anlise fatorial e a anlise discriminante.
A anlise de agrupamentos utilizada quando se deseja explorar as similaridades
entre indivduos (modo Q) ou entre variveis (modo R) definindo-os em grupos, considerando
simultaneamente, no primeiro caso, todas as variveis observadas em cada indivduo e, no
segundo, todos os indivduos nos quais foram feitas as mesmas medidas. Segundo esse

mtodo, procura-se por agrupamentos homogneos de itens representados por pontos num
espao n-dimensional em um nmero conveniente de grupos relacionando-os atravs de
coeficientes de similaridade ou de distncia.
A anlise fatorial procura interpretar a estrutura de um conjunto de dados multivariados,
tanto em modo Q como em modo R, a partir da respectiva matriz de varincias-covarincias
ou de

correlaes, com a obteno de autovalores e autovetores. Utiliza-se de dois procedimentos


bsicos: a "anlise das componentes principais" e a "anlise dos fatores". O primeiro caso
consiste numa transformao linear das "m" variveis originais em "m" novas variveis. No
segundo, supe-se que as relaes existentes dentro de um conjunto de "m" variveis seja o
reflexo das correlaes de cada uma dessas variveis com "p" fatores, mutuamente no
correlacionveis entre si, sendo "p" menor que "m".
A anlise discriminante aplicada quando em relao a um indivduo, sobre o qual
tenham sido feitas diversas medidas, necessrio decidir qual de dois ou mais possveis
grupos, o mesmo pertence. A idia bsica substituir o conjunto original das diversas
mensuraes por um nico valor Di, definido como uma combinao linear delas. Para fornecer
um nico valor os termos so adicionados nessa funo linear, e esta transformao
realizada de tal modo a fornecer a razo mnima entre a diferena entre pares de mdias
multivariadas e a varincia multivariada dentro dos dois grupos. Conhecido os Di's, estes sero
comparados com um certo Do , ou seja, o valor situado, ao longo da linha expressa pela
funo discriminante, a meio caminho
entre os centros dos grupos, com a finalidade de verificar a qual deles os indivduos pertencem.
Como salientado por Davis (1986), os mtodos multivariados so poderosos,
permitindo o pesquisador manipular diversas variveis simultaneamente. So, porm, bastante
complexos, tanto na sua estrutura terica como na metodologia operacional. Em alguns casos
os testes estatsticos a serem utilizados exigem requisitos muito rgidos e em outros, muitas
vezes quando quer relacion-los com problemas reais, no apresentam base estatstica terica
e desse modo impossibilidade de testes de significncia. De qualquer modo, so mtodos
extremamente promissores para a anlise de dados geolgicos tendo em vista que
normalmente a maioria das situaes geolgicas envolvem um conjunto complexo de fatores
atuando no sistema, sendo impossvel isol-los e estud-los isoladamente.
Exemplos de situaes que apresentam dados multivariados so comuns em Geologia,
como: anlises geoqumicas de elementos maiores e/ou elementos traos; caracteres
morfolgicos medidos em fsseis; caractersticas fsicas de rochas sedimentares, como
distribuio granulomtrica, porosidade, permeabilidade; contedo mineralgico em rochas;
variveis fluviais, como descarga, material em suspenso, profundidade, slido dissolvidos, pH
e contedo em oxignio, etc.. Em alguns casos trata-se de simples extenso de problemas
ligados estatstica univariada e outros pertencem, porm, a uma nova classe de problemas.

As principais questes a serem enfrentadas por esse tipo de anlise so as seguintes, segundo
Pisani (1969):
1. problemas de dependncia, quando so utilizados, por exemplo, anlise de regresso
mltipla e correlao cannica;
2. problemas de inferncia, quando so utilizados extenses multivariadas de mtodos
estatsticos univariados, como o teste T de Hotelling ou a anlise generalizada de varincia;
3. problemas de reduo e escala, quando so utilizados anlise das componentes principais,
anlise dos fatores, distncia generalizada D de Mahalanobis, etc.;
4. problemas de discriminao e classificao, quando so utilizados funes discriminantes e
as diversas tcnicas de anlise de agrupamentos.
A utilidade dos mtodos multivariados pode ser apresentada em termos geomtricos.
Assim, observaes univariadas podem ser assinaladas sobre uma linha reta e se essa linha
for dividida em intervalos de classes e contando o nmero de observaes em cada intervalo,
um histograma poder ser construdo. Esse histograma ir requerer duas dimenses para a
sua representao. Observaes bivariadas podem ser assinaladas em um sistema de
disperso a duas dimenses. Se o diagrama for dividido em celas, o nmero de observaes
em cada cela pode ser contado e o respectivo histograma construdo. Esse histograma requer
trs dimenses e pode ser representado por um mapa de isovalores. Observaes trivariadas
podem ser assinalados em um grfico de disperso a trs dimenses e a configurao nos
pontos no espao definir uma elipside. Se o espao tri-dimensional for dividido em cubos os
nmeros de observaes dentro de cada figura geomtrica podero ser contados e obtida a
distribuio de freqncias. Para a construo do respectivo histograma quatro dimenses
sero necessrias. Em observaes com quatro ou mais variveis no possvel a
representao grfica segundo os mtodos comuns, embora Mertie (1949) tenha proposto
para tanto complicados hipertetraedros.
Utilizando, assim, a interpretao geomtrica em trs dimenses para observaes
trivariadas, os seguintes exemplos de procedimentos em estatstica multidimensional podem
ser apresentados:
a) na regresso mltipla calcula-se um plano para uma regresso linear, ou superfcies curvas
para regresses de ordem maior, que so ajustados s observaes a fim de minimizar a
soma das distncias ao quadrado dos pontos no espao medidos perpendicularmente em
relao a essas superfcies;.
b) na anlise de varincia generalizada verificado se dois ou mais elipsides tem o mesmo
centro;
c) na anlise discriminante localiza-se os centros dos elipsides e calcula-se a distncia entre
pares de centros de elipsides;

d) na anlise fatorial verificado se as observaes multivariadas ocupam um nmero de


dimenses igual ao nmero de variveis medidas inicialmente ou se podem estar contidas
em um nmero menor de

dimenses;

para tanto os eixos do elipside podem ser

rotados de tal modo a colocar o centro do elipside coincidente com o centro do sistema de
coordenadas.

Entre os principais livros textos que tratam desse assunto podem ser citados: Miller &
Kahn (1962), Sokal & Sneath (1963) Krumbein & Graybill (1965), Harbaugh & Merriam
(1968), Koch & Link (1971), Davis (1973 e 1986), Joreskog, Klovan & Reyment (1976) , Le
Maitre (1982) e Howarth e Siding-Larsen (1983), Griffith & Amrhein (1997), Reyment &
Savazzi (1999).
Existem tambem diversos pacotes estatsticos de aplicao geral, bem elaborados e
completos, como SAS, S-Plus, Statistica, Systat, todos em constantes atualizaes. Um
outro, no to conhecido, mas bastante fcil de ser usado e com boa saida grfica, o MVSP.
Um pacote dedicado a anlise de dados geolgicos o Geoquant.

Alem disso na revista Computers & Geosciences, editada pelo International


Association for Mathematical Geology, frequentemente so apresentados programas listados
e/ou executaveis obtidos por ftp (www.iamg.org/CGEditor/index.htm).

BIBLIOGRAFIA
DAVIS, J.C. (1973) - Statistics and Data Analysis in Geology:John Wiley and Sons, Inc.
DAVIS, J.C (1986) - Statistics and Data Analysis in Geology: 2th ed., John Wiley and Sons, Inc.
GEOQUANT (1990) Companhia de Pesquisa de Recursos Minerais, verso 3.0
HARBAUGH, J.W. & MERRIAM, D.F. (1968) - Computer applications in Stratigraphic Analysis:
John Wiley & Sons, Inc.
HOWARTH, R.J. & SINDING-LARSEN, R. - Multivariate analysis - in: Statistics and Data
Analysis in Geochemical Prospecting, vol. 2, Elsevier, P.207-289.
JORESKOG, K.G., KLOVAN, J.E. & REYMENT, R.A. (1976) - Geological factor analysis:
Elsevier.
KENDALL, M.G. (1963) - Discrimination and Classification: C.E.I.R. Ltda.
KOCH JR, G.S. & LINK, .F. (1971) - Statistical analysis of geological data: vol. 2, John Wiley &
Sons., Inc.

KRUMBEIN, W.C. & GRAYBILL, F.A. (1965) - An introduciton to Statistical Model in Geology:
McGraw Hill Book, Co.
LE MAITRE, R.W. (1982) - Numerical Petrology. Statistical Interpretation of Geochemical Data:
Elsevier.
MERTIE JR, J.B. (1949) - Charting five and six variables on the bounding tetrahedra of
hypertetrahedra: Am. Mineralogist, 34:706-716.
MILLER, R.L. & KAHN, J.S. (1962) - Statistical analysis in the geological sciences: John Wiley
and Sons.
MVSP Plus (1998) Kovach Computing Services, verso 3.0
PISANI, J.F. (1969) - Anlise estatstica multidimensional em Biologia: Cincia e Cultura,
21(3):619-631.
SAS SAS Institute, Inc.
SOKAL, R.R. & SNEATH, P.H.A. (1963) - Principles of numerical taxonomy: W.H. Freeman and
Co.
S-PLUS (1997) Mathsoft, verso 4.0
STATISTICA for Windows (2000) StatSoft Inc.,, verso 5.5
SYSTAT for Windows (1997) SPSS Inc., verso 7.0

2. EXTENSES MULTIVARIADAS DE TESTES UNIVARIADOS


Entre os mtodos da estatstica descritiva univariada dois testes se
destacam: o teste t e a anlise de varincia. O primeiro procura verificar
hipteses referentes mdia populacional e o segundo de aplicao bem mais
ampla, procura dividir a variao total existente num conjunto de dados de
acordo com as diversas fontes de variao presentes. Tais mtodos so casos
particulares daqueles pertencentes estatstica multidimensional. Entre eles
podem ser exemplificados o teste T 2 de Hotteling e a anlise generalizada
de varincias. No tem grande utilidade em problemas geolgicos, existindo
outros mtodos mais eficientes, mas so aqui apresentados apenas com o
intuto de demonstrar as relaes entre testes univariados, comumente usados,
e testes multivariados.
2.1. Teste T de Hotteling
2.1.1.Verificar se uma amostra multidimensional pertence a uma determinada
populao multidimensional.
Seja, por exemplo, um conjunto de observaes nas quais foram obtidas
independentemente as medidas X e Y e se deseja saber se x e y so
significativamente diferentes de um par de valores populacionais hipotticos x
e y. Se apenas a varivel X for enfocada o teste recomendado o "t" de
Student, que verifica a probabilidade de uma amostra casual com n
observaes ser retirada de uma populao normal com mdia especificada
x e varincia desconhecida 2 :
t=

(x x ) n
sx2

onde s a varincia da amostra de tamanho n de onde x foi obtida. Se t t (n 1,), x

ser considerado significantemente diferente de x ao nvel .


Escolhido, por exemplo, = 0,05 isso significa que se a verdadeira

mdia da populao de X's for igual a x a chance de ocorrer t > ( n 1, ) uma


em 20. Aplicando o mesmo teste para a varivel Y, com o mesmo risco de
estar recusando a hiptese nula quando ela verdadeira, a probabilidade de
ambas X e Y no serem significantemente diferentes de x e y (0,95) =
8

0,9025. A probabilidade de ambas as mdias serem significantemente


diferentes de x e y (0,05) = 0,0025. A probabilidade de apenas uma das
mdias ser significantemente diferente (2) (0,95) (0,05) = 0,0950. Assim a
probabilidade de apenas uma das mdias ser significativamente diferente (2)
(0,95) (0,05) = 0,9050. Assim a probabilidade de que pelo menos uma mdia
ser considerada como significativamente diferente, quando na realidade no
existe diferena, 0,0975. No caso de um problema a trs variveis, esta
ltima probabilidade passa a ser 1-(0,95) = 0,1426.
Esta situao, apresentada por Jackson (1959), mostra que o uso de
testes univariados para situaes multivariadas pode fornecer pelo menos uma
diferena significante, apenas por chance, em 50% ou mais de casos. H
necessidade,

portanto,

de

um

teste

generalizado

que

verifique

simultaneamente se dadas diversas amostras, qual a possibilidade delas serem


significantemente

diferentes

de

mdias

hipotticas

correspondentes

fornecidas.
Para a generalizao multivariada do teste "t", na situao apresentada,
substitui-se X por um menor vetor de mdias amostrais, x por um vetor de
mdias populacionais e s por uma matriz de varincias-covarincias.

[ x] [ x ] n

[s ]
2

[x x ]

[s ]
2

A soluo desta equao no fornece uma nica resposta e para tanto


haver necessidade de transformar inicialmente a coluna vetor [ x x ] e a

[ ]

matriz s 2 em valores singulares.


Isso pode ser conseguido se definido um vetor coluna arbitrrio [ A] cujo
transposto o vetor linha [ A] . Multiplicando o vetor coluna de diferenas pelo
l

[ ]

vetor linha [ A] o resultado ser um valor singular. A multiplicao de s 2 por


l

[ A]

e em seguida o resultado por [ A] tambm fornece um nico resultado.


l

Desse modo o teste torna-se

[ A]' [ x x ] n
[ A] [ s2 ] [ A]'

([ A]' [x ] ) n
2

t2

[ A] [ s 2 ] [ A]'

Todavia, com essa transformao, o que estava sendo testado foi


modificado. A hiptese nula que era
H o = [ x ] = [ o ], passa a ser Ho' = [ A] [ x ] = [ A] [ o ],

A hiptese original Ho ser verdadeira somente se a nova hiptese Ho' se


mantiver para todos os possveis valores de [ A] . suficiente, porm, testar
apenas o valor mximo possvel do teste, porque se Ho' for rejeitado para
qualquer valor de [ A] , a hiptese Ho ser tambm rejeitada.
Para determinar esse valor mximo deve-se essencialmente notar que t
no tem dimenso e no afetado por mudanas de escala dos elementos de

[ A] .

Segundo Morrison (1967), essa determinao pode ser removida pela

imposio de restrio:

[ A]i [ s 2 ] [ A] = 1
A introduo da restrio pelo multiplicador de Lagrange e
subsequente diferenciao com respeito [ A] fornece o sistema de equaes:

][

[ ] [ A] = 0

x x l n s2
x
x

multiplicando por A ':

[ A]' [ x x ][ x x ]' [ A]n


=
[ A]' [ s2 ] [ A]

([ A]' [x ])
x

[ A]' [ s2 ] [ A]

o que resulta: = t 2
Para a determinao de t, ou seja o mximo valor possvel, deve-se
encontrar o determinante

10

[ ]

s2

[ x ][ x ]' n [ I ] = 0

[ ] [x ][x ]' n

= tr s2

tr = trao de matriz que igual a soma das razes caractersticas

[ ]

T 2 = n [x x ]' s2

[x x ]

Essa expresso conhecida como teste T de Hotteling, em


homenagem ao estatstico que a formulou.
Quando a hiptese nula verdadeira, a quantidade
F=

n m 2
T , apresenta uma distribuio F com graus de liberdade m e
m( n 1)

n - m, onde n o nmero de amostras e m o nmero de


variveis.
Aceita-se Ho : o , , quando
T 2 <.F( , m , n m )

Exemplo:

Os dados foram retirados do trabalho de Gomes et al. (1975) sobre a


geoqumica de corpos granticos da regio do Ribeira, utilizando-se apenas 40
anlises qumicas obtidas do macio de Itaca, Vale do Ribeira (SP). Cada
uma dessas anlises exibe valores percentuais de de SiO2 , TiO2 , Al2O3 ,
Fe2O3 , FeO, MnO, MgO, CaO, Na2O, K2O e P205. O macio de Itaoca,
aflorando ao sul da cidade de Apiai, possui forma irregular, levemente ovalada,
e contatos tanto concordantes como discordantes com a estrutura regional,
achando-se inteiramente encaixado em metassedimentos do Grupo Aungui.
Do ponto de vista textural, as amostras estudadas so

porfirides, com

desenvolvimento de cristais centimtricas de feldspato alcalino em meio a uma


matriz

fanertica granular de dimenses submilimtrica milimtrica. Sua

mineralogia marcada
quartzo

feldspato

pela

dominncia total dos componentes alcalinos,

aparecendo

biotita

como

principal

composto

ferromagnsiano

11

SiO2 TiO2

Al2O3 Fe2O FeO

MnO MgO CaO

Na2O K2O

P205

0.07
0.02
0.19
0.08
0.05
0.07
0.10
0.03
0.05
0.08
0.11
0.05
0.07
0.06
0.06
0.07
0.07
0.01
0.09
0.07
0.09
0.04
0.08
0.07
0.07
0.09
0.07
0.06
0.05
0.06
0.08
0.06
0.06
0.06
0.07
0.09
0.08

5.34
5.34
5.72
5.72
5.01
5.01
5.34
5.01
5.34
4.04
4.85
4.85
4.85
4.85
4.85
4.85
5.12
4.72
4.45
4.58
4.85
4.58
4.31
4.31
4.58
1.35
4.58
4.31
4.31
4.31
3.24
4.31
4.30
4.31
4.58
4.36
4.30

0.26
0.07
0.13
0.16
0.16
0.32
0.30
0.05
0.27
0.14
0.16
0.22
0.33
0.28
0.30
0.29
0.17
0.03
0.24
0.32
0.29
0.12
0.31
0.36
0.37
0.31
0.30
0.37
0.29
0.21
0.15
0.29
0.26
0.31
0.32
0.38
0.39

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
25
26
27
28
29
30
32
33
34
35
36
37
38
39

67.58
72.77
68.64
69.87
71.42
66.02
66.20
72.75
65.80
70.03
69.71
67.45
66.31
65.78
65.84
64.43
69.57
72.33
70.73
64.17
64.57
69.75
65.10
65.29
66.84
66.93
67.33
64.93
66.23
68.33
72.15
66.79
65.78
66.08
64.50
65.87
63.72

0.58
0.20
0.40
0.45
0.39
0.60
0.67
0.22
0.65
0.38
0.50
0.53
0.69
0.67
0.67
0.73
0.40
0.49
0.50
0.87
0.77
0.37
0.67
0.66
0.66
0.78
0.61
0.85
0.62
0.44
0.24
0.60
0.57
0.59
0.79
0.71
0.74

12.65
12.96
13.33
13.36
12.23
13.62
12.99
12.72
13.95
12.83
13.00
13.67
14.23
14.21
12.89
13.97
13.18
14.06
12.77
13.81
13.92
12.83
14.30
14.18
13.40
13.51
13.14
14.20
13.57
12.98
11.96
13.73
14.45
14.15
13.80
13.50
13.91

0.15
0.01
0.65
0.90
0.01
0.97
1.21
0.17
0.33
0.43
0.06
0.37
0.13
0.19
0.75
0.18
0.30
0.62
0.33
0.98
1.33
1.69
0.88
1.09
0.62
0.47
1.15
1.91
1.08
0.77
0.96
1.14
1.91
1.61
1.08
2.01
1.97

3.62
2.30
2.98
2.03
3.06
3.35
3.08
2.53
3.76
3.81
3.18
3.59
3.39
3.49
3.53
4.22
2.67
0.99
2.49
4.11
3.35
2.98
3.71
3.61
3.36
5.45
2.88
3.72
3.49
2.78
1.81
2.63
2.82
3.14
4.03
2.73
3.48

1.28
0.30
0.77
0.81
0.82
1.10
1.10
0.37
1.08
0.73
0.90
0.95
1.29
1.36
1.43
1.32
1.09
0.18
0.90
1.48
1.46
0.66
1.35
1.11
1.33
1.47
1.39
0.85
1.17
0.95
0.52
1.32
0.91
1.12
1.39
1.49
1.50

2.14
0.77
1.11
0.80
1.53
2.89
2.76
1.13
2.67
1.59
2.14
2.62
3.02
2.87
3.11
3.02
1.71
0.22
1.80
3.26
3.04
1.39
2.83
3.07
2.67
2.71
2.47
2.47
2.86
2.34
5.20
2.72
2.58
2.92
3.17
3.26
3.22

4.9 9
4.55
4.70
4.96
3.48
5.00
4.97
4.34
4.96
5.04
4.54
4.63
4.48
5.06
4.81
4.88
4.91
5.22
4.74
4.85
4.51
4.68
4.85
4.85
4.64
5.13
4.87
4.85
4.84
4.77
2.71
5.22
5.10
4.46
4.96
4.39
4.89

12

40
41
42
52

75.37
67.66
65.72
67.43

0.09
0.63
0.63
0.54

12.13
13.07
13.71
13.54

0.18
0.68
1.23
1.44

2.16
3.62
3.35
2.11

0.01
0.05
0.05
0.06

0.09
1.27
1.01
1.15

0.54
2.56
3.09
2.68

4.04
4.58
4.85
5.12

4.62
4.41
4.64
4.48

0.02
0.29
0.36
0.24

Tabela 2.1. - Composio qumica do macio grantico de Itaca.

A anlise dos dados normativos indica uma composio grantica para o


macio, conquanto a totalidade das amostras esteja colocada prxima ao
campo de transio

granito-granodiarito. Comparando qualitativamente os

valores mdios dessas anlises com valores mdios obtidos por Nockolds
(1954) para rochas granticas adamelliticas e granodiorticas mundiais, os
autores

citados

concluiram

por

uma

composio

prxima

rochas

adamelliticas, com diferena em relao Na2O, ligeiramente superior quela


referida pelo citado Autor.
De um estudo feito por Landim et al. (1974), aplicando anlise de
agrupamentos a essas 40 anlises qumicas, constatou-se a existncia de dois
conjuntos diferenciados: um composto por 13 anlises

provenientes

preferencialmente do interior do macio (amostras de nmeros 1, 4, 9, 10, 11,


12, 13, 14, 15, 16, 17, 19, e 32)

e outro, com um total de 19 anlises

distribudas pelo restante do corpo (amostras de nmeros 6, 7, 20, 21, 23, 25,
26, 28, 29, 30, 34, 35, 36, 37, 38, 39, 41, 42 e 52). Quanto s amostras de
nmeros 2, 3, 5, 8, 18, 22, 27, 33 e 40 no se encaixam em nenhum desses
dos grupos.
Tendo como hiptese que a populao multidimensional seria os valores
mdios obtidos por Nockolds (1954) para rochas adamelliticas (Tabela 3.2.),
procurou-se aplicar o teste T' para verificar se a amostra multidimensional,
constituda pelo conjunto de 13 anlises, pertenceria a essa populao. De
modo idntico testou-se a amostra composta pelas 19 anlises.
SiO2

TiO2

Fe2O3 FeO

MnO

MgO

CaO

Na2O K2O

P205

0,06

0,99

2,45

3,35

0,20

Al2O3
69,15 0,56

14,63 1,22

2,27

4,58

13

Tabela

2.2.

Composio

qumica

mdia

de

adamellitos

(Nockolds,1954).
a) F1=

n m 2 13 11
T =
4028.71 = 61.04
m(n 1)
11(12)

para m = 12 g.l. e ( n - m = 1 )g.l., o valor de F tabelado


F(0.05;12,1) = 243.91

Desse modo como o valor de F1 calculado menor que o tabelado devese aceitar Ho ao nvel de 95%. Isso significa que essa amostra pode ser
considerada como proveniente de uma populao

com composio

adameltica.
b) Fo = [(19 11) / 11 * 18]2367.01 = 95.67
F( 0.05;12.7 ) = 3.5747

Como o valor de F2 calculado maior que o F tabelado, para graus de


liberdade 12 e 17 e nvel de significncia de 0.05, deve-se rejeitar Ho, o que
significa que essa amostra no pode ser considerada como proveniente de
uma populao com composio adameltica.

2.1.2. Comparar dois vetores de mdias amostrais.


Tendo sido visto o caso de uma nica amostra multidimensional
comparada com um

especfico vetor de mdias populacionais, uma outra

situao seria a comparao entre duas mdias


populacionais, multidimensionais. Presume-se que as duas amostras tenham
sido retiradas de populaes multi-normais, possuindo ambas a mesma matriz
desconhecida de varincias-covarincias [2].
Deseja-se, portanto, testar a hiptese nula
Ho : [ 1 ] = [ 2 ]

Contra a alternativa
H1 : [ 1 ] [ 2 ]

14

Para o caso unidimensional usa-se o teste "t" para duas amostras:


t=

x1 x2
sp 1 / n1 ) + ( 1 / n2 )

onde sp a estimativa dos desvios padres combinados de duas populaes,


baseada em ambas as amostras
Sp 2 =

( n1 1 )s12 + ( n2 1 )s22
n1 + n2 2

No caso multidimensional, inicialmente computa-se para o clculo da

[ ]

estimativa combinada S p2 , a matriz de varincias e covarincias de duas


amostras multidimensionais, utilizando a soma de quadrados e

produtos

cruzados das m variveis de ambas as amostras.

[Sp ] = n + n1 2 ( [ S ] + [ S ] )
2

SQX 1
SPX X
1 2
S1 =

SPX 1 X m

SPX 1 X 1
SQX 22
SPX 2 X m

L SPX 1 X m
L SPX 1 X m

2
L SQX m

onde

SQX 12

na

x1i
i 1
na 2
x1i
i

=1
n1

=
n 1

SPX 1 X 2

na

na

x1i x 2i
n

i 1
a ( x . x ) i 1
i =1 1i 2i

n1

=
n 1

Em seguida encontra-se a diferena entre os dois vetores de mdias

[ x1 ] [ x2 ] = [ x1 x2 ] .
O teste T para o presente caso ter a forma

15

T2 =

[ ]

n1n2
x1 x2 ]' . Sp 2
[
n1 + n2

[ x1 x2 ]

A significncia de T ser determinada por


F=

n1 + n2 m 1 2
T , com m e (n1 + n2 m 1) graus de liberdade.
( n1 + n2 2 )m

Aceita-se H o : 1 = 2 se
T 2 F( ;m;n1 + n 2 m 1)

Exemplo:

O teste T2 tambm pode ser aplicado quando se dispe de duas


amostras casuais

independentes, retiradas, por suposio, de populaes

normais multivariadas e tendo ambas a

mesma matriz desconhecida de

varincias e covarincias, e se deseja testar a igualdade entre seus vetores de


mdia.
Ho

:[ 1 ] =

[ 2 ]

H1 :

[ 1]

[2 ]

contra

Para este exemplo foram utilizadas as mesmas duas amostras


provenientes do estudo

geoqumico do macio de Itaoca: a primeira,

constituda por 13 anlises qumicas e a segunda, por 19 anlises qumicas.


Em ambas as variveis so as mesmas, ou seja porcentagens de 11 xidos.

n + n m 1 2 13 + 19 11 1
F= 1 2
T =
1417.59 = 85.91
(n1 + n2 2)m
(13 + 19 2)11
F tabelado, para um nvel de significncia de 0.05%
liberdade 12(m) e 19

(n n

1 2

e graus de

m 1) , igual a 2.27. Desse modo como F

calculado maior que F tabelado rejeita-se a hiptese nula de que os dois


vetores de mdias das duas amostras consideradas sejam iguais. Isso j era
esperado tendo em vista os resultados do exemplo 3.1.1. onde a primeira
amostra revelou ter caractersticas de uma rocha adamellitica e a segunda no.

16

2.2. Anlise generalizada de varincias, para a comparao entre matrizes


de varincias-covarincias.
A igualdade de matrizes de covarincias, pode ser verificada pelo teste
generalizado de varincias, que o equivalente multivariado do teste F. Tendo
"k" grupos de observaes e sendo medidas "m" variveis em cada espcime,

[ ]

matrizes de varincias-covarincias si2 podem ser obtidas.


Sendo as respectivas matrizes de varincias-covarincias populacional
i2 deseja-se testar a hiptese nula

[ ] [ ]

[ ]

Ho : i2 = 22 = L = 2k

Contra a hiptese alternativa

[ ] [ ]

H1 : i2 2k

A hiptese nula estabelece que as "k" matrizes de covarincias


populacionais so as mesmas, contra a alternativa de que pelo menos duas
so diferentes. Cada matriz amostral

[s ]
2
i

uma estimativa da matriz

populacional i2 . Se as populaes a que pertencem os "k" grupos so


idnticas, as estimativas amostrais podem ser combinadas para formar uma
estimativa combinada da matriz de covarincia populacional.

[sp ] =

i =1

[ ]

( ni 1 ) si2
k

ni k

( i =1 )

onde ni o nmero de espcimes no i'simo grupo e ni

o nmero total

geral de todos os espcimes em todos os grupos.


Para a estimao combinada da matriz populacional de covarincias, o
teste estatstico M o computado
M

] [ ]

[ ]]

= ( n i ) - k l n sp 2 (ni 1)l n si2

Este teste baseia-se na diferena entre o logaritmo do determinante da


matriz combinada de covarincias e a mdia dos logaritmos dos determinantes
das matrizes amostrais de covarincias. Se todas as matrizes amostrais forem
a mesma, essa diferena ser bem pequena. Caso as varincias

covarincias dos grupos forem muito diferentes entre si o valor de M

17

aumentar. Como tabelas de

valores crticos de M no so facilmente

encontradas, utiliza-se a transformao:

2m + 3m 1
1
1
C 1 = 1
k

6(m + 1)( k 1) i =1 ni 1
n k
i =1 i

que converte M numa distribuio prxima a do


2

MC 1

Este valor aproximado de tem graus de liberdade = ( 1 / 2 )( k - 1 )m(


m + 1 ).
Se todos os grupos possuem o mesmo nmero de observaes n, a
transformao simplificada para
C

= 1

( 2m2 + 3m 1) ( k + 1)
6( m + 1) k ( n 1)

O valor deve ser usado apenas quando k e m no excedem 5 e cada


matriz estimada de covarincias baseada em pelo menos 20 observaes.

Exemplo:

Para a aplicao do teste anterior, uma das suposies era a de que as


amostras tivessem sido retiradas de populaes com a mesma matriz de
varincias e covarincias. Tal igualdade de matrizes de varincias e
covarincias pode ser verificadas pela aplicao do teste das varincias
generalizadas, que o teste multivariado equivalente ao teste F.
Usando as mesmas amostras do teste anterior o resultado passa a ser:
Teste M = 180.874847 ; Transformao C-1 = 0.437108
Critrio de Anderson corrigido: 101.812957%

18

Como esta estatstica tem distribuio prxima a do chi-quadrado, com


78 graus de liberdade, comparou-se o valor calculado com valores crticos de
uma tabela de .
Para altos valores de graus de liberdade a seguinte frmula aproximada
para o clculo de pode ser usada
2

= n(1 92n + z 92n )

(20 ,01 ) = 78 1 9 *278 + 2.326( 2 / 9 * 78) = 109 ,92


3

(20.01:78) = 109 ,97

Como o valor crtico, para um nvel de significncia 0.01, maior que o


calculado, aceita-se a hiptese nula, ou seja, ambas as amostras provm de
populaes com a mesma matriz de varincias e covarincias.

19

BIBLIOGRAFIA
GOMES, C.B; BERENHOLC, M.; HYPLITO, R. & ARRUDA, J.R. (1975) Geoqumica de macios granticos da Regio do Ribeira, Parte 1: elementos
principais: An. Acad. Bra.s Cinc., 47:113-130.
JACKSON, J.E. (1959) - Some multivariate statistical tecniques used in color matching
data: Jour. Opt. Soc. America, 49:485-592.
LANDIM, P.M.B.; GOMES, C.B.; ARRUDA, J.R. & FULFARO, V.J. (1979) - Anlise de
agrupamentos (cluster analysis) aplicada ao estudo geoqumico do granito Itaca,
regio da Ribeira: An. XXVIII Congr. Bras. Geologia, 7:161-168.
MORRISON, D.F. (1967) - Multivariate statistical methods: McGraw-Hill, Inc.
NOCKOLDS, S.R. (1954) - Average chemical compositon of some igneous rocks:
Geol. Soc. Am. Bull., 65:1007-1032.

20

3. REGRESSO MLTIPLA
As relaes entre duas variveis "X", considerada independente, e "Y",
considerada dependente, pode ser representada num diagrama de disperso,
com os valores yi em ordenada e os xi em abcissa. Cada par de valores xi e yi
fornecer um ponto e utilizando-se, por exemplo, o mtodo dos desvios
mnimos ao quadrado, pode-se calcular a equao de uma curva de tendncia
que melhor se ajuste nuvem de distribuio. O mtodo mais simples que
pode ser adotado o da anlise de regresso linear simples que fornece a
equao de uma reta:
y = + x + , onde e so constantes desconhecidas a serem
i
i
i

determinadas e i representa toda a fonte de variabilidade em Y no explicada


por X. Operacionalmente neste caso encontra-se a equao da reta para a
previso dos valores yi :
y = a + bx , onde a e b so os coeficientes que determinam a interseco

e a inclinao da linha de tendncia.


No raro, porm, que o termo i seja numericamente mais importante
que a explicao motivada pela varivel X, significando que outras variveis
devem ser incorporadas ao modelo a fim de explicar o comportamento de Y. O
modelo exige ento uma "anlise de regresso mltipla linear.
A regresso mltipla usada, portanto, para testar dependncias
cumulativas de uma nica varivel dependente em relao diversas variveis
independentes. Cada varivel isolada e mantida constante enquanto as
variveis restantes variam sistematicamente, sendo observados os seus efeitos
sobre a varivel dependente. A varivel a ser inicialmente mantida constante
aquela que ocasiona a maior influncia na variabilidade da varivel
dependente.
O modelo geral representado por
yi = o + 1x1i + L + mxmi + i

A condio inicial, como na regresso linear simples, descrita por

21

y = a o + a1 x1 + e1 , onde xi a varivel independente, responsvel pela

maior variabilidade, ao

e a1 so os coeficientes e e1 o erro, isto , a

variabilidade em Y no explicada pela relao linear. A varivel que, em


seguida, mais reduz a variabilidade do erro em seqncia adicionada de tal
modo que
y = bo + b1x1 + b2 x2 + e2 , sendo bo , b1 e b2 calculados e e2 < e1 . O processo

segue por etapas at que o comportamento de todas as variveis


independentes em relao dependente seja verificado. Os coeficiente bi so
conhecidos como parciais de regresso porque cada um deles fornece a taxa
de mudana na varivel dependente correspondente respectiva varivel
independente, mantendo constantes as demais variveis independentes.
A equao que representa a relao linear entre uma varivel
dependente (yi) e uma nica varivel independente (xi) :
Yi = a o + a1 xi

As equaes normais que fornecem os valores de ao e a1 so:


y a n + a x2
i
o
1
i

(1)

xi yi + a o xi + a1 xi2

(2)

As equaes ( 1 ) e ( 2 ) constituem um par de equaes normais a duas


incgnitas, as quais podem ser resolvidas para a obteno dos coeficientes,
por clculo matricial, segundo:
[ X ] [ A] [ Y ]
XA = Y

Multiplicando ambos os termos da equao pelo inverso de [X], isto ,


[ X ]1:

[ X ]1 .[ X ] .[ A] = [ X ]1 Y

Como [ X ]1 .[ X ] = [ I ] (matriz de identidade)


e [ I ] .[ A] = [ A]
[ A] .[ X ]1 = [ Y ]

Por extenso, a anlise de regresso mltipla linear de quaisquer m


variveis independentes sobre uma varivel dependente, sendo expressa por:
Yi = a o + a1 X 1i + a 2 X 2i +L+ a m X mi ,

pode ser resolvida segundo:

22

x1i
x12i
x 2 x1

n
x
1i

x2

M
x mi

x mi x1

L x mi
L x1i x mi
L x2 xm

2
L x mi

[X]

ao
a
1
a2


a m
[ A]

yi
x y
1i i

x 2i yi

x mi yi
[Y ]

[ A ] = [ X ] 1 [ Y ]

Uma das mais importantes aplicaes da anlise de regresso mltipla


a escolha, entre diversas variveis independentes, daquelas mais teis na
previso de Y.
A varincia total de Y em parte "explicada" pelas diversas variveis X's
e o restante pela variabilidade devido ao erro ( 1 ). claro que o termo
"explicada"

tem

apenas

um

significado

numrico

no

implicando

necessariamente em um conhecimento causa-efeito sobre o porque da relao


existente.
Os tamanhos relativos dessas duas componentes de varincia so
obviamente de grande interesse quando da aplicao da anlise de regresso
mltipla. A proporo da varincia dos Y observados "explicada" por uma
equao

de

regresso

ajustada

representada

pelo

coeficiente

de

determinao R.
s2
~
&
de regressao)
y*
( varincia de Y explicada pela analise
2
R =
=
$
(variancia total)
s2
y

Valores de R2 iro dispor-se no intervalo 0-1, fornecendo uma medida


dimensional de quantidade do ajuste do modelo de regresso mltipla aos
dados. Se o valor de R

for prximo de 1 isso significa que as diversas

variveis X's medidas so responsveis quase que totalmente pela


variabilidade de Y. Caso contrrio, R apresentar um valor prximo a zero.
Como os coeficientes de regresso so parciais devem ser obtidas as
porcentagens explicadas da soma de quadrados de Y segundo 2k 1
combinaes, onde k o nmero de variveis independentes. Finalmente

23

verifica-se a contribuio pura de cada varivel independente por comparaes


sucessivas entre os diversos resultados.
Outra maneira para a ordenao das variveis pela sua importncia na
previso da varivel dependente a padronizao dos coeficientes de
regresso parciais, convertendo-os em unidades de desvio padro, ( Bk ), (Li,
1964, p. 136):

Bk = bk

Sk
, onde bk = coeficiente de regresso parcial;
SY

Sk= desvio padro de Xk ; Sy= desvio padro de Y.


Pela comparao direta dos Bk

determinam-se as variveis mais

eficientes.
Embora a regresso mltipla seja multivariada no sentido de que mais
de uma varivel medida simultaneamente em cada observao, trata-se na
realidade de uma tcnica univariada, pois o estudo apenas em relao
variao da varivel dependente Y, sem que o comportamento das variveis
independentes, Xs, seja objeto de anlise.
Finalmente, alguns cuidados que se deve tomar quando da utilizao da
anlise de regresso:
a) as relaes entre as variveis devem ser lineares
b) evitar um nmero inferior de casos em relao ao nmero de variveis
consideradas; recomendado que tal relao seja da ordem de 10 a 20
vezes superior
c) evitar variveis independentes redundantes, isto , que tenham um alto
coeficiente de correlao entre si
d) verificar, utilizando resduos, a presena de valores anomalos

Exemplo:
Denise de La Corte Bacci, em sua tese de doutorado, procurou avaliar os

impactos ambientais gerados pela explorao mineral em uma pedreira de


diabsio na regio de Campinas/SP. Os principais objetivos foram quantificar
as vibraes no terreno, considerando os parmetros fsicos da rea; avaliar os
efeitos das vibraes nas construes civis prximas cava e a possibilidade
de danos; determinar o zoneamento dinmico da rea e os limites de
segurana

para

ocupao

pela

populao

local;

formular

equaes
24

matemticas que representassem o fenmeno vibratrio na rea de estudo;


conhecer a propagao das ondas no terreno e sua atenuao, considerando
os parmetros que interferem no seu comportamento.
Assim foram coletados dados, em diversos pontos nos arredores da
cava e distribuidos em relao s vrias frentes de lavra, com o auxlio de
ssmgrafos especficos relacionando os registros das velocidades de vibrao
da partculas no terreno com sua freqncia de oscilao.
O monitoramento foi realizado numa rea de 1 km de raio ao redor da
cava, com distribuio dos pontos nas direes principais de propagao das
ondas, medidos na parte posterior das bancadas. Foram determinadas quatro
direes preferenciais de propagao das vibraes: N24, N84 N111, N20,
respectivamente de acordo com as bancadas A, B, CD e E, e os pontos de
registro foram distribudos segundo uma malha homognea. No total foram
monitoradas 28 detonaes, com 146 registros.
O levantamento dos dados consistiu na obteno dos valores de
velocidade, acelerao e deslocamento da partcula e de sua freqncia
durante detonaes em rochas, com uso de explosivos. Na tabela 3.1. esto os
dados referentes frente B
__________________________________________________________________
SEN1

SEN2

VP

CARGA

DISTNCIA

SOLO

FREQNCIA

-------------------------------------------------------------------------------------------------------------0.0534 0.0333

6.59

160

568

27

85

-0.0302 0.0257

24.8

180

300

27

43

-0.0555 0.0317

16.9

180

395

24

51

0.0507 -0.0331

15.1

80

364

22

37

0.0078 0.0055

14.9

80

444

27

51

0.0505 -0.0246

9.79

80

485

28

85

0.0550 -0.0328

8.41

80

574

31

43

-0.0302 0.0257

9.78

92

294

27

43

0.0228 -0.0038

10.1

92

500

28

39

-0.0555 0.0317

4.25

80

584

24

57

-0.0420 0.0306

3.74

80

616

21

73

0.0228 -0.0038

8.99

74

384

29

43

-0.0298 0.0084

8.83

74

480

27

64

0.0228 -0.0038

2.16

74

668

15

47

0.0549 -0.0299

2.13

74

718

10

64

_____________________________________________________________________
Tabela 3.1.: Dados referentes frente B. Vp a varivel dependente e as demais
independentes

25

Utilisando-se da anlise de regresso mltipla procurou determinar a


importncia das variveis distncia (D), carga mxima por espera (Q), distncia
reduzida (SD), em conjunto com a direo e densidade do fraturamento,
profundidade do topo rochoso e espessura da camada de solo residual, e
freqncia de oscilao na componente vertical, na variao da velocidade de
vibrao da partcula, nas diferentes direes preferenciais de propagao da
onda ssmica.
As variveis definidas foram consideradas independentes, enquanto a
velocidade de propagao das ondas

(Vp) foi considerada dependente.

Procurou, desse modo, determinar a influncias das variveis independentes


no comportamento da varivel dependente.
Admitiu para a rea que, quanto maior a espessura da camada de solo,
menor seria o valor de Vp e menor a freqncia de oscilao, sendo maior a
atenuao da onda ssmica, pois a velocidade de propagao das ondas no
solo maior que na rocha, ocorrendo o inverso com relao freqncia de
oscilao.
Para direes de propagao das vibraes paralelas famlia principal
de fraturas, a atenuao da onda seria menor e, consequentemente, os valores
de Vp esperados seriam maiores, pois a onda ssmica, encontrando um menor
nmero de fraturas em sua trajetria, no sofre reflexes ou refraes,
diminuindo a disperso de energia e aumentando os efeitos de sua propagao
no terreno.
J para as direes de propagao perpendiculares ao fraturamento
principal, o esperado seria uma maior atenuao das ondas e valores menores
de Vp. Nesse caso, a disperso de energia seria maior devido presena das
fraturas.
No s a direo, mas tambm a densidade de fraturamento,
representada pelo maior ou menor espaamento entre as fraturas, interferiria
na atenuao das vibraes e foi tambem considerado no estudo. Um maior
espaamento entre as fraturas significa um menor nmero de descontinuidades
na trajetria da onda e consequentemente um valor de Vp esperado maior,
mostrando uma relao direta entre essas duas variveis consideradas.

26

Definiu o ngulo entre a direo principal de fraturamento e a direo de


registro de Vp, variando de 0 a 90 e refletindo a mnima e a mxima
interferncia das descontinuidades. Foram consideradas as duas principais
famlias

de

fraturas,

com

direes

leste-oeste

noroeste-sudeste,

respectivamente. A funo matemtica que melhor representaria essa relao


seria o seno, tendo sido, assim, adotado como uma das variveis analisadas.
Tomando apenas os dados referentes frente B, foi obtido o seguinte
resultado, tendo como procedimento de estimao

a anlise de regresso

passo-a-passo com remoo das variveis por ordem crescente de importncia


(stepwise backward).

Passo inicial, com todas as variveis independentes


R2 =0,842
Passo 1
varivel removida: SEN1
permanecem: SOLO, FREQNCIA, SEN2, CARGA, DISTNCIA
R2 = 0,842
Passo 2
varivel removida: SOLO
permanecem: FREQNCIA, SEN2, CARGA, DISTNCIA
R2 = 0,841
Passo 3
varivel removida: FREQUNCIA
permanecem: SEN2, CARGA E DISTNCIA
R2 = 0,836
Passo 4
varivel removida: SEN2
permanecem:CARGA, DISTNCIA
R2 = 0,776
Passo 5
varivel removida: CARGA
permanece: DISTNCIA
R2 = 0,666
Com estes resultados estabeleceu-se a seguinte ordem de importncia das
6 variveis independentes para explicar a variabilidade de Vp:

DISTNCIA: 66,6%
CARGA: 11,0% (0,776 0,666)
SEN2: 6% (0,836 0,776)
FREQUNCIA: 0,5% (0,841 0,836)
SOLO: 0,1% (0,842 0,841)
SEN1: 0% (0,842 0,842)

27

A anlise de regresso mltipla foi, desse modo, aplicada s quatro


frentes de detonao, obtendo a importncia relativa de cada varivel
independente na previso da varivel dependente.
Variveis independentes

% explicada de Vp
A

CD

Distncia

51,0

66,6

47,3

48,9

carga mxima por espera

11,7

11,0

19,3

0,2

Espessura da camada de solo

2,3

0,1

2,2

Freqncia de oscilao

4,9

6,0

5,3

9,6

seno 1

0,2

seno 2

6,0

0,1

8,6

69,9

84,2

72,0

69,7

total explicado pelas variveis (%)

Tabela 3.2.: Valores obtidos atravs da anlise de regresso mltipla para os


dados de detonao
Por meio dessa anlise foi possvel avaliar a interferncia das diversas
variveis nas vibraes geradas no terreno.
Analisando o peso de cada varivel independente, observou que a
distncia real entre o ponto de registro e a frente de detonao a que melhor
explicou a variao de Vp, uma vez que a atenuao das vibraes no terreno
proporcional ao aumento da distncia da fonte de emisso de energia
ssmica. Na figura 3.1. tal relao linear pode ser observada e tambem a
presena de alguns valores anmalos presentes, situados fora dos intervalos
de confiana de 95%.
A segunda varivel que mais explicou a variao de Vp foi a carga
mxima por espera, que a prpria fonte geradora de energia e, portanto,
diretamente relacionada s vibraes produzidas no terreno.
Notou ainda, que as demais variveis, segundo essa anlise,
apresentaram pequena interferncia nos valores de Vp, o que no era
esperado, e os

resultados obtidos mostraram que as variveis escolhidas

28

representaram bem a variao de Vp na rea estudada, explicando de 70 a 85


% o seu comportamento.

DISTANC vs. VP
VP = 28.811 - .0387 * DISTANC
Correlation: r = -.8164
28
24
20

VP

16
12
8
4
0
250

350

450

550

650

750

Regression
95% confid.

DISTANC

Figura 3.1.: Anlise de regresso linear entre Vp e Distncia

BIBLIOGRAFIA

LI, C.C. (1964) - Introduction to Experimental Statistics: McGraw Hill, Inc.

29

4. ANLISE DE AGRUPAMENTOS
4.1. Introduo
Anlise de agrupamentos (cluster analysis) um termo usado para
descrever diversas tcnicas numricas cujo propsito fundamental classificar
os valores de uma matriz de dados sob estudo em grupos discretos. A tcnica
classificatria multivariada da anlise de agrupamentos pode ser

utilizada

quando se deseja explorar as similaridades entre indivduos (modo Q) ou entre


variveis (modo R) definindo-os em grupos, considerando simultaneamente, no
primeiro caso, todas as variveis medidas em cada indivduo e, no segundo,
todos os indivduos nos quais foram feitas as mesmas mensuraes. Segundo
esse mtodo, desenvolvido, inicialmente em Zoologia por taxonomistas
numricos, procura-se por agrupamentos homogneos de itens representados
por pontos num espao n-dimensional em um nmero conveniente de grupos
relacionando-os

atravs

de

coeficientes

de

similaridades

ou

de

correspondncia.
A aplicao desta anlise controversa entre os pesquisadores, pois
pouco se sabe a respeito dos pressupostos estatsticos dos seu vrios mtodos
e apenas testes limitados so conhecidos para verificar a significncia dos
resultados. Na anlise introdutria de matrizes de dados tornam-se, porem,
bastante eficientes para auxiliar na formulao de hipteses a respeito da
homogeneidade ou no desses dados.

4.2. Classificao
Segundo Davis (1986) os diversos mtodos para a anlise de
agrupamentos podem ser enquadrados em quatro tipos gerais:
a) Mtodos de partio: procuram classificar regies no espao, definido em
funo de variveis, que sejam densamente ocupados em termos de
observaes daqueles com ocupao mais rala.

30

b) Mtodos com origem arbitrria: procuram classificar as observaes


segundo k conjuntos previamente definidos. Neste caso k pontos
arbitrrios serviro como centrides iniciais e as observaes iro se
agrupando, por similaridade, em torno desses centrides para formar
agrupamentos.
c) Mtodos por similaridade mtua: procuram agrupar observaes que tenham
uma similaridade comum com outras observaes. Inicialmente uma matriz n
x n de similaridades entre todos os pares da observao calculada. Em
seguida, as similaridades entre colunas so repetidamente recalculadas.
Colunas representando membros de um nico agrupamento tendero
apresentar intercorrelaes prximas a 1 e valores menores com no
membros.
d) Mtodos por agrupamentos hierrquicos: so as tcnicas mais comumente
usadas em Geologia. A partir da matriz inicial de dados obtem-se uma matriz
simetrica de similaridades e incia-se a deteco de pares de casos com a
mais alta similaridade, ou a mais baixa distncia. Para essa combinao,
segundo nveis hierrquicos de similaridade, escolhe-se entre os diversos
procedimentos aglomerativo de tal modo que cada ciclo de agrupamento
obedea a uma ordem sucessiva no sentido do decrscimo de similaridade.
4.2.1. Metodologia para agrupamentos hierrquicos
Partindo de uma matriz inicial de dados, onde "n" linhas representam
casos ou espcimes ou amostras, no sentido geolgico, e as "p" colunas as
variveis, feitas as comparaes, usando um coeficiente de similaridade
qualquer

entre linhas, obtm-se uma matriz inicial de coeficiente de

similaridade de tamanho

[ n * n] ,

que ser utilizada no modo Q. Se a

comparao for entre colunas, obter-se-a uma matriz inicial de coeficientes de


similaridade inicial

[ p * p] ,

que ser utilizada no modo R. Embora diversas

medidas de similaridade tenham sido propostas, somente duas so geralmente


usadas: coeficiente de correlao e coeficiente de distncia. Se as variveis
forem padronizadas a partir da matriz inicial de dados, dando o mesmo peso a
cada uma delas, qualquer um desses coeficientes poder ser diretamente
transformado no outro
31

Na matriz inicial de coeficientes de similaridade estes representam o


grau de semelhana entre pares de objetos e os mesmos devero ser
arranjados de acordo com os respectivos graus de similaridade de modo a
ficarem agrupados segundo uma disposio hierrquica. Os resultados quando
organizados em grfico, do tipo dendrograma, mostraro as relaes das
amostras agrupadas.
Vrias tcnicas de agrupamentos tem sido propostas, e os mtodos
mais comumente usados so:

ligao simples (single linkage method ou

nearest neighbor); ligao completa (complete linkage method ou farthest


neighbor); agrupamento pareado proporcionalmente ponderado" (weighted
pair-group method, WPGM); agrupamento pareado igualmente ponderado
(unweighted pair-group method, UPGM); varincia mnima

(minimum

variance clustering ou Wards method of sum-of-squares method).


No mtodo de ligao simples os grupos iniciais so determinados pelos
mais altos coeficientes de associao mtua. Para admisso de novos
membros aos grupos suficiente

encontrar quais os que representam os

maiores coeficientes de associao com um dos elementos de determinado


grupo. A ligao ser estabelecida a esse nvel de associao com todo o
grupo. No mtodo de ligao completa os gupos so determinados pelos mais
baixos coeficientes de associao mtua. Ambos so os mtodos mais
simples, mas tambem os que apresentam os resultados mais distorcidos.
No mtodo de agrupamento pareado procura-se tambm inicialmente
pelos mais altos coeficientes de associao mtua. Em seguida esses pares de
casos fornecero valores mdios originando um novo elemento singular. No
"mtodo de agrupamento pareado igualmente ponderado" para o clculo dos
valores mdios atribui-se sempre o mesmo peso aos dois elementos que esto
sendo integrados. No mtodo de agrupamento pareado

proporcionalmente

ponderado para cada agrupamento dado um peso proporcional ao nmero de


objetos que o constitui, de tal modo que a incorporao e um novo elemento a
um grupo baseia-se no nvel mdio de similaridade desse elemento com todos
os que fazem parte do grupo. Tanto num caso como no outro, alternativamente,
em vez de obter valores medios entre os casos podem ser utilizados centroides
e verificados as distncias entre os mesmos.

32

No mtodo de agrupamento pela varincia mnima o enfoque sobre a


variabilidade que existe dentro de cada caso e os agrupamentos so efetuados
ao se determinar que pares de casos, quando tomados em conjunto,
apresentam o menor acrescimo de variabilidade.
No mtodo de ligaes singulares as ligaes tendem a ocorrer a nveis
mais altos do que nos mtodos de agrupamento pareado. No mtodo de
agrupamento pareado igualmente ponderado como cada membro adicionado
ao agrupamento tem sempre o mesmo peso, isso traz como efeito que os
ltimos elementos a se integrarem tem maior influncia que os primeiros. No
caso do mtodo de agrupamento pareado proporcionalmente ponderado, tal
no acontece.
Existindo disposio diversas tcnicas para a anlise de agrupamentos
e no havendo testes estatsticos vlidos para os resultados obtidos, o
pesquisador geralmente fica em dvida sobre qual mtodo aplicar. Entendendo
que esta anlise sempre deve ser aplicada com carter introdutrio, e nesse
sentido tem o seu mrito, a considerao de ordem pragmtica a ser adotada
que o melhor mtodo aquele que fornece os resultados mais coerentes com a
realidade geolgica em estudo.
Aplicaes desta metodologia tem mostrado que os mtodos pareados
igualmente ponderado so superiores aos demais e que o coeficiente distncia
usualmente agrupa melhor espcimes ou amostras, no sentido geolgico,
enquanto o coeficiente de correlao recomentado para o agrupamento entre
variveis. Essas afirmaes so baseadas na correlao cofentica que ao
apresenrar valores abaixo de 0,8 indicam distores significativas no
dendrograma obtido.
O mtodo hierrquico tem sido preferido em relao ao que utilisa
centrides. Este porm mostra-se, em termos computacionais, mais til quando
se tem que manipular grandes matrizes de dados, por exemplo com mais de
1.000 casos. Como k geralmente pequeno, da ordem de 5 por exemplo,
mais rpido o manuseio de uma matriz de similaridade k x n do que uma com
dimenses n x n.

33

4.2.2. Dendrograma
A forma grfica usada para representar o resultado final dos diversos
agrupamentos

o dendrograma (Figura 4.1.) Nele esto dispostos linhas

ligadas segundo os nveis de similaridade que agruparam pares de espcimes


ou de variveis. Como este grfico uma simplificao em duas dimenses de
uma relao n-dimensional inevitvel que algumas distores quanto
similaridade apaream. A medida de tal distoro pode ser obtida por um
coeficiente de correlao, dito "cofentico", entre os valores da matriz inicial de
similaridade e aqueles derivados do dendrograma.
Visualmente isso pode ser tambm verificado por meio da construo de
um sistema de eixos ortogonais. Nele os valores dos coeficientes de
similaridade originais estaro na abcissa e
os coeficientes de similaridade a partir do dendrograma em ordenada. Se
ambas as matrizes forem idnticas os pontos cairo sobre uma linha reta que
passa pela origem do sistema. Desvios dos pontos em relao a essa reta
indicaro as distores. Se situadas acima da reta indicaro coeficientes de
similaridade apontados pelo dendrograma mais altos que os originais e viceversa.

34

Dendrograma
Mtodo: UPGM
Distncia euclidiana
250

Valores para agrupamento

200

150

100

50

C_9

C_6
C_13

C_8
C_5

C_4
C_12

C_2
C_3

C_14
C_15

C_10
C_11

C_1
C_7

Dendrograma
Mtodo: UPGM
Distncia euclidiana
250

Valores para agrupamento

200

150

100

50

C_9

C_6
C_13

C_8
C_5

C_4
C_12

C_2
C_3

C_14
C_15

C_10
C_11

C_1
C_7

Figura 4.1. Formatos de dendrogramas


A construo de um dendrograma pode ser esquematizada, de acordo
com o exposto na Figura 4.2. Nessa Figura, inicialmente, os mais altos ndices
de correlao ocorrem entre as amostras D e E (0,66) e entre as amostras A e
B (0,57) que iro constituir novos casos na matriz de correlaes j pareadas.
Nessa matriz os mais altos coeficientes de correlao ocorrem entre DE e F
(0,41) e AB e C(0,29). Finalmente a correlao final ocorre ao nvel de 0,59
entre ABC e DEF.

35

Figura 4.2. Esquema de construo de um dendrograma pelo


mtodo

de agrupamentos pareados igualmente ponderados (adaptado de

Davis, 1986)
4.2.3. Coeficientes de Similaridade
Os coeficientes de similaridade mais usuais, obtidos num espao
multidimensional, podem ser subdivididos em trs categorias:
a) os que medem a distncia, ou a separao angular, entre pares de pontos;
b) os que medem a correlao entre pares de valores;
c) os que medem a associao entre pares de caracteres qualitativos.
Existem diversas publicaes que discutem esses diversos tipos de
medidas como, por exemplo, Sneath & Sokal (1973), Everitt (1980), Prentice
(1980), Gordon (1981), Greig-Smith (1983), Pielou (1984), alem do resumo,
sobre 23 coeficientes de similaridades, constante no pacote MVSP, verso 3.1.
4.2.3.1. Coeficientes de distncia
Expressam o grau de similaridade como distncia em um espao multidimensional. Quanto maior a distncia, maior o grau de similaridade e viceversa. A distncia D entre dois pontos, cuja localizao especificada num
sistema de coordenadas cartesianas, fornecida, segundo o teorema de
Pitgoras, por

36

D1.2

( x1 x2 )2 + ( y1 y2 )2

onde x1 , x2 , y1 e y2 so valores das coordenadas dos dois pontos.


Para a distncia entre k pontos, num espao n-dimensional, a frmula
generalizada :
Dij

( xik x jk )2 / n

k =1

Tendo todas as variveis o mesmo peso, consequentemente a funo


distncia ser limitada a valores entre 0 (maior similaridade) e 1.0 ( menor
similaridade).
Pode, tambem, ser ulizado o coeficiente cosseno-teta, que uma
medida de proporcionalidade expressando o grau de similaridade em termos de
separao angular:
Cos pq

xip xiq
2
2
xip xiq

1/ 2

p e q = valores comparados

Quando a similaridade completa, a separao angular 0 e cos =


1.0; quando no ocorre similaridade nenhuma, a separao angular 90 e o
cos = 0.0
4.2.3.2. Coeficientes de Correlao
Medem o grau de associao entre valores pela representao de
pontos num sistema de coordenadas e suas respectivas posies em relao a
uma linha reta. Podem tanto ser considerado o coeficiente de correlao
paramtrico (Pearson) como o no paramtrico (Spearman).

coeficiente de correlao paramtrico (Pearson)


O coeficiente de correlao da amostra r (ou *) o qual uma estimativa

do coeficiente de correlao populacional , dado por:


( xi x ) ( yi y )
n 1
=
r=
2 ( y y )2

x
(
)
i
i
[var( x ) var( y )]1/ 2 [
.
]1/ 2
n 1
n 1
cov( x , y )

Onde n o nmero de pares de valores para xi e y i , variveis com


distribuio normal, e x e y so os valores mdios para xi e yi .
37

Utilizando o mtodo dos mnimos quadrados para o clculo do


coeficiente de correlao, a seguinte frmula simplificada usada:
SPXY

r=

SQX . SQY

SPXY = xy -(x y) / n
SQX = x2 - (x)2 / n
SQY = y2 - (y)22 / n
Valores de r , os quais so medidas adimensionais, podem variar entre 1

+1,

expressando

desde

comportamento

totalmente

inverso

at

comportamento totalmente direto entre as duas variveis. Quando r=0 significa


que no h relao linear entre x e y.

Coeficiente de correlao no-paramtrico de Spearman


um coeficiente de correlao no paramtrico entre duas variveis, xi

e yi , em que para o seu clculo inicialmente xi e yi so ordenados segundo os


seus valores de posto ( x,i e y ,i ) e em seguida encontrados os valores
d i = x ,i y ,i .

Para que os valores negativos de di no cancelem os valores positivos


de di determinado para cada caso di2 . Finalmente encontra-se a somatria
dos di2 .
O coeficiente de correlao ser fornecido pela frmula:
6d i2

r = 1
s
n3 n

n = nmero de pares de valores xi, , yi,

Caso ocorram muitos casos com valores de posto empatados usa-se a


frmula:
rs =

x e, + y e, d i2
2 x e, y e,

onde
n3 n
n3 n
,
x e, =
Tx ; y =
T
e
y
12
12

T=

t 3 t
;
12

T = nmero de observaes repetidas em um determinado

posto.
38

Como um exemplo numrico, seja uma matriz de dados composta por 7


amostras, no sentido geolgico, e 6 variveis:
V01

V02

V03

V04

V05

V06

Am01 1.0

2.0

3.0

4.0

5.0

6.0

Am02 5.0

4.0

1.0

8.0

7.0

9.0

Am03 6.0

5.0

4.0

2.0

7.0

9.0

Am04 6.0

4.0

2.0

1.0

3.0

7.0

Am05 9.0

2.0

1.0

4.0

7.0

8.0

Am06 9.0

6.0

3.0

4.0

5.0

6.0

Am07 1.0

5.0

9.0

7.0

5.0

3.0

Utilisando o coeficiente distncia euclidiana, obtem-se a seguinte


matriz inicial de similaridades:
Am01

Am02

Am03

Am04

Am05

Am06

Am07

Am01

.00

7.3

7.2

6.6

8.7

8.9

7.9

Am02

7.28

.0

6.9

8.4

6.1

7.3

11.0

Am03

7.21

6.9

.0

5.1

5.7

5.3

10.7

Am04

6.63

8.4

5.1

.0

6.3

5.3

11.4

Am05

8.72

6.1

5.7

6.3

.0

5.3

13.2

Am06

8.94

7.3

5.3

5.3

5.3

.0

10.9

Am07

7.94

11.0

10.7

11.4

13.2

10.9

.0

Na Figura 4.2. esto os dendrogramas resultantes da aplicao de dois


mtodos: ligao simples (single linkage)

e agrupamento pareado

igualmente ponderado (unwighted pair-group average).


Verificar que os r,dendrogramas resultantes so praticamente os
mesmos, em que pese as diferenas mostradas em ambos os grficos.

39

Dendrograma
"Single Linkage"
Distncia euclidiana

AM01
AM02
AM03
AM04
AM06
AM05
AM07

4.5

5.0

5.5

6.0

6.5

7.0

7.5

8.0

10

11

Nveis para agrupamento

Dendrograma
"Unweighted pair-group average"
Distncia euclidiana

AM01
AM02
AM03
AM04
AM06
AM05
AM07

Nveis para agrupamento

Figura 4.2. Dendrogramas resultantes dos mtodos single linkage e UPGM

40

4.2.3.3. Coeficientes binrios


Expressam similaridades em termos de equiparaes (matches) quando
so utilizados dados qualitativos. Neste caso comparaes so feitas entre
observaes reduzidas a duas categorias do tipo sim-no, presente-ausente,
etc. Se verificado em 4 perfs estratigrficos a presena ou ausencia de 4 tipos
de fsseis a seguinte matriz de dados binrios pode ser construida:

Se tomadas dois objetos (A e B) e um mesmo caracter estiver presente


em ambos, tal situao ser representada por "a"; se presente em A, porm
ausente em B, por "c"; se presente em B, porm ausente em A , por "b" ; se
ausentes em ambos, por d.
presente ausente
Presente a

Ausente

Os coeficientes binrios, podem ser agrupados em:

41

a) coeficientes de similaridade: expressam a proporo de caracteres que dois


objetos possuem mutuamente quando comparados com o nmero total de
caracteres possudos por um dos objetos ou pelo outro, ou por ambos;
Jaccard:

a / ( a + b + c)

Otsuka :

a / (a + b)(a + c)

Fager :

a / ( a + b ) ( a + c ) 1 / 2 { min( a + b ),( a + c ) }

b) coeficientes de associao: expressam a probabilidade de acontecimento,


por acaso, de um certo nmero de caracteres comuns a dois objetos;
Yule

( ad bc ) / ( ad + bc )

Phi

( ad bc ) / ( a + b ) ( a + c ) ( b + d ) ( c + d )

c) coeficientes de equiparao: expressam a similaridade entre dois objetos em


termos de equiparaes positivas, isto , presena de um mesmo caracter em
ambos os objetos, em relao a equiparaes negativas, isto , ausncia de
um

mesmo

caracter

um

ambos

os

objetos,

mais

equiparaes

desencontradas;
Simples :

(a + d ) / n

Hamann :

(a + d b c) / n

Sackin :

a/n

d) coeficientes de distncias: expressam o distanciamento entre dois objetos


em um espao multi-dimensional;
Sokal

(b + c ) / n

42

Novamente, como exemplo numrico, seja uma matriz com dados


binrios em que o valor 1 significa presente e 0 ausente:
V01

V02

V03

V04

V05

V06

Am01 1.0

1.0

0.0

0.0

0.0

1.0

Am02 0.0

0.0

1.0

1.0

0.0

0.0

Am03 0.0

1.0

1.0

0.0

0.0

0.0

Am04 1.0

1.0

2.0

1.0

3.0

0.0

Am05 0.0

0.0

1.0

1.0

1.0

1.0

Am06 1.0

1.0

0.0

0.0

0.0

1.0

Am07 0.0

0.0

1.0

1.0

1.0

1.0

Nessa matriz as amostras 01 e 06 so idnticas, o mesmo acontecendo


com as amostras 05 e 07.
A matriz inicial de similaridades, aps calculados os coeficientes de
Jaccard, a seguinte:
Am01 Am02 Am03 Am04 Am05 Am06 Am07
Am01 1.000
Am02 0.000 1.000
Am03 0.250 0.333 1.000
Am04 0.333 0.400 0.400 1.000
Am05 0.167 0.500 0.200 0.500 1.000
Am06 1.000 0.000 0.250 0.333 0.167 1.000
Am07 0.167 0.500 0.200 0.500 1.000 0.167 1.000
E o dendrograma resultante esta exposto na Figura 4.3.

43

Figura 4.3. Dendrograma resultante da aplicao do coeficiente binrio de


Jaccard pelo mtodo de ligao simples. Notar as relaes entre amostras 01 e
06 e entre amostras 05 e 07, todas ao nvel 1.0

Exemplo

A indstria cermica existente na regio de Rio Claro (SP), incluindo o


plo cermico de Santa Gertrudes-Cordeirpolis, uma das maiores do mundo
e necessita, portanto, de um acompanhamento tecnolgico que a torne cada
vez mais competitiva. A caracterizao da matria-prima para a indstria de
necessidade premente para o controle da qualidade do produto final. Com o
conhecimento dessa matria-prima, de suas propriedades e comportamento
fsico-qumico possvel otimizar a blendagem do material e calibrar todo o
processo de beneficiamento, principalmente fornos, buscando uma maior
homogeneidade nos produtos. Com essa preocupao Monteiro et alli (2000)
aplicaram a analise de agrupamentos dados provenientes de lamitos e
folhelhos da Formao Itarar do topo da 3a bancada do argileiro da Cermica
Montreal (Fazenda So Caetano, em Jundia/SP). Foram identificados 7 nveis
estratigrficos, tendo sido utilizadas amostras de apenas 5 nveis: Nvel 4

44

folhelho extraglacial com intercalaes de silte caulintico e como pricipais


argilominerais a illita, a vermiculita e interestratificadas illita/montimorilonita (IM); Nvel 5 lamito proglacial com argilas do tipo interestratificada (I-M), clorita
e caolinita num ambiente transicional; Nvel 3 lamito desorganizado de lobos
de suspenso, em subambiente terminoglacial com razo silte/areia muito fina
s/amf=68%, com caolinita e illita; Nvel 2 lamito com nveis arenosos e
s/amf=85%, com caolinita e illita; e Nvel 1 lamito com raros seixos, grnulos
e s/amf=63%, com caolinita e illita. Os nveis 3 a 1 apresentam quantidades
crescentes de caolinita para o topo e a esmectita est restrita ao nvel 4. No
nvel 5, intermedirio predominam as interestraticadas (Figura 4.4.).
A amostragem foi executada nos 5 nveis e identificadas como 4J, 5J,
3J, 2J e 1J, da base para o topo, sendo que no nvel 5 foi replicada a
amostragem (5aJ e 5bJ). Foram analisadas diversas propriedades desse
material como: umidade de prensagem, absoro de gua, porosidade
aparente, densidade aparente, perda ao fogo, retrao linear na secagem,
queima parcial e queima total e tenso ruptura por flexo. Para as variveis
absoro de gua (AA - em %), porosidade aparente (PA - em %), massa
especfica aparente (MEA - em g/cm3) e massa especfica aparente da parte
slida (MEAS - g/cm3), perda ao fogo (%PF), retrao linear na queima parcial
(%Rq), retrao linear na queima total (%Rt) e tenso ruptura por flexo (TRF
- em kg/cm2); foram feitas anlises para cinco partes de cada amostra nas
temperaturas de queima de 1.020C, 1.070C e 1.120C.
A anlise de agrupamentos no modo Q, ou seja, entre amostras,
apresentou ntida distino entre o grupo de amostras 1J e 2J com o grupo 3J,
5aJ e 5bJ e 4J (Figura 4.5.). Essa distino pode estar condicionada pela
presena de caulinita dos materiais superiores, ou pela sua desagregao sob
ao mais direta do perfil de intemperismo.De qualquer modo essa diferena
nas caractersticas tambm notvel nas propriedades cermicas daquele
materiais.
O primeiro grupo subdivide-se em amostras 1J e 2J. O segundo grupo
pode ainda ser subdividido em dois outros; um com as amostras 3J e 4J e
outro com 5aJ e 5bJ. Apesar do nvel 3 possuir caulinita, diferentemente do
nvel 4, ficaram agrupados em um subgrupo. A illita comum s duas
amostras e esta similaridade provavelmente deve-se a outro fator. As amostras
45

do nvel 5, que tem caractersticas de transio e apresentam uma argila


interestratificada que
comercializada in natura pela empresa, como descorante na indstria txtil.
Entre as amostras 5aJ e 5bJ no to ntida a diviso, o que j era esperado
pelo controle geolgico e de amostragem.

Figura 4.2.: Perfil estratigrfico da Cermica Montreal (Fazenda So Caetano,


em Jundia/SP)

46

Mtodo WPGMA

Amostras

5BJ-1
5BJ-5
5BJ-2
5AJ-2
5AJ-5
5AJ-3
5AJ-4
5BJ-3
5BJ-4
5AJ-1
4J-5
4J-3
4J-2
4J-4
3J-2
4J-1
3J-5
3J-4
3J-3
3J-1
2J-4
2J-5
2J-2
2J-3
2J-1
1J-5
1J-3
1J-4
1J-2
1J-1

240

200

160

120

80

40

Distncia Euclidiana

Figura 4.5.: Anlise de Agrupamentos entre as amostras (modo Q)


A anlise de agrupamentos no modo R, ou seja, entre variveis, no
permitiu consideraes to claras como para o caso entre amostras (Figura
4.6.).
O que se pde observar, com certa facilidade, que algumas variveis
como retrao linear na queima parcial (%Rq) e total (%Rt) encontram-se com
alta correlao para mesmas temperaturas, bem como pde-se observar
tambm um agrupamento para as variveis de tenso ruptura por flexo
(TRF) para as trs temperaturas de 1.020C, 1.070C e 1.120C. Isto se deve
ao fato de ocorrer um intercrescimento de fases neoformadas aps cada
temperatura.
Para as propriedades de absoro de gua (AA), porosidade aparente
(PA) e perda ao fogo (%PF) foi possvel perceber um agrupamento bem
evidente, com uma exceo. A massa especfica aparente (MEA) e a massa
especfica aparente da parte slida (MEAS) no formam nenhum agrupamento
evidente, por serem caractersticas bastante peculiares do material.
Os Autores perceberam que dois grandes agrupamentos presentes: o
primeiro com AA, PA e %PF e o segundo com %Rq, %Rt e TRF. Notaram que

47

o primeiro parece estar relacionado com propriedades da distribuio


granulomtrica e o segundo, respectivamente, diz mais respeito composio
qumica do material (ligaes e valncia).
Mtodo WPGMA

Variveis

MEAS1070
MEA1120
%Rt1120
%Rq1120
%Rt1070
%Rq1070
%Rt1020
%Rq1020
TRF1120
TRF1070
TRF1020
MEA1070
MEA1020
MEAS1020
PA1020
MEAS1120
%PF1120
PA1120
AA1120
PA1070
AA1070
AA1020
%PF1070
%PF1020

-0,2

0,2

0,4

0,6

0,8

Coeficiente de Correlao de Pearson

Figura 4.6.: Anlise de Agrupamentos entre as variveis (modo R)

A anlise de agrupamentos mostrou que as amostras 5aJ e 5bJ


possuem o mesmo comportamento, o que esperado por serem retiradas do
mesmo nvel.
As amostras 1J e 2J, isto , retiradas dos nveis mais superiores, so
bem distintos das outras. O material dos dois primeiros nveis no deve ser
tratado da mesma forma que o material do nvel 3 pela indstria ceramista, o
que a prtica atual. Hoje a empresa faz a blendagem usando os nveis 1, 2 e
3 como elemento inerte (saibro), adicionado ao material dos nveis 4 e 6 da
base. As propores so distintas conforme os diferentes produtos finais aos
quais se destinam. Varia de 4:5 para a indstria de revestimento e de 3:7 para
a cermica estrutural. A anlise estatstica multivariada aplicada indicou ,
porem, que os nveis 1 e 2 so distintos do nvel 3, sob vrios aspectos que
podem ser verificados nas suas caractersticas fsicas e de comportamento
cermico.

48

BIBLIOGRAFIA
DAVIS, J.C (1986) - Statistics and Data Analysis in Geology: 2nd. ed., John Wiley and
Sons, Inc.
EVERITT, B. (1980) Cluster Analysis: 2nd ed., Gower Publishing Co.
GORDON, A. D. (1981) Classification: Chapman and Hall
GREIGH-SMITH, P. (1983) Quantitative Plant Ecology: University of California Press,
Berkeley
MONTEIRO, R. C.; BERNARDES, E.V.; MASSON, M.R. & LANDIM, P.M.B. (2000)
Anlise
estatstica
multivariada
para
materiais
cermicos:
VIII
Simp.Quant.Geocincias, Bol.Res. Expandidos, 163-166
MVPS/Plus (1998) Multi-Variate Statistical Pacckage, version 3.1.: Kovach
Computing Services
PIELOU, E.C. (1984) The Interpretation of Ecological Data: Wiley-Interscience
PRENTICE, I.C. (1980) Multidimensional scaling as a research tool in Quaternary
palybology: A review of theory and methods: Review of Paleobotany & Palynology,
31:71-104
SNEATH, D. H. & SOKAL, R. R. (1973) Numerical Taxonomy: W. H. Freeman & Co.

49

5. ANLISE DAS COMPONENTES PRINCIPAIS


o mais antigo mtodo de ordenao, o mais conhecido e com mais
exemplos de aplicao em Geologia. A anlise das componentes principais
nada mais que o clculo dos autovalores e correspondentes autovetores de
uma matriz de varincias-covarincias ou de uma matriz de coeficientes de
correlao entre variveis. Quando as variveis, devido escalas diferentes
de mensuraes empregadas, no podem ser diretamente comparadas, tornase necessrio preliminarmente a padronizao, de modo que as variveis
transformadas passem a ter mdia zero e varincia unitria, o que
conseguido pela transformao "z". Nesses casos, de variaveis padronizadas,
a matrizes de varincias-covarincias e de coeficientes de correlao tornamse idnticas. Como tal padronizao acarreta uma forte influncia na estrutura
da matriz de varincias-covarincias e, consequentemente, nos resultados da
anlise, a sua utilizao deve ser criteriosa levando sempre em conta a
natureza dos dados geolgicos em estudo e o enfoque que se pretende dar.
A anlise das componentes principais no sinnimo de analise fatorial
ou anlise dos fatores e essa confuso terminolgica deve ser evitada. A
primeira anlise consiste numa transformao linear de "m" variveis originais
em "m" novas variveis, de tal modo que a primeira nova varivel computada
seja responsvel pela maior variao possvel existente no conjunto de dados,
a segunda pela maior variao possvel restante, e assim por diante at que
toda a variao do conjunto tenha sido explicada. Na anlise fatorial supe-se
que as relaes existentes dentro de um conjunto de "m" variveis seja o
reflexo das correlaes de cada uma dessas variveis com "p" fatores,
mutuamente no correlacionveis entre si, sendo "p" menor que "m". O
extremo cuidado que se deve ter com relao especificao do nmero e,
principalmente, do significado dos "p" fatores que emergem a partir dessa
anlise. Ver a respeito Jreskog, Klovan e Reyment (1976) e Reyment e
Jreskog (1996)
A anlise das componentes principais , portanto, uma tcnica de
transformao de variveis. Se cada varivel medida pode ser considerada
como um eixo de variabilidade, estando usualmente correlacionada com outras
variveis, esta anlise transforma os dados de tal modo a descrever a mesma
50

variabilidade total existente, com o mesmo nmero de eixos originais, porm


no mais correlacionados entre si. Graficamente pode ser descrita como a
rotao de pontos existentes num espao multidimensional originando eixos,
ou componentes principais, que dispostos num espao a duas dimenses
representem variabilidade suficiente que possa indicar algum padro a ser
interpretado.
A anlise das componentes principais inicia-se com o calculo dos
autovalores e correspondentes autovetores de uma matriz de varianciascovariancias ou de correlaes entre variveis e tal procedimento conhecido
como modo R. O primeiro autovalor a ser determinado correspondera maior
porcentagem da variabilidade total presente e assim sucessivamente.
Geralmente os dois ou tres primeiros autovetores encontrados explicaro a
maior parte da variabilidade presente. Quando o primeiro autovetor j explica
90 a 95% da variabilidade isso
deve ser encarado com cuidado e verificado se no esto presentes variaveis
com valores de magnitudes muito maiores que as demais.
Os autovetores

correspondem s componentes principais e so o

resultado do carregamento das variaveis originais em cada um deles. Tais


carregamentos podem ser considerados como uma medida da relativa
importncia de cada varivel em relao s componentes principais e os
respectivos sinais, se positivos ou negativos, indicam relaes diertamente e
inversamente proporcionais.
A matriz de carregamentos de cada variavel nas componentes principais
ao ser multiplicada pela matriz original de dados fornecera a matriz de
contagens (scores) de cada caso em relao s componentes principais. Esses
valores podero ento ser dispostos num diagrama de disperso, em que os
eixos so as duas componentes mais importantes, e mostrar o relacionamento
entre os casos condicionados pelas variaveis medidas.
A primeira matriz obtida, resultado das interrelaes entre variveis pode
ser interpretada como um procedimento estatstico no qual os dados seriam
amostras de populaes multidimensionais. J a segunda matriz, que
apresenta as interrelaes entre casos ou amostras, no sentido geolgico, no
so usualmente passveis de serem submetidas a testes estatsticos.

51

5.1. Seqncia de clculos


Se A for uma matriz simtrica de varincias e covarincias, de
dimenses pxp, com termos aij, de onde os autovalores e os autovetores sero
extrados, Vi o isimo autovetor, cujos termos so vij, e i o isimo autovalor,
tal relao pode ser expressa por
( A i I )Vi = 0,

onde I a matriz de identidade.


Alternativamente a relao acima pode ser escrita por
AVi = Vi i , ou, [ A ][ V ] = [ V ][ ] , onde

[V] uma matriz , p x p, de todos os autovetores e


[] uma matriz, p x p, com os autovalores i na diagonas principal.
Multiplicando ambos os lados da equao pela transposta de V, V.
[ A ] = [V ][ ][V ]'

A soma dos autovalores igual soma dos termos da diagonal em [A],


ou seja, a soma das varincias
i = aii ,

e por definio 1 2 ... p


Resolvendo a equao acima para , as razes determinadas sero os
autovalores. Encontrados os autovalores, substituindo-os nas equaes
simultneas e resolvendo-as, obtm-se para cada autovalor autovetores
correspondentes, ou seja, as componentes principais.
Pode-se definir a varincia total existente em um conjunto de dados
multivariados pela soma das varincias de cada uma das variveis. Numa
matriz de varincias-covarincias essas varincias individuais constituem os
elementos da diagonal principal. Basta som-los, portanto, encontrando o trao
da matriz para se obter a variabilidade total, e em seguida a contribuio de
cada varivel. A soma dos autovalores de uma matriz, igual ao trao dessa
matriz, representa tambm a variabilidade total da mesma, e a contribuio de
cada autovalor em termos de variabilidade determinada. Ao primeiro
corresponder a maior variabilidade possvel existente, ao segundo a maior
variabilidade possvel restante, e assim por diante.

52

Em termos geomtricos, o primeiro autovalor representa o eixo principal


de maior comprimento; o segundo autovalor, um segundo vetor em
comprimento, situado em posio ortogonal em relao ao primeiro, e assim
sucessivamente.
Os elementos de cada um dos autovetores encontrados, so
simplesmente coeficientes de equaes lineares que transformam os dados
originais em contagens (scores) indicativas do respectivo carregamento sobre
os eixos correspondentes. Desse modo, utilizando-se da multiplicao da
matriz de dados originais pela matriz de autovetores, obtm-se uma matriz de
dados transformados que representam projees dos pontos, num espao
multidimensional, sobre as diversas componentes principais.
[ S R ] = [ X ][V ] , onde
[X] = matriz de dados originais, n x m
[V] = matriz quadrada, m x m, contendo os autovetores
[SR] = matriz, n x m, das contagens sobre as componentes principais.
5.2. Exemplo numrico para o clculo de autovalores (eingenvalues) e
autovetores (eingenvectors)

Conjunto de equaes simultneas: [A][X] = [X]


(matriz de coeficientes aijs [A] multiplicada por um vetor de desconhecidos
xis [X] igual a este vetor [X] multiplicado por uma constante ).
Soluo de um conjunto de equaes simultneas: [A][X] = [B],
onde [B] = [X] e ([A] [I])[X] = 0
Clculo das raizes da equao (autovalores) para uma matriz 3 x 3:
(a11 )x1 + a12 x2 + a13x3 = 0
a21x1 + (a22 )x2 + a23x3 = 0
a31x1 + a32 x2 + (a33 )x3 = 0

matriz de dados:

1
4
7
8

2
2
3
5

4
3
2
1

53

matriz de coeficientes de correlao [A]


[A] =

1,000

0,820

0,980

0,820
0,980

1,000
0,913

0,913
1,000

(varincia total no sistema: 1 + 1 + 1 = 3)

Clculo dos autovalores:


1,000

0,820

0,980

0,820

1,000

0,913

0,913

1,000

[ A ] [I] =

0,980

= 0

(1,000 - )(1,000 - )(1,000 - ) + (0,820)(- 0,913)(- 0,980) +


(- 0,980)(0,820)(- 0,913) - (- 0,980)(1,000 - )(- 0,980) (1,000 - )(- 0,913)(- 0,913) - (0,820)(0,820)(1,000 - ) =

( - 2,810)( - 0,188)( - 0,002)


autovalores: 1 = 2,810; 2 = 0,188; 3 = 0,002

(soma = 3)

% da varincia total explicada por cada autovalor:


1 = (2,810/3)*100 = 93,66
2 = (0,188/3)*100 = 6,27
3 = (0,002/3)*100 =

0,07

Clculo dos autovetores:


Componentes do autovetor V1:
(1,000 - 2,810)X1 + 0,820X2 - 0,980X3 = 0
0,820 - (1,000 - 2,810)X2 - 0,913X3 = 0
-0,980X1 - 0,913X2 - (1,000 - 2,810)X3 = 0
X1 = - 1,000 X2 = - 0,974 X3 = 1,032
V1 = - 1,000
- 0,974
1,032

Padronizao do autovetor V1 para o tamanhao unitrio


54

Q = -12 + (-0,974)2 + (1,032)2 = 3,012


Q = 1,735

Vn1 = -1/1,735 = -0,58


Vn1 = - 0,974/1,735 = - 0,56
Vn1 = 1,032/1,734 = 0,59

Componentes do autovetor V2:


(1,000 0,188)X1 + 0,820X2 - 0,980X3 = 0
0,820 - (1,000 0,188)X2 - 0,913X3 = 0
-0,980X1 - 0,913X2 - (1,000 0,188)X3 = 0
Vn2 = -0,60
Vn2 = 0,79
Vn2 = 016
Autovetores
Var1
Var2
Var3

F1
-0.58
-0.56
0.59

F2
-0.60
0.79
0.16

F3
0.56
0.26
0.79

Factor loadings (carregamento das variveis nas componentes


principais)
(autovetor padronizad o

Var1
Var2
Var3

F1
-0.97
-0.94
1.00

F2
-0.26
0.34
0.07

autovalor correspon dente ) )

F3
0.03
0.01
0.04

55

Variables (axes F1 and F2: 100.00 %)


1

0.5
Var2
Var3

0
Var1
-0.5

-1
-1

-0.5

0.5

-- axis F1 (94.00 %) -->

1
4
7
8

2
2
3
5

4
3
*
2
1

0,58
0,56
0,59

0,60 0,56
0,79 0,26
0,16 0,79

Obs1
Obs2
Obs3
Obs4

= factor scores

F1
2.10
0.93
-0.69
-2.34

F2
0.45
-0.35
-0.51
0.41

F3
0.03
-0.07
0.06
-0.02

56

Observations (axes F1 and F2: 99.93 %)


2.5
2
1.5
1
0.5

A1

A4

0
A2

A3

-0.5
-1
-1.5
-2
-2.5
-2.5

-2

-1.5

-1

-0.5

0.5

1.5

2.5

- - a xis F 1 ( 9 3 .6 6 %) - - >

Biplot (axes F1 and F2: 99.93 %)


1.5

A1

A4

0.5

V2
V3

0
V1
-0.5
A2
-1
A3
-1.5
-1.5

-1

-0.5

0.5

1.5

- - a xis F 1 ( 9 3 .6 6 %) - - >

57

5.3. Anlise das Coordenadas Principais

A Anlise das Coordenadas Principais pode ser entendida como um


caso mais geral da Anlise das Componentes Principais. Enquanto esta utiliza
matrizes de varincias-covarincias ou de correlaes aquela pode usar uma
variedade de diferentes medidas de distncia ou de similaridade. Essas
medidas so tomadas diretamente entre os especimes, no chamado modo Q,
e no entre variveis e os autovetores resultantes representam os scores
para os espcimes. Fornece, assim, uma ordenao direta entre casos e
muito til nas situaes quando se dispe de uma matriz de dados com mais
variveis do que espcimes. Nessa anlise, porem, no so fornecidos
loadingspara as variveis. Recomenda-se o trabalho de Gower (1966) para o
detalhamento desta anlise.
A maior vantagem no uso da Anlise das Coordenadas Principais que
diversas categorias de medidas de distncia ou de sililaridade podem ser
usadas. Por exemplo, se os dados a serem analisados forem uma mistura de
valores contnuos e medies binrias, o coeficiente geral de similaridade de
Gower pode ser aplicado, pois este um coeficiente de similaridade mtrico.
Distncias alternativas, como a Manhattan mtrica podem tambem ser
analisadas. A utilizao da distncia euclidiana para esta anlise fornece o
mesmo resultado que uma anlise das componentes principais no modo Q.

Coeficiente de similaridade geral de Gower

(w
n

GGScij =

ijk ijk

k =1

w
k =1

onde: s ijk = 1

ijk

xik x jk

range(k )

, para dados quantitativos

= 1 para comparao de dados binrios ou multiestados


= 0 para os demais casos
Wijk

= 0 para comparaes negativas de dados binrios


= 1 para todas as outras situaes

58

Distncia mtrica de Manhattan:

MMdij = |xik xjk|,


onde i e j representam duas linhas (casos ou espcimes) de uma
matriz de dados e k representa as colunas (variveis) e n nmero total de
variaveis:
A anlise das coordenadas principais , todavia, restrita para o caso em
que as distncias ou similaridades so mtricas. Para uma medida ser
considerada mtrica tem que obedecer certos pressupostos matemticos,
como o poder ser visualizada de um modo grfico. Assim as distncias entre
tres pontos deve obedecer aos vertices de um tringulo. Isso significa que a
distncia entre dois dos pontos, ou seja um dos lados do tringulo, deve ser
sempre menor que as outras duas distncias. Isso nem sempre ocorre como,
por exemplo, num conjunto de coeficientes de correlao se os valores forem
tratados como distncias no sera possvel escolher tres entre eles para
traar um tringulo.
5.4. Mtodos robustos para anlise das componentes principais

O objetivo de qualquer anlise estatsitica, inclusive a multidimensional,


inferir propriedades da populao a partir de amostras estudadas. Valores
anmalos (outliers) presentes podem, porem, levar concluses errneas e
da o interesse em detecta-los. A anlise das componentes principais, por se
basear em estimativas de disperso por quadrados mnimos, no capaz e por
isso a necessidade de mtodos robustos. Exemplo disso apresentado por
Zhou (1989) que discute a aplicao de tres opes de metodos robustos,
todas elas calcadas no uso da distncia de Mahalanobis.

Esse trabalho

acompanhado por um programa, ROPCA, escrito em FORTRAN e disponvel


para acesso e carregamento.
Nesse trabalho apresentado como exemplo de matriz de dados a
composio mineral de uma rocha artificial, denominada hongito por Aitchison
(1986), consituida por 25 espcimes e 5 variveis. A essa matriz foram
adicionados dois vaores anmalos, com altos valores na 4 e 5 variveis e
baixos valores na 1 varivel.

59

n
01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27

V1
4880.0
4820.0
3700.0
5090.0
4420.0
5230.0
4460.0
3460.0
4120.0
4260.0
4990.0
4520.0
3270.0
4140.0
4620.0
3230.0
4320.0
4950.0
4230.0
4460.0
4580.0
4990.0
4860.0
4550.0
4590.0
3130.0
3012.0

V2
3170.0
2380.0
910.0
2380.0
3830.0
2620.0
3300.0
520.0
1170.0
4660.0
1950.0
3730.0
850.0
1290.0
1750.0
730.0
4430.0
3230.0
1580.0
1150.0
1660.0
2500.0
3400.0
1660.0
2490.0
2944.0
1200.0

V3
380.0
900.0
3420.0
720.0
290.0
420.0
460.0
4290.0
2670.0
70.0
1140.0
270.0
3890.0
2340.0
1580.0
4090.0
100.0
310.0
2040.0
2380.0
1680.0
680.0
250.0
1760.0
970.0
1068.0
1232.0

V4
640.0
920.0
950.0
1010.0
770.0
1250.0
1220.0
960.0
960.0
560.0
950.0
550.0
800.0
1580.0
830.0
1290.0
780.0
870.0
830.0
1160.0
1200.0
1090.0
940.0
960.0
980.0
1526.0
2051.0

V5
930.0
980.0
1020.0
800.0
690.0
480.0
560.0
770.0
1080.0
450.0
970.0
930.0
1190.0
650.0
1220.0
660.0
370.0
630.0
1320.0
850.0
880.0
740.0
550.0
1070.0
970.0
1332.0
2505.0

Na Figura 5.1. esto dois diagramas de eixos ortogonais mostrando o


resultado da anlise das componentes principais aplicada amostra de hongito
com 25 valores e tambm mesma amostra acrescida de mais dois valores
anmalos. Pode-se constatar que no h destaque para esses espcimes,
identificados como 26 e 27.

60

Figura 5.1.: Anlise das componentes principais

A aplicao, porem, da anlise das coordenadas principais, que no


um mtodo robusto, mas usa o modo Q de anlise e a distncia euclidiana
padronizada, revela a presena em destaque dos espcimes 26 e 27

61

StEd ij =

Distncia euclidiana padronizada

xik x jk
sd k
k =1
n

onde sdk = desvio padro de todos os elementos de k

Figura 5.2. Anlise das coordenadas principais

62

BIBLIOGRAFIA
AITCHISON, J. (1986) The statistical analysis of compositional data: Chapman & Hall
GOWER, J. C. (1966) Some distance properties of latent root and vector methods
used in multivariate methods: Biometrika, 55: 325-338
JORESKOG, K.G., KLOVAN, J.E. & REYMENT, R.A. (1976) - Geological factor
analysis: Elsevier.
REYMENT, R. A. & JRESKOG, K. G. (1996) Applied Factor Analysis in the Natural
Sciences: Cambridge University Press, second printing
ZHOU, D. (1989) ROPCA: A FORTRAN Program for Robust Principal Components
Analysis: Computers & Geosciences, 15:59-78

63

6. ANLISE FATORIAL

Diferentemente da anlise das componentes principais, que uma


manipulao matemtica, a anlise dos fatores pode ser considerada como
uma tcnica estatstica. Importante salientar que quando o mtodo foi
estabelecido por psiclogos, interessados em testes de inteligncia, a condio
fundamental era que o nmero de fatores "p" a se determinar, deveria ser
conhecido "a priori" antes de se efetuar a anlise. Em Geologia dificilmente
essa condio preenchida, pois geralmente os "fatores geolgicos" so
estabelecidos em funo dos resultados obtidos, o que torna algumas vezes
os resultados questionveis.
O modelo da anlise fatorial pode ser expresso por:
p

X j = a jr f r + e j , onde
r =1

X j = varivel original, existindo "m" x j


p = nmero "especificado" de fatores
a jr = coeficiente que representa o carregamento da j'sima varivel sobre o
r'simo fator
f r = r'simo fator

e j = variao casual nica relativa a varivel original X j


As variveis, expressas em termos de vetores num sistema de
coordenadas ortogonais, em que o comprimento representa a magnitude,
agrupar-se-o conforme o relacionamento entre si. Por esses agrupamentos de
vetores podero passar eixos, denominados fatores, que acusaro, pelo valor
da projeo dos vetores sobre os eixos, a carga fatorial (factor loading) das
variveis sobre si. Esses fatores representam o nmero mnimo de causas que
condicionam

um

mximo

de

variabilidade

existente.

comunalidade

(communallity), h, isto , a soma dos quadrados das cargas fatoriais das


variveis sobre cada fator indica a eficincia dos mesmos na explicao da
variabilidade total.
Os fatores so encontrados fazendo com que o primeiro eixo esteja em
tal posio que a soma dos quadrados dos pesos fatoriais em relao a ele
seja maximizada, o que equivale a coloc-lo paralelamente ao principal

64

agrupamento de vetores. O segundo eixo colocado ortogonalmente, de modo


que tambm seja maximizada a soma de quadrados dos pesos fatoriais para
este segundo eixo, e assim por diante quanto aos demais fatores.
Uma das dificuldades resultantes deste procedimento que o padro de
carregamento para cada componente pode no fornecer dimenses facilmente
interpretveis. Por exemplo, em uma matriz de coeficientes de correlao em
que nenhum dos coeficientes particularmente alto, o padro de carregamento
que pode ocorrer com respeito ao primeiro fator pode ser da mesma ordem
relativa de magnitude que o existente em relao ao segundo fator, ao terceiro
fator, etc. Haver necessidade , ento, de uma rotao dos eixos fatoriais. A
finalidade dessa rotao maximizar colocando os eixos fatoriais numa nica
posio tal que cada fator possa ser interpretado pelos maiores carregamentos
possveis relacionados com o menor nmero de variveis possvel.
6.1. Anlise fatorial pelo modo R

Quando se esta interessado no relacionamento entre variveis, o clculo


dos autovalores e autovetores feito a partir de uma matriz padronizada de
varincias-covarincias, isto , uma matriz de coeficientes de correlao entre
p variveis, tendo todas o mesmo peso.
Os autovetores so calculados de tal modo a definir m vetores com
tamanho unitrio. Isso conseguido multiplicando cada elemento do autovetor
normalizado pela raiz quadrada do correspondente autovalor. O resultado um
fator, ou seja, um vetor constitudo por cargas fatoriais.
A matriz de varincias e covarincias observadas, [S2], igual ao
produto da matriz de carregamentos fatoriais (factor loading) [AR], de
dimenses m x p, multiplicada pelo seu transposto, mais uma matriz diagonal
de varincias nicas, [var Ejj]
[ S 2 ] = [ A R ] .[ A R ]' + [var E ii ]

Como na anlise fatorial p < m, a varincia nas m variveis , portanto,


derivada dos p fatores, porm a contribuio feita por fontes nicas que
afetam independentemente as m variveis originais. Esses p fatores

65

subjacentes so conhecidos como fatores comuns e resumem a contribuio


independente como um nico fator.
Deve ser notado que p dever ser conhecido previamente anlise e isso
implica numa restrio. Caso p no seja especificado a partio de variveis
entre os fatores comuns e o fator nico torna-se indeterminada.
Os autovalores e, consequentemente, os fatores, representam a
proporo da varincia total explicada pelo respectivo autovetor e cada carga
fatorial proporcional raiz quadrada da quantia de varincia atribuda pela
respectiva varivel ao fator.
As comunalidades ( h 2j ) indicam quanto da variabilidade total est sendo
explicada pelo conjunto de fatores.
Para que os "p" fatores ortogonais situados no espao "m" dimensional
sejam mais facilmente entendidos necessrio que estejam em tal posio, de
modo que as projees de cada varivel sobre o eixo fatorial, situem-se o
melhor possvel, seja junto a extremidade, seja junto origem. Em outras
palavras, haver necessidade de um critrio de maximizao da varincia dos
carregamentos sobre os fatores, o que conseguido pela rotao dos eixos
fatoriais.
m

p
sk2

j =i

a 2jp

2
h 2j

a 2jp / h 2j
j =i

2
p

sk2 = varincia das cargas fatoriais


p = nmero de fatores
m = nmero de variveis originais
a jp = carregamento da varivel j no fator p

h 2j = comunidade da jsima varivel


A quantidade que se deseja maximizar :
p

V =

k =1

sk2

Finalmente, aps encontrada a matriz fatorial rotada se a mesma for


multiplicada pela matriz inicial de dados obtem-se uma matriz dos "factor
score". Esses factor score representam estimaes das contribuies dos
vrios fatores cada observao original e podem ser utilizados na

66

classificao de amostras. Maiores detalhes podem ser encontrados em Davis


(1986) ou Reyment e Jreskog (1993)
6.2. Anlise fatorial pelo modo Q

Quando se est interessado no relacionamento entre amostras, utiliza-se


o modo Q de anlise de fatores, a qual parte de uma matriz inicial de
coeficientes de similaridade entre amostras. O coeficiente de similaridade mais
usado o coeficiente cosseno-teta
m

Cos ij =

X ik jk

k =1
m

k =1

k =1

X ik2 X 2jk

Se as "m" variveis originais forem normalizadas, de modo a terem


mdia zero e varincia 1.0, haver uma identidade entre valores do coeficiente
cosseno-teta e do coeficiente de correlao.
O propsito classificatrio do modo Q o mesmo da anlise de
agrupamentos, porm de muito mais difcil manuseio e muito mais
dispendioso quanto ao tempo de computao. Por isso se o objeto de uma
anlise a classificao de amostras em grupos, deve-se utilizar ou da anlise
de agrupamentos ou dos "factor score" obtidos pela anlise fatorial, segundo o
modo R.
Um outro procedimento que procura tambem determinar se uma coleo
de observaes multivariadas representam uma amostra de uma nica
populao ou uma mistura de diferentes populaes a Anlise das
Coordenadas Principais. Para tanto recomenda-se o trabalho de Gower
(1966) para o detalhamento desta anlise, alem de Jreskog, Klovan &
Reyment (1976) e Reyment, Blackith & Campbell (1984).

67

6.3. Exemplo numrico

1
4
matriz de dados = [ X ij ] =
7

2
2
3
5

4
3

0,820 0,980
1,000

matriz de coeficientes de correlao = [ R] = 0,820 1,000 0,913


0,980 0,913 1,000
[A][X] = [X]
([A] - [I]) [X] = 0
Clculo das raizes da equao caracterstica (autovalores):

(1,000 - )(1,000 - )(1,000 - ) + (0,820)(- 0,913)(- 0,980) +


(- 0,980)(0,820)(- 0,913) - (- 0,980)(1,000 - )(- 0,980) (1,000 - )(- 0,913)(- 0,913) - (0,820)(0,820)(1,000 - ) =

( - 2,810)( - 0,188)( - 0,002)


autovalores: 1 = 2,810

2 = 0,188
3 = 0,002
Componentes do autovetor V1:

(1,000 - 2,810)X1 + 0,820X2 - 0,980X3 = 0


0,820 - (1,000 - 2,810)X2 - 0,913X3 = 0
-0,980X1 - 0,913X2 - (1,000 - 2,810)X3 = 0
X1 = 1,000 e X2 = 0,974; X3 = - 1,034
V1 =

1,000

68

0,974
- 1,032
Normalizao dos autovetores, Vi, para tamanho unitrio:

Vn1 = 1/ Q; 0,974/Q; - 1,032/Q = 0,576; 0,561; - 0,595


(Q = 1 + (0,974)2 + (-1,032)2 = 3,012; Q = 1,735)
Vn2 = - 0,597; 0,785; 0,162
matriz fatorial inicial: autovetor normalisado x (autovalor correspondente)

Fatores
F1

F2

X1

0,966 - 0,259

X2

0,940

X3

0,340

- 0,997 0,070

rotao dos fatores (critrio varimax):

ngulo de rotao = ?, para variavel j e fatores p e q

tan 4 =

4 2XjpXjq(X2jp - X2pq) - 4 (X2jp - X2jq) XjpXjq / n


( X2jp - X2jq)2 - (2XjpXpq)2 -[( 2XjpX2jq)2 - (2XjpXpq)2] / n

tan 4 = [D - 2AB /n]/[C-(A2 - B2)/n] = - 0,1592/- 0,6555 = 0,2429


Uj = X2jp - X2jq
A = Uj = 2,6222

Vj = 2XjpXjq
A2 = 6,8789

B = Vj = - 0,0001 B2 = 0,0000
C = (U2j - V2j) = 1,6365
D = 2UjVj = - 0,1594
arctan 0,2429 = -166 21 = 4;

= 41 17

sen = - 0,6598
cos = 0,7515

69

0,7515 0,6598
[T ] =

0,6598 0,7515
Xj1 = T11X11 + T12X12 = (0,9656)(0,715) + (- 0,2590)(- 0,6598) = 0,894
matriz fatorial rotada:

Fatores
F1

F2

X1

0,894

0,447

X2

0,477

0,879

X3

- 0,792

- 0,609

Figura 6.1. Geometria da rotao da matriz fatorial inicial

70

Figura 6.2. Rotao varimax da matriz fatorial inicial

6.4. Anlise das correspondncias (Anlise das associaes)

Tanto a Anlise das Componentes Principais como a Anlise Fatorial


exigem dados mensurados em escala numrica contnua e no so, portanto,
apropriada para dados nominais, tais como contagem de nmeros de diversos
tipos de fsseis em um nvel estratigrficdo, nmero de fraturas com diferentes
orientaes num macio rochoso ou dados do tipo presente-ausente. Nesses
casos em que os dados podem ser agrupados em categorias, os autovalores
so extrados a partir de tabelas de contingncias e a tcnica conhecida
como anlise das correspondncias, traduo do francs Analyse des
Correspondances (Benzcri et al., 1980). Talvez o termo que melhor descreva
o mtodo seria Anlise das Associaes (entre variveis e espcimes). Na
tabela de contingncias os valores originais so transformados de modo a
poder ser interpretados como probabilidades condicionais. Por causa da
natureza dessa transformao as relaes entre colunas e linhas da tabela
transformada so as mesmas que aquelas da matriz original da dados. Isso
significa que as solues para o modo Q e para o modo R so equivalentes e
desse modo, o produto final mostra num espao bidimensional, definido pelos

71

dois mais importantes autovetores, a distribuio simultnea tanto das


amostras como das variveis.
Este mtodo, porem, bastante suceptvel presena de valores
anmalos (outliers). Quando presente valores muito diferentes dos demais, os
primeiros eixos fatoriais apresentaro esses valores acumulados em uma das
extremidades do eixo e os demais agrupados na outra. Esse problema pode
ser contornado com a eliminao dos valores anmalos ou ento, se mantidos,
ignorar o primeiro eixo e verificar os eixos subsequentes.
Ver aplicaes dessa metodologia em Geologia em Teil (1975), Teil e
Chemine (1975) e David, Dagbert e Beaunchemin (1977). Em Carr (1990)

apresentado um programa em FORTRAN-77 para o clculo desta anlise.


6.4.1. Seqncia de clculos

Inicialmente os elementos da matriz [X] de dados originais, de


dimenses n x m, so convetertidos em probabilidades conjuntas didivindo
cada elemento pelo total geral xij
[B] =

1
[X]
x ij

Em seguida definida uma matriz quadrada [M] com dimenso m x m,


que contm os totais das colunas de [B] arranjados em ordem ao longo da
diagonal principal e com zeros em todas as demais posies. Tambm
definida uma matriz [N], com dimenses n x n que contm os totais das linhas
na diagonal principal e zeros nas demais posies. Essas duas matrizes
contm as probabilidades marginais das colunas e das linhas e so usadas
para transformar [B].
[ W ] = [ N ] 1 / 2 [ B ] [ M ] 1 / 2

A matriz [W], com dimenses n x m, contm os elementos transformados


wij que correspondem a cada elemento original xij. A matriz de produtoscruzados entre colunas
[ R ] = [ W ]' [ W ]

E, de mesmo modo, a matriz de produtos-cruzados entre linhas


[ Q ] = [W ] [W ] '

72

Os autovalores de [R] e de [Q] so idnticos, exceto que [Q] tem (n-m)


autovalores adicionais, todos com o valor zero. Os autovetores de [R] podem
ser convertidos nos fatores de correspondncia (=associao) multiplicando
cada vetor pelo seu valor singular correspondente, que a raiz quadrada do
autovalor correspondente
Carregamentos no modo R =

. autovetores de modo R

Em notao matricial os valores singulares podem ser pensados como


presentes ao longo da diagonal de uma matriz m x m, [], sendo zero os
demais elementos. Os autovalores de [R] formam as colunas de uma matriz m
x m, [U]. A equao matricial para determinar os carregamentos no modo R
ento:
[ AR ] = [U ] [ ]

Os

scores

de

cada

observao

sobre

os

fatores

de

correspondncias so
[ S R ] = [W ] [ A R ]

Para o caso de autovalores de [Q], sendo [V], de dimenses n x n, a


matriz que contm n autovetores de [Q], de modo idntico obtm-se
[ A Q ] = [ V ] [ ] e [ S Q ] = [ W ]' [ A R ]

H uma relao direta entre as solues para o modo R e para o modo


Q:
[ A Q ] = [ W ] [ A R ] [ ] 1

= [ S R ] = [ ] 1

O carregamento nos fatores de correspondncias no modo Q igual aos


scores de correspondncias no modo R, dividido pelos valores singulares
apropriados. Pode-se obter uma soluo para o modo Q resolvendo-o no modo
R, o que uma vantagem em termos computacionais, pois normalmente [R]
tem dimenses menores que [Q].
A conseqncia direta disso que se pode plotar tanto amostras como
variveis no mesmo espao, usando os mesmos eixos. A obteno de mesmas
escalas tanto para R como para Q obtida por
[ A$ R ] = [ M ]1 / 2 [ A R ]
[ A$ Q ] = [ N ]1/ 2 [ AQ ]

73

A apresentao de resultados simultneos, referentes variveis e


amostras, num mesmo diagrama de disperso bastante til e de fcil
interpretao, como visto. Alem desta anlise das associaes, pode tambem
ser mencionado o mtodo proposto por Gabriel (1971) que aborda de um modo
mais geral o relacionamento entre linhas e colunas de uma tabela de
contigncia. Detalhes podem ser encontrados em Gordon (1981), Jackson
(1991), Jolliffe (1986) e Gabriel (1995,a,b).
6.5. Anlise fatorial R-Q simultnea

Embora o teorema de Eckart-Young estabelea ser possvel extrair


fatores simultneamente pelos modos R e Q, na prtica os resultados podem
no serem os mesmos devido a maneira como os dados so transformados
antes do processo fatorial. O escalonamento de valores condiciona as medidas
de similaridade e, desse modo, a natureza da soluo fatorial.
No modo R a soluo fatorial inicia-se pela matriz simtrica dos menores
produtos [W][W], enquanto no modo Q a soluo inicia-se pela matriz simtrica
dos maiores produtos [W][W]. Isso significa que os procedimentos de
escalonamento de valores no so os mesmos para originar [W] a partir dos
dados originais [X]. Por exemplo, na anlise das componentes principais cada
elemento de [X] dividido pelo desvio padro das colunas para produzir [W].
Na anlise fatorial pelo modo Q ocorre uma padronizao que inclue a diviso
de cada elemento de [X] pela raiz quadrada da soma de quadrados das linhas
para originar [W]. Como a matriz [W] originada pelo modo R no idntida
matriz [W] originada pelo modo Q, tal diferena entre escalas no fornece os
mesmos resultados (Davis, 1986).
A anlise das associaes usa uma matriz simetrica com a mesma
escala de valores para linhas e colunas e procura medidas de similaridade
proporcional entre objetos e variaveis. A similaridade resultante a distncia 2
utilizvel apenas para tabelas de contingncia que estima probabilidades. Uma
tabela de medidas com valores contnuos, porem, tem diferentes propriedades
e necessidade metodologia prpria para tratar simultneamente os objetos e as
variveis, como apresentado por Zhou, Chang e Davis (1983).

74

Segundo esses Autores se os dados forem escalonados de modo que o


produto menor [W][W] seja

uma matriz de correlaes e o produto maior

[W][W] uma matriz de distncias euclideanas, o modo R ao ser executado por


uma anlise das componentes principais e o modo Q por uma anlise das
coordenadas principais, os resultados apresentao a mesma configurao
espacial.
6.6. Exemplo

No artigo de Zhou, Chang e Davis (1983) apresentado como exemplo


para a aplicao da anlise R-Q em contraposio anlise das
correspondncias uma matriz de dados retirada de Sherman, Bunker e Bush
(1971). Esses dados provem da rea de Berea, Virginia/EUA, onde um
pequeno, mas altamente radioativo, pluton de quartzo-monzonito (Q) se
intrometeu em clorita-actinolita-xistos (X) e foram cobertos por areias e
cascalhos (A). Um total de 22 amostras foram coletadas e analisadas para U
(partes por milho), Th (ppm) e K (porcentgem). Alem disso foi realizado um
levantamento aereo-radiomtrico (A), com valores medidos em contagem por
segundo, para verificar a relao entre essa coleta e os dados de campo. Os
valores esto na Tabela 6.1. e foram submetidos tanto a anlise R-Q como
anlise das correspondncias.
A soluo pela analise R-Q mostrou correlaes positivas entre as
quatro variaveis consideradas e as amostras distribuiram-se por areas distintas
conforme a litologia,

ao longo do fator 1, que correspondeu a 85 da

variabilidade presente. J a anlise das correspondncias revelou um padro


diferente de distribuio, onde a variavel radiomtrica aparece no centro do
diagrama e as amostras esto ai agrupadas independentemente das diferena
litolgicas. Esses resultados so inconsistentes com a realidade geolgica e a
razo para a no deteco esta no fato que as variaveis foram medidas
segundo diferentes ordem de magnitude. A anlise das correspondncias foi
originalmente designada para analisar tablas de contigncias e quando
aplicadas tablas de valores numricos cuidados devem ser tomados para
evitar problemas de escala de mensuraes. Como apresentado no captulo
anterior, Zhou (1989) discute a aplicao de metodos robustos para a anlise

75

R-Q, e nesse trabalho apresentado um programa, ROPCA, escrito em


FORTRAN e disponvel para acesso e carregamento.
n litologia

Aero

Th
U

1X
2X
3X
4X
5Q
6Q
7Q
8Q
9Q
10 Q
11 Q
12 Q
13 Q
14 Q
15 Q
16 Q
17 Q
18 A
19 A
20 A
21 A
22 Q

240
360
420
500
580
700
600
650
770
930
1020
1000
1000
1040
1150
1000
960
420
370
400
480
730

K
0.63
2.18
2.26
1.71
2.38
3.83
3.79
4.09
4.21
4.72
6.24
5.24
4.73
4.67
5.08
5.27
5.61
2.33
2.64
2.29
2.32
5.94

2.05
5.31
5.61
6.44
7.99
8.32
9.46
14.71
12
12.78
16.31
14.51
15.79
10.3
13.11
13.4
10.31
6.83
9.88
6.02
6.14
12.86

0.13
0.31
0.34
0.7
1.73
4.26
1.53
3.11
1.9
2.92
2.29
1.88
4.64
4.17
3.97
4.36
2.05
0.47
0.58
0.34
0.32
1.35

Tabela 6.1.: Matriz de dados provenientes da regio de Berea-

Virginia/EUA

Utilisando o pacote MVSP, verso 3.1., obtem-se, com a aplicao da


Anlise das Correspondncias, o diagrama exposto na Figura 6.3, o qual esta
perfeitamente de acordo com o exemplo acima citado.

76

Figura 6.3. Anlise das associaes entre as variveis U, Th, K e

radiometria e as litologias xisto (X), quartzo-monzonito (Q) e areia e cascalho


(A)
Bastando apenas padronizar as variaveis na anlise das componentes
principais , e utilisando o mesmo pacote MVSP, o resultado apresentado
semelhante ao encontrado pelos Autores acima citados (Figura 6.4.).
.

Figura 6.4. Anlise das componentes principais entre as variveis,

padronizadas,

U, Th, K e radiometria e as litologias xisto (X), quartzo-

monzonito (Q) e areia e cascalho (A)

77

Bibliografia
BENZCRI, Jean-Paul, & others (1980) - LAnalyse des donnes. Vol. 2, LAnalyse
des correspondances: Dunod, Paris, 628p.
CARR, J.R. (1990) - CORSPOND: a portable FORTRAN-77 program
correspondence analysis: Computers & Geosciences 16(3):289-307.

for

DAVID, M.; M., DAGBERT & BEAUCHEMIN, Y. (1977) - Statistical analysis in geology:
Correspondence analysis method: Quart. Colorado Sch. Mines, 7:60p.
GABRIEL, K. R. (1971) The biplot display of matrices with application to principal
cimponents analysis: Biometrica, 58:453-467
GABRIEL, K. R. (1995,a) : Biplot displays of multivatiate categorical data, with
comments on multiple correspondence analysis: Recent Advances in Descriptive
Multivariate Analysis (ed.: W. J. Krzanowski): 190-226, Oxford Science Publ.
GABRIEL, K. R. (1995,B): MANOVA biplots for two-contingency tables: Ibid., 227-268
GORDON, A. D. (1981): Classification: Monographs on Applied Probability and
Statistics, Chapman and Hall
GOWER, J. C. (1966) Some distance properties of latent root and vector methods
used in multivariate methods: Biometrika, 55:325-338
JACKSON, J. E. (1991) A Users Guide to Principal Components: Wiley
JOLLIFFE, I. T. (1986) Principal Components Analysis: Springer Verlag
JORESKOG, K.G., KLOVAN, J.E. & REYMENT, R.A. (1976) - Geological factor
analysis: Elsevier.
REYMENT, R. A., BLACKITH, R. E. & CAMPBELL, N. A. (1984) Multivariate
Morphometrics: 2d. edition, Academic Press
SHERMAN, K. N., BUNKER, C.M. & BUSH, C. A. (1971) Correlation of uranium,
thorium and potassium with aeroradioactivity in the Berea area, Virginia: Econ.
Geol., 66:302-308
TEIL, H. (1975) - Correspondence factor analysis: An outline of its method: Journ. Intl.
Assoc. Mathematical Geology, 7:3-12.
TEIL, J. & CHEMINE (1975) - Application of correspondence factor analysis to the
study of major and trace elements in the Erta Ale Chain (Afar, Ethiopia): Jour. Intl.
Assoc. Mathematical Geology, 7:13-30.
ZHOU, D. (1989) ROPCA: A FORTRAN Program for Robust Principal Components
Analysis: Computers & Geosciences, 15:59-78
,
ZHOU, D., CHANG, T. & DAVIS, J. C. (1983) Dual Extraction of R-Mode and QMode Factor Solutions: Math. Geology, 15: 581-606

78

7. ANLISE DISCRIMINANTE

A anlise estatstica multivariada utilizando funes discriminantes foi


inicialmente aplicada para decidir qual de dois grupos pertenceriam
indivduos sobre os quais tinham sido feitas diversas mensuraes. Nessa
anlise, hoje conhecida como anlise discriminante linear, a idia bsica
substituir o conjunto original das diversas mensuraes por um nico valor Di,
definido como uma combinao linear delas
Di

= i x i + 2 x 2 +L+ p x p

Para fornecer um nico valor os termos so adicionados nessa funo


linear, e esta transformao realizada de tal modo a fornecer a razo mnima
entre a diferena entre pares de mdias multivariadas e a varincia
multivariada dentro dos dois grupos. Conhecido o Di , este ser comparado
com um certo Do , ou seja, o valor situado ao longo da linha expressa pela
funo discriminante a meio caminho entre os centros de dois grupos, com a
finalidade de verificar a qual deles o indivduo pertence. Tal processo exige,
portanto, um conhecimento "a priori" das relaes existentes entre os grupos
estudados. Isso contrasta com mtodos classificatrios multivariados, como por
exemplo a anlise de agrupamentos ou das componentes principais quando os
grupos constitudos por indivduos similares entre si emergem atravs do
esquema de classificao adotado.
Alm disso, para a aplicao de testes de significncia s funes
discriminantes, os seguintes pressupostos so necessrios:
a) que as observaes em cada grupo tenham sido escolhidas ao acaso;
b) que a probabilidade de um indivduo desconhecido pertencer a um dos
grupos seja a mesma;
c) que as variveis tenham distribuio normal;
d) que as matrizes de varincia de grupos comparados sejam de mesmo
tamanho;
e) que todas as observaes usadas para o clculo das funes discriminantes
tenham sido classificadas sem erro.

79

Nos casos em que as matrizes de varincias e covarincias so


diferentes torna-se necessrio escolher um outro mtodo que absorva tal
diferena, como o procedimento da funo discriminante quadrtica.
Um dos mtodos utilizados para o clculo das funes discriminantes
lineares o da regresso linear, onde a varivel dependente consiste na
diferena entre as mdias multivariadas de dois grupos e as variveis
independentes as variveis e covarincias das varincias em estudo. Ver a
propsito Davis (1986).
A soluo do sistema de equaes lineares resultante pode ser
resolvido, por clculo matricial, a partir de:

[Vp ] [p]
2

[ Rp]

[Vp ] = matriz, pxp, das varincias e covarincias combinadas das p variveis;


2

[]

= vetor coluna, px1, representando os coeficientes desconhecidos;

[Rp] = vetor coluna, px1, das "p" diferenas entre as mdias das variveis de
dois grupos A e B.

[ ]

Para a constituio de Vp 2 , determina-se:


a) inicialmente a matriz de soma de quadrados e produtos cruzados de todas
as "p" variveis, do primeiro grupo [Va ]

[Va ]

SQX 12

SPX 1 X 2

SPX 1 X 2
M
SPX 1S P

SQX 22
SPX 2 X P

L SPX 1 X P

L SPX 2 X P

L SPX P2

onde:

SQX 12

SPX 1 X 2

1i
n


= x12i i =1
/ n 1
n
i =1

n
n

x
x2 i

n
1i
= ( x1i . x2i ) i =1 i =1 / n 1
n

i =1

80

b) de modo similar determina-se a matriz de somas de quadrados e produtos


cruzados de todas as "p" variveis do segundo grupo [Vb ]
c) calcula-se, ento, a matriz combinada segundo:

[V ]
2
p

[Va ] + [Vb ]
na nb 2

Para o clculo de [Rp] encontram-se as diferenas segundo:

[ Rp]

R1
R
2
M

R p

X b1
X a1

X
a2 X b2

X bp
X ap

Para clculo dos coeficientes p, que iro constituir a equao da funo


discriminante, determina-se o inverso da matriz da varincias e covarincias
combinadas e em seguida multiplica essa matriz pelo vetor de diferena entre
mdias:

[p]

[ ]

= V p2

[ Rp]

O valor central do grupo A determinado por

Da

= 1 x a1 + x a 2 + L+ p x ap

e do grupo B por
Db

= 1 xb1 + xb 2 + L + p xbp

O ndice discriminante, Do , ou seja, o ponto na linha descrita pela funo


discriminante situado exatamente na metade da distncia entre os centros dos
grupos A e B, encontrado segundo:
Do

X a1 + X b1
= 1

X a 2 + X b2
+ 2

X ap + X bp
+L+ p

Para testar a significncia da funo encontrada, ou seja, verificar se os


dois grupos considerados pertencem a uma nica populao ou duas
distintas

populaes,

calcula-se

distncia

entre

as

duas

mdias

81

multivariadas, Da Db . Esta medida de distncia conhecida como distncia


generalizada de Mehalanobis, ou D, e mede a separao entre as duas
mdias multivariadas expressa em unidades de varincias combinadas.
D usada na seguinte expresso para ser testada pela distribuio F:
F

n + n p 1

= a b
(na + nb 2) p

na nb 2

D ,
na + nb

com "p" graus de liberdade para o numerador e " na + nb p 1 " para o


denominador. A hiptese nula a ser testada, estabelece que as duas mdias
multivariadas so iguais, ou que a distncia entre ambos os grupos igual a
zero significando que se trata de um nico grupo.
Ho : [ Rp] = 0, ou a = b
H1 : [ Rp] > 0

A contribuio relativa, em percentagem, de cada varivel para o


distanciamento entre os dois grupos fornecida pela expresso:
Cp

p Rp
D2

* 100

Cp mede apenas a contribuio direta da varivel, sem levar em


considerao o seu inter-relacionamento com as demais existentes.
7.1. Funes discriminantes multigrupos

Quando se trata de discriminar entre mais de dois grupos torna-se


necessrio uma generalizao na metodologia. A anlise discriminante
multigrupos, que utilisa procedimentos combinados da anlise de varincia e

da anlise fatorial, pode, ento, ser utilizada.


A analogia com a anlise de varincia que a matriz inicial de todas as
varincias e covarincias pode ser parcializada entre categorias ou grupos e
verificada a soma total de quadrados, a soma de quadrados entre gupos e a
soma de quadrados dentro dos grupos. Como no caso da anlise de varincia
convencional a soma de quadrados entre grupos [E] mais a soma de
quadrados dentro dos grupos [D] igual soma total de quadrados [T]:
[T] = [E] + [D]
82

Quando a razo [E]/[D] apresentar um valor alto isto significar que as


mdias dos grupos so bem diferentes entre si e os valores dentro de cada
grupo esto bem concentrados ao redor dos respectivos centroides, ou seja, h
uma discriminao significativa entre os grupos. O problema na anlise
discriminante , desse modo, encontrar um conjunto de pesos lineares para as
variveis que tornem essa razo mxima. Se esse conjunto de pesos for o
vetor [A1], a anlise discriminante pode ser efetuada ao encontrar os valores
dos elementos de [A1] de modo que a expresso
{[A1][E] [A1]}/{[A1][D] [A1]}, seja maximizada.
Nessa anlise usualmente especificado a restrio que o denominador
igual a 1
[A1][D] [A1] = 1.
Obedecida essa restrio a razo maximizada quando [A1] for o
autovetor correspondente ao maior autovalor de [D]-1 [E]. Pode-se em seguida,
como na anlise fatorial, encontrar eixos ortogonais [A2], [A3], etc.,

numa

sucesso decrescente de funes discriminantes segundo as quais os grupos


podem ser distintos tanto quanto possvel.
As observaes usadas no clculo das funes discriminantes podem
ser projetadas no espao definido pelos eixos discriminantes. Isto feito
segundo a multiplicao matricial
[Z] = [A][X],
onde [X] a matriz inicial de dados [N x p] e [A] a matriz [p x t] cujas colunas t
so os maiores autovetores a serem usados nas funes discriminantes.
Os centroides dos g grupos podem ser projetados no espao
discriminante por
[ZM] = [A1] [Xmk],
onde [Xmk] contem as mdias de todas as variveis para cada grupo.
Geralmente escolhe-se as duas funes discriminantes de maior peso
para servir como eixos ortogonais para uma distribuio das observaes dos
diversos

grupos

os

respectivos

centrides.

Uma

observao

multidimensional de origem desconhecida pode ser projetada nesse diagrama


pela sua multiplicao com o transposto de [A] e verificada a sua distncia aos
diversos centrides. Maiores detalhes podem ser vistos em Davis (1986).

83

7.2. Distncia Generalizada D de Mahalanobis

A distncia generalizada D de Mahalanobis tambm pode ser usada


como uma tcnica de comparao quanto separao entre diversos grupos
permitindo avaliar a extenso e a direo dos afastamentos entre os valores
mdios das variveis usadas na discriminao. As diferenas entre cada par de
grupos que esto sendo comparados so assim examinados simultaneamente
atravs das diversas variveis, que podem ser correlacionadas, de modo que a
informao fornecida por uma delas pode no ser independente da fornecida
pelas demais.
O valor numrico da maior separao possvel entre dois grupos
quaisquer chamado Distncia Generalizada entre os grupos e mede, em
escala independente da originalmente utilizada para as vrias variveis, a
clareza das disjuno entre elas.
Assim, o valor da distncia generalizada D ligando dois grupos um
nmero puro, com propriedades da distncia comum, e mede a extenso com
que diferem entre si em tamanho e forma.
A Distncia Generalizada de Mahalanobis entre os grupos i e j
usualmente estimada, segundo Rao (1952) por:
Dij2

[ x x ] [S ] [ x x ]
1

onde, xi o vetor de mdias do i'simo grupo


xj o vetor de mdias do j'simo grupo
[S] a estimativa combinada da matriz de disperso dentro dos grupos
Este mtodo de representao de diferenas

entre grupos leva em

conta qualquer correlao que exista entre as variveis usadas e tambm


independente das unidades de medida com que as variveis esto expressas.
Para o clculo da distncia generalizada, por exemplo, usando apenas
duas variveis (V1 e V2), correlacionveis, utiliza-se da expresso:
D2

R'.V 1. R

84

12
onde R = 11

V
V

22
21

R' =

[V11

V12 , V21 V22 ]

S2
v1

V =
rv v .s .s
1 2 v1 v2

rv v .s .s
1 2 v1 v2

S2

v2

Os resultados dos clculos das distncias generalizadas podem ser


expressos aproximadamente por meio de grficos bidimensionais que
representam

configurao

dos

grupos

considerados

no

espao

multidimensional das mensuraes.


7.3. Exemplo: Distino entre areias elicas e praias pela anlise discriminante
linear.

Em Sedimentologia ainda bastante comum a utilizao de ndices


baseados em percentis

para descrever as caractersticas da distribuio

granulomtrica, pela sua convenincia e

simplicidade de clculo. Diversas

crticas tem sido formuladas ao emprego desses ndices pois a sua eficcia
praticamente nula quando da utilizao de modelos estatsticos formais em que
valores amostrais devam estimar parmetros da populao. Ver propsito
Davis e Ehriich (1970). Por outro lado quando colocados num sistema de

coordenadas

cartesianas,

pares

de

ndices

fornecem

separaes

ou

agrupamentos de amostras que so empiricamente interpretados como devido


a um controle sedimentar, pois ambientes diversos de sedimentao
conduziriam distribuies granulomtricas diferentes cujos percentis obtidos
forneceriam distintos ndices. Existem diversos trabalhos sobre o assunto na
tentativa de estabelecer um relacionamento entre esses

ndices e as

condies de sedimentao (Folk e Ward: 1957; Mason e Folk, 1958;


Friedman, 1961; Shepard e Young, 1961: Passega, 1962; Sahu, 1964; Folk,

1966; Moiola e Weiser, 1968; Visher, 1969).


Entre os vrios ndices propostos os sedimentologistas usam com maior
freqncia aqueles devido Folk e Ward (op.cit). Segundo esse mtodo
obtm-se inicialmente, a partir da curva de freqncia granulomtrica
85

acumulada, em que os intervalos de classes esto na escala phi (Krumbein.


1934), os valores no eixo do x correspondentes aos percentis 5% (x5), 16%
(x16), 25% (x25), 50% (x50), 75% (x75), 84% (x84) e 95% (x95). A escala phi uma
transformao segundo a qual em vez de se usar os valores para tamanho dos
gros em mm (x1 ), utiliza-se -log2x1.
Em seguida esses valores so combinados de forma a oferecer
estimativas grficas da mdia, desvio padro, assimtrica e curtose da
distribuio de freqncia amostral.
Se esses quatro ndices so os mais aceitos, o mesmo no acontece
sobre a escolha de qual, ou quais, que so os melhores indicadores para
especficos ambientes de sedimentao. Em outras palavras, quais os que
podem ser usados para separar amostras provenientes de diferentes
ambientes de deposio.
Neste caso a tentativa usual e comparar diversos grficos bivariados e
subjetivamente escolher aqueles dois ndices que melhor separem os
conjuntos de amostras considerados.
O problema tanto da discriminao entre ambientes de sedimentao
coma da importncia de cada um dos ndices utilizados para tal discriminao
pode, todavia, ser enfrentado com a utilizao do mtodo multivariado das
funes discriminantes.
Como exemplo disso Landim e Castro (1981) fizeram uma comparao
entre amostras provenientes de ambiente praial com amostras de ambiente
elico utilizando as funes discriminantes. Para a aplicao dessa anlise
foram escolhidos dois trabalhos constantes da literatura:
a) o de Martins (1967) sobre sedimentos no litoral sul riograndenses e
b) o de Landim et alli (1977) sobre sedimentos da Ilha Comprida no
litoral sul paulista.

a) Sedimentos praiais e elicos da plancie costeira do Rio Grande do Sul


(Martins, op.cit).
Nesse trabalho foram coletados 70 amostras provenientes de praia e
100 de duna. Para cada uma dessas amostras o autor obteve, segundo a
86

metodologia citada de Folk e Ward (op.cit), os valores para a mdia, desvio


padro, assimetria e curtose. A funo discriminante encontrada foi:
Di

= 0,79 M z + 0,13 i 13,96 SK 21,54 K g'

A partir dessa funo foram determinados os seguintes valores:


Dp

-10.90 (ambiente praial)

De

15.13 (ambiente elico)

Do

-13.02

D2

4.23

Isso significa que amostras que apresentaram um valor calculado Di


maior que -13,02 indicaram ambiente praial e aqueles com Di menor indicaram
ambiente elico. Neste caso a probabilidade de erro foi da ordem de 0,18 para
os dois grupos considerados, isto , entre as 70 amostras elicas estudadas 8
tinham uma maior probabilidade de associao com o ambiente praial e entre
as 109 praial 9 tinham uma

maior probabilidade de associao com o

ambiente elico.
F(calculado) = 44.28
Como F(0.05;

4,174)=

2.45, a hiptese nula de que ambas as mdias

multivariadas fossem iguais, foi rejeitada.


A porcentagem de contribuio direta de cada varivel para a
discriminao entre os dois conjuntos de dados foi
Mz

= 1,88%

= 0,38%

Sk

= 78,13%

Kg

= 19,60%

significando que a varivel que mais contribuiram para a discriminao entre


as amostras dos dois grupos foi a assimetria.

87

b) Sedimentos praiais e elicos da Ilha Comprida, no litoral sul do Estado de


So Paulo (Landim, et al, op.cit).
Nesse trabalho foram coletadas 120 amostras provenientes de dunas e
75 amostras ao longo da linha da mar baixa. Para todas essas amostras
foram tambm obtidos os valores para mdia, desvio padro, assimetria e
curtose normalizada pelo mtodo grfico de Folk e Ward (op.cit.).
Existindo 3 grupos de amostras, os mesmos foram considerados dois a
dois da seguinte maneira:
a) amostras elicas e amostras de praia coletadas ao longo da linha da
mar;
b) amostras elicas e amostras de praia coletadas ao longo da linha de
mar baixa;
c) amostras de praia, mar alta e amostras de praia, mar baixa.
Os resultados foram os seguintes:
a) a funo discriminante encontrada para amostras elicas e amostras de praia
(mar alta), foi
Di

= 7.40 M z 7.67 I + 113


. k + 6.75k 'g

A partir dessa funo foram determinados os seguintes valores:


Do

= 24.565 (ambiente elico)

Dpb

= 21.0065 (ambiente praial, mar alta)

Do

= 22.815

D2

= 3.500

A probabilidade de erro foi da ordem de 0.001, isto , entre as 120


amostras elicas estudadas 3 apresentaram valores de Di inferiores a 22.815 e
entre as 75 amostras praiais (mar alta) estudadas 27 apresentaram valores de
Doi superiores a 22.815 (Fig. 2)
F(calculado) = 39.76
Como F( 0.05; 4.190 ) = 2.45 , a hiptese nula de que ambas as mdias
multivariadas fossem iguais, foi rejeitada.
A porcentagem de contribuio direta de cada varivel para a
discriminao entre os dois conjuntos de dados foi:

88

Mz

= 54.65%

= 20.77%

Sk

= 5.46%

Kg

= 19.12%

b) A funo discriminante encontrada para amostras elicas e amostras de praia


(mar baixa), foi
Di = 6.68 M z 4384
. I + 6.55S k + 12.12 k 'g

A partir dessa funo foram determinados os seguintes valores:


Dz

= 19.78 (ambiente elico)

Dpb

Do

= 13.61

D2

= 12.34

7.44 (ambiente praial, mar baixa)

A probabilidade de erro foi da ordem de 0.0003, isto , entre as 120


amostras elicas estudadas 3 apresentaram valores de Di inferiores a 13.61 e
entre as 75 amostras praiais (mar baixa) estudadas 9 apresentaram valores Di
superiores a 13.61 (Fig. 3).
F(calculado) = 140.17
Como F( 0.05; 4.190 ) = 2.45 , a hiptese nula de que ambas as mdias
multivariadas fossem iguais, foi rejeitada.
A porcentagem de contribuio direta de cada varivel para a
discriminao entre os dois conjuntos de dados foi:
Mz

= 24.50%

= 59.33%

Sk

Kg

= 10.47%

5.70%

c) A funo discriminante encontrada para amostras de praia, mar alta e


mar baixa, foi
Di = 138
. M z + 24.12 I + 2.07 K 11.42 K 'g

A partir dessa funo foram determinados os seguintes valores:


Dpa

=- 17.27 (praial, mar baixa)-

89

Dpb

= 18,79 (praial, mar baixa)

Do

= 18.03

1.52

A probabilidade de erro foi da ordem de 1.19, isto , entre as 75


amostras de linha de mar alta 16 apresentaram valores de Di inferiores a 18.03 e entre as 75 amostras da linha de mar baixa 33 apresentaram valores
de Di superiores a -18.03 (Fig. 4).
F(calculado) = 13.94
Como F( 0.05; 4.145 ) = 2.45 a hiptese nula de que ambas as mdias
multivariadas fossem iguais, foi rejeitada.
A porcentagem de contribuio direta de cada varivel para a
discriminao entre os dois conjuntos de dados foi:
Mz

= - 17.59%

= 114.93%

Sk

8.34%

Kg

5.67%

Como visto, as funes discriminantes podem ser utilizadas no apenas


na distino entre ambientes de sedimentao, como j verificado por Autores
como Greenwood (1960), Middleton (1962), Mellon (1964); Sahu (op.cit.),
Landim e Frakes (1968),

Moiola e

Weiser ( 1969),

entre outros, mas

tambm para fornecer informaes sobre quais as variveis mais importantes


para essa separao. Nesse sentido, verificou-se que as variveis que mais
contribuem para a discriminao entre os ambientes elico e praial

nem

sempre so as mesmas.
Isso uma constatao digna de meno, porque tem sido atribuda
uma importncia muito grande ao ndice assimetria para a distino entre
esses dois ambientes (Masson e Folk, op.cit.; Friedman, 1961; Folk e
Robles, 1964; Duane, 1964; Martins, 1965). Inclusive no primeiro exemplo

aqui estudado, isto , o referente ao litoral riograndense, tal hiptese foi


confirmada, pois o ndice assimetria o que mais contribui para a distino
entre os ambientes. Para este caso, a seguinte explicao apresentada:
depsitos praiais ocorrem em ambientes de alta energia onde as partculas

90

esto continuamente submetidas aos processos de "swash" (saca) e


"backwash" (ressaca) das ondas. Desse modo os finos so removidos pelo
"backwash" que no tem competncia para remover o material mais grosseiro
depositado pelo "wash", ocasionando uma distribuio granulomtrica com
assimetria negativa. A ao do vento carregando material para as dunas
capaz de transportar mais material fino que grosseiro resultando uma
distribuio granulomtrica com tendncia assimetria positiva.
Por outro lado no caso de Ilha Comprida a varivel mais importante para
distinguir o ambiente elico do ambiente praial ao longo da ilha da mar alta foi
o ndice mdia, e para distinguir aquele ambiente do praial ao longo da linha da
mar baixa foi o ndice desvio padro. A distino entre os dois sub-ambientes
praiais baseia-se fundamentalmente ao ndice desvio padro.
A interpretao desses resultados esta ligada ao fato de que distribuio
granulomtrica de um sedimento controlada por:
a) material disposio;
b) processos sedimentares de eroso, transporte e deposio;
c) nvel energtico do ambiente de deposio.
Como esses fatores variam dentro de um mesmo ambiente de
sedimentao, ocorre para cada um dos ndices granulomtricos, comumente
utilizados em Sedimentologia, uma variabilidade associada. No caso da
plancie costeira gacha a fonte de material a existente principalmente areias
retrabalhadas dos cordes litorneos e das formaes pleitocenicas ocorrentes
na regio, e o processo sedimentar atuante deve ser aquele apresentado atrs.
Nesse caso as areias elicas apresentam um valor mdio para o ndice
assimetria de 0,13 e as areias praiais de -0,11. Tambm apresentam para o
ambiente elico um valor mdio para o ndice desvio padro de 0,24, e para o
ambiente praial, respectivamente, os valores 2,41 e 0,37. Isso significa que as
areias so, em mdia, mais grosseiras e pior selecionadas no ambiente praial
que no ambiente elico.
Na Ilha Comprida a principal fonte fornecedora de dettos para os
diversos ambientes um extenso depsito de sedimentos originados por
regresso pr-atual, do tipo "blanket sand", constitudo por areias muito finas,
homogneas e bem selecionadas, a que Suguio e Petri (1973) propuseram o
termo Formao Canania. Os valores mdios para o ndice mdia, desvio
91

padro e assimetria para as areias elicas, praial (linha da mar alta) e praial
(linha da mar baixa) so respectivamente, 2.92, 0.21 e 0.27; 2.66, 0.30 e 0.10;
2.47; 0.37 e 0.16. Isso significa que o ambiente elico apresenta, em mdia,
areias mais finas e melhores selecionadas que os sub-ambientais praiais e que
todos esses ambientes mostram, em mdia, valores positivos para assimetria.
Num estudo sedimentolgico sobre as areias praiais da Ilha Comprida,
Barcelos (1975) verificou que h diminuio dos valores do dimetro mdio de

sul para norte da Ilha, predominando, portanto, areias mais grosseiras na


regio sul. Quanto ao grau de seleo, ocorre tambm uma melhoria no
sentido norte. claro que essa diferenciao mais marcante ao longo da
linha da mar baixa, pois a o nvel energtico maior.
Para explicar a importncia da varivel media no caso do ambiente
elico e praial (linha de mar alta) deve se ter em mente que a densidade, a
viscosidade e a competncia do vento so menores comparadas com a gua, o
que acaba por refletir no tamanho dos gros que so maiores neste ambiente
do que naquele.
No caso dos ambientes elico e praial (linha da mar baixa) a varivel
mais importante revelada foi o ndice desvio padro, pois as flutuaes na
velocidade do vento de menor magnitude, em termos de valor hidrulico, que
num ambiente praial, principalmente ao longo da linha da mar baixa, e,
portanto, sedimentos elicos so melhores selecionados.

92

BIBKIOGRAFIA
BARCELOS, J.H. (1975) - Sedimentao e subambientes deposicionais da Ilha
Comprida, So Paulo: Dissertao de Mestrado, Instituto de Geocincias, USP
(indito).
DAVIS, J.C (1986) - Statistics and Data Analysis in Geology: 2th ed., John Wiley and
Sons, Inc.
DUANE, D.B (1964) - Significance of skewness in Recent Sediments, Western Palmico
Sound, North Carolina: Jour. Sed. Petrology, 34:
FOLK, R. L. (1966) - A review of grain-size parameters: Sedimentology, 6:73-93.
FOLK, R.L. & ROBLES, R. (1964) - Carbonate sands of Isla Perez, Alacran Roef
Complex, Ycatan: Jour, Geology, 72:255-292.
FOLK, R.L. & WARD, W.C. (1957) - Brazos river bar: a study in the significance of
grain size parameters: Jour. Sed. Petrology, 27:3-26.
FRIEDMAN, G.M. (1961) - Distinction between dune, beach, and river sands from their
textural characteristics: Jour. Sed. Petrology, 31:514-529.
GREENWOOD, B. (1960) - Sediment parameters and evironment discrimination: an
application of multivariate statistics: Canad. Jour. Earth Sc., 6:1347-1358.
LANDIM, P.M.B. & CASTRO, P.R.M. (1981) - Distino entre areias elicas e praiais
pela anlise discriminante: Not. Geomorfol., 21:41-60.
LANDIM, P.M.B. & FRAKES, L.A. (1968) - Distinction between tills and other
diamictions based on textural characteristics: Jour. Sed. Petrology, 38:1213-1223.
LANDIM, P.M.B.; PISANI, J.F. & BSIO, N.J. (1977) - Aplicao do D2 de Mahalanobis
na distino de ambientes de sedimentao: An. Acad. Brasil. Cinc., 49:259-268.
MARTINS, L.R. (1965) - Significance of skewness and kurtosis in environmental
interpretation: Jour. Sed. Petrology, 35:768-770.
MARTINS, L.R. (1967) - Aspectos texturais e deposicionais dos sedimentos praiais e
elicos da plancie costeira do Rio Grande do Sul: Esc. Geol. Porto Alegre, Publ.
EspEcial n 13:1-100.
MASON, C.C. & FOLK, R.L. (1958) - Differentiation of beach, dune, and aeolian flat
environments by size analysis, Mustang Island, Texas: Jour. Sed. Petrology,
28:211-226.
MELLON, G.B. (1964) - Discriminatory analysis of calcite and silicate cemented phases
fo the Montain Park sandstone: Jour. Geology, 72:786-809.
MIDDLETON, G.V. (1962) - A multivariate statistical technique applied to the study of
sandstone composition: Trans. Royal Soc. Canad, 56:119-126.

93

MOIOLA, R.J. & WEISER, D.C. (1968) - Textural parameters: and evaluation: Jour.
Sed. Petrology, 38:45-53.
MOIOLA, R.J. & WEISER, D. (1969) - Environmental analysis of ancient sandstone
bodies by discriminant analysis: Bull. Amer. Ass. Petrol. Geol., 53:733.
PASSEGA, R. (1957) - Texture as characteristic of clastic deposition: Am. Assoc.
Petroleum Geologists Bull., 41:1952-1984.
RAO, C.R. (1952) - Advanced statistical methods in biometric research: John Wiley
and Sons.
SAHU, ,K, (91964) - Depositional mechanisms from the size analysis of clastic
sediments: Jour. Sed. Petrology, 34:73-83.
SHEPARD, F.P. & YOUNG, R. (1961) - Distinguishing between beach and dune
sands: Jour. Sed. Petrology, 31:196-214.
SUGUIO, K. & PETRI, S. (1973) - Stratigraphy of the Iguape-Cananeia logoonal region
sedimentary deposits, So Paulo, Part 1: Field observations and grain-size
analysis: Bol. I.G., Inst. Geocincias, USP, 4:1-20.
VISHER, G. (1969) - Grain size distribuitions and depositional processes: Jour. Sed.
Petrology: 39:1074-1106.

94

8. EXEMPLO DE ANLISE ESTATSTICA MULTIVARIADA INTEGRADA

Como exemplo de aplicao integrada

dos mtodos estatsticos

multivariados so utilizados os dados obtidos por Arajo (1976), e j


analisados

por

Landim

Perinotto

(1981),

para

exemplares

de

mesossaurdeos coletados em diversas localidades ao longo da faixa de


afloramentos da Formao Irati na borda leste da Bacia do Paran. Foram
consideradas

trs

espcies:

Stereosternum

tumidum

(Cope,

1886),

Mesosaurus brasiliensis (MacGregor, 1908) e Brazilosaurus sampauloensis

(Shikama e Ozaki, 1966). Os valores esto expostos na Tabela 8. 1.

Exemplar
M01
M02
M03
M04
M05
M06
M07
M08
M09
M10
M11
M12
M13
M14
M15
S16
S17
S18
S19
S20
S21
S22
S23
S24
S25
S26
S27
S28

Crnio (cm)
7,1
6,7
6,7
8,9
7,1
7,2
7,6
7,9
7,8
9,2
7,1
9,6
5,1
7,9
7,2
6,0
5,8
5,8
6,6
4,7
6,4
5,8
6,2
6,5
5,2
6,2
6,5
5,5

Pescoo (cm)
6,0
4,8
5,3
5,6
5,2
4,9
4,9
5,8
5,1
6,8
6,0
8,3
4,2
6,2
4,3
5,5
4,6
5,1
5,3
4,6
5,8
4,7
6,0
7,1
5,6
6,6
5,8
5,6

Dentes (mm)
Comprimento
4,75
7,50
7,00
11,25
8,75
8,75
7,50
11,25
5,75
11,75
8,25
7,75
4,25
9,25
4,00
4,00
3,25
2,00
4,25
2,25
3,75
3,50
4,50
3,50
3,00
3,75
3,00
4,50

Largura
0,50
0,37
0,50
0,75
0,75
0,75
0,50
0,75
0,50
0,75
0,75
0,75
0,50
0,50
0,50
0,50
0,50
0,50
0,37
0,50
0,50
0,50
0,50
0,75
0,50
0,50
0,75
0,75
95

B29
B30
B31
B32

5,3
4,9
5,0
5,2

7,2
7,6
7,3
7,7

2,00
0,75
2,75
2,00

0,50
0,45
0,50
0,75

Tabela 8.1. Medidas obtidas em Mesosaurus brasiliensis (M), Stereosternum


tumidum (S), e Brazilosaurus sampauloensis (B)

Para a anlise de agrupamentos, usando o modo Q com o coeficiente


distncia euclidiana e mtodo UPGM, obteve-se, utilisando o pacote MVSP,
o dendrograma exibido na Figura 8.1. Verifica-se que os exemplares M01, M15
e M13, tidos como Mesosaurus, esto localizados dentro de grupo do
Stereosternum. Alm disso os quatro exemplares B29, B32, B31 e B30, todos

do genero Brazilosaurus, formam um grupo integrado ao do Stereosternum. Tal


constatao merece uma reflexo sobre a validade ou no de atribuir os
exemplares M01, M15 ao gnero Mesosaurus. Alerta tambm para a
possibilidade de questionar a validade do gnero Brazilosaurus.

Figura 8.1. Dendrograma, modo Q, para os mesossaurdeos da Formao Irati.

96

Os mesmos dados submetidos anlise das componentes principais,


pelo pacote MVSP, fornece os seguintes autovalores e autovetores:
eixos

autovalores Porcentge

acumulada

10,257

86,91

86,91

1,170

9,92

96,83

0,363

3,07

99,90

0,011

0,10

100,00

Variveis

autovetor 1

Autovetor 2

autovetor 3

autovetor 4

Crnio

0,343

0,263

0,901

0,011

Pescoo

-0,022

0,961

-0,271

-0,047

Comp.dent

0,939

-0,075

-0,335

-0,025

0,019

0,041

-0,031

0,999

e
Larg.dente

Este resultado mostra que o maior peso para a constituio do autovetor


1, que responde por 86,91% da variabilidade presente, a varivel
comprimento dos dentes e para o vetor 2, com 9,92%, a varivel pescoo.
A multiplicao da matriz original de dados pela matriz de autovetores
fornece os factor scores dos espcimes. Escolhidos os dois principais eixos ou
fatores, correspondendo a uma porcentagem acumulada dos autovalores da
ordem de 96,83%, obtm-se a distribuio espacial dos factor scores (Figura
8.2.).

97

Figura 8.2. Distribuio conjunta dos factor scores e variveis, em relao aos

dois principais fatores


Os resultados fornecidos pela anlise das componentes principais , so
bastante semelhantes aos obtidos pela anlise de agrupamentos e, portanto,
merecem as mesmas consideraes anteriormente apresentadas. Nesta
anlise constata-se, novamente, que os espcimes 01, 13 e 15, referidos a
Mesosaurus, esto mais associados ao campo dos Stereosternum. Tambm a

posio espacial de Brazilosaurus mais prxima Stereosternum do que


Mesosaurus.

Aps aplicao dessas duas anlises resta a questo de decidir se


ocorre uma separao significante entre as populaes estudadas. Caso seja
esse o caso escolher quais as variveis mais importantes para a discriminao
entre esses taxas. Para tanto utiliza-se da anlise discriminante linear entre
dois grupos, com a utilizao do pacote MVSP.

Os resultados, j apresentados por Landim e Perinotto (1976), so os


seguintes:
a) Funo discriminante para Mesosaurus brasiliensis x Stereosternum
tumidum:

Di

= 2,66 Ccri 2,56 Cpi + 111


, Cd i 3,40 Ld i

DM = 12,46/ DS = 3,55/ Do = 8,00/ D = 8,91


Teste F = 13,72 (F4/23 = 2,80)

98

De acordo com a funo discriminante entre os exemplares utilizados


para a anlise, os de designao (M01) e (M13), assinalveis a Mesosaurus
brasiliensis, apresentam respectivamente os valores Di = 7,087 e Di = 5,824, o

que indica provavelmente que esses espcimes estejam mal classificados


como Mesosaurus brasiliensis e que talvez, levando em considerao as
quatro variveis estudadas, pertenam espcie Stereosternum tumidum.
Recomenda-se neste caso uma anlise osteolgica mais detalhada ou mesmo
verificao do nvel estratigrfico de onde provenham.
A porcentagem de contribuio direta de cada varivel para a
discriminao entre os dois conjuntos de dados : comprimento dos dentes
= 54,46%; comprimento do crnio = 47,79%; comprimento do pescoo =
0,04%; largura dos dentes = - 2,29%
Esses resultados indicam que as variveis mais importantes na distino
entre as duas espcies so o comprimento dos dentes e secundariamente, o
comprimento do crnio; alm disso, demonstra a validade das afirmaes de
Arajo (op. cit.) quando conclui que o comprimento do pescoo no demonstra

diferena significativa e que a largura dos dentes entre as duas espcimes no


se altera.
b) Funo discriminante para Stereosternum tumidum x Brazilosaurus
sanpauloensis:

Di

= 7,82 Ccri 9,48 Cpi + 2,48 Cd i 16,78 Ld i

DS = 11,55/ DB = -16,86/ Do = -2,65/ D = 28,40;


Teste F = 17,38 (F4/12 = 3,26)
Cada varivel considerada na discriminao contribuiu diretamente com
a seguinte porcentagem: comprimento do pescoo = 63,03%; comprimento do
crnio = 23,09%; comprimento dos dentes = 14,00%; largura dos dentes = 0,14%
Com esses resultados, correto dizer que o comprimento do pescoo
a varivel mais significativa na distino entre essas espcies, o que vem
corroborar com as concluses de Arajo (op. cit.) ao testar as afirmativas de
Shikama & Ozaki (op.cit.).

c) Funo discriminante para Mesosaurus brasiliensis x Brazilosaurus


sampauloensis

99

Di

= 8,35Ccri 9,27Cpi + 0,68 Cd i 4,01Ld i

DM = 14,30/ DB = -27,43/ Do = -6,56/ D = 41,73


Teste F = 27,13 (F4/14 = 3,11)
As variveis mais importantes na distino entre as duas espcies so o
comprimento do crnio (48,80%) e o comprimento do pescoo (41,99%). A
contribuio direta do comprimento dos dentes de 9,76%, enquanto que a
largura dos dentes em nada contribuiu (-0,56%). Esses resultados quantificam
e demonstram a validade de deduo de Arajo (op. cit.) em relao
distino entre essas duas espcies.
A anlise multivariada das funes discriminantes mostra-se

eficaz,

comprovando estatisticamente a existncia dos trs taxa, Sterreosternum


tumidum, Mesosaurus brasiliensis e Brazilosaurus sanpauloensis, trabalhando

ao mesmo tempo com as quatro variveis consideradas para a discriminao e


fornecendo aquelas de maior importncia na distino entre esses taxa. Entre
Stereoternum tumidum e Mesosaurus brasiliensis, o comprimento dos dentes,

entre Stereosternum tumidum e Brazilosaurus sanpauloensis, o comprimento


do pescoo e entre Mesosaurus brasiliensis e Brazilosaurus sanpauloensis os
comprimentos de crnio e escoo. Nas Figuras 8.3. e 8.4. acham-se
representado o relacionamento entre esses fsseis.

100

Figura 8.3. - Grficos mostrando os valores Di ao longo da linha discriminante

101

Figura 8.4. - Afastamento entre os grupos usando a distncia generalizada de

Mahalanobis (D2)
Isso est de acordo com Bertini (informao verbal) quando afirma que o
gnero Brazilosaurus provavelmente a forma ancestral

dos outros dois

gneros e o mais terrestre dos mesossauros, com pescoo longo que favorece
a

predao,

Stereosternum.

parecendo

ter

compartilhado

seu

nicho

ecolgico

com

O gnero Stereosternum teria vivido em guas rasas

perifricas com maior energia de deposio e condies mais aerbicas.


Quanto ao Mesosaurus teria habitado guas depocntricas e seria o mais
aqutico dos mesossaurdeos, providos de longos e finos dentes, muito
provavelmente filtrador suspensvoro, e com pescoo curto.
Finalmente foi feita uma anlise discriminante multigrupos, com o auxlio
do pacote STATISTICA, tendo sido obtido o resultado apresentado na Figura
8.5.

102

Figura 8.5. Anlise discriminante entre os tres grupos de mesossaurdeos

BIBLIOGRAFIA
ARAUJO, D.C. (1976) - Taxonomia e Relaes dos Progranossauria da Bacia do
Paran: An. Acad. Brasil. Cinc., 48 (1):91-116
COPE, E.D.(1886) - A contribution to the vertebrate paleontology of Brazil: Proc. Amer,
Phil. Soc., 23:7-15.
LANDIM. P.M.B. & PERINOTTO, J.A.J. (1981) - Taxonomia numrica dos
messoraurdeos da Formao Irati (P, Bacia do Paran): Soc. Bras. Geo., Ncleo
de So Paulo, Atas do 3 Simp. Reg. Geologia, 2:201-212.
MACGREGOR (1908) - Mesosaurus brasiliensis nov. sp.: Rel. Final Comisso Est.
Minas de Carvo de Pedra do Brasil, Rio de Janeiro, 2:301-336.
MVSP Plus (1998) Kovach Computing Services, verso 3.0
SHIKAMA, I. & OZAKI (1966) - On a Reptilian Skeleton from the Paleozoic Formation
of San Paulo, Brazil: Trans. Proc. Paleont. Soc. Japn NS., 61:351-358.
STATISTICA for Windows (2000) StatSoft Inc.,, verso 5.5

103

9. ANLISE ESTATSTICA DE DADOS GEOLGICOS MULTIVARIADOS


COM DISTRIBUIO

ESPACIAL

Os mtodos clssicos da anlise estatstica multivariada, como visto


neste texto, no levam em considerao a localizao das amostras, no
sentido geolgico, nem as suas relaes espaciais e tambm no refletem as
diferenas quanto o suporte das amostras ou com relao ao suporte da regio
onde o estudo esta sendo realizado. Por outro lado a metodologia
geoestatstica univariada tem essas propriedades, mas no capaz de tratar
da correlao espacial entre diversas variveis. Ferramentas se tornam, ento,
necessrias para incorporar essas importantes feies e da a necessidade de
mtodos estatsticos que enfoquem a anlise espacial de dados geolgicos
multivariados.
Para tanto solues tem sido apresentadas: umas, adaptativas,
procurando, a partir dos resultados dos mtodos clssicos, verificar se os
mesmos apresentam uma organizao espacial significativa e outras,
especficas, desenvolvendo metodologias prprias para esta problemtica.
9.1. Adaptao de mtodos estatsticos multivariados

Caso as amostras, no sentido geolgico, sejam georreferenciadas os


grupos resultantes da anlise de agrupamentos/modo Q podero ser
submetidos a uma verificao espacial para a constatao de algum padro de
distribuio

espacial

desses

grupos.

De

modo

idntico

os

scores,

provenientes de pontos com coordenadas geogrficas conhecidas, de


componentes principais ou de fatores podero fornecer mapas de distribuio
ou de tendncia. A anlise discriminante pode ser aplicada para avaliar e
comparar alteraes ocorridas a intervalos de tempo indicando que variveis
mais contribuiram para essas mudanas. So adaptaes de mtodos
estatsticos multivariados procurando modelar espacial ou cronolgicamente
fenmenos geolgicos. Isso, porem, smente possvel se as amostras da
matriz de dados tem perfeitamente conhecidas as suas coordenadas
geogrficas.

104

Um ilustrativo exemplo apresentado por Bernardi, Fowler e Landim


(1997), onde aplicada a anlise das componentes principais num estudo

sobre impacto ambiental para verificar a importncia das variveis coletadas


num efluente de uma fbrica de papel e celulose ingressando num corpo
receptor. As amostras foram coletadasno rio Paraba do Sul, na fazenda
Coruputuba, no municpio de Pindamonhangaba, Estado de So Paulo, Brasil.
A rea amostrada era da ordem de 2900 m de comprimento por 100 m de
largura, com um total de 290000 m2. Foram amostrados 90 pontos numa malha
regular, na qual os pontos no sentido sul para o norte foram eqidistantes em
100m, e no sentido leste para oeste em 50m, sendo considerado o ponto 0m
na margem direita, o ponto 50m no meio do rio e 100m na margem esquerda.
As variveis obtidas foram: riqueza de gneros do plncton, pH, temperatura,
oxignio dissolvido, transparncia da gua, cor e turbidez da gua. As
amostras de plncton foram coletadas com rede horizontal de malha de 50 m,
durante 10 minutos. Com exceo das anlises para cor , turbidez e DBO, as
demais foram realizadas no campo para maior confiabilidade dos resultados.
Pela aplicao da anlise das componentes principais os Autores
verificaram que na primeira componente, com uma porcentagem de explicao
de 84,64%, as maiores cargas vetoriais, em mdulo, ficaram com as variveis
transparncia (0,975), OD (0,969), DBO (-0,984) e cor (-0,969). Para a segunda
componente as responsveis pelas maiores cargas foram as variveis
profundidade da luz (0,145) e nmero de gneros do plncton (-0,780). Devido
as maiores cargas na primeira componente obtida serem provenientes das
variveis fsico-qumicas, esta componente foi interpretada como sendo
controlada por fatores abiticos. Como na segunda componente, com uma
porcentagem de explicao de 8,37%, a carga mais alta foi devido a varivel
riqueza de gneros do plncton, ela foi considerada como controlada por
fatores biolgicos. (Tabela 9.1.).
Tabela 9.1. Cargas das componentes principais sem rotao
Componentes

II

III

N0 Gneros

0.621

-0.780

0.066

pH

0.957

0.019

-0.033

105

Temperatura

-0.859

0.025

0.508

OD

0.969

0.031

0.130

da 0.975

0.145

0.053

Profundidade
luz

Na

DBO5

-0.984

-0.064

-0.085

Cor

-0.969

-0.129

-0.015

Turbidez

-0.967

0.133

-0.156

% de variao

84.643

8.366

3.941

Tabela 9.2. esto os resultados aps a rotao fatorial. Como

esperado, tal rotao das componentes mostrou um aumento da cargas das


variveis nos respetivos eixos.
Tabela 9.2. Cargas das componentes principais rotacionados (Quartimax)
Componentes
N0 Gneros

II

III

0.531

0.845

-0.020

pH

0.951

0.083

-0.073

Temperatura

-0.833

-0.077

0.546

OD

0.970

0.085

0.090

-0.033

0.021

Profundidade

da 0.987

luz
DBO5

-0.987

-0.051

-0.046

Cor

-0.997

0.021

0.018

Turbidez

-0.981

0.014

-0.124

% de variao

83.589

9.240

4.122

As Figuras 9.1. e 9.2. mostram a distribuio espacial dos escores das


duas principais componentes, aps rotao. Na Figura 9.1. os escores da
primeira componente no variam nas margens esquerda, ou seja, na parte no
afetada, direita e meio do rio antes da entrada do efluente. Aps a entrada, a
componente abitica comea a variar decaindo a partir da coordenada NS
1100m, assumindo valores negativos e voltando a crescer a partir da
coordenada NS 2000 m. Este comportamento pode ser explicado pelo aumento
106

de DBO5, cor e turbidez com a entrada do efluente e a diminuio do OD e da


transparncia. A segunda componente (Figura 9.2.) varia pouco na margem
esquerda decaindo na regio do meio do rio. A margem direita comea com
cargas positivas, decaindo a partir dos ponto de coordenada 1100m, voltando a
crescer depois do ponto de coordenada 2000m.

Figura 9.1.Variao espacial da primeira


componente

Figura 9.2. Variao espacial da segunda


componente

9.2. Metodologia especfica para anlise estatstica multivariada espacial


9.2.1. Cokrigagem

O termo Geoestatstica, com significado de estatstica de dados


georreferenciados, foi cunhado por Matheron (1962 e 1963) em seu trabalho
metodolgico sobre o comportamento das chamadas variveis regionalizadas,
ou seja, com comportamento espacial.

107

A geoestatstica consiste na aplicao da teoria das variveis


regionalizadas para efetuar estimativas dentro de um contexto regido por um
fenmeno natural com distribuio no espao ou no tempo e, desse modo,
supe que os valores das variveis so correlacionados no espao ou no
tempo. Devido a essa caracterstica, a geoestatstica tem tido grande aplicao
principalmente para efetuar estimativas e/ou simulaes de variveis em locais
no amostrados.
De uma forma geral, a metodologia geoestatstica procura extrair, de
uma aparente aleatoriedade dos dados coletados, as caractersticas estruturais
do fenmeno regionalizante, ou seja, uma funo de correlao entre os
valores situados numa determinada vizinhana e direo no espao amostrado.
O mtodo de estimao utilizado o da krigagem. Trata-se de um processo de
estimao por mdias mveis, de valores de variveis distribudas no espao a
partir de valores adjacentes, enquanto considerados como interdependentes por
uma funo denominada de semivariograma.
Se uma varivel regionalizada x(i) for coletada em diversos pontos i, o
valor de cada ponto estar relacionado com valores obtidos a partir de pontos

situados a uma certa distncia h e a influncia ser tanto maior quanto menor
for a distncia entre os pontos. O grau de relao entre pontos numa certa
direo pode ser expresso pela covarincia, sendo os pontos regularmente
espaados por mltiplos inteiros de h.
Para uma distncia h

infinitamente pequena a covarincia e a

varincia se tornam muito prximas, porm para h maiores, a covarincia


diminui enquanto a varincia aumenta, ou seja, ocorre progressivamente maior
independncia entre os valores obtidos a distncias cada vez maiores.
Sendo x(1), x(2), .... x(i),

.... x(n), realizaes de uma varivel

regionalizada, a estimativa no tendenciosa da semivarincia dada por

(h) = 1/2n {x(i+h) - x(i)}


Tais relaes so mostradas
grfico contra h

quando a funo (h) colocada em

para originar o semivariograma. Este expressa o

comportamento espacial da varivel regionalizada e mostra, segundo a Figura


9.3:

108

amplitude (a), que indica a distncia a partir da qual as amostras passam a

no possuir correlao espacial e a relao entre elas torna-se aleatria;


toda amostra cuja distncia ao ponto a ser estimado for menor ou igual
amplitude fornece informaes sobre o ponto;

patamar (C + Co), que indica o valor segundo o qual a funo estabiliza-se

no campo aleatrio, correspondente distncia a; mostra a variabilidade


mxima entre pares de valores, isto , a varincia dos dados e,
consequentemente, covarincia nula;

continuidade, pela forma do variograma, em que para h=0 (h) j apresenta

algum valor. Esta situao conhecida como efeito pepita

representada por Co; o efeito pepita pode ser atribudo a erros de medio
ou ao fato de que os dados no foram coletados a intervalos
suficientemente pequenos, para mostrar o comportamento espacial
subjacente do fenmeno em estudo.

anisotropia, quando os semivariogramas se mostram diferentes

para

diferentes direes de linhas de amostragem;

Figura 9.3. Modelo variogrfico

A krigagem usa informaes a partir do semi-variograma para encontrar


os pesos timos a serem associados s amostras com valores conhecidos que
iro estimar pontos desconhecidos.

Nessa situao

o mtodo fornece,

alm dos valores estimados, o erro associado tal estimao, o que o

109

distingue dos demais algoritmos disposio. entendida como uma srie de


tcnicas de anlise de regresso que procura minimizar a varincia estimada a
partir de um modelo prvio, que leva em conta a dependncia estocstica entre
os dados distribudos no espao. Dentre os mtodos de estimativas,
comumente empregados, o mtodo geoestatstico da krigagem pode ser
considerado como o melhor estimador linear sem vis, cuja meta a
minimizao da varincia da estimativa e com erro residual mdio igual a zero.
As formas mais usuais so a krigagem simples e a krigagem ordinria e
entre os mtodos no lineares destaca-se a krigagem indicativa.
A krigagem simples utilizada quando a mdia assumida como
estatisticamente constante para toda a rea. A krigagem ordinria, por sua vez,
considera a mdia flutuante ou mvel por toda a rea.

Sendo necessrio a

estimativa de valores em locais onde no foram feitos pontos de amostragem,


a fase de estimao torna-se um passo importante, visto que a malha de
pontos estimada ser responsvel pela qualidade dos mapas a serem gerados.
Os pontos desta malha devem ser estimados de modo a gerar mapas
confiveis podendo, assim, auxiliar nos projetos que requerem estimativas com
determinada preciso.
O desenvolvimento terico dessa metodologia encontra-se em diversos
textos bsicos de geoestatstica com destaque para Journel & Huijbregts
(1978), Journel (1989) e Isaaks & Srivastava (1989).

A Cokrigagem um procedimento geoestatstico segundo o qual


diversas variveis regionalizadas podem ser estimadas em conjunto, com base
na correlao espacial entre si. , portanto, uma extenso multivariada do
mtodo da krigagem quando para cada local amostrado obtm-se um vetor de
valores em lugar de um nico valor.
A soluo, por clculo matricial, para a cokrigagem fornecida por:

C x , x
C x ,y
11 1 '1 [ 12 ( 1 2 ) ]

C 21 y 2 , x 1 C 22 y 2 , y '2

1L 1
0L 0

0L 0
1L 1

[ A]

1 0
M

1
0
M

0
0
0

0
1

1
0
0
M

[ 1]

[ 2 ]

1
2
[X]

[
[

]
]

C11 ( x0 , y 1)

C12 ( x0 , y 2 )

0
[ B]

110

onde 1 = 1, ... , n1 ; '1 = 1, ... , n1 ; 2

= 1,..., n ; = 1 , ... , n .
2
'2
2

A matriz [A] composta por:


sub-matriz

[ (

C11 x 1, xa '1

)] , que descreve a distribuio espacial da primeira varivel

z1 ;

,
C y ,
22 2 '2

sub-matriz

que descreve a distribuio espacial da segunda

varivel z 2 ;
sub-matrizes

C x , y

12 1 2

e C21

y 2 , x 1 ,

que descrevem a variabilidade

cruzada das variveis z1 e z 2 consideradas em conjunto;


os termos restantes 0 e 1 correspondem a condies de no envis
A matriz [A] no contm nenhuma informao sobre o ponto xo para o
qual necessria a estimao. Toda a informao necessria est contida no
vetor [B].
O vetor [B] composto por:
subvetor

[ ( )] , que depende da configurao geomtrica relativa do ponto


C11 x0 , xa1

x
o

em relao aos pontos x 1 , onde z observada;

sub-vetor

[ (

C12 x0 , ya 2

)]

, que depende da configurao geomtrica relativa do

ponto x 0 em relao aos pontos y 2 , onde z 2 observada;


os termos vertentes 0 e 1 correspondem condies de no envis.
A soluo do sistema, ou seja, clculo dos
coeficientes para diferentes pontos

n1 1

coeficientes e

n2 2

obtida pela inverso de [A] e

x
o

subsequente multiplicao por [B]; 1 e 2 so os multiplicadores da


Lagrange.
Uma das mais freqentes aplicaes da cokrigagem ocorre quando a
amostragem insuficiente, isto , quando uma ou mais variveis no so
coletadas em todos os pontos de amostragem. O objetivo ento melhorar a
estimao das variveis sub-amostradas utilizando a correlao, por ventura
existente com variveis mais densamente amostradas. Trata-se de uma
ferramenta geoestatstica que vem sendo cada vez mais utilizada em diversas
situaes de estimao ou de modelagem, existindo a disposio diversos

111

programas (Carr, Myers e Glass, 1985; Yates e Yates, 1990; Marcotte, 1991
e Deutsch e Journel, 1992, entre outros)
Fundamental na utilizao da cokrigagem a verificao prvia da
correlao existente entre as variveis, a qual deve ser alta para que as
estimativas sejam consistentes. Tambm deve ser notado que a melhoria de
interpretao somente significativa quando uma das variveis tem um
nmero extremamente reduzido de casos em relao outra e que o sistema
de cokrigagem torna-se extremamente complicado no caso de mais de duas
variveis. Desse modo crticas a esse mtodo so encontradas na literatura
como, por exemplo, em Myers, 1992 e 1988, Davis e Greenes, 1983.
9.2.2. Krigagem indicativa

A krigagem indicativa consiste basicamente na aplicao da krigagem


ordinria para a varivel transformada, ou seja, a varivel resultante da
aplicao da funo no linear f(z) = 0 ou 1.
No processo bsico da krigagem, a estimativa feita para um valor
mdio em um determinado local. Pode-se, porm, tambm fazer estimativas
baseadas em valores que se situam abaixo ou acima de um determinado nvel
de corte (cutoff). Este procedimento, estabelecido para vrios nveis de corte
(percentis de uma curva de distribuio acumulada) de uma distribuio,
conduzir a uma estimativa de vrios valores da distribuio acumulada em um
determinado local, cuja funo poder ser ajustada.
Para se atingir estes objetivos, o primeiro passo, na krigagem indicativa,
transformar os dados originais em indicadores, isto , transformar os valores
que esto acima de um determinado nvel de corte em zero (0) e os que esto
abaixo em um (1):

1 se v j vc
i j (v c ) =
0 se v j > vc
Desta forma, so calculados os semivariogramas experimentais
indicativos para determinados nveis de corte e estabelece-se os modelos

112

variogrficos para os mesmos. Os semivariogramas indicativos podem ser


estimados pela funo:

i ( h , vc ) =

1 Nh
i ( x + h , vc ) i ( x , vc )
2 N h i =1

Onde:
h = passo (lag) bsico

vc = nvel de corte
N = nmero de pares

Efetuando-se a krigagem ordinria pontual nos valores transformados,


obtm-se a probabilidade de v i < v c . Desta forma, medida que se incrementa

v c , obter-se- valores estimados da funo de distribuio acumulada, assim


expresso:

F ( v; v c /(n )) =

E{i ( v; v c ) /( n )}

Definidas as funes de distribuio acumulada, pode-se, portanto, obter


qualquer intervalo probabilstico da varivel, ou seja:

F (v j ) F (v i )
onde: v j > vi
Como exemplo de aplicao da krigagem indicativa, com conotao
multivariada, apresentado o trabalho de Sturaro e Landim (1997). Nesse
estudo foram analisadas duas variveis, a espessura do solo e a profundidade
do lenol fretico, obtidas a partir de sondagens de simples reconhecimento na
regio do stio urbano de Bauru (SP), regio central do Estado de So Paulo.
Na rea, predominam rochas pertencentes ao Grupo Bauru (Cretceo
Superior), sobrepostas s rochas gneas da Formao Serra Geral, que
afloram em direo ao vale do Rio Tiet. O Grupo Bauru compreende uma
seqncia basal lamtica, com cerca de 20 metros de espessura, de origem
lacustre, seguido por arenitos finos a grossos, pouco argilosos, avermelhados,
com algumas intercalaes de lamitos tambm avermelhados. Sua espessura
mxima preservada no deve ultrapassar 190 metros nas cotas topogrficas
mais elevadas.

113

Com relao ao solo, a rea pesquisada apresenta uma cobertura


latosslica muito profunda e homognea, onde os horizontes A e B (solo
superficial) com espessura em torno de 15 metros, passam gradualmente para
horizonte C (solo de alterao), o qual pode atingir at 10 metros de espessura.
Os horizontes A e B apresentam-se constitudos predominantemente por areia
fina a mdia, com teores que variam de 75 a 85% e por argila do tipo caulinita.
Os teores de silte nos horizontes superiores A e B so praticamente
desprezveis, prximos de 3%. O horizonte C apresenta variao textural e
mineralgica gradual com a profundidade, passando de um material com
caractersticas

semelhantes

ao

horizonte

para

um

material

com

caractersticas residuais do substrato rochoso, sendo essencialmente arenoso


com nveis centimtricos argilo-siltosos. Prximo ao contato com a rocha s,
observa-se a passagem para um material argilo-siltoso com frequentes nveis
centimtricos de concrees milimtricas e placas ferruginosas.
Em termos geotcnicos, a rea estudada foi compartimentada em quatro
unidades homogneas, cuja disposio espacial serviu como base para a
anlise geoestatstica dos dados de sondagens, realizados no trabalho.
Tendo em vista que o aqfero Bauru livre na regio e, portanto,
altamente

vulnervel

contaminao,

as

duas

variveis

referidas

desempenham um papel importante na locao de reas necessrias para


disposio de lixo sanitrio.
Preliminarmente, verificou-se

as sondagens nas quais

havia

informaes sobre as duas variveis e, ento, calculado o coeficiente de


correlao, da ordem de 0,424, entre as mesmas, num total de 76 pares. A
seguir, foram feitas regularizaes dos dados utilizando-se da krigagem
ordinria, com modelo linear simples e com um raio de busca relativamente
pequeno, o que resultou em 529 dados para a varivel lenol fretico e 623
para solo. Esta interpolao preliminar foi empregada, somente para auxiliar
na confeco dos modelos variogrficos indicativos. Desta forma, a partir da
nova malha, foram efetuadas as correspondentes anlises da variabilidade
espacial, em separado, e

estabelecidos os modelos matemticos dos

variogramas experimentais.

114

Para a escolha dos nveis de corte das duas distribuies, o critrio foi
dividir os dados da malha original em percentis representativos da distribuio
de freqncia acumulada. Desta forma, os valores de corte para a krigagem
indicativa foram 14, 16, 18, 20 e 22 m para espessura de solo, e 5, 8, 10, 12,5
e 16 m para profundidade do lenol fretico.
Para todos os nveis de corte, de ambas as variveis, foram efetuadas
anlises da variabilidade espacial e obtidos os respectivos modelos
matemticos variogrficos. Para os processos de estimativas, considerou-se os
variogramas indicativos prximos das medianas das variveis em anlise.
Os parmetros obtidos a partir dos modelos ajustados encontram-se na
Tabela 9.3. Subseqentemente os valores para a discretizao da funo de
distribuio acumulada, foram estimados, por krigagem indicativa pontual, para
um retculo de 200 x 180 m, distribudos por uma rea de 90 km2.
Para a elaborao dos mapas probabilsticos, escolheu-se, como
exemplo, valores medianos, ou seja, 18 m de espessura de solo e 14m de
profundidade do lenol fretico como limites para a anlise de favorabilidade de
reas para disposio de lixo sanitrio na rea de estudo.
Tabela 9.3. Valores obtidos a partir dos semivariogramas modelados

Varivel: espessura do solo (S)


Cuttof

Modelo

(14)

Esfrico

(16)

Co

0.015

0.16

2500

Esfrico

0.01

0.10

2600

(18)

Esfrico

0.015

0.21

2700

(20)

Esfrico

0.03

0.08

2000

(22)

Esfrico

0.02

0.05

2400

Varivel: profundidade do lenol fretico (L)


Cuttof

Model

Co

(5)

Esfrico

0.01

0.15

3000

(8)

Esfrico

0.01

0.18

2800

(10)

Esfrico

0.01

0.20

3000

(12.5)

Esfrico

0.02

0.19

2900

(16)

Esfrico

0.05

0.10

2800

115

Nas figuras 9.4 e 9.5.

so apresentados os mapas referentes aos

nveis maiores que 18 m de espessura de solo e maior que 14 m de


profundidade do lenol fretico.

Figura 9.4. Mapa da probabilidade de ocorrncia de solos com espessura


maior que 18m.

Figura 9.5. Mapa da probabilidade de ocorrncia do lenol fretico com a


profundidade maior que 14

Para escolher uma rea que apresentasse as duas condies em


conjunto, para um determinado fim geotcnico, e pressupondo que os dois

116

eventos fossem independentes, foi elaborado um mapa combinado resultante,


que se constituiu no produto dos dois mapas probabilsticos, aplicando-se a
regra multiplicativa de probabilidades para eventos independentes, ou seja:

P( S vc ) P( L vc ) = valor combinado de probabilidades


onde vc , representa o valor de corte (cuttof), de interesse da pesquisa para
cada varivel. O mapa da Figura 9.6 mostra o resultado desta operao.

Figura 9.6. Mapa com probabilidades combinadas de ocorrncia de espessura

de solo com mais de 18m e profundidade do lenol fretico com mais de 14m.
Para localizar reas onde a espessura do solo fosse maior que 18m e,
ao mesmo tempo, a profundidade do lenol fretico fosse maior que 14m,
indicando favorabilidade para a localizao de um aterro sanitrio, procurou-se
no mapa resultante reas com a maior probabilidade combinada. Assim, em
termos probabilsticos, as reas mais recomendadas esto localizadas na parte
central e a sudeste. Como a parte central acha-se ocupada pelo stio urbano
de Bauru, a poro sudeste torna-se a mais indicada. Esta rea est contida na
unidade geotcnica II.

117

No estudo apenas duas variveis foram utilizadas, porm a metodologia


pode ser aplicada a diversas variveis combinadas. Tal emprego da krigagem
indicativa, com enfoque multivariado, consiste em uma alternativa para
modelagem com propsitos ambientais, fornecendo um mtodo vivel para
estimar incertezas distribudas espacialmente.

9.2.3. Krigagem fatorial

A krigagem fatorial uma mtodo relativamente recente, desenvolvido


por Matheron (1982) e talvez o mais conhecido entre os espaciais
multivariados. A teoria metodolgica pode ser encontrada em Goovaerts,
1992; Wackernagel, 1994; Goovaerts e Webster, 1994; Castrignan et. al.
1995; Castrignan et al., 2000).

Resumidamente os passos bsicos da krigagem fatorial so:


1. modelagem de corregionalizao das variveis usando o denominado
modelo linear de corregionalizao: todos os p(p + 1)/2 variogramas diretos
e cruzados das p variveis so modelados por uma combinao linear dos
Ns variogramas padronizados para um mesmo alcance (sill); nesta
modelagem supe-se que o comportamento espacial das variveis o
resultado da interao de diferentes processos atuando independentemente
a difererentes escalas espaciais.
2. analise da estrutura de correlaes entre as variveis, levando em
considerao as diferentes escalas,

com aplicao da anlise das

componentes principais; um crculo de correlaes

entre as variveis

originais e os dois mais importantes fatores regionalizados utilizado para


resumir as relaes entre as variveis a cada escala espacial.
3. estimao das relaes entre os fatores regionalizados e variveis, como
componentes espaciais, a diferentes escalas por cokrigagem,

para,

finalmente, mape-los.

118

BIBLIOGRAFIA
BERNARDI, J. V. E.; FOWLER, H. G. & LANDIM, P. M. B. (1997) Aplicao da
estatstica multivariada em estudos de impacto ambiental: VII Simpsio de
Quantificao em Geocincias, Bol Res. Expandidos, 12-16
CARR, J., MYERS, D.E. & GLASS, C.H. (1985) - Co-Kriging: a Computer Program:
Computers & Geociences, 11:111-127.
CASTRIGNAN, A., CONVERTINI, G., LOSAVIO, N. & HOXHA, I. (1995) Studio
delle relazioni tra le propriet fisico-chimiche di un suolo argilloso del litorale ionicolucano mediante la geostatistica multivariata: Proceedings of the 13th Symposium of
Italian Chemistry Society, Florence, pp. 61-70
CASTRIGNAN, A., GIUGLIARINI, L., RISALITI, R. & MARTINELLI, N. (2000) Study
of spatial relationships among some soil physico-chemical properties of a field in
central Italy using multivariate geostatistics: Geoderma, 97:39-60
DAVIS, B. M. & GREENES, K. A (1983) Estimation Using Spatially Distributed
Multivariate Data: Na Example with Coal Quality: Math. Geology, 15:287-300
DEUTSCH, C.V. and JOURNEL, A.G.- GSLIB-Geoestatistical Software Library and
Users Guide. Oxford University Press, 1992
GOOVAERTS, P. (1992) Factorial kriging analysis: a useful tool for exploring the
structure of multivariate spatial soil information: Jour. Soil Science, 43:597-619
GOOVAERTS, P. & WEBSTER, R. (1994) Scale-dependent correlation between
topsoil copper and cobalt concentrations in Scotland: Eur. Jour. Soil Science, 45:79-95
HUIJBBREGTS, C.J. (1975) - Regionalized variables and quantitative analysis of
spatial data. In: Davis, J.C. &
Mccullagh, M. J. (eds.) Display and analysis of spatial data, p.38 53, John Wiley
ISAAKS, E.H.; SRIVASTAVA, R.M. (1989) - Applied geostatistics. Oxford University
Press,. 561p., New York.
JOURNEL, A.G. (1983) Non-parametric estimation of spatial distribution. Math.
Geology, 15:445-468
JOURNEL, A. (1989) Fundamentals of geostatistics in five lessons. Short course in
Geology, American Geophysical Union, Vol. 8, Washington.
JOURNEL, A.G. & HUIJBREGTS, J.C.H. (1978) Mining geostatistics. Academic Press,
1978. 600p.
MARCOTTE, D. (1991) - Cokriging with Matlab: Computers & Geociences, 17:12651280
.
MATHERON, G. (1962-1963) - Traite de Geostatistique Appliquee: (vols. 1 e 2):
Technip.

119

MATHERON, G. (1982) Pour une analyse Krigeante des donnes regionalises:


Centre de Geostatistique, Fontainebleau, Report 732
MYERS, D. E. (1982) Matrix formulation of co-kriging: Math. Geology, 14:249-258
MYERS, D. E. (1988) - Some Aspects of Multivariate Analysis: in F. Chung et al. (eds.)
Quantiative Analysis of Mineral and Energy Resources, p 669-687, D. Reidel
Publishing Co
STURARO, J. R. & LANDIM, P.M.B. (1997) Indicator kriging for GISs maps
integration: in V. Pawlowsky-Glahn (ed.), Proceedings of IAMG97, CIMNE,Barcelona,
2:699-704
WACKERNAGEL, H. (1995) Multivariate Geostatistics: An Introduction with
Applications: Springer-Verlag, 256 pp.
YATES, S.R. & YATES, M.V. (1990) - Geostatistics for Waste Mangment: A Users
Manual for the GEOPACK (version 1.0) Geostatistical Software System: U.S.
Environmental Protection Agency Report 600/8-90/004.

120

Você também pode gostar