Você está na página 1de 9

ANLISE DE DADOS

4 ANLISE DE DADOS

A definio das caractersticas das guas subterrnea baseou-se nas anlises qumicas e fsico-qumicas e na utilizao de mtodos estatsticos, como a estatstica multivariada e a geoestatsitica, como meio de tentar relacionar as caractersticas geolgicas de onde as guas foram captadas. Inicialmente, quando os resultados das anlises qumicas apresentavam valores inferiores ao do limite de deteco da tcnica utilizada, foram considerados como sendo iguais metade dos valores dos limites de deteco nas propostas da anlise estatstica. Este procedimento normal em anlise estatstica
PUC-Rio - Certificao Digital N 0410378/CA

na rea de imputao dos dados, para no ficarem lacunas no banco de dados (Scopel et al., 2005) e conservar a normalidade dos dados. O clculo do balano inico foi aplicado em cada amostra para verificar os resultados das anlises qumicas antes que fossem feitas as anlises estatsticas. O erro do balano inico aceitvel compreende ao intervalo entre 20 %, pois foi utilizado para o credenciamento do laboratrio. O balano inico definido pela equao 1, onde as concentraes dos ctions e nions esto em meq L-1 (Scopel et al., 2005): Erro do balano inico (%) = ctions - nions x 100 (ctions + nions) onde: ctions = [Na+] + [K+] + [Mg+2] + [Ca+2] nions = [Cl-] + [SO4=] + [HCO3-] + [NO3-] (2) (3) (1)

De acordo com Deutsch (1997), diversas razes possveis podem criar um desequilbrio eltrico na composio dos dados relatados: 1. O projeto do programa de amostragem negligenciou uma espcie principal dissolvida. 2. Erro do laboratrio.

ANLISE DE DADOS

61

3. Usar amostras de gua no filtradas contendo a partcula da matria que se dissolve na amostra quando o cido adicionado para finalidades da preservao. 4. A precipitao de um mineral no recipiente da amostra que remove os constituintes do mineral da gua. 5. Em determinados casos, a espcie dissolvida do elemento ou do composto no pode corresponder espcie tpica usada para fazer o clculo do balano inico. Segundo Holland e Turetian (2004), o balano inico importante, pois promove uma explicao para a variabilidade qumica da gua subterrnea. Uma relao geral para a composio qumica da gua subterrnea resultante junto ao caminho do fluxo dada por: gua inicial + minerais dissolvidos - minerais precipitados = gua final
PUC-Rio - Certificao Digital N 0410378/CA

Os dados experimentais originais podem no ter uma distribuio adequada para a anlise estatstica, dificultando a extrao de informaes teis e a interpretao dos mesmos. Nestes casos, um pr-processamento nos dados originais pode ser de grande importncia. Um dos mtodos de pr-processamento mais utilizados a padronizao (Morgano et al., 1999; Landim, 2000), a qual se calcula a mdia dos valores experimentais para cada varivel e subtra-se cada valor experimental do respectivo valor mdio, dividindo o resultado pelo desvio padro calculado para cada varivel (equao 4), permitindo que as variveis transformadas passem a ter mdia zero e desvio padro um. z = xji - xmj j onde: z = varivel normal padronizada; xji = valor da interseo da coluna da varivel j e o caso i; xmj = mdia da varivel j; j = desvio padro da varivel j. A anlise multivariada foi aplicada com o objetivo de determinar grupos de amostras com as mesmas caractersticas dentro da base de dados existentes para cada municpio do Estado do Rio de Janeiro em estudo. A anlise estatstica foi feita usando o programa STATISTICA 6.0 atravs dos seguintes mtodos: anlise (4)

ANLISE DE DADOS

62

de agrupamentos (Clusters) e anlise fatorial relacionada utilizando como mtodo de extrao a anlise de componentes principais. A anlise multivariada uma ferramenta que permite a interpretao de uma base de dados com um nmero grande de variveis por meio de um tratamento estatstico. Os mtodos que usam este tipo de anlise levam a resultados como: reduo do nmero de variveis da base de dados; identificao de grupos de variveis ou amostras similares; identificao das relaes entre as variveis. A anlise de componentes principais procura interpretar a estrutura de um conjunto de dados multivariados, tanto entre indivduos (modo Q) como entre variveis (modo R), a partir da matriz de varincia-covarincia ou de correlaes, pela obteno de autovalores e autovetores. Consiste numa transformao linear das n variveis originais correlacionadas entre si em n novas variveis
PUC-Rio - Certificao Digital N 0410378/CA

ortogonais e no deve ser confundida com a anlise fatorial, segundo a qual se supe que as relaes existentes dentro de um conjunto de n variveis seja reflexo das correlaes de cada uma dessas variveis com p fatores, mutuamente no correlacionados entre si, sendo p menor que n (Landim, 2000). A anlise de agrupamento utilizada quando se deseja explorar as similaridades entre indivduos (modo Q) ou entre variveis (modo R) definindo-os em grupos, considerando simultaneamente, no primeiro caso, todas as variveis observadas em cada indivduo e, no segundo caso, todos os indivduos nos quais foram feitas as mesmas medidas. Segundo esse mtodo, procura-se por agrupamentos ntidos de itens representados por pontos num espao n dimensional em um nmero conveniente de grupos relacionados atravs de similaridades ou de distncia (Landim, 2000).

ANLISE DE DADOS

63

4.1 Anlise de componentes principais (ACP) A base fundamental da maioria dos mtodos modernos para tratamento de dados multivariados a anlise de componentes principais (Sharaf et al., 1986; Beebe et al., 1988), o qual tem sido freqentemente usado em estudos geoqumicos (Melloul e Collin, 1992), que consiste numa transformao da matriz de dados com o objetivo de representar as variveis presentes em muitas variveis atravs de um nmero menor de fatores. Constri-se um novo sistema de eixos (denominados de componentes principais, fatores ou ainda autovetores) para representar as amostras, no qual a natureza multivariada dos dados pode ser visualizada em poucas dimenses. Estas novas variveis so obtidas em ordem decrescente de quantidade de informao estatstica que descrevem, ou seja, a primeira componente principal aponta a direo de maior variao de dados, a
PUC-Rio - Certificao Digital N 0410378/CA

segunda que ortogonal a primeira, aponta outra direo que descreve a maior variao restante dos dados e assim por diante (Morgano et al., 1999). O mtodo ACP est baseado na correlao entre as variveis e na realidade agrupa aquelas as quais esto altamente correlacionadas. Este mtodo inicia-se com o clculo dos autovalores e dos correspondentes autovetores de uma matriz de correlao entre as variveis, sendo tal procedimento conhecido como modo R. Se A for a matriz de covarincias ou de correlao e AT a matriz transposta, de dimenses p x p, com termos aij, os autovalores (i) e autovetores (vi) sero extrados pelas equaes 5 e 6: det (AAT - i I) = 0 (AAT - i I) vi = 0 onde: I = a matriz identidade; vi = o autovetor correspondente ao autovalor i. Resolve-se a equao 5 para encontrar os autovalores i da matriz. A soma dos autovalores da matriz representa a variabilidade total da mesma e a contribuio de cada autovalor em termo de variabilidade determinada. O primeiro autovalor determinado corresponde maior porcentagem da (5) (6)

ANLISE DE DADOS

64

variabilidade total existente, o segundo, a maior variabilidade possvel restante e assim por diante. Encontrados os autovalores, substituindo-os na equao 6 e resolvendo-as, obtm-se os autovetores correspondentes a cada autovalor, ou seja, as componentes principais. Os autovetores correspondem s componentes principais e so a resultado do carregamento (loadings) das variveis originais em cada um deles. Tais carregamentos podem ser considerados como uma medida da relativa importncia de cada varivel em relao s componentes principais e os respectivos sinais, se positivos ou negativos, indicam relaes diretamente ou inversamente proporcionais. A matriz de carregamentos (loadings) de cada varivel nas componentes principais ao ser multiplicada pela matriz de dados fornecer a matriz de contagem (scores) de cada caso em relao s componentes principais (Morgano et al., 1999; Landim, 2000). Usando a notao matricial, as componentes
PUC-Rio - Certificao Digital N 0410378/CA

principais so obtidas por meio de transformaes lineares conforme a equao 7: AP = T (7)

em que A a matriz de covarincias ou de correlaes, AT a matriz transposta e P a matriz dos carregamentos (loadings), onde os elementos de cada coluna correspondem aos coeficientes das combinaes lineares das variveis originais, e T a matriz de contagem (scores), que contm as coordenadas das amostras no novo sistema de eixos. Logo, esses valores podem ser dispostos num diagrama de disperso, em que os eixos so as duas componentes principais mais importantes, e mostrar o relacionamento entre os casos condicionados pelas variveis medidas. 4.2 Anlise de agrupamentos (Clusters) A anlise de agrupamentos um termo usado para descrever uma variedade de tcnicas numricas com o objetivo de identificar grupos de indivduos com caractersticas semelhantes dentro de um conjunto de dados, considerando todas as variveis para cada indivduo (Moura, 1985; Davis, 1986). Inicialmente, cada amostra representada como um ponto no espao e, portanto, a questo fundamental transformar a informao de um espao ndimensional para um espao bidimensional. O parmetro usado neste processo a

ANLISE DE DADOS

65

medida de distncia entre as amostras ou variveis. Estas distncias, quando visualizadas atravs de diagramas conhecidos como dendogramas, apontam as amostras ou variveis mais semelhantes entre si, ou seja, quanto menor distncia entre os pontos, maior ser a semelhana entre as amostras. Portanto, a medida entre dois pontos foi calculada usando a equao da distncia Euclideana (equao 8) (Morgano et al., 1999; Landim, 2000; Stanimirova et al., 2005):
m

dij = [ ( xik xjk)2 ]


k=1

(8)

Segundo Morgano et al. (1999), no mtodo de anlise de agrupamento, as distncias entre todas as amostras ou variveis so calculadas e comparadas. Como as distncias reais entre as amostras ou variveis mudam com o tipo e o tamanho do conjunto de dados, necessrio transform-las numa escala de similaridade que calculada segundo a equao 9:
PUC-Rio - Certificao Digital N 0410378/CA

Sab = 1 (dab/dmax)

(9)

onde: Sab a similaridade entre as amostras ou variveis a e b, dab a distncia entre as mesmas e dmax a maior distncia entre todas as amostras ou variveis. Logo, a escala varia de um (amostras ou variveis semelhantes) a zero (amostras sem similaridade). Aps o clculo das distncias, as duas amostras ou variveis mais prximas so conectadas formando um agrupamento. Este processo repetido at que as amostras ou variveis sejam conectadas formando grupos. Uma vez que estas so conectadas pelas proximidades entre elas, necessrio definir o mtodo de agrupamento entre uma amostra ou uma varivel e um grupo ou entre grupos de amostras ou variveis. Portanto, foi utilizado o mtodo de Wards (Stanimirova et al., 2005). Segundo Hair et al. (2005), no mtodo de Wards, a distncia entre dois agrupamentos a soma dos quadrados entre os dois agrupamentos feita sobre todas as variveis. Em cada estgio do procedimento do agrupamento, a soma interna de quadrados minimizada sobre todas as parties (o conjunto completo de agrupamentos disjuntos ou separados) que podem ser obtidas pela combinao de dois agregados do estgio anterior. Esse procedimento tende a combinar agrupamentos com um pequeno nmero de observaes e, tambm, tende a produzir agregados com aproximadamente o mesmo nmero de observaes.

ANLISE DE DADOS

66

A figura 6 mostra um exemplo de anlise de agrupamento utilizando o mtodo de Wards e a distncia Euclideana.
Dendograma para 19 casos Metodo de Ward's Distncia Euclideana 16 14 12 Distncia de ligao 10 8 6 4 2 0

14

16

13 12 10 11

19 18 17 15

PUC-Rio - Certificao Digital N 0410378/CA

Figura 6: Dendograma representativo da anlise de agrupamento para 19 casos usando o mtodo de Wards e Distncia Euclideana.

4.3 Anlise fatorial A anlise fatorial provou ser til na interpretao de dados hidrogeolgicos (Schot e Van der Wal, 1992). O objetivo da anlise fatorial rearranjar (resumir, reduzir) os dados para apresent-los de uma maneira que melhor explique a estrutura dos dados originais. Portanto, um conjunto de fatores criado, em uma estrutura simples, para maximizar o poder de explicao das interrelaes dos parmetros qumicos (variveis). Logo, cada fator visto como uma varivel dependente que uma funo do conjunto inteiro de variveis observadas. (Hair et al., 2005). Os dados foram analisados usando a anlise fatorial modo R para encontrar fatores ou os principais processos responsveis pela composio da gua subterrnea em cada municpio estudado. Os principais estgios realizados foram a preparao da matriz de correlao entre as variveis normalizadas, a obteno da comunalidade e a transformao dos fatores atravs de processos de rotao matemtica at que uma soluo final fosse obtida (Davis, 1986).

ANLISE DE DADOS

67

A comunalidade representa a soma dos quadrados das cargas fatoriais das variveis sobre cada fator, indicando a eficincia dos mesmos na explicao da variabilidade total (Landim, 2002). Contudo, a matriz de correlao e a comunalidade determinam a varivel que no apresenta alguma associao com as demais variveis ou, no atende a nveis de explicao aceitveis. O procedimento de rotao Varimax (Meng e Maynard, 2001; Invernizzi e Oliveira, 2004), aplicado aos componentes principais, foi usado para facilitar a interpretao dos dados. Seu objetivo aumentar os fatores de carregamento de uma varivel e reduzir o nmero de fatores que uma varivel carrega, fazendo com que cada fator seja interpretado pelos maiores carregamentos possveis relacionados com o menor nmero possvel de variveis. 4.4 Diagrama de Piper
PUC-Rio - Certificao Digital N 0410378/CA

O diagrama de Piper freqentemente utilizado para classificao e comparao de distintos grupos de guas quanto aos ctions e nions dominantes. O programa AquaChem 3.70 gera o diagrama de Piper e mostra a classificao das amostras segundo esse critrio. A representao grfica pode evidenciar possveis relaes entre os ons de uma mesma amostra. Dentre as opes grficas, tem-se a de desenhar as linhas de grade, manter visvel s classificaes e mostrar a distribuio percentual das amostras nos diversos campos. Outra ferramenta importante a seleo de uma ou de um grupo de amostras, permitindo por em destaque um determinado alvo em estudo. Os diagramas de Piper, tambm chamados de diagramas trilineares (Piper, 1944; Back, 1966), so extrados plotando as propores dos ctions principais (Ca2+, Mg+2, Na+ + K+) e dos nions principais (HCO3-, Cl-, SO4=) em dois diagramas triangulares respectivos, e combinando as informaes dos dois tringulos em um losango situado entre os mesmos (Lucena et al., 2004). As propores so traadas nos grficos triangulares e suas escalas, para a proporo das variveis, correspondem a 100 por cento. Os grficos mostram, assim, as propores relativas dos ons principais, mas no suas concentraes absolutas. A figura 7 representa o diagrama de Piper adaptado para a anlise dos ctions e nions principais nas amostras de gua.

ANLISE DE DADOS

68

1-Ca ou Mg/Cl ou SO 4 2-Ca,Na ou Mg/Cl ou SO4 3-Na/Cl 4-Ca ou Mg/HCO 3 ou SO4 5-Ca, Na ou Mg/Cl, SO4 ou HCO 3 6-Na/HCO3 ou Cl 7-Ca ou Mg/HCO 3 8-Ca ou Na/HCO 3 9-Na/HCO3

1 4 2

7 8

5 6

PUC-Rio - Certificao Digital N 0410378/CA

Figura 7: Diagrama de Piper adaptado, usado para a classificao do ction e nion dominantes.

Para o clculo da distribuio percentual de cada ction ou nion, foram utilizadas as equaes 10 e 11, respectivamente, onde as concentraes das espcies inicas esto expressas em unidade de meq L-1: X (%) = C x 100 ([Na ] + [K ]) + [Ca2+] + [Mg2+]
+ +

(10)

X (%) = onde:

A x 100 = [HCO3 ] + [Cl ] +[SO4 ]


-

(11)

C = concentrao de Na+ + K+, Ca2+ ou Mg2+. A = concentrao de HCO3-, Cl- ou SO4=. X = distribuio percentual de cada espcie inica C ou A. Se algum ction ou nion perfaz mais de 50% do contedo inico total, a gua classificada por esta espcie predominante. Quando isto no acontece, a gua classificada pelos dois mais abundantes. Outro on de menor interesse, quando em concentrao alta tambm pode entrar na denominao (Mestrinho, 2006). Neste trabalho, para a denominao da gua, foram considerados somente o ction e nion dominante.

Você também pode gostar