Você está na página 1de 112

CLASSIFICAO FUZZY APLICADA A DADOS DE GEOQUMICA DE SUPERFCIE DA BACIA DE SANTOS

Jean Romei Heckmann

Tese de Doutorado apresentada ao Programa de Ps-graduao em Engenharia Civil, COPPE, da Universidade Federal do Rio de Janeiro, como parte dos requisitos necessrios obteno do ttulo de Doutor em Engenharia Civil. Orientadores: Dbora de Almeida Azevedo Luiz Landau

Rio de Janeiro Junho de 2013

CLASSIFICAO FUZZY APLICADA A DADOS DE GEOQUMICA DE SUPERFCIE DA BACIA DE SANTOS

Jean Romei Heckmann

TESE SUBMETIDA AO CORPO DOCENTE DO INSTITUTO ALBERTO LUIZ COIMBRA DE PS-GRADUAO E PESQUISA DE ENGENHARIA (COPPE) DA UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO PARTE DOS REQUISITOS NECESSRIOS PARA A OBTENO DO GRAU DE DOUTOR EM CINCIAS EM ENGENHARIA CIVIL.

Examinada por:

_____________________________________________ Prof. Dbora de Almeida Azevedo, D.Sc.

_____________________________________________ Prof. Luiz Landau, D.Sc.

_____________________________________________ Prof. Alexandre Gonalves Evsukoff, D.Sc.

_____________________________________________ Dr. Eugnio Vaz Santos Neto, Ph.D.

_____________________________________________ Dr. Flix Thadeu Teixeira Gonalves, D.Sc.

RIO DE JANEIRO, RJ - BRASIL JUNHO DE 2013

Heckmann, Jean Romei Classificao fuzzy aplicada a dados de geoqumica de superfcie da Bacia de Santos / Jean Romei Heckmann. Rio de Janeiro: UFRJ/COPPE, 2013. XIII, 99 p.: il.; 29,7 cm. Orientadores: Dbora de Almeida Azevedo Luiz Landau. Tese (doutorado) UFRJ/ COPPE/ Programa de Engenharia Civil, 2013. Referncias Bibliogrficas: p. 95-99. 1. Geoqumica de Superfcie. 2. Lgica Fuzzy. 3. Anomalias Geoqumicas. I. Azevedo, Dbora de Almeida et al. II. Universidade Federal do Rio de Janeiro, COPPE, Programa de Engenharia Civil. III. Ttulo.

iii

Dedico esta tese a trs pessoas essenciais na minha vida: minha me Edla e os meus irmos Jacques e Doriane.

iv

AGRADECIMENTOS A Deus, pela vida.

minha me e irmos pelo apoio incondicional, pela motivao e por me incentivarem em momentos de incerteza.

A Liliane Pequeno de Arajo pela compreenso e apoio nos momentos mais difceis para vencer mais esta etapa importante em minha vida.

Ao Professor Luiz Landau pela dedicao em garantir um curso de destaque, infraestrutura, qualidade e para cada pessoa que compe sua equipe no LAMCE Laboratrio de Mtodos Computacionais em Engenharia. Agradecimento pela orientao Profa. Dbora Azevedo pela incondicional dedicao e pelas sinceras e importantes observaes.

A ANP/PRH02 pelo apoio financeiro indispensvel realizao deste trabalho.

Aos funcionrios do LAMCE e da Secretaria de Ps-Graduao da COPPE, em especial Mnica, Srgio, Jairo e Beth.

amiga Ana Cristina Serra pela amizade e apoio acadmico no desenvolvimento da tese.

Aos membros da banca, Eugnio Vaz Santos Neto, Flix Thadeu Teixeira Gonalves e Alexandre Gonalves Evsukoff.

Gostaria de agradecer quelas pessoas que, de forma direta ou indireta, tornaram possvel com o seu apoio e incentivo a concretizao desta tese.

Resumo da Tese apresentada COPPE/UFRJ como parte dos requisitos necessrios para a obteno do grau de Doutor em Cincias (D.Sc.)

CLASSIFICAO FUZZY APLICADA A DADOS DE GEOQUMICA DE SUPERFCIE DA BACIA DE SANTOS

Jean Romei Heckmann

Junho/2013

Orientadores: Dbora de Almeida Azevedo Luiz Landau Programa: Engenharia Civil Neste estudo, em um primeiro momento foi realizada a avaliao geoestatstica da distribuio de dados geoqumicos de superfcie, identificao dos dados outliers usando-se vrios mtodos de interpolao: determinsticos e geoestatsticos. As avaliaes mostraram que os dados de hidrocarbonetos gasosos no seguem em geral uma distribuio normal ou lognormal. Foi realizada tambm a aplicao de ferramentas soft computing, tcnicas computacionais para minerao de dados, para a interpretao de dados geoqumicos de superfcie de bacia sedimentar brasileira, buscando, de maneira geral, avaliar a potencial gerao de hidrocarbonetos de subsuperfcie. Para o desenvolvimento deste, foi escolhida a bacia sedimentar de Santos por possuir mais de um Sistema Petrolfero conhecido. Neste trabalho foi utilizado um mtodo de geoprocessamento fuzzy (nebuloso) para dados geoqumicos de superfcie. Em um primeiro passo, os grupos de dados de geoqumica de superfcie semelhantes, foram calculados por uma anlise de agrupamento fuzzy com o algoritmo FCM. Os dados geolgicos estudados resultaram em trs agrupamentos bem resolvidos com os valores de piston core com caractersticas semelhantes. Os agrupamentos Fuzzy c-Means gerados foram utilizados para avaliar as anomalias geoqumicas de superfcie da bacia de Santos. Os resultados obtidos podero ser usados como ferramenta auxiliar no processo de tomada de decises exploratrias na bacia estudada.

vi

Abstract of Thesis presented to COPPE/UFRJ as a partial fulfillment of the requirements for the degree of Doctor of Science (D.Sc.)

FUZZY CLASSIFICATION APPLIED TO SURFACE GEOCHEMISTRY DATA OF SANTOS BASIN

Jean Romei Heckmann

Jun/2013

Advisors: Dbora de Almeida Azevedo Luiz Landau

Department: Civil Engineering In this study, was carried out a statistical evaluation of the distribution of surface geochemical data, identification of outliers, using various methods, and comparison of deterministic and geostatistical interpolation methods. Statistical evaluations showed that data of gas hydrocarbon do not follow, in general, a lognormal or a normal distribution. Like was also performed, application of soft computing tools, the computational techniques to data surveying, to the interpretation of surface geochemistry data in Brazilian sedimentary basin, seeking to evaluate subsurface hydrocarbon generation and entrapment. To develop this, was chosen the sedimentary basin of Santos for having more than one known Petroleum System. In this study was used a geo-processing method for fuzzy surface geochemical data. Firstly, groups of similar data geochemistry were calculated by a fuzzy logic clustering analysis with the Fuzzy c-Means algorithm. The surface geological data resulted in three groups with well resolved values piston core with similar characteristics. The Fuzzy c-Means clusters generated were used to evaluate the surface geochemical anomalies of the Santos Basin. Thus, the results can be used as auxiliary tool in exploratory decision making in the studied basin.

vii

SUMRIO

1 1.1 1.2 1.3 2 2.1 2.2 2.3 2.4 2.5 2.6

INTRODUO .................................................................................................... CONSIDERAES GERAIS .......................................................................... MOTIVAO ................................................................................................. OBJETIVO ....................................................................................................... MATERIAIS E MTODOS ............................................................................ DEFINIES GEOLGICAS ......................................................................... BACIA DE SANTOS ....................................................................................... FLUORESCNCIA TOTAL ............................................................................. C15 + HIDROCARBONETOS E UCM .............................................................. COMPOSIES MOLECULARES DE GASES INTERSTICIAIS ................. ANLISE ESTATSTICA MULTIVARIADA ................................................

1 1 3 3 5 5 6 7 7 8 8 8 11 11 13 15 16 17 19 22 22 23 23 23 24 24 25 25 27 27 28 viii

2.6.1 Anlise de componente principal ................................................................... 3 3.1 3.2 3.3 3.4 3.5 3.6 4. 4.1 4.2 4.3 INTELIGNCIA COMPUTACIONAL .......................................................... INTRODUO ............................................................................................... CLASSIFICAO DOS DADOS ..................................................................... LGICA FUZZY ................................................................................................. MTODOS DE AGRUPAMENTO FUZZY ...................................................... ALGORITMOS ... FORMULAO MATEMTICA GEOQUMICA DE SUPERFCIE .................................................................... INTRODUO ................................................................................................. OBJETIVOS DA GEOQUMICA DE SUPERFCIE ........................................ PROSPECO NA GEOQUMICA DE SUPERFCIE ....................................

4.3.1 Etapas do levantamento geoqumico de superfcie ...................................... 4.3.2 Amostragem geoqumica ................................................................................ 4.3.2.1 4.3.2.2 4.3.2.3 Planejamento ................................................................................................ Logstica ....................................................................................................... Ferramentas de coleta ...................................................................................

4.3.3 Anlise geoqumica ......................................................................................... 4.3.3.1 Cromatografia gasosa ..................................................................................

4.3.4 Interpretao dos dados de Geoqumica de Superfcie ...............................

4.4 4.5 4.6 5 5.1

BENEFCIOS DA GEOQUMICA DE SUPERFCIE ....................................... ANLISE GEOESTATSTICA ........................................................................ COMPARAO ENTRE OS MTODOS DE INTERPOLAO .................. RESULTADOS E DISCUSSO ......................................................................... BASE DE DADOS - ANLISE EXPLORATRIA ..........................................

29 30 41 33 33 33 46 52 78 79 83 93 94 95

5.1.1 Dados originais 5.1.2 Dados transformados (ln) ... 5.1.3 Interpolao por krigagem ordinria, curvatura mnima e inverso do quadrado da distncia .................................................................................... 5.1.4 Comparao entre mtodos de interpolao ................................................ 5.2 5.3 6 7 AVALIAO DA CLUSTERIZAO FUZZY C-MEANS (FCMC) ............... CLASSIFICAO DOS RESULTADOS ......................................................... CONCLUSES .................................................................................................... RECOMENDAES ..........................................................................................

REFERNCIAS ........................................................................................................

ix

LISTA DE FIGURAS

Figura 1 Figura 2 Figura 3 Figura 4 Figura 5 Figura 6 Figura 7 Figura 8 Figura 9 Figura 10 Figura 11 Figura 12 Figura 13a

Mapa de localizao das amostras piston core da Bacia de Santos ............. Representao grfica em trs dimenses do processo de decomposio da anlise da ACP, apud Wiedemann, 2006 ............................................ Etapas do Knowledge Discovery in Databases (KDD), adaptado de HAN e KAMBER (2001) . Classificao como tarefa de mapear um conjunto de atributos x no seu rtulo de classe y ..................................................................................... Funo trapezoidal de um conjunto fuzzy (crisp) ..................................... Tcnica do Headspace (MELLO, 2003) ................................................... Matriz de correlao dos dados piston core da Bacia de Santos ................ Varincia Explicada - Componentes Principais (n +1) versus X Varincia Percentual ................................................................................. Grfico de distribuio dos pesos aos parmetros piston core para a Componente Principal 1 versus Componente Principal 2 ........................ Histograma de frequncia para as variveis originais .............................. Boxplot para as variveis originais .......................................................... Grfico de probabilidade para as variveis originais .................................. Histograma de frequncia para as variveis transformadas (ln): Intensidade da Fluorescncia (nm), TSF R1 (nm), Etano (ppm) e Propano (ppm) ....................................................................................... Boxplot para as variveis transformadas (ln): Intensidade da Fluorescncia (nm), TSF R1 (nm), Etano (ppm) e Propano (ppm) ......... Grfico de probabilidade para as variveis transformadas (ln): Intensidade da Fluorescncia (nm), TSF R1 (nm), Etano (ppm) e Propano (ppm) ......................................................................................... Bloco diagrama interpolado para a intensidade da fluorescncia (nm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia ............................................................. Mapas para a intensidade da fluorescncia (nm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia .................................................................................................. Bloco diagrama interpolado para a emisso mx (nm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia ................................................................................................... Mapas para emisso mx (nm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia .................. Bloco diagrama interpolado para a excitao mx (nm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia .............................................................................................. Mapas para excitao mx (nm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia .................... Bloco diagrama interpolado para a TSF R1 (nm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da x

5 9 12 14 16 26 34 35 36 40 42 44

49 50

Figura 13b Figura 13c

51

Figura 14a

54

Figura 14b

55

Figura 15a

56 57

Figura 15b Figura 16a

58 59

Figura 16b Figura 17a

Figura 17b Figura 18a

Figura 18b Figura 19a

Figura 19b Figura 20a

Figura 20b Figura 21a

Figura 21b Figura 22a

Figura 22b Figura 23a

Figura 23b Figura 24a

Figura 24b Figura 25a

Figura 25b Figura 26

Figura 27

Figura 28

distncia ..................................................................................................... Mapas para TSF R1 (nm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia ........................ Bloco diagrama interpolado para UCM total (ppm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia .................................................................................................. Mapas para UCM total (ppm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia ......................... Bloco diagrama interpolado para alcanos totais (ppb) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia ................................................................................................... Mapas para alcanos totais (ppb) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia .................... Bloco diagrama interpolado para metano (ppm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia .................................................................................................. Mapas para metano (ppm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia .......................... Bloco diagrama interpolado para etano (ppm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia .................................................................................................... Mapas para etano (ppm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia ........................ Bloco diagrama interpolado para propano (ppm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia .................................................................................................... Mapas para propano (ppm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia .......................... Bloco diagrama interpolado para i-butano (ppm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia ..................................................................................................... Mapas para i-butano (ppm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia ......................... Bloco diagrama interpolado para n-butano (ppm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia .................................................................................................. Mapas para n-butano (ppm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia ......................... Bloco diagrama interpolado para n-pentano (ppm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia .................................................................................................. Mapas para n-pentano (ppm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia ......................... Mapa de Funo de Pertinncia FCM, CP1 versus CP2 (Componente Principal 1 versus Componente Principal 2), ilustrando trs clusters formados pelo valores da funo de pertinncia m = 1.2 ...................... Mapa de Funo de Pertinncia FCM, CP1 versus CP2 (Componente Principal 1 versus Componente Principal 2), ilustrando trs clusters formados pelo valores da funo de pertinncia m = 1.6 ....................... Mapa de Funo de Pertinncia FCM, CP1 versus CP2 (Componente xi

60 61

62 63

64 65

66 67

68 69

70 71

72 73

74 75

76 77

82

82

Figura 29 Figura 30a Figura 30b Figura 31 Figura 32 Figura 33

Principal 1 versus Componente Principal 2), ilustrando trs clusters formados pelo valores da funo de pertinncia m = 2.0 ....................... Mapa do Cluster 1, longitude versus latitude, ilustrando reas anmalas para o cluster 1 ......................................................................................... Mapa do Cluster 2, longitude versus latitude, ilustrando reas anmalas para o cluster 2 .......................................................................................... Mapa do Cluster 3, longitude versus latitude, ilustrando reas anmalas para o cluster 3 ........................................................................................... Mapa do Cluster 1, longitude versus latitude, ilustrando campos identificados em produo para o cluster 1 .............................................. Mapa do Cluster 2, longitude versus latitude, ilustrando campos identificados em produo para o cluster 2 .............................................. Mapa do Cluster 3, longitude versus latitude, ilustrando campos identificados em produo para o cluster 3 ..............................................

83 84 85 86 89 90 91

xii

LISTA DE TABELAS

Tabela 1 Tabela 2 Tabela 3 Tabela 4 Tabela 5 Tabela 6 Tabela 7

Anlise estatstica descritiva das amostras com os valores originais (no transformados) Testes formais de normalidade Kolmogorov-Smirnov (K-S) para os dados originais ........................................................................................................ Anlise estatstica descritiva das amostras transformadas (ln) ................. Testes formais de normalidade Kolmogorov-Smirnov (K-S) para os dados transformados ............................................................................................ Testes formais de normalidade Kolmogorov-Smirnov (K-S) para dados originais e transformados (ln, log10 e Sqrt) .............................................. Resultados obtidos para o quadrado mdio do erro (QME) para interpoladores usados na distribuio espacial das variveis .................... Determinao do nmero de clusters. Como pode ser visto, para alguns valores do parmetro de fuzzificao m, o ndice de validao indica 3 clusters para o banco de dados piston core ............................................... Valores piston core nos centros dos clusters. A interpretao de cada cluster pode ser realizada pelos centros de suas respectivas coordenadas. As linhas indicam os parmetros piston core que foram utilizados para expressar as avaliaes dos clusters pelas suas unidades ............................ Nmero de amostras de cada cluster. Os clusters podem ser agrupados de acordo com sua maior participao em cada cluster, em valores absolutos e relativos ....................................................................................................

38 39 47 48 52 79

81

Tabela 8

87

Tabela 9

92

xiii

1 1 INTRODUO

1.1 CONSIDERAES GERAIS

A geoqumica orgnica uma importante ferramenta na explorao petrolfera. Ela visa principalmente minimizar os riscos exploratrios, tornando-se assim uma importante ferramenta na indstria petrolfera. Os mtodos de geoqumica de superfcie utilizam dados de ocorrncias de hidrocarbonetos como indcios para a localizao de acumulaes de leo e gs. A migrao de gases exsudados a partir do subsolo para perto da superfcie encontra-se bem documentada (SCHUMACHER, 2000; MELLO, 2003. A deteco e medio de gases de hidrocarbonetos migrados prximos da superfcie tornou-se um mtodo relativamente rotineiro na indstria de explorao do petrleo (ABRAMS; DAHDAH, 2010; EVSUKOFF et al., 2004). Estes mtodos tm sido utilizados por mais de 70 anos, principalmente para identificar a presena de possveis rochas geradoras maturas, para delimitar acumulaes de petrleo no subsolo e inferir qual o tipo mais provvel de hidrocarbonetos (LOGAN et al., 2010). Entende-se a Geoqumica de Superfcie como uma srie de observaes a partir da identificao de vestgios ou mudanas induzidas de hidrocarbonetos (DEMBICKI, 2010). Na explorao geoqumica de superfcie pressupe-se que os hidrocarbonetos so gerados e / ou armazenados em profundidade e diferentes quantidades de exsudaes podem vir a ser detectveis, porm em superfcie (EVSUKOFF et al., 2004). As associaes de falhas produtivas com anomalias geoqumicas de superfcie, fairways, tornam a perspectivas especficas bem conhecidas. Assume-se ainda, ou pelo menos implicitamente, que a anomalia na superfcie de hidrocarbonetos gasosos pode ser seguramente relacionada com uma acumulao em profundidade ou ao fluxo de acumulaes atravs da rocha sedimentar sendo absorvido pelas partculas do solo. Tornam-se muitas vezes complexas as relaes entre gerao, migrao e aprisionamento de hidrocarbonetos leves, devido a os mesmos apresentarem alteraes nas taxas de exsudao, continuarem no espao poroso do sedimento, e tambm a processos prximos superfcie (ABRAMS; DAHDAH, 2010). Em funo das constantes evolues tecnolgicas exploracionais, houve um acrscimo considervel no volume de dados geoqumicos para serem avaliados. Para tanto, a aplicao de inteligncia computacional vem a facilitar este processo, no qual se

2 faz muito relevante. Desta maneira, aumenta a confiabilidade da avaliao de dados geoqumicos de superfcie minimizando os riscos exploratrios, a reduo de custo computacional, entre outros. Assim, verifica-se a importncia do uso de inteligncia computacional, que vem a facilitar de maneira substancial a avaliao dos dados deste trabalho. Entre outras tcnicas computacionais destaca-se a Minerao de Dados (KDD - Knowledge Discovery in Data Base), que, segundo FAYYAD et al. (1996), pode ser considerada como o processo da descoberta de informaes substanciais, como, por exemplo, associaes, anomalias e estruturas, de uma dada quantidade robusta de dados armazenados em banco de dados e repositrios de informao. Desta feita, pelo aumento da quantidade de dados geoqumicos de superfcie, e pela otimizao do tempo para obter as informaes e conhecimentos teis na avaliao exploratria, KDD aceito como sinnimo de descoberta de conhecimento em banco de dados. Para o sucesso da Extrao de Conhecimento de Bases de Dados, tem como objetivo evidenciar qual seria o conhecimento pelo determinado nmero de conjunto de dados para fins de aplicao em um processo decisrio. Destacam-se em KDD algumas tcnicas de minerao de dados, como a lgica fuzzy, a classificao bayesiana, a rvore de deciso, as redes neurais, entre outras. Assim sendo, o uso de ferramentas computacionais (soft computing) pode ser um ponto-chave que ir facilitar, de forma substancial, a pesquisa deste conjunto de dados (CHERKASSKY; MULLER, 2007). Nesta tese entre as ferramentas de minerao de dados ser aplicada a lgica fuzzy, devido sua maior aplicao em estudos geoqumicos, pela possibilidade da generalizao e interpretao de banco de dados robustos. Os grupos gerados so mostrados pela descoberta de conhecimento de banco de dados. Primeiramente, os clusters com valores geoqumicos semelhantes so computados pelo algoritmo fuzzy, sem considerar a localizao das amostras. Na segunda etapa, um classificador fuzzy programado para fazer uma interpretao do grupo gerado pela anlise de cluster. As entradas amostradas para o classificador so geradas e coordenadas para cobrir todo o domnio e o classificador fuzzy usado para mapear os clusters na rede.

3 1.2 MOTIVAO

Recentemente se nota que houve um considervel aumento no volume de dados para serem devidamente avaliados na geoqumica orgnica e, consequentemente, a necessidade do desenvolvimento de novos mtodos analticos. Desta maneira, a grande dificuldade para avaliar o imenso volume de dados e solucionar problemas na rea de explorao e produo requer a aplicao de tecnologias computacionais avanadas aliadas a mtodos estatsticos no convencionais. Como exemplo, destacam-se alguns mtodos, entre outros: reconhecimento de padres, rvores de deciso, redes neurais, lgica fuzzy. Os trabalhos desenvolvidos em Inteligncia Artificial para a Geoqumica Orgnica, at o presente, tm sido realizados de forma pontual (ABRAMS; DAHDAH, 2010; KLUSMAN, 2002; LOGAN et al., 2010; ZUO, 2011). Estas pesquisas so baseadas em grandes volumes de dados na rea de Geoqumica Orgnica, as quais vm sendo norteadas a partir de uma perspectiva descritiva e preditiva, na qual a estatstica a ferramenta de fundamental importncia. Exemplificando, os resultados obtidos por Rantitsch (2000) so utilizados para investigar uma tcnica de mapeamento geoqumico que permite tirar concluses sobre a concentrao background anmalas. Nele a lgica fuzzy apresentada por um conjunto de regras matemticas para manipular a probabilidade, por vezes incompatvel com as leis da probabilidade tradicionais, como so popularmente entendidas. Desta forma, a partir desse nvel do conhecimento tem-se como motivao a aplicao da minerao de dados com classificao fuzzy aos dados de geoqumica de superfcie da Bacia de Santos.

1.3 OBJETIVOS

Testar a premissa de que os dados geoqumicos de superfcie apresentam uma distribuio lognormal, ou normal, conforme descrito na literatura (ABRAMS; DAHDAH, 2010; KLUSMAN, 2002; LOGAN et al., 2010; ZUO, 2011). Aplicar a metodologia geoestatstica para avaliar a variabilidade dos dados geoqumicos piston core, as caractersticas qualitativas ligadas estrutura do fenmeno natural que elas representam (localizao, continuidade espacial, anisotropia e a

4 estrutura de correlao existente) entre valores tomados em dois pontos adjacentes no espao. No caso de dependncia superficial, comparar as interpolaes pelos mtodos: krigagem geoestatstica, inverso do quadrado da distncia e curvatura mnima. Demonstrar a utilidade da aplicao da lgica Fuzzy c-Means Clustering (FCMC) para classificar dados de parmetros geoqumicos de superfcie piston core da Bacia de Santos cedidos pela ANP / BDEP (Agncia Nacional do Petrleo, Gs Natural e Biocombustveis / Banco de Dados de Explorao e Produo).

5 2 MATERIAIS E MTODOS

2.1 DEFINIES GEOLGICAS

Figura 1 - Mapa de localizao das amostras piston core da Bacia de Santos

6 O conjunto de dados de geoqumica de superfcie (piston core) da Bacia de Santos obtidos a partir da ANP/BDEP (Agncia Nacional do Petrleo, Gs Natural e Biocombustveis / Banco de Dados de Explorao e Produo) composto de n = 500 amostras e dos seguintes parmetros: Intensidade da Fluorescncia (nm), Emisso Mx. (nm); Excitao Mx. (nm), TSF R1 (nm), UCM Total (ppm), Alcanos Totais (ppm), Metano (ppm), Etano (ppm), Propano (ppm), i-Butano (ppm), n-Butano (ppm) e nPentano (ppm).

2.2 BACIA DE SANTOS

A Bacia de Santos est localizada na poro sudeste da margem continental brasileira no litoral sul do Rio de Janeiro, So Paulo, Paran e norte de Santa Catarina. Recobre uma rea de aproximadamente 206.000 km2, sendo que 150.300 km2 (73%) se encontram em lmina dgua de at 400 m e 55.700 km2 (27%) entre as cotas de 400 e 2.000 m (MOREIRA et al., 2007). O desenvolvimento de seu arcabouo tectono-estatigrfico compreende trs supersequncias ou fases principais, (MOREIRA et al., 2007): Primeiro estgio (fase rift): compreende os sedimentos do Neocomiano e

do Barremiano depositados discordantemente sobre rochas vulcnicas bsicas de idade aproximada de 121 Ma; Segundo estgio (fase transicional): compreende os sedimentos do

Aptiano (Andares Rio da Serra-Jiqui Inferior) e caracteriza-se pela deposio de evaporitos de ambiente marinho restrito; Terceiro estgio (fase drift): compreende os sedimentos das seqncias

siliciclsticas e carbonticas do Eo-Mesoalbiana, que posteriormente foram recobertas por sistemas transgressivos clstico/carbonticos do Neo-Albiano ao Eo-Cenomiano. O subsequente aprofundamento da bacia (subsidncia trmica) resultou na implantao de um ambiente marinho transgressivo at o MesoTuroniano, seguido por fortes eventos regressivos a partir do Maastrichtiano, resultando num sensvel avano para offshore da linha de costa. O Tercirio na bacia representado pelo sistema Iguape/Marambaia, com dominncia de plataformas carbonticas na poro centro-sul e forte influxo de clsticos

7 grosseiros na poro norte. A sedimentao culmina com a deposio de areias e folhelhos pleistocnicos da Formao Sepetiba.

2.3 FLUORESCNCIA TOTAL

A digitalizao da fluorescncia de sedimentos totais (TSF) medida a partir da amostragem de sedimentos das sees de piston core, congelados e recuperados do mar. O sedimento seco a 40 C, modo at que tenha sido reduzido a p, extrado 15 g de sedimento em p (aps adicionados os padres substitutos em cromatografia gasosa) com hexano de alta pureza. realizada a remoo de enxofre dos extratos com cobre, reduzindo o volume do extrato para a colocao num fluormetro do tipo cuvette. A digitalizao da amostra cuvetted feita com um fluormetro ao longo de um intervalo especfico de comprimentos de excitao de onda, medindo as intensidades de fluorescncia resultante ao longo de um intervalo especfico de comprimentos de emisso de onda, para aps relatar a intensidade mxima (TSF Max Int) na faixa de emisses relacionadas com hidrocarbonetos e o valor R1 (razo de intensidades) (ABRAMS; DAHDAH, 2010; LOGAN et al., 2010).

2.4 C15 + HIDROCARBONETOS E UCM

Os hidrocarbonetos (alcanos) so compostos por 15 ou mais tomos de carbono (C15 +), os quais so determinados por: extrao de volume reduzido (100 ml) para a determinao de fluorescncia (diluir quando necessrio), acrescentando padres internos, injetando em uma coluna de cromatografia gasosa (GC) atravs de uma entrada split com controle eletrnico de presso, com um detector de ionizao de chama (FID), com relatrios de n-alcanos e isoprenoides com concentraes de ng / g de sedimento seco e valores de mistura complexa sem soluo (UCM) de mg / g de sedimento seco.

8 2.5 COMPOSIES MOLECULARES DE GASES INTERSTICIAIS

A avaliao de gs intersticial refere-se determinao de gases leves de hidrocarbonetos, incluindo metano, etano, propano, i-butano, n-butano e n-pentano intersticiais em sedimentos marinhos. s vezes, o dixido de carbono tambm pode ser determinado. Os gases de hidrocarbonetos leves no so muito solveis em gua. Para que possam ser extradas as amostras do sedimento, necessita-se utilizar um gs inerte, como o nitrognio, realizando-se o particionamento. As amostras de sedimento so enlatadas imediatamente aps a recuperao de piston core para as determinaes de gs intersticial por cromatografia gasosa (GC), utilizando um detector de ionizao de chama (FID).

2.6 ANLISE ESTATSTICA MULTIVARIADA

A anlise multivariada de dados permite obter informaes a partir do clculo vetorial de uma grande quantidade de dados, em que estes dados devem estar organizados na forma de matriz. Geralmente se colocam os registros nas linhas e as variveis nas colunas. Destaca-se entre as vrias aplicaes da anlise multivariada a anlise exploratria de dados utilizando a tcnica de Anlise por Componentes Principais (ACP).

2.6.1 Anlise de componente principal

A anlise de componente principal um tratamento matemtico da matriz de dados com o objetivo de reduzir a dimensionalidade original da mesma e est fundamentada na correlao entre as variveis. Pode ser resumida como sendo uma transformao linear ortogonal de um espao dimensional com X variveis medidas (variveis manifestas) para um espao dimensional com novas k variveis (variveis latentes), podendo k ser igual ou menor que x. Como resultado desta transformao, as variveis obtidas so combinaes lineares das variveis originais, independentes, e esto ordenadas em uma sequncia que vai daquela com maior explicao de variao dos dados (primeira componente

9 principal) para a que tem menor explicao da variao dos dados (ltima componente principal). Isto cria a possibilidade de decomposio da matriz de dados em estrutura e rudo, ou, em outras palavras, em variveis latentes significativas e no significativas, para a explicao da variao dos dados (MASSART et al., 1997, CHRISTENSEN et al., 2005; PASADAKIS et al., 2004). O processo da anlise por componentes principais se inicia com a organizao dos dados em uma matriz Z com n objetos e m variveis, tendo como objetivo separar as informaes que descrevem a estrutura dos dados daquelas que no descrevem, que so classificadas como rudos. Sendo assim, a matriz de dados decomposta em dois conjuntos. O primeiro contm as informaes que explicam a estrutura formada por duas matrizes: matriz T ou matriz de escore, que so as coordenadas dos objetos no novo espao dimensional, e matriz P ou matriz de pesos que so as projees das variveis manifestas no novo espao dimensional. O segundo conjunto a matriz E, conhecida como matriz de resduos, que representa a parte da informao que pode ser descartada por ser rudo ou simplesmente considerada desnecessria para a anlise. Este processo uma sequncia de decomposio dos dados, na qual as componentes principais so determinadas uma a uma, indo da primeira com maior explicao da variao dos dados, para a ltima, com a menor explicao da variao dos dados. Pode ser mais bem visualizado por meio dos grficos realizados em trs dimenses (3D), que so ilustrados na Figura 2:

Figura 2 - Representao grfica em trs dimenses do processo de decomposio da anlise da ACP, apud WIEDEMANN, 2006.

10 (a) Dados originais; (b) determinada a primeira componente principal - PC1, onde encontrado o maior sentido da varincia distribuio dos dados; (c) determinada a segunda componente principal - PC2, onde encontrado o maior sentido da varincia da distribuio dos dados em relao a um eixo ortogonal a PC1; (d) determinada a terceira componente principal - PC3, onde encontrado o maior sentido da varincia da distribuio dos dados em relao a um eixo ortogonal a PC1 e PC2. A grande potencialidade da anlise das componentes principais est justificada no fato de que, a partir dela, possvel reduzir a dimenso da matriz de dados pela eliminao das variveis pouco significativas (rudo), identificar a existncia de combinaes lineares e de correlaes entre as variveis, selecionar fatores mais importantes para um determinado efeito, identificar variveis ocultas ou no explcitas, identificar grupos de objetos, e classificar novos objetos.

11 3 INTELIGNCIA COMPUTACIONAL

3.1 INTRODUO

A partir da evoluo da computao observou-se um grande aumento na capacitao e armazenamento de dados. As informaes e conhecimentos extrados podem ser usados em aplicaes de gerenciamento de negcios, controle de produo e anlises de mercado, na engenharia e explorao da cincia. A tarefa de descoberta do conhecimento em bases de dados definida como um conjunto de processos voltados identificao de padres vlidos, novos, potencialmente teis e compreensveis em conjunto de dados. O processo de descoberta de conhecimento em bases de dados, ou Knowledge Discovery in Databases (KDD), o processo de busca e extrao de conhecimento em grandes volumes de dados (HAN; KAMBER, 2001). KDD consiste em um processo no trivial, que busca gerar conhecimento potencialmente til para aumentar os ganhos, reduzir os custos ou melhorar o desempenho dos negcios, por meio da procura e da identificao de padres em dados armazenados em bases muitas vezes dispersas e inexploradas. O KDD pode ser resumido em seis etapas: seleo de dados, limpeza, enriquecimento, transformao ou codificao, data mining e construo dos relatrios de apresentao (HAN; KAMBER, 2001). Na primeira etapa, que corresponde seleo dos dados, os itens especficos so selecionados para o processo de descoberta do conhecimento. Geralmente, as bases de dados so incompletas, redundantes, ruidosas e esparsas, necessitando de um prprocessamento. Nesta fase realizada a correo das inconsistncias encontradas para garantir a confiabilidade na avaliao dos dados. A etapa seguinte, ou seja, o processo de enriquecimento ou transformao, compreende o passo em que a quantidade de dados reduzida, agrupando valores em outras categorias sumarizadas, adicionando novos dados e agregando-os aos existentes. Na etapa de data mining, a busca por conhecimento deve acontecer aps todo o pr-processamento. Esta etapa visa localizar padres por meio da aplicao de processos de generalizao, o que conhecido como induo. Os objetivos de Data Mining se enquadram nas seguintes classes: predio, identificao, classificao e otimizao. A predio so projees feitas para identificar o comportamento de certos atributos no

12 futuro; j a identificao corresponde a padres de dados que possam identificar a presena de um item, um evento ou uma atividade. A partio dos dados, na qual as classes ou categorias podem ser identificadas pela combinao de parmetros, chamada de classificao.

Figura 3 - Etapas do Knowledge Discovery in Databases (KDD), adaptado de HAN e KAMBER (2001)

A minerao de dados deve ser realizada, utilizando entre as tcnicas disponveis a que melhor se aplica ao tipo de informao a ser encontrada. No existe uma tcnica que solucione todos os problemas de minerao de dados. Diferentes mtodos servem para diferentes propsitos, cada mtodo oferece suas vantagens e desvantagens (HAN; KAMBER, 2001). As tcnicas de minerao de dados so aplicadas em sistemas de descoberta de conhecimento em bancos de dados com o objetivo de extrair informaes estratgicas escondidas em grandes bancos de dados, por meio da pesquisa dessas informaes e da determinao de padres, classificaes e associaes. So inmeras as tarefas da minerao de dados apresentadas na literatura. As mais comuns so: Regresso, Classificao, Agrupamento (Clustering), Modelagem das dependncias, Anlise das ligaes (Associations), Visualizao do modelo, Anlise de dados exploratrios (ADE) e Anlise de desvios.

13 A seguir ser discutida sucintamente a tarefa de classificao por ser de grande importncia para o desenvolvimento desta tese.

3.2 CLASSIFICAO DOS DADOS

A classificao uma das mais utilizadas tcnicas de data mining, simplesmente porque uma das mais realizadas tarefas cognitivas humanas no auxlio compreenso do ambiente onde vivemos. A classificao a tarefa de organizar objetos em uma entre diversas categorias pr-definidas, gerando padres de predio semelhantes tarefa de regresso, sendo que a primeira prediz o valor de um atributo nominal ou categrico ao invs de um valor real. O atributo alvo da predio chamado classe. Esta tarefa corresponde ao passo da extrao de padres (KECMAN, 2001). Diversas tcnicas foram desenvolvidas para a criao de modelos de classificao, entre elas: Lgica Fuzzy, rvores de deciso, k-vizinhos mais prximos, Naive Bayes, Support Vector Machine e Redes Neurais Artificiais. Tais tcnicas criam automaticamente um modelo a partir de um conjunto inicial de registros. Os registros devem pertencer a um pequeno grupo de classes pr-definidas. O modelo composto de padres, essencialmente generalizaes em relao aos registros, os quais so utilizados para diferenciar as classes. Uma vez obtido o modelo, este usado pra classificar automaticamente os demais registros (KECMAN, 2001). Os dados de entrada da tarefa de classificao so um conjunto de registros. Cada registro, tambm conhecido como uma instncia ou exemplo, caracterizado por uma dupla (x,y), onde x o conjunto de atributos e y o atributo especial, designado como rtulo da classe (tambm chamado de atributo alvo ou de categorizao). Classificao a tarefa de aprender uma funo alvo f que mapeie cada conjunto de atributos x para um dos rtulos de classe pr-determinados. A funo alvo tambm conhecida como modelo de classificao. Um modelo de classificao pode ser descritivo ou preditivo. A modelagem descritiva serve como ferramenta explicativa para se distinguir entre objetos e classes diferentes. J a modelagem preditiva tem como objetivo prever o rtulo da classe de registros no conhecidos. Conforme mostrado na figura 4, um modelo de classificao pode ser tratado como uma caixa preta que atribui

14 automaticamente um rtulo de classe quando recebe o conjunto de atributos de um registro desconhecido.

ENTRADA Conjunto de atributos (x)

Modelo de Classificao

SADA Rtulo de Classe (y)

Figura 4 - Classificao como tarefa de mapear um conjunto de atributos x no seu rtulo de classe y.

A tcnica de classificao uma abordagem sistemtica para a construo de modelos de classificao a partir de um conjunto de dados de entrada. Cada tcnica emprega um algoritmo de aprendizagem para identificar um modelo que seja mais apropriado para o relacionamento entre o conjunto de atributos ao rtulo da classe dos dados de entrada. O modelo gerado pelo algoritmo de aprendizagem deve se adaptar bem aos dados de entrada e prever corretamente os rtulos das classes de registros com que o modelo nunca tenha sido apresentado antes. Sendo assim, um dos principais objetivos do algoritmo de aprendizagem construir modelos com boa capacidade de generalizao (KECMAN, 2001). De uma forma geral, para resolver problemas de classificao, primeiro deve-se fornecer um conjunto de treinamento onde os rtulos dos registros sejam conhecidos. Este conjunto de treinamento usado para construir um modelo de classificao, que subsequentemente aplicado ao conjunto de teste, que consiste de registros com rtulos de classes desconhecidos. Para avaliar o desempenho de um modelo de classificao, os registros de testes previstos corretos e incorretos pelo modelo so contados e tabulados em uma matriz de confuso. Embora esta matriz de confuso fornea as informaes necessrias para determinar o quo bem um modelo de classificao executado, resumir essas informaes com um nico nmero tornaria mais conveniente comparar o desempenho de diferentes modelos. Isto pode ser feito usando uma mtrica de desempenho como a preciso, e, de forma equivalente, em termos de sua taxa de erro. A preciso pode ser definida como a razo entre o nmero de previses corretas e o nmero total de

15 previses, j a taxa de erro dada pela razo entre nmero de previses erradas e o nmero total de previses (KECMAN, 2001). A maioria dos algoritmos de classificao procura modelos que atinjam a maior preciso ou, equivalentemente, a menor taxa de erro quando aplicados ao conjunto de testes. Muitas vezes til medir o desempenho do modelo no conjunto de testes, porque tal medio fornece uma avaliao imparcial do seu erro e generalizao. A preciso ou taxa de erro calculada a partir do conjunto de teste tambm pode ser usada para comparar o desempenho relativo de diferentes classificadores no mesmo domnio. Entretanto, para fazer isso, os rtulos de classe dos registros de teste devem ser conhecidos. Duas importantes tcnicas so bastante utilizadas para estimar a exatido de um modelo. Na primeira, est o mtodo houldout, que se refere a uma tcnica simples que usa um conjunto de teste de amostras de classes. Estas amostras so selecionadas ao acaso e so independentes das amostras de treinamento. Outra tcnica bastante utilizada para estimar a exatido a validao cruzada - Cross Validation. Nesta tcnica as amostras so aleatoriamente divididas em k parties de tamanhos aproximadamente iguais. As amostras no presentes em uma dada partio so utilizadas para a gerao do modelo de classificao. Este modelo testado, utilizando-se a partio correspondente. Assim, so gerados k modelos, cada um com sua prpria taxa de erro de teste a uma dada taxa calculada sobre o conjunto de teste (KECMAN, 2001). No universo das tcnicas de Inteligncia Artificial, cada uma delas apresenta suas vantagens e desvantagens. Entre essas, para esta Tese optou-se pela tcnica de Lgica Fuzzy, que ser discutida com maiores detalhes a seguir.

3.3 LGICA FUZZY

As tcnicas de classificao tradicionais atribuem cada amostra para um especfico ("hard") cluster, enquanto que em FCMC (Fuzzy c-Means Clustering) uma amostra pode pertencer a mais de um cluster. A probabilidade de atribuio de uma amostra a um cluster especfico descrito no FCMC por um valor de pertinncia , variando entre 0 a 1. A soma total da participao dos valores de cada amostra igual a 1 (RANTITSCH, 2000).

16 O algoritmo utilizado neste trabalho descrito em EVSUKOFF et al. (2004). Matlab (verso 2007) e The Unscramber (verso 10.1) foram usados correspondentemente para executar o algoritmo de clusterizao e anlise de componentes principais (ACP), respectivamente. Considerando um conjunto fuzzy H pode-se definir, formalmente, uma funo de pertinncia H : [0,1]. Esta funo associa a cada elemento q o grau H(q), com o qual q pertence a H. A funo de pertinncia H(q) indica o grau de compatibilidade entre q e o conceito expresso por H. Caso o valor de pertinncia H(q) seja igual a 1, q completamente compatvel com A. De modo totalmente inverso, se H(q) for igual a 0, q completamente incompatvel com A. No entanto, se H(q) estiver entre 0 e 1, q parcialmente compatvel com A, com grau H(q) (Fig. 5) (EVSUKOFF et al., 2004; KECMAN, 2001).

Figura 5 - Funo trapezoidal de um conjunto fuzzy (crisp)

3.4 MTODOS DE AGRUPAMENTO FUZZY

A classificao no supervisionada ou anlise de agrupamentos uma atividade que busca desenvolver um modelo capaz de organizar um conjunto de dados em subconjuntos (clusters) de objetos semelhantes. Para tal, faz-se necessria a construo de um modelo de dados capaz de ser aplicado a dados no agrupados, tendendo a categoriz-los em classes, onde um determinado objeto examinado e classificado de acordo com classes pr-definidas, sendo o grau da associao mais forte entre membros do mesmo cluster e fraco entre membros de diferentes clusters. A maioria dos mtodos de clusterizao envolve o uso da distncia entre os elementos, isto , a medida da similaridade entre todos os pares, normalmente expressa como uma funo distncia ou mtrica. Na situao ideal, deseja-se que a similaridade entre os elementos de um mesmo grupo seja maximizada e que as semelhanas entre elementos de um grupo e elementos de outros grupos sejam minimizadas. Os resultados das anlises de

17 clusterizao podem, por exemplo, ser usados para: Reconhecer padres, reduzir modelos e otimizar; Ajudar a identificar um esquema de classificao; Sugerir um modelo estatstico para descrever um conjunto de dados; Indicar regras para atribuir novos casos de classes para identificao, escolha de objetivos e diagnsticos; Encontrar um caso tpico para representar as classes.

A anlise de agrupamentos pode ser baseada, na maioria das vezes, de acordo com tais mtodos: Estatstico; Redes Neurais; Lgica Fuzzy; Algoritmos genticos.

Cada um desses mtodos geralmente trabalha com uma das classes abaixo: Divisiva: todas as observaes comeam em um nico cluster e so quebradas em partes; Aglomerativa: todas as observaes iniciam em clusters individuais e, posteriormente, so unidos.

3.5 ALGORITMOS Os algoritmos de clusterizao tm como principal caracterstica apresentar a estruturao dos dados que no estejam bem definidos, ou seja, pretendem classificar objetos de acordo suas similaridades, organizando-os em grupos (clusters), no possuindo conhecimento a priori sobre os mesmos. Os mtodos de agrupamento so classificados de acordo com as caractersticas de seus algoritmos em: Probabilsticos: associa uma distribuio de probabilidade a cada instncia, onde cada distribuio indica a probabilidade da instncia pertencer a cada um dos clusters. Este algoritmo tambm chamado EM (expectation maximisation); Hierrquicos: agrupa dados em escalas, criando uma rvore de grupo.

18 Conhecidos como algoritmos aglomerativos, criam uma rvore que representa uma hierarquia de vrios nveis, onde os grupos em um nvel inferior podem ser agrupados como itens de um nvel superior; Particionais (k-means): relaciona os dados a cada cluster (centroide) (MCQUEEN, 1967). A rotina deste algoritmo definida inicialmente com a padronizao dos M registros que compem o conjunto de dados (Bx), seguido da definio do nmero de clusters (k grupos) e das coordenadas dos centroides (C1, C2, ..., Ck). Em seguida, cada registro agrupado a cada cluster por meio do clculo da distncia do determinado registro entre cada centroide. O mtodo encontra os centros (Nx) de forma iterativa atravs da minimizao do critrio de erro calculado em funo de uma mtrica de distncia (LEE, 1990). O clculo finalizado, na maioria das vezes, quando as coordenadas dos centros no variam. Este mtodo apresenta pontos fracos tais como fornecimento a priori do nmero de clusters e inadequao para grupos com formas no convexas , por outro lado simples e eficiente (MCQUEEN, 1967). A formulao matemtica deste algoritmo tem por objetivo classificar cada registro em determinado grupo e minimizar a soma quadrada das diferenas entre eles. A distncia entre um ponto Pi e um conjunto de clusters, dada por d(Pi,Nx), definida como sendo a distncia do ponto ao centro mais prximo dele.

As mtricas de distncia podem medir certa proximidade dos dados aos seus possveis grupos. A escolha da melhor mtrica envolve certo conhecimento da aplicao/assunto, considerando a escala de medidas (nominal, ordinal, intervalar e proporcional) e a natureza das variveis (discreta, contnua e binria) (DOMINGUES, 1982). Considerando um conjunto Bx no vazio e com nmeros reais positivos, pode-se caracterizar uma funo onde os M registros deste conjunto so descritos em uma matriz M x M (mtrica em Bx), verificando-se que: A mtrica de distncia sobre Bx nas coordenadas a e b da matriz M x M so iguais a zero, ou seja, a distncia de a a b igual a zero (onde a igual a b); A distncia de a a b igual a distncia de b a a;

19 A distncia de a a b menor ou igual a distncia de a a c mais a distncia de c a b.

Existem diversas mtricas de distncias a serem utilizadas, como a Euclidiana, Mahalanobis, Manhatan ou Hamming, Minkowsky, Gower e Gower (DOMINGUES, 1982). Normalmente, a mtrica mais utilizada a Euclidiana e, dependendo do contexto, seguida da Mahalanobis (JAIN; DUBES, 1988). Uma das caractersticas mais importantes do k-means a necessidade de fornecer o valor de k antes da execuo do algoritmo. Regularmente, este valor arbitrrio, ou seja, sem o conhecimento prvio da quantidade tima de grupos. H na literatura diferentes ndices para validar o nmero ideal de clusters com o objetivo de encontrar um melhor resultado nos algoritmos de agrupamento (MCQUEEN, 1967). ndices de validao como PBM, Calinski-Harabasz, Xie-Beni e Partition Index, de maneira geral, tentam avaliar a capacidade intra-cluster e a separao inter-cluster (PAKHIRA et al., 2004). O mais utilizado entre eles foi proposto por Pakhira, Bandyopadhyay e Maulik PBM - adotando um critrio de maximizao da separao entre dois grupos, contribuindo para este clculo a soma das distncias at o centro correspondente ponderado pelo valor da funo de pertinncia e a soma das distancias at o centro correspondente.

3.6 FORMULAO MATEMTICA

O algoritmo de clusterizao k-means rgido, tambm conhecido como c-Means Rgido, um dos mais populares, mas apresenta mxima rigidez quando relacionado ao valor de pertinncia {0, 1} de um registro em um agrupamento. Considerando a sobreposio entre grupos e utilizando a lgica fuzzy para tal, Bezdek (KAUFMAN; ROUSSEEUW, 1990), props uma generalizao dos algoritmos k-means, denominado Fuzzy c-Means - FCM. Este algoritmo pondera a distncia de um ponto ao centro do agrupamento por um valor de pertinncia, sendo possvel caracterizar cada ponto sobre vrios clusters, minimizando a funo objetivo (Eq. 1). O FCM tende a clusterizar diversos pontos gerando parties quando necessrio. Esse processo iterativo geralmente conduz a um mnimo local.

20

J (m, W ) =

t =1... N i =1... K

(t )
i

d ( x(t ), wi ) 2

Eq. 1 - Funo objetivo do FCM onde: m = parmetro de fuzzificao (m > 1); tn = vetor com os valores reais no nulos dos centros dos grupos;

i= pertinncia do elemento ti no grupo i; H(q) = o grau H associa cada elemento q, com o qual q pertence a H;
d ( x(t ), wi ) 2 = distncia euclidiana para a amostra x(t) do cluster wi.

Na funo objetivo do FCM as pertinncias dos elementos aos grupos so desconhecidas. Quando encontradas (Eq. 2), formam uma matriz de partio com a pertinncia de todos os registros a todos os agrupamentos:

i (t ) =

d ( x(t ), wi ) j =1... K d (x (t ), w j )

2 ( m 1)

1 i c, 1 k N

Eq. 2 - Matriz de partio das pertinncias

onde:

as linhas representam os valores de pertinncia de um elemento a cada grupo; a soma das linhas da matriz sempre igual a 1; cada elemento deve pertencer a pelo menos um grupo; nenhum grupo pode conter todos os registros; a soma das colunas da matriz no poder ser maior que quantidade de elementos e menor que zero.

Diferente do k-means, a funo que calcula o centro do grupamento no FCM, leva em considerao os valores de pertinncia (Eq. 3).

21

wi =

t =1... N

(t ) x(t ) , (t )
m i m t =1... N i

1 i c

Eq. 3 - Clculo dos centroides no FCM

Para execuo de um algoritmo FCM, faz-se necessrio o recebimento de um conjunto de dados, o nmero de agrupamentos (valor de k), o parmetro responsvel pela sobreposio dos dados (valor de m > 1), um valor de erro para o critrio de parada do algoritmo (E > 0) e uma matriz Z. Logo em seguida deve-se atribuir os centroides arbitrariamente e repetir do primeiro elemento at o ltimo as rotinas na sequncia (at que a diferena entre os centroides seja menor que o valor de E): calcular os centros (Eq. 3); calcular as distncias dos elementos aos grupos (utilizando uma mtrica); atualizar a matriz de partio (Eq. 2).

22

4 GEOQUMICA DE SUPERFCIE

4.1 INTRODUO

O uso da geoqumica de superfcie na explorao de petrleo tem sido amplamente baseado na deteco direta de hidrocarbonetos leves correspondente a observaes diretas de exsudaes de leo e gs, denominadas de macroexsudaes ou por medidas da reao de produtos de hidrocarbonetos prximos superfcie resultando em microexsudaes (KLUSMAN, 2002). As pequenas quantidades detectadas por anlises diretas de hidrocarbonetos leves ocorrem nos espaos dos poros no solo e so adsorvidas nas pores dos gros finos do solo, ou incorporadas nos gros deste. As observaes de microexsudaes prximas da superfcie se utilizam de mtodos indiretos baseadas em expresses de moderada a longas faixas (SCHUMACHER, 2000). Tais mtodos indiretos ocorrem por mudanas induzidas das microexsudaes para solo, sedimento e vegetao (SCHUMACHER, 2000). Desde 1930 os mtodos de geoqumica de superfcie tm sido usados, mas nas ltimas dcadas o interesse pela geoqumica de explorao se renovou. Esta renovao aliada ao desenvolvimento de mtodos analticos e de interpretao tem produzido um novo corpo de dados e insight sobre a geoqumica de explorao. Levantamentos geoqumicos e estudos de pesquisa documentam que microexsudaes de hidrocarbonetos originados a partir de acumulaes de leo e gs seguem alguns princpios bsicos; como so comuns e muito espalhados, movem-se verticalmente, as acumulaes so dinmicas e os selos imperfeitos. Indicaes em superfcie de exsudaes de leo e gs tm sido observadas por milhares de anos e tm liderado a descoberta de importantes reas produtoras de petrleo. Embora a descoberta de uma anomalia de geoqumica de superfcie no assegure a descoberta comercialmente significativa de petrleo, esta anomalia estabelece a presena de hidrocarbonetos na rea de interesse. A falta ou ausncia de microexsudaes no indica necessariamente que a bacia estril. As exsudaes de hidrocarbonetos em superfcie podem representar o final do caminho de migrao (SCHUMACHER, 2000). Estas anomalias podem representar concentraes de hidrocarbonetos presentes nos sedimentos e guas, anomalias microbiolgicas e

23 botnicas, mudanas mineralgicas e alteraes eltricas, magnticas e propriedades ssmicas prximas superfcie, bem como sedimentos deposicionais (MELLO, 1984).

4.2 OBJETIVOS DA GEOQUMICA DE SUPERFCIE

Os principais objetivos de um levantamento de geoqumica de superfcie encontrados para a explorao de leo e gs so (SCHUMACHER, 2000): (1) Reconhecer a presena e a tipologia da distribuio de hidrocarbonetos na rea de interesse de desenvolvimento e de explorao; (2) Determinar a provvel carga de hidrocarboneto, somente inferido por modelagem, para especificar a explorao e a avaliao dos prospectos na atividade de explorao. O objetivo de um levantamento geoqumico de superfcie encontrar exsudaes e microexsudaes que indiquem a evidncia direta de hidrocarbonetos termognicos, que documentam a presena de um sistema petrolfero ativo e identificam as pores da bacia que podem ser mais prospectivas.

4.3 PROSPECO NA GEOQUMICA DE SUPERFCIE

A prospeco na geoqumica de superfcie de uma determinada rea a ser identificada, pode ocorrer em bacias terrestres (bacias onshore) ou em bacias martimas (bacias offshore). Nas bacias onshore, as amostras de gases leves so comumente detectadas em headspace de solos em reas ambientais. J nas offshore, as amostras so coletadas por meio de piston core no assoalho marinho (PETERS et al., 2002).

4.3.1 Etapas do levantamento geoqumico de superfcie

Na seleo de uma rea prospectvel h certas questes importantes a serem consideradas. Entre elas, se existe uma rea fonte rica em matria orgnica, se a rocha fonte teria atingido uma temperatura suficiente para gerar grandes volumes de hidrocarbonetos (MELLO, 2003), e, por ltimo, conhecer os caminhos de migrao dos

24 hidrocarbonetos que levem a uma trapa. So as seguintes as etapas bsicas de um levantamento geoqumico:

1. Seleo da rea a ser estudada Esta etapa corresponde a uma avaliao regional inicial, que compreende estudos geolgicos, geofsicos e sensoriamento remotos.

2. Estudos preliminares Neste momento realizam-se avaliaes de tendncias e prospectos regionais.

3. Seleo do melhor programa geoqumico Nesta etapa devem ser aplicadas tcnicas de amostragem de campo, e programas laboratoriais.

4. Programao de amostragem Corresponde avaliao do programa de amostragem onshore e/ou offshore.

4.3.2 Amostragem geoqumica

A amostragem geoqumica compreende algumas fases consideradas importantes para a realizao de boas inspees, tais como o planejamento, a logstica e as ferramentas de coleta (MELLO, 2003). Segue-se o detalhamento destas fases.

4.3.2.1 Planejamento

A fase de planejamento inclui a discusso da rea a ser analisada, a malha de amostragem e a escolha de pontos, bem como os tipos de levantamentos. A discusso da rea corresponde a levantar dados, discutir com o cliente sobre a geologia, a geofsica, as estruturas em subsuperfcie, a quantidade de amostras, a logstica (custos) e definir parmetros cartogrficos da rea a ser levantada, tais como: datum, projeo e mc (meridiano central). A determinao da malha de amostragem e a escolha dos pontos geralmente recomendada para estudos exploratrios, malhas de 500 m, e a distribuio

25 de pontos deve ocorrer de forma mais regular possvel, com estes pontos direcionados em cima de falhamentos e estruturas mapeadas. Os tipos de levantamentos devem ser em carta topogrfica ou ssmica (MELLO, 2003).

4.3.2.2 Logstica

Durante a fase de logstica so realizados os levantamentos das necessidades, como materiais de escritrio, de campo e os equipamentos de segurana. Deve ser escolhida uma cidade para servir como rea base do levantamento. O controle de custos tambm importante por levantar e controlar as despesas com mo de obra, hospedagem, aluguel de carro, combustveis, alimentao e outras. E, por ltimo, a formao de uma equipe de campo (gelogo, tcnico ou operador) e a localizao dos pontos do levantamento so tambm consideradas necessrias para a realizao de um bom levantamento geoqumico (MELLO, 2003).

4.3.2.3 Ferramentas de coleta

As ferramentas de coleta compreendem tipos de amostragens que podem ser por gases livres (headspace e probe), hidrocarbonetos oclusos (blender) e/ou

hidrocarbonetos adsorvidos (adsorvidos). Os gases livres so altamente mveis e encontrados em espaos intersticiais ou poros, enquanto os gases sorvidos (adsorvidos ou absorvidos) apresentam mobilidade restrita (MELLO, 2003). Alguns tipos de ocorrncias e maneiras de amostragem de gs no solo e exsudaes na gua so descritos a seguir. Gases Livres: Headspace (solo): comumente empregado para anlises de amostras que so repassadas para recipientes em latas. As amostras so oriundas de perfuraes e/ou sedimentos rasos. Nesta tcnica um volume controlado de sedimento inserido na lata com um volume de salmoura. A lata ento selada e um volume de salmoura medido substitudo pelo nitrognio para criar um volume de headspace conhecido. Aps o equilbrio ser atingido, a concentrao de gases livres pode ento ser medida com injeo de uma seringa de uma amostra headspace dentro de um cromatgrafo de gs

26 equipado com um detector de ionizao de chama. A figura seguinte (MELLO, 2003) mostra a tcnica do Headspace e sua metodologia.

Figura 6 - Tcnica do Headspace (MELLO, 2003)

Probe: corresponde a uma leitura direta de gases livres e comumente empregada em anlises que devem ser conduzidas sobre fluidos de perfurao ou amostras de rocha recuperada a partir de uma escavao ou furo no solo. Estas escavaes profundas quase sempre se encontram com gua, o que pode influenciar a coleo de gases livres, forando a anlise do contedo de algum tipo de gs na gua reciclada ou no sistema lama no qual usado para perfurar o buraco. Para tal, um pequeno tubo concntrico selado assentado no solo a algumas profundidades. Com um auxlio de uma seringa usada para evacuar os gases residuais a partir do probe antes da amostra de gs no solo ser coletada, a amostra de gs no solo coletada em vidros de 125 ml e evacuada.

Blender (intersticiais): empregada em anlises em que se utiliza um agregador de partculas. Os hidrocarbonetos so modos e desagregados em um liquidificador, em seguida, realiza-se por meio de uma seringa, a amostragem que corresponde injeo dos hidrocarbonetos no cromatgrafo e em seguida no interior do blender. Gases Adsorvidos: A anlise deste gs ou extrao cida captura gases adsorvidos em sedimentos finos, seja em incluses no interior de carbonatos autignicos ou por guas estruturadas. O gs permanece protegido no interior da estrutura da gua e por isso: 1- no realiza trocas com gases livres nos espaos intersticiais; 2- protegido de ataques microbianos;

27 e 3- migra verticalmente segundo handshake migration. A adsoro aumenta quando o grnulo adsorvente diminui (aumento da rea superficial); pode ser fsica ou qumica:

1. Fsica ou de Wan der Waal: ocorre por energia de adsoro baixa e ligao frouxa da substncia adsorvida ao adsorvente. 2. Qumica: ocorre por energia de adsoro elevada e ligao firme da substncia adsorvida. Pode envolver um ction ou nion estranho.

4.3.3 Anlise geoqumica

A anlise geoqumica pode ser dividida em duas fases importantes: (1) A Quantificao dos hidrocarbonetos presentes (Screening Analysis), que pode ser realizada em todas as amostras por meio da anlise de Cromatografia gasosa, Fluorescncia Quantitativa e Cromatograma a Gs (Whole Extract-GC). (2) A caracterizao dos hidrocarbonetos encontrados (Detailed Analysis), que realizada pelas anlises de Biomarcadores (GM-MS), Diamantoides e Istopos de Carbono. Esta ltima ser realizada em amostras com alta concentrao de gases (acima de 500ppm), pela espectrometria de massa com a finalidade de determinar a origem dos hidrocarbonetos (MELLO, 2003). Nesta tese ser descrito apenas o mtodo de quantificao de cromatografia a gs por ter sido este o nico mtodo de anlise geoqumica utilizado.

4.3.3.1Cromatografia gasosa

Corresponde anlise geoqumica para quantificao dos hidrocarbonetos leves (C1 a C5), em que a mistura gasosa dever ser retirada dos recipientes oriundos do campo e injetada em cromatgrafos de alta resoluo capazes de determinar e quantificar as concentraes em ppm de metano, etano, propano, i-butano, n-butano e npentano.

28 O cromatgrafo deve ser equipado por uma coluna capilar e um detector de ionizao de chama1 (FID ou DIC). O princpio bsico do cromatgrafo ocorre por separao das misturas e por interao diferencial dos seus componentes entre uma fase estacionria - FE (lquido ou slido) e uma fase mvel - FM (lquido ou gs). Para que se d a separao destes constituintes das misturas, estes devem ser volteis ou evaporveis, termicamente estveis e com ponto de ebulio at 300oC. Assim, as amostras coletadas devem ser injetadas em um vaporizador em uma coluna cromatogrfica gerando um sinal quando da passagem de substncias que no o gs de arraste. A calibrao do cromatgrafo deve ser diria, utilizando-se uma mistura gasosa contendo concentraes conhecidas; o clculo destas concentraes e a transferncia dos valores para o formato digital devero ser automatizados evitando assim erros de transcrio. Os erros analticos devem ser inferiores a 15%.

4.3.4 Interpretao dos dados de Geoqumica de Superfcie

Os dados de geoqumica de superfcie muitas vezes podem apresentar rudos (noisy) (KLUSMAN, 2002). Isto tem constitudo um grande problema para o uso das tcnicas de geoqumica de superfcie, alm de ter gerado uma grande responsabilidade para os analistas no que se refere interpretao dos resultados de muitas inspees geoqumicas. A caracterstica da vida de uma populao natural determinada em um solo ou sedimento ir incluir todos os possveis membros de uma rea de interesse. A populao amostrada ou amostra estatstica engloba amostras individuais ou medidas realizadas no campo. A populao amostrada ser ento muito menor que a populao total, requerendo que essa populao amostrada deva ser representativa da populao total. Essa representatividade pode ser obtida por uma faixa amostrada, mas o grid (malha) amostrado mais comumente usado em avaliaes de lugares especficos que devem enfatizar uma rea de interesse.
1

Definido como um tipo de detector onde os ons so gerados durante a queima dos eluentes em uma chama de H2 + ar (MELLO, 2003).

29 O nmero de amostras ou medidas requeridas depende tambm dos objetivos de um levantamento de geoqumica de superfcie, importantes ao longo de um processo de planejamento. Durante o reconhecimento de um objetivo de uma avaliao da geoqumica de superfcie, em que se deseja determinar se uma bacia prospectiva ou no, poucas amostras so requeridas na identificao dos prospectos. A separao de amostras com anomalias de amostras background2 uma das partes mais crticas dos levantamentos de geoqumica de superfcie (KLUSMAN, 2002; SCHUMACHER, 2000; SCHUMACHER, 2011 ; SCHUMACHER & CLAVAREAU, 2011; SCHUMACHER & CLAVAREAU, 2012). No existe uma proporo de amostras com anomalias a ser distinguida a partir de amostras background. A prtica comum de considerar amostras maiores que uma mdia ou dois desvios padro como anomalias existenciais no tem base cientfica. Este limiar ou fronteira entre anomalias e background deve ser determinado objetivamente usando os dados disponveis. Em um reconhecimento de um levantamento ou na determinao da prospectividade de uma fronteira de uma bacia, muito poucas amostras ou medidas devem ser anomalias.

4.4 BENEFCIOS DA GEOQUMICA DE SUPERFCIE

Indicaes em superfcie de exsudaes de leo e gs so conhecidas h muitos anos como exsudaes que tm liderado a descoberta de vrias importantes reas produtoras de petrleo (SCHUMACHER, 2000). Apesar de a descoberta de uma superfcie com anomalias geoqumicas no garantir uma descoberta significativa de petrleo, isto estabelece a presena de hidrocarbonetos na rea de interesse. As exsudaes de hidrocarbonetos leves em superfcie representam o caminho final da migrao. Trapas e estruturas ao longo deste caminho devem ser considerados significativamente mais prospectivos do que aqueles associados s anomalias; assim, podem ser apontados como importantes benefcios potenciais para o completo xito na busca desta deteco de hidrocarbonetos leves em superfcie e, tambm, para a minimizao do risco exploratrio.

A amostra background no um nico valor; isto uma faixa de valores, particularmente para cobrir uma ampla rea de inspees ou ter contraste no solo, condies geolgicas e ambientais.

30 4.5 ANLISE GEOESTATSTICA

Na geoestatstica, a anlise do semivariograma uma etapa importante, pois o modelo de semivariograma escolhido a interpretao da estrutura de correlao espacial a ser utilizada nos procedimentos inferenciais da krigagem. A anlise completa do semivariograma compreende os seguintes passos: Levantamento do semivariograma experimental: o clculo do valor do

semivariograma em cada distncia realizado utilizando os dados amostrais da varivel regionalizada na equao abaixo, que o estimador do semivariograma. O

semivariograma experimental, quando apresenta dependncia espacial, uma curva irregular com flutuaes que crescem com os valores de h. Os ltimos pontos deste grfico tm menor significncia estatstica, pois envolvem poucos pares de pontos. A curva experimental obtida na realidade um estimador do verdadeiro semivariograma desconhecido; este possui propriedades matemticas precisas, fazendo-se necessrio, portanto, o ajuste de um modelo terico que sirva de base para os clculos posteriores. Ajuste a uma famlia de modelos de semivariogramas: o modelo ajustado

ao semivariograma experimental est relacionado com o comportamento do semivariograma na origem e a existncia ou no de um patamar. Ao modelo une-se o efeito pepita por extrapolao da curva. A adequao de um modelo terico fundamental, pois a partir dele sero feitas inferncias com relao ao semivariograma verdadeiro. Validao do modelo a ser utilizado nos procedimentos da krigagem: a

adequada modelagem da estrutura de dependncia espacial valida qualquer outro procedimento de inferncia e interpolao, alm de ser um forte subsdio para decises prticas sobre o fenmeno em estudo. Conhecido o semivariograma da varivel em estudo e havendo dependncia espacial entre as amostras, o prximo passo consiste na obteno de informaes de pontos no amostrados no campo por meio do mtodo de interpolao denominado krigagem. Os mtodos de krigagem so mtodos de interpolao que procuram minimizar o erro da estimao; na realidade, o erro mdio de estimao nulo. O problema que se coloca normalmente o de estimar o valor de uma varivel em locais no amostrados, , a partir dos valores de locais amostrados, . O estimador de krigagem

tambm um estimador linear que considera a organizao espacial da varivel:

31

em que

o ponderador da distncia e

A krigagem um mtodo exato e no viesado, isto , os valores nos locais amostrados so reproduzidos e o erro mdio de estimao nulo. Para avaliar de forma adequada a anlise geoestatstica, alguns autores tm utilizado o mtodo da validao cruzada. Nesta, assume-se que uma determinada amostra no tenha sido coletada, ou seja, elimina-se o seu valor e se estima a partir dos dados circundantes. Aps essa estimao, o valor real dessa amostra reintroduzido no sistema e o processo repetido para todas as outras amostras, de forma que para cada ponto possvel obter o erro de estimao. Uma estimao ter sido sem bias se o erro mdio for zero, isto , se os valores estimados tiverem uma diferena mdia em relao aos valores experimentais igual a zero, e a varincia estiver em torno de um. importante ressaltar que a anlise geoestatstica no se trata de um mtodo contnuo em uma direo. A anlise geoestatstica consiste em ir e voltar, refazer e comparar antes de qualquer deciso definitiva. Vrias decises so tomadas ao longo do processo, ou seja, os resultados intermedirios e finais no so obtidos de forma nica, e as tcnicas descritivas e exploratrias devem estar presentes em todas as fases do processo de anlise e no s na fase inicial.

4.6 COMPARAO ENTRE OS MTODOS DE INTERPOLAO

A krigagem permite que se faa uma validao cruzada para checagem dos dados, ou pelo menos uma comparao entre os erros. Por este mtodo, o ideal seria ter um erro mdio padronizado dos valores preditos prximo de zero, um quadrado mdio do erro o mais baixo possvel e um quadrado mdio do erro padronizado prximo de um. No caso dos interpoladores determinsticos (i,e., curvatura mnima e o inverso quadrado da distncia), estes somente fornecem o quadrado mdio do erro, e este tem que ser o mais baixo possvel. O quadrado mdio do erro (QME) dado por:

32

Os resultados obtidos para o quadrado mdio do erro sero comparados, e o mtodo que apresentar o menor quadrado mdio residual ser o mtodo considerado como o mais eficiente, isto para que os valores dos pontos no mapa interpolado sejam o mais possvel parecidos com os valores recolhidos nesses pontos.

33

5 RESULTADOS E DISCUSSES

5.1 ANLISE EXPLORATRIA DESCRITIVA

Esta seo apresenta os resultados da aplicao da metodologia proposta como estudo de caso em um conjunto de dados piston core da Bacia de Santos, composto por n = 500 registros e p = 12 atributos. Uma das dificuldades encontradas para o melhor desenvolvimento deste estudo, por ser inovador para geoqumica de superfcie brasileira, foi a busca de referncias bibliogrficas relacionadas.

5.1.1 Dados originais

Os dados piston core da Bacia de Santos foram obtidos a partir da ANP/BDEP (Agncia Nacional do Petrleo, Gs Natural e Biocombustveis / Banco de Dados de Explorao e Produo). Devido diversidade de informaes, foi necessrio realizar um pr-processamento em diversas etapas (dados outliers, dados ausentes, entre outros) para se obter a base para a avaliao. Os atributos elencados abaixo esto na mesma ordem da figura 7: 1 - Intensidade da Fluorescncia (nm); 2 - Emisso Mx. (nm); 3 - Excitao Mx. (nm); 4 - TSF R1 (nm); 5 - UCM Total (ppm); 6 - Alcanos Totais (ppm); 7 - Metano (ppm); 8 - Etano (ppm); 9 - Propano (ppm); 10 - i-Butano (ppm); 11 - n-Butano (ppm); 12 - n-Pentano (ppm).

34 A figura 7 uma matriz de correlao dos dados Piston core. Observa-se que as linhas 1 e 5 (Intensidade da Fluorescncia e UCM Total), assim como as linhas 2 e 3 (Emisso e Excitao), possuem forte correlao (aprox. 0,9). A correlao entre a Intensidade da Fluorescncia e UCM Total pode se dever predominncia de hidrocarbonetos (amorfos) indicativos de matria orgnica recente ou de leo exsudado que foi biodegradado. O grau da maturao da matria orgnica pode ser determinado por meio da intensidade e da cor da fluorescncia do material analisado (TISSOT; WELTE, 1984). A matria orgnica imatura geralmente apresenta fluorescncia amarela. Quando no incio da janela de gerao, a colorao se torna laranja e, quando matura, marrom (MENDONA; MENESES, 2001). Os dados de gasometria apresentaram tambm boa correlao (aprox. 0,9) corroborando desta maneira com os dados das variveis: Intensidade da Fluorescncia, Emisso Mx. e UCM Total. As variveis Excitao Mx, TSF R1 e Alcanos Totais apresentaram menor correlao com as demais variveis em estudo (aprox. 0,3).

Figura 7: Matriz de correlao dos dados piston core da Bacia de Santos

Grau de correlao

35 Baseado no grfico da varincia explicada (Fig. 8), temos que o primeiro componente principal explica cerca de 69% (CP1) da variao nos dados, o segundo principal componente explica 19% (CP2) e a terceira. 11% (CP3).

Figura 8 - Varincia Explicada - Componentes Principais (n +1) versus X - Varincia Percentual

Pode-se assim dizer que quase toda a informao relevante para o modelo em estudo (cerca de 99%) pode estar contida nas trs primeiras componentes principais. Em referncia aos resultados da ACP (anlise de componentes principais) (Fig. 8), Zuo (2011) obteve os mesmos resultados por meio da aplicao de anlise estatstica multivariada. ACP uma ferramenta til para combinar diversas variveis correlacionadas em uma nica varivel e, assim, para reduzir a dimensionalidade de conjuntos de dados correlacionados em componentes principais com base na covarincia ou correlaes de variveis, que representam as inter-relaes entre as variveis multidimensionais. Na figura 9 ilustra-se a existncia de diferentes comportamentos entre os parmetros em estudo. Entre os parmetros de gasometria (metano, etano e propano), intensidade da fluorescncia mx, TSF R1, UCM total, emisso mx e excitao mx,

36 apresentam-se com comportamentos distintos entre os mesmos. J os parmetros npentano, n-butano, alcanos totais e i-butano no se correlacionam com os demais.

1,0

Intensidade da Fluorescncia Mx (nm)

0,5 CP-2 (21,15%)


Propano (ppm) TSF R1 (nm) Etano (ppm) Metano (ppm) UCM Total (ppm) Emisso Mx (nm) Excitao Max (nm)

0,0

-0,5

n-Pentano n-Butano (ppm) (ppm) Alcanos Totais (ppm) i-Butano (ppm)

-1,0 -1,0 -0,5 0,0 CP-1 (43,86%)


Figura 9 - Grfico de distribuio dos pesos aos parmetros de piston core para a Componente Principal 1 versus Componente Principal 2

0,5

1,0

As estatsticas descritivas para os dados originais de Intensidade da Fluorescncia (nm), Emisso Mx. (nm), Excitao Mx. (nm), TSF R1 (nm), UCM Total (ppm), Alcanos Totais (ppm), Metano (ppm), Etano (ppm), Propano (ppm), iButano (ppm), n-Butano (ppm) e n-Pentano (ppm) esto apresentadas na Tabela 1. Para os dados do i-butano (ppm), o excesso de curtose foi bem superior a um. Levando-se em conta que a curtose de uma curva normal de 3, a curtose dessa srie de dados indica uma curva alm do valor, tendo a funo de distribuio um pico mais elevado e denominado leptocrtica. Existe uma estreita relao entre o valor das medidas de tendncia central e o comportamento da assimetria, tendo a mdia se apresentado maior que a mediana, demonstrando a assimetria positiva dos dados. Um expressivo desvio padro implica uma menor representatividade estatstica da mdia dos dados observados.

37 O coeficiente de variao de n-Pentano (207,39) mostra essa menor representatividade estatstica da mdia dos dados e no permite nenhuma concluso da distribuio dos dados; de acordo com Frizzo e Licht (2007), no indica convenincia da transformao dos dados brutos (originais) para seu logaritmo. Segundo Warrick e Nielsen (1980), pode-se classificar a variabilidade da varivel como mdia (0,12<CV<0,62).

38

Tabela 1 - Anlise estatstica descritiva das amostras com os valores originais (no transformados)
Intensidade da ESTATSTICAS Fluorescncia Emisso Excitao (nm) Mx (nm) Mx (nm) Nmero de 500,00 500,00 500,00 amostras 81,42 326,27 217,64 Mdia Mediana Valor mnimo Valor mximo Amplitude Quartil inferior Quartil superior Erro Padro Varincia Desvio mdio Desvio padro Excesso de Curtose Limite Inferior (Q1-1,5XAIQ) Limite Superior (Q3+1,5XAIQ) Coeficiente de variao 72,00 7,00 234,00 227,00 50,00 105,00 1,96 1819,80 33,82 42,66 0,50 39,50 456,00 52,39 340,00 200,00 458,00 258,00 300,00 344,00 1,48 1039,60 24,80 32,24 3,85 0,00 1031,00 9,88 230,00 20,00 430,00 410,00 200,00 230,00 0,09 386,00 14,84 16,65 48,28 170,00 875,00 9,03 Alcanos Totais (ppm) 500,00 0,43524 0,370 0,01 2,32 2,31 0,22 0,59 0,02 0,11 0,24 0,32 5,68 0,205 4,07 74,32

TSF R1 (nm) 500,00 0,96 0,82 0,00 4,48 4,48 0,64 1,10 0,03 0,30 0,37 0,56 9,05 0,64 7,82 58,16

UCM Total (ppm) 500,00 2,91 2,00 0,00 12,00 12,00 1,00 5,00 0,12 6,80 2,13 2,60 0,12 1,00 23,00 89,25

Metano (ppm) 500,00 13,22 9,40 3,87 179,03 175,16 7,79 11,52 0,73 251,9 7,14 15,87 42,33 1,98 280,07 120,03

Etano (ppm) 500,00 0,51 0,48 0,00 2,310 2,310 0,37 0,62 0,01 0,10 0,17 0,26 12,68 0,37 4,09 49,77

Propano (ppm) 500,00 0,26 0,26 0,00 0,96 0,96 0,19 0,33 0,01 0,00 0,09 0,12 6,68 0,19 1,77 45,19

i-butano (ppm) 500,00 0,35 0,02 0,00 1,21 1,21 0,00 0,04 0,00 0,00 0,03 0,09 92,09 0,00 1,86 254,30

n-Butano (ppm) 500,00 0,20 0,09 0,00 2,21 2,21 0,07 0,12 0,02 0,10 0,20 0,36 12,94 0,07 3,44 185,75

n-Pentano (ppm) 500,00 0,16 0,06 0,00 3,23 3,23 0,04 0,09 0,01 0,10 0,17 0,32 34,85 0,04 4,94 207,39

39

De acordo com a Tabela 1, para as demais variveis, a mdia e a mediana tambm apresentaram entre si valores prximos, revelando uma variao mnima. Os valores de excesso de curtose apresentaram valores positivos indicando uma distribuio assimtrica positiva e um comportamento leptocrtico da curva de distribuio, tendo a varivel i-Butano apresentado o maior valor, e para as variveis Intensidade da Fluorescncia e UCM Total, os menores valores para o excesso de curtose respectivamente, indicando uma possvel distribuio gaussiana. Observando os valores do coeficiente de variao (CV), os menores valores tambm so das variveis: Emisso Mx. e Excitao Mx. e as mximas para i-butano e n-Pentano. Segundo Koch e Link (1971), para valores de coeficiente de variao menores que 0,3 ou 30%, a distribuio normal ou muito aproximadamente normal, tendo as variveis: Emisso Mx. e Excitao Mx. apresentado valores de CV dentro dessa faixa. Quando observado para a varivel com desvios padro maior do que a mdia, o uso da distribuio normal fica inviabilizado (MACKAY; PATERSON, 1984). Desta maneira, segundo Koch e Link (1971), j que ficaram com valores de CV entre 40% e 70%, no permitem qualquer concluso para as variveis estudadas. Segundo Warrick e Nielsen (1980), pode-se classificar a variabilidade das variveis como alta (CV>0,62). As estatsticas para as variveis apontam claramente um distanciamento da hiptese de normalidade. Analisando estas hipteses pelos testes formais de normalidade (Tabela 2), pode-se observar para as variveis Emisso Mx.; Excitao Mx.; Metano; i-Butano; nButano e n-Pentano que no se rejeita a hiptese nula de que a distribuio normal de acordo com K-S (valor em negrito). Para as demais variveis tambm no se rejeita hiptese nula de ser a distribuio normal, contudo com menores valores.

Tabela 2 - Testes formais de normalidade Kolmogorov-Smirnov (K-S) para os dados originais


Intensidade da ESTATSTICAS Fluorescncia (nm) K-S Emisso Excitao Mx Mx (nm) (nm) TSF R1 (nm) UCM Total (ppm) Alcanos innMetano Etano Propano Totais butano Butano Pentano (ppm) (ppm) (ppm) (ppm) (ppm) (ppm) (ppm)

0,109

0,201

0,29

0,158

0,17

0,101

0,324 0,107

0,11

0,36

0,402

0,341

40

Figura 10 - Histograma de frequncia para as variveis originais

* Obs.: as curvas em linha vermelha representam a distribuio da curva gaussiana esperada para as variveis estudadas.

41

Figura 10 - Histograma de frequncia para as variveis originais (continuao)

* Obs.: as curvas em linha vermelha representam a distribuio da curva gaussiana esperada para as variveis estudadas.

42

Figura 11 - Boxplot para as variveis originais

43

Figura 11 - Boxplot para as variveis originais (continuao)

44

Figura 12 - Grfico de probabilidade para as variveis originais

* Obs.: as linhas em vermelho representam a reta probabilidade esperada para as variveis estudadas.

45

Figura 12 - Grfico de probabilidade para as variveis originais (continuao)

* Obs.: as linhas em vermelho representam a reta probabilidade esperada para as variveis estudadas.

46

Como podemos verificar por meio dos histogramas, boxplots e grficos de probabilidade, a maioria das variveis no apresentam um ajuste distribuio normal. Estas observaes sugerem a existncia significativa de outliers para estas variveis e talvez um melhor ajuste distribuio lognormal, como descrito por Ahrens (1953, 1954a, 1954b, 1957). De acordo com a estatstica, valores outliers deveriam ser removidos; no entanto, do ponto de vista geoqumico, estes valores extremos podem ter significado, constituindo anomalias geoqumicas. Segundo Reimann et al. (2005), a deteco de dados outliers uma das principais tarefas da anlise estatstica de dados geoqumicos. Para minorar eventuais efeitos nocivos provocados por esses fenmenos (existncia de outliers e comportamento lognormal), foi usada a transformao (ln, log10 e raiz quadrada (Sqrt)) dos dados, evitando assim a remoo de outliers e verificando se os dados geoqumicos melhor se ajustam ao comportamento lognormal.

5.1.2 Dados transformados (ln)

As estatsticas descritivas para os dados transformados (ln) das variveis esto apresentados na Tabela 3. A Tabela mostra que a variao entre a mdia e mediana de forma geral ficou menor aps a transformao, mas a transformao dos dados no aproximou de fato numa distribuio lognormal. Os valores de excesso de curtose apresentaram tambm valores mais prximos da normalidade, obtendo menores valores excesso de curtose para as variveis: ln UCM Total; ln Alcanos Totais; ln i-butano; ln n-Butano e ln n-Pentano, e maiores valores para as variveis: ln Intensidade da Fluorescncia; ln Emisso Mx.; ln Excitao Mx.; ln Metano; ln Etano e ln Propano, que no item anterior ficaram prximas da normalidade. As variveis: ln Emisso Mx.; ln Excitao Mx.; ln UCM Total; ln i-butano; ln n-Butano e ln n-Pentano tiveram seus valores de mdia menores que a mediana, apresentando assimetria negativa, ou seja, tiveram seus dados levemente concentrados direita; para as demais variveis, a assimetria positiva, com maior acmulo de dados esquerda.

47

Tabela 3 - Anlise estatstica descritiva das amostras transformadas (ln):


ln Intensidade ESTATSTICAS da ln Fluorescncia ln Emisso ln Excitao TSF R1 (nm) Mx (nm) Mx (nm) (nm) Nmero de 500,00 500,00 500,00 500,00 amostras 4,36 5,79 5,38 -0,15 Mdia Mediana Valor mnimo Valor mximo Amplitude Quartil inferior Quartil superior Erro Padro Varincia Desvio mdio Desvio padro Excesso de Curtose Limite Inferior (Q1-1,5XAIQ) Limite Superior (Q3+1,5XAIQ) Coeficiente de variao ln ibutano (ppm) 500,00

ln UCM Total (ppm) 500,00

ln Alcanos Totais (ppm) 500,00

ln Metano (ppm) 500,00

ln Etano (ppm) 500,00

ln Propano (ppm) 500,00

ln n-Butano (ppm) 500,00

ln n-Pentano (ppm) 500,00

4,30 1,95 10,26 8,31 3,91 4,72 0,03 0,57 0,52 0,75 9,36 0,99 20,11 0,17

5,83 5,30 6,47 1,17 5,70 5,84 0,01 0,02 0,08 0,12 5,55 -2,24 15,54 0,02

5,44 3,00 6,06 3,07 5,30 5,44 0,01 0,02 0,07 0,13 228,48 0,80 14,53 0,02

-0,21 -2,45 1,50 3,95 -0,45 0,09 0,02 0,21 0,35 0,46 2,93 3,23 2,34 -3,00

0,91 1,10 -0,69 4,75 5,45 0,00 1,61 0,04 0,72 0,74 0,85 -0,33 1,04 8,74 0,94

0,01 0,01 0,00 0,01 0,01 0,01 0,01 0,00 0,00 0,00 0,00 2,13 0,00 0,02 0,17

2,51 2,24 1,35 10,71 9,36 2,05 2,47 0,05 1,23 0,56 1,11 24,81 0,02 18,54 0,44

-0,69 -0,67 -2,12 3,54 5,66 -0,97 -0,45 0,02 0,23 0,34 0,48 12,46 2,21 4,87 -0,70

-1,34 -1,35 -3,32 2,67 6,00 -1,66 -1,11 0,02 0,22 0,33 0,47 13,06 3,33 2,90 -0,35

-2,49 -3,22 -4,61 2,24 6,85 -3,91 0,00 0,07 2,79 1,48 1,67 -1,17 3,00 3,37 -0,67

-1,95 -2,30 -4,83 1,59 6,41 -2,53 -1,97 0,05 1,03 0,77 1,01 0,75 4,72 0,41 -0,52

-2,29 -2,81 -3,91 3,71 7,63 -3,00 -1,66 0,05 1,39 0,95 1,18 1,04 2,87 3,91 -0,51

48

O valor mximo para a varivel ln n-Butano est fora do intervalo dado pelo limite superior e as variveis: ln TSF R1; ln UCM Total; ln Etano; ln Propano; ln i-butano; ln nButano e ln n-Pentano esto fora do intervalo dado pelo limite inferior, sugerindo possveis candidatos a valores discrepantes. Segundo Warrick e Nielsen (1980), pode-se classificar a variabilidade como mdia (0,12<CV<0,62) para as variveis: ln Intensidade da Fluorescncia; ln Alcanos Totais; ln Metano, e como alta (CV>0,62) para ln UCM Total, tendo apresentado o valor mais baixo para ln TSF R1 (-3,00) e valor mais alto para ln UCM Total (0,94). Analisando os dados pelos testes formais de normalidade (Tabela 4), pode-se confirmar que no se rejeita a hiptese nula de que a distribuio normal para as variveis: ln emisso mx., ln excitao mx., ln UCM Total, ln alcanos totais, ln metano, ln i-butano, ln n-butano e ln n-pentano, as que mais se assemelham com uma distribuio normal pelo teste K-S (valores em negrito); j para as demais variveis, rejeita-se a hiptese nula de que a distribuio lognormal.

Tabela 4 - Testes formais de normalidade Kolmogorov-Smirnov (K-S) para os dados transformados


ESTATSTICAS ln ln Emisso ln ln TSF Intensidade Mx (nm) Excitao R1 da Mx (nm) Fluorescncia (nm) (nm) 0,08 0,07 0,25 0,31 ln UCM Total (ppm) 0,24 ln Alcanos Totais (ppm) 0,11 ln Metano (ppm) ln Etano (ppm) ln ln iln nPropano butano Butano (ppm) (ppm) (ppm)

ln Pent (pp

K-S

0,28

0,08

0,09

0,27

0,27

0,2

Podemos visualizar melhor a disperso dos dados atravs das figuras boxplots, histogramas de frequncia e de probabilidade para as variveis transformadas: ln Intensidade da Fluorescncia, ln TSF R1, ln Etano e ln Propano (Figura 5.4a,5.4b e 5.4c, respectivamente), as quais tiveram rejeitada a hiptese nula de que a distribuio lognormal.

49

Figura 13a - Histograma de frequncia para as variveis transformadas (ln): Intensidade da Fluorescncia (nm), TSF R1 (nm), Etano (ppm) e Propano (ppm)

* Obs.: as curvas em linha vermelha representam a distribuio da curva gaussiana esperada para as variveis estudadas.

50

Figura 13b - Boxplot para as variveis transformadas (ln): Intensidade da Fluorescncia (nm), TSF R1 (nm), Etano (ppm) e Propano (ppm)

51

Figura 13c - Grfico de probabilidade para as variveis transformadas (ln): Intensidade da Fluorescncia (nm), TSF R1 (nm), Etano (ppm) e Propano (ppm).

* Obs.: as linhas em vermelho representam a reta probabilidade esperada para as variveis estudadas.

52

Fazendo a transformao dos dados por outros mtodos (Tabela 5), pode-se verificar que os dados transformados (log10) tiveram os mesmos resultados dos testes de normalidade para as variveis transformadas (Ln). J para os dados transformados pela raiz quadrada (Sqrt), o teste de normalidade mostra que se rejeita a hiptese nula de que a distribuio normal somente para a varivel Alcanos Totais (valor em negrito).

Tabela 5 - Testes formais de normalidade Kolmogorov-Smirnov (K-S) para dados originais (no transformados) e dados transformados (ln, log10 e Sqrt)
ESTATSTICAS K-S Intensidade da Fluorescncia (nm) Emisso Mx (nm) Excitao Mx (nm) TSF R1 (nm) UCM Total (ppm) Alcanos Totais (ppm) Metano (ppm) Etano (ppm) Propano (ppm) i-Butano (ppm) n-Butano (ppm) n-Pentano (ppm) Orig. Ln Log10 Sqrt

0,11 0,20 0,29 0,16 0,17 0,10 0,32 0,11 0,11 0,36 0,40 0,34

0,08 0,25 0,31 0,07 0,16 0,11 0,28 0,09 0,09 0,21 0,27 0,24

0,08 0,25 0,31 0,07 0,16 0,11 0,28 0,09 0,09 0,21 0,27 0,24

0,27 0,26 0,28 0,12 0,12

0,03 0,42 0,2 0,2 0,27 0,32 0,29

5.1.3 Interpolao pelos modelos: krigagem ordinria, curvatura mnima e inverso do

quadrado da distncia

Os mtodos da krigagem, curvatura mnima e inverso do quadrado da distncia para cada varivel foram ajustados conforme o padro do software Surfer 8.01 em estudo. Com o objetivo de comparar graficamente os interpoladores, os blocos diagrama e superfcie destas interpolaes so mostrados. Foram utilizados os mtodos: [mdia + 1 desvio padro], [mdia + 2 desvio padro] e [mdia + 3 desvio padro] para a determinao de limiares, onde a cor verde corresponde aos valores mdios (background) e as cores de laranja a vermelha, aos valores anmalos. Os blocos diagrama e superfcie dos valores das varireis nas figuras a seguir, estimados pelo mtodo de krigagem, apresentam as mesmas sub-regies descritas nas anlises

53

da superfcie de valores. Entretanto, foi apresentado um efeito suavizador das diferenas, visto que o interpolador de krigagem superestima para baixas medidas e subestima para elevados valores, ou seja, tende mdia dos dados. Esse resultado obtido principalmente pelo fato deste interpolador ser no viciado, com varincia mnima, pois um interpolador timo. A regio dita anmala aparece bem delineada. A interpolao pelo mtodo de curvatura mnima para as variveis apresentaram outras sub-regies no descritas na analise da superfcie de valores como se pode observar, apresentando uma distribuio espacial menos homognea que a apresentada pelo mtodo de krigagem. Pode-se verificar tambm uma extrapolao de valores, principalmente nas bordas do bloco. J a interpolao pelo mtodo do inverso do quadrado da distncia (IQD), os blocos diagrama e superfcie para os valores das variveis apresentaram uma distribuio espacial mais homognea do que pelo mtodo de curvatura mnima.

54

a)

b)

c)
Figura 14a - Bloco diagrama interpolado para a intensidade da fluorescncia (nm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia

55

a)

b)

c)
Figura 14b - Mapas para a intensidade da fluorescncia (nm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia

56

a)

b)

c)
Figura 15a - Bloco diagrama interpolado para a emisso mx (nm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia.

57

a)

b)

c)
Figura 15b - Mapas para emisso mx (nm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia

58

a)

b)

c)
Figura 16a - Bloco diagrama interpolado para a excitao mx (nm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia

59

a)

b)

c)
Figura 16b - Mapas para excitao mx (nm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia

60

a)

b)

c)
Figura 17a - Bloco diagrama interpolado para a TSF R1 (nm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia.

61

a)

b)

c)
Figura 17b - Mapas para TSF R1 (nm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia

62

a)

b)

c)
Figura 18a - Bloco diagrama interpolado para UCM total (ppm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia.

63

a)

b)

c) Figura 18b - Mapas para UCM total (ppm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia.

64

a)

b)

c)
Figura 19a - Bloco diagrama interpolado para alcanos totais (ppm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia.

65

a)

b)

c)
Figura 19b - Mapas para alcanos totais (ppm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia

66

a)

b)

c)

Figura 20a - Bloco diagrama interpolado para metano (ppm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia

67

a)

b)

c)
Figura 20b - Mapas para metano (ppm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia

68

a)

b)

c)
Figura 21a - Bloco diagrama interpolado para etano (ppm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia

69

a)

b)

c)
Figura 21b - Mapas para etano (ppm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia

70

a)

b)

c)
Figura 22a - Bloco diagrama interpolado para propano (ppm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia.

71

a)

b)

c)
Figura 22b - Mapas para propano (ppm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia

72

a)

b)

c)
Figura 23a - Bloco diagrama interpolado para i-butano (ppm) pelos mtodos: ( a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia.

73

a)

b) c)

Figura 23b - Mapas para i-butano (ppm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia

74

a)

b)

c)
Figura 24a- Bloco diagrama interpolado para n-butano (ppm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia.

75

a)

b)

c)
Figura 24b - Mapas para n-butano (ppm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia.

76

a)

b)

c)
Figura 25a- Bloco diagrama interpolado para n-pentano (ppm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia

77

a)

b)

c)
Figura 25b - Mapas para n-pentano (ppm) pelos mtodos: (a) krigagem ordinria, (b) curvatura mnima e (c) inverso do quadrado da distncia

78

5.1.4 Comparao entre mtodos de interpolao

Pela comparao dos blocos diagramas obtidos, verifica-se que o mtodo de krigagem ordinria apresenta distribuio espacial muito mais homognea do que os demais. Esse resultado obtido principalmente pelo fato deste interpolador ser no tendencioso, com varincia mnima. O desempenho desses interpoladores foi obtido e comparado usando o critrio do quadrado mdio do erro (QME). Para os valores estimados pelos mtodos do inverso do quadrado da distncia e curvatura mnima, esse critrio pode ser aplicado diretamente, pois no so interpoladores timos, e a diferena dos valores estimados e os observados no so nulos. Entretanto, para o interpolador de krigagem ordinria, por ser timo, essa diferena nula; logo, para ter os valores estimados no ponto observado, o mtodo de validao cruzada (VIEIRA, 2000; ISAAKS; SRIVASTAVA, 1989) foi usado. Esse mtodo envolve a estimativa de cada ponto medido, simulando que ele no existe durante a sua estimativa. A razo que krigagem ordinria um interpolador exato, passando exatamente pelo ponto observado, quando esse usado no clculo. Na Tabela 6, apresentam-se os resultados obtidos para o critrio de comparao (QME) para as variveis. O valor do critrio deve ser prximo de zero se o algoritmo for preciso. Altos erros estimados so obtidos para os trs interpoladores. Para os dados das variveis, o interpolador que apresentou resultado mais acurado conforme a tabela a seguir, foi o de krigagem ordinria, seguido pelo inverso do quadrado da distncia e, por ltimo, pela curvatura mnima.

79

Tabela 6 - Resultados obtidos para o quadrado mdio do erro (QME) para interpoladores usados na distribuio espacial das variveis

Krigagem Varivel Intensidade da Fluorescncia (nm) Emisso Mx (nm) Excitao Mx (nm) TSF R1 (nm) UCM Total (ppm) Alcanos Totais (ppm) Metano (ppm) Etano (ppm) Propano (ppm) i-butano (ppm) n-Butano (ppm) n-Pentano (ppm)

Inverso do Quadrado da Distncia


18,64 33,61 28,90 0,04 0,33 31,87 5,15 0,44 1,70 5,88 3,96 5,46

Curvatura Mnima

17,52 33,57 28,70 0,002 0,31 31,24 5,18 0,39 1,40 5,22 3,71 5,40

18,43 33,75 29,38 0,04 0,38 31,74 5,93 0,48 1,73 6,24 4,68 5,75

5.2 AVALIAO DA CLUSTERIZAO FUZZY C-MEANS (FCMC)

O algoritmo da clusterizao Fuzzy c-Means (FCMC) particiona o conjunto de dados em um pr-determinado c- nmero de clusters. uma tcnica de agrupamento de dados, onde cada ponto de dados de alguma forma pertence a um cluster que especificado por um grau de pertinncia. Este mtodo fornece a informao de como os pontos de dados de grupo demonstram como preencher um espao multidimensional em um nmero especfico em diferentes clusters. Clustering uma ferramenta matemtica que tenta descobrir estruturas ou certos padres em um conjunto de dados, onde os objetos dentro de cada cluster mostram certo grau de semelhana. Neste estudo, a avaliao de agrupamento FCM considerada como a estrutura mais adequada em conjuntos de dados geoqumicos (ZIAII et al., 2009; GATH et al., 1997). A avaliao do agrupamento FCM foi realizada a partir do ndice de validao PBM para determinar qual o nmero de clusters no conjunto de dados (EVSUKOFF et al., 2004;. PAKHIRA et al., 2004). Para esclarecimentos sobre outros indicadores, vide o captulo 3

80

sobre inteligncia computacional, para determinar o melhor nmero possvel de agrupamentos nos dados. Posteriormente, como pode ser visto na Tabela 7, para muitos dos valores m do parmetro fuzzy, o ndice de validao indica trs agrupamentos no conjunto de dados. Assim, a classificao foi realizada considerando basicamente trs agrupamentos (classes), conforme apresentado nas figuras 5.20, 5.21 e 5.22. O valor do ndice diminui na medida quando o valor de m aumenta. Isso se deve ao fato de que quanto maior for o valor do parmetro de fuzzificao, mais imprecisas sero as parties geradas, conforme as figuras 26, 27 e 28, adiante.

81

Tabela 7 - Determinao do nmero de clusters. Como pode ser visto, para os valores do parmetro de fuzzificao m, o ndice de validao indica 3 clusters (em negrito) para o banco de dados de Piston core em estudo

m = 1 ,2 m = 1 ,4 m = 1 ,6 m = 1 ,8 m = 2 ,0
0,1149 0,0659 0,0368 0,0179 0,0058

No clusters
2

0,1459
0,5319 0,4568 1,2046 0,4064 1,5146 3,3765 2,3611

0,0853
0,0703 0,0485 0,0382 0,2276 0,2132 0,1857 0,1676

0,0443
0,0331 0,0236 0,0194 0,0157 0,0139 0,0129 0,0117

0,0185
0,0132 0,0095 0,0064 0,0048 0,0040 0,0031 0,0026

0,0075
0,0065 0,0046 0,0036 0,0023 0,0018 0,0016 0,0012

3
4 5 6 7 8 9 10

82

Figura 26 - Mapa de Funo de Pertinncia FCM, CP1 versus CP2 (Componente Principal 1 versus Componente Principal 2), ilustrando trs clusters formados pelos valores da funo de pertinncia m = 1,2

Figura 27 - Mapa de Funo de Pertinncia FCM, CP1 versus CP2 (Componente Principal 1 versus Componente Principal 2), ilustrando trs clusters formados pelos valores da funo de pertinncia m = 1,6

83

Figura 28 - Mapa de Funo de Pertinncia FCM, CP1 versus CP2 (Componente Principal 1 versus Componente Principal 2), ilustrando trs clusters formados pelos valores da funo de pertinncia m = 2,0

Os resultados na Tabela 7 apresentam que, para valores maiores do parmetro m, o ndice PBM menor, uma vez que a partio mais fuzzy. As parties permitem um registro fuzzy a ser atribudo a mais de uma classe, possibilitando transies graduais entre os clusters. Desta maneira, o classificador geo-fuzzy foi assim atribudo para classificar os clusters gerados com m = 1,6 (parmetro de fuzzificao).

5.3 CLASSIFICAES DOS RESULTADOS

O classificador geo-fuzzy foi determinado a partir dos resultados de anlise de cluster para avaliar cada cluster no domnio geogrfico. Para esta aplicao, a base da regra foi gerada usando n = 10 conjuntos fuzzy para cada coordenada, resultando em 100 regras (10) e uma grade de 62.500 (250 x 250) pontos regularmente espaados dentro do domnio (EVSUKOFF et al., 2004). Os resultados so mostrados nas figuras 29 e 30 (a e b), nas quais os membros da classe so representados por um grau de cores: o verde representa a participao (0,0) nula e o vermelho representa a adeso (1,0) completa.

84

Figura 29 - Mapa do Cluster 1, longitude versus latitude, ilustrando reas anmalas para o cluster 1

85

Figura 30a - Mapa do Cluster 2, longitude versus latitude, ilustrando reas anmalas para o cluster 2

86

Figura 30b - Mapa do Cluster 3, longitude versus latitude, ilustrando reas anmalas para o cluster 3.

87

As interpretaes de cada cluster podem ser feitas a partir de seu centro de coordenadas, mostrado na Tabela 8. As colunas indicam os atributos do piston core utilizados para a avaliao dos clusters.

Tabela 8 - Valores piston core nos centros dos clusters. A interpretao de cada cluster pode ser realizada pelos centros de suas respectivas coordenadas. As linhas indicam os parmetros piston core que foram utilizados para expressar as avaliaes dos clusters pelas suas unidades.

Parmetros Intensidade da Fluorescncia (nm) Emisso Mxima (nm) Excitao Mxima (nm) TSF R1 (nm) Total UCM (ppm) Alcanos Totais (ppm) Metano(ppm) Etano (ppm) Propano (ppm) i-Butano (ppm) n-Butano (ppm) n-Pentano (ppm)

Cluster 1
365,4 359,8 231,1 2 ,2 7 ,0 490,5 323,8 1 ,7 1 ,3 1 ,1 1 ,2 1 ,3

Cluster 2
1570,8 83,6 41,3 1 ,6 9 ,2 442,8 2630,1 2 ,6 2 ,2 1 ,4 1 ,4 3 ,0

Cluster 3
2041,6 394,9 252,0 2 ,8 16,4 979,2 2886,6 3 ,3 2 ,0 1 ,5 1 ,6 3 ,2

Obs.: ppm = partes por milho; TSF R1 = Fluorescncia total Razo1 (Este parmetro possibilita uma estimativa qualitativa da razo de hidrocarbonetos de trs anis para dois anis aromticos); UCM = mistura complexa no resolvida (A quantificao deste parmetro obtido a partir da cromatografia gasosa provm uma medida de concentrao de hidrocarbonetos extraveis em amostras biodegradadas).

O cluster 1, ilustrado na figura 29, refere-se concentrao mais comum das amostras com menores concentraes de hidrocarbonetos, nas quais poderiam ser indicativos da possvel ausncia de fontes significativas em subsuperfcie ou a existncia de barreiras de permeabilidade entre as fontes e da superfcie. O cluster 2, apresentado na figura 30a, representa concentraes intermedirias entre os cluster 1 e 3. Finalmente, o cluster 3 (Figura 30b) semelhante ao cluster 2, apresentando valores outliers apenas para o metano, que poderiam indicar uma possvel contribuio de

88

gases biognicos gerados pela degradao da matria orgnica. Se no banco de dados deste estudo houvesse, por exemplo, a indicao aos dados de istopos de carbono, poder-se-ia comprovar esta indicao. Nas reas dos clusters onde h anomalias com sobreposio dos pontos de piston core e de poos, pode haver indcios de acumulaes na rea. Para confirmar a existncia deste foram utilizadas as informaes contidas no banco de dados disponveis da ANP/BDEP a fim de corroborar os campos identificados nas figuras 31; 32 e 33, a seguir. No caso em que no existem anomalias pode ser devido ao fato de as rochas selantes serem muito efetivas e poderem existir acumulaes de petrleo, ou mesmo, ser grande a probabilidade de no existirem acumulaes na rea em estudo. Nas reas onde somente existem os pontos de piston core e nenhum poo perfurado isto pode ser devido ao fato de haver anomalias com possveis acumulaes. De outra maneira, por no existirem anomalias, pode ter acumulaes (mas os hidrocarbonetos no se difundem) ou no grande a probabilidade de que no existam acumulaes significativas de petrleo.

89

Figura 31 - Mapa do Cluster 1, longitude versus latitude, ilustrando campos identificados em produo para o cluster 1

90

Figura 32 - Mapa do Cluster 2, longitude versus latitude, ilustrando campos identificados em produo para o cluster 2

91

Figura 33 - Mapa do Cluster 3, longitude versus latitude, ilustrando campos identificados em produo para o cluster 3

92

As amostras puderam ser agrupadas de acordo com seus valores mais elevados de adeso. O nmero absoluto e relativo de amostras agrupadas em cada cluster apresentado na tabela 9.

Tabela 9 - Nmero de amostras de cada cluster. Os clusters podem ser agrupados de acordo com sua maior participao em cada cluster, em valores absolutos e relativos.

Absoluto Cluster 1 Cluster 2 Cluster 3


151 126 173

Relativo (%)
34 28 38

Os resultados na tabela 9 so semelhantes aos da rea de regies na figura 30b. O cluster 3 o cluster mais comum, agrupando 38% dos dados, enquanto os clusters 1 e 2 so os que reagrupam o menor nmero de amostras. Estes resultados podem ser uma indicao da existncia de uma regio de anomalia no agrupamento 3, mas deve ser confirmada por estudos geolgicos para maiores detalhes. Em explorao geoqumica, a clusterizao fuzzy c-means fornece uma forma objetiva e eficaz para especificar litologicamente as concentraes background na composio geoqumica de sedimentos. Deve ser evitado utilizar somente esta tcnica, pois poder ocasionar uma m interpretao de reas anmalas, que esto apenas relacionadas com a composio litolgica dentro da rea de drenagem das amostras (RANTITSCH, 2000).

93

6 CONCLUSES

Neste estudo buscou-se a avaliao de dados geoqumicos de superfcie com nfase nos hidrocarbonetos leves de 500 amostras piston core da Bacia de Santos. As amostras foram analisadas por Fluorescncia, Head Space e Cromatografia Gasosa. Foram construdos diversos blocos diagramas, mapas de contorno e mapas de clusterizao fuzzy dos parmetros em estudo. Os dados geoqumicos de superfcie no apresentam uma distribuio lognormal ou normal. Mesmo quando usados outros diferentes mtodos de tratamento, no se aproximaram de uma distribuio normal. Foram obtidos melhores resultados com o interpolador geoestatstico de krigagem ordinria do que com os demais interpoladores curvatura mnimo e inverso do quadrado da distncia, que no ponderam a dependncia espacial entre as observaes. Desta forma a krigagem ordinria indica maior preciso para os locais da previso da distribuio das variveis estudadas, inferindo subsdios para delimitar reas com possveis potenciais petrolferos, assim como para reduzir o custo de novas pesquisas. Foi apresentada uma metodologia do geoprocessamento fuzzy para mapas de geoqumica de superfcie e estudo de data mining para a Bacia de Santos. Os resultados permitiram uma definio mais precisa das reas anmalas visualizadas nos mapas de clusterizao fuzzy, tendo em conta todos os parmetros geoqumicos de forma integrada (em vez de avaliao das concentraes de cada gs de forma independente), proporcionando uma alternativa a geoestatstica padro.

94

7 RECOMENDAES

As tcnicas de inteligncia computacional contribuem como ferramenta de apoio na tomada de deciso para auxiliar no aumento da confiabilidade na explorao e da minimizao do risco exploratrio na indstria petrolfera.

Empregar outros mtodos para adquirir outros conhecimentos como, por exemplo, Regras de Associao, ou ainda para preencher os valores de algumas variveis que se encontram ausentes, por meio de Regresso Linear.

Aumentar a densidade de amostragem piston core para ter uma maior abrangncia da rea com a finalidade de obter uma maior confiabilidade.

No foram evidenciados claramente trabalhos aplicados geoqumica de superfcie de hidrocarbonetos gasosos implementados com ferramentas geoestatsticas, o aprendizado estatstico e geoestatstico. Tambm se constatou a ausncia de maiores informaes interdisciplinares sobre a regio estudada, as quais contribuiriam para uma melhor avaliao dos dados.

95

REFERNCIAS

ABRAMS, A. M.; DAHDAH, N. F. Surface sediment gases as indicators of subsurface hydrocarbons - examining the record in laboratory and field studies. Marine and Petroleum Geology, v. 27, p. 273-84, 2010. ALBA, J. M. F.; SOUZA, C. R. GIS-based environmental risk assessment in the Ribeira Valley. Environmental Earth Sciences, So Paulo, Brazil, v. 59, p. 1139-47, 2010. AGRAWAL, R.; SRIKANT, R. Fast algorithms for mining association rules in large databases. Proceedings of the International Conference on Very Large Databases, Santiago, Chile, 1994. AHRENS, L. H.A fundamental law of Geochemistry. Nature, v. 172, p. 1148, 1953. AHRENS, L. H. The lognormal distribution of the elements (A fundamental law of Geochemistry and its subsidiary). Geochimica et Cosmochimica Acta, New York, n. 5, p. 49-74, 1954a. AHRENS, L. H. The lognormal distribution of the elements II. Geochimica et Cosmochimica Acta, New York, n. 6, p. 121-32, 1954b. AHRENS, L. H. Lognormal-Type Distribution III. Geochimica et Cosmochimica Acta, n. 11, p. 205-13, 1957. CHAVES, C. J. Avaliao de segmentaes urbanas atravs de inteligncia computacional. 2011. 72 p. Dissertao (Mestrado em Engenharia Civil) UFRJ/COPPE, Rio de Janeiro, 2011. CHERKASSKY, V.; MULLER, F. M. Learning from data: Concepts, Theory and Methods. 2nd edition, New Jersey: Willey IEEE Press, 2007. CHRISTENSEN, J. H.; TOMASI, G.; HANSEN, A.B. Chemical Fingerpriting of Petroleum Biomarkers Using Time Warping and PCA. Environmental Science Technology, v. 39, p. 255-60, Jan., 2005. DBMINER TECHNOLOGY INC. DBMiner Enterprise 2.0, 2000. Disponvel em: <http://www.dbminer.com>. Acesso em: 5 maio 2013. DEMBICKI, H. Recognizing and compensating for interference from the sediments background organic matter and biodegradation during interpretation of biomarker data from seafloor hydrocarbon seeps: An example from the Marco Polo area seeps, Gulf of Mexico, USA. Marine and Petroleum Geology, v. 27, p. 1936-51, 2010. DOMINGUES, H. H. Espaos mtricos e introduo topologia. So Paulo: Atual, 1982. DUBOIS, D.; PRADE, H. Possibility Theory. New York: Plenum Press, 1988.

96

EVSUKOFF, A. G.; GONALVES, F. T.; BEDREGAL, R. P.; EBECKEN, N. F. F. Fuzzy classification of surface geochemistry data applied to the determination of HC anomalies. IEEE Joint 2nd International Conference on Soft Computing and Intelligent Systems, 2004. FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge discovery: An overview. In: FAYYAD, U.; SHAPIRO, G. P.; SMYTH, P.; UTHURUSAMY, R. (Eds.). Advances in Knowledge Discovery and Data Mining, p. 1-34, Menlo Park (CA): AAAI Press, 1996. p. 1-34. FRIZZO, S. J.; LICHT, O. A. B. Estatsticas uni e bivariadas aplicadas prospeco geoqumica. In: LICHT, O. A. B.; MELLO, C. S. B.; Silva, C. R.(Eds.). Prospeco geoqumica de depsitos minerais metlicos, no-metlicos, leo e gs. Rio de Janeiro: SBGq - Sociedade Brasileira de Geoqumica / CPRM Servio Geolgico do Brasil, 2007. Cap. 19, p. 595-618. GATH, I.; ISKOZ A. S.; CUTSEM, B. V. M. Data induced metric and fuzzy clustering of non-convex patterns of arbitrary shape. Pattern Recognition Letters, v. 18, p. 541-53, 1997. GLER, C.; KURT, M. A.; ALPASLAN, M.; AKBULUT, C., Assessment of the impact of anthropogenic activities on the groundwater hydrology and chemistry in Tarsus coastal plain (Mersin, SE Turkey) using fuzzy clustering, multivariate statistics and GIS techniques. Journal of Hydrology. Article in Press, 2011. HAN, J.; KAMBER, M. Data Mining: Concepts and Techniques. San Francisco: Morgan Kaufmann, 2001. HAN, J.; KOPERSKI, K.; STEFANOVIC, N. Geominer: a system prototype for spatial data mining. ACM SIGMOD International Conference on Management of Data, Arizona, 1997. HOLDER, L.; COOK, D.; GONZALEZ, J.; JONYER, I. Structural pattern recognition in graphs, in pattern recognition and string matching. Dordrecht (Netherlands): Kluwer Academic Publishers, 2002. HOPPNER, F.; KLAWONN, F.; KRUSE, R.; RUNKLER, T. Fuzzy Cluster Analysis. Chichester (England): Willey, 1999. ISAAKS, E. H., SRIVASTAVA, R. M. An introduction to applied geoestatistics. New York: Oxford University Press, 1989. JAIN, A.; DUBES, R. Algorithms for clustering data. Englewood Cliffs (USA): Prentice Hall, 1988. JIAWEI H., KAMBER M. Data mining: concepts and techniques. 2.ed. San Francisco (USA): Morgan Kaufmann Publishers, 2006. KAUFMAN, L.; ROUSSEEUW, P. J. Finding groups in data: an introduction to cluster analysis. New York: Willey, 1990.

97

KDNUGGETS. Data Mining and Knowledge Discovery, <http://www.kdnuggets.com>. Acesso em: 2 maio 2013.

2004.

Disponvel

em:

KECMAN, V. Learning and Soft Computing. Cambridge: MIT Press, 2001. KHOSHNOODKIA, M.; MOHSENI, H.; RAHMANI, O.; MOHAMMADI, A. TOC determination of Gadvan Formation in South Pars Gas field, using artificial intelligent systems and geochemical data. Journal of Petroleum Science & Engineering, v. 78, p. 119130, 2011.
KLUSMAN, R. W. Interpretation and display of surface geochemical data. In: SCHUMACHER, D.; LESHACK, L. A. (eds). Surface exploration case histories: Applications of geochemistry, magnetics and remote sensing. AAPG Studies/SEG Geophysical References Series, n. 11, p.1-24, 2002.

KOCH Jr. G. S.; LINK, R. F. Statical analysis of geological data. New York: John Willey & Sons Inc, 1971. LEE, C. C. Fuzzy logic in control systems: Fuzzy logic controller (part II). IEEE Transactions on Systems, Man and Cybernetics, v. 20, p. 419-30, 1990. LOGAN, A. G.; JONES, A. T.; KENNARD, J. M.; RYAN, G. J.; ROLLET, N. Australian offshore natural hydrocarbon seepage studies, a review and re-evaluation. Marine and Petroleum Geology, v. 27, p. 26-45, 2010. MACKAY, D.; PATERSON, S. Spatial Concentration Distribution. Env.Sci. & Technology, Washington, v.18, n.1, p. 207A-214A, 1984. MASSART, D. L et al. (Eds.). Handbook of Chemometrics and Qualimetrics: Part A. Amsterdam: Elsevier, 1997 MCQUEEN, J. Some methods for classification and analysis of multivariate observations. 5-th Berkeley Symposium on mathematics 1, p. 281 - 298, 1967. MELLO, C. B. S. de. Apostila de Amostragem. Curso de Geoqumica de Superfcie Aplicada a Explorao de Hidrocarbonetos. Rio de Janeiro, UFRJ/COPPE/ PEC/ LAMCE, 2003. MELLO, M. R. Geoqumica do petrleo. Petrobrs / RJ, Cenpes, set. 1984. MENDONA FILHO, J. G.; MENEZES, T. R. Curso de palinofcies e fcies orgnicas. Rio de Janeiro: UFRJ, 2001. MOREIRA, J. L. P. et al. Bacia de Santos. Boletim de Geocincias da Petrobrs, v. 25, p. 531-549, 2007. PAKHIRA, M. K.; BANDYOPADHYAY, S.; MAULIK, U. Validity index for crisp and fuzzy clusters. Pattern Recognition, v. 37, p. 487-501. 2004. PASADAKIS, N.; OBERMAJER, M.; OSADETZ, K. G. Definition and characterization of petroleum compositional families in Wiliston Basin, North Amrica using principal

98

component analysis. Organic Geochemistry, v.35, p. 453-68, 2004. PETERS, K. E.; FOWLER, M. G. Applications of petroleum geochemistry to exploration and reservoir management. Organic Geochemistry, v.33, p.5-36, 2002. PETERS, K. E.; WALTERS, C. C.; MOLDOWAN, J. M. The biomarker guide: biomarker and isotopes in petroleum exploration and Earth history. 2 ed. v. 2, Cambridge: Cambridge University, 2005. RANTITSCH, G. Application of fuzzy clusters to quantify lithological background concentrations in stream-sediment geochemistry. Journal of Geochemical Exploration, v. 71, p. 73-82, 2000. REIMANN, C.; FILZMOSER, P.; GARRET, R. Background and threshold: critical comparison of methods of determination. Science of the total environment, n. 346, p. 1-16, 2005. REZENDE, S. O. Sistemas inteligentes: fundamentos e aplicaes. Barueri (SP): Manole, 2005. ROCHA, C. L. Anlise de fronteiras de reservatrio de petrleo atravs de geoqumica de superfcie e minerao de dados. 2005. Dissertao (Mestrado em Cincias em Engenharia Civil) UFRJ, Rio de Janeiro, 2005. SARDIAS, Z. D. Caracterizao geoqumica de asfaltitas cubanas. 2007. Tese (Doutorado em Qumica Orgnica) - UFRJ, Rio de Janeiro, 2007. SCHUMACHER, D., 2011. Petroleum Exploration in Environmentally Sensitive Areas: Opportunities for Geochemical and Non-Seismic Geophysical Methods. AAPG Search and Discovery Article #901292011 AAPG Southwest Section Meeting, Ruidoso, New Mexico, 5-7 June 2011. SCHUMACHER, D. Surface Geochemical Exploration for oil and gas: New life for an old technology. The Leading Edge, v. 19, p. 258-261, March 2000. SCHUMACHER, D.; CLAVAREAU, L. Hydrocarbon exploration survey strategies for frontier basins. Search and Discovery Article #40681 (2011). Posted Jan. 18, 2011. Adapted from oral presentation at AAPG International Conference and Exhibition, Calgary, Alberta, Canada, Sept. 12-15, 2010. SCHUMACHER, D.; CLAVAREAU, L. Finding new pays in old plays: New applications for surface geochemistry in mature basins. Search and Discovery Article #41084 (2012). Posted Nov. 30, 2012. AAPG International Conference and Exhibition, Singapore, Sept. 16-19, 2012.
TISSOT, B. P.; WELTE, D. H. Petroleum formation and occurrence. 2. ed., Berlin: Springer-

Verlag, 1984.

99

VIEIRA, S.R. Geoestatstica em Estudos de Variabilidade Espacial do Solo. In: NOVAIS, R. F.; ALVAREZ, V. H.; SCHAEFER, C. E. G. R. (Eds.). Tpicos em Cincia do Solo. Viosa: Sociedade Brasileira de Cincia do Solo, v. 1, p.1-54, 2000, WARRICK, A. W.; NIELSEN, D. R. Spatial Variability of Same Physical Properties of the Soil. In: HILL, D. (Ed.) Applications of Soil Physics, New York: Academic Press, 1980. Cap. 13, p. 319-44. 1980.

WIEDEMANN, L. S. M. Caracterizao geoqumica de leos de bacia sedimentar brasileira. 2006. Tese (Doutorado em Cincias) UFRJ, Rio de Janeiro, 2006. ZIAII, M.; POUYAN, ALI A.; ZIAEI, M. Neuro-fuzzy modeling in mining geochemistry: Identification of geochemical anomalies. Journal of Geochemical Exploration, v. 100, p. 25-36, 2009. ZUO, R. Identifying geochemical anomalies associated with Cu and Pb-Zn skarn mineralization using principal component analysis and spectrum-area fractal modeling in the Gangdese Belt, Tibet (China). Journal of Geochemical Exploration, v. 111, p. 13-22, 2011.