Você está na página 1de 5

V CONGRESSO BRASILEIRO DE METROLOGIA Metrologia para a competitividade em reas estratgicas 9 a 13 de novembro de 2009.

Salvador, Bahia Brasil

ANLISE DA SENSIBILIDADE DO MTODO DE MONTE CARLO PARA A ESTIMATIVA DE INCERTEZA DE ACORDO COM O NMERO DE DADOS ALEATRIOS GERADOS
Guilherme Augusto de Almeida Gonalves1, Lucas Aguiar Teixeira2, Ricardo de Arajo Kalid3
1 2

Universidade Federal da Bahia, Salvador, Brasil, guilhermegoncalves10@gmail.com Universidade Federal da Bahia, Salvador, Brasil, lucasteixeira88@yahoo.com 3 Universidade Federal da Bahia, Salvador, Brasil, kalid@ufba.br

Sumrio: Analisou-se de que maneira a incerteza, obtida pelo mtodo de Monte Carlo, influenciada pelo nmero de dados aleatrios gerados. Tambm foi avaliada a influncia na heterocedasticidade da incerteza. Usando testes de hiptese verificou-se que a incerteza obtida pelo mtodo de Monte Carlo heterocedstica, at 107 apresentaes de dados aleatrios. Os resultados mostraram que o nmero de dados aleatrios deve ser maior que 105 e que em casos que exigem maior rigor um estudo mais detalhado deve ser feito. Palavras-chave: Monte-carlo. Incerteza. Dados aleatrios. 1. INTRODUO Os mtodos numricos, embora existam registros da sua existncia desde o sculo dezoito, comearam a ter uma maior importncia durante a segunda guerra mundial onde foram usados para calcular o transporte de nutrons. Dentre os mtodos numricos mais utilizados para simulaes est o mtodo de Monte Carlo ou simulao de Monte Carlo que recebeu esse nome numa homenagem feita por seu criador, Stanislaw Ulam, em uma visita aos cassinos de Mnaco. Em incerteza na medio o mtodo de Monte Carlo [1] [2] utilizado como uma alternativa para o mtodo usual proposto pelo GUM. O mtodo tem as suas principais aplicabilidades quando no se possui um modelo com derivadas parciais fceis de calcular, quando a aproximao pela srie de Taylor de primeira ordem para o modelo no satisfatria (modelo no linear ou complexo) e por ltimo quando grande a assimetria das grandezas de entrada. O mtodo se baseia no fato de cada grandeza de entrada possuir uma funo densidade de probabilidade (PDF), a partir de cada grandeza de entrada e de sua respectiva PDF, so gerados dados aleatrios que atravs de um modelo so propagados para a grandeza de sada. Constri-se assim a PDF da grandeza de sada e a partir desta so retirados todos os parmetros estatsticos desejados.

Observemos as vrias vantagens de se fazer isso. Primeiro torna-se desnecessrio o clculo das derivadas parciais do modelo (coeficientes de sensibilidade), tambm no mais necessrio o clculo dos graus efetivos de liberdade, bem como dos coeficientes de correlao (esto naturalmente includos no modelo). Porm um ponto de interrogao a determinao do nmero de simulaes que ser necessrio para se atingir uma preciso especificada [3] [4]. O presente trabalho tem como objetivo analisar de que maneira a incerteza varia de acordo com o nmero de dados gerados pseudo-aleatoriamente e qual o nmero de dados que torna o resultado satisfatrio. Para o procedimento empregado nesta anlise da incerteza foi utilizado o mtodo programado para certo exemplo, com um nmero de dados aleatrios varivel, e aps isto se encontrou o nmero de dados a partir do qual a incerteza pode ser considerada homocedstica. A varincia uma pea chave para calcular a incerteza do tipo I. Diz-se que a incerteza de um instrumento de medio homocedstica quando a varincia dos resultados das medies independente, ou seja, no varia, seja com o tempo, ou com o nmero de dados apresentados no mtodo de Monte Carlo. 2. OBJETIVO Avaliar de que maneira a incerteza se comporta de acordo com o nmero de dados gerados na simulao de Monte Carlo. Propor um valor para o nmero de simulaes que tornam a estimativa de uma incerteza de medio satisfatria e homocedstica. 3. METODOLOGIA O primeiro passo para a estimativa atravs do mtodo de Monte Carlo foi a determinao da FDP que as medidas de capacitncia seguiam. Para isso foi utilizado o teste de

Kolmogorov-Smirnov. Neste teste foram utilizadas como hipteses as distribuies normal, uniforme e triangular. Foram ento gerados dados aleatrios com base nessa distribuio. Estes dados foram gerados sucessivamente sempre aumentando o nmero de dados dez vezes, ou seja, utilizou-se a seguinte frmula: Nmero de dados = 10n , n = 1, 2, 3, 4, 5, 6, 7 Porm um grande inconveniente foi encontrado ao se iniciar o clculo alguns pontos variavam a cada vez que o mtodo era repetido, por exemplo, ao executar o mtodo com 104 dados mais de uma vez observou-se que os valores eram diferentes de maneira bastante considervel, ento para tornar o mtodo mais robusto para cada n a incerteza foi estimada 30 vezes a partir disso ento se calculou a mdia destas incertezas para anlise. H duas formas de aumentar o nmero de apresentaes de dados (simulaes): (a) incrementar o nmero de dados aleatrios de cada PDF de entrada; (b) incrementar o nmero de vezes que cada PDF apresentada. Neste trabalho foram comparados esses procedimentos. Por fim analisou-se ainda de que maneira o tempo de processamento variou medida que se aumentava o nmero de dados. Para verificar a homocedasticidade da incerteza (i.e. verificar a homogeneidade da varincia dos dados) em relao ao nmero de amostragens no Mtodo Monte Carlo (MMC), foi gerado 20 vezes um conjunto de trinta dados para cada nmero de simulaes: 10, 102, 103, 104, 105, 106 e 107. Com esses dados, fez-se um teste de hiptese de igualdade de varincia entre os dados referentes a pares consecutivos de nmero de simulaes (entre os dados para 103 e 104 simulaes, por exemplo). Para esses testes foram feitos os teste de Bartlett e depois o teste robusto de Levene [6], os quais so testes de hipteses e retornam com um p-valor que indica a rejeio da hiptese nula de igualdade de varincias quando menor que a significncia. Para aplicar tais testes usou-se a funo vartestn do MATLAB [5]. Ento foi analisado o comportamento dos p-valores com o aumento do nmero de simulaes. ESQUEMA METODOLGICO 1. Aps realizar as medies, utilizou-se um teste de aderncia a uma PDF para atribuir uma PDF a cada grandeza de entrada; 2. Para cada grandeza de entrada gerou-se uma PDF com um pequeno nmero de dados; 3. Atravs do modelo propagou-se a incerteza para a grandeza de sada;

4. Atravs da PDF da grandeza de sada estimou-se um valor de incerteza para esta; 5. Os passos 2 a 4 so repetidos 30 vezes, gerando assim trinta valores de incerteza; 6. O pequeno nmero de dados inicial incrementado aumentando seu valor por um fator de 10; 7. Repete-se os passos 2 a 5 para o novo nmero de dados 8. Faz-se um teste de igualdade de varincias entre os conjuntos de incerteza para PDFs com diferentes nmeros de dados(10 e 10 dados, por exemplo) [6]. 9. Faz-se uma anlise comparativa entre os resultados dos testes de igualdade de varincia com o aumento do nmero de dados aleatrios que geram a PDF. 4. RESULTADOS E DISCUSSO 4.1 Dados Experimentais Usados para Estudo Para avaliar a sensibilidade do mtodo de acordo com o nmero de dados gerados foi utilizado um exemplo onde se deseja medir a distncia entre as placas de um capacitor plano de placas paralelas [7]. Um capacitor um dispositivo eltrico cuja principal funo armazenar carga. Um capacitor consiste num dispositivo com dois condutores de cargas iguais e opostas. O capacitor de placas paralelas possui uma relao onde sua capacitncia associada com a rea das placas e a distncia entre elas:

Em que: - corresponde a permissividade eltrica no vcuo - corresponde a permissividade eltrica do meio A - rea das placas do capacitor d - distncia entre as placas Neste exemplo a partir de medidas da capacitncia objetivouse encontrar a distncia entre as placas do capacitor, os dados utilizados para capacitncia seguem na tabela 1. As constantes foram: = 8.854187 pF m-1; = 1.0005 pF m-1; A = 28.274 m; Estas constantes foram consideradas para efeito de clculo isentas de incerteza.

4.2. Teste de Kolmogorov-Smirnov O teste de Kolmogorov-Smirnov realiza uma comparao entre distribuies para saber se elas so oriundas da mesma populao, ou seja dadas duas amostras X1 e X2 ele testa se F1(x) = F2(x) para todo x dentro de um certo nvel de significncia alfa. Neste teste o nvel de significncia era aumentado a cada loop at que uma das hipteses nulas no fosse rejeitada. Como resultado do teste, tem-se o valor H, a interpretao de H a seguinte: H = 0 - No rejeitamos a hiptese nula no nvel de significncia alfa; H = 1 - Rejeitamos a hiptese nula no nvel de significncia alfa. A partir deste teste foi adotado que os dados de entrada seguiam a uma distribuio uniforme, analisando a Tabela 2 e grfico da Figura 1.
Tabela 1: Dados de capacitncia em picofarad.

4.3. Anlise dos Dados Gerados para Cada n O que se observou inicialmente foi que para um nmero baixo de dados (n=1, 2, 3) no existe uma repetitividade da incerteza, pois os valores variam a cada vez que o programa executado. Estes dados so, portanto, de pouca confiabilidade e no devem ser usados para o clculo da incerteza j que no so valores realmente representativos do seu valor. medida que o nmero de dados gerados aumentou, o procedimento se torna se torna mais confivel. Os pontos para n=4 tambm podem apresentar variaes sendo tambm pouco recomendvel que se use este nmero de dados apesar de apresentar certa repetitividade de valores muitas vezes ele destoa fortemente do valor apresentado anteriormente podendo ser uma fonte de uma incerteza subestimada ou superestimada.

Medida 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Capacitncia em pF 19,20 20,30 20,90 20,30 21,20 20,25 19,30 20,50 21,25 19,40 20,50 20,70 19,25 20,25 21,40 19,80 19,25 20,41 19,30 21,20

Figura 1: Histograma das grandezas de entrada

Tabela 2: Resultados para o teste Kolmogorov-Smirnov

PDF testada Triangular Normal Uniforme

Valor de H 1 1 0

Significncia 0.3 0.3 0.3

Os valores para n=5 e 6 apresentaram resultados bons em relao reprodutibilidade. A recomendao quando se utiliza o mtodo de monte Carlo utilizar no mnimo 100000 dados aleatrios (n=5). O que se percebe que a partir desse valor a variao na incerteza, apesar de ainda existir, muito baixa, e, comparando os valores para n=6 e n=7, a diferena de apenas 1% em mdia, justificando usar n=7 apenas em casos onde se necessita de extrema preciso. Outro ponto analisado foi como os trinta valores estimados de incerteza eram prximos ou no. Esta anlise bastante importante j que para se ter uma incerteza que seja bastante robusta, mesmo executando o mtodo vrias vezes, necessrio que os valores desta sejam bastante repetitivos.

Figura 2: Grfico dos trinta valores para incerteza estimada, delimitados por limites superiores e inferiores

O critrio utilizado para quantificar a disperso das incertezas, ou seja, como estas incertezas se concentram em torno da incerteza mdia foi o desvio padro resultante dos 30 clculos de incerteza. de se esperar que, quanto menor for o valor deste parmetro, mais os valores esto concentrados em torno da incerteza mdia e mais representativa ser este valor. Quanto a este parmetro, o que se observou foi que ele diminui fortemente medida que o nmero de iteraes aumenta para n de 1 a 4 e depois comea decrescer de maneira mais suave, de modo que quando temos n = 7 ele j se aproxima muito do valor zero, a partir de n=6 j se torna pouco perceptvel a diferena entre os desvios, o grfico da Figura 3 mostra como o desvio variou em funo do nmero de dados aleatrios.

concluir que medida que o nmero de dados aumenta menos varivel fica o valor da incerteza como mostrado tambm no grfico da Figura 3. 4.4. Tempo de Processamento Outro fato importante que medida que se aumenta o nmero de dados, principalmente aps 10 5 dados, a velocidade de processamento torna-se bastante lenta, como observado no grfico da figura 4.

Figura 4: Tempo de Processamento para cada nmero de dados apresentados

Figura 3: Desvio padro das incertezas geradas em funo do nmero de apresentados

Um grfico que mostra muito bem o fato da robustez dos valores est no grfico de disperso dos 30 valores para incerteza comparativamente (Figura 2), deste grfico pode-se

Para at cem mil dados o tempo de processamento permanece constante tendo em mdia cinquenta a setenta segundos de processamento para cada grupo de trinta PDFs geradas. Porm a partir deste nmero de dados apresentados o tempo de processamento d um salto pequeno quando se apresentam um milho de dados e o tempo praticamente dobra quando se apresentam dez milhes de dados aleatrios. Com relao aos procedimentos empregados e mencionados no mtodo como (a) e (b) os resultados

mostraram que o procedimento (a) necessita de um nmero maior de apresentaes para uma mesma preciso, porm o tempo de processamento menor. 4.5. Testes de Igualdade das Varincias Teste de hiptese, como o de Bartlett e o de Levene [6], tem como resposta um valor chamado de p-valor. Se o p-valor for maior que o nvel de significncia (que corresponde ao complementar do nvel de confiana) ento o teste inconclusivo, ou seja, no se pode rejeitar a hiptese nula de que as varincias dos dois grupos so diferentes Se o p-valor for menor que o nvel de significncia, o teste conclusivo e indica a rejeio da hiptese nula. Fazendo os testes de Levene de comparao de varincia da maneira proposta, chegou-se a valores para p-valor prximo de zero, usando amostras de 600 valores de incerteza obtidos atravs de cada PDF gerada pelo MMC, usando nmeros diferentes de dados aleatrios no mtodo para cada PDF. Isso indica que se pode rejeitar a hiptese de igualdade das varincias e assumir que o acrscimo de nmero de simulaes do MMC de fato altera nosso resultado representativamente, mesmo se comparando os dados para 106 e 107 simulaes no Mtodo Monte Carlo. 5. CONCLUSES Os valores das incertezas tornam-se repetitivos quando o nmero de dados aleatrios apresentados no mnimo de 105 dados, porm medida que se aumenta o nmero de dados, principalmente aps 105 dados, a velocidade de processamento torna-se bastante lenta. Contudo, estatisticamente, a partir do teste de Levene, se observou que, mesmo com o aumento do nmero de dados apresentados, ou seja, com o aumento do nmero de simulaes, a incerteza no homocedstica. O que existe, na verdade, uma contnua diminuio da varincia dos resultados, levando a uma maior reprodutibilidade na estimativa da incerteza propagada pelo MMC, pelo menos at 107 simulaes. Portanto, ao utilizar o mtodo de Monte Carlo deve ser observado se as caractersticas das incertezas obtidas e se a PDF da incerteza atende aos requisitos necessrios.

REFERNCIAS [1] G.Moscati, L.G. Mezzalira e F.D. Santos. Incerteza de medio pelo mtodo de Monte Carlo no contexto do suplemento 1 do GUM. ENQUALAB 2004. [2] BIPM, IEC, IFCC, ILAC, ISO, IUPAC, IUPAP and OIML 2007 Evaluation of Measurement Data, Supplement 1 to the Guide to the Expression of Uncertainty in Measurement Propagation of Distributions Using a Monte Carlo Method. [3] A.B. Mendes. Simulao de monte Carlo. Aoriano Oriental. 2007 [4] M.C. Junior and P.J. Pompia. Uncertainty of the Density of Moist Air: Gum x Monte Carlo. Brazilian archives of biology and technology. 2006 [5] Matlab 19942008 by The MathWorks, Inc. Vide: www.mathworks.com. [6] M.B. Brown, A.B. Forsythe Robust Tests for the Equality of Variances, Journal of the American Statistical Association, Vol.69, No. 346 (Jun., 1974), pp. 364-367. [7] S. Mekid, D. Vaja, Propagation of Uncertainty: Expressions of Second and Third order Uncertainty with Third and Fourth Moments, Measurement (2007)

Você também pode gostar