2007 - Schwaab - Pinto

ser1e
Escola Pilota em Engenharia Quimica

GOPFE/UFRJ
Série
Escola Piloto de
Engenharia Química
COPPE/UFRJ
Análise de Dados
Experimentais - Volume I
Fundamentos de Estatística
e Estimação de Parâmetros
Marcio Schwaab
José Carlos Pinto
Apoio
Rio de Janeiro, 2007
[:..:] e-papers
PERTENCE AO N O DE O I
Agradecimentos
Agradecemos a todos os alunos do Programa de Engenharia Química

do Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Enge-
nharia da Universidade Federal do Rio de Janeiro (PEQ/ COPPE/ UFRJ) que,
durante as discussões da disciplina “COQ866 – Estimação de Parâmetros
e Planejamento de Experimentos”, foram nos convencendo da relevância
desse tema para a formação de pesquisadores e engenheiros em geral.
Agradecemos ainda a esses alunos pelas várias oportunidades que nos
deram de aplicar e ampliar os nossos conhecimentos sobre o assunto nos
mais diversos ramos da Engenharia. Agradecemos também aos colegas
do PEQ que, ao recomendarem o curso a seus alunos, abriram portas
para o desenvolvimento desse livro.
Agradecemos em particular aos Profs. José Luiz Fontes Monteiro (PEQ/
COPPE/ UFRJ) e Marcos Wandir Nery Lobão (Universidade Tiradentes, Ara-
caju-SE), companheiros de primeiras horas no PEQ/ COPPE/ UFRJ durante
um período importante de descobertas na área e, como nós, entusiastas
do tema. Na verdade, tudo começou no longínquo ano de 1987, quando
o Marquinhos descobriu uma tese orientada pelo Prof. Gilbert F. Froment
na biblioteca do CENPES /PETROBRAS, com mais de quinhentos pontos
experimentais ... (J. Franckaerts, “Kinetic Study of the Dehydrogenation
of Ethanol.”, Tese de PhD, 1963).
Agradecimentos especiais são encaminhados ao Prof. Príamo Albu-
querque Melo Jr., entusiasta e incentivador constante da confecção desse
livro. Muito do que aqui está apresentado foi preparado para as muitas
versões da Escola Piloto do PEQ/ COPPE/ UFRJ, curso oferecido através
da Internet para alunos de graduação de todo o Brasil, organizado bri-
lhantemente pelo Príamo.
Agradecemos a Ana Cláudia Ribeiro e a Rachel Rodrigues pelo trabalho

de organização e confecção do livro, em tempo recorde, para lançamento
durante o Colóquio de Engenharia Química do PEQ / COPPE / UFRJ de
2007. Agradecemos a boa vontade da Ana e de toda a equipe da E-Papers
durante a realização desse projeto.
Marcio Schwaab agradece aos seus pais, irmãos e cunhadas pelo apoio
em sua jornada de Maripá, interior do Paraná, ao Rio de Janeiro. Marcio
Schwaab também agradece aos diversos alunos da disciplina “COQ866
– Estimação de Parâmetros e Planejamento de Experimentos” que o
procuravam para tirar dúvidas sobre a solução dos exercícios e sobre a
confecção do trabalho final da disciplina. Muitos não sabiam, mas quem
mais aprendia com estas “ajudas” era o próprio Marcio Schwaab. Por fim,
Marcio Schwaab agradece a José Carlos Pinto, dentre muitas outras coisas,
pela confiança e pela oportunidade do término conjunto desse livro.
José Carlos Pinto agradece também a confiança que o Marcio Schwaab
sempre depositou nas muitas propostas que foram a ele encaminhadas,
incluindo o término conjunto desse livro. Obrigado, Marcio, por comprar
as loucuras do Zé.
Dedicatória
Dedicamos esse livro a nossas mulheres:

Elisa Barbosa Coutinho e Márcia Moura Cerqueira Pinto.
Estivemos longe delas por bom tempo,
enquanto estimávamos parâmetros.
© Marcio Schwaab e José Carlos Pinto/E-papers Serviços Editoriais Ltda., 2007.

Todos os direitos reservados a Marcio Schwaab e José Carlos Pinto/E-papers Serviços
Editoriais Ltda. É proibida a reprodução ou transmissão desta obra, ou parte dela, por
qualquer meio, sem a prévia autorização dos editores.
Impresso no Brasil.
ISBN 85-7650-088-4
Projeto gráfico e diagramação

Livia Krykhtine
Capa
Ana Claudia Ribeiro
Foto da capa
Felix Möckel
Revisão
Rachel Rodrigues
Esta publicação encontra-se à venda no site da

E-papers Serviços Editoriais.
http://www.e-papers.com.br
E-papers Serviços Editoriais Ltda.
Rua Mariz e Barros, 72, sala 202
Praça da Bandeira – Rio de Janeiro
CEP: 20.270-006
Rio de Janeiro – Brasil
CIP-Brasil. Catalogação na Fonte

Sindicato Nacional dos Editores de Livros, RJ
S425a
v.1
Schwaab, Marcio
Análise de dados experimentais, I : fundamentos de estatística e estimação de
parâmetros / Marcio Schwaab, José Carlos Pinto. Rio de Janeiro: E-papers, 2007.
462p. : il. ; . (Escola Piloto em Engenharia Química ; v.1)
Apêndice
ISBN 8576500884
1. Engenharia química - Pesquisas - Métodos estatísticos. 2. Estimativa de
parâmetros. 3. Planejamento experimental - Modelos matemáticos. I. Pinto,
José Carlos. II. Título. III. Série.
07-3272. CDD: 660.2
CDU: 66.011
Sumário
19 Princípios Básicos de Estatística

19 1.1. A Natureza dos Problemas Científicos e da Experimentação
21 1.2. Metodologia Científica e Experimentação
24 1.3. As Fontes de Erro e o Ideal Determinístico
30 1.4. Os Conceitos de Probabilidade e de Média
37 1.5. O Conceito de Variáveis Independentes e as Propriedades
da Média
43 1.6. Os Conceitos de Espalhamento, Variância e Covariância
62 1.7. Extensão dos Conceitos de Distribuição, Média e Variância
para Variáveis Contínuas
71 1.8. Conclusões
71 1.9. Leitura Adicional
72 1.10. Exercícios Sugeridos
75 Distribuições de Probabilidade
76 2.1. A Distribuição Binomial
86 2.2. A Distribuição de Poisson
92 2.3. A Distribuição Hipergeométrica
96 2.4. A Distribuição Uniforme ou Retangular
103 2.5. A Distribuição Exponencial
110 2.6. A Distribuição Normal
113 2.7. A Distribuição Log-Normal
114 2.8. Extensão de Conceitos para Sistemas Multidimensionais
Análise de Dados Experimentais - Volume I 7

120 2.9. A Distribuição Multinomial

120 2.10. A Distribuição Normal Multidimensional
123 2.11. Conclusões
127 O Problema Amostral: Inferências e Comparações

128 3.1. Definição de Intervalo de Confiança
135 3.2. O Problema de Amostragem
149 3.3. Distribuições e Intervalos de Confiança de Grandezas
Amostrais
169 3.4. Fazendo Comparações entre Grandezas Amostrais
184 3.5. A Região de Confiança em Problemas Multidimensionais
201 Estimação de Parâmetros

202 4.1. Modelos, Modelagem e Simulação
209 4.2. Classificação de Modelos
224 4.3. Definição do Problema de Estimação de Parâmetros
229 4.4. Características Fundamentais do Problema de Estimação
de Parâmetros
236 4.5. A Definição da Função Objetivo
255 4.6. O Método da Máxima Verossimilhança
290 4.7. Interpretação Estatística dos Dados Estimados
309 Procedimentos Numéricos para Estimação de

Parâmetros
310 5.1 Definição do Problema Numérico de Otimização
318 5.2 Método de Newton
331 5.3 Método de Gauss-Newton
334 5.4 Outros Métodos com Derivadas
338 5.5. Métodos de Busca Direta
340 5.6. Métodos Heurísticos
360 5.7. Cálculo Numérico da Região de Confiança dos Parâmetros
8 Análise de Dados Experimentais - Volume I

370 5.8. A Forma de Apresentação dos Dados Experimentais

379 Soluções dos Exercícios Propostos

379 Capítulo 1
391 Capítulo 2
400 Capítulo 3
414 Capítulo 4
428 Capítulo 5
434 Apêndice A

Prólogo
A história desse livro começa no segundo período de aulas do curso de

Doutoramento do Programa de Engenharia Química do Instituto Alberto
Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia da Universi-
dade Federal do Rio de Janeiro (PEQ / COPPE / UFRJ), em Junho de 1987.
Motivado pela necessidade de reduzir os tempos de desenvolvimento e
confecção de teses de Mestrado e Doutorado e os custos dos trabalhos
experimentais, o Prof. José Luiz Fontes Monteiro, da área de Cinética e
Catálise – envolvido, portanto, com a manipulação de centenas de dados
experimentais e esforços contínuos para caracterização de parâmetros
cinéticos de reações químicas – propôs a dois alunos do curso “COQ878
– Problemas Especiais em Cinética e Reatores” (José Carlos Pinto e Marcos
Wandir Nery Lobão) que desenvolvessem um projeto de disciplina visando
à implementação de algumas rotinas de planejamento experimental para
estimação ótima de parâmetros, descritas por Froment e Bischoff em um
livro clássico da área de Cinética de Reações Químicas (“Chemical Reactor
Analysis and Design“, G.F. Froment and K.B. Bischoff, 1st Ed., John Wiley
& Sons, New York, 1979). O projeto foi aceito e então, à medida que os
estudos avançaram, Zé Carlos, Zé Luiz e Marquinhos foram se entusias-
mando com o tema. Começamos a sentir necessidade de aprofundar os
conhecimentos e a verificar que muitas de nossas dúvidas e perguntas
ainda não haviam sido respondidas pela literatura técnica. Pronto! Estava
aberta uma linha de pesquisa da qual nunca mais nos afastamos. Durante
esses primeiros momentos, foi extremamente importante observar que
os parâmetros cinéticos obtidos para uma reação de desidrogenação de
etanol a etanal, conduzido por Franckaerts e Froment (J. Franckaerts e G.F.
Froment,“Kinetic Study of the Dehydrogenation of Ethanol“, Chemical

Engineering Science, 19, 807-818, 1964), ao longo do qual foram coletados

mais de 500 experimentos, poderiam ser reproduzidos com o mesmo
nível de confiança estatística com não mais do que 25 experimentos
(J.C. Pinto, M.W. Lobão e J.L. Monteiro, “Sequential Experimental Design
for Parameter Estimation: a Different Approach”, Chemical Engineering
Science, 45, 883-892, 1990). Do ponto de vista da estimação dos parâ-
metros, o ganho era simplesmente fantástico, de maneira que a isca foi
mordida irreversivelmente.
Ao longo desses anos, muitas foram as aventuras no mundo da estima-
ção de parâmetros e planejamento experimental. Tivemos a oportunidade
de desenvolver novas técnicas e de formular aplicações em várias áreas
afins à área de Engenharia Química, como na Química, na Biotecnologia, na
Engenharia de Materiais, na Mecânica etc., sempre com resultados extre-
mamente satisfatórios. No entanto, para nossa surpresa, sempre que uma
nova oportunidade de aplicação aparecia, tínhamos que primeiramente
convencer nossos interlocutores de que aquele conjunto de técnicas podia
de fato ser útil para o trabalho por eles desenvolvidos. Alguns argumentos
foram ouvidos com tanta freqüência, que merecem ser aqui discutidos:
Argumento 1: “Nada substitui o bom senso do experimentador!”

Nada pode ser mais preconceituoso do que essa frase. Aliás, diz-se que
a qualidade mais bem distribuída por Deus sobre a Terra foi exatamente
o bom senso, pois todos acham que o têm em boa quantidade. Brinca-
deiras à parte, o certo é que não parece ser de bom senso a decisão de
usar um conjunto de técnicas que podem ser colocadas num contexto
matemático formal, onde pode ser provado que é possível minimizar
erros de análise e maximizar a certeza das conclusões tiradas, já que
essas duas propriedades são continuamente buscadas por quaisquer
investigadores. Parece de bom senso, pois, utilizar o conjunto de técnicas
aqui apresentadas. Creditamos esse primeiro argumento a uma certa
postura conservadora que todos nós possuímos, em particular quando
pensamos que algo que nunca usamos possa ter alguma utilidade. E o
fato é que a disciplina de Estimação de Parâmetros e Planejamento de
Experimentos é parte integrante de pouquíssimos currículos escolares,
de forma que poucos são os investigadores que de fato tiveram a opor-
tunidade de verificar formalmente as vantagens que esses conjuntos
de técnicas podem proporcionar. Se você quer começar a ler esse livro,
desarme-se e tenha espírito aberto!
Argumento 2: “Já usei estas técnicas e não alcancei qualquer resul-

tado positivo!”

Nada pode doer mais no crente do que a descrença embasada. Como

um crente como nós podemos convencer alguém a usar algo que não
funcionou? Bom, a experiência acumulada ao longo desses anos tem
mostrado que a freqüência com que se houve esse segundo argumento é
bem maior do que a freqüência com que nos deparamos com problemas
que não podem ser resolvidos e otimizados com o uso do conjunto de
técnicas aqui apresentadas. Na realidade, com freqüência as técnicas
aqui apresentadas e discutidas são usadas como caixas-pretas, onde se
imagina que um conjunto de dados pode ser alimentado, resultando
numa resposta ótima desejada. Nada mais falso do que esta expectati-
va, em parte vendida por nós crentes. Toda e qualquer resposta ótima
fornecida pelo conjunto de técnicas aqui apresentadas depende de que
certas hipóteses sejam satisfeitas. Por exemplo, às vezes é necessário
que os erros tenham uma distribuição estatística particular, às vezes é
necessário que o sistema se comporte linearmente (ou seja, que o efeito
global possa ser obtido como uma soma dos efeitos causados por cada
variável do problema), às vezes é necessário que as variáveis sejam me-
didas de forma independente etc. E como saber se essas hipóteses são
satisfeitas pelo sistema estudado? Bom, supõe-se que o experimentador
possa fornecer essas informações, o que nem sempre é verdade! Portanto,
para sermos bem sucedidos é necessário que sejamos capazes de avaliar a
qualidade das hipóteses feitas, o que significa que devemos estar cientes
das hipóteses feitas e que devemos ser capazes de caracterizar de forma
apropriada o processo de obtenção dos dados experimentais. Logo, essas
técnicas não devem ser usadas como caixas-pretas, pois basta que uma
das hipóteses seja falsa para que toda a utilidade da técnica seja desfei-
ta! Esteja pronto para interagir com as técnicas aqui apresentadas e a
verificar as hipóteses. Esse conjunto de técnicas não vai ter realmente
nenhuma utilidade se você não estiver disposto a analisar as hipóteses
e adequar o seu problema ao contexto correto.
Argumento 3: “Tem muita Matemática e eu preciso de algo prático!”

Esse é um argumento difícil de rebater, pois de fato tudo o que aqui
será apresentado toma por base princípios de Cálculo, Álgebra e, prin-
cipalmente, Estatística. Apesar disso, uma vez entendidas as hipóteses
fundamentais em que se baseiam as técnicas, é possível aplicá-las como
receitas bem estruturadas. Além disso, muito provavelmente você não vai
ter que desenvolver qualquer rotina computacional para a sua aplicação,
uma vez que vários grupos de pesquisa ao redor do mundo produzem
continuamente pacotes computacionais cada vez mais sofisticados,
onde resultados podem ser obtidos com o clicar de um mouse. E, se isso

ainda não o convence a desenvolver a aplicação sozinho, por que não

trabalhar em conjunto com um grupo capaz de tocar a tarefa matemática
de forma apropriada?
E foi assim, desenvolvendo aplicações e simultaneamente ouvindo e
questionando esses e outros argumentos ao longo desses 10 anos, que
fomos amadurecendo a idéia de escrever esse livro. Hoje acreditamos que
a gama de aplicações possíveis para as técnicas apresentadas nesse livro
são infinitamente mais amplas do que o universo de aplicações sugere.
Mais ainda, acreditamos sinceramente que todo investigador deveria
ter a oportunidade de estudar formalmente essas técnicas já nos cursos
de graduação como disciplina básica, tendo em vista que o horizonte
de aplicações extrapola os limites das áreas tecnológicas. Apesar disso,
estamos também convencidos de que nós crentes não temos sido muito
eficientes na comunicação com o grande público de usuários potenciais
dessas técnicas e de que temos vendido caixas-pretas, como se fosse
possível tratar todos os problemas do mundo da mesma forma.
O objetivo fundamental desse livro é apresentar técnicas de estima-
ção de parâmetros e planejamento de experimentos para todos aqueles
interessados em aplicações experimentais práticas e no desenvolvimento
de novas aplicações e técnicas. Procura-se valorizar aqui o contexto em
que as técnicas podem ser utilizadas, discutindo-se as hipóteses funda-
mentais e as principais limitações existentes. Não temos o objetivo de
apresentar uma visão exaustiva de qualquer dos pontos discutidos, uma
vez que nesse caso teríamos que escrever uma enciclopédia. Sempre que
necessário, leitura suplementar é sugerida como referência para soluções
existentes para problemas específicos.
A idéia básica que permeia todo o livro e que une todos os volumes
desta série é a de que existe um experimentador interessado em co-
nhecer em um problema particular se e como determinadas variáveis
influenciam outras. Por exemplo, se e como as quantidades de leite,
açúcar e sal alteram o gosto do Panettone. Além disso, se possível, o
experimentador gostaria de otimizar os valores de certas variáveis do
problema. Por exemplo, quais são as quantidades de leite, açúcar e sal
que permitem fazer o Panettone mais saboroso. Finalmente, a resposta
adequada deve ser obtida com a máxima precisão possível, no menor
tempo possível e com o menor custo. É aos experimentadores e pesqui-
sadores interessados nesse cenário que nos dirigimos. A apresentação é
certamente influenciada pela nossa formação de engenheiros, de forma
que algumas vezes alguns procedimentos heurísticos são utilizados, em
detrimento de procedimentos teóricos mais bem embasados.

Para atingir os objetivos propostos, a série “Análise de Dados Expe-

rimentais” será composta por três volumes e organizada da seguinte
maneira:
Volume 1: Fundamentos de Estatística e Estimação de Parâmetros.

Neste volume são abordadas as questões relacionadas ao desenvolvi-
mento dos aspectos teóricos e numéricos da estimação de parâmetros.
O livro se inicia com a definição de conceitos e ferramentas estatísticas,
fundamentais para a estimação de parâmetros, passando depois pela
formulação do procedimento de estimação de parâmetros e pela aná-
lise dos resultados obtidos, sempre sob a luz da estatística. A tese que
permeia a discussão é a de que a técnica de estimação de parâmetros
só atinge a plenitude do rigor científico quando pode ser suportada por
argumentos estatísticos sólidos.
Volume 2: Planejamento de Experimentos.

Neste volume são abordadas as questões relacionadas ao planejamento de
experimentos, visando à construção de procedimentos de planejamento
experimental que permitam otimizar de alguma forma os resultados
finais perseguidos pelo experimentador. Dá-se ênfase à compreensão dos
argumentos teóricos que fundamentam o desenvolvimento dos proce-
dimentos de planejamento, analisando-se o significado e a utilidade de
diferentes classes de técnicas experimentais, incluindo desde os planos
fatoriais clássicos até os procedimentos avançados de planejamento se-
qüencial de experimentos. A tese que permeia a discussão é a de que os
planejamentos experimentais devem ser encarados como procedimentos
sofisticados de otimização da etapa de estimação de parâmetros.
Volume 3: Reconciliação de Dados e Controle de Qualidade

Neste volume são abordadas as questões relacionadas à análise de dados
industriais, visando à otimização e ao controle dos processos. Por isso,
discutem-se procedimentos de Reconciliação de Dados e de Controle de
Qualidade, dando-se ênfase particular aos procedimentos de estimação
de parâmetros que podem ser implementados em linha e em tempo real
no ambiente industrial. A tese que permeia a discussão é a de que é pos-
sível implementar modelos fenomenológicos e empíricos nos sistemas
de aquisição e manipulação de dados das plantas industriais, para fins
de monitoramento e controle avançado do processo.

Análise de Dados Experimentais. I.

Fundamentos de Estatística e Estimação de Parâmetros
O primeiro volume desta série foi dividido em seis capítulos da seguinte
maneira:
Capítulo 1: Princípios Básicos de Estatística

O principal objetivo desse capítulo é introduzir conceitos básicos de
estatística, como a noção de aleatoriedade e de determinismo, e definir
as grandezas estatísticas fundamentais: probabilidade, média, variância,
covariância etc. A leitura desse capítulo não é necessária para aqueles
que conhecem a conceituação estatística fundamental, embora seja re-
comendada para todos os leitores porque estabelece os fundamentos e
o linguajar técnico usado em todos os demais capítulos do livro.
Capítulo 2: Distribuições de Probabilidade

O principal objetivo desse capítulo é introduzir os conceitos de distribui-
ção de probabilidade em problemas discretos e contínuos, os quais são
depois usados para caracterização dos dados. A leitura desse capítulo
não é necessária para aqueles que conhecem a conceituação estatística
fundamental e as distribuições estatísticas mais comuns.
Capítulo 3: O Problema Amostral – Inferências e Comparações

O principal objetivo desse capítulo é introduzir os conceitos de inferência
amostral das grandezas estatísticas fundamentais e construir procedi-
mentos para comparação entre estas grandezas. Esses procedimentos
são fundamentais para caracterização apropriada da qualidade dos dados
amostrados. A leitura desse capítulo não é necessária para aqueles que
conhecem as técnicas básicas de inferência e comparação estatística. No
entanto, como esses procedimentos são usados em todos os demais capí-
tulos dessa série de livros, é possível que mesmo o leitor experimentado
sinta-se motivado para enfrentar essa leitura.
Capítulo 4: Estimação de Parâmetros

O principal objetivo desse capítulo é definir o procedimento de estimação
de parâmetros em bases estatísticas firmes e apresentar o arcabouço
teórico necessário para interpretação adequada dos resultados finais. São
valorizados nesse capítulo principalmente os aspectos teóricos formais
e a discussão das hipóteses fundamentais, em detrimento dos aspectos
numéricos do problema. Acreditamos sinceramente que mesmo o leitor
mais experimentado vai encontrar nesse capítulo discussões teóricas
úteis sobre o problema de estimação de parâmetros.

Capítulo 5: Procedimentos Numéricos para Estimação de Parâmetros

O principal objetivo desse capítulo é apresentar procedimentos numé-
ricos apropriados para obtenção das estimativas paramétricas, uma
vez que em raríssimas vezes é possível obter tais estimativas de forma
direta, como função explícita dos dados experimentais. Valoriza-se aqui
a apresentação conceitual e o desenvolvimento de algoritmos numéricos
básicos, em detrimento dos detalhes numéricos, que são propostos como
leitura adicional. Aqueles pouco interessados nos aspectos algorítmicos
de implementação dos procedimentos de estimação podem dispensar a
leitura desse capítulo. No entanto, recomendamos a leitura cuidadosa
desse texto a todos, uma vez que o leitor certamente terá que usar
procedimentos numéricos para resolver seus problemas reais. Dessa
forma, mesmo os usuários de pacotes comerciais poderão encontrar
nesse capítulo informações úteis sobre como escolher e definir critérios
numéricos para resolução de problemas.
Capítulo 6: Soluções dos Exercícios Propostos

O principal objetivo desse capítulo é apresentar a solução dos exercícios
propostos no final de cada um dos outros capítulos. Como os exercícios
são propostos com o objetivo de provocar o leitor e forçá-lo a exercitar
os conceitos apresentados, esse capítulo apresenta algumas reflexões
úteis sobre algumas conseqüências dos princípios e procedimentos apre-
sentados nos demais capítulos do livro. O leitor deve procurar fazer os
exercícios antes de ler as soluções encaminhadas, para que possa também
absorver com mais intensidade as soluções que nós apresentamos para
as nossas próprias perguntas.
Esperamos conseguir passar a vocês ao longo desses seis capítulos o

mesmo entusiasmo que sentimos desde aqueles primeiros dias de 1987.
Se não formos felizes na nossa estratégia, não desista e tente de novo,
pois temos certeza de que o esforço vale à pena!
Marcio Schwaab
José Carlos Pinto
Rio de Janeiro, Outubro de 2007

Princípios Básicos
1 de Estatística
1.1. A Natureza dos Problemas Científicos

e da Experimentação
Desde o início da História do Homem, temos sentido a necessidade de
entender o funcionamento do mundo que nos cerca. Essa necessidade de
compreensão sempre foi motivada por questões muito práticas, como por
exemplo, entender o comportamento do tempo para prever a ocorrência
de chuvas ou secas, que têm implicações diretas na sobrevivência das
comunidades que dependem da agricultura para subsistir. (Assunto esse
que ainda consome o trabalho diário de milhares de pessoas em todo o
mundo, o que mostra como o conhecimento sobre certas questões funda-
mentais da vida pode se acumular muito lentamente ao longo dos anos.)
Como bem demonstra este exemplo, a necessidade de compreender o
mundo, embora algumas vezes busque apenas satisfazer a curiosidade
de alguns sobre certas questões que os cercam, quase sempre nasce da
vontade de se controlar ou prever um conjunto de fenômenos naturais
para melhorar, otimizar ou fazer com que a natureza funcione de forma
a nos beneficiar de alguma maneira particular. No exemplo, todos esses
elementos estão presentes, como vemos abaixo:
Problema prático: É necessário plantar para que se produzam alimen-
tos. Secas e enxurradas destroem as plantações, consomem o trabalho
e provocam falta de alimento. Seria bom saber onde e quando secas e
enxurradas vão ocorrer, pois assim poderíamos escolher o momento
certo para plantar e armazenar os alimentos.
Princípios Básicos de Estatística 19

Questão fundamental: Como funciona o tempo?

Finalidade básica da resposta: Prever o momento adequado para o
plantio e armazenamento de alimentos.
Embora o exemplo proposto seja extremamente simples, ele permite
identificar os elementos fundamentais do problema científico:
1. O problema prático motivador;
2. A necessidade de compreensão do fenômeno;
3. A necessidade de previsão.
O problema prático motivador pode ser compreendido como a cha-
ma que aguça a curiosidade do investigador. Qualquer um que já teve
a oportunidade de desenvolver e submeter um projeto a uma agência
de financiamento já teve também que preencher um formulário onde
se pergunta para que serve o projeto e quais são os objetivos do proje-
to. É difícil acreditar que alguém esteja interessado em um problema
sem que haja qualquer objetivo a ser alcançado ou resposta a ser
obtida. (Freqüentemente as pessoas discordam sobre a relevância dos
objetivos a serem alcançados numa investigação, embora eles nunca
estejam ausentes.) O problema prático constitui a mola fundamental
da era tecnológica e movimenta milhões de pessoas em todo mundo,
com uma infinidade de pequenos e grandes problemas que precisam
ser resolvidos.
Para que o problema possa ser resolvido de forma adequada, é ne-
cessário compreender os fenômenos naturais que geram o problema
prático. Quais são as causas do fenômeno? Quais são as conseqüências?
Como as causas e conseqüências estão relacionadas? A busca de respostas
para essas questões é freqüentemente denominada de modelagem do
fenômeno. As causas e conseqüências são usualmente denominadas de
variáveis do problema analisado. A estrutura que relaciona as variáveis
do problema é denominada de modelo.
Nesse ponto, uma questão fundamental deve ser colocada: a identifi-
cação das variáveis de um problema implica necessariamente na observa-
ção do fenômeno e na obtenção de dados (atividade empírica), enquanto
a construção de uma estrutura que relaciona as variáveis implica neces-
sariamente em um processo abstrato para explicação e justificativa dos
resultados observados (atividade teórica). Esse íntimo relacionamento
existente entre as atividades empírica e teórica foi compreendido durante
o Iluminismo. (Ainda hoje alguns “investigadores” continuam insistindo
na discussão sem sentido sobre o que é mais importante – investigação
experimental ou teórica. Não entre nessa, pois experimento sem teoria
ou teoria sem experimento não faz sentido!) Só podemos dizer que com-
preendemos um fenômeno se somos capazes de identificar as variáveis

relevantes do problema e se somos capazes de dizer como certos grupos

de variáveis influenciam os demais; ou seja, se temos um modelo para
o fenômeno. Nessa fase, a atividade experimental tem como principais
objetivos permitir a identificação adequada das variáveis relevantes do
problema e a construção do modelo.
Finalmente, atinge-se a fase na qual o conhecimento acumulado deve
ter serventia para resolver o problema proposto. Assim, o modelo deve
ser utilizado para prover as respostas do problema. É a etapa de predição.
A resposta é então implementada, visando resolver o problema prático
que originou a investigação. Caso a resposta predita de fato resolva o
problema prático, dizemos que o modelo desenvolvido é válido; caso
contrário, a compreensão do fenômeno não foi adequada para resolver o
problema e precisa ser reavaliada. Novamente a teoria e a prática estão
inter-relacionadas, haja vista que a compreensão teórica só ganha impor-
tância se puder ser aplicada para resolver o problema prático original.
Se isto não for possível, a teoria construída não tem validade no mundo
que nos interessa e, de fato, tem que ser revista.
Tomando como base a discussão acima, vê-se que é através da
experimentação que os problemas práticos são construídos, as vari-
áveis relevantes do problema são identificadas e o modelo pode ser
montado e validado. A prática teórica permite correlacionar as variá-
veis e fazer previsões, que fornecem as respostas para os problemas
práticos originalmente propostos (e outros que porventura venham a
ser propostos).
1.2. Metodologia Científica e Experimentação

As discussões apresentadas anteriormente podem ser colocadas num
contexto mais geral, definindo-se como a Metodologia Científica para
tratar um problema. Este contexto mais genérico está apresentado re-
sumidamente na Figura 1.1.

Ub'lcJ"o!•~l)c e f 1n
rc::r m Ul'l !'fotlh:rn11
ReuhziiJli · K ~xpeTimanlos .
Acumlllii•J.t' i~:~form:~~iio de
llllul'l!n n npkica.
ril!:n II n nm·~C' 'o'l!rh~vc-i re1o:VIJ'f'IIC,;,

C'(ll1 rri)C'f11·lJC' mod>t:l(l
lJ,;p-cte: o mode lo p.l.fil r~ponder

per1f11JIIol0 e fn:1.er pre ~ i~CJo:,;
Figura 1.1 - Esquema Geral do Método Científico
O que a Figura 1.1 não acentua, no entanto, são os seguintes pontos:
1.2.1. A natureza cíclica do trabalho científico

Como o conhecimento acumulado é sempre utilizado para resolver os
mais variados problemas, mesmo aqueles que não foram originalmente
propostos e utilizados para gerar os modelos, estes são continuamente
testados. Isso faz com que a abrangência do modelo aumente continua-
mente (desde que as respostas providas sejam de fato úteis e confirmadas
experimentalmente) e que ele seja continuamente revisto e melhorado
(o que ocorre sempre que uma resposta obtida seja inadequada e negada
pela observação empírica).
O exemplo clássico desta “natureza cíclica” é a da Teoria do Movi-
mento de Newton. As Leis de Newton foram utilizadas nos mais diver-
sos campos da Ciência de forma bem sucedida para descrever os mais
variados fenômenos. No momento em que os físicos tentaram utilizar
as Leis de Newton para descrever o movimento dos sistemas de alta
energia, tanto na Astronomia quanto na Física Atômica, as respostas
obtidas com o modelo foram negadas pelas observações experimentais.
Nesse momento houve a necessidade de modificar o modelo para que
as novas observações pudessem ser também descritas pela estrutura

teórica – e nasceu a Teoria da Relatividade. Note que mais de 100 anos

separam as Leis de Newton da Teoria da Relatividade, o que demonstra
que a Teoria do Movimento de Newton foi testada durante muito tempo
até se caracterizar como incompleta. Quanto mais tempo uma estrutura
teórica permanece viva e mais ela é testada, mais bem sucedida ela é.
Hoje as Leis de Newton podem ser vistas como aproximações excelentes
da teoria mais geral, válidas para sistemas de baixas energias.
Estes fatos mostram que o investigador jamais deve acreditar em
verdades absolutas e deve estar sempre preparado para contestar o co-
nhecimento estabelecido. Pense que apenas uma fração muito pequena
de todas as observações possíveis já foi, de fato, feita. Tudo ainda está
por ser descoberto.
1.2.2. A natureza imparcial do trabalho científico

Se um conhecimento científico é obtido, ele pode ser utilizado por todos
para resolver problemas semelhantes. Desta forma, observações expe-
rimentais devem ser reprodutíveis e os mesmos resultados devem ser
obtidos sempre que as mesmas condições forem impostas ao problema.
Se condições similares levam a observações distintas, não há como
sistematizar o conhecimento, construir modelos ou fazer predições.
Portanto, não há Ciência. O conhecimento e a metodologia científicos
não são manifestações individualizadas nem profissões de fé (o que de
forma nenhuma invalida estas manifestações do espírito humano, como
forma de compreender a vida e o universo). Por isso, o bom investigador
sempre reproduz suas observações: para garantir que estas são válidas e
representam, de fato, um fenômeno real que pode ser controlado.
1.2.3. A natureza limitada do trabalho científico

Para que as observações sejam feitas, diversas condições devem ser
impostas ao sistema experimental investigado, de maneira que as
conclusões obtidas só são válidas dentro deste contexto original. Al-
gumas destas condições são impostas sem mesmo que saibamos disto.
Por exemplo, são clássicos os estudos sobre a natureza ondulatória ou
particulada das radiações eletromagnéticas, particularmente da luz. A
depender de como as condições experimentais são fixadas, conclui-se ou
uma coisa ou outra. Hoje, sabe-se que toda partícula em movimento tem
a ela associado um movimento ondulatório e vice-versa. O investigador e
o ambiente interagem de forma nem sempre bem definida com o experi-
mento que está sendo realizado e podem interferir nos resultados finais
obtidos. Como não podemos controlar os efeitos que não conhecemos,
é natural que os resultados experimentais obtidos em condições seme-

lhantes não sejam exatamente os mesmos. Por isso, toda a observação

experimental está sujeita a flutuações ou a um certo grau de incerteza.
Não é possível obter um resultado experimental 100% correto, pois não
é possível controlar todo o universo para que realizemos o experimen-
to. O ideal é que as flutuações (ou incertezas, ou erro experimental)
sejam tão pequenas quanto possível, indicando um controle bastante
efetivo sobre as variáveis mais relevantes para a consecução dos dados
experimentais obtidos.
1.2.4. A natureza limitada do modelo

Como toda observação experimental está sujeita a flutuações e deve ter
seu escopo limitado ao contexto experimental em que foi executado, não
é possível construir modelos perfeitos. Desta forma, nenhum modelo
reflete exatamente a realidade e incertezas teóricas devem também ser
esperadas. Um modelo bem sucedido é aquele que consegue explicar os
resultados experimentais com incertezas compatíveis com aquelas ob-
servadas experimentalmente. Não é possível descrever a realidade com
precisão maior do que aquela permitida pela observação experimental.
Como o modelo é utilizado para fazer previsões e prover respostas a per-
guntas feitas, toda previsão e resposta obtida através do modelo também
apresentam um certo grau de incerteza, que deve ser considerada.
Por tudo o que foi discutido, observa-se que tão ou mais importante
que a própria observação experimental é a caracterização apropriada
das incertezas a que tais observações estão sujeitas.
1.3. As Fontes de Erro e o Ideal Determinístico

O homem tem procurado através dos tempos as leis que regem o funcio-
namento do universo. Segundo o ideal positivista, uma vez conhecidas
essas leis seríamos capazes de entender todo o passado e todo o futuro,
já que o desenrolar da vida e da história nada mais seria do que a solução
do complexo sistema de equações que representaria estas leis supremas.
O destino teria sido ditado quando as condições iniciais foram fixadas e
todo o universo foi colocado em movimento.
Diz-se que um sistema ou processo é determinista ou determinístico
quando fazendo-se sempre a mesma pergunta, obtém-se sempre a mesma
resposta. Esse é o resultado típico que obtemos ao se resolvermos um
conjunto de equações matemáticas, como aquelas que descreveriam o
funcionamento do universo. Por exemplo, seja o caso de um tanque de
reação continuamente alimentado por uma corrente de processo (Figura
1.2), que flui com vazão (volume/tempo) conhecida e que contém um
composto A numa concentração também conhecida (massa/volume).

Suponha ainda que é conhecida a vazão da corrente de retirada (vo-

lume/tempo), que contém A numa concentração CA (massa/volume)
desconhecida. Sabe-se que A se transforma em um segundo composto
B dentro do tanque, fenômeno esse chamado de reação química. A velo-
cidade com que essa transformação ocorre é conhecida pelos químicos
e descrita pela relação:
(1.1)
onde RA (massa/tempo) é a velocidade da transformação, K (1/tempo)

é uma constante característica do sistema e V (volume) é o volume
ocupado do tanque. Usando a lei desse pequeno universo que diz que
a massa se conserva, é possível dizer que todo o composto A que entra
na alimentação ou sai na corrente de retirada ou vira B. Nesse caso, é
possível escrever as seguintes relações matemáticas, que representam
essa lei do universo:
(
q
Figura 1.2 - Tanque de Reação Continuamente Agitado
q.C ,. = qC. + KC,.I' (1.2)
(1.3)
Dessa forma, repare que sob as mesmas condições de operação (qo, q,

CAo, V), obtém-se sempre o mesmo valor de CA. A solução desse problema,
na forma proposta, está completamente determinada pelas condições
da experimentação.
Sabe-se que isso nem sempre é verdade. Todos já experimentaram a
sensação de tentar obter o número seis no dado, sem sucesso. Vários fatores
contribuem para que o resultado de um experimento seja desconhecido,

mesmo que a princípio todas as variáveis pareçam estar bem definidas. É

o chamado “pesadelo determinista”. Vejamos alguns exemplos:
1.3.1. O livre arbítrio

Sob condições idênticas, o indivíduo pode optar por soluções diferentes.
Embora esta seja uma questão extremamente complexa, com aspectos
religiosos, filosóficos e morais que não pretendemos aprofundar aqui,
o fato é que o ser humano é bastante complexo e resolve problemas
de formas inusitadas e imprevistas. Por isso a dificuldade de se fazer
previsões nas áreas de Ciências Humanas e Sociais.
1.3.2. A heterogeneidade dos indivíduos

Os indivíduos de um grupo não são idênticos e respondem de forma dife-
rente a diferentes impulsos. Dessa forma, a não ser que todos os elementos
do grupo sejam conhecidos com detalhes, previsões sobre comportamen-
tos coletivos são complexos. Isso é verdade tanto nas áreas de Ciências
Humanas e Sociais quanto nas áreas de Ciências Exatas. Isso ocorre, por
exemplo, sempre que se tentam prever as propriedades da gasolina ou
outras frações de petróleo, que são misturas complexas de um número
enorme de compostos químicos distintos. Problemas similares ocorrem
durante a análise de sistemas biológicos, dado que as células dos organis-
mos que constituem esses sistemas não são necessariamente iguais.
1.3.3. A precisão finita dos instrumentos de medidas

Mesmo que fossem conhecidas todas as leis do universo, ainda assim
teríamos dificuldades de fazer previsões absolutamente corretas, por-
que os instrumentos de medida têm capacidade finita de aferição. Não
conseguimos nunca observar uma grandeza com todas as infinitas casas
decimais. As medidas reais se aproximam mais do esquema apresentado
na Figura 1.3, onde se observam flutuações (ruídos) por causa da preci-
são finita do instrumento. Qual o valor real da medida apresentada no
registro da Figura 1.3?
X .
..
t
Figura 1.3 - Registro de uma Variável x com Ruído como uma
Função do Tempo

1.3.4. A medição indireta e a necessidade de calibração

Muitas vezes é necessário inferir uma variável a partir da medida de uma
outra variável. Por exemplo, quando se mede a temperatura com um
termômetro de mercúrio, mede-se de fato o volume do mercúrio em um
cilindro graduado. Como o volume do mercúrio muda com o aumento da
temperatura (como ocorre com todas as demais substâncias), relaciona-se
o volume medido com a temperatura do sistema. Isso gera a necessidade
de construir uma função que relaciona o volume com a temperatura,
chamada de modelo de calibração. Contudo, como é possível escolher o
melhor modelo de calibração? Como é possível garantir que o modelo de
calibração permaneça válido em todas as condições de experimentação?
Esses fatos introduzem incertezas adicionais ao processo de medição e
aos valores experimentais medidos.
1.3.5. A possível existência de falha no processo de medição

Instrumentos são constituídos por equipamentos e processos; portan-
to, estão sujeitos a falhas. Uma régua plástica, por exemplo, pode se
deformar quando é mal acondicionada em mochilas e pastas escolares,
introduzindo erros e imprecisões adicionais no processo de medida. De
forma similar, a existência de mau contato em um circuito elétrico pode
causar ruído e desvios nas medidas fornecidas por um equipamento. O
problema é que esses desvios e deformações nem sempre são percebidos
pelo experimentador.
1.3.6. O controle limitado sobre um número pequeno de

variáveis
Um fato adicional é que não conhecemos todas as variáveis relevantes
para um dado problema com toda a precisão. Em geral, apenas as vari-
áveis mais importantes são levadas em consideração durante a análise
de um problema real, de forma que flutuações podem ser esperadas por
conta das variáveis não controladas do problema. Por exemplo, será que
todos os possíveis contaminantes de uma corrente de alimentação são
conhecidos? Será que o isolamento é perfeito e não há nenhuma perda
de calor no sistema?
E qual é a conseqüência desses fatos? A principal delas é que, mesmo
quando conhecemos bastante um sistema, há sempre algum grau de
incerteza, de variabilidade, de imprecisão. Nunca é possível garantir com
certeza absoluta qual é o resultado de um determinado experimento.
Diferentes equipamentos de medidas e diferentes experimentadores
obtêm valores medidos diferentes para uma mesma variável medida.
Obviamente, alguns sistemas apresentam maior ou menor grau de

imprecisão que outros. Parece óbvio que uma coisa é a precisão obtida
quando se prevê o comportamento meteorológico e outra é a precisão
obtida quando se prevê o tempo que um objeto que cai do 3º andar de
um bloco de apartamentos leva para atingir o chão. Portanto, já sentimos
aqui a necessidade de caracterizar o grau de variabilidade existente num
sistema experimental qualquer.
Diz-se que sistemas que apresentam variabilidades ou incertezas
quanto ao resultado final têm natureza estatística ou estocástica. O
exemplo clássico de comportamento estocástico é o experimento dos
dados ou da roleta. Estes são casos limites de aleatoriedade, haja vista
que é sempre possível estabelecer algum grau de determinismo em
problemas preponderantemente estocásticos e vice-versa. Por exemplo,
sabemos que ao lançarmos um dado, nunca obteremos valores maiores
do que 6 e menores do que 1. De forma similar, correntes químicas
sempre têm algum grau de impureza e os instrumentos de medida não
são perfeitos, portanto, o valor de CA no tanque de reação da Figura 1.2
só pode ser obtido com um certo grau de precisão. Além disso, desde a
década de 70 sabe-se que sistemas determinísticos regidos por equações
diferenciais não-lineares podem apresentar dependência exponencial aos
dados iniciais (o caos). Nesse caso, qualquer pequena incerteza cometida
nas condições iniciais cresceria exponencialmente e tornaria qualquer
previsão sobre o comportamento do sistema inócua após um certo tempo.
Vê-se, assim, que a fronteira entre os mundos determinístico e estocástico
pode ser abrangente, mal definida e espessa.
Exemplo 1.1 – A Figura 1.4 mostra duas seqüências de dados

experimentais. Em ambas as seqüências é possível observar o
típico padrão aleatório de flutuação dos dados. Os registros sobem
e descem sem um padrão definido.
111 1
0.11
11.!1
"'
:..: ~I
11-4
110
I
~I
1111
D :!!~ -4U 1111 i ll I Ill
\ l to.IW..Ill
1.4a

lJ.l
'" • ..
D...l
I ..
I tl
I
• '
,.
'
I •• .
-...
[l1j
11.1
I ~· • • ,.
..
..•. ·"" .. ,,I
•
'
11 >4
• +'
IU
111]
•
"
•
• I ••
•
• •j
' JI.
I
u ;p Jn 1)11 ~I Lilli
'!.1rd -lf1
1.4 b
Figura 1.4 - Registro de Duas Seqüências de Medidas X e Y.
A variável X parece flutuar mais que a variável Y e parece tam-

bém flutuar de forma um pouco mais regular, embora não seja
possível identificar um padrão de comportamento na Figura 1.4.
No entanto, uma observação um pouco mais profunda dos dados
é apresentada na Figura 1.5.
l JJ
11 11
.,•
, / - "'""",, ..
"'•,.
.... II ~ ,/ ' \ •
~ \
[[A
\,
II.J \
IIJJ
"• 11-4
.'II~
i1ft •. I 1n
1.5 a
1,11
.. • ... • ••
.
•.II
.. • • •
.1.1 •
..• .
.. • • .. ... •...
•
. .. ..
.,.
--... .,.. .• ••
• ....
lUI •
.... •~ .. ••
~
li
• •
.. •
• .1
.. • .;
••
.. • ..
01
. •..." • • •
• ...
., li•
I
•n • ...
P ll •:~: 841 (I ll fl 1 II
r..
1.5 b
Figura 1.5 - Análise de Duas Seqüências de Medidas X e Y Deslocadas.

A Figura 1.5 mostra com clareza que a flutuação observada na

medida de X nada tem de aleatória; muito pelo contrário, a medida
seguinte (Xk+1) é uma função determinística da medida anterior
(Xk). Isso mostra que a identificação do grau de aleatoriedade ou
de determinismo de um sinal experimental constitui um proble-
ma relevante para o experimentador per si. O sinal da variável Y
parece ter um grau maior de aleatoriedade que o sinal da variável
X. Contudo, apenas uma investigação mais profunda das proprie-
dades da medida, com o auxílio das ferramentas matemáticas e
numéricas apresentadas nos próximos capítulos desse livro, pode
permitir que o experimentador defina em bases sólidas se uma
medida pode ser considerada aleatória ou não.
1.4. Os Conceitos de Probabilidade e de Média

Um conjunto de medidas da variável x é feito, resultando nos resultados
apresentados na Tabela 1.1.
Tabela 1.1 - Conjunto de Medidas Experimentais Obtidas para a Variável x.
medida 1 2 3 4 5 6 7 8 9 10
x 0.50 0.60 0.50 0.40 0.50 0.50 0.50 0.40 0.50 0.50
Dados os diferentes valores obtidos durante as várias medidas efetua-

das, parece lícito perguntar: qual o valor real de x? A resposta correta para
esta pergunta é: NÃO SABEMOS! Supõe-se aqui que todas as medidas fo-
ram feitas corretamente e que, portanto, espelham de forma semelhante
o valor de x. Não há como adivinhar a princípio qual é a melhor medida
ou qual medida representa melhor o conjunto de medidas. Apesar de
tudo isto, ainda assim é necessário definir um valor para x, pois vários
processos de tomada de decisão podem depender disto. Por exemplo, se
x for a medida da quantidade de um contaminante industrial presente
num efluente lançado em um rio, a definição do valor de x pode resultar
numa multa emitida pela Secretaria de Meio Ambiente.
Quando as medidas estão sujeitas a flutuações, podemos apenas
fornecer um valor que represente o conjunto de medidas de x de forma
conveniente. Por exemplo:
FORMA 1: x = 0.50
0.5 é o valor que aparece mais freqüentemente no conjunto de medidas.
Este valor é usualmente chamado de MODA do conjunto de medidas.

0.6 + 7 ⋅ 0.5 + 2 ⋅ 0.4

FORMA 2: x = = 0.49
10
Este é um valor usado comumente para representar um conjunto de
números, chamado de MÉDIA ARITMÉTICA. Este valor é uma soma
ponderada dos vários números que apareceram no conjunto original de
dados. A ponderação utilizada é a freqüência com que o número aparece
no conjunto.
x = (0.6 ⋅ 0.5 ⋅ 0.4 ) 10 = 0.48697

I
1
7 2
FORMA 3:
Este é um valor usado também com freqüência para representar um
conjunto de números, chamado de MÉDIA GEOMÉTRICA. Este valor é
um produto ponderado dos vários números que apareceram no conjun-
to original de dados. A ponderação utilizada é a freqüência com que o
número aparece no conjunto.
Qual destas (ou possivelmente outras) é a melhor forma de represen-
tar x? Para responder esta pergunta é conveniente introduzir primeiro o
conceito de probabilidade. Define-se como probabilidade a EXPECTATIVA
que se tem de que um certo valor (ou conjunto de valores) possa ocorrer
como resultado de um experimento. A probabilidade é expressa como
a FRAÇÃO das vezes que se espera que o resultado ocorra, quando o
experimento é realizado um número muito grande de vezes, tendendo
ao INFINITO.
Observe que, na definição proposta para probabilidade, alguns pontos
merecem ser enfatizados. Primeiramente, a probabilidade é apenas uma
EXPECTATIVA de que o resultado ocorra e não deve ser confundida com
o resultado experimental propriamente dito. Expectativas nem sempre
são confirmadas e a vida real está cheia destes exemplos. Azarões surpre-
endem nos esportes, crises econômicas parecem que às vezes “nascem
do nada”, pessoas dadas como mortas nas UTIs “renascem” inexplica-
velmente etc. Esta é uma característica que nunca deve ser esquecida:
probabilidade é uma coisa e resultado é outra. No fundo, a probabilidade
sempre expressa um certo desconhecimento do problema analisado, uma
vez que não garante o resultado obtido.
Em segundo lugar, a probabilidade é expressa como a FRAÇÃO de
vezes que se espera que o resultado analisado seja obtido, se o experi-
mento for realizado várias vezes. Desta forma, a probabilidade é sempre
um número positivo, contido no intervalo [0,1]. Mais ainda: a soma das
probabilidades de todas as respostas possíveis é necessariamente igual
a 1, pois sempre pelo menos um dos resultados possíveis vai ser obtido

experimentalmente. Se a soma das probabilidades não for igual a 1, é

porque existem resultados possíveis que não estão sendo analisados.
Finalmente, a probabilidade é definida como uma fração de vezes
que se espera que o resultado seja obtido, quando o número de experi-
mentos é INFINITAMENTE grande. Portanto, a probabilidade só ganharia
significado real mais profundo quando infinitos experimentos pudessem
ser realizados, o que nunca é possível na prática. Por maior que seja o
número de vezes que se conduz um experimento, esse número é sempre
finito. Há, portanto, um enorme esforço de abstração para a definição de
probabilidade. Usualmente, experimentos são realizados uma única vez
ou um número muito pequeno de vezes, de forma que as decisões toma-
das com bases em expectativas, descritas por probabilidades, devem ser
tomadas com prudência e conhecimento técnico aprofundado sobre os
critérios de tomada de decisão. Por exemplo, ao se dizer que uma usina
atômica é 99% segura, diz-se indiretamente que ela é 1% insegura. O
problema é que se a expectativa menos provável se confirmar, milhares
ou milhões de pessoas podem ser grandemente prejudicadas, a despeito
das próximas usinas atômicas instaladas na região para substituírem a
usina insegura funcionarem a contento. Na realidade, depois da primeira
falha, milhares de pessoas não sobreviveriam para confirmar o sucesso
das outras 99 tentativas. Isto se ainda fossem viáveis novas tentativas.
Com base nestas discussões, é possível introduzir um linguajar ma-
temático mais preciso na forma
 
lim  fi 
 = lim  fi 
pi = f j →∞ NR (1.4)
j =1.. NR   NT →∞  NT 
 ∑ fj 
 j =1 
onde pi é a probabilidade associada ao evento (resultado) i, fi é a freqüência
ou número de vezes que o resultado i é obtido no conjunto de repetições
do experimento, NR é o número de resultados possíveis para o experi-
mento e NT é o número total de observações. Como já foi discutido:
0 ≤ pi ≤ 1 (1.5)
NR
∑p
i =1
i =1 (1.6)

Exemplo 1.2 – Baseado na discussão anterior, qual a probabilidade

de se obter o número 6 no dado? Admitindo-se que as expectativas
quanto a qualquer dos possíveis seis resultados são idênticas e
que, portanto, os seis resultados possíveis são igualmente pro-
váveis, conclui-se que:
p1 = p2 = p3 = p4 = p5 = p6 = p
NR
1
∑ pi = 6 p = 1 ⇒ p =
i =1 6
É importante observar que a hipótese de que as seis faces são
igualmente prováveis pode não ser verdadeira e que pequenos
defeitos de fabricação façam com que certas faces ocorram mais
freqüentemente que outras. Por isto, o resultado acima é usual-
mente utilizado para definir o dado ideal.
Uma vez conhecidos os possíveis resultados de um problema e as

expectativas associadas a cada um destes resultados, conhece-se prati-
camente tudo sobre o destino do experimento. Este acúmulo de conheci-
mento pode ser representado numa forma gráfica bastante conveniente
chamada de histograma. Um histograma é um gráfico que mostra todos
os possíveis resultados experimentais e as respectivas expectativas ou
probabilidades de que de fato se realizem. Um histograma ilustra, por-
tanto, uma certa distribuição de probabilidades, característica do expe-
rimento analisado. Um exemplo é apresentado na Figura 1.6 abaixo.
L
I I.
l
Figura 1.6 - Exemplo de um Histograma.
Exemplo 1.3 – Para o problema proposto no Exemplo 1.2, apresen-

tam-se abaixo os histogramas de probabilidades para o dado ideal
(Figura 1.7) e para um dado real (Figura 1.8). É muito importante
que se perceba, no entanto, que a Figura 1.8 pressupõe que o

experimento (jogar o dado) tenha sido realizado infinitas vezes.

Como isso não é possível, a Figura 1.8 deve ser encarada como
uma aproximação de um certo grau do verdadeiro histograma de
probabilidades do dado real.
!!,lit
I hi '
, I~ I
~ 1.-1 '
l'l:i
.: tl
:.i u• ,
~
-=e o. Ill '

:;., ur. I
.Ji l
D.
!) ·
Figura 1.7 - Histograma de Probabilidades para o Dado Ideal.
.l l.
IR •
.....
~
~
~
7:j
-=
!!!!
I!) I
-=e ~ .
~
ri t
~·
ll
.D
Figura 1.8 - Histograma de Probabilidades para um Certo Dado Real

(Obtido a Partir de 1000 Experimentos).
Voltemos agora à questão de como representar um conjunto de me-

didas sujeitas à flutuações. Observe que, colocadas sob a forma de um
histograma, a questão que surge é como escolher um número que repre-
sente a totalidade do histograma de probabilidades. Outra questão que
pode surgir é escolher um número que identifique, de alguma maneira,
um valor em torno do qual as probabilidades se distribuem. Podemos
dizer que buscamos um número que caracterize o histograma quanto ao

movimento de translação, capaz de servir como base para tomadas de

decisão e comparações. Por motivações práticas, algumas propriedades
devem ser sustentadas por esse número:
1. Deve ter uma posição central, no sentido de que as probabilidades
devem se distribuir em torno deste número (ou seja, o número deve
representar de alguma forma os possíveis resultados do experimen-
to);
2. Deve ser unicamente determinado, no sentido de que deve resultar de
uma transformação injetora, de forma que cada histograma resulte
num único valor de referência (ou seja, a aplicação da operação sobre
o histograma deve resultar em um único valor para que se eliminem
ambigüidades de definição).
É fácil mostrar com contra-exemplos que a moda (valor que aparece
mais freqüentemente) e a mediana (valor que divide o histograma em
dois subconjuntos de iguais probabilidades) não satisfazem a segunda
condição descrita acima; ou seja, são medidas ambíguas do histograma.
Por exemplo, na Figura 1.7 todos os números são igualmente prováveis,
donde não é possível definir a moda. Nesta mesma figura, qualquer nú-
mero real no intervalo (3,4) divide o histograma em dois subconjuntos
de probabilidade igual a 50%, donde se conclui que a mediana também
é ambígua. Assim, embora a moda e a mediana possam ser definidas e
utilizadas em muitos problemas, elas não servem de forma inequívoca
para fins de caracterização e comparação de histogramas (e distribuições
de probabilidade).
Os conceitos de média aritmética e média geométrica podem ser
estendidos para o histograma de probabilidades na forma:
NR
J.lx = ~>.x, (1.7)
r-1
SR
Jl~ =IJ x,P,
... (1.8)
É fácil mostrar que ambas as definições satisfazem as condições 1

e 2 impostas anteriormente. A comprovação da propriedade 2 é trivial
para ambos os casos, pois para cada conjunto de valores x1,..., xNR e p1,...,
pNR as operações representadas pelas Equações (1.7) e (1.8) resultam em
um único número. Pode-se dizer, portanto, que a definição das médias
aritmética e geométrica não resulta em qualquer tipo de ambigüidade.
Isso não deve ser confundido com a afirmação inversa; ou seja, a média
NÃO caracteriza inequivocamente a distribuição de probabilidades que

a gerou. Portanto, diferentes distribuições de probabilidade podem gerar

os mesmos valores de média. Essa afirmação pode ser provada com um
contra-exemplo simples, como mostrado na Figura 1.9. Portanto, a média
não substitui de forma alguma a informação contida no histograma de
probabilidades; apenas fornece um valor em torno do qual os resultados
flutuam.
Para provar a validade da primeira condição imposta, suponha que
os valores x1,..., xNR estão organizados em ordem crescente. Então:
.'VR ,\IR NR
L P,Xl =.rl < L, pJx, = J.lx 'S L pixlYR =x1.

J=l i =E 1=1
'R (1.9)
(1.10)
Logo, as médias aritmética e geométrica são sempre centrais, no sen-

tido de que assumem valores contidos no intervalo formado pelos valores
admissíveis máximo e mínimo do experimento. Isso NÃO significa dizer,
como usualmente admitido, que a média expresse o valor mais provável
ou que tenha algum significado físico especial. Por exemplo, no Histogra-
ma 1 da Figura 1.9 observa-se que, apesar da média aritmética ser igual
a 2, esse valor não é de fato admissível, por ocorrer com probabilidade
zero. Os valores mais prováveis nesse caso são os resultados x = 1 e x =
3, cada um com freqüência relativa de 50%. A média deve ser encarada,
portanto, como uma entidade numérica que apenas eventualmente pode
admitir algum tipo de interpretação física ou de fato refletir um resultado
que apresente máxima probabilidade de ocorrer. A Figura 1.10 procura
ilustrar os diferentes conceitos de média.
Figura 1.9 - Exemplos de Histogramas de Probabilidade com µX = 2.

'
MUDA
Ml!DIANA
f
tEDJA
Figura 1.10 - Ilustração dos Diferentes Conceitos de Média.
Exemplo 1.4 – Para o dado ideal apresentado nos Exemplos 1.2 e

1.3, a média aritmética pode ser calculada como
l _ l 1 1 1 1.,
11 · -=l·-+2 ·-+3- + 4 ·- + 5 ·- + 6 ·-==.) -~5
.\ 6 6 6 6 6 6
O valor 3.5 certamente nunca pode ser obtido do lançamento de
um dado, ilustrando que a média não é necessariamente o valor
mais provável do experimento nem precisa ser um resultado
físico real.
1.5. O Conceito de Variáveis Independentes

e as Propriedades da Média
É importante observar que podem ocorrer problemas com valores ne-
gativos no caso da média geométrica, o que pode tornar esse número
inconveniente para aplicações em certos problemas. Portanto, há moti-
vações matemáticas adicionais para se escolher uma ou outra operação
de média, a depender do problema estudado. Pode-se dizer que a média
aritmética é uma definição muito conveniente de média, pois pode ser
calculada facilmente a partir do histograma de probabilidades e apresenta
uma série de propriedades que facilitam a sua aplicação em problemas
de análise matemática. Deve ser aqui salientado que três propriedades
de enorme importância para o uso de médias são:
Propriedade 1.1 – Sejam o conjunto (xi, pi) um histograma de probabi-

lidades e α um escalar. Então, µαX = E{αx} = αE{x} =αµX.
NR NR
llax == L P. (~ax~ )-= a L PrXr ;::;; lXJ..~
r=l
X (1.11)

Portanto, ao multiplicar os resultados possíveis por um escalar α

qualquer, a média aritmética fica multiplicada pelo mesmo escalar α.
Propriedade 1.2 – Sejam o conjunto (xi, pi) um histograma de pro-

babilidades e α um escalar. Então, .
(1.12)

qualquer, a média geométrica fica multiplicada pelo mesmo escalar α.
Propriedade 1.3 – Sejam os dois histogramas de probabilidades

(xi, pxi) e (yi, pyi). Então, µX+Y = E{x+y} = E{x} + E{y} =µX + µY.
Para provarmos a Propriedade 1.3, é bastante conveniente introduzir-

mos alguns conceitos relativos à probabilidade conjunta de resultados.
Diz-se que dois experimentos aleatórios são independentes quando os
respectivos histogramas de probabilidade (xi, pxi) e (yi, pyi) não dependem
dos resultados obtidos. Por exemplo, para o caso do dado ideal, espera-se
que a probabilidade de se tirar o número 1 na segunda vez que se rola
o dado independa do valor obtido da primeira vez que se rolou o dado.
Ou seja, ao se repetir o experimento, o histograma de probabilidades
independe do primeiro resultado encontrado. Quando experimentos
são independentes, a probabilidade de obter uma certa seqüência de
resultados pode ser dada por:
N
P (x1 , ..., xN ) = ∏ pxi (1.13)
i =1
Para entendermos a Expressão (1.13), basta verificarmos que, à me-
dida que se estende o número de experimentos a infinito, uma fração px1
destes experimentos terá x1 como primeiro resultado. Desta fração, uma
fração px2 terá x2 como segundo resultado; ou seja, uma fração px1⋅px2
destes experimentos terá x1 e x2 como primeiros resultados, nesta ordem.
Por indução, chega-se à Equação (1.13). Desta forma, se os experimentos
são independentes, o histograma que descreve a probabilidade de se
obter uma certa N-tupla ordenada de resultados é:
 N

 [x1 ,..., xN ], ∏ pxi 
 i =1 
Podemos agora voltar à Propriedade 1.3. Admitimos, por comodidade

da apresentação, que os histogramas (xi, pxi) e (yi, pyi) estendem-se ao do-
mínio de todos os números inteiros contidos em (-∞, +∞). Isto em nada
restringe o problema, já que podemos associar probabilidades iguais a
zero àqueles valores que não fazem parte de fato do histograma parti-
cular estudado e já que podemos multiplicar cada número natural por
um número real ∆α arbitrariamente pequeno, se quisermos trabalhar
com intervalos de números reais.
Sejam x e y dois experimentos aleatórios obtidos dos histogramas
(xi, pxi) e (yi, pyi). Neste caso
~
Jlx =E{x}= L xp, (x) (1.14)
Jlr = E{y} = L YP,. (y) (1.15)
O valor médio do histograma da soma de x e y deve ser representado

como:
-
~1_1·+r =E{x+ y}= L (x +y) P(x+yJ (x +y) (1.16)
X+ ) = -
onde p(x+y)(x+y) é a probabilidade de, dados dois experimentos x e y,

obtermos a soma x+y. Para facilitar a notação, chamemos m = x + y.
Jlu = E {m} = L- mp., (m) (1.17)

nr=- -
A questão então é calcular a distribuição de probabilidades de m. Se
x e y são eventos independentes, considerando-se que m pode ser obti-
do de várias maneiras diferentes (por exemplo, m = 4 pode ser obtido
como 1+3, 2+2, 3+1, 4+0 etc.), a Equação (1.13) pode ser usada para
calcularmos a probabilidade de cada uma das possíveis combinações,
de forma que:
p., (m)= L- Px(x)p.v (m - x) (1.18)
Logo,
L mL
- M
Jlu =E{m}= p, (x)p.v (m-x) (1.19)

Agora, vejamos que o somatório da Equação (1.19) pode ser visua-

lizado na forma:

+ (−3) { + px (−3) p y (0 ) + px (−2 ) p y (−1) +
px (−1) p y (−2 ) + px (0 ) p y (−3) + }
+ (−2 ) { + px (−3) p y (1) + px (−2 ) p y (0 ) +
px (−1) p y (−1) + px (0 ) p y (−2 ) + }
+ (−1) { + px (−3) p y (2 ) + px (−2 ) p y (1) + px (−1) p y (0 ) + px (0 ) p y (−1) + }
+ (0 ) { + px (−3) p y (3) + px (−2 ) p y (2 ) + px (−1) p y (1) + px (0 ) p y (0 ) + }
+ (1) { + px (−3) p y (4 ) + px (−2 ) p y (3) + px (−1) p y (2 ) + px (0 ) p y (1) + }

Lendo o somatório de cima para baixo:

∞ ∞
... + ( y − 3) px (−3) ∑ p y ( y ) + ( y − 2 ) px (−2 ) ∑ p y ( y ) +
y =−∞ y =−∞
∞ ∞ (1.20)
+ ( y − 1) px (−1) ∑ p y ( y ) + ( y − 0 ) px (−0 ) ∑ p y ( y ) + ...
y =−∞ y =−∞
Ou seja,
∞ ∞ ∞ ∞
∑ m ∑ p (x ) p (m − x ) = ∑ ∑ ( y + x ) p (x ) p ( y )
m =−∞ x =−∞
x y
x =−∞ y =−∞
x y (1.21)
Portanto:
∞ ∞ ∞ ∞
µM = ∑ ∑ yp (x ) p ( y ) + ∑ ∑ xp (x ) p ( y ) = µ
x =−∞ y =−∞
x y
x =−∞ y = - ∞
x y Y + µX (1.22)
Mas e se as distribuições de probabilidade das variáveis x e y não fos-

sem independentes? Nesse caso, admitindo que x é o evento determinan-
te, a distribuição de probabilidades de y dependeria do valor particular
de x encontrado. Parece complicado, mas estamos acostumados a lidar
com esse conceito no dia-a-dia. Por exemplo, qual é a probabilidade de
encontrarmos um amigo na praia? Se o dia estiver nublado ou chuvoso,
a probabilidade deve ser muito baixa, pois poucas pessoas costumam ir
à praia nessas condições. Se o dia estiver ensolarado, as praias enchem
e aumentam as chances de encontrarmos pessoas conhecidas tomando
seu banho de mar. Nesse caso, o evento principal ou condicionante é o
estado do tempo (x), enquanto encontrarmos uma pessoa conhecida na
praia (y) é o evento secundário ou condicionado. Como a distribuição de
probabilidades de y muda com x, diz-se que a probabilidade de y é con-
dicionada por x, representada usualmente por py(y/x)(lida quase sempre
como probabilidade de y dado x), e que y e x são variáveis dependentes.

No caso em que a probabilidade de um evento é condicionada por um

outro evento, a Equação (1.13) tem que ser modificada para:
N
P (x1 ,..., xN ) = ∏ p ( x1 ) p ( x2 I x1 )... p ( xN I x1 , x2 ,..., xN −1 ) (1.23)
i =1
Sendo que:
∞
∑
xN =−∞
p ( xN I x1 , x2 ,..., xN −1 ) = 1, ∀ x1 , x2 ,..., xN −1 (1.24)
isto para que seja satisfeita a Equação (1.6), um dos requisitos básicos
da probabilidade.
Dessa forma, se o evento y é condicionado pelo evento x, as Equações
(1.18) e (1.19) ganham a forma:
∞
pm (m ) = ∑ p (x ) p (m − xI x )
x =−∞
x y (1.25)
~ "
Jl., =E{m}=L m L p,(x) p,(m -xf x) (1.26)
De maneira que as Equações (1.21) e (1.22) ficam:
~~., = E{m}= L- m L- fl, (x)p. (m- xlx)

Jl.u
--
= L L (y +x)p_.(x)p_, (ylx)
(1.27)
~ "
J1, =I I )1J, (x )p1 (y/x)+ I I xp,(x) p,(yfx) =
. .. . ..
Jl., =I p.(x) I YP,(yf.Y)+ I xp, (x) I p_,(y/x)= (1.28)
J1., =I
"
p, (x)J.I, (x)+
- xp, (x)=J.l, + J.lx
I
Portanto, as Propriedades 1.1 e 1.3 são sempre satisfeitas, independen-

temente das variáveis serem dependentes ou independentes. Conclui-se
que a Operação Média Aritmética é LINEAR. Isto torna a operação média

aritmética, definida pela Equação (1.7), extremamente conveniente do

ponto de vista matemático, sendo por isso usualmente escolhida como
melhor maneira de representar o ponto em torno do qual se distribuem
as probabilidades num histograma de probabilidades. A linearidade
da operação média aritmética garante que a média da soma é a soma
das médias e que ao multiplicar a variável por um escalar, a média fica
multiplicada pelo mesmo escalar. Mas o que ocorre se outros operadores
forem aplicados sobre as variáveis x e y?
~1l ~~
E{J(x)}=p1 = I, .f(x,)p(x,)= I, .~P, *.f(J.tx) (1.29)

r•l ••l
Para mostrar a Equação (1.29), podemos usar o Histograma 1 da
Figura 1.9. Por exemplo, admitamos que a operação f(x) = x2 é aplicada
sobre o histograma. Neste caso, o valor médio obtido é:
Portanto, a linearidade da média não permite afirmar que o valor

médio de uma função aplicada sobre o histograma é o valor da função
calculada no ponto médio do histograma. Isso só é verdadeiro se a função
for linear. Por exemplo,
E{.r(x) =ax+ f3} = aE{ x}+ j3 = a~tx + f3 = .f(J.Ix )
Exemplo 1.5 – Suponhamos que um cidadão jogue uma moeda

para o alto três vezes e que receba 1 real por cada cara que tirar.
Se o experimento for repetido N vezes, quanto o cidadão ganhará
na média?
Primeiramente é interessante perceber que o experimento “jogar
a moeda” resulta em resultados independentes, de forma que a
Equação (1.13) pode ser aplicada. Portanto, pode-se imaginar que
cada configuração particular de três resultados tem probabilidade
pi = 1/2 ⋅1/2 ⋅1/2 = 1/8 , já que a probabilidade de cada resultado
(cara ou coroa) é sempre igual a 1/2. Vejamos:
3 coroas
Nenhuma cara
(1 possibilidade)

1 cara
Apenas uma cara
(3 possibilidades)
2 caras
Apenas duas caras
(3 possibilidades)
Três caras (1 possibilidade)
Portanto, o histograma de probabilidades tem a forma:

0 cara - 1/8 das vezes 1 cara - 3/8 das vezes
2 caras - 3/8 das vezes 3 caras - 1/8 das vezes
cuja média é
O dinheiro total arrecadado é uma transformação linear do

histograma e pode ser dado na forma f(x) = Nx. Portanto,
p1 =NJlx = l .SN
.
1.6. Os Conceitos de Espalhamento,

Variância e Covariância
Considere os histogramas da Figura 1.9 e da Figura 1.11 mostrada abaixo.
Em ambos os casos, as médias dos histogramas apresentados são idên-
ticas. No entanto é óbvio que as distribuições são muito diferentes. No
segundo histograma da Figura 1.9 e no primeiro histograma da Figura
1.11, apenas um valor é possível. Logo, não há qualquer dúvida sobre a
observação que será feita após o experimento. É como colocar uma úni-
ca pedra de bingo no interior de um saco e perguntar que número será

sorteado. No segundo caso, há um espalhamento de possíveis valores

em torno do valor médio e não é possível mais garantir o resultado do
experimento. No primeiro histograma da Figura 1.9, dois resultados são
possíveis, enquanto 7 diferentes resultados são possíveis no histograma
2 da Figura 1.11. Portanto, pode ser dito de forma pouco precisa que o
resultado do experimento descrito pelo segundo histograma da Figura
1.11 é o mais incerto dentre todos os histogramas analisados.
P, ,.,
I ----
'"'
'
P.x= 4
X
Figura 1.11 - Exemplos de histogramas bem diferentes,

mas com médias iguais.
Quando um único resultado é possível em um histograma, diz-se que a

distribuição de probabilidades é singular ou monodispersa e que a popu-
lação de resultados possíveis é uniforme ou homogênea. Caso contrário, o
histograma é dito polidisperso, enquanto a população de resultados é dita
heterogênea. Portanto, a definição de uma grandeza que possa caracterizar
de forma precisa a heterogeneidade da população a partir da distribuição
de probabilidades parece ser bastante útil, já que as Figuras 1.9 e 1.11
ilustram que diferentes histogramas podem apresentar diferentes graus
de espalhamento, apesar de terem a mesma média aritmética.
Várias maneiras distintas podem ser usadas para caracterizar o espa-
lhamento. Uma das formas mais simples e intuitivas de caracterização
do espalhamento é usar o conceito de banda. A banda pode ser definida
como a diferença entre o maior e o menor resultados admissíveis da
distribuição. Assim,
banda = xmax – xmin (1.30)
Embora muito usada em problemas práticos, essa definição de espalha-
mento não é muito adequada para estudo da maior parte dos problemas.
Primeiramente, ela não resulta em propriedades matemáticas convenientes,
como a linearidade da operação de média. Em segundo lugar, essa definição
não permite caracterizar de forma adequada o espalhamento de histogramas
que admitem infinitos resultados, como analisado nas próximas seções. E
até quando a banda pode ser definida de forma precisa, como na Figura 1.12
abaixo, ela não reflete o fato de que o grau de homogeneidade dos resultados

pode ser muito diferente mesmo quando o número de resultados possíveis é

idêntico. Por exemplo, é muito mais provável obter como resultado do expe-
rimento um valor próximo do valor médio no segundo histograma da Figura
1.12 do que no primeiro histograma dessa figura. Por isso, parece razoável
dizer que a população de resultados do segundo histograma é mais homogê-
nea, a despeito da banda resultar no mesmo valor em ambos os casos.
I'
Sli ....
I'
Figura 1.12 - Exemplos de histogramas com diferentes graus de

homogeneidade, mas com bandas iguais.
Uma outra forma muito comum de definir o espalhamento é usar o

conceito de percentil. Diz-se que os percentis, representados aqui como
xi%, são os valores que separam regiões de resultados admissíveis com
probabilidades iguais a um certo valor estabelecido, como por exemplo
1%. Assim,
P(x1 Sx,•• )= io/() (1.31)
e
(1.32)
Baseado nos percentis, é possível redefinir a banda de forma mais

adequada, como por exemplo:
bandap% = x(100 – p)% – xp% (1.33)
Dessa forma, a banda definida pela Equação (1.30) seria equivalente à
banda0% definida pela Equação (1.33). Para definição do espalhamento, é
muito utilizado o conceito de quartil, que nada mais é do que o conjunto
constituído por x0% = xmin, x25% ,x50% , x75% , x100% = xmax, que divide o histo-
grama em quatro regiões de probabilidades iguais a 25%. Nesse caso:
banda25% = x75% – x25% (1.34)
As Equações (1.33-34) permitem eliminar dois defeitos embutidos
na definição original de banda: tornam possível a caracterização de
espalhamento em problemas com infinitos resultados admissíveis e são

sensíveis a mudanças de espalhamento como os ilustrados na Figura

1.12. No entanto, a manipulação matemática de expressões envolvendo
percentis não é simples. Além disso, da mesma forma que no caso da
definição da moda e da mediana, a definição dos percentis pode não ser
precisa. Por exemplo, no segundo histograma da Figura 1.12 é fácil defi-
nir os percentis x1%=1, x3%=2, x6%=3, x94%=4, x97%=5, x99%=6 e x100%=7.
Contudo, e os demais 94 percentis? Como defini-los de forma inequívoca
a partir do histograma? Dessa maneira, a definição da banda25% baseada
nos quartis não seria possível nesse caso.
Uma forma precisa e conveniente de se caracterizar o espalhamento é
utilizar o conceito de média desenvolvido anteriormente. Por exemplo, o
espalhamento médio poderia ser definido como a média das diferenças
observadas entre os vários resultados possíveis e o valor médio desses
resultados, na forma
SR
E{lx,- J.lxl} = LP;lx,- J.lxl (1.35)
r-1
Para os histogramas 1 e 2 da Figura 1.12, os resultados seriam res-

pectivamente iguais a:
Os resultados obtidos refletem exatamente o sentimento de que o

grau de espalhamento no segundo caso é menor que no primeiro. Além
disso, a obtenção das medidas de espalhamento pode ser feita direta-
mente a partir do histograma de probabilidades, sem que haja qualquer
ambigüidade. No entanto, a Equação (1.35) tem o inconveniente de usar
o módulo da diferença como medida de distância. Como o módulo é uma
função descontínua, isso causa certos inconvenientes de manipulação
matemática e induz a definição do conceito de variância.
Define-se como variância de x (representada por Var{x},
E{(x-µX)2}, σ2XX, σ2X ou simplesmente σ2) a média do quadrado das dife-
renças observadas entre os vários resultados possíveis e o valor médio
desses resultados, na forma

(1.36)
Para os histogramas 1 e 2 da Figura 1.12, os resultados seriam res-

pectivamente iguais a:
1 2 3 5
(1 − 4 ) + (2 − 4 ) + (3 − 4 ) + (4 − 4 ) +
2 2 2 2
σ XX
2
=
17 17 17 17
3 2 1 40
+ (5 − 4 ) + (6 − 4 ) + (7 − 4 ) =
2 2 2
17 17 17 17
1 2 3 88
(1 − 4 ) + (2 − 4 ) + (3 − 4 ) + (4 − 4 ) +
2 2 2 2
σ XX
2
=
100 100 100 100
3 2 1 40
(5 − 4 ) + (6 − 4 ) + (7 − 4 ) =
2 2 2
+
100 100 100 100
Comparada às diferentes medidas de espalhamento apresentadas
anteriormente, a definição de variância apresenta muitas vantagens.
Primeiramente, a variância pode ser obtida diretamente do histograma
de probabilidades sem qualquer ambigüidade. Em segundo lugar, a uti-
lização das operações de média e do quadrado da distância em relação
à média permite a manipulação relativamente simples de expressões
matemáticas, como será mostrado a seguir. No entanto, da mesma forma
que no caso da definição da média, o usuário deve resistir à tentação de
explicar em bases físicas e concretas o significado da variância. A variân-
cia deve ser encarada apenas como uma medida matemática conveniente
de espalhamento, e que por isso pode ser utilizada para caracterizar
e comparar histogramas também de forma matemática conveniente.
Algumas propriedades relevantes da operação de cálculo da variância
são apresentadas a seguir.
Propriedade 1.4 – A variância é um número positivo, sendo igual a zero

se e somente se a distribuição de probabilidades é monodispersa.
A comprovação dessa propriedade a partir da Equação (1.36) é trivial.
Como cada uma das parcelas da soma representada pela Equação (1.36)
é positiva ou nula, então a variância tem que ser necessariamente um
número positivo. Se a distribuição é monodispersa, como no primeiro
histograma da Figura 1.11, apenas um termo tem probabilidade diferente
de zero. Nesse caso, como para esse termo o resultado admissível coinci-
de com a média, a variância fica identicamente nula. Por outro lado, se
a variância é nula, todos os termos da soma têm que ser iguais a zero.

Nesse caso, ou as probabilidades são iguais a zero ou os resultados para

os quais as probabilidades não são iguais a zero são iguais ao valor médio.
Portanto, a distribuição tem que ser necessariamente monodispersa.
Propriedade 1.5 – Sejam o conjunto (xi, pi) um histograma de proba-

bilidades e α um escalar. Então, Var{αx} = α2Var{x}.
NR XU
Var{ax} =I p, (ax,- Jla.r } =I p, (ax, - apx?
1
••• ••• (1.37)

.\'R
Var{ax}=a' I p, (x,- Jlx )~ = a 'Var{x}
•=I
qualquer, a variância fica multiplicada pelo quadrado do escalar α.
Propriedade 1.6 – Sejam o conjunto(xi, pxi) e (yi, pyi) dois histogramas

de probabilidades de eventos independentes. Então, Var{x+y} =
Var{x} + Var{y}. Para que seja possível demonstrar essa propriedade,
é preciso lembrar que:
Var{x+ y} = E{[{x+ y)-J.lX+I' J (1.38)
Inserindo a Equação (1.22) na Equação (1.38), chega-se a:
Var {x+ y} = E{[(x+ y) - (J.Ix + J.lr}J} (1.39)
O termo quadrático da Equação (1.39) pode ser aberto, resultando em:
Var{x + y}= E{[(x- .u,. )+(y- .Ur JT} =

E{(x - .U.,. )' + 2(x- Jlx )(y- .Ur ) +(y - .Urn=
E{(x - .Ux )' }+ 2E{(x - ,u, )(y- J11 )}+ E{(y- Jl1 ) ' } :
Var{x}+2Covar{x,y }+ Var{y}
(1.40)
Na Equação (1.40), define-se como covariância entre as variáveis
x e y, representada por Covar{x,y} ou simplesmente s2XY, à seguinte
operação de média:

a .i,. = Covar{ x, y} = E{(x- Jl.r )(y- .Ur )} (1.41)
Para que a operação de covariância seja compreendida, é conveniente
. -
escrever a Equação (1.41) na forma:
a~,. = L pzCx) L P,. (y fx)(x- .Ux )(y - J.lr) (1.42)
onde a soma dupla identifica todas as possíveis combinações de resul-

tados que podem ser obtidas a partir dos dois histogramas de probabi-
lidades. Se os eventos x e y são independentes, então:
a.~· = L- Px(x) L,- py(y)(x-.ux )(y-.ur)=

L- Px(x)(x- .Ux) L- P.•(y)(y - .Ur)= (1.43)
-L Px(x)( X- J.lx )(J.Ir - J.lr) = 0

Portanto, quando os eventos são independentes, a covariância entre
os resultados obtidos a partir dos dois experimentos é igual a zero. Por
isso, a covariância é usada com freqüência como uma medida de inde-
pendência entre resultados obtidos a partir de diferentes experimentos.
(Essa técnica de inferência do grau de dependência entre variáveis, no
entanto, deve ser usada com cautela. Como será mostrado posterior-
mente, a afirmação inversa não é necessariamente verdadeira; ou seja,
resultados de experimentos distintos podem ser fortemente dependentes
uns dos outros, resultando contudo em covariância igual ou próxima
de zero.) Assim, se os resultados dos experimentos x e y são indepen-
dentes, e portanto resultam em covariância nula, a Equação (1.40) fica
finalmente na forma:
Var{x + y} = Var{x} + Var{y} (1.44)
Se os resultados obtidos para x e y não são independentes, então a
Equação (1.42) tem que ser escrita na forma:

O".~T =
-
L Px(x)(x- Jlx ) L - py(yj x)(y-p, }=
" "
L p, (x)( x- Jlx )(Jlr·x - J1
·-L
"
L
-
1 )
"
= L p, (x)Jlr . (x - Jl.r) =
1
p.,(x)XJlr ' - Jlx Jlr· =

-- P,(x)xJir (x)- Jlx!lr
que é uma operação de média conjunta dos valores de x e de como a

(1.45)
média de y depende de x. A Equação (1.45) mostra também de uma outra

forma que a covariância entre eventos independentes é igual a zero. Para
tanto, basta fazer J.lr x = J.lr .
Exemplo 1.6 – Para o dado ideal dos Exemplos 1.2 e 1.3, a variância
pode ser calculada como:
1 1 1
(1 − 3.5) + (2 − 3.5) + (3 − 3.5) +
2 2 2
σ2 =
6 6 6
1 1 1 17.5
(4 − 3.5) + (5 − 3.5) + (6 − 3.5) =
2 2 2
6 6 6 6
Exemplo 1.7 – Para o dado ideal dos Exemplos 1.2 e 1.3, suponha
que dois dados são lançados simultaneamente em um jogo e que
a soma dos valores obtidos é usada para movimentar as pedras
do tabuleiro. Nesse caso, a distribuição de probabilidades dos
valores obtidos pode ser obtida da seguinte forma:
Tabela 1.2 - Distribuição de probabilidades da soma dos

valores obtidos a partir do lançamento de dois dados ideais.
Valores
1 2 3 4 5 6 7 8 9 10 11 12
Admissíveis
1:6
1:5 2:6
1:4 2:5 3:6
1:3 2:4 3:5 4:6
1:2 2:3 3:4 4:5 5:6
Combinações - 1:1 2:2 3:3 4:4 5:5 6:6
2:1 3:2 4:3 5:4 6:5
3:1 4:2 5:3 6:4
4:1 5:2 6:3
5:1 6:2
6:1
Probabilidade 0 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
A Figura 1.13 a seguir mostra o histograma com a distribuição

de probabilidades do problema considerado.

··~
IJ,J6 r-
0.1..
~ o.l:
• ..-
- !"'""
,....
3 0,11
~
l I),O!f r-· r-
E. 1
...
0.16 .
l • ..• nr-"
f"""
o.t:: .
O.M
[J 1.
! J
'Snma' dos •l>oi5 l l~t'SU.Irados
10 II
-. -.
Figura 1.13 - Distribuição de probabilidades da soma dos valores
obtidos a partir do lançamento de dois dados ideais.
A partir da distribuição de probabilidades da Tabela 1.2 e da

Figura 1.13, é possível obter os seguintes valores para a média
e para a variância:
J.l.\.- t = 1 ~+ 2 - + 3~+ 42_+5~ + 62._+7~ +

1
36 36 36 36 36 36 36
5 4 3 2 I 252
8- +9 - + 10 - +11 - +12- = - =7
36 36 36 36 36 36
~4= :(1-7Y+!~-7t+!(l-7Y + ~~-7Y+~~-7Y+

5 1 6 ~ s . -l ~ J •
36(6-7)' ~ 36(7 - 7)' ~ 36(8 - 7)' + 36(9-7)' ~ 36(10-7)' +
~(1 1 - 7)' +...!...(12- 7)' =210 =35
36 36 36 6
Como os experimentos dos lançamentos dos dados são indepen-

dentes, as Equações (1.22) e (1.44) dizem que:
Jlx+r = Jlx+ Jlr = 3.5 +3.5 = 7

, - - 17.5 17.5 35
O'_i·· r = O'.f +O'i =6 + 6 = 6
que confirmam os resultados obtidos anteriormente.

que dois dados são lançados em seqüência em um jogo e que a
soma dos valores obtidos é usada para movimentar as pedras do
tabuleiro. No entanto, uma regra do jogo impõe que se o valor
obtido no primeiro conjunto de dados for 1, 2 ou 3, o segundo
valor só é aceito se for igual a 4, 5 ou 6, e vice-versa. Nesse caso,
a distribuição de probabilidades dos valores obtidos pode ser
obtida da seguinte forma:
Tabela 1.3 - Distribuição de probabilidades da soma dos

valores obtidos a partir do lançamento de dois dados ideais,
com regra definida no Exemplo 1.7.
Valores
1 2 3 4 5 6 7 8 9 10 11 12
Admissíveis
1:6
1:5 2:5 2:6
1:4 2:4 3:4 3:5 3:6
Combinações - - - - - - -
4:1 4:2 4:3 5:3 6:3
5:1 5:2 6:2
6:1
Probabilidade 0 0 0 0 1/9 2/9 3/9 2/9 1/9 0 0 0
A Figura 1.14 abaixo mostra o histograma com a distribuição de

probabilidades do problema considerado. A Figura 1.15 mostra
as distribuições de probabilidade do dado ideal no primeiro
lançamento e no segundo lançamento, segundo as regras esta-
belecidas.
Figura 1.14 - Distribuição de probabilidades da soma dos valores

obtidos a partir do lançamento de dois dados ideais.

...
~ •
~OJ
•]•
•
e .•
"' 0'
""
J
'
Figura 1.15 - Distribuições de probabilidades dos resultados durante
o primeiro lançamento e durante o segundo lançamento.
Para o primeiro lançamento, os Exemplos 1.2, 1.3 e 1.6 mostram

que µX = 3.5 e σ X2 = 17.5I 6 . Para o segundo lançamento esses
valores têm que ser recalculados, pois os resultados do primeiro
lançamento interferem nos resultados obtidos no segundo lan-
çamento. Assim, para o cálculo da média dos valores obtidos no
segundo lançamento,
onde os termos entre parênteses representam a probabilidade do

resultado ser obtido no segundo lançamento, dados os resultados
obtidos no primeiro. Para o cálculo da variância dos resultados
obtidos no segundo lançamento,
ai = ±. (y 1 - p, )' [± p, (x,) P. (y, I x,)] = (1-3.5)' (.!.)+

6
(2-3.5)' (.!.)+
6
:s
•=I J=l
+(3 - 35)'( ~)+(4-3.5)' ( ~)+(5- 35)' ( ~)+ (6-3.5)' ( ~) = I

Assim, apesar das distribuições de probabilidade serem bastante

diferentes no primeiro e no segundo lançamento e dos resulta-
dos obtidos não serem independentes, as médias e variâncias
em ambos os casos são idênticas. A partir da distribuição de
probabilidades da Tabela 1.3 e da Figura 1.14, é possível obter os
seguintes valores para a média e para a variância da soma dos
resultados:
0000123210 0 063
11 = 1- + 2-+ )-+4-+ 5-+6-+ 7- +8- + 9-+ 10-+1 1-+12- = - =7
X •J 9 9 9 9 9 9 9 9 9 9 9 9 9
.
" i-r - 1-7), + -0 (2-7)' + 0- (>-7
• 0( • )' 0
+- (4-7), + -I (5-7), + -2 (6-7), +
'9 9 9 9 9 9
3 • I • 0 • 0 ~ 0 · J? S
9
2
9
•
+-(7- 7)" + -(8-7)" +-(9- 7)" +-(10- 7)" +-(11 - 7)" +-(12- 7)"
9 9 9 9
=-==
96
-
Como os experimentos dos lançamentos dos dados nesse caso
não são independentes, é necessário calcular a covariância entre
os resultados obtidos do primeiro e do segundo lançamento dos
dados através, por exemplo, da Equação (1.45). Nesse caso, o valor
médio obtido do segundo lançamento µY(x) é igual a 5, se i = 1,
2 ou 3, e é igual a 2, se x = 4, 5 ou 6. Portanto,
O valor negativo da covariância indica que o valor obtido do se-

gundo lançamento tende a diminuir se o valor obtido do primeiro
lançamento aumenta.
Utilizando-se a Equação (1.22) para cálculo do valor médio da
soma dos resultados, obtém-se:
Jlx+r = Jlx + Jlr = 3.5+ 3.5 = 7

que confirma os resultados anteriores. Utilizando-se a Equação (1.40)
para cálculo da variância da soma dos resultados, obtém-se:
que também confirma os resultados obtidos anteriormente.
que um único dado é lançado para gerar simultaneamente dois

números. O primeiro número é o valor obtido do experimento.

O segundo resultado é escolhido de acordo com uma regra bem
simples: para x = 1 ou 2, y = 6; para x = 3 ou 4, y = 1; para x
= 5 ou 6, y = 6. Portanto, o grau de dependência entre os dois
resultados é total e determinística.
A Equação (1.45) é utilizada para calcular a covariância entre as
medidas x e y. Para tanto, a média µY pode ser calculada como:
1 1 1 I 1 I 26
p =-6+-6+- 1+ - 1+ -6+-6=-
' 666666 6
enquanto a covariância pode ser calculada como:
2 I I I I • I I 26 91 91
(1 = 1- 6+ 2- 6+3 - 1+ 4- 1+>- 6+6- 6-3.5- = - - - = 0
.IT 6 6666 6 666
Portanto, apesar das variáveis x e y estarem completamente cor-
relacionadas, a covariância entre as duas variáveis no problema
proposto é igual a zero. Isso mostra que o fato da covariância ser
igual a zero não implica necessariamente que as medidas sejam
de fato independentes.
É importante observar na Equação (1.41) que a covariância representa

uma expectativa de variação conjunta dos resultados obtidos a partir de
diferentes experimentos. Se a covariância entre duas variáveis x e y é um
número positivo, a Equação (1.41) indica que flutuações do resultado do
experimento x acima da média são também normalmente acompanhadas
de flutuações do resultado do experimento y acima da média, e vice-
versa. As variáveis apresentam, portanto, algum grau de dependência
direta. Se a covariância entre duas variáveis x e y é um número negativo,
a Equação (1.41) indica que flutuações do resultado do experimento x
acima da média são também normalmente acompanhadas de flutuações
do resultado do experimento y abaixo da média, e vice-versa. As variáveis
apresentam, portanto, algum grau de dependência inversa. Portanto,
a covariância pode ser um importante elemento para análise do grau
de dependência funcional existente entre variáveis distintas, a despeito
dos resultados apresentados no Exemplo 1.9. A covariância não é uma
medida absoluta de dependência funcional porque ela não leva em con-
sideração que a variável y pode ora aumentar com a variável x em alguns
intervalos, ora diminuir com a variável x em outros intervalos, como
no caso do Exemplo 1.9. Em outras palavras, a operação de covariância

não consegue detectar de forma adequada a existência de dependência

não-linear entre x e y.
Para fins de manipulação de expressões matemáticas é importante ob-
servar que a operação de covariância satisfaz as seguintes propriedades:
Propriedade 1.7 – Sejam os conjuntos (xi, pxi) e (yi, pyi) dois histogra-
mas de probabilidades e α e β dois escalares. Então, Covar{αx,βy}
= Covar{βy,αx} = αβCovar{x, y}.
{ }
Covar {α x , β y}= Ε (α x − µα X )(β y − µ β Y ) = Ε {(α x − αµ X )(β y − βµY )}=
Ε {αβ (x − µ X )( y − µY )}= αβΕ {(x − µ X )( y − µY )}= αβ Covar {x, y}
(1.46)
Portanto, ao multiplicar os resultados possíveis por escalares α e β
quaisquer, a covariância fica multiplicada pelos mesmos escalares.
Propriedade 1.8 – Sejam os conjuntos (xi, pxi), (yi, pyi) e (zi, pzi) três
histogramas de probabilidades. Então, Covar{x,y+z} = Covar{x,y}
+ Covar{x,z} e Covar{x+z,y} = Covar{x,y} + Covar{z,y}.
{ }
Covar {x, y + z}= Ε (x − µ X )(( y + z ) − µY + Z ) =
{ } {
Ε (x − µ X )(( y + z ) − (µY + µ Z )) = Ε (x − µ X )(( y − µY ) + (z − µ Z )) = }
Ε {(x − µ X )( y − µY )}+ Ε {(x − µ X )(z − µ Z )}= Covar {x, y}+ Covar {x, z}
(1.47)
Portanto, ao somar os resultados possíveis de distribuições de proba-
bilidade distintas, a covariância fica somada de forma análoga.
Como a variância σ2X tem dimensão do quadrado da variável x (de
x2, portanto) é útil definir o desvio padrão da variável x, representado
como σX, como
a_\. =g (1.48)
O desvio padrão é uma medida adequada de espalhamento na escala
métrica da variável x, obtida a partir da operação de cálculo da variância.
Como veremos nas próximas seções, o desvio padrão pode ser somado à
média para fornecer regiões onde estão concentrados os resultados mais
prováveis, dentro de um certo limite de confiança.
Uma outra normalização freqüentemente utilizada para definir a
variância é o chamado índice de polidispersão, IP. O índice de polidisper-
são, polidispersividade ou simplesmente polidispersão é uma medida
relativa da variância da distribuição, na forma:

=l+ (1.49)
O índice de polidispersão é, portanto, uma medida do grau relativo

de espalhamento em relação à média, encontrando várias aplicações
práticas para interpretação de problemas físicos reais.
Como a covariância σ2XY tem dimensão das variáveis x e y simultane-
amente e como a magnitude dessas variáveis pode mudar de problema
para problema, é conveniente definir uma forma normalizada para o
grau de dependência funcional linear entre as variáveis x e y. A forma
normalizada mais usada é o chamado coeficiente ou fator de correlação
linear, ou simplesmente coeficiente ou fator de correlação, representado
como ρXY e definido como:
σ XY
2
ρ XY = (1.50)
σ XσY
Quando as variáveis x e y são independentes, σ2XY = 0 e ρXY = 0. Quan-
do y = αx + β, então µY = αµX + β, σ2Y= α2σ2X , σ2XY = ασ2X e ρXY = ± 1,
dependendo se α é positivo ou negativo respectivamente. É interessante
observar que isso implica na validade da seguinte relação:
−1 ≤ ρ XY ≤ 1 (1.51)
que mostra que o processo de normalização definido pela Equação (1.50) é
bastante eficiente. Se as variáveis x e y estão relacionadas linearmente na
forma direta, ρXY = 1; se as variáveis x e y estão relacionadas linearmente
na forma inversa, ρXY = –1; se as variáveis x e y são independentes, ρXY =
0. Quanto mais próximo de 1 o valor absoluto de ρXY, mais perfeito o grau
de correlação linear entre as variáveis x e y. Quanto mais próximo de 0 o
valor absoluto de ρXY = 0, maior o grau de flutuação independente das
variáveis (o que pode indicar independência verdadeira entre os experi-
mentos, mas também pode indicar a existência de erros pronunciados de
medição ou influência de outras variáveis sobre o experimento) ou maior
o grau de não-linearidade da dependência funcional entre x e y.
A Figura 1.16 procura ilustrar como a presença de dependência não-
linear entre as variáveis x e y provoca redução do fator de correlação.
Observe que no primeiro gráfico, em que a relação é linear, sempre que
x se eleva em relação ao valor médio, o mesmo ocorre com a variável y.
No entanto, quando a relação é não-linear, as médias estão deslocadas
no plano do segundo gráfico. Isso faz com que existam regiões onde
a variável x está acima da média e a variável y está abaixo da média,
contribuindo para a redução da covariância entre x e y.

)'
'0
-------L--
y < JJ·
L--~~ < p;rl '
y< ~:
)t
'
Figura 1.16 - Ilustração do efeito da não-linearidade sobre

o cálculo da covariância.
Como já discutido anteriormente, o que o coeficiente de correlação

linear mede de fato é se existe alguma tendência de variação linear entre
x e y; ou seja, se um aumento de x provoca um aumento proporcional
em y. Portanto, coeficientes de correlação devem ser usados com cautela
para a interpretação de resultados, como ilustrado na Figura 1.17.
y y
• •
• •
• • • •
• • •
•
••
• •
• • •
~>xr= 0. Fh.nua~Ots iDCitp~dentts

·' <>u Rn= I Depen~3lit~utft'lttex ey.
X
efei~s de oulras va.n{·leis..

y
J'
...•.•
••
• ••
•
• ••••
• • ••
•
•
• .·..
• ••
P,u• O Padriode depmdCncianio linear

·' Pxr-. 1. x ey s-.io indepc:ndcntes ou nio?
X
enlze x ey,
Figura 1.17 - Padrões típicos de dependência entre x e y e respectivos

coeficientes de correlação.
É muito interessante notar que na definição de média introduzida

pela Equação (1.7) tem-se:

NR
Jlx = I, p,x, (1.7)
i=l
Por sua vez, na definição de variância proposta pela Equação (1.36)
tem-se:
~~ ~R
a.~.. =I, p, (x, - J.lx ) =I, p, (x;- 2 X.J.lx + J.l~-) =

2
••1 J•l
l\'R NR SR NR
(1.52)
I, p,x,2 - 2J1x I, p,x, + {I~ I, P. =I, P.X?- Jl~

t =l 1=1 t=1 J=l
Com freqüência, expressões na forma:
Sl!
(k) - ~
Jlx - .c...P.x,lt (1.53)
i= l
aparecem na análise estatística. Estas expressões são chamadas de momen-

tos estatísticos ou momentos da curva de distribuição de probabilidades.
Dessa forma, a média e a variância poderiam ser definidas como:
,\1!
Jlx =I, p,x, =Jl~? (1.54)

i=l
NR -.
> ~ > ' (~) [ (I) ] -
<r.i_,- = .c...P,X'( - Jl.i· = Jlx - f.lx (1.55)
i-=1
de maneira que é possível afirmar que a operação de média registra o
primeiro momento da curva de distribuição, enquanto a operação de
cômputo da variância registra o segundo momento da curva de distribui-
ção. Momentos estatísticos adicionais podem ser também calculados, já
que infinitas distribuições de probabilidade distintas podem apresentar
a mesma média e variância. Por exemplo, o momento de ordem 3, nor-
malmente registrado na forma:
(1.56)
fornece informações sobre a assimetria da distribuição de probabilidades,

sendo por isso chamado de fator de assimetria. Baseado na dependência
cúbica utilizada para definição do fator de assimetria da distribuição,
não é difícil compreender que valores positivos do fator de assimetria
são resultantes de distribuições muito alongadas no sentido positivo do

eixo dos resultados, e vice-versa. O momento de ordem 4, por sua vez,

normalmente registrado na forma;
I p, (x,- Jlxt] ~
11
[
--
k.\.. - "-''.;.;•I:.__ _ _ __.:.._
(1.57)
a,,.
e chamado de kurtose, pode ser associado ao formato achatado ou
alongado da distribuição de probabilidades, mostrar multimodalidades,
e assim por diante.
É importante observar que uma distribuição de probabilidades possui
infinitos momentos e que, de forma inversa, os infinitos momentos da
curva de distribuição precisam ser especificados para que a curva de
distribuição possa ser especificada também de forma inequívoca. Por-
tanto, a informação completa contida no histograma de probabilidades
não pode jamais ser substituída por uma coleção finita de momentos
estatísticos, como a média e a variância.
Exemplo 1.10 – Suponha que uma distribuição de probabilidades

definida no intervalo discreto (0, ∞) possa ser definida como:
onde q é um número real positivo 0 < q < 1 e α0, α1 e α2 são

escalares reais. Nesse caso, para especificar a média e a variância
é necessário fazer:
- - -
,uj"l == I == aoL q•-• +a, L ;q•-• + a1L i2q'-'
t=l r-1
== == aoL-;q•-• + a,L-
p jil J11
-
+ a 2L pq•-•
;lq•-•
- - -
pfl == ai +Pi == aoL i q'-' +a,:LP£;-' + a2:L;V-1
2
1•1 ••I 1•t
São, portanto, três equações e quatro incógnitas, havendo infi-

nitas distribuições de probabilidade distintas com a forma geral
proposta, com a mesma média e a mesma variância. Não é difícil
compreender que a forma geral proposta pode ser estendida
para um grau arbitrariamente grande da expansão polinomial,

resultando na necessidade de se especificar um número arbitra-

riamente grande de momentos estatísticos para fixar de fato a
distribuição.
Admitindo-se que µI = 100 e σI = 100, pode-se obter, por exemplo,
as distribuições de probabilidade apresentadas na Figura 1.18a,
para distintos valores de q e de α0, α1 e α2 apresentados na Tabela
1.4. Fica assim patente que a especificação da média e da variância
(ou de um conjunto finito de momentos) não é suficiente para
definir inequivocamente a curva de distribuição de probabilidades
que as originou. Portanto, a média e a variância não substituem
a informação contida no histograma de probabilidades.
,., .,
••
•••
~
•.~ ........
......
-···-
····-·-- J.·~·
.... (
i ..,-_.,
-··-
~
···-
···-
__ _- - .. ..
~
••• l•• ... J

-
........• • • ... m
,,
• • -
Figura 1.18 - Diferentes distribuições de probabilidade com µI = 100
e σI = 100. (a) Formato 1; (b) Formato 2.
É importante observar que a forma da distribuição não precisa

necessariamente estar no mesmo formato fixado anteriormente.
Por exemplo, histogramas bastante distintos que apresentam µI =
100 e σI = 100 são também apresentados na Figura 1.18b. Nesse
caso, admitiu-se que:
P; = icF' (a. +a,i+ a/)

de maneira que:
- -
Jl)'') = I = a0 L, iq'"' +a, L, Pq•·•+a1 L, i3q'"'
-
i=l o=l •=1
-
J.l)'l =Jl, =aoL,i2q•-•+ ~ L,Pq•-•+ a 2L,;•q•-•
-
1•) 1• l 1•1
J1)1J
-
= CJi + Jli = ao:L,h /-' +a, L, ;•q~• +a2L,isq•-•
- -
t=l 1=1 i=l

Tabela 1.4 - Valores usados para construir os histogramas da Figura 1.18.

Formato 1
q α0 α1 α2
-2
0.980 2.08329x10 -4.37231 x10-4 4.24820 x10-6
-2
0.985 1.14248 x10 -6.50240 x10-6 4.54385 x10-7
-2
0.990 1.00510 x10 -1.01785 x10-6 2.55075 x10-9
0.995 8.78147 x10-3 -2.52360 x10-5 1.58613 x10-8
Formato 2
q α0 α1 α2
0.980 .800299E-03 -.816820E-05 .277772E-07
0.985 .503770E-03 -.338219E-05 .642642E-08
0.990 .299008E-03 -.150007E-05 .167516E-08
0.995 .106157E-03 -.312896E-06 .182948E-09
1.7. Extensão dos Conceitos de Distribuição, Média

e Variância para Variáveis Contínuas
Tudo o que foi visto até aqui é perfeito para variáveis discretas. Por
exemplo, o valor que sai do dado ou é 1, 2, 3, 4, 5 ou 6; o resultado
esperado ao se jogar uma moeda para o alto ou é cara ou é coroa. Mas
uma grande parte dos problemas de interesse prático envolve variáveis
contínuas e não enumeráveis. Por exemplo, qual é o tempo de vida de
uma lâmpada incandescente? Qual é o grau de conversão de um regente
químico que deve ser esperado na corrente de saída de um reator? Para
que percebamos a diferença que existe entre os dois tipos de variáveis,
suponha que todos os números reais contidos no intervalo [0,1] são
acondicionados em um saco. O experimento então consiste em sortear
um desses números, supondo que todos os números estão perfeitamente
embaralhados. Qual deve ser então a probabilidade de se retirar o nú-
mero 0.5 do saco?
Em um bingo de verdade, a probabilidade de se retirar um número
inteiro qualquer entre 0 e 99 (incluindo esses extremos) escrito em uma
das 100 pedras do jogo é exatamente igual a 1% (1/100), se as pedras
estão perfeitamente misturadas. Isso ocorre porque a probabilidade de
que qualquer uma das 100 pedras seja sorteada é a mesma. No caso do
problema proposto no parágrafo anterior, há infinitos números naturais
contidos no intervalo [0,1]. Logo, a probabilidade de que qualquer desses
números seja sorteado é sempre igual a zero, de maneira que o histogra-
ma que representaria o problema seria trivial. Esse tipo de dificuldade de
interpretação ocorre sempre que uma variável contínua é analisada. Por
exemplo, qual a probabilidade de se encontrar uma pessoa com altura
igual a 1.733333... m na cidade do Rio de Janeiro, respeitadas todas as
infinitas casas decimais da dízima periódica (se isso fosse possível com o

nosso sistema de medida, o que não é absolutamente verdade)? Portanto,

parece clara a necessidade de modificar a sistemática de análise para os
problemas que envolvem variáveis contínuas.
Uma das formas mais simples de se interpretar variáveis contínuas é
pensar em intervalos de valores, ao invés de valores absolutos. Por exemplo,
suponha que o problema originalmente proposto seja modificado para a
seguinte pergunta: Qual a probabilidade de se retirar do saco um número
real menor do que 0.5? Nesse caso, supondo que a reta real é igualmente
densa em números em qualquer que seja o intervalo numérico analisado, a
Figura 1.19 mostra que metade dos números reais existentes no intervalo
[0,1] está contida no intervalo [0,0.5]. Portanto, a probabilidade de que
um número inferior a 0.5 seja sorteado no experimento é de 50%. Mais
importante ainda: a modificação da pergunta, focada nos intervalos e não
nos valores absolutos, permitiu associar de forma clara uma probabilidade
a um certo conjunto de resultados. A Figura 1.19 mostra no entanto que
isso não é suficiente para remover a ambigüidade da representação. Em
primeiro lugar, ao se movimentar um segmento de tamanho especificado
ao longo do intervalo [0,1], como na Figura 1.19a, mudam-se os valores
que delimitam o subintervalo considerado, mas não a probabilidade dos
números contidos nele serem sorteados. Assim, se o tamanho do intervalo
for igual a 0.5, a probabilidade 0.5 pode ser associada a qualquer número
do intervalo, bastando para isso que o subintervalo esteja colocado sobre
o número considerado. Em segundo lugar, ao se estreitar o subintervalo
que contém um número qualquer, como na Figura 1.19b, a probabilidade
daquele conjunto particular de pontos também muda. Assim, qualquer
valor de probabilidade pode ser associado a um número qualquer do in-
tervalo, dependendo da largura do segmento de reta considerado.
I
I I
0 0.5 0 0.5
0 0.5 O.]j 0 .7$
I I I I
(1.7
0~5 0.75 0.3
I !
05 0.35 0.1'1:
(Ill) (bJ
Figura 1.19 - (a) Qualquer segmento de reta de comprimento 0.5 contido no
intervalo real [0,1] contém metade dos números do intervalo. (b) Segmentos de
reta de tamanhos distintos ao redor do ponto 0.5 contêm frações distintas dos
pontos contidos no intervalo [0,1].
Com a finalidade de remover a ambigüidade da representação de pro-

babilidade em problemas envolvendo variáveis contínuas, faz-se necessário

fixar ao menos um dos limites do segmento utilizado para definir o intervalo

de valores considerados. Por uma questão de conveniência, faz-se aqui o
“ancoramento” do segmento no valor mínimo admissível como solução para
o problema considerado. Assim, define-se como a probabilidade acumulada
de um valor x, representada por , como a probabilidade de
se encontrar em um determinado problema uma solução igual ou inferior ao
valor de x. A Figura 1.20 ilustra esse conceito para o problema proposto.
0
. 05
Y '~ C.rt
--·------••
• .... ••
0 015 ''
'
'
•
• 0
Figura 1.20 - Ilustração do Conceito de Probabilidade Acumulada,

P (x) =P(x' S: x) .
O conceito de probabilidade acumulada permite associar, portanto, a
cada valor específico um número sem ambigüidade, que é a probabilidade
de se encontrar como resposta do problema um valor menor que ele.
Repare que esse conceito pode ser aplicado tanto a problemas discretos
quanto a problemas contínuos indistintamente, embora tenha utilidade
muito maior nos problemas de natureza contínua. A partir do conceito
de probabilidade acumulada, chega-se facilmente ao seguinte conjunto
de propriedades:
Propriedade 1.9 – Seja PAC (x ) = P (x ' ≤ x ) uma função de probabilidade

acumulada para um problema particular. Então PAC (x ) é uma função
monotônica não decrescente de x, contida no intervalo [0,1].
Seja x2 > x1. Então
P.... (x1 ) =P(x'S x, ) =P(x' s: x, +(x. -x,}) 2 P(x'S x1) =P (.r1)(1.58)
já que os valores contidos no intervalo x1 < x < x2 foram excluídos do
conjunto analisado, resultando num conjunto menor de valores possíveis.
Logo, a função PAC (x ) é monotônica e não decrescente. Se xmin e xmax são
os valores admissíveis mínimo e máximo do problema, então
(1.59)
e
(1.60)

Obviamente, se os valores admissíveis mínimo e máximo são infinitos,

então a função PAC (x ) se aproxima assintoticamente dos valores 0 e 1
respectivamente, estando contida no intervalo aberto (0,1).
Propriedade 1.10 – Seja PAC (x ) = P (x ' ≤ x ) uma função de probabi-

lidade acumulada para um problema particular. Então
)-!' ~, (1.61)
Figura 1.21 - Interpretação Quantitativa de Curvas de Probabilidade Acumulada.
A Equação (1.61) mostra que é possível calcular a probabilidade de

que um valor contido em um intervalo contínuo qualquer considerado
seja obtido como resultado de um experimento, desde que a curva de
probabilidade acumulada característica do experimento seja conhecida.
O procedimento gráfico está ilustrado na Figura 1.21. Portanto, a curva
de probabilidade acumulada tem o mesmo papel em problemas contí-
nuos que o histograma de probabilidades tem em problemas discretos.
A comparação das curvas das Figuras 1.21a e 1.21b sugere ainda que a
probabilidade de encontrar um conjunto de valores em um intervalo de
tamanho definido pode aumentar muito, quando a curva de probabilidade
acumulada varia rapidamente. Por exemplo, a Figura 1.21b mostra que é
quase certo que o resultado obtido do experimento esteja contido no in-
tervalo x1 ≤ x ≤ x2. Comparada à Figura 1.21a, pode-se dizer que é muito
mais seguro prever os resultados obtidos no experimento descrito pela
Figura 1.21b. Além disso, é fácil compreender que os valores mais prová-
veis são aqueles ao redor dos quais a curva de probabilidade acumulada
varia mais rapidamente. Portanto, há razões suficientes para introduzir
a definição de densidade de probabilidade, ℘(x), na forma:
dPAC (x )
℘(x ) = (1.62)
dx
A densidade de probabilidade é uma medida de quão rapidamente
varia a curva de probabilidade acumulada, à medida de aumenta a vari-
ável x. Ela dá, portanto, uma medida relativa de quão mais provável é a

obtenção de resultados num pequeno intervalo considerado ao redor do

valor x. Logo, do ponto de vista qualitativo, ela dá uma informação muito
semelhante à informação fornecida pelos histogramas de probabilidade
apresentados nas seções anteriores. Pode-se dizer sem excesso de rigor
que a curva de densidade de probabilidades é o histograma de probabili-
dades de um problema em que a variável analisada é contínua. A Figura
1.22 ilustra o comportamento das curvas de densidade de probabilidade
para as curvas de probabilidade acumulada da Figura 1.21. Vê-se que a
curva de densidades de probabilidade da Figura 1.21b é mais estreita e
intensa no intervalo x1 ≤ x ≤ x2, indicando o menor espalhamento de
valores possíveis em torno de um valor médio provavelmente contido
nesse mesmo intervalo.
,p(x)
(b)
Figura 1.22 - Curvas de Densidade de Probabilidade Obtidas a Partir das Curvas

de Probabilidade Acumulada da Figura 1.21.
Como a curva de densidade de probabilidade está diretamente rela-

cionada à curva de probabilidade acumulada, é possível mostrar que as
seguintes propriedades são satisfeitas:
Propriedade 1.11 – Seja ℘(x) uma função densidade de probabili-

dade para um problema particular. Então ℘(x) é uma função não
negativa de x.
Como a curva de probabilidade acumulada é monotônica não de-
crescente, as derivadas da curva de probabilidade acumulada são nulas
ou positivas, fazendo com que a Propriedade 1.11 decorra diretamente
da Propriedade 1.9.

Propriedade 1.12 – Seja ℘(x) uma função densidade de probabilidade

x2
para um problema particular. Então P (x1 ≤ x ≤ x2 ) = ∫ ℘(x )dx

x1
Da Equação (1.62), que define a função densidade de probabilidade,

é possível escrever de forma inversa:
••
P,c(x,)-P,c (x,)=fp(x)d~ (1.63)
...
que combinada com a Equação (1.61) resulta em
x2
P (x1 ≤ x ≤ x2 ) = ∫ ℘(x )dx (1.64)

x1
Propriedade 1.13 – Seja ℘(x) uma função densidade de probabilidade

xmax
para um problema particular. Então ∫ ℘(x )dx = 1 .

xmin
Aplicando a Equação (1.64) entre os limites admissíveis mínimo e

máximo,
xmax
P (xmin ≤ x ≤ xmax ) = 1 = ∫ ℘(x )dx (1.65)

xmin
As Propriedades 1.11-1.13 são ilustradas graficamente na Figura 1.23.

Dada uma curva de densidade de probabilidade, vê-se que a probabili-
dade de um resultado ocorrer em um certo intervalo x1 ≤ x ≤ x2 é dada
pela área (integral) sob a curva de densidade limitada pelo intervalo.
Mais ainda, a curva de probabilidade acumulada pode ser vista como a
área (integral) sob a curva limitada pelo valor mínimo admissível para
o problema e o ponto particular considerado. Como todos os cálculos
de probabilidade podem ser obtidos diretamente a partir da curva de
densidade de probabilidade e como ℘(x) reflete o espalhamento e os
valores em torno dos quais os resultados mais prováveis se concentram,
faz-se normalmente a apresentação das distribuições de probabilidade
de variáveis contínuas na forma de densidades de probabilidades.

"'''
. ,,
'
Figura 1.23 - Ilustração Gráfica das Propriedades 1.11-1.13.
Para mostrar como pode ser feita uma analogia direta entre os his-
togramas de probabilidades, definidos para as variáveis discretas, e as
curvas de densidade de probabilidade, definidas para variáveis contínuas,
poderíamos representar a curva de densidades de probabilidade como
ilustrado na Figura 1.24. De acordo com essa representação, dada uma
certa resolução ∆x definida pelo usuário, o histograma de probabilidades
(xi , pi ) poderia ser construído na forma:
xi +1 + xi
xi = , xi = xmin + (i − 1)∆x (1.66)
2
xi +1
pi = ∫ ℘(x )dx ≈℘(x )∆x

xi
i (1.67)
Portanto, os momentos da curva de distribuição de probabilidades,

definidos pela Equação (1.53), poderiam ser redefinidos na forma:
XR SR
JI~~J = 'L x,•p, = L x,•ao(x,)ax (1.68)
t= l r= l
onde o número de valores admissíveis NR do histograma seria dado
por:
NR= x~. - x_ (1.69)
/:;.x
No limite em que ∆x se aproxima de zero, a Equação (1.68) fica na
forma:
Tx'"p(x)d..-
X
J.ll~) = (1.70)
que permite estender o conceito de momento estatístico da curva de dis-

tribuição para as variáveis contínuas, apenas trocando o operador soma

da Equação (1.53) para o operador integral (que pode ser interpretado

como uma soma infinita de fatias muito pequenas).
p(x)
,... ..... '""
17' "' 1\
'i- ~
\
11' ~
rl ~
~
17' "-;
17' 1\
~lih-,_
hif X
Figura 1.24 - Transformação da Curva de Densidade de Probabilidades, para

Variáveis Contínuas, em um Histograma de Probabilidades, para Variáveis
Discretas.
A partir da Equação (1.70), desenvolvida para momentos de qualquer

ordem, fica fácil perceber que os conceitos de média, variância e covari-
ância podem ser estendidos para variáveis contínuas na forma:
.r"""'
JJ.\ = J xp (x)dx (1.71)
"'max:
a.~ = J (x- JJ.\ )~ &o(x)cb: (1.72)
a.~> = "'T(x- J.ix )[ ' j"" (y- }.II') !,0 (y I x )dy]~(x )Jx (1.73)
X tflfUJ ,..lflllf
Como a analogia entre os histogramas de probabilidade e as curvas

de densidade de probabilidade é direta, todas as propriedades mostradas
anteriormente para a média, a variância e a covariância, assim como
as interpretações e significados apresentados, podem ser estendidos
diretamente para as variáveis contínuas. A despeito disso, o leitor inte-
ressado pode refazer as provas das propriedades apresentadas nas seções
anteriores sem maiores dificuldades, apenas substituindo o operador
somatório pelo operador integral onde for cabível.

Exemplo 1.11 - Suponha que uma distribuição de probabilidades

no intervalo contínuo [0,1], chamada de distribuição triangular
e ilustrada na Figura 1.25, possa ser definida como:
 4 x, 0 ≤ x ≤ 0.5
℘(x ) = 
 4 − 4 x, 0.5 ≤ x ≤ 1
.fJ(X)
2 ------------
00~----~~----~---.
0.5 I X
Figura 1.25 - A distribuição Triangular.
Para mostrar a Propriedade 1.13,

0.5 1
 4 −1 
1 0.5 1
4x2 4x2 1
∫0 ( ) ∫0 ∫ ( )
1
℘ x dx = 4 xdx + 4 − 4 x dx = + 4 x 0.5 − = + 2−  =1
0.5
2 0
2 0.5
2  2 
confirmando que a função proposta é de fato uma densidade de
probabilidade. Nesse caso, a curva de probabilidade acumulada
ganha a forma:
0, .r~O
2x' 0<
_ .r <o
- .)-
~... (.r) = 0.5+(4x
' ( 0 )
- 2) - 2x - 0.5 , 0.5S x SI
I, X<: I
Para obter a média,

Para obter o momento estatístico de ordem 2,
.
11~J =f x'p (x)dx= .,
o
' J
J 4r'dx+ (4x' - 4r')d..-=~ + ~
liS 4
... "'[ -
4
.) ~
4~
x
4 $
=
=-' ·(4-0.5 )-( ~-0.25) =2.+ 56 - 45:2.
16 3 4 48 48 48 24
Portanto, a variância é igual a:
2
(jx-
_
J.lx -
(2) (
J.l ~-
)2-_ - 7 1_ I
- - - -
. 24 4 24
1.8. Conclusões
No Capítulo 1 foram introduzidos os conceitos de aleatoriedade e deter-
minismo, fundamentais para a compreensão de problemas de medição.
Para caracterizar a componente aleatória das medidas, foi introduzido o
conceito de probabilidade e de distribuição de probabilidades. Foi acen-
tuado o fato de que uma probabilidade é uma expectativa de que um
certo resultado ocorre, não garantindo de fato a consecução do resultado.
Para tornar possível a comparação e o processo de tomada de decisão
em diferentes problemas, caracterizados por diferentes distribuições
de probabilidade, foram definidas a média e a variância. A primeira ca-
racteriza um valor em torno do qual os resultados possíveis flutuam. A
segunda caracteriza o quanto os resultados flutuam em torno do valor
médio. Finalmente, foi introduzido o conceito de independência entre
medidas e variáveis e foi definida a covariância, que caracteriza o grau
de dependência linear entre as variáveis analisadas.
Um problema fundamental que se põe é o de como caracterizar a
distribuição de probabilidades que caracteriza um determinado problema
estocástico. Outro problema é o de como utilizar essa informação para
julgar e analisar medidas experimentais. Esses serão os tópicos principais
abordados nos próximos capítulos.
1.9. Leitura Adicional

A literatura dedicada à apresentação de pontos fundamentais relacio-
nados aos conceitos de aleatoriedade, de independência de medidas e
de probabilidades é muito vasta. Não cabe aqui, portanto, uma revisão
dessa área. O leitor interessado encontrará centenas de livros que abor-
dam esses assuntos em qualquer biblioteca dedicada à Matemática e à
Engenharia.

Uma discussão muito interessante sobre a caracterização do grau de

aleatoriedade em problemas físicos e matemáticos é apresentada em:
What is Random? Chance and Order in Mathematics and Life, E. Beltrami,
Springer-Verlag, Nova York, 1999.
Um texto clássico relacionado ao uso e aplicação dos conceitos discu-

tidos no Capítulo 1 em problemas de Engenharia é apresentado em:
Process Analysis by Statistical Methods, D.M. Himmelblau, John Wiley
& Sons, Nova York, 1970.
Uma discussão mais formal sobre as propriedades matemáticas as-

sociadas a distribuições de probabilidades é apresentada em:
Probability and Statistical Inference. Volume 1: Probability, J.G.
Kalbfleisch, Springer-Verlag, Nova York, 1985.
Probability and Statistics. Theory and Applications., G. Blom, Springer-
Verlag, Nova York, 1989.
1.10. Exercícios Sugeridos

1. Defina os seguintes eventos como determinísticos ou estocásticos e
justifique:
a) Tempo de cozimento de um tijolo na olaria;
b) Tempo de espera por um ônibus depois da chegada no ponto;
c) Tempo da viagem do Rio a Salvador por via terrestre e por via aé-
rea;
d) Número de telhas necessárias para cobrir um telhado;
e) Número de equipamentos que falham por ano em uma escola de
informática;
f) Condição do tempo daqui a exatamente dois meses.
2. Pegue uma folha de papel e rasgue uma tira com as mãos. Meça a
largura dessa tira em diferentes pontos com uma régua milimetrada.
Repita o experimento. As medidas obtidas são iguais? Você é capaz
de identificar as fontes de erro desse experimento?
3. Uma função discreta muito utilizada para descrever a probabilidade

de encontrar uma espécie de tamanho i em sistemas que crescem de
forma não contínua (ou seja, em que há um mecanismo que inter-
rompe o crescimento) é a chamada curva de Flory. A curva de Flory
pode ser escrita na forma: Pi = (1 – q) qi–1

onde i (i = 1, 2, ..., N, ...) é o comprimento, Pi é a probabilidade de se

encontrar uma espécie de tamanho i e q é uma constante 0 < q < 1
que caracteriza o processo.
a) Prove que Pi é de fato uma distribuição de probabilidades, provando
que as Equações (1.5) e (1.6) são satisfeitas;
b) Calcule o comprimento médio da população µI;
c) Calcule a variância da população σ I .
2
4. Para a distribuição exponencial, ℘(x)=α exp (–αx) , definida no

intervalo contínuo [0, ∞):
a) Calcule o valor de α, para que ℘(x) seja de fato uma densidade de
probabilidades;
b) Calcule a probabilidade acumulada PAC(x) no intervalo de definição
do problema;
c) Calcule o valor médio de x;
d) Calcule a variância de x;
e) Pense em quantos momentos estatísticos independentes podem ser
definidos.
5. No laboratório é feita uma medida cromatográfica (separação dos

vários componentes químicos de uma mistura) usando uma coluna de
separação (um tubo oco) recheada com um composto plástico poroso.
Toda vez que um composto ácido é usado na coluna, parte do recheio
plástico é corroído e, dessa forma, extraído da coluna. Sabendo que
o composto plástico poroso é que de fato promove a separação dos
componentes da mistura, as medidas de composição feitas na coluna
poderiam ser consideradas independentes? Por que?
6. Suponha que duas variáveis x e y estão relacionadas na forma

y = 4x (1 – x), definida no intervalo contínuo [0,1]. Suponha ainda
que ℘(x) = 1 no intervalo de definição do problema.
a) Mostre que ℘(x) define de fato uma distribuição de probabilidades;
b) Calcule℘(y);
c) Calcule ℘(y/x);
d) Calcule Covar(x,y) e ρxy;
e) Comente o significado dos resultados obtidos no item anterior.

2 Distribuições
de Probabilidade
No Capítulo 1 foram introduzidos os conceitos de aleatoriedade e pro-

babilidade. Foi mostrado que um fenômeno aleatório pode ser descrito
em termos de distribuições de probabilidade. No entanto, foi também
mostrado que o conceito de probabilidade (e, portanto, de distribuições
de probabilidade) está intimamente relacionado com a possibilidade de
repetir um experimento infinitas vezes. Essa possibilidade, contudo, não
é factível, pois nenhum experimento pode ser repetido infinitas vezes
por limitações reais de tempo e custo. Sendo assim, as distribuições de
probabilidade usadas para descrever problemas reais não podem ser
obtidas unicamente por métodos experimentais. Na realidade, as distri-
buições de probabilidade usadas para descrever problemas reais estão
fortemente baseadas em considerações idealizadas sobre o sistema estu-
dado e estão fundamentadas em hipóteses a respeito do comportamento
do sistema considerado. São necessários, portanto, modelos idealizados
de comportamento ou modelos probabilísticos.
Para exemplificar, consideremos o caso do dado ideal analisado no
Exemplo 1.2. Para dizermos que o histograma de um dado comporta seis
resultados possíveis, e que cada um dos resultados tem a mesma proba-
bilidade de ocorrência, é necessário admitir que o dado é composto por
seis faces absolutamente iguais. Repare que há ao menos duas hipóteses
fortes embutidas na última afirmação. A primeira admite implicitamente
que o dado é um cubo, o que não é um fato óbvio. Por exemplo, por que
não poderíamos construir um dado com 4 faces (uma pirâmide) ou 8 faces
(um octaedro)? Obviamente que essas duas alternativas de construção são
possíveis. Um dado não precisa ter necessariamente 6 faces. No entanto,
usamos o dado de 6 faces com tamanha freqüência que associamos o
Distribuições de Probabilidade 75
dado ao cubo imediatamente. A segunda hipótese é a de que as faces são

absolutamente iguais. Será que as faces de um dado real, construídas com
ferramentas e materiais reais (não ideais, não necessariamente homo-
gêneos, sujeitos a falhas etc.), são de fato iguais? Não há como resolver
essa questão facilmente, sem experimentação, mas admitimos para fins
práticos quase sempre que as faces são iguais. Portanto, o Exemplo 1.2
ilustra a construção de um modelo probabilístico. Em outras palavras, o
histograma do Exemplo 1.2 é de fato um modelo probabilístico em que
confiamos e não necessariamente uma realidade experimental.
É muito interessante mostrar como algumas distribuições de probabi-
lidade surgem naturalmente em problemas de Matemática e Engenharia.
Por isso, nesta seção são construídos alguns modelos probabilísticos
usados comumente para análise de problemas reais, enfatizando-se em
particular as hipóteses que permitem a construção desses modelos. São
também mostrados alguns exemplos típicos de aplicação dos modelos
de distribuição de probabilidade na prática da análise de dados e inter-
pretação de experimentos aleatórios. Deve ficar claro que o objetivo
perseguido aqui não é fazer uma descrição extensiva de modelos proba-
bilísticos descritos na literatura. Uma descrição mais extensa e profunda
de modelos probabilísticos, assim como a maior parte das provas de
teoremas e resultados, pode ser encontrada nas referências adicionais
apresentadas no final deste capítulo. O objetivo perseguido nessa seção
é a apresentação e análise de alguns modelos probabilísticos que serão
muito úteis para as discussões apresentadas nos próximos capítulos.
2.1. A Distribuição Binomial

Admita que em um evento aleatório apenas dois resultados sejam possí-
veis. Por exemplo, sucesso ou insucesso, cara ou coroa, acima ou abaixo,
certo ou errado, sim ou não etc. Admita ainda que as probabilidades de
que os resultados ocorram sejam conhecidas e iguais respectivamente
a p e a q = 1 – p. A distribuição Binomial procura descrever o seguinte
problema: após m repetições do experimento, qual a probabilidade de
que se obtenham n sucessos? Por exemplo, após jogar a moeda para o
alto m vezes, qual a probabilidade de tirar cara (p = 0.5; q = 0.5) n ve-
zes? Como será mostrado adiante, esse problema aparece com extrema
freqüência durante a análise de dados reais.
Para que se possa construir a distribuição Binomial, é necessário
primeiro reconhecer que são possíveis NR = m + 1 resultados distintos,
já que o número de sucessos pode variar de zero até m. Suponha que
n, 0 ≤ n ≤ m, é o número particular de sucessos avaliado no momento.
Então parece claro que o número de insucessos é igual a (m – n). Nesse

caso, se os experimentos são realizados de forma independente, a pro-

babilidade de que um certo arranjo de n sucessos e (m – n) insucessos
seja obtido é igual a:
P,. = P(S}, .. .P(S),, P(l},., P(t )•.,••, = p"<(
(2.1)
onde PA1 é a probabilidade do arranjo particular considerado, P(S)i é a
probabilidade de sucesso no experimento i e P(I)i é a probabilidade de
insucesso no experimento i. Obviamente, a Equação (2.1) descreve ape-
nas o resultado de um dos possíveis arranjos, em que sucesso é obtido
nos n primeiros experimentos e insucesso é obtido nos últimos (m – n)
experimentos. Suponha que esse arranjo é invertido, de maneira que
os primeiros resultados são insucessos, enquanto os últimos resultados
são sucessos. Nesse caso,
(2.2)
cujo resultado é idêntico ao anterior. Na realidade, a probabilidade de se
obter n sucessos independe da ordem com que os n experimentos bem
sucedidos sejam distribuídos no arranjo final de resultados. Portanto,
a probabilidade de se obter n sucessos de m experimentos pode ser
escrita na forma:
P(n~ m. p}::: N,~p"q,_•
(2.3)
onde NA é o número total de combinações possíveis de n sucessos e (m
– n) insucessos em m experimentos. O número NA é uma operação clás-
sica da matemática combinatorial, denominado como a combinação de
m, n a n, dado na forma:
N
·•
=("')=c· =
11 "
m!
nJ(m- n)! (2.4)
Dessa maneira, a solução do problema proposto, denominada de

distribuição Binomial, pode ser representada na forma:
Bm ( n:m, p ) = ( )pq
' " '' .. Jll " ll
(2.5)
" ' 111- 11 !
A distribuição Binomial é uma distribuição discreta Univariada e Bi-
paramétrica, pois descreve a variação de probabilidades de uma única
variável discreta, n, e depende de dois parâmetros, m e p. Isso significa
que apenas dois dos momentos da curva de distribuição podem ser
fixados independentemente pelo usuário, ficando os demais automa-
ticamente definidos pela forma da curva da Equação (2.5). Além disso,
não é difícil mostrar que:
(2.6)
(2.7)
Desta forma, os dois parâmetros m e p que caracterizam a distribuição

Binomial podem ser relacionados fácil e diretamente aos parâmetros µN
e σ2N, que caracterizam o posicionamento e o espalhamento da curva de
distribuição de probabilidades. Isso pode ser muito útil para interpretação
de alguns problemas práticos, como o dimensionamento do tamanho
das amostras em procedimentos de avaliação e controle de qualidade,
analisados a seguir. É também interessante observar que o índice de po-
lidispersão tende a 1 quando m cresce, independentemente dos valores
de p e q. Isso indica que o grau de espalhamento em relação à média
decresce continuamente com o aumento do conjunto amostral.
Exemplo 2.1 – Para o caso da moeda ideal, suponha que se deseja

saber como a distribuição de probabilidades de se obter n caras
(p = 0.5) varia, à medida que m aumenta. A Figura 2.1 mostra a
evolução da curva binomial para diferentes valores de m.
' ' '

"
jl; :J It
Figura 2.1 - Exemplo da curva binomial: Bin(n;m,0.5).
Observe que a curva binomial vai ganhando a aparência de um

sino, à medida que o número de experimentos aumenta. Nesse
caso particular, observe ainda que a média µN = mp = m/2, o que
mostra que na média o número de caras deverá ser igual à metade
do número de experimentos realizados (embora se saiba que esse
é o resultado que necessariamente deverá ocorrer, como mostra
a Figura 2.1 e como foi discutido nas seções anteriores).

Exemplo 2.2 – Pesquisadores envolvidos com atividades ex-

perimentais sabem que nem sempre experimentos podem ser
realizados a contento por uma série de fatores: falta de energia,
quebra de equipamentos, contaminação de reagentes etc. Muitas
vezes os resultados experimentais têm que ser descartados porque
as falhas ocorrem durante a realização dos experimentos ou são
detectadas depois de terminada a atividade experimental.
Suponha que a probabilidade de um certo experimento dar certo
é de 70%. A experiência acumulada indica que esse é um número
bastante representativo da realidade laboratorial, embora obvia-
mente possa variar de caso para caso. Por exemplo, durante a
instalação de uma nova unidade experimental e/ou na presença
de deficiências de infra-estrutura, a probabilidade de sucesso
pode diminuir drasticamente. Suponha ainda que o número de
bons experimentos necessários para que se possa desenvolver
uma boa análise científica seja de pelo menos 20 experimentos.
(Questões relacionadas ao número de experimentos necessários
para desenvolver um trabalho de investigação serão analisadas no
Volume II desta série de publicações.) Nesse caso, qual o número
de experimentos que devem ser programados para que se garan-
ta, com 95% de confiança que ao menos 20 bons experimentos
serão obtidos?
Primeiramente deve ser observado que esse é um problema
típico de aplicação da curva binomial. Observe que apenas dois
resultados são possíveis: certo ou errado. Observe ainda que as
probabilidades individuais de cada resultado são conhecidas:
p = 0.70 e q = 0.30. Assim, a pergunta original pode ser formulada
da seguinte forma: dados p = 0.70 e q = 0.30, qual é o número
de experimentos, m, que faz com que a probabilidade de se obter
um valor de n menor do que 20 é inferior a 5%? Ou ainda, qual
o menor valor de m para o qual:
19
m!
∑
n = 0 n !(m − n )!
p n q m − n = PAC (19; m, p ) ≤ 0.05
m
m!
∑ n !(m − n )! p q
n = 20
n m−n
≥ 0.95
O resultado pode ser obtido avaliando-se valores crescentes de m

a partir de m = 20, uma vez que 20 experimentos bem sucedidos
não podem ser obtidos com número inferior de experimentos, como

mostrado na Figura 2.2. Para o caso estudado, o valor mínimo de
experimentos executados para garantir com 95% de certeza que 20
bons experimentos serão obtidos é igual a 35. Vê-se, portanto, que
a programação experimental deve prever a realização de número
de experimentos bastante superior ao desejado, para que sejam
considerados os problemas eventuais que levam ao descarte dos
resultados experimentais. Se a probabilidade de sucesso cai a 60%,
o valor mínimo de experimentos necessários para garantir 20 bons
resultados com 95% de certeza sobe para 42, caindo respectivamen-
te para 29 e 25 quando a probabilidade de sucesso sobe para 80%
e 90%. Se a programação experimental não incluir a possibilidade
eventual de falhas, é bastante provável que o cronograma e o orça-
mento originais não sejam obedecidos, causando frustração.
"'••
~.
•
. .,
... . .\.~···
.. . •
-•- p.. Of1
..•
~
\• •
•
•
•
.
- - P"'0'
(1'"03
..•
~
• u '. •\
•
- - p - 09
~ \• •, '
.... •
"*•
"i• ...
;!
•
~
.. \\ \
•
•
•
•
•
•
... ,, •
•
•
••
-... . _. ,,
• ,..
"
,. - :::,.
" "
-~
"
,.
~li m\!t\1 ~~ ~~lnw• l;)'o • .,,
Figura 2.2 - Probabilidade acumulada da curva binomial até n = 19,

para m e p variáveis.
Exemplo 2.3 – A distribuição Binomial é uma poderosa ferramen-

ta usada para fins de controle de qualidade e análise de dados,
como discutido no Volume III desta série de publicações. Nesse
caso, a distribuição Binomial é usada para identificar padrões
de formação entre pontos experimentais obtidos diretamente
do processo.
A Figura 2.3 ilustra dois tipos clássicos de aplicação da curva bino-
mial em problemas de controle de qualidade. Em ambos os casos,
a reta central representa um valor médio histórico do processo,
enquanto as duas retas adicionais representam a faixa histórica
que concentra 98% dos resultados obtidos no processo. Os pontos

se distribuem de forma supostamente aleatória em torno da mé-

dia, com probabilidades iguais a 50% de estarem acima ou abaixo
do valor médio. (No Capítulo 3 deste volume e no Volume III desta
série de publicações serão construídos métodos que permitem a
definição formal das faixas consideradas na Figura 2.3.)
Ill!
•
• •• •
•• •
• •
.
•• • • • -
• • • .. .•
Figura 2.3 - Padrões de medidas obtidas durante o

monitoramento do processo.
A intervenção no processo para corrigir eventuais falhas de

produção, embora desejada, não deve ser feita de forma exage-
rada por várias razões. Por exemplo, toda vez que se perturba o
processo são introduzidos transientes ou efeitos de longo prazo
que podem obrigar o operador a perturbar o processo novamente
no futuro muitas vezes. Além disso, a modificação freqüente das
condições de operação acelera o envelhecimento de válvulas e
demais equipamentos, aumentando os custos de produção. E não
deve ser esquecido o fato de que as medidas experimentais con-
têm erros. Dessa forma, o operador pode ser induzido a corrigir
desvios que de fato não existem, introduzindo assim alterações
aleatórias e complexas na cadeia de produção. Por todas essas
razões parece lícito perguntar quando é, de fato, o momento de
intervir no processo.
Um primeiro procedimento de controle pode ser projetado a par-
tir da Figura 2.3a. Por segurança, toda vez que uma medida do
processo passar dos limites estabelecidos pela carta de controle
de qualidade, medidas de correção devem ser imediatamente
tomadas. Esse procedimento está embasado no fato de que esses
desvios aleatórios são observados muito pouco freqüentemente
(no caso analisado, apenas 2% das vezes, ou 1 em cada 50 pontos),
não sendo possível descartar a hipótese de falha do processo.
Um segundo procedimento de controle pode também ser proje-
tado a partir da Figura 2.3a. O operador desconfia de que algo
pode estar errado com o processo porque os últimos sete valores

medidos se encontram abaixo da média. Nesse caso, dado um
conjunto de m pontos, qual a probabilidade de que ao menos n
pontos estejam do mesmo lado da carta de controle, se a pro-
babilidade do ponto estar de um lado ou de outro é a mesma e
igual a p = 0.5? Esse problema pode ser resolvido no contexto
da curva binomial na forma:
~
• m!
i !{m-i)!
(')'(1)"-'
2 2 = ~.c (u;m.o.s)
já que apenas dois resultados são possíveis (estar acima ou abai-
xo da linha central) e as probabilidades são conhecidas e iguais
a 50%. Supondo que um certo grau de confiança PX% é exigido
para que se tome a decisão de intervir no processo, toda vez que
um padrão for observado e tiver probabilidade inferior a PX%
de ocorrer, toma-se a decisão de introduzir uma perturbação
reguladora de controle. Nesse caso, como o mesmo padrão pode
ocorrer de um lado ou de outro da carta de controle (ou seja, a
curva de distribuição de probabilidades é simétrica), o problema
de controle fica na forma:
m. I 100%-P.
L• I
( _)I ( ?' )' ( ) -
r=& l.1 111 I . - 2
=P,c (tr, m,0.5)!>( 2
•·· )
De acordo com a Figura 2.4, admitindo um grau de confiança de

98%, observa-se que padrões pouco prováveis são os seguintes:
a) seqüências com sete ou mais pontos seguidos do mesmo lado
do diagrama;
b) seqüências de dez ou mais pontos, com apenas um ponto de
um lado do diagrama;
c) seqüências de 14 ou mais pontos, com apenas dois pontos de
um mesmo lado do diagrama;
d) seqüências de 17 ou mais pontos, com apenas três pontos de
um mesmo lado do diagrama.
Observe também que o grau de confiança é um importante
parâmetro de sintonia do problema de controle. Se o grau de
confiança for trocado para 95%, os padrões pouco prováveis são
os seguintes:

a) seqüências com seis ou mais pontos seguidos do mesmo lado

do diagrama;
b) seqüências de nove ou mais pontos, com apenas um ponto de
um lado do diagrama;
c) seqüências de 12 ou mais pontos, com apenas dois pontos de
um mesmo lado do diagrama;
d) seqüências de 15 ou mais pontos, com apenas três pontos de
um mesmo lado do diagrama.
Quanto menor o grau de confiança exigido, mais freqüente é a inter-
venção no processo, aumentando o risco de que se tomem medidas
de controle desnecessárias. Por sua vez, quanto maior o grau de con-
fiança exigido, mais se demora para que se faça uma intervenção no
processo, aumentando o risco de se corrigir tardiamente um desvio
real do processo. Por isso, a definição do grau de confiança depende do
processo, dos objetivos perseguidos e do custo que o engenheiro está
disposto a pagar por uma decisão eventualmente equivocada. Para a
maior parte das aplicações, os níveis de confiança mais amplamente
utilizados são os níveis de 95% e 98%. Em ambos os casos, de acordo
com a Figura 2.3a, deve-se iniciar um procedimento de correção do
processo, já que o valor medido encontra-se improvavelmente baixo
(sete valores seguidos abaixo da linha central).
lt:Z(J
::;: • I• PJ- (I
~
c; \ 1
;;;: I). :JI(i
\ - -
.. Pl
Pl 1
"'CC
!:;
-;
I
l PI-J
E 11. 1
=
... \\ \
\
•
<...
1.., IJ.IJf! \• \
\.~
....,
:::l • \
\ ..
\•
~
.,e.,
11.1)4 \
• ....
~
Ql:
·~ ._ ··- • '- ..._
·~- - ... ""
"'·~ U.4
.L_fr •-:.i_
I). I)() ·~. -~- '"'.!:~ ...
.... J
4) :z: 4 6 3 l(ll ii.:Z: l4 u; 18· l
:'>o"u nwro d t' l\Jlellid11~
Figura 2.4 - Probabilidade de se obter ao menos n pontos do mesmo

lado do diagrama, à medida que o número de medidas aumenta.
Um terceiro procedimento de controle pode também ser proje-

tado a partir da Figura 2.3b. O operador desconfia de que algo
pode estar errado com o processo porque os últimos seis valores
medidos se encontram consistentemente subindo. Nesse caso,
dado um conjunto de m pontos, qual a probabilidade de que eles

estejam alinhados de forma consistente na mesma direção da
carta de controle, admitindo que a probabilidade do ponto estar
alinhado para um lado ou para o outro é a mesma e igual a p =
0.5? (Repare que a probabilidade de alinhamento deve ser, na
realidade, dependente da posição em que o ponto se encontra no
diagrama. Por exemplo, supondo uma distribuição aleatória dos
pontos, a probabilidade de que um segundo ponto esteja acima
do primeiro é muito maior quando este primeiro se encontra na
extremidade inferior da carta. Por isso, a hipótese de probabilidade
constante e igual a p = 0.5 deve ser vista como uma aproximação
do problema real e tomada com cautela). Esse problema pode ser
resolvido novamente no contexto da curva binomial, de forma
semelhante à realizada anteriormente. Deve-se atentar apenas
para o fato de que quando m pontos estão alinhados em uma certa
direção, m-1 pontos caracterizam de fato o experimento, já que
o primeiro ponto da série é a referência que não está sendo com-
parada a ninguém. Assim, dizer que dois pontos estão alinhados
em forma crescente é o mesmo que dizer que um experimento
resultou em um valor maior que o valor anterior.
Assim, admitindo um grau de confiança de 98% e em conformi-
dade com a discussão anterior, observa-se que padrões pouco
prováveis são os seguintes:
a) seqüências com oito ou mais pontos seguidos alinhados na
mesma direção do diagrama;
b) seqüências com onze ou mais pontos alinhados na mesma direção
do diagrama, com apenas uma falha na direção contrária;
c) seqüências com quinze ou mais pontos alinhados na mesma di-
reção do diagrama, com apenas duas falhas na direção contrária;
d) seqüências com dezoito ou mais pontos alinhados na mesma di-
reção do diagrama, com apenas três falhas na direção contrária.
Como no caso anterior, se o grau de confiança for trocado para
95%, os padrões pouco prováveis são os seguintes:
a) seqüências com sete ou mais pontos seguidos alinhados na
mesma direção do diagrama;
b) seqüências com dez ou mais pontos alinhados na mesma dire-
ção do diagrama, com apenas uma falha na direção contrária;
c) seqüências com treze ou mais pontos alinhados na mesma dire-
ção do diagrama, com apenas duas falhas na direção contrária;

d) seqüências com dezesseis ou mais pontos alinhados na mesma di-

reção do diagrama, com apenas três falhas na direção contrária.
No caso da Figura 2.3b, o operador deveria esperar ao menos
mais um resultado, antes de intervir no processo, pois o padrão
observado (seis pontos alinhados de forma crescente) ainda não é
um padrão improvável, nos limites de confiança de 95% e 98%.
Exemplo 2.4 – Um problema clássico de uso da distribuição

Binomial é a avaliação da qualidade de conjuntos de resultados
(lotes). Suponha que a cada um dos elementos de um conjunto
possa ser atribuído um dos seguintes atributos: “adequado”
ou “inadequado”. Suponha ainda que a qualidade do conjunto
(produção) possa ser avaliada a partir da fração observada de
elementos com o atributo “adequado” em uma amostra de tama-
nho m. Admita que a fração mínima de elementos “adequados”
do conjunto todo deva ser igual a p. Qual deve ser o tamanho m
do conjunto amostral para que a observação de d peças defeitu-
osas não seja suficiente para condenar a produção com grau de
confiança especificado e igual a PX%?
Esse problema é semelhante ao problema analisado no Exemplo
2.2. Fundamentalmente, a solução do problema é dada pela
expressão:
N-
A- ("') -c - ,,
11 - " - n!(m- u) !
Nesse problema, o grau de confiança PX% é especificado pelo pro-

jetista e reflete o grau de conservadorismo ou rigor do analista. d
é um número máximo admissível de observações “inadequadas”
no lote e usualmente reflete a dificuldade da análise. Quando a
análise de cada elemento é fácil, d pode ser grande, para permitir
uma tomada de decisão mais robusta. Não chega a ser absurdo, no
entanto, que d seja considerado igual a 0 ou 1, como nos casos em
que a análise do atributo é muito custosa em termos econômicos
e/ou de tempo. p reflete uma expectativa de qualidade e, num
ambiente de produção, costuma ser especificado pelo cliente.
Tabela 2.1 - Tamanho dos lotes como função da especificação

das análises para 95% de confiança.
p d m
0 29
1 46
0.10 2 61
3 75
4 89
5 103
0 59
1 93
2 124
0.05
3 153
4 181
5 209
Repare na Tabela 2.1 que os lotes têm que ser muito maiores que
os valores médios sugeridos pelo número de defeitos observados.
Para aprovar um lote produzido, com 95% de confiança, ao me-
nos 29 peças têm que ser analisadas e nenhum defeito pode ser
detectado, para se garantir que a fração de defeitos seja inferior
a 10%. O tamanho do lote sobe para 59 peças, sem quaisquer
defeitos observados, para garantir que a fração de defeitos seja
inferior a 5%. Isso mostra como uma boa precisão pode requerer
a análise de número bastante grande de experimentos.
2.2. A Distribuição de Poisson

Admita que num certo problema a probabilidade de sucesso (ou insuces-
so) seja muito pequena. Esse é o caso típico, por exemplo, numa linha de
produção em que a maioria esmagadora dos produtos fabricados é muito
boa e as falhas ocorrem apenas eventualmente. Nesse caso, o uso da distri-
buição Binomial pode ser muito inconveniente, porque nos obriga a traba-
lhar com longas somas (m tem que ser muito grande para resultar em va-
lores de n mensuráveis) de valores muito pequenos (por causa dos baixos
valores de p ou de q). Portanto, é conveniente avaliar o que acontece com
a distribuição Binomial no limite em que p vai a zero, m vai a infinito, mas
µN = mp permanece constante. Para tanto, vale a pena reescrever a curva
binomial da Equação (2.5) na forma:
m (m − 1)... (m − n + 1)
Bin (n; m, p ) = p n q m−n (2.8)
n!

Multiplicando o numerador e o denominador por mn lembrando que

µN = mp, chega-se a:
m (m − 1)... (m − n + 1)
Bin (n; m, p ) = (mp )
n
n
q m−n =
m n!
m (m − 1)... (m − n + 1) µ Nn
(1 − p )
m−n
=
mn n!
 1  2   n − 1  µ Nn
(1 − p ) =
m−n (2.9)
1 −  1 −  ... 1 − 
 m  m   m  n!
 1  2   n −1 
 1 −  1 −  ... 1 −  n
 m  m   m  µN
( )
m
1 − p
(1 − p )
n
n!
Usando agora as seguintes relações matemáticas:
− mp −µN
(1 − p ) = (1 − p ) I p  = (1 − p ) I p 
m −1 −1
(2.10)
   
lim (1 + z )I1 z  = e (2.11)
z →0  

então,
−µN
lim (1 − p )−I1 p  = e− µN (2.12)
p →0 
 
Como:
 1  2   n −1 
 −  − ... 1 −
lim   m  m  
 
1 1
m 
m→∞   =1 (2.13)
p →0  (1 − p )n

 
a Equação (2.9) fica na forma:
lim  Bin  n; m, µ N  µ N − µN
n
m →∞    n! e = Poisson (n; µ N ) (2.14)

  m 
Portanto, a Equação (2.14) mostra que a distribuição de Poisson é o

limite da distribuição Binomial para valores muito pequenos de p (ou
q) e número muito grande de experimentos. A distribuição de Poisson
é uma distribuição discreta univariada e uniparamétrica, pois descreve
a variação de probabilidades de uma única variável discreta, n, e de-

pende de um único parâmetro, µN. Isso significa que apenas um dos
momentos da curva de distribuição pode ser fixado independentemente
pelo usuário, ficando os demais automaticamente definidos pela forma
da curva da Equação (2.14). Nesse caso muito particular, o parâmetro
pode ser confundido com o próprio valor médio da distribuição, o que
é muito conveniente do ponto de vista prático. Além disso, não é difícil
mostrar que:
(2.15)
mostrando que não é possível fixar de forma independente os valores
da média e da variância da distribuição de Poisson. Além disso, como
no caso da curva binomial, o índice de polidispersão diminui continu-
amente com o aumento de µ, indicando redução continuada do grau
de espalhamento relativo à medida que o valor médio se desloca para
valores mais altos.
Exemplo 2.5 – Para o caso em que µN = 10, a Figura 2.5 mostra

como a curva binomial converge em direção à curva de Poisson,
à medida que m cresce e p decresce. Vê-se que a convergência é
muito rápida.
D.lO
-- "' - 20. p - o.so
• "' =40. p =0.25
IUS - - M = IOO.p=-0.10
~ - - m - lOO,p • OOS
"li - PoiMOn
:2
:s 0.10
..e
~
(),()5
&.00
0 l
' • 8 1&
n " " . " lO
Figura 2.5 - Comparação entre as distribuições Bin (n;m,p)

e Poisson (n;10).
Exemplo 2.6 – A curva de Poisson é muito utilizada como fer-

ramenta de controle de processos, quando a probabilidade de
se detectar falhas é pequena. Por exemplo, suponha que em um
processo de manufatura qualquer é aceitável encontrar 2% de

peças defeituosas. (Esse limite, obviamente, caracteriza a eco-

nomia do processo e o grau de exigência imposto pelo cliente,
não devendo ser tomado como valor absoluto de referência.)
Nesse caso, se caixas contendo 200 peças são encaminhadas ao
cliente, qual a probabilidade de se encontrar n ou menos peças
defeituosas na caixa?
Para resolver esse problema, é conveniente expressar o problema
de forma matemática precisa. Deseja-se saber o valor de:
J.1N = np'
O uso da distribuição de Poisson é justificado por causa do proble-
ma tipicamente binomial (apenas dois resultados são possíveis:
peça perfeita ou peça defeituosa) e do baixo valor da probabilidade
e respectivo alto valor de dados analisados (m = 200, p = 0.02,
µN = 4). A soma inclui o fato de que um número de defeitos em
até n peças está sendo considerado.
U)ll] .... ____.....,..--

. - ..._
11' ---~--
__..,..
~
_...; ---j
&
I
~
/ 9.8 Q
J / / /
i:l IUS
•
/
I
I C)j'l,
E
I"
::1
,l
~ ~
::.0 0.!1()
l~ I
...
__.
:E
::1 I •• - m- lS ~(I
A
e
I)_AS
"' 100
t:l.o '" =2{10
,.. tlf
I
IJ.811J
J l l ~· !I ,.:; '7 8 l
0
n '
Figura 2.6 - Probabilidade acumulada da distribuição
de Poisson (n; 0.02 m).
A Figura 2.6 mostra como PAC(n) varia com n, para diferentes valores
de m (lembrando que no problema analisado µN = 0.02 m). Observe
que os limites de 95% e 98% impostos definem as quantidades
prováveis de defeitos encontradas em lotes de tamanhos variáveis.
Assim, para lotes de 25 peças, encontrar duas peças defeituosas
já condena a produção. De forma similar, encontrar três ou cinco
peças defeituosas em lotes de tamanho 50 ou 100 respectivamente
também condena a produção. Para lotes de tamanho 200, oito pe-
ças defeituosas condenam o processo no limite de 95%, enquanto

nove peças condenam o processo no limite de 98%. Se for tomado
como procedimento heurístico a recomendação de nunca condenar
o processo sem a detecção de pelo menos cinco peças defeituosas,
vê-se que o tamanho do lote amostral nunca deve ser inferior a
100 peças.
Exemplo 2.7 – A distribuição de Poisson também aparece natural-

mente em vários problemas de interesse da engenharia. Um dos
problemas clássicos que levam ao aparecimento da distribuição
de Poisson é o problema do crescimento de aglomerados, como
na formação de cadeias moleculares longas (polimerização), de
agregados bacterianos ou de estruturas coloidais.
Suponha que em um meio diluído, com composições aproximada-
mente constantes, ocorre uma transformação na forma:
Pn + M 
K
→ Pn +1
onde Pn é a espécie que cresce, M é a unidade fundamental de
formação do aglomerado e K é uma constante de velocidade, que
diz quão rapidamente a transformação pode ocorrer. Nesse caso, a
espécie Pn é formada de acordo com a seguinte equação:
dPn
= KMPn −1 − KMPn
dt
onde o termo diferencial representa o acúmulo da espécie de ta-
manho n, o primeiro termo do lado direito representa a velocidade
com que a espécie de tamanho n é formada a partir da espécie
de tamanho (n - 1) e o segundo termo do lado direito representa
a velocidade com que a espécie de tamanho n é consumida para
formar a espécie de tamanho (n + 1).
Para resolver a equação de balanço formada, é preciso reconhecer
primeiro que a espécie de tamanho 1 não pode ser formada a
partir de nenhuma outra espécie. Nesse caso,
dP1
= − KMP1
dt
Além disso, é preciso fornecer as condições de contorno do proble-
ma (nesse caso, condições iniciais). Normalmente, em problemas

práticos fornece-se uma quantidade conhecida da espécie funda-

mental (número de bactérias, espécies químicas que promovem a
reação etc.) e observa-se a evolução das quantidades das demais
espécies. Assim,
P1 (0 ) = P10 , Pn (0 ) = 0 , n ≥ 2
Para resolver as equações de balanço é conveniente dividi-las
pelo produto (KMP10), de maneira que as equações ficam na forma
mais simples:
P 
d n  dp
 P10  =  Pn −1  −  Pn  ⇒ n = pn −1 − pn , pn (0 ) = 0
    dτ
d (KMt )  P10   P10 
 P 
d 1  dp1
 P10  = − P1 ⇒ = − p1 , p1 (0 ) = 1
dτ
d (KMt ) P10
onde pn e τ são chamados respectivamente de concentração
adimensional da espécie n e tempo adimensional do processo. A
quantidade pn pode também ser interpretada como uma proba-
bilidade, já que ela representa a fração de aglomerado que tem
comprimento n, dentre todos os aglomerados possíveis formados
no sistema.
As equações podem ser resolvidas recursivamente a partir de n
= 1. Para a primeira equação,
p1 (t ) = exp (−τ )
Substituindo o valor de p1(t) no balanço de p2, chega-se a:
dp2
+ p2 = exp (−τ )
dt
cuja solução é:
p2 (t ) = τ exp (−τ )
Repetindo-se o procedimento para n = 3, 4, ...
τ2 τ3
p3 (t ) = exp (−τ ) p4 (t ) = exp (−τ )
2 3⋅ 2
τ n −1
pn (t ) = exp (−τ )
(n − 1)!
Comparando-se a equação anterior com a Equação (2.14), observa-
se que a solução do problema é a distribuição de Poisson deslocada
uma unidade para frente; ou seja,
pn (t ) = Poisson (n − 1;τ )
O deslocamento é por causa do início da contagem dos tamanhos
(n = 1), maior que o valor inicial válido para a distribuição de Poisson
(n = 0). É muito curioso observar que a curva de distribuição de ta-
manhos dos aglomerados se desloca com valor médio igual ao valor
do tempo adimensional (portanto, cresce sempre), que é o parâmetro
fundamental do processo de crescimento. A Figura 2.7 ilustra a evolu-
ção dos tamanhos dos aglomerados, à medida que o tempo passa.
111:5 . - - - - - - - - - - - - -- ----,
r-• r • Lll
• r - ::m
I
,. 11 .. r ~u
I ~ 110
11
tc.
..
I •'"'
"' ~ I!
~'"""·
.
Qlll
j Ill .:• \
r
~
!;; Dill
oro
. ."'"'
Ill
~' ·,. X
I
~
,•
'•
•..
\.,
D
Figura 2.7 - Evolução temporal da concentração de aglomerados

de tamanho n.
2.3. A Distribuição Hipergeométrica

Admita que num certo problema a probabilidade de sucesso (ou insu-
cesso) se modifique, à medida que os experimentos se sucedem. Esse é
o caso típico que ocorre quando a realização do experimento interfere
nos tamanhos das populações investigadas. Por exemplo, imagine um
saco onde são acondicionadas 10 bolinhas, sendo cinco delas pretas e
as cinco restantes, vermelhas. Qual a probabilidade de se retirar do saco

duas bolas pretas, se as bolas NÃO são devolvidas ao saco? Nesse caso,
embora a probabilidade de se retirar a primeira bola preta seja de 50%
(5 possibilidades dentre 10), a probabilidade de se retirar a segunda bola
preta cai para 44.44% (4 possibilidades dentre 9). Portanto, a probabili-
dade de serem retiradas duas bolas pretas em seguida é:
5 4 2 5 5
PPP = ⋅ = = 22.22% ≠ ⋅ = 25%
10 9 9 10 10
Vê-se, portanto, que toda vez que o procedimento de amostragem
ou realização do experimento modifica a natureza das populações ava-
liadas, esse efeito deve ser levado em consideração. (É por esse motivo
que as amostras devem ser tão pequenas e representativas da população
investigada quanto possível, quando o material amostrado modifica a
população investigada. É também por esse motivo que medidas expe-
rimentais não intrusivas e não destrutivas são preferíveis no ambiente
de laboratório.)
No caso mais geral, seja N o tamanho da população, m o tamanho da
amostra ou número de experimentos realizados, n o número de suces-
sos observado e p a probabilidade inicial de sucesso. Como no caso da
distribuição Binomial, a probabilidade de se obter n sucessos seguidos
pode ser dado na forma
PA1 = P (S )1 ...P (S )n P (I )n +1 ...P (I )n + ( m − n )
pN pN − 1 pN − (n − 1) (1 − p ) N (1 − p ) N − 1 (1 − p ) N − (m − n )
PA1 = ... ...
N N −1 N − (n − 1) N − n N − (n + 1) N − (n + (m − n ))
(2.16)
Repare que se a posição dos sucessos e insucessos for modificada na
Equação (2.16), a equação não muda, indicando que qualquer arranjo
que contenha o mesmo número de sucessos tem a mesma probabilidade
de ocorrer. Como o número de diferentes arranjos pode ser dado pela
Equação (2.4), a probabilidade de n sucessos ocorrerem pode ser dada
pelo produto da Equação (2.16) – probabilidade de um arranjo qualquer
de tamanho m que contém n sucessos – pela Equação (2.4) – número
de arranjos de tamanho m que contêm n sucessos. Fazendo-se essa
operação, chega-se a:
 Np   N − Np 
  
 n  m − n 
Hiper (n; N , m, p ) = (2.17)
N
 
m 
que é a curva de distribuição Hipergeométrica.
A distribuição Hipergeométrica é uma distribuição discreta univa-
riada e triparamétrica, pois descreve a variação de probabilidades de
uma única variável discreta, n, e depende de três parâmetros: N, que
caracteriza o tamanho do sistema investigado; m, que caracteriza o
tamanho da amostra; e p, que caracteriza o estado inicial da população.
Isso significa que três momentos da curva de distribuição podem ser
fixados independentemente pelo usuário, ficando os demais automati-
camente definidos pela forma da curva da Equação (2.17). Além disso,
não é difícil mostrar que:
(2.18)
e:
CJ,~ = mp (1- p )( NN - 1 -m) (2.19)
Parece também intuitivo e, portanto, desnecessário provar rigorosa-

mente, que a distribuição Hipergeométrica converge para a distribuição
Binomial, à medida que o tamanho N da população aumenta. Nesse caso, o
procedimento de amostragem não consegue mudar de forma significativa
o estado da população, independentemente do resultado obtido.
Exemplo 2.8 – Para o caso proposto originalmente, em que

há cinco bolas pretas e cinco bolas vermelhas inicialmen-
te no saco, N = 10 e p = 0.5. Se o tamanho da amostra é
m = 2, as probabilidades ficam:
5 4 2, 5 5 5 5 5 5 5 4 2
PPP = = PPV = = , PVP = = , PVV = =
10 9 9 10 9 18 10 9 18 10 9 9
Repare que, de fato, as probabilidades dos arranjos VP e PV

ocorrerem são as mesmas, como previsto pela Equação (2.16). Se
associarmos a condição de sucesso às bolas pretas, as probabili-
dades acima podem ser escritas como:
2 5 2
P2 = PPP = , P1 = PPV + PVP = , P0 = PVV =
9 9 9

Utilizando a Equação (2.17) para calcular as probabilidades de

sucesso, chega-se a:
 5   5   5!   5! 
     
0!5!   2!3!  1 ⋅10 2
P0 = Hiper (0;10, 2, 0.5 ) =    = 
 0 2
= =
10   10!  45 9
   
2  2!8! 
 5  5   5!   5! 
     
 1  1   1!4!  1!4!  5 ⋅ 5 5
P1 = Hiper (1;10, 2, 0.5 ) = = = =
10   10!  45 9
   
2  2!8! 
 5   5   5!   5! 
   
 2   0   2!3!   0!5!  10 ⋅1 2
P2 = Hiper (2;10, 2, 0.5 ) = = = =
10   10!  45 9
   
2  2!8! 
o que mostra a consistência da análise.
Exemplo 2.9 – Para o caso proposto originalmente, em que

50% das bolas são pretas no início do processo, associa-se a
essa cor o resultado bem sucedido. Então, para um tamanho
amostral constante e igual a m = 10, calcula-se a distribuição
de probabilidades de n sucessos para valores crescentes de N.
U..l
-\ :!II
• -·~ ~ -Ill
il ~'
....
I
:r.:
"C
d
:=; ..
~a.
1
!U
U.l
/•.. '
•
)I ~ .. !i r.
a
II , I ll
J\'u1noeru d~ buln~> ~n-e~m1 -1r
Figura 2.8 - Comparação das distribuições hipergeométricas

e binomial para diferentes tamanhos de população.
Os resultados são mostrados na Figura 2.8 e comparados à curva

binomial. Repare a rápida convergência para a curva binomial, à
medida que N aumenta.
2.4. A Distribuição Uniforme ou Retangular

Admita que num certo problema números reais são gerados aleato-
riamente e cobrem de forma uniforme o segmento de reta [a, b], de
tal maneira que qualquer subintervalo de comprimento inferior a (b
- a) contenha o mesmo número de pontos e, portanto, seja igualmente
provável. Nesse caso, obtém-se a distribuição Uniforme ou Retangular,
cuja definição é:
0, x<a
 1

Unif (x; a, b ) =  , a≤ x≤b (2.20)
 b − a
0, x>b
A distribuição Uniforme está ilustrada na Figura 2.9. A distribuição

Uniforme é uma distribuição contínua univariada e bi-paramétrica, pois
descreve a variação de probabilidades de uma única variável contínua, x,
e depende de dois parâmetros, a e b, que são os extremos do intervalo
real em que está definida. Isso significa que dois momentos da curva de
distribuição podem ser fixados independentemente pelo usuário, ficando
os demais automaticamente definidos pela forma da curva da Equação
(2.20). Além disso, não é difícil mostrar que:
11x == a+ b (2.21)
2
e:
.: _ (b - a)~ ~ (2.22)
Gx - -'--
12
Embora a distribuição Uniforme seja bastante simples, ela aparece
em uma variedade de problemas práticos, como por exemplo no arredon-
damento de erros. Seja a i-ésima casa decimal de um número real, que
se deseja arredondar. Se a (i + 1)-ésima casa decimal é inferior a cinco, a
i-ésima casa é mantida constante e as casas decimais menos significativas
são descartadas. Se a (i + 1)-ésima casa decimal é igual ou superior a
cinco, a i-ésima casa é incrementada de uma unidade, enquanto as casas
decimais menos significativas são descartadas. Por exemplo, 1.53453876
1.5 , 1.53453876 1.53 , 1.53453876 1.535

Unif(x; a,b)
I
b -a
a b X
Figura 2.9 - A Distribuição Uniforme.
A operação de arredondamento é muito importante porque não faz

sentido usar mais algarismos significativos que aqueles consistentes
com a precisão do equipamento usado para fazer a medida. Ao se ler
um número arredondado, não é possível dizer como as casas decimais
menos significativas estavam preenchidas, de maneira que é bastante
razoável supor que o erro de arredondamento, desconhecido, segue a
distribuição Uniforme no intervalo da casa decimal imediatamente menos
significativa. Por exemplo, nas operações definidas acima seriam, 1.5
[1.45, 1.55] , 1.53 [1.525, 1.535] , 1.535 [1.5345, 1.5355]
Essa argumentação torna possível implementar uma técnica compu-
tacional de geração de números aleatórios extremamente eficiente, que
é amplamente utilizada pela maior parte dos simuladores e ambientes
de programação. A técnica consiste em provocar o truncamento e o
conseqüente arredondamento de casas decimais no computador. Por
exemplo, se um número inteiro é dividido por um outro número inteiro,
o resultado pode ter um número infinito de casas decimais não nulas.
Se o computador tem precisão finita, parte do resultado é perdida para
sempre. Portanto, ao se multiplicar o resultado truncado pelo divisor,
obtém-se um número que não é necessariamente igual ao dividendo
original. Por exemplo, suponha que a precisão da nossa operação é de
duas casas decimais apenas. Nesse caso, (1/7) = 0.14 0.14 ⋅ 7 = 0.98
1 – 0.98 = 0.02
Vê-se que a operação 1– (1/7) resultou num resíduo de 0.02. Se os
números manipulados são suficientemente grandes, como na forma N1
– N2 (N1/N ), e se N1 e/ou N2 é gerado através de algum procedimento
2
aleatório, como por exemplo um número obtido da transformação do
horário em que o programa está rodando com precisão de décimo de
segundo na forma:
 MM ⋅ 600 + SS ⋅10 + D 
HH : MM : SS .D → N2 =   N3 = X 0 N3
 36000 
então é possível gerar números distribuídos no intervalo (0,1) de
maneira praticamente uniforme. (Na expressão acima, HH, MM, SS e
D representam respectivamente a hora, os minutos, os segundos e
os décimos de segundo. A transformação acima pode ser considerada
aleatória na suposição de que a operação pode ser realizada a qualquer
momento do dia, sem horário marcado. Não é conveniente introduzir
a hora HH na operação porque em geral o trabalho é realizado no
horário comercial, o que acabaria por introduzir significativo grau de
determinismo na operação. N3 é um número de referência, do qual o
número N2 < N3 pode ser considerado uma fração X0. No caso consi-
derado, N3 deveria ser o número 36000, que é o número de décimos
de segundo contidos em uma hora.) A operação entre parênteses
gera um número inicial no intervalo (0,1) chamado de semente. A
operação de truncamento pode ser então repetida de maneira iterati-
va, usando o resultado da iteração prévia como semente da próxima
iteração, na forma:
N3  N 
X k +1 = X k − Trunc  X k 3  = ( X k N 3 )mod (N 2 ) (2.23)
N2  N2 
O significado da Equação (2.23) é semelhante à operação de divisão
executada anteriormente com o número 7. O primeiro termo consiste
em gerar um número maior do que 1 com um certo número de casas
decimais, enquanto o segundo termo consiste em gerar o mesmo
número sem casas decimais. Dessa forma, o número resultante da
operação é um número entre 0 e 1, com parte inteira nula e número
arbitrário de casas decimais. Na Equação (2.23) Trunc representa a
operação de abandonar a parte não inteira do número resultante,
enquanto mod representa manter apenas a parte decimal da divisão
entre dois números. A seqüência de números gerada, então, não é
verdadeiramente aleatória, pois a repetição da semente inicial resul-
tará sempre na mesma seqüência de números. É a geração aleatória
da semente que garante de fato um certo grau de aleatoriedade da
seqüência de números. Por isso, a seqüência obtida é dita pseudo-
aleatória e é, para todos os fins práticos, uma seqüência de números
aleatórios excelente para simulação. Os exemplos abaixo ilustram
esses conceitos.

Exemplo 2.10 – As Figuras 2.10 e 2.11 mostram os primeiros

3600 números obtidos do procedimento recursivo implementado
computacionalmente, com X0 = 0.35312356.
X k +1 = 3 X k − Trunc (3 X k )
-
J$(1
JOti
e.
~ ::!~
~
'i :oo
~
(0;, 15(1
nt41
iW
Figura 2.10 - Distribuição dos pontos obtidos da recursão.
Figura 2.11 - Seqüência dos pontos obtidos da recursão.
As Figuras 2.10 e 2.11 mostram que, a despeito da regra deter-

minística que deu origem aos pontos, não parece haver qualquer
padrão de formação entre os pontos, que se aproximam de fato de
uma distribuição Uniforme. O fator de correlação calculado entre
pontos deslocados de uma iteração é inferior a 0.3, indicando
que há realmente muito pouca ordem no sistema. A Figura 2.12
ilustra claramente o procedimento determinístico utilizado para

gerar os pontos da distribuição.
•••
•••
• •••
"' •••
0..1
•••••• O.l •••

XA
... ... ••
Figura 2.12 - Regra de recursão utilizada.
As Figuras 2.10 a 2.12 são impressionantes porque indicam que

um excelente grau de aparente aleatoriedade já pode ser obtido
com valores muito pequenos de N1, N2 e N3. Modificando esses
valores de maneira apropriada é possível obter seqüências pseu-
do-aleatórias onde a componente determinística é virtualmente
inexistente.
A forma extremamente simples com que é possível gerar números
aleatórios no computador faz com que a distribuição Uniforme seja utili-
zada como padrão de comparação e geração de números aleatórios para
outras funções de densidade de probabilidade de variáveis contínuas. Para
que isso seja possível, dois conjuntos de dados aleatórios xi e yi podem
ser chamados de seqüências aleatórias equivalentes se:
X· y
J P o(x)d\' = J (<} (y)cry
--
,.
2
A Equação (2.24) define seqüências aleatórias equivalentes como

aquelas que geram probabilidades acumuladas iguais para diferentes
(2.24)
distribuições de probabilidade. Como o procedimento definido pela

Equação (2.23) resulta na distribuição Uniforme no intervalo (0,1), a
Equação (2.24) pode ser escrita como: (2.25)

de maneira que o número xi gerado pelo computador, que segue a dis-

tribuição Uniforme no intervalo (0,1), pode ser transformado em um
número aleatório que segue qualquer distribuição ℘2(y), bastando para
isso encontrar o valor yi que faz com que a probabilidade acumulada da
segunda distribuição seja igual ao valor xi gerado pelo computador. Este
procedimento permite manipular praticamente qualquer distribuição es-
tatística por via computacional. Por isso, esses procedimentos são muito
explorados durante o desenvolvimento e implementação de técnicas de
Monte Carlo, como descrito no Capítulo 5 deste volume.
Exemplo 2.11 – No Exemplo 1.13 mostrou-se que a probabilidade

acumulada da distribuição Triangular tem a forma:
0. ySO
2y' , OSySO.S
o.s+(4y- 2)- (2/ - o.s), O.SSySI
I. y;:: I
Usando a regra de transformação definida pela Equação (2.25)

conclui-se que:
0, xi ≤ 0

r-
 xi ,
 2
0 ≤ xi ≤ 0.5
r=
yi = 

1 − 1 −
(xi + 1) , 0.5 ≤ xi ≤ 1
 2

1, xi ≥ 1

....
!tiCJ
""'
~• ~ oJ a• •·• u a7 u •• 1.0
Lnrtn-alos
Figura 2.13 - Distribuição Triangular obtida a partir dos pontos gerados

computacionalmente no Exemplo 2.10, com distribuição próxima da uniforme.
As Figuras 2.13 e 2.14 ilustram a qualidade da transformação obtida

quando os pontos gerados no Exemplo 2.10 são usados para gerar a
distribuição Triangular. Os resultados podem ser considerados exce-
lentes. Repare como os pontos estão de fato mais concentrados ao
redor do valor 0.5, como esperado. No entanto, do mesmo jeito que foi
observado no exemplo anterior, os números não constituem de fato
uma seqüência aleatória, dado que a repetição da semente resultaria
na repetição da seqüência de números obtidos. A Figura 2.15 ilustra a
regra de transformação utilizada para geração da seqüência pseudo-
aleatória. Repare que, a despeito da existência de claríssima regra
determinística de obtenção dos números, é virtualmente impossível
observar isso a partir da seqüência de valores obtidos.
...
'-"
'<•
""s• ·~
•
>• •••
•••
•.• '-"-----"-''--==------=--''--'--"-'
(I -100 8(10 1200 1600 1{10() 2400 1800 JZOO J600
~(I OU"I'O da lf('J'a("i\0 - k
Figura 2.14 - Seqüência dos pontos obtidos da recursão para

a distribuição Triangular.

1.0
...
,. •••
"' ...
0.2
0.0
••• u 0.4
x,
••• ••• 1.0
Figura 2.15 - Regra de recursão utilizada.
2.5. A Distribuição Exponencial

Admita que num certo problema é possível associar uma velocidade
média de perda de alguma propriedade específica do sistema com a
quantidade dessa propriedade. Por exemplo, suponha que a velocidade
de desaparecimento de indivíduos em uma população seja proporcional
ao número total de indivíduos que constituem a população. Esse é o caso
típico que ocorre quando não há qualquer termo que contribua com o
aumento do número de indivíduos da população, como no caso de um
lote de partículas de catalisador que é colocado no interior de um rea-
tor químico ou num lote de partículas radioativas que é utilizado como
fonte de energia em um determinado processo radiativo. Nesse caso, um
problema bastante importante para o projeto do processo é saber qual
a probabilidade de se encontrar um certo número de partículas “vivas”
ou ativas após um determinado período de tempo. Para que o problema
possa ser respondido, é conveniente associar ao problema a seguinte
equação de balanço:
dN
= − KN , N (0 ) = N 0 (2.26)
dt
onde K é a constante de velocidade do problema e N é o número de
indivíduos ativos ou “vivos” da população. Como no Exemplo 2.7, é
conveniente dividir a Equação (2.26) por K e N0, resultando em:

 N 
d  dp
 0  = − N 
N , ⇒ = − p , p (0 ) = 1 (2.27)
  dτ
d (Kt ) N
 0
cuja solução é:
p (τ ) = exp (−τ ) (2.28)

que é a chamada forma absoluta da distribuição Exponencial. Para fins
de generalização da forma da distribuição Exponencial, já que nem sem-
pre é possível determinar a priori o valor da constante de velocidade do
problema, é mais comum encontrá-la na forma:
, (2.29)
onde T é o valor médio da distribuição ou o tempo médio de vida dos

indivíduos.
Na forma da Equação (2.29), a distribuição Exponencial é uma distri-
buição contínua univariada e uniparamétrica, pois descreve a variação
de probabilidades de uma única variável contínua, t, e depende de um
único parâmetro, K ou T. Isso significa que apenas um dos momentos da
curva de distribuição pode ser fixado independentemente pelo usuário,
ficando os demais automaticamente definidos pela forma da curva da
Equação (2.29). Além disso, não é difícil mostrar que:
(2.30)
o que também mostra que o índice de polidispersão é constante e igual

a 2 para a distribuição Exponencial, indicando um grau de espalhamento
relativo em relação à média constante; ou seja, à medida que o valor
médio cresce, o grau de espalhamento cresce na mesma proporção.
A distribuição Exponencial é muito usada para descrever problemas
práticos de engenharia, como aqueles que envolvem o cálculo do tempo
de vida útil de peças e equipamentos. Nesse sentido, a distribuição Ex-
ponencial é um membro particular de uma família muito mais ampla de
distribuições de probabilidade que podem ser chamadas genericamente
de distribuições de tempo de vida. Essas distribuições poderiam ser
descritas genericamente a partir da Equação (2.27) como:

d ln (℘) ∞
= − K (t ) , ∫℘(t )dt = 1 (2.31)
dt 0
onde K(t) é uma constante de velocidade que pode variar com o tempo,
ao invés de admitir sempre o mesmo valor, como considerado anterior-
mente. Para que se compreenda como essa variação pode ser importante
em certos problemas, as estatísticas médicas comprovam que o índice de
mortalidade infantil diminui consideravelmente, à medida que a idade da
criança aumenta. Logo, a constante de velocidade K(t) é alta para idades
pequenas e cai continuamente, à medida que a criança vai ficando mais
velha. O mesmo fenômeno ocorre com máquinas e equipamentos. À
medida que o tempo passa, para valores de tempo pequenos, os riscos
de falha diminuem progressivamente, até que um valor mínimo é atin-
gido. A partir de certa idade, o risco de falha dos equipamentos começa
a aumentar progressivamente, em função do envelhecimento de peças e
demais componentes. Há, portanto, incentivos para se analisar o compor-
tamento de distribuições de tempo de vida obtidas a partir da Equação
(2.31), para diferentes formas da constante de velocidade K(t).
Antes de analisar essa família de funções, é conveniente introduzir
um linguajar característico da área de análise de riscos. Chamemos
inicialmente de S(t) à probabilidade de que o indivíduo sobreviva ao
tempo t1. Nesse caso:
S(l >t1 ) = 1 -l~c (t,) = P(t > 11 )= p(t}dt

-f
,, (2.32)
Nesse caso, a curva de densidade de probabilidades pode ser descrita

como:
JO(t)= dP,.. (t) = - dS (t)
dt dt (2.33)
Definamos como risco a função:

℘(t )
h (t ) = (2.34)
S (t )
que é uma medida relativa da velocidade de decaimento da população.
Substituindo a Equação (2.34) na Equação (2.33), chega-se a:
d ln (S (t ))
= −h (t ) (2.35)
dt

Como S(0) = 1, a Equação (2.35) pode ser integrada na forma:
(2.36)
Logo, combinando as Equações (2.31), (2.34) e (2.35), chega-se a:
) (2.37)
A distribuição Exponencial da Equação (2.29) pode ser obtida fazen-

do-se h(t)=K(t). Outras formas convenientes de distribuições de tempo
de vida são apresentadas a seguir.
2.5.1. A Distribuição de Gompertz
h (t ) = exp [α + β t ], −∞ < α < ∞ , β ≥ 0 (2.38)
 exp (β t ) − 1 
S (t ) = exp − exp (α )  (2.39)
 β 
 exp (β t ) − 1 
℘(t ) = Gomp (t ; α , β ) = exp (α + β t )exp exp (α )  
 β 
(2.40)
A distribuição de Gompertz é um modelo bi-paramétrico muito usado
para descrever a taxa de mortalidade da população adulta. Observe que o
risco aumenta exponencialmente com o aumento da idade do indivíduo.
A restrição imposta sobre β é necessária para garantir a existência da
integral da função de densidade de probabilidades.

2.5.2. A Distribuição de Weibull
h (t ) = α t β , α > 0 , β > −1 (2.41)
 t β +1 
S (t ) = exp −α  (2.42)
 β + 1 
 t β +1 
℘(t ) = Weibull (t ; α , β ) = α t exp −α β
 (2.43)
 β + 1 
A distribuição de Weibull é um modelo bi-paramétrico muito usado
para descrever o tempo de vida útil de equipamentos, peças e compo-
nentes eletrônicos. Observe que o risco aumenta como uma potência do
tempo de vida do indivíduo. As restrições impostas sobre α e β são neces-
sárias para garantir a existência da integral da função de densidade de
probabilidades. Para a distribuição de Weibull é possível mostrar que:
 1 
− 
 α   β +1   1 
µT =   Γ + 1 (2.44)
 β +1   β +1 
 2 
− 
 α   β +1    2  2 1 
σ T2 =   Γ
  + 1  − Γ  + 1  (2.45)
 β +1    β + 1   β + 1 
onde Γ(x) é a função gama, definida como:
∞
Γ (x ) = ∫ z x −1e − z dz (2.46)
0
Uma curiosidade sobre a função gama é que:

Γ (x + 1) = xΓ (x ) (2.47)
que resulta no valor Γ (x + 1) = x! quando x é inteiro. Por isso, a função
gama é chamada usualmente de função fatorial generalizada.
2.5.3. A Distribuição Gama

Quando a constante de velocidade da Equação (2.31) se aproxima assin-
toticamente de um valor limite na forma:

d℘  βt −α  α > 0 β > 0 C > 0

= −C  ℘, , , (2.48)
dt  t 
então,
β α +1 α − β t
℘(t ) = Gama (t ; α , β ) = t e (2.49)
Γ (α + 1)
que é a conhecida distribuição Gama. Repare que a constante de ve-
locidade indica que a ocorrência de falhas para tempos muito curtos é
virtualmente inexistente, havendo convergência para uma constante de
velocidade aproximadamente estável, à medida que o tempo passa. A
distribuição Gama é um modelo bi-paramétrico (a constante C é calculada
de forma a garantir que a integral de ℘(t) seja igual a 1) também muito
usado para descrever o tempo de vida útil de equipamentos, peças e
componentes eletrônicos. As restrições impostas sobre α e β são neces-
sárias para garantir a existência da integral da função de densidade de
probabilidades. Para a distribuição Gama é possível mostrar que:
Jlr =(a+ 1) {3 (2.50)
CJi,:;;: (a+I)
{3~ (2.51)
Exemplo 2.12 – Uma curva de distribuição discreta, análoga à

curva de distribuição Exponencial contínua, pode ser desenvolvida
para sistemas em crescimento, como no Exemplo 2.7. Nesse caso,
suponha a seguinte equação de balanço:
= K p Pn −1 − (K p + K t )Pn , Pn (0 ) = 0 , n > 1
dPn
dt
= F − (K p + K t )P1 , P1 (0 ) = 0
dP1
dt
onde Kp e Kt são respectivamente as constantes de velocidade para
o crescimento e desaparecimento da espécie em crescimento Pn.
F é uma fonte de espécies de tamanho mínimo. Como nos casos
anteriores, é conveniente dividir as equações de balanço pela
constante global de velocidade (Kp+Kt) na forma:

dPn
= qPn −1 − Pn , Pn (0 ) = 0 , n > 1
dτ
dP1
= f − P1 , P1 (0 ) = 0
ô
d
onde τ = (Kp+Kt)t é o tempo adimensional, q = Kp/(Kp+Kt) é a
probabilidade de crescimento e f = F/(Kp+Kt) é a fonte adimen-
sional. A solução do problema fica então na forma:
 n −1 τ i e −τ 
Pn = q n −1
f 1 − ∑ 
 i = 0 i ! 
Quando o tempo é muito grande, o termo exponencial faz com
que a parte dinâmica da solução vá a zero, resultando na seguinte
solução estacionária:
Pn = q n −1 f
Para que essa solução possa ser interpretada como uma proba-
bilidade, é necessário que a soma de todos os valores possíveis
seja igual a 1. Nesse caso,
∞ ∞
1
∑ Pn = f ∑ q n−1 = f
n =1 n =1 (1 − q )
Portanto, definindo:
Pn
pn = = (1 − q )q n −1
f
(1 − q )
que é a chamada distribuição de Flory, análoga discreta da curva
exponencial, pois:
 1− q     1   
pn = (1 − q )exp {(n − 1)ln (q )}=   exp − ln    n 
 q     q   
que pode ser comparada à Equação (2.29). Portanto, a curva expo-
nencial discreta aparece como solução estacionária dos problemas
de crescimento de espécies, quando a espécie mínima é gerada
continuamente e quando há desaparecimento simultâneo das
espécies em crescimento no meio.

2.6. A Distribuição Normal

Admita que na Equação (2.31), K(t) é uma função linear de t. Nesse
caso,
d ln (℘) t
=−
dt α
(2.52)
 t2 
℘(t ) = C (α )exp  − 
 2α 
onde C(α) é uma constante de integração que garante que a integração
da curva de densidade sobre o domínio de t é igual a 1. A Equação (2.52)
é a chamada distribuição Gaussiana ou distribuição Normal. Na forma
apresentada na Equação (2.52), a curva de distribuição Normal pode ser
interpretada como uma distribuição de tempos de vida em que a proba-
bilidade de falhas aumenta linearmente com o aumento da vida útil do
material. O parâmetro α controla a intensidade dessa variação.
Na realidade, a curva de distribuição Normal ou Gaussiana apresenta
utilidade muito maior que a sugerida somente pela interpretação da dis-
tribuição de tempos de vida. Em primeiro lugar, a curva normal pode ser
estendida e utilizada para todo o domínio real da variável contínua t, já
que ela é simétrica em relação ao eixo ℘(t). Logo, ela pode ser associada
a um número muito maior de problemas físicos de interesse prático,
onde a variável aleatória pode assumir valores positivos ou negativos.
Em segundo lugar, a variável t pode ser escalada convenientemente na
forma:
1  1  t − µ 2 
℘(t ) = Normal (t ; µT , σ T ) = exp  −  T
 
σT 2π  2  σT 
 ,
−∞ < t < ∞ (2.53)
ganhando a forma de uma distribuição contínua univariada bi-paramé-
trica. (O escalonamento realizado consiste em fazer com que o ponto de
máximo da curva normal coincida com o valor médio.) A forma bi-para-
métrica é extremamente prática porque os parâmetros da curva normal
coincidem com os valores da média e do desvio padrão (ou variância)
usados anteriormente para caracterizar o posicionamento e o grau de
espalhamento da distribuição de probabilidades. Dessa forma, apenas a
caracterização da média e da variância da distribuição é suficiente para
a utilização direta da curva de distribuição Normal. Como nos demais
casos, fixadas a média e a variância (ou desvio padrão), os demais mo-

mentos da curva normal estão automaticamente definidos pela forma

da Equação (1.26). Em terceiro lugar, por ser simétrica e monomodal
(apresenta apenas um máximo), a média, a moda e a mediana da curva
normal são coincidentes.
Além disso, a distribuição Normal é matematicamente tratável; isto
é, muitos resultados analíticos só podem ser explicitados para esta dis-
tribuição. Por esse motivo, as distribuições t de Student, χ2 (chi-quadrado)
e F de Fisher puderam ser desenvolvidas para a análise dos resultados
obtidos a partir de variáveis com distribuição Normal. Essas três distri-
buições e os testes estatísticos relacionados a elas serão discutidos no
Capítulo 3 deste volume.
Por todas essas características, a curva normal foi adotada como
modelo adequado de distribuição de variáveis aleatórias em um infinito
número de aplicações. Isso é particularmente verdadeiro em problemas
que lidam com flutuações aleatórias causadas por imprecisões e erros de
medidas. Em problemas de medida, quando o instrumento de medição
está bem calibrado e funcionando adequadamente (o que não é neces-
sariamente verdade!), parece razoável admitir que:
a) Os erros possam ser positivos ou negativos, distribuindo-se aleato-
riamente em torno do valor zero de forma simétrica. Dessa forma,
parece razoável admitir que as medidas se distribuam aleatoriamente
e de forma simétrica em torno do valor médio;
b) Quanto maiores os erros em valor absoluto, menos provável é a sua
ocorrência.
Ambas as condições são naturalmente satisfeitas pela curva normal,
que ainda exige apenas a caracterização de dois parâmetros naturalmente
utilizados para a caracterização de densidades de probabilidade – a média
e a variância. Isso faz da curva normal um bom modelo probabilístico
para boa parte das medidas experimentais. Atente para o fato de que isso
NÃO significa dizer que os erros de medição seguem necessariamente
o modelo normal.
No entanto, um resultado extremamente importante, conhecido como
o Teorema do Limite Central, faz da curva normal a “rainha” de todas
as curvas de distribuição de probabilidades.
Teorema do Limite Central – Sejam x1, x2, x3, ..., xN, números ge-
rados por distribuições de probabilidades quaisquer, com médias
µXi e variância σ2Xi. Seja ainda a soma SN definida como:

N
S N = ∑ xi
i =1
Então ℘(SN) se aproxima de uma curva normal quando N é sufi-

cientemente grande.
O Teorema do Limite Central, que não será provado aqui por falta de
espaço, diz que, independentemente das distribuições de probabilidades
que deram origem às flutuações aleatórias fundamentais, resultados
obtidos da soma de muitos eventos aleatórios apresentam distribuição
aproximadamente normal. Isso significa que eventos complexos, gerados
a partir da soma de pequenas flutuações aleatórias, apresentam distri-
buição de probabilidades próxima da normal. Talvez seja essa a razão
principal que faz com que a distribuição Normal encontre uso generali-
zado como modelo probabilístico da distribuição de erros de medida.
A despeito da força do Teorema do Limite Central, deve-se evitar a
falsa impressão de que toda distribuição de erros ou de que toda distribui-
ção de probabilidades contínua é normal. Tal associação é absolutamente
equivocada e poucos exemplos bastam para mostrar que a curva normal
não é uma panacéia para todos os problemas e aplicações. Por exemplo,
a distribuição Normal apresenta um grande defeito para sua utilização
em grande número de problemas, que é o fato das flutuações aleatórias
ocorrerem no intervalo (-∞,+∞). Obviamente algumas variáveis não
podem ser infinitamente grandes e outras não podem jamais assumir
valores negativos. Por exemplo, se a variável estudada for a altura de
pessoas numa população, não parece razoável acreditar que seja possível
encontrar pessoas com mais de três metros de altura, por menor que
essa probabilidade seja. Da mesma forma, não parece razoável acreditar
que seja possível encontrar pessoas com altura negativa, por menor que
seja essa probabilidade. Por isso, o modelo de distribuição Normal de
probabilidades deve ser encarado como um modelo conveniente para
uso, por todas as razões descritas anteriormente. Isso não significa que
a distribuição real de probabilidades de qualquer problema físico possa
ou deva ser descrita necessariamente pela curva normal, como algumas
pessoas teimam em pensar e afirmar.
Exemplo 2.13 – Para a seqüência pseudo-aleatória do Exemplo

2.10, foram calculadas médias de seqüências de 3, 5, 10 e 50
pontos respectivamente. 3600 valores médios foram tomados em
cada caso para construir os histogramas de distribuição. As curvas

normais foram traçadas usando-se como valor médio a média

aritmética dos 3600 pontos e como variância os desvios médios
quadráticos dos pontos em relação à média, na forma:
31!00 lQIO
I~ !(~-pzf
Jl - t=l • Q'~ = _.1=("'------
,.z- 3600 3600
Os resultados estão apresentados na Figura 2.16 abaixo.
--
}:
•
-- •
._. ....... u ....... ...
Figura 2.16 - Distribuição da média aritmética de seqüências de

(a) 3, (b) 5, (c) 10 e (d) 50 pontos obtidos da distribuição
pseudo-aleatória do Exemplo 2.10.
Repare como a distribuição Uniforme converge rapidamente para

a distribuição Normal. Repare ainda que a distribuição Normal vai
se estreitando em torno do valor médio, à medida que o número
de pontos usados para cálculo da média vai aumentando.
2.7. A Distribuição Log-Normal

Como discutido anteriormente, o uso da curva normal pode apresentar
sérios inconvenientes práticos quando a variável analisada não for ne-
gativa. Esse é o caso típico da descrição de distribuições de tamanho,
massa etc., comuns em problemas de engenharia. Nesse caso, é comum
admitir que a distribuição do logaritmo da variável considerada, que
pode assumir valores positivos ou negativos, segue uma distribuição

Normal. Esse modelo dá origem à curva de distribuição de probabilidade

log-normal, na forma:
1
jJ(.r) = LogNonn {x:a, IJ) = --;.-
tJ .J2Tr
e:~Cp(-.!.('"
2
(.r)-a )
tJ
(2.54)
onde:
J1.1 =exp a +
{f)
( 2 (2.55)
a; =exp(2a + p~ {exp(IJ:)- I)) (2.56)
A distribuição Log-Normal é uma distribuição contínua, univariada e

bi-paramétrica. Dessa forma, é possível definir de forma independen-
te os dois primeiros momentos da curva de distribuição, ficando os
demais determinados automaticamente pela forma da Equação (2.54).
2.8. Extensão de Conceitos para Sistemas

Multidimensionais
Apesar de todo o estudo realizado até aqui ter sido baseado em dis-
tribuições de probabilidade de uma única variável aleatória, todos os
conceitos podem ser estendidos convenientemente para distribuições
de múltiplas variáveis. Modelos de histogramas de probabilidade de
múltiplas variáveis discretas e funções densidade de probabilidade de
múltiplas variáveis contínuas serão usados muitas vezes nas próximas
seções. Em particular, esses modelos são muito úteis porque permitem
considerar de uma vez só e de forma integrada as múltiplas influências
que as diversas variáveis aleatórias exercem umas sobre as outras.
Deve ser observado que a extensão dos conceitos de probabilidades
para sistemas multidimensionais nada tem de arbitrário. Por exemplo, é
comum que jogos de azar façam usos de múltiplos dados simultaneamen-
te, de forma que cada evento (jogar os dados) resulta simultaneamente em
vários valores aleatórios (os resultados em cada um dos dados). Contudo,
esse exemplo pode ser convenientemente estudado por técnicas de uma
única variável, admitindo-se que cada resultado aleatório é obtido inde-
pendentemente dos demais (ou seja, que cada dado resulta em um valor
que em nada está relacionado aos valores obtidos nos demais dados).
Em outras palavras, seja uma densidade de probabilidades de múltiplas
variáveis aleatórias simultâneas na forma:

℘(x1 , x2 ,..., xNX ) =℘(x ) (2.57)

Então, no caso considerado,
℘(x1 , x2 ,..., xNX ) =℘(x1 ) ℘(x2 ) ... ℘(xNX ) (2.58)
Isso nem sempre é verdade. Um exemplo típico diz respeito à distri-
buição de pesos e tamanhos em uma população de pessoas. O evento,
nesse caso, pode ser a mensuração do peso e da altura (variáveis ale-
atórias) de pessoas escolhidas de forma aleatória em uma certa região
geográfica. Obviamente as pessoas mais altas tendem a apresentar maior
peso. Portanto, a medida de uma das variáveis (altura) certamente está
correlacionada à medida da outra (peso); ou seja, a distribuição de proba-
bilidades da variável peso depende do valor especificado para a variável
altura. Portanto, a Equação (2.58) não pode ser utilizada para representar
o problema e o sistema bi-dimensional não pode ser compreendido a
partir das respectivas distribuições unidimensionais. A consideração de
outras características pessoais pode justificar o aumento da dimensão
do problema (cor da pele, tipo de cabelo, cor dos olhos etc.) e ajudam a
compreender como as distribuições de probabilidade multidimensionais
podem ser complexas e mal caracterizadas pelas respectivas distribuições
unidimensionais. (Pense, por exemplo, na proporção de indivíduos de
cabelo louro numa população indígena.)
É importante observar que, se a Equação (2.57) representa uma dis-
tribuição de probabilidades, então:
∫ ∫ ... ∫ ℘(x , x ,..., x ) dx

x1 x2 xNX
1 2 NX NX ...dx2 dx1 = ∫℘(x )dx = 1
x
(2.59)
De forma similar, as médias e covariâncias podem ser obtidas na

forma:
J
IJ, = xA!J(x)dx
X
(2.60)
a~= J(~ ~pj ){xJ ~ t~J )$J(x)dx (2.61)

_.,
onde a Equação (2.60) define os valores médios para cada uma das va-
riáveis do problema e a Equação (2.61) define as diversas covariâncias
existentes entre os diversos pares de variáveis do problema. É então
conveniente definir em notação vetorial:

2 2 2
Xi p.l O"n 0"12 aiNX
2 2 2
x2 lh 0"21 0"22 a2NX
X= ,p= , Vx = (2.62)
2 2 2
XNX p.NX O"NXI aNX2 aNXNX
onde x é o vetor de variáveis aleatórias, µ é o vetor de médias e VX é a ma-
triz de covariâncias. Se a matriz de covariâncias é diagonal na forma:
2
au 0 ... 0
0 2
0"22 ... 0
Vx= (2.63)
2
0 0 aNXNX
as variáveis flutuam de forma independente umas das outras e o sistema
é formado por variáveis independentes. Caso contrário, as flutuações
experimentadas por algumas variáveis influenciam as flutuações das
demais. A extensão das Equações (2.58-2.63) para sistemas discretos é
imediata, bastando para isso substituir os termos integrais por somas
sobre o domínio discreto.
Propriedade 2.1 – A matriz de covariâncias VX é simétrica.

A Propriedade 2.1, muito importante para aplicações práticas, como
discutido ao longo dos próximos capítulos, decorre da seguinte igual-
dade:
σ ij2 = ∫ (xi − µi )(x j − µ j )℘(x )dx = ∫ (x j − µ j )(xi − µi )℘(x )dx = σ 2ji
x x
(2.64)
Propriedade 2.2 – A matriz de covariâncias VX é positiva definida.
A Propriedade 2.2 é também muito importante para aplicações práticas,
como discutido ao longo dos próximos capítulos. Para que se compreenda
essa propriedade, é interessante observar o comportamento do sistema
bi-dimensional na forma:
 σ 12 σ 122   x1 
x VX x = [x1 x2 ] 2
T
2 =
σ
 21 σ x
2  2 (2.65)
σ 12 x12 + σ 122 x1 x2 + σ 21
2
x1 x2 + σ 22 x22
A Propriedade 2.1 permite então que se escreva a Equação (2.65) na

forma:

xT VX x = σ 12 x12 + 2 σ 122 x1 x2 + σ 22 x22 (2.66)
Contudo, a Equação (1.51) permite escrever que:

−σ 1σ 2 ≤ σ 122 ≤ σ 1σ 2 (2.67)
de maneira que a Equação (2.66) pode ser também escrita como:
σ 12 x12 − 2σ 1σ 2 Ix1 II x2 I+ σ 22 x22 ≤ xT VX x ≤ σ 12 x12 + 2σ 1σ 2 Ix1 II x2 I+ σ 22 x22

(2.68)
ou ainda:
(σ Ix I− σ Ix I) ≤ xT VX x ≤ (σ 1 Ix1 I+ σ 2 Ix2 I)
2 2
1 1 2 2
(2.69)
o que mostra que o produto vetorial definido na Equação (2.65) resulta
sempre em um número positivo, sendo identicamente nulo no caso em
que x é o vetor nulo. Esse resultado pode ser estendido de forma abso-
lutamente análoga para sistemas de dimensões maiores do que 2. Por
isso, a matriz de covariâncias VX é positiva definida e
xT VX x ≥ 0, ∀ x ≠ 0 (2.70)
Exemplo 2.14 – Considere a distribuição Exponencial bidimen-

sional apresentada abaixo:
℘(x1 , x2 ) = Ae(− x1 − 2 x2 )
definida nos intervalos 0 ≤ x1 ≤ ∞ e 0 ≤ x2 ≤ ∞, onde A é uma
constante. Para definir o valor de A de forma apropriada, lem-
bremos que:
∞∞
∫ ∫℘(x , x )dx dx
0 0
1 2 2 1 =1
Logo,
∞∞ ∞ ∞
(− x1 − 2 x2 ) (− x1 ) (−2 x2 )
∫ ∫ Ae
0 0
dx2 dx1 = A∫ e
0
∫
0
e dx2 dx1 =

∞ ∞
( − 2 x2 ) 
(− x1 )  e A  e(− x1 ) 
∞ ∞
A (− x1 ) A
A∫ e   dx1 = ∫ e dx1 =   = =1
0  −2  0 20 2  −1  0 2
Portanto, A = 2.
Para calcular os valores médios de x1 e x2, faz-se:
∞∞ ∞ ∞
(− x1 − 2 x2 ) (− x1 ) (−2 x2 )
µ1 = ∫ ∫ 2 x1e dx2 dx1 = 2 ∫ x1e ∫e dx2 dx1 =
0 0 0 0
∞ ∞
∞
(− x1 )  e
(−2 x2 )  ∞
(− x1 )
 (x1 + 1)e(− x1 ) 
2 ∫ x1e   dx1 = ∫ x1e dx1 =   =1
0  −2 0 0  − 1  0
=I J2x2e<-~-zx2)dx2~ = 2Je<-~) Ix2e(-2x2)dx2~ =

00 00 00 00
~2
0 0 0 0
( I)
∞
∞  x + 1 e(−2 x2 )  ∞
 (− x1 )  ∞
1 1 e 1
2 ∫ e(− x1 )  2  dx = (− x1 )
2
2 ∫0
e dx =   =
 −2  1 1
2  −1  0 2
 0
0
Para calcular as variâncias, faz-se:

oa oa
u~ = JJ2 (~ -1 Ye(-x., - 2
2 ~ =2J(x1 -1 Ye(-x.,) Je(- Xz) dx2 ~ =
Xz) dx
2
0 0 0 0
∞
∞
2 (− x1 )  e
2 ∫ (x1 − 1) e
(−2 x2 )  ∞
∞  x12 + 1 e(− x1 )  ( )
 dx1 = ∫ (x1 − 1) e dx1 = 
2 (− x1 )
  =1
0  −2  0 0  −1 
0
∞∞ 2 ∞ ∞ 2
 1  1
σ = ∫ ∫ 2  x 2 −  e(− x1 − 2 x2 )dx2 dx1 = 2 ∫ e(− x1 ) ∫  x 2 −  e(−2 x2 )dx2 dx1 =
2
2
0 0 
2 0 0
2
( I)
∞
∞  x 2 + 1 e(−2 x2 )  ∞
 (− x1 )  ∞
1 1 e 1
2 ∫ e( 1 )  4  dx = e( 1 )dx1 = 
2
∫
− −
x x
 =
 −2  1
40 4  −1  0 4
 0
0

∞∞
 1
σ = ∫ ∫ 2 (x1 − 1) x2 −  e(− x1 − 2 x2 )dx2 dx1 =
2
12
0 0  2
∞ ∞
 1  (−2 x2 )
2 ∫ (x1 − 1)e (− x1 )
∫0  2 2  e dx2 dx1 =
x −
0
∞
∞
 x2 e(−2 x2 ) 
2 ∫ (x1 − 1)e (− x1 )
  dx1 = 0
0  − 2 0
de maneira que as variáveis x1 e x2 flutuam de forma independen-

te. O vetor de média e a matriz de covariâncias tomam, portanto
a forma:
p- -[l],v.-[1
o.s OJ :r.- 0 0.25
A curva de distribuição de probabilidades estudada é representada

na Figura 2.17.
Figura 2.17 - Densidade de probabilidades do Exemplo 2.14.

2.9. A Distribuição Multinomial

Um exemplo muito importante de distribuição Multidimensional discreta
é a conhecida distribuição multinomial, que consiste na generalização
da distribuição Binomial, apresentada na Seção 2.1, quando três ou mais
resultados ou atributos podem ser obtidos de um experimento discre-
to. Admite-se que um experimento é repetido m vezes e que se deseja
conhecer a probabilidade de se obterem ni resultados do tipo i, i = 1
... NR, onde NR é o número de resultados possíveis. Admite-se que as
probabilidades pi de se obter o resultado i são conhecidas. Repetindo-se
o procedimento apresentado na Seção 2.1, obtém-se:
Multinom( n1 , n2 ,..., nNR ; m, p1 , p2 ,..., pNR ) =
(C m
n1 Cnm2 − n1 ...CnmNR− n1 ...− nNR−1 )(p n1
1
nNR
p2n2 ... pNR ) (2.71)
onde Cij é a combinação de i fatores j a j, como definido na Equação
(2.4).
Exemplo 2.15 – Considere a distribuição Multinomial para duas

variáveis. Nesse caso:
 (m − n1 )!  p n1 p n2
Multinom(n1 , n2 ; m, p1 , p2 ) = 
m!
 n !(m − n )! n !(m − n − n )!  1 2 ( )
 1 1 2 1 2 
Como apenas dois resultados são possíveis,
m = n1 + n2 e p1 + p2 = 1
Portanto,
m!
p1n1 (1 − p1 ) 1
m−n
Multinom(n1 , n2 ; m, p1 , p2 ) =
n1 !(m − n1 )!
que é a própria distribuição Binomial. Esse resultado já poderia ser

esperado, dado que a distribuição Binomial é exatamente aquela
em que apenas dois resultados são possíveis.
2.10. A Distribuição Normal Multidimensional

Dentre os muitos modelos multidimensionais plausíveis que podem ser
formulados para descrever flutuações de dados experimentais, não há
qualquer dúvida que o mais importante deles é a generalização da curva

normal para um conjunto simultâneo de muitas variáveis. As proprie-

dades da curva normal de várias variáveis aleatórias são as mesmas já
apresentadas anteriormente para a curva normal de uma única variável
aleatória na Seção 2.6. No formato multivariável, a função normal ganha
a forma:
(2.72)
Propriedade 2.3 – A curva normal multidimensional tem o compor-
tamento normal ao longo de qualquer direção do espaço.
Para provar a Propriedade 2.3, é conveniente admitir que:
x = tz − z 0 (2.73)
onde t é uma variável e z e z0 são vetores especificados e constantes. A

Equação (2.73) define uma reta no espaço de dimensão NX. Então, o termo
entre colchetes na Equação (2.72) pode ser escrito como:
(tz-z 0 -J.L f V~1 (tz-z 0 -J.L )=
[ zTV~ z ]t
1 2
-2[ (z +J.l f V~ Z ]t+[ (z +J.1 f V~ (z +J.1 )]
0
1
0
1
0
(2.74)
A Equação (2.74) pode ser rescrita como α2 (t – β)2 + γ , onde:
α 2 =  z T VX-1 z  (2.75)
[ (zo + J.1 )T V~lz J

p= [ zTV~1 z J (2.76)
y = [ ( Zo + J.Ll y~I ( Zo + J.1) -a 2 p2 J (2.77)
Portanto, a menos de uma constante de normalização que depende

do valor de γ, definida para que a integral da Equação (2.72) satisfaça a
condição da Equação (2.59), a variável t tem distribuição Normal, com
média igual a µt = β e variância igual a σt2=α–2 . A Propriedade 2.3
mostra, portanto, que a Equação (2.72) é uma generalização fantástica
da curva normal, que mantém o comportamento normal da distribuição
qualquer que seja a combinação de variáveis considerada (direções do

espaço). No caso particular em que , a variável t flutua em

torno do valor zero.
Exemplo 2.16 – Considere a distribuição Normal para duas

variáveis, com os seguintes vetor de médias e matriz de cova-
riâncias:
1 1 
VX =  
1 2 
A Figura 2.18 ilustra a forma da curva de densidade normal para
as duas variáveis.
0·~
~ ..
•. !
""='
...~
~~
oJ.
~
i)-1
...
...
Figura 2.18 - Distribuição Normal Bivariada do Exemplo 2.16.
!1.1!6
iJ'.U!i
I}.!J.I
....
i l.tJI.lo
11\l_ll:
!),Ill
ll,lltl [
. ;a: ·I II ~
Figura 2.19 - Corte normal da Figura 2.18 ao longo da direção x2 = x1 – 1.

Observe a forma típica da curva normal, como um chapéu pousado

sobre uma superfície plana. Observe também que a curva pode estar
deslocada do centro de coordenadas e se distribuir ao longo de eixos
que não são necessariamente os eixos de coordenadas usuais.
A Figura 2.19 ilustra um corte da curva normal ao longo da
direção:
1 1 
x=t  + ;
1 0 
ou seja, x2 = x1 – 1 . E, finalmente, observe o comportamento tipi-
camente normal observado ao longo da direção analisada.
2.11. Conclusões
Foram apresentados no Capítulo 2 vários modelos probabilísticos dis-
tintos, que serão utilizados nos capítulos seguintes deste volume e nos
volumes seguintes desta série de publicações para resolver problemas
práticos de análise. Cada um dos modelos apresentados admite certas
hipóteses idealizadas sobre o sistema considerado. Essas hipóteses
fundamentais não devem ser desprezadas durante a análise dos dados.
Finalmente, os conceitos associados a distribuições de uma única variável
foram estendidos para várias variáveis aleatórias, sujeitas a flutuações
conjuntas.

Como já discutido ao final do Capítulo 1, a literatura dedicada à apre-
sentação de modelos probabilísticos e distribuições de probabilidades é
muito vasta. Não cabe aqui, portanto, uma revisão dessa área. O leitor
interessado encontrará centenas de livros que abordam esses assuntos
em qualquer biblioteca dedicada à Matemática e à Engenharia.
Uma enorme gama de diferentes distribuições de probabilidade, a
análise matemática das propriedades dessas distribuições e uma prova
formal da validade do Teorema do Limite Central são apresentadas em:
Probability and Statistical Inference. Volume 1: Probability, J.G. Kalbfleis-
ch, Springer-Verlag, Nova York, 1985.
Probability and Statistics. Theory and Applications, G. Blom, Springer-
Verlag, New York, 1989.


1. Você acha que a curva normal pode descrever satisfatoriamente uma
curva de distribuição de tamanhos de partículas muito finas? E de
partículas grandes? Justifique.
2. Discuta se uma curva normal pode ser usada como modelo de proba-
bilidades para descrever as flutuações de altura numa população de
indivíduos. Que modificações poderiam ser introduzidas no modelo
para torná-lo mais crível e representativo da realidade.
3. Utilizando uma planilha eletrônica ou um programa de computador:
a) Gere uma seqüência de 2000 pontos pseudo-aleatórios (começando
com a semente 0.50) na forma:
Xk+1 = 11Xk – Trunc (11 Xk)
Yk = Xk+1
Repare que X e Y identificam seqüências distintas de pontos deslo-
cados no tempo.
b) Gere uma seqüência de 2000 pontos pseudo-aleatórios (começando
Zk+1 = 11Zk – Trunc (11 Zk)
Wk = Zk+1
Repare que Z e W identificam seqüências distintas de pontos deslo-
cados no tempo, diferentes das duas seqüências X e Y anteriores.
c) Usando os dados anteriores, construa histogramas de probabilidade
como a freqüência com que os pontos aparecem nos dez intervalos
definidos pelos valores [0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0].
Comente os resultados obtidos.
d) Calcule os fatores de correlação entre as variáveis X, Y, Z e W. Comente
os resultados obtidos.
e) Finalmente responda – os dados obtidos são aleatórios ou determi-
nísticos?
4. Utilizando a seqüência de valores anteriormente obtidos para a
variável Z, e admitindo que essa seqüência de valores segue a distri-
buição uniforme, transforme essa seqüência de dados em outra que
segue:
a) A distribuição exponencial;
b) A distribuição normal.

5. Admita que o modelo normal multidimensional da Equação (2.72) é

válido. Nesse caso, comente os resultados obtidos quando:
a) A matriz de covariâncias é diagonal, como na Equação (2.63). Qual a
forma particular da distribuição nesse caso? Como o resultado pode
ser interpretado?
b) O vetor de médias definido na Equação (2.62) e a matriz de covari-
âncias diagonal e definida na Equação (2.63) são compostos por NX
valores iguais. Qual a forma particular da distribuição nesse caso?
Como o resultado pode ser interpretado?

O Problema Amostral:
3 Inferências e
Comparações
No Capítulo 2 foram apresentadas diversas distribuições de probabili-

dade que representam diferentes problemas em que variáveis aleatórias
estão envolvidas. No entanto, esses modelos probabilísticos dependem
de parâmetros que, na maioria absoluta das vezes, não podem ser de-
terminados a priori. Por exemplo, na distribuição Binomial descrita pela
Equação (2.5), quem é o parâmetro p? E na distribuição Normal descrita
pela Equação (2.53), quem são os parâmetros µ (média) e σ2 (variância)?
Repare que uma pessoa desavisada poderia dizer que a média µ e a va-
riância σ2 são os valores calculados pela definição de média da Equação
(1.71) e de variância da Equação (1.72). No entanto, para que a média e
a variância sejam calculadas a partir das definições introduzidas pelas
Equações (1.71) e (1.72), é necessário que a distribuição de probabilidades
normal da Equação (2.53) esteja perfeitamente definida, o que significa
que µ e σ2 devem ser conhecidos. Essa contradição indica claramente
que os parâmetros da distribuição têm que ser obtidos de outra forma,
que não a partir das definições introduzidas nos Capítulos 1 e 2. Se o
problema analisado tiver caráter multivariável, como aqueles abordados
nas Seções 2.8 a 2.10, o número de parâmetros da distribuição pode ser
muito grande. Portanto, é necessário desenvolver técnicas que permitam
inferir os parâmetros que descrevem os modelos probabilísticos, para que
eles, de fato, possam ser úteis para a análise de problemas reais.
Mas por que é tão importante que se conheça a distribuição de pro-
babilidades que está associada a um determinado problema? A resposta
dessa questão é que, se as curvas de distribuição de probabilidades que
descrevem as flutuações aleatórias observadas em certos problemas
O Problema Amostral: Inferências e Comparações 127

são conhecidas, então é possível comparar os problemas e discriminar

aqueles resultados que devem ser (e os que não devem ser) esperados.
O primeiro caso constitui o conjunto de procedimentos chamados de
testes de hipóteses. A pergunta típica que gera esse conjunto de proce-
dimentos é: “Será que uma certa propriedade ou conjuntos de resultados
obtidos das diferentes curvas de distribuição analisadas podem ser con-
siderados iguais (diferentes)?” Como será visto nos próximos capítulos,
o analista é chamado todo o tempo a opinar sobre essa questão, para
saber se um processo ou conjunto de resultados permanece constante
ou está mudando. O segundo caso constitui o conjunto de problemas
chamados de determinação dos intervalos de confiança. A pergunta
típica que gera esse conjunto de procedimentos é: “Qual é o conjunto
de resultados mais provável?”, ou ainda “Que resultados podem ser
descartados com certo grau de confiança?” Como veremos nos capítulos
seguintes, respostas para essas questões permitem racionalizar sobre a
qualidade dos resultados obtidos experimentalmente e sobre o conteúdo
de informação disponível para análise. Além disso, as respostas dessas
perguntas quase sempre geram procedimentos de projeto e rotinas de
decisão, como visto no Exemplo 2.3.
Para resolver as questões propostas anteriormente, é necessário
amostrar o sistema; isto é, tomar medidas representativas do problema
estocástico considerada. O objeto fundamental deste capítulo é discu-
tir como medidas experimentais podem ajudar o analista a definir as
distribuições de probabilidade que descrevem as flutuações observadas
e, dessa forma, permitir a comparação de resultados e a tomada de
decisão.
3.1. Definição de Intervalo de Confiança

Para que seja possível tomar decisões, é preciso decidir que resultados
podem ser considerados normais (ou seja, têm grande probabilidade
de ocorrer) e que resultados devem ser considerados anormais (ou seja,
que têm probabilidade tão baixa de ocorrer que podem ser descartados
na grande maioria das vezes). Para tanto, define-se como o intervalo
de p% de confiança ao conjunto de resultados que, segundo a curva de
distribuição de probabilidades considerada, concentra p% dos resultados
admissíveis. Portanto, são descartados os (100−p%) resultados menos
prováveis, sendo (100−p%)/2 desses resultados localizados na extremi-
dade inferior e (100−p%)/2 desses resultados localizados na extremidade
superior. A Figura 3.1 ilustra esse conceito.

jJ(x)
,<m,.!:l!
2
·'
Figura 3.1 - Ilustração gráfica do conceito de intervalo de confiança.
Portanto, se (x1, x2) são os limites de confiança com p% de probabi-

lidade de uma certa variável x, descrita por uma curva de densidade de
probabilidades ℘(x), então:
(3.1)
( ) = "'J. p ()
P.c x,
1- p l+ p
x dr =l - - - = - - (3.2)
$
- . 2 2
Os exemplos a seguir ilustram o procedimento de análise proposto.
Exemplo 3.1 – Admita que dois catalisadores industriais distin-

tos seguem diferentes padrões de decaimento de atividade. No
primeiro caso, sabe-se que a distribuição de tempo de vida segue
a curva exponencial típica, na forma:
 t 
exp  − 
℘1 (t ) =  10 
10
onde t é dado em horas. No segundo caso, sabe-se que a distribui-
ção de tempo de vida segue uma curva gama, na forma:
220 19 −2t
℘2 (t ) = t e
Γ (20 )
Comparando-se as médias e variâncias das duas distribuições,

obtém-se no primeiro caso — Equações (2.29-30).
plT =IO e UJ1-
' =I 00

e no segundo — Equações (2.50-51).

P "l.r =10 e
Portanto, vê-se que, embora os dois catalisadores apresentem
tempos médios de vida iguais (10h), o tempo de vida do segundo
catalisador é muito mais uniforme que o tempo de vida do pri-
meiro catalisador. Dessa maneira, parece muito mais fácil decidir
sobre o momento de troca do catalisador no processo industrial
no segundo caso que no primeiro. Para ilustrar esse efeito, no
primeiro caso o intervalo de confiança de 95% (p = 0.95, (1 – p)/2
= 0.025, (1 + p)/2 = 0.975) para o tempo de vida do catalisador
é: (0.25, 36.89)195% ; enquanto para o segundo é: (6.1, 14.8)295%
Repare que se o nível de confiança exigido for maior e igual a 98%
(p = 0.98, (1 – p)/2 = 0.01, (1 + p)/2 = 0.99), então os intervalos
para cada catalisador são, respectivamente: (0.10, 46.09)198% e (5.54,
15.92)298% os quais são intervalos de confiança mais largos devido
ao aumento no nível de confiança exigido. A Figura 3.2 ilustra
graficamente as duas distribuições de probabilidade analisadas.
<tll (J
<
ll N '
J"'\
I \
...
l
J \
tfl.DI'i I J \
s \
""s::: \
0 u.o~ ·
~
ltD:! •
til. I)
0 10 l (J JO -10 .5(Ji
t
Figura 3.2 - Comparação entre as duas distribuições de tempo
de vida dos catalisadores.
Exemplo 3.2 – Freqüentemente é necessário calcular integrais de

curvas de densidade de probabilidade, para cômputo de médias,
variâncias, intervalos de confiança etc. Na maior parte dos proble-
mas, no entanto, soluções analíticas não estão disponíveis. Temos
portanto que calcular as integrais numericamente.

Muitas técnicas numéricas foram desenvolvidas para o cômputo

de integrais e não se pretende aqui fazer uma revisão dessas
técnicas. Contudo, uma técnica de integração muito simples está
ilustrada na Figura (1.22) e nas Equações (1.66-69). É a chamada
técnica do retângulo para integração, definida como:
xi +1 + xi x = x + i − 1 ∆x
xi = i mín ( )
2 ,
x2
NR
I= ∫ F (x ) dx ≈ ∑ F (x )∆x
i =1
i
NR =
x2 − x1
x1 ∆x
que consiste fundamentalmente em aproximar a integral pela
soma das áreas dos retângulos que têm base igual a ∆x (precisão
da integração) e altura igual ao valor da função no ponto médio
do intervalo ∆x considerado. Portanto, o cálculo das integrais ne-
cessárias para a análise dos dados não deve ser considerada uma
dificuldade intransponível. Muito pelo contrário, essas integrais
podem ser calculadas até com certa facilidade.
Por exemplo, seja a curva exponencial do Exemplo 3.1, dada por:
 t 
exp  − 
℘(t ) =  10 
10
cujo valor médio é conhecido e igual a 10. Numericamente, o
valor médio pode ser obtido na forma:
ti +1 + ti ti = 0 + (i − 1)∆t 100 − 0
ti = NR =
2 , ∆t
A Tabela 3.1 ilustra a qualidade dos resultados obtidos para dife-
rentes valores de ∆t. Observe que a convergência dos resultados é
bastante rápida, à medida que a precisão da integração aumenta
(∆t diminui). Um resíduo final é observado porque a integral é

computada até o limite máximo de 100, que serve como referência

para o limite superior infinito.
Tabela 3.1 - Convergência do procedimento de integração

numérica usado para o cálculo da média da curva Expon(t; 10).
∆t 100 10 5 1 0.5 0.1 0.05
NR 1 10 20 100 200 1000 2000
I 3.369 10.377 10.097 9.999 9.996 9.995 9.995
Para fins de tomada de decisão, todo resultado observado que não

estiver contido no intervalo de confiança pode ser considerado anormal
(improvável), de maneira que ele indica a mudança de comportamento
do sistema estudado ou o aparecimento de um novo fato, até então
desconsiderado. Deve ser enfatizado que, ao se definir o intervalo de
confiança com p% de probabilidade, define-se implicitamente que as
decisões estarão erradas (100-p)% das vezes. Portanto, pode-se dizer
que o estabelecimento do nível de confiança é equivalente à definição
da fração de vezes que um erro pode ser tolerado. Por exemplo, ao se
dizer que uma variável aleatória está num certo intervalo 95% das vezes,
diz-se simultaneamente que ela não está naquele intervalo 5% das vezes
por razões meramente aleatórias. Portanto, ao se dizer que a observação
de um valor fora do intervalo de confiança indica uma mudança, erra-se
5% das vezes.
Erroneamente costuma-se acreditar que, quanto maior o nível de
confiança exigido, menor o intervalo de confiança. Preste atenção que o
resultado correto é exatamente o oposto: quanto maior o nível de con-
fiança exigido, mais largo o intervalo de confiança. Isso ocorre porque é
necessário incluir maior quantidade de resultados possíveis, à medida
que aumenta o grau de confiança exigido. Isso cria um problema para o
processo de tomada de decisão muito interessante:
a) Para aumentar a confiança e diminuir o risco de erro no processo de
tomada de decisão, aumenta-se o nível de confiança exigido;
b) À medida que se aumenta o nível de confiança, aumenta-se simulta-
neamente o conjunto de resultados possíveis e diminui-se o número
de resultados considerados pouco prováveis, tornando o processo
de tomada de decisão sobre o que é possível e o que não é possível
mais difícil.
Por exemplo, considere os resultados obtidos no Exemplo 3.1 com a
distribuição gama. Suponha ainda que foi observada perda de atividade
para uma pastilha de catalisador após 6 horas de operação. Será que
algo mudou no processo? No limite de 95% de confiança (portanto a

probabilidade de tomar uma decisão errada é de 5% ou 1 em 20) é pos-

sível dizer que algo estranho ocorreu, pois o tempo de vida de 6 horas
é pouco provável. No entanto, no limite de 98% de confiança (portanto
a probabilidade de tomar uma decisão errada é de 2% ou 1 em 50) não
é possível dizer que ocorreu mudança no processo, já que 6 horas é um
valor provável. No limite de 100% de confiança, qualquer valor seria
possível! Veja que fica muito mais difícil detectar falhas quando o nível
de confiança exigido sobe, embora as decisões sejam sempre tomadas
com mais segurança.
Pelas razões discutidas acima, não é possível generalizar nem reco-
mendar de forma absoluta um nível ótimo de confiança para determi-
nação dos intervalos de confiança e tomada de decisão. Cada processo e
cada analista definem o intervalo de confiança adequado para a análise
executada. Se uma eventual decisão equivocada não envolve riscos nem
custos muito grandes, pode-se trabalhar com níveis de confiança mais
baixos e aumentar a velocidade do processo de detecção de falhas e/ou
mudanças do processo (essa é uma estratégia arrojada). Se uma eventual
decisão equivocada pode comprometer seriamente a segurança e/ou a
economia do processo, deve-se trabalhar com níveis de confiança mais
altos, sabendo-se que essa estratégia certamente provocará atrasos no
processo de tomada de decisão (essa é uma estratégia conservadora).
Os níveis típicos de confiança utilizados para tomadas de decisão são os
níveis de 90%, 95%, 98% e 99%, com utilização muito mais freqüente
dos níveis de confiança de 95% e 98%.
Exemplo 3.3 – Conforme discutido na seção anterior, a curva

normal é muito utilizada para representação de erros de medida.
Portanto, é muito conveniente determinar os limites típicos de
confiança para variáveis que apresentam flutuações normalmente
distribuídas.
A Tabela A.1 encaminhada no Apêndice apresenta as probabili-
dades da curva normal, parametrizada na forma
Nonnal (u;O. l], u=(X-Jlx)

ax
onde u representa a variável x normalizada. A Tabela A.1 só con-
tém as probabilidades acumuladas de valores positivos de u, uma
vez que a curva normal é simétrica e

Para ler a Tabela A.1, considere a linha 1.0 e a coluna 0.05, onde
se encontra o número 0.8531. Nesse caso,
p..1(' ( 1.05) = 0.8531
l'.c ( -1.05) = 1-0.8531 = 0. 1469
Usando a Tabela A.1, para obter o intervalo de confiança de 90%,

procura-se o limite inferior onde PAC(u1) = 0.05 e o limite superior
onde PAC(u2) = 0.95. Segundo a Tabela A.1, u2 ≈ 1.65 (PAC(1.65) =
0.9505). Pela simetria da curva normal, conclui-se que u1 ≈ -1.65
(PAC(-1.65) = 1 – 09505 =0.0495). Logo, os limites de 90% de con-
fiança de uma variável distribuída normalmente são:
x1 = Jlx -1 .65<1x < x < Jlx +I 65<1x = x,
x1 = Jlx -1.96<1,. < x < Jl·x + 1.96(1.1• = x,
X1 = Jl x - 2 .33(1X <X< Jlx + 2.330'.r =X 1
(PAC(-2.58) = 1 – 09951 = 0.0049). Logo, os limites de 99% de
confiança de uma variável distribuída normalmente são:
X1 = Jlx - 2 .58(1X < X < Jl.\' + 2.58(1X = X 2
Esses limites de confiança serão muito utilizados para análise de

dados ao longo das seções e capítulos posteriores.

3.2. O Problema de Amostragem

Os exemplos da seção anterior mostram que, uma vez conhecida a dis-
tribuição de probabilidades que governa um certo problema estocástico,
muitas informações úteis e procedimentos de tomada de decisão podem
ser construídos. No entanto, a situação real é muito distinta da situação
considerada até aqui, pois quase nunca é possível saber a priori qual é
a distribuição de probabilidades que governa um fenômeno. Pior ainda,
mesmo quando a forma da função de distribuição é conhecida, ainda
assim os parâmetros que caracterizam a distribuição de probabilida-
des em geral não são conhecidos. Para medir grandezas físicas, como
temperatura, é possível construir equipamentos de medição, como um
termômetro por exemplo. Infelizmente, não há equipamentos que pos-
sam ser conectados aos problemas físicos para determinar as curvas de
distribuição de probabilidades dos diferentes problemas. Como proceder
então? A resposta é: EXPERIMENTANDO!
A Equação (1.4), reproduzida abaixo, utilizada para definir a proba-
bilidade de um evento em um problema discreto, mostra que é possível
construir um histograma de probabilidades em um problema discreto a
partir da repetição do experimento um número suficientemente grande
de vezes. Mas o que é um número suficientemente grande de vezes?
 
 
f
pi = f →∞  NR i
lim  = lim  fi  (1.4)
  NT →∞  NT 
 ∑ fj
i

 j =1 
Exemplo 3.4 – Uma moeda é jogada para o alto várias vezes e a

fração de vezes em que se obtém o resultado Cara é lançada no
gráfico da Figura 3.3.
~'Ill .."
",., f.;j
~
...I ..~
Figura 3.3 - Fração de vezes em que se obtém o resultado Cara

no experimento da moeda para várias simulações diferentes.

Os experimentos foram realizados no computador, usando-se a

seguinte função para geração de números aleatórios com dis-
tribuição uniforme: Xk+1 = 11Xk – Trunc(11 Xk) com sementes
X1=0.40634930 e X2=0.75832446. A seguinte regra foi usada
para decidir sobre o resultado da simulação: Xk < 0.5 é Coroa e
Xk > 0.5 é Cara. Podem ser observados grandes desvios do valor
nominal, mesmo quando o número de experimentos é bastante
grande. Portanto, o infinito pode estar realmente longe!!!! Isso
indica de forma clara uma vez mais que não é realista acreditar
que as distribuições de probabilidade possam ser construídas
unicamente da medida de dados experimentais, já que um número
de repetições extremamente elevado pode ser necessário.
Exemplo 3.5 – Uma forma conveniente de gerar curvas de probabi-

lidade acumulada em problemas contínuos a partir da experimen-
tação é admitir uma vez mais a validade da regra de integração
por retângulos. Nesse caso, admitindo-se que vários valores foram
medidos e foram organizados de forma crescente:
x1 ≤ x2 ≤ x3 ... ≤ xN–1 ≤ xN
pode-se admitir que cada um desses valores limita um interva-
lo de igual probabilidade, dado que foram esses os intervalos
amostrados pela repetição do experimento. Repare que essa ar-
gumentação é extremamente questionável, dado que a repetição
do procedimento de medida, de forma geral, não resultará na
mesma seqüência de valores. No entanto, se essa argumentação
é aceita, então:
I
P..c (X , )= N +l
onde o denominador (N+1) designa o número de intervalos con-

tínuos definidos pelos N pontos amostrados. Se a mesma função
de geração de números aleatórios definida no Exemplo 3.4 e as
mesmas sementes são usadas para gerar os pontos experimen-
tais, obtêm-se os resultados apresentados na Figura 3.4. Deve ser
observado como as curvas de densidade acumulada são diferentes
nos diferentes procedimentos de amostragem, mesmo quando
40 pontos experimentais distintos são amostrados. Isso indica
uma vez mais que não é realista acreditar que as distribuições
de probabilidade possam ser construídas unicamente da medida

de dados experimentais, já que um número de repetições extre-

mamente elevado pode ser necessário.
1.0
~ .. 8
tllti
t::r 0
t:
~
"'·"'' • :'o!L'IT~"III.:' I • N· , 0
0 ..! - N=J,,
~i.."llli."II L~
4), :
• So.."111.:11k I - N- U
a Sanml~ ~ - N- 41)
Figura 3.4 - Probabilidade acumulada de pontos gerados pelo gerador de

pontos pseudo-aleatórios no Exemplo 3.3, admitindo-se que os intervalos são
igualmente prováveis.
Portanto, verifica-se uma vez mais que o infinito pode estar

realmente longe!
Os Exemplos 3.4 e 3.5 mostram que, mesmo em problemas muito

simples, o número de repetições experimentais necessárias para se
construir um histograma ou uma curva de densidade de probabilidades
com precisão pode ser muito grande. Na maior parte dos problemas de
interesse da engenharia e das ciências básicas, não é possível realizar
tantos experimentos por causa do tempo e do custo necessário para a
experimentação. Dessa forma, o analista tem que conviver com muitas
incertezas a respeito da distribuição real de probabilidades que pode ser
associada a um problema físico. Por isso, muito freqüentemente hipóteses
são formuladas a respeito de como as curvas de distribuição de probabi-
lidade regulam a flutuação de grandezas físicas reais, como mostrado no
Capítulo 2. Conseqüentemente, dificuldades adicionais podem aparecer
durante o processo de tomada de decisão, já que algumas medidas flutu-
am aleatoriamente e não se conhece com suficiente precisão a curva de
distribuição de probabilidades que governa o problema e uma vez que
as hipóteses formuladas não são necessariamente verdadeiras.
Nesse contexto, o uso de modelos de distribuição de probabilidades,
como aqueles apresentados no Capítulo 2, é bastante conveniente, pois
reduz a busca da distribuição de probabilidades à busca de uns poucos
parâmetros que são necessários para descrevê-los. Infelizmente, no

entanto, na grande maioria das vezes os modelos são escolhidos sem

grande fundamentação teórica ou experimental e muito pouca atenção
tem sido dada na literatura técnica às conseqüências práticas que podem
resultar de uma escolha mal feita do modelo de distribuição de probabi-
lidades. Por isso, há de se ter cuidado na hora de escolher o modelo mais
adequado para descrever as flutuações observadas. (Testes de aderência
serão formulados neste e nos próximos capítulos para ratificar ou não
o modelo de distribuição de probabilidades utilizado para descrever os
fenômenos físicos. Como veremos, essa escolha é fundamental para a
correta formulação dos problemas de estimação de parâmetros e plane-
jamento experimental.)
3.1.1. Médias e Variâncias Amostrais

Como mostrado no Capítulo 2, na maior parte dos modelos analíticos de
distribuições de probabilidades é possível fazer uma associação direta
entre os parâmetros do modelo e os valores da média e da variância.
Como esses valores são extremamente importantes para caracterizar
em torno de que valores e de quanto flutuam os dados experimentais,
parece claro que o problema fundamental de ajuste da maior parte
dos modelos probabilísticos, e em particular da curva normal, é a de-
terminação da média e da variância a partir dos dados experimentais
amostrados. Portanto, admitamos a princípio que um certo conjunto de
valores amostrais x1, x2, ..., xN foi obtido a partir da repetição de um certo
experimento aleatório. A questão fundamental então é: como obter µX
e σ2X a partir desse conjunto de dados amostrados?
De acordo com as Equações (1.7) e (1.71), reproduzidas abaixo, o
valor médio pode ser obtido a partir do histograma ou da densidade de
probabilidades como:
...• (1.7)
Jlx T
= xao(x)dr
•,...
(1.71)
No entanto, de acordo com a discussão dos parágrafos anteriores,

não se conhecem as distribuições reais de probabilidade do problema,
mas apenas um conjunto de dados amostrados. Como conciliar então a
realidade e os objetivos pretendidos? Para isso, formulemos a seguinte
hipótese:

Hipótese Fundamental 1.1 – A Hipótese do Experimento Bem-

Feito
Admita que cada valor experimental pode ser obtido de forma
semelhante, seguindo procedimentos idênticos de experimenta-
ção e sem vícios na execução dos experimentos. Assim, admita
que as flutuações observadas encerram a realidade da natureza
experimental do problema e não são influenciadas por erros ou
vícios cometidos pelo analista. Nesse caso, cada dado representa
igualmente a grandeza experimental desconhecida, em torno da
qual as observações experimentais flutuam. Portanto, cada obser-
vação experimental pode ser considerada igualmente provável
e a cada uma das observações x1, x2, ..., xN pode ser associada a
mesma probabilidade pi = 1/N de que este seja o melhor valor
para representar a medida física real.
Se a hipótese do experimento bem-feito é aceita, então, por analogia

direta com a Equação (1.7), é possível escrever:
N
N
1
∑N
xi
X = ∑ pi xi = ∑   xi = i = 1
(3.3)
i =1 i =1  N  N
onde X é a chamada média amostral do conjunto de dados. Antes que

se seja tentado a confundir X com µX, é conveniente perceber os resul-
tados apresentados no exemplo abaixo.
Exemplo 3.6 – Nas Tabelas 3.2 e 3.3 apresentam-se as médias amostrais

calculadas para os problemas analisados nos Exemplos 3.4 e 3.5.
Tabela 3.2 - Médias amostrais obtidas no Exemplo 3.4

N Semente X
1 0.500
10
2 0.400
1 0.600
20
2 0.450
1 0.500
40
2 0.425
1 0.538
80
2 0.438
1 0.513
160
2 0.506
∞ - 0.500

Tabela 3.3 - Médias amostrais obtidas no Exemplo 3.5

N Semente X
1 0.518
10
2 0.483
1 0.559
20
2 0.422
1 0.512
40
2 0.488
1 0.547
80
2 0.516
1 0.521
160
2 0.513
∞ - 0.500
Observe que a média amostral flutua de experimento para expe-
rimento em torno da média verdadeira, igual a 0.500 em ambos
os casos. A média amostral, portanto, não deve ser confundida
com a média real da distribuição de probabilidades amostrada,
que o analista a princípio desconhece.
O Exemplo 3.6 mostra claramente que a média amostral X flutua

e, por isso, não deve ser confundida com a média verdadeira µX da
distribuição. (Se houver dúvidas a esse respeito, lembre que o valor
médio do experimento dos dados é 3.5, como mostrado no Exemplo
1.4. No entanto, parece perfeitamente normal jogar o dado três vezes
e obter o número 1 três vezes seguidas, resultando na média amostral
X =1.) Mais ainda, se a média amostral flutua de experimento para
experimento (nesse caso o experimento consiste em tomar amostras de
tamanho N), ela é também uma variável aleatória, assim como os dados
amostrados xi. Portanto, a média amostral X deve ser encarada como
uma variável aleatória que flutua em torno de certo valor médio e com
certa variância, que devem a princípio ser caracterizados, assim como
a distribuição de probabilidades que descreve as flutuações de X . Mas
certamente a conseqüência mais importante dessa discussão é que não
devemos ter esperanças de obter o valor real da média µX, a não ser
que tenhamos a distribuição real de probabilidades do problema, o que,
segundo a discussão apresentada na seção anterior, de maneira geral
não é possível. Dessa forma, se tivermos que obter informações sobre o
problema a partir da experimentação (amostrando), nunca saberemos
qual é o valor verdadeiro da média µX.
Embora a discussão anterior pareça um pouco frustrante, ela coloca
a perspectiva verdadeira que o experimentador deve ter em relação
aos dados obtidos a partir da observação experimental. Não apenas os

dados flutuam, em função dos diversos erros experimentais apresen-

tados nas seções iniciais, como também os valores obtidos a partir da
manipulação desses dados, como a média amostral, também flutuam.
Dessa forma, o experimentador tem que aprender a conviver com essas
incertezas e a caracterizar as flutuações com que convive. Em particular,
para o procedimento de cálculo da média amostral é possível escrever
as seguintes propriedades:
Propriedade 3.1 – Se os experimentos xi, i=1... N são todos realiza-

dos em condições idênticas e flutuam em torno da média verdadeira
µX, a média amostral X também flutua em torno do valor médio
verdadeiro µX.
(3.4)
Repare que a Propriedade 3.1 – Equação (3.4) – dá o alento de garantir

que, embora o valor da média amostral não possa ser confundido com o
valor da média real, normalmente o valor da média amostral é igual ao
valor da média real. (Observe como a propriedade de linearidade da média
foi útil para escrever a Equação (3.4).) Isso significa que, se o experimento
usado para obtenção da média amostral for repetido infinitas vezes, na
média o experimento resultará na obtenção da média real. No entanto, na
prática o experimento será realizado UMA ÚNICA VEZ, para uma amostra
de tamanho N. Por isso, a Propriedade 3.1 não garante a obtenção do
valor médio verdadeiro para um conjunto finito de experimentos, mas
garante a consistência do procedimento experimental usado. Podemos
ao menos garantir que a média amostral flutua em torno do valor médio
verdadeiro. No entanto, como ambos xi e X flutuam ao redor da mesma
média verdadeira µX, qual seria então a utilidade de se calcular a média
amostral? A Propriedade 3.2 responde a essa pergunta.
Propriedade 3.2 – Se as medidas experimentais xi, i=1, ... ,N são

medidas independentes (σ2X , X = 0, i ≠ j) realizadas em condições
i j
idênticas e flutuam todas em torno da mesma média verdadeira µX
com variância σ2X, então a média amostral X flutua em torno do valor
médio verdadeiro µX com variância igual a σ X2 = σ X2 N . I

,.
.L.x, '
~ -Jl = E '-''""-'- - , - - =
N X N
,,, ,. N cr.
' u ,:;.
"'"' a· - "'a· --
1 '' ' _ . ,
N : L...JL x1 .)'1
, ...) Jool
-
J ',.
;{ :t ~ x,
, .,
N ];~ - ·
-N
(3.5)
A Propriedade 3.2 – Equação (3.5) – é extremamente importante
porque ela mostra de forma inequívoca que a variância da média amos-
tral é inversamente proporcional ao tamanho da amostra considerada.
Logo, quanto maior o tamanho N da amostra a partir da qual foi obtido
o valor da média amostral, menor o nível de incerteza desse valor. As-
sim, a grande utilidade do cálculo do valor amostral médio é a redução
do conteúdo de incerteza sobre o valor da média real µX. (Observe que
o Exemplo 2.13 ilustra bem esse efeito de redução da incerteza com o
aumento de N.) É possível inclusive planejar o tamanho da amostra para
que se tenha um nível especificado de flutuação no valor da média amos-
tral, se uma avaliação da variância experimental de uma única medida é
conhecida. No entanto, o conteúdo de incerteza só vai convergindo para
zero no limite em que N vai ao infinito, o que é impossível do ponto de
vista prático. Dessa forma, sempre haverá algum conteúdo de incerteza
sobre o valor real de µX.
Exemplo 3.7 – Suponha que a cada medida xi, i=1, ..., N, de uma
mesma população é associado o peso wi, i=1, ..., N. Suponha
ainda que:
N N
X = ∑ wi xi 0 < wi < 1 ∑w i =1
i =1 i =1
Nesse caso, a Propriedade 3.1 pode ser escrita na forma:

n
enquanto a Propriedade 3.2 pode ser escrita como:
var{X} = E((x - p , )'} = /i{(t. u ,x, -llx ) } E{(t.">(x, - !lx) =
E{:t I "'•"'• (x,-!lx )(x,- ll.r )} =I I ">w,E{(x, - Jl,. )(.r, -liz)}=

1•1 J...:l -~· J ...
v \ .. \
LL w,..·p·iJx1 =L'-~ai., =a_i. :Lw,:< a~.
1e:1 1:1 1:1 1:1
de maneira que qualquer média ponderada dos dados amostrados

flutua em torno do valor médio µX com variância inferior à dos
dados amostrados. Isso mostra que há um certo grau de arbitra-
riedade na definição da média amostral da Equação (3.3), já que
qualquer média ponderada dos números amostrados também
satisfaz as Propriedades 3.1 e 3.2 definidas anteriormente. Por
isso, retornaremos a esse problema no Capítulo 4, para aumentar
um pouco mais a significação teórica da Equação (3.3).
A mesma discussão apresentada para a média amostral pode ser agora

estendida para a medida amostral da variância. Nesse caso, as Equações
(1.36) e (1.72), reproduzidas abaixo:
G_~'Y = Var{x} = E{(x; - flx n I P. =

t= i
(x, - fl x )' (1.36)
x..,...
<J_h. =...J(x-J.L.J p(x)dY
_ (1.72)
e a hipótese do experimento bem-feito sugerem a seguinte definição

para a variância amostral, s2X
∑( )
N 2
xi − X (3.6)
1
( ) ( )
N 2 N 2
s = ∑ pi xi − X
2
X = ∑   xi − X = i =1
i =1 i =1  N  N
No entanto, antes que a Equação (3.6) seja aceita como medida adequada da
variância amostral (o que de fato ela não é, como será mostrado ao longo
desta seção), é conveniente observar o Exemplo 3.8.

Exemplo 3.8 – Nas Tabelas 3.4 e 3.5 apresentam-se as variâncias

amostrais calculadas a partir da Equação (3.6) para os problemas
analisados nos Exemplos 3.4 e 3.5.
Tabela 3.4 - Variâncias amostrais obtidas no Exemplo 3.4

N Semente s2X
1 0.250
10
2 0.240
1 0.240
20
2 0.248
1 0.250
40
2 0.244
1 0.249
80
2 0.246
1 0.249
160
2 0.250
∞ - 0.250
Tabela 3.5 - Variâncias amostrais obtidas no Exemplo 3.5

N Semente s2X
1 0.137
10
2 0.094
1 0.107
20
2 0.084
1 0.098
40
2 0.078
1 0.083
80
2 0.082
1 0.083
160
2 0.083
∞ - 0.083
Observe que a variância amostral flutua de experimento para
experimento em torno de valores próximos das variâncias verda-
deiras, iguais a 0.250 no primeiro caso e 0.083 no segundo caso.
A variância amostral, portanto, não deve ser confundida com a
variância real da distribuição de probabilidades amostrada, que
o analista a princípio desconhece.
Assim como no caso da média amostral, o Exemplo 3.8 mostra

claramente que a variância amostral s2X flutua e, por isso, não deve ser
confundida com a variância verdadeira σ2X da distribuição. Mais ainda,
se a variância amostral flutua de experimento para experimento (nesse
caso o experimento consiste em tomar amostras de tamanho N), ela é
também uma variável aleatória, assim como os dados amostrados xi.
Portanto, a variância amostral também deve ser encarada como uma

variável aleatória que flutua em torno de certo valor médio e com certa
variância, que devem a princípio ser caracterizados, assim como a dis-
tribuição de probabilidades que descreve as flutuações de s2X. Como no
caso da média amostral, não devemos ter esperanças de obter o valor
real da variância σ2X, a não ser que tenhamos a distribuição real de pro-
babilidades do problema, o que de maneira geral não é possível, como já
discutido. Dessa forma, se tivermos que obter informações sobre o pro-
blema a partir da experimentação (amostrando), nunca saberemos qual
é o valor verdadeiro da variância σ2X. No entanto, como no caso anterior
e mostrado a seguir, é possível escrever um conjunto de propriedades
bastante úteis para a variância amostral.
Propriedade 3.3 – Se os experimentos xi, i=1... N, são realizados de

forma independente em condições idênticas e flutuam em torno da
média verdadeira µX com variância σ2X, a Equação (3.6) NÃO fornece
uma avaliação consistente da variância amostral, sendo necessário
reescrever a Equação (3.6) na forma:
∑ (x − X )
N 2
i
(3.7)
s =
2 i =1
N −1
X
A variância amostral definida pela Equação (3.7) flutua em torno do

valor real da variância σ2X.
Para mostrar a Propriedade 3.3, é conveniente primeiramente abrir
a Equação (3.7) em termos dos desvios em relação à média verdadeira,
em geral desconhecida. Assim,
~ - ..
f, (x,- X)' f (x,-f x, J' f (Nx,-f x,)'
_ ,., J•l N _ ,., ,., -
Sx - N - N - N' -
f (N(,r,-.ur)- f,{x, - .ux })'

•= l r-1
N' =
f (N'(x,- f.J., )' - 2N (x,- ~'x) f h-f.Jx}+[f.(x,- Ji.,. }]')

, . , J• l J•l
N'

N
l; (x, -J•,)'
.~=-
• "'":..!.'----,,---
N
(3.8)
Agora, o valor médio da Equação (3.8) pode ser calculado como:
(3.9)
Repare que a Equação (3.9) mostra que, na média, a Equação (3.6) leva
um valor de variância amostral menor que o valor da variância real do
problema. Esse é um defeito inaceitável do procedimento de inferência
do valor real da variância. Para corrigir o resultado, no entanto, o proce-
dimento a seguir é muito fácil: basta multiplicarmos o resultado obtido
por N e dividirmos o resultado por (N-1), o que resulta na Equação (3.7)
e na Propriedade 3.3. Diz-se, portanto, que a variância amostral defini-
da na Equação (3.7) é uma avaliação consistente da variância real do
problema. Deve ficar bem claro que a necessidade de apresentar o valor
(N-1) no denominador da Equação (3.7) nada tem de arbitrário – muito
pelo contrário. É exatamente essa correção que permite obter, na mé-
dia, uma inferência consistente da variância real do problema a partir
dos dados amostrados. O valor (N-1) é chamado de número de graus
de liberdade do problema, representado usualmente por ν. Como no
caso da média amostral, o fato da Equação (3.7) fornecer uma medida
consistente da variância não significa que a variância amostral obtida
em um problema particular é igual à variância verdadeira e desconhe-
cida do problema. Para que isso fosse verdade, seria necessário obter a
média a partir de infinitas repetições do problema físico investigado,
o que não é possível. Portanto, nunca saberemos de fato qual é o valor
real da variância do problema a partir de dados amostrados. No entanto,
a Equação (3.9) oferece ao menos o consolo de que o valor obtido para

a variância amostral a partir da Equação (3.7) flutua ao redor do valor

verdadeiro da variância.
Propriedade 3.4 – Se os experimentos xi, i=1...N são realizados de

forma independente em condições idênticas e flutuam em torno da
média verdadeira µX com variância σ2X, então a variância amostral
descrita pela Equação (3.7) flutua em torno de σ2X com variância
igual a:
(3.10)
onde kX é a kurtose, definida na Equação (1.57).

A Equação (3.10) pode ser mostrada com facilidade substituindo-se a
Equação (3.8) no lado esquerdo da Equação (3.10) e efetuando-se as ope-
rações necessárias. Essa demonstração fica deixada como exercício para o
leitor interessado por causa do excessivo número de manipulações algé-
bricas necessárias. Contudo, a Equação (3.10) é muito importante porque
ela indica de forma inequívoca que o nível de flutuação da variância amos-
tral cai continuamente, à medida que aumenta o tamanho do conjunto de
dados amostrados, convergindo para zero quando N vai ao infinito. Dessa
maneira, quanto maior o tamanho do conjunto amostral, maior a precisão
com que se obtém o valor da variância amostral. Para o caso muito especí-
fico em que os dados amostrados seguem uma distribuição normal, então
k4X = 3 (esse é um resultado clássico para a curva normal. Lembre-se que
a curva normal é uma curva bi-paramétrica, de maneira que, fixados
média e variância, todos os demais momentos da curva de distribuição
ficam também automaticamente fixados) e a Equação (3.11) ganha a
forma mais simples:
(3.11)
Observe que as Equações (3.7) e (3.10-11) mostram que é impossível

fazer qualquer inferência sobre a variância real de um problema se apenas
um dado é medido (N-1 = ν = 0). Esse resultado é obviamente pertinen-
te, pois não é possível ter mesmo qualquer noção de espalhamento dos
dados se apenas um dado experimental está disponível.
A Equação (3.7) pode ser então utilizada automaticamente para
descrever o desvio padrão amostral,
s X = s X2 (3.12)

a covariância amostral,
∑ (x − X )(y − Y )
N
i i
(3.13)
s 2
= i =1
N −1
XY
e o coeficiente de correlação amostral,

2
s XY
rXY = (3.14)
s X sY
De forma aos casos anteriores, as Equações (3.12-14) definem for-
mas consistentes de avaliar as grandezas de interesse para a análise a
partir de dados amostrados. Também de forma similar, essas grandezas
amostrais devem ser encaradas como variáveis estocásticas, sujeitas a
flutuações que convergem para zero quando o tamanho do conjunto de
dados amostrados vai para infinito.
Exemplo 3.9 – A covariância amostral, definida pela Equação

(3.13), pode ser colocada na forma:
N  N  N 
∑  N ( xi − µ X ) − ∑ (x j − µ )
X  N ( yi − µY ) − ∑ (y j − µ )
Y 
i =1  j =1   j =1 
2
s XY =
N (N − 1)
2
e:
s.rr' =
N' (N- 1)

Aplicando o operador de média e admitindo que as medidas xi e

yi obtidas de um mesmo experimento podem estar correlaciona-
das entre si, mas não com medidas de experimentos distintos,
então:
N'(N-1)
.... ...
N:LO'~r
~
NLo:i 1
,
N'(N- 1)- N'(N- I)= <T;,.
que mostra que a Equação (3.13) de fato permite uma inferência

consistente da covariância entre dois conjuntos de dados.
3.3. Distribuições e Intervalos de Confiança

de Grandezas Amostrais
Como as grandezas amostrais devem ser encaradas como variáveis ale-
atórias e sujeitas a flutuações, cuja variância depende do tamanho N do
conjunto amostrado, torna-se pertinente perguntar sobre a forma da curva
de distribuição que governa as flutuações das grandezas amostrais. De
maneira geral, essa pergunta pode ser respondida através do procedimento
ilustrado a seguir para uma função genérica dos pontos amostrais.
Seja uma função genérica dos pontos amostrais definida como f(x1, ...,
xN). Suponha que é possível explicitar a dependência inversa do valor de
xN, para que o valor de f(x1, ..., xN) atinja um valor especificado f1 na forma
xN = g(x1, ..., xN-1,f1). Então a seguinte igualdade pode ser escrita:
f2  g (x1 ,..., xN −1 , f2 ) 
∫f ℘f ( f )df = x∫℘(x1 )...x∫ ℘(xN −1 ) ∫ ℘(xN )dxN  dxN −1...dx1

1 1 N −1
 g (x1 ,..., xN −1 , f1 ) 
(3.15)
onde são feitas (N-1) integrações sobre as (N-1) variáveis que podem
flutuar independentemente para gerar os valores especificados da
função f e uma integração sobre o valor de xN, que especifica de fato os
valores desejados de f. Se f1 é o valor mínimo admissível para a função
f(x1, ..., xN), então a Equação (3.15) pode ser rescrita como:

(3.16)
cuja derivação gera a curva de densidade de probabilidades ℘f de
f(x1, ..., xN).
Para ilustrar de forma mais clara o uso das Equações (3.15-16),
suponha que se deseja conhecer a função densidade de probabilida-
des da média entre dois pontos, obtidos segundo uma distribuição de
probabilidades arbitrária ℘(x). Nesse caso, deseja-se conhecer a função
distribuição de probabilidades da seguinte transformação:
x1 + x2
f (x1 , x2 ) = X =
2
que resulta na transformação inversa:
( )
g x1 , X = x2 = 2 X − x1
Obviamente, o valor mínimo de X é o valor mínimo de xi, de ma-

neira que:
Procedimentos semelhantes podem ser gerados para as demais variá-

veis amostrais. Dessa forma, o importante é perceber que a densidade
de probabilidades de uma grandeza calculada a partir de variáveis ale-
atórias (e, portanto, essa grandeza também é a princípio uma variável
aleatória) pode ser obtida a partir de procedimentos matemáticos bem
definidos. Isso não significa dizer que soluções analíticas estão sempre
disponíveis, dado que as transformações matemáticas são complexas e
muitas vezes intratáveis analiticamente.
Exemplo 3.10 – Para a distribuição uniforme no intervalo (0,1),

mostram-se a seguir as funções de densidade de probabilidade
para a média e a variância amostrais obtidas a partir de dois
pontos. Para a média amostral:

É preciso lembrar que a distribuição uniforme é igual a zero fora

do intervalo (0,1), de maneira que as seguintes relações de desi-
gualdade precisam ser satisfeitas:
0 < x1 < 1 , 0 < 2 X − x1 < 1

ou
0 < x1 < 1 , 2 X − 1 < x1 < 2 X

Mas só é possível satisfazer ambas as desigualdades se:
0 < x1 < 2 X se X < 0.5

2 X − 1 < x1 < 1 se X > 0.5
Portanto, para o caso da média amostral, resulta que:
se X < 0.5
PAC ( x} = 7'[Jdxz]dr, 1('7'idx,]

0 0
+
lX- 1 0
dr, =
2:f- 1 I
se X > 0.5
= f dr,+ j [zx - x,]dr,=4X - 2X - I
2
D 2,\'ooJ
e portanto:
( )
℘ X = 4X se X < 0.5
℘(X )= 4 − 4 X se X > 0.5
que é a distribuição triangular do Exemplo 1.13. Logo, a distri-

buição triangular do Exemplo 1.13 pode ser interpretada como
a distribuição da média de dois pontos obtidos a partir da distri-

buição uniforme. Observe que a distribuição triangular concentra

os valores da média amostral ao redor de 0.5 mesmo quando as
medidas isoladas estão uniformemente distribuídas no intervalo
[0,1], como descrito pela Propriedade 3.2.
No caso da variância amostral, é conveniente ver primeiramente
que o valor mínimo admissível para a variável é igual a zero, obti-
do quando os dois pontos amostrados são iguais. Além disso,
2 2
  x1 + x2     x1 + x2  
2 2
 x1 − x2   x2 − x1 
 x1 −  2   +  x2 −  2    +
2   2 
2
     x −x 
s X2 =  = = 2 1 2 
1 1  2 
de tal maneira que, para qualquer valor especificado de s2X, valores

menores que esses são encontrados no intervalo:
x1 − 2 s X2 < x2 < x1 + 2 s X2
Dessa forma, a Equação (3.16) pode ser escrita como:
s X2 < 0.5
,
Como no problema anterior, é necessário garantir que:
0 < x1 < 1 , x1 − 2 s X2 > 0 x1 + 2 s X2 < 1

,
ou
0 < x1 < 1 , x1 > 2 s X2 x1 < 1 − 2 s X2

,
que só podem ser satisfeitas se:
2 s X2 < x1 < 1 − 2 s X2 s X2 < 0.5

,
Para que a desigualdade acima seja satisfeita, é necessário que:
2 s X2 < 1 − 2 s X2 s X2 < 0.125

,
Portanto:

' ,,
,
s X2 < 0.125
t-J2s~- ·' i + g /, 2
~-r
~4C (s.~. ) = I
0
I
0
dx2 d'(l +
1-..P•x 2 [[ dxz]dx,
I I
+ I
J:z~J
I dx, d'(,
-
"1-J2.Jr
0.125 < s X2 < 0.5
resultando em:
, 0 < s X2 < 0.5

e portanto:
 1 
℘ s ( )2
X = 2
 2s 2
− 1

 X  , 0 < s X2 < 0.5
que mostra que as variâncias amostrais pequenas são mais pro-
vavelmente obtidas que as variâncias amostrais grandes. A curva
de densidade é inclusive singular no ponto s2X = 0.

O Exemplo 3.10 mostra que, mesmo em problemas supostamente

muito simples, a obtenção formal das curvas de distribuição que descre-
vem as flutuações de grandezas amostrais pode ser muito complexa. Isso
se deve ao fato de que múltiplas combinações de resultados podem levar
aos mesmos valores amostrais. Por isso, optamos nesse texto em apresen-
tar os resultados clássicos da literatura, sem mostrar os procedimentos
que tornam possível a obtenção dessas soluções. O leitor interessado
pode consultar a literatura adicional apresentada ao final do capítulo
para informações matemáticas mais detalhadas a esse respeito.
É interessante observar, no entanto, que o computador pode auxiliar
bastante a tarefa numérica de gerar as curvas de distribuição de probabili-
dades, uma vez fixadas a distribuição de probabilidades da variável amos-
trada e o tamanho N do conjunto de dados, como mostrado no Exemplo
2.13. Para tanto, pode-se utilizar o procedimento numérico descrito a seguir.
O procedimento, normalmente chamado de Procedimento de Monte Carlo,
consiste em gerar muitos números aleatórios (ND números, com ND da
ordem de milhares) que seguem a distribuição de probabilidades estuda-
da e computar as grandezas amostrais a partir de conjuntos contendo N
desses dados. Dessa forma, muitos valores são obtidos para as grandezas
amostrais a partir de N dados que seguem a distribuição considerada.
Obtém-se assim uma amostra fidedigna da distribuição das grandezas
amostrais. As curvas de probabilidade acumulada podem então ser obti-
das, como mostrado nos Exemplos 2.13 e 3.5. Esse tipo de procedimento
numérico pode ser executado com facilidade em computadores pessoais
para quaisquer distribuições de probabilidades e para qualquer tamanho
amostral considerado, como ilustrado a seguir no Exemplo 3.11.
Algoritmo 3.1 – Geração de curvas de distribuição de grandezas

amostrais.
Fixados N, tamanho da amostra, e ND, número de dados amos-
trais
1. Gerar N dados com distribuição uniforme (ver Seção 2.4);
2. Transformar os N dados para a distribuição desejada (ver
Equações 2.24-25);
3. Calcular a grandeza amostral desejada (ver Seções 3.1-3.3);
4. Repetir o procedimento até que sejam gerados ND valores
amostrais;
5. Construir o histograma (ver Exemplo 2.13) ou a curva de pro-
babilidades acumuladas (ver Exemplo 3.5) e, a partir delas, obter
as curvas de densidade de probabilidade.

Exemplo 3.11 – Para o cômputo das médias e variâncias amostrais

a partir de dois pontos aleatórios distribuídos uniformemente
no intervalo (0,1), como mostrado no Exemplo 3.10, é possível
calcular os intervalos de confiança na forma:
Confiança de 95%:
(x,) =zx: =o.025 ⇒ X 1 = 0.1119
P.,.
P•c (x,) = 4X, -2x~ = o.975 ⇒ X 1 = 0.8881
P AC ( S.~l ) =2 ( J2s.~1 - s_i,) =0 025 ⇒ s X2 1 = 7.91x10−5
l~c(s_i.,} = 2(J2.f.i., -si,) =o975 ⇒ s X2 2 = 0.354
O Algoritmo 3.1 é usado nesse exemplo para gerar a distribuição

desejada numericamente. A função de distribuição uniforme foi
gerada usando-se o procedimento:
X k +1 = 11 X k − Trunc (11 X k )
com semente X1=0.75832446 (ver Seção 2.4). Fez-se ND igual a
2000 e N=2. Os resultados obtidos e ordenados em ordem crescente
são apresentados nas Figuras 3.5 e 3.6. Os limites apresentados
separam os menores 2.5% (50 menores valores) e os maiores 2.5%
(50 maiores valores) valores calculados, de maneira que entre eles
...
encontram-se 95% dos valores obtidos.
·- ,. .,...
..
•• ••
--·
•• '"
~
'"
·--•• •• ••
!
·-
t.~
_,..,../--
r- ,. ,. ,.
}·... - _,£/_ _ _ __
,_(. ~ , __ ·-
....... .. ...... ·-
'"!!' .....
Figura 3.5 - Limites de confiança da média e variância amostrais obtidos ·--'J!' ... ..
numericamente.

Vê-se que os resultados podem ser considerados muito bons, se

comparados aos valores calculados de forma exata. Os limites de
confiança obtidos para a média amostral são aproximadamente
iguais a 0.11 e 0.88, enquanto os limites de confiança obtidos para
a variância amostral são aproximadamente iguais a 1.2x10-4 e 0.32.
Vê-se, contudo, que ainda há razoável grau de incerteza nos valores
dos limites de confiança, a despeito do número elevado de pontos
experimentais considerados. Observa-se uma vez mais que o número
de dados necessários para a adequada representação de curvas de
distribuição de probabilidades pode ser muito elevado. Apesar disso,
quando toda a faixa de valores admissíveis é considerada, observa-se
concordância bastante elevada entre as curvas geradas numérica
e teoricamente.
...
t:
'i
1111.4 ~
!~
..
lUI
I
a.:
-~-
... ...
Figura 3.6 - Probabilidades acumuladas das médias e variâncias
amostrais em toda a faixa de valores admissíveis.
Apesar dos resultados anteriores terem ilustrado a dificuldade de

gerar teoricamente as curvas de distribuição de probabilidades de gran-
dezas amostrais, alguns resultados clássicos são disponíveis para o caso
em que as medidas experimentais estão sujeitas a flutuações normais.
3.3.1. A Distribuição t de Student

Seja x uma variável aleatória sujeita a flutuações normais, com média µX
e variância σ2X. Sejam N o número de amostragens independentes de x
feitas e X e s2X as média e variância amostrais obtidas. Pode-se mostrar
que a variável normalizada t, definida como:
X − µX
t=
sX (3.17)
N
está distribuída na forma:

ν +1 
Γ 
 ν +1 
2 − 2 
℘(t ) = Stud (t ;ν ) =
1  2  1 + t 
  (3.18)
πν Γ  ν   ν 
 
2
onde ν é o número de graus de liberdade e Γ representa a função gama,
definida pela Equação (2.46). A forma da distribuição t de Student (publi-
cada originalmente por W.S. Gosset, sob o codinome de Student, donde
vem o nome normalmente usado para referenciar essa importante
distribuição estatística) está mostrada na Figura 3.7, enquanto valores
para as probabilidades acumuladas são apresentados na Tabela A.2 do
Apêndice.
•"' ll
lJ
Figura 3.7 - Ilustração da distribuição t.
A Figura 3.7 mostra que a distribuição t é simétrica em relação ao

eixo y de coordenadas e é definida sobre todo o domínio real (-∞,+∞).
Além disso, a distribuição t depende de um único parâmetro, ν, que re-
presenta o tamanho do conjunto amostral. Quanto maior o valor de ν,
mais estreita é a distribuição em torno do valor médio t=0, em função
das menores incertezas existentes sobre o valor real da média quando
N aumenta. A distribuição t tem enorme importância prática porque
permite impor limites precisos sobre a região de confiança onde deve
estar a média verdadeira, a partir de valores amostrados, como mostrado
nos exemplos que se seguem.
Exemplo 3.12 – Admita que testes de atividade catalítica foram

realizados em condições supostamente idênticas, resultando no
seguinte conjunto de dados:

Tabela 3.6 - Dados de atividade catalítica obtidos experimentalmente.

i 1 2 3 4 5 6 7 8 9 10
xi (g/h g) 0.450 0.467 0.431 0.440 0.452 0.458 0.438 0.462 0.447 0.452
onde i designa o experimento realizado e xi designa a atividade
medida, em gramas de produto por hora por grama de reagente.
Nesse caso,
10
I, x,
X= >=I = 0.450
10
10
I,(x, -OA5oY
s~ = •=• 9 =93.2 ·10-o sx =K = 9.65 -10-l
Sabemos, no entanto, que não devemos confundir a média e a

variância amostrais com a média e a variância verdadeiras da
distribuição. Para construir o intervalo de confiança da média
real a partir dos valores amostrais, podemos contar com o auxílio
da distribuição t.
Suponha que um nível de confiança de 95% é requerido. Nesse
caso, deseja-se obter os valores de t1 e t2 tais que:
l>.,c (1,;9) = 0.025 , J>..c (1,;9) = 0.975
Esses valores podem ser obtidos da integração da Equação (3.18)
e estão mostrados na Tabela A.2. Na linha referente a 9 graus de
liberdade e na coluna referente a uma probabilidade acumulada
de 0.975 encontra-se o valor t2 = 2.262. Como a distribuição t é
simétrica em relação ao eixo y, conclui-se que t1 = – 2.262. Pode-se
dizer, portanto, que com 95% de confiança:
-2.262 < I = 0.4SO- Jl x < 2.262

9.65 ·10-J
.JlO
ou
0 .450- 2.262 9 - 6~0-l < Jlx < 0.450+2.262 9 - 6~0-l

10 10

e:
0.443 < Jlx < 0.457
Portanto, embora não seja possível dizer qual é o valor verda-
deiro da média, é possível definir o intervalo onde ela deve ser
encontrada, com um certo grau de confiança, desde que os dados
medidos estejam sujeitos a flutuações normais. Para os níveis de
confiança de 98% e 99%, os resultados obtidos são respectiva-
mente iguais a:
P..c (t,; 9) = 0.010 P"c(t,; 9)= 0.990

,
0450
-2.821 < f = - Jlx < 2.82 1
9.65 · 10-)
JlO
- 9.65· 10-l 9.65·10-l
0.4:>0 - 2.821 r.;: < tl r < 0.450+2.821 r.;:
viO · v lO
0.44 I< tlx < 0.459
e:
PAC (t1 ; 9 ) = 0.005 PAC (t2 ; 9 ) = 0.995

,
0450 11
- 3.250 < f = - ;y < 3.250
9.65- 10-
,JiO
04-0-'
. :>
?50 9 ·65
.J , _
' 10-! <Jlx < 0450
JIO . , 2-o
+.>. :>
9 ·65 ' 10 -!
JIO
0.440< Jlx < 0.460
Como já discutido em exemplos anteriores, quanto maior o grau
de confiança exigido, maior o intervalo de confiança obtido, tor-
nando mais difícil o processo de tomada de decisão.
Deve ficar bem claro que o Exemplo 3.12 acima admite implicitamente
que a medida experimental está distribuída de forma normal e que todas
as medidas de fato representam o mesmo fenômeno. Só assim é possível
usar a distribuição t de Student. Caso a distribuição da medida amostrada

original não seja normal ou caso o conjunto de medidas represente coisas

diferentes, a utilização da distribuição t não faz qualquer sentido. Nesse
caso, outra distribuição da média amostral deveria ser gerada ou o Algo-
ritmo 3.1 deveria ser usado, como ilustrado no Exemplo 3.11. É verdade,
no entanto, que como conseqüência do Teorema do Limite Central (ver
Seção 2.6), a distribuição t converge para a curva normal à medida que
N aumenta, independentemente da distribuição de probabilidades que
deu origem aos dados amostrados. Portanto, para N suficientemente
grandes (temos visto que isso pode representar valores inconcebíveis
para a prática experimental. Portanto, cuidado com essas hipóteses!),
é possível dizer que X está distribuído normalmente em torno de µX,
com variância igual a σ X2 = s X2 N . I
Exemplo 3.13 – Suponha que tenha sido admitida distribuição
normal para a média amostral. Então, segundo a Tabela A.1 da
curva normal, para limite de confiança de 95%, podem ser obtidos
os seguintes valores:
P,c (u,; 9) = 0 025 ~<c (t 2 ; 9) = 0.975

,
-1.960 <II= 0.4 50 - Jllt < 1.960

9.65-W
JiO
96
· ~- 0 3
96
~- 0 3
0.450 - 1.960 < J.lx < 0.450+ 1.960

~ 10 10
0.444 < Jlx < 0.456

resultando numa visão mais otimista que a real da região onde
se encontra a média verdadeira. Para valores menores de N, como
usados na prática experimental, essas diferenças podem vir a ser
muito grandes, e o uso dessa aproximação raramente pode ser
justificado.
Exemplo 3.14 – Suponha que o seguinte conjunto de dados,

mostrado de forma ordenada na Tabela 3.7, é gerado a partir de
um gerador de números uniformemente distribuídos no intervalo
(0,1), como no Exemplo 3.3.

Tabela 3.7 - Conjunto de dados gerados de acordo com

uma distribuição uniforme em (0,1)
i 1 2 3 4 5
xi 0.007 0.176 0.337 0.884 0.927
Nesse caso,
10 10
∑ xi ∑ (xi − 0.466 )
2
X= i =1
= 0.466 s X2 = i =1
= 0.175
5 4
s X = s X2 = 0.418
Se a região de confiança da média é calculada como no Exemplo
3.12, para um grau de confiança de 99%:
PAC (t,; 9) =0.005 ; ~IC (t2; 9) =0.995
-4.604 <I = 0.466- Jlx 4 604

0.418 < .
JS
0 .418 0.418
0.466 - 4.604 JS < Jlx < 0.466 +4.604 JS
-o.395 < Jlx < 1.321
O resultado obtido acima é absurdo, pois sabemos que a média

está, com 100% de confiança, contida no intervalo (0,1). Ela jamais
pode ser negativa ou maior que 1, conforme calculado, porque
os pontos estão sendo gerados com a distribuição uniforme.
Onde está o erro do procedimento usado? O erro fundamental
cometido foi usar a distribuição t, válida para valores amostrados
que seguem uma distribuição normal, e não uma distribuição
uniforme. Isso mostra de maneira inequívoca como as hipóteses
feitas a respeito dos dados podem ser importantes para a análise.
Portanto, se a função de densidade de probabilidades que gera
os pontos aleatórios não é conhecida, o uso da distribuição t de
Student para interpretar médias amostrais pode ser temerário.

3.3.2. A Distribuição Chi-Quadrado (χ )

2
Seja x uma variável aleatória sujeita a flutuações normais, com média

µX e variância σ X2 . Sejam N o número de amostragens independentes
de x feitas e X e s2X as média e variância amostrais obtidas. Pode-se
mostrar que a variável normalizada χ , definida como:
2
2
N x −X 
χ2 = ∑ i  (3.19)
i =1  σ X 
está distribuída na forma:

 χ2 
ν  − 
( ) ( ) 1
( )
− 1  2 
2  2
℘ χ 2 = Chi χ 2 ;ν = χ  e  
ν ν
  (3.20)
2I 2 Γ  
2
apresentando:
{ }
Ε χ 2 =ν (3.21)
Var {χ }= 2ν2
(3.22)
Figura 3.8 - Ilustração da distribuição χ2.
A Figura 3.8 mostra que a distribuição χ não apresenta qualquer eixo

2
de simetria e é definida sobre o domínio real positivo [0,∞). Além disso,

a distribuição χ depende de um único parâmetro, ν, que representa o
2
tamanho do conjunto amostral. Quanto maior o valor de ν, mais larga

é a distribuição em torno do valor médio χ =ν. A distribuição χ tem
2 2
enorme importância prática porque, dentre muitas outras coisas, per-

mite impor limites precisos sobre a região de confiança onde deve estar

a variância verdadeira, a partir de valores amostrados, como mostrado

nos exemplos a seguir. Para tanto, observe que:
( )
N 2
 xi − X  (N − 1) ∑
2 xi − X
N
s X2
χ = ∑
2
 =
i =1
= (N − 1) 2 (3.23)
i =1  σ X  σX
2
(N -1) σX
Além disso, somas normalizadas como a apresentada na Equação
(3.19) aparecem com muita freqüência em problemas práticos, como
serão mostrados nos próximos capítulos.
Exemplo 3.15 – No Exemplo 3.12, foram analisados 10 dados de

atividade de catalisador em réplicas experimentais independen-
tes. As média e variância amostrais obtidas foram:
10 10
∑x ∑ (x − 0.450 )
2
i i
X= i =1
= 0.450 s X2 = i =1
= 93.2 ⋅10−6
10 9
s X = s X2 = 9.65 ⋅10−3
Sabemos, no entanto, que não devemos confundir a média e a
variância amostrais com a média e a variância verdadeiras da
distribuição. Para construir o intervalo de confiança da variância
real a partir dos valores amostrais, podemos contar com o auxílio
da distribuição χ .
2
Suponha que um nível de confiança de 95% é requerido. Nesse

caso, deseja-se obter os valores de χ1 e χ2 tais que:
2 2
,
Esses valores podem ser obtidos da integração da Equação (3.20)
e estão mostrados na Tabela A.3. Na linha referente a 9 graus de
liberdade e na coluna referente a uma probabilidade acumulada
de 0.025 encontra-se o valor χ1 = 2.700. Na linha referente a 9
2
graus de liberdade e na coluna referente a uma probabilidade

acumulada de 0.975 encontra-se o valor χ2 = 19.023. Pode-se
2
dizer, portanto, que com 95% de confiança
s X2
χ = 2.700 < χ = (N − 1) 2 < 19.023 = χ 22
2 2
σX
1

ou
s X2 s X2
(N -1) 2 < σ X < (N -1) 2
2
χ2 χ1
e:
93.2 ⋅10-6 93.2 ⋅10-6
9 <σX < 9
2
19.023 2.700
e:
44.1 ⋅10-6 < σ X2 < 311.7 ⋅10-6
De forma similar, para graus de confiança de 98% e 99%, os re-
sultados obtidos são respectivamente iguais a:
,
s X2
χ = 2.088 < χ = (N − 1) 2 < 21.666 = χ 22
2 2
σX
1
s X2 s X2
(N -1) 2 < σ X < (N -1) 2
2
χ2 χ1
93.2 ⋅10-6 93.2 ⋅10-6
9 <σX < 9
2
21.666 2.088
38.7 ⋅10-6 < σ X2 < 401.7 ⋅10-6
e:
,
s X2
χ = 1.735 < χ = (N − 1) 2 < 23.589 = χ 22
2 2
σX
1
s X2 s X2
(N -1) 2 < σ X < (N -1) 2
2
χ2 χ1

93.2 ⋅10-6 93.2 ⋅10-6

9 <σX < 9
2
23.589 1.735
35.6 ⋅10-6 < σ X2 < 483.5 ⋅10-6
Vê-se, portanto, que as incertezas existentes durante a obtenção
do valor real da variância podem ser muito grandes, quando N
é pequeno.
Deve ficar bem claro que o Exemplo 3.15 anteriormente admite implici-
tamente que a medida experimental está distribuída de forma normal e que
todas as medidas de fato representam o mesmo fenômeno. Só assim é possí-
vel usar a distribuição χ . Caso a distribuição da medida amostrada original
2
não seja normal ou caso o conjunto de medidas represente coisas diferentes,

a utilização da distribuição χ não faz qualquer sentido e resultados espúrios,
2
como aqueles mostrado no Exemplo 3.14, podem ser obtidos.
Exemplo 3.16 – Observe no Exemplo 3.15 que o fator (N – 1) / χ1

2
diz quantas vezes maior a variância real pode ser, quando com-
parada à variância amostral. Por isso, esse número é apresentado
abaixo para alguns valores típicos.
Tabela 3.8 - Fatores que dizem quantas vezes maior que a variância
amostral a variância real pode ser.
% N=1 2 3 5 10 20 30 40 50 100
95 ∞ 1018 39.5 8.26 3.33 2.13 1.81 1.65 1.55 1.35
98 ∞ 6366 99.5 13.5 4.31 2.49 2.03 1.82 1.69 1.43
99 ∞ 25460 199.5 19.3 5.19 2.78 2.21 1.95 1.80 1.49
Observe na Tabela 3.8 que com cinco réplicas é possível apenas ga-
rantir a ordem de grandeza da variância verdadeira. Para garantir
o primeiro algarismo significativo (incertezas inferiores a 100%
do valor medido) da variância verdadeira são necessárias entre 20
e 30 réplicas! Quando o número de réplicas chega a 100, as incer-
tezas são da ordem ainda de 35 a 50% do valor medido! Para que
a incerteza seja inferior a 10% do valor medido são necessárias
900 (95%), 1250 (98%) ou 1500 (99%) réplicas, o que é inaceitável
do ponto de vista do trabalho científico experimental. Por isso,
teremos sempre que conviver com incertezas muito grandes em
relação aos reais valores da variância experimental.

A Tabela 3.8 também mostra que as incertezas da variância

real caem muito rapidamente para pequenos valores de N (por
exemplo, caem cerca de duas ordens de grandeza quando N é
incrementado de 2 para 3), mas depois decaem muito lentamente
para valores elevados de N (por exemplo, decaem cerca de uma
ordem de grandeza quando N é incrementado de 5 para 30).
Por isso, raramente há justificativas para que se reproduza um
dado experimental mais do que 5 vezes, uma vez que ganhos
apreciáveis de certeza requereriam aumento muito grande do
número de réplicas experimentais. Por isso, uma regra heurística
de repetição pode ser formulada, recomendando a replicação de
dados não mais do que 5 vezes, a não ser que seja muito fácil
repetir o experimento.
3.3.3. A Distribuição F de Fisher

Sejam x e y variáveis aleatórias sujeitas a flutuações normais, com médias
2 2
µX e µY e variâncias σ X e σ Y . Sejam N1 e N2 os números de amostra-
2 2
gens independentes de x e y feitas, sendo que X e Y e s X e sY são as
médias e variâncias amostrais obtidas. Pode-se mostrar que a variável
normalizada F, definida como:
s X2
F= I
sY2
σ X2
(3.24)
I σ Y2
está distribuída em conformidade com a seguinte função de densidade
de probabilidades:
 ν +ν 
 
 ν1 
Γ  1 2  ν1  ν 2  
ν
−1
 I2   I2 

  ν  ν  
 2 
2 F
℘(F ) = F (F ;ν 1 ,ν 2 ) =
 ν1   ν1   ν1 +ν 2 
1 2
ν 1 F + ν 2 ) 2 
(  
Γ Γ 
2 2
(3.25)
com:
ν2
Ε {F } = (3.26)
ν2 − 2

2ν 22 (ν 1 +ν 2 − 2 )
Var {F }= (3.27)
ν 1 (ν 2 − 4 )(ν 2 − 2 )
2
onde ν é o número de graus de liberdade e Γ representa a função gama,

definida pela Equação (2.46). A forma da distribuição F está mostrada
na Figura 3.9, enquanto valores para as probabilidades acumuladas são
apresentados na Tabela A.4 do Apêndice.
A Figura 3.9 mostra que a distribuição F é definida sobre o domínio real
positivo [0,∞). A distribuição F depende ainda de dois parâmetros, ν1 e ν2,
que representam os tamanhos dos conjuntos amostrais analisados. Quanto
maiores os valores de ν1 e ν2, mais estreita é a distribuição, uma vez que
as variâncias amostrais tendem a se aproximar das variâncias reais. Além
disso, a distribuição F apresenta a seguinte propriedade de simetria:
⇒ (3.28)
que é induzida pela própria definição do valor de F. A Equação (3.28) diz

que se a probabilidade de se encontrar um valor de F inferior a um certo
marco é igual a p% para dois conjuntos 1 e 2, ao se inverter a definição dos
conjuntos 1 e 2 os resultados devem ser qualitativamente idênticos. Como
a definição dos conjuntos foi invertida, o valor do marco também tem
que ser. Nesse caso, o que era maior passa a ser menor e vice-versa.
j>(F)
- " I C YJ
- Yt ,._ Y J
- •• c v,..vlcv,, "• <YJ

- VoJ> y._yJ <Y,, Wo<CVJ
F
Figura 3.9 – Ilustração da distribuição F.
A distribuição F tem enorme importância prática porque permite es-

tabelecer comparações muito mais eficientes entre diferentes variâncias
amostrais que aquelas obtidas com a distribuição χ . Para tanto, observe
2
que se as variâncias reais dos dois conjuntos de dados analisados são

supostamente iguais, então:

s X2
F= 2 (3.29)
sY
que é o formato básico de F usado nos exercícios seguintes.
Exemplo 3.17 – Se dois conjuntos de dados supostamente equi-

valentes (variâncias reais supostamente iguais) contêm 3 e 5
dados amostrados, respectivamente, quão diferentes podem ser
as variâncias obtidas?
De acordo com os resultados do Exemplo 3.16, as diferenças
observadas podem ser muito grandes. Dados 2 e 4 graus de liber-
dade, respectivamente, e fixando o grau de confiança em 95%,
procuram-se os valores de F tais que:
,
Esses valores podem ser obtidos diretamente da integração da
Equação (3.25) ou através da Tabela A.4. Nesse caso, como a dis-
tribuição F é bi-paramétrica, são apresentadas várias tabelas para
valores preestabelecidos da probabilidade acumulada. Usando
a tabela montada para a probabilidade acumulada de 0.975, na
coluna relativa ao grau de liberdade igual a 2 e na linha relativa
ao grau de liberdade igual a 4 obtém-se o valor F2=10.649. Não
há tabela disponível para a probabilidade acumulada de 0.025.
Nesse caso, usando a propriedade de simetria descrita pela Equa-
ção (3.28), na tabela de probabilidade acumulada de 0.975, na
coluna relativa ao grau de liberdade igual a 4 e na linha relativa
ao grau de liberdade igual a 2 obtém-se o valor de F1=1/39.248.
Portanto, com 95% de confiança:
1 s X2
< F = 2 < 10.649
39.248 sY
quando o conjunto x tem três medidas amostrais e o conjunto y tem
cinco medidas amostrais. De forma similar, para 98% de confiança:
PAC(~ ;4, 2 ) =0.990 , P,c (1-~; 2,4) = 0.990
1 s X2
< F = 2 < 18.000
99.249 sY

Deve ficar bem claro que o Exemplo 3.17 anterior admite implicita-
mente que as medidas experimentais estão distribuídas de forma normal
e que todas as medidas de fato representam o mesmo fenômeno. Só assim
é possível usar a distribuição F. Caso a distribuição da medida amostrada
original não seja normal ou caso o conjunto de medidas represente coisas
diferentes, a utilização da distribuição F pode não fazer qualquer sentido,
gerando resultados espúrios, como aquele mostrado no Exemplo 3.14.
3.4. Fazendo Comparações entre Grandezas Amostrais

Com enorme freqüência, o analista é chamado a decidir se medidas
amostrais podem ser consideradas equivalentes ou não. De forma mais
específica, deseja-se saber se o valor médio real ou se a variância real do
problema pode estar mudando ou pode ter mudado durante os estudos
experimentais. Como veremos nos capítulos seguintes, essa questão pode
exercer enorme influência sobre o tratamento dos dados e a interpretação
final do conjunto de dados experimentais.
Uma forma muito simples de estabelecer essas comparações e to-
mar decisões está baseada na construção dos intervalos de confiança
para a variável considerada. Por exemplo, sejam α e β as grandezas
comparadas (por exemplo, médias ou ariâncias amostrais) e sejam α1
< α < α2 e β1 < β < β2 os respectivvos intervalos de confiança para
um grau de confiança p% especificado. Então, admitindo que α1 < β1,
as grandezas α e β são distintas com grau de confiança p% se α2 < β1;
ou seja, se não há interseção entre os intervalos considerados.
Exemplo 3.18 – Admita que dois estudantes diferentes obtiveram

os seguintes dados de titulação no laboratório:
Tabela 3.9- Medidas de titulação obtidas por dois alunos

1 2 3 4 5 6 7
1- Volume (ml) 76.48 76.43 77.20 76.25 76.48 76.48 76.6
2- Volume (ml) 77.10 78.4 77.2 76.2 77.7 76.8 -
As médias e variâncias amostrais são iguais a:
7 6
∑x i ∑x i
X1 = i =1
= 76.56 e X2 = i =1
= 77.23
7 6

∑ (xi − 76.56 )
2
s12 = i =1
= 0.0906 e
6
6
∑ (x − 76.56 )
2
i
s22 = i =1
= 0.5707
5
s1 = s12 = 0.301 e s2 = s22 = 0.755

Os intervalos de confiança da média e variância amostrais do primeiro
conjunto podem ser obtidos a partir das distribuições t e χ , como
2
feito nas seções anteriores. Fixando o grau de confiança em 95% e

levando-se em conta que ν1=N-1=6, para a média:
P,.c (1 1;6) = 0.025 , P,.c (t2 ;6) = 0.975

- 76.56-J.l, 2 7
- 2 ·44 7 < r - 0.30 I < .44
J7
0.30 I 0.30 I
76.56-2.447 J7 < ~,, < 76.56+ 2.447 J7
76.28 < ~~ . < 76.84
s12
χ = 1.237 < χ = (N1 − 1) 2 < 14.449 = χ 22
2 2
σ1
1
0.0906 0.0906
6 < σ 12 < 6
14.449 1.237
0.03762 < σ 12 < 0.4394
Os intervalos de confiança da média e variância amostrais do segun-
do conjunto podem ser também obtidos a partir das distribuições t

e χ . Fixando o mesmo grau de confiança de 95% para fins de com-

2
paração e levando-se em conta que ν1=N-1=5, para a média:
P,.c (t1 ;6) =0.025 , P,.c (t:; 6)=0.975
. 77.23- J1 ,
-2.571 < I = O - < 2.571
755
.J6
0.755 0. 755
77.23-2.571 -,:--- < J1, < 77.23 + 2.571 ~
v6 • ~6
76.44 < J1 2 < 78.03
,
s22
χ = 0.831 < χ = (N 2 − 1) 2 < 12.833 = χ 22
2 2
σ2
1
0.5707 0.5707
5 < σ 22 < 5
12.833 0.831
0.2224 < σ 22 < 3.434

Comparando-se os intervalos de confiança da média, observa-se
que no limite de 95% de confiança há interseção dos intervalos
na faixa 76.44 < µ1, µ2 < 76.84, de maneira que não é possível
dizer que as médias são diferentes. De forma similar, para as vari-
âncias obtém-se interseção na região 0.2224 < σ12, σ22 < 0.4394, de
maneira que não é possível dizer que as variâncias são diferentes.
Logo, por esses critérios as medidas dos dois alunos poderiam
ser consideradas equivalentes e, por isso, até misturadas em um
único conjunto de dados.
De forma similar, aplicando o teste F para 95% de confiança:

I~ (_!_.5 6) =0.975
AC }-'"' ' '
p..fC ( rc·. 6 5} =0.975
'1' '
I
,
1 s12
= 0.1670 < F = 2 < 6.9777
5.9876 s2
O valor de F obtido foi:
s12 0.0906
F= 2 = = 0.1587
s2 0.5707
que não satisfaz a desigualdade anterior. Portanto, no limite de
confiança de 95%, o valor de F obtido experimentalmente pode
ser considerado pouco provável. Logo, é pouco provável que as
variâncias reais dos dois problemas sejam iguais. Portanto, com
95% de confiança, pode-se dizer que o segundo aluno lidou com
mais flutuações experimentais do que o primeiro, indicando
que os experimentos conduzidos pelo primeiro aluno são mais
precisos.
Repare que as conclusões obtidas com os intervalos de confiança
da variância e com o teste F são distintas. Isso não é incomum;
muito pelo contrário. No entanto, o teste F tem capacidade muito
maior de detectar diferenças de variâncias amostrais que os inter-
valos de confiança obtidos com a distribuição χ . Por isso, pode-se
2
afirmar com 95% de certeza que os conjuntos amostrais podem

ter a mesma média, mas têm variâncias distintas. Portanto, não
parece haver argumentos que justifiquem a mistura dos dados, já
que os dois conjuntos não parecem ter sido amostrados de uma
mesma população.
Deve ficar bem claro que o Exemplo 3.18 acima admite implicitamente
que as medidas experimentais estão distribuídas de forma normal e que
todas as medidas de fato representam o mesmo fenômeno. Só assim
seria justificável o uso das distribuições t, χ2 e F para a análise. Caso as
medidas amostradas não sejam distribuídas normalmente ou caso os
conjuntos de medidas representem coisas diferentes, a utilização des-
sas distribuições pode não fazer qualquer sentido, gerando resultados
espúrios, como aquele mostrado no Exemplo 3.14.

As comparações feitas através dos intervalos de confiança são muito

simples e podem ser executadas com facilidade. No entanto, a literatura está
repleta de testes comparativos desenvolvidos para condições particulares,
onde informações adicionais são conhecidas. Não é objetivo desse texto
discorrer longamente sobre esse assunto e o leitor interessado pode buscar
informações adicionais nas referências apresentadas ao final do capítulo. No
entanto, algumas dessas situações particulares são apresentadas a seguir.
3.4.1. Testes Adicionais para a Média

Condição especial 1 – Seja uma média histórica µX e a respectiva
variância σ X , obtidas com número elevado de graus de liberdade e
2
consideradas iguais aos valores verdadeiros. Deseja-se saber se uma

nova média amostral X , obtida a partir de um novo conjunto de
dados de tamanho N, é compatível com os dados passados. Admite-se
que as medidas amostrais flutuam de acordo com a curva normal.
Nesse caso, a variável:
(3.30)
é normalmente distribuída, com média zero e variância igual a 1. Logo,

a curva normal pode ser usada para gerar os intervalos de confiança de
X e verificar se o valor obtido é compatível com o esperado.
CJx
u .- - 111 ~.; <
X <Jl \- +11, CJx
~.; (3.31)
· ~ vN . ""N
Condição especial 2 – Seja uma média histórica µX, obtida com número
elevado de graus de liberdade e considerada igual ao valor verdadeiro.
Deseja-se saber se uma nova média amostral X , obtida a partir de um
novo conjunto de dados de tamanho N, é compatível com os dados
passados. Desconhece-se σ X , mas se conhece s X . Admite-se que as
2 2
medidas amostrais flutuam de acordo com a curva normal.

(3.32)
segue a distribuição t, com ν=N-1 graus de liberdade. Logo, a distribuição

t pode ser usada para gerar os intervalos de confiança de X e verificar
se o valor obtido é compatível com o esperado.

(3.33)
Condição especial 3 – Dois conjuntos de dados com X 1 , s12 , N1 e ( )

( )
X 2 , s22 , N 2 estão disponíveis. Deseja-se saber se as médias podem
ser consideradas diferentes. Admite-se que as medidas amostrais
flutuam de acordo com a curva normal.
Como os dados flutuam normalmente, as médias amostrais também
flutuam normalmente com variâncias desconhecidas e iguais a σ 1 N1
2
-- I
I
e σ 2 N 2 . A diferença entre as médias amostrais, D = X 1 − X 2 , flutua
2
com variância σ D2 = σ 12 N1 + σ 22 N 2 . Se as populações são similares,

I I
σ D2 = σ 2 [1I N1 + 1I N 2 ], σ 12 = σ 22 = σ 2 .
Admitindo-se que as médias são iguais, porque as populações são
semelhantes, e que se conhece a variância verdadeira dos dados σ2,
então a variável:
D
u= (3.34)
σD
tem distribuição normal, com média zero e variância igual a 1. Assim,
−u1σ D < D < −u2σ D (3.35)
Se a variância real não é conhecida, admitindo-se que os conjuntos
são similares e que têm a mesma variância verdadeira, então:
ν 1s12 +ν 2 s22
s2
1+ 2 = (3.36)
ν 1 +ν 2
é uma estimativa melhor da variância da medida, com ν1 + ν2 graus de
liberdade. Assim,
 1 1 
sD2 = s12+ 2  +  (3.37)
N
 1 N 2 
é uma estimativa da variância de D com ν1 + ν2 graus de liberdade.
Logo, a variável
D
t= (3.38)
sD
segue a distribuição t, com ν1 + ν2 graus de liberdade, de forma que
−t1sD < D < −t2 sD (3.39)

Exemplo 3.19 – O desempenho de dois tipos de gasolina é apre-

sentado abaixo:
Gasolina 1 2
Milhas/galão (média) 22.7 21.3
Desvio padrão amostral 0.45 0.55
Número de carros que foram medidos 5 5
D = X 1 − X 2 = 1.4
ν 1s12 +ν 2 s22 4 ⋅ 0.452 + 4 ⋅ 0.552
s2
1+ 2 = = = 0.2525
ν 1 +ν 2 4+4
 1 1  1 1
sD2 = s12+ 2  +  = 0.2525  +  = 0.101
 N1 N 2  5 5
D
t= = 4.405
sD = 0.3178 sD
Para 8 graus de liberdade e 95% de confiança,
– 2.306 < t < 2.306

Conclui-se, portanto, que o valor observado de t é pouco provável
e que as gasolinas são diferentes com 95% de confiança.
É importante observar que testes similares podem ser utilizados
para verificar se uma determinada média difere significativamente
de zero, por exemplo. Este teste é bastante importante para a esti-
mação de parâmetros, como será visto nos capítulos posteriores.
3.4.2. Testes Adicionais para a Variância

variância σ2X, obtidas com número elevado de graus de liberdade e
consideradas iguais aos valores verdadeiros. Deseja-se saber se uma
nova variância amostral s2X, obtida a partir de um novo conjunto de
dados de tamanho N, é compatível com os dados passados. Admite-se
que as medidas amostrais flutuam de acordo com a curva normal.

s X2
χ = (N − 1) 2
2
(3.40)
σX
segue a distribuição χ , com ν=N graus de liberdade. Logo,

2
σ X2 σ X2
χ 2
< sX < χ2
2 2
(3.41)
(
1
N − 1) (N − 1)
3.4.3. Testes Adicionais de Aleatoriedade
variância σ2X, obtidas com número elevado de graus de liberdade e
consideradas iguais aos valores verdadeiros. Deseja-se saber se as
flutuações das medidas amostrais em um conjunto de tamanho N
podem ser admitidas normais.
X =L
N (
2
;
X -
Jlx )? -
(3.42)
r=l (JX
segue a distribuição χ2, com ν=N graus de liberdade. Logo,

χ12 < χ 2 < χ 22 (3.43)
Condição especial 2 – Deseja-se saber se as flutuações das medidas

amostrais em um conjunto de tamanho N podem ser admitidas
normais.
2
x −X 
N
χ2 = ∑ i  (3.44)
i =1  sX 
segue a distribuição χ , com ν=N – 1 graus de liberdade. Logo,

2
χ12 < χ 2 < χ 22 (3.45)
Condição especial 3 – Deseja-se saber se as flutuações das medidas

amostrais em um conjunto de tamanho N seguem uma distribuição
estatística particular.
Esse problema pode ser tratado de forma mais rigorosa usando-se
as ferramentas de estimação de parâmetros apresentadas nos próximos

capítulos. No entanto, uma técnica muito usada consiste em construir

uma tabela na forma:
Intervalo Limites do Probabilidade Número total
Intervalo do Intervalo de observações
1 x0 < x < x1 1/NI N1
2 x1 < x < x2 1/NI N2
... ... ... ...
NI xNI-1 < x < xNI 1/NI NNI
que divide o domínio de definição da distribuição que está sendo testada

em NI intervalos igualmente prováveis. Então, o número de observações
efetuadas em cada intervalo é distribuído na tabela. Para analisarmos
os dados, é conveniente observar que um ponto experimental pode
estar ou não no intervalo considerado (2 respostas são possíveis) e que
a probabilidade de acerto (1/NI) é conhecida. Logo, o número provável
de pontos colhidos em cada intervalo pode ser previsto com a curva
binomial. Os valores observados são então comparados com aqueles
obtidos pela curva binomial, para um dado grau de confiança. Se todos
os valores observados estão em conformidade com a previsão efetuada
com a distribuição binomial, então a curva de probabilidade original-
mente proposta pode ser considerada plausível; caso contrário, a curva
de probabilidade proposta deve ser descartada. Se N é o número total
de pontos considerado, um procedimento heurístico consiste em fazer
NI = N . Sabe-se que se NI < 5, o poder de discriminação dessa técni-
ca é muito baixo, o que mostra uma vez mais a necessidade de grande
número de réplicas para um ajuste adequado da curva de distribuição
de probabilidades.
Exemplo 3.20 – No Exemplo 3.5 foi gerada a seguinte seqüência de

pontos experimentais que seguem uma distribuição uniforme:
Tabela 3.10 - Números aleatórios com distribuição uniforme no intervalo (0,1),

gerados como no Exemplo 3.5
0.0109 0.1194 0.3298 0.3970 0.4607 0.6282 0.7481 0.8654
0.0306 0.1610 0.3369 0.4055 0.4766 0.6725 0.7573 0.9101
0.0316 0.2291 0.3416 0.4423 0.5192 0.6732 0.7680 0.9237
0.0498 0.2430 0.3475 0.4476 0.5202 0.7062 0.7706 0.9493
0.0680 0.3138 0.3665 0.4518 0.5482 0.7227 0.8227 0.9702
A média e variância amostrais são iguais a:

40
∑x i
X= i =1
= 0.4884
40
40
∑ (x − 0.4884 )
2
i
sx2 = i =1
= 0.07952
39
s X = s X2 = 0.2820
Deseja-se saber se a curva normal pode representar de forma ade-
quada esse conjunto de dados aleatórios. Para isso, admitindo que
µ X = X , que σ X2 = s X2 e que NI = 40 = 6 , monta-se a seguinte
tabela de distribuição dos dados.
Tabela 3.11 - Distribuição dos pontos da Tabela 3.10 em intervalos

de igual probabilidade da curva normal
Limites do Probabilidade Número total
Intervalo
Intervalo do Intervalo de observações
1 −∞ < x < 0.2156 1/6 7
2 0.2156 < x < 0.3669 1/6 8
3 0.3669 < x < 0.4884 1/6 7
4 0.4884 < x < 0.6099 1/6 3
5 0.6099 < x < 0.7612 1/6 7
6 0.7612 < x < ∞ 1/6 8
Os limites de confiança de 95% obtidos a partir da curva binomial,

com m=40 e p=1/6 (ver Seção 2.1) são 2 (PAC(2;40,1/6)≅0.025) e 12
(PAC(12;40,1/6)≅0.975). Logo, o número de observações em cada
um dos intervalos analisados deve estar entre 2 e 12, com 95% de
confiança. Como essa condição é satisfeita em todos os intervalos
da Tabela 3.11, não é possível dizer que os dados da Tabela 3.10,
gerados segunda uma distribuição uniforme, não seguem uma
distribuição normal. Vê-se uma vez mais como é difícil definir de
forma inequívoca a curva de distribuição de probabilidades que rege
um determinado problema físico. A Figura 3.10 confirma claramente

o resultado e mostra como pode ser difícil discriminar diferentes

curvas de densidade de probabilidade mesmo quando um número
razoável de pontos está a disposição, como no caso proposto.
1.0
-..='
!!!!
'!!)
lUI
E
~:;,.o
,(,
~
151
~
:s
!Ill
..1:1
;:
=-..
Figura 3.10 - Ajuste normal aos dados da Tabela 3.10.
3.4.4. Testes Adicionais de Independência dos Dados

Condição especial 1 – Dois conjuntos de dados com (X , s X2 , N ) e
(Y , sY2 , N ) estão disponíveis. Deseja-se saber se os dados podem estar
correlacionados. Admite-se que as medidas amostrais flutuam de
acordo com a curva normal.
Nesse caso, a medida de dependência é dada pela covariância ou pelo
fator de correlação (ver Seção 1.6). No entanto, como saber se a medida é
significativa? Um teste bastante simples é baseado na Equação (1.40):
Var {x + y}= Var {x}+ 2Covar {x, y}+ Var {y} (1.40)
Se os dados são independentes, a variância da soma (diferença) é a
soma das variâncias. Se os dados não são independentes, a variância da
soma (diferença) é diferente da soma das variâncias. O teste consiste em
verificar com o teste F se a diferença observada é inferior ou não àquela
que poderia ser causada por mera flutuação aleatória.
Exemplo 3.21 – O seguinte conjunto de dados está disponível:

x: 1 2 3 4 5
y: 1.1 1.9 3 3.9 5.1
que resultam nas grandezas amostrais:

X =3 s X2 = 2.50 s X = 1.5811
Y =3 sY2 = 2.51 s X = 1.5843

2
s XY
s 2
XY = 2.50 ρ XY = = 0.998
s X sY
Para a soma (diferença) de x e y, as grandezas amostrais são:
X +Y = 6 s X2 +Y = 10.1 s X +Y = 3.1639
X −Y = 0 s X2 −Y = 0.01 s X +Y = 0.1
Fixando-se o limite de confiança em 95%, para quatro graus de
liberdade obtém-se:
1
< F < 9.6045
9.6045
Para os dois casos analisados:
, ,
F= ·'.\· - r= O.OI = 0.002 F= ·'.i:'+l' = 10.0 1 = 2.00
(s} +s~ ) 5.0 l ' (s} + s~) 5.01
Vê-se, portanto, que as diferenças observadas na variação das
diferenças não poderiam ser explicadas por flutuações puramente
aleatórias. Assim, pode-se dizer que a covariância (e o fator de
correlação) entre x e y são significativos com 95% de confiança.
O resultado obtido não deve impressionar demais o leitor, pois
esse problema foi, de certa forma, fácil de resolver. Na maior
parte dos casos, poucos pontos resultam quase sempre em baixa
qualidade de resolução dos termos de correlação.
Condição especial 2 – Um conjunto de dados com X , s X2 , N está ( )

disponível. Deseja-se saber se os dados obtidos são realmente alea-
tórios ou se podem estar correlacionados entre si. Admite-se que as
medidas amostrais flutuam de acordo com a curva normal.
Nesse caso, é conveniente definir a função de autocorrelação na
forma:

N- k
L,(x,-Xo)(x,.,.-x.) (3.46)
Cx. -_ -_,_1=~·--------------
N- k- 1
ou na forma:
(3.47)
em que é calculada a covariância (Equação (3.46)) ou a correlação (Equação

(3.47)) de dados amostrais deslocados de k unidades no tempo. Nesse caso,
X 0 é a média amostral dos primeiros N-k valores amostrados, enquanto
X k é a média amostral dos últimos N-k valores amostrados. A função de
autocorrelação pode fornecer importantes pistas sobre a existência de
dinâmica (não aleatoriedade) entre os dados amostrados e sobre a exis-
tência de efeitos experimentais indesejados. No entanto, para evitar a
tomada equivocada de conclusões, a significância dos valores calculados
com a Equação (3.46) deve ser sempre testada, como ilustrado no Exemplo
3.21. Como procedimento heurístico, recomenda-se que (N-k) seja sempre
igual ou superior a 20 para uso eficiente das Equações (3.46-47).
Fundamentalmente, a função de autocorrelação mostra se existe
uma memória entre dados que se sucedem em uma série de dados. Se
existe uma relação determinística entre os dados (por exemplo, os dados
representam a resposta de um processo a uma dada perturbação), as
correlações são significativas e se aproximam do valor unitário. Se os
dados são corrompidos por erros experimentais e/ou as perturbações
do processo são muito freqüentes, as correlações tendem a diminuir
à medida que o atraso k aumenta. Dessa forma, é possível definir um
horizonte de memória do processo, que é o máximo valor de k para o
qual ainda se observam correlações significativas entre os dados. Essa
informação pode ser fundamental em vários problemas.
Um exemplo típico de aplicação prática dos espectros de autocor-
relação é a análise do comportamento dinâmico de processos. Se um
processo opera em condições estacionárias (todas as variáveis se mantêm
aproximadamente constantes ao longo do tempo), as flutuações dos da-
dos refletem apenas os erros de medida e operação do processo (ou seja,
as flutuações são essencialmente aleatórias), de forma que o espectro
de autocorrelação deve apresentar correlações muito próximas do zero

para qualquer valor de k considerado. Assim, se correlações pronuncia-

das são observadas para valores de k baixos, esse é um indício claro de
que o processo opera de forma dinâmica na freqüência de amostragem
dos dados e que qualquer tentativa de interpretação dos dados deve ser
feita à luz de um modelo dinâmico do processo. Portanto, o espectro de
autocorrelação auxilia na definição da melhor estratégia de modelagem
matemática dos dados disponíveis. Além disso, o máximo valor de k
para o qual as correlações ainda podem ser consideradas significativas
(kmax) é uma constante de tempo que caracteriza o processo e o procedi-
mento de amostragem. Esse dado pode conter importante conteúdo de
informação para a implementação de rotinas de controle de processo e
simulação. Por exemplo, o uso de simuladores estacionários só deveria
ser usado para descrição do processo se os dados estão amostrados
com freqüência inferior àquela definida por kmax, para que seja possível
filtrar a influência dinâmica que um dado da seqüência exerce sobre o
outro. Mais ainda, esquemas de controle devem coletar informações do
processo com freqüência superior àquela definida por kmax, para que seja
possível capturar a informação dinâmica e corrigir efeitos causados por
perturbações indesejadas do processo.
Exemplo 3.22 – Para o conjunto de dados ilustrado abaixo na Fi-

gura 3.11, calcula-se o espectro de autocorrelação da Figura 3.12.
Vê-se de forma clara que as correlações diminuem lentamente,
à medida que a distância entre os dados aumenta, e tornam-se
não significativas após um certo tempo.
;.- A
••
n:::
•..... .. .
••" •i!i
U,fl
• •
• _:• •. "'•·., ,
..........
•
•
• • Ill Ill"
_,. •· "'•· •
IIi ••,.•\ ·~ _..IIi
•\.
,_IIi . ••••1
. . ..
•
.•.
..... ..• ..•r.... ~~c I· "• /..,_,..,
0.:!
01 :m fo.O 11)1)
.\mw. tffil!,i'm , i
Figura 3.11 - Dados amostrados num processo de experimentação.

1.00
11.7S lr
ec"• .
Q
••
._,~,
I
I
n
11.:!~
:! J 4 5 4 1 8 9 ICI II I! JJ I ~ I~ Hi 17 18 19 :!II
lksiCW:aJll('IIIO
Figura 3.12 - Função de autocorrelação para os dados da Figura 3.11.
Considerando-se que correlações da ordem de 0.5 já são bastante

fracas, observa-se na Figura 3.12 que o horizonte de memória
característica do processo é de 16 unidades de amostragem (kmax).
Esse deslocamento dá uma idéia da dinâmica do processo e de quão
longe uma informação inserida no processo de experimentação
permanece influenciando os demais resultados obtidos. Se com-
portamento aleatório fosse desejado, como durante a execução de
réplicas experimentais, os dados deveriam ser recusados.
3.4.5. Testes Adicionais para Outliers

Outlier é a expressão usada genericamente para designar pontos expe-
rimentais que parecem não se adequar a uma distribuição particular de
probabilidades definida pela grande maioria dos demais pontos experi-
mentais. Quase sempre a detecção de outliers visa a eliminação desses
pontos suspeitos de não fazerem parte do conjunto. Essa é uma questão
muito controversa da prática estatística, em particular quando poucos
pontos experimentais estão disponíveis, e será analisada algumas vezes
nos capítulos que seguem. De uma forma cautelosa, como descrito por
E.J. Gumbel (Technometrics, 2, 165, 1960): “A rejeição de outliers em bases
puramente estatísticas é e continua a ser um procedimento perigoso. Sua
existência pode ser a prova de que a população estudada não é, na reali-
dade, o que se assumiu que fosse.”
Se o número de graus de liberdade é pequeno, o melhor teste para
detecção de outliers parece ser primeiramente a repetição da medida ex-
perimental e em segundo lugar a comparação estatística dos resultados
amostrais obtidos quando o candidato a outlier é removido ou adicionado
ao conjunto de dados. Se as comparações resultarem em conclusões de

equivalência, a decisão mais sensata será manter o candidato a outlier

no conjunto de pontos experimentais, a não ser que sobre ele pairem
dúvidas de erros grosseiros.
Exemplo 3.23 – Os seguintes dados foram obtidos para a concen-

tração de uma espécie química em uma solução mineral:
x (ppm): 23.2 23.4 23.5 24.1 25.5
havendo desconfiança de que o último ponto seja na realidade
um outlier. Para analisar a questão, para um grau de confiança
de 95%, o conjunto amostral que contém o outlier:
X = 23.94 s X2 = 0.873 s X = 0.934 ν = 4

22.78 < Jlx < 25 . LO
é comparado com o conjunto amostral que não contém o ou-

tlier:
X = 23.55 s X2 = 0.150 s X = 0.387 ν = 3

22.93 < J-l·:· < 24.17
1 0.873
<F= = 5.82 < 15.101
9.9792 0.150
Como as médias e variâncias obtidas com e sem o outlier são
estatisticamente semelhantes, não parece razoável descartar o
candidato a outlier do conjunto de pontos.
3.5. A Região de Confiança em Problemas

Multidimensionais
Chama-se de região de confiança com probabilidade p àquela região do
espaço de variáveis que concentra uma probabilidade definida e igual a p
das possíveis flutuações observáveis no problema. Em um problema uni-
dimensional, a definição da região de confiança é extremamente simples,
pois consiste simplesmente em descartar as extremidades inferior e supe-
rior dos valores menos prováveis que concentram probabilidades (1-p)/2.
Em um problema multidimensional, no entanto, a definição da região de
confiança pode não ser um problema bem posto, pois diferentes regiões,
com diferentes formas, podem resultar numa mesma concentração de
probabilidades. Essa questão está ilustrada no Exemplo 3.24 a seguir.

Exemplo 3.24 – Considere a distribuição exponencial de probabi-

lidades definida para duas variáveis no Exemplo 2.14.
℘(x1 ; x2 ) = 2e(− x1 − 2 x2 )
Pode-se então construir regiões de confiança com forma quadrada,
com lados de tamanho 2a e centradas ao redor do ponto médio,
na forma:
1+ a 0.5 + a 1+ a 0.5 + a
(− x1 − 2 x2 ) (− x1 )
∫ ∫ 2e dx2 dx1 = 2 ∫ e ∫ e(−2 x2 )dx2 dx1 =
1- a 0.5- a 1- a 0.5- a
1+ a 0.5 + a
 e(− x1 )   e(−2 x2 ) 
2   
 − 1 1-a  −2  0.5-a
cuja confiança depende do valor de a. Como ambas as variáveis
x1 e x2 são estritamente positivas, o maior valor admissível para
a é 0.5 (lados iguais a 1). Portanto, o maior quadrado centrado em
torno da média representa uma confiança de 33.15%.
Alternativamente, pode-se também construir regiões de confiança
com forma retangular, com lados de tamanhos proporcionais a
2:1 e centradas ao redor do ponto médio, na forma:
1+ 2 a 0.5 + a 1+ 2 a 0.5 + a
(− x1 − 2 x2 ) (− x1 )
∫ ∫ 2e dx2 dx1 = 2 ∫ e ∫ e(−2 x2 )dx2 dx1 =
1-2 a 0.5- a 1-2 a 0.5- a
1+ 2 a 0.5 + a
 e(− x1 )   e(−2 x2 ) 
2   
 − 1 1-2 a  −2  0.5-a
De forma análoga, o maior desses retângulos admissível tem
lados iguais a 2 e a 1. Nesse caso, o retângulo máximo admissível
concentra uma confiança de 74.76%. Logo, parece claro que existe
um retângulo com os lados na proporção 2:1 e centrado em torno
do ponto médio que concentra a mesma confiança do quadrado
com lado de comprimento igual a 1. Na realidade, esse retângulo
tem os lados com comprimentos iguais a 1.44 e 0.72, nas direções
de x1 e x2 respectivamente.

Da mesma forma que feita entre o retângulo e o quadrado no

caso anterior, diferentes regiões de forma retangular, circular,
elipsoidal etc., podem ser desenhadas para conter a mesma pro-
babilidade de observação dos dados que a região quadrada pro-
posta inicialmente. Logo, não é possível definir a forma da região
de confiança de forma inequívoca sem que restrições adicionais
sejam impostas ao problema.
3.5.1. A Geometria da Região de Confiança da Curva Normal

Multidimensional
Como mostrado no Exemplo 3.24, não é possível definir uma região de
confiança de forma inequívoca em problemas multidimensionais sem que
se imponham restrições adicionais ao problema. No caso particular da
curva normal multidimensional, uma propriedade muito importante é o
fato de que a curva apresenta a forma de um chapéu ou sino, convergindo
para o valor zero à medida que as variáveis tendem a infinito em quais-
quer direções do espaço. Portanto, é possível desenhar curvas de nível
fechadas, onde a densidade de probabilidade se mantém constante. Por
isso, para o caso da curva normal multidimensional, define-se a região de
confiança com probabilidade p àquela região do espaço de variáveis que é
limitada por uma superfície onde todos os pontos estão associados a um
mesmo valor da densidade de probabilidade e onde a integral da função
densidade de probabilidade é igual a p. O conceito de região de confiança
aqui proposto pode ser facilmente compreendido se imaginarmos que
a função densidade de probabilidade descreve um relevo no espaço e as
superfícies que delimitam regiões de diferentes probabilidades são as
curvas de nível, como mostrado na Figura 3.13:
... ••
_,.
-l.l
..:r n -1 11 i• Jn
.u.taada t.llfro•
Figura 3.13 - Definição da região de confiança para a curva normal

multidimensional.

No caso da curva normal, a definição da região de confiança está

associada ao expoente da Equação (2.72), dado que os demais termos
da equação são constantes e não dependem do ponto experimental
considerado. Sendo assim, as curvas de nível que limitam as regiões de
confiança satisfazem a Equação (3.48) abaixo:
(3.48)
onde c é uma constante que caracteriza o nível da função densidade de

probabilidade e, portanto, o grau de confiança. Quanto menor o valor
de c, maior o grau de confiança, uma vez que a função normal tende ao
zero para valores muito grandes. A região de confiança é então aquela
que satisfaz a Equação (3.49)
(3.49)
constituída pelos pontos interiores em relação à curva de nível.

As Equações (3.48-49) são muito estudadas na Álgebra e caracterizam
um conjunto particular de curvas chamadas de formas quadráticas.
Este nome deve-se ao fato de que, depois de feitas as multiplicações
vetoriais, a Equação (3.48) pode ser colocada na forma:
NX NX
∑ ∑ (v )(x − µ )(x
i =1j =1
−1
ij i i j − µ j )= c (3.50)
que é a generalização de uma polinomial de segundo grau para várias

−1
variáveis. vij é o elemento ij da inversa da matriz de covariâncias de
x.
Como a matriz VX é positiva definida, a curva definida pela Equação
(3.48) é uma forma quadrática muito especial, que recebe o nome de
hiper-elipse; ou seja, uma elipse no espaço de dimensão NX. Portanto,
a região de confiança obtida a partir da curva normal é sempre uma
elipse no espaço de variáveis de dimensão NX. O problema é que o
estudo da Equação (3.48) na forma proposta é bastante dificultado
pelo fato da matriz VX não ser diagonal, o que faz com que todos os
termos quadráticos apareçam, como na Equação (3.50). Portanto, antes
de estudar as características da hiper-elipsóide que define a região de
confiança, é conveniente diagonalizá-la. Para tanto, lembremos do pro-
blema clássico de valores característicos, colocado como encontrar os
números λ (valores característicos) e vetores d (vetores característicos)
que satisfazem a seguinte equação:
VXd = λd (3.51)

ou seja:
(VX − λ I )d = 0 (3.52)
O sistema de equações (3.52) é um sistema linear clássico. Para que

existam soluções não triviais da Equação (3.52), é necessário que a matriz
(VX - λI) seja singular; ou seja, que seu determinante seja igual a zero.
Portanto, a equação:
det (Vx − λ I ) = 0 (3.53)
é a equação que permite calcular os valores característicos do sistema.

Uma vez obtidos os valores característicos do sistema, a Equação (3.51)
pode ser utilizada para que sejam obtidos os vetores característicos.
Como a matriz (VX - λI) é singular, infinitos vetores característicos
satisfazem a Equação (3.51). Para normalizar e definir de forma única
a solução do problema, é conveniente tomar como solução, dentre as
infinitas soluções existentes, aquela cujo vetor tem tamanho unitário.
Deve ser ainda enfatizado que a Equação (3.53) resulta sempre em um
polinômio de grau NX, que portanto admite até NX diferentes raízes ou
valores característicos. Como a matriz VX é positiva definida e simétrica,
é possível garantir que todos os seus valores característicos são números
reais e positivos.
A Equação (3.51) pode ser reescrita de forma compacta, engloban-
do todas as soluções características do sistema ao mesmo tempo, na
forma:
λ1 0 0 
0 λ 0 
VX [d1 d 2 d NX ]= [d1 d 2 d NX ] 2
0 0 
 
0 0 λNX 
(3.54)
que pode então ser usada como definição da matriz diagonal dos valores
característicos e da matriz de vetores característicos na forma:
(3.55)
onde:

1., 0 . .. 0
o A2 o
A= (3.56)
e:
(3.57)
Desta forma, é possível representar a matriz VX como o produto de

matrizes:
VX = DLD–1 (3.58)
onde Λ tem estrutura diagonal.
1 − 1
Exemplo 3.25 – Seja a matriz A =  . Neste caso, os valores
característicos são iguais a: 0 2 
 1 − λ −1  
det (A − λ I ) = det    = (1 − λ )(2 − λ ) − 0 (−1) = 0
 0 2 − λ  
λ 2 − 3λ + 2 = 0
cujas raízes são:
− (−3) ± (−3) − 4 (1)(2 )

2
1
λ= =
2 (1) 2
Assim, os vetores característicos podem ser obtidos como:
1 −1  a   a  a − b = a  a  a 
0 2  b  = 1 b  ⇒  2b = b  ⇒  b  =  0  = d1
          
1 
A solução com tamanho unitário é d1 =   .
0
1 −1  a   a   a − b = 2a   a   −b 
0 2  b  = 2  b  ⇒  2b = 2b  ⇒ b  =  b  = d 2
          

 2
− 
A solução com tamanho unitário é d 2 =  2 .
 2 
 
 2 
 .r2
A =[~ ~]
1 − 
Desta forma, e D= 2 
.

0
.r2 

 2 
Calculando-se a matriz inversa de D como:
D−1 =
1  d 22 −d12 
=
1 
 2 .r.r2  = 1 1 
 
det (D )  −d 21 d11   2  
2 2 
0 2
   0 1 
 2 
chega-se finalmente à representação diagonalizada de A como:

 1 −
2 ..r
 1 0  1 1 
A= 2   

 0

2 

..r
0 2  0 2
 2 
Como além de positiva definida, a matriz VX é simétrica, é possível

mostrar que D–1 = DT, de forma que nos problemas que nos interessam
mais diretamente, é possível escrever:
(3.59)
Substituindo a Equação (3.59) na Equação (3.48), a equação que des-

creve a superfície que envolve a região de confiança ganha a forma:
(3.60)
Finalmente, redefinindo as variáveis do problema como:

(3.61)
a Equação (3.60) ganha a forma;

(3.62)
que tem a forma explícita:

NX
zi2
∑ λ
i =1 i
=c (3.63)
facilmente identificável como uma elipse centralizada no ponto central

e com semi-eixos com comprimentos iguais a cλi . Repare que c, ou
o grau de confiança exigido, não exerce qualquer influência sobre o
formato da região de confiança, excetuando-se obviamente o aumento
proporcional de todos os semi-eixos da elipse. Por isso, quase sempre
o fator c é desprezado durante a análise, já que ele apenas muda de
forma absolutamente proporcional os eixos da elipse. Esses resultados
indicam que as regiões de confiança obtidas para a curva normal para
diferentes níveis de confiança formam uma estrutura semelhante à da
cebola, em que as regiões com maior confiança envolvem completa e
proporcionalmente as regiões de menor confiança.
O conjunto de transformações introduzidas através da Equação (3.61)
representa uma translação para o zero e uma rotação da elipse, de forma a
fazer com que os seus semi-eixos coincidam com os eixos ortogonais e que o
centro da elipse coincida com a origem dos eixos de coordenadas. As transfor-
mações da Equação (3.61) são isométricas, no sentido de que elas preservam
a forma original da figura geométrica, como ilustrado na Figura 3.14.
lJ. U I.J. M J.' U U 1.t •• u

"
• •
Figura 3.14 - Transformações geométricas devidas às mudanças de
coordenadas.
A partir da Equação (3.63) fica relativamente fácil extrair muitas

informações sobre a geometria da região de confiança de um problema
descrito pela curva normal multidimensional. As informações mais
importantes são:

1. A região de confiança da curva normal multidimensional é uma hiper-

elipse, cujos eixos têm comprimentos proporcionais a λi , onde λi,
i=1, ... , NX, são os valores característicos de VX;
2. A assimetria máxima da hiper-elipse que descreve a região de
confiança, ou fator de esfericidade, definida como a razão entre os
comprimentos extremos de seus eixos, pode ser dada por:
λMIN
φ=
F λMAX
3. Como o traço de uma matriz (a soma dos elementos da diagonal prin-
(3.64)
cipal) é igual à soma de seus valores característicos, ou seja,

NX .VX
tr(V,.)= L v. =,LA., (3.65)
1 =1 • =1
o traço da matriz de covariâncias é igual à soma dos comprimentos

quadrados de seus eixos;
4. Como o volume de uma elipse é proporcional ao produto do compri-
mento de seus eixos, conclui-se que o volume da região de confiança
é proporcional à raiz quadrada do produto dos valores característicos
de VX. Como o produto dos valores característicos de uma matriz é
idêntico ao valor do determinante da matriz, é possível escrever
NX
Volume = ~det (V,) =f1 J}:; (3.66)
r-1
Portanto, os valores característicos da matriz de covariâncias VX guar-

dam muitas informações a respeito da geometria da região de confiança
da distribuição normal. Repare que distribuições probabilísticas não
normais podem apresentar geometria da região de confiança bastante
distinta da aqui apresentada.
Exemplo 3.26 – Seja a distribuição de probabilidades exponencial

apresentada a seguir:
 
 1   1   NX xi − µi 
℘(x ) =  NX  NX exp  ∑ − 
 2  τ   τ 
 ∏
i =1 i
i 
i =1 

cujo vetor de médias e matriz de covariâncias são dados por:
 µ1   2τ 12 0 0 
µ   
0 2τ 22 0 
ì =  2  VX = 
   
   2 
µ
 NX  ,  0 0 2τ NX 
A região de confiança da distribuição exponencial pode também
ser obtida explorando-se a simetria da distribuição em torno do
centro e o fato de que a função converge suavemente para o
zero nos limites de infinitamente positivos ou negativos. Assim,
como no caso da curva normal, a região de confiança pode ser
dada pela equação:
onde c é uma constante relacionada ao grau de confiança desejado.

A equação que define a forma da região de confiança é a equação
de 2NX planos, a depender do sinal adotado para o termo na função
módulo. Esses planos cruzam os eixos coordenados nos pontos:
x.r =J11 +..,.,.c

- c. r
Como os planos definidos pela equação se interceptam nos

mesmos 2NX pontos, esses pontos constituem os vértices de um
poliedro regular, cujas faces planas são os planos que conectam
os vértices em cada um dos quadrantes definidos quando os eixos
coordenados são centrados em . O poliedro é formado então
por 2NX faces e 2NX vértices. Os eixos do poliedro são paralelos
aos eixos coordenados, conectam vértices opostos e têm compri-
mentos iguais a 2cτi. Assim, no espaço bidimensional a região de
confiança tem a forma de um losango, com centro em e eixos
paralelos aos eixos coordenados. No espaço tridimensional a re-
gião de confiança tem a forma de um octaedro regular, com faces
,.,
triangulares, centro em e eixos paralelos aos eixos coordenados.
E assim por diante.
É muito importante perceber que a Equação (3.61) sugere uma mu-

dança de variáveis na forma:

(3.67)
onde dij representa o j-ésimo componente do i-ésimo vetor característico

de VX. Se os valores característicos são ordenados de forma que:
λ1 >λ2 > ... >λNX (3.68)
então as variações observadas podem ser decompostas ao longo das
direções definidas pelos vetores característicos, sendo que as variações
são máximas ao longo de d1 (direção que define o maior eixo da hiper-
elipse) e mínimas ao longo da direção dNX (direção que define o menor
eixo da hiper-elipse). Por isso, os vetores característicos são freqüente-
mente chamados de direções principais de variação, enquanto os valores
característicos são usados para definir as direções do espaço ao longo
das quais as variações são mais importantes. Quando um ou mais dos
valores característicos apresentam ordem de magnitude muito inferior
às dos demais, é possível sugerir a redução do número de variáveis do
problema, já que isso indica que uma ou mais combinações de variáveis
permanecem essencialmente constantes no conjunto de dados.
Exemplo 3.27 – Seja o vetor de médias

JL=[!] e a matriz de
100 9
covariâncias VX =   , cujos valores característicos são:
 9 1 
 100 − λ 9 
 = (100 − λ )(1 − λ ) − 81 = λ − 101λ + 19 = 0
2
det   
 9 1− λ  
101 ± 1012 − 4.19

λ=
2
λ1 = 100.81153 , λ2 = 0.18847
Observa-se que as flutuações ocorrem principalmente ao longo da
direção 1, enquanto as flutuações observadas ao longo da direção
2 são comparativamente pouco importantes. Isso sugere que há
apenas uma variável aleatória no problema, e não duas, como
sugerido pela matriz de covariâncias e observações experimentais.
A direção principal de variação pode ser obtida com:

100 9   a   a  100a + 9b = 100.81153 a

 9 1 b  = 100.81153   ⇒ 9a + b = 100.81153 b ⇒
   b 
a = 11.0901b
Para obter o vetor unitário:
11.0901
d1 = 
 1 
 I I ~
⇒ d1 = 11.09012 + 12 = 11.13509
Assim:
1 11.0901 0.9960 
d1 =   = 
11.13509  1   0.0898 
que sugere a seguinte mudança de variáveis:
z1 = 0.9960x1 + 0.0898x2 – 1.1756
que é a verdadeira variável aleatória do problema.
A segunda direção de variação pode ser obtida como,
100 9   a  a  100a + 9b = 0.18847 a

 9 1 b  = 0.18847 b  ⇒ ⇒
     9a + b = 0.18847b
a = – 0.09017b
Para obter o vetor unitário:
 −0.09017 
d2 =  I d 2 I = ~0.09017 + 1 = 1.00406
2 2
 ⇒
 1 
Assim:
1 − 0.09017  − 0.0898
d2 =  =  0.9960 
1.00406  1   
que sugere que a seguinte variável se mantém essencialmente
constante e igual a zero:
z2 = – 0.0898x1 + 0.9960x2 – 1.9022 = 0
Portanto:
x2 = 0.09016x1 + 1.9098 = 0

3.6. Conclusões
Foi mostrado nesse capítulo que, em geral, os parâmetros que caracteri-
zam as curvas de distribuição de probabilidades em problemas estocás-
ticos (em particular a média e a variância) não podem ser jamais obtidos
por métodos empíricos. Nesses casos, é preciso definir procedimentos
consistentes de inferência, a partir de dados amostrados empiricamen-
te. Contudo, as grandezas amostradas constituem também variáveis
aleatórias, sujeitas a flutuações e incertezas. É necessário, portanto,
descrever como essas grandezas flutuam e definir a forma das respectivas
distribuições de probabilidade.
No caso particular de medidas sujeitas a flutuações normais, mos-
trou-se que a média amostral flutua de acordo com a distribuição t de
Student, que pode ser utilizada para fins de determinação dos intervalos
de confiança dos valores amostrados e para comparações entre valores
amostrados em diferentes conjuntos de dados. De forma similar, mos-
trou-se que a variância amostral flutua de acordo com a distribuição χ ,
2
que também pode ser utilizada para fins de determinação dos intervalos
de confiança dos valores amostrados e para comparações entre valores
amostrados em diferentes conjuntos de dados. Contudo, comparações de
variâncias obtidas em diferentes conjuntos de dados podem ser feitas de
forma mais eficiente com o auxílio da distribuição F de Fisher.
Finalmente, foi mostrado que a geometria natural das regiões de
confiança em problemas multidimensionais, descritos adequadamente
pela distribuição Normal, é a geometria das formas elípticas. Nesse caso,
os valores característicos e vetores característicos que caracterizam a
matriz de covariâncias do problema representam respectivamente os
conteúdos de incertezas e as direções características de flutuações do
problema analisado.

Como já discutido no final dos Capítulos 1 e 2, a literatura dedicada à
apresentação e discussão do problema amostral é imensa. Não cabe aqui,
portanto, uma revisão extensa dessa área. O leitor interessado encontrará
centenas de livros que abordam esses assuntos em qualquer biblioteca
dedicada à Matemática e à Engenharia.
Conforme apresentado anteriormente, um texto clássico relacionado
ao uso e aplicação dos conceitos discutidos no Capítulo 3 em problemas
de Engenharia é apresentado em:
Process Analysis by Statistical Methods, D.M. Himmelblau, John Wiley

Um outro texto clássico sobre análise e comparação de dados expe-

rimentais é apresentado por:
Statistics for Experimenters. An Introduction to Design, Data Analysis,
and Model Building, G.E.P. Box, W.G. Hunter e J.S. Hunter, John Wiley
Uma discussão mais formal sobre as propriedades matemáticas as-

sociadas ao problema de inferência estatística e aos testes de hipóteses
é apresentada em:
Probability and Statistical Inference. Volume 1: Probability, J.G. Kalbfleis-
ch, Springer-Verlag, Nova York, 1985.
Probability and Statistical Inference. Volume 2: Statistical Inference, J.G.
Kalbfleisch, Springer-Verlag, Nova York, 1985.
Probability and Statistics. Theory and Applications., G. Blom, Springer-
Verlag, Nova York, 1989.
Textos básicos sobre a álgebra de matrizes e formas quadráticas, em

especial sobre o cálculo de valores e vetores característicos, podem ser
encontrados em
Matrix Computations, G.H. Golub e C.F. van Loan, The John Hopkins
University Press, Baltimore, 1996.
Linear Algebra and Its Applications, G. Strang, Harcourt Brace Jovano-
vich College Publishers, Orlando, 1988.
Advanced Engineering Mathematics, C.R. Wylie e L.C. Barrett, McGraw-
Hill, Nova York, 1985.

1. Suponha que você está insatisfeito com a reprodutibilidade de uma
certa técnica experimental e não pode comprar um novo equipa-
mento e nem pode melhorar a técnica disponível. O que você pode
fazer para melhorar a precisão das análises efetuadas? Será que você
pode obter uma precisão arbitrariamente pequena para uma técnica
experimental? Justifique.
2. Suponha que a análise de dados históricos disponíveis no laboratório

indiquem que a variância de uma certa medida experimental é igual
a σ2 = 1. Como você poderia propor um sistema de amostragem que
reduzisse em 10 vezes a variância das medidas? Justifique.

3. Quatro turmas de operadores trabalham numa empresa química. O

desempenho das quatro turmas deve ser avaliado. Você é o engenheiro
recomendado para isso. Para tanto, você deve analisar os dados de
conversão do reator químico onde se processa a reação. Os dados
disponíveis são os seguintes:
Turma 1 Turma 2 Turma 3 Turma 4

1 0.892 0.850 0.775 0.915
2 0.910 0.875 0.872 0.921
3 0.880 0.880 0.650 0.917
4 0.900 0.842 0.881 0.911
5 0.920 0.900 0.910 0.907
6 0.905 0.910 0.720 0.899
7 0.860 0.891 0.851 0.912
8 0.920 0.905 0.820 0.910
9 0.904 0.870 0.730 0.907
10 0.930 0.865 0.780 0.913
11 0.921 0.880 0.792 0.905
12 0.872 0.891 0.751 0.898
13 0.897 0.832 0.891 0.902
14 0.880 0.886 0.950 0.911
15 0.911 0.872 0.971 0.907
16 0.908 0.907 0.918 0.906
17 0.915 0.652 0.863 0.913
18 0.882 0.871 0.721 0.908
19 0.920 0.915 0.753 0.906
20 0.900 0.870 0.828 0.909
a) Calcule as médias e variâncias amostrais para cada conjunto de
dados;
b) Calcule os intervalos de confiança da média e da variância para cada
conjunto de dados. Explicite as hipóteses usadas;
c) Aplique os testes cabíveis e verifique se as turmas são ou não equi-
valentes;
d) Verifique se os dados de cada grupo podem estar correlacionados aos
dados dos demais;
e) Construa um gráfico na seguinte forma:

Limite Superior de 98% de Confian~a

•
1--..L.- - - - =•- - - - - '"-----MCdia
• • • •
Limite Inferior de 98% de Confian~a
Para cada turma, verifique se há outliers; ou seja, pontos fora da

região de confiança. Podem ser observadas tendências de aumento ou
decréscimo de conversão?
f) Você mandaria alguma turma para treinamento?
4. Seja o conjunto de dados relativos à variável xi retirados do compu-

tador com a rotina RANDOM:
00 10 20 30 40
1 0.1025 0.2217 0.3737 0.8341 0.0910
2 0.1147 0.3344 0.4521 0.4298 0.9511
3 0.9508 0.1351 0.5811 0.6315 0.1223
4 0.7212 0.6227 0.9123 0.4726 0.8711
5 0.4393 0.5111 0.7314 0.6215 0.5661
6 0.6161 0.7502 0.3122 0.5871 0.6161
7 0.0012 0.8192 0.4659 0.2012 0.9813
8 0.1200 0.9095 0.2197 0.3191 0.6715
9 0.8837 0.0195 0.7382 0.4615 0.2328
10 0.4141 0.5823 0.1180 0.9867 0.9142
a) Calcule média e variância para a lista de medidas disponíveis.
b) Faça zi = xi e yi = xi+1. Calcule o coeficiente de correlação entre z e
y. Você consegue observar alguma tendência?
c) Divida os dados em 10 classes, de forma que
Classe1 = 0 ≤ xi ≤ 0 .10 , ...,
Classe10 = 0 . 9 ≤ xi ≤ 1.00
Monte o histograma de freqüência das classes.
d) A distribuição obtida é supostamente uniforme. Os dados confirmam
isso? Admitindo-se que

 0, x < 0

℘(x ) =  1, 0 ≤ x ≤ 1
0, x > 1

calcule a média e a variância esperadas.
e) As médias e variâncias obtidas podem ser consideradas equivalentes
às teóricas? Quais os limites de confiança dos dados obtidos?
5. Suponha que um problema estocástico envolve duas variáveis sujei-

tas a flutuações normais. Suponha ainda que o vetor de médias e a
respectiva matriz de covariâncias são dados por:
x   1 0.9 
x =  1 , , VX =  
 x2  0.9 1 
a) Calcule a forma da região de confiança – faça c = 1 na Equação
(3.48);
b) Calcule as direções principais e interprete os resultados;
c) Como você descreveria a região de confiança, com um nível de con-
fiança correspondente a c = 1, onde você espera encontrar valores
de x1 e x2?
x1min ≤ x1 ≤ x1max
x2min ≤ x2 ≤ x2max
6. Três valores medidos estão disponíveis: 1.0, 1.5 e 8.0.
a) Caracterize estatisticamente os dados;
b) Suponha que o experimentador desconfia do último valor medido.
Que conselho você daria ao experimentador?
c) Admita que um quarto valor é obtido e é igual a 1.3. A sua opinião muda?
E se o quarto valor obtido for igual a 5.0? E se for igual a 9.1?

Estimação
4 de Parâmetros
Antes de começarmos a discutir o problema e o procedimento de es-

timação de parâmetros, é conveniente retornar à Seção 1.1 e à Figura
1.1, para relembrar o processo clássico de construção do conhecimento
científico. As observações experimentais, quando inseridas no contexto
científico, têm como objetivo fundamental permitir que se compreen-
dam os vínculos que existem (e se de fato existem) entre as diversas
variáveis que compõem um problema. O puro exercício de observação
e armazenamento de dados experimentais não constitui um processo
científico. Para que o processo científico se ponha em marcha, é necessário
estabelecer relações, propor explicações, construir e testar teorias. Como
já discutido na Seção 1.1, é muito comum ainda hoje ouvir discussões
sobre a natureza do trabalho científico, classificando os pesquisadores
ora como experimentalistas, ora como teóricos. Essa discussão é vazia
e fútil! Não aceite ser classificado dessa forma! Todo bom pesquisador
exercita o lado experimental (que fornece a matéria-prima básica para
interpretação da realidade e validação de teorias e modelos) e o lado te-
órico (que permite estabelecer as relações entre as diversas variáveis do
problema, tornando assim possível a compreensão dos eventos passados
e a previsão dos eventos futuros). É óbvio que certas pessoas têm mais
afinidade com o computador que com a chave de fendas, e vice-versa. É
por isso que o trabalho conjunto e em equipe é tão importante para o
bom desenvolvimento da pesquisa científica!
Nesse contexto, as técnicas de estimação de parâmetros constituem
as ferramentas básicas para estabelecimento e interpretação dos víncu-
los existentes entre as diversas variáveis de um problema. Como será

discutido nos capítulos seguintes, os procedimentos de estimação de

parâmetros são as ferramentas que tornam possível a interpretação
qualitativa e quantitativa dos dados experimentais, como também a
discriminação das variáveis relevantes de um problema, a construção
de modelos preditivos, a simulação e projeto de processos etc. Dessa
forma, os procedimentos de estimação de parâmetros constituem a
ponte que conecta as observações experimentais à interpretação teórica
e quantitativa do problema. Será surpreendente para muitos descobrir
ao longo dos próximos capítulos que toda a atividade experimental
científica desemboca em procedimentos de estimação de parâmetros,
mesmo quando essa atividade não está sendo aparentemente realizada.
Mais surpreendentemente ainda será descobrir que toda metodologia de
planejamento experimental encontra-se intimamente ligada aos proce-
dimentos de estimação de parâmetros. Afinal, é para isso mesmo que os
experimentos são feitos! Por isso, preste muita atenção nas discussões
que se seguem!
4.1. Modelos, Modelagem e Simulação

Mas, afinal, o que é um modelo? Podemos definir um modelo como uma
estrutura que tenta descrever de forma aproximada a realidade, baseado
em um conjunto de observações experimentais. Um modelo é, portanto,
uma estrutura que estabelece vínculo entre variáveis distintas e permite
explicar os eventos passados e prever de alguma forma o comportamento
do sistema em condições experimentais ainda não realizadas. Se, dadas
certas condições experimentais, um observador é capaz de fazer algum
tipo de previsão sobre o resultado futuro a ser ainda observado, então o
observador dispõe de um modelo.
Como já discutido na Seção 1.1, é importante lembrar que o modelo
não deve ser jamais confundido com a realidade. O modelo é apenas uma
tentativa de explicar a realidade, baseado nas observações disponíveis
e em um conjunto de hipóteses admitidas pelo pesquisador. Nenhum
modelo é capaz de descrever a realidade completamente porque todo
dado experimental é corrompido por erros de medida e porque nem todas
as variáveis podem ser controladas e/ou medidas precisamente durante
os testes experimentais, como já discutido nos capítulos anteriores. Por
isso, o bom pesquisador não tem apego a qualquer modelo e está pronto
a modificá-lo sempre que uma nova observação experimental confiável
(ou seja, que pode ser reproduzida, respeitados os limites impostos pela
incerteza experimental) não pode ser explicada pela estrutura original.
Darwin e Einstein são considerados gênios da humanidade exatamente
porque tiveram a coragem de reinterpretar a realidade sugerida por

um novo conjunto de dados experimentais. O modelo evolucionário e

da relatividade ainda são considerados bons modelos porque as novas
observações experimentais puderam ser previstas e explicadas de forma
adequada com essas estruturas teóricas. Mas quem sabe o que nos reserva
o futuro? É claro que não é fácil propor mudanças em um modelo muito
testado e amplamente aceito pela comunidade científica. Por isso, há de
se ter cuidado com a interpretação dos dados experimentais. Mas há
também de se ter a coragem de propor novas interpretações da realidade.
Não pode haver oportunidade maior para um pesquisador que um dado
experimental que não pode ser explicado pelo modelo!
O modelo pode ser apresentado de várias formas, a depender dos
propósitos do pesquisador, das limitações das observações experimentais
e da complexidade do fenômeno investigado. Algumas dessas formas
são apresentadas a seguir.
4.1.1. O Modelo Matemático

O modelo matemático é aquele que propõe que as relações entre as diver-
sas variáveis de um problema podem ser descritas de forma matemática
precisa. Por exemplo:
y = 5x + 4 z 2 + 1
d2y 1 dy y (0 ) = 0
dy
2
+ = Da y 2 , ,
=0
dx Pe dx dx x=L
No primeiro caso, a relação é explícita: dados os valores das variáveis

x e z, é possível calcular diretamente o valor da variável y. No segundo
caso, a relação é implícita: dados os valores de Pe, Da, L e um certo valor
de x, é necessário primeiramente resolver a equação para achar o valor
de y. (Muitas vezes, a resolução do modelo só pode ser feita com o auxílio
de métodos numéricos sofisticados.) De qualquer forma, em ambos os
casos as relações matemáticas são bem estabelecidas.
A grande vantagem dos modelos matemáticos é que eles podem ser
usados para fazer previsões quantitativas sobre o comportamento futuro
do sistema estudado. Modelos matemáticos são, portanto, ferramentas
fundamentais das ciências exatas, já que são eles que permitem o projeto
de novos processos e equipamentos.
Exemplo 4.1 – Suponha que um vaso de reação tenha que ser

projetado para conduzir a reação
A 
K
→B
Estimação de Parâmetros 203

onde K é a constante de velocidade da reação. Suponha que o

reagente A é fornecido em concentração conhecida CA0 por uma
empresa já estabelecida no mercado e será transformado no pro-
duto B dentro do vaso de volume desconhecido V. O tempo total da
batelada é tB, sendo que é necessário, além de promover a reação,
também descarregar, limpar e carregar o vaso entre bateladas
sucessivas. Esses tempos são representados respectivamente por
tR, tD, tL e tC. Assim, para fazer o projeto da unidade, é necessário
descrever primeiramente o lucro da empreitada. A função lucro
L pode ser escrita como
L(V, tR) = NBV (CA0 – CAf (tR)) $B – NBVCA0$A –
– NB (VCAf (tR))m $O – Vn $I
onde NB é o número total de bateladas realizadas ao longo da vida
útil do equipamento ∆t, dado por
∆t
NB =
(tR + tD + tL + tC )
e $B, $A, $O e $I são respectivamente os preços de mercado para
o produto, o reagente, a operação (que aumenta com o teor de
reagente no final da batelada, por causa da necessária purifica-
ção do produto) e o investimento (que aumenta com o aumento
das dimensões do equipamento). CAf (tR) é o teor residual de A no
produto final.
O primeiro termo da equação do lucro representa os ganhos
obtidos com a venda do produto B; o segundo termo, os custos
devidos à compra do reagente A; o terceiro, os custos operacio-
nais do processo; e o quarto, os custos do investimento. Quanto
maior o tempo de reação, menor o teor residual final de A, maior
a quantidade de produto B e menores os custos operacionais. No
entanto, quanto maior tR, menor o número de bateladas produ-
zidas ao longo da vida útil do equipamento (admite-se que tD, tL
e tC são constantes). Quanto maior o volume V do reator, maiores
são as quantidades produzidas do produto B, mas também maio-
res são os custos operacionais e de investimento. Por isso, deve
haver um ponto ótimo, ou de máximo lucro. O projeto consiste
em achar esse ponto de máximo lucro.
O ponto de máximo pode ser encontrado fazendo-se

∂L
= f1 (V , t R ) = 0
∂V
N B (C A0 − C Af (t R ))$ B − N B C A0 $ A − (VC Af (t R )) $O − nV n −1 $ I = 0
mN B m
e
∂L
= f 2 (V , t R ) = 0
∂t R
∂N B V (C − C (t ))$ − V C $ − (V C (t ))m $  −
∂t R  A0 Af R B A0 A Af R O

∂C Af m NB
(V C Af (t R )) $O = 0
m
−NB V $B −
∂t R C Af (t R )
Repare que as duas equações acima dependem de duas variáveis

(V e tR) e, portanto, podem ser resolvidas usando-se a técnica
matemática adequada para resolução de equações algébricas,
como a técnica de Newton-Raphson. Contudo, é preciso nesse
caso definir quem é a função CAf (tR); ou em outras palavras, como
a concentração de A no reator depende to tempo de reação. Ou
ainda, é necessário definir o modelo matemático que descreve de
forma apropriada a evolução da reação no tempo. Admitindo-se
que a reação é de primeira ordem, então:
dC A
= − K C A , C A (0 ) = C A0
dt
de forma que
Como saber se a reação é de primeira ordem ou que a relação

acima é válida? A resposta correta é: fazendo experimentos e cons-
truindo o modelo. Como saber o valor de K? A resposta correta é:
estimando parâmetros. O engenheiro que usa a informação acima
para fazer o projeto do reator nem sempre percebe que é usuário
dos procedimentos de modelagem e estimação de parâmetros
já executados por um outro observador. Sem o modelo e sem o
parâmetro, o projeto bem embasado é impossível.

4.1.2. O Modelo Conceitual

O modelo conceitual é aquele que estabelece vínculos qualitativos entre
as várias variáveis de um problema, sem que se estabeleçam necessaria-
mente vínculos matemáticos quantitativos precisos. Esses modelos são
muito utilizados em campos da ciência onde a mensuração das variáveis
é complexa ou impossível, como na área de Ciências Humanas, e como
protótipo de modelos matemáticos precisos, a serem desenvolvidos a
posteriori.
Um exemplo clássico de modelo conceitual é o bem conhecido “Com-
plexo de Édipo”, usado para explicar as relações que se estabelecem entre
pais e filhos na Psicologia. Admite-se que os filhos homens disputam a
atenção da mãe com o pai e que a maneira com que se desenrola essa
disputa pode resultar na formação de pessoas adultas saudáveis ou no
desenvolvimento de sérios desvios de comportamento. Repare que a
mensuração das grandezas envolvidas é virtualmente impossível nesse
caso, impedindo a construção de um modelo matemático preciso do
fenômeno. Isso não diminui, no entanto, a importância do modelo nem
impede o seu uso para a solução de problemas reais da Psicologia.
Um modelo conceitual extremamente importante na Engenharia é a
idéia de que a massa, a energia e a quantidade de movimento do universo
se conservam. (O primeiro modelo é chamado de Princípio de Lavoisier; o
segundo modelo é chamado de Primeira Lei da Termodinâmica; o terceiro
modelo é constituído pelas Leis Fundamentais de Newton para o Movi-
mento.) Esse é o ponto de partida para a quase totalidade dos modelos
matemáticos fenomenológicos que se estabelecem nos vários ramos da
Engenharia. Assim, partindo-se do pressuposto de que massa, energia e
quantidade de movimento se conservam, é possível estabelecer vínculos
matemáticos quantitativos precisos entre várias variáveis envolvidas em
um fenômeno físico particular.
Exemplo 4.2 – Suponha que uma massa M0 de água é colocada

em uma caixa d’água, com comprimento L, altura H e largura W.
Suponha que um medidor de nível (bóia) fornece a altura h de
água no interior da caixa d’água em qualquer instante de tempo.
É possível, com essas informações, acompanhar a quantidade de
água consumida?
Sabendo-se que a densidade da água é ρ = 1000 kg/m3, a massa
de água contida no interior da caixa d’água pode ser obtida em
qualquer instante de tempo como
M=ρLWh

Admitindo-se que a massa total do universo (nesse caso, a caixa

d’água) permanece constante, é possível escrever
M0 = M + M C
onde MC é a massa total de água consumida, já que a água não
poderia desaparecer como num golpe de mágica. Portanto
MC = M 0 – ρ L W h
Repare que a equação acima só pode ser escrita depois de se
admitir que a massa total do universo tem que permanecer
constante. O modelo conceitual precede, portanto, o modelo
matemático preciso.
Observe que já se sabe há muitos anos que o Princípio de Lavoisier

não é válido quando os objetos se movem com grande conteúdo de
energia. Nesse caso, é necessário utilizar a Teoria da Relatividade para
acompanhar com maior precisão as variações de massa do universo. A
Teoria da Relatividade admite, entre outras coisas, que existe uma relação
direta entre massa e energia, que assim seriam manifestações distintas
de uma mesma grandeza mais fundamental. O Princípio de Lavoisier, no
entanto, descreve bem o comportamento de sistemas de baixa energia,
constituindo por isso a base de toda a Engenharia Química. Isso mostra
que um modelo não precisa ser completo nem descrever todos os detalhes
da realidade para que seja útil e possa ser usado na prática. Na realidade,
um modelo é útil quando fornece as respostas desejadas, com precisão
compatível com a precisão experimental, com o maior grau de simplici-
dade possível. Utilidade e complexidade não são sinônimos!
4.1.3. O Modelo Físico - A Planta Piloto

Em muitos problemas é inconveniente ou impossível realizar experi-
mentos diretamente no sistema estudado. Por exemplo, em uma fábrica
não há muito espaço para experimentação, uma vez que experimentos
mal-sucedidos podem resultar em acidentes ou em desvios das metas
de produção. Em ambientes naturais, experimentos mal-sucedidos
podem comprometer a saúde do ecossistema e resultar em catástrofes
ambientais. Nesses casos, é comum construir modelos físicos reais do
sistema estudado, as chamadas plantas pilotos. As plantas pilotos são
modelos físicos reais, quase sempre de escala muito inferior à escala dos
sistemas realmente estudados, utilizados para fazer experimentações
e estudos que podem ser vinculados ao comportamento dos sistemas
reais de interesse. Por exemplo, uma planta piloto que produz 10 kg

de plástico por hora pode ser usada como modelo de uma fábrica que
produz 30 toneladas de plástico por hora. Assim, testes de produção
só são efetuados na planta industrial depois de terem sido aprovados
na planta piloto, onde os custos e riscos são muito menores. Também
nesse caso o modelo não deve ser confundido com a realidade, já que
a planta industrial é provavelmente muito mais complexa que a planta
piloto usada para representá-la, em função do maior volume de peças
e equipamentos.
Pode-se de certa forma dizer que um modelo resulta sempre de um
trabalho de investigação em qualquer área do conhecimento, já que o
objetivo central da ciência é correlacionar dados e fatos. Para o enge-
nheiro, pela própria natureza prática e exata da Engenharia, a tarefa de
construir modelos para um sistema atinge o seu clímax quando resulta
num conjunto consistente de relações matemáticas que permita a descri-
ção quantitativa do sistema. Essa atividade é designada genericamente
de modelagem. Para os fins desse livro, define-se especificamente como
modelagem àquelas atividades relacionadas ao desenvolvimento de rela-
ções matemáticas precisas entre as várias variáveis de um problema.
FatO;J
lliilO•tsts s§o Modclo ~ c;:nado
(cilt~S
ratos .sio
.l'\0'' 05 0 modelo gcn
gcrados noYas qucstOcs
HipOtcscs sio 0 modclo C

~\' i S I3S apctr;::i~o*do
Figura 4.1 - O Conceito de Modelagem.
O conceito de modelagem pode ser representado como na Figura 4.1.

Portanto, a representação é similar à utilizada para representar o ciclo
clássico do método científico na Figura 1.1, pois o modelo resulta natural-
mente da compreensão do problema analisado. É importante observar na
Figura 4.1 que o modelo está necessariamente vinculado ao conjunto de
hipóteses efetuadas pelo observador e aos dados experimentais obtidos.
Logo, para que descreva adequadamente dados reais, a modelagem não
dispensa os dados experimentais. MUITO PELO CONTRÁRIO! Apenas os
dados experimentais podem permitir a validação e/ou negação do modelo
criado. Não é possível, portanto, fazer modelagem sem experimentação.
Modelagem sem experimentação é especulação!
As atividades de modelagem são muito importantes nas diversas áreas
da ciência porque são muitas as utilidades de um bom modelo matemático.
Primeiramente, o modelo matemático permite armazenar uma quantidade

enorme de informação experimental. Por exemplo, a Teoria Clássica da

Gravitação diz que a força de atração exercida mutuamente por dois corpos
de massas M1 e M2, separados por uma distância r é igual a
M1 M 2
F =G
r2
Repare que a equação acima substitui os infinitos registros expe-
rimentais possíveis para as forças de atração entre corpos de massas
distintas, separados por distâncias distintas. São 10 símbolos (contando
os sinais e índices) substituindo infinitos registros experimentais. Que
bela concisão! Somemos a essa equação a Segunda Lei de Newton
dv
M =F
dt
e já somos capazes de descrever o comportamento de uma infinidade de sis-
temas físicos reais e de interesse tecnológico. Que enxuto! Que beleza!
Em segundo lugar, como já discutido, os modelos podem ser usados
para prever o comportamento de sistemas de interesse. É a atividade
usualmente denominada de simulação. Modelos são utilizados para
simular o comportamento de sistemas físicos reais. Pode-se definir como
simulação ao uso do modelo que representa o sistema real para estudar o
comportamento do sistema físico real. Podem ser consideradas atividades
de simulação as atividades de projeto, de otimização, de análise de estraté-
gias, de treinamento etc., sempre que o modelo for usado como represen-
tação adequada do sistema real. A atividade de simulação é extremamente
importante do ponto de vista prático, já que resolver equações é em geral
mais barato e mais rápido (além de muito mais seguro) que promover
testes experimentais no sistema físico real. Assim, um teste experimental
o qual a simulação indique que resultará em resposta inadequada não
deve ser realizado. Por outro lado, a realização de um experimento que
a simulação indique que resultará em uma resposta mais adequada do
processo deve ser incentivada. Se a melhoria não for de fato obtida, não se
deve desprezar o modelo ou renegar a atividade de modelagem. Ao invés
disso, deve-se modificar e aperfeiçoar o modelo. Se a resposta obtida for
satisfatória, o modelo é validado e a confiança no modelo e na qualidade
da interpretação do fenômeno físico aumenta.
4.2. Classificação de Modelos

Muitas vezes é conveniente classificar os modelos em grupos distintos,
em função dos diferentes conjuntos de ferramentas e técnicas matemá-
ticas disponíveis para análise.

4.2.1. Modelos Teóricos e Empíricos

Diz-se que um modelo é teórico quando as equações que relacionam as
diversas variáveis do problema são derivadas a partir de pressupostos
teóricos fundamentais, como as leis de conservação de massa, energia e
quantidade de movimento. Pode-se dizer que os modelos teóricos derivam
de modelos conceituais que procuram interpretar o fenômeno físico estu-
dado. Diz-se que o modelo é empírico quando as equações utilizadas para
descrever as relações observadas entre as diversas variáveis do problema
são postuladas, não havendo qualquer pressuposto teórico que justifique
a princípio a relação utilizada. Muito freqüentemente, os modelos teóricos
podem ser propostos a priori, antes mesmo da observação experimental
(o que não significa que modelos teóricos prescindam das observações
experimentais, uma vez que alguns pressupostos teóricos podem não ser
verdadeiros para o problema particular analisado). Por sua vez, o desen-
volvimento de modelos empíricos depende completamente da obtenção
de dados experimentais confiáveis e da criatividade do analista.
Exemplo 4.3 – Considere o problema de mistura num vaso de

processo, como apresentado abaixo:
1111 ~
/
m2
.
fll)
c.........: ..) ~·
Figura 4.2 - Mistura contínua em um vaso de processo.
Admitindo-se que a massa se conserva, é possível escrever a

seguinte relação matemática
m 3 = m 1 + m 2
que é um modelo teórico simples, que relaciona as variáveis do
problema.
Admita que um conjunto de medidas experimentais é obtido em
campo, na forma

m 1 (kg/h) 1.0 2.0 2.0
m 2 (kg/h) 2.0 2.0 1.0

m 3 (kg/h) 3.1 3.9 2.9
Observe que a relação teórica não é obedecida exatamente. No

primeiro caso parece sair mais massa do que entra, enquanto
no segundo e terceiro casos parece acontecer o contrário. Isso
significa que o modelo teórico está errado? Não necessariamente.
Lembre que os instrumentos estão sujeitos a pequenos erros de
medida e que não há precisão absoluta em nenhum processo de
medição. Há que se avaliar de forma mais precisa como os desvios
observados se comparam aos erros de predição. Além disto, quem
garante que não pode haver um pequeno vazamento nas linhas?
Nesse caso, o problema não seria do pressuposto teórico, mas do
inadequado controle experimental. (Aliás, alguém saberia dizer
por que a massa se conserva obrigatoriamente?)
Suponha agora que um modelo empírico será construído a partir
dos dados disponíveis. Nesse caso, propõe-se a priori que
m 3 = α m 1 + β m 2
onde α e β são constantes a serem determinadas a partir das me-
didas experimentais. Para isso, utiliza-se aqui um procedimento
chamado de mínimos quadrados, que consiste em reduzir ao
mínimo as diferenças do quadrado dos desvios observados entre
as medidas experimentais e calculadas. Nesse caso,
3 ~ 3 2
F =""
L (1113J.
·• - 1nJ,
. .. ) =L"" (·n13•, - a . 11,
111 - n "·'ll• )
JJ
i =l l=l
deve ser mínimo. O superescrito e indica o dado experimental,

enquanto o superescrito m designa o dado obtido a partir do
modelo. Para obter o valor mínimo,
∂F 3
(
= ∑ 2 m 3ei − α m 1ei − β m 2ei m 1ei = 0
∂α i =1
)( )
∂F 3
(
= ∑ 2 m 3ei − α m 1ei − β m 2ei m 2ei = 0
∂β i =1
)( )
resultando em

16.7 = 9α + 8β ⇒
α = 0.8882
 
16.9 = 8α + 9 β  β = 1.0882
e no modelo empírico
m 3 = 0.8882m 1 + 1.0882m 2
Repare que nenhum argumento teórico sustenta a relação apresen-
tada acima, mas somente o fato de descrever de forma adequada
os dados experimentais obtidos. Abaixo são mostrados os resulta-
dos experimentais e as previsões obtidas com os modelos teórico
e empírico. Entre parênteses são mostrados os desvios observados
entre a previsão do modelo e o dado experimental.
dado
m 3 (kg/h) 3.1 3.9 2.9 experimental
modelo
m 3 (kg/h) 3.0 (–0.1) 4.0 (+0.1) 3.0 (+0.1) teórico
modelo
m 3 (kg/h) 3.06 (–0.04) 3.95 (+0.05) 2.86 (–0.04) empírico
É importante enfatizar que nesse texto não se faz qualquer diferen-

ciação ou discriminação dos modelos somente pela forma com que foram
gerados. Em outras palavras, não se considera aqui que modelos teóricos
são necessariamente melhores que os modelos empíricos somente porque
estão baseados em pressupostos teóricos. Deixa-se essa questão para o
analista e seu problema particular. De qualquer forma, é importante dizer
que modelos teóricos usualmente permitem extrapolações muito mais
confiáveis que aquelas obtidas com modelos empíricos. Isso ocorre porque
em geral é muito mais razoável admitir que os pressupostos teóricos se
mantenham válidos em ampla faixa de experimentação (Figura 4.3) do que
admitir que a estrutura matemática proposta se mantenha constante ao
longo de todas as possíveis condições experimentais (Figura 4.4). Por isso,
pode-se dizer sem muito rigor que modelos empíricos revelam a estrutura
local das relações existentes entre as diversas variáveis, enquanto modelos
teóricos permitem desvendar uma estrutura muito mais geral a partir de
umas poucas observações experimentais. Por outro lado, modelos empíri-
cos são em geral mais simples e fáceis de derivar, permitindo construção
mais rápida e barata, quando comparada à construção de modelos teóri-
cos mais detalhados do processo. Portanto, não parece surpreendente o
fato de modelos empíricos serem preferidos para realizar interpolações
e desenvolver aplicações em linha, como em algoritmos de controle de
processos. Por essa razão, esse texto dá igual importância aos modelos

teóricos e empíricos, entendendo que cada grupo particular de modelos

encontra também seu nicho particular de aplicações.
_ _ ..,) Oados
==>•hp(>tCSCS
_ _ _ ) Prindpios Modelo Tei>ri<:o
_ _ ..,) Postulndos
Figura 4.3 - O Desenvolvimento de um Modelo Teórico.
___ ) Dados
Modclo Empirico
_ _ _) Estruturas
Figura 4.4 - O Desenvolvimento de um Modelo Empírico.
4.2.2. Modelos Lineares e Não-Lineares

Diz-se que o modelo é linear quando ele satisfaz uma das seguintes
propriedades:
Propriedade 4.1 – Sejam yT = [y1 y2 ... yNY] um conjunto de variá-

veis, chamadas de variáveis de saída ou de variáveis dependentes,
e xT = [x1 x2 ... xNY] um segundo conjunto de variáveis, chamadas
de variáveis de entrada ou de variáveis independentes. Seja ainda
um modelo matemático explícito na forma
 y1   f1 (x1 x2 ... xNX ) 

 y   f x x ... x 
( )
y= 2 = 2 1 2 NX  = f (x ) (4.1)
 ...   ... 
   
y  f (
 NY   NY 1 2x x ... x )
NX 
O modelo matemático explícito da Equação (4.1) é linear se
y = f (α x + β w) = α f (x) + β f (w) (4.2)
onde α e β são escalares quaisquer.

O modelo descrito pela Equação (4.1) é dito explícito porque permite

a obtenção direta dos valores das variáveis dependentes a partir dos
valores das variáveis independentes. A definição de modelo linear é
extremamente importante porque os modelos lineares geralmente per-
mitem a obtenção de soluções analíticas para os problemas de simulação,
otimização e estimação de parâmetros, como será visto adiante.
Propriedade 4.2 – Sejam yT = [y1 y2 ... yNY] um conjunto de variá-

veis, chamadas de variáveis de saída ou de variáveis dependentes,
e xT = [x1 x2 ... xNY] um segundo conjunto de variáveis, chamadas
de variáveis de entrada ou de variáveis independentes. Seja ainda
um modelo matemático implícito na forma
 g1 (x1 x2 ... xNX ; y1 y2 ... y NY ) 

 
 g 2 ( x1 x2 ... x NX ; y1 y 2 ... y NY )  = g (z ) (4.3)
 ... 
 
 NY 1 2
g ( x x ... x NX ; y1 y 2 ... y )
NY 
onde zT = [x1 x2 ... xNY ; y1 y2 ... yNY]. O modelo matemático implícito
da Equação (4.3) é linear se
g (α z + β w) = α g (z) + β g (w) (4.4)
onde α e β são escalares quaisquer.
O modelo descrito pela Equação (4.3) é dito implícito porque não
permite a obtenção direta dos valores das variáveis dependentes a
partir dos valores das variáveis independentes. Nesse caso, diz-se que o
modelo tem que ser resolvido. Uma vez resolvido, a Equação (4.3) ganha
a forma da Equação (4.1). Repare que o significado de resolvido aqui é
muito tênue. Por exemplo, a aplicação de uma técnica numérica permite
resolver o sistema sem que seja necessário encontrar uma solução analí-
tica fechada para o problema. Por isso, na grande maioria das vezes será
admitido neste livro que o modelo matemático tem a forma da Equação
(4.1), mesmo que uma solução analítica fechada não seja disponível para
o problema. Nesse caso, será admitido implicitamente que uma técnica
numérica pode ser usada para resolver o sistema.
Exemplo 4.4 – Seja o modelo matemático implícito a seguir, que

relaciona o conjunto de variáveis dependentes y com o conjunto
de variáveis independentes x

x
g (z ) = C z = [A B ]  = A x + B y
y 
onde C é uma matriz de dimensão NYx(NX+NY), A é uma matriz
de dimensão NYxNX e B é uma matriz de dimensão NYxNY. Nesse
caso,
g (α w + β u) = C (α w + β u) = α C w + β C u =
= α g (w) + β g (u)
Logo, o modelo matricial proposto é linear. Repare que a equação
implícita
x
g (z ) = C z = [A B ]  = A x + B y = 0
y 
pode ser resolvida como
y = –B–1 A x = f (x)
passando a ter a forma explícita, desde que a matriz B possa ser
invertida. Nesse caso,
f (α w + β u) = – B–1 A (α w + β u) = – α B–1 A w –
– β B–1 A u = α f (w) + β f (u)
confirmando a linearidade.
Modelos lineares matriciais como aqui descritos aparecem natu-
ralmente durante a formulação de balanços de massa, com ou sem
reação. Por exemplo, sejam as seguintes reações químicas:
(1) A + B C + D (2) A + C E + F
Então, as seguintes equações de balanço podem ser escritas para
um tanque fechado onde ocorrem as reações:
M A0 − M A − ξ1 − ξ 2 = 0 M B 0 − M B − ξ1 = 0
M C 0 − M C + ξ1 − ξ 2 = 0 M D 0 − M D + ξ1 = 0
M E 0 − M E + ξ2 = 0 M F 0 − M F + ξ2 = 0
onde ξ1 e ξ2 são os graus de avanço das reações 1 e 2 respectiva-
mente. As equações acima podem ser também escritas como:

1 0 0 0 0 0   M A0 − M A   −1 −1
0
 1 0 0 0 0   M B 0 − M B   −1 0 
0 0 1 0 0 0   M C 0 − M C   +1 −1  ξ1 
  +  =0
0 0 0 1 0 0   M D 0 − M D   +1 0  ξ 2 
0 0 0 0 1 0  M E 0 − M E   0 +1
    
0 0 0 0 0 1   M F 0 − M F   0 +1
Exemplo 4.5 – Seja o modelo parabólico apresentado a seguir.

y = x2, então
(α w + β z ) = α 2 w2 + 2 α β w z + β 2 z 2 ≠ α w2 + β z 2
2
Logo, o modelo é não-linear.
Exemplo 4.6 – O conceito de linearidade não é absoluto para uma

equação e depende das variáveis consideradas no problema. Por
exemplo, seja o modelo na forma y = α1 x1 + α 2 x2
2 2
O modelo é linear nas variáveis T = [α1 α2] e não-linear nas

variáveis xT = [x1 x2]. Portanto, é necessário definir as variáveis
consideradas para que o conceito de linearidade faça sentido.
Da mesma forma, seja o modelo matemático implícito abaixo,
que relaciona a variável dependente y com a variável indepen-
dente x
dy
g ( y, x ) = + 4 y , y (0 ) = y0
Fazendo-se
dx
 y w   u   α w1 + β u1 
z =   =α w+ β u =α  1+ β  1 =  
 x  w2  u2  α w2 + β u2 
então
dy dw du
y = α w1 + β u1 ⇒ =α 1 + β 1
dx dx dx
d d d d
x = α w2 + β u2 ⇒ =α ⇒ =β
dw2 dx du2 dx
y = α w1 + β u1 ⇒ y0 = α w10 + β u10

Combinando as duas equações anteriores nos termos da equação

original
dy dw du dw du
=α 1 + β 1 = 1 + 1
dx dx dx dw2 du2
4 y = 4 α w1 + 4 β u1 e
 dw1   du 
 + 4 α w1  +  1 + 4 β u1  ≠ α g (w1 , w2 ) + β g (u1 , u2 )
 dw2   du2 
de maneira que o modelo é não-linear. No entanto, admitindo-se
que x não é uma variável relevante do problema e que não pode
ser manipulada, então
dy
g (y ) = + 4 y , y (0 ) = y0
dx
Fazendo-se
dy dw du
y = α w1 + β u1 ⇒ =α 1 + β 1
dx dx dx
que combinada com a equação original
 dw   du 
α  1 + 4 w1  + β  1 + 4u1  = α g (w1 , x ) + β g (u1 , x )
 dx   dx 
resultando em um modelo linear. Portanto, sempre que a hipótese
de linearidade for levantada, é necessário definir o conjunto de
variáveis que estão sendo consideradas no problema.
4.2.3. Modelos Determinísticos e Estocásticos

Como já discutido na Seção 1.3, modelos determinísticos são aqueles que
associam a cada experimento um resultado experimental bem definido,
enquanto modelos estocásticos associam a cada condição experimental um
conjunto de possíveis resultados, cada qual com uma certa probabilidade
de ocorrer. De maneira pragmática, um modelo determinístico associa a
cada pergunta sempre uma mesma resposta, enquanto modelos estocás-
ticos associam a cada pergunta um conjunto de respostas possíveis, com
diferentes probabilidades. Um modelo estocástico admite, portanto, que
um mesmo experimento pode resultar em diferentes respostas, algumas
muito prováveis, enquanto outras pouco prováveis.

Exemplo 4.7 – Seja o modelo dado na forma
dy
= − y , y (0 ) = y0 ⇒ y (t ) = y0 e − t
dt
Dada uma certa condição inicial, a trajetória dinâmica obtida é
sempre a mesma. O modelo é, portanto, determinístico.
Exemplo 4.8 – Para simular a difusão do composto A num segundo

composto B, monta-se uma rede (ou grid) e trocam-se as posições
de A com um de seus vizinhos B, de forma aleatória, até que A
atinja o outro lado da rede. O tempo (ou número de iterações)
que A demora para atingir o outro lado da rede caracteriza a
velocidade de difusão de A no meio.
j=S
j=l
Figura 4.5 – Rede para Simulação da Difusão.
A simulação é conduzida com a geração de números pseudo-

aleatórios com a equação abaixo
Xk+1 = 11Xk – Trunc (11Xk)
usando como semente inicial o número X0=0.35312356. O pro-
cesso difusivo é simulado com as seguintes regras:
a) Se 0.00 < Xk+1 < 0.25; ik+1 = ik–1; jk+1 = jk; ou seja, a molécula
anda para trás;
b) Se 0.25 < Xk+1 < 0.50; ik+1 = ik; jk+1 = jk–1; ou seja, a molécula
anda para baixo;
c) Se 0.50 < Xk+1 < 0.75; ik+1 = ik+1; jk+1 = jk; ou seja, a molécula
anda para frente;
d) Se 0.75 < Xk+1 < 1.00; ik+1 = ik; jk+1 = jk+1; ou seja, a molécula
anda para cima.

A simulação é interrompida quando ik+1 = 7; ou seja, quando a

molécula atinge a outra extremidade da Figura 4.5. A simulação é
realizada 1000 vezes, usando como semente para o algoritmo de
geração de números pseudo-aleatórios o último número gerado na
etapa anterior. A Figura 4.6 mostra o caminho trilhado pela molécula
na rede de difusão durante a primeira simulação. A Figura 4.7 mostra
o número de iterações obtidas ao longo das 1000 simulações e a qua-
lidade do ajuste exponencial. Pode-se dizer que o tempo característico
de difusão segue a distribuição exponencial. (É curioso observar que
os balanços determinísticos resultam na mesma relação exponencial
com o tempo, mostrando que nem sempre é possível distinguir com
exatidão um modelo determinístico de um modelo estocástico.) O
número médio de iterações necessárias para atingir o lado oposto
da rede é igual a 78, com variância igual a 4442.
I !
.5 -~
-
.... J ~-
i
~
~-
-
1
l
J
Figura 4.6 - Caminho difusivo percorrido pela molécula A durante

a primeira simulação.
Figura 4.7 - Distribuição do tempo necessário para percorrer a rede de

difusão e comparação com o ajuste exponencial (℘(i) = Expon(i-6; 59)).
Modelos e simulações deste tipo são usualmente chamados de

Modelos e Simulações de Monte Carlo.

4.2.4. Modelos a Parâmetros Concentrados e a Parâmetros

Distribuídos
Na Engenharia é muito adequado também classificar os modelos quanto
à forma com que são descritas as variações espaciais das variáveis de in-
teresse. Diz-se que um modeloa parâmetros concentrados ocorre quando
as variações espaciais são desprezíveis e as propriedades não mudam
com a posição. O exemplo clássico é o modelo do tanque de mistura.
Nesse caso, admitindo-se a validade de hipótese de mistura perfeita, as
propriedades são as mesmas em qualquer ponto do espaço. Por outro
lado, diz-se que um modelo a parâmetros distribuídos ocorre quando
as variações espaciais são importantes e não podem ser desprezadas.
Nesse caso há, portanto, heterogeneidade espacial. O exemplo clássico é
o modelo do reator tubular. Veja a Figura 4.8 apresentada a seguir.
• x. ' (a)
(b)
X! •
--·~t~)-·_·_·____·~·~·~9--.
"
Figura 4.8 - Exemplo de sistemas a parâmetros concentrados (a)
e a parâmetros distribuídos (b).
Essa classificação é útil porque os modelos matemáticos que des-

crevem sistemas a parâmetros distribuídos ganham em geral a forma
de equações diferenciais parciais, cuja resolução requer o uso de pro-
cedimentos numéricos bastante específicos. Os modelos a parâmetros
concentrados, por sua vez, quase sempre são constituídos por equações
algébricas ou equações diferenciais ordinárias de primeira ordem, cuja
solução numérica é muito mais simples.
4.2.5. Modelos Estacionários e Dinâmicos

Finalmente, é bastante útil classificar os modelos quanto à dependência
temporal das propriedades e/ou variáveis que ele descreve. O modelo
é dito dinâmico quando uma ou mais variáveis do modelo mudam no
tempo. Aplicações em controle de processos, por exemplo, requerem
estruturas dinâmicas para análise, uma vez que se procura detectar e
corrigir problemas que possam ocorrer com o processo ao longo do tem-
po. O modelo é chamado de estacionário quando as variáveis não mudam
no tempo. O desenvolvimento de projetos de máquinas e equipamentos
em geral parte do pressuposto do comportamento estacionário, para

que seja possível determinar as dimensões ótimas do equipamento e a

condição ótima de operação.
Essa classificação é útil porque os modelos matemáticos que des-
crevem sistemas dinâmicos quase sempre requerem a implementação
de rotinas numéricas de integração, como os algoritmos clássicos de
Euler e Runge-Kutta. Os modelos estacionários, por sua vez, quer se-
jam a parâmetros concentrados ou a parâmetros distribuídos (depois
de implementados os procedimentos de discretização), quase sempre
resultam em sistemas de equações algébricas, a serem resolvidos com
técnicas numéricas clássicas, como de Newton-Raphson, desenvolvidas
para resolução de sistemas de equações algébricas.
Exemplo 4.9 – Seja o modelo abaixo

∂C ∂ 2C ∂C
= D 2 −v −K C
∂t ∂x ∂x
∂C
C (t , 0 ) = C0 C (0, x ) = 0 =0
∂x x=L
que descreve as variações de concentração (C) de um certo reagente

A ao longo da posição axial (x) de um reator tubular de comprimento
L, ao longo do tempo (t). D é o chamado coeficiente de dispersão
do reagente A no tubo; v é a velocidade média do escoamento ao
longo do tubo; e K é a constante de velocidade da reação. A primeira
condição de contorno diz que o reator está inicialmente vazio do
composto A (só contém solvente, por exemplo); a segunda condição
de contorno diz que a concentração da corrente de alimentação é
constante e igual a C0; e a terceira condição de contorno diz que
nada muda a partir da saída do reator.
O modelo acima é um modelo dinâmico a parâmetros distribuí-
dos. A versão estacionária desse modelo, usada freqüentemente
para o projeto de reatores químicos e obtida quando as variações
temporais desaparecem, tem a forma
d 2C dC
0 = D 2 −v −K C
dx dx
dC
=0 C (0 ) = C0
dx x=L

Repare que a complexidade do modelo é bastante menor.

Para resolver o modelo, é bastante comum adotar esquemas de
discretização. Embora isso não seja necessário nos dois modelos
acima, pois soluções analíticas fechadas podem ser desenvolvidas
para ambos os casos, admita que o reator tubular é dividido em
N “fatias” de comprimento ∆L = L/N ao longo do comprimento
L, como representado na Figura 4.9. Nesse caso, em um ponto i
qualquer no interior do reator, é possível escrever
dC Ci +1 − Ci −1
- ≈
dx x = xi 2 ∆L
d 2C
- ≈
-I
dC
dx x = x i + ∆L
I2
−
-I
dC
dx x = x i − ∆L
I2
Ci +1 − Ci Ci − Ci −1
≈ ∆L
−
∆L = Ci +1 − 2Ci + Ci −1
dx 2 x = xi
∆L ∆L ∆L2
de maneira que o modelo estacionário fica na forma de um con-

junto de N equações algébricas
D v
0 = - 2 (Ci +1 − 2Ci + Ci −1 ) − - - (Ci +1 − Ci −1 ) − K Ci , i = 1...N
∆L 2 ∆L
com
C0 conhecido (primeira condição de contorno)
CN+1 = CN (segunda condição de contorno)
que pode ser resolvido com a precisão desejada e imposta pela
discretização (número de “fatias” N).
.i-1 i iXL+ m
, ,,., ()
.,_ -~B
;
.. •
}
....
0
I AL l ~+·
Figura 4.9 - Esquema de discretização de diferenças finitas.
Para o caso muito especial em que N é igual a 1 (a discretização

mais simples possível)

D v
0= (C − 2C + C ) − (C2 − C0 ) − K C1
∆L 2 ∆L
2 2 1 0
com
C0 conhecido (primeira condição de contorno)
C2 = C1 (segunda condição de contorno); e
D v
0= (C − 2 C + C ) − (C1 − C0 ) − K C1
∆L2 2 ∆L
1 1 0
 D v 
 2+ 
 ∆L 2 ∆L 
C1 = C2 = C0
 D v 
 2+ +K
 ∆L 2 ∆L 
De maneira similar, o modelo dinâmico fica na forma
dCi D v
= 2 (Ci +1 − 2 Ci + Ci −1 ) − (Ci +1 − Ci −1 ) − K Ci
dt ∆L 2 ∆L ,
i = 1...N
com
Ci(0) =0 (primeira condição de contorno)
C0(t) conhecido (segunda condição de contorno)
CN+1(t) = CN(t) (terceira condição de contorno)
Assim, para N igual a 1
dC1  D v   D v 
+ 2 + + K  C1 =  2 +  C0
dt  ∆L 2 ∆L   ∆L 2 ∆L 
com C1 (0) = 0
Repare como o esquema de discretização reduz a complexidade
matemática do modelo ao mesmo tempo em que aumenta o
número de equações a serem resolvidas. Repare ainda que o
procedimento de discretização reduziu o modelo estacionário
diferencial original a um conjunto de equações algébricas, redu-
zindo o modelo dinâmico diferencial original a um conjunto de
equações diferenciais ordinárias.

É importante salientar que, uma vez desenvolvido um modelo

matemático, é fundamental que possamos RESOLVÊ-LO. Um modelo
matemático que não pode ser resolvido não tem qualquer utilidade.
Além disso, um modelo matemático mal resolvido é ineficiente. Por
isso, de maneira pouco precisa, pode-se dizer que fazer simulações
é resolver o modelo muitas vezes, para diferentes condições. Pode-se
inclusive dizer que um modelo é o pacote constituído pelas equações
que representam o sistema e as técnicas numéricas que permitem
resolvê-las. Portanto, as técnicas numéricas utilizadas constituem
uma parte importante do modelo utilizado para descrever o processo.
Normalmente não atentamos para este fato porque nos acostumamos
a pensar em modelos explícitos, em que dado x é possível obter y di-
retamente, como na Equação (4.1). Isso nem sempre é verdade, como
mostram os Exemplos 4.8 e 4.9. Às vezes é necessário um pouco mais
de trabalho e criatividade. Daí a enorme importância da Matemática e
da Computação, em particular das ferramentas numéricas, na área de
Modelagem e Simulação de Processos, e mais especificamente para a
disciplina de Estimação de Parâmetros. É importante salientar, no en-
tanto, que para os fins deste livro admite-se que o modelo sempre pode
ser resolvido de forma eficiente pelo analista. É problema do analista,
portanto, resolver o modelo por ele desenvolvido.
4.3. Definição do Problema de Estimação de Parâmetros

Como já discutido exaustivamente ao longo desse capítulo, um problema
fundamental em qualquer trabalho científico é o de correlacionar dados
(construir modelos). No entanto, a construção do modelo envolve a de-
finição de ao menos duas entidades básicas distintas:
a) A estrutura do modelo:
y = α x2 (relação quadrática entre x e y)
y = α eβx (relação exponencial entre x e y)
b) Os parâmetros do modelo: α e β nas relações acima

A estrutura do modelo é a forma funcional através da qual as diversas
variáveis do problema estão relacionadas. Os parâmetros do modelo são
os números que tornam possível a previsão quantitativa das relações
existentes entre as diversas variáveis do problema, através da estrutura
do modelo. Por exemplo, quando se diz que duas variáveis x e y estão
relacionadas linearmente, apenas se estabelece o tipo de relação funcional
que existe entre as duas variáveis analisadas como
y=α x+β

No entanto, para que o modelo seja útil e possa ser utilizado para fazer
previsões ou simulações, é necessário definir adicionalmente quem são
os coeficientes angular (α) e linear (β) da reta. Caso contrário, de pouco
serve o modelo. Repare que a estrutura do modelo pode ser gerada de
diversas maneiras, de forma empírica ou fundamentada em preceitos
teóricos. De qualquer forma, sem os parâmetros, a estrutura pura do
modelo raramente faz sentido.
Exemplo 4.10 – A Lei de Fourier da transferência de calor, gerada

a partir da observação experimental, diz que a taxa de transfe-
rência de calor que se estabelece entre os dois planos opostos de
uma parede é proporcional à diferença de temperaturas existente
entre os dois planos, é proporcional à área de contato entre os
dois planos, e é inversamente proporcional à distância entre os
dois planos (espessura da parede). Levada ao limite infinitesimal
de espessura da parede, a Lei de Fourier ganha a forma
dT
q = −k A
dx
onde q é a taxa de transferência de calor (energia / tempo), A é a área
de contato entre os planos, T é a temperatura e x é o comprimento
medido ao longo da espessura da parede. k é a chamada condutivida-
de térmica do material ((energia comprimento)/(tempo temperatura)).
O sinal de menos indica que o calor flui sempre do lado mais quente
para o lado mais frio; ou seja, flui na direção contrária do gradiente
de temperaturas. Se a condutividade térmica do material é constante
(ou se a parede é suficientemente fina), então
q = −k A
(T2 − T1 )
L
A equação acima é uma equação fundamental para o projeto de
isolamentos. Dadas as características do material isolante (k), do
sistema avaliado (A, T2, T1) e a máxima perda de calor admissível ( q ),
obtém-se a quantidade necessária de isolante (L). No entanto, para
que a equação seja de fato útil, é necessário conhecer o parâmetro
k. A medição e estudo da condutividade térmica de materiais é um
problema fundamental da área de sistemas térmicos.
De outra forma, a aplicação de princípios teóricos rigorosos (e
elegantes) permitem afirmar que as taxas de reação química

observadas em sistemas gasosos diluídos, formados por molé-

culas esféricas rígidas, são proporcionais às concentrações dos
reagentes. Essa dependência funcional é conhecida como Lei de
Ação das Massas e pode ser escrita na forma
NR
R1 + ... + RNR 
→ P1 + ... + PNP
K
R = K ∏C i
i =1
onde Ri designa o reagente i, Pi designa o produto i, R designa a

velocidade da reação (moles / (tempo volume) ), Ci é a concentração
da espécie i (moles / volume) e K é a constante de velocidade da
reação, que depende da temperatura de acordo com a equação
 ∆E 
K = K 0 exp  −
 RT 
que é a conhecida Lei de Arrhenius. K0 é o fator de freqüência da
reação, ∆E é a energia de ativação da reação (energia / mol), R é a
constante universal dos gases (1.9876 cal / (mol K)) e T é a tempe-
ratura absoluta. A Lei de Ação das Massas e a Lei de Arrhenius são
fundamentais para o projeto de reatores químicos e são objetos
de estudo da disciplina de Cinética das Reações Químicas. No en-
tanto, são de pouco valor se os valores do fator de freqüência (K0)
e da energia de ativação (∆E), característicos da reação química
investigada, não são conhecidos.
Um problema fundamental para todos aqueles envolvidos com ativi-

dades científicas, em particular àqueles envolvidos com a compreensão
quantitativa de como uma variável do problema influencia as demais,
é determinar os parâmetros do modelo. Por exemplo, como determinar
q , k, A, L, T, R , C, K0 e ∆E nos problemas do Exemplo 4.10? A resposta
pode ser obtida usualmente das seguintes formas:
a) Fixando alguns valores típicos de projeto para algumas variáveis
independentes. Por exemplo, no caso da troca de calor, os valores do
q máximo admissível e de ao menos uma das temperaturas são nor-
malmente estabelecidos a priori pelas características do projeto;
b) Calculando as variáveis dependentes através do modelo. Por exemplo,
no problema de troca de calor, a espessura de isolante L é obtida como
função das demais variáveis do problema;

c) Medindo variáveis e parâmetros com instrumentação adequada. Por

exemplo, no problema de troca de calor, a área de contato pode ser
obtida medindo-se as dimensões características do meio que está
sendo isolado;
d) Consultando a literatura especializada. Por exemplo, no caso da
troca de calor, um manual pode ser consultado para se observar se
a condutividade térmica do isolante considerado já foi avaliada e
reportada por outros pesquisadores.
Embora o parágrafo anterior induza o leitor a pensar que o problema
de avaliação dos parâmetros é simples, isso não é absolutamente verdade.
Vejamos alguns pontos curiosos.
a) A literatura especializada não fornece todos os dados necessários para
a realização de qualquer projeto. Muito pelo contrário! Quanto mais
importante e relevante o problema do ponto de vista tecnológico e
econômico, menos provável é que se encontrem informações relevan-
tes do problema na literatura pública. Todo engenheiro já passou pela
experiência de procurar dados na literatura sem sucesso. Além disso,
essa estratégia apenas transfere de mãos o problema fundamental
da avaliação dos parâmetros, não o solucionando. Aliás, grande parte
das correlações propostas na literatura resulta de extenso trabalho
de modelagem e estimação de parâmetros realizados por terceiros;
b) A medição de certos parâmetros é virtualmente impossível, seja
porque não existe técnica experimental disponível para esse fim (por
exemplo, para medir os valores de K0 e ∆E que caracterizem uma rea-
ção química), seja porque o parâmetro não tem qualquer significado
físico real (como os coeficientes α e β da correlação empírica linear
ou quaisquer outros coeficientes de natureza empírica), seja porque o
parâmetro é na realidade definido pela relação estabelecida entre as
variáveis fundamentais do problema (como a condutividade térmica
na Lei de Fourier), ou seja, porque nem mesmo a relação existente
entre as variáveis é de fato conhecida.
Por todas as razões apresentadas anteriormente, independentemente
da estrutura ou origem do modelo matemático utilizado, quase sempre
há certos números ou parâmetros que não podem ser medidos nem ava-
liados a priori pelo analista, mas sem os quais não é possível nem usar
o modelo nem estabelecer vínculos entre as variáveis. Como proceder
então nesses casos? A resposta para esse problema constitui o conjunto
de ferramentas conhecidas como técnicas de estimação de parâmetros.
Estimar parâmetros consiste fundamentalmente em inferir os valores dos

parâmetros que não podem ser medidos nem avaliados a priori, a partir
de uma comparação estabelecida entre dados experimentais e um modelo
disponível para o processo, cujo desempenho é afetado pelo parâmetro
de interesse. Estimar parâmetros consiste, portanto, em obter dados
experimentais e comparar esses dados com estruturas que pretendem
explicá-los. Ou seja, estimar parâmetros consiste em exercitar as com-
ponentes experimental e teórica de uma investigação científica.
Exemplo 4.11 – Para o problema da transferência de calor do

Exemplo 4.10, não é possível de fato medir o valor de k. Não existe
um instrumento (“condutivômetro térmico”? ☺ ) que possa ser
conectado ao material para fornecer diretamente o valor de k.
Mas a Lei de Fourier diz que
q = −k A
(T2 − T1 )
L
e que todas as demais grandezas físicas, com exceção de k, podem
ser medidas durante um experimento de troca de calor. Suponha
que um pedaço do isolante considerado é prensado entre duas
paredes de dimensões bem definidas (a espessura L e a área A
medidos), mantidas a temperaturas constantes (T1 e T2 medidos)
através da manipulação da quantidade de calor dissipada por uma
resistência elétrica ( q medido). Nesse caso, suponha que várias
medidas (experimentos) são feitas. Segundo a Lei de Fourier, a con-
dutividade térmica k é o fator de proporcionalidade (coeficiente
angular) existente entre a medida q e o grupo de medidas
A
(T2 − T1 ) .
L
Se essas medidas são lançadas em um gráfico, na forma abaixo,
é possível inferir de alguma maneira o valor de k. Portanto, não
é exagero dizer que o problema de estimação de parâmetros é
equivalente à construção de um sensor virtual (softsensor) para
medição das variáveis que não podem ser medidas diretamente
com instrumentos físicos. Portanto, o “condutivômetro térmico”
é o procedimento de estimação de parâmetros.

k muito alto boa inferencia de k
• •
•
k muito baixo
(T,. T,
A L
Figura 4.10 - Inferência da condutividade térmica do isolante
a partir de outras medidas experimentais.
4.4. Características Fundamentais do

Problema de Estimação de Parâmetros
Embora o procedimento de estimação de parâmetros esteja filosoficamen-
te ilustrado na Figura 4.12, é preciso definir o problema de forma mais
rigorosa e precisa, para que sejam eliminadas quaisquer ambigüidades de
condução do processo e a possibilidade da intervenção deletéria e desavi-
sada do analista. Por isso, é conveniente tentar colocar primeiramente em
palavras em que consiste o procedimento de estimação de parâmetros. Uma
possível definição do problema pode ser apresentada na forma: Estimar
parâmetros é usar um modelo como referência e variar os parâmetros até que as
predições do modelo passem o mais próximo possível dos dados experimentais,
respeitadas as incertezas características da medição.
A definição introduzida acima é bastante interessante porque é com-
posta por um conjunto de palavras-chaves que antecipam a formulação
do problema matemático que caracteriza o procedimento de estimação
de parâmetros. Vejamos como alguns desses elementos fundamentais
caracterizam o problema de estimação ou inferência:
a) Há um modelo de referência. Essa é uma característica fundamental
do processo de estimação de parâmetros. O modelo de referência
serve de molde, em torno do qual os dados experimentais devem ser
encaixados. Portanto, o procedimento de estimação de parâmetros
pressupõe uma tentativa de compreender a realidade experimental e
não pode ser conduzido se o analista não quer ou não tem coragem
de propor uma explicação, seja ela empírica ou teórica, para as suas
observações experimentais. Logo, para o problema de estimação de

parâmetros o modelo é um dado conhecido, cabendo ao analista

prover esse dado.
b) Os parâmetros são variados. Dessa forma, durante o procedimento
de estimação de parâmetros, os parâmetros do modelo são as
verdadeiras variáveis consideradas. Genericamente, durante uma
simulação com o modelo y = f (x; ), admite-se que os parâmetros
α são conhecidos e são feitos estudos sobre como as variáveis inde-
pendentes x influenciam as variáveis dependentes y. O problema
de estimação de parâmetros consiste, ao contrário, em observar
quão longe ou perto dos dados experimentais x e y conhecidos o
modelo passa, quando os parâmetros α são modificados. (Por isso,
não é surpresa que em muitas áreas da Engenharia o problema de
estimação de parâmetros é chamado de problema inverso.) Duran-
te a estimação dos parâmetros podem ser feitas, portanto, muitas
simulações das condições experimentais, para diferentes conjuntos
de valores de parâmetros.
c) O modelo deve passar o mais próximo possível dos dados expe-
rimentais. Logo, o procedimento de estimação de parâmetros
pressupõe a existência de uma métrica; ou seja, de uma função
que mede a distância existente entre os dados experimentais e os
dados previstos pelo modelo. Todo o procedimento de estimação
de parâmetros depende da definição dessa métrica, que em última
análise diz se as previsões feitas com o modelo são boas ou ruins.
Mais ainda, o procedimento de estimação de parâmetros pressupõe
a implementação de algum tipo de rotina de otimização, dado que
as previsões feitas com o modelo não devem estar apenas próximas
aos dados experimentais, mas sim o mais próximo possível. Portanto,
a similaridade entre os dois conjuntos, experimentos e previsões,
deve ser máxima.
d) Devem ser respeitadas as incertezas características da medição.
Logo, não deve ser esquecido que as medidas experimentais contêm
erros e que os erros influenciam o processo de inferência dos
parâmetros. Essa questão é ilustrada na Figura 4.11 apresentada a
seguir. Suponha que dois pares de dados experimentais estão dis-
poníveis para que se estimem os parâmetros característicos da reta.
Como os dados experimentais contêm erros, os valores verdadeiros
dos dados não são conhecidos, mas é possível avaliar uma região
de confiança, com grau de precisão escolhido pelo analista, onde
se espera encontrar os valores verdadeiros. Observe, no entanto,
que a incerteza no dado experimental provoca como conseqüência

uma incerteza na reta que une os dois pares de dados experimen-

tais. Portanto, é fundamental reconhecer que o procedimento de
estimação de parâmetros, por estar baseado na análise de dados
experimentais que contêm um certo grau de incerteza, resulta em
valores que também contêm um certo grau de incerteza. Portanto,
o procedimento de estimação de parâmetros deve ser interpretado
à luz dos conhecimentos básicos da Estatística.
Figura 4.11 - Os pontos ilustram as medidas experimentais. As regiões ovais

indicam as incertezas experimentais. A região hachurada indica onde estão as
possíveis retas que descrevem os dados experimentais.
Baseado na discussão anterior e por conveniência de apresentação,

o problema de estimação de parâmetros é segmentado aqui em três
subproblemas. O primeiro subproblema consiste em definir uma métri-
ca (também chamada de função objetivo) adequada para o problema.
A definição de uma métrica apropriada é de fundamental importância,
pois é baseado nessa métrica que se desenvolve o processo de inferên-
cia paramétrica. O segundo subproblema consiste em achar o ponto de
ótimo da métrica formulada (mínimo ou máximo, a depender da lógica
subjacente à métrica utilizada). Quase sempre, a definição do ponto de
ótimo só é possível com o auxílio de técnicas numéricas. Algumas dessas
técnicas numéricas são apresentadas e discutidas ao longo do Capítulo
5. No entanto, para alguns poucos problemas específicos descritos por
modelos lineares nos parâmetros, é possível encontrar o ponto de ótimo
analiticamente. O terceiro subproblema consiste finalmente em formular
uma interpretação estatística precisa dos parâmetros obtidos e da quali-
dade da previsão efetuada com o auxílio do modelo. Cada um desses três
subproblemas fundamentais é discutido nas seções que seguem.

Exemplo 4.12 – Em conformidade com o Exemplo 4.11, suponha

que o seguinte conjunto de dados experimentais está disponível
q (cal / h) 1050 2000 2950 4000
A
(T2 − T1 ) 10 20 30 40
L (m K)
a partir dos quais pretende-se estimar o valor da condutividade

térmica k. Para simplificar a apresentação e ajudar a fixação da no-
menclatura proposta, o problema é descrito na forma y = α x
 (T2 − T1 ) 
onde x é a variável independente  x = A ,
 L 
y é a variável dependente ( q ) e α é o parâmetro estimado (k). Suponha

ainda que a seguinte métrica é proposta para descrever a distância
entre os dados experimentais e os dados previstos pelo modelo:
NE NE
F =∑ y −y ( ) = ∑ yie − α xie( )
2 2
e m
i i
i =1 i =1
onde NE representa o número total de experimentos analisados

(4, nesse caso) e os superescritos e e c designam respectivamente
os dados medidos experimentalmente e os dados previstos com
o modelo. Repare que, de fato, à medida que a diferença entre os
dados experimentais e os dados do modelo aumenta, F também
aumenta. Desta forma, quanto maior o valor de F, mais distante
as previsões feitas com o modelo estão dos dados experimentais
disponíveis. Para minimizar a distância do modelo aos dados ex-
perimentais deve-se manipular os parâmetros de forma adequada.
Nesse caso, o ponto de mínimo é encontrado quando
∂F NE
= ∑ 2 yie − α xie
∂α i =1
( )(− x )= 0
e
i
Resolvendo a equação acima em termos de α, é possível obter

NE
∑ (y x ) e e
i i
α= i =1
NE
∑ (x )
2
e
i
i =1
Para o caso particular analisado,
α=
(10 ⋅1050 + 20 ⋅ 2000 + 30 ⋅ 2950 + 40 ⋅ 4000 ) = 299000 = 99.67
(10 2
+ 202 + 302 + 402 ) 3000
Admitindo que os dados experimentais xi têm erros desprezíveis,

estando os erros de medição concentrados em yi, e que as medidas
experimentais são independentes, então é possível utilizar as
Equações (1.37) e (1.44) para escrever
∑( { } )⇒ σ
NE NE
∑( )
2 2
Var y  x  e
i
e
i xie σ y2
i
Var {α }= i =1
2
2
α = i =1
2
 NE e 2   NE e 2 
 ∑ xi  ( )  ∑ xi ( )
 i =1   i =1 
que relaciona os erros de medida experimental com os erros
paramétricos. Se os erros de medição são iguais em todas as
condições de experimentação
NE
∑ (x )
2
e
i
σ y2 σ y2
σ =2
α
i =1
2
σ = 2
y NE
=
 2
∑ (x )
NE 2 3000
∑ i  ( )
e e
x i
 i =1  i =1
Observe que a equação acima indica claramente que as incertezas

experimentais viram incertezas paramétricas durante o processo
de estimação de parâmetros. Observe ainda que a natureza das
incertezas paramétricas está intimamente relacionada à natureza
dos erros experimentais (se as hipóteses feitas em relação aos er-
ros experimentais fossem diferentes, a fórmula acima não poderia
ser escrita – há de se caracterizar de forma apropriada os erros
experimentais!), à natureza do modelo (a equação acima só pode
ser escrita para o modelo proposto – cada modelo dá origem a

um problema novo!), à natureza da métrica (a equação anterior

só pode ser escrita para a função objetivo utilizada – cada métrica
dá origem a um problema novo!) e aos valores experimentais me-
didos (se as medidas xi mudarem, mudam os erros paramétricos;
assim, é possível interferir no desempenho do modelo escolhendo
bem as condições experimentais!).
Para o caso particular analisado, se σ y =3000 (cal/h)2, então
2
3000
σ α2 = = 1 ⇒ α = 99.67 ± 2 σ α = 99.67 ± 2
3000
onde foi admitido comportamento normal com aproximadamente
95% de confiança. (O bom procedimento científico talvez nos
obrigasse a escrever α = 100 ± 2, dado que não se deve usar mais
casas decimais que as permitidas pela precisão experimental.
Esse rigor será muitas vezes ignorado ao longo desse texto.) A
hipótese de normalidade será discutida bastante ao longo dessa
e das próximas seções.
O desempenho do modelo pode ser comparado às medidas ex-
perimentais na forma
q e (cal / h) 1050 2000 2950 4000
q m (cal / h) 996.7 1993.4 2990.1 3986.8
ε = q e − q m 53.3 6.6 -40.1 13.2
de maneira que a variância em torno do zero pode ser calculada

como
53.32 + 6.62 + 40.12 + 13.22
σ =2
ε = 1555.6
3
com três graus de liberdade. (O número de graus de liberdade
perdidos durante o procedimento de estimação de parâmetros
é igual ao número de parâmetros estimados. Essa questão será
discutida com detalhes ao longo dessa seção.) Comparando-se a
variância experimental da medida com a variância dos desvios
observados, utilizando-se para isso o teste F com três graus de
liberdade no numerador (desvios de predição observados), infini-
tos graus de liberdade no denominador (admite-se que a variância

experimental da medida é o valor verdadeiro, disponibilizado por

estudo anterior), e 95% de confiança, verifica-se que
1 1 σ 2 1555.6
= < ε2 = = 0.518 < F (3, ∞;0.975 ) = 3.1161
F (∞,3;0.975 ) 13.902 σ y 3000
é satisfeita. Logo, a variâncias experimental característica das medi-

das de y e a variância dos desvios de predição não podem ser conside-
radas diferentes. Portanto, o modelo pode ser considerado bom, com
incertezas de predição comparáveis às incertezas experimentais.
Mais ainda, admitindo-se a normalidade dos erros de medição,
com aproximadamente 95% de confiança os erros de medida são
da ordem de ± 2 σ y = ± 2 3000 ≈ ±110 . Como nenhum dos
desvios observados é maior que isso, não há pontos suspeitos
ou outliers. Assim, tudo indica que o procedimento de estimação
foi bem executado.
Finalmente, como o modelo pode ser usado para fazer previsões
de y a posteriori, é conveniente calcular os erros de previsão com
o modelo. Nesse caso, usando novamente as Equações (1.37) e
(1.44), chega-se a
Var {yˆ }= Var {α x} ⇒ σˆ y2 = x 2σ α2 = x 2
que é a variância de predição inerente ao modelo, uma vez que
foram desprezados os possíveis erros experimentais de x e y.
Toda essa informação está contida na Figura 4.12 abaixo. Observe
como os erros de predição mudam com x e nesse caso particular
crescem, à medida que nos afastamos do zero.
~jl
-1000
3001}
;..
:i:I}IJ!}
1,1)1)1)1
ll
II
•• 2JII .!llll ~
X
Figura 4.12 - Resultados do procedimento de estimação do Exemplo 4.12.
Barras verticais denotam os erros experimentais, a linha cheia é o modelo
e as linhas tracejadas indicam o intervalo de confiança das previsões feitas
com o modelo.

4.5. A Definição da Função Objetivo

Para que seja possível introduzir a noção de proximidade ou distância,
é necessário primeiramente definir uma métrica. Para que se note a im-
portância de introduzir uma definição precisa de uma métrica, a Figura
4.13 ilustra como pode ser difícil decidir que função está mais próxima
dos dados experimentais quando uma transformação matemática precisa
não está disponível.
y
Y =a. +b
p(ux)
Figura 4.13 - Ilustração sobre a necessidade de definir uma métrica.

Qual a função mais próxima dos dados experimentais?
Do ponto de vista estritamente matemático, define-se como uma

função distância entre dois elementos quaisquer x e y de um conjunto,
representada usualmente por d(x,y), uma função que satisfaz os seguin-
tes axiomas:
a) d(x,y) é um número real estritamente positivo; ou seja,
d (x, y ) ∈ ℜ ; d (x, y ) ≥ 0 (4.5)
b) d(x,y) é igual a zero se e somente se x=y; ou seja,
d (x, y ) = 0 ⇔ x=y (4.6)
c) d(x,y) é uma transformação comutativa; ou seja,
d (x, y ) = d (y ,x ) (4.7)
d) d(x,y) satisfaz a desigualdade do triângulo; ou seja,
d (x, y ) ≤ d (x,z ) + d (z, y ) (4.8)

É importante enfatizar que a necessidade de satisfazer os axiomas

apresentados acima guarda estreito vínculo com a nossa idéia de distância
física existente no mundo real. O primeiro axioma exige que a distância
seja um número real positivo mensurável, como usual na nossa escala
de valores. Por exemplo, alguém consegue imaginar o significado de se
associar um número complexo ou um número negativo à distância entre
duas cidades em um mapa geográfico? O segundo axioma generaliza a
idéia de que se dois pontos são diferentes, então a distância entre eles
não pode ser igual a zero. Da mesma forma, não parece fazer sentido
associar um valor diferente de zero para a distância de um ponto a ele
mesmo. O terceiro axioma generaliza a idéia de que a distância entre
dois pontos quaisquer deve ser independente da escolha de qual deles é
considerado como origem ou referência para a trajetória. Finalmente, o
quarto axioma generaliza a idéia de que a trajetória mais curta possível
entre dois pontos é aquela que liga diretamente esses dois pontos. Por-
tanto, as Equações (4.5-8) introduzem formalmente conceitos com que
já estamos bem acostumados a lidar no mundo real.
Exemplo 4.13 – Seja o conjunto dos números reais. Sejam x e y dois

números reais quaisquer. Então d (x, y) = |x – y| define uma métrica
em ℜ. Veja que o primeiro axioma é satisfeito naturalmente pela
função módulo. O segundo axioma também é naturalmente satis-
feito, porque o único número real que tem módulo igual a zero é o
próprio zero. O terceiro axioma também é naturalmente satisfeito,
uma vez que os módulos de números opostos (ou seja, de sinais
distintos) são iguais. Finalmente, para mostrar a desigualdade do
triângulo, suponha sem perda de generalidade que x < y. Então,
< Ix − zI+ Iz − y , z<x


d (x, y ) = Ix − yI = Ix − z + z − yI= Ix − z I+ Iz − y , x < z < y
< x − z + z − y , z>y
 I I I
Por exemplo, se x = 1 e y = 3
< 1 − 0I+ I0 − 3 = 4

d (1,3) = I1 − 3I = 2 = 1 − 2I+ I2 − 3 = 2
< 1 − 4 + 4 − 3 = 4
 I I
Portanto, o valor absoluto da diferença entre dois números reais
é uma medida da distância entre esses dois números.

Para o problema de estimação de parâmetros, os pontos x e y são na

verdade os conjuntos de valores (vetores) que contêm os dados experi-
mentais e os dados calculados com o modelo. Suponha que NE dados
experimentais estão disponíveis e organizados em um vetor de dados
experimentais (ye) e estão sendo comparados a igual número de dados
calculados com um modelo e organizados para representar condições
experimentais semelhantes (ym). Nesse caso, pode-se considerar que ye e
ym são elementos do ℜNE; ou seja, vetores de números reais com dimensão
NE. Nesse caso, qualquer métrica utilizada para descrever uma distância
em ℜNE pode ser também usada para descrever a distância entre os dados
experimentais e os dados calculados pelo modelo.
Exemplo 4.14 – Sejam os conjuntos de dados experimentais e

calculados, representados por ye e ym, constituídos por números
reais. Então
1/ 2
 NE e 2
( e
d y ,y m
) (
=  ∑ yi − yim  )
 i =1 
define uma métrica para o problema de estimação de parâme-
tros. Veja que o primeiro axioma é satisfeito naturalmente pela
função quadrática, que resulta sempre num número real positivo.
O segundo axioma também é naturalmente satisfeito, uma vez
que o único número real cujo quadrado é igual a zero é o próprio
zero. O terceiro axioma também é naturalmente satisfeito, uma
vez que os quadrados de números opostos (ou seja, de sinais
distintos) são iguais. Finalmente, para mostrar a desigualdade
do triângulo, é conveniente lembrar apenas que
(y )= ~(y )
2 2 2
e
− yim yie − yim ⇒
e
− yim = yie − yim
i I i
de maneira que o resultado do Exemplo 4.13 também pode ser

usado aqui para garantir a desigualdade do triângulo.
Portanto, a soma dos quadrados das diferenças entre as com-
ponentes de dois vetores reais é uma medida da distância entre
esses dois vetores.
Os axiomas definidos pelas Equações (4.5-8) permitem definir um con-

junto virtualmente infinito de métricas para o ℜNE. Por exemplo, pode-se
mostrar que as seguintes métricas satisfazem os axiomas propostos:

1/ 2
 NE e 2
(
d1 y e , y m ) (
=  ∑ yi − yi 
m
) (4.9a)
 i =1 
1/ N
 NE e 
( ) (
=  ∑ yi − yim )
N
e m
d2 y , y  , N par (4.9b)
 i =1 
1/ N
 NE N
(
d3 y e , y m ) ( )
=  ∑ wi yie − yim  , wi positivo, N par (4.9c)
 i =1 
 NE e 
(
d4 y e , y m ) =  ∑ yi − yim  (4.9d)
 i =1 
 NE e 2
(
d5 y e , y m ) (
= exp  ∑ yi − yim  − 1 ) (4.9e)
 i =1 
Surge, portanto, intuitivamente a necessidade de perguntar qual
deve ser a melhor métrica para descrever o problema de estimação de
parâmetros. Do ponto de vista estritamente matemático, essa questão
não faz qualquer sentido e todas as expressões acima (e infinitas ou-
tras) podem ser igualmente utilizadas para descrever a distância entre
os pontos experimentais e os pontos obtidos com o auxílio do modelo.
Contudo, um axioma adicional é imposto ao problema de estimação de
parâmetros na forma:
e) d(x,y) deve conter significação estatística.

Por exemplo, um exercício de derivação de uma métrica com signifi-
cação estatística é apresentado a seguir. Suponha para isso que a estru-
tura do modelo está correta; ou seja, que o modelo é perfeito, embora
os parâmetros do modelo sejam eventualmente desconhecidos. Essa
hipótese, chamada de Hipótese do Modelo Perfeito será usada muitas
vezes ao longo do texto e é apresentada a seguir.
Hipótese Fundamental 4.1 – A Hipótese do Modelo Perfeito

Admita que um modelo y = f (x; ) é usado para descrever um
problema físico. O modelo é perfeito se é capaz de descrever exa-
tamente as relações existentes entre as variáveis do problema.
Nesse caso, as medidas experimentais não obedecem exatamente

as relações impostas pelo modelo única e exclusivamente por

causa dos inevitáveis desvios experimentais. Nesse caso,
.
A Hipótese do Modelo Perfeito é obviamente uma idealização sobre

a compreensão do problema físico e impossível de ser atendida com-
pletamente, pois já foi extensamente discutido que nenhum modelo
descreve todos os detalhes da realidade. Dessa forma, nenhum modelo
pode ser de fato perfeito. A despeito disso, admitimos que a estrutura do
modelo matemático utilizado para representar os dados experimentais
é muito boa. Portanto, qualquer desvio eventualmente observado entre
o dado experimental e o dado calculado com o modelo é devido única
e exclusivamente às incertezas experimentais. Admita, portanto, que
ye = ym + ε, onde ye é o valor observado experimentalmente, ym é o valor
calculado pelo modelo e ε é o desvio entre estes dois valores devido ao
erro experimental. Na realidade, ε deve conter também os erros de mo-
delagem, desprezados quando se utiliza a hipótese do modelo perfeito.
No entanto, é muito difícil usar uma outra hipótese para o trabalho de
estimação de parâmetros a priori, pois se os erros de modelagem fos-
sem conhecidos, o modelo poderia ser melhorado e não haveria razão
a princípio para se utilizar o modelo errado.
Se os erros são aleatórios e simétricos, espelhando um bom proce-
dimento experimental, espera-se que eles tenham média igual a zero.
Essa é uma das hipóteses fundamentais associadas à natureza dos da-
dos experimentais, chamada de Hipótese do Experimento Bem-Feito.
Admite-se que, se o experimento é bem-feito e o modelo é perfeito, o
erro experimental não deve apresentar qualquer tipo de tendência ou
polarização, flutuando em torno do valor zero. Dessa maneira, o valor
médio esperado para o experimento é o próprio valor calculado com o
modelo, pois
{} { } { }
E y e = E y m + ε = E y m + E {ε }= E y m = y m { } (4.10)
Se o experimento é bem-feito, não hárazão para acreditar que o erro

experimental é maior que o erro mínimo inevitável, devido às incertezas
experimentais. Em função da hipótese do experimento bem-feito, uma
avaliação da variância dos erros experimentais pode ser feita na forma
NE
∑ (y )
2
e
i −y
m
i
(4.11)
σ =
2 i =1
ν
y

onde ν é o número de graus de liberdade. A Equação (4.11), segundo o

Exemplo 4.14, constitui uma métrica para o problema de estimação de
parâmetros. Portanto, deseja-se minimizar a função
NE
FObj = ∑ yie − yim ( )
2
(4.12)
i =1
que é uma métrica com interpretação estatística precisa.
Hipótese Fundamental 4.2 – A Hipótese do Experimento Bem-Feito

Diz-se que o experimento é bem-feito se os erros de medição come-
tidos durante a condução dos procedimentos experimentais são tão
pequenos que é possível admitir que a probabilidade de encontrar
os dados experimentais é máxima. Alternativamente, diz-se que o
experimento é bem-feito se os erros de medição cometidos durante
a condução dos erros experimentais são equivalentes ao conteúdo
mínimo de erro admissível para o processo de medição.
A Hipótese do Experimento Bem-Feito permeia toda a análise estatís-

tica e numérica do problema de estimação de parâmetros. Do ponto de
vista prático, é difícil não considerar essa hipótese durante a formulação
do problema, já que a negação dessa hipótese condena de certa forma o
conjunto experimental que está sendo analisado. Se os experimentos não
são bem-feitos, ou se os erros experimentais são muito grandes, parece
razoável sugerir ao analista que os dados experimentais sejam medidos
novamente; ou seja, recomenda-se a repetição dos experimentos.
A função objetivo definida na Equação (4.12) é uma medida do erro
experimental, se as hipóteses do experimento bem-feito e do modelo per-
feito são adequadas. Portanto, minimizar essa função objetivo é o mesmo
que dizer que o erro experimental não deve ser superior ao menor valor
possível, em consonância com a hipótese do experimento bem-feito. A
Equação (4.12) define a função objetivo de mínimos quadrados. Deve ficar
claro que apenas a interpretação estatística torna essa métrica melhor
que as demais métricas definidas pelas Equações (4.9a-e).
Exemplo 4.15 – Um exemplo de aplicação da técnica de mínimos

quadrados é o caso clássico da reta. Suponha que
A função de mínimos quadrados fica na forma
NE
P0 hJ = L,(y7
1•1
-a x:- f3t
'

Os valores de α e β são então obtidos minimizando-se o valor

da função objetivo
Há, portanto, duas equações a resolver e duas incógnitas a determinar,

uma vez que os dados experimentais são conhecidos. Portanto:
Nf! (/ x:- a(x;r' - t3x;) =0

-22,
t =l
Nfi:
-22,(y;-
i =l
ax; -13)=0
NE .., N8 NE
ai,(x:r +f3I, (x;)=I, (y;x;)
,.. t•l ,••
Vb~ N6.
a I, (x:)+ /3 NE =
t•l
L(Yn
1•l
resultando em
NE[ ~ {y;x;)]-[~(y;)][ ~(x; )]

a= NE[~(x:f ]-[~(x.')r

Exemplo 4.16 – Um outro exemplo de aplicação da técnica de

mínimos quadrados é o caso clássico da parábola. Suponha que
y m = α x2 + β x + γ
( )
NE 2
FObj = ∑ y − α x ( ) −β x
2
e
i
e
i
e
i −γ
i =1
Os valores de α, β e γ são obtidos minimizando-se o valor da

função objetivo
∂FObj
( )( ( ) )= 0
NE
= ∑ 2 yi − α xie ( ) −β x
e 2 e 2
−γ − xie
∂α i =1
i
= ∑ 2 (y − α (x ) − β x − γ )(− x )= 0
∂FObj NE
e e
2 e e
∂β i i i i
i =1
= ∑ 2 (y − α (x ) − β x − γ )(−1) = 0
∂FObj NE
e e
2 e
∂γ i i i
i =1
Há, portanto, três equações a resolver e três incógnitas a deter-

minar, uma vez que os dados experimentais são conhecidos. A
solução analítica para esse problema pode ser facilmente derivada.
Isto ocorre sempre que o modelo é linear nos parâmetros.
Exemplo 4.17 – Um outro exemplo de aplicação da técnica de

mínimos quadrados é o caso clássico da função exponencial.
Suponha que y = α e β x
NE 2
FObj  β xie 
= ∑  yi − α e 
e
i =1  
Os valores de α e β são obtidos minimizando-se o valor da função
objetivo
∂FObj 
NE
β xie  β xie 
= ∑ 2  yi − α e  −e  = 0
e
∂α i =1   

∂FObj NE
 β xie  β xie 
= ∑ 2  yi − α e  −α xi e  = 0
e e
∂β i =1   
Há, portanto, duas equações a resolver e duas incógnitas a deter-
minar, uma vez que os dados experimentais são conhecidos. Uma
solução analítica para esse problema não pode ser derivada. Isto
ocorre por causa da natureza não-linear do modelo. A solução do
problema requer, portanto, o uso de técnicas numéricas como as
que serão discutidas no Capítulo 5. A necessidade de usar técnicas
numéricas para resolver um problema supostamente tão simples
mostra que não é possível, de maneira geral, conduzir estudos
de estimação de parâmetros longe do computador. O usuário de
procedimentos de estimação de parâmetros deve estar, portanto,
habilitado a utilizar procedimentos numéricos de estimação.
Uma maneira comum de propor uma solução analítica para o
problema é escrever o modelo na forma
( )
z m = ln y m = ln (α ) + β x = αˆ + β x
e a função objetivo na forma

NE
(
FObj = ∑ zie − αˆ − β xie )
2
i =1
de maneira a poder usar a solução apresentada no Exemplo 4.15.

Deve-se prestar a atenção para o fato, no entanto, de que toda a
significação estatística da função objetivo pode ter sido jogada
fora nesse caso, já que a variável medida efetivamente foi y e não
z=ln(y). (Essa questão será discutida com um pouco mais de deta-
lhes na Seção 5.8 do Capítulo 5.) Além disso, minimizar a função
NE
FObj = ∑ y − y ( )
2
e m
i i
i =1
não é equivalente a minimizar a função
( ( ) ( ))
NE 2
FObj = ∑ ln y − ln y e
i
m
i
i =1

e valores diferentes dos parâmetros estimados provavelmente

serão encontrados. Por isso, o usuário deve resistir o máximo
possível à tentação de introduzir transformações dos dados ex-
perimentais. Voltaremos a esse ponto adiante.
Os Exemplos 4.15 e 4.16 mostram que, para modelos lineares nos pa-
râmetros, a aplicação da técnica de mínimos quadrados admite solução
analítica. Já para o modelo exponencial do Exemplo 4.17 é necessário algum
método numérico para que a solução seja encontrada. Assim, de forma
generalizada pode-se definir um modelo linear nos parâmetros como:
(4.13)
O modelo proposto tem NP parâmetros, αT = [α1 α2 ... αNP], associa-

dos a NP funções fj (x), que transformam as NX variáveis independentes,
xT = [x1 x2 ... xNP], na variável dependente y. Cada uma das variáveis
é medida em cada uma das NE condições experimentais. A função de
mínimos quadrados fica então na forma
2
NE  e NP 
FObj = ∑  yi − ∑ α j f j xie  ( ) (4.14)
i =1  j =1 
Os valores de α são obtidos minimizando-se o valor da função objetivo
em relação a cada um de seus componentes, na forma
∂FObj  e NP 
( ) ( ( ))= 0
NE
= ∑ 2  yi − ∑ α j f j xie  − f k xie k = I. ..NP
∂α k i =1  j =1 
,
(4.15)
que resulta no seguinte sistema de equações
NP
 NE e 
NE
∑ ( ) ( )
α j  ∑ f j xi f k xi  = ∑ yie f k xie
e
( ) , k = LNP
j =1  i =1  i =1 (4.16)
Há, portanto, NP equações a resolver e NP incógnitas a determinar,
uma vez que os dados experimentais são conhecidos. A solução analítica
para esse problema pode ser facilmente derivada se a notação matricial
é utilizada.

Sejam
 NE NE NE

 ∑ f1 ( ) ( ) ∑ ( ) ( )
xie f1 xie f1 xie f 2 xie ∑ f (x ) f (x ) 
1
e
i NP
e
i
 i =1 i =1 i =1

 NE NE NE

∑f
M =  i =1 2
(x ) f (x ) ∑ f (x ) f (x )
e
i 1
e
i 2
e
i 2
e
i ∑ f (x ) f ( )
2
e
i NP
e
x 
i
(4.17)
i =1 i =1 
 
 NE NE NE 
 f
 ∑ NP (x ) f (x ) ∑ f (x ) f (x )
e
i 1
e
i NP
e
i 2
e
i ∑ f (x ) f ( )
NP
e
i NP
e 
xi

i =1 i =1 i =1
e
 NE e
 ∑ yi f1 xi
e
( ) 
 i =1 
 NE e 
 ∑
Yf =  i =1
yi f 2 xie ( ) 
(4.18)

 ... 
 NE 
 y e f xe
 ∑ i NP i ( ) 

i =1
então
M a = Yf ⇒ a = M–1 Yf (4.19)
que é uma solução de enorme importância prática para a teoria de

estimação de parâmetros e planejamento de experimentos. É muito
conveniente ainda definir a matriz
 f1 x1e

( ) f1 xe2 ( ) ... ( )
f1 xeNE 

 f 2 x1e
GY = 
( ) f2 (x ) e
2 ... ( )
f 2 x NE 
e
 (4.20)
 ... ... ... ... 
 
e
 f NP x1 ( ) f NP xe2 ( ) ... e
( )
f NP x NE 
pois assim é possível escrever a solução diretamente em termos das
variáveis medidas na forma
vlt
. I
Q = f) - L Gl y e , y [ = •L'~_ (4.21)
que indica que existe uma relação linear direta entre a medida experi-
mental da variável dependente e o valor estimado para o parâmetro.

Exemplo 4.18 – Suponha que o seguinte modelo está sendo usado

para interpretar um problema físico
y m = α1 x1 + α 2 x2 + α 3 x1 x2 + α 4
onde y representa uma variável dependente que depende de duas
outras variáveis independentes x1 e x2. No problema proposto,
( ) ( )
f1 xe = x1e , f 2 xe = x2e , f3 xe = x1e x2e , f 4 xe = 1 ( ) ( )
Dessa forma,
 x1,1 e e
x1,2 e
x1,3 x1,e NE 
 e 
x e
x2,2 e
x2,3 x2,e NE 
G Y =  e 2,1e
 x1,1 x2,1 e
x1,2 e
x2,2 e
x1,3 e
x2,3 x1,e NE x2,e NE 
 
 1 1 1 1 
 NE e 2 NE NE NE

 ∑ x1,k ( ) ∑ x1,e k x2,e k ∑( ) ∑x
2
x1,e k x2,e k e
1, k 
 k =1 k =1 k =1 k =1

 NE e e NE NE NE

 ∑ x1,k x2,k ∑( ) ∑ x (x ) ∑
2 2
x2,e k e
1, k
e
2, k x2,e k 
M =  NE 
k =1 k =1 k =1 k =1
 NE NE NE 
( )
 ∑ x1,k x2,k ∑ x (x ) ∑ (x ) (x ) ∑
2 2 2 2
e e e e e e
1, k 2, k 1, k 2, k x1,e k x2,e k 
 k =1 k =1 k =1 k =1 
 NE NE NE NE 
 ∑ x1,k
 k =1
e
∑ x2,e k
k =1
∑x
k =1
e
1, k x2,e k ∑i =1
1 = NE 

e
onde xi , k representa a medida da variável independente xi no expe-
rimento k. Portanto, de acordo com a Equação (4.21), existe uma solu-
ção analítica explícita para o problema de estimação de parâmetros,
uma vez conhecidos os dados experimentais. Modelos como esse são
muito úteis para interpretação quantitativa de dados experimentais,
como será discutido no Volume II desta série de publicações.
Suponha que as variáveis independentes não contêm erros e que toda

a flutuação experimental é devida aos erros de medição das variáveis
dependentes Ye. Suponha ainda que dois conjuntos de dados obtidos em
condições análogas são comparados entre si. Nesse caso,

(4.22)
Portanto, os valores dos parâmetros flutuam à medida que flutuam

os valores experimentais obtidos. Se a única fonte de flutuação é o erro
experimental
(4.23)
que relaciona os erros paramétricos com os erros experimentais.

Portanto, se os erros flutuam em torno dos valores verdadeiros com
média igual a zero,
(4.24)
os parâmetros também flutuam em torno dos valores verdadeiros, o que

mostra que o procedimento proposto para estimação de parâmetros é
consistente. Mais importante ainda é perceber que a matriz de covari-
âncias dos parâmetros pode ser calculada como
(aa,)' aa, aa, aa, aa,P

v. = E{A(l t\(1.,.} = E aa, Lla, (Lia,)' Lla, aaNP
-
!1a"" !1a1 lla,vr lla , (lla,vr )'
E{M-' G,. tt" G:; (tw'r}= lVt' G, E{u''} G~. {M-')"

1
V.,. = l\•1"' C r V,. G~ (~' r
(4.25)
Observe que a matriz M é simétrica, de maneira que ela é igual a sua
T
transposta (M = MT, M–1 = (M–1) ). Observe ainda que
 NE NE NE

 ∑ f1 (x ) f (x ) ∑ f (x ) f (x )
e
i 1
e
i 1
e
i 2
e
i ∑ f (x ) f (x ) 
1
e
i NP
e
i
 i =1 i =1 i =1

 NE NE NE

∑f
G Y G TY =  i =1 2
(x ) f (x ) ∑ f (x ) f (x )
e e e e
∑ f (x ) f ( )e e
x 
=M
i 1 i 2 i 2 i 2 i NP i
i =1 i =1
 
 NE NE NE 
 f
 ∑ NP ( ) ( ) ∑
xie f1 xie ( ) ( )
f NP xie f 2 xie ∑ f (x ) f ( )
NP
e
i NP
e 
xi

i =1 i =1 i =1
(4.26)

Dessa forma, se as medidas experimentais são independentes e os

erros de medição são constantes e iguais em todas as condições experi-
mentais, então a matriz de erros experimentais pode ser escrita como
σ y2 0 0
 
 0 σ y2 0
Vy = = σ y2 I (4.27)
 
 
 0 0 σ y2 
onde I é a matriz identidade. Nesse caso, a matriz de covariâncias dos
parâmetros ganha a forma bastante simples
(4.28)
que é utilizada para a interpretação e solução de um grande número de

problemas práticos. A Equação (4.28) mostra que a incerteza dos parâme-
tros depende dos erros experimentais e das condições de experimentação;
portanto, é possível alterar os erros paramétricos através de manipulação
apropriadas das condições de experimentação. A Equação (4.28) constitui
a base fundamental sobre a qual foi erigida boa parte dos procedimentos
de planejamento estatístico de experimentos. É importante observar, no
entanto, que a Equação (4.28) é rigorosamente válida apenas quando uma
longa série de condições é satisfeita: o modelo é perfeito, os experimentos
são bem-feitos, a função objetivo é dada pela função de mínimos quadrados,
o modelo é linear nos parâmetros, os experimentos são independentes e
os erros experimentais são constantes na região de experimentação.
Finalmente, os parâmetros são usados para fazer previsões com o
modelo em qualquer condição x. Usando a notação matricial, o modelo
pode ser escrito na forma
(4.29)
onde
 f1 (x ) 
 
f (x )
B (x ) =  2  (4.30)
 
 
 f NP (x )
que também estabelece uma relação linear direta entre o valor dos parâ-
metros e a previsão da variável dependente em um ponto qualquer x da

região experimental. A matriz B é chamada de matriz de sensibilidades

do modelo em relação aos parâmetros. De forma análoga à realizada
anteriormente,
a>E{(6y')'}=E{Br 4uAu' B}
(4.31)
a'y =BTE{Au AuT} B=BTv• B=(j')' BTM-1 8
que estabelece o vínculo entre os erros de predição, a qualidade dos da-
dos experimentais e o procedimento de estimação de parâmetros. Todas
essas expressões são fundamentais para a perfeita compreensão dos
procedimentos clássicos de planejamento experimental, como discutido
no Volume II desta série de publicações.
Exemplo 4.19 – No problema tratado no Exemplo 4.18, a matriz de

sensibilidades do modelo em relação aos parâmetros é dada por
 x1 
 x 
B (x ) =  2 
 x1 x2 
 
 1 
Repare que a matriz B depende da condição de experimentação
considerada durante os cálculos.
A Equação (4.31) é muito importante para considerações filosóficas

a respeito da propagação de erros e da caracterização da natureza dos
erros cometidos em trabalhos de engenharia. Observe que a Equação
(4.31) vincula os erros dos parâmetros, resultantes do procedimento
de estimação de parâmetros e dos erros experimentais cometidos no
passado, com os erros de predição ou de simulação, que dizem respeito
a experimentos ainda não realizados (ou a serem realizados no futuro).
Portanto, os erros experimentais cometidos nas medições experimentais
passadas se propagam para o futuro indefinidamente, uma vez que os
parâmetros são usados para o projeto de novas unidades e simulações
(extrapolações) de novas condições experimentais. Portanto, parece muito
claro que a correta caracterização dos erros experimentais é fundamental
para a interpretação do desempenho dos modelos de simulação e das
rotinas de projeto, que usarão os parâmetros estimados a partir desses
mesmos dados experimentais em outras situações.

Exemplo 4.20 – Os problemas tratados nos Exemplos 4.15 e 4.16

podem ser analisados no contexto desenvolvido de forma gene-
ralizada para modelos lineares nos parâmetros. Por exemplo, a
reta pode ser escrita como
y m = α1 f1 (x ) + α 2 f 2 (x )
com f1(x) = x e f2(x) = 1. Nesse caso, conforme a Equação (4.17),

a matriz M pode ser escrita como:
 NE e
( ) ∑ (x )
NE
 ∑ xi
2
e
i
M =  NE 
i =1 i =1
 
 ∑ xi
e
( ) NE 
 i =1 
e a sua inversa é
 NE

1  NE −∑ xie  ( )
M =−1  i =1

 NE e 2   NE e 
2
 NE e NE 2
NE  ∑ xi  −  ∑ ( ) ( )xi   −∑ xi ( ) ∑ ( )
xie 
 i =1   i =1   i =1 i =1 
Logo, a variância do parâmetro α1 é dada por

NE
σ 112 = σ y2 2
 NE e 2   NE e 
( )
NE  ∑ xi  −  ∑ xi  ( )
 i =1   i =1 
enquanto a variância do parâmetro α2 é dada por
 NE e 2 
 ∑ xi  ( )
σ 2
=σy
2  i =1 
22 2
 NE e 2   NE e 
( )
NE  ∑ xi  −  ∑ xi  ( )
 i =1   i =1 
É muito curioso observar que os parâmetros α1 e α2 não são
necessariamente independentes, apresentando uma covariância
igual a

 NE e 
−  ∑ xi  ( )
σ 12 = σ y
2 2  i =1 
2
 NE e 2   NE e 
( )
NE  ∑ xi  −  ∑ xi  ( )
 i =1   i =1 
e um coeficiente de correlação igual a
 NE e 
−  ∑ xi  ( )
ρ12 =  i =1 
 NE e 2 
NE  ∑ xi  ( )
 i =1 
Isso quer dizer que um parâmetro influencia o outro; ou seja, se
um dos parâmetros mudar um pouco, o outro também muda. Isso
em geral é ruim, pois mistura a importância dos diferentes efeitos
considerados por cada um dos parâmetros do modelo. O ideal
seria obter parâmetros independentes, embora isso raramente
seja possível. A necessidade de obter parâmetros independentes
durante a análise de modelos de simulação é um ponto central
dos procedimentos de planejamento experimental discutidos no
Volume II desta série de publicações.
Com relação ao erro de predição, definido pela Equação (4.31),
pode-se escrever:
σ 2 σ 122   x 
σˆ y2 (x ) = σ y2 B T M −1 B = σ y2 [x 1] 112 2   (
= σ y2 σ 112 x 2 + 2σ 122 x + σ 22
2
)
σ 12 σ 22    1
 NE   NE 2
( )
x 2 NE − 2 x  ∑ xie  +  ∑ xie  ( )
σˆ y2 (x ) = σ y2  i =1   i =1 
2
 NE 2  NE

( )
NE  ∑ xie  −  ∑ xie  ( )
 i =1   i =1 
onde pode ser observado que mesmo para um modelo linear, o

erro de predição é uma função quadrática com relação à condição
experimental x.
É interessante observar nas expressões dos erros apresentadas
acima que os erros paramétricos aumentam sempre com o au-
mento dos erros experimentais, o que já poderia ser esperado, e
diminuem sempre com o aumento do número de experimentos.
Portanto, à medida que o número de experimentos aumenta

indefinidamente, os erros paramétricos se aproximam continua-

mente de zero.
Exemplo 4.21 – Suponha que um conjunto de dados experimentais

y =  y1e y2e y NE
e
 está disponível e que se deseja representar
o sistema pelo modelo constante ym = α . Nesse caso, segundo a
Equação (4.17), M = [NE]. Segundo a Equação (4.20), GY = [1 1
... 1]. Portanto, segundo a Equação (4.21)
NE
∑y e
k
α= k =1
NE
Logo, a média amostral pode ser interpretada como a melhor
inferência de um modelo constante para um conjunto de dados,
quando se supõe que o modelo constante é perfeito, os experi-
mentos são bem-feitos, a função objetivo é dada pela função de
mínimos quadrados, os experimentos são independentes e os
erros experimentais são constantes na região de experimentação.
Vê-se, portanto, que o contexto de validade da média amostral
proposta no Capítulo 3 pode ser bastante questionado, em bases
técnicas absolutamente legítimas.
Exemplo 4.22 – Uma pergunta pertinente diz respeito à variância

das diferenças entre os dados experimentais e as predições feitas
com o modelo. Suponha um modelo linear na forma
y = B (x)T α
como discutido nesta seção. Nesse caso, as respostas do modelo
são obtidas na forma
ym = B (x)T M–1 GY Ye
Em particular, a diferença entre os dados experimentais e calcu-
lados no ponto experimental k pode ser dada na forma:
yke − ykm = yke − BkT M -1 G Y Y e
Supondo que o modelo é perfeito e que os experimentos são bem-
feitos, é possível escrever

onde µY representa os valores verdadeiros e desconhecidos

das medidas experimentais, por causa do erro experimental ε.
Portanto, µk representa o valor verdadeiro e desconhecido da
e
medida experimental yk . Portanto, a variância entre a medida
experimental e a previsão do modelo no ponto experimental k
pode ser dada por
Vat{J:-.lf} =E{[{>{ -p,)- Jl! )t• Gv <J}=

E{(>{-p.)' -2Jl! ~t·' G, <(J:-p,)+B! M4 G,. u ' G: (M•)' a_}
Se as medidas experimentais são independentes e os erros aos
quais as medidas estão sujeitas são os mesmos,
Var{J:- Jf} =
e{(>~-~. n - 20: M• C,. E{ <V,-p,)}+ U:: ~~· C, E{,.'} C~ (~t ')' u, •
a '-a' 0: M• B, =<r[t-8: ~I'' B,)<a' =E{{yf -p,)'}
onde σ2 é a variância dos erros experimentais. Conclui-se, portan-

to, que a variância das diferenças entre os dados experimentais e
as predições feitas com o modelo é menor que a variância dos erros
experimentais. Assim, se a variância dos erros experimentais for
inferida pela diferença existente entre os dados experimentais e
as predições do modelo, é necessário levar esse fato em conside-
ração, para que não se subestime a variância experimental (ver
Equações 3.7-3.9). De forma semelhante
Portanto, uma inferência consistente da variância experimental

pode ser dada pela equação
NE
∑ (y − ykm )
e 2
k
k =1
s2 =
NE − NP
de maneira que se diz que o sistema perde NP graus de liberdade
quando se estimam NP parâmetros de um modelo. No caso parti-
cular do modelo do Exemplo 4.21, obtém-se a mesma expressão

definida na Equação (3.7) para a variância amostral, mostrando

a consistência interna da análise efetuada.
4.6. O Método da Máxima Verossimilhança

Apesar de ser bastante útil e permitir a solução de uma série de problemas
práticos, como nos Exemplos 4.15 a 4.22, a função de mínimos quadrados
definida pela Equação (4.12) é bastante limitada porque admite implicita-
mente que todas as variáveis analisadas pertencem a um mesmo conjunto
amostral; ou seja, são medidas de uma mesma variável, obtidas com a
mesma precisão em qualquer condição experimental. Nem uma coisa nem
outra são necessariamente verdadeiras. Por exemplo, durante a análise
de dados de reação, podem ser medidas temperaturas e pressões como
variáveis dependentes. Obviamente, não faz qualquer sentido misturar
os dados de temperatura e pressão, como definido pelas Equações (4.11) e
(4.12). Além disso, os erros de medição de cada uma das variáveis podem
mudar de ponto para ponto em virtude de mudanças de desempenho
dos instrumentos de medida e das técnicas experimentais. É importante
observar que nem todo instrumento tem o desempenho de uma régua,
que fornece um erro de medida aproximadamente constante em toda a
faixa de utilização. Por exemplo, a incerteza de medição de termopares
usados para medir temperaturas costuma aumentar com o aumento da
temperatura. Dessa forma, também não faz sentido juntar as medidas
de temperatura obtidas em condições distintas nas Equações (4.11) e
(4.12). Finalmente, as medidas experimentais não são necessariamente
independentes. Uma medida pode influenciar a outra de maneira direta
(por exemplo, flutuações de temperatura influenciam o desempenho do
medidor de pressão) ou de maneira indireta (flutuações dos níveis de
impureza resultantes de certas corridas experimentais podem afetar os
resultados obtidos nas corridas seguintes). Portanto, é necessária uma
maneira alternativa de formular a função objetivo, que contemple a
possibilidade de levar todos esses fatos em consideração.
Uma maneira bastante comum de se efetuar a estimação de parâme-
tros é fazer uso do método da máxima verossimilhança. O método da
máxima verossimilhança está baseado em pressupostos relativamente
simples e permite a análise de virtualmente qualquer problema expe-
rimental de forma rigorosa, desde que se conheça de forma apropriada
como se comportam os erros de medição na região experimental. Os
pressupostos para construção do método da máxima verossimilhança
são apresentados a seguir.

Pressuposto 1 – Admite-se que as distribuições dos erros experimen-

tais na região de experimentação são conhecidas.
Nesse caso, suponha que a curva de densidade de probabilidades
℘(ze; z, VZ) descreve as probabilidades de se encontrarem as medidas
experimentais ze, dado os valores reais (e desconhecidos) z e uma medida
da variância dos erros experimentais VZ. O vetor z contém as variáveis
independentes e as dependentes; ou seja, zT = [xT yT]. Obviamente, os
desvios εz = (ze – z) são os erros experimentais. Por exemplo, no caso
dos desvios experimentais apresentarem uma distribuição de probabili-
dades normal, tem-se, de acordo com a Equação (2.72), a seguinte curva
de densidade de probabilidade:
 1 
( ) 1
( ) V (z )
T
−1
℘ z e ; z, VZ = exp  − z e − z e
−z 
2π det (VZ )
Z
 2 
(4.32a)
Deve ficar claro que diferentes experimentos podem apresentar dife-
rentes distribuições de erros experimentais, de maneira que a Equação
(4.32a) apenas ilustra um caso, em que as flutuações ocorrem de acordo
com o que prevê a curva de distribuição normal. Por exemplo, se a
distribuição de erros experimentais puder ser descrita por uma distri-
buição exponencial, a curva de densidade de probabilidade dos desvios
experimentais poderia ser descrita na forma:
 ze − z 
(
℘ z e ; z, VZ ) =
1
2α (VZ )
exp  − I I
 α (VZ ) 
(4.32b)
I e
I
onde z - z representa uma norma apropriada dos desvios experi-
mentais e α (VZ) representa um escalar que pondera a magnitude dos
desvios experimentais.
Não é possível escolher qual das duas equações (Equação 4.32a-b) é
melhor para representar os erros experimentais sem que se faça uma
correta caracterização dos erros de medição no laboratório, como discuti-
do no Capítulo 3 (e no Volume II desta série de publicações). Na verdade,
outras funções de distribuição, como aquelas apresentadas no Capítulo 2,
podem também ser usadas para descrever de forma apropriada os erros
experimentais. Assim, as Equações (4.32a-b) são apenas dois exemplos
possíveis de comportamento em um universo virtualmente infinito de
possibilidades.

Freqüentemente os experimentos são realizados de forma indepen-

dente. Nesse caso, a curva de densidade de probabilidades que descreve
o conjunto de observações experimentais pode ser descrita na forma
NE
( )
℘ z ; z, VZ = ∏℘i z ie ; z i , VZi
e
( ) (4.33a)
i=1
que explicita o fato de que a probabilidade conjunta das observações é

resultado da composição das diferentes probabilidades de cada um dos
resultados obtidos. Dessa maneira, as Equações (4.32a-b) podem ser
rescritas na forma:
NE 
  1  
( )
℘ z e ; z, VZ = ∏ 
1
( ) ( )
T
exp  − z ie − z i VZ−i1 z ie − z i  
i =1  2π det (VZi )  2  

(4.33b)
NE   z ie − z i  
(
℘ z e ; z, VZ ) = ∏
1
exp  − I I  (4.33c)
i =1  2α i (VZi )  α i (VZi ) 

Muito freqüentemente, o experimentador consegue controlar com
bastante eficiência a precisão das medidas experimentais independen-
tes xe. Além disso, técnicas de planejamento experimental (ver Volume
II desta série de publicações) podem ser utilizadas para minimizar o
efeito dos erros experimentais das variáveis independentes xe sobre as
medidas das variáveis dependentes ye. Por isso, pode ser conveniente
tratar as variáveis dependentes e independentes de formas distintas.
Admitindo-se que as medições das variáveis independentes não estão
correlacionadas com as medições das variáveis dependentes, chega-se a
uma nova expressão para a curva de densidade de probabilidades:
NE
( ) ( )
℘ z ; z, VZ = ∏ ℘xi xie ; xi , VXi ℘yi y ie ; y i , VYi 
e
( ) (4.34a)
i=1

NE 
  1 
( )
℘ z e ; z, VZ = ∏ 
1
( ) V (x )
T
−1
exp  − xie − xi e
− xi  ⋅
i =1  2π det (VXi )
Xi i
  2 
 1  
1
( )V ( )
T
−1
⋅ exp  − y ie − y i y − yi  
e
2π det (VYi )
Yi i
 2  
(4.34b)
NE   xie − xi   y ie − y i  
(
℘ z ; z, VZ
e
) = ∏
1
exp  − I I 
1
exp  − I I 
i =1  2α xi (VXi )  α xi (VXi ) 2α yi (VYi )  yi ( Yi ) 
α V

(4.34c)
Em experimentos realizados sob condições controladas, como geral-
mente acontece em laboratórios de pesquisa, os valores das variáveis
independentes são conhecidos com grande precisão. Nesse caso, parece
razoável considerar que (xe – x) ≈ 0. Admitindo-se como válida essa
hipótese, é possível reescrever as Equações (4.34a-c) na forma:
NE
( ) (
℘ z ; z, VZ = ∏ ℘yi y ie ; y i , VYi 
e
) (4.35a)
i=1
NE 
  1  
( )
℘ z e ; z, VZ = ∏ 
1
( ) ( )
T
exp  − y ie − y i VY−i1 y ie − y i  
i =1  2π det (VYi )  2  

(4.35b)
NE   y ie − y i  
(
℘ z e ; z, VZ ) = ∏
1
exp  − I I  (4.35c)
i =1  2α yi (VYi )  α yi (VYi ) 

Deve ficar claro que em muitos problemas o controle sobre as va-
riáveis independentes não é tão rígido, de maneira que nem sempre é
razoável representar os erros experimentais na forma proposta pelas
Equações (4.35a-c). Em experimentos realizados em unidades pilotos e
unidades industriais, os desvios experimentais nas variáveis indepen-
dentes não podem ser geralmente descartados, como será discutido nas
próximas seções deste capítulo.
Por fim, admitindo-se que todas as medições experimentais podem
ser realizadas de forma independente, a curva de densidade de proba-
bilidades pode ser expressa na forma:

NE  NX NY
2 

(
℘ z ; z, VZ
e
) (
= ∏ ∏℘xij xije ; xij , σ xij
2
) ∏ ℘yij y e
ij ; yij (
, σ yij  )
i =1  j =1 j =1 
(4.36a)
  ( )     ( )  
2 2
1 xij − xij 1 yij − yij
e e
NE NX
 NY

(
℘ z ; z, VZ
e
) = ∏∏ 
1
exp  −
 2 σ xij

 ∏ 
1
exp  −
 2 σ yij


~ ~
2 2
i =1 j =1  2π σ xij j =1  2π σ yij
2 2
     
(4.36b)
NE  NX  xije − xij   yije − yij  
 NY
( )
℘ z e ; z, VZ = ∏ ∏
1
− I I 1
exp  − I I 
( ) ∏ 2α (σ )
exp  
 ( )
i =1  j =1 2α xij σ xij
2
 α xij σ xij
2
 j =1 yij
2
yij ( )
 α yij σ yij  
2

(4.36c)
ou ainda
NE  NY 
(
℘ z ; z, VZ
e
) (
= ∏ ∏℘yij yije ; yij , σ yij
2
)  (4.36d)
i =1  j =1 
 
 ( )
2
 y e
− y
 
NE NY
(
℘ z e ; z, VZ = ∏∏  ) 1
exp  −
 2
1 ij
σ yij
2
ij

(4.36e)
i =1 j =1  2π σ yij
2
  
NE  NY  yije − yij  

(
℘ z e ; z, VZ = ∏ ∏ ) 1
exp  − I I 
( ) ( )
(4.36f)
i =1  j =1 2α yij σ yij  α yij σ yij  
2 2
 
se as medidas das variáveis independentes não estão sujeitas a erros
experimentais. Nas Equações (4.36a-f), σ xij 2
e σ yij
2
correspondem às
e e
variâncias de cada medição xij e yij .
É importante observar que as diferentes simplificações introduzidas
permitem que a densidade de probabilidades das flutuações experimentais
seja reescrita de formas distintas, como mostrado nas Equações (4.32-4.36),
a depender da natureza dos erros experimentais. A escolha de uma das
muitas formas propostas para a distribuição dos erros experimentais só
é possível depois da caracterização apropriada desses erros. Como visto a
seguir, essa caracterização dos erros é fundamental para a proposição da
técnica de máxima verossimilhança para estimação de parâmetros.
Pressuposto 2 – Admite-se como válida a hipótese do modelo per-

feito.
Considerando que a natureza das flutuações experimentais é co-
nhecida e que existe um modelo eficiente para descrever as relações

existentes entre as diferentes variáveis do problema, pode-se admitir que

os valores reais e desconhecidos de x e y (z) nas Equações (4.32-4.36) são
aqueles previstos pelo modelo. Em outras palavras, se o modelo é capaz
de representar os dados medidos, parece razoável admitir que x = xm e
y = ym (z = zm), onde m denota que o valor é calculado a partir de um
modelo. Fica implícito, assim, que as medidas experimentais flutuam em
torno dos valores previstos pelo modelo, já que se admite que o modelo é
perfeitamente capaz de descrever as relações existentes entre as diversas
variáveis do problema. Esta é certamente uma hipótese bastante forte,
já que nenhum modelo consegue capturar de fato todos os detalhes de
um problema real. Sob outro ponto de vista, no entanto, parece pouco
producente admitir que um usuário queira utilizar um modelo sabida-
mente ruim para representar um problema experimental qualquer.
O modelo pode ser definido genericamente na forma:
ym = f (xm, ) (4.37)
onde f indica as equações do modelo e 0 é o vetor dos parâmetros do
modelo. Como já discutido, admite-se que os valores das variáveis de-
pendentes ym podem ser calculados (de forma explicita ou numérica) a
partir dos valores das variáveis independentes xm e dos parâmetros .
Portanto, o vetor z que contém as variáveis independentes e dependentes
do problema pode ser dado na forma zmT = [xmT ymT] = [xmT fT (xm; 0 )].
Logo, a distribuição dos erros experimentais pode ser redefinida na for-
ma ℘(ze; zm, VZ), onde os valores reais desconhecidos da variável z foram
substituídos pelos valores zm calculados com o auxílio do modelo perfeito.
Dessa maneira, a curva de densidade de probabilidades pode ser escrita
de forma explicitar o fato de que existe um modelo que descreve como
as variáveis dependentes respondem a mudanças das condições experi-
mentais e dos parâmetros. Por exemplo, no problema particular definido
pela Equação (4.36e):
SO ( ze.,z m ,vz)=IJIJ
NE NY { 1 exp [ __!_ (Yye _ Yym ( x;,a))2]} (4.38)
i=l j=l ~21t 0' YIJ
2_ 2 0' yij
2
Portanto, a hipótese do modelo perfeito permite introduzir os parâ-

metros desconhecidos do modelo na função probabilística que descreve
as flutuações experimentais.
Pressuposto 3 – Admite-se como válida a hipótese do experimento

bem-feito.
Quando os experimentos são conduzidos de forma apropriada, parece
razoável admitir que os valores experimentais obtidos representam ade-

quadamente a realidade experimental estudada, a despeito das pequenas

e inevitáveis flutuações experimentais. Logo, parece razoável também
admitir que os dados experimentais obtidos são altamente prováveis, uma
vez que não são obtidos de forma aleatória, mas como resultado de um pro-
cesso experimental cuidadoso e reprodutível. Sendo assim, parece também
razoável admitir que a repetição das medidas experimentais conduziria
a resultados experimentais semelhantes, tendo em vista a pertinência e
esmero das observações realizadas. Levada ao extremo, essa argumentação
permite considerar como válida a hipótese de que os dados experimentais
obtidos não apresentam apenas alta probabilidade de ocorrência – são
aqueles que apresentam máxima probabilidade de ocorrência. Portanto,
parece razoável admitir que os pontos experimentais obtidos devem estar
situados na região de máxima probabilidade de ℘(ze; zm, VZ).
A argumentação proposta deposita enorme confiança nas observa-
ções experimentais realizadas. Isso pode ser certamente questionado, já
que medidas experimentais são freqüentemente corrompidas por erros
grosseiros e sistemáticos que não se enquadram na argumentação desen-
volvida no parágrafo anterior. Sob outro ponto de vista, parece também
ser contra-producente acreditar que um experimentador use medidas
experimentais conhecidamente corrompidas para compreender um pro-
blema real. Se o experimento é de fato bem-feito, não parece haver razão
para acreditar que as observações experimentais sejam pouco prováveis
e não representem satisfatoriamente a realidade experimental.
A conseqüência fundamental da hipótese do experimento bem-feito
é a definição do problema de estimação de parâmetros como o problema
de maximização da função ℘(ze; zm, VZ); ou seja, de maximização da pro-
babilidade de encontrar os dados experimentais obtidos, que flutuam de
forma aleatória ao redor das previsões do modelo, segundo a distribuição
conhecida dos erros experimentais. Para que essa tarefa seja possível,
manipulam-se os valores desconhecidos xm e 0. (quase sempre através
de procedimentos numéricos, discutidos no Capítulo 5), que constituem
os parâmetros do problema. Esse problema de estimação de parâmetros
é conhecido como problema de estimação de parâmetros por máxima
verossimilhança.
No caso da distribuição normal definida na Equação (4.38), as variá-
veis independentes xe não estão sujeitas a erro, de maneira que o vetor
xm = xe é conhecido. Para maximizar a Equação (4.38), é conveniente
perceber que o ponto de máximo da distribuição também coincide com
o ponto de máximo do logaritmo dessa função, dado que o ln(℘)é uma
função monotônica crescente de ℘. Por isso, é conveniente escrever

(4.39)
Repare que o primeiro termo do somatório do lado direito da equação
é constante e não depende do valor dos parâmetros. Logo, procurar o
ponto de máximo da função acima é o mesmo que procurar o ponto de
máximo da função
lNENY(e- m( ))2
F =-- LL y ij y ij xi' a (4.40)
2 1-
·-1 ]=!
. 02 yij
que equivale a procurar o ponto de mínimo da função
NENY( e_ m( ))2
FOb}= LL yij yij 2 X;,« (4.41)
i=I }=I 0 Y!l..
que é uma métrica para o problema de estimação de parâmetros. A
função acima é usualmente chamada de função de mínimos quadrados
ponderados. Repare que a Equação (4.41) tem um significado estatístico
preciso e profundo, sendo a métrica natural quando os erros experi-
mentais são distribuídos normalmente, não estão correlacionados e
quando as variáveis independentes não estão sujeitas a erro, desde que
as hipóteses de experimentos bem-feitos e modelo perfeito sejam acei-
táveis. Observe que o fator de ponderação é o inverso da variância do
erro de medida nesse caso; logo, quanto maiores os erros experimentais,
maiores também são os desvios aceitos entre as medidas experimentais
e os valores calculados com o modelo. Além disso, a função objetivo da
Equação (4.41) permite misturar diferentes conjuntos de dados, desde
que os erros de medida sejam conhecidos. É curioso observar que a
variância do erro experimental é o fator de normalização natural das
variáveis do problema. Observe ainda que a Equação (4.41) converge
naturalmente para a Equação (4.12), quando os erros de medição são
iguais e constantes em toda a região experimental. Portanto, a função de
mínimos quadrados é também uma função de máxima verossimilhança,
quando os erros são normalmente distribuídos, não estão relacionados,
são constantes e quando as variáveis independentes não estão sujeitas
a erro, desde que as hipóteses de experimentos bem-feitos e modelo
perfeito sejam aceitáveis.
Um dos grandes méritos do método da máxima verossimilhança é
permitir a extensão natural da função objetivo para distintas condições
de experimentação, de acordo com a estrutura da matriz de covariância.

Por exemplo, admitindo agora que os erros são normalmente distribuídos

e independentes, mas que as variáveis independentes também estão
sujeitas a erro, a função objetivo toma a seguinte forma:
  xe − x( )   (
 ye − y )  
2 2
NE
  NX NY
(
℘ z e ; z, VZ ) = ∏ ∏

1 
exp −

ij ij
2σ xij
2
  ∏
1 
exp −

ij
2σ yik
2
ij
  
i =1  j =1 2π σ xij
2
j =1 2π σ yij
2
         
(4.42)
que corresponde à Equação (4.34) após ser introduzida a hipótese de
que todas as medições são feitas de forma independente, de maneira
que as matrizes de covariâncias dos erros experimentais são diagonais.
O ponto de máximo da Equação (4.42) corresponde ao ponto de mínimo
da seguinte expressão (similar à Equação (4.41)):
FObj = L ~(
NE ~
NY
Yye - Yym ( ,a)~ +L (x~ _ x'!!)
2
X;
m.
NX
y y
2
(4.43)
i=l j=l 0' yy.. .
J=l 0' xij
2
que é a métrica natural para o problema com erro também na variável

independente, quando as distribuições de erro são normais e os experi-
mentos não estão correlacionados. Observe que na Equação (4.43) só é
possível calcular o valor verdadeiro de xm se esses valores são incluídos
no conjunto de parâmetros a serem estimados pelo problema. Esse é o
problema normalmente designado de reconciliação de dados, ilustrado
no Exemplo 4.23 e apresentado com mais detalhes no Volume III desta
série de publicações.
Exemplo 4.23 – No problema linear do Exemplo 4.20, admite-se

que as variáveis independentes também estão sujeitas a erros de
medição. Nesse caso, ym = α xm + β
A função de máxima verossimilhança fica na forma
(
 ye − α xm − β ) +( ) 
2 2
NE xie − xim
= ∑
i i
FObj
i =1  σ yi2 σ xi2 
 m

Os valores de α e β e os valores desconhecidos de xi são então
obtidos minimizando-se o valor da função objetivo

∂FObj NE
(y − α x
e m
−β ) −x =0
∂α
=∑ 2 i
σ yi2
i
( ) m
i
i =1
∂FObj NE
=∑ 2
(y − α x
e
i
m
i
−β )(−1) = 0
∂β i =1 σ yi2
∂FObj
=2
( e
yi − α xkm − β )(−α )+ 2 ( e
xk − xkm )(−1) = 0
∂xkm σ yk2 σ xk2
,
k = 1...NE
Dessa última equação, é possível concluir que
α yk − β( e
)+ xk
e
σ yk2 σ xk2
= xkm , k = 1...NE
α2 1
+
σ yk2 σ xk2
que pode ser substituído nas duas equações anteriores, permi-
tindo a solução do problema. No entanto, apenas uma solução
numérica é possível, já que não se consegue derivar uma solução
analítica para o problema. Dessa forma, o problema de reconcilia-
ção de dados, mesmo para o caso mais trivial da reta, requer o uso
de rotinas computacionais para resolução adequada do problema.
É conveniente observar na expressão acima que, se os erros de
medida da variável independente vão a zero,
(
α yk − β
e
)+ xk
e
xk
e
σ yk2 σ xk2 σ xk2

k = 1...NE
e
x = m
≈ = xk ,
α2
k
1 1
+
σ yk2 σ xk2 σ xk2
de maneira que o valor calculado coincide com o valor experi-
mental, como admitido anteriormente.
Como discutido na Seção 4.2.2, modelos matemáticos podem ser

classificados como lineares ou não-lineares, dependendo do conjunto de

variáveis consideradas. Mesmo para um modelo simples, como no caso

de uma reta, é importante avaliar a questão da linearidade. Durante a
estimação de parâmetros, quando as variáveis independentes não estão
sujeitas a erros, o modelo é linear nos parâmetros e a solução do pro-
blema pode ser facilmente obtida. Contudo, durante a reconciliação dos
dados, quando se consideram os erros inerentes às medidas das variáveis
independentes, mesmo uma reta deixa de ser um modelo linear. Nesse
caso, como as variáveis independentes devem ser estimadas em conjunto
com os demais parâmetros do modelo, o problema de estimação ganha
maior complexidade e a solução do problema passa a requerer ferra-
mentas numéricas mais sofisticadas, como observado no Exemplo 4.23.
Para tornar o problema ainda mais envolvente, a maioria absoluta dos
modelos fenomenológicos que representam processos reais é constituída
por modelos não-lineares nos parâmetros. Dessa forma, independente-
mente da natureza das medidas efetuadas nas variáveis independentes,
a solução do problema só pode ser obtida com o auxílio de ferramentas
numéricas, como as que serão discutidas no Capítulo 5.
A seguir (Seção 4.6.1) será discutida a aplicação do método da Máxima
Verossimilhança para a solução de problemas que usam modelos lineares
nos parâmetros e admitem a distribuição normal dos erros experimentais.
Nesses casos, algumas soluções analíticas podem ser derivadas para o
problema, de maneira que a análise estatística dos resultados pode ser
conduzida mais facilmente. Na seção seguinte (Seção 4.6.2) serão con-
siderados alguns modelos não-lineares nos parâmetros, mostrando-se
as dificuldades numéricas existentes para a solução do problema de
estimação, assim como as aproximações usualmente realizadas para
permitir a análise estatística dos resultados finais.
4.6.1 O Método da Máxima Verossimilhança Aplicado a Modelos

Lineares
O procedimento clássico de mínimos quadrados usado para estimação
de parâmetros de modelos lineares (Equações 4.13-31) é reavaliado agora
com o auxílio do procedimento mais geral de máxima verossimilhança,
proposto na seção anterior. Suponha que o modelo, contendo NY respos-
tas, seja definido pelo seguinte conjunto de equações:

,VP
y;(u )= :La ,.r.,(x)
p=l
,Vp
y;(x,a) = :La,J!.,(x)
,., (4.44)
,,.
Y.~r(x.a) = :La ,Jvr.,(x)
p=l
O modelo proposto tem NP parâmetros, a T = [α1 α2 ... αNP], associados

a NP.NY funções fi,j(x) que transformam as NX variáveis independentes,
xT = [x1 x2 ... xNX], nas NY variáveis dependentes yT = [y1 y2 ... yNY]. Cada
uma das variáveis independentes e dependentes é medida em cada uma
das NE condições experimentais. A função de máxima verossimilhança,
admitindo-se flutuação normal, medidas independentes de cada variável
e ausência de erro significativo nas variáveis independentes, fica então na
forma da Equação (4.41). A inclusão das equações do modelo na função
objetivo definida na Equação (4.41) leva a:
(4.45)
Os valores de α são obtidos minimizando-se o valor da função objetivo

em relação a cada um de seus componentes, na forma
, k = 1...NP
(4.46)
que resulta no seguinte sistema de equações
""L. a [.\'""""
NP
P
1! j
L.L.
NY
J.p
(x' )f,.t (x')]
•
z ' ="""" (y'q J•£ (x'),
SB NY
L.L. , ,
- L.NP
k-
p-=l •=I ;=I (Jtj •=I ;=I CJif
(4.47)
Há, portanto, NP equações a resolver e NP incógnitas a determinar,
uma vez que os dados experimentais são conhecidos. A solução analítica
para esse problema pode ser facilmente derivada se a notação matricial
é utilizada. Sejam

 ∑∑
( ) ( )
 NE NY f j ,1 xie f j ,1 xie NE NY
( ) ( )
f j ,1 xie f j ,2 xie NE NY
( ) ( )
f j ,1 xie f j , NP xie 
 i =1 j =1 σ ij2
∑∑
i =1 j =1 σ 2
∑∑
i =1 j =1 σ ij2


ij
 
( ) ( )
e
 NE NY f j ,2 xi f j ,1 xi
e
NE NY
( ) ( )
f j ,2 xie f j ,2 xie NE NY f
( )
e
j ,2 x i ( )
f j , NP xie 
M =  ∑∑ ∑∑ ∑∑ 
 i =1 j =1 σ ij2 i =1 j =1 σ 2
ij i =1 j =1 σ ij2 
 
 
 ∑∑
( ) ( )
 NE NY f j , NP xie f j ,1 xie NE NY
( ) ( )
f j , NP xie f j ,2 xie NE NY f x( )
e
f ( )x e

∑∑ ∑∑
j , NP i j , NP i

 i =1 j =1 σ ij2 i =1 j =1 σ 2
ij i =1 j =1 σ ij
2

(4.48)
e
(
 NE NY yije f j ,1 xie
 ∑∑
( )) 
 i =1 j =1 σ ij2 
 
(
 NE NY yije f j ,2 xie ( )) 
Yf =  ∑∑
 
i =1 j =1 σ ij2  (4.49)
 
 
 NE NY y e f
 ( x( ))
e 

 ∑∑
ij j , NP i
σ ij2 
 i =1 j =1 
então, reescrevendo a Equação (4.47) com a notação matricial, chega-se a

M = Yf ⇒ = M–1 Yf (4.50)
que é uma solução de enorme importância prática para a teoria de es-

timação de parâmetros e planejamento de experimentos, muito similar
à solução obtida anteriormente com a técnica de mínimos quadrados.
Como feito antes, é muito conveniente ainda definir as matrizes


( )
 f1,1 x1e ( ) 
f1, NP x1e
 
 
( )
 f NY ,1 x1
e
( )
f NY , NP x1e 
 
( )
 f1,1 x 2
e
( )
f1, NP xe2 
 

T
( )
GY x = 
e
 f

 (4.45)
( )
 NY ,1 2
xe ( )
f NY , NP xe2

 
 

( )
 f1,1 xeNE ( )
f1, NP xeNE 

 
 
( ) e
( )
 f NY ,1 x NE f NY , NP x NE
e

σ 1,1
2
0 0 0 0 0 0 0 0 0 
 
 0 0 0 0 0 0 0 0 0 
 0 0 σ 1,2 NY 0 0 0 0 0 0 0 
 
 0 0 0 σ 2,1
2
0 0 0 0 0 0 
 0 0 0 0 0 0 0 0 0 
Vy =   (4.46)
 0 0 0 0 0 σ 2,2 NY 0 0 0 0 
 0 0 0 0 0 0 0 0 0 
 
 0 0 0 0 0 0 0 σ NE
2
,1 0 0 
 
 0 0 0 0 0 0 0 0 0 
 0 0 0 0 0 0 0 0 0 σ NE
2

, NY 
pois assim é possível escrever a solução diretamente em termos das

variáveis medidas na forma
(4.47)
que indica que existe uma relação linear direta entre a medida expe-
rimental da variável dependente e o valor estimado para o parâmetro
(ver Exemplo 4.22).
Como já dito, suponha que as variáveis independentes não contêm
erros e que toda a flutuação experimental é devida aos erros de medição
das variáveis dependentes Ye. Suponha ainda que dois conjuntos de dados
obtidos em condições análogas são comparados entre si. Nesse caso,
(4.48)

Portanto, os valores dos parâmetros flutuam à medida que flutuam

os valores experimentais obtidos. Se a única fonte de flutuação é o erro
experimental
(4.49)
que relaciona os erros paramétricos com os erros experimentais. Por-
tanto, se os erros flutuam em torno dos valores verdadeiros com média
igual a zero,
(4.50)
os parâmetros também flutuam em torno dos valores verdadeiros, o que
mostra que o procedimento de estimação de parâmetros é consistente.
Isso é muito bom e confere um certo grau de robustez ao procedimento de
estimação de parâmetros proposto. Além disso, a matriz de covariâncias
dos parâmetros pode ser calculada como
·r ,.
V. =M"' G~ V;'E {csT}(v,-•) Gv(M"')
(4.51)
v =M-'GTv-•v (v-•)T G (M"')T
• Y y )y y
V.= M"'G~(v,')' G,(M 'f

Observe que as matrizes M e Vy são simétricas, de maneira que elas
são iguais às suas transpostas. Observe ainda que
(4.52)
Nesse caso, a matriz de covariâncias dos parâmetros ganha a forma
bastante simples
(4.53)
que é utilizada para a interpretação e solução de um grande número
de problemas práticos. Como na Equação (4.28), observe que os erros
paramétricos dependem tanto da estrutura do modelo quanto dos da-
dos experimentais disponíveis, já que tanto o modelo quanto os dados
experimentais precisam ser definidos para que seja possível calcular a
matriz M. Portanto, cada modelo e cada conjunto de dados experimen-
tais resulta em um conjunto distinto de incertezas paramétricas, logo,

não é possível avaliar a estrutura das incertezas paramétricas de forma

arbitrária e isolada do contexto de estimação considerado.
Finalmente, os parâmetros são usados para fazer previsões com o
modelo em qualquer condição x. Usando a notação matricial, o modelo
pode ser escrito na forma
y" (x,a): B(x)a (4.54)
onde
J,,,(x) J,,(x) /,_,.~ (x)
,f, , (x) f :: (:r) /,,.,. (x)
B(x)= ... ... (4.55)
f vr.• (x} / ,.,.-' (x) / ,,,,,. {x)
que também estabelece uma relação linear direta entre o valor dos parâ-
metros e a previsão da variável dependente em um ponto qualquer x da
região experimental. De forma análoga à realizada anteriormente,
V, = E{AyAyT} = E{ BA<u\aTBT}
(4.56)
·,= BE{ aAaT}BT= BV. BT= BM-'BT
onde V ˆ e a matriz de covariância dos erros de predição, que estabelece

y
o vínculo entre os erros de predição, a qualidade dos dados experimentais
e o procedimento de estimação de parâmetros. Observe que a Equação
(4.56) leva em consideração somente o erro relacionado ao modelo, sendo
necessário somar à esta equação a matriz de covariância experimental.
Como acima, todas essas expressões são fundamentais para a perfeita
compreensão dos procedimentos clássicos de planejamento experimen-
tal, como será discutido no Volume II desta série de publicações.
4.6.2 O Método da Máxima Verossimilhança Aplicado a Modelos

Não-Lineares
Considerando um problema mais geral, suponha que o modelo não-linear
contendo NY respostas, seja definido pelo seguinte conjunto de equações:
>•(x,«)=j,(x. a)
y:' {x,u): /, (x.a)
(4.57)

Este modelo tem NP parâmetros, (I T = [α1 α2 ... αNP], associados a NY

funções não-lineares fj(x) que transformam as NX variáveis independen-
tes, xT = [x1 x2 ... xNX], nas NY variáveis dependentes yT = [y1 y2 ... yNY]. Cada
uma das variáveis independentes e dependentes é medida em cada uma
das NE condições experimentais. A princípio, qualquer forma da função
de máxima verossimilhança pode ser usada para a análise proposta nas
seções subseqüentes, seja como uma maximização da função ℘ (ze; zm,
VZ) ou como uma minimização da função FObj.
Admitindo-se flutuação normal, medidas independentes de cada
variável e ausência de erro significativo nas variáveis independentes,
a função de máxima verossimilhança fica então na forma da Equação
(4.41) (embora pudesse ser qualquer outra). A inclusão das equações do
modelo na função objetivo da Equação (4.41) leva a:
(4.58)
Quando os erros nas variáveis independentes não podem ser despreza-

dos, a função objetivo deve levar em consideração estes desvios, podendo
ser então escrita na forma da Equação (4.43), como mostrado abaixo:
F.
Obj-
_ ~ ~ (y~ - ~ (x~, a)
£.J£.J
J+ LL (x~ _xm )
NE NX
ik ik
2
(4.59)
i=l j=l 0' !]~ i=l k=l 0' ik
2
Observe que na Equação (4.58) as funções fj são funções dos valores

experimentais das variáveis independentes xe e dos parâmetros α que estão
sendo estimados. Uma vez medidos, os dados experimentais são fixos e,
assim, a função objetivo (Equação 4.58) depende somente dos parâmetros
que estão sendo estimados. Como o número de variáveis experimentais
que estão sendo previstas pelo modelo é igual a NE.NY e o número de va-
riáveis que estão sendo calculadas para a minimização da função objetivo
é igual a NP (lembre que as variáveis independentes estão fixas nos valores
experimentais), o número de graus de liberdade é definido como:
GL = NE.NY − NP (4.60)
Já na Equação (4.59) as funções fj são funções dos valores estimados

das variáveis independentes xm e dos parâmetros α, que também estão
sendo estimados. Neste caso, a função objetivo (Equação 4.59) depende
das variáveis independentes e dos parâmetros que estão sendo estimados.
Com relação ao número de graus de liberdade, o número de variáveis
experimentais que estão sendo previstas pelo modelo é igual a NE.NY

+ NE.NX e o número de variáveis que estão sendo calculadas para a

minimização da função objetivo é igual a NE.NX + NP, de forma que o
número de graus de liberdade é:
GL = NE.NY + NE.NX − NE.NX − NP
(4.61)
GL = NE.NY − NP
Assim, o número de graus de liberdade é o mesmo para os dois casos
(estimação e reconciliação), apesar do número de variáveis estimadas ser
maior no caso da reconciliação.
Considere a função objetivo definida na Equação (4.58). A minimização
da função objetivo, nesse caso, deve satisfazer as seguintes equações:
,
(4.62a)
 ∂FObj 
 
 ∂α1  0 
 ∂FObj   
  0
∇á FObj =  ∂α 2  =   = 0 (4.62b)
 
   
  0
∂
 Obj 
F
 ∂α 
 NP 
ou seja, o vetor gradiente da função objetivo em relação aos parâmetros
do modelo deve ser nulo.
Quando as variáveis independentes estão também sujeitas a erros, a
função objetivo considerada é aquela definida na Equação (4.59). Nesse
caso, como as variáveis independentes devem ser estimadas simulta-
neamente com os demais parâmetros do modelo, o vetor gradiente da
função objetivo em relação às variáveis independentes também deve
ser nulo, isto é:
i =L..NE
,
k =I...NX
(4.63a)

 ∂FObj 
 
 ∂x11  0
 ∂FObj   
  0
∇ x FObj =  ∂x12  =   = 0 (4.63b)
     
  0 
 ∂FObj 
 ∂x 
 NE , NX 
Deve ser observado que o segundo termo do lado direito da Equação
(4.59) não depende dos parâmetros α, de forma que os vetores gradientes
em relação aos parâmetros α das funções objetivos definidas nas Equações
(4.58) e (4.59) são semelhantes. Apenas deve-se usar os valores de xm ao invés
de xe para o cálculo das funções fj, no caso em que as variáveis independentes
estão sujeitas a erros experimentais que não podem ser desprezados.
Exemplo 4.24 – Considere o modelo não-linear definido pelas

equações:
y1 = α1x12 + x2α2 y2 = α1α2x1x2

Utilizando-se a função de mínimos quadrados ponderados para
análise do problema, na forma definida pela Equação (4.41) para
o caso de estimação e pela Equação (4.43) para o caso de reconci-
liação, o gradiente da função objetivo com relação aos parâmetros
α1 e α1 pode ser definido pelas seguintes equações:
∂FObj (
NE  y e − α x 2 − x 2
α
) − x  +  (y e
− α1α 2 xi ,1 xi ,2 ) −α x 
∂α1
= 2∑ 
i ,1 1 i ,1
σ i2,1
i ,2
( )  2
i ,1
i ,2
σ i2,2
( x
2 i ,1 i ,2 )=0

i =1 
  
∂FObj (
NE  y e − α x 2 − x 2
α
) −x (
  yie,2 − α1α 2 xi ,1 xi ,2 ) 
∂α 2
= 2∑ 
i =1 
i ,1 1 i ,1
σ i2,1
i ,2
( α2
i ,2 )
ln (xi ,2 )  + 
  σ i2,2
(−α1 xi,1 xi,2 ) = 0


Observe que não é possível obter uma solução analítica para os

valores dos parâmetros a partir das duas equações acima, sendo
necessária a utilização de um método numérico específico para
esse fim. Quando são consideradas as variáveis independentes,
as seguintes equações devem ser adicionadas ao problema:

∂FObj (
 yie,1 − α1 xi2,1 − xiα,22 ) −2α x (y
e
− α1α 2 xi ,1 xi ,2 ) −α α x (x
e
)
− xi ,1 
∂xi ,1
= 2
σ i2,1
( 1 i ,1 )+ i ,2
σ 2 ( 1 2 i ,2 )− i ,1
σ i2,1 
=0
 i ,2

∂FObj (
 yie,1 − α1 xi2,1 − xiα,22 ) −α x + (y e
− α1α 2 xi ,1 xi ,2 ) −α α x (x e
)
− xi ,2 
∂xi ,2
= 2
σ i2,1
( )
α 2 −1
1 i ,2
i ,2
σ 2 ( 1 2 i ,1 )−
i ,2
σ i2,2
=0
 i ,2

onde i = 1...NE.
Quando somente a estimação dos parâmetros α é considerada,
a solução do problema é equivalente à solução de um sistema
de duas equações algébricas com duas incógnitas. Quando o
problema de reconciliação é considerado, o sistema de equações
algébricas passa a ser constituído por 2.NE + 2 equações e 2.NE
+ 2 incógnitas (2.NE variáveis independentes e 2 parâmetros).
Assim, a dimensão do problema numérico que precisa ser resol-
vido aumenta consideravelmente no problema de reconciliação.
A depender do problema de estimação proposto, a dimensão do
sistema de equações que deve ser resolvido pode ser bastante
elevada.
Além da maior dificuldade computacional associada à obtenção de

uma solução para o problema não-linear de estimação de parâmetros,
uma outra questão relevante que se coloca diz respeito à obtenção das
matrizes de covariância dos parâmetros e dos erros de predição; ou seja,
a como caracterizar estatisticamente a qualidade da solução encontrada.
No caso de modelos não-lineares, não é possível derivar uma solução
analítica similar à Equação (4.47), usada para interpretar as incertezas
paramétricas de modelos lineares.
Para que se compreendam as soluções apresentadas a seguir, é neces-
sário lembrar que a matriz de covariâncias pode ser definida na forma:
  ∆x1∆x1 ∆x1∆x2 ∆x1∆xN  
 
  ∆x2 ∆x1 ∆x2 ∆x2 ∆x2 ∆xN  
V = E ∆x∆xT { } = E 
 
  ∆xN ∆x1 ∆xN ∆x2

∆xN ∆xN  

(4.64)
Considerando que os desvios experimentais e paramétricos não são
muito grandes (o que pode não ser uma hipótese muito boa em alguns
problemas!), a matriz de covariância pode ser aproximada com auxílio
da seguinte forma diferencial da equação (4.64):

{
V = E ∆x ∆xT ≅ E dx dxT } { } (4.65)
Considerando que o modelo é perfeito, como já discutido nas seções

anteriores, o único motivo de não serem observados experimentalmente
os valores preditos pelo modelo é o erro experimental. Assim, dependendo
da existência ou não de desvios experimentais significativos nas variáveis
independentes, podem-se escrever as seguintes equações:
ye =ym {xe ,a )+Ey =f {xe ,a )+Ey (4.66a)
ye = ym {xm +Ex, a )+Ey = f {xm +Ex,a )+Ey (4.66b)
onde ε representa os desvios observados entre os valores experimentais

e os valores preditos pelo modelo, confundidos com os próprios erros
experimentais (uma vez que o modelo é perfeito). Considerando que
as variáveis independentes não estão sujeitas a erros, a aproximação
linear das equações do modelo, válida quando os desvios experimentais
e paramétricos são pequenos, leva a:
(4.67a)
sendo possível escrever:
(4.68a)
De forma similar, se as variáveis independentes estão sujeitas a erros

experimentais
ar (xm' ao ) .da + ar (xm' ao ) E

Y =f
e ( Xm a
•O
) +
da dX X
+E
y
(4.67b)
sendo possível escrever:
(4.68b)
A Equação (4.68) mostra, de forma aproximada, como os desvios entre

os dados experimentais e os preditos pelo modelo variam em função dos
desvios paramétricos e dos erros experimentais.
Por outro lado, o vetor gradiente da função objetivo em relação aos
parâmetros do modelo é nulo quando a função objetivo está no ponto

mínimo, como imposto pelo procedimento de minimização executado

durante a estimação de parâmetros. Logo,
(4.69)
Considerando que as variáveis independentes não estão sujeitas

a desvios experimentais significativos, a aproximação linear do vetor
gradiente apresentado na Equação (4.69) pode ser escrita na forma:
VaFObj (y
e
+Ey,X
e -
,a+~a )= VaFObj (y ,x ,a)+
e e a[VaFObjay•(y•,x•,a )] Ey +
+
a[VaFObj (y•,x•,a )] ~a=O
aa
(4.70a)
que descreve como as incertezas experimentais e paramétricas afetam
o cálculo do vetor gradiente da função objetivo nas proximidades dos
valores estimados para os parâmetros do modelo. De forma similar, se
as variáveis independentes estão sujeitas a erros:
e e - e e
VaFObj(y +Ey,X +Ex,a+~a)=VaFObj(y ,x ,a)+
a[VaFObjay•(y•,x•,a )] Ey+
a[VaFObj (y•,x•,a )] a[VaFObj (y• ,x• ,a)]
ax• Ex + aa .6.a = 0
(4.70b)
O zero do lado direito da Equação (4.70a-b) é imposto pelo procedimento
de estimação de parâmetros; ou seja, independentemente de como os dados
experimentais mudem, os novos parâmetros estimados (α + ∆α) sempre
fazem com que o vetor gradiente da função objetivo seja igual a zero. A
Equação (4.70a-b) indica, portanto, como as incertezas experimentais (εX,
εY) provocam mudanças nos valores dos parâmetros (∆α). O primeiro termo
do lado direito da Equação (4.70a-b) é o próprio vetor gradiente da função
objetivo em relação aos parâmetros no ponto considerado. Por definição,
esse gradiente também é nulo, já que os parâmetros são sempre estimados
através da minimização da função objetivo.
A Equação (4.70a-b) sugere a definição das seguintes matrizes:

()' F;.,
aa,ay;"·"'
()' }•""
G , --
()[V,/·;., (y'. x', u)] -
()y' -
()'J·. ., ifF
()or .,.ay;,
(4.71a)
()'!·;,., ()'F,.., ()'F..,

()a,()x' ila,ih;., aa,cv "'
() I if1- iH ....
G, =
()[V,l-v (y'. •'.u)J- i)a a~.
' aor,a~~ "" aa,ax': . "
ih'
i)'F~ ()' F (j' ,.,..,
<lor .,().r', aa ,.,.o"''x:: aa.,.,ax:'l!"n'"
(4.71b)
;)' /· ()',..
... ;n·,.,
aor aa, aa,<>a,,. aa,aa,
() V, J·;.., {y',x'.u} iJ'F ()'F.01'1
... a'F Oly
H• = ""' i)a,i)a,
- aa.aa, aa.aa,.,.
au
i)'l i)' F. i)' F.
"'l.
<>a,.aa, <>a,,.,.aa, ""
aa,.,.aa,.,.
(4.71c)
de maneira que a Equação (4.70) pode ser escrita na forma
G, t, + H, t::..o = 0 (4.72a)
G, t, + G ~ c, + H, t::..o =o (4.72b)
a depender da existência ou não de erros de medida nas variáveis inde-
pendentes. Observe que a matriz Hα, chamada de matriz Hessiana ou

matriz de derivadas segundas, é simétrica (Hα = HαT). Assim, a partir

da Equação (4.72) é possível obter uma expressão que mostra como os
desvios experimentais se propagam até os parâmetros, na forma:
(4.73a)
(4.73b)
Inserindo a Equação (4.73) na Equação (4.65), chega-se finalmente a:
V,. =E{6a6aT}=E{(-H:' G1 e,)(-A~' G1 eJ }

V,. =E{H:' G, t 1, t~ G~ H~' }= H~' G,. E{ t,. t~} G~ a:
v. = H: ' Gv Vv G ~ H:'
(4.74a)
ou, de forma análoga
V, =E{11o Act" }= E{(- H;' [G,. t, +G, txJ}(- H;' [Gv t, + G, t,J}'}
v. =": [c, v,. c:. +2 c, v" c; + G, v, cU H;'
v, = u:' [c v. I.u:' en
(4.74b)
onde VX, VY e VXY são as matrizes de covariâncias dos desvios experi-
mentais nas variáveis independentes, dependentes e das covariâncias
entre elas. Se as medidas experimentais das variáveis independentes e
dependentes não estão correlacionadas entre si, a Equação (4.74b) ganha
a forma particular
(4.74c)
As Equações (4.74a-c) mostram de forma explícita como a incerteza
experimental se transforma em incerteza nos parâmetros, através da
função objetivo e do modelo utilizados (cujas derivadas estão em Hα, GY
e GX), durante o procedimento de estimação de parâmetros. A validade
das Equações (4.70-74) pressupõe que os erros experimentais e paramé-
tricos são pequenos.
Exemplo 4.25 – No problema linear do Exemplo 4.23, admite-se

que as variáveis independentes estão sujeitas a erros de medição e
que as medidas são obtidas de forma independente. Nesse caso,

ym = α xm + β
A função de máxima verossimilhança fica na forma
(
 ye − α xm − β ) +( ) 
2 2
NE xie − xim
= ∑
i i
FObj
i =1  σ yi2 σ xi2 
 
O vetor gradiente da função objetivo fica então na forma
 (
NE  y − α x − β
2∑ 
e m
− xim   )( )
 ∂FObj   
i i

   i =1  σ 2
 
∂ α   yi
 
 
 ∂FObj  
 2∑ 
(
NE  y − α x − β (−1)
e
i
m
i



)
 ∂β 
   i =1  σ 2
 
  yi

∇FObj =  ∂FObj  = 
 m 
∂x  2
(
y1 − α x1 − β (−α )
e m
)
+2
x1 − x1 (−1) 
e m

( )
 1  σ σ
 
2 2
  y1 x1
  

 ∂FObj   
 xNE − xNE (−1)
 ∂x m 
 NE   2 (
y NE − α xNE − β (−α )
e m
)
+2
e m
 ( )
 σ yNE
2
σ xNE
2 
 
As matrizes Hα, GX e GY podem então ser calculadas como
a~ Fof.J oll~litJ a~ F,!h., a~ F,lty
d(X;: aa dj} aa: ri.r~ flo: dY~F
a~ Froy (),! Fr~~tJ ifF.t.tfy ?i-F.Oly
d(X dji' arf r>(J a:r;.. ap ar.~·.r;
8
•=
a'F;~) J=
[ aa, r>·F,!hf d1F;-/{IJ ifJF0~y a~F
()Ty
iJa Jx1"' iJ{J Jxt a(x )= dX L"' JX .'.'K

..,
1" '
(};:R:J...
I
~ l FCJioJ
11 ciF.~ cf·FOfy
aa dJ':::n d{J dx; . i1xt i.ax"'r; a(-~.~ t

't")']
~r. -
c:. :f[1D]
·~ cr,.
z-lJ~ -ax,· -/3)+ett;" .. ..1 -(.1~, -c.tt:. -~)+u<.
"~·
11J ,..
z![(•.: ]]
I 6 ,.
-~ [ I-t ]
-~L
"...
..
1' (1
01,,
l.E._
rrJ
.
n.= '] - (1~ -«~.. - ~)+ll'~, ul I
1~ ,_+"'-
- <i a-, -cr - - 0
" a;, ..
fJ~r - rn:.... fJ) 1 ar;~
p O: ;a
,~
• cr; ~ D
.... IZ ~
---.:;-.-
a~. "':
., I
 ∂ 2 FObj ∂ 2 FObj ∂ 2 FObj 

 
 ∂α ∂x1 ∂α ∂x2e ∂α ∂xNE
e e

 ∂2 F ∂ 2 FObj ∂ FObj 
2
 Obj

 ∂β ∂x1e ∂β ∂x2e ∂β ∂xNEe

 ∂ FObj  
2

GX =  e 
=  ∂ 2 FObj ∂ 2 FObj ∂ 2 FObj 
 ∂α i ∂x j   m e 
∂x ∂x1 ∂x1m ∂x2e ∂x1m ∂xNE e
 1 
 
 2 
 ∂ FObj ∂ 2 FObj

∂ 2 FObj 
 ∂x m ∂x e ∂xNE
m
∂x2e ∂xNE
m
∂xNEe 
 NE 1 
 0 0  0
 0 0  0
 
 2 
− 0 0 
G X =  σ x21 
 
 
 0 2 
0 − 2
 σ xNE 


 
 ∂α ∂y1 ∂α ∂y2e ∂α ∂y NE
e e

 ∂2 F ∂ 2 FObj ∂ FObj 
2
 Obj

 ∂β ∂y1e ∂β ∂y2e ∂β ∂y NE 
e
 ∂ FObj  
2

GY =  e 
=  ∂ 2 FObj ∂ 2 FObj ∂ 2 FObj 
 ∂α i ∂y j   m e 
∂x ∂y1 ∂x1m ∂y2e ∂x1m ∂y NEe
 1 
 
 2 
 ∂ FObj ∂ 2 FObj

∂ 2 FObj 
 ∂x m ∂y e ∂xNE
m
∂y2e ∂xNE
m e 
∂y NE
 NE 1 
 − x1m
2
( ) 2 (− x ) m
2
2
(− x )

m
NE
 σ y1 σ y22 σ yNE
2 2

 
 2 (− 1) 2
(− 1)
(
2 2
− 1) 
 σ2 σ 2
σ yNE 
 y1 y2

G Y =  (− α ) 
2 2 0 0 
 σ y1 
 
 


(− α ) 
 0 0 2 2 
 σ yNE 
Considerando que não há erro nas variáveis independentes x, a

função objetivo fica na forma:
(
 y e − α xe − β ) 
2
NE
= ∑
i i
FObj
i =1  σ yi2 
 
O vetor gradiente da função objetivo fica então na forma

(
 NE  yie − α xie − β − xie  
 ∂FObj   2∑  
)( )
   i =1  σ yi2
 
∂α 
∇FObj = = 
∂
 ∂β   2∑  i
e
(
 Obj   NE  y − α x − β (−1) 
F e
i
 
)
   i =1  σ yi2
 
  
de maneira que as matrizes Hα e GY podem ser calculadas como
a2Fobj a2Fobj
aa a~ a~
2
2~
i=l
(x:j
a 2~[~?]
yi
H0 =
2~[ ~~)] 2~[ 01~]

 e 
 ∂ 2 FObj   ∂α ∂y1e ∂α ∂y2e ∂α ∂y NE 
GY =  e 
=
∂α ∂  2 ∂ FObj 
 i j   ∂ FObj ∂ 2 FObj 2
y

 ∂β ∂y1e ∂β ∂y2e ∂β ∂y NE 
e
 − x1e
2 2
( ) 2 (− x ) e
2
2
(− x )

e
NE
2

GY =  
 2 (− 1) 2
(− 1)
(− 1) 
2 2
 σ2 σ 2
σ yNE 
 y1 y2

Nesse caso, de acordo com a Equação (4.74), é possível escrever

- NE -
NE X2
4 L ----T 4L X~
G V GT = ai
i=t i=t ai = 2H
Y Y Y NEX NE 1 a
4L~ 4 L-2
- i=t a i i=t a i
-
va = H-a1 G v Y Y
G TY H-a1 = 2 H-a1 =
- NE NE -
1
L~
a
i=I i
-LX~
i=t ai
[(~ x: r~-1 J-l~ 3_J J _~X~a

2 NE x2
£.J 2 £.J 2 £.J 2 i=l i
L----T
a
i=t i
i=l a i i=l a i i=l a; - -
No caso particular em que os erros experimentais são constantes,

a expressão pode ser reduzida a
r
i=l -
já apresentada anteriormente no Exemplo 4.20 e obtida através

de outro tipo de argumentação. Isso mostra claramente a consis-
tência da discussão e das equações apresentadas.
Uma aproximação muito usada para a estimação de parâmetros de

modelos não-lineares é a aproximação de Gauss. Quando a função objetivo
é definida na seguinte forma:
( ) V (y )
T
−1
FObj = y e − y m y
e
− ym (4.75)
os elementos [hr,s]da matriz Hessiana (definida na Equação (4.72)) podem

ser escritos como:

T T
∂ 2 FObj  ∂y m  −1  ∂y m   ∂ 2 y m  −1 e
hr , s =
∂α r ∂α s
= 2
∂α
 Vy   − 2  Vy y − y
m
( )
 r  ∂α s   ∂α r ∂α s 
(4.76)
Admitindo-se que a diferença entre os valores experimentais e os cal-
culados pelo modelo são pequenos e flutuam aleatoriamente ao redor do
valor zero, conforme as hipóteses do modelo perfeito e do experimento
bem-feito, o segundo termo do lado direito da Equação (4.76) pode ser
desprezado. Nesse caso, a matriz Hessiana pode ser aproximada por:
(4.77)
onde B é a matriz de sensitividades, definida como:
B=[~:]= (4.78)
ay~ ay~ ay~

aal aa2 aaNP
De acordo com a Equação (4.71), GY pode ser calculado como:
(4.79)
de maneira que o termo G Y Vy G TY que aparece na Equação (4.74) fica

reduzido a:
(4.80)
Assim, a matriz de covariâncias dos parâmetros pode ser reescrita

como
(4.81)
A Equação (4.81) é freqüentemente usada para interpretar as incerte-
zas paramétricas, embora só seja rigorosamente válida quando a função
objetivo tem a forma da Equação (4.75). Usando finalmente a Equação
(4.77), que define a matriz Hessiana após a aproximação de Gauss, a
matriz de covariâncias dos parâmetros fica na forma

(4.82)
A Equação (4.82) é usada com muita freqüência para a interpretação

de incertezas paramétricas, mas deve ficar claro que ela representa um
conjunto muito restrito de condições. Por outro lado, esta forma da matriz
de covariâncias dos parâmetros é muito útil, já que para seu cálculo são
necessárias somente as derivadas primeiras das respostas do modelo
com relação aos parâmetros. Além disso, deve ser observado que para
modelos lineares nos parâmetros, o termo desprezado da Equação (4.76)
é nulo, de modo que a Equação (4.82) se torna exata.
Exemplo 4.26 – Considerando o modelo definido como: ym = eαx e

considerando que não há erros nas variáveis independentes x, a
função de máxima verossimilhança pode ser definida na forma
(y )
2
α xie
NE
e
−e
FObj = ∑
i
i =1 σ yi2
O gradiente da função objetivo fica então na forma
∂FObj
( )( )
NE
2  e α xie
=∑ − xie eα xi 
e
yi − e
∂α i =1 σ yi
2
 
A matriz Hessiana Hα (que neste caso especifico tem dimensão
1x1) pode então ser calculada como
A matriz de covariâncias dos parâmetros é definida na Equação

(4.81):
Utilizando agora a aproximação de Gauss, a matriz de covariân-

cias dos parâmetros pode ser representada como mostrado na
Equação (4.82):

_, ily,
a;. 0 0 ila
a_v:
il;~· ]
0
v =[o'v-'o]""' = [!!!:..
• 1 ()(t 0
C1.:.:
ila
0 0 a~E dy,. .,.,.

ila
_, s e ("'t) -1
a;.- 0 0
0 a;~
•
0
'
. . .,J~·~)
v• = (x.(•~~• .Y iull
1 .'(w/(U.·..,)J
•
0 0 a;",.s XwrtC(~I
Pode ser observado que a diferença entre as matrizes de covariân-

cias das incertezas paramétricas obtidas com as Equações (4.81)
e (4.82) é justamente o termo que contém a soma dos resíduos
( )
yie − eα x . Segundo a aproximação de Gauss, baseada nas hipó-
e
i
teses do experimento bem-feito e do modelo perfeito, esse termo

tende a zero e pode, assim, ser desprezado.
É interessante observar como os desvios paramétricos estão corre-

lacionados com os desvios experimentais, na forma:
Covar(L\a ,€v) = E{L\a €n = E {(-H:' (G v€v + Gx€x l)(s;,)}

Covar(t.a,ev) = E{ - R;' [ G veve·~ + G xexen }
Covar(L\a,ev) = -H:'[ GvE{even+ Jc,E{e,en

Covar (L\a, Ey) =- a : 'G v v, - a :'G Xv,,
(4.83a)

Covar{Ao,ex) =E {Aoen = E {(-n:' [G,.e,. +Gxe,:]}(e~)}

Covar(Aa, c, ) = E{ - H;' [ Gvc, c~ + Gx&xcn }
Covar(Aa, e,.) = - H:' [ G ,.E{e,.e~ }+ ]GxE{ &x&~ }
Covar(Ao,e,.) = - H: 'Gv V"- n : 'GxV,
(4.83b)
Quando os erros nas variáveis independentes são pequenos e podem
ser desprezados, a Equação (4.83a) fica:
covar(Aa, c,,) =E{Aa2n =E{(- a :'G,.c,.)(en}

Covar(Aa,£,,) = E{-H;' G ,.e,.t·~}
(4.83c)
Covar( Aa,&,.) =-,W.'G,.E {&v&~}
Covar(Aa,&,.) =-W.'G,. V,.
De forma semelhante, é possível mostrar que:
Covar ( c,.,Ao ) = Covar ( Aa,&,. ) 1. = ( -H.-1 GY_, )T = -V,G TU:I

(4.84)
Estes resultados mostram que os erros paramétricos e os erros
experimentais não são independentes. Essa noção de dependência
é fundamental para a correta compreensão dos procedimentos de
planejamento experimental e interpretação de resultados. As dis-
tribuições de erros paramétricos dependem de forma complexa das
distribuições dos erros experimentais, de maneira que diferentes
incertezas paramétricas são obtidas para cada conjunto característico
de dados experimentais.
Exemplo 4.27 – Na segunda parte do Exemplo 4.25 foram cal-

culadas as matrizes Hα e GY, admitindo-se que as variáveis inde-
pendentes não estão sujeitas a erros de medição. Nesse caso, a
covariância entre os erros paramétricos e os erros experimentais
podem ser calculadas como:

Covar (∆α, εY) = – Hα–1 GY Vy

As matrizes Hα e GY foram calculadas como
r- .... -
H0 =
2f (x:j
i=l
..
(J' yi
-
2~[~?J
.2~[~?] tt a~
2 NE [ } ]
-
 −x
2 2
( e
1 ) 2 (− x ) e
2
2
(− x )

e
NE
2

GY =  
 2 (− 1) 2
(− 1)
(− 1) 
2 2
 σ2 σ y22 σ yNE 
 y1
de maneira que a inversa da matriz Hessiana tem a forma:

r- NE NE -
1
-~X~
H~' = 1 f,.cr; i=l (J i
NE X2
2 NE ~2INE
[(~
"" "" _1 J- (~-2
.£..
2
NE xi J2]
2 ~NE
-"" ~ ~~i
2 i=l (J
1=1 (J i i=l (J i i=l (J i 1=1 (J i ...J
A matriz das covariâncias experimentais foi definida como:
σ y21 0 0 
 
 0 σ y22 0 
Vy =
 
 2 
 0 0 σ yNE 
Fazendo inicialmente o produto GYVY:
2 2
( ) 2 (− x )
 − x1e e
2

(− x ) σ
e
NE
2
y1 0 0 
2  
 σ y1 σ σ σ y2
2 2 2
 0 0 
G Y Vy =  y2

yNE
 2 (−1) (−1) (−1)   

2 2 2  2 
 σ2 σ y22 
σ yNE   0 0 σ yNE 
 y1

G Y Vy = 
( ) 2 (− x )
 2 − x1e e
2 (
2 − xNE
e
)

 2 (−1) 2 (−1) 2 (−1) 
Resta ainda definir a matriz de covariâncias das incertezas da pre-

dição do modelo. Substituindo a matriz de sensitividades na Equação
(4.68), a matriz de covariâncias das incertezas da predição pode ser
definida como:
V1 =E{~y~y 1 }=E {(B~u+tv}(B~a + tv n

• =E{Bt.Mu
Vr . r Br + Bt.uev+tvB
. ·r .T+ t,.t1v'}
r t.u (4.85)
V, =B V. B 1
. +BCovar (~u, e,. ) +Covar(~a, tv ) B.,. +V,
(Deve ser observado que, no caso da estimação simultânea das vari-
áveis independentes xm, como no problema de reconciliação de dados,
esses valores devem ser interpretados como os demais parâmetros
estimados do problema e incluídos no vetor a .)
Repare que a Equação (4.85) gera dois cenários: interpretação das
incertezas de predição dos pontos experimentais usados para a estimação
de parâmetros e a interpretação de incertezas de predição associadas a
um novo ponto experimental. No primeiro caso, a matriz de covariâncias
das incertezas da predição é a Equação (4.85). Já no segundo caso, os
desvios Y correspondem a desvios de condições que não foram usadas
para a estimação dos parâmetros. Nesse caso, a correlação entre ∆ a e
Y
é nula, de forma que a matriz de covariâncias dos erros de predição
fica na forma mais simples:
A T
V, = BV.,B +V., (4.86)
A Equação (4.86) mostra que o erro de predição tem dois componentes.
O primeiro é um componente relativo aos erros cometidos no passado (na

forma dos erros dos parâmetros Vα, lembrando que a matriz de sensitividades
na Equação (4.82) deve ser calculada nas condições experimentais onde os
experimentos já foram realizados). O segundo é um componente relativo
aos erros futuros (na forma do erro de experimentação Vy e na matriz de
sensitividade B calculada, agora, nos pontos onde se deseja calcular o erro de
predição, onde ainda não foram necessariamente feitas observações experi-
mentais). Essa equação mostra que nunca conseguimos nos livrar totalmente
dos erros cometidos no passado, já que eles se propagam indefinidamente
para o futuro na matriz Vα. Portanto, há que se ter sempre muito cuidado
com erros cometidos no laboratório para estimar parâmetros, pois eles se
propagarão indefinidamente para o futuro, sempre que o modelo for usado
para simulação, projeto, otimização etc. Esse é um aspecto operacional que
não tem sido explorado suficientemente no ambiente da pesquisa.
As expressões desenvolvidas acima para a definição das incertezas
paramétricas e de predição são fundamentais para a correta interpretação
estatística dos resultados, como será discutido na próxima seção. Além
disso, essas expressões são de fundamental importância para a perfeita
compreensão dos procedimentos clássicos de planejamento experimen-
tal, como discutido no Volume II desta série de publicações.
4.7. Interpretação Estatística dos Dados Estimados

Admite-se freqüentemente que o procedimento de estimação de parâmetros
termina após a minimização da função objetivo. Como discutido nas seções
anteriores, essa presunção está equivocada. Terminado o procedimento de
minimização da função objetivo e de obtenção dos parâmetros do modelo,
é imperioso analisar a qualidade dos resultados obtidos com as ferramentas
estatísticas apropriadas. Algumas informações relevantes devem ser obtidas
em relação à qualidade do modelo e dos parâmetros estimados, para que
seja possível reavaliar a necessidade de modificar o modelo ou de continuar
o processo de experimentação e coleta dos dados experimentais.
4.7.1. A Qualidade do Ajuste Obtido

Uma das hipóteses fundamentais usadas para formulação do procedi-
mento de estimação de parâmetros é a hipótese do modelo perfeito. A
adequação desta hipótese pode ser checada através da comparação dos
erros de modelagem obtidos com os desvios experimentais admissíveis.
Se esses erros forem compatíveis, não há como rejeitar a hipótese do
modelo perfeito; caso contrário, há argumento suficiente para o usuário
continuar investindo no aperfeiçoamento da modelagem do sistema.
No caso da estimação de mínimos quadrados, as Equações (4.11) e (4.12)
mostram que a variância final dos desvios de predição é dada por

FObj
σˆ y2 = (4.87)
NE − NP
onde NE-NP é o número de graus de liberdade ν. Portanto, a variância de
predição do modelo ( σˆ y2 ) pode ser comparada aos erros experimentais
( σ y2 ) com o teste F, descrito na Seção 3.3. Se as duas variâncias são se-
melhantes estatisticamente, o modelo deve ser considerado satisfatório
e não há motivos aparentes para descartar o modelo (nem a hipótese
do modelo perfeito). Caso contrário, dois cenários são possíveis:
a) σˆ y2 > σ y2 : o modelo não é capaz de explicar os erros experimentais a
contento, pois os erros de predição são significativamente maiores
que os erros experimentais. Logo, esforços devem ser feitos para
aperfeiçoar o modelo. Não deve também ser descartada a possibili-
dade dos erros experimentais estarem subestimados. Nesse caso, é
também conveniente que o experimentador reavalie a precisão das
medidas feitas e das informações usadas para fins de estimação de
parâmetros.
b) σˆ y < σ y : o modelo reproduz os dados experimentais muito melhor
2 2
do que esperado. Esse cenário, ao contrário do que muitos acreditam,

TAMBÉM indica que há algo errado, pois um modelo não pode levar a
previsões melhores do que os dados usados para gerá-lo. Portanto, é
bastante provável que o modelo esteja super parametrizado, indicando
que talvez possa ser simplificado. (O uso de modelos super parametriza-
dos pode resultar em risco muito grande para o usuário, como ilustrado
na Figura 4.14 mostrada a seguir.) Não deve também ser descartada a
possibilidade dos erros experimentais estarem superestimados. Como
comentado anteriormente, é também conveniente que o experimen-
tador reavalie a precisão das medidas feitas e das informações usadas
para fins de estimação de parâmetros.
A Figura 4.14 apresentada a seguir mostra dois resultados advindos
da estimação de parâmetros. Os pontos e respectivas barras verticais
representam os valores medidos de uma certa variável (y) e as respectivas
incertezas, à medida que uma outra variável (x) varia. A reta horizontal
representa o resultado obtido com um modelo constante (a hipótese de
que y não depende de x), perfeitamente compatível com os erros expe-
rimentais. A curva que passa pelos pontos é resultante de um modelo
cúbico de interpolação. O leitor atento deve reparar que o modelo cúbico
NÃO deve ser considerado melhor do que o modelo constante, porque
não consegue explicar os erros experimentais. Na verdade, as extrapo-
lações feitas com o modelo cúbico podem ser muito piores do que as

extrapolações feitas com o modelo constante, a despeito de o modelo

cúbico passar por cima dos pontos. Diz-se que o modelo cúbico está super
parametrizado e que está ajustando o ruído ou o erro experimental.
0,5 ..;..-..,.L---------~----l
0 1 2 4 5
X
Figura 4.14 – Esquema ilustrativo dos problemas da super parametrização.
No caso das funções de máxima verossimilhança desenvolvidas a

partir da hipótese de normalidade dos erros experimentais, as funções ob-
jetivos resultantes, como nas Equações (4.41) e (4.43), têm interpretação
de χ2 (ver Seção 3.2.2) com ν = NE.NY-NP graus de liberdade. Nesse caso,
se o modelo consegue representar a contento os dados experimentais,
χ2min < FObj < χ2max (4.88)
Caso contrário, como no parágrafo anterior, dois cenários são pos-
síveis:
a) FObj > χ2max: o modelo não é capaz de explicar os erros experimentais
a contento, pois os erros de predição são significativamente maiores
que os erros experimentais. Logo, esforços devem ser feitos para
aperfeiçoar o modelo. Não deve também ser descartada a possibili-
dade dos erros experimentais estarem subestimados. Nesse caso, é
também conveniente que o experimentador reavalie a precisão das
medidas feitas e das informações usadas para fins de estimação de
parâmetros.
b) FObj < χ2min: o modelo reproduz os dados experimentais muito melhor
do que esperado. Esse cenário, como já explicado, indica que há algo
errado, pois um modelo não pode levar a previsões melhores do que
os dados usados para gerá-lo. Portanto, é bastante provável que o
modelo esteja super parametrizado, indicando que talvez possa ser
simplificado. Não deve também ser descartada a possibilidade dos
erros experimentais estarem superestimados. Como já comentado, é
conveniente que o experimentador reavalie a precisão das medidas

feitas e das informações usadas para fins de estimação de parâme-

tros.
Em ambos os casos discutidos, o leitor deve perceber a necessidade
de avaliar os erros experimentais de forma independente, para que seja
possível estabelecer uma opinião sobre a qualidade do ajuste. Se os erros
experimentais não são conhecidos, é comum admitir que σˆ y = σ y , o
2 2
que carece de qualquer rigor estatístico formal, embora muitos pacotes

de simulação admitam como válida essa hipótese. O usuário deve estar
atento para o uso dessa hipótese simplificadora e descartar o seu uso,
sempre que possível. Deve-se inclusive ressaltar que esta definição do
erro experimental não pode ser feita para modelos com múltiplas res-
postas. Por isso, o experimentador deve estar sempre preocupado com a
caracterização precisa dos erros experimentais característicos do sistema
em estudo, ao invés de deixar questão tão importante como essa sem
uma avaliação formal.
Costuma-se ainda definir um coeficiente de correlação entre os valores
experimentais e calculados na forma
NE
∑ (y e
i − yie )(y m
i − yim )
ρ =m i =1
(4.89)
 NE e 2   NE 2
∑ i (y − yi
e
)
 ∑ i y m
− (
yi
m
 )
 i =1   i =1 
que indica quão proximamente os dados calculados acompanham os dados
experimentais. Usualmente, se o coeficiente de correlação é superior a 0.9,
o modelo é considerado satisfatório, indicando que os valores preditos
pelo modelo variam de forma aproximadamente linear e proporcional
com as medidas experimentais. Contudo, é importante que o usuário
perceba que valores inferiores a 0.9 podem indicar tanto o desajuste
do modelo (recomendando aperfeiçoamento da estrutura matemática
usada para descrever os dados experimentais), quanto a existência de
erros experimentais excessivos (recomendando o aperfeiçoamento das
técnicas experimentais). (Recomenda-se que o leitor consulte a Seção 1.6
para observar que o coeficiente de correlação não pode ser tomado como
uma medida absoluta da qualidade do ajuste do modelo.) A identificação
do foco do problema pode ser feita com auxílio da função objetivo. Por
exemplo, se a função objetivo recomenda o uso do modelo (χ2min < FObj <
χ2max) e o coeficiente de correlação é baixo (ρm < 0.9), o problema central
parece ser o excesso de erro de experimentação. Por outro lado, se a função
objetivo não recomenda o uso do modelo (FObj > χ2max) e o coeficiente de

correlação é baixo (ρm < 0.9), o problema central parece ser a má qualidade
do modelo. Idealmente, um bom modelo e um bom plano experimental
vão levar simultaneamente a χ2min < FObj < χ2max e ρm > 0.9.
É importante que se perceba ainda que, uma vez obtidos os parâme-
tros do modelo, é possível montar uma tabela na forma da Tabela 4.1,
onde são apresentados os dados obtidos, que pode ser transformada na
Tabela 4.2, onde são explicitados os desvios experimentais.
Tabela 4.1 – Dados experimentais e calculados com o modelo.
xe1,1 ... xeNX,1 ye1,1 ... yeNY, 1 xm1,1 ... xmNX,1 ym1,1 ... ymNY,1
... ... ... ... ... ... ... ...
xe1,NE ... xeNX,NE ye1,NE ... yeNY,NE xm1,NE ... xmNX,NE ym1,NE ... ymNY,NE
Tabela 4.2 – Desvios de modelagem.
εx1,1 = xe1,1 – xm1,1 ... εxNX,1 = xeNX,1 – xmNX,1 εy1,1 = y1,1 – ym1,1 ... εyNY,1 = yeNY,1 – ymNY,1
... ... ... ... ... ...
εx1,NE = xe1,NE – xm1,NE ... εxNX,NE = xeNX,NE – xmNX,NE εy1,NE = ye1,NE – ym1,NE ... εyNY,NE = yeNY,NE – ymNY,NE
Ora, se as hipóteses do experimento bem-feito e do modelo perfeito

são boas, a Tabela 4.2 contém amostras dos erros experimentais para
cada uma das variáveis do problema. Portanto, as técnicas desenvolvidas
no Capítulo 3 podem ser usadas agora para comparar essas amostras
dos erros experimentais com os resultados independentes obtidos no
laboratório a partir de réplicas, durante a fase de caracterização dos
erros experimentais. Por exemplo, se os erros experimentais são nor-
malmente distribuídos, cada uma das colunas da Tabela 4.2 deve ter
média zero (pode ser usado o teste t para verificar a significância dessa
hipótese, como ilustrado no Exemplo 3.18) e variância compatível com
as variâncias experimentais (pode ser usado o teste F para verificar a
significância dessa hipótese, como ilustrado no Exemplo 3.18). Se as
medidas forem independentes, espera-se que as correlações existentes
entre as medidas das várias colunas sejam fracas e pouco significativas
(pode ser usada a ferramenta estatística mostrada na Seção 3.4.4, para
caracterização da independência das medidas). Finalmente, espera-se
ainda que os desvios sigam de forma aproximada a distribuição de pro-
babilidades postulada para os erros experimentais (podem ser usadas
as ferramentas estatísticas mostradas na Seção 3.4.3 e no Exemplo 3.20,
para testes de aleatoriedade). Portanto, a organização dos dados na for-
ma sugerida pelas Tabelas 4.1 e 4.2 permite a utilização de um grande
arsenal de técnicas estatísticas para validação (ou não) das hipóteses

utilizadas durante a construção do modelo e a aplicação do procedimento

de estimação de parâmetros.
É conveniente comparar graficamente as distribuições esperadas
para os desvios experimentais e as obtidas depois do procedimento
de estimação de parâmetros, como discutido no Exemplo 3.20. Alguns
padrões típicos são apresentados nas Figuras 4.15 a 4.17.
•
.,
i
1
0,8
..
E
-
"il 0,6
:;)
ij
~
0,4
0
:;;
• 0,2
.-.
~
• 0
0 0,2 0,4 0,6 0,8 1
Probobilidado acumulad• ospo"'d'
Figura 4.15 – Padrão de acúmulo de erros esperado para um bom modelo e

boa caracterização de erros experimentais.
.,i•
1
0,8 ,,~
...•..•
•
.
E
§i~ 0,6
i"
., J! 0,4
:0
:a 0,2
..eJl
0
0 0,2 0,4 0,6 0,8 1
Probabilidade acumulada e&perada
Figura 4.16 – Padrão de acúmulo de erros esperado quando existem outliers.
1
•
.,"ll
E, .
.• •
" "~
0,8
0,6
il _8
;g 0 0,4
:;;
• 0,2
..
~
e
0
0 0,2 0,4 0,6 0,8 1
Figura 4.17 – Padrão de acúmulo de erros esperado quando o modelo é ruim ou

existe má compreensão sobre a distribuição e natureza dos erros experimentais.

4.7.2. A Qualidade dos Parâmetros Obtidos

Para que a qualidade dos parâmetros obtidos possa ser avaliada, é funda-
mental calcular a matriz de covariâncias dos parâmetros Vα, como nas
Equações (4.28), (4.53), (4.74) e (4.82). Deve ser observado que soluções
analíticas podem ser obtidas somente para modelos lineares. Na grande
maioria das vezes os modelos são não-lineares nos parâmetros e a ma-
triz de incertezas paramétricas tem que ser construída numericamente,
através de aproximações (por exemplo, a aproximação de Gauss), como
mostrado na seção anterior.
Com a matriz de covariâncias dos parâmetros é possível obter várias
informações relevantes sobre o problema analisado:
Definição dos intervalos de confiança dos parâmetros
Admitindo-se a distribuição normal e conhecendo-se as incertezas para-
métricas, é possível construir os intervalos de confiança dos parâmetros
como no Exemplo 3.2 do Capítulo 3. Nesse caso,
αˆ i − uσ α i < α i < αˆ i + uσ α i (4.90a)
onde o valor de u depende do nível de confiança requerido, αˆ i é o

valor estimado para o parâmetro e σ α i é o desvio padrão associado
à estimativa do parâmetro. No entanto, a definição dos intervalos de
confiança para os parâmetros do modelo é um tema polêmico. Alguns
textos sugerem o uso da distribuição t de Student para a definição do
intervalo de confiança na forma:

α i − tσ α i < α i < α i + tσ α i (4.90b)
onde t é obtido com o número de graus de liberdade da estimação e com

o grau de confiança arbitrado pelo usuário. Quando o número de graus
de liberdade é elevado (digamos, superior a 20), a Equação (4.90b) é es-
sencialmente igual à Equação (4.90a). Para números de graus de liberdade
inferiores a 20, a Equação (4.90b) leva a resultados mais conservativos
(intervalos de confiança mais largos). Para modelos lineares e sem erro na
variável independente x, é possível associar a estimação de parâmetros
feita por mínimos quadrados com uma operação de média amostral, que
pode justificar o uso da distribuição t de Student na Equação (4.90b).
Mas esse universo de condições é extremamente restritivo, de maneira
que o intervalo de confiança dos parâmetros deveria ser construído
com ferramentas numéricas mais poderosas, como as apresentadas no
Capítulo 5. Por isso, alguns textos sugerem simplesmente que o intervalo
de confiança do parâmetro seja construído na forma:


α i − cσ αi < α i < α i + cσ αi (4.90c)
onde c é um número real positivo maior do que o valor sugerido pela curva
normal para um determinado nível de confiança. Pelas razões apontadas,
sugere-se que o usuário sempre defina de forma clara a forma com que
se está calculando o intervalo de confiança dos parâmetros.
Grau de significância do parâmetro

O grau de significância é normalmente calculado em relação à referência
zero, em que o efeito paramétrico do modelo desaparece. De forma simples,
o grau de significância pode ser obtido a partir da Equação (4.90a-c), varian-
do-se o grau de confiança até que o intervalo de confiança do parâmetro
inclua o zero. Se o grau de confiança necessário para incluir o zero é inferior
ao grau de confiança estabelecido pelo usuário, diz-se que o parâmetro é
não significativo. Nesse caso, há argumentos estatísticos suficientes para
remover o parâmetro (e o respectivo efeito) do modelo matemático. Caso
contrário, diz-se que o parâmetro é significativo é há razões estatísticas
para mantê-lo (e o respectivo efeito) no modelo.
Correlação paramétrica
De forma análoga à da Equação (1.50) da Seção 1.6, define-se o coeficiente
de correlação paramétrica na forma:
σ ij2
ρij = (4.91)
σ iσ j
Quanto mais próximos de zero estiverem os coeficientes de correlação
paramétrica, mais eficientes serão os procedimentos de estimação dos
parâmetros e mais precisa será a identificação dos diferentes efeitos no
modelo. Quando a correlação paramétrica supera em módulo o valor de
0.9, é conveniente que o usuário reflita sobre a verdadeira necessidade de
introduzir esses parâmetros no modelo, dado que pequenas mudanças
no valor de um dos parâmetros podem ser compensadas com mudanças
de um segundo parâmetro que está a ele relacionado. Dessa maneira, a
correlação paramétrica indica que flutuações de alguns parâmetros podem
ser acomodadas por variações de outros parâmetros, de forma que talvez
seja possível reduzir o número de parâmetros do modelo. Por exemplo, o
modelo apresentado na Equação (4.92a), muito utilizado para a descrição de
modelos cinéticos, sugere a existência de 3 parâmetros: K1, K2 e K3. No en-
tanto, a Equação (4.92b) mostra que há apenas dois parâmetros no modelo:
(K1 / K2) e (K3 / K2). Portanto, a forma da Equação (4.92a) está errada, sob o
ponto de vista de estimação de parâmetros, dado que não é possível separar

os efeitos paramétricos uns dos outros. Repare ainda que a definição dos
parâmetros não é única, dado que qualquer um dos parâmetros poderia
ser utilizado no denominador. Esse é o clássico exemplo de correlação
paramétrica induzida pela formulação matemática do modelo.
K1 x
y= (4.92a)
K2 + K3 x
 K1 
 K x
y=  2 A1 x
= (4.92b)
1 +  3
K  x 1 + A2 x

 K2 
Correlações paramétricas elevadas às vezes são também geradas
por planejamento experimental ineficiente, como ilustrado a seguir e
discutido no Volume II desta série de publicações. Por exemplo, suponha
que um modelo pode ser escrito na forma
y = α1x1 + α2x2 + α3 (4.93a)
Não há nada de errado com a formulação do modelo apresentado na
Equação (4.93). No entanto, suponha ainda que os dados experimentais
são tais que xe1 = xe2. Nesse caso, quando o modelo é aplicado à malha
experimental, conclui-se que
y = α1xe1 + α2xe2 + α3 = (α1 + α2)xe1 + α3 = A1 xe1 + α3 (4.93b)
Portanto, apesar do modelo estar definido corretamente, parece claro
que não é possível separar os efeitos de x1 e x2 na malha experimental
proposta (ou seja, não é possível estimar α1 e α2 independentemente).
Para piorar, mesmo que não haja problemas nem com a formulação
do modelo, nem com a proposição da malha experimental, é possível que
efeitos numéricos causem o aparecimento de correlações paramétricas
e de problemas para a estimação independente dos parâmetros. Por
exemplo, considere a Equação (4.92b). Suponha que A2 é muito grande.
Nesse caso, a Equação (4.92b) ganha a forma:
A1 x A  K 
y= ≈  1  =  1  (4.92c)
1 + A2 x  A2   K 3 
de maneira que apenas um parâmetro está efetivamente presente no
modelo. Suponha agora que A2 é muito pequeno. Nesse caso,

A1 x K 
y= ≈ A1 x =  1  x (4.92d)
1 + A2 x  K2 
e, uma vez mais, apenas um parâmetro está efetivamente presente no
modelo. Esse tipo de correlação paramétrica é muito difícil de avaliar a
priori, porque depende da magnitude relativa dos parâmetros. Na grande
maioria das vezes, e em particular quando o modelo é não-linear e contém
muitos parâmetros, o usuário não conhece a magnitude relativa dos efei-
tos, de forma que não é possível eliminar esses efeitos antes de realizar a
estimação. Isso torna o cômputo das correlações paramétricas fundamental
para a correta avaliação da qualidade final dos resultados obtidos.
É importante ressaltar que correlações paramétricas elevadas às vezes
não têm como ser evitadas, por resultarem da estrutura intrínseca do
modelo matemático, o que é comum em modelos não-lineares, como o
modelo de Arrhenius (veja o Exemplo 4.10). Contudo, correlações eleva-
das sempre indicam problemas de estimação, que devem ser evitados e
compreendidos. Uma das conseqüências práticas da existência de cor-
relações paramétricas é o mau condicionamento da matriz Hα; ou seja,
em outras palavras, a matriz Hessiana usada amplamente nas seções
anteriores pode ser não inversível (ou difícil de inverter numericamen-
te). Obviamente, isso pode prejudicar toda a análise numérica proposta
nas seções anteriores, já que a inversa de Hα é usada em vários procedi-
mentos. (Isso indica que a invertibilidade da matriz Hessiana pode ser
usada como ferramenta para identificação da existência de correlações
paramétricas inaceitáveis no modelo.) Uma forma possível de minimizar
os efeitos associados a correlações paramétricas é a reparametrização
do modelo, que será discutida no Capítulo 5.
Exemplo 4.28 – Considere o modelo linear

y = α 1 x 1 + α2 x 2 + α3
e a função de mínimos quadrados
NE
FohJ = L ~:-at x; -a2 x; -a.3 J

i=l
Nesse caso, a matriz Hessiana pode ser dada na forma da Equação

(4.17) como:

NE NE NE
2 L~:.i J 2 Lxr x;. ,l ,l 2 Lx:,;

i=l i=l i=l
NE NE NE
Ha = 2Lx:. x;. 2L~;.iJ 2 Lx;,;
i=l NE
,l ,l
i=l
NE
i=l
2 Lx:,; 2 Lx;,i 2NE
i=l i;;;;;l
e e
Se ao longo dos experimentos os valores das variáveis x1,i e x 2,i
são iguais, então as linhas 1 e 2 da matriz Hessiana são iguais.
Por conseguinte, a matriz Hessiana é não inversível.
4.7.3. A Qualidade das Previsões do Modelo

Para que a qualidade das previsões feitas com o modelo seja avaliada,
é necessário calcular como os erros paramétricos se propagam através
do modelo e viram erros de predição. Para alguns casos simples, onde o
modelo é linear nos parâmetros, uma derivação teórica pode ser obtida,
como pode ser observado nas Equações (4.31) e (4.56). Contudo, como
no caso das incertezas paramétricas, os erros de predição de modelos
não-lineares têm que ser calculados com a ajuda de aproximações, como
a obtida na Equação (4.86), ou de ferramentas numéricas.
Por exemplo, considere o caso apresentado no Exemplo 4.19, que trata
de uma reta. Nesse caso, a variância de predição pode ser escrita como
(4.94)
que mostra que os erros de predição crescem na forma de uma parábola,
à medida que x cresce em valor absoluto. A Equação (4.94) é usada fre-
qüentemente para justificar a frase de que a extrapolação é menos precisa
que a interpolação. Contudo, é importante enfatizar que a Equação (4.94)
é válida unicamente para a reta e não deve ser usada como argumento
para outros modelos. Por exemplo, no caso do modelo na forma:
y = 1 – e–αx (4.95)
é possível escrever
(4.96)

que tende a zero quando x cresce indefinidamente; ou seja, as incerte-

zas das extrapolações diminuem. Portanto, não é possível garantir que
as incertezas de predição crescem, quando nos afastamos da região
experimental, sem que se diga claramente o modelo usado para fazer
a extrapolação. O modelo da Equação (4.95) apresenta comportamento
inverso.
Expressões como a apresentada na Equação (4.85-86) permitem
também definir os intervalos de confiança de predição do modelo, de
forma similar à utilizada para definição dos intervalos de confiança dos
parâmetros
yim − uσˆ yi < yi < yim + uσˆ yi (4.97)
Esses intervalos de confiança podem ser usados para detectar pontos

experimentais suspeitos, que não podem ser explicados pelo modelo.
Como discutido na Seção 3.3.4, o procedimento de detecção de outliers é
bastante controverso. Um ponto experimental não deve ser descartado, a
não ser que a repetição do experimento confirme a existência de um erro
grosseiro ou que haja razões muito específicas para condenar a observa-
ção experimental. Como já discutido, um ponto experimental que não se
adequa ao modelo pode ser uma grande oportunidade científica.
Os erros de predição podem ser também usados para definir a região
experimental onde modelo e medida experimental são equivalentes do
ponto de vista estatístico, definindo assim a região de utilidade do mode-
lo. Isso pode ser feito comparando-se o erro de predição, que é uma função
do ponto experimental considerado, com o erro experimental através do
teste F. Sempre que os dois erros puderem ser considerados equivalentes,
o modelo pode ser considerado válido e útil naquela região.
Como feito anteriormente com os desvios observados entre as pre-
dições do modelo e os dados experimentais, e ilustrado nas Figuras 4.15
a 4.17, é também conveniente comparar graficamente o desempenho
dos modelos. Isso pode ser feito de forma muito simples com o auxílio
de gráficos, como os ilustrados nas Figuras 4.18 a 4.21. Nesses gráficos,
os valores previstos pelo modelo e observados experimentalmente são
comparados visualmente, permitindo a obtenção de informações va-
liosas a respeito da qualidade da estimação realizada. Nos gráficos das
Figuras 4.18 a 4.21, as barras verticais caracterizam os erros de predição
do modelo, enquanto as barras horizontais caracterizam os erros das
medidas experimentais.

..
0
1
0,8
"'
.!!! I
..
"
,!,! 0,6 ... I
u
..e 0,4 I T- ....,
tw l
0
;;; 0,2
>
0
0 0,2 0,6 0,8 1
Valores Observados
Figura 4.18 – Padrão típico de comparação entre os dados calculados pelo
modelo e os dados observados experimentalmente, quando o modelo é bom e
os experimentos são bem-feitos.
.,0 1
0,8
".!!!
...,"
,!,!
u
0,6
.. 0,4
..
~
.2 0,2
>
0
0 0,2 0,4 0,6 0,8 1
Valores Observados

modelo e os dados observados experimentalmente, quando há candidatos a
outliers (o ponto isolado que não pode ser explicado pelos erros de medida).
.,
0
1
0,8
"'.!!!
...,"
,!,!
u
0,6
0,4
e0
>
.. 0,2
0
0 0,2 0,4 0,6 0,8 1
Valores Observados

modelo e os dados observados experimentalmente, quando o modelo é ruim
ou quando os desvios experimentais estão subestimados.

1
l!
"',
!!
0,8 ~
.!! 0,6
m
0
... ""
0,4
~
0
;; 0,2 ... ~
>
0
0 0,2 0 ,4 0,6 0,8 1
Vatores Observados
modelo e os dados observados experimentalmente, quando o modelo não
apresenta desempenho uniforme na região de experimentação (erra mais para
um lado do que para outro).
Exemplo 4.29 – Considere o seguinte conjunto de NE = 6 dados

experimentais
6
x e
i
0 1 2 3 4 5 ⇒ ∑x i =1
e
i = 15
6
y e
i
0.1 0.9 2.2 3.2 3.9 4.8 ⇒ ∑y i =1
e
i = 15
∑ (x ) = 55
2
e
e2
(x )
i
0 1 4 9 16 25 ⇒ i
i =1
6
yxe e
i i
0 0.9 4.4 9.3 15.6 24 ⇒ ∑ (y
i =1
e
i )
xie = 54.2
aos quais se pretende ajustar uma reta através de procedimento

padrão de mínimos quadrados. Nesse caso,
ym = αx + β
e o número de graus de liberdade é ν = 4. Logo, de acordo com
o Exemplo 4.20,
6 ⋅ 54.2 − 15 ⋅15
α= = 0.9542857413
6 ⋅ 55 − 15 ⋅15
15 − 0.9542857143 ⋅15
β= = 0.114285715
6
resultando no seguinte conjunto de predições feitas com o modelo

yim : 0.1142857; 1.0685714; 2.0228571; 2.9771429; 3.9314287;

4.8857143
Portanto, o erro médio global de predição oriundo da estimação
fica na forma
NE
∑( )
2
yie − yim
σˆ =
2
y
i =1
= 0.02085714281
4
σˆ y = σˆ y2 = 0.1444200222
enquanto o coeficiente de correlação do modelo fica na forma
ρ m = 0.9974
que indica fortíssima correlação entre os valores experimentais
e calculados através do modelo, indicativo também de excelente
grau de ajuste.
Admitindo-se que o erro experimental σ y é igual ao erro oriundo
2
do processo de estimação de parâmetros σˆ y

2
6
σ α2 = 0.020855714281 = 0.00191836732
6 ⋅ 55 − 15 ⋅15
σ α = σ α2 = 0.03452298846
55
σ β2 = 0.020855714281 = 0.001546598622
6 ⋅ 55 − 15 ⋅15
σ β = σ β2 = 0.1243623183
de maneira que com 95% de confiança, u = 1.96, resultando em

α = 0.95 ± 0.07 β = 0.11 ± 0.25
Portanto, o parâmetro α é significativo, enquanto o parâmetro
β é não significativo. Assim, há justificativas para que se tente
uma modelagem do tipo ym = αx.
A covariância entre os parâmetros α e β é igual a
σ αβ
2
= 0.020855714281
(−15) = −0.00297959183
6 ⋅ 55 − 15 ⋅15
resultando em um coeficiente de correlação paramétrica igual a

σ αβ
2
ραβ = = −0.6940
σ ασ β
indicando moderado grau de correlação entre os dois parâme-
tros. O sinal negativo indica que perturbações positivas em um
dos parâmetros provocam perturbações negativas no outro e
vice-versa.
O erro de predição exclusivo do modelo pode ser dado por
σˆ y2 = 0.00191836732 ⋅ x 2 − 2 ⋅ 0.00297959183 + 0.01546598622
que se for somado ao erro experimental, tem a forma

σˆ y2 = 0.00191836732 ⋅ x 2 − 2 ⋅ 0.00297959183 + 0.01546598622 + 0.02085714281
Aplicando-se o teste F para 4 graus de liberdade e grau de con-

fiança de 95%, chega-se a
σˆ y2
F = 9.6045 > = 0.092 x 2 − 0.2857 x + 1.742
σ y2
de maneira que
0.092 x 2 − 0.2857 x − 7.863 < 0 −7.82 < x < 10.92
é a região de validade do modelo. Admitamos, por exemplo, que
a realidade fosse y = x, plausível a partir da análise dos dados
experimentais. Neste caso, para x = 10, y = 10 e ym = 9.654, cujo
desvio já é de cerca de 2.5 vezes o valor de σy .
A Figura 4.22 ilustra a qualidade do processo de estimação realizado
.·
- 1 ~----------------------------------------------~
u
Figura 4.22 - Resultado do procedimento de estimação de parâmetros do

Exemplo 4.29.

4.8. Conclusões
Foi definido nesse capítulo o problema de estimação de parâmetros.
Um procedimento foi construído para inferir os valores de certas va-
riáveis (os parâmetros) que não podem ser medidas, mas sem as quais
os modelos matemáticos não têm utilidade. O problema é constituído
por três etapas: uma etapa de formulação de uma função objetivo, uma
etapa de minimização da função objetivo e uma etapa de interpreta-
ção dos resultados finais. Para formulação da função objetivo a ser
minimizada durante a segunda etapa do procedimento proposto, foi
criada uma metodologia de máxima verossimilhança. A metodologia
propõe que os erros de modelagem sejam usados como amostras dos
erros experimentais, o que está em consonância com as hipóteses de
existência de um bom modelo e de bons dados experimentais. Essas
hipóteses podem ser validadas (ou rejeitadas) a posteriori, depois de
obtidos os resultados da estimação.
Mostrou-se através de exemplos que o usuário não deve ter a ex-
pectativa de gerar soluções analíticas para o problema de estimação de
parâmetros para problemas genéricos, o que justifica o desenvolvimento
dos métodos numéricos apresentados no próximo capítulo. Apesar disso,
várias expressões matemáticas úteis foram derivadas, para permitir a
interpretação matemática (estatística) dos resultados obtidos, quando
os erros experimentais não são muito grandes.

A literatura dedicada à apresentação do problema de estimação de parâ-
metros é muito vasta. Não cabe aqui, portanto, uma revisão dessa área. O
leitor interessado encontrará centenas de livros que abordam esse tema
em qualquer biblioteca dedicada à Matemática e à Engenharia. Alguns
textos clássicos que tratam do assunto são apresentados a seguir, para
eventuais consultas e aprofundamento dos estudos.
Y. Bard. Nonlinear Parameter Estimation. San Diego: Academic Press
Inc., 1974.
D. M. Bates; D. G. Watts. Nonlinear Regression Analysis and Its Applica-
tions. New York: John Wiley & Sons, 1988.
N. R. Draper; H. Smith. Applied Nonlinear Regression. New York: John
Wiley & Sons, 1998.
P. Englezos; N. Kalogerakis. Applied Parameter Estimation for Chemical
Engineers. New York: Marcel Dekker Inc., 2001.


1. Os seguintes dados estão disponíveis:
NE x y
1 0.10 0.38
2 0.20 0.91
3 0.30 1.69
4 0.40 2.13
5 0.50 2.66
6 0.60 2.61
7 0.70 3.65
8 0.80 3.94
9 0.90 4.28
10 1.00 5.24
Admitindo-se que o modelo y = a x é válido, onde a é o parâmetro a
ser determinado, estime o melhor valor de a nos três casos abaixo:
10
∑ (y − yic ) ;
2
a) Fa = e
i
i =1
10
b) Fb = ∑ (y
i =1
e
i −y c 8
i );
2
 yie − yic 
10
c) Fc = ∑  e  ;
i = 1 yi 
d) Compare os valores obtidos.
2. Supondo que os erros de uma certa medida são independentes e

sigam a distribuição exponencial, definida como:
1  ε  _II
P (ε i ) = exp  − i  , −∞ < ε i < ∞
2σ i  σi 
onde εi são os desvios ou erros experimentais e σi é o desvio padrão,
defina a função objetivo a ser usada em um procedimento de esti-
mação de parâmetros que utiliza estes dados.

3. Determine as expressões para os parâmetros A e B do modelo linear:

y = Ax + B, para as seguintes funções objetivos.
NE
∑ (y − yim ) ;
2
a) F = e
i
i =1
(yie − yim )
2
NE
b) F =
∑
i =1 σ i2
;
NE NE
∑∑ (yie − yim )(y ej − y mj )vij 

−1 −1
c) F = , onde  vij 
i =1 j =1
 
o elemento ij da inversa da matriz Vy de erros experimentais.
d) Em seguida, usando os dados abaixo, calcule os valores dos parâme-
tros, a matriz de covariância dos parâmetros e o erro de predição
para cada função objetivo.
i xei yei 1.0 0.5 0.1 

V = 0.5 1.0 0.5 
1 1 2
2 2 3
 0.1 0.5 10.0 
3 3 7

Procedimentos
5 Numéricos para
Estimação de Parâmetros
Os procedimentos numéricos usados para fins de estimação de parâ-

metros são fundamentalmente procedimentos numéricos que permitem
a otimização (minimização) de uma certa função objetivo. Como visto
no Capítulo 4, a otimização (minimização) da função objetivo admite
solução analítica raramente, como no caso em que o modelo é linear nos
parâmetros. Entretanto, a maioria absoluta dos modelos encontrados
no dia-a-dia de cientistas e engenheiros, em particular na área da Enge-
nharia Química, é constituída por modelos não-lineares, de maneira que
não é possível obter soluções analíticas em problemas de estimação de
parâmetros, de forma geral. Por isso, são necessários métodos numéricos
para encontrar a solução do problema.
É importante observar que, uma vez definidos a função objetivo, o mo-
delo e os dados experimentais, o mínimo da função objetivo já está também
definido. O papel do método de otimização é encontrar esta solução desco-
nhecida pelo usuário. Porém, esta tarefa pode ser muito difícil: pode haver
muitos dados experimentais, os modelos podem ter comportamento com-
plexo, a função objetivo pode ter múltiplos mínimos locais, os parâmetros
podem estar correlacionados (a matriz Hessiana pode ser mal condicionada
e difícil de inverter), o número de parâmetros pode ser elevado etc. Devido
a estas dificuldades, foi proposta na literatura uma infinidade de métodos
diferentes de otimização, cada qual com suas particularidades. Por isso, a
eficiência desses métodos pode variar muito de problema para problema.
Assim, não existe um único método de otimização que seja capaz de resolver
todos os problemas de estimação. Alguns métodos são muito eficientes em

certos problemas, mas não são capazes de solucionar um outro problema

com características um pouco diferentes.
Nas próximas seções, será definido o problema numérico de oti-
mização e serão apresentados alguns métodos numéricos comumente
utilizados em problemas de estimação de parâmetros. O objetivo deste
capítulo não é rever a vasta literatura da área, mas oferecer ao leitor
perspectivas numéricas que permitam compreender pacotes comerciais
e construir seu próprio ambiente de estimação.
5.1 Definição do Problema Numérico de Otimização

O problema de estimação de parâmetros consiste na minimização de uma
função objetivo, que mede a distância entre os dados experimentais e
os dados preditos (calculados) por um modelo, conforme amplamente
discutido no Capítulo 4. Considerando que os erros das variáveis medidas
têm distribuição normal e que as medidas das variáveis independentes
x e das variáveis dependentes y são independentes, a seguinte função
objetivo pode ser obtida:
-~·s
FfJb; = L { (Yi - r:")'r vy~ (Yi - )·i)+(•i - .;')" X~ (•i - "i') }

f=]
(5.1)
Quando as variáveis independentes são conhecidas com grande
precisão, a Equação (5.1) fica reduzida a:
NE
(
FObj = ∑ y ie − y im ) V (y )
T
−1
Yi
e
i − y im
i =1 (5.2)
É importante observar, como discutido no Capítulo 4, que as Equa-
ções (5.1-2) são apenas exemplos de um conjunto muito mais amplo de
possibilidades, já que a função objetivo pode apresentar muitas formas
diferentes, a depender do problema analisado. A despeito disso, a não ser
que seja dito explicitamente o contrário, as Equações (5.1-2) serão usadas
para a formulação dos problemas de estimação de parâmetros propostos
nesse capítulo. Deve ser ainda observado que, quando todas as medidas
são realizadas de forma independente, as matrizes VYi e VXi são diagonais
e a Equação (5.1) fica na forma da Equação (4.43) definida no Capítulo 4.
Considera-se que o modelo matemático que relaciona as variáveis
independentes (x), os parâmetros ( ) e as variáveis dependentes (y)
pode ser escrito na forma:
ymi = f (xmi , ) (5.3)

onde, para uma dada condição experimental i, os valores das variáveis

dependentes ymi possam ser calculados (explicitamente ou numerica-
mente) a partir das variáveis independentes xmi e dos parâmetros α.
(Observe que os parâmetros não variam com a condição experimental i,
constituindo assim uma amarração teórica entre os pontos experimen-
tais disponíveis.) Assim, a minimização da função objetivo definida na
Equação (5.1) consiste em procurar os valores dos parâmetros α e das
variáveis independentes xmi (i =1 ... NE) que fazem com que função FObj
atinja um valor mínimo, já que os valores das variáveis dependentes ymi
são obtidos a partir de α e xmi , dadas as restrições matemáticas impostas
pelo modelo. (Por isso, o problema de estimação de parâmetros pode
ser definido como um problema de otimização com restrições.) Observe
que o número de variáveis do problema de otimização é igual a NP pa-
râmetros e NX variáveis independentes em cada uma das NE condições
experimentais, somando NP + NE.NX variáveis de otimização. Quando as
variáveis independentes estão isentas de erro (Equação (5.2)), o número
de variáveis de otimização cai para NP; isto é, apenas os parâmetros do
modelo são manipulados para minimizar FObj.
Uma forma conceitualmente simples de obter a solução do problema
consiste em buscar o ponto onde o gradiente da função objetivo seja nulo.
(Esta é uma condição necessária, mas não suficiente, já que o ponto en-
contrado pode ser um mínimo, um máximo ou um ponto de sela.) Assim,
derivando-se a função objetivo em relação a cada uma das variáveis de
otimização, pode ser obtido o seguinte conjunto de equações:
aFObj
--
aal
g1 ~~, ... ,x~,a) . 0 a]
aFObj
gNP~~ , ... ,x~,a) aa.NP 0 (X.NP

g((J)= =0' P=
gNP+l ~~ , ... ,x~,a)
m
aFObj
-- 0 x1,1
ax~
~~ , ... ,X~,a)
m
gNP+NX*NE 0 XNX,NE
aFObj
axZx*NE
(5.4)
que totalizam NP + NE.NX equações algébricas, cuja solução fornece a
solução do problema de estimação (a despeito do fato de esta ser ape-
nas uma condição necessária, mas não suficiente, para a caracterização
de um ponto mínimo). Considerando que as variáveis independentes
são conhecidas com grande precisão, apenas os parâmetros do modelo
Procedimentos Numéricos para Estimação de Parâmetros 311

precisam ser encontrados. Assim, o sistema de equações que precisa

ser resolvido é
'"aF.Cltl
g,(a) acx, 0 a,
g(p)= .•• - .•• - .•• =0,
P= ..
•
(5.5)
gNI'(u) aF06J 0 aNI'

aalll'
O sistema de equações algébricas descrito nas Equações (5.4-5)
pode ser resolvido com o auxílio de técnicas numéricas clássicas, como
o método de Newton-Raphson. O método de Newton-Raphson (e suas
muitas variantes) propõe a solução numérica de um conjunto de equa-
ções algébricas de forma iterativa, a partir da solução de problemas mais
simples gerados pela linearização sucessiva do sistema de equações que
se pretende resolver. O método de Newton-Raphson pode ser definido
de forma genérica na forma
a(is)... &(is. )+ ~:t (JS-P.)= &, +J . (p-Jo)= 0 (5.6a)
p, =.Po -J;'I o
onde se supõe que o sistema de equações a ser resolvido (g( II )) pode
ser aproximado por uma reta nas proximidades de um ponto ( Jl0), trun-
cando-se a expansão em série de Taylor no primeiro termo (primeira
derivada da função). Quanto mais próxima a solução procurada ( )
estiver do ponto inicial fornecido ( Jl 0), mais acurada será a aproxima-
ção obtida da solução ( 1). Dessa forma, espera-se que o usuário seja
capaz de fornecer uma estimativa inicial da solução ( II0), seja capaz de
calcular as funções algébricas que pretende resolver (g0 = g( 0)) e as
respectivas derivadas
e seja capaz de inverter J0. Obviamente, o procedimento pode ser repetido

indefinidamente e de forma iterativa na forma:
(5.6b)
onde k denota a k-ésima iteração do procedimento numérico, gk = g( IIk) e

J~=1~
at~,. é a matriz Jacobiana do sistema de equações, definida
como
~'· •••
~'•
Jlt = •• ••
•
••
• (5.7)
~'• •••
~'·
onde NG denota o número total de equações e variáveis que constituem
o problema. Nos casos particulares analisados nas Equações (5.4-5), NG
é igual respectivamente a NP+NX*NE e NP.
Exemplo 5.1 – Considerando-se um problema de estimação de

parâmetros de um modelo não-linear, com medidas experimentais
sujeitas a flutuações normais, sendo que as variáveis independen-
tes são medidas com grande precisão, a função objetivo definida
na Equação (5.2) pode ser utilizada. Um procedimento recursivo
pode ser desenvolvido a partir da aproximação linear do modelo
em torno de uma estimativa inicial dos parâmetros α0, como
mostra a equação seguir:
y, = f ( x,, a)~ f,0 + B, (a-a 0 )
onde i indica a condição experimental, fi0 é um vetor com dimen-
são NY na forma
e Bi é uma matriz de dimensão NY x NP que contém as derivadas

de cada variável dependente em relação a cada um dos parâme-
tros do modelo, também chamada de matriz de sensitividades e
definida na Equação (4.78) do capítulo anterior na forma:

at; (x,,a1 at; (x,,a1

aal uo aaNP uo
Bi -
-
ajNY(x,,a1 ajNY(x,,a1
aal uo aaNP uo
Substituindo a aproximação proposta acima na função objetivo

definida na Equação (5.2), chega-se a:
Derivando-se a função objetivo mostrada acima em relação aos

parâmetros,
aF
_o_.o._bj
NE
= -2 ~ B~v-~ [Y~ -f.0 - B. fa -a 0 )~ = 0
aa """" '
i=l
y, ' ' ' ~ ~
Agrupando de forma conveniente os termos da equação acima
e definindo
NE NE
U = ∑ B V  y − f 
T
i
−1
Yi
e
i i
0
T = ∑ BiT VY−i1Bi
i =1 i =1
onde U é um vetor com dimensão NP e T é uma matriz com di-

mensão NP x NP, chega-se finalmente a
ou na forma iterativa
.....
u;.
.t.--+1 =·rl"-T-1 U ·
u:. . k k
Assim, a partir de uma estimativa inicial α0 proposta pelo usuário
e do cálculo das derivadas do modelo em relação aos parâmetros
(presentes nas matrizes T e U), a solução do problema de estima-
ção pode ser obtida de forma recursiva. É claro que a garantia de
convergência do procedimento recursivo está intimamente ligada
à qualidade da estimativa inicial fornecida e à forma matemática

do modelo, presente através das derivadas. Observe ainda que

apenas as derivadas primeiras do modelo foram necessárias para
o desenvolvimento do procedimento numérico, em decorrência
da aproximação linear proposta para o modelo. Como será visto
a seguir, o mesmo resultado pode ser obtido quando um método
de Newton é utilizado para a minimização da função objetivo,
quando se utiliza a aproximação de Gauss para o cálculo da
matriz Hessiana.
Exemplo 5.2 – Considerando um modelo definido na forma

y = exp (–k x)
onde k é um parâmetro que deve ser estimado a partir dos se-
guintes dados experimentais:
i 1 2 3 4 5
x 0.0 0.1 0.3 0.6 1.0
y 0.98 0.76 0.54 0.29 0.15
Considerando ainda que os erros experimentais são sujeitos a
flutuações normais com variância constante, a função objetivo
pode ser definida como:
( ))
NE NE
( ) (
2
FObj = ∑ y − y = ∑ yie − exp −k xie
2
e m
i i
i =1 i =1
Derivando-se a função objetivo em relação ao parâmetro k:

∂FObj
( ))(− x )exp (−k x )= 0
NE
g1 =
∂k
= 2∑ yie − exp −k xie ( e
i
e
i
i =1
( ))x
NE
g1 = ∑ yie − exp −k xie ( e
i (
exp −k xie = 0 )
i =1
Neste caso, em que apenas um parâmetro é estimado, a matriz

Jacobiana tem dimensão 1x1 e é composta apenas pelo valor
da derivada de g1 em relação ao único parâmetro do problema
α1=k.
∂g1 NE e
( ( )) − (y ( ))(x ) exp (−k x )
2
= ∑ xi exp −k xie
2
J= e
− exp −k xie e e
∂k i =1
i i i

Assim, a equação recursiva do método de Newton-Raphson pode

ser escrita na forma:
g1 (ki )
ki +1 = ki −
J (ki )
Partindo-se então de uma estimativa inicial para k0=1.000000
(o grande número de casas decimais é proposital, para ilustrar a
convergência do procedimento), os valores encontrados durante
o procedimento recursivo são:
Tabela 5.1 – Resultados do procedimento iterativo do método de Newton-

Raphson para uma estimativa inicial igual a k0=1.000000.
Iteração ki FObj g1 J ki+1
0 1.000000 0.176161 -0.223113 0.447333 1.498763
1 1.498763 0.039183 -0.072336 0.193539 1.872518
2 1.872518 0.007354 -0.018337 0.104642 2.047757
3 2.047757 0.003855 -0.002396 0.078540 2.078265
4 2.078265 0.003780 -0.000059 0.074710 2.079054
5 2.079054 0.003780 0.000000 0.074614 2.079054
Pode ser observado que, após cinco iterações, o valor do gradiente é

nulo (dentro da precisão utilizada) e os valores da função objetivo e do
parâmetro k convergem respectivamente para 0.003780 e 2.079054.
O mesmo procedimento é usado agora, partindo-se de uma es-
timativa inicial diferente k0=5.000000. A Tabela 5.2 mostra os
valores encontrados ao longo do procedimento iterativo.
Tabela 5.2 – Resultados do procedimento iterativo do método de Newton-

Raphson para uma estimativa inicial igual a k0=5.000000.
iteração ki FObj g1 J ki+1
0 5.000000 0.202586 0.038660 -0.003467 16.149476
1 16.149476 0.704960 0.012427 -0.001098 27.465807
2 27.465807 0.882527 0.004506 -0.000418 38.245644
3 38.245644 0.943487 0.001613 -0.000157 48.527895
4 48.527895 0.964394 0.000587 -0.000058 58.630075
5 58.630075 0.971887 0.000215 -0.000021 68.667411
Neste caso, o procedimento numérico não converge, já que o valor

de k continua aumentando indefinidamente, à medida que as

iterações se sucedem. O que ocorre nesse caso é que o algoritmo

está evoluindo na direção de um máximo (em que k é infinitamen-
te grande), onde a derivada da função objetivo também é nula.
Quando o valor de k tende para infinito, a resposta do modelo fica
sempre igual a zero, de forma que a função objetivo alcança um
valor máximo (observe que ao longo das iterações o gradiente
g1 esta convergindo para zero!). Como as equações recursivas do
método de Newton-Raphson não são capazes de distinguir entre
um ponto de mínimo e um ponto de máximo, uma boa estimativa
inicial dos parâmetros é fundamental para que a convergência
para um ponto de mínimo ocorra.
Como mostrado no Exemplo 5.2, a resolução de um problema de

estimação de parâmetros através da aplicação direta da condição de gra-
diente nulo (e uso de procedimentos numéricos derivados da estratégia
de Newton-Raphson) pode ser inviável do ponto de vista prático. Em
primeiro lugar, a geração do sistema de equações algébricas descrito pela
Equação (5.4) pode ser difícil ou até mesmo impossível, porque requer a
derivação da função objetivo. No caso particular em que o modelo não
é explícito (ou seja, em que é preciso usar um método numérico para
calcular yim na Equação (5.3)), a definição explícita das Equações (5.4-5)
pode não ser possível. Uma dificuldade adicional diz respeito ao cálcu-
lo da matriz Jacobiana (que envolve as derivadas segundas da função
objetivo) e à inversão da matriz Jacobiana a cada iteração (o que é com-
putacionalmente custoso). Finalmente, como ilustra o Exemplo 5.2, não
é possível garantir a convergência do procedimento numérico, mesmo
quando as derivadas podem ser calculadas analiticamente em problemas
de pequena dimensão. Em outras palavras, o procedimento numérico de
Newton-Raphson pode ser extremamente sensível à estimativa inicial dos
parâmetros fornecida pelo usuário. Por todas essas razões, a despeito do
enorme sucesso que as estratégias numéricas derivadas do procedimento
de Newton-Raphson alcançaram em vários campos da matemática, é
necessário desenvolver procedimentos alternativos e mais robustos para
resolver numericamente o problema de estimação de parâmetros.
Na prática, a otimização da função objetivo é feita com o auxílio de
métodos numéricos desenvolvidos especificamente para procedimentos
de otimização. Nesse caso, ao invés de buscarmos os valores dos parâ-
metros que tornam o vetor gradiente da função objetivo nulo, como
descrito nas Equações (5.4-5), são utilizados métodos que manipulam
diretamente os valores da função objetivo. A idéia fundamental por trás

desses métodos é que, ao invés de procurarmos diretamente o ponto

mais baixo de um vale, devemos simplesmente tratar de descer o vale.
Obviamente que, ao longo da trajetória de descida, esperamos encontrar
o ponto de mínimo em algum momento.
A principio, qualquer método de otimização pode ser utilizado para
prover a solução numérica do problema de estimação de parâmetros.
Entretanto, como será discutido a seguir, cada método de otimização tem
suas particularidades, vantagens e desvantagens, de maneira que o su-
cesso na resolução do problema de estimação de parâmetros depende em
grande parte da escolha de um método apropriado para o problema que
está sendo resolvido. Como em problemas de estimação de parâmetros
sempre se procura minimizar uma certa função objetivo, os métodos de
otimização serão referenciados genericamente como métodos de mini-
mização, para facilitar a compreensão. Além disso, salvo alguma ressalva,
os métodos apresentados aqui podem ser aplicados para minimização
de qualquer função objetivo, e não somente das funções objetivos resul-
tantes dos problemas de estimação de parâmetros.
5.2 Método de Newton

O método de Newton é um método de minimização baseado em uma
aproximação quadrática da função objetivo. Admita que uma função
escalar qualquer f( ), onde é um vetor de N variáveis que devem ser
" "
manipuladas para permitir a otimização (minimização) de f( (l ), pode ser
aproximada por uma série de Taylor, truncada no termo quadrático, em
torno de um ponto (l 0. Nesse caso,
f(a)- J(a0 )+(a- a•)' w •• -t(a- (1•)' H•• (u- u•) (5.8)
onde w•. é o vetor gradiente da função (que contém as derivadas

primeiras da função objetivo e tem dimensão igual a N) e Hα0 é a matriz
Hessiana (que contém as derivadas segundas da função objetivo e tem di-
mensão N x N), ambos avaliados no ponto (l 0, como definido a seguir:
Vf .
•
=[8o
8j
1
...
a~
8j
. ., .
T (5.9)

alf all
8oI2 ao,aa.
R ., = (5.10)
"
D'f alf
aa,,»a, ao;.
Como definido anteriormente, no ponto de mínimo de f( (l ) o vetor
gradiente é nulo. Assim, derivando-se a Equação (5.8) em relação a (l ,
obtém-se a seguinte equação:
Vf(a):: 'Vf•• + B•' (a - a•)= 0 (5.11)
que pode ser resolvida para (l na forma:

a = a• - B ~vr , (5.12)
• •
Assim, se a função que se está sendo minimizada é uma função
quadrática, a aproximação definida na Equação (5.8) é exata e a Equação
(5.12) fornece o valor exato de que minimiza esta função. (Para o caso
específico do problema de estimação de parâmetros, isto só ocorre quan-
do o modelo é linear nos parâmetros e a função objetivo tem a forma
quadrática resultante da hipótese de flutuações normais nas variáveis
dependentes e ausência de erros nas variáveis independentes. Nesse
caso particular, como amplamente discutido no Capítulo 4, o problema
de estimação de parâmetros admite solução analítica.) Quando o modelo
não é linear e/ou a função objetivo não tem a forma quadrática resultante
da hipótese de flutuações normais, a Equação (5.12) fornece apenas uma
solução aproximada para o problema de estimação, cuja acurácia depende
da qualidade da aproximação quadrática. Se a aproximação quadrática
for boa o suficiente, a Equação (5.12) pode ser aplicada de forma recur-
siva até que se atinja o valor mínimo da função objetivo, como mostra
a equação recursiva abaixo:
a" ' = o• - B ~~~'V r~~~ (5.13a)
ou simplesmente
(5.13b)
Assim, fornecida uma estimativa inicial 0, a Equação (5.13) pode

ser aplicada recursivamente até que algum critério de convergência seja
satisfeito, como por exemplo:

(5.14a)
(5.14b)
e/ou
(5.14c)
(5.14d)
onde ε é a precisão desejada (um valor suficientemente pequeno, como

10-5). A Equação (5.14a) é uma medida da norma Euclidiana da distân-
cia entre duas aproximações sucessivas. A necessidade de satisfazer a
Equação (5.14a) está associada ao fato de que é preciso identificar com
precisão os parâmetros que levam a função objetivo ao valor mínimo.
A Equação (5.14b) é uma medida relativa da variação da distância entre
duas aproximações sucessivas. A necessidade de satisfazer a Equação
(5.14b) está associada ao fato de que é preciso identificar com precisão
a ordem de grandeza dos parâmetros que levam a função objetivo ao
valor mínimo. A Equação (5.14c) é uma medida da variação absoluta
da função objetivo em duas aproximações sucessivas. A necessidade
de satisfazer a Equação (5.14c) está associada ao fato de que é preciso
identificar com precisão o valor mínimo da função objetivo. A Equação
(5.14d) é uma medida relativa da variação da função objetivo. A neces-
sidade de satisfazer a Equação (5.14d) está associada ao fato de que é
preciso identificar com precisão a ordem de grandeza do valor mínimo
da função objetivo. Todas as Equações (5.14a-d) podem ser impostas (ou
não) simultaneamente como critérios de convergência, a depender da
expectativa particular do usuário em relação à qualidade do resultado
final obtido. Por exemplo, se os parâmetros estimados têm ordens de
grandeza muito diferentes, pode ser conveniente usar o critério de
convergência definido pela Equação (5.14b). É importante ressaltar que,
durante o processo iterativo, um critério particular de convergência pode
ser satisfeito sem que os demais o sejam. Por isso, é importante que o
usuário defina de forma apropriada o melhor critério (ou os melhores
critérios) de convergência para cada problema especificado.
A grande vantagem dos métodos de Newton é a rápida convergência
do procedimento recursivo, já que o método apresenta convergência qua-
drática. Além disso, no caso particular das funções quadráticas, a solução

do problema numérico é alcançada com apenas uma iteração. O Exemplo

5.3 mostra a convergência quadrática do método de Newton.
∞
Exemplo 5.3 – Admita que uma seqüência {αk }k =0 converge para
α*. Admita ainda que Ek = α k – α* define uma seqüência tal que
lim k →∞ IE I= C k +1
p
IE I k
com p ≥ 1 e C ≠ 0. Diz-se então que p é a ordem de convergência

da seqüência.
Considere a seqüência gerada pela Equação (5.13), que caracte-
riza o método de Newton. Por simplicidade, mas sem perda de
generalidade, considere a Equação (5.13) escrita para uma única
variável na forma
f ′ (αk )
αk +1 = αk −
f ′′ (αk )
Assim, a função que gera os números da seqüência pode ser
escrita como
f ′ (α )
φ (α ) = α −
f ′′ (α )
Expandindo a função φ(α) na forma de uma série de Taylor em
torno do ponto α* e fazendo a = ak é possível escrever:
φ ′′ (α∗ )
φ (αk ) = α∗ + (αk − α∗ )φ ′ (α∗ )+ (αk − α )
∗ 2
2
A derivada primeira de φ(α) no ponto α* é nula, já que f´(α*) =
0, conforme vemos abaixo:
f ′′ (α∗ ) f ′′ (α∗ )− f ′′′ (α∗ ) f ′ (α∗ ) f ′′′ (α∗ ) f ′ (α∗ )

φ ′ (α )= 1−
∗
= =0
 f ′′ (α∗ )  f ′′ (α∗ )
2 2
   
Como φ (α k ) = α k +1 , a seguinte equação pode ser escrita:

∗ 2
φ ′′ (α∗ )
αk +1 − α∗ = αk − α
I I 2
e ainda
′′ (α )
E I φ_
∗
I k +1
= 2
2
IE I
k
( ∗)
Como φ ′′ α é diferente de zero, a pode ser ainda escrita da
seguinte forma:
φ ′′ (α∗ )
I I= _= C ≠ 0
Ek +1
lim k →∞ 2
2
IE I
k
mostrando a convergência quadrática do método de Newton.
O método de Newton apresenta uma alta eficiência, devido à con-

vergência quadrática do procedimento recursivo. Assim, se a distância
existente entre a estimativa numérica atual da solução e a solução real
é da ordem de 10-4, na próxima iteração será de 10-8. Porém, é preciso
que se observe que a convergência do método é quadrática somente nas
proximidades da solução, quando a aproximação quadrática é de boa
qualidade. Como a aproximação quadrática só é exata nos problemas de
estimação de parâmetros quando os modelos são lineares nos parâmetros
e a função objetivo é quadrática, na prática a convergência quadrática só
é alcançada quando a solução do problema já está praticamente deter-
minada. Assim, a eficiência do método é na verdade muito dependente
de uma boa estimativa inicial do ponto ótimo.
A sensibilidade do desempenho do método de Newton em relação à
qualidade da estimativa inicial da solução não chega a ser surpreendente.
O leitor mais atento provavelmente já percebeu que as Equações (5.6b) e
(5.13) são absolutamente análogas; ou seja, o método de Newton resulta
em procedimento iterativo análogo ao do método de Newton-Raphson.
Portanto, ambos os métodos resultam em desempenhos numéricos
semelhantes. Assim, qual é exatamente a vantagem introduzida com
a proposição do método de Newton, como escrito na Equação (5.13)?
Além de não ser necessário derivar a função objetivo para a construção
do sistema de equações, uma outra vantagem só pode ser percebida se
a Equação (5.13) é modificada na forma

(5.15)
onde λk é um parâmetro usado para controle do passo. Em outras palavras,
a técnica de Newton-Raphson (e a Equação (5.6b)) procura o ponto onde um
conjunto de equações se iguala a zero. Nesse caso, não é possível saber ob-
jetivamente ao longo do processo iterativo se a busca vai ser bem sucedida
ou não. Contudo, na forma proposta pela técnica de Newton, procura-se
caminhar na direção em que a função objetivo diminui. Logo, é possível
saber de forma bem objetiva se a iteração foi bem sucedida ou não. Para isso,
basta checar se a função objetivo diminuiu. Se a função objetivo aumentou
ao longo de uma iteração, dois fatos podem ter ocorrido. O primeiro fato
está relacionado ao tamanho do passo. Pode ser que o avanço tenha sido
excessivo, em decorrência da aproximação quadrática não ser ter sido boa.
Nesse caso, basta dar um passo um pouco menor e mais conservativo, dado
que a aproximação proposta pela Equação (5.8) é sempre válida numa vizi-
nhança suficientemente pequena da estimativa disponível. O segundo fato
diz respeito à forma da função objetivo, que pode ser não convexa na região
analisada; ou seja, não ter a curvatura que caracteriza a existência de um
mínimo. Nesse caso, é necessário garantir que o procedimento numérico não
vai caminhar para um ponto de máximo, ao invés de um ponto de mínimo.
Esses dois aspectos são considerados no algoritmo apresentado a seguir.
Algoritmo 5.1 – Método de Newton com controle do passo.

Dados uma função objetivo e um conjunto de parâmetros dos
quais a função objetivo depende na forma
FObj = FObj ( (l )
Dada ainda uma estimativa inicial (l 0 da solução procurada e um
critério de convergência, é possível propor:
1. Inicializar o processo iterativo (k=0, λ0 = 1);

2. Calcular Fk = FObj ( (l k);
i)FObj(a)
3. Calcular; i)al
u•
Vfk =
i)FO!IJ ((l)
i.laNP u•

;)2F001 (a) iJ2FObJ (a)

aal;)al iJa1aa.,,P
4. Calcular; Hk =
-· ••
32F001 (a) o2FObJ (a)
3a1iJat.'l' i!a," "iJa,.-p
5. Inverter Hk;
-· -·
6. Calcular a k+1 = αk – λk Hk–1 ∇Fk;
7. Calcular Gk = FObj ( a k+1);
8. Se Gk < Fk, a iteração foi bem sucedida;
8a) Verifica-se o critério de convergência. Se houve convergência,
pare.
8b) Se não houve convergência, atualiza-se o procedimento:
k = k + 1; λk = 1; Fk = Gk;
8c) Retorna-se ao passo 3;
9. Se Gk > Fk, a iteração foi mal sucedida;
9a) Verifica-se a curvatura da aproximação quadrática, segundo
a Equação (5.8):
9b) Se ∆FObj
lin
> 0 , inverte-se a direção de busca: λk = – λk e volta-
se ao passo 6;
9c) Se ∆FObjlin
< 0 , reduz-se o tamanho do passo: λ k = r λ k,
0 < r < 1, e volta-se ao passo 6.
Na forma proposta no Algoritmo 5.1, o algoritmo de Newton con-

verge sempre. Isso não quer dizer, no entanto, que a solução obtida é o
mínimo global do problema, já que a função objetivo pode ter muitos
mínimos distintos. Além disso, dependendo da forma da função objeti-
vo, o número de iterações pode ser excessivamente grande. Por isso, é
comum que os programas comerciais estabeleçam um número máximo
de iterações que podem ser realizadas. Caso esse número máximo (e
proibitivo) de iterações seja atingido, o usuário deve reanalisar o conjunto
de estimativas iniciais utilizadas para atingir a solução do problema. Em
ambos os casos, o usuário deve estar preparado para prover diferentes

estimativas iniciais para o problema e nunca deve se contentar com a

primeira solução obtida.
A dependência do método de Newton em relação a uma boa estima-
tiva inicial não limita somente a eficiência do método, mas pode trazer
outros transtornos para a sua aplicação. Por exemplo:
a) Como já comentado, a função objetivo pode apresentar vários míni-
mos locais, presentes por causa das não-linearidades dos modelos.
Assim, dependendo da estimativa inicial, a solução encontrada pode
não ser a melhor solução possível, já que a minimização encontra
apenas um mínimo local e não o mínimo global. Para superar esta
dificuldade devem ser realizadas diversas minimizações com estima-
tivas iniciais diferentes, para que se aumente a probabilidade de que
o mínimo global seja encontrado.
b) O segundo ponto está ligado ao cômputo das derivadas e à necessidade
da inversão da matriz Hessiana. Uma estimativa inicial ruim pode gerar
uma matriz Hessiana mal-condicionada, cuja inversão seja numeri-
camente impossível, fazendo com que o procedimento iterativo seja
interrompido. Esta dificuldade pode ser superada com a utilização de
um método alternativo, como o método de Levenberg-Marquardt (que
será discutido mais adiante), para garantir que a matriz Hessiana seja
positiva definida. Isso garante a inversão da matriz Hessiana e permite
que a busca prossiga na direção do valor mínimo.
Exemplo 5.4 – Considere o modelo cinético que representa uma

reação de isomerização descrito por uma cinética de primeira
ordem, como mostra a equação a seguir:
  E 
yi = exp −(k010 )ti exp − 
 17
  Ti 

onde i indica o experimento, ti é o tempo, Ti é a temperatura, yi é a
fração que resta do reagente e k0 e E são os parâmetros que devem
ser estimados a partir dos dados experimentais, apresentados na
Tabela 5.3. (Observe que de acordo com a Equação de Arrhenius,
E = ∆E/R) Como o valor de k0 é da ordem de 1017, foi inserida uma
constante na equação do modelo, para que o parâmetro k0 ficasse
com um valor próximo de 1.

Tabela 5.3 - Dados experimentais1 usados para a estimação de parâmetros.

Tempo Temperatura Fração de Tempo Temperatura Fração de
[s] [K] reagente [s] [K] reagente
120.0 600.0 0.900 60.0 620.0 0.802
60.0 600.0 0.949 60.0 620.0 0.802
60.0 612.0 0.886 60.0 620.0 0.804
120.0 612.0 0.785 60.0 620.0 0.794
120.0 612.0 0.791 60.0 620.0 0.804
60.0 612.0 0.890 60.0 620.0 0.799
60.0 620.0 0.787 30.0 631.0 0.764
30.0 620.0 0.877 45.1 631.0 0.688
15.0 620.0 0.938 30.0 631.0 0.717
60.0 620.0 0.782 30.0 631.0 0.802
45.1 620.0 0.827 45.0 631.0 0.695
90.0 620.0 0.696 15.0 639.0 0.808
150.0 620.0 0.582 30.0 639.0 0.655
60.0 620.0 0.795 90.0 639.0 0.309
60.0 620.0 0.800 25.0 639.0 0.689
60.0 620.0 0.790 60.1 639.0 0.437
30.0 620.0 0.883 60.0 639.0 0.425
90.0 620.0 0.712 30.0 639.0 0.638
150.0 620.0 0.576 30.0 639.0 0.659
90.4 620.0 0.715 60.0 639.0 0.449
120.0 620.0 0.673
Fonte: Srinivasan e Levi (1963), J. Amer. Chem. Soc, 85, 3363-3365.
O vetor gradiente (Equação 5.9) e a matriz Hessiana (Equação

5.10) foram calculadas analiticamente. Partindo-se de estimati-
vas iniciais iguais a 0.6000 e 25000 para os parâmetros k0 e E,
respectivamente, a utilização da Equação (5.15) gera a seqüência
de valores apresentados na Tabela 5.4.
Tabela 5.4 - Seqüência obtida pelo método de Newton ao longo das iterações.
iteração k0 [s-1] E [K] FObj (x10-2) λ
0 0.6000 25000.0 2276.56 ----
1 0.6006 25263.8 2224.46 -1.00
2 0.6035 25595.0 2063.93 -1.00
3 0.6084 25994.4 1608.54 -1.00
4 0.6151 26875.3 231.708 -1.00
5 0.6173 27310.4 9.54981 +1.00
6 0.6176 27418.5 1.14302 +1.00
7 0.6155 27430.6 1.03352 +1.00
8 0.6569 27472.9 1.03217 -0.06
9 0.6779 27491.8 1.03081 +1.00
10 0.7273 27537.2 1.03065 +1.00
11 0.7379 27544.8 1.02912 +1.00
12 0.7703 27572.4 1.02875 +0.44
13 0.7869 27585.3 1.02835 +1.00
14 0.8222 27613.4 1.02823 +1.00
15 0.8299 27618.6 1.02800 +1.00
16 0.8561 27638.4 1.02798 +1.00

17 0.8581 27639.6 1.02793 +1.00

18 0.8622 27642.6 1.02793 +1.00
19 0.8623 27642.7 1.02793 +1.00
A coluna λ indica o valor do passo em cada iteração. Pode ser
observado que nas primeiras iterações o passo teve que ser inver-
tido, já que a estimativa inicial estava em uma região côncava e
quase plana, como pode ser observado nas Figuras 5.1 e 5.2. Nas
iterações 8 e 14 o passo teve que ser diminuído, para evitar que a
função objetivo aumentasse de uma iteração para outra por causa
do tamanho excessivo do passo. Nas Figuras 5.1 e 5.2 também
pode ser observado que o mínimo se localiza em um vale estreito
cercado por duas regiões aproximadamente planas.
Figura 5.1 - Gráfico da função objetivo como função dos parâmetros.
Na Figura 5.2 são apresentados os caminhos percorridos por

diversas buscas iniciadas em pontos diferentes. Observe que em
todos os casos a busca inicialmente altera apenas o parâmetro
E, até que o vale seja encontrado. A busca então prossegue pelo
vale até encontrar o ponto de mínimo. Observe que os pontos
marcados com + são estimativas iniciais que não convergem para
o mínimo. Em todos esses casos, as estimativas iniciais levam a
regiões onde a função objetivo é (praticamente) constante, o que
faz com que a matriz Hessiana não admita inversa (a função não
é quadrática), impedindo que a busca evolua.

Figura 5.2 - Gráfico de contorno da função objetivo como função dos

parâmetros, mostrando os caminhos percorridos pelo método de Newton
para diferentes estimativas iniciais até alcançar o ponto mínimo; os símbolos
+ indicam as estimativas iniciais que levaram a matrizes Hessianas mal
condicionadas (numericamente não inversíveis).
Além da dependência com a estimativa inicial, uma dificuldade adi-

cional para a aplicação do método de Newton é o cálculo das derivadas
da função objetivo, necessárias para compor o vetor gradiente e a matriz
Hessiana. O desenvolvimento das expressões analíticas para cômputo das
derivadas de primeira e de segunda ordem pode ser muito trabalhoso,
além de ter que ser refeito a cada vez que um novo modelo é usado. Por
isso, essas derivadas são freqüentemente calculadas numericamente,
fazendo-se pequenas perturbações nos parâmetros, como mostrado nos
algoritmos descritos a seguir.
Algoritmo 5.2 – Cômputo numérico do vetor gradiente da função

objetivo.
quais a função objetivo depende na forma FObj = FObj ( )
Dada ainda uma estimativa αk da solução procurada e uma per-
turbação suficientemente pequena dos parâmetros (tipicamente
da ordem de δ=10-4 em valor absoluto ou relativo, caso os parâ-
metros sejam muito grandes):

1. Para cada um dos parâmetros (i=1 ... NP);

1a) Perturbar o i-ésimo parâmetro para a frente: αki = αki + δi;
1b) Calcular a função objetivo: F1 = FObj ( k);
1c) Perturbar o i-ésimo parâmetro para trás: αki = αki – 2δi;
1d) Calcular a função objetivo: F2 = FObj ( k)
1e) Remover a perturbação do i-ésimo parâmetro: αki = αki + δi;
1f) Calcular o i-ésimo componente do vetor gradiente:
∂FObj F1 − F2
≈
∂α i 2δi
Algoritmo 5.3 – Cômputo numérico da matriz Hessiana da função

objetivo.
Dada ainda uma estimativa αk da solução procurada e uma per-
turbação suficientemente pequena dos parâmetros (tipicamente
da ordem de δ=10-4 em valor absoluto ou relativo, caso os parâ-
metros sejam muito grandes):
1. Para cada um dos parâmetros (i=1 ... NP);
2. Para cada um dos parâmetros (j=1 ... NP);
Se (i ≠ j) são parâmetros diferentes:
2b) Perturbar o j-ésimo parâmetro para a frente: αkj = αkj + δj;
2c) Calcular a função objetivo: F1 = FObj ( k);
2d) Perturbar o j-ésimo parâmetro para trás: αkj = αkj – 2δj;
2e) Calcular a função objetivo: F2 = FObj ( a k);
2f) Perturbar o i-ésimo parâmetro para trás: αki = αki – 2δi;
2g) Perturbar o j-ésimo parâmetro para a frente: αkj = αkj + 2δj;
2h) Calcular a função objetivo: F3 = FObj ( k);
2i) Perturbar o j-ésimo parâmetro para trás: αkj = αkj – 2δj;
2j) Calcular a função objetivo: F4 = FObj ( k);
2k) Remover as perturbações dos parâmetros: αki = αki + δi;
αkj = αkj + δj;

2l) Calcular o componente i,j da matriz Hessiana:
 F1 − F2   F3 − F4 
 − 
∂ 2 FObj  2δ   2δ 
≈
j   j 
∂α i ∂α j 2δi
Se (i = j) é o mesmo parâmetro:
2m) Perturbar o i-ésimo parâmetro para a frente: αki = αki + δi;
2n) Calcular a função objetivo: F1 = FObj ( k);
2o) Perturbar o i-ésimo parâmetro para trás: αki = αki – 2δi;

2p) Calcular a função objetivo: F2 = FObj ( k);
2q) Remover a perturbação do parâmetro: αki = αki + δi;
2r) Calcular a função objetivo: F3 = FObj ( k);
2s) Calcular o componente i,i da matriz Hessiana:
 F1 − F3   F3 − F2 
  −  
∂ 2 FObj  δ   δi 
≈ i
∂α i ∂α i δi
Embora o cálculo numérico das derivadas da função objetivo possa

ser feito facilmente no computador, como mostram os Algoritmos 5.2
e 5.3 apresentados anteriormente, deve ficar claro que o cálculo das
derivadas pode ser muito dispendioso. Por exemplo, o cálculo das deri-
vadas primeiras exige que a função objetivo seja calculada 2*NP vezes,
o que pode ser proibitivo em problemas de grande dimensão. Da mesma
forma, o cálculo das derivadas segundas exige que a função objetivo
seja chamada 4*NP*(NP-1) + 3*NP vezes, o que pode tornar o processo
proibitivo. (Para o cálculo acima, já se levou em conta que a matriz Hes-
siana é sempre simétrica, de maneira que parte dos cálculos pode ser
evitado, já que Hij = Hji.) Além disso, quando o modelo da Equação (5.3)
é calculado numericamente, o cálculo numérico das derivadas impõe
que o modelo seja calculado com precisão ainda maior, para que os erros
de aproximação não sejam acumulados excessivamente e prejudiquem
o andamento do procedimento numérico. Isso também pode tornar o
cálculo computacional demasiadamente dispendioso. Portanto, parece
haver motivação para propor modificações do método de Newton, visan-

do à redução da complexidade algorítmica induzida pela necessidade de

calcular derivadas durante o procedimento numérico.
5.3 Método de Gauss-Newton

É comum encontrar na literatura de estimação de parâmetros referências
ao método de Gauss-Newton, que nada mais é que do que o método de
Newton, quando se utiliza a aproximação de Gauss para a matriz Hessiana.
Esta aproximação foi discutida com detalhes no Capítulo 4 (ver Equação
(4.77)) e será relembrada aqui por causa da sua importância numérica.
Considere a função objetivo definida na Equação (5.2) e reescrita
abaixo:
NE
FObj = ∑ y ie − y i( ) V (y )
T
−1
Yi
e
i − yi (5.2)
i =1
onde, por simplicidade, não foram considerados os desvios nas variáveis
independentes. O vetor gradiente desta função em relação aos parâmetros
pode ser dado na forma:
N~· [{)
)T
"il,.F'at,, = - 22: {)Y, V,,' (y:- Y,) (5.16)
'~' a
sendo a matriz Hessiana definida como
(5.17)
A aproximação de Gauss consiste em admitir que o segundo termo

do somatório da Equação (5.17) é desprezível e se aproxima do zero, em
conformidade com as hipóteses de que o experimento é bem-feito e de
que o modelo é perfeito, de maneira que os desvios entre as predições do
modelo e os dados experimentais são pequenos. Assim, a matriz Hessiana
pode ser calculada da seguinte forma simplificada:
(5.18)
A grande vantagem desta aproximação está associada ao fato de

que a matriz das derivadas segundas da função objetivo pode ser obtida
apenas como função das derivadas primeiras do modelo em relação aos
parâmetros. Portanto, essa aproximação permite grande economia com-
putacional. É muito importante observar, contudo, que a aproximação
de Gauss só é válida para procedimentos de estimação de parâmetros

baseados na função objetivo definida na Equação (5.2), não podendo ser

aplicada em outros procedimentos genéricos de otimização.
Quando o modelo é linear nos parâmetros, a Equação (5.18) é exata,
já que as derivadas segundas do modelo com relação aos parâmetros são
nulas. Portanto, quanto melhor é a aproximação linear de um modelo
não-linear, melhor é a aproximação de Gauss. De forma similar, quanto
mais próximas as predições do modelo estão dos dados experimentais,
melhor é a aproximação de Gauss. Portanto, a aproximação de Gauss é
boa para bons modelos, independentemente da natureza não-linear dos
procedimentos numéricos.
Observe que, no inicio da minimização, as diferenças entre as predi-
ções do modelo e os dados experimentais podem ser grandes. À medida
que a minimização se aproxima do ponto ótimo, as diferenças entre as
predições do modelo e os dados experimentais diminuem, melhorando
a qualidade da aproximação de Gauss. Este fato aumenta a dependência
do método de Gauss-Newton em relação a uma boa estimativa inicial. Se
a estimativa inicial é ruim, o segundo termo do lado direito da Equação
(5.18) pode não ser desprezível. Portanto, uma boa estimativa inicial para
os parâmetros é fundamental para o sucesso da estimação, como pode
ser observado no Exemplo 5.5.
Exemplo 5.5 – O problema de estimação do Exemplo 5.4 foi re-

solvido com o método de Gauss-Newton e os novos resultados
obtidos são comparados com aqueles obtidos anteriormente com
o método de Newton.
Para começar, é importante dizer que todas as estimativas iniciais
usadas no Exemplo 5.4 (apresentadas na Tabela 5.4 e na Figura
5.2) não permitiram a estimação bem sucedida dos parâmetros
com o método de Gauss-Newton. Apenas estimativas iniciais
mais próximas da região do mínimo possibilitaram a estimação
dos parâmetros com o método de Gauss-Newton, mostrando a
maior dependência desse método em relação à disponibilidade
de uma boa estimativa inicial.
Na Tabela 5.5 é feita uma comparação entre os resultados obtidos
com os métodos de Newton e de Gauss-Newton, quando ambos
partem de uma mesma estimativa inicial. Observa-se que os
procedimentos evoluem de forma distinta, já que as matrizes
Hessianas não são calculadas exatamente da mesma forma. Os
dados apresentados na Tabela 5.5 também são apresentados
na Figura 5.3, onde se vê a seqüência obtida com o método de

Newton (círculos) e a seqüência obtida com o método de Gauss-

Newton (quadrados). Quando a busca é iniciada no ponto (0.80,
27000), pode ser observado que a busca realizada com o método
de Gauss-Newton se afasta do ponto de mínimo na primeira ite-
ração, mostrando que a direção foi mal calculada, em função da
pior qualidade da matriz Hessiana. Isso explica também porque
o método de Gauss-Newton realiza maior número de iterações
(11) que o método de Newton (8).
Utilizando uma estimativa inicial diferente (4.00, 28500), o método
de Gauss-Newton precisa agora de 14 iterações para chegar ao
ótimo, enquanto o método de Newton precisa de 32 iterações para
encontrar os parâmetros do modelo. Observe que o método de
Newton segue na direção do vale, para depois seguir na direção do
mínimo. Já o método de Gauss-Newton dá um grande passo, indo
parar fortuitamente dentro do vale, em uma posição bem próxima
do mínimo. Esse caráter fortuito de desempenho dos métodos
numéricos é creditado freqüentemente ao melhor desempenho de
uma ou outra técnica de estimação, o que nem sempre é verdade.
Deve ficar claro que, em geral, o método de Newton permite que
se atinja a solução procurada de forma mais eficiente e em menor
número de iterações, embora as iterações possam demorar mais
por causa da necessidade de calcular as derivadas segundas da
função objetivo, que compõem a matriz Hessiana.
Tabela 5.5 - Comparação das seqüências obtidas pelos métodos de

Newton e de Gauss-Newton ao longo das iterações.
Método de Newton Método de Gauss-Newton
iteração
k0 [s-1] E [K] FObj (x102) k0 [s-1] E [K] FObj (x10-2)
0 0.8000 27000.0 270.759 0.8000 27000.0 270.759
1 0.8033 27473.8 9.80078 0.1323 26578.4 7.25781
2 0.8039 27583.7 1.14325 0.1636 26711.6 7.19324
3 0.8034 27597.9 1.02821 0.1974 26825.6 6.78987
4 0.8412 27627.4 1.02800 0.2507 26973.0 6.47109
5 0.8482 27632.3 1.02794 0.3334 27147.6 6.00706
6 0.8603 27641.2 1.02793 0.5145 27418.5 5.81509
7 0.8617 27642.2 1.02793 0.6929 27532.5 1.40441
8 0.8623 27642.7 1.02793 0.8288 27628.4 1.08588
9 --- --- --- 0.8554 27638.0 1.02800
10 --- --- --- 0.8621 27642.5 1.02793
11 --- --- --- 0.8623 27642.7 1.02793

'
Figura 5.3 - Gráfico de contorno da função objetivo como função dos
parâmetros, mostrando os caminhos percorridos pelo método de Gauss
(círculos) e pelo método de Newton-Newton (quadrados) para duas
estimativas iniciais diferentes.
5.4 Outros Métodos com Derivadas

Como discutido no item anterior, os métodos de Newton são caracteriza-
dos pelo uso das derivadas primeira e segunda da função objetivo durante
o procedimento iterativo. Esses métodos requerem a inversão da matriz
Hessiana ao longo das iterações, o que pode ser computacionalmente
ineficiente em problemas de grande porte. Outra classe de métodos que
utilizam derivadas são os métodos de gradiente, os quais usam apenas
a informação disponível na derivada primeira da função objetivo (isto
é, o vetor gradiente que dá nome ao método). Como o vetor gradiente
indica a direção e o sentido em que a função aumenta de forma mais
íngreme, a busca numérica deve seguir o sentido contrário a apontado
pelo vetor gradiente para que a função seja minimizada. Isso permite
que se escreva o seguinte procedimento iterativo:
(5.19)
onde λ é um escalar que define o tamanho do passo que será dado ao longo
da direção determinada pelo vetor gradiente. Comparando-se a Equação
(5.19) com a Equação (5.13), conclui-se que a técnica de gradiente pode ser
interpretada como uma técnica de Newton em que se aproxima a matriz
Hessiana (de forma grosseira) pela matriz identidade. Contudo, diferente-
mente do método de Newton, que propõe que uma boa aproximação para

o valor de λ é o valor 1, no método do gradiente o valor do passo deve ser

definido de forma heurística a cada iteração. De forma geral, o método do
gradiente pode ser escrito na forma apresentada no Algoritmo 5.4.
Algoritmo 5.4 – Método do gradiente com controle do passo.

quais a função objetivo depende na forma FObj = FObj ( a )
Dada ainda uma estimativa inicial a 0 da solução procurada e um
critério de convergência, é possível propor:
2. Calcular Fk = FObj ( a k);
iJF01o (a)
iJa1
••
Vfi. =
3. Calcular;
ill'~ (a)
iJaNP
•'
4. Calcular a k+1 = a k – λk ∇Fk;
5. Calcular Gk = FObj ( a k+1);
6. Se Gk < Fk, a iteração foi bem sucedida;
6a) Verifica-se o critério de convergência. Se houve convergência,
pare.
6b) Se não houve convergência, atualiza-se o procedimento:
k = k + 1;
λk = 1/r, 0 < r < 1, para acelerar a busca;
F k = G k;
6c) Retorna-se ao passo 3;
7. Se Gk > Fk, a iteração foi mal sucedida;
7a) Reduz-se o tamanho do passo: λk = r λk, 0 < r < 1, e volta-se
ao passo 4.
Na forma proposta no Algoritmo 5.4, o método do gradiente converge

sempre, embora isso não signifique que seja possível obter a solução
em tempo hábil. Por isso, como discutido anteriormente, é comum que
os pacotes comerciais imponham um número máximo admissível de
iterações. Caso o número máximo de iterações seja atingido, o usuário

deve refletir sobre a qualidade das estimativas iniciais fornecidas e sobre

a forma da função objetivo proposta.
O método do gradiente tem a vantagem de evitar o cômputo da
matriz Hessiana e a sua inversão, o que torna as iterações mais rápi-
das. Entretanto, como os passos são dados com um conjunto menor de
informações sobre a forma da função objetivo, o número de iterações
necessárias para que o mínimo seja alcançado é usualmente maior
do que nos métodos de Newton e Gauss-Newton. Além disso, a efi-
ciência do método é dependente do controle do valor de λ. Como no
caso do método de Newton, a disponibilidade de uma boa estimativa
inicial para os parâmetros é um ponto importante para o método do
gradiente.
Exemplo 5.6 – Como no Exemplo 5.3, a convergência do método

do gradiente é analisada a seguir. Inicialmente, considera-se a
Equação (5.19) escrita para uma única variável na forma:
αk +1 = αk − λ ⋅ f ′ (αk )
Assim, a função que gera os números da seqüência pode ser
escrita como
φ (α ) = α − λ ⋅ f ′ (α )
Expandindo a função φ(α) em série de Taylor em torno do ponto
α* e fazendo α = αk encontramos:
φ (αk ) = α∗ + (αk − α∗ )⋅ φ ′ (α∗ )
A derivada primeira de φ(α) no ponto α* é igual a:
φ ′ (α∗ )= 1− λ ⋅ f ′′ (α∗ )
Como φ(αk) = αk+1, pode-se escrever:
αk +1 − α∗ = αk − α∗ ⋅ φ ′ (α∗ )
I I
e ainda
IE I= φ′ (α )
k +1 ∗
IE I
k

Assim, pode-se escrever
lim k →∞ IE I= φ′ (α )= 1−λ ⋅ f ′′ (α )≠ 0
k +1 ∗ ∗
IE Ik
mostrando a convergência linear do método do gradiente, mais

lenta que a convergência quadrática característica do método
de Newton.
Apesar da convergência linear do método do gradiente (mais lenta

que a convergência quadrática do método de Newton), o método do
gradiente é mais robusto que o método de Newton, já que não utiliza
as derivadas segundas e, dessa forma, não apresenta problemas com a
inversão da matriz Hessiana. Procurando aliar a robustez do método do
gradiente com a eficiência do método de Newton, pode-se propor uma
ponderação entre as duas matrizes que caracterizam os dois métodos (a
matriz Hessiana e a matriz identidade). Dessa forma, é possível iniciar a
busca com método do gradiente (maior robustez e menor sensibilidade à
estimativa inicial) e mudar a busca progressivamente para o método de
Newton (maior velocidade e eficiência) ao longo das iterações, acelerando
a convergência. Este método pode ser escrito na forma:
(5.20a)
onde I é a matriz identidade e h é um fator de ponderação, que muda de

1 para 0 ao longo das iterações, fazendo o procedimento de busca mudar
de um método de gradiente para um método de Newton. Por exemplo,
h pode mudar de forma heurística como
h = t/ . O< q < l (5.20b)
onde q é usualmente chamado de fator de esquecimento e controla a

velocidade com que a mudança do método de gradiente para o método de
Newton ocorre. (Obviamente, o Algoritmo 5.1 pode ser usado igualmente
para implementar o método proposto pela Equação (5.20a-b)).
Um importante teorema da matemática, que não será provado aqui
por falta de espaço, diz que a Equação (5.20a) pode ser escrita na forma
genérica
(5.20c)

onde Ak é uma matriz positiva definida qualquer. (Isto quer dizer que
todos os valores característicos da matriz são positivos Ak. Uma discussão
sobre valores característicos e matrizes positivas definidas é apresen-
tada no final do Capítulo 3.) Portanto, basta que o vetor gradiente seja
multiplicado por uma matriz positiva definida para que se garanta a
convergência do procedimento numérico da Equação (5.20c) para um
mínimo. Por isso, vários métodos propostos exploram as conseqüências
desse teorema para fins de proposição de algoritmos de minimização.
O método de Levenberg-Marquardt utiliza uma aproximação do tipo
apresentado na Equação (5.20a), substituindo a matriz identidade por
uma matriz positiva definida A genérica que aproxima de alguma forma
a matriz Hessiana. A matriz A pode ser obtida ao longo do procedimento
iterativo, à medida que a forma da função objetivo (e do seu gradiente)
vai sendo revelada pelo processo de busca. Várias soluções já foram
propostas para obtenção eficiente da matriz A, incluindo formas que
evitam a necessidade de inverter a matriz Hessiana aproximada. Esses
métodos são chamados genericamente de métodos de Quasi-Newton, por
usarem uma formulação aproximada da matriz Hessiana do método de
Newton. O leitor interessado deve consultar a lista de leituras sugeridas
para obter maiores detalhes a respeito dessas técnicas.
5.5. Métodos de Busca Direta

O termo Busca Direta é utilizado para identificar os métodos que não
utilizam derivadas para a minimização de uma função objetivo gené-
rica. A minimização nesses casos é feita através da análise dos valores
da função objetivo numa região de busca. A busca em geral pode ser
dividida em duas etapas:
a) Etapa de exploração: nesta etapa é determinada a direção de busca
do mínimo, a partir de um ponto inicial;
b) Etapa de progressão: nesta etapa faz-se a progressão na direção de
busca, enquanto for possível observar a redução do valor da função
objetivo.
Vários métodos de busca direta já foram propostos e descritos na
literatura. A diferença principal entre esses métodos diz respeito quase
sempre à forma com que se faz exploração da região de busca. O mé-
todo de Hooke e Jeeves faz a busca ao longo dos eixos de coordenadas,
enquanto o método de Rosenbrock faz a busca ao longo de direções
ortogonais sugeridas pelos vetores característicos de uma aproximação
da matriz Hessiana. Os métodos chamados de Simplex fazem a busca
com a ajuda de figuras geométricas que exploram de forma mais efi-

ciente o espaço (por exemplo, triângulos no plano, pirâmides no espaço

tri-dimensional etc.).
A principal vantagem destes métodos é evitar o cômputo das
derivadas da função objetivo. Dessa forma, reduz-se a complexidade
algorítmica, reduz-se o custo computacional associado ao cômputo de
derivadas numéricas e evitam-se problemas com a inversão de matrizes.
Entretanto, diversos estudos mostram que os métodos de Newton (e
até mesmo o método de gradiente) com aproximação das derivadas por
diferenças finitas têm eficiência muito superior à eficiência caracterís-
tica dos métodos de busca direta, tanto no que diz respeito à precisão,
quanto no que diz respeito à velocidade de convergência. Além disso,
o desempenho numérico dos métodos de busca direta também é forte-
mente dependente da disponibilidade de uma boa estimativa inicial para
os parâmetros, não sendo capaz de lidar com a existência de mínimos
locais de outra forma que não seja a realização de diferentes minimiza-
ções para diferentes estimativas iniciais dos parâmetros. O Algoritmo
5.5 apresentado abaixo ilustra um procedimento de busca direta para
minimização da função objetivo.
Algoritmo 5.5 – Método de Hooke e Jeeves para minimização.

Dada ainda uma estimativa inicial 0 da solução procurada, um
critério de convergência e um conjunto de perturbações paramé-
tricas δ0 para realizar a busca, é possível propor:
2. Calcular Fk = FObj ( k);
3. Calcular k = αk, Fkini = FObj ( k);
4. Fase de exploração. Para cada um dos parâmetros do problema
(i=1 ... NP);
4b) Calcular Gk = FObj ( k);
4c) Se Gk < Fk, a busca foi bem sucedida: Fk = Gk, k = a k
4d) Perturbar o i-ésimo parâmetro para trás: αki = αki – 2δki
4e) Calcular Gk = FObj ( a k);
4f) Se Gk < Fk, a busca foi bem sucedida: Fk = Gk, k = a k
4g) Remover a perturbação do i-ésimo parâmetro: αki = αki + δi;
5. Se Fk < Fkini, a exploração foi bem sucedida:

5a) Calcular a direção de busca: vk = k – k

5b) Avançar na direção de busca: k = k + λk vk
5c) Calcular Gk = FObj ( k);
5d) Se Gk < Fk, a busca foi bem sucedida:
Fk = G k
λk = λk / r, r < 1, para acelerar a busca;
Retorna ao passo 5b, para continuar avançando;
5e) Se Gk > Fk, a busca foi mal sucedida:
k+1
= k – λ k rk λk+1 = 1 k=k+1
Retorna ao passo 2, para nova exploração;
6. Se Fk > Fkini, a exploração foi mal sucedida:
6a) Verificam-se os critérios de convergência. Se convergiu,
pare;
6b) Explora-se uma região mais próxima do ponto central:
δ k = r δ k, r < 1
Retorna-se ao passo 4 para nova exploração.
5.6. Métodos Heurísticos

Os algoritmos heurísticos de otimização são caracterizados pela reali-
zação de um grande número de avaliações da função objetivo em toda
a região de busca, de forma a aumentar a probabilidade de encontrar o
ótimo global da função objetivo. Além disso, estes métodos não precisam
de uma estimativa inicial muito precisa da solução e não utilizam as
derivadas para chegar ao ponto ótimo, evitando assim muitas das difi-
culdades associadas aos métodos tradicionais. São, portanto algoritmos
adequados para lidar com funções objetivos fortemente não-lineares e
com problemas onde não estão disponíveis boas estimativas iniciais para
os parâmetros. Dentre os métodos heurísticos, destacam-se o método
de Monte Carlo, o Algoritmo Genético (Genetic Algorithm), o Algoritmo
de Recozimento Simulado (Simulated Annealing) e o Enxame de Partícu-
las (Particle Swarm Optimization). A seguir, cada um destes métodos é
apresentado com detalhes. O leitor é convidado a consultar o Capítulo
2 e o Exemplo 2.10, para entender como números aleatórios podem ser
facilmente gerados no computador.

5.6.1. Monte Carlo

O método de Monte Carlo é um procedimento de busca totalmente
aleatório, que pode ser usado para encontrar o ponto ótimo de uma
função qualquer. A busca consiste em sortear aleatoriamente um número
significativamente grande de pontos numa região de busca e considerar
o melhor ponto encontrado como o melhor candidato a ponto ótimo. O
procedimento pode ser repetido um número arbitrariamente grande de
vezes, até que se satisfaçam os critérios de convergência. É um método
extremamente simples e robusto, pois é facilmente aplicado e sempre
funciona, independente da estimativa inicial dos parâmetros, da exis-
tência ou não de derivadas para a função objetivo e da dimensão do
sistema. É claro que a grande limitação deste método é a necessidade
de um número muito grande de avaliações da função objetivo para que
se possa ter uma alta probabilidade de que o ponto ótimo tenha sido
encontrado com uma precisão razoável.
A geração dos pontos onde a função objetivo deve ser avaliada pode
ser feita com o auxílio da seguinte equação:
(5.21)
onde d indica a direção de busca, αL e αH são os limites inferior e superior

da região de busca e r é um número aleatório com distribuição uniforme
no intervalo [0, 1]. Uma forma de aumentar a eficiência deste método
consiste em reduzir a região de busca ao longo das iterações, ao redor do
melhor ponto encontrado até o momento. Esta redução deve ser lenta,
para evitar que mínimos localizados próximo aos limites da região de
busca sejam excluídos do procedimento de minimização. As equações
utilizadas para a redução da região de busca são escritas abaixo
o11 = (cr"• - a"'~)(l - m )' +a"'·
,·/ J '' · ol
(5.22a)
(5.22b)
onde αLo e αHo são os limites da região no início da busca, αotm é o ponto
ótimo encontrado até a iteração k e TR controla a taxa de redução da
região de busca. A inclusão do parâmetro TR reduz a robustez do método,
já que o sucesso da minimização fica dependente da escolha adequada do
valor de TR, que deve ser da ordem de 1% (podendo variar de acordo com
o problema que está sendo resolvido). Os outros parâmetros de busca do
método de Monte Carlo são o número de iterações (Niter) e o número de
pontos (Npt) avaliados em cada iteração. Um fluxograma ilustrativo do
algoritmo do método de Monte Carlo é apresentado na Figura 5.4.

INIOO
Mformar:
1\.'1'.10 dto bUICI
*m
1~/.ttr.}fJf
l)dinir aillrio de pnd1
Vaiuec irtic:itia:
k• O; T-• 1013:1
Recalcul • a rfS!Io d~ bluca
A(Udooa her~
k-H I
Companr e- ed«ionur
o mdbor pooto
Nlo
f1M
Figura 5.4 - Fluxograma esquemático do método de Monte Carlo.
Como pode ser visto na Figura 5.4, existe a necessidade da definição

de um critério de parada para o algoritmo. Este critério pode ser um
número máximo de iterações, um valor mínimo a ser atingido pela a
função objetivo, o número de iterações sucessivas sem encontrar um
novo ponto ótimo, dentre outros. Um critério de parada interessante é
definir o número de iterações a partir da definição da taxa de redução.
A diferença entre as Equações (5.22a) e (5.22b), quando k é igual a Niter,
fornece a seguinte equação:
(5.23)
onde ∆α0 e ∆αf correspondem ao tamanho inicial e final da região de

busca. Assim, o número máximo de iterações Niter pode ser calculado
como

(5.24)
Portanto, é possível definir o número de iterações necessárias para

que, dada uma TR, a região de busca final seja uma fração ∆αf /∆α0 da
região de busca inicial, o que dá uma idéia da precisão que se deseja
obter. Algumas vezes é recomendável definir a priori o valor do número
de iterações Niter, para que seja possível controlar o tempo de CPU do
procedimento numérico. Dessa forma, torna-se possível calcular valor
adequado da taxa de redução através da seguinte equação
(5.25)
De qualquer forma, recomenda-se que a definição do valor de TR seja

feita de forma cuidadosa. Isso é necessário porque, quando o ponto óti-
mo se encontra próximo aos limites da região de busca, a possibilidade
deste ponto ser excluído da região de busca durante o procedimento
iterativo é grande.
Exemplo 5.7 – O problema de estimação do Exemplo 5.4 foi

resolvido com o método de Monte Carlo. Foram utilizadas 500
iterações e 50 avaliações aleatórias por iteração, com uma taxa
de redução da região de busca de 1% por iteração, sendo a região
de busca inicial delimitada no intervalo [0, 10] para o parâmetro
k0 e [0, 50000] para o parâmetro E. Os valores finais obtidos para
três tentativas são apresentados na Tabela 5.6.
Tabela 5.6 - Resultados obtidos em três minimizações com o

método de Monte Carlo.
Tentativa k0 [s-1] E [K] FObj (x 10-2)
1 3.0341 28433.4 1.10474
2 2.1133 28205.6 1.06702
3 1.0272 27752.6 1.02942
Do Exemplo 5.4, depreende-se que os valores ótimos dos parâ-
metros são iguais a 0.8623 s-1 e 27642.7 K respectivamente para
os parâmetros k0 e E. O valor mínimo da função objetivo é igual
a 1.02793x10-2. Os valores obtidos em cada tentativa encontram-
se próximos daqueles obtidos pelo método de Newton, mas não
alcançaram a mesma precisão. Como o método de Monte Carlo é
um método totalmente aleatório, um melhor desempenho pode
ser alcançado com um número muito maior de avaliações da
função objetivo.

Nas Figuras 5.5 e 5.6 são apresentadas as evoluções da função

objetivo e dos parâmetros ao longo das iterações. Deve ser
observado que a queda dos valores da função objetivo é muito
significativa nas duzentas iterações iniciais. A partir daí, a que-
da dos valores da função objetivo e a variação dos valores dos
parâmetros são muito pequenas, o que mostra que o método de
Monte Carlo é eficiente para identificar a região onde o mínimo
se encontra, mas tem dificuldades para obter a solução com uma
boa precisão. Aumentando-se o número de avaliações por itera-
ção de 50 para 500, foi possível encontrar a mesma solução que
o método de Newton encontrou (sem problemas de definição da
estimativa inicial dos parâmetros, mas com custo computacional
muito mais elevado).
L5 , - - - - - - - - - - - - - - - - - - - - - - .
--.. ---
· · -· ··~ -- ~--~~ ---- -----
Ul '------------------~------'
{1, 100 !00
Figura 5.5 - Variação da função objetivo ao longo das iterações com

o método de Monte Carlo.
...
tn I ~
~
~·
n
I ,., ,..
...
.... ..., ••• ---"
Figura 5.6 - Variação dos melhores parâmetros obtidos ao longo
das iterações com o método de Monte Carlo.

5.6.2. Algoritmo Genético

O Algoritmo Genético é um método de otimização cuja proposição é
inspirada na evolução dos seres vivos, onde os indivíduos mais aptos
tendem a sobreviver (teoria da seleção natural de Darwin) e as ca-
racterísticas de um indivíduo são passadas para seus descendentes
através do cruzamento dos indivíduos (princípios da herança genética
de Mendel). A analogia com um procedimento de otimização é baseada
na avaliação da aptidão de um indivíduo, feita através de uma função
objetivo. Cada indivíduo (estimativa) comporta um conjunto de valores
das variáveis de otimização (parâmetros) que é considerado como a
carga genética deste indivíduo. Durante o cruzamento entre indivíduos
pré-selecionados (estimativas diferentes), ocorre a troca de informações;
isto é, a carga genética dos indivíduos é recombinada (os valores dos
parâmetros são combinados). Assim, novos indivíduos (estimativas)
são gerados a partir do cruzamento entre os indivíduos selecionados
do grupo, de acordo com o valor da função objetivo que cada estimati-
va fornece. Dessa forma, indivíduos mais aptos (que levam a menores
valores da função objetivo) têm maior chance de serem selecionados
e realizarem o cruzamento. Por outro lado, ocasionalmente alguns
indivíduos sofrem mutações (mudança aleatória); ou seja, sua carga
genética (valores dos parâmetros) é alterada aleatoriamente, gerando
um novo indivíduo com características diferentes (para aumentar a
chance de encontrar o ótimo global). A mutação ocorre com igual pro-
babilidade em qualquer indivíduo do grupo, independentemente de sua
aptidão, possibilitando uma maior diversificação no processo de busca
(e facilitando a busca do ótimo global). Tradicionalmente, a evolução
da busca era creditada ao cruzamento, enquanto a mutação evitava a
convergência prematura. Porém, estudos recentes defendem a mutação
com sendo o verdadeiro responsável pela evolução de todo grupo, já que
promove transformações mais profundas no grupo ao gerar indivíduos
completamente diferentes, que trazem novas características genéticas
ao grupo de indivíduos.
A Figura 5.7 apresenta um fluxograma com as seqüências carac-
terísticas de operações realizadas pelo algoritmo genético durante o
procedimento de otimização.

Gernr popula~ao in~cia~
I
D
SeJeci onllf_r pn_res
I e t:fetuar c..ruzamenlo
D
[ Selt:cionar individuoo
e ef~tuar m uta.y,!io
Avahar a aptidlto cla

nova popu.la9ao
T~estar
criterio
....____ de parada
n
..__ _ Flrvl _j
Figura 5.7 - Fluxograma das operações realizadas pelo Algoritmo Genético.
A geração da população inicial pode ser feita de diversas formas. Por

exemplo, pode-se utilizar algum critério para espalhar os indivíduos uni-
formemente na região de busca. Entretanto, a forma mais usual consiste
em gerar os individuas aleatoriamente na região de busca, usando para
isso a Equação (5.21).
O cruzamento dos indivíduos consiste na seleção e combinação dos
indivíduos para geração de novos indivíduos. A seleção é feita de forma
a privilegiar os indivíduos mais aptos; isto é, aqueles que têm um me-
nor valor da função objetivo (no caso de uma minimização). As formas
mais usadas de seleção são a seleção por roleta e a seleção por torneio.
A seleção por roleta consiste em atribuir uma probabilidade para cada
indivíduo do conjunto, de forma que a soma das probabilidades seja
igual a 1 e que a probabilidade de seleção de um indivíduo seja maior,
à medida que aumenta a sua aptidão. Na Figura 5.8 pode ser observada
uma forma de se obter as faixas para cada indivíduo em um problema
de minimização. A seleção consiste em sortear um número aleatório
com distribuição uniforme no intervalo [0, 1] e selecionar o indivíduo de
acordo com a faixa que contém o número sorteado. A seleção por roleta

não é indicada em problemas onde um indivíduo domina a roleta (tem

desempenho muito melhor que os demais) e o sorteio acaba escolhendo
sempre este mesmo indivíduo, levando o grupo todo a uma convergência
prematura.
Ind FObj 1/FObj Probab. Faixa 15% 19%

1 5.6 0.18 0.19 0 – 0.19
2 12 0.08 0.09 0.19 – 0.28
3 8 0.13 0.13 0.28 – 0.41 9%
4 2.4 0.42 0.44 0.41 – 0.85
5 7 0.14 0.15 0.85 – 1.00
13%
Σ --- 0.95 1.00 44%
Figura 5.8 - Exemplo de seleção por roleta no Algoritmo Genético.
A seleção por torneio é uma forma extremamente simples e de fácil

implementação computacional de seleção aleatória que garante maior
diversidade na seleção, independentemente da existência de indivíduos
dominantes. Esta seleção consiste em escolher ao acaso dois indivíduos
quaisquer do grupo e selecionar o indivíduo que tiver a melhor aptidão.
No entanto deve-se tomar certo cuidado, uma vez que indivíduos com
uma boa aptidão podem ser perdidos, já que a probabilidade de não
serem escolhidos para o torneio é relativamente alta.
Uma vez selecionados os indivíduos, o cruzamento entre dois destes
indivíduos é realizado, de maneira que um ou dois novos indivíduos são
gerados. Entretanto, para que o cruzamento realmente ocorra, uma certa
probabilidade de cruzamento deve ser satisfeita. Em termos algorítmicos,
uma probabilidade de cruzamento é definida e um número aleatório é
sorteado. Se o número sorteado é menor que a probabilidade de cruza-
mento, o cruzamento é realizado e novos indivíduos são gerados. Se o
número sorteado é maior que a probabilidade de cruzamento, o cruza-
mento não é realizado e os indivíduos selecionados passam para a nova
população sem sofrer alteração alguma.
A forma com que o cruzamento é realizado depende da codificação
que está sendo utilizada para os indivíduos. Originalmente, o Algoritmo
Genético utilizava a codificação binária para representar as caracterís-
ticas dos indivíduos do grupo. (Por exemplo, o número decimal 10 pode
ser representado na forma binária como 1010, que significa 0x20 + 1x21
+ 0x22 + 1x23). Assim dois indivíduos quaisquer (números) podem ser
representados pelas seguintes seqüências:

P1 1 0 1 1 0 0 1 1 1 0
P2 1 1 0 1 0 1 0 1 1 0
O cruzamento entre os dois indivíduos acima é realizado através da
troca de parte do conjunto de informações de cada indivíduo. Uma das
formas de cruzamento consiste em sortear um ou mais pontos de quebra
e cruzar as informações, conforme exemplificado abaixo:
P1 0 1 1 1 0 0 1 1 1 0
P2 1 1 0 1 0 1 0 1 1 0
F1 0 1 1 1 0 1 0 1 1 0
F2 1 1 0 1 0 0 1 1 1 0
Da mesma forma que o cruzamento, a mutação de um determinado
indivíduo só ocorre se uma certa probabilidade de mutação for satisfeita.
Assim, um número aleatório com distribuição uniforme no intervalo
[0, 1] é sorteado. Se este número for menor que a probabilidade de
mutação, o indivíduo sofre a mutação; caso contrário, nada acontece e
o indivíduo passa para a população seguinte. No cruzamento, os indiví-
duos mais aptos têm maior probabilidade de serem selecionados para o
cruzamento. Já na mutação, todos os indivíduos são selecionados, que
ocorre ou não de acordo com a probabilidade de mutação. Uma forma de
realizar a mutação consiste em sortear um ou mais pontos do conjunto
de informações de um indivíduo e inverter o valor deste ponto, conforme
exemplificado abaixo:
F1 0 1 1 1 0 1 0 1 1 0
M1 0 1 0 1 0 1 1 1 1 0
Entretanto, para problemas de otimização em que as variáveis são
contínuas, a utilização da codificação binária não é recomendada, já que
o algoritmo de representação binária pode apresentar complexidade
significativa. Um destes problemas ocorre porque a mudança de apenas
um ponto do indivíduo pode levar a grandes modificações neste, o que
atrapalha a convergência do algoritmo, conforme é mostrado abaixo:
1111 1 31 111 1 1 31 11 1 11 31 1 1 111 31 1 1111 31
1111 0 30 111 0 1 29 11 0 11 27 1 0 111 23 0 1111 15
Outro problema associado é a necessidade de discretizar as variáveis
contínuas, o que pode levar a aumento considerável da dimensão do
problema (quanto maior a precisão, maior o número de bits necessários
para representar um indivíduo). Por fim, existe ainda a necessidade de
converter os indivíduos da codificação real para codificação binária e
vice-versa, o que aumenta o custo computacional do algoritmo. Portanto,
a utilização da codificação decimal usual para representar o conjunto de
informações de um indivíduo é mais adequada quando são utilizadas

variáveis contínuas no procedimento de otimização. Dessa forma, o indi-

víduo (estimativa) é representado por um vetor dos valores das variáveis
de otimização (parâmetros).
P1 [α11 α21 α31 ... αn1]
P2 [α12 α22 α32 ... αn2]
No caso de utilização da codificação real, o cruzamento pode ser
realizado através da combinação linear dos valores de cada indivíduo,
na forma:
αi , Novo = αi , P + r (αi , P − αi , P )
1 2 1
(5.26)
onde i corresponde ao i-ésimo elemento dos vetores que representam

os indivíduos, αi,Novo é o novo ponto gerado do cruzamento entre αi,P1 e
αi,P2, e r é um número aleatório com distribuição uniforme no intervalo
[0, 1].
A mutação pode ser feita através da geração de um indivíduo total-
mente novo dentro da região de busca, gerado pela Equação (5.21), a
mesma equação que é usada para geração dos pontos pelo método de
Monte Carlo. Esta forma de mutação impede que ocorra a convergência
dos indivíduos, já que sempre são inseridos novos indivíduos na popula-
ção, independentemente do estágio em que a busca se encontra. Alterna-
tivas para diminuir a probabilidade de mutação ao longo das iterações,
ou realizar a mutação de apenas um dos componentes do vetor de cada
indivíduo podem ou não melhorar a eficiência do algoritmo.
Um ponto importante que deve ser levado em consideração é o
balanceamento entre as freqüências de cruzamento e de mutação. O
cruzamento, conforme descrito pela Equação (5.26), sempre gera novos
indivíduos na sub-região delimitada pelos pontos selecionados para o cru-
zamento. Dessa maneira, restringe-se a região onde os novos indivíduos
são gerados, o que promove a aceleração da convergência dos indivíduos.
Assim, é importante que a mutação seja responsável pela inserção de
indivíduos novos, que não estejam “presos” a uma pequena parte da
região de busca, aumentando a aleatoriedade da busca e permitindo que
o algoritmo “escape” de mínimos locais e encontre o mínimo global.
Um outro ponto importante neste algoritmo é a aplicação de um
operador chamado de elitismo. Este operador consiste em passar para
a nova população o melhor ponto já encontrado (ou os melhores pontos
já encontrados), mantendo-se a qualidade da população. Se isso não
for feito, devido à aleatoriedade intrínseca do método, o melhor ponto
encontrado, apesar de apresentar a maior aptidão, pode ser perdido ao
longo das iterações.

Exemplo 5.8 – O problema de estimação do Exemplo 5.4 foi resol-

vido com o método do Algoritmo Genético. Foram utilizadas 500
iterações e 50 indivíduos, com uma probabilidade de cruzamento
de 70% e uma probabilidade de mutação de 10%. A região de
busca é delimitada no intervalo [0, 10] para o parâmetro k0 e [0,
50000] para o parâmetro E. Os valores finais obtidos para três
tentativas são apresentados na Tabela 5.7.
Tabela 5.7 - Resultados obtidos em três minimizações com o método do

Algoritmo Genético.

1 0.8773 27653.7 1.02796
2 5.4801 28805.0 1.19328
3 1.5712 28020.4 1.04576
a 1.02793x10-2. Como observado com o método de Monte Carlo
(Exemplo 5.7), os valores obtidos para os parâmetros após cada
tentativa são próximos daqueles obtidos pelo método de Newton,
mas não alcançam a mesma precisão. Apesar disso, os parâmetros
de busca podem ser alterados para melhorar a eficiência da mini-
mização. Entretanto, os valores ótimos dos parâmetros de busca,
como as probabilidades de cruzamento e de mutação, dependem
das características do problema que está sendo resolvido, o que
torna difícil a proposição de valores absolutos que possam ser
utilizados em diferentes problemas.
Nas Figuras 5.9 e 5.10 são apresentados os melhores valores dos
parâmetros encontrados ao longo das iterações. Mais uma vez,
observa-se no início da busca uma melhora significativa da função
objetivo, sendo que a partir da centésima iteração praticamente
não ocorrem alterações nem da função objetivo e nem dos pa-
râmetros. Como no método de Monte Carlo, a região próxima
ao mínimo é encontrada, mas não existe uma busca local com
qualidade para que o mínimo seja definido com boa precisão.

"
-s ".., Ln'
!" u ..............' ............ ............ - -- ...............
,," 0 l iot
•• ''""';)(;W ,., ·~ ""
o método do Algoritmo Genético.
.
"; --
£_. •
:
- Lll'
--···············-····-·---·-··-·· - t] •
;;; ...... ······-··-·-··-··-··-· -··-··-·····-·····-·····-··-
•-
'
•
--
••
- -- p •• ~
""'•
~ ~
-· - •• -
das iterações com o método do Algoritmo Genético.
5.6.3. Recozimento Simulado

O método do Recozimento Simulado foi proposto inicialmente para pro-
blemas de otimização combinatorial, tendo sido inspirado no processo
de minimização da energia contida na estrutura cristalina de um corpo
metálico durante o processo de recozimento. Este processo consiste
no aquecimento de um corpo metálico até uma temperatura suficien-
temente alta, a partir da qual ocorre o lento resfriamento do corpo
metálico, possibilitando a reorganização dos átomos em uma estrutura
com menor energia.
O procedimento de otimização proposto pelo algoritmo de Recozimen-
to Simulado consiste em explorar a região de busca através de transições
sucessivas (análogas às mudanças da estrutura cristalina). As transições
consistem em pequenas mudanças das variáveis de otimização (parâme-
tros) de diferentes indivíduos (estimativas diferentes), de acordo com o
valor da função objetivo que apresentam e do valor da “temperatura”,
que regula a possibilidade ou não da transição. A transição pode ou não
ser aceita: se a transição para o novo ponto levar a um menor valor da
função objetivo a mudança é aceita; caso contrário, se o valor da função
objetivo no novo ponto for maior que no anterior, a transição pode ser

aceita ou não, de acordo com o cálculo de uma probabilidade de transição.

Esta probabilidade deve aumentar, à medida que diminui a diferença en-
tre os valores da função objetivo nos dois pontos considerados. A forma
tradicional do cálculo da probabilidade de transição é feita de acordo com
a estatística de Boltzmann, que corresponde à seguinte equação:
 F k +1 − F k 
p = exp −  (5.27)
 T 
onde p é a probabilidade de transição, F é o valor da função objetivo, k

indica o valor atual, k+1 indica o novo valor e T é o parâmetro “tempe-
ratura”. O valor calculado de p é comparado com um número aleatório
sorteado a partir de uma distribuição uniforme no intervalo [0, 1]. Se p
é maior que este número aleatório, a transição é aceita; caso contrário,
a transição não ocorre.
O valor de T deve ser alto no início, aumentando a probabilidade
de ocorrerem transições para pontos onde a função objetivo aumenta,
possibilitando que ocorra uma boa exploração do espaço de busca e
levando o algoritmo a encontrar o mínimo global. Na forma tradicional
do algoritmo, o valor de T é diminuído exponencialmente ao longo da
busca, de acordo com a seguinte equação:
Tn+1 = βTn (5.28)
sendo β um valor positivo menor que 1.

O primeiro ponto importante deste algoritmo consiste em definir
uma estrutura de vizinhança; isto é, uma região em torno do ponto
atual, para onde a transição possa ocorrer. Uma forma simples de fazer
isto é definir um valor ∆α tal que o novo ponto possa ser definido pela
equação abaixo
αdnovo = αdatual + ∆αd (2r −1) (5.29)
onde d denota uma das direções de busca e r é um número aleatório com

distribuição uniforme no intervalo [0, 1].
Outro ponto importante deste algoritmo é a definição do valor ini-
cial da temperatura, pois a ordem de grandeza da função objetivo pode
variar muito em problemas distintos. Uma definição adequada da tem-
peratura inicial garante uma boa exploração da região de busca no início
do procedimento de minimização. Uma forma de atingir uma eficiente
exploração da região de busca é definir a temperatura inicial de forma
a garantir que a maior parte das transições iniciais sejam aceitas. Por
exemplo, a temperatura inicial pode ser definida como:

∆F ∗
T0 = − (5.30)
ln (0.95)
onde ∆F* é a diferença entre o maior e o menor valor da função obje-

tivo em um pequeno número de avaliações aleatórias iniciais da função
objetivo. 0,95 é a probabilidade das transições ocorrerem (ou seja, no
início 95% das transições serão aceitas).
""~
Ro:J;Itodt~
,\T, Iff. 11
l>~finir ail irio . ,.__
L-;::=:,:.:.::d~flifj•l..
ll' • O; '-• 101"1
lsonw ~ ....u.poc.~ollilld.ll.l
I
••
¢.'cut • • ••llli •
llpolnii.IO(Ifi"O
~••p~II .S.olr
• tfllrUI,. .
""
Alll.ilin. - ·~rio..
0 •llkll Qll~
Figura 5.11 - Fluxograma do método do Recozimento Simulado.
A Figura 5.11 é apresenta um fluxograma onde as etapas do algorit-

mo de Recozimento Simulado são apresentadas de forma detalhada. É
importante definir aqui que Npt corresponde ao número de tentativas de
transições em uma dada temperatura e NT é o número de temperaturas
avaliadas. Como critério de parada, pode ser usado um número fixo de
temperaturas, encerrando-se a busca assim que uma dada temperatura
não leve à aceitação de qualquer transição proposta. Pode-se ainda fixar
um valor mínimo a ser atingido pela função objetivo ou definir um outro
critério de parada qualquer, baseado na variação dos melhores valores
obtidos para os parâmetros e/ou função objetivo.

Exemplo 5.9 – O problema de estimação do Exemplo 5.4 foi resol-

vido com o método do Recozimento Simulado. Foram utilizadas
500 reduções de temperatura e 50 avaliações por temperatura,
com um fator de redução de temperatura de 0,90 (Equação (5.28))
e uma perturbação de 1% para o cálculo de novos pontos (Equação
(5.29)). A região de busca foi delimitada no intervalo [0, 10] para
o parâmetro k0 e [0, 50000] para o parâmetro E. Os valores finais
obtidos para três tentativas são apresentados na Tabela 5.8.
Tabela 5.8 - Resultados obtidos em três minimizações com o método do

Recozimento Simulado.
1 0.8843 27658.3 1.0280
2 0.8383 27624.9 1.0280
3 7.7508 29023.5 1.2609
Do Exemplo 5.4, depreende-se que os valores ótimos dos parâmetros são
iguais a 0,8623 s-1 e 27642,7 K respectivamente para os parâmetros k0
e E. O valor mínimo da função objetivo é igual a 1,02793.10-2. Nas duas
primeiras tentativas o método de Recozimento Simulado foi capaz de
obter o mínimo com grande precisão, o que mostra que este método tem
uma capacidade maior de busca local que os dois métodos heurísticos
apresentados anteriormente. Entretanto, a terceira tentativa resultou
em uma solução muito ruim, mostrando também que este método
tem maior dificuldade em encontrar rapidamente a região próxima
do mínimo. Isto também pode ser verificado através dos resultados
apresentados nas Figuras 5.12 e 5.13. Observa-se nessas figuras que
somente após trezentas iterações o método se aproxima do mínimo.
l5
ti
I
.
,.,...... •
c L3
~
~
~
~
-:2'
..... t ::!
,Qo
Ll
IL
.
I
· · ·4~ --···· ----------------------------

LD
I) JOO ~IJI(J JOO -100 ~00
ltt:ra¥t1o

o método do Recozimento Simulado.

ln.----------------------,
•
... ..
..•.
:... .. ~ l . ... _

das iterações com o método do Recozimento Simulado.
5.6.4. Enxame de Partículas

O método do Enxame de Partículas é um algoritmo de otimização heurís-
tica inspirado no comportamento gregário de animais (peixes, pássaros
etc.). Este método consiste na otimização de uma função objetivo através
da troca de informações entre os elementos ou partículas de um grupo
(estimativas dos parâmetros), resultando em um algoritmo eficiente,
robusto e de simples implementação computacional. Admite-se que os
indivíduos (estimativas) movem-se com velocidade variável no espaço
de busca (parâmetros), como aves que voam nos céus. O movimento de
cada partícula em cada iteração corresponde à soma de três termos dis-
tintos: o primeiro é um termo relativo à inércia da partícula, que traduz
o modo com que a que a partícula vem se movendo; o segundo é um
termo relativo à atração da partícula ao melhor ponto que ela mesma já
encontrou; e o terceiro termo é relativo à atração da partícula ao melhor
ponto que todo o grupo (ou uma parte do grupo) já encontrou.
O termo Enxame foi utilizado pela primeira vez em um trabalho de
Milonas, que desenvolveu modelos para aplicações em vida artificial e
articulou cinco princípios básicos da Inteligência de Enxames, sobre os
quais o método do Enxame de Partículas é fundamentado. Os princípios
são os seguintes:
a) Proximidade: o enxame deve ser capaz de realizar cálculos simples de
tempo e espaço. O método do Enxame de Partículas realiza uma série
de cálculos no espaço n-dimensional em muitos intervalos de tempo.
b) Qualidade: o enxame deve ser capaz de responder a fatores de
qualidade do ambiente. O método responde a fatores de qualidade
definidos pela melhor posição encontrada pelo enxame e por cada
melhor posição encontrada por cada partícula.
c) Respostas Diversas: o enxame não deve submeter sua atividade em
meios excessivamente limitados. A definição do movimento de cada

partícula do enxame em relação às melhores posições individuais e

à melhor posição do enxame garante a diversidade das respostas.
d) Estabilidade: o enxame não deve mudar seu comportamento a todo
momento que o ambiente se altera. O comportamento do procedi-
mento só é alterado quando ocorrem mudanças nos melhores valores
encontrados.
e) Adaptabilidade: o enxame deve ser capaz de alterar seu comporta-
mento, quando o custo computacional não for proibitivo. Assim que
os melhores valores são alterados, o comportamento do enxame se
adapta imediatamente aos novos valores.
É interessante observar que, embora os dois últimos princípios sejam
opostos, o método do Enxame assegura que ambos sejam satisfeitos si-
multaneamente, já que o melhor valor encontrado não é necessariamente
alterado a todo instante. Quando este é alterado, o enxame se adapta a
este novo valor, de forma a assegurar a estabilidade e a adaptabilidade
do método.
As equações que determinam a velocidade e a posição das partículas
ao longo das iterações podem ser escritas como:
(5.31)
a.k+l
d
l,
= a.z,k d + v.z,k+l
d (5.32)
onde os índices k, i e d denotam, respectivamente, a iteração, a partícula

e a direção de busca; v é a velocidade e α é a posição no espaço de busca
(estimativas dos parâmetros); w é um peso de inércia; c1 e c2 são duas
constantes positivas, chamadas respectivamente de parâmetro cognitivo
e social; r1 e r2 são dois números aleatórios com distribuição uniforme
no intervalo [0, 1]; pi é o melhor ponto encontrado pela partícula e pglobal
é o melhor valor encontrado por todo enxame (ou parte dele).
O parâmetro w, chamado de peso de inércia (inertia weight) ou fator
de inércia, tem o papel de balancear o caráter global e local da busca.
Quanto maior o valor de w, maior é o número de iterações para que as
partículas convirjam. Porém, quando w é maior que 1, a convergência
nunca é alcançada (ou melhor, as partículas divergem). Assim, um valor
de w próximo a 1 corresponde a uma alta inércia do movimento das
partículas e mantém as partículas em movimento por um maior número
de iterações, aumentando a exploração da região de busca. Um valor
de w próximo a 0 diminui rapidamente a velocidade das partículas, le-
vando a uma rápida convergência e diminuindo a exploração da região
de busca.

Para tirar proveito dessa mudança de comportamento do enxame com

o valor do fator de inércia, uma forma interessante de realizar a busca
consiste em iniciá-la com um valor de w próximo a 1, possibilitando uma
boa exploração da região de busca, e diminuir o valor de w ao longo das
iterações, forçando a convergência das partículas e aumentando a preci-
são do melhor ponto obtido pelo enxame. A diminuição do valor de w ao
longo das iterações pode ser feita por uma infinidade de formas. A forma
mais usual consiste em uma redução linear, segundo a equação abaixo:
k
w = wi +
Niter
(w f − wi ) (5.33)
onde wo é o valor inicial e wf é o valor final de w e Niter é o número total

de iterações.
Os parâmetros c1 e c2 ponderam, respectivamente, a contribuição
individual e a contribuição do grupo na velocidade de cada partícula. A
contribuição individual corresponde a um passo na direção do melhor
ponto já encontrado pela partícula em questão. Já a contribuição global
consiste em um passo na direção do melhor ponto encontrado por todo
o grupo ou por parte do grupo. A definição destes parâmetros permite
controlar o caráter social da busca, que pode então variar de uma busca
altamente individual até uma busca completamente social. Quanto maior
o caráter individual da busca, maior é a exploração da região de busca, já
que um maior número de iterações é necessário para que ocorra a con-
vergência. Algum cuidado deve ser tomado com a definição dos valores
de c1 e c2, já que valores muito altos podem fazer com que o enxame
divirja, devido aos valores muito altos atingidos pelas velocidades. Por
este motivo, torna-se interessante limitar de alguma forma a velocidade
e/ou a posição de cada partícula.
Pode-se observar que tanto o parâmetro w como os parâmetros c1 e c2
influenciam o comportamento do enxame, aumentando ou diminuindo a
velocidade com que as partículas convergem. Apesar de diversos estudos
já terem sido realizados em relação à definição apropriada destes parâ-
metros, não existe nenhum conjunto de parâmetros que seja ótimo para
qualquer problema. Além disso, o caráter aleatório da busca exige que
um problema seja resolvido diversas vezes (mudando ou não os valores
dos parâmetros de busca), para garantir que um valor adequado seja
definido como o mínimo da função objetivo em questão.
As principais vantagens deste método são a grande simplicidade
das equações recursivas (permitindo a implementação de um algoritmo
simples) e a robustez do procedimento de busca (devido ao caráter ale-

atório e global da busca). Na Figura 5.14 é apresentado um fluxograma

do algoritmo do método do Enxame de Partículas.
C'imi.Jlarur c- ~.!fd.I)J-wr 1!1

mil1hor poolo de ~• p&J~Irula
c o mdtmr po.-o de tolk! cm;me
k-1!+ 1
Vcrifi r;nr s~ os limL1.;t~ <b

'lxlm~ fcnm uUn,p!lssadba
Figura 5.14 - Fluxograma do método do Enxame de Partículas.

solvido com o método do Enxame de Partículas. Foram utilizadas
500 iterações e 50 partículas, com um fator de inércia w igual a
0,75 e c1 e c2 iguais a 1,5. A região de busca foi delimitada no in-
tervalo [0, 10] para o parâmetro k0 e [0, 50000] para o parâmetro

E. Os valores finais obtidos para três tentativas são mostrados

na Tabela 5.9.
Tabela 5.9 - Resultados obtidos em três minimizações com

o método do Enxame de Partículas.
Tentativa k0 [s-1] E [K] FObj (x 102)

1 0.8591 27640.3 1.02793
2 0.8623 27642.7 1.02793
3 0.8623 27642.6 1.02793
a 1.02793x10-2. Observe que o método do Enxame de Partículas
obteve valores finais praticamente iguais aos valores calculados
com o método de Newton. Como discutido acima, este método
tem a capacidade de realizar uma busca com característica global
no início, sendo que a característica da busca passa a ser local
ao longo das iterações, o que possibilita que o resultado seja
encontrado com grande precisão.
L.S.
u.
...
I;
....-
~ ,
~
.a .,-'
·~ L :!
~
L.L ' .-.

'
•.........._. __ -:. .: :.- - ----------------1
L.O
0 J(J() Jl]l) sou
l l.cra¥00
Figura 5.15 - Variação da função objetivo ao longo das iterações
com o método do Enxame de Partículas.
A Figura 5.16 mostra que os valores finais dos parâmetros e da

função objetivo foram muito próximos entre si nas três tentativas,
o que não ocorreu com os demais métodos heurísticos.

lt r-------------------------------~
n
,L-_________________________________ J
u IJII H WU - 1«1
n...L------~-~-------
M-
u-------------~-------~
~
~~·
,~,
Figura 5.16 - Variação dos melhores parâmetros obtidos ao

longo das iterações com o método do Enxame de Partículas.
5.6.5. Implementações Híbridas

Além dos métodos de otimização apresentados nas seções anteriores,
muitos outros métodos podem ser ainda encontrados em livros especiali-
zados no assunto. Por isso, o leitor interessado é estimulado a consultar a
literatura adicional sugerida ao final do capítulo. Também é interessante
avaliar a possibilidade de construir algoritmos híbridos, onde a busca se
inicia com um método heurístico (que realiza uma busca global e obtém
uma boa estimativa inicial para os parâmetros) e termina com um método
determinístico, como o método de Newton (que acelera a convergência
final e permite atingir precisão elevada das estimativas). Entretanto, os
métodos heurísticos, e em particular o método do Enxame de Partículas,
vêm demonstrando enorme eficiência e utilidade, quando se pretende
desenvolver uma avaliação estatística rigorosa dos resultados finais,
como será visto a seguir.
5.7. Cálculo Numérico da Região de Confiança dos

Parâmetros
O procedimento de estimação de parâmetros não termina após a mini-
mização da função objetivo. Uma etapa fundamental é a interpretação
estatística dos resultados obtidos, como discutido no Capítulo 4. Por-
tanto, é necessário interpretar os valores finais da função objetivo e dos
parâmetros. A avaliação do valor mínimo da função objetivo consiste em
comparar o valor obtido com os valores mínimos e máximos esperados, a
partir da distribuição dos erros experimentais usados para gerar a função
objetivo. No caso de flutuações normais, os valores mínimo e máximo são
definidos pela distribuição χ2 (chi-quadrado), dados o número de graus de
liberdade e o nível de confiança desejado pelo usuário. Assim, se o valor
da função objetivo no ponto de mínimo é maior que o limite superior
da distribuição χ2, o modelo não é adequado. Por outro lado, se o valor
final da função objetivo é menor que o limite inferior da distribuição χ2,

o modelo é bom demais, indicando uma provável super parametrização

do modelo, como discutido no Capítulo 4.
Já os parâmetros do modelo são avaliados em relação à região de con-
fiança e ao nível de confiança. O procedimento clássico consiste em obter
a aproximação quadrática da função objetivo, que leva à seguinte definição
da matriz de covariância dos parâmetros (ver Seção 4.6.2 do Capítulo 4):
(5.34)
conforme as Equações (4.81) e (4.82) do Capítulo 4. A expressão

normalmente usada para determinar da região (e o nível) de confiança
dos parâmetros passa pela aproximação quadrática da função objetivo,
como escrito a seguir
F001 (u)- F.,., (ci)+(u - u)T'VF,... +-!-(a- ci)T u. (u - ci) (5.35)
onde o sinal ^ indica o valor estimado; isto é, o valor para o qual a

função objetivo atinge o valor mínimo. Lembrando que no ponto de
mínimo o gradiente da função objetivo é nulo, a partir da Equação (5.34)
é possível escrever:
(5.36)
Admitindo que os desvios existentes entre os valores preditos pelo

modelo e os valores experimentais são pequenos e seguem uma distri-
buição normal e considerando ainda que o modelo é linear (ou que pode
ser linearizado nas proximidades do ponto de mínimo), conclui-se que
as incertezas paramétricas também seguem a distribuição normal. Por-
tanto, o lado direito da Equação (5.36), onde aparece a soma dos desvios
quadrados de variáveis que seguem a distribuição normal, indica que
ambos os lados da Equação (5.36) seguem a distribuiçãoχ2 (chi-quadrado)
com NP graus de liberdade. Assim, utilizando-se o limite superior da
distribuição χ2, é possível definir a região de confiança dos parâmetros
que satisfazem a seguinte inequação:
(a - a}' v;' (a - a) < \~ (5.37)
onde α indica o nível de confiança. Assim, todos os conjuntos de valores
dos parâmetros α que satisfazem a Equação (5.37) pertencem à região
de confiança. A igualdade da Equação (5.37) gera uma elipse em duas
dimensões, como observado no Capítulo 3 (item 3.5.1), onde a geometria
da região de confiança da curva normal foi discutida.
Na maioria das vezes, apenas uma aproximação da matriz de covariân-
cias dos desvios experimentais (Vy) está disponível. Assim, é conveniente

dividir ambos os lados da Equação (5.36) pelo valor da função objetivo

no ponto de mínimo, como na equação seguinte:
FO&i(u)-F061 (o) _ (o- o)' v.-'(u- ci)
(5.38)
F.,.. (ci) - Fa., (ci)
Como a função objetivo também pode ser vista como a soma de

desvios quadrados de variáveis que seguem a distribuição normal, a
função objetivo também tem distribuição χ2, mas com NE.NY –NP=N-
NP graus de liberdade. Como a Equação (5.38) apresenta a razão entre
duas variáveis, cada qual com uma distribuição χ2, esta razão segue uma
distribuição F de Fisher. Usando o limite superior da distribuição F para o
lado direito da Equação (5.38), pode-se determinar a seguinte expressão
para região de confiança:
(5.39)
onde a razão entre NP e NE.NY –NP=N-NP aparece para normalizar as

duas distribuições que têm graus de liberdade diferentes.
A região de confiança definida pela Equação (5.39) também tem a
forma elíptica, como a definida pela Equação (5.37), mas tende a ser
maior que a primeira. Isso ocorre porque o grau de incerteza aumenta
quando se usa a distribuição F ao invés da distribuição χ2 (são duas as
fontes de incerteza). Porém, a utilização da Equação (5.39) deve ser pre-
ferida, pois, como comentado anteriormente, na maioria das vezes os
erros experimentais não são profundamente conhecidos.
Devido à não-linearidade dos modelos usados no dia-a-dia de cientistas
e engenheiros, as aproximações feitas anteriormente podem levar a regi-
ões de confiança mal determinadas, que não representam acuradamente
a realidade estatística do problema. Isso ocorre porque a região de con-
fiança só é elíptica quando os parâmetros têm distribuição normal, o que
só é rigorosamente verdadeiro quando os dados experimentais seguem a
distribuição normal e o modelo é linear. Uma forma mais adequada para
definir a região de confiança é utilizar o lado esquerdo da Equação (5.38)
diretamente. Apesar da Equação (5.38) estar fundamentada nas mesmas
hipóteses fundamentais que geraram as demais equações, ela não restringe
a forma da região de confiança, como será discutido adiante. Assim, usando
o lado esquerdo da Equação (5.38), é possível escrever:
(5.40)

A região de confiança pode ser determinada genericamente como todos

os conjuntos de parâmetros que levam a valores da função objetivo que
satisfazem a Equação (5.40). Para um modelo linear, a região de confiança
determinada pelas Equações (5.39) e (5.40) são iguais; contudo, podem
aparecer diferenças significativas para modelos não-lineares. Apesar da
Equação (5.40) estar fundamentada na aproximação quadrática da função
objetivo (ou aproximação linear do modelo), a forma da região de confiança
não é restringida à forma elíptica. Assim, regiões de confiança muito próxi-
mas da região de confiança estatisticamente real podem ser obtidas a partir
da Equação (5.40). As regiões de confiança determinadas a partir desta
equação são usualmente chamadas de Regiões de Verossimilhança.
A obtenção da região de confiança a partir da Equação (5.40) pode
constituir uma tarefa numérica muito difícil, pois é virtualmente impossí-
vel determinar o contorno definido pela igualdade da Equação (5.40) com
modelos não-lineares. Felizmente, a aplicação dos métodos heurísticos para
minimização da função objetivo gera um número muito grande de pontos,
boa parte deles avaliada nas proximidades do ponto de mínimo. A utilização
destes pontos para determinar a região de confiança dos parâmetros é mui-
to simples, já que basta comparar o valor da função objetivo obtida com o
limite definido na Equação (5.40) para saber se o conjunto de parâmetros
deve ser incluído ou não na região de confiança dos parâmetros. Assim,
além de facilitar a obtenção de uma região de confiança muito próxima
da real, a maior desvantagem dos métodos heurísticos, que é o grande
número de avaliações da função objetivo, é transformada em uma grande
vantagem numérica em relação aos métodos determinísticos.
Nos Exemplos a seguir são resolvidos problemas de estimação de
parâmetros com o método do Enxame de Partículas. Os resultados obti-
dos são também usados para determinação da região de confiança. Os
resultados obtidos com o uso das Equações (5.39) e (5.40) são compara-
dos. Também é analisado o efeito da reparametrização do modelo sobre
a evolução do procedimento de estimação de parâmetros, em particular
sobre a forma da região de confiança.

solvido com o método do Enxame de Partículas, como mostrado
no Exemplo 5.10. Agora, será construída a região de confiança,
utilizando-se a aproximação elíptica (Equação (5.39)) e a região
de verossimilhança (Equação (5.40)).
Para a determinação da região elíptica e da região de verossimi-
lhança foi utilizado um algoritmo híbrido. A busca é iniciada com
o método do Enxame de Partículas (cujas avaliações são usadas

para a determinação da região de verossimilhança) e o melhor

valor encontrado é usado como estimativa inicial do estimador
Máxima1 (que consiste basicamente no método de Gauss-Newton,
mas implementado com controles de convergência que aumen-
tam a robustez do método). Com o Máxima, obtêm-se a solução
refinada do problema e a matriz de covariâncias dos parâmetros,
como definida na Equação (5.34), que é então usada para a deter-
minação da região de confiança elíptica.
Deve-se lembrar de que como o valor de k0 é da ordem de 1017, foi in-
serida uma constante na equação do modelo, para que o parâmetro k0
ficasse com um valor próximo de 1, como mostra a equação abaixo.
  E 
yi = exp −k01017 ti exp − 
  Ti 

O ponto mínimo é encontrado com um valor da função objetivo
igual a 1.02793x10-2, quando os parâmetros assumem os valores
de 0.862314 e 27642.7 para k0 e E, respectivamente (lembre que
k0 já é multiplicado por 1017 na equação do modelo). A matriz de
covariância dos parâmetros obtida é igual a:
3 6
V = [1.51917xl0 1.10690x10 ]
" 1.10690xl06 8.06697xl08
de onde é possível observar que a correlação entre os parâmetros
é igual a 0.99981, mostrando que os parâmetros estão altamente
correlacionados. Como discutido na Seção 4.7 do capítulo 4, isso é
muito ruim e indica problemas de formulação do modelo e/ou dos
dados experimentais, não sendo possível avaliar os parâmetros
de forma independente.
Substituindo a matriz de covariância dos parâmetros, os parâ-
metros estimados, o valor mínimo da função objetivo, NP, NY.NE-
NP=N-NP e o valor máximo admissível para a variável F (igual
a 3.238096 nesse caso, para um nível de confiança de 95%) na
Equação (5.39), obtém-se a seguinte expressão
−1
  k0   0.862314  1.51917 x103 1.10690 x106    k0   0.862314 
T
   −        −    ≤ 1.7069 x10−3

  E   27642.7   1.10690 x106 8.06697 x108 
    E   27642.7  
que define uma elipse no espaço dos parâmetros.

1. Noronha et al. (1993), Relatório Técnico PEQ/COPPE, UFRJ, Rio de Janeiro, RJ, Brasil

A região de confiança de verossimilhança é definida pela Equação

(5.40). A substituição do valor mínimo da função objetivo, NP,
NE.NY-NP=N-NP e do valor máximo admissível para a variável F
(igual a 3.238096 nesse caso, para um nível de confiança de 95%)
leva à seguinte equação:
Fay (u)~ l. l986xl 0 .,
Assim, dos pontos previamente avaliados pelo método do Enxame de
Partículas para a minimização, aqueles que tiverem um valor da função
objetivo menor que 1,1986.10-2 estão dentro da região de confiança.
As Figuras 5.17 e 5.18 apresentam as regiões de confiança cal-
culadas pelas Equações (5.39) e (5.40). Também é apresentada a
região de verossimilhança exata, para verificar a qualidade da
aproximação obtida pelo método do Enxame de Partículas.
:"11111111
!ISOO
!14101)
~ ..,.,!IIi
"' !XIOO
1".,1)1) A
"""'""'• I •• ... I "
,. Ho •• •• "'
Figura 5.17 - Região de confiança elíptica (linha), de verossimilhança
obtida pelo Enxame de Partículas (pontos) e de verossimilhança exata
(região curvada).
~~~LO~--'------------------c----~~c--='
o• o: 11..1 o• O« 111 t ! 1.1 H• 1a ~ ~~
ko 111"11
Figura 5.18 - Ampliação da Figura 5.17 na região próxima ao mínimo.

Na Figura 5.17 observa-se que a região de confiança elíptica prevê

que o parâmetro k0 pode assumir valores negativos, o que seria
indicação de que este parâmetro não é significativo. Mas o que
acontece na realidade é que a curvatura da região de confiança real
nas proximidades do ponto de mínimo faz com que a aproximação
quadrática seja muito ruim, levando a uma região de confiança
elíptica totalmente equivocada. Além disso, a região de confiança
real mostra-se como uma faixa estreita e comprida. Isso dificulta a
estimação dos parâmetros, por ser difícil encontrar esta pequena
região onde o mínimo se encontra. Essa característica também
faz com que a correlação entre os parâmetros seja muito alta,
dificultando a identificação dos parâmetros.
Na Figura 5.18 pode-se observar que a região elíptica e a região
de verossimilhança se confundem nas proximidades do ponto de
mínimo. Contudo, à medida que se afastam do ponto de mínimo,
as duas regiões tornam-se muito diferentes.
Devido à estreita faixa que forma a região de confiança, fica difícil
avaliar o desempenho do método do Enxame de Partículas para
determinar a região de confiança de verossimilhança na Figura
5.17. Contudo, a Figura 5.18 mostra que os pontos avaliados
pelo Enxame representam adequadamente o comportamento da
região de verossimilhança; isto é, mostram a curvatura da região
de confiança e se afastam da aproximação elíptica.
Exemplo 5.12 – O mesmo problema de estimação do Exemplo 5.11

foi resolvido para duas formas de reparametrização da equação
do modelo. A primeira consiste em apenas colocar o parâmetro
k0 dentro da segunda exponencial (juntamente com a constante
1017), onde agora aparece o parâmetro A que é um parâmetro
adimensional numericamente equivalente a ln(1017.k0).
  E 
yi = exp −ti exp  A − 
  Ti 
O ponto mínimo é encontrado para um valor final da função obje-

tivo igual a 1.02793x10-2, sendo os valores finais dos parâmetros
iguais a 38.9958 e 27642.7 para A e E, respectivamente. A matriz
de covariâncias dos parâmetros é calculada como:
3 6
V -[2.04304xl0 1.28364x10 ]
a 1.28364xl06 8.06698xl08

de onde pode-se calcular a correlação entre os parâmetros, que

é igual a 0.99981. Uma vez mais, os parâmetros estão altamente
correlacionados, o que é muito ruim para a estimação e a for-
mulação do modelo. Observe que a variância do parâmetro E e a
correlação entre os parâmetros não sofreu modificação alguma.
Apenas os valores do primeiro parâmetro e da sua variância sofre-
ram alterações, como já podia ser esperado, já que este parâmetro
foi definido de uma outra maneira.
Usando Equação (5.39), como feito no Exemplo 5.11 chega-se a:
−1
  A  38.9958  1.51917 x103 1.10690 x106    A  38.9958 
T
   −        −   −3
  E   27642.7  1.10690 x106 8.06697 x108    E   27642.7  ≤ 1.7069 x10
         
que define uma elipse no espaço dos parâmetros.

A região de confiança de verossimilhança é definida pela Equação
(5.40). A substituição do valor mínimo da função objetivo, NP,
NE.NY-NP=N-NP e do valor máximo admissível para a variável F
(igual a 3.238096 nesse caso, para um nível de confiança de 95%)
leva à seguinte equação:
Fay (u)~ l. l986xl 0 .,
Observe que não há modificação no valor limite para a definição
da região de verossimilhança, porque foi modificada apenas a
definição do parâmetro, não o significado estatístico do problema.
Nas Figuras 5.19 e 5.20 são apresentadas as regiões de confiança
para a primeira forma de reparametrizar o modelo.
moo
l:S$00
- """}()
:!_ 11SOO
·~
l1<)IJO
':6SOO
:'6000
J6il no 31 0 3?<1
A
.... .,. •20
Figura 5.19 - Região de confiança elíptica (linha) e de verossimilhança

obtidas pelo Enxame de Partículas (pontos) com a primeira
reparametrização do modelo.

A
Figura 5.20 - Ampliação da Figura 5.19 na região próxima ao mínimo.
Apesar da correlação entre os parâmetros continuar altíssima, a

aproximação elíptica da região de confiança apresenta boa qualida-
de para esta forma de reparametrização do modelo. Mais uma vez, a
região obtida pelo método do Enxame de Partículas apresenta uma
boa qualidade, mesmo em um problema que apresenta uma região
de confiança muito estreita e de difícil determinação. É importante
observar que a forma da região de confiança muda com a forma de
parametrização do modelo. Portanto, é possível mudar a forma da
região de confiança através da definição apropriada dos parâmetros.
Observe que o usuário pode definir os parâmetros da maneira que
quiser, uma vez que os parâmetros não são efetivamente medidos,
mas inferidos com o auxílio do modelo.
A segunda forma de reparametrização consiste em utilizar uma
temperatura de referencia T0, definida para este problema como
630 K, e reescrever o modelo da seguinte maneira:
   1 1 
yi = exp −kT ti exp −E  − 


0
  Ti T0 

onde os parâmetros que devem ser estimados são kT0 e E. (Observe
que aqui a constante 1017 não é usada, já que kT0 é a constante
cinética na temperatura T0 e seu valor é da faixa de 10-3 e por isso
não foi usada nenhuma constante).
O ponto de mínimo é encontrado com um valor final da fun-
ção objetivo igual a 1.02793x10-2, sendo os valores finais dos
parâmetros iguais a 7.58624x10-3 s-1 e 27642.7 K para kT0 e E,

respectivamente. A matriz de covariância dos parâmetros pode

ser calculada como:
v = [2.87894.:d0-5 2.4()003:~:1~]
• 2.40003zl~ 8.06698%10'
de onde se pode calcular que a correlação entre os parâmetros é
igual a 0.157487. Isso mostra que esta forma de reparametriza-
ção praticamente elimina a correlação entre os parâmetros. Essa
observação é fantástica, pois mostra que o usuário tem liberda-
de para influir sobre a qualidade e significância dos resultados
obtidos.
Usando Equação (5.39), como no Exemplo 5.11, chega-se a:
−1
  kT   7.58624 x10−3     kT   7.58624 x10−3  
T
 −5
24.0003 
   − 
0
   2.87894 x10    − 
0
  ≤ 1.7069 x10−3
    E   27642.7  
  E   27642.7    24.0003
 8.06698 x108 
A expressão usada para construir a região de confiança de verossimi-

lhança é a mesma já obtida para as demais formas de parametrização
do modelo. Na Figura 5.21 são apresentadas as regiões de confiança
obtidas com a segunda forma de reparametrizar o modelo.
2(!000 ' - - - - - - - - - - - - - - - '

7.:0E.OJ 7.Jf:o:..(IJ 1.,J!..OJ 7.6E·OJ 7.7~-t)) 7. K~-t);\ 7.9E..(IJ
1
kTo ls" 1
Figura 5.21 - Região de confiança elíptica (linha) e de verossimilhança
obtidas pelo Enxame de Partículas (pontos) com a segunda reparametrização
do modelo.
Observe que a aproximação elíptica da região de confiança tem

excelente qualidade e que o Enxame de Partículas consegue des-
crever esta região também com excelente qualidade. Observe que,
como os parâmetros têm uma correlação próxima a zero, os eixos

da elipse são praticamente ortogonais aos eixos cartesianos na

Figura 5.21, permitindo identificação independente dos diferen-
tes parâmetros do modelo. Conclui-se, portanto, que o usuário
deve investigar diferentes formas de apresentação do modelo,
para tornar possível a identificação independente dos diferentes
efeitos considerados.
5.8. A Forma de Apresentação dos Dados Experimentais

O Exemplo 5.12 parece incentivar o usuário a manipular a apresentação do
modelo, de modo a contribuir com a qualidade da representação estatística
dos resultados finais. Isso é possível porque o usuário é livre para apresentar
o modelo na forma que achar mais conveniente. Portanto, uma pergunta
que parece bastante pertinente, como já comentado no Exemplo 4.17 do
Capítulo 4, diz respeito à possibilidade de implementar modificações nos
dados experimentais, para facilitar a representação matemática do modelo.
Por exemplo, os modelos apresentados na Equação (5.41)
(5.41a)
,. K 1 x"'
y = l + K x"' (5.41b)
2
podem ser escritos na forma linear da Equação (5.42)
(5.42a)
(5.42b)
As representações das Equações (5.41) e (5.42) (representação de y

como função de x ou, alternativamente, de z como função de w) são
absolutamente equivalentes, do ponto de vista do modelo. Apesar disso,
essas transformações jamais devem ser efetuadas, porque elas não são
equivalentes do ponto de vista dos dados experimentais. O usuário deve
perceber que as propriedades estatísticas de y e de z (e, analogamente, de
x e de w) não são as mesmas. Portanto, uma função objetivo desenvolvida
para a variável medida y (e, por extensão, x) não pode ser usada para a
variável transformada z (e, por extensão, w). Por exemplo, suponha que

os desvios experimentais a que a medida y está sujeita sejam pequenos (o

que não é necessariamente verdade). Nesse caso, combinando a Equação
(5.42) com a Equação (4.65), é possível escrever:
dy σ y2
dz = → σ = 2
z
(5.43a)
y y2
e
dy σ y2
dz = − 2 → σ = 2
z 4
(5.43b)
y y
A Equação (5.43) mostra de forma bastante clara que as variâncias de
medida das variáveis transformadas podem ser funções complexas das
condições de medição. Nesse caso, mesmo que faça sentido usar a téc-
nica de mínimos quadrados para a representação proposta na Equação
(5.41), a partir da informação de que os erros de medida da variável y são
constantes na região de experimentação, o uso da técnica de mínimos
quadrados para a representação da Equação (5.42) é completamente
descabido, como mostra a Equação (5.43). Ainda mais sério, ao usar a
representação da Equação (5.42) para estimar os parâmetros do modelo,
o usuário estará implicitamente admitindo que os erros de medida da
variável y crescem com uma potência elevada do valor medido, o que
é quase sempre um absurdo! Ou seja, a transformação das medidas
experimentais pode provocar deformações profundas no procedimento
de estimação de parâmetros e no conjunto final de resultados obtidos.
Por isso, dados experimentais nunca devem ser transformados.
O usuário deve perceber que a aplicação das técnicas numéricas apre-
sentadas nesse capítulo permite realizar os procedimentos de estimação
de parâmetros de forma adequada, quaisquer que sejam as naturezas
dos dados experimentais e dos modelos utilizados. Por isso, o usuário
deve resistir à tentação de representar os dados experimentais numa
falsa representação linear, que permita a obtenção de soluções analíticas
para o problema de estimação. Apenas uma situação pode justificar a
transformação das medidas experimentais – a necessidade de obter um
conjunto de estimativas iniciais confiáveis para o conjunto de parâmetros
do modelo, para simplificar a busca realizada pelo algoritmo numérico.
Nesse caso, a estimação deve ser realizada ao menos duas vezes: uma
na forma transformada da medida, como na Equação (5.42), para que
se obtenha uma estimativa inicial confiável dos parâmetros; outra na
forma natural da medida, como na Equação (5.41), para que se obtenham

as estimativas reais compatíveis com as propriedades estatísticas das

medidas efetuadas.
Exemplo 5.13 – O problema de estimação apresentado no Exemplo

5.4 é resolvido agora através da representação linear da equação
do modelo (lembrando que nos exemplos anteriores sempre foi
utilizada a forma original não-linear do modelo). A equação ori-
ginal do modelo é definida como:
  E 
yi = exp −k0 ti exp − 

  Ti 
Aplicando-se o logaritmo em ambos os lados da equação, chega-se a:
 E 
ln ( yi ) = −k0 ti exp − 
 T  i
Multiplicando-se os dois lados da equação por -1 e aplicando-se

uma vez mais a operação de logaritmo em ambos os lados da
equação, obtém-se:
E
ln − ln ( yi ) = ln (k0 )+ ln (ti )−
Ti
Portanto, é possível escrever o modelo na forma:
h = α1 + x1 – α1x1
onde as novas variáveis são:
η = ln − ln ( yi )
x1 = ln (ti) x1 = 1/Ti
e os parâmetros são:
α1 = ln(k0) α2 = E
Os parâmetros são agora estimados de forma a minimizar a função
de mínimos quadrados:

NE
FObj = ∑ η − η ( )
2
e m
i i
i =1
Aqui aparece um primeiro ponto importante. Nos exemplos

apresentados ao longo deste capítulo sempre foi considerado
que os desvios na variável y seguem a distribuição normal, com
erro constante na região de experimentação. Mas, agora, qual é
a função de densidade de probabilidades para a nova variável
considerada η? Se as variâncias da variável y fossem diferentes
em cada condição experimental, como seria o comportamento
das variâncias da nova variável η? Admitindo-se que os erros de
medida de y sejam pequenos, pode-se escrever
d ln ( y ) dy σ 2
dη = − =− → ση2 =
y
ln ( y ) y ln ( y )  y ln ( y )
2
 
que mostra a complexidade da transformação de erros proposta.
(Observe que a transformação tende a infinito quando y se apro-
xima dos valores 0 e 1.)
Além destas questões relacionadas à caracterização dos erros, é
necessário perceber que o ponto de mínimo da função de mínimos
quadrados das diferenças entre y experimental e y calculado:
NE
FObj = ∑ yie − yim( )
2
i =1
não é igual ao ponto de mínimo da função de mínimos quadrados

das diferenças entre η experimental e η calculado:
( ( ))
NE NE
( ) ( )
2
FObj = ∑ η − η = ∑ ln  − ln yie  − ln  − ln yim 
2
e m
i i
i =1 i =1
Fazendo então a minimização da função objetivo das diferenças

da nova variável η, os parâmetros obtidos são α1 = 39.1228 e α2
= 27710.6 K. Este resultado pode ser comparado ao obtido no
Exemplo 5.12, já que os parâmetros são definidos de forma análo-
ga. Os valores dos parâmetros obtidos no Exemplo 5.12 são iguais
a 38.9958 e 217642.7 K. Observe que o resultado obtido não é o

mesmo, mostrando que o ponto ótimo da função objetivo muda

com a mudança das variáveis. Como o objetivo real do modelo é
fazer previsões da variável y, e não da variável η, a representação
linear do modelo leva a valores dos parâmetros que não devem
ser considerados como valores ótimos.
5.9. Conclusões
Foram apresentadas nesse capítulo diferentes técnicas numéricas que
permitem a obtenção dos parâmetros que minimizam as funções objeti-
vos propostas para redução da distância existente entre os dados expe-
rimentais e as previsões fornecidas pelo modelo. As diferentes técnicas
apresentam vantagens e desvantagens características, de maneira que
o usuário é levado a interagir com o problema para definir apropriada-
mente as técnicas que deve usar. Por exemplo, técnicas numéricas de-
terminísticas derivadas do método de Newton são eficientes (convergem
rapidamente com relativamente poucos pontos), mas são excessivamente
dependentes da disponibilidade de boas estimativas iniciais para os pa-
râmetros (são pouco robustas). Por outro lado, técnicas heurísticas são
muito robustas (dependem pouco da disponibilidade de boas estimativas
iniciais), mas são computacionalmente custosas (dependem de grande
número de avaliações da função objetivo). Entre um extremo e outro,
é possível encontrar técnicas numéricas que apresentam virtualmente
todos os tipos de características intermediárias. O usuário deve consi-
derar com carinho a possibilidade de combinar os métodos heurísticos e
determinísticos, para ganhar o que os dois grupos de métodos oferecem
de melhor: baixa sensibilidade às condições iniciais e convergência rápida
nas proximidades do ponto de mínimo.
Foram também apresentadas técnicas numéricas que permitem a ava-
liação da região de confiança dos parâmetros. Curiosamente, observou-se
que a forma de parametrização do modelo influi decisivamente sobre
a qualidade dos resultados obtidos. Portanto, o usuário deve investigar
diferentes formas de apresentação do modelo, para tornar possível a iden-
tificação independente dos diferentes efeitos paramétricos considerados.
Finalmente, foi mostrado que, ao contrário dos parâmetros do modelo,
a forma de apresentação dos dados experimentais não deve ser jamais
modificada, sob pena de descaracterizar completamente o significado
estatístico da análise efetuada.


A literatura dedicada à apresentação de métodos numéricos para a
solução de problemas de otimização é muito vasta. Não cabe aqui, por-
tanto, uma revisão exaustiva dessa área. O leitor interessado encontrará
centenas de livros que abordam esses assuntos em qualquer biblioteca
dedicada à Matemática e à Engenharia. Algumas dessas referências
são apresentadas abaixo, para problemas específicos de estimação de
parâmetros.
D.M. Himmelblau, Applied Nonlinear Programming. New York:
McGraw-Hill, 1972.
Y. Bard, Nonlinear Parameter Estimation. San Diego: Academic Press
Inc., 1974.
D. M. Bates e D. G. Watts, Nonlinear Regression Analysis and Its
Applications. New York: John Wiley & Sons, 1988.
N. R. Draper e H. Smith, Applied Nonlinear Regression. New York: John
Wiley & Sons, 1998.
P. Englezos e N. Kalogerakis, Applied Parameter Estimation for Chemical
Engineers, New York: Marcel Dekker Inc., 2001.
Para aqueles leitores interessados em um universo mais amplo de

procedimentos numéricos, voltados para a área genérica de otimização
de processos, sugerem-se as seguintes referências adicionais:
T.F. Edgar e D.M. Himmelblau, Optimization of Chemical Processes. New
York: McGraw-Hill, 1988.
D.E. Goldberg, Genetic algorithms in search, optimization and machine
learning. Boston: Addison Wesley Longman, Inc., 1989.
J. Nocedal, S.J. Wright, Numerical Optimization. New York: Springer-
Verlag Inc., 1999.
J. Kennedy, R.C. Eberhart, Y. Shi , Swarm Intelligence. San Francisco:
Morgan Kaufman, 2001.
R.L. Haupt, S.E. Haupt, Practical Genetic Algorithms. New York: John
Wiley & Sons, 2a edição, 2004.
Os leitores interessados na análise teórica e experimental do efeito
dos erros experimentais sobre a estimação de parâmetros, sugerem-se
as seguintes referências adicionais:
Santos, T.J., Pinto, J.C., 1998, “Taking variable correlation into consi-
deration during parameter estimation”, Brazilian Journal of Chemical
Engineering, 15, 1-20.
Larentis, A.L., Bentes Jr., A.M.P., Resende, N.S., Salim, V.M.M., Pinto, J.C.,
2003, “Analysis of experimental errors in catalytic tests for production
of synthesis gas”, Applied Catalysis A, 242, 365-379.

Os leitores interessados numa análise mais aprofundada do efeito da

reparametrização do modelo sobre a evolução e os resultados obtidos
nos procedimentos de estimação de parâmetros, sugere-se a seguinte
referência adicional:
Schwaab, M., Pinto, J.C., 2007, “Optimum reference temperature
for reparameterization of the Arrhenius equation. Part 1: Problems
involving one kinetic constant.”, Chemical Engineering Science, 67,
2750-2764.

1. Considere o seguinte modelo não-linear
y = α1 (1 – exp(–α2 x))
onde α1 e α2 são os parâmetros a serem estimados a partir do seguinte
conjunto de dados:
x y σ2
0.50 7.92 25.00
1.00 18.51 25.00
1.50 20.09 9.00
2.00 18.97 9.00
3.00 26.67 1.00
4.00 29.45 1.00
5.00 32.58 0.25
7.00 34.54 0.25
10.00 34.62 0.01
Para a minimização da função objetivo, utilize algum dos métodos
numéricos propostos ou faça uso de algum pacote comercial dispo-
nível. Considere que as variáveis independentes não estão sujeitas
a erros e que os desvios experimentais nas variáveis dependentes,
caracterizados pela variância fornecida para cada condição experi-
mental, são independentes e seguem a distribuição normal.
2. Considere o seguinte conjunto de dados:
xe ye
1.00 1.66
2.00 6.07
3.00 7.55
5.00 9.72
10.00 15.24
15.00 18.79
20.00 19.33
30.00 22.38
40.00 24.27
50.00 25.51
sendo a variância dos desvios experimentais constante e igual a 1.0
em toda a região de experimentação. São propostos dois modelos
para descrever estes dados:

α1 x
M1: y= M2: y = α1 x α 2
1+ α2 x
onde α1 e α2 são os parâmetros a serem estimados para cada modelo.
Faça a estimação e compare os resultados obtidos por cada modelo.
Na sua opinião, qual é o melhor modelo?

Soluções dos Exercícios
6 Propostos
Capítulo 1
1. Defina os seguintes eventos como determinísticos ou estocásticos e
justifique:
a) Tempo de cozimento de um tijolo na olaria;
b) Tempo de espera por um ônibus depois da chegada no ponto;
c) Tempo da viagem do Rio de Janeiro a Salvador por via terrestre e por
via aérea;
d) Número de telhas necessárias para cobrir um telhado;
e) Número de equipamentos que falham por ano em uma escola de
informática;
f) Condição do tempo daqui a exatamente dois meses.
Pode até parecer que não, mas todos os eventos acima deveriam
ser classificados como estocásticos (pelo menos em alguma medida). O
leitor cuidadoso pode observar que sempre existem fontes de erro ou
perturbações que não podem ser quantificadas e muitas vezes nem são
conhecidas, tornando o resultado final até certo ponto imprevisível. Esse
é o objetivo central desse exercício – mostrar como muitas vezes pode
ser difícil diferenciar eventos determinísticos de eventos estocásticos.
a) O tempo de cozimento de um tijolo na olaria depende de diversas
variáveis, como a umidade inicial do barro, a constituição do barro,
a temperatura e a umidade ambiente, a temperatura do forno etc.
Pode-se até imaginar algum modelo matemático que considere todas
estas variáveis; no entanto, ainda assim a medição destas variáveis
não pode ser feita de forma exata, o que torna o cálculo do tempo
de cozimento um resultado também estocástico.

b) O tempo de espera por um ônibus depois da chegada no ponto depende

primeiramente da cidade onde está localizado o usuário. Em um lugar
onde os motoristas cumprem seus horários com precisão e o tráfego
não é muito caótico, este evento pode ser considerado quase deter-
minístico. Mas sempre podem ocorrer imprevistos, como acidentes de
tráfego, problemas com a chuva, dentre outros, que podem tornar o
tempo de espera totalmente imprevisível. Numa grande cidade, como
Rio de Janeiro e São Paulo, onde as condições do tráfego são péssimas,
a espera pelo ônibus no ponto é sempre incerta.
c) Geralmente, imagina-se que o tempo da viagem por via terrestre seja
muito mais imprevisível que por via aérea. Entretanto, em ambos os
casos podem ocorrer imprevistos, como os originados por mudanças
climáticas, que podem afetar ambos os eventos. Por via terrestre ainda
podem ocorrer congestionamentos, acidentes, necessidade de reparos
no veículo etc. Todos esses fatores podem, em maior ou menor escala,
afetar o tempo da viagem por via terrestre ou por via aérea.
d) O número de telhas necessárias para cobrir um telhado parece
constituir um evento completamente determinístico. Sabendo-se
a área total do telhado que se deseja recobrir e a área coberta por
cada telha, fica fácil calcular o número de telhas necessárias para a
construção. Entretanto, não podemos esquecer que algumas telhas
podem quebrar durante o transporte ou durante a colocação. Além
disso, as telhas não são exatamente iguais. É por este motivo que
sempre é prudente comprar algumas telhas a mais para a obra.
Quantas? Depende do cuidado e do humor de seu pedreiro!
e) O número de equipamentos que falham por ano em uma escola de
informática pode ser facilmente visto como um evento estocástico.
A falha de equipamentos eletrônicos é muito comum e, na maioria
dos casos, ocorre sem que seja dado um sinal aparente. Existem
também as falhas causadas por usuários pouco cuidadosos, que não
sabem usar ou que não fazem questão de manter o equipamento em
condições adequadas. Em ambientes públicos, como numa escola, o
número de usuários desse tipo varia a cada período letivo.
f) A previsão antecipada das condições do tempo é certamente um
evento sujeito a muitas incertezas. Muitas vezes é difícil acreditar
em previsões feitas com antecedência de uns poucos dias, o que se
dirá de previsões feitas com antecedência de muitas semanas. Mas
isto ocorre porque a condição climática depende de uma quantidade
muito grande de fatores, como o histórico de temperatura e pres-

são ambiente, a direção dos ventos, a época do ano e as mudanças

provocadas pela atividade humana. É praticamente impossível que
algum modelo matemático leve em consideração todos estes fatores
e consiga fazer uma previsão exata das condições climáticas com
grande antecedência.
2. Pegue uma folha de papel e rasgue uma tira com as mãos. Meça a
largura dessa tira em diferentes pontos com uma régua milimetrada.
Repita o experimento. As medidas obtidas são iguais? Você é capaz
de identificar as fontes de erro desse experimento?
Provavelmente os valores medidos da largura da tira de papel são
diferentes nos pontos onde foram feitas as medidas. A tira de papel, mes-
mo que removida com o auxílio de um anteparo, como uma régua, não
é perfeitamente uniforme. A repetição do experimento leva novamente
a valores medidos diferentes. Isto ocorre porque a força realizada para
rasgar o papel e a direção para onde o papel é puxado enquanto o papel
é rasgado não são controlados perfeitamente e podem variar (sendo estas
duas fontes de erros importantes para esse experimento). Além disso,
a textura do papel pode não ser exatamente a mesma ao longo de toda
a sua extensão, fazendo com que variações adicionais apareçam. Dessa
forma, a tira de papel rasgada não pode ser caracterizada por uma única
medida de largura, mas por uma coleção característica de medidas – a
distribuição de valores possíveis. Problemas semelhantes ocorrem em
todos os procedimentos de experimentação em maior ou menor grau,
independentemente da natureza dos experimentos realizados.
3. Uma função discreta muito utilizada para descrever a probabilidade

de encontrar uma espécie de tamanho i em sistemas que crescem de
forma não contínua (ou seja, em que há um mecanismo que inter-
rompe o crescimento) é a chamada curva de Flory. A curva de Flory
pode ser escrita na forma:
Pi = (1 − q )q i −1
onde i (i = 1, 2, ... , N, ...) é o comprimento, Pi é a probabilidade de en-
contrar uma espécie de tamanho i e q é uma constante 0 < q < 1 que
caracteriza o processo.
a) Prove que Pi é de fato uma distribuição de probabilidades, provando
que as Equações (1.5) e (1.6) são satisfeitas;
b) Calcule o comprimento médio da população µi;
c) Calcule a variância da população σ i .
2
Soluções dos Exercícios Propostos 381

a) A Equação (1.5) foi definida como:
0 ≤ pi ≤ 1 (1.5)
Como a constante característica q está no intervalo (0, 1), então (1–q)

também está no intervalo (0, 1). Por outro lado, como i é um número
inteiro no intervalo [1, +∞), qi–1 também está no intervalo (0, 1) para
qualquer valor de i possível. Conseqüentemente o produto (1–q)qi–1 tam-
bém está no intervalo (0, 1), satisfazendo a Equação (1.5).
A Equação (1.6) foi definida como:
NR
∑p
i =1
i =1 (1.6)
Para a curva de Flory, a soma das probabilidades individuais é defi-

nida como:
∞ ∞
∑ p = ∑ (1 − q )q
i =1
i
i =1
i −1
Observe que, para a curva de Flory, NR é igual a ∞; ou seja, infinitos

resultados são possíveis. Como (1–q) independe de i, pode-se escrever:
∞ ∞
∑ p = (1 − q )∑ q
i =1
i
i =1
i −1
Expandindo a expressão, chega-se a:

∞ ∞ ∞
∑ p = ∑q
i =1
i
i =1
i −1
− ∑ qi
i =1
∞
∑ p = (q
i =1
i
0
)(
+ q1 + q 2 + q 3 + ... − q1 + q 2 + q 3 + ... = q 0 = 1 )
garantindo que, de fato, a curva de Flory caracteriza uma distribuição
de probabilidades.
∞
Resultado similar pode ser encontrado, mostrando-se que a série
∑ qi −1 é uma série geométrica com uma razão de progressão igual a q.
i =1
Nesse caso, sempre que Iq I< 1 , a soma converge para 1 (1 − q ) . I

Como q pertence ao intervalo (0, 1), a soma dos termos da distribuição
de probabilidade, fica na forma:

∞
1
∑ pi = (1 − q )
i =1 (1 − q )
=1
Como ambas as Equações (1.5) e (1.6) foram satisfeitas, fica provado

que a curva de Flory representa uma distribuição de probabilidades.
b) O comprimento médio é calculado através da média aritmética dos

valores da curva de Flory, de acordo com a Equação (1.7):
NR
µ X = ∑ pi xi (1.7)
i =1
Para a curva de Flory, xi é o próprio comprimento i, de forma que é

possível escrever:
∞
µi = ∑ (1 − q )q i −1i
i =1
ou ainda
∞ ∞
µi = ∑ iq i −1
− ∑ iq i
i =1 i =1
Expandindo os dois termos, obtém-se:
(
µi = 1 + 2q + 3q 2 + 4q 3 + ... − q + 2q 2 + 3q 3 + ... )( )
∞
(
µi = 1 + q + q + q + ... = ∑ q i
2 3
)
i =0
∞
A série ∑q
i =0
i
é uma série geométrica, cuja soma converge para
1 (1 − q ) sempre que Iq I< 1 . Assim, o comprimento médio é igual a:

I
µi = 1 (1 − q )
I
c) A variância da população de comprimentos é calculada através da
Equação (1.36):

NR
= ∑ pi (xi − µ X )
2
σ 2
XX
i =1 (1.36)
Usando-se o valor médio da distribuição, calculado no item anterior,
pode-se escrever:
2
∞  1 
σ i = ∑ (1 − q )q  i −
2 i −1

 (1 − q )
i =1  
ou ainda
∞ ∞ ∞
1
σ = (1 − q )∑ i q
2 2 i −1
− 2∑ iq i −1
+ ∑ q i −1
i
i =1 i =1 (1 − q ) i =1
∞ ∞ ∞ ∞
1
σ = ∑i q
2 2 i −1
− ∑ i q − 2∑ iq 2 i i −1
+ ∑ q i −1
i
i =1 i =1 i =1 (1 − q ) i =1
Alterando o início da soma de i = 1 para i = 0:
∞ ∞ ∞ ∞
1
σ = ∑ (i + 1) q − ∑ i q − 2∑ (i + 1)q + ∑
2 i i i
2
qi 2
i
i =0 i =0 i =0 (1 − q ) i =0
Expandindo a equação anterior e simplificando os termos:
∞ ∞ ∞ ∞ ∞ ∞ ∞
1
σ = ∑ i q + 2∑ iq + ∑ q − ∑ i q − 2∑ iq − 2∑ q +
2 2 i i
∑ qi i 2 i i i
i
i =0 i =0 i =0 i =0 i =0 i =0 (1 − q ) i =0
1 ∞
∞  1  ∞ i
σ = −∑ q +
2
∑ q =  −1 +
i i
∑q
i
i =0 (1 − q ) i =0  (1 − q )  i =0
∞
q
σi =
2
∑
(1 − q ) i =0
qi
∞
Como visto anteriormente, o somatório ∑q
i =0
i
converge para
1 (1 − q ) sempre que Iq I< 1 . Assim a variância da população de

I
comprimentos é igual a:

q 1 q
σ i2 = =
(1 − q ) (1 − q ) (1 − q )2
4- Para a distribuição exponencial, ℘(x ) = α exp (−α x ) , definida no
intervalo contínuo 0, ∞ ) : [
a) Calcule o valor de α, para que ℘(x) seja de fato uma densidade de
probabilidades;
b) Calcule a probabilidade acumulada PAC(x) no intervalo de definição
do problema;
c) Calcule o valor médio de x;
d) Calcule a variância de x;
e) Pense em quantos momentos estatísticos independentes podem ser
definidos.
a) Para que uma distribuição não negativa ℘(x) qualquer seja de fato
uma densidade de probabilidades, a Propriedade 1.13 deve ser satis-
feita; ou seja:
xmax
∫ ℘(x )dx = 1
xmin
Para a distribuição exponencial, tem-se que:

∞
∞  1 se α > 0
∫0 α exp (−α x ) dx = − exp (−α x ) = 
−∞ se α < 0
0
Desta forma, a distribuição exponencial é uma densidade de proba-

bilidades para qualquer α > 0 (pois nesse caso garante-se também que
℘(x) é sempre não negativa).
b) A probabilidade acumulada pode ser representada pela integral da

função de densidade de probabilidade na forma (ver Equação 1.62):
x
PAC (x ) = ∫ ℘(z )dz
xmin
Para a distribuição exponencial a probabilidade acumulada PAC(x)

fica:

x
PAC (x ) = ∫ α exp (−α z ) dz = 1 − exp (−α x )
0
c) O valor médio de uma distribuição de probabilidades pode ser cal-

culado a partir da Equação (1.71):
xmax
µx = ∫ x℘(x )dx
xmin
Para a distribuição exponencial, é possível escrever:

∞
∞
µ x = ∫ xα exp (−α x ) dx = −
(1 + α x )exp (−α x )
0
α 0
 (1 + α x )exp (−α x ) 1 1
µ x = lim x →∞  − + =
 α  α α
d) A variância de uma distribuição de probabilidades pode ser calculada

a partir da Equação (1.72):
xmax
∫ (x − µ x ) ℘(x )dx
2
σ x2 =
xmin
Para a distribuição exponencial é possível escrever:

∞
xmax
 1
2
( )
(
1 + α x exp (−α x ) 2 2
)
σ x2 = ∫
xmin


x −
α


α exp −α x dx = −
α2
0
σ x2 = lim x→∞  −
( )
 1 + α 2 x 2 exp (−α x ) 1
 + =
1
 α2  α
2
α2
d) Pode ser observado que todos os momentos estatísticos da distribui-

ção exponencial dependem de alguma forma do único parâmetro da
distribuição: α. Por exemplo, a média e a variância calculadas nos
itens b e c desse exercício são dependentes apenas do parâmetro α

da distribuição. Isto pode ser facilmente estendido para os demais

momentos. Assim, uma vez que a média (ou outra grandeza estatís-
tica qualquer) é definida, define-se simultaneamente o valor de α e
conseqüentemente todos os demais momentos da distribuição, já que
estes dependem apenas de α. Desta forma, é possível definir de forma
independente apenas 1 dos momentos estatísticos. O objetivo desse
exercício é mostrar que, dependendo da distribuição probabilística
considerada, nem sempre é possível definir de forma independente as
grandezas estatísticas, como a média e a variância. Resultado similar
pode ser encontrado para a curva de Flory no exercício anterior.
5. No laboratório é feita uma medida cromatográfica (separação dos
vários componentes químicos de uma mistura) usando uma coluna de
separação (um tubo oco) recheada com um composto plástico poroso.
Toda vez que um composto ácido é usado na coluna, parte do recheio
plástico é corroído e, dessa forma, extraído da coluna. Sabendo que
o composto plástico poroso é que de fato promove a separação dos
componentes da mistura, as medidas de composição feitas na coluna
poderiam ser consideradas independentes? Por quê?
As medidas de composição feitas nesta coluna não podem ser consi-
deradas independentes. Isso ocorre porque, após cada análise, parte do
composto plástico poroso que preenche a coluna e promove a separação é
retirado. Dessa forma, a qualidade da separação (e da medida) pode estar
sendo alterada entre análises sucessivas. Assim, uma medida anterior
pode afetar a medida subseqüente. Além disso, dependendo da concen-
tração do componente ácido usado, o grau de remoção do composto
plástico poroso pode variar, o que faz com que cada medida influencie a
próxima medida de forma diferente. Portanto, parece clara a existência
de uma dependência entre as diversas medidas realizadas nesta coluna,
sempre que um composto ácido estiver sendo analisado. O objetivo desse
exercício é ressaltar que as medidas efetuadas nem sempre são indepen-
dentes das demais, uma vez que podem existir fatores experimentais em
um processo de medição que acabem por afetar as demais medições do
sistema. Portanto, o experimentador não deve admitir como óbvia a idéia
de que as medidas diferentes são necessariamente independentes.
6. Suponha que duas variáveis x e y estão relacionadas na forma

y = 4x(1–x), definida no intervalo contínuo [0,1]. Suponha ainda que
℘(x) = 1 no intervalo de definição do problema.
a) Mostre que ℘(x) define de fato uma distribuição de probabilidades;
b) Calcule℘(y);

c) Calcule ℘(y/x);
d) Calcule Covar(x,y) e ρxy;
e) Comente o significado dos resultados obtidos no item anterior.
a) Para que ℘(x) defina uma distribuição de probabilidades é necessário

que:
xmax
∫ ℘(x )dx = 1
xmin
Para ℘(x) = 1 no intervalo [0, 1]:

1
∫ 1 dx = x 0 = 1
1
de forma que ℘(x) define uma distribuição de probabilidades (pois, além

disso, ℘(x) é sempre não negativa).
b) Observe que y = 4 x (1 − x ) . Logo y é apenas uma transformação

de x. A variável y é aleatória porque a variável x é aleatória. Como y
é uma mera transformação de x, pode-se escrever:
℘( y )dy =℘(x ( y )) d (x ( y ))
ou ainda:
d
℘( y ) dy =℘(x ( y )) (x ( y )) dy
dy
d
℘( y ) =℘(x ( y )) (x ( y ))
dy
Como y = 4 x (1 − x ) , é possível escrever:
1± 1− y
x=
2
( )
Como ℘(x) = 1, ℘(x ) =℘ x ( y ) =1 . Com relação ao outro
termo,

d ±1
dy
(x ( y )) =
4 1− y
Observe que apenas a solução positiva da equação acima é con-
sistente estatisticamente, pois a uma distribuição de probabilidades
é sempre não negativa. Por outro lado, é necessário ainda multiplicar
a expressão de ℘(y) por 2, já que existem dois valores de x, separados
simetricamente em torno do valor x=0.5, que levam a um mesmo valor
de y. Dessa forma:
1 1
℘( y ) = 2 ⋅1 ⋅ =
4 1− y 2 1− y
Para mostrar que ℘(y) é de fato uma distribuição de probabilidades
no intervalo [0,1], pode-se fazer a integral
ymax 1
1 1
∫ ℘( y )dy = ∫ dy = − 1 − y = 1
ymin 0 2 1− y 0
O objetivo fundamental desse exercício é mostrar que as distribuições

de probabilidade de duas variáveis que podem ser relacionadas entre si
através de relações determinísticas podem ser convertidas através da
expressão:
d
℘( y ) =℘(x ( y )) (x ( y ))
dy
Ou seja, para converter ℘(x) em ℘(y), substitui-se a expressão x(y) em
℘(x) e multiplica-se o resultado pela derivada de x(y) em relação a y.
c) Observe que, uma vez definido o valor de x, o valor de y está fixo

através da equação y = 4x(1–x). Assim, dado um certo valor x, o valor
de y calculado no ponto y = 4x(1–x) assume probabilidade igual a
1, enquanto os valores restantes de y têm probabilidade igual a 0.
Portanto, a probabilidade acumulada dos resultados possíveis de y é
igual a zero, para y < 4x(1–x) e igual a 1, para y > 4x(1–x) . Usando
a função delta de Dirac para representar a probabilidade condicional
℘(y/x), obtida derivando-se a curva de probabilidade acumulada:
℘(y/x) = δ [y – 4x(1–x)]

d) O calcule da Covar(x,y) e de ρxy é feito através das equações (1.73)

e (1.50). Inicialmente, são calculadas as médias de cada distribuição
(Equação (1.71)):
xmax 1
1
µX = ∫ x℘(x )dx = ∫ x dx =
xmin 0
2
ymax 1
1 2
µY = ∫ y℘( y )dy = ∫ y dy =
ymin 0 2 1− y 3
Em seguida, calculam-se as variâncias de cada distribuição (Equação

(1.72)):
xmax 1 2
 1 1
= ∫ (x − µ X ) ℘(x )dx = ∫  x −  dx =
2
σ XX
2
0
xmin
2 12
ymax 1 2
 3 1 4
= ∫ ( y − µY ) ℘( y )dy = ∫  y − 
2
σ 2
YY dx =
ymin 0
4  2 1− y 45
O valor da covariância de XY é calculado como:

xmax
 ymax 
σ XY
2
= ∫ (x − µ X ) ∫ ( y − µY )℘( y / x )dy ℘(x )dx
xmin  ymin 
1   
1 1
 3
σ 2
XY = ∫  x −   ∫  y −  δ  y − 4 x (1 − x ) dy  dx =
0
2 0  4 
1 1
 1  3  2 3x 3 
∫0  2  
 x −   4 x (1 − x ) −  dx = ∫0 
 4 x (1 − x ) − 2 x (1 − x ) − +  dx =
4 4 8
1 1
 2 3x 3   11x 3 
∫0  4 x − 4 x − 2 x + 2 x − 4 + 8  dx = ∫0  −4 x + 6 x − 4 + 8  dx =
3 2 3 2
11 3
−1 + 2 − + = 0
8 8
Conseqüentemente, o valor da correlação é igual a (Equação (1.50)):

σ XY
2
ρ XY = =0
σ XσY
e) Observe que apesar de haver uma clara dependência entre os valores
de x e y, o valor da covariância e, conseqüentemente, da correlação
entre estas variáveis é nulo. Isso ocorre porque a dependência entre as
variáveis não é linear. No intervalo [0, 0.5] um aumento em x provoca
um aumento e y. Já no intervalo [0.5, 1] um aumento em x provoca
uma diminuição em y. Como os dois intervalos são simétricos, a
correlação se anula, de forma que o resultado final é uma correlação
igual a 0, apesar das variáveis estarem ligadas deterministicamente
uma à outra. Isso mostra que o experimentador deve estar sempre
preparado para analisar com maior profundidade o verdadeiro sig-
nificado das covariâncias e coeficientes de correlação estimados nos
diferentes problemas.
Capítulo 2
1. Você acha que a curva normal pode descrever satisfatoriamente uma
curva de distribuição de tamanhos de partículas muito finas? E de
partículas grandes? Justifique.
Inicialmente devemos lembrar que a curva normal tem seu domínio
definido no intervalo (-∞, +∞) e que é simétrica em relação ao valor
médio. Quando as partículas são muito finas, é muito provável que o
ajuste da curva normal resulte em uma área considerável na região de
diâmetros negativos, como mostrado na Figura 6.1. Quando as partículas
são grandes, apesar do domínio ser o mesmo, (-∞, +∞), é mais provável
que a região correspondente a diâmetros negativos seja desprezível.
Assim, a curva normal pode descrever satisfatoriamente a curva de dis-
tribuição de tamanhos de partículas grandes, mas descrever de forma
inapropriada a distribuição de partículas muito finas. Deve ainda ser
observado que a distribuição real de tamanhos deve ser simétrica (o que
é raro), para que a curva normal possa ser utilizada de forma adequada
para representar as populações de tamanho; caso contrário, mesmo para
partículas grandes, a curva normal não poderá ser usada para fornecer
uma boa descrição da distribuição dos tamanhos.

' •
'' ••
'' •
' •
' •
'
'
' •
' ''
-20 0 20 100
Dp
Figura 6.1 – Deslocamento da curva normal ao longo do eixo x.
Deve ficar claro ainda que a área correspondente à região de valores

negativos diminui quando a variância da população diminui (a curva fica
mais estreita ao redor do valor médio). Portanto, a representação normal
das distribuições de tamanhos de partículas finas ou grossas tende a
melhorar, quando as variâncias diminuem. Do ponto de vista prático, a
probabilidade de encontrar valores negativos com a curva normal são
muito pequenas se
0−µ µ
> −3 → µ > 3σ ou σ <
σ 3
O objetivo fundamental desse exercício é mostrar ao leitor que o
modelo de distribuição normal é um modelo como outro qualquer, que
pode ser usado em certas condições de maneira confiável e não pode ser
usado em muitas outras condições. Cabe ao usuário definir as condições
apropriadas de uso do modelo.
2. Discuta se uma curva normal pode ser usada como modelo de proba-
bilidades para descrever as flutuações de altura numa população de
indivíduos. Que modificações poderiam ser introduzidas no modelo
para torná-lo mais crível e representativo da realidade.
Mais uma vez, deve-se lembrar que a curva normal tem seu domínio
definido no intervalo (-∞, +∞). Como todos os indivíduos têm alturas
positivas e maiores do que 0, o uso da curva normal para descrever
as variações de tamanho pode não ser rigorosamente adequado. Uma
alternativa possível é usar a distribuição Log-Normal, cujo domínio é
definido em (0, +∞), e admite a distribuição normal da variável ln(x).
Quando os valores de x se encontram entre 0 e 1, ln(x) assume valores

negativos; para valores de x maiores que 1, ln(x) assume valores positi-

vos. No entanto, não há indivíduos com alturas superiores a 3m; logo,
o uso da curva Log-Normal para descrever as variações de tamanho
também pode não ser rigorosamente adequado. Vê-se que a distribuição
deveria estar limitada a um intervalo de valores finito. A partir de uma
distribuição padrão conhecida, isso poderia ser feito com o auxílio da
seguinte transformação:
℘(x )
℘real (x ) = xmáx
, xmín < x < xmáx
∫ ℘(x ) dx
xmín
onde ℘real(x) representa um modelo probabilístico qualquer ℘(x), restrito

a um certo intervalo de definição. O objetivo fundamental desse exercício
é mostrar ao leitor que o modelo de distribuição normal é um modelo
como outro qualquer, que pode ser usado em certas condições de ma-
neira confiável e não pode ser usado em muitas outras condições. Cabe
ao usuário definir as condições apropriadas de uso do modelo.
3. Utilizando uma planilha eletrônica ou um programa de computador:

a) Gere uma seqüência de 2000 pontos pseudo-aleatórios (começando
X k +1 = 11 X k − Trunc (11 X k )
Yk = X k +1
Repare que X e Y identificam seqüências distintas de pontos deslocados
no tempo
b) Gere uma seqüência de 2000 pontos pseudo-aleatórios (começando

Z k +1 = 11 Z k − Trunc (11 Z k )
Wk = Z k +1
Repare que Z e W identificam seqüências distintas de pontos deslocados
no tempo, diferentes das duas seqüências X e Y anteriores.

c) Usando os dados anteriores, construa histogramas de probabilidade

como a freqüência com que os pontos aparecem nos dez intervalos
definidos pelos valores [0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0].
Comente os resultados obtidos.
d) Calcule os fatores de correlação entre as variáveis X, Y, Z e W. Comente
os resultados obtidos.
e) Finalmente responda – os dados obtidos são aleatórios ou determi-
nísticos?
a) e b) Na tabela abaixo são apresentados os primeiros 20 números de

cada seqüência. Observe que a seqüência de valores gerados com
a semente 0.5 apresenta sempre o mesmo valor igual a 0.5. Já a
seqüência de valores gerados com a semente igual a 0.51 apresenta
valores distintos, que no início seguem uma seqüência bem previsível,
mas após um certo ponto (k maior que 15) parecem ser totalmente
aleatórios.
k Xk Yk Zk Wk
1 0.5 0.5 0.51 0.61
2 0.5 0.5 0.61 0.71
3 0.5 0.5 0.71 0.81
4 0.5 0.5 0.81 0.91
5 0.5 0.5 0.91 0.01
6 0.5 0.5 0.01 0.11
7 0.5 0.5 0.11 0.21
8 0.5 0.5 0.21 0.31
9 0.5 0.5 0.31 0.41
10 0.5 0.5 0.41 0.510001
11 0.5 0.5 0.510001 0.610008
12 0.5 0.5 0.610008 0.710091
13 0.5 0.5 0.710091 0.811006
14 0.5 0.5 0.811006 0.921061
15 0.5 0.5 0.921061 0.131676
16 0.5 0.5 0.131676 0.448438
17 0.5 0.5 0.448438 0.932823
18 0.5 0.5 0.932823 0.261057
19 0.5 0.5 0.261057 0.871628
20 0.5 0.5 0.871628 0.587908
c) Abaixo são apresentados os dois histogramas obtidos, uma para cada

seqüência. Para a primeira seqüência de valores, apenas o valor 0.5
aparece (observe que o valor 0.5 foi considerado no intervalo (0.4, 0.5]
). Já para a segunda seqüência, os valores oscilam em torno do valor
médio esperado de 200 observações, já que o total de 2000 observa-
ções foi dividido em 10 intervalos. Assim, pode-se dizer que a segunda

seqüência apresenta uma distribuição muito próxima da distribuição

uniforme. (Os testes de aleatoriedade descritos no Capítulo 3 podem
ser usados para comprovar a propriedade da hipótese de distribuição
uniforme dos dados.) Deve ficar claro que o usuário não deveria esperar
a obtenção de exatamente duzentos pontos em cada intervalo do his-
tograma, da mesma forma que não é possível garantir que duas caras
serão obtidas quando se joga a moeda quatro vezes para o alto.
...,
~
r-- f-
.g
liS•• I - - r--......,
~ ~
·~ 5"CC
;z
" "' II! .. ~ u .. ., •.'i 111

II
I f ~"' T •"~ l to
'" ron 11 o
Il l 11 A
Uf1
'" 11 Ill!: I• l ill
turrul111 & I1Jdu.
II
Figura 6.2 – Histogramas de freqüências do Exercício Proposto 2.3.
d) Como as variáveis X e Y sempre apresentam o mesmo valor, a vari-

ância destas variáveis é igual a 0, de forma que a correlação destas
variáveis não pode ser calculada de forma adequada. Já a correlação
entre as variáveis Z e W é igual a 0.085; ou seja, valores adjacentes
da seqüência apresentam uma correlação muito baixa, indicando
que os valores são independentes, a despeito do fato das seqüências
serem obtidas através de uma transformação determinística.
e) Apesar dos resultados acima mostrarem que as seqüências Z e W
parecem ser aleatórias, existe uma equação determinística e bem
definida que sempre pode ser usada para gerar a mesma seqüência
de pontos. Sempre que a mesma semente for fornecida, os resultados
obtidos serão os mesmos. Observa a Figura abaixo, em que os valores
de W são apresentados como função dos valores de Z. Fica bem claro
que existe uma relação determinística entre estes valores.

l•
1.0
08
11 I I B e
I
M
.,;
o•
\.0
O.l 08
o6
Ol
1)11 02
o.o
Figura 6.3 – Relação entre os pontos adjacentes da seqüência pseudo-aleatória.
O objetivo central desse exercício é mostrar mais uma vez como pode
ser difícil diferenciar eventos determinísticos de eventos estocásticos.
Além disso, o exercício reforça a idéia de que é possível gerar sinais com
comportamento pseudo-aleatório a partir de regras determinísticas.
4. Utilizando a seqüência de valores anteriormente obtidos para a variá-

vel Z, e admitindo que essa seqüência de valores segue a distribuição
uniforme, transforme essa seqüência de dados em outra que segue:
a) A distribuição exponencial;
b) A distribuição normal.
Para converter dados de uma distribuição em outra, é preciso utili-

zar o conceito de seqüências aleatórias equivalentes, de acordo com a
Equação (2.24):
xi yi
∫ ℘ (x )dx = ∫ ℘ ( y )dy
xmin
1
ymin
2 (2.24)
Como a primeira distribuição de referência é a distribuição uniforme

temos:
yi
xi = ∫ ℘ ( y )dy = P ( y )
ymin
2 AC ,2 i
onde xi é um valor gerado com distribuição uniforme. A equação acima

permite transformar a seqüência de valores gerada no computador (xi)

em uma outra seqüência de valores pseudo-aleatórios que segue uma

outra distribuição (yi).
a) Para a distribuição exponencial temos:
yi
1  −y 
xi = ∫ exp   dy
0
µ  µ 
Integrando a expressão acima, chega-se a:
 −y 
xi = 1 − exp  i 
 µ 
Resolvendo para yi:
− ln (1 − xi )
yi =
µ
Assim, para cada valor xi gerado a partir da distribuição uniforme,
é possível calcular o seu valor correspondente yi, cuja distribuição ca-
racterística é a distribuição exponencial (definida uma média µ). Por
exemplo, considerando a média µ igual 1, o histograma obtido a partir
da seqüência de valores Z é apresentada na figura abaixo:
lmervnlo de dados
Figura 6.4 – Distribuição exponencial obtida com números pseudo-aleatórios.
b) Para a distribuição normal temos:

 1  y − µ 2 
yi
1
xi = ∫ exp  −    dy
−∞ σ 2π  
2 σ  

Integrando a expressão acima, chega-se a:
1  2 yi − µ  1  2 yi − µ  
xi = − erf  −  + lim x→−∞  erf  −  
2  2 σ   2  2 σ  
1  2 yi − µ 
xi = − erf  −  + 1
2  2 σ 
 2 yi − µ 
erf  −  = 2 (1 − xi )
 2 σ 
A equação acima não apresenta uma solução analítica para yi como
função de xi. Felizmente, procedimentos numéricos para este cálculo
podem ser encontrados em grande parte das planilhas eletrônicas co-
merciais. Usando uma destas planilhas, é possível converter os valores da
seqüência uniforme Z em valores com distribuição normal, considerando
como média o valor µ=0 e como variância o valor σ2 = 1. O histograma
obtido é apresentado abaixo.
Figura 6.5 – Distribuição normal obtida com números pseudo-aleatórios.
O objetivo principal desse exercício é mostrar que seqüências aleató-

rias que seguem virtualmente qualquer tipo de distribuição probabilística
podem ser geradas no computador a partir de algumas regras simples
de transformação.
5. Admita que o modelo normal multidimensional da Equação (2.72) é

válido. Nesse caso, comente os resultados obtidos quando:

a) A matriz de covariâncias é diagonal, como na Equação (2.63). Qual a

forma particular da distribuição nesse caso? Como o resultado pode ser
interpretado?
b) O vetor de médias definido na Equação (2.62) e a matriz de covariâncias
diagonal definida na Equação (2.63) são compostos por NX valores iguais.
Qual a forma particular da distribuição nesse caso? Como o resultado
pode ser interpretado?
a) Quando a matriz de covariâncias é diagonal, a Equação (2.72) pode

ser reescrita como:
1 ex [-~ ~·x (x,- Jly]

n '
NX
a-
It
p
-
?L -=1
1
a.,,
•'• I
p (x)= rr{
1=1 c;.t
I
J(2n)
exp[-~2 (x, -~l,t
(r
]} =n
·"x ( )
P x,u r=)
Este resultado indica que não existe a correlação entre as variáveis

x; ou seja, as variáveis são independentes. Este resultado pode ser
interpretado como a distribuição normal de medições independentes.
Portanto, quando a matriz de covariâncias é diagonal, as medidas são
independentes de fato.
b) Quando cada uma das médias é igual a µ e a diagonal da matriz de

covariâncias contém valores iguais a σ2, a Equação (2.72) pode ser
definida como:
p( )
x
I
J(2n )"'x
I
exp -
[
2a~ L (x, - Jl )~ ]
1 NX
=
n,.,
Nx ,
a~ r-1
,
p(x)= nN \'
·
{
I
eXp [ __ ( I
1x -
~)· ' ]} =n
.v.v
(x)
•=t c; J(2n) 2 (J" ;=t P •

Aqui, além das variáveis serem independentes, todas os NX valores

têm a mesma média e a mesma variância. Trata-se, portanto, de um pro-
cesso de replicação experimental, em que as medidas são feitas sempre
da mesma forma e de maneira independente.
O objetivo fundamental desse exercício é reforçar a idéia de que a
estrutura da matriz de covariâncias pode ser interpretada em termos
dos procedimentos experimentais utilizados.
Capítulo 3
1. Suponha que você está insatisfeito com a reprodutibilidade de uma
certa técnica experimental e não pode comprar um novo equipa-
mento e nem pode melhorar a técnica disponível. O que você pode
fazer para melhorar a precisão das análises efetuadas? Será que você
pode obter uma precisão arbitrariamente pequena para uma técnica
experimental? Justifique.
Uma alternativa seria a realização de várias réplicas e utilizar como
resposta a média destas réplicas, já que o desvio padrão da média é igual
ao desvio padrão das medidas dividido pela raiz quadrada do número
de réplicas. Assim, realizando um grande número de réplicas, é possível
diminuir cada vez mais o desvio padrão do valor médio. Entretanto, o
número de réplicas necessárias para se obter uma boa precisão pode
ser muito grande e inviabilizar este procedimento. Apesar disso, várias
normas técnicas propõem o uso de valores médios para representar
medidas experimentais, com o objetivo de reduzir o espalhamento
característico da medida.
2. Suponha que a análise de dados históricos disponíveis no laboratório

indique que a variância de uma certa medida experimental é igual a
σ2 = 1. Como você poderia propor um sistema de amostragem que
reduzisse em 10 vezes a variância das medidas? Justifique.
Mais uma vez, uma solução possível seria utilizar o valor médio
obtido a partir de diversas réplicas para representar a medida. Como a
variância da média é igual à variância da medida dividida pelo número de
réplicas executadas, para reduzir a variância 10 vezes serão necessárias
10 réplicas em cada amostragem. O custo desse processo, no entanto,
pode ser excessivo. Nesse caso, seria melhor investir no aperfeiçoamento
do sistema de medição disponível.
3. Quatro turmas de operadores trabalham numa empresa química. O

desempenho das quatro turmas deve ser avaliado. Você é o engenheiro

recomendado para isso. Para tanto, você deve analisar os dados de

conversão do reator químico onde se processa a reação. Os dados
disponíveis são os seguintes:
1 0.892 0.850 0.775 0.915
2 0.910 0.875 0.872 0.921
3 0.880 0.880 0.650 0.917
4 0.900 0.842 0.881 0.911
5 0.920 0.900 0.910 0.907
6 0.905 0.910 0.720 0.899
7 0.860 0.891 0.851 0.912
8 0.920 0.905 0.820 0.910
9 0.904 0.870 0.730 0.907
10 0.930 0.865 0.780 0.913
11 0.921 0.880 0.792 0.905
12 0.872 0.891 0.751 0.898
13 0.897 0.832 0.891 0.902
14 0.880 0.886 0.950 0.911
15 0.911 0.872 0.971 0.907
16 0.908 0.907 0.918 0.906
17 0.915 0.652 0.863 0.913
18 0.882 0.871 0.721 0.908
19 0.920 0.915 0.753 0.906
20 0.900 0.870 0.828 0.909
a) Calcule as médias e variâncias amostrais para cada conjunto de dados;

b) Calcule os intervalos de confiança da média e da variância para cada
conjunto de dados. Explicite as hipóteses usadas;
c) Aplique os testes cabíveis e verifique se as turmas são ou não equi-
valentes;
d) Verifique se os dados de cada grupo podem estar correlacionados aos
dados dos demais;
e) Construa um gráfico na seguinte forma:
Limite Superior de 98% de Confian~a

•
1 - ----- - --'•'-------''----MCdia
• • • •
Limite Inferior de 98% de Confian~a
Para cada turma, verifique se há outliers; ou seja, pontos fora da região

de confiança. Podem ser observadas tendências de aumento ou decrés-
cimo de conversão?

f) Você mandaria alguma turma para treinamento?
a) As médias e variâncias amostrais (Equações 3.3 e 3.7) de cada turma

são apresentadas na tabela abaixo:
Média Variância
Turma 1 0.90135 0.0003493
Turma 2 0.86820 0.0030842
Turma 3 0.82135 0.0074826
Turma 4 0.90885 0.0000321
b) Para o cálculo do intervalo da média e da variância, inicialmente é

admitido que os dados de cada turma seguem a distribuição normal;
portanto, o intervalo de confiança da média amostral pode ser obtido
através da distribuição t-Student e o intervalo de confiança da variân-
cia amostral pode ser obtido com a distribuição χ2. Para o cálculo do
intervalo de confiança da média amostral é usada a Equação (3.17):
X − µX
t=
sX
N
Calculando-se o intervalo de confiança da variável t com 98% de confiança
e com 19 graus de liberdade (limite inferior de 1% e superior de 99%):
t190.01 = -2.539483
t190.99 = +2.539483
O intervalo de confiança da média amostral é calculado como:
X − µX
-2.539483 ≤ ≤ 2.539483
sX
N
sX s
X -2.539483 ≤ µ X ≤ X +2.539483 X
N N
Para o cálculo do intervalo de confiança da variância é usada a dis-
tribuição χ2, conforme descrito pela Equação (3.23):
s X2
χ = (N − 1) 2
2
σX

Calculando-se o intervalo de confiança da variável χ2 com 98% de

confiança e com 19 graus de liberdade (limite inferior de 1% e superior
de 99%):
χ 0.01,18
2
= 7.632730
χ 0.99,18
2
= 36.190869
O intervalo de confiança da variância amostral é calculado como:
s X2
7.632730 ≤ (N − 1) 2 ≤ 36.190869
σX
s X2 s X2
(N -1) < σ X < (N -1)
2
36.190869 7.632730
Usando os valores da média e variância amostrais calculados ante-

riormente, obtêm-se os intervalos de confiança da média e da variância
para cada turma:
Média Variância
Limite Inferior Limite Superior Limite Inferior Limite Superior
Turma 1 0.890737 0.911963 0.000183 0.000869
Turma 2 0.836665 0.899735 0.001619 0.007677
Turma 3 0.772230 0.870470 0.003928 0.018626
Turma 4 0.905631 0.912069 0.000017 0.000080
c) Para verificar se as turmas podem ser consideradas equivalentes,

deve-se comparar as médias e as variâncias amostrais das turmas
e verificar se estes valores podem ser considerados equivalentes ou
não. Para isto, são usados os intervalos de confiança das médias e va-
riâncias amostrais calculados para cada turma no item (b). Na Figura
abaixo são apresentados graficamente os intervalos de confiança da
média e da variância amostrais.
Figura 6.6 – Intervalos de confiança das médias e variâncias amostrais do

Exercício Proposto 3.3.

Com relação à média, ocorrem algumas superposições dos intervalos.

Por exemplo, a Turma 1 tem média equivalente às médias das Turmas
2 e 4; já a Turma 4 tem média equivalente somente à media da Turma
1. Entretanto, com relação aos intervalos de confiança das variâncias
amostrais, as Turmas 1 e 4 não podem ser consideradas equivalentes a
nenhuma outra (e nem entre si). Já as variâncias da Turma 2 e 3 podem
ser consideradas equivalentes, assim como as suas médias amostrais.
d) Na tabela a seguir é apresentada a matriz de correlação entre os dados

de cada turma. Como todos os valores das correlações apresentam
valores absolutos muito próximos a zero (máximo de 0.25), pode-se
afirmar que não há correlações importantes entre os dados das quatro
turmas. Isso parece sugerir que as turmas operam a fábrica de forma
independente e/ou em períodos de operação independentes.
Turma 1 1.00 -0.11 0.16 0.01
Turma 2 -0.11 1.00 -0.15 -0.25
Turma 3 0.16 -0.15 1.00 0.06
Turma 4 0.01 -0.25 0.06 1.00
e) A seguir são construídos os gráficos da conversão ao longo do tempo

para cada turma. Os limites de 98% de confiança forma calculados,
admitindo-se que os dados seguem uma distribuição normal com
média e variância iguais aos respectivos valores amostrais.
Figura 6.7 – Gráficos de controle de qualidade para os dados operacionais

fornecidos pelas diferentes turmas.

Na figura anterior não é observada nenhuma tendência de aumento

ou decréscimo de conversão. Entretanto, um outlier pode ser observado
entre os dados da Turma 2. Nas demais turmas não são observados
outliers. Como este outlier pode exercer um efeito muito marcante nos
resultados apresentados, os cálculos foram refeitos para a Turma 2, após
a remoção do outlier do conjunto de pontos. Recalculando-se a média
amostral, a variância amostral e os respectivos intervalos de confiança
para a Turma 2 (lembrando agora que o número de dados válidos para
a Turma 2 é igual a 19), os seguintes resultados são obtidos.
Média Variância
Limite Inferior Limite Superior Limite Inferior Limite Superior
Turma 1 0.890737 0.911963 0.000183 0.000869
Turma 2* 0.866200 0.892958 0.000270 0.001340
Turma 3 0.772230 0.870470 0.003928 0.018626
Turma 4 0.905631 0.912069 0.000017 0.000080
Figura 6.8 – Intervalos de confiança das médias e variâncias amostrais do

Exercício Proposto 3.3, após a remoção do outlier.
Observe que agora a Turma 2 não pode mais ser considerada equi-
valente à Turma 3, pois suas variâncias tornaram-se diferentes após a
eliminação do ponto espúrio. Por outro lado, agora a Turma 2 pode ser
considerada equivalente à Turma 1. Na Figura abaixo, fica claro o efeito
que apenas um outlier estava provocando no conjunto de dados, aumen-
tando em muito a variância dos dados da Turma 2.
Figura 6.9 – Gráficos de controle de qualidade para os dados operacionais

fornecidos pela Turma 2, antes e após a remoção do outlier.
f) Antes da retirada do outlier, as Turmas 2 e 3 poderiam ser considera-

das como as que fornecem os piores resultados, já que apresentavam

médias inferiores à média da Turma 4. Após a retirada do outlier, a

Turma 3 pode ser considerada como a que fornece os piores resul-
tados. A Turma 4 apresentou os melhores resultados: maior média
(significativamente diferente das demais) e menor variância (signi-
ficativamente diferente das demais). Portanto, parece claro que a
Turma 4 tem algo a ensinar às demais.
O objetivo fundamental desse exercício é dar ao leitor a oportuni-
dade de fazer contas e testar a compreensão das técnicas de análise e
comparação propostas. Além disso, reforça-se a idéia da importância da
identificação de pontos espúrios, que podem influenciar negativamente
a análise de conjuntos de dados.
4. Seja o conjunto de dados relativos à variável xi retirados do compu-

tador com a rotina RANDOM:
00 10 20 30 40
1 0.1025 0.2217 0.3737 0.8341 0.0910
2 0.1147 0.3344 0.4521 0.4298 0.9511
3 0.9508 0.1351 0.5811 0.6315 0.1223
4 0.7212 0.6227 0.9123 0.4726 0.8711
5 0.4393 0.5111 0.7314 0.6215 0.5661
6 0.6161 0.7502 0.3122 0.5871 0.6161
7 0.0012 0.8192 0.4659 0.2012 0.9813
8 0.1200 0.9095 0.2197 0.3191 0.6715
9 0.8837 0.0195 0.7382 0.4615 0.2328
10 0.4141 0.5823 0.1180 0.9867 0.9142
a) Calcule média e variância para a lista de medidas disponíveis.

b) Faça zi = xi e yi = xi+1. Calcule o coeficiente de correlação entre z e y.
Você consegue observar alguma tendência?
c) Divida os dados em 10 classes, de forma que
Classe1 = 0 ≤ xi ≤ 0 .10 , ... , Classe10 = 0 . 9 ≤ xi ≤ 1.00
Monte o histograma de freqüência das classes.
d) A distribuição obtida é supostamente uniforme. Os dados confirmam
isso? Admitindo-se que
 0, x < 0

℘(x ) =  1, 0 ≤ x ≤ 1
0, x > 1

Calcule a média e a variância esperadas.

e) As médias e variâncias obtidas podem ser consideradas equivalentes

às teóricas? Quais os limites de confiança dos dados obtidos?
a) A média amostral para o conjunto de dados disponíveis é igual a

0.5147, enquanto a variância amostral é igual a 0.0856.
b) Fazendo zi = xi e yi = xi+1, o valor calculado para a correlação en-
tre z e y é fraca e igual a -0.203. Como a correlação é muito baixa,
como ilustrado na figura abaixo, não é possível observar nenhuma
tendência temporal dos valores (já que z e y são seqüências de va-
lores deslocadas no tempo). Diz-se nesse caso que não parece haver
dinâmica.
] C)
••.. •
.
41
• •
0&
• ,. I
••
0.6
., .. • • •
• """' '
,
•
.....
• ••
' ..
•!li>
•
0.
... •
0.2 Ill I! .. . '
. • ..
• • '
0.0
0.0 r0.2 0:4· 0.6 08 UJ
::
Figura 6.10 – Distribuição dos dados amostrados no Exercício Proposto 3.4.
c) Na Figura abaixo é apresentado o histograma dos dados.
~ ~--~------~----------~--------~------~
~.U 0.1 fJ.J, 0..1 05 0G 0.7 0 II 0.9 l.U
Figura 6.11 – Histograma dos dados amostrados no Exercício Proposto 3.4.
d) Para verificar se os dados realmente seguem a distribuição uniforme,

avalia-se o histograma obtido anteriormente. Como temos 50 dados

e 10 intervalos, espera-se na média que cada intervalo contenha 5

pontos. No histograma apresentado acima, os intervalos possuem
de 3 a 7 valores. A questão que se coloca é a seguinte: com um nível
de confiança de 95% (escolhido de forma arbitrária), quantos pontos
podem ser esperados em cada intervalo. Este cálculo pode ser feito
com auxílio da distribuição binomial, já que cada um dos 10 intervalos
tem uma probabilidade de 0.10 de conter um certo ponto amostrado,
se a distribuição dos pontos entre as classes for aleatória.
A probabilidade binomial para este problema é definida como:
50!
Bin (n;50, 0.1) = 0.1n 0.950− n
n !(50 − n )!
onde n é o número de pontos amostrados em um dado intervalo. Cons-
truindo uma curva de probabilidade acumulada chega-se a:
1.() .•...••. •. . ....••...•.••........••... ....•••. •. ...••... •.•. • .... .
•
•
0.8 •
.:: 0.6 •
'll
~
o; 0.4 •
0.2
•
•
0.0
..... .............. ............................................... .
0 2 3 4 s 6 7 10
"
Figura 6.12 – Probabilidades acumuladas no Exercício Proposto 3.4, em que n
representa o número de pontos contidos em um certo intervalo.
Observe que com 95% de confiança podem ser esperados de 1 a 8

pontos em cada um dos intervalos. Como no histograma apresentado
no item (c) deste exercício todos os intervalos apresentam valores nesta
faixa, não é possível negar que a distribuição uniforme represente bem
esse conjunto de dados.
Sendo a curva uniforme definida como:
 0, x < 0

℘(x ) =  1, 0 ≤ x ≤ 1
0, x > 1


A média e a variância esperadas são calculadas como:

1 1
x2 1
µ x = ∫ xdx = = = 0.5
0
2 0 2
3 1
(x − 1I 2 ) (1 − 1I 2 ) − (0 − 1I2 )
1 3 3
1
µ x = ∫ (x − µ )
2
dx = = = = 0.0833
0
3 3 3 12
0
No item (a) deste exercício foram calculados os valores amostrais

para a média e para variância, sendo a média amostral igual a 0.5147
e a variância amostral igual a 0.0856. Pode-se observar que os valores
estão muito próximos dos esperados para uma distribuição uniforme.
(Essas diferenças podem ser rigorosamente avaliadas com as ferramentas
numéricas de comparação apresentadas no Capítulo 3.)
e) Para que os valores da média e variância amostrais obtidos possam ser

considerados equivalentes aos valores teóricos, é necessário obter os
limites de confiança dos valores amostrais, dado um nível de confiança.
Verifica-se então se o valor teórico esperado se encontra no interior do
intervalo de confiança calculado. Entretanto, deve-se lembrar que não é
rigorosamente correto usar as distribuições t-Student e χ2 para o cálculo
dos intervalos de confiança da média e da variância amostrais, já que
estas só podem ser usadas quando os dados amostrados seguem uma
distribuição normal. Neste caso, os dados não seguem a distribuição
normal, mas a distribuição uniforme.
Infelizmente não existem soluções prontas para o cálculo dos inter-
valos de confiança da média e da variância amostrais para quaisquer
distribuições de probabilidade. Este é um dos motivos de se considerar,
na maioria absoluta dos casos, que um certo conjunto de dados siga a
distribuição normal, uma vez que nesse caso o tratamento dos dados pode
ser feito facilmente através das distribuições t-Student, χ2 (chi-quadrado)
e F. Como discutido no Capítulo 3, uma alternativa possível para os casos
em que não se deseja (ou não seja possível) considerar a distribuição
normal consiste em utilizar métodos de Monte Carlo.
Uma forma interessante de proceder a análise de grandes conjun-
tos de dados é lembrar que o Teorema do Limite Central garante que
as distribuições de somas ponderadas de dados aleatórios sempre se
aproximam da distribuição normal, à medida que o número de dados
cresce. Dessa forma, quando o número de dados amostrados é grande
(por exemplo, superior a 20), é possível usar as distribuições t-Student,

χ2 (chi-quadrado) e F para analisar as grandezas amostrais. No caso

particular considerado, conclui-se que:
−2.40 ≤ t ≤ 2.40
0.5147 − 2.40
F 0.0856
50
≤ µ ≤ 0.5147 + 2.40
0.4154 ≤ µ ≤ 0.6140
0.0856
50 F
0 l
não sendo possível descartar a hipótese de que os dados sigam a dis-

tribuição uniforme, já que a média esperada é igual a 0.5 e a variância
esperada é igual a 0.0833, ambas contidas pelos respectivos intervalos
de confiança das medidas amostrais.
5. Suponha que um problema estocástico envolve duas variáveis sujeitas

a flutuações normais. Suponha ainda que o vetor de médias e a respectiva
matriz de covariâncias são dados por:
x   1 0.9 
x =  1 VX =  
 x2  , ,  0.9 1 
a) Calcule a forma da região de confiança (faça c = 1 na Equação
(3.48));
b) Calcule as direções principais e interprete os resultados;
c) Como você descreveria a região de confiança, com um nível de confiança
correspondente a c = 1, onde você espera encontrar valores de x1 e x2?
x1min ≤ x1 ≤ x1max x2min ≤ x2 ≤ x2max
a) Dada a Equação (3.48)
e substituindo os valores dados no enunciado, chega-se a:

T −1
  x1  1   1 0.9    x1  1 
  −       −   =1
  x2  1  0.9 1    x2  1 
ou ainda
100 2
19
(
x1 + x22 −
180
19
) 20 1
x1 x2 − (x1 + x2 ) + = 0
19 19
100 (x 2
1 + x )− 180 x x
2
2 1 2 − 20 (x1 + x2 ) + 1 = 0
A equação acima corresponde a uma elipse. Uma forma simples de

fazer um gráfico desta função é resolver a equação para uma das variá-
veis; por exemplo, resolvendo para x2 obtém-se:
1 
x2 = 1 + 9 x1 ± 38 x1 − 19 x12 
10  
Fazendo o gráfico das duas funções definidas acima, obtém-se a
seguinte figura:
2.5
2.0
1.5
,;: 1.0
0.5
0.0
-0.5
.0.5 o.o o.s 1.0 1.5 2.0 2.5
-··
Figura 6.13 – Forma da região de confiança no Exercício Proposto 3.5.
b) Inicialmente são calculados os valores característicos, obtidos a partir

da solução da equação:
 1 − λ 0.9  
det (VX − λ I ) = det     = (1 − λ )(1 − λ ) − 0.81 = 0
 0.9 1 − λ 
λ 2 − 2λ + 0.19 = 0

de onde se chega a:
− (−2 ) ± (−2 ) − 4 (1)(0.19 )

2
0.1
λ= =
2 (1) 1.9
O primeiro vetor característico é obtido como:
 1 0.9   a   a  a + 0.9b = 0.1a
0.9 1   b  = 0.1  b   0.9a + b = 0.1b
     → →
0.9a + 0.9b = 0 a + b = 0
 
0.9a + 0.9b = 0 → a + b = 0
de onde se conclui que a = −b . A solução com tamanho unitário é
 2
− 
d1 =  2 
 2 
 
 2 .
O segundo vetor característico é obtido como:
 1 0.9   a   a  a + 0.9b = 1.9a
0.9 1   b  = 1.9  b   0.9a + b = 1.9b
    → →
−0.9a + 0.9b = 0 −a + b = 0
 
 0.9a − 0.9b = 0 →  a − b = 0
de onde se conclui que a = b . A solução com tamanho unitário é
 2
 
d2 =  2 
 2 
 
 2 .
Como os valores característicos diferem em uma ordem de grandeza,
já que a razão entre eles é igual a 19, fica comprovado que a maior parte
das flutuações ocorre ao longo de uma única direção, direção esta definida
pelo vetor característico d2. Observe que esta direção corresponde a uma
reta que define o maior eixo da elipse apresentada na Figura 6.13. Já ao
longo da direção do vetor d1, as flutuações esperadas são pequenas, pois
esta direção corresponde ao menor valor característico.

c) Observando a Figura 6.13 e as equações definidas no item (a), pode

se definir como intervalos de confiança os seguintes limites:
0 ≤ x1 ≤ 2 0 ≤ x2 ≤ 2
É interessante observar que devido à alta correlação existente entre as
variáveis x1 e x2, a definição dos intervalos de confiança pode levar a uma
má interpretação dos resultados. Por exemplo, de acordo com os limites
definidos, pode-se pensar que quaisquer pares de valores de x1 e x2 no
intervalo de 0 a 2 são igualmente prováveis. Porém, observando a Figura
6.13, fica claro, por exemplo, que o par [x1, x2] = [1.5, 0.5] fica fora da
região de confiança, apesar dos limites de confiança individuais de cada
uma das variáveis serem respeitados. É por este motivo que a análise de
dados multivariados sempre deve considerar e avaliar a correlação entre
os dados, para evitar que se cheguem a conclusões equivocadas.
6. Três valores medidos estão disponíveis: 1.0, 1.5 e 8.0.

a) Caracterize estatisticamente os dados;
b) Suponha que o experimentador desconfia do último valor medido.
Que conselho você daria ao experimentador?
c) Admita que um quarto valor é obtido e é igual a 1.3. A sua opinião
muda? E se o quarto valor obtido for igual a 5.0? E se for igual a 9.1?
a) Parar caracterizar estatisticamente os dados, deve-se calcular a média

e a variância (e/ou desvio padrão) destes dados:
1.0 + 1.5 + 8.0

x= = 3.5
3
(1.0 − 3.5) + (1.5 − 3.5) + (8.0 − 3.5)
2 2 2
s2 = = 15.25
3 −1
s = 15.25 = 3.91
b) O experimentador deve fazer novas medições para verificar se o últi-
mo ponto pode ou não ser descartado, já que a análise do intervalo de
confiança não permite o descarte do ponto: x + 2 s = 11.32 > 8.0
; ou seja, o limite superior é maior que o valor 8.0 (considerando a
distribuição normal com um nível de confiança de aproximadamente
95%). Portanto, o experimentador apressado que descarte o valor
8.0 pode estar cometendo um equívoco profundo e subestimando

os erros experimentais do processo. Deve-se ter muito cuidado com

o descarte apressado de resultados.
c) Se o quarto valor é igual a 1.3, há forte tentação para descartar o valor
8.0. Se o novo valor for 5.0, fica difícil dizer que o valor 8.0 é ruim.
Se o novo valor for 9.1, não parece haver argumentos que suportem
o descarte de quaisquer dos valores. Como explicado anteriormente,
os dados devem ser analisados no contexto estatístico apropriado.
Por exemplo, suponha que o valor 1.3 foi medido. Então:
1.0 + 1.5 + 8.0 + 1.3

x= = 2.95
4
(1.0 − 2.95) + (1.5 − 2.95) + (8.0 − 2.95) + (1.3 − 2.95)
2 2 2 2
s 2
= = 11.37
4 −1
s = 11.37 = 3.37
Portanto, não parece apropriado descartar o valor 8.0. Essa é uma
atitude um tanto arbitrária do experimentador. Refazendo-se as contas
sem o ponto suspeito:
1.0 + 1.5 + 1.3
x= = 1.27
3
(1.0 − 1.27 ) + (1.5 − 1.27 ) + (1.3 − 1.27 )
2 2 2
s2 = = 0.063
3 −1
s = 0.063 = 0.25
Portanto, de forma genérica
8.0 − 1.27
x + cs = 8.0 → c= = 27
0.25 ,
conclui-se que o ponto 8.0 é muito diferente dos demais e poderia ser
excluído do conjunto.
Capítulo 4
1. Os seguintes dados estão disponíveis:
NE x y
1 0.10 0.38
2 0.20 0.91
3 0.30 1.69

4 0.40 2.13
5 0.50 2.66
6 0.60 2.61
7 0.70 3.65
8 0.80 3.94
9 0.90 4.28
10 1.00 5.24
Admitindo-se que o modelo y = a x é válido, onde a é o parâmetro a
ser determinado, estime o melhor valor de a nos três casos abaixo:
10
∑ (yie − yic ) ;
2
a) Fa =
i =1
10
∑ (y − yic ) ;
8
b) Fb = e
i
i =1
2
 yie − yic 
10
c) Fc = ∑  e  ;
i = 1 yi 
d) Compare os valores obtidos.
a) Para esta função objetivo e com o modelo linear y = a x é possível

obter uma solução analítica para o valor de a. Derivando Fa em relação
ao parâmetro a e igualando a expressão a zero, chega-se a:
∂Fa 10
= −2 ∑ (yie − axie )xie = 0
∂a i =1
Resolvendo para a, obtém-se:

10
∑ (y x ) e e
i i
a = i =101
∑ (x )
i =1
e 2
i
Usando os valores experimentais fornecidos, obtém-se o valor esti-

mado de a é igual a 5.01.

b) Para esta função objetivo, apesar do modelo ser linear, não é possível
obter uma solução analítica. Observe que derivando-se Fb em relação
ao parâmetro a é obtido um polinômio de sétimo grau:
∂Fb 10
= −8 ∑ (yie − axie ) xie = 0
7
∂a i =1
a partir do qual não é possível derivar uma solução analítica para a. Nes-
te caso, é necessário utilizar um método numérico, como os discutidos
no Capítulo 5. Outra alternativa é a utilização de algum dos diversos
programas computacionais que possuem estas rotinas numéricas já
programadas. A solução numérica desta equação ao valor de a igual a
4.92. O leitor deve observar que o novo parâmetro é diferente do anterior,
em função da mudança da função objetivo.
c) Neste caso é possível obter uma solução analítica para o valor de a. De-
rivando Fc em relação ao parâmetro a e igualando a zero, chega-se a:
∂Fc 10
 yie − axie  xie
= −2 ∑   e =0
∂a i = 1 yi
e
 yi
Resolvendo para a, obtém-se:
(y x )
10 e e
∑
i i
a=
(y )
i =1
e 2
i
2
10
 xie 
∑ e 
i = 1  yi 
Usando os valores experimentais fornecidos, o valor estimado de a é

igual a 4.78. O leitor deve observar uma vez mais que o novo parâmetro é di-
ferente dos anteriores, em função da nova mudança da função objetivo.
d) Pode ser observado que cada função objetivo fornece um valor dife-
rente para o parâmetro a. Assim, fica claro que a definição da função
objetivo deve estar baseada em conceitos estatísticos rigorosos, em
particular os que dizem respeito à definição do comportamento
dos erros experimentais. Por exemplo, a função objetivo do item (a)
considera que os erros experimentais são constantes. Já a função
objetivo do item (c) considera que a variância dos erros experimentais

é proporcional ao valor da variável. Antes de usar quaisquer destas

funções, é necessário verificar primeiramente qual é o comporta-
mento real dos desvios experimentais, já que o resultado de todo o
procedimento depende da forma da função objetivo.
O objetivo fundamental desse exercício é mostrar que a definição
apropriada da função objetivo é fundamental para o bom desenvolvi-
mento do estudo de estimação de parâmetros.
2. Supondo que os erros de uma certa medida são independentes e

sigam a distribuição exponencial, definida como:
P (ε i ) =
1  ε 
exp  − i  _II ,
2σ i  σi  −∞ < ε i < ∞
onde εi são os desvios ou erros experimentais e σi é uma medida do desvio
experimental, defina a função objetivo a ser usada em um procedimento
de estimação de parâmetros que está baseado nesses dados.
Como os erros são independentes, a distribuição de probabilidades
de um conjunto de NE medições pode ser definida como:
P{t ) = f1 -exp ( --le,l)

XF l
, ..) (ji (jJ
Maximizar esta função é o mesmo que maximizar o seu logaritmo;

ou seja:
ln[P(~:)]= ln [IT-1
a,
exp(_le,l)]
,.1a,
Como o logaritmo de um produto é a soma dos logaritmos de cada
fator, pode-se escrever:
ln[P(e)J =f- In(a,)_le,l

., r-
a. '
Como os valores de σi são constantes, maximizar a expressão acima,

é o mesmo que minimizar a função:
F =∑
NE
Iε I
i
i =1 σi

Definindo-se o desvio experimental como:

ε i = yie − yim
Conclui-se que a função objetivo pode ser escrita como:
NE yie − yim
F =∑
i =1 σi
A função definida acima consiste na função de máxima verossimi-
lhança para os casos em que os desvios ou erros experimentais seguem a
distribuição exponencial. Como essa função não tem derivadas contínuas,
as soluções numéricas deveriam privilegiar os algoritmos de busca direta
ou os algoritmos heurísticos definidos no Capítulo 5.
3. Determine as expressões para os parâmetros A e B do modelo linear:
y = Ax + B
para as seguintes funções objetivos.
NE
∑ (y − yim ) ;
2
a) F = e
i
i =1
(yie − yim )
2
NE
b) F = ∑i =1 σ i2
;
NE NE
∑∑ (yie − yim )(y ej − y mj )vij  , onde [vij]–1o elemento ij

−1
c) F =
i =1 j =1
da inversa da matriz V de erros experimentais.

d) Em seguida, usando os dados abaixo, calcule os valores dos parâme-
tros, a matriz de covariância dos parâmetros e o erro de predição para
cada função objetivo.
i xie yie
1 1 2
2 2 3
3 3 7

1.0 0.5 0.1 

V = 0.5 1.0 0.5 
 0.1 0.5 10.0 
a) Dada a função objetivo a seguir:
NE
F = ∑ (yie − yim )
2
i =1
Conclui-se que:
NE
F = ∑ (yie − Axie − B )
2
i =1
Derivando a expressão acima em relação aos parâmetros A e B e

igualando as equações a zero, chega-se a um sistema de duas equações
e duas incógnitas, cuja solução corresponde aos valores de A e B que
minimizam a função objetivo.
∂F NE
= 2∑ (yie − Axie − B )(− xie )= 0
∂A i =1
∂F NE
= 2∑ (yie − Axie − B )(−1) = 0
∂B i =1
Expandindo as equações acima, obtém-se:

NE NE NE
A∑ (x i) + B∑ x = ∑ y x
e 2 e
i
e e
i i
(a1)
i =1 i =1 i =1
NE NE NE
A∑ x + B ∑1 = ∑ yie
e
i
(a2)
i =1 i =1 i =1
A partir da Equação (a2), pode-se obter uma expressão para B como

função de A:
NE NE
∑y e
i − A∑ xie
B= i =1 i =1
NE

Substituindo essa expressão de B na equação (a1):

NE NE
NE ∑y e
i − A∑ xie NE NE
A∑ (x i)+
e 2 i =1 i =1
∑x =∑y x e
i
e e
i i
i =1 NE i =1 i =1
 NE
 NE e  
2 NE NE NE
A  NE ∑ (xi ) −  ∑ xi   = NE ∑ yi xi − ∑ yi ∑ xie
e 2 e e e
 i =1  i =1   i =1 i =1 i =1
NE NE NE
NE ∑ y x − ∑ y e e
i i
e
i ∑x e
i
A= i =1 i =1 i =1
2
NE
 NE e 
NE ∑ (x )
e 2
i −  ∑ xi 
i =1  i =1 
Assim, calcula-se primeiro o valor do parâmetro A e em seguida o
valor do parâmetro B.
b) Dada a função objetivo a seguir:
(yie − yim )
2
NE
F =∑
i =1 σ i2
Conclui-se que:
(yie − Axie − B )
2
NE
F =∑
i =1 σ i2
Derivando em relação a A e B, chega-se a:
∂F
= 2∑
(
NE y e − Ax e − B
i i )(− xie )
=0
∂A i =1 σi2
∂F
= 2∑
( i i ) =0
NE y e − Ax e − B (−1)
∂B i =1 σ i2
Expandindo as expressões acima:

(xie )
2
NE
xie NE yie xie
NE
A∑ + B∑ 2 = ∑ 2 (b1)
i =1 σ i2 i =1 σ i i =1 σ i
NE
xie NE
1 NE
yie
A∑ 2 + B ∑ 2 = ∑ 2 (b2)
i =1 σ i i =1 σ i i =1 σ i
Da segunda equação obtém-se uma expressão para B:

yie NE NE
xie
∑ σ 2
− A∑ 2
σ
B = i =1 i NE i =1 i
1
∑i =1 σ i
2
Substituindo essa expressão de B em (b1), conclui-se que:

yie
NE NE
xie
NE
(x )
e 2 ∑
i =1 σ i
2
− A∑ 2
i =1 σ i
NE
xie NE yie xie
A∑ ∑ =∑ 2
i
+
σ i2 NE
1 i =1 σ i
2
i =1 σ i
i =1
∑i =1 σ i
2
 NE ( ) 2
2
NE x e
1  NE
x e
 NE
1 NE yie xie NE yie NE xie
A ∑ 2 ∑ 2 −∑ 2  = ∑ 2 ∑ 2 −∑ 2 ∑ 2
 
i i
 i =1 σ i i =1 σ i  i =1 σ i   i =1 σ i i =1 σ i i =1 σ i i =1 σ i

NE
∑ 2∑
i =1 σ i i =1 σ i
2
−∑ 2∑ 2
i =1 σ i i =1 σ i
A=
NE
1 NE
(x ) − 
e 2 NE
x e
2
∑σ ∑ ∑
i i

i =1
2
i i =1 σ i2  i =1 σ i
2
Como feito anteriormente, calcula-se primeiro o valor do parâmetro

A e em seguida o valor do parâmetro B.
c) Dada a função objetivo:

NE NE
F = ∑∑ (yie − yim )(y ej − y mj )vij 
−1
i =1 j =1

Conclui-se que:
NE NE
F = ∑∑ (yie − Axie − B )(y ej − Ax ej − B )vij 
−1
i =1 j =1
Derivando em relação a A e B:
∂F NE NE
= ∑∑ (− xie )(y ej − Ax ej − B )vij  + (yie − Axie − B )(− x ej )vij  = 0
−1 −1
∂A i =1 j =1
∂F NE NE
= ∑∑ (−1)(y ej − Ax ej − B )vij  + (yie − Axie − B )(−1) vij  = 0
−1 −1
∂B i =1 j =1
Expandindo as expressões acima na forma:

NE NE NE NE NE NE
A∑∑ (2 xie x ej )vij  + B ∑∑ (xie + x ej )vij  = ∑∑ (y ej xie + yie x ej )vij 
−1 −1 −1
i =1 j =1 i =1 j =1 i =1 j =1
(c1)
NE NE NE NE NE NE
A∑∑ (x + x )vij  + B ∑∑ 2 vij  = ∑∑ (y ej + yie )vij 
e e −1 −1 −1
i j
i =1 j =1 i =1 j =1 i =1 j =1
(c2)
A partir da equação (c2), pode-se obter a seguinte expressão para B:
NE NE NE NE
∑∑ (y + y )vij  − A∑∑ (xie + x ej )vij 

e e −1 −1
j i
i =1 j =1 i =1 j =1
B= NE NE
−1
∑∑ 2 vij 
i =1 j =1
Substituindo a expressão acima na equação (c1), obtém-se a seguinte

expressão para A:
NE NE NE NE NE NE NE NE
∑∑ (y x + yie x ej )vij  − ∑∑ (y ej + yie )vij  ∑∑ (x + x ej )vij 

−1 −1 −1 −1
∑∑ 2 v
i =1 j =1
ij 
i =1 j =1
e e
j i
i =1 j =1 i =1 j =1
e
i
A= 2
NE NE NE NE  NE NE −1 
(2 x x )vij  −  ∑∑ (xie + xej )vij  
−1 −1
∑∑ 2 vij  ∑∑ e
i
e
j
i =1 j =1 i =1 j =1  i =1 j =1 
Como feito nos casos anteriores, calcula-se primeiro o valor do parâ-

metro A e em seguida o valor do parâmetro B.
d) Para a função objetivo do item (a) solução é dada por:

NE NE NE
NE ∑ y x − ∑ y e e
i i
e
i ∑x e
i
A= i =1 i =1 i =1 NE NE
NE
  NE 2
∑y e
− A∑ xie
NE ∑ (xie ) −  ∑ xie 
2 i
B= i =1 i =1
i =1  i =1  NE
Do conjunto de dados fornecidos:
NE NE
∑ x = 1 + 2 + 3 = 6; ∑ (xie ) = 12 + 22 + 32 = 14
e 2
i
i =1 i =1
NE NE
∑y
i =1
e
i = 2 + 3 + 7 = 12; ∑y x
i =1
e e
i i = 1 ⋅ 2 + 2 ⋅ 3 + 3 ⋅ 7 = 29
Como NE = 3, tem-se:
3 ⋅ 29 − 12 ⋅ 6 12 − 2.5 ⋅ 6
A= = 2.500; B = = −1.000
3 ⋅14 − 62 3
Para calcular os erros paramétricos, pode ser usada a Equação
(4.28):
Vα = σy2 M–1
onde σy2 é uma medida do erro experimental, que pode ser aproximado
pela Equação (4.11), lembrando que ν = NE-NP, como foi mostrado no
Exemplo (4.21).
NE
∑( ) (2 − 1) + (3 − 4 ) (7 − 6.5)
2
yie − yim 2 2 2
3
σ y2 = i =1
= =
NE − NP 3− 2 2
A matriz M é definida na Equação (4.17) na forma:
 NE e 2  NE
 ∑ xk ( ) ∑x  62 12 
e
1, k
M =  NE =
k =1 k =1
  12 3 
 ∑ x1,k
e
NE  e
 k =1 
 1 14 −2I 7 
M −1 =  I 
 −2I 7 31I 21

Assim, a matriz de erros paramétricos pode ser escrita como:

3128 -317] [ 0.107 -0.429]
vu = [ -317 31/14 = -0.429 2.214
Observe que desvio padrão do parâmetro A é igual a 0.327, enquanto
o desvio padrão do parâmetro B é igual a 1.488. Calculando-se o coefi-
ciente de correlação entre os parâmetros A e B (Equação (4.91)), obtém-
se o valor -0.881, mostrando que existe uma forte correlação entre os
parâmetros.
Os erros de predição podem ser calculados pela Equação (4.31)
como:
σˆ y2 = σ y2 B T M −1 B
A matriz B é definida como mostrado na Equação (4.30); portanto:
3  1I14 −2I 7   x 
σˆ y2 = [ ] −2 7 31 21 1 
x 1
2  I I  
3 2 6 31
σˆ y2 = x − x + = 0.107 x 2 − 0.857 x + 2.214
28 7 14
De forma análoga, para a função objetivo do item (b) solução é dada
por:
NE
∑
i =1 σ 2∑
σ 2
−∑ 2∑ 2
i =1 σ i i =1 σ i ∑
yie
NE
− A∑ 2
NE
xie
i i =1
A= i
σ 2
σ
B = i =1 i NE i =1 i
(xie )
2 2
NE
1 NE
 NE xie  1
∑ σ 2∑
σ
−∑ 2  ∑
 i =1 σ i  i =1 σ i
2 2
i =1 i i =1 i
Do conjunto de dados fornecidos:

NE
1 1 1 1 NE
xie 1 2 3
∑
i =1 σ 2
= + + = 2.1;
1 1 10
∑
i =1 σ 2
= + + = 3.3
1 1 10
i i
NE
(x ) e 2
12 22 32 NE
yie 2 3 7
∑ ∑
i
= + + = 5.9; = + + = 5.7
i =1 σ i2 1 1 10 i =1 σ i
2
1 1 10
NE
yie xie 1 ⋅ 2 2 ⋅ 3 3 ⋅ 7
∑i =1 σ i2
=
1
+
1
+
10
= 10.1
2.1 ⋅10.1 − 5.7 ⋅ 3.3 5.7 − 1.6 ⋅ 3.3

A= = 1.600; B = = 0.200
2.1 ⋅ 5.9 − 3.32 2.1
Para calcular os erros paramétricos deve ser usada a Equação (4.53),
sendo que a matriz M tem a forma:
-1
~r (x~)
Va-M-
-
1 -
-
i=1 j=1 0" ij
=[5.9
3.3 2.1
1
3.3]- = [ 1.40 -2.20]
-2.20 3.93
~r (x~) rr-2
NENY1
i=1 j=1 0" ij i=1 j=1 0" ij
Observe que neste caso o desvio padrão do parâmetro A é igual a

1.183, enquanto o desvio padrão do parâmetro B é igual a 1.983. Já o
coeficiente de correlação entre os parâmetros é igual a -0.938, mostran-
do que existe uma correlação ainda mais forte entre os parâmetros do
modelo. Vê-se que a forma da função objetivo influencia bastante o
comportamento do sistema.
Os erros de predição podem ser calculados através da Equação
(4.56):
ˆ = BM −1B T
σˆ y2 = Vy
 1.400 −2.200   x 
σˆ y2 = [x 1]    = 1.400 x 2 − 4.400 x + 3.933
 −2.200 3.933   1 
Para a função objetivo do item (c) solução é dada por:

NE NE NE NE NE NE NE NE
∑∑ (y x + yie x ej )vij  − ∑∑ (y ej + yie )vij  ∑∑ (x + x ej )vij 

−1 −1 −1 −1
∑∑ 2 vij 
i =1 j =1 i =1 j =1
e e
j i
i =1 j =1 i =1 j =1
e
i
A= 2
NE NE NE NE  NE NE
−1 
2 vij  ∑∑ (2 x x )vij  −  ∑∑ (xie + x ej )vij  
−1 −1
∑∑ e
i
e
j
i =1 j =1 i =1 j =1  i =1 j =1 
NE NE NE NE
∑∑ (y + y )vij  − A∑∑ (xie + xej )vij 

e e −1 −1
j i
i =1 j =1 i =1 j =1
B= NE NE
−1
∑∑ 2 vij 
i =1 j =1
 2.778 −2.222 −0.011

V −1 =  −2.222 2.778 −0.011
 −0.011 −0.011 0.200 
NE NE NE NE
∑∑ (xie + xej )vij  = 4.247

−1 −1
∑∑ 2 vij  = 2.741;
i =1 j =1 i =1 j =1
NE NE NE NE
∑∑ (y + y )vij  = 7.358; ∑∑ (2 x x )v

−1 −1
e
j
e
i
e
i
e
j
 = 8.823
ij 
i =1 j =1 i =1 j =1
NE NE
∑∑ (y ej xie + yie xej )vij  = 14.305

−1
i =1 j =1
2.741 ⋅14.305 − 7.358 ⋅ 4.247 7.358 − 1.295 ⋅ 4.247

A= = 1.295; B = = 0.678
2.741 ⋅ 8.823 − 4.247 2
2.741
Para o cálculo da matriz de covariâncias dos parâmetros, a matriz de
erros experimentais deve ser considerada cheia. Para isso, pode ser usada
a Equação (4.52) para o cálculo da matriz M, cuja inversa é a matriz de
covariâncias dos parâmetros:
−1
1.0 0.5 0.1  1 1
1 2 3   2 1 =  4.412 2.123
−1
M = G Y Vy G Y = 
T
  0.5 1.0 0.5     2.123 1.370 
1 1 1  0.1 0.5 10.0   3 1  
 
V -M
-
-1
-- [4.412 2.123]-l - [ 0.892 -1.382]
-
a 2.123 1.370 -1.382 2.871
Nesse caso, o desvio padrão do parâmetro A é igual a 0.944, enquanto
o desvio padrão do parâmetro B é igual a 1.694, sendo o coeficiente de
correlação igual a -0.864.

Os erros de predição podem ser calculados através da Equação

(4.56):
ˆ = BM −1B T
σˆ y2 = Vy
 0.892 −1.382   x 
σˆ y2 = [x 1]    = 0.892 x 2 − 2.764 x + 2.871
 −1.382 2.871   1 
Resumindo, os parâmetros estimados com cada uma das funções
objetivos testadas foram:
F A B σA σA ρAB
(a) 2.500 -1.000 0.327 1.488 -0.881
(b) 1.600 0.200 1.183 1.983 -0.938
(c) 1.295 0.678 0.944 1.694 -0.864
Na Figura abaixo são apresentados os três ajustes, obtidos para cada

uma das três estimações. Vê-se que os desempenhos podem ser consi-
derados muito distintos.
Figura 6.14 – Ajustes do modelo ao dados experimentais considerando três

funções objetivos distintas: Função (a): linha pontilhada; Função (b): linha
tracejada; Função (c): linha cheia.
Como pode ser observado ao longo deste exercício, cada função

objetivo leva a um resultado distinto. Observe que as três funções ob-
jetivos são definidas a partir da hipótese de que os desvios experimen-
tais seguem a distribuição normal de probabilidades. O que difere uma
função da outra é que a função (a) admite que os desvios experimentais
são independentes e constantes; a função (b) admite que os desvios são
independentes, mas não são constantes; a função (c) considera que os
desvios são dependentes e não são constantes. Assim, mesmo depois de
definir qual é a forma da função de densidade de probabilidades mais

adequada para um certo conjunto de dados experimentais, ainda é ne-

cessária uma caracterização detalhada do comportamento dos desvios
experimentais. Como mostrado neste exemplo, esta caracterização exerce
um grande efeito sobre os resultados obtidos.
Capítulo 5
1. Considere o seguinte modelo não-linear
y = α1 (1 − exp (−α 2 x ))
onde α1 e α2 são os parâmetros a serem estimados a partir do seguinte
conjunto de dados:
xe ye σ2
0.50 7.92 25.00
1.00 18.51 25.00
1.50 20.09 9.00
2.00 18.97 9.00
3.00 26.67 1.00
4.00 29.45 1.00
5.00 32.58 0.25
7.00 34.54 0.25
10.00 34.62 0.01
Para a minimização da função objetivo, utilize algum dos métodos

numéricos propostos ou faça uso de algum pacote comercial disponível.
Considere que as variáveis independentes não estão sujeitas a erros e que
os desvios experimentais nas variáveis dependentes, caracterizados pela
variância fornecida para cada condição experimental, são independentes
e seguem a distribuição normal.
A função objetivo que deve ser utilizada nesse caso é a função de
mínimos quadrados ponderados:
(y − yim )
e 2
NE
FObj = ∑
i
i =1 σ i2
Para executar a minimização, foi utilizado o método do Enxame de
Partículas acoplado com um método de Gauss-Newton (método híbrido),
que utiliza o melhor valor encontrado pelo Enxame de Partículas como
estimativa inicial.
O valor mínimo da função objetivo encontrado foi igual a 6.075 e os
valores estimados dos parâmetros foram: α1 = 34.85 e α2 = 0.5128
A matriz de covariância dos parâmetros, calculada de acordo com a
Equação (4.82), é:

0.01569 0.002157]
va = [ 0.002157 0.0007291
de onde podem ser calculados os desvios padrões dos parâmetros e

o coeficiente de correlação entre eles: σα1 = 0.1253, σα2 = 0.02700,
ρα1α2 = -0.6379
Considerando que os erros paramétricos seguem a distribuição nor-
mal, o intervalo de confiança fica definido como (ver Equação (4.90a),
onde foi usado u = 1.96, que corresponde a um intervalo de confiança
de 95%, de acordo com a distribuição normal):
34.60 < α1 < 35.10 0.4599 < α2 < 0.5657
Pode ser observado que o erro relativo do parâmetro α1 é bem menor
que o do parâmetro α2. Isso acontece porque o parâmetro α1 é muito
influenciado pelos valores experimentais quando x é alto, justamente
onde o erro experimental é pequeno. Fica então clara a influência dos
erros experimentais sobre os valores estimados para os parâmetros.
A qualidade do modelo pode ser verificada, comparando-se o valor
mínimo da função objetivo com o intervalo da distribuição χ2, conforme
descrito na Equação (4.88). Considerando um nível de confiança de 95%
e 7 graus de liberdade, chega-se a:
χ 7,2.5%
2
= 1.69 < FObj = 6.07 < χ 7,97.5%
2
= 16.01
Como o valor mínimo da função objetivo ficou dentro do intervalo
determinado pela distribuição χ2, conclui-se que o ajuste do modelo aos
dados experimentais foi satisfatório.
Na Tabela que contém os dados experimentais podem ser adicionados
os valores previstos pelo modelo e os resíduos:
xe ye σ2 ym ε = ye - ym
0.50 7.92 25.00 7.75 0.17
1.00 18.51 25.00 13.78 4.73
1.50 20.09 9.00 18.48 1.61
2.00 18.97 9.00 22.13 -3.16
3.00 26.67 1.00 27.19 -0.52
4.00 29.45 1.00 30.25 -0.80
5.00 32.58 0.25 32.10 0.48
7.00 34.54 0.25 33.91 0.63
10.00 34.62 0.01 34.72 -0.10
Um teste adicional para avaliar o desempenho do modelo consiste

em verificar se a média dos resíduos é significativamente diferente
de zero, utilizando para isso o teste t. A média e o desvio padrão dos
resíduos calculados a partir dos dados acima são iguais a 0.34 e 2.11,

respectivamente. O intervalo de confiança para o valor médio é então

definido como (Equação (3.17)):
ε − µε
t7,2.5% < < t7,97.5%
sε
N
0.34 − µε
−2.36 < < 2.36
2.11
9
−1.28 < µε < 1.96
Pode ser observado que o intervalo da média contém o valor zero,
de forma que o ajuste pode ser considerado satisfatório.
2. Considere o seguinte conjunto de dados:

xe ye
1.00 1.66
2.00 6.07
3.00 7.55
5.00 9.72
10.00 15.24
15.00 18.79
20.00 19.33
30.00 22.38
40.00 24.27
50.00 25.51
sendo a variância dos desvios experimentais constante e igual a 1.0

em toda a região de experimentação. São propostos dois modelos para
descrever estes dados:
α1 x
M1: y =
α2
M2: y = α1 x
1+ α2 x
onde α1 e α2 são os parâmetros a serem estimados para cada modelo.
Faça a estimação e compare os resultados obtidos por cada modelo. Na
sua opinião, qual é o melhor modelo?
A função objetivo utilizada é a de mínimos quadrados ponderados:
FObj = ∑
NE
(y
e
i −y m 2
i )
i =1 σ i2

Para executar a minimização, foi utilizado o método do Enxame de

Partículas acoplado com um método de Gauss-Newton (método híbrido),
que utiliza o melhor valor encontrado pelo Enxame de Partículas como
estimativa inicial.
Inicialmente são avaliados os resultados com respeito aos parâmetros
estimados. Para os intervalos de confiança dos parâmetros foi conside-
rado um nível de confiança de 95%. Para isso foi utilizada a Equação
(4.90b), onde, ao invés de se utilizar a distribuição normal, é usada a
distribuição t-Student. O valor da variável t calculada para um nível de
confiança de 0.975 com 8 graus de liberdade é igual a 2.31.
Modelo Parâmetro Valor Desvio Limite inferior Limite supe-

Estimado Padrão (95%) rior (95%)
α1 3.079 0.272 2.451 3.707
M1
α2 0.102 0.013 0.072 0.132
α1 5.042 0.387 4.148 5.936
M2
α2 0.432 0.023 0.379 0.485
Observe que todos os parâmetros apresentam intervalos de confian-
ça estreitos, que não contêm o valor zero, o que poderia indicar que os
parâmetros foram bem estimados. Entretanto, ainda falta a análise do
coeficiente de correlação entre os parâmetros. Entre os parâmetros do
modelo 1, o coeficiente de correlação foi igual a 0.978. Entre os parâ-
metros do modelo 2, o coeficiente de correlação foi igual a -0.970. Em
ambos os casos o coeficiente de correlação é muito alto, indicando que
apenas a definição dos intervalos de confiança não é suficiente para a
análise estatística rigorosa dos erros paramétricos. Nas figuras abaixo,
são apresentadas as regiões de confiança dos parâmetros de cada modelo
(utilizando os valores calculados pelo Enxame de Partículas, de acordo
com a Equação (5.40)).
Figura 6.15 – Regiões de confiança dos parâmetros do modelo 1 (esquerda) e

modelo 2 (direita).
Pode ser observado que as regiões de confiança são estreitas e

alongadas, em função da alta correlação existente entre os parâmetros.
Assim, se somente os intervalos de confiança são considerados, uma
grande região do espaço paramétrico será considerada viável, quando
Apêndice A 431
de fato apenas uma pequena faixa estreita é aquela onde os parâmetros

fornecem de fato um bom ajuste. Além disso, a região de confiança do
modelo 2 apresenta uma curvatura, desviando-se da forma elíptica típica,
válida para modelos lineares.
Continuando a análise dos resultados, a qualidade de cada modelo
é verificada comparando-se o valor mínimo da função objetivo com o
intervalo da distribuição χ2, conforme a Equação (4.88). Considerando um
nível de confiança de 95% e com 8 graus de liberdade, conclui-se que:
χ8,2.5%
2
= 2.18 < FObj , M 1 < χ8,97.5%
2
= 17.53
O valor mínimo da função objetivo para o modelo 1 foi igual a 3.98
e está de acordo com o intervalo definido acima. Já o valor mínimo en-
contrado para a função objetivo do modelo 2 foi igual a 26.18, um valor
acima do limite superior, mostrando que este modelo não representa
bem os dados experimentais. Portanto, não parece haver dúvidas de
que o modelo 1 permite melhor representação dos dados experimen-
tais e pode ser considerado como melhor do que o modelo 2 em bases
estatísticas rigorosas.
Abaixo são apresentados os dados experimentais e os valores calcu-
lados por cada um dos modelos:
xe ye ym(M1) ym (M2) ε (M1) ε (M2)
1.00 1.66 2.79 5.04 -1.13 -3.38
2.00 6.07 5.11 6.80 0.96 -0.73
3.00 7.55 7.06 8.10 0.49 -0.55
5.00 9.72 10.18 10.10 -0.46 -0.38
10.00 15.24 15.21 13.62 0.03 1.62
15.00 18.79 18.20 16.23 0.59 2.56
20.00 19.33 20.19 18.38 -0.86 0.95
30.00 22.38 22.67 21.89 -0.29 0.49
40.00 24.27 24.15 24.79 0.12 -0.52
50.00 25.51 25.14 27.29 0.37 -1.78
Calculando-se a média dos resíduos para os modelos 1 e 2, são en-

contrados os valores iguais a -0.018 e -0.172. As variâncias dos resíduos
são iguais a 0.441 e 2.874 para os modelos 1 e 2. Aplicando-se o teste
t, verifica-se que ambas as médias dos resíduos dos dois modelos são
equivalentes a zero. Entretanto, é interessante observar o comportamento
do resíduo como função de x, como mostram as figuras abaixo.

1l
,
II
• ]
.. •
.. ..
~·
·U
.. • ....
·I
~
oi l
• ·l
..
·~ a lro • Jr.
II
- I ,. ]I
%
.. -
Figura 6.16 – Resíduos do modelo 1 (esquerda) e modelo 2 (direita) como
função da condição experimental.
Pode ser observado que os resíduos do modelo 1 se comportam de

forma aparentemente aleatória. Já os resíduos do modelo 2 apresentam
uma certa tendência, já que para valores baixos de x o resíduo é negativo,
aumenta com o aumento de x até um valor máximo, depois voltam a
diminuir. Este comportamento “determinístico” não deveria ser espera-
do, pois mostra que, além dos desvios aleatórios provocados pelos erros
experimentais, existe um erro sistemático que é provocado pelo fato do
modelo não conseguir descrever adequadamente o comportamento dos
dados experimentais, como mostrado pelo teste χ2.
Com os dados acima, é possível calcular o coeficiente de correlação
entre os valores experimentais e calculados por cada modelo, de acordo
com a Equação (4.89). Para o modelo 1, o coeficiente de correlação é igual
a 0.997. Para o modelo 2, o valor encontrado é igual a 0.980. Pode ser
observado que ambos os valores são altos e praticamente iguais, o que
indicaria que ambos os modelos são bons. Entretanto, a análise do ajuste
através do teste χ2 mostrou claramente que o ajuste do modelo 2 não
é satisfatório, enquanto a análise do valor do coeficiente de correlação
mostrou uma diferença muito pequena. Portanto, todas as ferramentas
devem ser usadas simultaneamente para caracterizar a qualidade do
ajuste proposto.
Muitas vezes, a análise é feita apenas com base no coeficiente de
correlação, devido à facilidade da análise. Essa análise pode ser feita
sem o conhecimento das incertezas experimentais, o que não acontece
com o teste χ2, já que nesse caso as variâncias experimentais devem ser
obrigatoriamente conhecidas; caso contrário, a função objetivo não pode
ser interpretada como uma variável com distribuição χ2. Deixando de
lado a facilidade da implementação, o teste χ2 apresenta um potencial
de discriminação muito maior que a análise do coeficiente de correlação,
tendo por isso um papel fundamental na formulação do problema de
planejamento de experimentos, conforme será discutido no Volume II
desta série de publicações.
Apêndice A 433
APÊNDICE A
Tabela A.1 - Distribuição Normal de Probabilidade
P{u ≤ u*} = PAC(u*) =
1 e -(u)Yz du
Ju* J2i
_a
•
u 0.00 0.01 0.02 0.03 0.04
0.0 0.5000 0.5040 0.5080 0.5120 0.5160
0.1 0.5398 0.5438 0.5478 0.5517 0.5557
0.2 0.5793 0.5832 0.5871 0.5910 0.5948
0.3 0.6179 0.6217 0.6255 0.6293 0.6331
0.4 0.6554 0.6591 0.6628 0.6664 0.6700
0.5 0.6915 0.6950 0.6985 0.7019 0.7054
0.6 0.7257 0.7291 0.7324 0.7357 0.7389
0.7 0.7580 0.7611 0.7642 0.7673 0.7704
0.8 0.7881 0.7910 0.7939 0.7967 0.7995
0.9 0.8159 0.8186 0.8212 0.8238 0.8264
1.0 0.8413 0.8438 0.8461 0.8485 0.8508
1.1 0.8643 0.8665 0.8686 0.8708 0.8729
1.2 0.8849 0.8869 0.8888 0.8907 0.8925
1.3 0.9032 0.9049 0.9066 0.9082 0.9099
1.4 0.9192 0.9207 0.9222 0.9236 0.9251
1.5 0.9332 0.9345 0.9357 0.9370 0.9382
1.6 0.9452 0.9463 0.9474 0.9484 0.9495
1.7 0.9554 0.9564 0.9573 0.9582 0.9591
1.8 0.9641 0.9649 0.9656 0.9664 0.9671
1.9 0.9713 0.9719 0.9726 0.9732 0.9738
2.0 0.9772 0.9778 0.9782 0.9788 0.9793
2.1 0.9821 0.9826 0.9830 0.9834 0.9838
2.2 0.9861 0.9864 0.9868 0.9871 0.9875
2.3 0.9893 0.9896 0.9898 0.9901 0.9904
2.4 0.9918 0.9920 0.9922 0.9925 0.9927
2.5 0.9938 0.9940 0.9941 0.9943 0.9945
2.6 0.9953 0.9955 0.9956 0.9957 0.9959
2.7 0.9965 0.9966 0.9967 0.9968 0.9969
2.8 0.9974 0.9975 0.9976 0.9977 0.9977
2.9 0.9981 0.9982 0.9982 0.9983 0.9984
3.0 0.9987 0.9987 0.9987 0.9988 0.9988
3.1 0.9990 0.9991 0.9991 0.9991 0.9992
3.2 0.9993 0.9993 0.9994 0.9994 0.9994
3.3 0.9995 0.9995 0.9995 0.9996 0.9996
3.4 0.9997 0.9997 0.9997 0.9997 0.9997
Pontos percentuais eqüidistantes da distribuição normal
PAC(u) 0.75 0.90 0.95 0.975 0.99
α= 2[1 - PAC(u)] 0.50 0.20 0.10 0.05 0.02
u 0.674 1.282 1.645 1.960 2.326

Tabela A.1 (cont.) - Distribuição Normal de Probabilidade
u 0.05 0.06 0.07 0.08 0.09

0.0 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9394 0.9306 0.9418 0.9429 0.9441
1.6 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9998
Pontos percentuais eqüidistantes da distribuição normal
PAC(u) 0.995 0.999 0.9995 0.99995 0.999995
α= 2[1 - PAC(u)] 0.01 0.002 0.001 0.0001 0.00001
u 2.576 3.090 3.291 3.891 4.417
Apêndice A 435
Tabela A.2 - A Distribuição t
℘ (t )
PAC(t* )
P{t < t*} = PAC(t*) = ℘ (t)dt
0 t* t
PAC(t*)
0.55 0.60 0.65 0.70 0.75 0.80 0.85
v
1 0.158 0.325 0.510 0.727 1.000 1.376 1.963
2 0.142 0.289 0.445 0.617 0.816 1.061 1.386
3 0.137 0.277 0.424 0.584 0.765 0.978 1.250
4 0.134 0.271 0.414 0.569 0.741 0.941 1.190
5 0.132 0.267 0.408 0.559 0.727 0.920 1.156
6 0.131 0.265 0.404 0.533 0.718 0.906 1.134
7 0.130 0.263 0.402 0.549 0.711 0.896 1.119
8 0.130 0.262 0.399 0.546 0.706 0.889 1.108
9 0.129 0.261 0.398 0.543 0.703 0.883 1.100
10 0.129 0.260 0.397 0.542 0.700 0.879 1.093
11 0.129 0.260 0.396 0.540 0.697 0.876 1.088
12 0.128 0.259 0.395 0.539 0.695 0.873 1.083
13 0.128 0.359 0.394 0.538 0.694 0.870 1.079
14 0.128 0.258 0.393 0.537 0.692 0.868 1.076
15 0.128 0.258 0.393 0.536 0.691 0.866 1.074
16 0.128 0.258 0.392 0.535 0.690 0.865 1.071
17 0.128 0.257 0.392 0.534 0.689 0.863 1.069
18 0.127 0.257 0.392 0.534 0.688 0.862 1.067
19 0.127 0.257 0.391 0.533 0.688 0.861 1.066
20 0.127 0.257 0.391 0.533 0.687 0.860 1.064
21 0.127 0.257 0.257 0.532 0.686 0.859 1.063
22 0.127 0.256 0.390 0.532 0.686 0.858 1.061
23 0.127 0.256 0.390 0.532 0.685 0.858 1.060
24 0.127 0.256 0.390 0.531 0.685 0.857 1.059
25 0.127 0.256 0.390 0.531 0.684 0.856 1.058
26 0.127 0.256 0.390 0.531 0.684 0.856 1.058
27 0.127 0.256 0.389 0.531 0.684 0.855 1.057
28 0.127 0.256 0.389 0.530 0.683 0.855 1.056
29 0.127 0.256 0.389 0.530 0.683 0.854 1.055
30 0.127 0.256 0.389 0.530 0.683 0.854 1.055
40 0.126 0.255 0.388 0.529 0.681 0.851 1.050
60 0.126 0.254 0.387 0.527 0.679 0.848 1.046
120 0.126 0.254 0.386 0.526 0.677 0.845 1.041
∞ 0.126 0.253 0.385 0.524 0.674 0.842 1.036

Tabela A.2 (cont.) - A Distribuição t

PAC(t*)
0.90 0.95 0.975 0.99 0.995 0.9995
v
1 3.078 6.314 12.706 31.821 63.657 636.619
2 1.886 2.920 4.303 6.965 9.925 31.598
3 1.638 2.353 3.182 4.541 5.841 12.941
4 1.533 2.132 2.776 3.757 4.604 8.610
5 1.476 2.015 2.571 3.365 4.032 6.859
6 1.440 1.943 2.447 3.143 3.707 5.959
7 1.415 1.895 2.365 2.998 3.499 5.405
8 1.397 1.860 2.306 2.896 3.355 5.041
9 1.383 1.833 2.262 2.821 3.250 4.781
10 1.372 1.812 2.228 2.764 3.169 4.578
11 1.363 1.796 2.201 2.718 3.106 4.437
12 1.356 1.782 2.179 2.681 3.055 4.318
13 1.350 1.771 2.160 2.650 3.012 4.221
14 1.345 1.761 2.145 2.624 2.977 4.140
15 1.341 1.753 2.131 2.602 2.947 4.073
16 1.337 1.746 2.120 2.583 2.291 4.015
17 1.333 1.740 2.110 2.567 2.898 3.965
18 1.330 1.734 2.101 2.552 2.878 3.922
19 1.328 1.729 2.093 2.539 2.861 3.883
20 1.325 1.725 2.086 2.528 2.845 3.850
21 1.323 1.721 2.080 2.518 2.831 3.819
22 1.321 1.717 2.074 2.508 2.819 3.792
23 1.319 1.714 2.069 2.500 2.807 3.767
24 1.318 1.711 2.064 2.492 2.797 3.745
25 1.316 1.708 2.060 2.485 2.787 3.725
26 1.315 1.706 2.056 2.479 2.779 3.707
27 1.314 1.703 2.052 2.473 2.771 3.690
28 1.313 1.701 2.048 2.467 2.763 3.674
29 1.311 1.699 2.045 2.462 2.756 3.659
30 1.310 1.697 2.042 2.457 2.750 3.646
40 1.303 1.684 2.021 2.423 2.704 3.551
60 1.296 1.671 2.000 2.390 2.660 3.460
120 1.289 1.658 1.980 2.358 2.617 3.373
∞ 1.282 1.645 1.960 2.326 2.576 3.291
Apêndice A 437
Tabela A.3 - A Distribuição χ

2
()
℘χ2
PAC ( χ 2 )
0 ÷*2 χ2
PAC(χ *)
2
0.005 0.01 0.02 0.025 0.05 0.10 0.20
v
1 0.00004 0.00016 0.00062 0.00098 0.00393 0.0158 0.0642
2 0.0100 0.0201 0.0404 0.0506 0.103 0.211 0.446
3 0.0717 0.115 0.185 0.216 0.352 0.584 1.005
4 0.207 0.297 0.429 0.484 0.711 1.064 1.649
5 0.412 0.554 0.752 0.831 1.145 1.610 2.343
6 0.676 0.872 1.134 1.237 1.635 2.204 3.070
7 0.989 1.239 1.564 1.690 2.167 2.833 3.822
8 1.344 1.646 2.032 2.180 2.733 3.490 4.594
9 1.735 2.088 2.532 2.700 3.325 4.168 5.380
10 2.156 2.558 3.059 3.247 3.940 4.865 6.179
11 2.603 3.053 3.609 3.816 4.575 5.578 6.989
12 3.074 3.571 4.178 4.404 5.226 6.304 7.807
13 3.565 4.107 4.765 5.009 5.892 7.042 8.634
14 4.075 4.660 5.368 5.629 6.571 7.790 9.467
15 4.601 5.229 5.985 6.262 7.261 8.547 10.307
16 5.142 5.812 6.614 6.908 7.962 9.312 11.152
17 5.697 6.408 7.255 7.564 8.672 10.085 12.002
18 6.265 7.015 7.906 8.231 9.390 10.865 12.857
19 6.844 7.633 8.567 8.907 10.117 11.651 13.716
20 7.434 8.260 9.237 9.591 10.851 12.443 14.578
21 8.034 8.897 9.915 10.283 11.591 13.240 15.445
22 8.643 9.542 10.600 10.982 12.338 14.041 16.314
23 9.260 10.196 11.293 11.689 13.091 14.848 17.187
24 9.886 10.856 11.992 12.401 13.848 15.659 18.062
25 10.520 11.524 12.697 13.120 14.611 16.473 18.940
26 11.160 12.198 13.409 13.844 15.379 17.292 19.820
27 11.808 12.879 14.125 14.573 16.151 18.114 20.703
28 12.461 13.565 14.847 15.308 16.928 18.939 21.588
29 13.121 14.256 15.574 16.047 17.708 19.768 22.475
30 13.787 14.953 16.306 16.791 18.493 20.599 23.364

Tabela A.3 (cont.) - A Distribuição χ

2
PAC(χ *)
2
0.25 0.30 0.50 0.70 0.75 0.80 0.90
v
1 0.102 0.148 0.455 1.074 1.323 1.642 2.706
2 0.575 0.713 1.386 2.408 2.772 3.219 4.605
3 1.213 1.424 2.366 3.665 4.108 4.642 6.251
4 1.923 2.195 3.357 4.878 5.385 5.989 7.779
5 2.675 3.000 4.351 6.044 6.626 7.289 9.236
6 3.455 3.828 5.348 7.231 7.841 8.558 10.645
7 4.255 4.671 6.346 8.383 9.037 9.803 12.017
8 5.071 5.527 7.344 9.524 10.219 11.030 13.362
9 5.899 6.393 8.343 10.656 11.389 12.242 14.684
10 6.737 7.267 9.342 11.781 12.549 13.442 15.987
11 7.584 8.148 10.341 12.899 13.701 14.631 17.275
12 8.438 9.034 11.340 14.011 14.845 15.812 18.549
13 9.299 9.926 12.340 15.119 15.984 16.985 19.812
14 10.165 10.821 13.339 16.222 17.117 18.151 21.064
15 11.037 11.721 14.339 17.322 18.245 19.313 22.307
16 11.912 12.624 15.338 18.418 19.369 20.465 23.542
17 12.792 13.531 16.338 19.511 20.489 21.615 24.769
18 13.675 14.440 17.338 20.601 21.605 22.760 25.989
19 14.562 15.352 18.338 21.689 22.718 23.900 27.204
20 15.452 16.266 19.337 22.775 23.828 25.038 28.412
21 16.344 17.182 20.337 23.858 24.935 26.171 29.615
22 17.240 18.101 21.337 24.939 26.039 27.301 30.813
23 18.137 19.021 22.337 26.018 27.141 28.429 32.007
24 19.037 19.943 23.337 27.096 28.241 29.553 33.196
25 19.939 20.867 24.337 28.172 29.339 30.675 34.382
26 20.843 21.792 25.336 29.246 30.435 31.795 35.563
27 21.749 22.719 26.336 30.319 31.528 32.912 36.741
28 22.657 23.647 27.336 31.391 32.621 34.027 37.916
29 23.567 24.577 28.336 32.461 33.711 35.139 39.087
30 24.478 25.508 29.336 33.530 34.800 36.250 40.256
Apêndice A 439
Tabela A.3 (cont.) - A Distribuição χ

2
PAC(χ *)
2
0.95 0.975 0.98 0.99 0.995 0.999
v
1 3.841 5.024 5.412 6.635 7.879 10.827
2 5.991 7.378 7.824 9.210 10.597 13.815
3 7.815 9.348 9.837 11.345 12.838 16.268
4 9.488 11.143 11.668 13.277 14.860 18.465
5 11.070 12.833 13.388 15.086 16.750 20.517
6 12.592 14.449 15.033 16.812 18.548 22.457
7 14.067 16.013 16.622 18.475 20.278 24.322
8 15.507 17.535 18.168 20.090 21.955 26.125
9 16.919 19.023 19.679 21.666 23.589 27.877
10 18.307 20.483 21.161 23.209 25.188 29.588
11 19.575 21.920 22.618 24.725 26.757 31.264
12 21.026 23.337 24.054 26.217 28.299 32.909
13 22.362 24.736 25.472 27.688 29.819 34.528
14 23.685 26.119 26.873 29.141 31.319 36.123
15 24.996 27.488 28.259 30.578 32.801 37.697
16 36.296 36.845 29.633 32.000 34.267 39.252
17 27.587 30.191 30.995 33.409 35.719 40.790
18 28.869 31.526 32.346 34.805 37.156 42.312
19 30.144 32.852 33.687 36.191 38.582 43.820
20 31.410 34.170 35.020 37.566 39.997 45.315
21 32.671 35.479 36.343 38.932 41.401 46.797
22 33.924 36.781 37.659 40.289 42.796 48.268
23 35.172 38.076 38.968 41.638 44.181 49.728
24 36.145 39.364 40.270 42.980 45.559 51.179
25 37.652 40.647 41.566 44.314 46.928 52.620
26 38.885 41.923 42.856 45.642 48.290 54.052
27 40.113 43.194 44.140 46.963 49.645 55.476
28 41.337 44.461 45.419 48.278 50.993 56.893
29 42.557 45.722 46.693 49.588 52.336 58.302
30 43.773 46.979 47.962 50.892 53.672 59.703

Tabela A.4a - A Distribuição F - PAC (F*) = 0.50
℘(F ) PAC (F)
P{F < F*} = PAc(F*) =
JoF* p(F)dF
0 F* F
v1
1 2 3 4 5 6
v2
1 1.0000 1.5000 1.70923 1.8227 1.8937 1.9422
2 0.66667 1.0000 1.1349 1.2071 1.2519 1.2824
3 0.58506 0.88110 1.0000 1.0632 1.1024 1.1289
4 0.54863 0.82843 0.94053 1.0000 1.0367 1.0617
5 0.52807 0.79877 0.90715 0.96456 1.0000 1.0240
6 0.51489 0.77976 0.88578 0.94191 0.97654 1.0000
7 0.50572 0.76655 0.87094 0.92619 0.96026 0.98334
8 0.49898 0.75683 0.86004 0.91465 0.94831 0.97111
9 0.49382 0.74938 0.85168 0.90580 0.93916 0.96175
10 0.48974 0.74349 0.84508 0.89882 0.93193 0.95436
11 0.48643 0.73872 0.83973 0.89316 0.92608 0.94837
12 0.48370 0.73477 0.83531 0.88848 0.92124 0.94342
13 0.48140 0.73145 0.83159 0.88455 0.91718 0.93927
14 0.47944 0.72863 0.82842 0.88119 0.91371 0.93572
15 0.47775 0.72619 0.82568 0.87830 0.91072 0.93267
16 0.47628 0.72406 0.82330 0.87579 0.90812 0.93001
17 0.47499 0.72219 0.82121 0.87357 0.90583 0.92767
18 0.47384 0.72054 0.81935 0.87161 0.90381 0.92560
19 0.47282 0.71906 0.81770 0.86986 0.90200 0.92375
20 0.47191 0.71773 0.81621 0.86829 0.90038 0.92209
21 0.47108 0.71654 0.81487 0.86688 0.89891 0.92060
22 0.47033 0.71545 0.81365 0.86559 0.89758 0.91924
23 0.46964 0.71446 0.81255 0.86442 0.89637 0.91800
24 0.46902 0.71356 0.81153 0.86335 0.89526 0.91687
25 0.46844 0.71273 0.81060 0.86236 0.89425 0.91583
26 0.46791 0.71196 0.80974 0.86145 0.89331 0.91487
27 0.46743 0.71125 0.80895 0.86061 0.89244 0.91398
28 0.46697 0.71059 0.80821 0.85984 0.89164 0.91316
29 0.46655 0.70998 0.80753 0.85911 0.89089 0.91240
30 0.46616 0.70941 0.80689 0.85844 0.89019 0.91169
40 0.46332 0.70530 0.80228 0.85357 0.88516 0.90654
60 0.46050 0.70122 0.79770 0.84873 0.88017 0.90144
120 0.45771 0.69717 0.79316 0.84393 0.87521 0.89638
∞ 0.45494 0.69315 0.78866 0.83918 0.87029 0.89135
Apêndice A 441
Tabela A.4a (cont.) - A Distribuição F - PAC (F*) = 0.50
v1
7 8 9 10 12 15
v2
1 1.9774 2.0041 2.0250 2.0419 2.0674 2.0931
2 1.3046 1.3213 1.3344 1.3450 1.3610 1.3771
3 1.1482 1.1627 1.1741 1.1833 1.1972 1.2111
4 1.0797 1.0933 1.1040 1.1126 1.1255 1.1386
5 1.0414 1.0545 1.0648 1.0730 1.0855 1.0980
6 1.0169 1.02975 1.0398 1.0478 1.0600 1.0722
7 1.0000 1.0126 1.0224 1.0304 1.0423 1.0543
8 0.98757 1.0000 1.0097 1.0175 1.0293 1.0412
9 0.97805 0.99037 1.0000 1.0077 1.0194 1.0311
10 0.97054 0.98276 0.99232 1.0000 1.0116 1.0232
11 0.96445 0.97660 0.98610 0.00373 1.0052 1.0168
12 0.95943 0.97152 0.98097 0.98856 1.0000 1.0115
13 0.95520 0.96724 0.97665 0.98421 0.99560 1.0071
14 0.95160 0.96360 0.97298 0.98051 0.99186 1.0033
15 0.94850 0.96046 0.96981 0.97732 0.98863 1.0000
16 0.94580 0.95772 0.96705 0.97454 0.98582 0.99716
17 0.94342 0.95532 0.96462 0.97209 0.98334 0.99466
18 0.94132 0.95319 0.96247 0.96993 0.98116 0.99245
19 0.93944 0.95129 0.96056 0.96800 0.97920 0.99047
20 0.93776 0.94959 0.95884 0.96626 0.97746 0.98870
21 0.93624 0.94805 0.95728 0.96470 0.97587 0.98710
22 0.93486 0.94665 0.95588 0.96328 0.97444 0.98565
23 0.93360 0.94538 0.95459 0.96199 0.97313 0.98433
24 0.93245 0.94422 0.95342 0.96081 0.97194 0.98312
25 0.93140 0.94315 0.95234 0.95972 0.97084 0.98201
26 0.93042 0.94217 0.95135 0.95872 0.96983 0.98099
27 0.92952 0.94126 0.95043 0.95779 0.96889 0.98004
28 0.92869 0.94041 0.94958 0.95694 0.96802 0.97917
29 0.92791 0.93963 0.94879 0.95614 0.96722 0.97835
30 0.92719 0.93890 0.94805 0.95540 0.96647 0.97759
40 0.92197 0.93361 0.94272 0.95003 0.96104 0.97211
60 0.91679 0.92837 0.93743 0.94471 0.95566 0.96667
120 0.91165 0.92318 0.93219 0.93943 0.95032 0.96128
∞ 0.90654 0.91802 0.92698 0.93418 0.94503 0.95593

Tabela A.4a (cont.) - A Distribuição F - PAC (F*) = 0.50
v1
20 24 30 40 60 120 ∞
v2
1 2.1190 2.1321 2.1452 2.1584 2.1716 2.1848 2.1981
2 1.3933 1.4014 1.4096 1.4178 1.4261 1.4344 1.4427
3 1.2252 1.2322 1.2393 1.2464 1.2536 1.2608 1.2680
4 1.1517 1.1583 1.1649 1.1716 1.1782 1.1849 1.1916
5 1.1106 1.1170 1.1234 1.1297 1.1361 1.1420 1.1490
6 1.0845 1.0907 1.0969 1.1031 1.1093 1.1156 1.1219
7 1.0664 1.0724 1.0785 1.0846 1.0908 1.0969 1.1031
8 1.0531 1.0591 1.0651 1.0711 1.0771 1.0832 1.0893
9 1.0429 1.0489 1.0548 1.0608 1.0667 1.0727 1.0788
10 1.0349 1.0408 1.0467 1.0526 1.0585 1.0645 1.0705
11 1.0284 1.0343 1.0401 1.0460 1.0519 1.0578 1.0637
12 1.0231 1.0289 1.0347 1.0405 1.0464 1.0523 1.0582
13 1.0186 1.0243 1.0301 1.0360 1.0418 1.0476 1.0535
14 1.0147 1.0205 1.0263 1.0321 1.0379 1.0437 1.0495
15 1.0114 1.0172 1.0229 1.0287 1.0345 1.0403 1.0461
16 1.0086 1.0143 1.0200 1.0258 1.0315 1.0373 1.0431
17 1.0060 1.0117 1.0174 1.0232 1.0289 1.0347 1.0405
18 1.0038 1.0095 1.0152 1.0209 1.0267 1.0324 1.0382
19 1.0018 1.0075 1.0132 1.0189 1.0246 1.0304 1.0361
20 1.0000 1.0057 1.0114 1.0171 1.0228 1.0285 1.0343
21 0.99838 1.0040 1.0097 1.0154 1.0211 1.0268 1.0236
22 0.99692 1.0026 1.0082 1.0139 1.0196 1.0253 1.0311
23 0.99558 1.0012 1.0069 1.0126 1.0183 1.0240 1.0297
24 0.99436 1.0000 1.0057 1.0113 1.0170 1.0227 1.0284
25 0.99324 0.99887 1.0045 1.0102 1.0159 1.0215 1.0273
26 0.99220 0.99783 1.0035 1.0091 1.0148 1.0205 1.0262
27 0.99125 0.99687 1.0025 1.0082 1.0138 1.0195 1.0252
28 0.99036 0.99598 1.0016 1.0073 1.0129 1.0186 1.0243
29 0.98954 0.99515 1.0008 1.0064 1.0121 1.0177 1.0234
30 0.98877 0.99438 1.0000 1.0056 1.0113 1.0170 1.0226
40 0.98323 0.98880 0.99440 1.0000 1.0056 1.0113 1.0169
60 0.97773 0.98328 0.98884 0.99441 1.0000 1.0056 1.0112
120 0.97228 0.97780 0.98333 0.98887 0.99443 1.0000 1.0056
∞ 0.96687 0.97236 0.97787 0.98339 0.98891 0.99445 1.0000
Apêndice A 443
Tabela A.4b - A Distribuição F - PAC (F*) = 0.75
℘(F ) PAC (F)
P{F < F*} = PAc(F*) =

F*
fo ao(F) dF
0 F* F
v1
v2 1 2 3 4 5 6 7
1 5.8284 7.5000 8.1999 8.5809 8.8198 8.9833 9.1021
2 2.5714 3.0000 3.1534 3.2321 3.2799 3.3121 3.3352
3 2.0239 2.2798 2.3556 2.3901 2.4095 2.4218 2.4302
4 1.8074 2.0000 2.0467 2.0642 2.0723 2.0766 2.0790
5 1.6925 1.8528 1.8843 1.8927 1.8947 1.8945 1.8935
6 1.6214 1.7622 1.7844 1.7872 1.7852 1.7821 1.7789
7 1.5732 1.7010 1.7169 1.7157 1.7111 1.7059 1.7011
8 1.5384 1.6569 1.6683 1.6642 1.6575 1.6508 1.6448
9 1.5121 1.6236 1.6315 1.6253 1.6170 1.6091 1.6022
10 1.4915 1.5975 1.6028 1.5949 1.5853 1.5765 1.5688
11 1.4749 1.5767 1.5798 1.5704 1.5598 1.5502 1.5418
12 1.4613 1.5595 1.5609 1.5504 1.5389 1.5286 1.5197
13 1.4500 1.5452 1.5451 1.5336 1.5214 1.5105 1.5011
14 1.4403 1.5331 1.5317 1.5194 1.5066 1.4952 1.4854
15 1.4321 1.5227 1.5202 1.5071 1.4938 1.4820 1.4718
16 1.4249 1.5137 1.5103 1.4965 1.4827 1.4705 1.4601
17 1.4186 1.5057 1.5015 1.4872 1.4730 1.4605 1.4497
18 1.4130 1.4988 1.4938 1.4790 1.4644 1.4516 1.4406
19 1.4081 1.4925 1.4870 1.4717 1.4568 1.4437 1.4325
20 1.4037 1.4870 1.4808 1.4652 1.4500 1.4366 1.4252
21 1.3997 1.4820 1.4753 1.4593 1.4438 1.4302 1.4186
22 1.3961 1.4774 1.4703 1.4540 1.4382 1.4244 1.4126
23 1.3928 1.4733 1.4657 1.4491 1.4331 1.4191 1.4072
24 1.3898 1.4695 1.4615 1.4447 1.4285 1.4143 1.4022
25 1.3870 1.4661 1.4577 1.4406 1.4242 1.4099 1.3977
26 1.3845 1.4629 1.4542 1.4369 1.4203 1.4058 1.3935
27 1.3821 1.4600 1.4510 1.4334 1.4166 1.4021 1.3896
28 1.3800 1.4573 1.4480 1.4302 1.4133 1.3986 1.3860
29 1.3780 1.4547 1.4452 1.4272 1.4102 1.3953 1.3826
30 1.3761 1.4524 1.4426 1.4244 1.4073 1.3923 1.3795
40 1.3626 1.4355 1.4239 1.4045 1.3863 1.3706 1.3571
60 1.3493 1.4188 1.4055 1.3848 1.3657 1.3491 1.3348
120 1.3362 1.4024 1.3873 1.3654 1.3453 1.3278 1.3128
∞ 1.3233 1.3863 1.3694 1.3463 1.3251 1.3068 1.2910

Tabela A.4b (cont.) - A Distribuição F - PAC (F*) = 0.75
v1
8 9 10 12 15 20
v2
1 9.1923 9.2631 9.3202 9.4064 9.4934 9.5813
2 3.3526 3.3661 3.3770 3.3934 3.4098 3.4263
3 2.4364 2.4410 2.4447 2.4500 2.4552 2.4602
4 2.0805 2.0814 2.0820 2.0826 2.0829 2.0828
5 1.8923 1.8911 1.8899 1.8877 1.8851 1.8820
6 1.7760 1.7733 1.7708 1.7668 1.7621 1.7569
7 1.6969 1.6931 1.6898 1.6843 1.6781 1.6712
8 1.6396 1.6350 1.6310 1.6244 1.6170 1.6088
9 1.5961 1.5909 1.5863 1.5788 1.5705 1.5611
10 1.5621 1.5563 1.5513 1.5430 1.5338 1.5235
11 1.5346 1.5284 1.5230 1.5140 1.5041 1.4930
12 1.5120 1.5054 1.4996 1.4902 1.4796 1.4678
13 1.4931 1.4861 1.4801 1.4701 1.4590 1.4465
14 1.4770 1.4697 1.4634 1.4530 1.4414 1.4284
15 1.4631 1.4556 1.4491 1.4383 1.4263 1.4127
16 1.4511 1.4433 1.4366 1.4255 1.4130 1.3990
17 1.4405 1.4325 1.4256 1.4142 1.4014 1.3869
18 1.4311 1.4230 1.4159 1.4042 1.3911 1.3762
19 1.4228 1.4145 1.4073 1.3953 1.3819 1.3665
20 1.4153 1.4069 1.3995 1.3873 1.3736 1.3580
21 1.4086 1.4000 1.3925 1.3801 1.3661 1.3502
22 1.4025 1.3937 1.3861 1.3735 1.3593 1.3431
23 1.3969 1.3880 1.3803 1.3675 1.3531 1.3366
24 1.3918 1.3828 1.3750 1.3621 1.3474 1.3307
25 1.3871 1.3781 1.3701 1.3570 1.3422 1.3252
26 1.3828 1.3736 1.3656 1.3524 1.3374 1.3202
27 1.3788 1.3696 1.3615 1.3481 1.3329 1.3155
28 1.3752 1.3658 1.3576 1.3441 1.3288 1.3112
29 1.3717 1.3623 1.3541 1.3404 1.3249 1.3071
30 1.3685 1.3590 1.3507 1.3369 1.3213 1.3033
40 1.3455 1.3354 1.3266 1.3119 1.2952 1.2758
60 1.3226 1.3119 1.3026 1.2870 1.2691 1.2481
120 1.2999 1.2886 1.2787 1.2621 1.2428 1.2200
∞ 1.2774 1.2654 1.2549 1.2371 1.2163 1.1914
Apêndice A 445
Tabela A.4b (cont.) - A Distribuição F - PAC (F*) = 0.75
v1
24 30 40 60 120 ∞
v2
1 9.6255 9.6698 9.7144 9.7591 9.8041 9.8492
2 3.4345 3.4428 3.4511 3.4594 2.4677 3.4761
3 2.4626 2.4650 2.4674 2.4697 2.4720 2.4742
4 2.0827 2.0825 2.0821 2.0817 2.0812 2.0806
5 1.8802 1.8784 1.8763 1.8742 1.8719 1.8694
6 1.7540 1.7510 1.7477 1.7443 1.7407 1.7368
7 1.6675 1.6635 1.6593 1.6548 1.6502 1.6452
8 1.6043 1.5996 1.5945 1.5892 1.5836 1.5777
9 1.5560 1.5506 1.5450 1.5389 1.5325 1.5257
10 1.5179 1.5119 1.5056 1.4990 1.4919 1.4843
11 1.4869 1.4805 1.4737 1.4664 1.4587 1.4504
12 1.4613 1.4544 1.4471 1.4393 1.4310 1.4221
13 1.4397 1.4324 1.4247 1.4164 1.4075 1.3980
14 1.4212 1.4136 1.4055 1.3967 1.3874 1.3772
15 1.4052 1.3973 1.3888 1.3796 1.3698 1.3591
16 1.3913 1.3830 1.3742 1.3646 1.3543 1.3432
17 1.3790 1.3704 1.3613 1.3514 1.3406 1.3290
18 1.3680 1.3592 1.3497 1.3395 1.3284 1.3162
19 1.3582 1.3492 1.3394 1.3289 1.3174 1.3048
20 1.3494 1.3401 1.3301 1.3193 1.3074 1.2943
21 1.3414 1.3319 1.3217 1.3105 1.2983 1.2848
22 1.3341 1.3245 1.3140 1.3025 1.2900 1.2761
23 1.3275 1.3176 1.3069 1.2952 1.2824 1.2681
24 1.3214 1.3113 1.3004 1.2885 1.2754 1.2607
25 1.3158 1.3056 1.2945 1.2823 1.2698 1.2538
26 1.3106 1.3002 1.2889 1.2765 1.2628 1.2474
27 1.3058 1.2953 1.2838 1.2712 1.2572 1.2414
28 1.3013 1.2906 1.2790 1.2662 1.2519 1.2358
29 1.2971 1.2863 1.2745 1.2615 1.2470 1.2306
30 1.2933 1.2823 1.2703 1.2571 1.2424 1.2256
40 1.2649 1.2529 1.2397 1.2249 1.2080 1.1883
60 1.2361 1.2229 1.2081 1.1912 1.1715 1.1474
120 1.2068 1.1921 1.1752 1.1555 1.1314 1.0987
∞ 1.1767 1.1600 1.1404 1.1164 1.0838 1.0000

Tabela A.4c - A Distribuição F - PAC (F*) = 0.90
℘(F ) PAC (F)
P{F < F*} = PAc(F*) =
JoF* p(F)dF
0 F* F
v1
v2 1 2 3 4 5 6 7
1 39.8635 49.5000 53.5932 55.8330 57.2401 58.2044 58.9060
2 8.5263 9.0000 9.1618 9.2434 9.2926 9.3255 9.3491
3 5.5383 5.4624 5.3908 5.3426 5.3092 5.2847 5.2662
4 4.5448 4.3246 4.1909 4.1072 4.0506 4.0097 3.9790
5 4.0604 3.7797 3.6195 3.5202 3.4530 3.4045 3.3679
6 3.7759 3.4633 3.2888 3.1808 3.1075 3.0546 3.0145
7 3.5894 3.2574 3.0741 2.9605 2.8833 2.8274 2.7849
8 3.4579 3.1131 2.9238 2.8064 2.7264 2.6683 2.6241
9 3.3603 3.0065 2.8129 2.6927 2.6106 2.5509 2.5053
10 3.2850 2.9245 2.7277 2.6053 2.5216 2.4606 2.4140
11 3.2252 2.8595 2.6602 2.5362 2.4512 2.3891 2.3416
12 3.1765 2.8068 2.6055 2.4801 2.3940 2.3310 2.2828
13 3.1362 2.7632 2.5603 2.4337 2.3467 2.2830 2.2341
14 3.1022 2.7265 2.5222 2.3947 2.3069 2.2426 2.1931
15 3.0732 2.6952 2.4898 2.3614 2.2730 2.2081 2.1582
16 3.0481 2.6682 2.4618 2.3327 2.2438 2.1783 2.1280
17 3.0262 2.6446 2.4374 2.3077 2.2183 2.1524 2.1017
18 3.0070 2.6239 2.4160 2.2858 2.1958 2.1296 2.0785
19 2.9899 2.6056 2.3970 2.2663 2.1760 2.1094 2.0580
20 2.9747 2.5893 2.3801 2.2489 2.1582 2.0913 2.0397
21 2.9610 2.5746 2.3649 2.2333 2.1423 2.0751 2.0233
22 2.9486 2.5613 2.3512 2.2193 2.1279 2.0605 2.0084
23 2.9374 2.5493 2.3387 2.2065 2.1149 2.0472 1.9949
24 2.9271 2.5383 2.3274 2.1949 2.1030 2.0351 1.9826
25 2.9177 2.5283 2.3170 2.1842 2.0922 2.0241 1.9714
26 2.9091 2.5191 2.3075 2.1745 2.0822 2.0139 1.9610
27 2.9012 2.5106 2.2987 2.1655 2.0730 2.0045 1.9515
28 2.8938 2.5028 2.2906 2.1571 2.0645 1.9959 1.9427
29 2.8870 2.4955 2.2831 2.1494 2.0566 1.9878 1.9345
30 2.8807 2.4887 2.2761 2.1422 2.0492 1.9803 1.9269
40 2.8354 2.4404 2.2261 2.0909 1.9968 1.9269 1.8725
60 2.7911 2.3933 2.1774 2.0410 1.9457 1.8747 1.8194
120 2.7478 2.3473 2.1300 1.9923 1.8959 1.8238 1.7675
∞ 2.7055 2.3026 2.0838 1.9449 1.8473 1.7741 1.7167
Apêndice A 447
Tabela A.4c (cont.) - A Distribuição F - PAC (F*) = 0.90
v1
v2 8 9 10 12 15 20
1 59.4390 59.8576 60.195 60.705 61.220 61.740
2 9.3668 9.3805 9.3916 9.4081 9.4247 9.4413
3 5.2517 5.2400 5.2304 5.2156 5.2003 5.1845
4 3.9549 3.9357 3.9199 3.8955 3.8689 3.8443
5 3.3393 3.3163 3.2974 3.2682 3.2380 3.2067
6 2.9830 2.9577 2.9369 2.9047 2.8712 2.8363
7 2.7516 2.7247 2.7025 2.6681 26.322 2.5947
8 2.5893 2.5612 2.5380 2.5020 2.4642 2.4246
9 2.4694 2.4403 2.4163 2.3789 2.3396 2.2983
10 2.3772 2.3473 2.3226 2.2841 2.2435 2.2007
11 2.3040 2.2735 2.2482 2.2087 2.1671 2.1230
12 2.2446 2.2135 2.1878 2.1474 2.1049 2.0597
13 2.1953 2.1638 2.1376 2.0966 2.0532 2.0070
14 2.1539 2.1220 2.0954 2.0537 2.0095 1.9625
15 2.1185 2.0862 2.0593 2.0171 1.9722 1.9243
16 2.0880 2.0553 2.0281 1.9854 1.9399 1.8913
17 2.0613 2.0284 2.0009 1.9577 1.9117 1.8624
18 2.0379 2.0047 1.9770 1.9333 1.8868 1.8368
19 2.0171 1.9836 1.9557 1.9117 1.8647 1.8142
20 1.9985 1.9649 1.9367 1.8924 1.8449 1.7938
21 1.9819 1.9480 1.9197 1.8750 1.8272 1.7756
22 1.9668 1.9327 1.9043 1.8593 1.8111 1.7590
23 1.9531 1.9189 1.8903 1.8450 1.7964 1.7439
24 1.9407 1.9063 1.8775 1.8319 1.7831 1.7302
25 1.9292 1.8947 1.8658 1.8200 1.7708 1.7175
26 1.9188 1.8841 1.8550 1.8090 1.7596 1.7059
27 1.9091 1.8743 1.8451 1.7989 1.7492 1.6951
28 1.9001 1.8652 1.8359 1.7895 1.7395 1.6852
29 1.8918 1.8568 1.8274 1.7808 1.7306 1.6759
30 1.8841 1.8490 1.8195 1.7727 1.7223 1.6673
40 1.8289 1.7929 1.7627 1.7146 1.6624 1.6052
60 1.7748 1.7380 1.7070 1.6574 1.6034 1.5435
120 1.7220 1.6842 1.6524 1.6012 1.5450 1.4821
∞ 1.6702 1.6315 1.5987 1.5458 1.4871 1.4206

Tabela A.4c (cont.) - A Distribuição F - PAC (F*) = 0.90
v1
v2 24 30 40 60 120 ∞
1 62.002 62.265 62.529 62.794 63.061 63.328
2 9.4496 9.4539 9.4663 9.4746 9.4829 9.4913
3 5.1764 5.1681 5.1597 5.1512 5.1425 5.1337
4 3.8310 3.8174 3.8036 3.7896 3.7753 3.7607
5 3.1905 3.1741 3.1573 3.1402 3.1228 3.1050
6 2.8183 2.8000 2.7812 2.7620 2.7423 2.7222
7 2.5753 2.5555 2.5351 2.5142 2.4928 2.4708
8 2.4041 2.3830 2.3614 2.3391 2.3162 2.2926
9 2.2768 2.2547 2.2320 2.2085 2.1843 2.1592
10 2.1784 2.1554 2.1317 2.1072 2.0818 2.0554
11 2.1000 2.0762 2.0516 2.0261 1.9997 1.9721
12 2.0360 2.0115 1.9861 1.9597 1.9323 1.9036
13 1.9827 1.9576 1.9315 1.9043 1.8759 1.8462
14 1.9377 1.9119 1.8852 1.8572 1.8280 1.7973
15 1.8990 1.8728 1.8454 1.8168 1.7867 1.7551
16 1.8656 1.8388 1.8108 1.7816 1.7507 1.7182
17 1.8362 1.8090 1.7805 1.7506 1.7191 1.6856
18 1.8103 1.7827 1.7537 1.7232 1.6910 1.6567
19 1.7873 1.7592 1.7298 1.6988 1.6659 1.6308
20 1.7667 1.7382 1.7083 1.6768 1.6433 1.6074
21 1.7481 1.7193 1.6890 1.6569 1.6228 1.5862
22 1.7312 1.7021 1.6714 1.6389 1.6042 1.5668
23 1.7159 1.6864 1.6554 1.6224 1.5871 1.5490
24 1.7019 1.6721 1.6407 1.6073 1.5715 1.5327
25 1.6890 1.6589 1.6272 1.5934 1.5570 1.5176
26 1.6771 1.6468 1.6147 1.5805 1.5437 1.5036
27 1.6662 1.6356 1.6032 1.5686 1.5313 1.4906
28 1.6560 1.6252 1.5925 1.5575 1.5198 1.4784
29 1.6465 1.6155 1.5825 1.5472 1.5090 1.4670
30 1.6377 1.6065 1.5732 1.5376 1.4989 1.4564
40 1.5741 1.5411 1.5056 1.4672 1.4248 1.3769
60 1.5107 1.4755 1.4373 1.3952 1.3476 1.2915
120 1.4472 1.4094 1.3676 1.3203 1.2646 1.1926
∞ 1.3832 1.3419 1.2951 1.2400 1.1686 1.0000
Apêndice A 449
Tabela A.4d - A Distribuição F - PAC (F*) = 0.95
℘(F ) PAC (F)
P{F < F*} = PAc(F*) =

F*
fo p(F)dF
0 F* F
v1
v2 1 2 3 4 5 6 7
1 161.45 199.50 215.71 224.58 230.16 233.99 236.77
2 18.513 19.000 19.164 19.247 19.296 19.330 19.353
3 10.1280 9.5521 9.2766 9.1172 9.0135 8.9406 8.8867
4 7.7086 6.9443 6.5914 6.3882 6.2561 6.1631 6.0942
5 6.6079 5.7861 5.4095 5.1922 5.0503 4.9503 4.8759
6 5.9874 5.1433 4.7571 4.5337 4.3874 4.2839 4.2067
7 5.5914 4.7374 4.3468 4.1203 3.9715 3.8660 3.7870
8 5.3177 4.4590 4.0662 3.8379 3.6875 3.5806 3.5005
9 5.1174 4.2565 3.8625 3.6331 3.4817 3.3738 3.2927
10 4.9646 4.1028 3.7083 3.4780 3.3258 3.2172 3.1355
11 4.8443 3.9823 3.5874 3.3567 3.2039 3.0946 3.0123
12 4.7472 3.8853 3.4903 3.2592 3.1059 2.9961 2.9134
13 4.6672 3.8056 3.4105 3.1791 3.0254 2.9153 2.8321
14 4.6001 3.7389 3.3439 3.1122 2.9582 2.8477 2.7642
15 4.5431 3.6823 3.2874 3.0556 2.9013 2.7905 2.7066
16 4.4940 3.6337 3.2389 3.0069 2.8524 2.7413 2.6572
17 4.4513 3.5915 3.1968 2.9647 2.8100 2.6987 2.6143
18 4.4139 3.5546 3.1599 2.9277 2.7729 2.6613 2.5767
19 4.3807 3.5219 3.1274 2.8951 2.7401 2.6283 2.5435
20 4.3512 3.4928 3.0984 2.8661 2.7109 2.5990 2.5140
21 4.3248 3.4668 3.0725 2.8401 2.6848 2.5727 2.4876
22 4.3009 3.4434 3.0491 2.8167 2.6613 2.5491 2.4638
23 4.2793 3.4221 3.0280 2.7955 2.6400 2.5277 2.4422
24 4.2597 3.4028 3.0088 2.7763 2.6207 2.5082 2.4226
25 4.2417 3.3852 2.9912 2.7587 2.6030 2.4904 2.4047
26 4.2252 3.3690 2.9752 2.7426 2.5868 2.4741 2.3883
27 4.2100 3.3541 2.9604 2.7278 2.5719 2.4591 2.3732
28 4.1960 3.3404 2.9467 2.7141 2.5581 2.4453 2.3593
29 4.1830 3.3277 2.9340 2.7014 2.5454 2.4324 2.3463
30 4.1709 3.3158 2.9223 2.6896 2.5336 2.4205 2.3343
40 4.0847 3.2317 2.8387 2.6060 2.4495 2.3359 2.2490
60 4.0012 3.1504 2.7581 2.5252 2.3683 2.2541 2.1665
120 3.9201 3.0718 2.6802 2.4472 2.2899 2.1750 2.0868
∞ 3.8415 2.9957 2.6049 2.3719 2.2141 2.0986 2.0096

Tabela A.4d (cont.) - A Distribuição F - PAC (F*) = 0.95
v1
v2 8 9 10 12 15 20
1 238.88 240.54 241.88 243.91 245.95 248.01
2 19.371 19.385 19.396 19.413 19.429 19.446
3 8.8452 8.8123 8.7855 8.7446 8.7029 8.6602
4 6.0410 5.9988 5.9644 5.9117 5.8578 5.8025
5 4.8183 4.7725 4.7351 4.6777 4.6188 4.5581
6 4.1468 4.0990 4.0600 3.9999 3.9381 3.8742
7 3.7257 3.6767 3.6365 3.5747 3.5108 3.4445
8 3.4381 3.3881 3.3472 3.2840 3.2184 3.1503
9 3.2296 3.1789 3.1373 3.0729 3.0061 2.9365
10 3.0717 3.0204 2.9782 2.9130 2.8450 2.7740
11 2.9480 2.8962 2.8536 2.7876 2.7186 2.6464
12 2.8486 2.7964 2.7534 2.6866 2.6169 2.5436
13 2.7669 2.7144 2.6710 2.6037 2.5331 2.4589
14 2.6987 2.6458 2.6021 2.5342 2.4630 2.3879
15 2.6408 2.5876 2.5437 2.4753 2.4035 2.3275
16 2.5911 2.5377 2.4935 2.4247 2.3522 2.2756
17 2.5480 2.4943 2.4499 2.3807 2.3077 2.2304
18 2.5102 2.4563 2.4117 2.3421 2.2686 2.1906
19 2.4768 2.4227 2.3779 2.3080 2.2341 2.1555
20 2.4471 2.3928 2.3479 2.2776 2.2033 2.1242
21 2.4205 2.3660 2.3210 2.2504 2.1757 2.0960
22 2.3965 2.3419 2.2967 2.2258 2.1508 2.0707
23 2.3748 2.3201 2.2747 2.2036 2.1282 2.0476
24 2.3551 2.3002 2.2547 2.1834 2.1077 2.0267
25 2.3371 2.2821 2.2365 2.1649 2.0889 2.0075
26 2.3205 2.2655 2.2197 2.1479 2.0716 1.9898
27 2.3053 2.2501 2.2043 2.1323 2.0558 1.9736
28 2.2913 2.2360 2.1900 2.1179 2.0411 1.9586
29 2.2783 2.2229 2.1768 2.1045 2.0275 1.9446
30 2.2662 2.2107 2.1646 2.0921 2.0148 1.9317
40 2.1802 2.1240 2.0772 2.0035 1.9245 1.8389
60 2.0970 2.0401 1.9926 1.9174 1.8364 1.7480
120 2.0164 1.9588 1.9105 1.8337 1.7505 1.6587
∞ 1.9384 1.8799 1.8307 1.7522 1.6664 1.5705
Apêndice A 451
Tabela A.4d (cont.) - A Distribuição F - PAC (F*) = 0.95
v1
v2 24 30 40 60 120 ∞
1 249.05 250.09 251.14 252.20 253.25 254.32
2 19.454 19.462 19.471 19.479 19.487 19.496
3 8.6385 8.6166 8.5944 8.5720 8.5494 8.5265
4 5.7744 5.7459 5.7170 5.6878 5.6581 5.6281
5 4.5272 4.4957 4.4638 4.4314 4.3984 4.3650
6 3.8415 3.8082 3.7743 3.7398 3.7047 3.6688
7 3.4105 3.3758 3.3404 3.3043 3.2674 3.2298
8 3.1152 3.0794 3.0428 3.0053 2.9669 2.9276
9 2.9005 2.8637 2.8259 2.7872 2.7475 2.7067
10 2.7372 2.6996 2.6609 2.6211 2.5801 2.5379
11 2.6090 2.5705 2.5309 2.4901 2.4480 2.4045
12 2.5055 2.4663 2.4259 2.3842 2.3410 2.2962
13 2.4202 2.3803 2.3392 2.2966 2.2524 2.2064
14 2.3487 2.3082 2.2664 2.2230 2.1778 2.1307
15 2.2878 2.2468 2.2043 2.1601 2.1141 2.0658
16 2.2354 2.1938 2.1507 2.1058 1.0589 2.0096
17 2.1898 2.1477 2.1040 2.0584 2.0107 1.9604
18 2.1497 2.1071 2.0629 2.0166 1.9681 1.9168
19 2.1141 2.0712 2.0264 1.9796 1.9302 1.8780
20 2.0825 2.0391 1.9938 1.9464 1.8963 1.8432
21 2.0540 2.0102 1.9645 1.9165 1.8657 1.8117
22 2.0283 1.9842 1.9380 1.8895 1.8380 1.7831
23 2.0050 1.9605 1.9139 1.8649 1.8128 1.7570
24 1.9838 1.9390 1.8920 1.8424 1.7897 1.7331
25 1.9643 1.9192 1.8718 1.8217 1.7684 1.7110
26 1.9464 1.9010 1.8533 1.8027 1.7488 1.6906
27 1.9299 1.8842 1.8361 1.7851 1.7307 1.6717
28 1.9147 1.8687 1.8203 1.7689 1.7138 1.6541
29 1.9005 1.8543 1.8055 1.7537 1.6981 1.6377
30 1.8874 1.8409 1.7918 1.7396 1.6835 1.6223
40 1.7929 1.7444 1.6928 1.6373 1.5766 1.5089
60 1.7001 1.6491 1.5943 1.5343 1.4673 1.3893
120 1.6084 1.5543 1.4952 1.4290 1.3519 1.2539
∞ 1.5173 1.4591 1.3940 1.3180 1.2214 1.0000

Tabela A.4e - A Distribuição F - PAC (F*) = 0.975
℘(F ) PAC (F)
P{F < F*} = PAc(F*) =
JoF* p(F)dF
0 F* F
v1
v2 1 2 3 4 5 6 7
1 647.79 799.50 864.16 899.58 921.85 937.11 948.22
2 38.506 39.000 39.166 39.248 39.298 39.332 39.355
3 17.443 16.044 15.439 15.101 14.885 14.735 14.624
4 12.218 10.649 9.9792 9.6045 9.3645 9.1973 9.0741
5 10.007 8.4336 7.7636 7.3879 7.1464 6.9777 6.8531
6 8.8131 7.2599 6.5988 6.2272 5.9876 5.8198 5.6955
7 8.0727 6.5415 5.8898 5.5226 5.2852 5.1186 4.9949
8 7.5709 6.0595 5.4160 5.0526 4.8173 4.6517 4.5286
9 7.2093 5.7147 5.0781 4.7181 4.4844 4.3197 4.1970
10 6.9367 5.4564 4.8256 4.4683 4.2361 4.0721 3.9498
11 6.7241 5.2559 4.6300 4.2751 4.0440 3.8807 3.7586
12 6.5538 5.0959 4.4742 4.1212 3.8911 3.7283 3.6065
13 6.4143 4.9653 4.3472 3.9959 3.7667 3.6043 3.4827
14 6.2979 4.8567 4.2417 3.8919 3.6634 3.5014 3.3799
15 6.1995 4.7650 4.1528 3.8043 3.5764 3.4147 3.2934
16 6.1151 4.6867 4.0768 3.7294 3.5021 3.3406 3.2194
17 6.0420 4.6189 4.0112 3.6648 3.4379 3.2767 3.1556
18 5.9781 4.5597 3.9539 3.6083 3.3820 3.2209 3.0999
19 5.9216 4.5075 3.9034 3.5587 3.3327 3.1718 3.0509
20 5.8715 4.4613 3.8587 3.5147 3.2891 3.1283 3.0074
21 5.8266 4.4199 3.8188 3.4754 3.2501 3.0895 2.9686
22 5.7863 4.3828 3.7829 3.4401 3.2151 3.0546 2.9338
23 5.7498 4.3492 3.7505 3.4083 3.1835 3.0232 2.9023
24 5.7166 4.3187 3.7211 3.3794 3.1548 2.9946 2.8738
25 5.6864 4.2909 3.6943 3.3530 3.1287 2.9685 2.8478
26 5.6586 4.2655 3.6697 3.3289 3.1048 2.9447 2.8240
27 5.6331 4.2421 3.6472 3.3067 3.0828 2.9228 2.8021
28 5.6096 4.2205 3.6264 3.2863 3.0626 2.9027 2.7820
29 5.5878 4.2006 3.6072 3.2674 3.0438 2.8840 2.7633
30 5.5675 4.1821 3.5894 3.2499 3.0265 2.8667 2.7460
40 5.4239 4.0510 3.4633 3.1261 2.9037 2.7444 2.6238
60 5.2856 3.9253 3.3425 3.0077 2.7863 2.6274 2.5068
120 5.1523 3.8046 3.2269 2.8943 2.6740 2.5154 2.3948
∞ 5.0239 3.6889 3.1161 2.7858 2.5665 2.4082 2.2875
Apêndice A 453
v1
v2 8 9 10 12 15 20
1 956.66 963.28 968.63 976.71 984.87 993.10
2 39.373 39.387 39.398 39.415 39.431 39.448
3 14.540 14.473 14.419 14.337 14.253 14.167
4 8.9796 8.9047 8.8439 8.7512 8.6565 8.5599
5 6.7572 6.6811 6.6192 6.5246 6.4277 6.3285
6 5.5996 5.5234 5.4613 5.3662 5.2687 5.1684
7 4.8993 4.8232 4.7611 4.6658 4.5678 4.4667
8 4.4333 4.3572 4.2951 4.1997 4.1012 3.9995
9 4.1020 4.0260 3.9639 3.8682 3.7694 3.6669
10 3.8549 3.7790 3.7168 3.6209 3.5217 3.4186
11 3.6638 3.5879 3.5257 3.4296 3.3299 3.2261
12 3.5118 3.4358 3.3736 3.2773 3.1772 3.0728
13 3.3880 3.3120 3.2497 3.1532 3.0527 2.9477
14 3.2853 3.2093 3.1469 3.0501 2.9493 2.8437
15 3.1987 3.1227 3.0602 2.9633 2.8621 2.7559
16 3.1248 3.0488 2.9862 2.8890 2.7875 2.6808
17 3.0610 2.9849 2.9222 2.8249 2.7230 2.6158
18 3.0053 2.9291 2.8664 2.7689 2.6667 2.5590
19 2.9563 2.8801 2.8173 2.7196 2.6171 2.5089
20 2.9128 2.8365 2.7737 2.6758 2.5731 2.4645
21 2.8740 2.7977 2.7348 2.6368 2.5338 2.4247
22 2.8392 2.7628 2.6998 2.6017 2.4984 2.3890
23 2.8077 2.7313 2.6682 2.5699 2.4665 2.3567
24 2.7791 2.7027 2.6396 2.5412 2.4374 2.3273
25 2.7531 2.6766 2.6135 2.5149 2.4110 2.3005
26 2.7293 2.6528 2.5895 2.4909 2.3867 2.2759
27 2.7074 2.6309 2.5676 2.4688 2.3644 2.2533
28 2.6872 2.6106 2.5473 2.4484 2.3438 2.3224
29 2.6686 2.5919 2.5286 2.4295 2.3248 2.2131
30 2.6513 2.5746 2.5112 2.4120 2.3072 2.1952
40 2.5289 2.4519 2.3882 2.2882 2.1819 2.0677
60 2.4117 2.3344 2.2702 2.1692 2.0613 1.9445
120 2.2994 2.2217 2.1570 2.0548 1.9450 1.8249
∞ 2.1918 2.1136 2.0483 1.9447 1.8326 1.7085

v1
v2 24 30 40 60 120 ∞
1 997.25 1001.4 1005.6 1009.8 1014.0 1018.3
2 39.456 39.465 39.473 39.481 39.490 39.498
3 14.124 14.081 14.037 13.992 13.947 13.902
4 8.5109 8.4613 8.4111 8.3604 8.3092 8.2573
5 6.2780 6.2269 6.1751 6.1225 6.0693 6.0153
6 5.1172 5.0652 5.0125 4.9589 4.9045 4.8491
7 4.4150 4.3624 4.3089 4.2544 4.1989 4.1423
8 3.9472 3.8940 3.8398 3.7844 3.7279 3.6702
9 3.6142 3.5604 3.5055 3.4493 3.3918 3.3329
10 3.3654 3.3110 3.2554 3.1984 3.1399 3.0798
11 3.1725 3.1176 3.0613 3.0035 2.9441 2.8828
12 3.0187 2.9633 2.9063 2.8478 2.7874 2.7249
13 2.8932 2.8373 2.7797 2.7204 2.6590 2.5955
14 2.7888 2.7324 2.6742 2.6142 2.5519 2.4872
15 2.7006 2.6437 2.5850 2.5242 2.4611 2.3953
16 2.6252 2.5678 2.5085 2.4471 2.3831 2.3163
17 2.5598 2.5021 2.4422 2.3801 2.3153 2.2474
18 2.5027 2.4445 2.3842 2.3214 2.2558 2.1869
19 2.4523 2.3937 2.3329 2.2695 1.2032 2.1333
20 2.4076 2.3486 2.2873 2.2234 2.1562 2.0853
21 2.3675 2.3082 2.2465 2.1819 2.1141 2.0422
22 2.3315 2.2718 2.2097 2.1446 2.0760 2.0032
23 2.2989 2.2389 2.1763 2.1107 2.0415 1.9677
24 2.2693 2.2090 2.1460 2.0799 2.0099 1.9353
25 2.2422 2.1816 2.1183 2.0517 1.9811 1.9055
26 2.2174 2.1565 2.0928 2.0257 1.9545 1.8781
27 2.1946 2.1334 2.0693 2.0018 1.9299 1.8527
28 2.1735 2.1121 2.0477 1.9796 1.9072 1.8291
29 2.1540 2.0923 2.0276 1.9591 1.8861 1.8072
30 2.1359 2.0739 2.0089 1.9400 1.8664 1.7867
40 2.0069 1.9429 1.8752 1.8028 1.7242 1.6371
60 1.8817 1.8152 1.7440 1.6668 1.5810 1.4822
120 1.7597 1.6899 1.6141 1.5299 1.4327 1.3104
∞ 1.6402 1.5660 1.4835 1.3883 1.2684 1.0000
Apêndice A 455
Tabela A.4f - A Distribuição F - PAC (F*) = 0.99
℘(F ) PAC (F)
P{F < F*} = PAc(F*) =

F*
fo p(F)dF
0 F* F
v1
v2 1 2 3 4 5 6 7
1 4052.2 4999.5 5403.4 5624.6 5763.6 5859.0 5928.4
2 98.503 99.000 99.166 99.249 99.299 99.333 99.356
3 34.116 30.817 29.457 28.710 28.237 27.911 27.672
4 21.198 18.000 16.694 15.977 15.522 15.207 14.976
5 16.258 13.274 12.060 11.392 10.967 10.672 10.456
6 13.745 10.925 9.7795 9.1483 8.7459 8.4661 8.2600
7 12.246 9.5466 8.4513 7.8466 7.4604 7.1914 6.9928
8 11.259 8.6491 7.5910 7.0061 6.6318 6.3707 6.1776
9 10.561 8.0215 6.9919 6.4221 6.0569 5.8018 5.6129
10 10.044 7.5594 6.5523 5.9943 5.6363 5.3858 5.2001
11 9.6460 7.2057 6.2167 5.6683 5.3160 5.0692 4.8861
12 9.3302 6.9266 5.9525 5.4120 5.0643 4.8206 4.6395
13 9.0738 6.7010 5.7394 5.2053 4.8616 4.6204 4.4410
14 8.8616 6.5149 5.5639 5.0354 4.6950 4.4558 4.2779
15 8.6831 6.3589 5.4170 4.8932 4.5556 4.3183 4.1415
16 8.5310 6.2262 5.2922 4.7726 4.4374 4.2016 4.0259
17 8.3997 6.1121 5.1850 4.6690 4.3359 4.1015 3.9267
18 8.2854 6.0129 5.0919 4.5790 4.2479 4.0146 3.8406
19 8.1849 5.9259 5.0103 4.5003 4.1708 3.9386 3.7653
20 8.0960 5.8489 4.9382 4.4307 4.1027 3.8714 3.6987
21 8.0166 5.7804 4.8740 4.3688 4.0421 3.8117 3.6396
22 7.9454 5.7190 4.8166 4.3134 3.9880 3.7583 3.5867
23 7.8811 5.6637 4.7649 4.2636 3.9392 3.7102 3.5390
24 7.8229 5.6136 4.7181 4.2184 3.8951 3.6667 3.4959
25 7.7698 5.5680 4.6755 4.1774 3.8550 3.6272 3.4568
26 7.7213 5.5263 4.6366 4.1400 3.8183 3.5911 3.4210
27 7.6767 5.4881 4.6009 4.1056 3.7848 3.5580 3.3882
28 7.6356 5.4529 4.5681 4.0740 3.7539 3.5276 3.3581
29 7.5977 5.4204 4.5378 4.0449 3.7254 3.4995 3.3303
30 7.5625 5.3903 4.5097 4.0179 3.6990 3.4735 3.3045
40 7.3141 5.1785 4.3126 3.8283 3.5138 3.2910 3.1238
60 7.0771 4.9774 4.1259 3.6490 3.3389 3.1187 2.9530
120 6.8509 4.7865 3.9491 3.4795 3.1735 2.9559 2.7918
∞ 6.6349 4.6052 3.7816 3.3192 3.0173 2.8020 2.6393

Tabela A.4f (cont.) - A Distribuição F - PAC (F*) = 0.99
v1
v2 8 9 10 12 15 20
1 5981.1 6022.5 6055.8 6106.3 6157.3 6208.7
2 99.374 99.388 99.399 99.416 99.432 99.449
3 27.489 27.345 27.229 27.052 26.872 26.690
4 14.799 14.659 14.546 14.374 14.198 14.020
5 10.289 10.158 10.051 9.8883 9.7222 9.5527
6 8.1017 7.9761 7.8741 7.7183 7.5590 7.3958
7 6.8400 6.7188 6.6201 6.6591 6.3143 6.1554
8 6.0289 5.9106 5.8143 5.6668 5.5151 5.3591
9 5.4671 5.3511 5.2565 5.1114 4.9621 4.8080
10 5.0567 4.9424 4.8492 4.7059 4.5582 4.4054
11 4.7445 4.6315 4.5393 4.3974 4.2509 4.0990
12 4.4994 4.3875 4.2961 4.1553 4.0096 3.8584
13 4.3021 4.1911 4.1003 3.9603 3.8154 3.6646
14 4.1399 4.0297 3.9394 3.8001 3.6557 3.5052
15 4.0045 3.8948 3.8049 3.6662 3.5222 3.3719
16 3.8896 3.7804 3.6909 3.5527 3.4089 3.2588
17 3.7910 3.6822 3.5931 3.4552 3.3117 3.1615
18 3.7054 3.5971 3.5082 3.3706 3.2273 3.0771
19 3.6305 3.5225 3.4338 3.2965 3.1533 3.0031
20 3.5644 3.4567 3.3682 3.2311 3.0880 2.9377
21 3.5056 3.3981 3.3098 3.1729 3.0299 2.8796
22 3.4530 3.3458 3.2576 3.1209 2.9780 2.8274
23 3.4057 3.2986 3.2106 2.0740 2.9311 2.7805
24 3.3629 3.2560 3.1681 3.0316 2.8887 2.7380
25 3.3239 3.2172 3.1294 2.9931 2.8502 2.6993
26 3.2884 3.1818 3.0941 2.9579 2.8150 2.6640
27 3.2558 3.1494 3.0618 2.9256 2.7827 2.6316
28 3.2259 3.1195 3.0320 2.8959 2.7530 2.6017
29 3.1982 3.0920 3.0045 2.8685 2.7256 2.5742
30 3.1726 3.0665 2.9791 2.8431 2.7002 2.5487
40 2.9930 2.8876 2.8005 2.6648 2.5216 2.3689
60 2.8233 2.7185 2.6318 2.4961 2.3523 2.1978
120 2.6629 2.5586 2.4721 2.3363 2.1915 2.0346
∞ 2.5113 2.4073 2.3209 2.1848 2.0385 1.8783
Apêndice A 457
Tabela A.4f (cont.) - A Distribuição F - PAC (F*) = 0.99
v1
v2 24 30 40 60 120 ∞
1 6234.6 6260.7 6268.8 6313.0 6339.4 6366.0
2 99.458 99.466 99.474 99.483 99.491 99.501
3 26.598 26.505 26.411 26.316 26.221 26.125
4 13.929 13.838 13.745 13.652 13.558 13.463
5 9.4665 9.3793 9.2912 9.2020 9.1118 9.0204
6 7.3127 7.2285 7.1432 7.0568 6.9690 6.8801
7 6.0743 5.9921 5.9084 5.8236 5.7372 5.6495
8 5.2793 5.1981 5.1156 5.0316 4.9460 4.8588
9 4.7290 4.6486 4.5667 4.4831 4.3978 4.3105
10 4.3269 4.2469 4.1653 4.0819 3.9965 3.9090
11 4.0209 3.9411 3.8596 3.7761 3.6904 3.6025
12 3.7805 3.7008 3.6192 3.5355 3.4494 3.3608
13 3.5868 3.5070 3.4253 3.3413 3.2548 3.1654
14 3.4274 3.3476 3.2656 3.1813 3.0942 3.0040
15 3.2940 3.2141 3.1319 3.0471 2.9595 2.8684
16 3.1808 3.1007 3.0182 2.9330 2.8447 2.7528
17 3.0835 3.0032 2.9205 2.8348 2.7459 2.6530
18 2.9990 2.9185 2.8354 2.7493 2.6597 2.5660
19 2.9249 2.8442 2.7608 3.6742 2.5839 2.4893
20 2.8594 2.7785 2.6947 2.6077 2.5168 2.4212
21 2.8011 2.7200 2.6359 2.5484 2.4568 2.3603
22 2.7488 2.6675 2.5831 2.4951 2.4029 2.3055
23 2.7017 2.6202 2.5355 2.4471 2.3542 2.2559
24 2.6591 2.5773 2.4923 2.4035 2.3099 2.2107
25 2.6203 2.5383 2.4530 2.3637 2.2695 2.1694
26 2.5848 2.5026 2.4170 2.3273 2.2325 2.1315
27 2.5522 2.4699 2.3840 2.2938 2.1984 2.0965
28 2.5223 2.4397 2.3535 2.2629 2.1670 2.0642
29 2.4946 2.4118 2.3253 2.2344 2.1378 2.0342
30 2.4689 2.3860 2.2992 2.2079 2.1107 2.0062
40 2.2880 2.2034 2.1142 2.0194 1.9172 1.8047
60 2.1154 2.0285 1.9360 1.8363 1.7263 1.6006
120 1.9500 1.8600 1.7628 1.6557 1.5330 1.3805
∞ 1.7908 1.6964 1.5923 1.4730 1.3246 1.0000

Tabela A.4g - A Distribuição F - PAC (F*) = 0.995
℘(F ) PAC (F)
P{F < F*} = PAc(F*) =
JoF* p(F)dF
0 F* F
v1
v2 1 2 3 4 5 6 7
1 16211 20000. 21615. 22500. 23056. 23437. 23715.
2 198.50 199.00 199.17 199.25 199.30 199.33 199.36
3 55.552 49.799 47.467 46.195 45.392 44.839 44.434
4 31.333 26.284 24.259 23.155 22.456 21.975 21.622
5 22.785 18.314 16.530 15.556 14.940 14.513 14.200
6 18.635 14.544 12.917 12.028 11.464 11.073 10.786
7 16.236 12.404 10.882 10.051 9.5221 9.1553 8.8854
8 14.688 11.042 9.5965 8.8051 8.3018 7.9520 7.6941
9 13.614 10.107 8.7171 7.9559 7.4712 7.1339 6.8849
10 12.827 9.4270 8.0807 7.3428 6.8724 6.5446 6.3025
11 12.226 8.9122 7.6004 6.8809 6.4217 6.1016 5.8648
12 11.754 8.5096 7.2258 6.5211 6.0711 5.7570 5.5245
13 11.374 8.1865 6.9258 6.2335 5.7910 5.4819 5.2529
14 11.060 7.9216 6.6804 5.9984 5.5623 5.2574 5.0313
15 10.798 7.7008 6.4760 5.8029 5.3721 5.0708 4.8473
16 10.576 7.5138 6.3034 5.6378 5.2117 4.9134 4.6920
17 10.384 7.3536 6.1556 5.4967 5.0746 4.7789 4.5594
18 10.218 7.2148 6.0278 5.3746 4.9560 4.6627 4.4448
19 10.073 7.0935 5.9161 5.2681 4.8526 4.5614 4.3448
20 9.9439 6.9865 5.8177 5.1743 4.7616 4.4721 4.2569
21 9.8295 6.8914 5.7304 5.0911 4.6809 4.3931 4.1789
22 9.7271 6.8064 5.6524 5.0168 4.6088 4.3225 4.1094
23 9.6348 6.7300 5.5823 4.9500 4.5441 4.2591 4.0469
24 9.5513 6.6609 5.5190 4.8898 4.4857 4.2019 3.9905
25 9.4753 6.5982 5.4615 4.8351 4.4327 4.1500 3.9394
26 9.4059 6.5409 5.4091 4.7852 4.3844 4.1027 3.8928
27 9.3423 6.4885 5.3611 4.7396 4.3402 4.0594 3.8501
28 9.2838 6.4403 5.3170 4.6977 4.2996 4.0197 3.8110
29 9.2297 6.3958 5.2764 4.6591 4.2622 3.9831 3.7749
30 9.1797 6.3547 5.2388 4.6234 4.2276 3.9492 3.7416
40 8.8279 6.0664 4.9758 4.3738 3.9860 3.7129 3.5088
60 8.4946 5.7950 4.7290 4.1399 3.7599 3.4918 3.2911
120 8.1788 5.5393 4.4972 3.9207 3.5482 3.2849 3.0874
∞ 7.8796 5.2985 4.2795 3.7152 3.3500 3.0914 2.8969
Apêndice A 459
Tabela A.4g (cont.) - A Distribuição F - PAC (F*) = 0.995
v1
v2 8 9 10 12 15 20
1 23925. 24091. 24224. 24426. 24630. 24836.
2 199.37 199.39 199.40 199.42 199.43 199.45
3 44.126 43.882 43.686 43.387 43.085 42.778
4 21.352 21.139 20.967 20.705 20.438 20.167
5 13.961 13.772 13.618 13.385 13.146 12.904
6 10.566 10.392 10.250 10.034 9.8140 9.5888
7 8.6781 8.5138 8.3803 8.1764 7.9678 7.7540
8 7.4959 7.3386 7.2106 7.0149 6.8143 6.6082
9 6.6933 6.5411 6.4172 6.2274 6.0325 5.8318
10 6.1159 5.9676 5.8467 5.6613 5.4707 5.2740
11 5.6821 5.5368 5.4183 5.2363 5.0489 4.8552
12 5.3451 5.2021 5.0855 4.9062 4.7213 4.5299
13 5.0761 4.9351 4.8199 4.6429 4.4600 4.2703
14 4.8566 4.7173 4.6034 4.4281 4.2468 4.0585
15 4.6744 4.5364 4.4235 4.2497 4.0698 3.8826
16 4.5207 4.3838 4.2719 4.0994 3.9205 3.7342
17 4.3894 4.2535 4.1424 3.9709 3.7929 3.6073
18 4.2759 4.1410 4.0305 3.8599 3.6827 3.4977
19 4.1770 4.0428 3.9329 3.7631 3.5866 3.4020
20 4.0900 3.9564 3.8470 3.6779 3.5020 3.3178
21 4.0128 3.8799 3.7709 3.6024 3.4270 3.2431
22 3.9440 3.8116 3.7030 3.5350 3.3600 3.1764
23 3.8822 3.7502 3.6420 3.4745 3.2999 3.1165
24 3.8264 3.6949 3.5870 3.4199 3.2456 3.0624
25 3.7758 3.6447 3.5370 3.3704 3.1963 3.0133
26 3.7297 3.5989 3.4916 3.3252 3.1515 2.9685
27 3.6875 3.5571 3.4499 3.2839 3.1104 2.9275
28 3.6487 3.5186 3.4117 3.2460 3.0727 2.8899
29 3.6131 3.4832 3.3765 3.2110 3.0379 2.8551
30 3.5801 3.4505 3.3440 3.1787 3.0057 2.8230
40 3.3498 3.2220 3.1167 2.9531 2.7811 2.5984
60 3.1344 3.0083 2.9042 2.7419 2.5705 2.3872
120 2.9330 2.8083 2.7052 2.5439 2.3727 2.1881
∞ 2.7445 2.6211 2.5189 2.3584 2.1869 2.0000

Tabela A.4g (cont.) - A Distribuição F - PAC (F*) = 0.995
v1
v2 24 30 40 60 120 ∞
1 24940. 25044. 25148. 25253. 25359. 25464.
2 199.46 199.47 199.47 199.48 199.49 199.50
3 42.622 42.466 42.308 42.149 41.990 41.828
4 20.030 19.892 19.752 19.611 19.468 19.325
5 12.780 12.656 12.530 12.402 12.274 12.144
6 9.4742 9.3582 9.2408 9.1219 9.0015 8.8794
7 7.6450 7.5345 7.4224 7.3088 7.1933 7.0761
8 6.5029 6.3961 6.2875 6.1772 6.0649 5.9506
9 5.7292 5.6248 5.5186 5.4104 5.3001 5.1876
10 5.1732 5.0706 4.9659 4.8592 4.7501 4.6386
11 4.7557 4.6543 4.5508 4.4450 4.3367 4.2256
12 4.4314 4.3309 4.2282 4.1229 4.0149 3.9040
13 4.1726 4.0727 3.9704 3.8655 3.7577 3.6466
14 3.9614 3.8619 3.7600 3.6552 3.5473 3.4359
15 3.7859 3.6867 3.5850 3.4803 3.3722 3.2603
16 3.6378 3.5389 3.4372 3.3324 3.2240 3.1116
17 3.5112 3.4124 3.3108 3.2058 3.0971 2.9840
18 3.4017 3.3030 3.2014 3.0962 2.9871 2.8733
19 3.3062 3.2075 3.1058 3.0004 2.8908 2.7762
20 3.2220 3.1234 3.0215 2.9159 2.8058 2.6905
21 3.1474 3.0488 2.9467 2.8408 2.7302 2.6141
22 3.0807 2.9821 2.8799 2.7736 2.6625 2.5456
23 3.0208 2.9221 2.8197 2.7132 2.6015 2.4838
24 2.9667 2.8679 2.7654 2.6585 2.5463 2.4277
25 2.9176 2.8187 2.7160 2.6088 2.4961 2.3766
26 2.8728 2.7738 2.6709 2.5633 2.4501 2.3298
27 2.8318 2.7327 2.6296 2.5217 2.4079 2.2867
28 2.7941 2.6949 2.5916 2.4834 2.3690 2.2470
29 2.7594 2.6600 2.5565 2.4479 2.3331 2.2102
30 2.7272 2.6278 2.5241 2.4151 2.2998 2.1761
40 2.5020 2.4015 2.2958 2.1838 2.0636 1.9318
60 2.2898 2.1874 2.0789 1.9622 1.8341 1.6886
120 2.0890 1.9840 1.8709 1.7469 1.6055 1.4312
∞ 1.8984 1.7892 1.6693 1.5327 1.3639 1.0116
Apêndice A 461

2007 - Schwaab - Pinto

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

2007 - Schwaab - Pinto

Enviado por

Direitos autorais:

Formatos disponíveis

ser1e

Escola Pilota em Engenharia Quimica

Rio de Janeiro, 2007

Agradecemos a todos os alunos do Programa de Engenharia Química

Agradecemos a Ana Cláudia Ribeiro e a Rachel Rodrigues pelo trabalho

Dedicamos esse livro a nossas mulheres:

© Marcio Schwaab e José Carlos Pinto/E-papers Serviços Editoriais Ltda., 2007.

Projeto gráfico e diagramação

Esta publicação encontra-se à venda no site da

CIP-Brasil. Catalogação na Fonte

19 Princípios Básicos de Estatística

Análise de Dados Experimentais - Volume I 7

120 2.9. A Distribuição Multinomial

127 O Problema Amostral: Inferências e Comparações

201 Estimação de Parâmetros

309 Procedimentos Numéricos para Estimação de

8 Análise de Dados Experimentais - Volume I

370 5.8. A Forma de Apresentação dos Dados Experimentais

379 Soluções dos Exercícios Propostos

Análise de Dados Experimentais - Volume I 9

A história desse livro começa no segundo período de aulas do curso de

Análise de Dados Experimentais - Volume I 11

Engineering Science, 19, 807-818, 1964), ao longo do qual foram coletados

Argumento 1: “Nada substitui o bom senso do experimentador!”

Argumento 2: “Já usei estas técnicas e não alcancei qualquer resul-

12 Análise de Dados Experimentais - Volume I

Nada pode doer mais no crente do que a descrença embasada. Como

Argumento 3: “Tem muita Matemática e eu preciso de algo prático!”

Análise de Dados Experimentais - Volume I 13

ainda não o convence a desenvolver a aplicação sozinho, por que não

14 Análise de Dados Experimentais - Volume I

Para atingir os objetivos propostos, a série “Análise de Dados Expe-

Volume 1: Fundamentos de Estatística e Estimação de Parâmetros.

Volume 2: Planejamento de Experimentos.

Volume 3: Reconciliação de Dados e Controle de Qualidade

Análise de Dados Experimentais - Volume I 15

Análise de Dados Experimentais. I.

Capítulo 1: Princípios Básicos de Estatística

Capítulo 2: Distribuições de Probabilidade

Capítulo 3: O Problema Amostral – Inferências e Comparações

Capítulo 4: Estimação de Parâmetros

16 Análise de Dados Experimentais - Volume I

Capítulo 5: Procedimentos Numéricos para Estimação de Parâmetros

Capítulo 6: Soluções dos Exercícios Propostos

Esperamos conseguir passar a vocês ao longo desses seis capítulos o

Análise de Dados Experimentais - Volume I 17

1.1. A Natureza dos Problemas Cientíﬁcos

Princípios Básicos de Estatística 19

Questão fundamental: Como funciona o tempo?

20 Análise de Dados Experimentais - Volume I

relevantes do problema e se somos capazes de dizer como certos grupos

1.2. Metodologia Cientíﬁca e Experimentação

Princípios Básicos de Estatística 21

ril!:n II n nm·~C' 'o'l!rh~vc-i re1o:VIJ'f'IIC,;,

lJ,;p-cte: o mode lo p.l.fil r~ponder

Figura 1.1 - Esquema Geral do Método Cientíﬁco

O que a Figura 1.1 não acentua, no entanto, são os seguintes pontos:

1.2.1. A natureza cíclica do trabalho cientíﬁco

22 Análise de Dados Experimentais - Volume I

teórica – e nasceu a Teoria da Relatividade. Note que mais de 100 anos

1.2.2. A natureza imparcial do trabalho cientíﬁco

1.2.3. A natureza limitada do trabalho cientíﬁco

Princípios Básicos de Estatística 23