Você está na página 1de 20

Parte 1.

Conceitos Bsicos de Estatstica




Introduo

Lista de smbolos
Bibliografia
Estatstica descritiva
Erros de medidas, preciso e exatido
Representao de dados de processo
Caractersticas de distribuies de dados
Funo Densidade de Probabilidade
Amostra e Populao

Correlao e covarincia
2

Introduo
Os sistemas de instrumentao e de controle de processos industriais viveram um grande
avano nos ltimos vinte anos, como conseqncia da evoluo na microeletrnica e na rea
computacional. Houve um aumento impressionante da quantidade de informaes disponveis
aos operadores de processos qumicos, com a disseminao de instrumentos medidores das
variveis de processo, assim como dos sistemas de transmisso, concentrao e
armazenamento de dados. Atualmente, praticamente todas as instalaes industriais de
processos produtivos so providas desses sistemas. Em instalaes petroqumicas, por
exemplo, comum a existncia de milhares de sensores de vazo, temperatura, nvel e
presso, alm de analisadores de composio em correntes e equipamentos, capazes de
medir em tempo real uma grande quantidade de variveis de interesse. Atualmente os
engenheiros(as) de processo contam com informaes valiosas, com enorme quantidade de
dados de processo, o que possibilita monitorar em detalhes variveis especficas, ou o
desempenho de equipamentos e de determinadas reas de unidades industriais.
A aplicao das tcnicas de estatstica multivariada, nesses casos, pode fornecer informaes
quanto a correlaes entre grupos de variveis, em geral no evidentes em anlises baseadas
em pares de variveis, apenas. Uma vez identificados padres de correlao, essas tcnicas
podem ser aplicadas para identificao de diferentes regimes de operao da unidade, assim
como na deteco de situaes anmalas, erros de medidas em sensores, ou falhas em
unidades. Dados histricos de variveis de processo tm sido usados tambm na otimizao
de condies de operao de unidades industriais.
Este curso apresenta tcnicas de anlise estatstica multivariada adequadas aplicao em
processos da indstria qumica, visando extrair informaes sobre o comportamento de
unidades industriais a partir da explorao de dados de operao, e que constituem a base
para a construo de modelos estatsticos e para a implementao de controles estatsticos em
unidades industriais. Os conceitos apresentados, assim como o treinamento com exerccios
baseados em casos industriais reais, constituem ferramentas de grande valor para a anlise de
processos industriais. O objetivo oferecer um conjunto de mtodos estatsticos adequados
aplicao a casos de interesse, constitundo-se, assim, em complemento da formao de
profissionais de engenharia de processos.
3


Lista de smbolos
E(x) esperana, ou valor esperado, da varivel x
e erro aleatrio; coordenadas em uma base ortogonal aps rotao (Fig. 3.1)
e
j
j-simo componente principal
freq freqncia de amostragem
GL nmero de graus de liberdade
M
t
momento de ordem t de uma distribuio
m nmero de componentes principais selecionados
N nmero total de observaes em uma populao
n nmero total de observaes em uma amostra
P(x) probabilidade acumulada, Eq. 1.11
p nmero de variveis em um sistema multivariado
p(x) funo densidade de probabilidade, Eq. 1.10
Q varivel qualquer em um processo
R matriz (pxp) de correlao das p variveis aleatrias
r
kj
coeficiente de correlao entre as variveis k e j
SD
2
ih
distncia estatstica entre as observaes i e h
SCP
jK
soma dos produtos cruzados das variveis centradas na mdia X
j
e X
k

SS
j
soma dos quadrados da varivel aleatria X
j
SSCP matriz (pxp) da soma dos quadrados e produtos cruzados das p variveis
s
2
desvio padro calculado para uma amostra
w
kj
peso da varivel aleatria x
j
no k-simo componente principal
X
j
varivel aleatria j centrada na mdia
X vetor vertical de variveis aleatrias centradas na mdia, com p linhas,
correspondente a uma dada observao
x varivel aleatria j
x matriz de dados experimentas, com n linhas e p colunas
x(i,k) i-sima observao da k-sima varivel
x
med
mdia de uma varivel calculada para uma amostra

Subscritos:
i refere-se i-sima observao
k refere-se k-sima varivel
j refere-se j-sima varivel, ou ao j-simo componente principal
min, med, max valores mnimo, mediano e mximo de uma varivel
4

Smbolos gregos
erro na medio de uma varivel Q
mdia de uma populao
matriz (pxp) de covarincia das p variveis aleatrias
desvio padro de uma populao
erro sistemtico em uma medida
ngulo de rotao dos eixos de coordenadas (Fig. 3.1)

Bibliografia
BARROS NETO, B., SCARMINIO, I.S., BRUNS, R.E. Como fazer experimentos: pesquisa e
desenvolvimento na indstria. Ed. Unicamp, Campinas, 2001.
BERTHOUEX, P.M., BROWN, L.C. Statistics for environmental engineers. Lewis Publishers,
2
nd
. Ed., New York, 2002.
HAIR J r, J .F., ANDERSON, R.E., TATHAM, R.L., BLACK, W.C. Multivariate data analysis.
Prentice Hall, 5
th.
Ed, Upper Saddle River, 1998.
HIMMELBLAU, D. M. Process analysis by statistical methods. J ohn Wiley & Sons, 1970
J OHNSON, R.A., WICHERN, D.W. Applied multivariate statistical analysis. Prentice Hall, 4
th.

Ed, Upper Saddle River, 1998.
J OLLIFFE, I.T. Principal component analysis. Springer-Verlag, New York, 1986.
SHARMA, S. Applied multivariate techniques. J ohn Wiley & Sons, Inc, New York, 1996.
5


Estatstica descritiva
Neste texto, o resultado de uma medio qualquer em um processo em um dado
instante de tempo ser denominado de observao. Uma dada observao pode ser
constituda por um nico dado experimental, ou, no caso de sistemas com mltiplas variveis,
por um conjunto de valores. Uma observao ser denominada de x(i,k), sendo i o ndice da
observao na srie de observaes (com i variando de 1 a N observaes) e k o ndice da
varivel (com k variando de 1 a P variveis). Por exemplo, supondo que numa unidade
industrial sejam consideradas medidas de vazo, temperatura e pH de uma corrente de
efluente ao longo do tempo. Supondo que se deseje estudar uma srie de 100 medidas ao
longo de um determinado perodo de tempo, ento o nmero de observaes N igual a 100 e
P igual a 3. Um dado qualquer, como, por exemplo, x(20,3) refere-se vigsima observao
da varivel pH, da srie de 100 observaes. A base de dados referente a esse exemplo seria
ento constituda por uma matriz de dados x, com 100 linhas e 3 colunas.

Erros de medidas, preciso e exatido
As medidas de variveis de processo na indstria apresentam normalmente flutuaes,
na forma ilustrada na Figura 1.1, na qual mostrado o grfico de uma srie temporal dos
valores medidos, x, da vazo, Q, em uma corrente de processo. Observam-se tendncias de
longo perodo (ou baixa freqncia) juntamente com flutuaes de amplitudes e freqncias
variveis.
Toda medio tem imperfeies que do origem a um erro no resultado. O erro pode
ser representado como:
+ = Q x
, (1.1)
em que o erro pode ter um componente sistemtico, , tambm chamado bias, e um
componente aleatrio, e

Assim, tem-se:
) ( + + = e Q x
. (1.2)

6

0
1
2
3
4
5
6
0 10 20 30 40 50
tempo (min)
v
a
z

o

(
m
3
/
h
)

Figura 1.1. Exemplo de srie temporal de varivel medida em unidade industrial.

Erros sistemticos (bias) causam desvios persistentes entre o valor medido e o valor
devido de uma varivel, e normalmente so causados por defeitos em metodologia ou
procedimentos de medio, ou por descalibrao de instrumentos. Podem ser eliminados ou
diminuidos pela adoo de correes de procedimentos ou com a calibrao de instrumentos
de medio. A magnitude dos erros sistemticos no pode ser estimada, a menos que se
conhea o valor real da varivel medida.
Erros aleatrios tm origem em variaes temporais, espaciais, estocsticas ou
imprevisveis das grandezas de influncia. No podem ser eliminados, mas seu valor mdio
tende a zero com o aumento do nmero de observaes, e sua variao pode ser quantificada
aplicando-se conceitos estatsticos.

Preciso uma medida do espalhamento de medies repetidas da mesma varivel. O
espalhamento se deve ao erro aleatrio. Medies precisas possuem erros aleatrios
pequenos.

Exatido, ou acurcia a resultante dos dois tipos de erros. Uma medio com boa
exatido possui erro sistemtico zero e erro aleatrio mnimo. A Figura 1.2 ilustra esse
conceito, para um caso de comparao entre 4 medidores de pH, quando o valor real da
varivel 8,0. Somente o medidor D apresenta boa exatido.

7

Medidor Bias Preciso Exatido

alto bom baixo
A ------------------------------
baixo baixo baixo
B ------------------------------
alto baixo baixo
C ------------------------------

zero bom bom
D ------------------------------
7,5 8,0 8,5 9,0

Figura 1.2. Comparao do erro sistemtico (bias), preciso e exatido de 4 medidores de pH
(5 medidas cada) para o valor real da varivel igual a 8,0.

Representao de dados de processo
A primeira etapa na visualizao de dados, a partir das planilhas em que normalmente
so apresentados, a construo de grficos com sries temporais de cada varivel, como
mostrado na Figura 1.1. Cada ponto no grfico da srie temporal representa um valor
armazenado pelo sistema de aquisio de dados, o qual foi ajustado para aquisio de sinal
proveniente do sensor com a freqncia de 1 min
-1
. Em estudos dedicados a caracterizar
oscilaes de variveis de processo, recomendado que a freqncia de amostragem dos
dados seja no mnimo igual a 2.freq
min
, em que freq
min
a freqncia de corte, ou seja, a menor
freqncia que se deseja considerar no estudo. A preparao dos dados pode necessitar de
procedimentos de suavizao (data smoothing), baseados em mdias mveis no tempo, com
segmentos de tempo adequados. A Figura 1.3 ilustra o efeito da suavizao: cada curva
suavizada foi obtida com o valor mdio da varivel em diferentes segmentos de tempo, cada
um deles envolvendo um nmero de pontos, k, diferente. Para um conjunto de n observaes
de uma varivel x, a mdia no tempo para segmentos de k pontos cada obtida pela Eq. 1.3.
( ) ,...,N k,k i
k
k x
i
1 k i j
j x
1
1
+ = =

+ =
(1.3)
Como mostrado na Figura 1.3, o efeito da suavizao eliminar oscilaes de maior
freqncia, mantendo as tendncias de perodos mais longos. O nmero de pontos a ser
includo no clculo da mdia mvel depende do objetivo de cada estudo especfico. O clculo
da mdia pode ser feito com segmentos superpostos ou seqenciais. A superposio de
segmentos diminui a possibilidade de haver descontinuidade nas sries temporais finais
obtidas, como pode ser visto comparando-se as Figuras 1.4 e 1.5.
8

0
50
100
150
200
250
300
350
0 5 10 15 20 25 30
tempo (dias)
c
o
n
c
e
n
t
r
a

o

(
p
p
m
)
Dados originais
mdia mvel (2 dias)
mdia mvel (5 dias)

Figura 1.3. Efeito da suavizao dos dados: as curvas mostram as observaes originais com
medidas dirias de concentrao de um contaminante em uma corrente de efluente, as mdias
mveis de 2 dias e de 5 dias.

0 50 100 150 200 250 300 350 400


tempo (mi nut os)
V
a
z

o
0 50 100 150 200 250 300 350 400
0 50 100 150 200 250 300 350 400
0 50 100 150 200 250 300 350 400
Dados
originais
(freq =1/min)
Mdia mvel
(2 min)
Mdia mvel
(4 min)
Mdia mvel
(10 min)
0 50 100 150 200 250 300 350 400
tempo (mi nut os)
V
a
z

o
0 50 100 150 200 250 300 350 400
0 50 100 150 200 250 300 350 400
0 50 100 150 200 250 300 350 400
Dados
originais
(freq =1/min)
Mdia mvel
(2 min)
Mdia mvel
(4 min)
Mdia mvel
(10 min)
0 50 100 150 200 250 300 350 400
tempo (mi nut os)
V
a
z

o
0 50 100 150 200 250 300 350 400
0 50 100 150 200 250 300 350 400
0 50 100 150 200 250 300 350 400
0 50 100 150 200 250 300 350 400
tempo (mi nut os)
V
a
z

o
0 50 100 150 200 250 300 350 400
tempo (mi nut os)
V
a
z

o
0 50 100 150 200 250 300 350 400 0 50 100 150 200 250 300 350 400
0 50 100 150 200 250 300 350 400 0 50 100 150 200 250 300 350 400
0 50 100 150 200 250 300 350 400
Dados
originais
(freq =1/min)
Mdia mvel
(2 min)
Mdia mvel
(4 min)
Mdia mvel
(10 min)

Figura 1.4. Suavizao dos dados por segmentos de tempo superpostos.
9

0 50 100 150 200 250 300 350 400
tempo (mi nut os)
V
a
z

o
0 50 100 150 200 250 300 350 400
0 50 100 150 200 250 300 350 400
Dados
originais
(freq =1/min)
Segmentos de
4 min
Segmentos de
10 min
0 50 100 150 200 250 300 350 400
tempo (mi nut os)
V
a
z

o
0 50 100 150 200 250 300 350 400
0 50 100 150 200 250 300 350 400
Dados
originais
(freq =1/min)
Segmentos de
4 min
Segmentos de
10 min
0 50 100 150 200 250 300 350 400
tempo (mi nut os)
V
a
z

o
0 50 100 150 200 250 300 350 400
0 50 100 150 200 250 300 350 400
0 50 100 150 200 250 300 350 400
tempo (mi nut os)
V
a
z

o
0 50 100 150 200 250 300 350 400
tempo (mi nut os)
V
a
z

o
0 50 100 150 200 250 300 350 400
0 50 100 150 200 250 300 350 400
0 50 100 150 200 250 300 350 400
0 50 100 150 200 250 300 350 400
Dados
originais
(freq =1/min)
Segmentos de
4 min
Segmentos de
10 min

Figura 1.5. Suavizao dos dados por segmentos de tempo seqenciais.

Uma forma usual de representar sries de dados por meio de grficos de freqncia,
denominados de histogramas. Na Figura 1.6, um conjunto de 27 medies de concentrao,
apresentadas na tabela, so dispostas em um grfico e seus valores classificados por classe
de concentrao, gerando um histograma na forma clssica, com grfico de barras, em que a
altura de cada barra corresponde ao nmero de observaes em cada classe (ou intervalo) de
valores. A base de cada barra cobre o intervalo de valores de cada classe. O histograma pode
ser expresso na forma de freqncia relativa, ou seja, o nmero de observaes em cada
classe dividido pelo total de observaes (n). Histogramas possibilitam uma estimativa inicial do
valor dominante em um conjunto de dados (aquele com maior freqncia de ocorrncia), bem
como visualizar o grau de disperso dos dados em torno do valor dominante e observar se a
simetria da distribuio. Alm disso, podem ser identificadas observaes situadas fora da
distribuio, ou seja, dados anmalos (conhecidos como outliers).

Distribuies de dados
Dados de processo so caracterizados a partir de parmetros das suas distribuies.
Os parmetros mais utilizados para caracterizar uma populao so a mdia e a varincia. A
mdia, , tambm denominada valor esperado, ou esperana de x, E(x), para uma populao
com N observaes, dada por:
( )

=
= =
N
i
i
x
N
x E
1
1

(1.4)
10

A varincia,
2
, expressa a disperso dos dados em relao mdia:

=
N
i
i x
N
1
2
2
) (
1
1

(1.5)

9,2 6,5 8,5 10,1 8,0 4,8 6,7 8,7 9,6 7,7 5,2 8,9 7,8 6,9
7,9 8,1 7,6 5,4 9,4 6,1 7,5 7,2 8,3 7,3 5,6 6,3 7,4
27 26 25 24 23 22 21 20 19 18 17 16 15
14 13 12 11 10 9 8 7 6 5 4 3 2 1

Dados originais (27 medidas de concentrao)

4.0
5.0
6.0
7.0
8.0
9.0
10.0
11.0
12.0
0 5 10 15 20 25 30
ordem
c
o
n
c
e
n
t
r
a

o

Representao e classificao dos dados
0
1
2
3
4
5
6
7
8
9
10
4.0 5.0 6.0 7.0 8.0 9.0 10.0 11.0 12.0
Concent rao
N

m
e
r
o

d
e

o
c
o
r
r

n
c
i
a
s

(
F
r
e
q

n
c
i
a
)

Figura 1.6. Seqncia para obteno de histogramas de dados.

11

A diviso por (N 1) deve-se ao nmero de graus de liberdade, GL, associados ao
clculo da varincia, ou seja, o nmero de informaes necessrias para que a Eq. 1.5 fique
determinada. Para o clculo da mdia, so necessrias as N observaes (GL = N); para o
clculo da varincia, so necessrias N 1 observaes e a mdia (pois com N 1
observaes e a mdia calcula-se a N-sima observao). A varincia tem valor positivo ou
nulo. A disperso normalmente representada pela raiz quadrada da varincia, ou seja, o
desvio padro, :
1
) (
1
2

=

=
N
N
i
i x

(1.6)

Outras caractersticas de populaes de dados utilizadas comumente so:
Moda, ou valor dominante: valor da varivel correspondente ao maior valor na
distribuio de freqncias de ocorrncia, o que corresponde ao mximo no histograma.
Mediana: valor que divide uma populao de observaes, quando estas so
ordenadas.

Exemplo: considerando a seguinte populao com 9 dados, ordenados em ordem crescente:
dados: 22 24 24 25 27 30 31 35 40; as propriedades dessa populao so:
mdia: =28,7; desvio padro: =5,9; mediana: x
med
=27;
considerando que seja includo um dado a mais, ficando a populao com 10 dados:
dados: 22 24 24 25 27 30 31 35 40 42; as propriedades so:
=30; =7; x
med
=28,5;
substituindo-se o ltimo dado, 42, por um valor bem maior, por exemplo 85, a populao
fica:
dados: 22 24 24 25 27 30 31 35 40 85; as propriedades so:
=34,3; =18,7; x
med
=28,5.

Nesse exemplo, ao ser adicionado um dado a mais populao (de 9 para 10), todos
os parmetros foram afetados. Ao ser substitudo um dos dados (42) por outro de valor
consideravelmente maior (85), tanto a mdia quanto o desvio padro foram afetados (este
muito mais, pois a disperso da distribuio aumentou muito). No entanto, no houve alterao
na mediana. Esta uma propriedade importante da mediana: pouco sensvel a variaes nos
valores extremos dos dados de uma populao, o que o torna menos suscetvel a alteraes
em casos de presena de dados anmalos.
H outros parmetros para caracterizar uma populao de dados, que so utilizados em
aplicaes especficas, como o coeficiente de variao, quartis, percentis etc, cuja definio
12

pode ser encontrada em livros de estatstica. Podem-se representar graficamente distribuies
de observaes na forma de caixa e alongamentos (box and whiskers), como mostrado na
Fig. 1.7. O grfico possibilita visualizar rapidamente caractersticas importantes de uma
populao de observaes. Comeando pela caixa, que cobre 50% dos dados, com limites no
quartil referente aos 25% menores valores das observaes e no quartil correspondente aos
75% menores valores. Um quartil corresponde a uma quarta parte das observaes, dispostas
em ordem crescente de valor. Os segmentos, ou alongamentos (whiskers), cobrem toda a
faixa de valores das observae da varivel (de x
min
a x
max
). Novos valores medidos, que se
situem fora da faixa, so considerados anmalos, podendo corresponder a medidas erradas,
por exemplo. No grfico, indicada a mediana, que divide a populao em duas partes iguais e
d uma idia inicial sobre a simetria da distribuio dos dados.

Mediana
(P =0,50)
Quartil 25%
(P =0,25)
Quartil 75%
(P =0,75)
box
(50% dos dados)
whiskers
cobrem os extremos da distribuio
outlier


Figura 1.7. Representao de distribuio de dados na forma de box e whiskers.


Funo Densidade de Probabilidade
Seja P(x) a probabilidade de ocorrncia de um dado valor da varivel aleatria x,
pertencente a uma populao. Ento, das propriedades de probabilidade, sabe-se que:
( ) 1
1
=

=
N
i
i
x P
(1.7)
Se x for uma varivel contnua, ento a probabilidade existe para qualquer valor de x dentro do
domnio da varivel e pode-se expressar a Eq. 1.7 na forma integral:
( ) 1 =

x
x dP
(1.8)
13

Definem-se as funes probabilidade acumulada, P(x), de ocorrncia de um dado valor menor
ou igual a x e a funo densidade de probabilidade, p(x), da seguinte forma (Figura 1.8):
( ) ( ),


=
x
x dP x P

( ) 1 0 x P
(1.9)
( )
dx
dP
x p =
(1.10)
sendo, ento:
( ) ( )dx x p x P
x


=
(1.11)
Portanto,
( ) ( ) 1 = =


dx x p P
(1.12)

x
p(x)
rea =1
1
P(x)
0,5
x
mediano

Figura 1.8. Aspecto tpico e propriedades das funes P(x) e p(x).

Pode-se, ento, expressar a mdia, , de uma varivel x contnua, como:
( ) ( )



= = x dP x dx x p x . .
(1.13)

Graficamente, a mdia representa a rea indicada na Figura 1.9.

14

P(x)
x
rea total =mdia dex
1

Figura 1.9. Representao grfica da mdia, x .

A varincia expressa como:
( ) ( )


= dx x p x
2
2

(1.14)
A varincia chamada de momento de ordem 2 de x em torno da mdia, expressando
assim uma medida da disperso quadrtica dos dados em torno da mdia. De modo geral,
define-se um momento de ordem t de uma distribuio de valores de x como:
( )


= dx x p x M
t
t (1.15)
Os momentos so importantes para uma srie de clculos associados a processos
qumicos, relacionados a propriedades de distribuies de dados, assim como na engenharia
de processo que trata de distribuies em populaes, como em processos industriais de
polimerizao, cristalizao, e no estudo de escoamento de fluidos em vasos de processo.

Tipos comuns de distribuies


Quando se trabalha com variveis aleatrias, ou seja, cujo valor afetado por fatores
no controlados, necessrio incorporar nos clculos a probabilidade de uma varivel assumir
um determinado valor. As ferramentas disponveis para estimativa de intervalos para valores de
variveis e parmetros de distribuies baseiam-se em formas tpicas para algumas situaes
caractersticas. Para variveis binrias, por exemplo, como na contagem de falhas em sistemas
de instrumentao em uma indstria, ou de falhas na qualidade de um produto, comum o uso
de funes de distribuio binomial, ou de distribuio geomtrica. Nos casos em que eventos
devem ser classificados em duas ou mais categorias, utiliza-se a distribuio multinomial. Para
contagens de tempo entre eventos em um dado processo, ou de freqncias de falhas em um
sistema qualquer, por exemplo, utiliza-se a distribuio de Poisson. Expresses matemticas
para essas funes possibilitam o clculo de probabilidades de nmeros de falhas, ou de
15

distribuio de perodos de tempos entre falhas, por exemplo. Descries e aplicaes dessas
distribuies so apresentadas em livros sobre estatstica. As variveis com as quais
engenheiros de processo normalmente se ocupam so variveis contnuas (como vazes,
composies, presso, ou temperatura), coletadas na forma de sries temporais, e o interesse
obterem-se informaes sobre a unidade industrial baseadas na distribuio de valores
dessas variveis ao longo do tempo. Os valores de variveis aleatrias contnuas apresentam
curvas de distribuies na forma de sinos, sendo a mais comum a distribuio normal.
A distribuio normal baseada no fato de que as medidas de uma varivel aleatria
qualquer so afetadas por um conjunto de flutuaes de muitos fatores independentes. Com
essa hiptese, o teorema do limite central prev que os valores da varivel tm distribuio da
funo densidade de probabilidade segundo uma funo gaussiana, ou normal.

Teorema do limite central
Se a flutuao total no valor de uma varivel aleatria for o resultado da soma das
flutuaes de muitas variveis independentes e de importncia aproximadamente igual, ento a
distribuio de valores tender para a distribuio normal, no importando a natureza das
distribuies das variveis individuais. O exemplo clssico o jogo de dados. A distribuio de
probabilidades para o lanamento de um dado no viciado por um grande nmero de vezes
mostrada na Figura 1.10a: os valores possveis so os inteiros de 1 a 6, com probabilidades
iguais. Porm, se forem anotados os valores mdios de muitos lanamentos de, por exemplo, 5
dados (ou as mdias de cada 5 lanamentos de um mesmo dado), ento h 5 eventos
independentes, com igual probabilidade, contribuindo para o valor da mdia. O resultado da
distribuio da mdia mostrado na Figura 1.10b. medida que aumenta o nmero de dados
que compem a mdia, a distribuio tende a uma curva em forma de sino. Por exemplo, a
Figura 1.10c mostra a distribuio da mdia de 10 lanamentos de dados.
16

1 2 3 4 5 6
1 2 3 4 5 6
1 2 3 4 5 6

Figura 1.10. Distribuio de probabilidades da mdia do lanamento de 1 (a), 5 (b) e 10 (c)
dados no viciados (Barros Neto et al, 2001).

A distribuio normal, ou distribuio gaussiana, de uma populao com mdia e
desvio padro tem funo densidade de probabilidade expressa na forma da Eq. 1.14.
( )
( )
2
2
2
2
1



=
x
e x p
(1.14)
A Figura 1.11 apresenta um grfico dessa funo, para o caso em que =0 e =1.
0
0.1
0.2
0.3
0.4
0.5
-4 -3 -2 -1 0 1 2 3 4
x
p
(
x
)

Figura 1.11. Distribuio normal da funo densidade de probabilidade para uma varivel
aleatria x, com =0 e =1.

a
b
c
17

Algumas propriedades importantes da distribuio normal:
1) A rea sob a curva corresponde probabilidade. A rea total, portanto, vale 1.
2) A curva simtrica em relao mdia e em forma de sino.
3) A probabilidade do valor da varivel estar no intervalo entre a mdia e de
68,26%; a probabilidade da medida estar no intervalo entre a mdia e 3 de
99,73%.
Portanto, praticamente todos os dados esto contidos no intervalo entre a mdia e 3.
As probabilidades so calculadas aplicando-se a Eq. 1.11. Por exemplo, a probabilidade de
que ( ) ( ) + = + < < P P x .

Amostra e Populao
Uma populao com N elementos constitui o conjunto completo de observaes de uma
varivel. Uma amostra um subconjunto da populao, com n observaes. Supe-se que
uma populao seja um grande conjunto de N observaes, do qual so retiradas amostras.
Uma amostra representativa tem as mesmas caractersticas da populao da qual a amostra
foi retirada. As caractersticas de uma populao podem ser estimadas a partir de
caractersticas da distribuio de valores na amostra. A mdia, x
med
, e a varincia, s
2
, de uma
amostra com n observaes so expressas como:

=
=
n
i
i med
x
n
x
1
1
(1.15)
( )
1
1
2
2

=

=
n
x x
s
n
i
med i
(1.16)
Para amostras contendo n observaes cada, extradas aleatoriamente e
independentemente de uma populao com distribuio normal com mdia e varincia
2
,
pode-se demonstrar que:
As mdias amostrais x
med
tm distribuio normal, com mdia e varincia igual a:
n
s
2
2

=
(1.17)
ou seja, medida que o nmero de observaes na amostra aumenta, a varincia da
distribuio da mdia x
med
tende a 0.
Normalmente as estimativas de parmetros da distribuio de uma populao so feitas
utilizando-se variveis como a varivel aleatria t, que segue a distribuio de Student, com n
1 graus de liberdade e definida como:
18

n
s
x
t
med

=
(1.18)
A varincia da amostra, s
2
, tem distribuio de valores definida pela varivel aleatria

2
, que segue a distribuio qui quadrado, com n 1 graus de liberdade, definida como:
( )
2
2
2
1

s
n = (1.19)
Detalhes a respeito das dedues e uso dessas variveis, bem como os valores das
curvas de distribuio para diferentes valores de GL podem ser vistas em livros texto sobre
estatstica.

Intervalos de confiana
As variveis t e
2
so importantes na estimativa de intervalos de confiana para a
mdia e a varincia populacionais a partir das caractersticas de uma amostra. Com base nas
definies das Eqs. 1.18 e 1.19, os intervalos de confiana so definidos, para a mdia e
varincia, como:
( ) ( )
n
s
t x
n
s
t x
n med n med


+ < <
1 , 1 1 , 1 (1.20)
( )
( )
( )
( )
2
, 1
2
2
2
1 , 1
2
1 1


< <
n n
s
n
s
n
. (1.21)
Nas Eqs. 1.20 e 1.21, o subscrito (n 1) refere-se ao nmero de graus de liberdade
envolvido nos clculos; o subscrito (1 - ) refere-se ao grau de significncia adotado no clculo
do intervalo. O termo o grau de confiana, ou seja, a probabilidade de que a caracterstica
estimada da populao (mdia na Eq. 1.20, varincia na Eq. 1.21) tenha valor dentro do
intervalo. Na maioria dos casos adota-se = 0,95, ou seja, a probabilidade de que a
caracterstica da populao tenha valor maior ou menor que o intervalo de 2,5% (no total,
portanto, a probabilidade de erro na estimativa do intervalo de 5%, igual a 1 - ). Livros-texto
de estatstica (por exemplo, Barros Neto et al, 2001) apresentam tabelas com valores de t e
2

para diferentes valores de GL e . Para amostras com nmero de observaes n maior que 30,
os valores de t e
2
tm variaes muito pequenas. As variveis aleatrias t e
2
so utilizadas
freqentemente em testes de hipteses, para comparaes entre mdias e varincias de
diferentes amostras.


19

Procedimento para estimar intervalo de confiana para a mdia de uma populao, a
partir de uma amostra com n observaes
Passo 1: definir o nvel de confiana, (p. ex. 95%);
Passo 2: determinar a soluo t da equao: ( ) ( ) + = 1
2
1
t F , usando uma tabela de
distribuio de t de Student para n 1 graus de liberdade (n =nmero de observaes);
Passo 3: calcular a mdia x
med
e a varincia s
2
da amostra;
Passo 4: calcular
n
s
t ;
O intervalo de confiana :
n
s
t x
n
s
t x
n med n med 1 1
+ < <



Procedimento para estimar intervalo de confiana para a varincia
2
de uma populao,
a partir de uma amostra com n observaes
Passo 1: definir o nvel de confiana, (p. ex. 95%);
Passo 2: determinar as solues
2
1
e
2
2


das equaes: ( ) ( ) = 1
2
1
2
1
F e
( ) ( ) + = 1
2
1
2
2
F , usando uma tabela de distribuio de qui-quadrado para n 1 graus de
liberdade (n =nmero de observaes);
Passo 3: calcular ( )
2
1
2
1

s
n ; ( )
2
2
2
1

s
n , em que s
2
a varincia da amostra;
O intervalo de confiana :
( ) ( )
2
1
2
2
2
2
2
1 1

s
n
s
n < <



Tamanho mnimo de uma amostra
Podem-se utilizar os mesmos conceitos para determinar o nmero mnimo de
observaes que devem estar contidas em uma amostra, n, para que o desvio entre a mdia
da amostra, x
med
, e a mdia da populao, , seja menor que uma dada tolerncia, , com um
grau de confiana . Neste caso, necessrio conhecer o valor de s
2
, o que pode ser feito a
partir de dados histricos de amostras da varivel x, com um nmero de observaes
conhecido.
20


O tamanho da amostra pode ser determinado, para =(x
med
- ), por:
2
,
.

s t
n
GL
. (1.22)

Na Eq. 1.22, GL o nmero de graus de liberdade utilizado par calcular s, o desvio
padro de uma amostra anteriormente conhecida da varivel. Pode-se utilizar, para o valor da
varivel t, tanto o valor , quanto 1 - , porque a distribuio de t simtrica.