Você está na página 1de 12

1

1
CONCEITOS BSICOS E PRINCPIOS DE ESTATSTICA
1. Conceitos Bsicos de Probabilidade
Varivel aleatria: um nmero (ou vetor) determinado por uma resposta, isto , uma
funo definida em pontos do espao amostral. Uma varivel aleatria pode ser discreta (como no
lanamento de um dado) ou contnua (como na medio de temperatura).
Valor esperado (expectativa,significado): a mdia ponderada dos possveis valores de
X, cada valor ponderado por sua probabilidade. representada por E(X) ou
x
, sendo definida
por
E(X) = x
1
f(x
1
) + x
2
f(x
2
) +...+ x
n
f(x
n
)
E(X) =
i
x
i
P(X = x
i
), para i=1, 2, ..., n.
Varincia: uma medida da disperso de X. representada por Var(X) e por
2
e
definida por
( ) ( ) ( ) ( )
[ ]
( ) ( )
Var X x f x E X ou
Var X E X
i i
x


2 2
2 2
Desvio padro: a raiz quadrada no-negativa da varincia. representado por .
Varivel aleatria padronizada: seja x a varivel aleatria com significado e desvio
padro . A varivel aleatria padronizada (z), que corresponde x definida por ( ) z x .
Uma varivel padronizada tem valor esperado igual a 0 e varincia igual a 1 (desvio padro igual a
1).
Teste amostral simples: constitui-se de uma sucesso de leituras tomadas sob condies
idnticas (mesmo observador e mesmo instrumento de medio), exceto o tempo.
Teste multiamostral: ocorre quando so feitas medies repetidas de uma quantidade,
utilizando diferentes instrumentos de medio e diferentes observadores. As trocas, tanto de
observador como de instrumento, causam mudanas na distribuio dos erros e, consequentemente,
tem-se um conjunto de variveis aleatrias.
Distribuio multivariada: a distribuio conjunta de duas ou mais variveis aleatrias
definidas no mesmo espao amostral, prpria de um teste multiamostral. Um exemplo a
distribuio associada com a observao simultnea de temperatura, presso, direo e velocidade
do vento. A funo distribuio de uma distribuio bivariada :
P(X x,Y y) e , usualmente, simbolizada por ( ) F x y
X Y ,
,
2
2
Valor verdadeiro de uma varivel: aquele que seria obtido na medio se no houvesse
caracterstica estocstica (aleatria) associada com a medio.
Erro aleatrio: um erro que representa a diferena entre o valor medido da varivel
aleatria e seu valor verdadeiro.
Erro sistemtico: um erro introduzido continuamente, devido, por exemplo, a erro de
calibrao, desvios instrumentais, erro de tcnica e, tambm, devido representao inadequada de
um processo (como a no-considerao da ocorrncia de vazamentos, depsitos).
Variveis aleatrias independentes: um nmero finito de variveis aleatrias X, Y,..., Z,
num espao amostral definido, so consideradas independentes se:
( ) ( ) ( ) ( )
k j i k j i
z Z P ... y Y P x X P z Z ,..., y Y , x X P
para quaisquer valores de x y z
i j k
, ,..., . Elas tm as seguintes propriedades:
i)E(XY) = E(X) E(Y)
ii)Var(X+Y) = Var(X) + Var(Y)
iii)Cov(X,Y) = 0
onde Cov(X,Y) = covarincia.
Covarincia: o conceito que relaciona duas variveis aleatrias, X e Y, definidas num
mesmo espao amostral, representada por Cov(X,Y). definida por
( ) ( )( )
[ ]
Cov X Y E X Y
x y
,
ou equivalentemente,
( ) ( ) Cov X Y E XY
x y
,
Coeficiente de correlao: fornece a correlao entre duas variveis aleatrias, X e Y,
definidas num mesmo espao amostral, representada por
X Y ,
. definido por
( )
X Y x y
Cov X Y
,
,
Autocovarincia: ao lidar com o registro contnuo da temperatura X(t) em funo do
tempo, pode-se estar interessado na relao entre X(t) nos tempos t
1
e t
2
.A covarincia entre
3
3
variveis aleatrias X(t
1
) e X(t
2
), que representam pontos sobre um mesmo caminho, mas em
diferentes tempos, chamada de autocovarincia .
Covarincia cruzada: a covarincia entre dois processos estocsticos contnuos, sendo
que um deles referente a um ponto no tempo X(t
1
) e o outro a um ponto e tempo possivelmente
diferentes, Y(t
2
).
2. A Varincia e a Distribuio de Erros Aleatrios
Se uma medio experimental repetida um nmero de vezes, os valores registrados das
quantidades medidas diferem, quase sempre, uns dos outros. A disperso de medies sucessivas
de uma quantidade x comumente expressa em termos da varincia ou do desvio padro do
conjunto de medidas. Essas quantidades so definidas de forma que sejam teis na estimativa da
probabilidade de ocorrncia de erros aleatrios de intensidade definida nas medidas.
A varincia da amostra simplesmente o desvio ao quadrado mdio, de n valores medidos
de x, em relao mdia da amostra x:
( )

a
n
x x
n
2
2


(1)
onde a mdia (x) obtida por
x
x
n
n


(2)
O desvio padro obtido atravs da varincia:

a a

2
(3)
4
4
Na definio da varincia das Eq.(1), desvios positivos e negativos em torno da mdia no
se cancelam uns aos outros. A ltima forma desta equao, que define a varincia, a mais
conveniente, quando clculos reais esto sendo feitos.
O valor da varincia se torna mais confivel quanto mais medies forem obtidas e a
exatido real do procedimento de medio indicada pelo valor da varincia, calculada a partir de
uma quantidade muito grande de dados. Quando o nmero de pontos experimentais obtido se tornar
infinito, o conjunto infinito chamado uma populao de valores. Para tal populao, a mdia da
populao () definida como:

lim
n
n
x
n

(4)
e a varincia da populao
2
definida como
( )
n
x
lim
2
n
n
2



(5)
O desvio padro da populao a raiz quadrada no-negativa da varincia da populao.
A mdia da populao o melhor, ou mais provvel, valor de x, desde que as variaes de
x sejam resultantes de efeitos pequenos, aleatrios, independentes e aditivos. Se, entretanto, erros
de mtodo e/ou erros no-aleatrios forem inerentes s medidas, ento a mdia pode diferir
substancialmente do valor verdadeiro de x.
Se em um conjunto infinito de dados, as variaes de x forem aleatrias, diz-se que a
distribuio de valores de x em torno da mdia uma Distribuio Normal ou Gaussiana.
3.1 Distribuio Normal ou Gaussiana.
As distribuies de fenmenos observados assumem, frequentemente, uma forma simtrica
em torno da mdia. Uma funo desse tipo, de extrema importncia em estatstica, chamada de
Distribuio Normal ou Distribuio de Gauss, que descrita pela funo
( )
( )

'

1
]
1

2
x
2
1
exp
2
1
x F
De forma abreviada, se a varivel aleatria x apresenta distribuio normal, com mdia e
varincia
2
, diz-se, simplesmente,
x = N( ,
2
)
5
5
Do exame da funo densidade, verifica-se que:
i) ela simtrica em torno do eixo vertical que passa por ;
ii) o valor mximo de F(x) ocorreu quando x = ;
iii) tem por assntota o eixo das abscissas;
iv) tem pontos de inflexo em x t .
Quando a varivel aleatria x padronizada, ela passa a ter uma Distribuio Normal
Padronizada, que tem mdia zero e desvio padro unitrio, ou equivalentemente, uma distribuio
N(0,1).
Os valores desta funo distribuio so tabelados e com eles se tem um meio de obter as
probabilidades associadas a qualquer varivel normal, conhecidos a mdia e o desvio padro e a
definio de varivel aleatria padronizada (z),
6
6
( )

x
z
Considerando, agora, o conjunto de variveis aleatrias independentes (x x x
n 1 2
, ,..., ), cada
uma normalmente distribuda, com mesma mdia () e mesma varincia (
2
). Ento, a mdia de
uma amostra de n elementos, extrada de uma populao N(,
2
), representada por
x
x x x
n
n

+ + +
1 2
...
normalmente distribuda, com mdia e varincia
2
/n. Este resultado muito importante e
chamado de Teorema do Limite Central. Em consequncia,
z
x
n

tem uma distribuio normal padronizada. Esta situao corresponde a um teste amostral simples.
A varincia da populao, definida pela Eq..5, baseada numa amostra hipottica,
contendo um nmero infinito de replicatas de uma medida. Todavia, para objetivos prticos,
necessrio lidar com um nmero finito de valores da quantidade em questo.
A mdia da amostra (x) a melhor estimativa da mdia da populao (). Entretanto, a
varincia da amostra (
a
2
) no a melhor estimativa da varincia da populao (
2
). A melhor
estimativa da varincia da populao dada por,
( )
s
x x
n
x x n
n
n
n
n
n n
a
2
2
2
2
2
1 1 1

_
,


(6)
Considerando, agora um teste multiamostral envolvendo n variveis aleatrias
X X X
n 1 2
, ,..., , que so normalmente distribudas, com suas mdias
1 2
, ,...,
n
e varincias

1
2
2
2 2
, ,...,
n
, respectivamente. A varivel aleatria Z uma combinao linear dessas variveis
Z a X a X a X
n n
+ + +
1 1 2 2
...
Na hiptese de Z ser normalmente distribuda, sua mdia
z
a mdia ponderada das
mdias das variveis aleatrias individuais, que podem ou no ser independentes, que dada por
( )
z n n
a a a + + +
1 1 2 2
...
A varincia dada por
( )

z i i
i
n
i j i j
i j
a a a Cov X X
2 2 2
1
+


,
7
7
onde a Cov(X
i
, X
j
) zero, se as variveis X
i
e X
j
so independentes uma da outra.
Os chamados testes nodal e de medida, muito utilizados para detectar e identificar fontes de
erros grosseiros, so testados contra uma distribuio normal padronizada.
3.2. Distribuio Qui-quadrado
A varivel aleatria, formada pela soma dos quadrados de n variveis aleatrias
independentes Z
i
, definida por
( ) ( )
2 2
01

Z Z N
i
i
n
i
, ,
tem uma distribuio
2
.
O valor n tambm conhecido como o nmero de graus de liberdade da
2
.
A mdia e a varincia dessa distribuio so expressas em graus de liberdade, sendo iguais,
respectivamente, a n e 2n.
A funo densidade de probabilidade qui-quadrado representada por

2
, onde designa
o nmero de graus de liberdade da
2
. Se observaes de uma varivel so independentes, ento
o nmero de graus de liberdade igual a . Entretanto, um grau de liberdade perdido para cada
restrio sobre as observaes.
8
8
A funo distribuio
( )
F

2
tabulada de forma a fornecer valores
,
2
, que so
disponveis na maioria dos livros de estatstica, para os quais
( )
P

2 2

,
onde a probabilidade de somas dos quadrados iguais ou superiores ao valor correspondente
tabelado. O nvel de significncia , geralmente, fixado em torno do valor 0,05. Quanto maior ,
maior o risco de rejeitar hipteses boas; inversamente, o risco de aceitar hipteses falsas aumenta,
na medida que o valor de diminue.
Se o valor calculado da varivel aleatria
2
for maior do que o valor tabelado
,
2
, rejeita-
se a hiptese de que as variveis Z
i
sejam aleatrias, entretanto, se ele for menor ou igual, a
hiptese aceita.
9
9
Esta distribuio usada para a deteco de erros grosseiros em dados de processo, onde
se verifica se a varivel aleatria constituda pela soma ponderada (pelo inverso das varincias) dos
quadrados dos erros da variveis individuais segue uma distribuio qui-quadrado. Se isto for
verdade, vlida a hiptese de que os erros de medida so variveis aleatrias normalmente
distribudas e, portanto, o conjunto de medidas testadas no contm erro sistemtico.
Caso isto no seja verdade, deve(m) ser identificada(s) a(s) medida(s) que cont()m erros
grosseiros, submetendo-se o conjunto resultante ao teste em questo. Para realizar o teste, deve-se
calcular o valor de

2
e compar-lo com valores tabelados, uma vez definido um nvel de
significncia , que exprime a probabilidade de somas dos quadrados iguais ou superiores ao valor
correspondente da tabela. Se o valor calculado for maior do que o valor tabelado, rejeita-se a
hiptese e se for menor ou igual ao valor tabelado, aceita-se a hiptese.A distribuio qui-quadrado
usada no chamado teste global de Almsy e Sztan (1975) e tambm no teste do desbalano
nodal de Romagnoli et al.(1980).
4. Testes de Hipteses
Um teste de hipteses estatstico um procedimento para decidir se deve ser aceita ou
rejeitada a hiptese H
0
contra uma ou mais hipteses alternativas.
Conhecida a funo densidade de probabilidade F de uma estimativa (que uma estimativa
no-tendenciosa de , uma varivel aleatria qualquer), faz-se a suposio de que a representao
desta varivel aleatria por F(
$
) correta e que a mdia (ou valor esperado) de
0
.
Coloca-se, ento a seguinte questo: Se verdadeira a hiptese de que =
0
, por quanto
pode diferir de
0
, antes que esta hiptese seja rejeitada por parecer errada ?
Se a hiptese =
0
for verdadeira, E() =
0
e a probabilidade de que o valor de
$
seja
menor ou igual a
2

( )
P
$


2
2
e devido simetria da curva da Distribuio Normal
( )
P
$


1 2
2
Para tomar uma deciso concernente hiptese, seleciona-se um valor de , que
chamado nvel de confiana para o teste. Por exemplo, pode ser 0,01 ou 0,05.
10
10
Ento, a amostra coletada e
$
calculado. Se
$
for maior do que
1 2
ou menor do
que
2
, a hiptese rejeitada. Caso contrrio, ela aceita.
H
0
:

=
0
= 0,05 em 5 % dos casos H
0
ser rejeitada (deciso errada)
A faixa de valores de
$
em que a hiptese rejeitada chamada regio de rejeio; a faixa
de
$
em que a hiptese aceita chamada de regio de aceitao. O teste descrito um teste de
dois lados, tambm chamado bilateral ou bicaudal.
Um teste unilateral pode ser baseado em duas possibilidades, sendo que numa delas
$
seria
maior do que algum
1
, onde a hiptese seria rejeitada, se
$
fosse de fato maior do que
1
; a
outra seria supor que
$
seja menor do que

.
Himmelblau (1978) observa que a rejeio da hiptese no implica num resultado definitivo,
mas indica que os dados e o procedimento experimental devem ser submetidos a um exame
cauteloso para averiguar se ocorreu alguma coisa errada com a coleta de medidas ou com a
instrumentao.
A estrutura de teste mais simples imaginar que haja uma dicotomia de estado para as
variveis aleatrias:
i) H
o
: x o valor verdadeiro da varivel aleatria (que a hiptese nula);
ii) H
1
: x no o valor verdadeiro da varivel (que a hiptese alternativa).
No teste de hipteses, a deciso tomada da seguinte forma: com base na suposio de
que a hiptese nula verdadeira, se a estatstica calculada a partir da amostra experimental aleatria
11
11
cair fora da regio de aceitao, a hiptese nula rejeitada e a hiptese alternativa aceita. Caso
contrrio, a hiptese H
o
aceita e H
1
rejeitada.
Podem-se distinguir dois tipos de erros ao testar uma hiptese:
i) Erro Tipo I, que o risco de declarar falsa uma hiptese verdadeira;
ii) Erro Tipo II, que o risco de no rejeitar uma hiptese, quando ela falsa.
Isto pode ser resumido no esquema abaixo, onde a hiptese que est sendo testada a
hiptese H.
Hiptese Aceitar H Rejeitar H
H verdadeira Deciso correta Erro do Tipo I
H falsa Erro do Tipo II Deciso correta
Certamente, o erro do Tipo I existe porque selecionado para ser um valor no-zero.
Quando a hiptese verdadeira e = 0,05, por exemplo, em 5 % dos testes a hiptese ser
rejeitada, o que uma deciso errada.
A probabilidade a probabilidade de no rejeitar uma diferena quando ela existe.
Existem curvas, chamadas curvas de operao caractersticas, para determinar a probabilidade .
A probabilidade (1-) chamada potncia do teste e representa a probabilidade de tomar-se a
deciso correta (rejeitar a hiptese), quando ela realmente errada. Quando a diferena entre as
mdias () aumenta, (1-) aumenta e diminue. A seguir, apresenta-se de forma resumida um
exemplo:
Se Probabilidade de concluir que

A

A

A
1-
+
A
1-
Himmelblau (1978) relata que, pela descrio dos dois tipos de erros, pode-se observar
que a tentativa de diminuir um tipo de erro resulta em um aumento no outro tipo de erro. O nico
modo de diminuir os dois tipos de erro, simultneamente, aumentar o tamanho da amostra, o que
pode ser caro, na prtica. Observa que talvez um tipo de erro tenha consequncias menos srias do
que o outro e, neste caso, h alguma deciso adequada referente seleo de valores de e ao
nmero de observaes a ser feito. A experincia leva em conta os instrumentos, o projeto do
processo e os custos, de modo a tomar-se uma deciso econmica para e .
Em geral, os estudos descritos na literatura para deteco e identificao de erros
grosseiros, na reconciliao de dados de processo, consideram a probabilidade de ocorrncia de
erro Tipo I.
Um teste de hiptese usado na reconciliao de dados para testar a hiptese nula:
12
12
H
0
: no h erro grosseiro nos dados de processo,
versus a hiptese alternativa:
H
1
: existe pelo menos um erro grosseiro nos dados de processo,
ou, especificamente,
H
1j
: existe um erro grosseiro na medio j

Você também pode gostar