Você está na página 1de 49

Estatstica Aplicada

Inferencia

Heyder Diniz Silva


2
Sumario

1 Introducao 5
1.1 Tecnicas de amostragem. . . . . . . . . . . . . . . . . . . . . . . 6
1.1.1 Principais tecnicas de amostragem probabilsticas. . . . . 7
1.1.1.1 Amostragem Simples ao Acaso . . . . . . . . . . 7
1.1.1.2 Amostragem Sistematica . . . . . . . . . . . . . 7
1.1.1.3 Amostragem por Conglomerados . . . . . . . . . 7
1.1.1.4 Amostragem Estratificada . . . . . . . . . . . . . 7
1.1.2 Principais tecnicas de amostragem nao probabilsticas. . . 8
1.1.2.1 Inacessibilidade a toda populacao . . . . . . . . 8
1.1.2.2 Amostragem sem norma (a esmo) . . . . . . . . 8
1.1.2.3 Populacao formada por material contnuo. . . . 8
1.1.2.4 Intencional . . . . . . . . . . . . . . . . . . . . . 9
1.2 Amostras aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . 9

2 Distribuicoes Amostrais 11
2.1 Distribuicao amostral da media . . . . . . . . . . . . . . . . . . . 11
2.1.1 Esperanca e variancia . . . . . . . . . . . . . . . . . . . . 12
2.1.1.1 Amostragem com reposicao . . . . . . . . . . . . 12
2.1.1.2 Amostragem sem reposicao . . . . . . . . . . . . 14
2.1.2 A distribuicao de x . . . . . . . . . . . . . . . . . . . . . . 15
2.1.2.1 Populacoes normais . . . . . . . . . . . . . . . . 15
2.1.2.2 Populacoes nao normais - Teorema Central do
Limite . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2 Distribuicao amostral da variancia . . . . . . . . . . . . . . . . . 16
2.3 Distribuicao amostral da media quando nao se conhece a variancia 18
2.4 Distribuicao amostral da proporcao . . . . . . . . . . . . . . . . . 19

3 Metodos de estimacao 21
3.1 Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2 Maxima verossimilhanca . . . . . . . . . . . . . . . . . . . . . . . 23
3.3 Mnimos quadrados . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3
4 SUMARIO

4 Teoria da estimacao 29
4.1 Propriedades dos Estimadores pontuais . . . . . . . . . . . . . . 30
4.1.1 Nao tendenciosidade . . . . . . . . . . . . . . . . . . . . . 30
4.1.2 Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.1.3 Eficiencia relativa . . . . . . . . . . . . . . . . . . . . . . . 32
4.2 Estimacao por intervalo . . . . . . . . . . . . . . . . . . . . . . . 32
4.2.1 Intervalo de confianca para a media . . . . . . . . . . . 32
4.2.1.1 Variancia conhecida . . . . . . . . . . . . . . . . 32
4.2.1.2 Variancia desconhecida . . . . . . . . . . . . . . 33
4.2.2 Diferenca entre duas media (a b ) . . . . . . . . . . . 34
4.2.2.1 Variancias Conhecidas: . . . . . . . . . . . . . . 34
4.2.2.2 Variancias Desconhecidas: . . . . . . . . . . . . . 35
4.2.3 Intervalo de confianca para proporcao . . . . . . . . . . . 36
4.2.3.1 Amostras grandes (n > 30) . . . . . . . . . . . . 36
4.2.3.2 Amostras pequenas (n 30) . . . . . . . . . . . 37
4.2.4 Intervalo de confianca para a diferenca entre proporcoes . 37
4.2.4.1 Amostras grandes (n > 30) . . . . . . . . . . . . 37
4.2.4.2 Amostras pequenas (n 30) . . . . . . . . . . . 37
4.2.5 Intervalo de confianca para a variancia ( 2 ) . . . . . . . . 38

5 Teoria da decisao (Testes de Hipoteses) 39


5.1 Consideracoes iniciais . . . . . . . . . . . . . . . . . . . . . . . . 39
5.1.1 Hipoteses estatsticas . . . . . . . . . . . . . . . . . . . . . 39
5.1.2 Tipos de erros . . . . . . . . . . . . . . . . . . . . . . . . 41
5.1.3 Tipos de testes . . . . . . . . . . . . . . . . . . . . . . . . 42
5.1.4 Algoritmo para realizacao de um teste de hipotese . . . . 42
5.2 Estatstica apropriadas para os testes de hipoteses . . . . . . . . 44
5.2.1 Teste de Qui-Quadrado (2 ) . . . . . . . . . . . . . . . . . 44
5.2.1.1 Teste de aderencia . . . . . . . . . . . . . . . . . 45
5.2.1.2 Teste de independencia . . . . . . . . . . . . . . 47

6 Referencias Bibiliograficas 49
Captulo 1

Introducao

Definicao 1.1 (Populacao) conjunto de indivduos com pelo menos uma car-
acterstica observavel em comum.

Definicao 1.2 (Amostra) porcao ou fracao da populacao, retirada segundo


algumas tecnicas especficas, que matem as mesmas caractersticas de interesse
da populacao.

Definicao 1.3 (Parametro) e uma medida associada a uma caracterstica


populacional Ex: Media (), variancia ( 2 ), etc.

Definicao 1.4 (Estatstica) e uma medida associada a uma caracterstica


amostral. Ex: Media (x), variancia (s2 ).

Um dos principais problemas apresentados na estatstica e o


de se fazer afirmacoes sobre os parametros populacionais (geralmente descon-
hecidos), como por exemplo saber qual o tempo necessario para o organismo
humano degradar certo composto qumico, qual a producao total de graos de
um pas num determinado ano, qual a altura media da populacao brasileira, afir-
mar se um novo composto e carciniogenico ou nao. E para respondermos a estas
questoes, muitas das vezes, temos que lancar mao do processo de amostragem,
que consiste em estudar apenas uma fracao da populacao (a amostra) e a partir
desta fazer inferencias sobre a populacao. Esquematicamente tem-se:

Para que o processo anteriormente descrito seja confiavel, e


necessario que a amostra utilizada seja representativa da populacao, e para
isso, ela deve ser retirada segundo determinadas tecnicas de amostragem. De
posse de uma amostra, representativa da populacao, para fazermos a inferencia
sobre os parametros populacionais, a partir desta amostra, e necessario o co-
nhecimento das relacoes existentes entre as estimativas obtidas e os valores dos
parametros populacionais, ou seja, e necessario conhecer a distribuicao amostral
do estimador utilizado, para que se possa fazer uma inferencia segura sobre um
parametro qualquer.

5
6 CAPITULO 1. INTRODUCAO

Figura 1.1: Representacao esquematica do processo de amostragem e inferencia.

1.1 Tecnicas de amostragem.


Ao coletar uma amostra pode-se faze-lo com reposicao ou sem
reposicao, caso a amostragem seja realizada com reposicao, um mesmo indivduo
tem chance de pertencer mais de uma vez a amostra, o que nao acontece, no
caso da amostragem ser sem reposicao. Independentemente da maneira como a
amostra e coletada (com ou sem reposicao) o importante e que os indivduos que
comporao a amostra deverao ser selecionados atraves de um processo aleatorio
qualquer (sorteio), pois, somente nestas condicoes, podemos aplicar os modelos
probabilsticos da estatstica a esta amostra, o que vai garantir a validade dos
testes estatsticos que serao realizados com base nos resultados destas amostras.
Os principais tipos de amostragem sao:

Probabilsticas ou aleatoria: Quando todos os indivduos da populacao


tem probabilidade conhecida e nao nula de pertencer a amostra, dentre
estas se destacam:

Amostragem simples ao acaso (ASA).


Amostragem sistematica (AS).
Amostragem por comglomerados.
Amostragem estratificada (AE).

Nao probabilstica, nao aleatoria, escolha racional ou escolha justificada:


Quando alguns indivduos da populacao tem probabilidade desconhecida
ou nula de pertencer a amostra, as principais sao:

Inacessibilidade a toda a populacao.


1.1. TECNICAS DE AMOSTRAGEM. 7

Amostragem sem norma (a esmo).


Populacao formada por material contnuo.
Intencional

1.1.1 Principais tecnicas de amostragem probabilsticas.


1.1.1.1 Amostragem Simples ao Acaso
Esta tecnica so pode ser aplicada em populacoes homogeneas e
de tamanho conhecido. Tecnica: Enumera-se todos indivduos da populacao
e sorteia-se (por meio de um dispositivo aleatorio qualquer), os indivduos
que comporao a amostra. Neste tipo de amostragem podem ser retiradas N n
n
amostras diferentes com reposicao ou CN amostras diferentes sem reposicao.

1.1.1.2 Amostragem Sistematica


E uma simplificacao do processo anterior. Neste caso, apenas
o primeiro elemento da amostra sera sorteado, e os demais serao retirados em
uma progressao aritmetica, com razao k, em que:
N
k= ,
n
com N = tamanho da populacao e n = tamanho da amostra ate se completar
o tamanho da amostra desejado.

1.1.1.3 Amostragem por Conglomerados


Quando uma populacao apresenta uma subdivisao natural em
grupos menores (denominados conglomerados), sorteia-se um numero suficiente
desses grupos (conglomerados) e todos os elementos destes vao compor a
amostra.

1.1.1.4 Amostragem Estratificada


E uma tecnica utilizada quando a populacao a ser estu-
dada e heterogenea, deste modo, subdivide-se a populacao em estratos (sub-
populacoes) que sejam homogeneos dentro de si, e heterogeneos entre si, e
aplica-se uma das tecnicas de amostragens anteriormente descritas, para retirar-
se sub-amostras dentro de cada estrato, de modo que a amostra final seja rep-
resentativa da populacao, como um todo ( contenha indivduos de todos os
estratos). Quanto ao tamanho das sub-amostras retiradas (ni), e classificada
em:

i. Uniforme
Quando de K estratos, retiram-se amostras de mesmo tamanho n, indepen-
dentemente do tamanho do estrato.
8 CAPITULO 1. INTRODUCAO

ii. Proporcional
Quando o tamanho da amostra retirado em cada estrato (ni) e proporcional
ao tamanho do estrato.

Ex. Para exemplificar os dois tipos de amostragem estratificada


descritos, consideremos um estudo realizados em propriedades rurais de um mu-
nicpio, composto por 1000 propriedades rurais, distribudas, quanto a sua area,
conforme a Tabela 1 e que neste municpio sejam amostradas 50 propriedades:

Tabela 1.1: Distribuicao do numero de propriedades rurais de um municpio


qualquer, quanto a area e numero de propriedades a serem amostradas por
estrato (classes)

Area (ha) Numero de Propriedades Amostra estratificada (N=50)


Uniforme Proporcional
0` 20 500 10 25
20` 50 320 10 16
50` 100 100 10 5
100`200 50 10 3
200` 400 30 10 1
Total 1000 50 50

1.1.2 Principais tecnicas de amostragem nao proba-


bilsticas.
1.1.2.1 Inacessibilidade a toda populacao
A amostragem e realizada na parte da populacao que e acessvel.
Ex. Controle de qualidade numa linha de producao de cigarros.
So tem-se acesso aos cigarros que ja estao prontos, embora os que ainda serao
produzidos fazem parte da populacao de cigarros produzidos por aquela linha
producao.

1.1.2.2 Amostragem sem norma (a esmo)


Nao se utiliza nenhum sorteio, para identificar a amostra, muito
embora o amostrador procure ser aleatorio.
Ex. Amostrar 80 frangos num galpao com 3000 frangos,
amostrar peixes em um lago, pessoas em uma praca, etc.

1.1.2.3 Populacao formada por material contnuo.


Processo utilizado para se amostrar lquidos, gases ou solidos.
Homogeniza-se o material a ser amostrado e em seguida colhe-se a amostra.
1.2. AMOSTRAS ALEATORIAS 9

1.1.2.4 Intencional
O pesquisador escolhe deliberadamente certos elementos da
populacao para formar a amostra, baseado num pre-julgamento.
Ex. Pesquisa de mercado para lancar uma nova marca de leite
longa vida tipo A . O pesquisador selecionara indivduos com poder aquisitivo
medio/alto, que sao os principais consumidores deste produto (publico alvo),
embora toda a populacao independentemente do poder aquisitivo possa ser con-
sumidora deste produto.

1.2 Amostras aleatorias


Definicao 1.5 Amostra aleatoria Uma amostra aleatoria de tamanho n, de
uma variavel aleatoria X e o conjunto das n variaveis aleatorias independentes
X1 , , Xn , cada uma tendo a mesma distribuicao de X. Ou seja a amostra
sera a n-upla ordenada (X1 , , Xn ), em que Xi o valor observado no i-esimo
elemento sorteado.

Consisdere uma populacao formada por 5 indivduos (N = 5),


cuja variavel de interesse seja o numero de filhos de cada um. Entao, formal-
mente a populacao fica melhor definida como sendo o conjunto do numero de
filhos de cada um dos indivduos, que e 0, 1, 2, 2, 4. A distribuicao de probabili-
dades do numero de filhos destes indivduos e:

x 0 1 2 4 P
P (X = x) 15 51 25 15 =1
Extraindo-se todas as possveis amostras, com reposicao, desta
populacao 0, 1, 2, 2, 4, a distribuicao de probabilidade da variavel aleatoria bidi-
mensional (X1 , X2 ) e:

X1
X2 0 1 2 4 Total
1 1 2 1 1
0 25 25 25 25 5
1 1 2 1 1
1 25 25 25 25 5
2 2 4 2 2
2 25 25 25 25 5
1 1 2 1 1
4 25 25 25 25 5
1 1 2 1
Total 5 5 5 5 1
Deste modo, verifica-se, facilmente que, X1 e X2 sao indepen-
dentes e possuem a mesma distribuicao de X.
10 CAPITULO 1. INTRODUCAO
Captulo 2

Distribuicoes Amostrais

Figura 2.1: Representacao esquematica da distribuicao amostral de um esti-


mador.

2.1 Distribuicao amostral da media


Considere-se, a ttulo de exemplo, uma populacao hipotetica,
formada por tres indivduos, para os quais a variavel de interesse (X), seja a nota
final destes indivduos na disciplina estatstica, a qual segue uma distribuicao
uniforme discreta como apresentado a seguir:
X 8 9 10 P
P (X = x) 13 31 1
3 =1

11
12 CAPITULO 2. DISTRIBUICOES AMOSTRAIS

Figura 2.2: Distribuicao das notas de tres alunos.

Neste caso tem-se:


N = 3;
E(X) = = 9;
V (X) = 2 = 32 .

2.1.1 Esperanca e variancia


2.1.1.1 Amostragem com reposicao
Retirando-se todas as possveis amostras com reposicao, de
tamanho n = 2, tem-se um total de 32 = 9 possveis amostras, as quais estao
apresentadas a seguir:
Amostra Indivduos Notas x
1 1;1 8e8 8
2 1;2 8e9 8,5
3 1;3 8 e 10 9
4 2;1 9e8 8,5
5 2;2 9e9 9
6 2;3 9 e 10 9,5
7 3;1 10 e 8 9
8 3;2 10 e 9 9,5
9 3;3 10 e 10 10
A distribuicao amostral de x sera:
x 8 8,5 9 9,5 10
P (x = xi ) 19 2
9
3
9
2
9
1
9
Em que:
2.1. DISTRIBUICAO AMOSTRAL DA MEDIA 13

Figura 2.3: Distribuicao amostral de x.

Pn
E(x) = x = i=1 xi P (x = xi ) = 9, 0
Pn 1
V (x) = x2 = i=1 [xi E(x)]2 P (x = xi ) = 3

Assim, verifica-se que:


1 2
E(x) = 9, 0 = e V (x) = 3 = n

Prova:
1
Pn
x = n i=1 xi

" n
#
1X
E(x) = E xi
n i=1
1
= E [x1 + x2 + + xn ]
n
1
= [E(x1 ) + E(x2 ) + + E(xn )]
n
1
= [ + + + ]
n
1
= n
n
=
14 CAPITULO 2. DISTRIBUICOES AMOSTRAIS

" n
#
1X
V (x) = V xi
n i=1
1
= V [x1 + x2 + + xn ]
n2
1
= [V (x1 ) + V (x2 ) + + V (xn )]
n2
1 2
+ 2 + + 2

=
n2
1
= n 2
n2
= 2

2.1.1.2 Amostragem sem reposicao


Retirando-se todas as possveis amostras sem reposicao, de
tamanho n = 2, tem-se um total de CN n
= C32 = 3 possveis amostras, as
quais estao apresentadas a seguir:

Amostra Indivduos Notas x


1 1;2 8 e 9 8,5
2 1;3 8 e 10 9
4 2;3 9 e 10 9,5
A distribuicao amostral de x sera:

x 8,5 9 9,5
1 1 1
P (x = xi ) 3 3 3
Neste caso,
n
X
E(x) = x = xi P (x = xi ) = 9, 0
i=1

n
X 1
V (x) = x2 = [xi E(x)]2 P (x = xi ) =
i=1
6

Assim, verifica-se que:

E(x) = 9, 0 = ,
e
1 2 N n
V (x) = =
6 n N 1
O termo N n
N 1 e conhecido como fator de correcao para
amostragem sem reposicao em populacoes finitas (ASRPF). Uma populacao
2.1. DISTRIBUICAO AMOSTRAL DA MEDIA 15

n
e considerada finita quando N > 0, 05 ou seja a amostra representar mais de
5% do tamanho da populacao. Quando tal criterio nao for satisfeito, o fator de
correcao torna-se desprezvel, podendo, portanto ser eliminado.

2.1.2 A distribuicao de x
2.1.2.1 Populacoes normais
Para obtencao da distribuicao amostral da media amostral (x)
de populacoes com distribuicao normal, torna-se necessario a apresentacao dos
seguintes teoremas:

Teorema 2.1 Se X N (, 2 ), entao, Y = aX + b, a 6= 0 tem distribuicao


normal com media a + b e variancia a2 2 . Y N (a + b, a2 2 ).
Prova: (DeGroot & Schervish, 2002 (p275))

Teorema 2.2 se X1 , X2 , , Xn sao variaveis aleatorias independentes e com


distribuicao normal de media i e variancia i2 , (Xi N (i , i2 )), entao a soma
X1 + X2 + + Xn , tem distribuicao normal com media 1 + 2 + + n e
variancia 12 + 22 + + n2 .
Prova:
0
Seja M(X i)
(t) a funcao geradora de momentos de Xi e M 0 (t) a
funcao geradora de momentos de X1 + X2 + + Xn . Sendo X1 , X2 , , Xn
independentes, entao

n
Y
M 0 (t) = 0
M(X i)
(t)
i=1
n
1 2 2
e(i t+ 2 i t )
Y
=
i=1
(t ni=1 i + 12 t2 ni=1 i2 )
P P
= e ,

que ePa funcao geradora de momentos de uma distribuicao nor-


n Pn
mal com media = i=1 i e variancia 2 = i=1 i2 .

Pn A partir dos dois teoremas anteriores e sabendo que X =


1
n i=i
2

Corolario 2.3 X N (, 2 ) X N , n .

2.1.2.2 Populacoes nao normais - Teorema Central do Limite


Se X1 , X2 , , Xn e uma amostra aleatoria de uma distribuicao
qualquer com media e variancia 2 , entao a distribuicao amostral de X
e dada pelo seguinte teorema, conhecido como Teorema Central do Limite.
Que, do ponto de vista pratico, e de extrema importancia pois permite o
16 CAPITULO 2. DISTRIBUICOES AMOSTRAIS

uso de metodos baseados na curva normal para inferencias realizadas a par-


tir das medias amostrais, mesmo quando a variavel sob estudo nao siga uma
distribuicao normal.

Teorema 2.4 Seja X uma variavel aleatoria com media e variancia 2 ,


entao a variavel aleatoria z = X
tem distribuicao que se aproxima da normal
n
quando n .

Exemplo 2.1.1 As pessoas que utilizam, diariamente, um elevador tem em


media 65 kg, com desvio padrao 7,5 kg. A capacidade de garga desse elevador
e de 750 kg. Qual o numero de pessoas que podem entrar no elevador de modo
que a probabilidade de ultrapassar o limite de carga seja de no maximo 0,05?
Solucao:
X 65 750
Pelo TCL, z = N (0, 1), entao z = 7,5

n
n n

z : P (z z) = 0.05 = 1, 65
assim,
65 750
1, 65 = 7,5

n

n = 12 pessoas

2.2 Distribuicao amostral da variancia


Teorema 2.5 Seja x1 , x2 , , xn , uma amostra aleatoria de uma variavel
aleatoria X N (, 2 ), seja ainda o estimador:
Pn
2 x)2
i=1 (xi
s =
n1

entao,

(n1)s2
i. 2 2(n1) ;

ii. E(s2 ) = 2 ;

2 4
iii. V (s2 ) = n1 .

Prova:

(n1)s2
2 2(n1)
2.2. DISTRIBUICAO AMOSTRAL DA VARIANCIA 17

n
X n
X
(xi )2 = [(xi x) + (x )]2
i=1 i=1
n
X
= [(xi x)2 + 2(xi x)(x ) + (x )2 ]
i=1
Xn n
X
= (xi x)2 + 2(x ) (xi x) + n(x )2
i=1 i=1
n
X
= (xi x)2 + n(x )2 ,
i=1

consequentemente,
n
X n
X
(xi x)2 = (xi )2 n(x )2 ,
i=1 i=1

portanto,
n
X
(n 1)s2 = (xi )2 n(x )2 ,
i=1

1
multiplicando ambos os lados da expressao por 2 ,
Pn
(n 1)s2 i=1 (xi )2 n(x )2
=
2 2 2
n 2 !2
X xi x
=

i=1 n

Sabendo que:
Pn xi 2
i=1 2(n) ;
2
x x
2(1) , pois N (0, 1).
n n

E sendo a distribuicao da media, independente da distribuicao das


variaveis, pode-se somar estas duas distribuicoes, e deste modo,

(n 1)s2
2(n1) .
2

E(s2 ) = 2 .
18 CAPITULO 2. DISTRIBUICOES AMOSTRAIS

Pn
x)2

2 i=1 (xi
E(s ) = E
n1
" n #
1 X
2
= E (xi x)
n1 i=1
" n #
1 X
2 2
= E (xi ) n(x )
n1 i=1
" n #
1 X
2 2
= E(xi ) nE(x )
n 1 i=1
" n #
1 X
= V (X) nV (X)
n 1 i=1
2

1 2
= n n
n1 n
1 2
= (n 1)
n1
= 2

2 4
V (s2 ) = n1 .

Sabe-se que se Y 2(v) , entao, E(Y ) = v e V (X) = 2v.

(n 1)s2
2(n1) ,
2
logo,
(n 1)s2

V = 2(n 1)
2
(n 1)2
V (s2 ) = 2(n 1)
4
2(n 1) 4
V (s2 ) =
(n 1)2
2 4
V (s2 ) =
n1

2.3 Distribuicao amostral da media quando nao


se conhece a variancia
2
Viu-se que se X N (, 2 ) X N (, n ), consequente-
x
mente, z = N (0, 1).
n
2.4. DISTRIBUICAO AMOSTRAL DA PROPORCAO 19

Contudo, na maioria das situacoes praticas nao se conhece a


variancia populacional ( 2 ), mas sim sua estimativa s2 , obtida a partir de uma
amostra de tamanho n ( geralmente a mesma que esta sendo utilizada para
estimar a media ). Assim torna-se necessario o conhecimento da distribuicao
da variavel:

X
s
n

Teorema 2.6 A variavel


X
t= ,
s
n

tem distribuicao t de Student com n 1 graus de liberdade.

2.4 Distribuicao amostral da proporcao


Teorema 2.7
p p
q N (0, 1).
p(1p)
n

Prova:
A proporcao de indivduos, portadores de uma certa carac-
terstica, em uma amostra e dada por:

numero de indiv. na amostra com acaracter istica


p =
n

Definindo uma variavel aleatoria Y , tal modo que:


1, se o indivduo possui a caracterstica;
yi =
0, caso contrario;

entao p pode ser escrito como:

Pn
i=1 yi
p = = y.
n
20 CAPITULO 2. DISTRIBUICOES AMOSTRAIS

Pn
i=1 yi
E(p) = E
n
1
= E[y1 + y2 + + yn ]
n
1
= [E(y1 ) + E(y2 ) + + E(yn )]
n
1
= [p + p + + p], pois, Y Bernoulli(p)
n
1
= np
n
= p

Pn
i=1 yi
V (p) = V
n
1
= V [y1 + y2 + + yn ]
n2
1
= [V (y1 ) + V (y2 ) + + V (yn )]
n2
1
= [p(1 p) + p(1 p) + + p(1 p)], pois, Y Bernoulli(p)
n
1
= np(1 p)
n2
p(1 p)
=
n
Pelo teorema central do limite,

y E((y) p p
p =q N (0, 1)
V (Y ) p(1p)
n
Captulo 3

Metodos de estimacao

3.1 Momentos
O metodo dos momentos e um dos metodos de estimacao mais
simples e antigos utilizados na estatstica. E consiste, basicamente, em igualar
os momentos populacionais aos amostrais sendo o estimador do parametro em
questao dado pela solucao deste sistema. Assim, sejam:
n
1X r
Mr0 = x , r 1,
n i=1 i
o r-esimo momento amostral de uma variavel aleatoria X.

0r = E[X r ], r 1,
o r-esimo momento populacional. Entao, o metodo dos momentos consiste na
obtencao dos estimadores para = (1 , , n ), resolvendo as euquacoes:
0r = Mr0 , r = 1, , k.
Exemplo 3.1.1 Obter os estimadores da media () e da variancia ( 2 ) de uma
variavel aleatoria X N (, 2 ).
Sabe-se que a funcao geradora de momentos de uma variavel
aleatoria X N (, 2 ) e:
t2 2
MX (t) = et+ 2

O primeiro momento populacional em relacao a origem (01 ) e


dado por:

dMX (t)
01 =
dt t=0
t2 2

= ( + t 2 )et+ 2


t=0
=

21
22 CAPITULO 3. METODOS DE ESTIMACAO

O primeiro momento amostral, em relacao a origem (M10 ) e:


Pn
xi
M1 = i=1 ,
0
n
Assim, o estimador da media , de uma variavel aleatoria com
distribuicao normal e: Pn
xi
= i=1 .
n
O segundo momento populacional em relacao a origem (02 ) e
dado por:

d2 MX (t)

0
2 =
dt
t=0
h 2 2 t2 2
i
2 t+ t 2
= ( )e + ( + t 2 )( + t 2 )et+ 2
t=0
= 2 + 2

O segundo momento amostral, em relacao a origem (M20 ) e:


Pn
x2
M2 = i=1 i ,
0
n
Assim, o estimador da variancia 2 , de uma variavel aleatoria
com distribuicao normal, pelo metodo dos momentos e dado por:
Pn 2
i=1 xi
2 + 2 =
Pnn 2
i=1 xi
2 = 2
n
Pn 2
Pn 2
2 i=1 xi i=1
=
n n
2
( ni=1 )
P
Pn 2
2 i=1 xi n
=
n

Exemplo 3.1.2 Considere-se a necessidade estimar o numero de Vans, ligadas


a Cooperativa de Transporte Alternativo de Uberlandia, sabendo que estas sao
numeradas sequencialmente.
Solucao:
Sendo as Vans numeradas sequencialmente, a VA, numero de
uma Van segue uma distribuicao uniforme discreta, ou seja:
1
P (X = k) = , k = 1, , N ;
N
O primeiro momento populacional e:
3.2. MAXIMA VEROSSIMILHANCA 23

N +1
M10 = E(X) =
2
fazendo: x = M10 vem:

N + 1
x =
2
N = 2X 1 (3.1)

Deste modo, o numero de Vans pode ser estimado a partir de


uma amostra de Vans.Triola (1999), relata que uma estimativa do numero de
tanques e guerra produzidos pela Alemanha, em junho de 1941, realizada a par-
tir dos numeros de series dos mesmos foi de 244, e o numero real, obtido em
registros do governo Alemao foi de 271. resultado bastante satisfatorio, princi-
palmente quando comparado ao valor 1550 tanques estimado pelos metodos tradi-
cionais de espionagem. (Maiores detalhes em: Ruggles and Brodie, A empirical
Approach to economic intelligence in World War II, Journal of the American
Statistical Association, V42.)

As funcoes geradoras de momentos para as principais distribuicoes de probabi-


lidades sao apresentadas na tabela 3.1

Tabela 3.1: Funcoes geradoras de momentos para as principais distribuicoes de


probabilidade

Distribuicao Funcao geradora de momentos


Binomial [pet + (1 p)]n
t
Poisson e(e 1)
1
Exponencial 1
1 t
2 2
t+ 2t
Normal e
1 b a
Uniforme (ba)t (e t e t)
n
Qui-quadrado (1 2t) 2

3.2 Maxima verossimilhanca


Considere-se que se deseje estimar a proporcao de criancas, do
sexo feminino, nascidas em famias com 4 filhos. Uma amostra de 100 famlas
com quatro filhos apresentou a distribuicao de frequencias para o numero de
criancas do sexo feminino mostrada na tabela 3.2:
Esta variavel aleatoria (numero de meninas em famlias com 4
filhos) pode ser descrita por um modelo Binomial com n = 4 e uma determi-
nada probabilidade de sucesso p. O problema que apresenta-se entao e, obter
24 CAPITULO 3. METODOS DE ESTIMACAO

Tabela 3.2: Distribuicao de frequencias do numero de famlias com 4, filhos em


relacao ao numero de meninas em cada famlia

Numero de filhas 0 1 2 3 4 Total


Numero de famlias 6 25 38 25 6 100

uma estimativa p para o parametro p. As frequencias esperadas do numero


de famlias com quatro filhos, nas quais existem nenhuma, uma, duas, tres ou
quatro meninas, considerando que esta variavel aleatoria pode ser descrita por
um modelo com p = 0, 6 e p = 0, 5 estao apresentaas nas tabelas 3.3 e 3.4,
respectivamente. Confrontando os resultados apresentados nestas tabelas (3.3
e 3.4) com os resultados da tabela 3.2, verifica-se que as frequencias esperadas,
considerando o valor p = 0, 50 estao bem mais proximas aos valores espera-
dos do que as para p = 0, 60. Portanto, a partir de amostra obtida (3.2) e
mais prudente afirmar que esta originou-se de uma distribuicao binomial com
p = 0, 50 do que p = 0, 60. Entao p = 0, 50 e uma estimativa mais verossmel
para p do que p = 0, 60. Sendo este o princpio do metodo de estimacao da
maxima verossimilhanca.Tomar como estimador de um parametro o valor
que maximiza a funcao de verossimilhanca da amostra.

Tabela 3.3: Frequencias esperadas do numero de famlias com quatro filhos, em


relacao ao numero de meninas considerando o modelo Binomial com p = 0, 6

Numero de filhas 0 1 2 3 4 Total


Numero de famlias 2,56 15,36 34,56 34,56 12,96 100

Tabela 3.4: Frequencias esperadas do numero de famlias com quatro filhos, em


relacao ao numero de meninas considerando o modelo Binomial com p = 0, 5

Numero de filhas 0 1 2 3 4 Total


Numero de famlias 6,25 25,00 37,50 25,00 6,25 100

Definicao 3.1 (Funcao de verossimilhanca) Sejam X 1 , , Xn uma


amostra aleatoria de tamanho n da variavel aleatoria X, com funcao densidade
(ou de probabilidade) f (x|), com , onde e o espaco parametrico. A
funcao de verossimilhanca de correspondente a amostra aleatoria observada e
dada por:
Yn
L(x; ) = f (xi |) (3.2)
i=i
3.2. MAXIMA VEROSSIMILHANCA 25

Exemplo 3.2.1 Considere (X1 , , Xn ) uma amostra aleatoria de uma


variavel aleatoria X N (, 2 ), como por exemplo as alturas da populacao
brasileira. Como visto, os valores (X1 , , Xn ) sao independentes entre si
e possuem distribuicao N (, 2 ) entao, a verossimilhanca deste amostra sera
(equacao 3.2):

n
1 xi 2
e 2 ( )
Y 1
L(x; , 2 ) =

i=i 2 2
n
1 1
Pn
( xi )
2
= e 2 i=1

2 2

Sendo o estimador de maxima verossimilhanca para um


parametro , o valor que maximiza L(x, ), este e obtido pela soulucao do
sistema:

L(x, )
=0 (3.3)

Uma vez que a funcao ln e monotona crescente, e facil verificar


que o valor que maximiza L(x, ) tambem maximiza l(x, ) = lnL(x, ). l(x, )
e comumente chamada funcao suporte, e devido a maior facilidade na obtencao
da derivada de uma soma de variaveis, em relacao ao produto das mesmas, os
estimadores de maxima verossimilhanca, sao geralmente obtidos por:

l(x, )
=0 (3.4)

Exemplo 3.2.2 Obter os estimadores de maxima verossimilhanca para a media


e a variancia 2 de uma variavel aleatoria X N (, 2 ).
Sabe-se que:

n
1 1
Pn
( xi )
2
L(x; , 2 ) = e 2 i=1

2 2

Portanto, l(x, , 2 ) = lnL(x, , 2 ) e:

n
2 n 2
X (xi )2
l(x, , ) = ln2
2 i=1
2 2

Assim,
26 CAPITULO 3. METODOS DE ESTIMACAO

l(x, , 2 )
= 0

n
X xi
2 = 0
i=1
2 2
n
X
(xi ) = 0
i=1
Pn
i=1 xi
= (3.5)
n

l(x, , 2 )
= 0
2
n
n 1 X
2+ 4 (xi )2 = 0
2 i=1
n
n 1 X
= (xi )2
2 2 4 i=1
Pn 2
i=1 (xi )
2 = (3.6)
n
Um problema do metodo da maxima verossimilhanca e que ape-
sar das boas propriedades estatsticas, este metodo, nem sempre conduz a esti-
madores esplcitos, isto e o sistema de equacoes l(x,)
= 0 nem sempre apre-
senta uma solucao algebrica, sendo necessario a utilizacao de procedimentos
iterativos (Newton-Raphson, Algortmos EM, etc.) para obtencao das estima-
tivas de maxima verossimilhanca.

3.3 Mnimos quadrados


O metodo de mnimos quadrados (Least Square) e utilizado
quado interessa-se em decompor a variavel aleatoria X na forma:

Xi = E(Xi ) + ei ,
em que:
E(Xi ) e o modelo pelo qual deseja-se descrever a variavel;
ei e o erro de estimacao associado a Xi
Assim o metodo visa obter os estimadores E(X) que minimizem
os erros de etimacao ei . Uma medida do erro total de estimacao e dada por
P n
i=1 ei , contudo este valor e sempre nulo. Uma medida Pn do2 erro de estimacao
e dada entao pela soma dos quadrados dos desvios i=1 ei . Asim sendo, os
estimadores de mnimos quadrados sao obtidos, pela solucao do sistema:
3.3. MINIMOS QUADRADOS 27

S(x, )
=0 (3.7)

Pn 2
em que: S(x, ) = i=1 ei

Exemplo 3.3.1 Obter o estimador de mnimos quadrados para a esperanca


matematica ()de uma variavel aleatoria X assumindo os valores xi , x2 , , xn .
O modelo a ser adotado e:

xi = E(X) + ei ,
entao,

ei = xi E(X),
consequentemente,

S(x, )
= 0
Pn
i=1 (xi )2
= 0

n
X
2 (xi ) = 0
i=1
Pn
i=1 xi
=
n
28 CAPITULO 3. METODOS DE ESTIMACAO
Captulo 4

Teoria da estimacao

Definicao 4.1 (Estimador) Consideremos uma amostra (x1 , x2 , x3 , . . . , xn )


de uma variavel aleatoria que deve descrever uma caracterstica de interesse
da populacao. Seja um parametro que desejamos estimar, como por exemplo
a media = E(x) ou a variancia 2 = V (x). Um estimador, , do parametro
e uma variavel aleatoria, que e funcao das observacoes x1 , x2 , x3 , . . . , xn .
Assim,
Pn
xi
x = i=1 n e um estimador da media poupulacional ,
Pn 2
i=1 (xi x)
s2 = n1 e um estimador da variancia populacional 2

Definicao 4.2 (Estimativa) Estimativa e o valor numerico assumido pelo es-


timador quando os valores observados x1 , x2 , x3 , . . . , xn sao considerados.
Assim,
x = 70kg e uma estimativa da media poupulacional ,
s2 = 9kg 2 e uma estimativa da variancia populacional 2

Estimacao por ponto e por intervalo.


Quando a estimativa de um parametro populacional e dada
por um unico valor, tem-se uma estimativa pontual do parametro popula-
cional, desconhecido, como por exemplo a altura media de uma amostra de
500 universitarios e x = 1, 68m, e uma estimativa pontual da verdadeira al-
2
tura media da populacao de universitarios. Porem sabe-se que x N (; n ),
assim sendo, para cada amostra retirada da populacao, podera se obter uma
diferente estimativa para . Deste modo, torna-se mais interessante obter-se, a
partir, de uma determinada amostra, um intervalo que apresente uma probabi-
lidade conhecida de conter o verdadeiro parametro populacional, ou seja obter
uma estimativa por intervalo para o parametro em questao, como por exemplo
P (1, 60 1, 76) = 0, 95, isto e, existe 95% de confianca em se afirmar que a
verdadeira media populacional esteja entre 1,60 e 1,76 metros. Apesar disto, o
uso de estimativas pontuais e imprescindvel, haja vistas, serem necessarias para
a obtencao das estimativas por intervalo. Deste modo desejavel que estas esti-
mativas sejam bastantes confiaveis, e para isso e necessario que os estimadores

29
30 CAPITULO 4. TEORIA DA ESTIMACAO

que as fornecerao apresentem boas propriedades, aliado ao fato de serem obtidas


a partir de amostras representativas.

4.1 Propriedades dos Estimadores pontuais

4.1.1 Nao tendenciosidade

Um estimador e dito um estimador nao tendencioso do


parametro se

E() =

obs. Os termos nao tendencioso, nao viciado, nao viesado e


imparcial sao sinonimos.
Pn
xi
Ex1.:x = i=1
n e um estimador nao tendencioso da media
populacional
prova:

Pn
i=1 xi
E(x) = E
n
" n
#
1 X
= E xi
n i=1
1
= E [x1 + x2 + + xn ]
n
1
= [E(x1 ) + E(x2 ) + + E(xn )]
n
1
= [ + + + ]
n
1
= n
n
=

Pn 2
i=1 (xi x)
Ex2.:s2 = n e um estimador tendencioso da
variancia populacional 2 .
4.1. PROPRIEDADES DOS ESTIMADORES PONTUAIS 31

prova:
n
X n
X
(xi x)2 = (xi + x)2
i=1 i=1
n
2
X
= [(xi ) (x )]
i=1
n
X n
X n
X
2
= (xi ) 2 (xi )(x ) + (x )2
i=1 i=1 i=1
n
X
= como (x ) e uma constante e (xi ) = n(x ), tem-se:
i=1
n
X n
X
(xi x)2 = (xi )2 n(x )2
i=1 i=1

Portanto,
Pn
)2 n(x )2

i=1 (xi
E s2

= E
n
( n
)
1 X 2
2

= E (xi ) nE (x )
n i=1
1
= {nV (X) nV (x)}
n
2

1 2
= n n
n n
n1 2
=
n

Deste modo, verifica-se que s2 e um estimador tendencioso de


2
. Um estimador nao tendencioso e facilmente obtido por:
Pn
n 2 (x1 x)2
s2 = s = i=1 (4.1)
n1 n1

4.1.2 Consistencia
Um estimador e um estimador consistente do parametro se:

i. limn E[] = ;

ii. limn V () = 0.
Pn
xi
x = i=1
n e um estimador consistente da media populacional
, pois
32 CAPITULO 4. TEORIA DA ESTIMACAO

i. E(x) =

) = limn 2
ii. limn V (x n = 0.

4.1.3 Eficiencia relativa


Se 1 e 2 sao dois estimadores nao tendenciosos de , entao, 1
e mais eficiente que 2 se:

V (1 ) < V (2 )
A eficiencia relativa do estimador 1 , em relacao ao estimador
2 e dada por:

V (2 )
Ef1 ,2 = (4.2)
V (1 )

4.2 Estimacao por intervalo


Conhecendo-se a distribuicao amostral do estimador, de um
parametro , pode-se facilmente determinar um intervalo que apresente uma
confianca 1 para , como sera visto a seguir.

4.2.1 Intervalo de confianca para a media


4.2.1.1 Variancia conhecida
2 x
Sabe-se que x N (; n ), assim a variavel z = tera dis-
n
tribuicao N (0; 1). Fixando-se um nvel de confianca (1 ) vira:

P (z 2 z z 2 ) = 1
P (z 2 x
z 2 ) = 1
n
P (z 2 n x z 2 n ) = 1
P (x z 2 n x + z 2 n ) = 1
P (x + z 2 n x z 2 n ) = 1 reorganizando vem
P (x z 2 n x + z 2 n ) = 1

E o intervalo de confianca para , com uma confianca 1


pode ser entao escrito como:

IC()1 = x z 2 (4.3)
n
em que
n e o tamanho da amostra.
Obs. Se ocorrer amostragem sem reposicao em populacao finita
(ASRPF) o intervalo de confianca para a media sera:
4.2. ESTIMACAO POR INTERVALO 33

r
N n
IC()1 = x z 2 (4.4)
n N 1
onde:
N e o tamanho da populacao;
n e o tamanho da amostra.

Exemplo 4.2.1 Uma maquina produz rolamentos que apresentam desvio


padrao de 0, 042 polegadas em seu diametro. Desejando-se conhecer o diametro
medio dos rolamentos produzidos por esta maquina, extraiu-se uma amostra de
100 rolamentos, observando-se uma media igual a 0, 824 polegadas. Obter o in-
tervalo com 0, 90 de confianca para o verdadeiro diametro medio dos rolamentos.
Solucao:
Tem-se x = 0, 824 = 0, 042 n = 100 1 = 0, 90 substituindo
esses valores em 4.3 vem:
0, 042
IC()0,90 = 0, 824 z0,05
100
0, 042
= 0, 824 1, 65
100
= 0, 824 0, 007

Interpretacao: Como e um parametro e nao uma variavel


aleatoria, a interpretacao correta do intervalo de confianca e: Construdos to-
dos os intervalos do tipo x 1, 65 n , 90% deles conterao o parametro . Na
pratica, apenas um unico intervalo e construdo, no presente exemplo tal inter-
valo foi [0, 817; 0, 831]. Esse intervalo e entao comumente chamado intervalo de
confianca de 90% para . Isto e tem-se 90% de confianca de que esse intervalo
contenha o valor , no sentido de que 90% dos intervalos assim construdos
conteriam .
E obviamente incorreto, do ponto de vista da estatstica classica
ou frequentista, dizer que a probabilidade do intervalo [0, 817; 0, 831] conter o
valor e 0,90. Pois essa probabilidade e 0 ou 1, dependendo de pertencer ou
nao ao intervalo ao intervalo fixo.

4.2.1.2 Variancia desconhecida


Quando nao se conhece 2 e consequentemente , mas sim sua
estimativa s, o intervalo de confianca para a media sera dado por:
Amostras Pequenas (n 30)
s
IC()1 = x t 2 , (4.5)
n
t 2 com n 1 graus de liberdade,
em que:
n e o tamanho da amostra.
34 CAPITULO 4. TEORIA DA ESTIMACAO

Obs. Se ocorrer amostragem sem reposicao em populacao finita


(ASRPF) o intervalo de confianca para a media sera:
r
s N n
IC()1 = x t 2 , (4.6)
n N 1
t 2 com n 1 graus de liberdade,
onde:
N e o tamanho da populacao;
n e o tamanho da amostra.
Amostras Grandes (n > 30)
Foi visto que a medida que aumenta-se o tamanho da amostra,
a distribuicao t se Student se aproxima da distribuicao normal, deste modo,
quando se estiver trabalhando com amostras grandes (n > 30) pode-se utilizar
a distribuicao normal padronizada, z, em lugar da t na obtencao dos intervalos
de confianca, mesmo que 2 seja desconhecida.

Exemplo 4.2.2 Um Cia adquiriu 500 cabos. Uma amostra de 30 deles sele-
cionados ao acaso apresentou tensao de ruptura media igual a 2400 kg com
desvio padrao de 150 kg. Obter o intervalo com 95% de confianca para a ver-
dadeira tensao media de ruptura destes cabos.
solucao:
Tem-se:N = 500 n = 30 x = 2400 s = 150 1 = 0, 95
n 30
N = 500 = 0, 06 > 0, 05 ocorreu ASRPF.

r
150 500 30
IC()0,95 = 2400 t0,025
30 500 1
= 2400 (2, 045)(27, 38)(0, 97)
= 2400 54, 31

Interpretacao: Existe 95% de confianca em se dizer que a ver-


dadeira tensao media de ruptura dos cabos esta entre 2345,69 e 2454,31kg.

4.2.2 Diferenca entre duas media (a b )


.

4.2.2.1 Variancias Conhecidas:

s
a2 2
IC(a b )1 = xa xb z 2 + b (4.7)
na nb
em que:
4.2. ESTIMACAO POR INTERVALO 35

xa e xb sao as estimativas pontuais das medias das populacoes


a e b, respectivamente;
a2 e b2 as variancias das populacoes a e b, respectivamente e
na e nb os tamanhos das amostras das populacoes a e b, respec-
tivamente.
Obs: Se ocorrer ASRPF deve-se multiplicar a variancia da pop-
ulacao na qual ocorreu ASRPF pelo fator de correcao N n
N 1 .

Exemplo 4.2.3 As empresas A e B produzem tubos para esgoto com a


variancias em seus diametros iguais a 8mm2 e 10mm2 , respectivamente. Uma
amostra de 48 tubos da empresa A apresentou diametro medio igual a 40mm, e
uma amostra de 36 tubos da empresa B apresentou diametro medio de 42mm.
Verifique, por meio de um intervalo de confianca com 0, 95 de probabilidade, se
existe diferenca entre os diametros medios dos tubos das marcas A e B.
Solucao:
Pop. A Pop. B
2 2
A = 8 B = 10
xA = 40 xB = 42
nA = 48 nB = 36
s
a2 2
IC(a b )0,95 = xa xb z0,025 + b
na nb
r
8 10
= 40 42 1, 96 +
40 42
= 2 1, 2973

Conclusao: Pode-se afirmar com 95% de confianca que a ver-


dadeira diferenca entre os diametros medios dos tubos produzidos pelas empresas
A e B esta entre 2 1, 2973mm, isto e entre -3,2973 e -0,7027 mm. Como
esse intervalo nao compreende o valor 0 (zero) Tem-se 95% de confianca em
afirmar que os diametros medios dos tubos produzidos por estas empresas nao
sao iguais.

4.2.2.2 Variancias Desconhecidas:


Quando desconhece-se as variancias populacionais (a2 e b2 )
torna-se necessario a substituicao de seus valores parametricos por suas esti-
mativas amostrais (s2a e s2b ). Neste caso, deve-se utilizar a distribuicao t de
Student, em lugar da normal. Alem desta alteracao deve-se considerar ainda
se as duas populacoes sao homocedasticas ou heterocedasticas, isto e, se as
variancias populacionais (desconhecidas) sao iguais ou diferentes, o que pode
ser aferido por meio de um teste de hipotese para homogeneidade das variancias
(Cap 7).
Populacoes homocedasticas
36 CAPITULO 4. TEORIA DA ESTIMACAO

Sendo as populacoes homocedasticas (a2 = b2 = 2 ), assim, s2a


es2b sao duas estimativas para um mesmo parametro ( 2 ) entao, o intervalo de
confianca para a diferenca entre duas medias e dado por:
r
1 1
IC(a b )1 = xa xb t 2 sp + , (4.8)
na nb
t 2 com na + nb 2 graus de liberdade.
em que:
s
(na 1)s2a + (nb 1)s2b
sp =
na + n b 2
Populacoes heterocedasticas
Sendo as populacoes heterocedasticas (a2 6= b2 ), assim, s2a e s2b
sao estimativas de diferentes parametros, nao podendo, pois serem combinadas
em um unico valor. Entao o intervalo de confianca para a diferenca entre duas
medias e dado por:
s
s2a s2
IC(a b )1 = xa xb t 2 + b (4.9)
na nb
t 2 com v graus de liberdade.
em que:
2
s2a s2b

na + nb
v= 2
s2
2
s2
a b
na nb

na 1 + nn 1

Exemplo 4.2.4

4.2.3 Intervalo de confianca para proporcao


4.2.3.1 Amostras grandes (n > 30)
O intervalo de confianca para a proporcao e dado por:
r
pq
IC(P )1 = p z 2 (4.10)
n
em que:
p e a proporcao estimada na amostra;
q = 1 p e;
n e o tamanho da amostra.
Obs: Se ocorrer ASRPF, o intervalo de confianca para pro-
porcao e dado por:
r r
pq N n
IC(P )1 = p z 2 (4.11)
n N 1
4.2. ESTIMACAO POR INTERVALO 37

4.2.3.2 Amostras pequenas (n 30)


Quando a amostra for pequena deve-se utilizar a distribuicao
t de Student, em lugar da normal e o intervalo de confianca para a proporcao
sera dado entao por:
r
pq
IC(P )1 = p t 2 , (4.12)
n
t 2 com n 1 graus de liberdade
Obs: Se ocorrer ASRPF, o intervalo de confianca para pro-
porcao e dado por:
r r
pq N n
IC(P )1 = p t 2 (4.13)
n N 1
t 2 com n 1 graus de liberdade

4.2.4 Intervalo de confianca para a diferenca entre pro-


porcoes
Dadas duas amostras independentes, de populacoes diferentes,
o intervalo de confianca para a diferenca entre as proporcoes nestas populacoes
e dado por:

4.2.4.1 Amostras grandes (n > 30)

r
pa qa pa qb
IC(Pa Pb )1 = (pa pb ) z + (4.14)
2
na nb
em que:
pa e a proporcao estimada na amostra;
qa = 1 pa ;
qa = 1 pa ;
na e nb sao os tamanhos das amostras a e b, respectivamente
Obs: Se ocorrer ASRPF, deve-se multiplicar o componente da
variancia, referente a populacao na qual ocorreu ASRPF pelo fator de correcao
N n
N 1 .

4.2.4.2 Amostras pequenas (n 30)

r
pa qa pa qb
IC(Pa Pb )1 = (pa pb ) t 2 + (4.15)
na nb
t 2 com na + nb 2 graus de liberdade
Obs: Se ocorrer ASRPF, deve-se multiplicar o componente da
variancia, referente a populacao na qual ocorreu ASRPF pelo fator de correcao
N n
N 1 .
38 CAPITULO 4. TEORIA DA ESTIMACAO

4.2.5 Intervalo de confianca para a variancia ( 2 )


O intervalo de confianca para a variancia populacional e dado
por:
Sabe-se que

(n 1)s2
sin 2n1
2
Entao,
" #
(n 1)s2 2 (n 1)s2
P =1
21 2
2 2

E o intervalo de confianca para a variancia sera:


" #
2 (n 1)s2 (n 1)s2
IC( )1 = ; (4.16)
21 2
2 2
Captulo 5

Teoria da decisao (Testes de


Hipoteses)

5.1 Consideracoes iniciais


Uma hipotese cientfica e qualquer afirmacao que possa ser refu-
tada, caso contrario pertencera a outro ramo do conhecimento humano, como
por exemplo a religiao. Assim sendo, a hipotese: Os motores da marca x
sao mais economicos que os da marca y e uma hipotese cientfica, pois qual-
quer pessoa que duvide, ou queira comprova-la, pode montar um experimento
e averiguar sua veracidade. Por outro lado, a hipotese: Deus existe, nao
pode ser avaliada, nao sendo, portanto, cientfica. Uma determinada hipotese
e tida como verdadeira, se em sua avaliacao nao forem encontrados indcios
que a desaprovem, permanecendo assim ate que se prove o contrario. Para que
uma hipotese cientfica seja testada, ela deve ser convertida em uma hipotese
estatstica, que e uma afirmacao sobre um parametro populacional. Um teste de
hipotese, fundamenta-se em um conjunto de regras, que permitem, a partir dos
resultados experimentais (amostrais) rejeitar ou nao tal hipotese, associando a
esta decisao uma determinada confianca.

5.1.1 Hipoteses estatsticas


Para a realizacao de um teste de hipoteses, deve-se formular
duas hipoteses estatsticas, a saber:

Hipotese de nulidade (H0 ) e a hipotese que sera testada, sendo geralmente


formulada com o intuito de ser rejeitada.

Hipotese alternativa (Ha ) e qualquer hipotese que contrarie H0 .

Suponha que esteja-se interessado em verificar se a verdadeira


performance (km/litro de combustvel) dos veculos, de determinada marca,

39
40 CAPITULO 5. TEORIA DA DECISAO (TESTES DE HIPOTESES)

equipados com motores 1.6 c.c. seja de 14km/l, como afirma o fabricante,
ou se este e inferior a 14km/l. Entao deve-se formular as seguintes hipotese
estatsticas:

H0 : = 14km/l
Ha : < 14km/l

Para verificar a veracidade da hipotese H0 , deve-se conduzir


um experimento (coletar uma amostra), no qual sera medida a performance
de varios carros, que fornecerao uma estimativa da performance media, e sua
variancia, a partir das quais, verifica-se a veracidade da hipotese H0 . Suponha
que no experimento acima tenham sido avaliados 9 carros, e que estes tenham
apresentado uma performance media de 13 km/l, com variancia 4(Km/l)2 . Pelo
simples fato desta amostra de 9 carros ter apresentado uma performance media
inferior a informada pelo fabricante (14 km/l), nao se pode concluir que esta
afirmativa seja falsa, pois como ja e sabido, esta estimativa esta sujeita uma
distribuicao amostral. Deste modo, para verifica a veracidade de H0 , assume-se
que esta hipotese seja verdadeira, isto e = 14 km/l. e calcula-se a probabili-
dade de uma amostra, com tamanho n = 9, retirada desta populacao, fornecer
uma estimativa inferior a estimativa obtida (13 km/l). Caso esta probabilidade
seja alta, nao havera nenhuma razao para rejeitar a hipotese H0 (isto e duvi-
dar de sua veracidade), sendo esta tida como verdadeira. Nesta situacao disse
que a diferenca observada entre a media amostral (13 km/l) e a populacional
(14 km/l) nao e significativa, da a terminologia usual de que o teste foi nao
significativo, usada para dizer que a hipotese H0 nao foi rejeitada. Por outro
lado, se a probabilidade de se obter esta estimativa for pequena (p < 0, 05) ha
razoes para acreditar que a verdadeira media populacional seja menor do que
se imaginva, ou seja a verdadeira performance deve ser menor que 14 km/l.
Nesta situacao, diz-se que a diferenca foi significativa, portanto a hipotese H 0
deve ser rejeitada (o teste foi significativo). Obs: Nao existe nenhum argumento
cientfico para se fixar o nvel de probabilidade limite de um teste em 0, 05. Este
e apenas um valor usual, devido a facilidade de sua obtencao em tabelas. No
nosso exemplos temos:

H0 : = 14km/l
Ha : < 14km/l

na amostra de n = 9 carros
obteve-se x = 13 km/l e s2 =
2
4 (km/l)2 ; sabendo-se que x sin N , n , assumido = 14 km/l, e como nao
se conhece 2 , mas sim s2 , tem-se:
x t(8) 14, 94

grafico

x 13 14
tc = = = 1, 5
2
n 9

Entao,
5.1. CONSIDERACOES INICIAIS 41

P |H0 (x 13) = P (t 1, 5) = 0, 1720

como esta probabilidade e alta, nao ha razoes para acreditar


que a verdadeira performance media seja inferior a 14 km/l

5.1.2 Tipos de erros


Ao realizar-se um teste de hipotese, pode-se incorrer em dois
tipos de erros, que serao discutidos a seguir. Suponha que a hipotese H0 formu-
lada, no exemplo anterior seja verdadeira, isto e a performance media dos carros
realmente e de 14 km/l, isto e ( = 14 km/l), e por efeito de acaso obtenha-se,
na amostra, uma estimativa de performance, cuja probabilidade de ocorrencia
seja muito baixa, o que levaria a rejeicao da hipotese H0 : = 14 km/l, que
e verdadeira. Entao ter-se-a cometido um erro denominado erro Tipo I (re-
jeitar uma hipotese H0 ) verdadeira. A probabilidade de se cometer este erro
e denominada nvel de significancia () sendo esta, determinada (fixada) pelo
pesquisador. Por outro lado, a hipotese formulada pode ser falsa, isto e na ver-
dade 6= 14 km/l, e por efeito de acaso obter uma estimativa, que nos leve a
nao rejeicao da hipotese H0 : = 14 km/l. Nesta situacao ter-se-a cometido
o erro Tipo II (aceitar H0 falsa). A probabilidade de cometer este erro e (),
sendo esta uma funcao de , H0 e do tamanho amostral. As probabilidades de
se cometer os erros Tipo I e Tipo II, ( e ) sao inversamente proporcionais,
como pode ser observado na fig?, sendo que, a unica maneira de se diminuir
simultaneamente e e aumentando o tamanho amostral (n).

Figura 5.1: Erros Tipo I e Tipo II.

Figura tipos de erros


42 CAPITULO 5. TEORIA DA DECISAO (TESTES DE HIPOTESES)

Os tipos de erros que podem ser cometidos em um teste de


hipoteses, bem como suas probabilidades estao resumidos na tabela 5.1

Tabela 5.1: Tipos de erros passveis de serem cometidos ao se testar uma


hipotese

Decisao
Realidade Rejeita H0 Nao Rejeita H0
H0 verdadeira 1
(erro Tipo I) Decisao correta
H0 falsa 1
Decisao correta (erro Tipo II)

5.1.3 Tipos de testes


De acordo com o tipo de hipotese formulada pode-se ter os
seguintes tipos de testes de hipoteses:

i. Teste Bilateral: Apresenta duas regioes de rejeicao de da hipotese H0 ,


situadas nos extremos da distribuicao amostral, e utilizado para testar as
hipoteses do tipo:

H0 : =
Ha : 6=

ii. Teste Unilateral a Direita: Apresenta uma unica regiao de rejeicao da


hipotese H0 , situada no extremo superior da distribuicao amostral, e uti-
lizado para testar as hipoteses do tipo:

H0 : =
Ha : >

iii. Teste Unilateral a Esquerda Apresenta: uma regiao de rejeicao da hipotese


H0 , situada no extremo inferior da distribuicao amostral, e utilizado para
testar as hipoteses do tipo:

H0 : =
Ha : <

5.1.4 Algoritmo para realizacao de um teste de hipotese


i. Formular as hipotese H0 e Ha ;

ii. Fixar o valor de ;


5.1. CONSIDERACOES INICIAIS 43

iii. Construir a regra de decisao (regioes de rejeicao e nao rejeicao de H 0 );

iv. Calcular a estatstica adequada para o teste;

v. Tomar a decisao;

vi. Conclusao.

Exemplo. Aplicando-se este algoritmo ao exemplo da perfor-


mance media dos carros tem-se:

i.

H0 : = 14km/l
Ha : < 14km/l

ii. = 0, 05

iii. t0,05 (8) = 1, 860 Regra: rejeitar H0 se tcalc 1, 860

iv.

x 0 13 14
tcalc = = = 1, 5
s 2
n 9

v. Como tcalc = 1, 5 > ttab = 1, 860, nao rejeita-se a hipotese H0 , pois o


valor da estatstica teste (tcalc ) encontra-se na regiao de nao rejeicao de H0 .

vi. Conclui-se pelo teste t de Student, ao nvel de 0, 05 de probabilidade que a


verdadeira performance media destes carros nao e inferior a 14 km/l.
44 CAPITULO 5. TEORIA DA DECISAO (TESTES DE HIPOTESES)

5.2 Estatstica apropriadas para os testes de


hipoteses
Parametro Presuposicoes Estatstica Distribuicao
x0 n > 30 N (0, 1)
X N (, 2 ) tcalc = s
n n 30 t(n1)

a b
Xa N (a , a2 ) tcalc = xa xq
b (a b )
sp n1a + n1 n > 30 N (0, 1)
Xb N (b , b2 ) b
n 30 t(na +nb 2
q
(na 1)s2a +(nb 1)s2b
a2 = b2 sp = na +nb 2

n > 30 N (0, 1)
Xa N (a , a2 ) n 30 t(v)
2
xa xb (a b ) s2

s2
Xb N (b , b2 ) tcalc = r a b
na + nb
s2 s2
a2 6= b2 a
na + nb
b
v=
s2
!2 2 !2
s
a b
na nb
na 1 + nn 1

0
dd
tcalc = s
d n > 30 N (0, 1)
dados pareados n
di = x i antes xi depois
n 30 t(n1)

qpp0
n > 30 N (0, 1)
p tcalc = p(1p)
n
n 30 t(n1)

pa pb (p0a p0b ) n > 30 N (0, 1)


pa p b tcalc =
n 30 t(na +nb 2
q
pa (1pa ) p (1p )
n + b n b

a2 Xa N (a , a2 ) s2a b2
Fcalc = F(na 1),(nb 1)
b2 Xb N (b , b2 ) s2b a2

5.2.1 Teste de Qui-Quadrado (2 )


O teste de Qui-Quadrado e utilizado para comparacao entre as
frequencias observadas as esperadas segundo um modelo probabilstico qualquer.
Uma medida da discrepancia entre as frequencias observadas e
esperadas e dada por:

k
X (Foi Fei )2
2calc = ; (5.1)
i=1
F ei

em que:
Foi e a frequencia observada;
Fei e a frequencia esperada.
5.2. ESTATISTICA APROPRIADAS PARA OS TESTES DE HIPOTESES45

A expressao 5.1 fornece um valor sempre positivo, e pode-se


demonstrar que 2calc 2v . Em que 2v e uma distribuicao Qui-Quadrado com
v graus de liberdade.
Assim, a estatstica 5.1 pode ser utilizada tanto para verificar
a aderencia das frequencias observadas a um modelo, (teste Qui-Quadrado de
aderencia), como para verificar a independencia entre duas variaveis.

5.2.1.1 Teste de aderencia


E utilizado para verificar o ajustamento de um modelo de pro-
babilidade aos dados observados, ou seja, verificar se as diferencas entre as
frequencias observadas e esperadas sao estatisticamente significativas.
Neste caso o numero de graus de liberdade (v) sera:

v = k 1 m,
em que:
k e o numero de classes, e
m o numero de parametros estimados para se obter as freq.
esperadas.

Exemplo 5.2.1 . Em seus experimentos com ervilhas, Mendel, ao cruzar plan-


tas de sementes amarelas lisas com plantas de sementes verdes enrugadas, obser-
vou a seguinte descendencia na geracao F2 : 315 plantas com sementes amarelas
lisas, 108 com sementes amarelas enrugadas, 101 com sementes verdes lisas e
32 com sementes verdes enrugadas. De acordo com os postulados de Mendel
a segregacao esperada nesta geracao deveria seguir a proporcao de 9:3:3:1 Ve-
rificar se a teoria da segregacao independente dos genes explica a segregacao
observada.
Solucao:
Hipoteses a serem testadas:
2
proporcao = 9 : 3 : 3 : 1 =0

proporcao 6= 9 : 3 : 3 : 1 2 > 0

Obter as frequencia esperadas


classes Fo Fe
Amarelas lisas 315 312,75
Amarelas enrugadas 108 104,25
Verdes lisas 101 104,25
Verdes enrugadas 32 34,75
Total 56 556
Obter a estatstica 2calc

(315 312, 75)2 (32 34, 75)2


2calc = + + = 0, 470
312, 75 34, 75
46 CAPITULO 5. TEORIA DA DECISAO (TESTES DE HIPOTESES)

como nenhum parametro foi estimado, o numero de graus de


liberdade sera: v = 4 1 0 = 3
Verifica-se na tabela de 2 que 2(0,01) (3) = 11, 345
Como 2calc < 2tab o teste foi nao significativo.
Exemplo 5.2.2 A distribuicao do numero de gols/partida, realizadas pelo
Cruzeiro, durante o Brasileirao 2001, foi:

Tabela 5.2: Numero de gols por partida marcados pelo Cruzeiro Esporte Clube
durante o campeonato brasileiro de 2002.

Numero de gols 0 1 2 3 4
Numero de partidas 8 9 4 2 3

Verificar se o numero de gols por partida pode ser modelado


segundo uma distribuicao de Poison
Solucao:
Para obtencao das frequencias esperadas pela distribuicao
torna-se necessario estimar o numero medio de gols: x = 1, 35 gols por partida,
em em seguida obter a distribuicao de probabilidade do numero de gols/partidas:

Tabela 5.3: Probailidades estimadas via modelo de Poisson do numero de


gols por partida marcados pelo Cruzeiro Esporte Clube durante o campeonato
brasileiro de 2002.
numero de gols 0 1 2 3 4
Prob. 0,26 0,35 0,23 0,10 0,04

Assim a frequencia esperada pela distribuicao de Poison sera


dada pelo produto da probabilidade do cruzeiro realizar um determinado numero
de gols em uma partida pelo numero de partidas realizadas:

Tabela 5.4: Frequencias esperadas do numero de gols por partida marcados pelo
Cruzeiro Esporte Clube durante o campeonato brasileiro de 2002, estimadas pelo
modelo Poisson.
Numero de gols 0 1 2 3 4
Numero de partidas (Fo) 8 9 4 2 3
Fe 6,76 9,10 6,24 2,86 1,04

O valor da estatstica 2 sera:


(8 6, 76)2 (9 9, 10)2 (3 1, 04)2
2calc = + + + = 4, 98
6, 76 9, 10 1, 04
5.2. ESTATISTICA APROPRIADAS PARA OS TESTES DE HIPOTESES47

Tabela 5.5: Numero de alunos matriculados em dois coledios em relacao a classe


social dos mesmos
Classe social
colegio Alta Media Baixa Total
A 20 40 40 100
B 50 40 30 120
Total 70 80 70 220

Comparando esse valor com o de 2T abela = com 3 graus de liber-


dade (5-1-1) tem-se que o pvalor=0.1732, portanto nao rejeita-se H0 .

5.2.1.2 Teste de independencia


O teste 2 de independencia e aplicado a tabelas de con-
tingencia, as quais sao construidas no intuito de estudar a relacao entre duas
variaveis categoricas. Considere-se como exemplo a tabela 5.6 na qual estao
apresentados os numero de alunos matriculados nos coledios A e B, em relacao
a sua classe economica (alta, media ou baixa).
A estatstica utilizada para o teste e
h X k 2
X (F oij F eij )
2calc = (5.2)
i=1 j=1
F eij
em que:
F oij e a frequencia observada na casela ij;
F eij e a frequencia esperada na casela ij, a qual e dada por:

(T otal da lina i)(total da coluna j)


F eij =
total geral
Sob H0 , a estatstica 5.2 tem distribuicao de 2 com
v = (h 1)(k 1) p
graus de liberdade, sendo p o numero de parametros estimados.
No exemplo tem-se:
substituindo esses resultados em 5.2
2 2 2
(20 31, 82) (40 36, 36) (30 30, 18)
2calc = + + + = 20, 27
31, 82 336, 36 30, 18
Verifica-se na tabela de 2 que o valor de 20,05 (2) = 5, 99. Como
o valor de 2calce maior que o de 2tab , este se encontra na regiao de rejeicao de
H0 portanto, rejeita-se a hipotese de independencia entre os colegios e a classe
social dos alunos. Ou seja pode-se afirmar, ao nvel de 0,05 que a classe social
e o colegio no qual os alunos estudam nao sao independentes.
48 CAPITULO 5. TEORIA DA DECISAO (TESTES DE HIPOTESES)

Tabela 5.6: Numero de alunos matriculados em dois coledios em relacao a classe


social dos mesmos
Classe social
colegio Alta Media Baixa Total
A 20(31,82) 40(36,36) 40(31,82) 100
B 50(31,18) 40(43,64) 30(38,18) 120
Total 70 80 70 220
( ) Frequencia esperada
Captulo 6

Referencias Bibiliograficas

BEARZOTI, E. Introducao a teoria de probabilidades e a inferencia estatstica.


Lavras, Editora UFLA, 1998,287p.(apostila)

BUSSAB, W. O . ; MORETTIN, P. Estatstica Basica. Ed. Atual, 1985, 321


p.

COSTA NETO, P. L. ESTATISTICA. Sao Paulo. Ed. Edgar Blucher. 1979

DeGROOt, M. H; SCHERVISH, M.J. Probability and Statistics 3th


Ed.Boston, Addison Wesley, 2002, 816p.

MOOD, A.L.; GRAYBILL, F.A.; BOES, D.C. Introduction to the theory


of Statistics. Tokio, McGraw-Hill Kogakusha, 3.ed., 1974. 564p.

MORETTIN, L. G. Estatstica Basica - Inferencia. V. 2. Sao Paulo: Makron


Books, 1999

TRIOLA, M. F. Introducao a estatstica. Rio de Janeiro: LTC. 7a edicao,


1999.

LARSON, H. J. Introduction to probability theory and estatistical inference.


3 ed. Mx Graw-Hill, 1979, 364 p.

RAO,C. R. Linear statistical inference and its aplications. 2 ed. John Willey
& Sons Inc., New York, 1973, 624 p.

49

Você também pode gostar