Você está na página 1de 30

Inferencia Estatstica Estima cao

Claudio Tadeu Cristino


1
1
Universidade Federal Rural de Pernambuco, Recife, Brasil
Segundo Semestre, 2011
C.T.Cristino (DEINFO-UFRPE) Inferencia Estatstica Estima c ao 2011 1 / 30
Estima c ao
Inferencia Estatstica
A Inferencia Estatstica e um conjunto de tecnicas que objetiva estudar a
popula cao atraves de evidencias fornecidas por uma amostra.

E a amostra
que contem os elementos que podem ser observados e, a partir da,
quantidades de interesse podem ser medidas. Alguns exemplos:
Suponha que a quantidade de empresas que sao abertas em um mes
seja modelada como sendo uma variavel de Poisson, mas
desconhecemos a sua media (que e essencial para podermos calcular
as probabilidades relacionadas).
A variancia no consumo de etanol no pas e um importante indicador
para tal consumo (que pode ser utilizado para programar de maneira
otima a produ cao e as exporta coes).
C.T.Cristino (DEINFO-UFRPE) Inferencia Estatstica Estima c ao 2011 2 / 30
Par ametros, Estimadores e Estimativas
Parametros, Estimadores e Estimativas
Para formalizar as ideias que serao apresentados nesta parte do curso,
precisamos denir alguns conceitos:
Deni cao
As quantidades da popula cao, em geral desconhecidas, sobre as quais
temos interesse, sao denominadas parametros e, usualmente, representadas
por letras gregas, tais como , , .
Por exemplo:
Se a altura de uma popula cao e modelada pela Normal, este modelo
dependera de dois parametros: a media, , e a variancia,
2
.
Se as pontua coes de um pessoa em dois tipos diferentes de provas sao
dadas por variaveis aleatorias com correla cao desconhecidas, deve-se
estimar esta grandeza.
C.T.Cristino (DEINFO-UFRPE) Inferencia Estatstica Estima c ao 2011 3 / 30
Par ametros, Estimadores e Estimativas
Parametros, Estimadores e Estimativas
Deni cao
Toda fun cao de elementos de uma amostra e chamada estatstica. Estas
fun coes sao utilizadas para produzir aproxima coes para os parametros da
popula cao (que sao inacessveis). Esta combina cao dos elementos a
amostra e denominada estimador do parametro de interesse. Como uma
nota cao comum, escreve-se

para um estimador do parametro . Aos
valores numericos assumidos pelos estimadores denominamos estimativas
pontuais ou, simplesmente, estimativas. Matematicamente, escrevemos:
para um parametro (ou grandeza de interesse) da popula cao :

= f (X
1
, X
2
, . . . , X
n
),
em que (X
1
, X
2
, . . . , X
n
) e uma amostra de elementos da popula cao e f e
uma fun cao adequada. Nesta caso,

e um estimador de .
C.T.Cristino (DEINFO-UFRPE) Inferencia Estatstica Estima c ao 2011 4 / 30
Par ametros, Estimadores e Estimativas Estima c ao - Exemplo
Estima cao - Exemplo
Estimando a media
Suponha que desejemos obter o salario medio, de pessoas entre 18 e 25
anos, residentes na Regiao Metropolitana de Recife. Qual seria o
procedimento? A ideia e retirar (adequadamente) uma amostra da
popula cao com o perl desejado e fazer uma estima cao. Suponha que
tenhamos uma amostra de tamanho 10, (X
1
, X
2
, . . . , X
10
), e vamos
observar algumas estatsticas que podem no ajudar:

1
= f
1
(X
1
, . . . , X
10
) =
mnimo + maximo
2
;

2
= f
2
(X
1
, . . . , X
10
) = X
1
;

3
= f
3
(X
1
, . . . , X
10
) =
X
1
+ X
2
+ + X
10
10
= X.
C.T.Cristino (DEINFO-UFRPE) Inferencia Estatstica Estima c ao 2011 5 / 30
Par ametros, Estimadores e Estimativas Estima c ao - Exemplo
Estima cao - Exemplo
Estimando a media
Se a amostra e dada por:
830,00 714,00 530,00 1200,00 400,00
620,00 530,00 280,00 475,00 320,00
Tabela: Salario (em reais) de trabalhadores entre 18 e 25 anos, RMR (ctcio).
Temos:

1
= (280, 00 + 1200, 00)/2 = 740, 00.

2
= 830, 00.

3
= (830, 00 + 710 + + 320, 00)/10 = 589, 90.
C.T.Cristino (DEINFO-UFRPE) Inferencia Estatstica Estima c ao 2011 6 / 30
Par ametros, Estimadores e Estimativas Estima c ao - Exemplo
Estimadores usuais
Temos alguns estimadores naturais para certos parametros:
X
n
=
X
1
+ X
2
+ + X
n
n
a media amostral.

2
=
1
n 1

n
i =1
(X
i
X
n
)
2
, a variancia amostral;
p =
n umero de tens com a caractersticas na amostra
n
.
C.T.Cristino (DEINFO-UFRPE) Inferencia Estatstica Estima c ao 2011 7 / 30
Par ametros, Estimadores e Estimativas Como escolher um estimador?
Como escolher um estimador?
Deni cao
Um estimador

e dito nao viciado ou nao viesado para um parametro se
E(

) = .
Se

= f (X
1
, . . . , X
n
) e um estimador de , entao o vcio ou vies desse
estimador e dado pelo valor
b

(n) = E(

) .
Deni cao
Um estimador

e dito consistente se as seguintes propriedades sao
satisfeitas:
1
lim
n
E(

) = (ou seja, e assintoticamente nao viciado);


2
lim
n
Var(

) = 0 (tende a uma constante).


C.T.Cristino (DEINFO-UFRPE) Inferencia Estatstica Estima c ao 2011 8 / 30
Par ametros, Estimadores e Estimativas Como escolher um estimador?
Precisao ou Exatidao?
C.T.Cristino (DEINFO-UFRPE) Inferencia Estatstica Estima c ao 2011 9 / 30
Par ametros, Estimadores e Estimativas Como escolher um estimador?
Escolha de estimadores
Deni cao
Dados dois estimadores

1
e

2
, ambos nao viciados para um parametro ,
dizemos que

1
e mais eciente do que

2
se Var(

1
) < Var(

2
).
Tabela: Estimadores para a media (), propor cao (p) e variancia (
2
).
Parametro Estimador Propriedades
X = (X
1
+ + X
n
)/n nao viciado e consistente
p p = (freq.na amostra)/n nao viciado e consistente

2
S
2
=
_

n
i =1
X
2
i
nX
2
_
/(n 1) nao viciado e consistente

2

2
=
_

n
i =1
X
2
i
nX
2
_
/n viciado e consistente
C.T.Cristino (DEINFO-UFRPE) Inferencia Estatstica Estima c ao 2011 10 / 30
Distribui c oes Amostrais
Distribui cao de X e S
2
Nosso objetivo e determinar uma possvel distribui cao para a media
amostral. Lembre-se: como X e S
2
sao duas estatsticas (fun coes) de
elementos de uma amostra, tal media e tal variancia amostrais podem ser
vistas como variaveis aleatorias, possuindo, portanto, fun cao de
distribui cao, esperan ca e variancia, etc.... Estas medidas qualicam a
media e a variancia amostral.
Exemplo
Suponha que estejamos interessados em estudar o n umero de
contamina coes pela dengue em nossa cidade. A ANVISA - Agencia
Nacional de Vigilancia Sanitaria, informa que em Recife as probabilidades
de n umero de infec coes de uma pessoa pelo vrus da dengue e:
X 0 1 2 3
P(X = x) 0,10 0,25 0,35 0,30
Tabela: N umero de infeccoes de uma mesma pessoa pelo vrus da dengue em Recife
(dados ctcios).
C.T.Cristino (DEINFO-UFRPE) Inferencia Estatstica Estima c ao 2011 11 / 30
Distribui c oes Amostrais
As distribui coes da media e da variancia amostral foram obtidas e
apresentadas como:
Tabela: Distribui cao da media amostral X = (X
1
+ X
2
+ X
3
)/3.
X 0 1/3 2/3 1 4/3
P(X = x) 0,001 0,0075 0,02925 0,077125 0,147375
X 5/3 2 7/3 8/3 3
P(X = x) 0,211125 0,227375 0,17775 0,0945 0,027
Tabela: Distribui cao da variancia amostral S
2
= (X
2
1
+ X
2
2
+ X
2
3
3 X
2
)/2.
S
2
0 1/3 1 4/3 7/3 3
0,0865 0,3885 0,21 0,171 0,108 0,036
C.T.Cristino (DEINFO-UFRPE) Inferencia Estatstica Estima c ao 2011 12 / 30
Distribui c oes Amostrais
Consideremos primeiramente o caso de uma popula cao Normal, isto e, a
variavel de interesse X N(,
2
). Portanto, temos que (X
1
, X
2
, . . . , X
n
)
representa uma amostra distribudos com densidade Normal de media e
variancia
2
, ou seja,
X
i
N(,
2
), i = 1, . . . , n;
X
i
e independente de X
j
, para todo i = j .

E facil ver que qualquer combina cao linear

n
i =1
a
i
X
i
de variaveis
aleatorias Normais e constantes (nem todas nulas) a
i
s, tambem segue o
modelo Normal. Assim X N(
X
,
2
X
) com

X
= E(X) = E
_
1
n
n

i =1
X
i
_
=
1
n
n = ;

2
X
= Var(X) = Var
_
1
n
n

i =1
X
i
_
=
1
n
2
n
2
=

2
n
.
C.T.Cristino (DEINFO-UFRPE) Inferencia Estatstica Estima c ao 2011 13 / 30
Distribui c oes Amostrais
Exemplo
Considere uma amostra independente de tamanho n de uma variavel
aleatoria N(10, 16). Isto e, X
1
, . . . , X
n
sao independentes e todas com
distribui cao Normal com media 10 e variancia 16. Assim X tem
distribui cao Normal como media 10 e variancia 16/n.
C.T.Cristino (DEINFO-UFRPE) Inferencia Estatstica Estima c ao 2011 14 / 30
Distribui c oes Amostrais Teorema do Limite Central
Um grande resultado
Teorema (Teorema do Limite Central)
Suponha que uma amostra aleatoria simples de tamanho n seja retirada de
um popula cao com media e variancia
2
(nenhum modelo de distribui cao
esta sendo especicado). Entao para a media amostral, X temos:
X
/

n
n
Z, (3.1)
em que Z N(0, 1).
C.T.Cristino (DEINFO-UFRPE) Inferencia Estatstica Estima c ao 2011 15 / 30
Distribui c oes Amostrais Teorema do Limite Central
Uma aplica cao
Uma aplica cao do Teorema do Limite Central relaciona-se com a
distribui cao da propor cao amostral. Esta grandeza e dada por
p =
n umero de indiv. da amostra com a caracterstica de interesse
n
.
Se construirmos para o i -esimo indivduo uma variavel aleatoria Y
i
tal que:
Y
i
=
_
1, se o indivduo apresenta a caracterstica,
0, caso contrario.
Podemos escrever a propor cao como
p =
Y
1
+ + Y
n
n
=
1
n
n

i =1
Y
i
= Y.
C.T.Cristino (DEINFO-UFRPE) Inferencia Estatstica Estima c ao 2011 16 / 30
Distribui c oes Amostrais Teorema do Limite Central
Uma aplica cao Cont.
Logo, a propor cao amostral nada mais e do que a media das variaveis
aleatorias convenientemente denidas. Considerando a propor cao de
indivduos com a caracterstica de interesse seja p e que os indivduos sao
selecionados aleatoriamente, temos que Y
1
, . . . , Y
n
formam uma sequencia
de variaveis aleatorias independentes com distribui c ao de Bernoulli. Assim
E(Y
i
) = p e Var(Y
i
) = p(1 p). Logo,
E(p) = E
_
1
n
n

i =1
Y
i
_
= p e Var(p) = Var
_
1
n
n

i =1
Y
i
_
=
p(1 p)
n
,
ou seja p e um estimador nao viciado e consistente para p.
Tendo em vista o Teorema do Limite Central, temos que para n
sucientemente grande:
Y E(Y)
_
Var(Y)
=
p p
_
p(1 p)/n
n
N(0, 1).
C.T.Cristino (DEINFO-UFRPE) Inferencia Estatstica Estima c ao 2011 17 / 30
Estima c ao por Intervalos
Estima cao por Intervalos
Os estimadores ate agora discutidos foram estimadores pontuais, pois
fornecem como estimativa um unico valor numerico para o parametro de
interesse. Seria mais prudente que pudessemos estabelecer uma faixa
para nossas estimativas, levando em considera cao que os estimadores sao
variaveis aleatorias e, assim, podem ocorrer com uma certa probabilidade
para valores longe da estimativa encontrada. Esta faixa sera denominada
intervalo de conan ca da estimativa calculada.
C.T.Cristino (DEINFO-UFRPE) Inferencia Estatstica Estima c ao 2011 18 / 30
Estima c ao por Intervalos Intervalo de conan ca
Intervalos de conan ca
Consideremos, inicialmente, o intervalo de conan ca para a media de
uma certa popula cao Normal com a variancia
2
conhecida. Supondo uma
amostra aleatoria de tamanho n dada por (X
1
, . . . , X
n
), temos que a
media amostral tem distribui cao Normal com a mesma media e variancia

2
/n. Assim,
Z =
X
/

n
N(0, 1).
Fixando um valor tal que 0 < < 1, podemos encontrar um valor z
/2
tal que:
P
_
|Z| z
/2
_
= P
_
z
/2
Z z
/2
_
= .
C.T.Cristino (DEINFO-UFRPE) Inferencia Estatstica Estima c ao 2011 19 / 30
Estima c ao por Intervalos Intervalo de conan ca
O ndice de z
/2
apresenta o valor
de dividido por 2, uma vez que
a massa deve ser dividida igual-
mente em torno do 0 (Figura).
O valor z
/2
pode ser obtido da tabela
da Normal padrao, localizando o valor
/2 no miolo da tabela e tomando-
se os valores nas margens correspon-
dentes.
Assim,
z
/2
< Z < z
/2
z
/2
<
X
/

n
< z
/2
X z
/2

n
< < X + z
/2

n
E o intervalo de conan ca para , com coeciente de conan ca e:
IC(, ) =
_
X z
/2

n
, X + z
/2

n
_
C.T.Cristino (DEINFO-UFRPE) Inferencia Estatstica Estima c ao 2011 20 / 30
Estima c ao por Intervalos Intervalo de conan ca
O que representa o intervalo de conan ca
A interpreta cao do intervalo de conan ca deve ser feita com cuidado:
... se obtivermos varias amostras de mesmo tamanho e, para cada uma
delas, calcularmos os correspondentes intervalos de conan ca com
coeciente de conan ca , esperamos que a propor cao de intervalos que
contenham o valor verdadeiro de seja igual a .
Esta interpreta cao do IC e chamada uma visao classica para o estimador
por intervalos.
C.T.Cristino (DEINFO-UFRPE) Inferencia Estatstica Estima c ao 2011 21 / 30
Estima c ao por Intervalos Exemplo - intervalo de conan ca
Uma Aplica cao
Exemplo
Suponha que desejemos estudar a varia cao de pre cos gerais de uma
maneira mais rapida e de modo a saber se em media houve dea cao ou
ina cao. Na Tabela 6, sao apresentadas as varia coes percentuais de 30
produtos escolhidos ao acaso.
2,49% 0,85% 2,80% 2,80% 3,07% 3,78%
3,92% 2,69% 8,17% 1,69% -0,58% 0,37%
2,72% -3,37% 7,56% 4,27% 0,21% 5,07%
5,56% 0,90% -0,40% 5,26% -2,67% -0,33%
-5,65% 3,20% -3,98% 2,44% 1,12% 1,85%
Tabela: Varia cao de pre cos (dados ctcios).
C.T.Cristino (DEINFO-UFRPE) Inferencia Estatstica Estima c ao 2011 22 / 30
Estima c ao por Intervalos Exemplo - intervalo de conan ca
Uma Aplica cao - continua cao
Para os dados apresentados, temos:
Media (amostral): X = 1, 86%.
Mediana (amostral): Med
X
= 2, 47%.
Variancia (amostral): S
2
= 0, 001001671, desvio padrao (amostral):
S = 0, 031649192
Baseado nas medidas de resumo, podemos armar que (em media) os
pre cos aumentaram. Sera?
C.T.Cristino (DEINFO-UFRPE) Inferencia Estatstica Estima c ao 2011 23 / 30
Estima c ao por Intervalos Exemplo - intervalo de conan ca
Uma Aplica cao - continua cao
Como X e uma estatstica (fun cao de variaveis aleatorias), numa outra
amostra com outros produtos, poderamos chegar uma conclusao
divergente: ou que os pre cos sofreram dea cao ou que estiveram estaveis.
Qual seria o intervalo de conan ca para a media da varia cao de pre cos
para uma conan ca de = 80%, sabendo que a variancia da popula cao e
de 0,0009?
Sabemos que IC(, ) =
_
X z
/2

n
, X + z
/2

n
_
, em que X = 1, 86%,
= 0, 03, n = 30. Resta-nos determinar o valor de z
/2
, tal que:
P
_

X
/

z
/2
_
= P
_
z
/2
Z z
/2
_
=
_
Z N(0, 1)
_
C.T.Cristino (DEINFO-UFRPE) Inferencia Estatstica Estima c ao 2011 24 / 30
Estima c ao por Intervalos Exemplo - intervalo de conan ca
Uma Aplica cao - continua cao
Figura: Determinando z
/2
para uma tabela da normal padrao P(Z z) = p.
C.T.Cristino (DEINFO-UFRPE) Inferencia Estatstica Estima c ao 2011 25 / 30
Estima c ao por Intervalos Exemplo - intervalo de conan ca
Uma Aplica cao - continua cao
Logo, da tabela da Normal padrao que apresenta valores de
P(Z z) = p, temos que z
/2
= 1, 28 (este e o valor mais proximo para a
probabilidade de 0,9, o valor real para P(Z 1, 28) e 0,899727).
Assim,
IC(, 80%) =
_
1, 86 1, 28
0, 03

30
; 1, 86 + 1, 28
0, 03

30
_
IC(, 80%) = [1, 853; 1, 867].
Este intervalo nos garante que 80% de outras amostras de varia cao de
pre cos terao a media contida neste intervalo. A conclus ao: houve uma
ina cao de pre cos.
C.T.Cristino (DEINFO-UFRPE) Inferencia Estatstica Estima c ao 2011 26 / 30
Estima c ao por Intervalos Amplitude do intervalo de conan ca
Amplitude do IC e o tamanho a amostra
A amplitude do intervalo de conan ca e dada pela diferen ca entre os
extremos de tal intervalo, isto e, 2 z
/2

n
, o que claramente indica que
ela depende da conan ca , do desvio padrao e do tamanho da amostra
n.

E usual se referir `a metade da amplitude como o erro envolvido na
estima cao.
Note que podemos estabelecer a seguinte condi cao a priori: Qual e o
tamanho da amostra para que a amplitude do intervalo de conan ca (erro
envolvido) seja de ?
2 z
/2

n
= n =
_
2 z
/2

_
2
.
C.T.Cristino (DEINFO-UFRPE) Inferencia Estatstica Estima c ao 2011 27 / 30
Estima c ao por Intervalos Amplitude do intervalo de conan ca
Intervalo de conan ca para a propor cao populacional
Um estimador pontual para a propor cao populacional p e foi dado com p,
a propor cao amostral. Pelo Teorema do Limite Central, para uma amostra
sucientemente grande:
p N
_
p,
p(1 p)
n
_
.
Assim o intervalo de conan ca com coeciente de conan ca e dado por:
IC(p, ) =
_
p z
/2
_
p(1 p)
n
; p + z
/2
_
p(1 p)
n
_
.
Note que na expressao acima o IC depende de p, que e desconhecido. O
que fazer?
C.T.Cristino (DEINFO-UFRPE) Inferencia Estatstica Estima c ao 2011 28 / 30
Estima c ao por Intervalos Amplitude do intervalo de conan ca
IC da propor cao: otimismo ou conservadorismo?
Uma solu cao para obtermos o IC(p, ), ja que ele originalmente depende
de p (desconhecido), e substituir p(1 p) por p(1 p). Desta forma,
temos:
IC
1
(p, ) =
_
p z
/2
_
p(1 p)
n
; p + z
/2
_
p(1 p)
n
_
,
que e uma estimativa (intervalar) otimista, pois acredita que p esta
sucientemente perto de p.
Outra visao seria utilizara o maior valor possvel para p(1 p), que seria
uma visao conservadora para o caso. Neste caso o maximo da fun cao
f (x) = x(1 x) pode ser encontrado fazendo f

(x) = 0 (pontos crticos


de f ), o que implica que x = 1/4 e o maximo para f em [0, 1]. Logo,
IC
2
(p, ) =
_
p z
/2
_
1
4n
; p + z
/2
_
1
4n
_
C.T.Cristino (DEINFO-UFRPE) Inferencia Estatstica Estima c ao 2011 29 / 30
Estima c ao por Intervalos Resumo
A aplica cao do Teorema do Limite Central permite a obten cao de
intervalos de conan ca para , mesmo quando a distribui cao das variaveis
aleatorias que constituem a amostra nao seja Normal. Neste caso, o
intervalo construdo tera um coeciente de conan ca aproximadamente
igual a , sendo que esta aproxima cao melhora `a medida que aumenta o
tamanho da amostra.
Tabela: Intervalos de conan ca para a media e a propor cao populacional p.
Parametro Intervalo de Conanca

_
X z
/2

n
, X + z
/2

n
_
p
_
p z
/2
_
p(1p)
n
; p + z
/2
_
p(1p)
n
_
(otimista)
p
_
p z
/2
_
1
4n
; p + z
/2
_
1
4n
_
(conservador)
C.T.Cristino (DEINFO-UFRPE) Inferencia Estatstica Estima c ao 2011 30 / 30