Você está na página 1de 27

Roteiro

1. Introdução
2. Teorema Central do Limite
3. Conceitos de Estimação Pontual
Distribuição Amostral e Estimação
4. Métodos de Estimação Pontual
Pontual de Parâmetros 5. Referências

População e Amostra

• População:
√ Conjunto de elementos que apresentam pelo menos
Introdução uma característica em comum
• População Alvo:
√ População de interesse da pesquisa
• Amostra:
√ Qualquer subconjunto não vazio da população

1
Técnicas de Amostragem

CARACTERÍSTICAS • Procedimento a ser adotado na seleção dos


DA
População POPULAÇÃO elementos da amostra
• O principal objetivo central é obter uma

INFERÊNCIA
amostra representativa
ESTATÍSTICA
√ Amostra que representa toda a população da
melhor maneira possível
EXTRAÇÃO
DE AMOSTRAS PROBABILIDADE • A representatividade depende de:
ALEATÓRIAS ESTATÍSTICA
DESCRITIVA
√ Metodologia adotada para seleção da amostra
Amostra CARACTERÍSTICAS √ Tamanho da amostra
DA
AMOSTRA

Problema Fundamental da Estatística Planejando um Experimento

• Identificar seu objetivo


• Coletar dados amostrais
A partir da observação de amostras, COMO • Usar procedimento aleatório para evitar vício
podemos tirar CONCLUSÕES sobre a • Analisar dados e tirar conclusões
POPULAÇÃO ?

2
Erro Amostral Erro Não–amostral

• Diferença entre um resultado amostral e o • Incorreção na coleta, registro ou análise de


verdadeiro resultado populacional dados amostrais
√ são resultantes de flutuações amostrais aleatórias. √ Ex.
– Coleta tendenciosa de amostra
– Utilização de instrumento descalibrado
– Registro incorreto de dados amostrais

Inferência Estatística
Estimação de Parâmetros
• Definição:
√ Procedimentos generalizar características de • Estimação Pontual
população a partir da informação contida na amostra.
• Estimação Intervalar
• Baseia-se na Teoria de Probabilidades √ Intervalos de Confiança
• Áreas:
√ Estimação de parâmetros
√ Testes de hipóteses.

3
Teste de Hipóteses
Conceitos Fundamentais

• Hipótese: • Amostra aleatória:


√ Afirmação (alegação) sobre característica populacional √ As variáveis aleatórias X1, X2, ..., Xn são uma
amostra aleatória de tamanho n, se:
– Forem independentes
• Teste de Hipóteses:
– Cada Xi tiver mesma distribuição de probabilidades
√ Procedimento padrão para se testar uma afirmativa
sobre característica populacional

• Parâmetro: • Estatística:
√ Quantidades de interesse da população √ Qualquer função da amostra que não dependa de
√ Em geral, desconhecidas parâmetros desconhecidos
– Média de uma população (µ) √ Exemplo : Algumas estatísticas da amostra aleatória
– Desvio-padrão de uma população (σ) X1, X2, ..., Xn:
√ Representadas por letras gregas X(1) = mín(X1, X2, ..., Xn)
√ Notação para estimador qualquer: θ X(n) = máx(X1, X2, ..., Xn)

4
• Distribuição amostral: • Espaço paramétrico (Θ)
√ Distribuição de probabilidades de uma estatística √ Conjunto em que o parâmetro θ toma valores
√ Exemplo: √ Exemplo: Seja a amostra aleatória X1, X2, ..., Xn da
– Distribuição amostral da média variável X ~ N(µ, σ2)
– Parâmetros da distribuição amostral da média – Se σ2=1, então θ = µ é o parâmetro desconhecido e
Θ = {µ, –∞ < µ < ∞}
– Se µ = 0, então θ = σ2 é o parâmetro desconhecido e
Θ = {σ2, σ2 > 0}

• Estimador de θ • Estimativa de parâmetro populacional:


√ Qualquer estatística que assuma valores em Θ. √ é um valor específico, ou um intervalo de valores,
√ Notação: ^θ usado para estimar parâmetro populacional
√ Exemplo: • Estimativa pontual:
^
Alguns estimadores para a média µ de uma população √ é um único valor numérico de uma estatística θ
– Média da amostra
– Mediana da amostra
– X1
– Etc.

5
Teorema Central do Limite

• Seja X1, X2, ..., Xn uma amostra aleatória de


tamanho n de uma população (finita ou infinita),
Teorema Central do Limite com média µ e variância finita σ2. Então

quando n → ∞.

Exemplo – Simulação
• Comentários:
√ A aproximação normal para a média amostral • População exponencial com média 1:
depende do tamanho da amostra √λ=1
√ Com população contínua, unimodal e simétrica, na √ Geração de 10.000 valores dessa população
maioria dos casos, o TCL trabalha bem para √ Amostra de tamanho 1 (n = 1)
pequenas amostras (n = 4, 5).
√ Em muitos casos de interesse prático, a aproximação
normal será satisfatória para n ≥ 30
√ Se n < 30, o TCL funcionará se a distribuição da
população não for muito diferente da normal

6
• Amostra n =1 • Amostra n = 2

> mean(media_n); sd(media_n)


> mean(amostra); sd(amostra) [1] 1.012711
[1] 0.9990838 [1] 0.7129089
[1] 1.010478

Exemplo – Simulação
• Amostras de tamanhos 2, 4, 10 e 20
• População com densidade em U:
√ f(x) = 12 (x – 0,5)2
√ Geração de 10.000 valores dessa população
√ Amostra de tamanho 1 (n = 1)

n_2 n_4 n_10 n_20


n 2.0000000 4.0000000 10.0000000 20.0000000
media 0.9951777 1.0004503 0.9963200 0.9997876
padrao 0.7038013 0.5018562 0.3190797 0.2223573

7
• Amostra n =1 • Amostras de tamanhos 2, 4, 10 e 20

> mean(amostra); sd(amostra)


[1] 0.5061657
[1] 0.3877259 n_2 n_4 n_10 n_20
n 2.0000000 4.0000000 10.0000000 20.00000000
media 0.5017138 0.4986490 0.4994313 0.49993781
padrao 0.2742383 0.1957755 0.1221512 0.08599018

Comparação de Populações • Caso 1: As duas populações são normais


√ Distribuição amostral da diferença
• Considere duas populações:
√ População 1: média µ1 e variância σ12
√ Média da diferença de médias amostrais:
√ População 2: média µ2 e variância σ22
• Amostras aleatórias das duas populações?

√ Amostra da população 1 de tamanho n1: X1
– √ Variância da diferença de médias amostrais:
√ Amostra da população 2 de tamanho n2: X2

8
• Caso 2: populações não normais com tamanhos Distribuição Amostral Aproximada de
amostrais maiores que 30 Diferença de Médias Amostrais
√ Pode-se usar o TCL para aproximar a distribuição • Suponha:
amostral da diferença:
√ Duas populações independentes, com médias µ1 e µ2
e variâncias σ12 e σ22
√ Amostras aleatórias independentes de tamanhos n1 e
n2 dessas populações

se as condições do TCL se aplicarem

Exemplo – Vida de Motor

• Motor de turbina de aeronave a jato


√ Vida de componente é variável aleatória com média
5000 h e desvio-padrão 40 horas
√ Melhoria no componente: média 5050 h e desvio- Estimação Pontual – Conceitos
padrão 30 horas
√ Suponha amostra de n1 = 16 componente do processo
antigo e n2 = 25 do processo aprimorado
• Qual a probabilidade de que a diferença das
média amostrais seja no mínimo 25 horas?

9
Propriedades de um Estimador Vício

• Alguma propriedades importantes: • Vício de um estimador:


^ ^
√ Vício √ Vício(θ) = E[θ] – θ
√ Consistência ^
• Um estimador θ é não viciado (não viesado, não
^
√ Eficiência tendencioso) para um parâmetro θ se E[θ] = θ
• A esperança de um estimador está relacionada
com sua exatidão

• A variância amostral é não viciada para estimar


• Exemplos:
a variância populacional (σ2)?
√ A média amostral é não viciada para estimar a média
verdadeira (populacional):

√ X1 (primeiro item coletado da amostra) é não viciado


para estimar a verdadeira média

10
Variância de Estimador
Estimador de Variância Mínima
^ ^
• θ1 e θ2 estimadores não-viciados de θ
√ Variâncias diferentes • Se considerarmos todos os estimadores não-
tendenciosos de θ, aquele com a menor variância
será chamado de estimador não-tendencioso de
variância mínima
√ Esse estimador é o mais provável, dentre todos os
não-viciados, para produzir uma estimativa que seja
próxima do valor verdadeiro
^ ^
√ Var(θ1) < Var(θ2)
– É mais provável que ^θ1 produza uma estimativa mais
próxima do valor verdadeiro de θ

Erro Padrão √ Se o erro-padrão envolver parâmetros desconhecidos


que possam ser estimados, então a substituição
^ daqueles valores produz um erro-padrão estimado
• O erro padrão de um estimador θ é o seu desvio- – Exemplo: O erro padrão da média amostral é:
padrão.
– Se não conhecermos s, mas substituímos pelo desvio-
padrão amostral, então o erro-padrão amostral estimado da
média amostral é:
√ O erro padrão (ou da variância) do estimador está
relacionada com sua precisão

11
√ Quando o estimador seguir uma distribuição normal, • Quadro comparativo:
podemos estar confiantes que o valor verdadeiro do
parâmetro estará entre dois erros-padrão da
estimativa
– Para grandes valores de n este é um resultado útil
√ Nos casos em que o estimador é não-viciado e não
normalmente distribuído
– Estimativa do parâmetro, em no máximo 6% das vezes, se
desviará do valor verdadeiro tanto quanto 4 erros-padrão

Consistência
• Exemplos:
^ √ A média amostral é consistente para estimar a média
• Um estimador θ é consistente se à medida em verdadeira
que o tamanho amostral aumenta, seu valor √ O primeiro item coletado da amostra não é
esperado converge para o parâmetro de interesse consistente para estimar a média populacional.
e sua variância converge para zero.
√ O estimador é consistente se e

√ Consistência é uma propriedade assintótica (grandes


amostras)

12
Erro Quadrático Médio
√ Estimadores tendenciosos podem ser preferíveis a
^ estimadores não-tendenciosos se tiverem EQM menor
• O erro quadrático médio de um estimador θ do
parâmetro θ é definido como:

• EQM – Vício e erro-padrão

• O EQM é um critério importante para comparar ^ estaria provavelmente mais


√ Estimativa baseada em θ 1
dois estimadores próxima do valor verdadeiro do que a baseada em ^θ2

• Estimador ótimo de θ: EQM de Estimadores Não-viciados


√ Tem EQM menor ou igual ao EQM de qualquer
outro estimador, para todos os valores de θ •
^
No caso em que θ é um estimador não viciado
√ Estimadores ótimos raramente existem para um parâmetro θ, então:

13
• Exemplo:
Eficiência √ No caso de amostra proveniente de distribuição
Normal.
^ ^
• Dados dois estimadores θ1 e θ2, não viciados – Média amostral e mediana amostral são não viciadas para
^
para um parâmetro θ, dizemos que θ1 é mais estimar a média populacional:
^ ^ e
eficiente que θ2 se Var[θ1] < Var[θ2]. – Média amostral e mediana amostral são consistentes para
estimar a média verdadeira
e

– A média amostral é mais eficiente que a mediana amostral


para estimar a média populacional

Métodos para Obtenção de Estimadores

• Obtenção de bons estimadores:


√ As propriedades de estimadores não nos orientam
Métodos de Estimação Pontual sobre como construí-los
• Métodos para obtenção de estimadores pontuais:
√ Método dos Momentos
√ Método da Máxima Verossimilhança

14
Momentos
Método dos Momentos
• Seja X1, X2, ..., Xn uma amostra aleatória de
• Ideia geral: população com distribuição de probabilidades
√ Igualar os momentos da população (definidos em expressa por f(x) (função de probabilidade, se X
termos de esperanças) aos correspondentes for discreta ou função de densidade de
momentos da amostra probabilidades, se X for contínua)
√ Os momentos da população são funções de √ k-ésimo momento populacional
parâmetros desconhecidos
√ Essas equações são resolvidas de modo a se obter √ k-ésimo momento da amostra
estimadores dos parâmetros desconhecidos
com k = 1, 2, ...

Estimadores de Momento Exemplo


• Seja uma amostra aleatória de função de • Estimador de momentos da distribuição
probabilidade (ou de densidade de exponencial
probabilidade) com m parâmetros desconhecidos √ f(x) = λ e –λx, x>0
θ1, θ2, ..., θm. E(X) = 1/λ
^ –
√ Os estimadores de momento θ1, ^θ2, ..., ^θm são 1º momento da amostra: X
encontrados igualando os m primeiros momentos da
população aos m primeiros momentos da amostra
√ Os estimadores serão a solução das equações
resultantes

15
Exemplo Estimador de Momento da Normal

• Tempo de falha de módulo eletrônico de motor • Amostra aleatória oriunda de população normal,
√ Amostra: com parâmetros µ e σ2.
– n=8 √ Momentos da normal:
– (11,96; 5,03; 67,40; 16,07; 31,50; 7,73; 11,10; 22,38)
– Média amostral: 21,65
Estimativa de momento de λ:
√ Estimador de momentos:

Estimador de Momento da Gama Exemplo

• Amostra aleatória oriunda de população normal, • Continuação exemplo 7.6 – Tempos de falha
com parâmetros r e λ.
√ Momentos da gama:

√ Estimador de momentos:

√ r é um pouco maior que 1


√ É bem possível que a distribuição gama ou exponencial
forneça um modelo razoável para os dados

16
Método da Máxima Verossimilhança • Não conhecemos p0, mas podemos considerar o
cenário em p0 = ½.
• Exemplo de Motivação: √ Sob esta particular condição, a probabilidade de
√ Dados oriundos de população binomial com gerar o dado que realmente observamos (X = 3) é:
parâmetros 10 e p0.
p0: constante e desconhecido
Função de probabilidade de X:
• Podemos calcular esta probabilidade sob a
condição que p0 = p
Observa-se X = 3
√ Objetivo:
– Basear-se no dado disponível para estimar o valor √ Essa função é denominada função de
verdadeiro do parâmetro verossimilhança e denotamos por L(p; 3)

Princípio da Máxima Verossimilhança Função de Log-Verossimilhança


• Devemos usar como nossa estimativa de p0 o • Como o log é uma função crescente, o valor de p
valor de p que faz L(p; 3) o maior possível que maximiza L(p; 3) é o mesmo que maximiza
log L(p; 3)
Toma-se o valor do parâmetro √ Em geral, é conveniente maximizar log L(p; 3) ao
que torna mais provável o dado invés de L(p; 3)
observado
√ Assim, em nosso exemplo, a função de log-
verossimilhança é definida como:

17
√ O ponto crítico da função é um ponto no domínio de
em que a derivada é zero

• A estimativa é determinada pelo valor de X


Função de Verossimilhança – Definição
√ Se tivéssemos observado X = k, teríamos a
estimativa
• Suponha X uma variável aleatória com
distribuição de probabilidades f(x; θ), em que θ
• Em nosso exemplo, o estimador de máxima
é um único parâmetro desconhecido.
verossimilhança é?
√ Sejam x1, x2, ..., xn os valores observados de amostra
aleatória de tamanho n.
√ A função de verossimilhança da amostra é:

18
Estimador de Máxima Verossimilhança Exemplo – Distribuição de Bernoulli

• O estimador de máxima verossimilhança (EMV) • Seja X uma variável aleatória de Bernoulli


^
de θ é o valor θ que maximiza a função de √ Função de probabilidade:
verossimilhança L(θ; x)

p é o parâmetro desconhecido a ser estimado

√ No caso discreto, o EMV é um estimador que


maximiza a probabilidade de ocorrência dos valores
da amostra

• Função de verossimilhança da amostra • Derivada da função de log-verossimilhança:

• Estimativa de máxima verossimilhança da


amostra x:

• Função de log-verossimilhança
• Estimador de máxima verossimilhança para
amostras de Bernoulli
√ Proporção de sucessos na amostra

19
Exemplo √ Duas amostras de n= 40 com e

• Bernoulli com parâmetro p desconhecido Pontos de máxima verossimilhança


√ Duas amostras de n= 20 com e correspondentes à proporção de
sucessos de cada amostra

Pontos de máxima verossimilhança


correspondentes à proporção de
sucessos de cada amostra

• Amostragem industrial pode ser modelada como


amostras de variável aleatória de Bernoulli:
√ n itens selecionados ao acaso de linha de produção
√ Variável Aleatória:

√ Estatística de teste:

√ As curvas crescem (decrescem) mais


acentuadamente nas proximidades dos pontos de
máximo na amostra maior (n = 40)
– Variância do EMV é menor para amostras maiores)

20
Exemplo – Distribuição Exponencial • Função de verossimilhança da amostra

• Seja X uma variável aleatória exponencial


√ Função de densidade de probabilidade:

• Função de log-verossimilhança
λ é o parâmetro desconhecido a ser estimado

Exemplo
• Derivada da função de log-verossimilhança:
• (Continuação Ex. 7.6)
√ Tempo de falha de módulo eletrônico de motor
• Estimativa de máxima verossimilhança da √ Amostra:
– n=8
amostra x:
– (11,96; 5,03; 67,40; 16,07; 31,50; 7,73; 11,10; 22,38)
– Média amostral: 21,65
– Estimativa de máxima verossimilhança de λ:

• Estimador de máxima verossimilhança para


amostras exponenciais
√ O EMV da exponencial é igual a seu estimador de
momentos

21
• Função de log-verossimilhança da amostra • Comparação exponenciais:
√ Curvas das diferenças de log-verossimilhança com o
máximo em cada tamanho amostral
√ Mantida mesma média amostral de 21,65
Função atinge máximo
para λ=0,0462 n λmáx)
l(λ
8 –32,599
20 –81,497
40 –162,994
Inclinação da curva de log-
verossimilhança acentua-se com
aumento da amostra.

Picos acentuados = maior


√ Função é relativamente plana na região do máximo precisão na estimação
– Parâmetro não é estimado muito precisamente

• Função de verossimilhança da amostra


Exemplo – Distribuição Normal √ µ desconhecida e σ2 conhecido

• Seja X uma variável aleatória normal


√ Função de probabilidade:

√ Situações de estimação dos parâmetros: • Função de log-verossimilhança


– µ é desconhecido e é conhecido
σ2
– µ e σ2 são desconhecidos

22
• Função de verossimilhança da amostra
• Derivada da função de log-verossimilhança:
√ µ e σ2 desconhecidos

• Estimativa de máxima verossimilhança da


amostra x:
• Função de log-verossimilhança

• Estimador de máxima verossimilhança da média


verdadeira para amostras normais

• Derivadas parciais da log-verossimilhança: • Estimativas de máxima verossimilhança da


amostra x:

23
• Estimador de máxima verossimilhança da média
Comentários
e variâncias verdadeiras para amostras normais

• Para usar a estimação de máxima


verossimilhança, a distribuição da população
tem de ser conhecida ou suposta
√ O EMV da variância amostral é viciado para a
variância verdadeira • Em geral, o método da máxima verossimilhança
produz estimadores com boas propriedades
estatísticas
√ Têm boas propriedades assintóticas dos estimadores
√ (são consistentes e assintoticamente eficientes)

Estimador de Máxima Verossimilhança -


Propriedade da Invariância
Propriedades
^
• Sob condições gerais e não-restritivas, quando • Seja θ um estimador de máxima verossimilhança
^
uma amostra de tamanho n for grande e se θ for de θ.
um EMV do parâmetro θ, então: √ Então o EMV de qualquer função h(θ) desse
^ é um estimador consistente ^ ^
√θ parâmetro é a mesma função h(θ) do estimador θ
– Assintoticamente não viciado • No caso da distribuição normal
^ variância de θ^
√A é assintoticamente eficiente √ O EMV de σ é
√ θ tem distribuição assintoticamente normal
√ O EMV de σ não é o desvio-padrão amostral S

24
Complicações no Uso da Estimação de
Exemplo – Distribuição Gama
Máxima Verossimilhança

• Nem sempre é simples maximizar a função de • Seja X uma variável aleatória exponencial
verossimilhança √ Função de densidade de probabilidade:
• Pode não ser possível utilizar diretamente
métodos de cálculo para determinar o máximo
de L(θ; x) r e λ são os parâmetros desconhecidos a serem estimados

√ Função gama:

• Derivadas da função de log-verossimilhança:


• Função de verossimilhança da amostra

• Estimativa de máxima verossimilhança da


amostra x:

• Função de log-verossimilhança

√ Não há solução exata para essas equações

25
Aplicação • Função de verossimilhança da amostra

• Método Lincoln-Peterson de Marcação e Recaptura


√ Objetivo: estimar tamanho de população de animais
√ Variáveis: • O espaço paramétrico são os inteiros positivos
– t: número de animais capturados e marcados √ Não se pode usar Cálculo
– k: número de animais recapturados • Razão de verossimilhança para sucessivos
– r: número de animais marcados que são recapturados
valores da população total
– N: população total (desconhecida)
√ Os valores t e k são fixos (não são aleatórios)
São determinados no planejamento do estudo √ N é mais provável que N–1 quando a razão > 1
√ r: observação amostral (pode variar)

• Desenvolvimento razão de verossimilhanças: • Determinação máximo:

√ Seja [x]: parte inteira de x

√ Isso nos dá o EMV de N:

26
Exemplo
• Objetivo:
√ Estimar população de peixes
• Procedimento:
√ São marcados t = 200 peixes
√ Peixes são devolvidos ao habitat
√ Aguarda-se que os peixes devolvidos misturem-se à
população
√ São recapturados k = 400 peixes
√ Dos peixes recapturados, há r = 43 peixes marcados
√ População estimada: 1.860 peixes
• Obs. Dados obtidos em simulação com N=2000
√ População real: 2000 (na prática, desconhecido)

Bibliografia Recomendada

• Montgomery, D. C. (LTC)
Referências Estatística Aplicada e Probabilidade para
Engenheiros

• Pinheiro, J. I. D et al. (Campus)


Probabilidade e Estatística: Quantificando a
Incerteza

27

Você também pode gostar