Você está na página 1de 95

Curso de Pós-Graduação de Aperfeiçoamento Avançado

(C-ApAv) para Oficiais da Marinha do Brasil

Disciplina: PES – Processamento Estatístico de Sinais

Marco Antonio Grivet Mattoso Maia


mgrivet@cetuc.puc-rio.br
Inferência Estatística
Noções Básicas

Marco Grivet
Centro de Estudos em Telecomunicações
CETUC-PUC/Rio

2
O Problema Geral da Inferência

Considere uma população (também chamada de


universo) cujos elementos possuem uma certa
característica numérica expressa na forma de um
parâmetro, sobre cujo valor deseja-se fazer
afirmações.

Uma forma de alcançar este objetivo consiste em


observar os valores deste parâmetro quando
escolhemos ao acaso alguns elementos desta
população, denominados de amostras.

3
Amostra Aleatória Simples
Uma amostra aleatória simples (AAS) de tamanho N
consiste de N elementos desta população escolhidos de
maneira que qualquer conjunto de N elementos tenha a
mesma chance de constituir a amostra escolhida.

A AAS não só dá a cada elemento igual chance de ser


escolhido como também dá a toda amostra possível a
mesma chance de ser extraída.

Podemos entender a característica associada a um elemento


da população como um v.a.r. x descrita por uma certa
distribuição estatística.

Entenderemos formalmente uma AAS de tamanho N como


uma coleção X = ( x1 , x2 ,..., xN ) de v.a.r.’s mutuamente
independentes e todas com a mesma distribuição estatística
que caracteriza a v.a.r. x.
4
Amostra Aleatória Simples

Uma forma de conhecer esta distribuição da v.a.r, x é, por


exemplo, através do levantamento do histograma de
frequências relativas obtidos a partir de dados
observacionais.

População Dados

5
Estatística
Denomina-se de estatística T uma função real de uma amostra aleatória simples.
Por consequência, uma estatística é uma v.a.r.

Estatísticas Clássicas
( )
T X = T ( x1 , x2 ,..., xN )

( )
N
1
média amostral T X= X= ∑
N i =1
xi

( ) ( )
N
1
T X= S= ∑
2
variância amostral X xi − X
N i =1
6
Um Exemplo

Considere uma eleição a ser realizada numa certa população onde


determinado candidato deseja conhecer suas reais chances de vencê-la.

Se designarmos por p a probabilidade de que um eleitor arbitrário vote no


candidato em questão, é fácil perceber que este é o parâmetro que se deseja
conhecer.

O procedimento desejado mas certamente não adequado para este objetivo


seria o de entrevistar todos os indivíduos da população votante (universo) e
perguntar a cada um deles, em quem votaria. Neste caso, a probabilidade p
nada mais é do que a proporção de votantes a seu favor na população.

7
Um Exemplo

Sendo isso impossível por diversas razões, só há uma


alternativa viável, a saber, calcular a probabilidade p a partir
de uma coleção restrita de entrevistados (amostra).

Esta amostra terá que ser a mais “representativa” da


população. Sabemos que votantes de classes sociais distintas
tem interesses e desejos distintos. Assim uma escolha
equivocada da mostra pode fazer com que o parâmetro de
interesse com ela calculado seja muito diferente do que possa
realmente ocorrer na eleição.

Essa razão nos leva a escolher uma amostra com as


características impostas na concepção de uma AAS.

8
Um Exemplo

Definindo como xi a v.a.r. que vale 1 se o i-ésimo eleitor que


compõe a amostra se declarar um votante do candidato e 0
em caso contrário, então a estatística de interesse é a
proporção de candidatos na amostra que são votantes do
candidato. Esta proporção é a média amostral da AAS de
tamanho N, que é expressa por:

( )
N
1

T X= X=
N
∑x
i =1
i

Precisa-se saber qual a ligação formal entre esta estatística e


o parâmetro p, que se tem interesse em conhecer.

9
Problemas de Interesse

• Estimação de Parâmetros

• Teste de Hipóteses

10
Estimação Pontual

O problema da estimação pontual surge quando estamos interessados


em conhecer alguma característica numérica de uma distribuição
desconhecida (ex, média, variância ou outro parâmetro qualquer) a partir
do conhecimento de uma amostra de observações da característica em
questão.

Problema Formal
Seja θ um parâmetro determinístico porém desconhecido associado a
uma v.a.r. x.
Dispõe-se de uma A.A.S X = ( x1 , x2 ,..., xN ) e deseja-se estimar θ a
partir desta amostra.

Denomina-se de estimador do parâmetro θ, que representamos por ^


θ,
uma estatística da AAS.

Assim um estimador é uma v.a.r.


11
Estimação Pontual

No exemplo anterior, é fácil de perceber que


um estimador do parâmetro p que representa a
probabilidade de um eleitor votar no candidato
é a proporção na amostra dos eleitores que
revelam votar no candidato na eleição.
N
1
Assim: pˆ =
N
∑x
i =1
i

O que seria agora interessante de investigar é


o quão “bom” é este estimador.

12
Propriedade Desejável 1

Com probabilidade 1, o estimador do parâmetro


θ é idêntico a θ, qualquer que seja o seu valor.

P =  1
θˆ θ=
 para todo θ

Embora possível em alguns casos que em geral


são sem interesse, esta situação é impossível.

13
Propriedade Desejável 2

O erro quadrático médio (EQM) do estimador


escolhido é menor ou igual ao erro médio
quadrático de qualquer outro estimador,
qualquer que seja o valor do parâmetro

{
E θˆ − θ 
2
} {
≤ E θ − θ 
2
}
para qualquer estimador θ
Estimadores são melhores quanto
menor for o seu EQM.
14
Despolarização

Um estimador é dito despolarizado (unbiased)


quando :

E θˆ  = θ

Neste caso o EQM do estimador é a sua


variância.

{ } { () } ()
2
E θˆ − θ  = E θˆ − E θˆ  = Var θˆ
2

 

15
Estimador MVUE

O Estimador MVUE (Minimum Variance


Unbiased Estimator) é o estimador
despolarizado que apresenta a mínima variância
e por consequência apresenta o mínimo erro
quadrático médio (EQM).

16
Exemplo

No exemplo da eleição, é fácil ver o estimador


proposto é despolarizado.

As v.a.r.’s que compõem a AAS possuem


distribuição de Bernouilli(p). Logo E(xi) = p e
Var(xi) = p.(1-p) para todo i.

1 N  1 N 1 N
E ( pˆ ) E  =
=
=
∑ xi 
 N i 1=
∑ E ( xi ) =
=
 N i1 =

N i1
p p

17
Exemplo
Neste caso, o EQM do estimador é a sua variância.

1 N  1 N
Var ( pˆ ) Var
= =  N ∑ xi  N=
2 ∑
Var ( xi )
=  i 1=  i 1

1 N
p.(1 − p )
=
N2

i =1
=
p.(1 − p)
N
Perceba que a variância do estimador vai a zero
quando N tende a infinito, o que significa dizer
que P =  1 quando N tende a infinito.
θˆ θ=
 
Estimadores são melhores quanto maior
for o tamanho da AAS.
18
Eficiência
TEOREMA DE CRAMER-RAO
~
Seja θ um estimador despolarizado do parâmetro θ cuja f.d.p. é dada por
p(X,θ). Então:

( )
1
Var θ ≥ =
  ∂
1
 
2

E   log p ( X , θ )  
  ∂θ  

informação de Fisher
19
Exemplo
No exemplo da eleição, o estimador ^p tem
distribuição semelhante a Binomial(n,p), ou seja:

 X
p ( X , p) = ( )
N−X
P  pˆ =  =C X
N . p X
. 1 − p para X =0,1, 2,...., N
 N
log p ( X , p=
) log CNX + X .log p + ( N − X ).log (1 − p )
∂ X N − X X − N. p
log p ( X , p ) =− =
∂p p 1− p p. (1 − p )

  ∂
E  =
2
 
log p ( X , p )   E=


2

 
{
  X − N . p   E [ X − N . p ]
2
}
  ∂p     p. (1 − p )   p 2
. (1 − p )
2

20
Exemplo
Porém:
{ }
N
E [ X − N. p] =∑ ( k − N . p ) .CNk . p k . (1 − p ) = N . p. (1 − p )
2 2 N −k

k =0

Logo:
  ∂   N . p. (1 − p )
2
N
( X , p )  =
E   log p=
∂ ( − ) p. (1 − p )
2
   
2
p p . 1 p

E assim: p. (1 − p )

Var θ ≥ ( )N
Logo o estimador escolhido é o mais eficiente
dentre todos os estimadores despolarizados
possíveis.

21
Estimadores Clássicos

N
1
estimador da média m X=
N
∑x
i =1
i

N
1
∑ ( xn − X )
2
=
estimador da variância σ S
2 2

N − 1 n =1

Estes estimadores são despolarizados, de


mínima variância, suficientes e eficientes

22
Estimadores Clássicos

E [X ] = m
σ
Var [X ] =
2

N
[ ]
E S =σ
2 2

Var [S ] = . µ
1  N −3 4
2
4 − .σ 
N  N −1 

23
Estimador de Máxima Verossimilhança
Exemplo Motivacional

Seja x={x1,x2,...,xN} variáveis indicadoras de uma certa característica obtida


em uma amostra (AAS) de N elementos de uma população. Seja θ a
probabilidade de ocorrência da característica num elemento genérico da
população. Deseja-se estimar θ.

∑ N −∑ X i
[ X ,θ ] θ . (1 − θ )
P=
Xi

Dada a evidência observacional, seria razoável estimar θ


procurando o seu valor que maximiza a probabilidade acima.

d 1 n
P ( X ,θ ) = 0 ⇒ θ = ∑ X i
dθ n i =1
24
Estimador de Máxima Verossimilhança

Definição

Seja uma AAS x={x1,x2,...,xN} oriunda de uma população caracterizada por


um parâmetro θ onde se assume conhecido a f.d.p. px(X) da característica
em estudo, obviamente a menos do parâmetro.

A função de verossimilhança (do inglês likelihood) L(X,θ) é definida como a


f.d.p. conjunta da AAS, ou seja, px(X,θ), que devido a natureza i.i.d. da AAS
é expressa por:

n
L ( X , θ ) p=
= x ( X ,θ ) ∏ p ( X ,θ )
i =1
xi i

25
Estimador de Máxima Verossimilhança

Definição
Assim o estimador de máxima verossimilhança é definido como o valor do
parâmetro θ que maximiza a função de verossimilhança L(X,θ) :

θˆML ( X ) = arg max L ( X ,θ )


θ
Maximizar uma função é equivalente a maximizar qualquer
função monotônica crescente desta. Torna-se conveniente
utilizar o logaritmo como esta função. Assim definimos a
função log-verossimilhança como:

∑ log ( p ( X ,θ ) )
N
L ( X , θ ) log
= = ( L ( X ,θ ) ) xi i
i =1
e assim:

θˆML ( X ) = arg max L ( X ,θ )


θ
26
Exemplo
Na fabricação de navios utiliza-se chapas de metal cuja
dureza deve atender as especificações exigidas para este
tipo de construção.
Após testes exaustivos, concluiu-se que a dureza das
chapas utilizadas pode ser considerada como uma v.a.r
contínua x com distribuição Gama, ou seja, a sua f.d.p. é
expressa por:
ap
px ( X ) = . X p −1.e − a. X
Γ( p )
Esta distribuição possui dois parâmetros, a saber, a e p.
Entretanto p é conhecido mas o parâmetro a não o é, e por
consequência precisa ser estimado.

27
Exemplo
A função log-verossimilhança é expressa por:
N
 ap p −1 − a . X i 
L ( X , θ ) ∑= log 
Γ
. X i .e 
i =1  ( p ) 
N
= ∑  p.log ( a ) − log ( Γ( p) ) + ( p − 1) .log ( X =
i =1
) − a. X 
i i

N N
= N . p.log ( a ) − N .log ( Γ( p ) ) + ( p − 1) .∑ log ( X i ) − a.∑ X i
=i 1 =i 1

d  N. p N N. p
L ( X ,θ ) = − ∑ Xi = 0 ⇒ a = N
∑ Xi
da a i =1

i =1

d2  N. p
2
L ( )
X , θ = − 2
< 0 ⇒ solução encontrada é um máximo.
da a
28
Exemplo

Sabe-se que para uma v.a.r. x com distribuição Gama, a sua


média e variância são expressas por:

p p
=E ( x) = Var( x)
a a2

Assim, com o conhecimento de a e p, pode-se determinar a


dureza média da chapa de metal assim como o seu desvio-
padrão, tornando possível verificar se as especificações
técnicas são atendidas.

29
Estimação de Intervalo

Uma estimativa pontual é, em algum sentido, a melhor


estimativa do parâmetro baseado em uma amostra.

É óbvio que qualquer estimativa pontual não é


absolutamente exata pois ela é baseada em uma única
AAS. Se novas AAS’s forem retiradas da população e novas
estimativas pontuais forem calculadas a partir delas,
valores diferentes de estimativas serão encontrados em
cada um destes casos.

Surge então a ideia de determinar uma faixa de números


(intervalo) na qual seja bastante provável de conter o
verdadeiro valor do parâmetro.

30
Intervalo de Confiança

Intervalo de confiança é definido como um intervalo no qual


a probabilidade do parâmetro θ a ele pertencer seja “muito
alta”.
verdadeiro valor do parâmetro: θ
valor estimado para o parâmetro:^θ
θ^-t1 θ^ θ^+t2
intervalo de confiança

P θˆ − t1 ≤ θ ≤ θˆ + t2  ≥ 1 − α

α é denominado de nível de significância


1-α é denominado de nível de confiança
31
Intervalo de Confiança

Tecnicamente a definição anterior não permite a definição unívoca


deste intervalo. Para tal, impõe-se em geral duas condições.

θ^-t1 θ^ θ^+t2
intervalo de confiança

P θˆ − t1 ≤ θ ≤ θˆ + t2  =1 − α

P θ > θˆ + t2  =
α 2

Por consequência P θ < θˆ − t1  =


α 2
32
Intervalo de Confiança
E(X) = μ
X

Experimento 1 Experimento 2

x x
[X – a , X + a]

Experimento 1 Experimento 2

x–a x-a x x x+a x+a

07:56 33
Exemplo

O preço de venda do litro de gasolina aditivada nos postos do Rio de


Janeiro pode ser considerado como uma v.a.r. com distribuição Normal
de média μ desconhecida mas de desvio-padrão σ de R$0.20.

Uma pesquisa ao longo de 36 postos de gasolina aleatoriamente


selecionados no Rio de Janeiro revelou que o preço médio de venda do
litro desta gasolina foi de R$ 3.78.

Encontre o intervalo de confiança ao nível de confiança de 98% para o


preço médio da gasolina aditivada no Rio de Janeiro.

34
Exemplo
x preço de venda do litro da gasolina aditivada ≈ Normal( µ , σ ) σ =R$0.20
amostra (AAS) de 36 postos ⇒ xi = preço observado no posto i
1 36
=
Estimador de µ µˆ ∑
36 i =1
xi ≈ Normal( µ , σ 6)

 a µˆ − µ a 
1 − α = P [ µˆ − a ≤ µ ≤ µˆ + a ] = P [ −a ≤ µˆ − µ ≤ a ] =P  − ≤ ≤ 
 σ 6 σ 6 σ 6 
µˆ − µ
Porém é uma v.a.r. Normal(0,1) e (1-α ) = 0.98
σ 6 f.d.p. de Normal(0,1)

a
a 0.3875.σ ≅ R$0.08
= 2.325 ⇒=
σ /6 área = 0.01

Intervalo de confiança =(R$3.70 , R$3.86)

35
36
Estatística Bayesiana

• Até o presente momento, estudamos o problema de estimação de


parâmetros desconhecidos mas considerados determinísticos (fixos).
• Existem situações onde o parâmetro a ser investigado tem natureza aleatória
e sua distribuição estatística inicial expressa o “conhecimento” ou
“ignorância” a respeito do parâmetro.
• Esta distribuição é denominada de “distribuição a priori” (do inglês, prior)
pois é tudo que se sabe sobre o parâmetro.
• Quando se utilizam dados observacionais, a distribuição estatística do
parâmetro se altera em função dessa nova informação, e por isso é chamada
de “distribuição a posteriori”.

37
Exemplo
Considere o exemplo que analisa o tempo de vida de uma
bateria de submarino que pode ser considerado como uma
v.a.r que depende de um parâmetro θ que precisa ser
estimado.
Tradicionalmente podemos obter uma AAS destes tempos
de vida e estimar θ por meio de procedimentos que vimos
até agora.
Não é difícil imaginar situações onde esta abordagem possa
ser inadequada.
Imagine que uma característica química da bateria sofra
alterações ao longo do tempo e que estas alterações
tenham impacto no seu tempo de vida.
Como consequência o parâmetro θ não apresenta mais
uma característica fixa e desconhecida mas sim um
caraterística variável e aleatória.

38
Estimação MAP
MAP = Maximum a Posteriori

parâmetro θ agora variável aleatória com distribuição π(θ)


verossimilhança
amostra x
p( x;θ ) p( x / θ )
p(θ / x ) = = .π (θ )
p(x ) p(x )
evidência
distribuição a posteriori distribuição a priori

θˆMAP ( x ) arg
= max p (θ / x ) arg max  p ( x / θ ) .π (θ ) 
θ θ

Se π(θ) não depender de θ, então os estimadores ML e MAP são os mesmos.

39
Exemplo
θ= probabilidade de contaminação de uma amostra
laboratorial.
n amostras independentes foram colhidas das quais r se
verificaram contaminadas.

Seja
z = no. de amostras contaminadas dentre as n colhidas

P [ z r=
/ θ ] C .θ . (1 − θ )
n−r
= r
n
r
(binomial)

z
Estimador não bayesiano de θ θ=
ˆ
n
40
Exemplo
Vamos admitir agora que θ é uma v.a.r. com distribuição
caracterizada por p(θ)
P[z = r /θ ]
p (θ / = )
z r= . p (θ )
P[z = r]
CASO 1 : Total “ignorância” sobre θ

θ tem distribuição uniforme (0,1)

Maximizar p(θ/z=k) equivale a maximizar P[z=k/θ] porque p(θ) não depende


de θ.

r
arg max P [ z =r / θ ] =arg max Cn .θ . (1 − θ )
 
n−r
r r
=
θ θ   n
41
Exemplo
CASO 2 : Há informação sobre θ

θ tem distribuição Beta(n1,n2)

Beta(1,1) e U(0,1) são idênticas.

n1 − 1 + r
=θˆ arg max { p (θ )= / θ ]}
.P [ z r=
θ n + n1 + n2 − 2
42
Estimadores Bayesianos

Seja θ um parâmetro desconhecido que possua uma distribuição


a priori dada por π .
Seja θˆ ( X ) um estimador de θ que seja função de observações
X = ( x1 , x2 ,..., xn ) que são independentes condicionalmente a θ .

( )
Seja L θ , θˆ ( X ) uma função custo arbitrária.

( )
Define-se como Risco de Bayes ao valor de Eθ , X  L θ , θˆ ( X ) 
 
Um estimador é dito Estimador de Bayes quando ele minimiza o
Risco de Bayes para uma determinada função custo.

43
Estimador MMSE

O estimador MMSE (Minimum Mean Square Error) decorre do estimador bayesiano


quando a função custo é da forma:

( )
θˆ ( X ) Eθ , X
L θ ,= ( )
 θ − θˆ ( X ) 2 
 
Neste caso o estimador vale:

θˆMMSE ( X ) = E (θ / X )

44
Exemplo
Utilizando o exemplo anterior, tem-se para o caso 1:

(θ ) 1 para 0 < θ < 1


p=
P [ z r=
/ θ ] Cnr .θ r . (1 − θ )
n−r
=

P[z = r] = P [ z = r / θ ] . p (θ ) .dθ = Cnr .Β ( r + 1, n − r + 1)


1
∫0

P[z = r /θ ] θ r . (1 − θ )
n−r

p (θ / = )
z r= . p (θ=
)
= P[z r] Β ( r + 1, n − r + 1)
r +1
MMSE ( X =
) E (θ / = ) ∫0 θ . p (θ / =
z r ) .dθ=
1
θˆ z r=
n+2

45
Exemplo
Tem-se para o caso 2:

θ n −1. (1 − θ )
n2 −1
1

p (θ ) para 0 < θ < 1


Β ( n1 , n2 )
P [ z r=
/ θ ] Cnr .θ r . (1 − θ )
n−r
=

P[z = r] = P [ z = r / θ ] . p (θ ) .dθ = Cnr .Β ( r + n1 , n − r + n2 )


1
∫0

P[z = r /θ ] θ r . (1 − θ )
n−r

p (θ / = )
z r= . p (θ=
)
= P[z r] Β ( r + n1 , n − r + n2 )
Β ( r + 1, n − r + 1) r + 1
MMSE ( X =
) E (θ / = ) ∫0 θ . p (θ / =
z r ) .dθ=
1
θˆ z r= .
Β ( r + n1 , n − r + n2 ) n + 2

46
Resumo de Estimação Intervalar

população

característica X com distribuição N(μ,σ2)

amostra
amostra AAS X = ( X 1 , X 2 ,..., X n )

1 n
estimador da média μ X = ∑ xi
n i =1
n
1
∑ ( xi − X )
2
=
estimador da variância σ 2
S 2

n − 1 i =1
47
Intervalo de Confiança para a Media μ

Caso em que σ é conhecido

 σ σ 
IC =
 X − zα /2 . , X + zα /2 .  nível de significância α
 n n 

f.d.f. da Normal(0,1)

área = α/2

𝑧𝑧𝛼𝛼⁄2
48
Tabela para zα/2

49
Cálculo de zα/2 com MATLAB

50
Exemplo

O Jornal Valor Econômico de 07/07/2017 informou que o preço médio


observado de um automóvel Palio ELX 1.0 4 portas ano 2001, estimado
através de uma amostra de 25 vendas, é de R$ 17.727,00.

Suponha que o desvio padrão REAL dos preços seja R$ 1500,00.

Encontre os intervalos de confiança aos níveis de confiança de 95% e 99%


para os preços de Palios ELX 1.0 quatro portas ano 2001 supondo que os
preços deste modelo são normalmente distribuídos.

51
Solução
X =
17727 σ =1500 n 25
 σ σ 
IC =
 X − zα /2 . , X + zα /2 .  nível de significância α
 n n

nível de confiança 1-α = 95% ⇒ α / 2 = 2.5% ⇒ zα /2 = 1.96


σ 1500
zα /2 . = (1.96 ) . = 588 ⇒ IC = ( R$17.139, 00, R$18.315, 00 )
n 25

nível de confiança 1-α = 99% ⇒ α / 2 = 0.5% ⇒ zα /2 = 2.575


σ 1500
zα /2 . = ( 2.575 ) . = 772.50 ⇒ IC
= ( R$16.954,50, R$18.499,50 )
n 25

52
Solução via MATLAB

53
Intervalo de Confiança para a Media μ

Caso em que σ é desconhecido

 S S 
IC =
 X − tn −1,α /2 . , X + tn −1,α /2 .  nível de significância α
 n n 

f.d.f. da t-Student com n-1 graus de liberdade

área = α/2

𝑧𝑧𝛼𝛼⁄2
54
Tabela para tn-1,α/2

55
Cálculo de tn-1,α/2 via MATLAB

56
Exemplo

O Jornal Valor Econômico de 07/07/2017 informou que o preço médio


observado de um automóvel Palio ELX 1.0 4 portas ano 2001, estimado
através de uma amostra de 25 vendas, é de R$ 17.727,00.

Suponha que o desvio padrão dos preços, estimado com base na mesma
amostra acima mencionada seja R$ 1500,00.

Encontre os intervalos de confiança aos níveis de confiança de 95% e 99%


para o preço médio do Palio ELX 1.0 quatro portas ano 2001 supondo que os
preços deste modelo são normalmente distribuídos.

57
Solução

X =
17727 S =1500 n 25
 S S 
IC =
 X − t n −1,α /2 , X + t n −1,α /2  nível de significância α
 n n

nível de confiança 1-α = 95% ⇒ α / 2 = 2.5% ⇒ tn −1,α /2 = 2.064


S 1500
tn −1,α /2 . = ( 2.064 ) . = 619.20 ⇒ IC
= ( R$17.107,80, R$18.346, 20 )
n 25

nível de confiança 1-α = 99% ⇒ α / 2 = 0.5% ⇒ tn −1,α /2 = 2.797


S 1500
tn −1,α /2 . = ( 2.797 ) . = 839.10 ⇒ IC
= ( R$16.887,90, R$18.566,10 )
n 25
58
Intervalo de Confiança para a Variância σ2

 ( n − 1) .S 2 ( n − 1) .S 2 
IC =  ,  nível de significância α
 b a 

a b

59
Tabela para χn,α/2

60
Cálculo de χn-1,α/2 via MATLAB

61
Exemplo

Encontre o intervalo de confiança para a variância dos preços


do automóvel Palio ELX 1.0 4 portas ano 2001, estimado através de uma
amostra de 25 vendas, é de R$ 17.727,00.

Suponha que o desvio padrão dos preços, estimado com base na mesma
amostra acima mencionada seja R$ 1500,00.

Para o mesmo problema anterior, encontre os intervalos de confiança aos


níveis de confiança de 95% e 99% para o desvio-padrão do preço do Palio ELX
1.0 quatro portas ano 2001 supondo que os preços deste modelo são
normalmente distribuídos.

62
Solução
S =1500 n = 25
 ( n − 1) .S 2 , ( n − 1) .S 2 
IC =  nível de significância α
 b a 
 
= = 12.40
a t24,97.5%
nível de confiança 1-α = 95% ⇒ α / 2 = 2.5% ⇒ 
= = 39.36
b t24,2.5%
 ( n − 1) .S 2 24
= = .1500 1171,3
 b 39.36
 ⇒ IC =
( R$1.171,30, R$2.086,80)
 ( n − 1) .S 2
24
 = .1500 = 2086.8
 a 12.40
= = 9.89
a t24,99.5%
nível de confiança 1-α = 99% ⇒ α / 2 = 0.5% ⇒ 
= = 45.6
b t24,0.5%
 ( n − 1) .S 2 24
= = .1500 1088, 2
 b 45.6
 ⇒ IC = ( R$1.088, 20, R$2.336, 70)
 ( n − 1) .S 2
24
= = .1500 2336.7
 a 9.89

63
Estimação Intervalar para Proporção

população

característica X com distribuição Bernouill(p)

amostra
amostra AAS X = ( X 1 , X 2 ,..., X n )

0 com probabilidade 1- p
Xi = 
1 com probabilidade p

1 n
estimador da proporção p pˆ = ∑ xi
n i =1
Assume-se que n é “grande” (em geral maior do que 50)

64
Intervalo de Confiança a Proporção p

 pˆ .(1 − pˆ ) pˆ .(1 − pˆ ) 
IC =
 pˆ − zα /2 . , pˆ + zα /2 .  nível de significância α
 n n 

f.d.f. da Normal(0,1)

área = α/2

𝑧𝑧𝛼𝛼⁄2
65
Exemplo

A associação de estudantes universitários de uma grande universidade deseja saber


a opinião dos alunos sobre a proposta da reitoria a respeito do preço do bandejão.
Para isso, selecionou-se aleatoriamente uma amostra de 200 estudantes, dos quais
120 são favoráveis à proposta da reitoria.
Determine o intervalo de confiança para a verdadeira proporção de alunos
favoráveis à política da reitoria, ao nível de significância de 3%.

66
Solução

120
pˆ = =0.6 n = 200
200
 pˆ .(1 − pˆ ) pˆ .(1 − pˆ ) 
IC =  p − zα /2 .
ˆ , p + zα /2 .
ˆ  nível de significância α

 n n 
nível de significância α =3% ⇒ α / 2 =1.5% ⇒ z1.5% =2.17
pˆ .(1 − pˆ ) (0.6).(0.4)
=
zα /2 . = 0.002604
(2.17)
n 200
IC = (59.74%, 60.26%)

67
Teste de Hipóteses

Hipótese é uma conjectura que implica no fato


de que a verdadeira distribuição de probabilidades
que descreve a variabilidade de uma observação
pertença a uma determinada coleção de
distribuições possíveis.

A teoria de Testes de Hipóteses diz respeito ao


seguinte problema : Dada uma coleção de
hipóteses disjuntas mas não necessariamente
exaustivas, qual delas pode ser considerada a
mais plausível à luz de um particular conjunto de
observacões?

68
Caso Binário
Hipóteses :

H0 = hipótese nula
H1 = hipótese alternativa

A hipótese nula, representada por H0, é


uma hipótese que é apresentada sobre
determinados fatos estatísticos e cuja falsidade se
tenta provar.

A hipótese alternativa representada por H1, é


uma hipótese contraditória com a primeira.

69
Caso Binário

OBSERVAÇÕES IMPORTANTES

• Aceitar uma hipótese ou outra como verdadeira, não quer dizer que ela o
seja. Apenas significa que, a luz das observações, é mais “razoável” aceitar a
hipótese como verdadeira do que o contrário.

• Aceitar uma hipótese como verdadeira significa aceitar a outra hipótese


como falsa.

70
Ingredientes
Hipóteses :
H0 = hipótese nula
H1 = hipótese alternativa

PERGUNTA : O que usar para decidir em favor a uma


hipótese ou outra ?
RESPOSTA : Uma estatística r (chamada estatística de
decisão) calculada sobre as observações.

PERGUNTA : Como usar a estatística r para decidir em


favor de uma ou outra hipótese ?
RESPOSTA : Usar uma regra (chamada regra de decisão)
sobre os valores de r que consiste em particionar seu
domínio em tantas regiões disjuntas quanto o no. de
hipóteses e decidir em favor de uma delas em função da
região a que r pertence.
71
Avaliação

Hipótese
Aceita
Hipótese H0 H1
Verdadeira
ERRO TIPO I
DECISÃO
prob. α
H0 CORRETA
NÍVEL DE
prob. 1-α
SIGNIFICÂNCIA

ERRO TIPO II DECISÃO


H1 prob. β CORRETA
POTÊNCIA prob. 1- β

72
Compromisso Entre os Erros

Se r<R0, aceita-se H0
Caso contrário, aceita-se H1

p(r/H0) R0

p(r/H1)

β α

73
Conceito de Valor-P (P-Value)
Um valor-P é a probabilidade de se obter uma estatística
amostral no mínimo tão “extrema” como o que resulta dos
dados amostrais, na suposição da hipótese nula ser
verdadeira.

estatística de decisão: r valor observado de r: R

 P [ r < R / H 0 ] caso unicaudal à esquerda



=  P [ r > R / H 0 ] caso unicaudal à direita
valor-P

2.min { P [ r < R / H 0 ] , P [ r ≥ R / H 0 ]} caso bicaudal

Quanto menor for o valor-P, p(r|H0)


mais forte será a evidência
contra H0 fornecida pelos
dados.

74
Problema Típico

Considere uma população que possui uma determinada


característica x cujo valor médio µ deseja-se estimar e
cuja variância σ2 supõe-se que seja conhecida.

Entretanto suspeita-se que o verdadeiro valor do


parâmetro µ seja um dentre os valores µ0 e µ1 (µ0<µ1) .

Deseja-se testar qual destas hipóteses é a mais plausível


e para tal gerou-se uma AAS de n elementos.
Deseja-se que a decisão seja tomada de modo que:

i) Caso 1 - o nível de significância seja inferior a 5%.


ii) Caso 2 - o erro total seja minimizado;

75
Solução
1 n
estimador de µ µ̂ = ∑ xi
n i =1

Hipóteses :
H0 : µ = µ0 Estatística de decisão r
H1 : µ = µ1

Regra de decisão

Se ^
µ < a, aceita-se H0. Caso contrário, aceita-se H1.

Assume-se que n é grande para poder invocar o Teorema


Central do Limite. Assim ^ µ na hipótese Hi tem
distribuição gaussiana de média µi e variância σ2/n
76
Caso 1
μ0= 23.15 μ1 = 26.50 σ2 = 25 n = 16
α= 5% ^ μ= 25.1


α=P [ rejeitar H 0 | H 0 é verdadeira ] =P [ µˆ ≥ a | H 0 ] =∫ pr|H (u ).du
0
a

( u − µ0 ) 2
∞ 1 − a − µ0
0.05=∫a 2.π .σ / n .e 2σ 2 / n
.du ⇒
σ/ n
= 1.96 ⇒ a= 25.6

Como µˆ < a tem-se que H 0 deve ser aceito.


Note que nestas condições
β = P [ aceitar H 0 | H1 é verdadeira ] =P [ µˆ < a | H1 ] =∫ pr|H (u ).du
a

−∞ 1


( u − µ1 )2
a 1
β ∫−∞ 2.π .σ / n
= .e 2σ 2 / n
.du 23.58%

77
Caso 2
μ0= 23.15 μ1 = 26.50 σ2 = 25 n = 16
α= 5% ^ μ= 25.1


α=P [ rejeitar H 0 | H 0 é verdadeira ] =P [ µˆ > a | H 0 ] =∫ pr|H (u ).du 0
a

β =P [ aceitar H 0 | H1 é verdadeira ] =P [ µˆ < a | H1 ] =∫ pr|H (u ).du


a

−∞ 1

( u − µ0 ) 2 ( u − µ1 )
2
∞ 1 − a 1 −
ε =α + β = ∫ .e 2σ 2 / n
.du + ∫ .e 2σ 2 / n
.du
a
2.π .σ / n −∞
2.π .σ / n
dε µ0 + µ1
=0 ⇒ a = = 24.825 ⇒ α = β = 4.70%
da 2

78
Caso 2

α+β

β α

79
Resumo de Teste de Hipóteses

população

característica X com distribuição N(μ,σ2)

amostra
amostra AAS X = ( X 1 , X 2 ,..., X n )

1 n
estimador da média μ X = ∑ xi
n i =1
N
1
∑ ( xi − X )
2
=
estimador da variância σ 2
S 2

n − 1 i =1
80
Teste da Média
 H 0 : µ = µ0

 H1 : µ > µ 0
estatística de decisão X
≤ µ0 + a decide-se por H 0 R0 = região de decisão por H0
regra de decisão se X 
> µ0 + a decide-se por H1
nível de significância α
R0
𝜇𝜇0 𝜇𝜇0 + 𝑎𝑎

f.d.f. da Normal(0,1)
σ
Se σ é conhecido ⇒ a=
zα .
n
s área = α
Se σ é desconhecido mas n é "grande" ⇒ a=
zα .
n


81
Exemplo
Uma produto contém 25% de certo elemento em sua composição. Uma
amostra de 50 destes produtos foi selecionada e o percentual deste
elemento em cada amostra foi estimado, tendo sido encontrado uma média
amostral de 25,1% e um desvio padrão amostral de 1%. Pode-se então dizer
que a participação deste elemento no produto é superior aos 25% nominais
(ao nível de 5%)?
µ0 = 0.25 s = 0.01
 H 0 : µ = µ0 α= 0.05 ⇒ z5%= 1.645

 H1 : µ > µ 0
s 0.01
=a z=α . =
(1.645). 0.00232
n 50
µ=
0 +a = 25.232%
0.25232

Como o valor observado 25,1% pertence a R0 , então se decide em favor


de H0 , ou seja, aceita-se que a participação deste elemento no produto
é de 25%
82
Teste da Média
 H 0 : µ = µ0

 H1 : µ < µ 0
estatística de decisão X
≥ µ0 − a decide-se por H 0 R0 = região de decisão por H0
regra de decisão se X 
< µ0 − a decide-se por H1
nível de significância α
R0
𝜇𝜇0 − 𝑎𝑎 𝜇𝜇0

f.d.f. da Normal(0,1)
σ
Se σ é conhecido ⇒ a=
zα .
n
s área = α
Se α é desconhecido mas n é "grande" ⇒ a=
zα .
n

83
Exemplo
O tempo para transmitir 10 MB em determinada rede de computadores varia de acordo com um
modelo normal, com média 7,4 s e variância 1.3 s2. Depois de algumas mudanças na rede
acredita-se numa redução no tempo de transmissão de dados, além de uma possível alteração na
variabilidade. Foram realizados 10 ensaios independentes com um arquivo de 10 MB e foram
calculados as seguintes estatísticas:
Média amostral = 6,82 seg
Variância amostral = 0,3036 seg2
Existe evidência suficiente de que o tempo médio de transmissão foi reduzido? Use nível de
significância de 1%.

µ0 = 7.4
 H 0 : µ = µ0 α= 0.01 ⇒ z1%= 2.325

 H1 : µ < µ 0 =a z= α.
s 0.3036
(2.325). = 0.40511
n 10
µ0 − a =6.9949

Como o valor observado 6.82 não pertence a R0 , então se decide em favor de H1 , ou seja,
aceita-se que tenha havido redução no tempo médio de transmissão.

84
Teste da Média
 H 0 : µ = µ0

 H1 : µ ≠ µ 0
estatística de decisão X
≤ a decide-se por H 0 R0 = região de decisão por H0
regra de decisão se X − µ0 
> a decide-se por H1
nível de significância α
R0
𝜇𝜇0 − 𝑎𝑎 𝜇𝜇0 𝜇𝜇0 + 𝑎𝑎

σ f.d.f. da Normal(0,1)
Se α é conhecido ⇒ a=
zα /2 .
n
s
Se α é desconhecido mas n é "grande" ⇒ a=
zα /2 . área = α/2
n

zα/2
85
Exemplo
O tempo para transmitir 10 MB em determinada rede de computadores varia de acordo com um
modelo normal, com média 7,4 s e variância 1.3 s2. Depois de algumas mudanças na rede
acredita-se que o tempo de transmissão de dados não é mais o mesmo, além de uma possível
alteração na variabilidade. Foram realizados 10 ensaios independentes com um arquivo de 10 MB
e foram calculados as seguintes estatísticas:
Média amostral = 6,82 seg
Variância amostral = 0,3036 seg2
Existe evidência suficiente de que o tempo médio de transmissão foi alterado? Use nível de
significância de 1%.

µ0 = 7.4
 H 0 : µ = µ0 α = 0.01 ⇒ z0.5% = 2.575

 H1 : µ ≠ µ 0 =a z= α /2 .
s 0.3036
(2.575). = 0.4487
n 10
=µ0 − a 6.9513= µ0 + a 7.8487

Como o valor observado 6.82 não pertence a R0 , então se decide em favor de H1 , ou seja,
aceita-se que tenha havido alteração no tempo médio de transmissão.

86
Teste de Hipóteses de Diferença de Médias
População X População Y

Característica com Característica com


distribuição distribuição
N ( µ X , σ X2 ) amostra amostra N ( µY , σ Y2 )
amostra AAS amostra AAS

(
X = X 1 , X 2 ,..., X nX ) (
Y = Y1 , Y2 ,..., YnY )

 H 0 : µ X = µY
nX nY
1
∑ xi
1
estimador
da média
µX =
nX
µY = ∑ yi 
 µ X < µY
i =1 nY i =1 
 
estimador 1 nX
( )
1 nY
( )  1  µ X ≠ µY
H :
∑ xi −= ∑ yi − µ Y
2 2
=
da S X2 µX 2
SY µ > µ
variância nX − 1 i =1 nY − 1 i =1   X
 Y

Assume-se que min(nX,nY) > 50

87
Teste de Hipóteses de Diferença de Médias

 H 0 : µ X = µY

 H1 : µ X < µY
 µ X − µY
 Z = se variâncias conhecidas
 σ X2 σ Y2
+
 n nY
 X
estatística de decisão 
Z = µ X − µY
se variâncias desconhecidas
 ( nX − 1) s X2 + ( nY − 1) sY2  nX + nY 
 . 
 nX + nY − 2  nX .nY 

nível de significância α f.d.f. da Normal(0,1)

≥ − zα decide-se por H 0
regra de decisão se Z 
< − zα decide-se por H1 área = α

88
Teste de Hipóteses de Diferença de Médias

 H 0 : µ X = µY

 H1 : µ X > µY
 µ X − µY
 Z = se variâncias conhecidas
 σ X2 σ Y2
+
 n nY
 X
estatística de decisão 
Z = µ X − µY
se variâncias desconhecidas
 ( nX − 1) s X2 + ( nY − 1) sY2  nX + nY 
 . 
 nX + nY − 2  nX .nY 

nível de significância α f.d.f. da Normal(0,1)

≤ zα decide-se por H 0
regra de decisão se Z 
> zα decide-se por H1 área = α

89
Teste de Hipóteses de Diferença de Médias

 H 0 : µ X = µY

 H1 : µ X ≠ µY
 µ X − µY
 Z = se variâncias conhecidas
 σ X2 σ Y2
+
 n nY
 X
estatística de decisão 
Z = µ X − µY
se variâncias desconhecidas
 ( nX − 1) s X2 + ( nY − 1) sY2  nX + nY 
 . 
 nX + nY − 2  nX .nY 

f.d.f. da Normal(0,1)
nível de significância α
≤ zα /2 decide-se por H 0
regra de decisão se Z  área = α/2
> zα /2 decide-se por H1

zα/2

90
Exemplo
Duas máquinas A e B produzem parafusos teoricamente idênticos. Uma amostra
de tamanho 100 da máquina A apresentar média 2,0413 cm e desvio padrão
0,0064 cm. Outra amostra de tamanho 200 da máquina B apresentou média
2,0433 cm e desvio padrão 0,0058 cm.
Esta diferença das médias produzidas pelas duas máquinas é significante ao nível
de α = 1%?

µ X − µY 2.0413 − 2.0433
Z= = = −2.72
( nX − 1) s X2 + ( nY − 1) sY2 .  nX + nY  (100 − 1)( 0, 0064 ) + ( 200 − 1)( 0, 0058)
2 2
100 + 200 
 n .n  .
nX + nY − 2  X Y  100 + 200 − 2  100.200 

α = 0.01 ⇒ z0.5% = 2.575

Como Z = 2.72 > z0.5% = 2.575 rejeita-se a hipótese H 0 , ou seja, as maquinas não são idênticas.

20/12/2021 91
Teste da Variância
 H 0 : σ 2 = σ 02

 H1 : σ > σ 0
2 2

(n − 1).S 2
estatística de decisão r =
σ 02
R0 = região de decisão por H0
≤ a decide-se por H 0
regra de decisão se r 
> a decide-se por H1
nível de significância α R0
𝑎𝑎

p.d.f. χ2 com n-1 graus de liberdade

a = χα ,n −1 2
α

a
92
Teste da Variância
 H 0 : σ 2 = σ 02

 H1 : σ < σ 0
2 2

(n − 1).S 2
estatística de decisão r =
σ 02
R0 = região de decisão por H0
≥ a decide-se por H 0
regra de decisão se r 
< a decide-se por H1
nível de significância α R0
𝑎𝑎

p.d.f. χ2 com n-1 graus de liberdade

a=χ 2
1−α , n −1 1-α

a
93
Teste da Variância
 H 0 : σ 2 = σ 02

 H1 : σ ≠ σ 0
2 2

(n − 1).S 2
estatística de decisão r =
σ 02
R0 = região de decisão por H0
∈ [a, b] decide-se por H 0
regra de decisão se r 
caso contrário decide-se por H1
nível de significância α R0
𝑎𝑎 𝑏𝑏

p.d.f. χ2 com n-1 graus de liberdade

a = χ12−α /2,n −1
b = χα2 /2,n −1
a b
94
Exemplo
O peso de sacos de trigo comercializado por uma fábrica é especificado
como uma v.a. Normal com variância nominal de 1,5 kg². Coletou-se uma
amostra de 10 sacos e a variância estimada nesta amostra foi de 3 kg².
Podemos dizer ao nível de 5% que a variância nominal se modificou?

=σ 02 1.5
= n 10=S2 3
 H 0 : σ 2 = σ 02  χ 97.5%,9
2
= 2.70
=α 0.05 ⇒  2
  χ 2.5%,9 = 19.02
 H1 : σ ≠ σ 0
2 2

(n − 1).S 2 (9).(3)
=r = = 18
σ 02 1.5

Como o valor observado 18 pertence a R0 =[2.70 , 19.02], então se decide


em favor de H0 , ou seja, aceita-se que a variância nominal não tenha se
modificado.

95

Você também pode gostar