PES Modulo1

Curso de Pós-Graduação de Aperfeiçoamento Avançado
(C-ApAv) para Oficiais da Marinha do Brasil
Disciplina: PES – Processamento Estatístico de Sinais
Marco Antonio Grivet Mattoso Maia

mgrivet@cetuc.puc-rio.br
Inferência Estatística
Noções Básicas
Marco Grivet
Centro de Estudos em Telecomunicações
CETUC-PUC/Rio
2
O Problema Geral da Inferência
Considere uma população (também chamada de

universo) cujos elementos possuem uma certa
característica numérica expressa na forma de um
parâmetro, sobre cujo valor deseja-se fazer
afirmações.
Uma forma de alcançar este objetivo consiste em

observar os valores deste parâmetro quando
escolhemos ao acaso alguns elementos desta
população, denominados de amostras.
3
Amostra Aleatória Simples
Uma amostra aleatória simples (AAS) de tamanho N
consiste de N elementos desta população escolhidos de
maneira que qualquer conjunto de N elementos tenha a
mesma chance de constituir a amostra escolhida.
A AAS não só dá a cada elemento igual chance de ser

escolhido como também dá a toda amostra possível a
mesma chance de ser extraída.
Podemos entender a característica associada a um elemento

da população como um v.a.r. x descrita por uma certa
distribuição estatística.
Entenderemos formalmente uma AAS de tamanho N como

uma coleção X = ( x1 , x2 ,..., xN ) de v.a.r.’s mutuamente
independentes e todas com a mesma distribuição estatística
que caracteriza a v.a.r. x.
4
Amostra Aleatória Simples
Uma forma de conhecer esta distribuição da v.a.r, x é, por

exemplo, através do levantamento do histograma de
frequências relativas obtidos a partir de dados
observacionais.
População Dados
5
Estatística
Denomina-se de estatística T uma função real de uma amostra aleatória simples.
Por consequência, uma estatística é uma v.a.r.
Estatísticas Clássicas
( )
T X = T ( x1 , x2 ,..., xN )
( )
N
1
média amostral T X= X= ∑
N i =1
xi
( ) ( )
N
1
T X= S= ∑
2
variância amostral X xi − X
N i =1
6
Um Exemplo
Considere uma eleição a ser realizada numa certa população onde

determinado candidato deseja conhecer suas reais chances de vencê-la.
Se designarmos por p a probabilidade de que um eleitor arbitrário vote no

candidato em questão, é fácil perceber que este é o parâmetro que se deseja
conhecer.
O procedimento desejado mas certamente não adequado para este objetivo

seria o de entrevistar todos os indivíduos da população votante (universo) e
perguntar a cada um deles, em quem votaria. Neste caso, a probabilidade p
nada mais é do que a proporção de votantes a seu favor na população.
7
Um Exemplo
Sendo isso impossível por diversas razões, só há uma

alternativa viável, a saber, calcular a probabilidade p a partir
de uma coleção restrita de entrevistados (amostra).
Esta amostra terá que ser a mais “representativa” da

população. Sabemos que votantes de classes sociais distintas
tem interesses e desejos distintos. Assim uma escolha
equivocada da mostra pode fazer com que o parâmetro de
interesse com ela calculado seja muito diferente do que possa
realmente ocorrer na eleição.
Essa razão nos leva a escolher uma amostra com as

características impostas na concepção de uma AAS.
8
Um Exemplo
Definindo como xi a v.a.r. que vale 1 se o i-ésimo eleitor que

compõe a amostra se declarar um votante do candidato e 0
em caso contrário, então a estatística de interesse é a
proporção de candidatos na amostra que são votantes do
candidato. Esta proporção é a média amostral da AAS de
tamanho N, que é expressa por:
( )
N
1

T X= X=
N
∑x
i =1
i
Precisa-se saber qual a ligação formal entre esta estatística e

o parâmetro p, que se tem interesse em conhecer.
9
Problemas de Interesse
• Estimação de Parâmetros
• Teste de Hipóteses
10
Estimação Pontual
O problema da estimação pontual surge quando estamos interessados

em conhecer alguma característica numérica de uma distribuição
desconhecida (ex, média, variância ou outro parâmetro qualquer) a partir
do conhecimento de uma amostra de observações da característica em
questão.
Problema Formal
Seja θ um parâmetro determinístico porém desconhecido associado a
uma v.a.r. x.
Dispõe-se de uma A.A.S X = ( x1 , x2 ,..., xN ) e deseja-se estimar θ a
partir desta amostra.
Denomina-se de estimador do parâmetro θ, que representamos por ^

θ,
uma estatística da AAS.
Assim um estimador é uma v.a.r.

11
Estimação Pontual
No exemplo anterior, é fácil de perceber que

um estimador do parâmetro p que representa a
probabilidade de um eleitor votar no candidato
é a proporção na amostra dos eleitores que
revelam votar no candidato na eleição.
N
1
Assim: pˆ =
N
∑x
i =1
i
O que seria agora interessante de investigar é

o quão “bom” é este estimador.
12
Propriedade Desejável 1
Com probabilidade 1, o estimador do parâmetro

θ é idêntico a θ, qualquer que seja o seu valor.
P =  1
θˆ θ=
 para todo θ
Embora possível em alguns casos que em geral

são sem interesse, esta situação é impossível.
13
Propriedade Desejável 2
O erro quadrático médio (EQM) do estimador

escolhido é menor ou igual ao erro médio
quadrático de qualquer outro estimador,
qualquer que seja o valor do parâmetro
{
E θˆ − θ 
2
} {
≤ E θ − θ 
2
}
para qualquer estimador θ
Estimadores são melhores quanto
menor for o seu EQM.
14
Despolarização
Um estimador é dito despolarizado (unbiased)

quando :
E θˆ  = θ
Neste caso o EQM do estimador é a sua

variância.
{ } { () } ()
2
E θˆ − θ  = E θˆ − E θˆ  = Var θˆ
2
 
15
Estimador MVUE
O Estimador MVUE (Minimum Variance

Unbiased Estimator) é o estimador
despolarizado que apresenta a mínima variância
e por consequência apresenta o mínimo erro
quadrático médio (EQM).
16
Exemplo
No exemplo da eleição, é fácil ver o estimador

proposto é despolarizado.
As v.a.r.’s que compõem a AAS possuem

distribuição de Bernouilli(p). Logo E(xi) = p e
Var(xi) = p.(1-p) para todo i.
1 N  1 N 1 N
E ( pˆ ) E  =
=
=
∑ xi 
 N i 1=
∑ E ( xi ) =
=
 N i1 =
∑
N i1
p p
17
Exemplo
Neste caso, o EQM do estimador é a sua variância.
1 N  1 N
Var ( pˆ ) Var
= =  N ∑ xi  N=
2 ∑
Var ( xi )
=  i 1=  i 1
1 N
p.(1 − p )
=
N2
∑
i =1
=
p.(1 − p)
N
Perceba que a variância do estimador vai a zero
quando N tende a infinito, o que significa dizer
que P =  1 quando N tende a infinito.
θˆ θ=
 
Estimadores são melhores quanto maior
for o tamanho da AAS.
18
Eficiência
TEOREMA DE CRAMER-RAO
~
Seja θ um estimador despolarizado do parâmetro θ cuja f.d.p. é dada por
p(X,θ). Então:
( )
1
Var θ ≥ =
  ∂
1
 
2
Iθ
E   log p ( X , θ )  
  ∂θ  
informação de Fisher
19
Exemplo
No exemplo da eleição, o estimador ^p tem
distribuição semelhante a Binomial(n,p), ou seja:
 X
p ( X , p) = ( )
N−X
P  pˆ =  =C X
N . p X
. 1 − p para X =0,1, 2,...., N
 N
log p ( X , p=
) log CNX + X .log p + ( N − X ).log (1 − p )
∂ X N − X X − N. p
log p ( X , p ) =− =
∂p p 1− p p. (1 − p )
  ∂
E  =
2
 
log p ( X , p )   E=


2
 
{
  X − N . p   E [ X − N . p ]
2
}
  ∂p     p. (1 − p )   p 2
. (1 − p )
2
20
Exemplo
Porém:
{ }
N
E [ X − N. p] =∑ ( k − N . p ) .CNk . p k . (1 − p ) = N . p. (1 − p )
2 2 N −k
k =0
Logo:
  ∂   N . p. (1 − p )
2
N
( X , p )  =
E   log p=
∂ ( − ) p. (1 − p )
2
   
2
p p . 1 p
E assim: p. (1 − p )

Var θ ≥ ( )N
Logo o estimador escolhido é o mais eficiente
dentre todos os estimadores despolarizados
possíveis.
21
Estimadores Clássicos
N
1
estimador da média m X=
N
∑x
i =1
i
N
1
∑ ( xn − X )
2
=
estimador da variância σ S
2 2
N − 1 n =1
Estes estimadores são despolarizados, de

mínima variância, suficientes e eficientes
22
Estimadores Clássicos
E [X ] = m
σ
Var [X ] =
2
N
[ ]
E S =σ
2 2
Var [S ] = . µ
1  N −3 4
2
4 − .σ 
N  N −1 
23
Estimador de Máxima Verossimilhança
Exemplo Motivacional
Seja x={x1,x2,...,xN} variáveis indicadoras de uma certa característica obtida

em uma amostra (AAS) de N elementos de uma população. Seja θ a
probabilidade de ocorrência da característica num elemento genérico da
população. Deseja-se estimar θ.
∑ N −∑ X i
[ X ,θ ] θ . (1 − θ )
P=
Xi
Dada a evidência observacional, seria razoável estimar θ

procurando o seu valor que maximiza a probabilidade acima.
d 1 n
P ( X ,θ ) = 0 ⇒ θ = ∑ X i
dθ n i =1
24
Definição
Seja uma AAS x={x1,x2,...,xN} oriunda de uma população caracterizada por

um parâmetro θ onde se assume conhecido a f.d.p. px(X) da característica
em estudo, obviamente a menos do parâmetro.
A função de verossimilhança (do inglês likelihood) L(X,θ) é definida como a

f.d.p. conjunta da AAS, ou seja, px(X,θ), que devido a natureza i.i.d. da AAS
é expressa por:
n
L ( X , θ ) p=
= x ( X ,θ ) ∏ p ( X ,θ )
i =1
xi i
25
Definição
Assim o estimador de máxima verossimilhança é definido como o valor do
parâmetro θ que maximiza a função de verossimilhança L(X,θ) :
θˆML ( X ) = arg max L ( X ,θ )

θ
Maximizar uma função é equivalente a maximizar qualquer
função monotônica crescente desta. Torna-se conveniente
utilizar o logaritmo como esta função. Assim definimos a
função log-verossimilhança como:
∑ log ( p ( X ,θ ) )
N
L ( X , θ ) log
= = ( L ( X ,θ ) ) xi i
i =1
e assim:
θˆML ( X ) = arg max L ( X ,θ )

θ
26
Exemplo
Na fabricação de navios utiliza-se chapas de metal cuja
dureza deve atender as especificações exigidas para este
tipo de construção.
Após testes exaustivos, concluiu-se que a dureza das
chapas utilizadas pode ser considerada como uma v.a.r
contínua x com distribuição Gama, ou seja, a sua f.d.p. é
expressa por:
ap
px ( X ) = . X p −1.e − a. X
Γ( p )
Esta distribuição possui dois parâmetros, a saber, a e p.
Entretanto p é conhecido mas o parâmetro a não o é, e por
consequência precisa ser estimado.
27
Exemplo
A função log-verossimilhança é expressa por:
N
 ap p −1 − a . X i 
L ( X , θ ) ∑= log 
Γ
. X i .e 
i =1  ( p ) 
N
= ∑  p.log ( a ) − log ( Γ( p) ) + ( p − 1) .log ( X =
i =1
) − a. X 
i i
N N
= N . p.log ( a ) − N .log ( Γ( p ) ) + ( p − 1) .∑ log ( X i ) − a.∑ X i
=i 1 =i 1
d  N. p N N. p
L ( X ,θ ) = − ∑ Xi = 0 ⇒ a = N
∑ Xi
da a i =1
i =1
d2  N. p
2
L ( )
X , θ = − 2
< 0 ⇒ solução encontrada é um máximo.
da a
28
Exemplo
Sabe-se que para uma v.a.r. x com distribuição Gama, a sua

média e variância são expressas por:
p p
=E ( x) = Var( x)
a a2
Assim, com o conhecimento de a e p, pode-se determinar a

dureza média da chapa de metal assim como o seu desvio-
padrão, tornando possível verificar se as especificações
técnicas são atendidas.
29
Estimação de Intervalo
Uma estimativa pontual é, em algum sentido, a melhor

estimativa do parâmetro baseado em uma amostra.
É óbvio que qualquer estimativa pontual não é

absolutamente exata pois ela é baseada em uma única
AAS. Se novas AAS’s forem retiradas da população e novas
estimativas pontuais forem calculadas a partir delas,
valores diferentes de estimativas serão encontrados em
cada um destes casos.
Surge então a ideia de determinar uma faixa de números

(intervalo) na qual seja bastante provável de conter o
verdadeiro valor do parâmetro.
30
Intervalo de Confiança
Intervalo de confiança é definido como um intervalo no qual

a probabilidade do parâmetro θ a ele pertencer seja “muito
alta”.
verdadeiro valor do parâmetro: θ
valor estimado para o parâmetro:^θ
θ^-t1 θ^ θ^+t2
intervalo de confiança
P θˆ − t1 ≤ θ ≤ θˆ + t2  ≥ 1 − α
α é denominado de nível de significância

1-α é denominado de nível de confiança
31
Tecnicamente a definição anterior não permite a definição unívoca

deste intervalo. Para tal, impõe-se em geral duas condições.
θ^-t1 θ^ θ^+t2
intervalo de confiança
P θˆ − t1 ≤ θ ≤ θˆ + t2  =1 − α
P θ > θˆ + t2  =
α 2
Por consequência P θ < θˆ − t1  =

α 2
32
E(X) = μ
X
Experimento 1 Experimento 2
x x
[X – a , X + a]
Experimento 1 Experimento 2
x–a x-a x x x+a x+a
07:56 33
Exemplo
O preço de venda do litro de gasolina aditivada nos postos do Rio de

Janeiro pode ser considerado como uma v.a.r. com distribuição Normal
de média μ desconhecida mas de desvio-padrão σ de R$0.20.
Uma pesquisa ao longo de 36 postos de gasolina aleatoriamente

selecionados no Rio de Janeiro revelou que o preço médio de venda do
litro desta gasolina foi de R$ 3.78.
Encontre o intervalo de confiança ao nível de confiança de 98% para o

preço médio da gasolina aditivada no Rio de Janeiro.
34
Exemplo
x preço de venda do litro da gasolina aditivada ≈ Normal( µ , σ ) σ =R$0.20
amostra (AAS) de 36 postos ⇒ xi = preço observado no posto i
1 36
=
Estimador de µ µˆ ∑
36 i =1
xi ≈ Normal( µ , σ 6)
 a µˆ − µ a 
1 − α = P [ µˆ − a ≤ µ ≤ µˆ + a ] = P [ −a ≤ µˆ − µ ≤ a ] =P  − ≤ ≤ 
 σ 6 σ 6 σ 6 
µˆ − µ
Porém é uma v.a.r. Normal(0,1) e (1-α ) = 0.98
σ 6 f.d.p. de Normal(0,1)
a
a 0.3875.σ ≅ R$0.08
= 2.325 ⇒=
σ /6 área = 0.01
Intervalo de confiança =(R$3.70 , R$3.86)
35
36
Estatística Bayesiana
• Até o presente momento, estudamos o problema de estimação de

parâmetros desconhecidos mas considerados determinísticos (fixos).
• Existem situações onde o parâmetro a ser investigado tem natureza aleatória
e sua distribuição estatística inicial expressa o “conhecimento” ou
“ignorância” a respeito do parâmetro.
• Esta distribuição é denominada de “distribuição a priori” (do inglês, prior)
pois é tudo que se sabe sobre o parâmetro.
• Quando se utilizam dados observacionais, a distribuição estatística do
parâmetro se altera em função dessa nova informação, e por isso é chamada
de “distribuição a posteriori”.
37
Exemplo
Considere o exemplo que analisa o tempo de vida de uma
bateria de submarino que pode ser considerado como uma
v.a.r que depende de um parâmetro θ que precisa ser
estimado.
Tradicionalmente podemos obter uma AAS destes tempos
de vida e estimar θ por meio de procedimentos que vimos
até agora.
Não é difícil imaginar situações onde esta abordagem possa
ser inadequada.
Imagine que uma característica química da bateria sofra
alterações ao longo do tempo e que estas alterações
tenham impacto no seu tempo de vida.
Como consequência o parâmetro θ não apresenta mais
uma característica fixa e desconhecida mas sim um
caraterística variável e aleatória.
38
Estimação MAP
MAP = Maximum a Posteriori
parâmetro θ agora variável aleatória com distribuição π(θ)

verossimilhança
amostra x
p( x;θ ) p( x / θ )
p(θ / x ) = = .π (θ )
p(x ) p(x )
evidência
distribuição a posteriori distribuição a priori
θˆMAP ( x ) arg
= max p (θ / x ) arg max  p ( x / θ ) .π (θ ) 
θ θ
Se π(θ) não depender de θ, então os estimadores ML e MAP são os mesmos.
39
Exemplo
θ= probabilidade de contaminação de uma amostra
laboratorial.
n amostras independentes foram colhidas das quais r se
verificaram contaminadas.
Seja
z = no. de amostras contaminadas dentre as n colhidas
P [ z r=
/ θ ] C .θ . (1 − θ )
n−r
= r
n
r
(binomial)
z
Estimador não bayesiano de θ θ=
ˆ
n
40
Exemplo
Vamos admitir agora que θ é uma v.a.r. com distribuição
caracterizada por p(θ)
P[z = r /θ ]
p (θ / = )
z r= . p (θ )
P[z = r]
CASO 1 : Total “ignorância” sobre θ
θ tem distribuição uniforme (0,1)
Maximizar p(θ/z=k) equivale a maximizar P[z=k/θ] porque p(θ) não depende

de θ.
r
arg max P [ z =r / θ ] =arg max Cn .θ . (1 − θ )
 
n−r
r r
=
θ θ   n
41
Exemplo
CASO 2 : Há informação sobre θ
θ tem distribuição Beta(n1,n2)
Beta(1,1) e U(0,1) são idênticas.
n1 − 1 + r
=θˆ arg max { p (θ )= / θ ]}
.P [ z r=
θ n + n1 + n2 − 2
42
Estimadores Bayesianos
Seja θ um parâmetro desconhecido que possua uma distribuição

a priori dada por π .
Seja θˆ ( X ) um estimador de θ que seja função de observações
X = ( x1 , x2 ,..., xn ) que são independentes condicionalmente a θ .
( )
Seja L θ , θˆ ( X ) uma função custo arbitrária.
( )
Define-se como Risco de Bayes ao valor de Eθ , X  L θ , θˆ ( X ) 
 
Um estimador é dito Estimador de Bayes quando ele minimiza o
Risco de Bayes para uma determinada função custo.
43
Estimador MMSE
O estimador MMSE (Minimum Mean Square Error) decorre do estimador bayesiano

quando a função custo é da forma:
( )
θˆ ( X ) Eθ , X
L θ ,= ( )
 θ − θˆ ( X ) 2 
 
Neste caso o estimador vale:
θˆMMSE ( X ) = E (θ / X )
44
Exemplo
Utilizando o exemplo anterior, tem-se para o caso 1:
(θ ) 1 para 0 < θ < 1

p=
P [ z r=
/ θ ] Cnr .θ r . (1 − θ )
n−r
=
P[z = r] = P [ z = r / θ ] . p (θ ) .dθ = Cnr .Β ( r + 1, n − r + 1)

1
∫0
P[z = r /θ ] θ r . (1 − θ )
n−r
p (θ / = )
z r= . p (θ=
)
= P[z r] Β ( r + 1, n − r + 1)
r +1
MMSE ( X =
) E (θ / = ) ∫0 θ . p (θ / =
z r ) .dθ=
1
θˆ z r=
n+2
45
Exemplo
Tem-se para o caso 2:
θ n −1. (1 − θ )
n2 −1
1
p (θ ) para 0 < θ < 1

Β ( n1 , n2 )
P [ z r=
/ θ ] Cnr .θ r . (1 − θ )
n−r
=
P[z = r] = P [ z = r / θ ] . p (θ ) .dθ = Cnr .Β ( r + n1 , n − r + n2 )

1
∫0
P[z = r /θ ] θ r . (1 − θ )
n−r
p (θ / = )
z r= . p (θ=
)
= P[z r] Β ( r + n1 , n − r + n2 )
Β ( r + 1, n − r + 1) r + 1
MMSE ( X =
) E (θ / = ) ∫0 θ . p (θ / =
z r ) .dθ=
1
θˆ z r= .
Β ( r + n1 , n − r + n2 ) n + 2
46
Resumo de Estimação Intervalar
população
característica X com distribuição N(μ,σ2)
amostra
amostra AAS X = ( X 1 , X 2 ,..., X n )
1 n
estimador da média μ X = ∑ xi
n i =1
n
1
∑ ( xi − X )
2
=
estimador da variância σ 2
S 2
n − 1 i =1
47
Intervalo de Confiança para a Media μ
Caso em que σ é conhecido
 σ σ 
IC =
 X − zα /2 . , X + zα /2 .  nível de significância α
 n n 
f.d.f. da Normal(0,1)
área = α/2
𝑧𝑧𝛼𝛼⁄2
48
Tabela para zα/2
49
Cálculo de zα/2 com MATLAB
50
Exemplo
O Jornal Valor Econômico de 07/07/2017 informou que o preço médio

observado de um automóvel Palio ELX 1.0 4 portas ano 2001, estimado
através de uma amostra de 25 vendas, é de R$ 17.727,00.
Suponha que o desvio padrão REAL dos preços seja R$ 1500,00.
Encontre os intervalos de confiança aos níveis de confiança de 95% e 99%

para os preços de Palios ELX 1.0 quatro portas ano 2001 supondo que os
preços deste modelo são normalmente distribuídos.
51
Solução
X =
17727 σ =1500 n 25
 σ σ 
IC =
 X − zα /2 . , X + zα /2 .  nível de significância α
 n n
nível de confiança 1-α = 95% ⇒ α / 2 = 2.5% ⇒ zα /2 = 1.96

σ 1500
zα /2 . = (1.96 ) . = 588 ⇒ IC = ( R$17.139, 00, R$18.315, 00 )
n 25
nível de confiança 1-α = 99% ⇒ α / 2 = 0.5% ⇒ zα /2 = 2.575

σ 1500
zα /2 . = ( 2.575 ) . = 772.50 ⇒ IC
= ( R$16.954,50, R$18.499,50 )
n 25
52
Solução via MATLAB
53
Intervalo de Confiança para a Media μ
Caso em que σ é desconhecido
 S S 
IC =
 X − tn −1,α /2 . , X + tn −1,α /2 .  nível de significância α
 n n 
f.d.f. da t-Student com n-1 graus de liberdade
área = α/2
54
Tabela para tn-1,α/2
55
Cálculo de tn-1,α/2 via MATLAB
56
Exemplo
O Jornal Valor Econômico de 07/07/2017 informou que o preço médio

observado de um automóvel Palio ELX 1.0 4 portas ano 2001, estimado
através de uma amostra de 25 vendas, é de R$ 17.727,00.
Suponha que o desvio padrão dos preços, estimado com base na mesma
amostra acima mencionada seja R$ 1500,00.
Encontre os intervalos de confiança aos níveis de confiança de 95% e 99%

para o preço médio do Palio ELX 1.0 quatro portas ano 2001 supondo que os
preços deste modelo são normalmente distribuídos.
57
Solução
X =
17727 S =1500 n 25
 S S 
IC =
 X − t n −1,α /2 , X + t n −1,α /2  nível de significância α
 n n
nível de confiança 1-α = 95% ⇒ α / 2 = 2.5% ⇒ tn −1,α /2 = 2.064

S 1500
tn −1,α /2 . = ( 2.064 ) . = 619.20 ⇒ IC
= ( R$17.107,80, R$18.346, 20 )
n 25
nível de confiança 1-α = 99% ⇒ α / 2 = 0.5% ⇒ tn −1,α /2 = 2.797

S 1500
tn −1,α /2 . = ( 2.797 ) . = 839.10 ⇒ IC
= ( R$16.887,90, R$18.566,10 )
n 25
58
Intervalo de Confiança para a Variância σ2
 ( n − 1) .S 2 ( n − 1) .S 2 
IC =  ,  nível de significância α
 b a 
a b
59
Tabela para χn,α/2
60
Cálculo de χn-1,α/2 via MATLAB
61
Exemplo
Encontre o intervalo de confiança para a variância dos preços

do automóvel Palio ELX 1.0 4 portas ano 2001, estimado através de uma
amostra de 25 vendas, é de R$ 17.727,00.
Suponha que o desvio padrão dos preços, estimado com base na mesma
amostra acima mencionada seja R$ 1500,00.
Para o mesmo problema anterior, encontre os intervalos de confiança aos

níveis de confiança de 95% e 99% para o desvio-padrão do preço do Palio ELX
1.0 quatro portas ano 2001 supondo que os preços deste modelo são
normalmente distribuídos.
62
Solução
S =1500 n = 25
 ( n − 1) .S 2 , ( n − 1) .S 2 
IC =  nível de significância α
 b a 
 
= = 12.40
a t24,97.5%
nível de confiança 1-α = 95% ⇒ α / 2 = 2.5% ⇒ 
= = 39.36
b t24,2.5%
 ( n − 1) .S 2 24
= = .1500 1171,3
 b 39.36
 ⇒ IC =
( R$1.171,30, R$2.086,80)
 ( n − 1) .S 2
24
 = .1500 = 2086.8
 a 12.40
= = 9.89
a t24,99.5%
nível de confiança 1-α = 99% ⇒ α / 2 = 0.5% ⇒ 
= = 45.6
b t24,0.5%
 ( n − 1) .S 2 24
= = .1500 1088, 2
 b 45.6
 ⇒ IC = ( R$1.088, 20, R$2.336, 70)
 ( n − 1) .S 2
24
= = .1500 2336.7
 a 9.89
63
Estimação Intervalar para Proporção
população
característica X com distribuição Bernouill(p)
amostra
0 com probabilidade 1- p
Xi = 
1 com probabilidade p
1 n
estimador da proporção p pˆ = ∑ xi
n i =1
Assume-se que n é “grande” (em geral maior do que 50)
64
Intervalo de Confiança a Proporção p
 pˆ .(1 − pˆ ) pˆ .(1 − pˆ ) 
IC =
 pˆ − zα /2 . , pˆ + zα /2 .  nível de significância α
 n n 
área = α/2
65
Exemplo
A associação de estudantes universitários de uma grande universidade deseja saber

a opinião dos alunos sobre a proposta da reitoria a respeito do preço do bandejão.
Para isso, selecionou-se aleatoriamente uma amostra de 200 estudantes, dos quais
120 são favoráveis à proposta da reitoria.
Determine o intervalo de confiança para a verdadeira proporção de alunos
favoráveis à política da reitoria, ao nível de significância de 3%.
66
Solução
120
pˆ = =0.6 n = 200
200
 pˆ .(1 − pˆ ) pˆ .(1 − pˆ ) 
IC =  p − zα /2 .
ˆ , p + zα /2 .
ˆ  nível de significância α

 n n 
nível de significância α =3% ⇒ α / 2 =1.5% ⇒ z1.5% =2.17
pˆ .(1 − pˆ ) (0.6).(0.4)
=
zα /2 . = 0.002604
(2.17)
n 200
IC = (59.74%, 60.26%)
67
Teste de Hipóteses
Hipótese é uma conjectura que implica no fato

de que a verdadeira distribuição de probabilidades
que descreve a variabilidade de uma observação
pertença a uma determinada coleção de
distribuições possíveis.
A teoria de Testes de Hipóteses diz respeito ao

seguinte problema : Dada uma coleção de
hipóteses disjuntas mas não necessariamente
exaustivas, qual delas pode ser considerada a
mais plausível à luz de um particular conjunto de
observacões?
68
Caso Binário
Hipóteses :
H0 = hipótese nula
H1 = hipótese alternativa
A hipótese nula, representada por H0, é

uma hipótese que é apresentada sobre
determinados fatos estatísticos e cuja falsidade se
tenta provar.
A hipótese alternativa representada por H1, é

uma hipótese contraditória com a primeira.
69
Caso Binário
OBSERVAÇÕES IMPORTANTES
• Aceitar uma hipótese ou outra como verdadeira, não quer dizer que ela o
seja. Apenas significa que, a luz das observações, é mais “razoável” aceitar a
hipótese como verdadeira do que o contrário.
• Aceitar uma hipótese como verdadeira significa aceitar a outra hipótese

como falsa.
70
Ingredientes
Hipóteses :
H0 = hipótese nula
H1 = hipótese alternativa
PERGUNTA : O que usar para decidir em favor a uma

hipótese ou outra ?
RESPOSTA : Uma estatística r (chamada estatística de
decisão) calculada sobre as observações.
PERGUNTA : Como usar a estatística r para decidir em

favor de uma ou outra hipótese ?
RESPOSTA : Usar uma regra (chamada regra de decisão)
sobre os valores de r que consiste em particionar seu
domínio em tantas regiões disjuntas quanto o no. de
hipóteses e decidir em favor de uma delas em função da
região a que r pertence.
71
Avaliação
Hipótese
Aceita
Hipótese H0 H1
Verdadeira
ERRO TIPO I
DECISÃO
prob. α
H0 CORRETA
NÍVEL DE
prob. 1-α
SIGNIFICÂNCIA
ERRO TIPO II DECISÃO

H1 prob. β CORRETA
POTÊNCIA prob. 1- β
72
Compromisso Entre os Erros
Se r<R0, aceita-se H0
Caso contrário, aceita-se H1
p(r/H0) R0
p(r/H1)
β α
73
Conceito de Valor-P (P-Value)
Um valor-P é a probabilidade de se obter uma estatística
amostral no mínimo tão “extrema” como o que resulta dos
dados amostrais, na suposição da hipótese nula ser
verdadeira.
estatística de decisão: r valor observado de r: R
 P [ r < R / H 0 ] caso unicaudal à esquerda


=  P [ r > R / H 0 ] caso unicaudal à direita
valor-P

2.min { P [ r < R / H 0 ] , P [ r ≥ R / H 0 ]} caso bicaudal
Quanto menor for o valor-P, p(r|H0)

mais forte será a evidência
contra H0 fornecida pelos
dados.
74
Problema Típico
Considere uma população que possui uma determinada

característica x cujo valor médio µ deseja-se estimar e
cuja variância σ2 supõe-se que seja conhecida.
Entretanto suspeita-se que o verdadeiro valor do

parâmetro µ seja um dentre os valores µ0 e µ1 (µ0<µ1) .
Deseja-se testar qual destas hipóteses é a mais plausível

e para tal gerou-se uma AAS de n elementos.
Deseja-se que a decisão seja tomada de modo que:
i) Caso 1 - o nível de significância seja inferior a 5%.

ii) Caso 2 - o erro total seja minimizado;
75
Solução
1 n
estimador de µ µ̂ = ∑ xi
n i =1
Hipóteses :
H0 : µ = µ0 Estatística de decisão r
H1 : µ = µ1
Regra de decisão
Se ^
µ < a, aceita-se H0. Caso contrário, aceita-se H1.
Assume-se que n é grande para poder invocar o Teorema

Central do Limite. Assim ^ µ na hipótese Hi tem
distribuição gaussiana de média µi e variância σ2/n
76
Caso 1
μ0= 23.15 μ1 = 26.50 σ2 = 25 n = 16
α= 5% ^ μ= 25.1
∞
α=P [ rejeitar H 0 | H 0 é verdadeira ] =P [ µˆ ≥ a | H 0 ] =∫ pr|H (u ).du
0
a
( u − µ0 ) 2
∞ 1 − a − µ0
0.05=∫a 2.π .σ / n .e 2σ 2 / n
.du ⇒
σ/ n
= 1.96 ⇒ a= 25.6
Como µˆ < a tem-se que H 0 deve ser aceito.

Note que nestas condições
β = P [ aceitar H 0 | H1 é verdadeira ] =P [ µˆ < a | H1 ] =∫ pr|H (u ).du
a
−∞ 1
−
( u − µ1 )2
a 1
β ∫−∞ 2.π .σ / n
= .e 2σ 2 / n
.du 23.58%
77
Caso 2
μ0= 23.15 μ1 = 26.50 σ2 = 25 n = 16
α= 5% ^ μ= 25.1
∞
α=P [ rejeitar H 0 | H 0 é verdadeira ] =P [ µˆ > a | H 0 ] =∫ pr|H (u ).du 0
a
β =P [ aceitar H 0 | H1 é verdadeira ] =P [ µˆ < a | H1 ] =∫ pr|H (u ).du

a
−∞ 1
( u − µ0 ) 2 ( u − µ1 )
2
∞ 1 − a 1 −
ε =α + β = ∫ .e 2σ 2 / n
.du + ∫ .e 2σ 2 / n
.du
a
2.π .σ / n −∞
2.π .σ / n
dε µ0 + µ1
=0 ⇒ a = = 24.825 ⇒ α = β = 4.70%
da 2
78
Caso 2
α+β
β α
79
Resumo de Teste de Hipóteses
população
característica X com distribuição N(μ,σ2)
amostra
1 n
estimador da média μ X = ∑ xi
n i =1
N
1
∑ ( xi − X )
2
=
estimador da variância σ 2
S 2
n − 1 i =1
80
Teste da Média
 H 0 : µ = µ0

 H1 : µ > µ 0
estatística de decisão X
≤ µ0 + a decide-se por H 0 R0 = região de decisão por H0
regra de decisão se X 
> µ0 + a decide-se por H1
nível de significância α
R0
𝜇𝜇0 𝜇𝜇0 + 𝑎𝑎
σ
Se σ é conhecido ⇒ a=
zα .
n
s área = α
Se σ é desconhecido mas n é "grande" ⇒ a=
zα .
n
zα
81
Exemplo
Uma produto contém 25% de certo elemento em sua composição. Uma
amostra de 50 destes produtos foi selecionada e o percentual deste
elemento em cada amostra foi estimado, tendo sido encontrado uma média
amostral de 25,1% e um desvio padrão amostral de 1%. Pode-se então dizer
que a participação deste elemento no produto é superior aos 25% nominais
(ao nível de 5%)?
µ0 = 0.25 s = 0.01
 H 0 : µ = µ0 α= 0.05 ⇒ z5%= 1.645

 H1 : µ > µ 0
s 0.01
=a z=α . =
(1.645). 0.00232
n 50
µ=
0 +a = 25.232%
0.25232
Como o valor observado 25,1% pertence a R0 , então se decide em favor

de H0 , ou seja, aceita-se que a participação deste elemento no produto
é de 25%
82
Teste da Média
 H 0 : µ = µ0

 H1 : µ < µ 0
≥ µ0 − a decide-se por H 0 R0 = região de decisão por H0
regra de decisão se X 
< µ0 − a decide-se por H1
R0
𝜇𝜇0 − 𝑎𝑎 𝜇𝜇0
σ
Se σ é conhecido ⇒ a=
zα .
n
s área = α
Se α é desconhecido mas n é "grande" ⇒ a=
zα .
n
zα
83
Exemplo
O tempo para transmitir 10 MB em determinada rede de computadores varia de acordo com um
modelo normal, com média 7,4 s e variância 1.3 s2. Depois de algumas mudanças na rede
acredita-se numa redução no tempo de transmissão de dados, além de uma possível alteração na
variabilidade. Foram realizados 10 ensaios independentes com um arquivo de 10 MB e foram
calculados as seguintes estatísticas:
Média amostral = 6,82 seg
Variância amostral = 0,3036 seg2
Existe evidência suficiente de que o tempo médio de transmissão foi reduzido? Use nível de
significância de 1%.
µ0 = 7.4
 H 0 : µ = µ0 α= 0.01 ⇒ z1%= 2.325

 H1 : µ < µ 0 =a z= α.
s 0.3036
(2.325). = 0.40511
n 10
µ0 − a =6.9949
Como o valor observado 6.82 não pertence a R0 , então se decide em favor de H1 , ou seja,
aceita-se que tenha havido redução no tempo médio de transmissão.
84
Teste da Média
 H 0 : µ = µ0

 H1 : µ ≠ µ 0
≤ a decide-se por H 0 R0 = região de decisão por H0
regra de decisão se X − µ0 
> a decide-se por H1
R0
𝜇𝜇0 − 𝑎𝑎 𝜇𝜇0 𝜇𝜇0 + 𝑎𝑎
σ f.d.f. da Normal(0,1)
Se α é conhecido ⇒ a=
zα /2 .
n
s
Se α é desconhecido mas n é "grande" ⇒ a=
zα /2 . área = α/2
n
zα/2
85
Exemplo
O tempo para transmitir 10 MB em determinada rede de computadores varia de acordo com um
modelo normal, com média 7,4 s e variância 1.3 s2. Depois de algumas mudanças na rede
acredita-se que o tempo de transmissão de dados não é mais o mesmo, além de uma possível
alteração na variabilidade. Foram realizados 10 ensaios independentes com um arquivo de 10 MB
e foram calculados as seguintes estatísticas:
Média amostral = 6,82 seg
Variância amostral = 0,3036 seg2
Existe evidência suficiente de que o tempo médio de transmissão foi alterado? Use nível de
significância de 1%.
µ0 = 7.4
 H 0 : µ = µ0 α = 0.01 ⇒ z0.5% = 2.575

 H1 : µ ≠ µ 0 =a z= α /2 .
s 0.3036
(2.575). = 0.4487
n 10
=µ0 − a 6.9513= µ0 + a 7.8487
Como o valor observado 6.82 não pertence a R0 , então se decide em favor de H1 , ou seja,
aceita-se que tenha havido alteração no tempo médio de transmissão.
86
Teste de Hipóteses de Diferença de Médias
População X População Y
Característica com Característica com

distribuição distribuição
N ( µ X , σ X2 ) amostra amostra N ( µY , σ Y2 )
amostra AAS amostra AAS
(
X = X 1 , X 2 ,..., X nX ) (
Y = Y1 , Y2 ,..., YnY )
 H 0 : µ X = µY
nX nY
1
∑ xi
1
estimador
da média
µX =
nX
µY = ∑ yi 
 µ X < µY
i =1 nY i =1 
 
estimador 1 nX
( )
1 nY
( )  1  µ X ≠ µY
H :
∑ xi −= ∑ yi − µ Y
2 2
=
da S X2 µX 2
SY µ > µ
variância nX − 1 i =1 nY − 1 i =1   X
 Y
Assume-se que min(nX,nY) > 50
87
 H 0 : µ X = µY

 H1 : µ X < µY
 µ X − µY
 Z = se variâncias conhecidas
 σ X2 σ Y2
+
 n nY
 X
estatística de decisão 
Z = µ X − µY
se variâncias desconhecidas
 ( nX − 1) s X2 + ( nY − 1) sY2  nX + nY 
 . 
 nX + nY − 2  nX .nY 
nível de significância α f.d.f. da Normal(0,1)
≥ − zα decide-se por H 0
regra de decisão se Z 
< − zα decide-se por H1 área = α
zα
88
 H 0 : µ X = µY

 H1 : µ X > µY
 µ X − µY
 σ X2 σ Y2
+
 n nY
 X
Z = µ X − µY
 ( nX − 1) s X2 + ( nY − 1) sY2  nX + nY 
 . 
 nX + nY − 2  nX .nY 
nível de significância α f.d.f. da Normal(0,1)
≤ zα decide-se por H 0
regra de decisão se Z 
> zα decide-se por H1 área = α
zα
89
 H 0 : µ X = µY

 H1 : µ X ≠ µY
 µ X − µY
 σ X2 σ Y2
+
 n nY
 X
Z = µ X − µY
 ( nX − 1) s X2 + ( nY − 1) sY2  nX + nY 
 . 
 nX + nY − 2  nX .nY 
≤ zα /2 decide-se por H 0
regra de decisão se Z  área = α/2
> zα /2 decide-se por H1
zα/2
90
Exemplo
Duas máquinas A e B produzem parafusos teoricamente idênticos. Uma amostra
de tamanho 100 da máquina A apresentar média 2,0413 cm e desvio padrão
0,0064 cm. Outra amostra de tamanho 200 da máquina B apresentou média
2,0433 cm e desvio padrão 0,0058 cm.
Esta diferença das médias produzidas pelas duas máquinas é significante ao nível
de α = 1%?
µ X − µY 2.0413 − 2.0433
Z= = = −2.72
( nX − 1) s X2 + ( nY − 1) sY2 .  nX + nY  (100 − 1)( 0, 0064 ) + ( 200 − 1)( 0, 0058)
2 2
100 + 200 
 n .n  .
nX + nY − 2  X Y  100 + 200 − 2  100.200 
α = 0.01 ⇒ z0.5% = 2.575
Como Z = 2.72 > z0.5% = 2.575 rejeita-se a hipótese H 0 , ou seja, as maquinas não são idênticas.
20/12/2021 91
Teste da Variância
 H 0 : σ 2 = σ 02

 H1 : σ > σ 0
2 2
(n − 1).S 2
estatística de decisão r =
σ 02
R0 = região de decisão por H0
≤ a decide-se por H 0
regra de decisão se r 
> a decide-se por H1
nível de significância α R0
𝑎𝑎
p.d.f. χ2 com n-1 graus de liberdade
a = χα ,n −1 2
α
a
92
Teste da Variância
 H 0 : σ 2 = σ 02

 H1 : σ < σ 0
2 2
(n − 1).S 2
σ 02
≥ a decide-se por H 0
< a decide-se por H1
𝑎𝑎
a=χ 2
1−α , n −1 1-α
a
93
Teste da Variância
 H 0 : σ 2 = σ 02

 H1 : σ ≠ σ 0
2 2
(n − 1).S 2
σ 02
∈ [a, b] decide-se por H 0
caso contrário decide-se por H1
𝑎𝑎 𝑏𝑏
a = χ12−α /2,n −1
b = χα2 /2,n −1
a b
94
Exemplo
O peso de sacos de trigo comercializado por uma fábrica é especificado
como uma v.a. Normal com variância nominal de 1,5 kg². Coletou-se uma
amostra de 10 sacos e a variância estimada nesta amostra foi de 3 kg².
Podemos dizer ao nível de 5% que a variância nominal se modificou?
=σ 02 1.5
= n 10=S2 3
 H 0 : σ 2 = σ 02  χ 97.5%,9
2
= 2.70
=α 0.05 ⇒  2
  χ 2.5%,9 = 19.02
 H1 : σ ≠ σ 0
2 2
(n − 1).S 2 (9).(3)
=r = = 18
σ 02 1.5
Como o valor observado 18 pertence a R0 =[2.70 , 19.02], então se decide

em favor de H0 , ou seja, aceita-se que a variância nominal não tenha se
modificado.
95

PES Modulo1

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

PES Modulo1

Enviado por

Direitos autorais:

Formatos disponíveis

Curso de Pós-Graduação de Aperfeiçoamento Avançado

(C-ApAv) para Oficiais da Marinha do Brasil

Disciplina: PES – Processamento Estatístico de Sinais

Marco Antonio Grivet Mattoso Maia

Considere uma população (também chamada de

Uma forma de alcançar este objetivo consiste em

A AAS não só dá a cada elemento igual chance de ser

Podemos entender a característica associada a um elemento

Entenderemos formalmente uma AAS de tamanho N como

Uma forma de conhecer esta distribuição da v.a.r, x é, por

Considere uma eleição a ser realizada numa certa população onde

Se designarmos por p a probabilidade de que um eleitor arbitrário vote no

O procedimento desejado mas certamente não adequado para este objetivo

Sendo isso impossível por diversas razões, só há uma

Esta amostra terá que ser a mais “representativa” da

Essa razão nos leva a escolher uma amostra com as

Definindo como xi a v.a.r. que vale 1 se o i-ésimo eleitor que

Precisa-se saber qual a ligação formal entre esta estatística e

O problema da estimação pontual surge quando estamos interessados

Denomina-se de estimador do parâmetro θ, que representamos por ^

Assim um estimador é uma v.a.r.

No exemplo anterior, é fácil de perceber que

O que seria agora interessante de investigar é

Com probabilidade 1, o estimador do parâmetro

Embora possível em alguns casos que em geral

O erro quadrático médio (EQM) do estimador

Um estimador é dito despolarizado (unbiased)

Neste caso o EQM do estimador é a sua

O Estimador MVUE (Minimum Variance

No exemplo da eleição, é fácil ver o estimador

As v.a.r.’s que compõem a AAS possuem

Estes estimadores são despolarizados, de

Seja x={x1,x2,...,xN} variáveis indicadoras de uma certa característica obtida

Dada a evidência observacional, seria razoável estimar θ

Seja uma AAS x={x1,x2,...,xN} oriunda de uma população caracterizada por

A função de verossimilhança (do inglês likelihood) L(X,θ) é definida como a

θˆML ( X ) = arg max L ( X ,θ )

θˆML ( X ) = arg max L ( X ,θ )

Sabe-se que para uma v.a.r. x com distribuição Gama, a sua

Assim, com o conhecimento de a e p, pode-se determinar a

Uma estimativa pontual é, em algum sentido, a melhor

É óbvio que qualquer estimativa pontual não é

Surge então a ideia de determinar uma faixa de números

Intervalo de confiança é definido como um intervalo no qual

α é denominado de nível de significância

Tecnicamente a definição anterior não permite a definição unívoca

Por consequência P θ < θˆ − t1  =

x–a x-a x x x+a x+a

O preço de venda do litro de gasolina aditivada nos postos do Rio de

Uma pesquisa ao longo de 36 postos de gasolina aleatoriamente

Encontre o intervalo de confiança ao nível de confiança de 98% para o

Intervalo de confiança =(R$3.70 , R$3.86)

• Até o presente momento, estudamos o problema de estimação de

parâmetro θ agora variável aleatória com distribuição π(θ)

Se π(θ) não depender de θ, então os estimadores ML e MAP são os mesmos.

θ tem distribuição uniforme (0,1)

Maximizar p(θ/z=k) equivale a maximizar P[z=k/θ] porque p(θ) não depende

θ tem distribuição Beta(n1,n2)

Beta(1,1) e U(0,1) são idênticas.

Seja θ um parâmetro desconhecido que possua uma distribuição

O estimador MMSE (Minimum Mean Square Error) decorre do estimador bayesiano

(θ ) 1 para 0 < θ < 1

P[z = r] = P [ z = r / θ ] . p (θ ) .dθ = Cnr .Β ( r + 1, n − r + 1)