Apostila Inferencia

Universidade Tecnológica Federal do
Paraná
Departamento Acadêmico de Estatística
Fundamentos de Inferência
Jose Carlos Pereira Coninck

Maurício Kaubay do Amaral
6 de dezembro de 2022
Conteúdo
1 Estimadores 1
1.1 Estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Propriedades dos estimadores . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Suficiência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.4 Não viés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.1 EQM - Erro Quadrático Médio . . . . . . . . . . . . . . . . . . . . 6
1.5 Consistência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.6 Eficiência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2 Estimadores pontuais e intervalos de confiança 10

2.1 Distribuições amostrais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.1 Distribuição amostral para a média . . . . . . . . . . . . . . . . . . 10
2.1.2 Distribuição amostral para a variância . . . . . . . . . . . . . . . . 11
2.1.3 Distribuição amostral para a proporção . . . . . . . . . . . . . . . . 14
2.1.4 Distribuição amostral para a diferença entre duas médias . . . . . . 15
2.1.5 Distribuição amostral para a diferença entre proporções . . . . . . . 18
2.2 Intervalos de Confiança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.1 I.C. para média com variância σ 2 conhecida . . . . . . . . . . . . . 20
2.2.2 I.C. para proporção . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.3 I.C. para diferença das médias com variâncias σi2 conhecidas . . . . 23
2.2.4 I.C. para diferença das médias com variâncias σi2 desconhecidas e
diferentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.5 I.C. para diferença das médias com variâncias σi2 desconhecidas,
porém iguais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.6 I.C. para diferença das proporções . . . . . . . . . . . . . . . . . . . 25
2.2.7 I.C. para variância . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3 Exercícios para treinar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 Técnicas de Estimação 28
3.1 Método dos Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2 Método dos Mínimos Quadrados Ordinários . . . . . . . . . . . . . . . . . 29
3.3 Função de Máxima Verossimilhança . . . . . . . . . . . . . . . . . . . . . . 31
3.3.1 Maximização da função de Verossimilhança . . . . . . . . . . . . . . 32
3.3.2 Exemplos de estimação verossímil . . . . . . . . . . . . . . . . . . . 36
4 Teste de Hipóteses 44
4.1 Erros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.2 Hipótese Nula . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
i
CONTEÚDO ii
4.3 Teste de Hipótese para uma amostra . . . . . . . . . . . . . . . . . . . . . 46

4.3.1 Teste de Hipótese para a média . . . . . . . . . . . . . . . . . . . . 47
4.3.2 Teste de Hipótese para a proporção . . . . . . . . . . . . . . . . . . 59
4.3.3 Teste de Hipótese para a variância ou desvio padrão . . . . . . . . . 60
4.4 Teste de Hipótese para duas amostras . . . . . . . . . . . . . . . . . . . . . 63
5 Análise de Dados Categóricos 64

5.1 Tabelas de contingência . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.2 Teste de Aderência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.3 Teste de Homegeneidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.4 Teste de Independência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
6 Análise de Variância 78
6.1 Experimento com único fator . . . . . . . . . . . . . . . . . . . . . . . . . 78
6.2 Delineamento Completamente Casualisado (RCC) . . . . . . . . . . . . . . 78
6.3 Análise de variância para dois fatores . . . . . . . . . . . . . . . . . . . . . 82
6.4 Pressupostos da análise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
7 Correlação 87
7.1 Variância, covariância e correlação . . . . . . . . . . . . . . . . . . . . . . . 87
7.1.1 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
7.1.2 Covariância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
7.1.3 Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
7.2 Teste de hipótese para a correlação . . . . . . . . . . . . . . . . . . . . . . 93
8 Regressão 94
8.1 Regressão Linear Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
8.1.1 Método dos mínimos quadrados ordinários . . . . . . . . . . . . . . 94
8.2 Regressão Linear Múltipla . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
8.2.1 Estimando os coeficientes βi . . . . . . . . . . . . . . . . . . . . . . 98
8.2.2 Propriedades dos Estimadores β . . . . . . . . . . . . . . . . . . . . 103
8.3 Valores preditos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
8.4 Resíduos e análise dos resíduos . . . . . . . . . . . . . . . . . . . . . . . . . 106
8.4.1 Propriedades dos resíduos . . . . . . . . . . . . . . . . . . . . . . . 106
8.4.2 Valor esperado dos resíduos . . . . . . . . . . . . . . . . . . . . . . 106
8.5 Análise de Variância ANOVA (para a regressora) . . . . . . . . . . . . . . 107
8.5.1 Medida de qualidade de ajuste: coeficiente de determinação R2 (ar-
madilhas do uso de R2 ) . . . . . . . . . . . . . . . . . . . . . . . . . 113
8.5.2 Verificação dos coeficientes . . . . . . . . . . . . . . . . . . . . . . . 114
8.5.3 Regressoras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
8.6 Verificação dos pressupostos dos resíduos . . . . . . . . . . . . . . . . . . . 117
8.6.1 Critério de Escolha entre modelos: AIC - O critério de Akaike (Parte I)123
8.7 Intervalos de Predição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
8.7.1 Cálculo do Intervalo de Predição . . . . . . . . . . . . . . . . . . . 126
8.8 Verificação da Qualidade de Ajuste . . . . . . . . . . . . . . . . . . . . . . 128
8.8.1 Diagnóstico de influência . . . . . . . . . . . . . . . . . . . . . . . . 129
8.9 Conceitos fundamentais em análise generalizada . . . . . . . . . . . . . . . 130
9 Controle Estatístico de Processo 134

CONTEÚDO iii
9.1 Controle de qualidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

9.1.1 Controle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
9.2 Gráficos de Controle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
9.2.1 Gráfico de controle para variáveis . . . . . . . . . . . . . . . . . . . 135
10 Introdução à amostragem 140

10.1 Amostragem probabilística . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
10.2 Tipos de amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
10.2.1 Amostragem Aleatória Simples . . . . . . . . . . . . . . . . . . . . 141
10.3 Amostragem Estratificada . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
10.3.1 Alocação Ótima de Neyman . . . . . . . . . . . . . . . . . . . . . . 146
11 Números Índices 149

11.1 Números Índices Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
11.1.1 Propriedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
11.2 Índices Poderados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
11.2.1 Índice Agregado de Preço . . . . . . . . . . . . . . . . . . . . . . . 151
Capítulo 1
Estimadores
Não é necessário recolher informações de toda uma pupulação sobre algum parâmetro
desconhecido, basta uma amostragem adequada. Esse é o objetivo dos estimadores, uma
função que fornce-nos um valor, chamado de estimativa, que contém informações úteis e
importantes sobre uma população.
1.1 Estimadores
Os estimadores são funções criadas por variáveis aleatórias.
Definição 1
Um estimador é uma função das variáveis aleatórias θ̂ = f (x1 , x2 , x3 · · · xn ) formada

por amostras aleatórias X1 , X2 , · · · Xn (ou subconjunto de uma população).
Temos dois tipos de estimadores:

• Estatística
Definição
Define-se estatística o estimador que não depende do parâmetro desconhecido θ,
mas a sua distribuição (função densidade ou massa de probabilidade) dependerá
de θ.
Ou seja, estimadores são também variáveis aleatórias e apresentam as suas respec-

tivas distribuições.
P Mas, nem todo estimador é uma estatística. Por exemplo, a
função θ̂ = nX é uma estatística porque o estimador não depende do parâmetro
2
desconhecido e a sua distribuição depende dos parâmetros desconhecidos µ e σx̄2 = σn
1 1 x̄−µ 2
f (x̄|µ, σx̄2 ) = p e− 2 ( )
σx̄
2πσx̄2
• Quantidade Pivotal
1
1.2. PROPRIEDADES DOS ESTIMADORES 2
Definição
Um povot é uma v.a. que depende do parâmetro desconhecido θ, mas a sua
distribuição não depende.
Um exemplo dessa quantidade poderia ser a função

x−µ
Z=
σ
cuja distribuição não depende do parâmetro desconhecido.
1 1 2
fZ (z) = √ e− 2 z
2π
1.2 Propriedades dos estimadores

Os estimadores gozam de quatro propriedades: suficiência, não viés, consistência e efi-
ciência. Aqueles estimadores que não apresentarem tais caracatersíticas, não podem ser
considerados um bom estimador.
1.3 Suficiência
O princípio da suficiência diz que uma estatística T (X) será suficiente se toda a informação
contida na amostra {X1 , X2 , X3 , · · · Xn } consegue assimilar toda a informação possível so-
bre o parâmetro desonhecido θ, propriedade da população. Qualquer outra inserção de in-
formação além daquela contida na estatística suficiente T (X) não contribuirá em nada com
alguma melhora das informações contidas na estatística T (X) sobre o parâmetro θ. Por
exemplo, supondo que a média populacional µ de uma distribuição Gaussiana é desconhe-
cida, digamos X ∼ N (µ, σ 2 ). A estatística T (X) que consegue captar Pn
toda a informação
sobre a média populacional será a média amostral dada por X̄ = xi i=1
n ≤ N ∀x ∈ ℜ,
ou seja, uma outra estatística como média quadrática X̄RM S ou média harmônica X̄h
não contribuirá com novas informações sobre µ, além do que a média aritmética já con-
tribui.
Definição
Se a distribuição da amostra X, dado o valor de T (X), for independente do parâmetro

desconhecido, dizemos que a estatística T (X) é suficiente.
Prova
Seja a probabilidade condicionada (Por definição!)
pθ (X = x ∩ T (X) = T (x))
pθ (X = x|T (X) = T (x)) = (1.1)
pθ (T (X) = T (x))
1.3. SUFICIÊNCIA 3
então
pθ (X = x)
pθ (X = x|T (X) = T (x)) = (1.2)
pθ (T (X) = T (x))
p(x|θ)
= (1.3)
q(T (x)|θ)
Lembramos aqui que qualquer distribuição de probabilidade para uma estatística T (X) é
dita ser uma distribuição amostral.
Exemplo
Verifique se a estatística T (X) = X é suficiente para o parâmetro desconhecido θ

P
da dsitribuição Bernoulli.
p(x|θ)
pθ (X = x|T (X) =
q(T (x)|θ)
a) Distribuição conjunta de probabilidade p(x|θ)

Y Y P P
p(x|θ) = p(xi |θ) = θxi (1−θ)1−xi = θ i xi (1−θ)N − i xi = θT (X) (1−θ)N −T (X)
i i
b) Distribuição amostral para a estatística T (x)

N
q(T (x)|θ) = θT (X) (1 − θ)N −T (X)
T (X)
θT (X) (1 − θ)N −T (X)

pθ (X = x|T (X) = N

T (X)
θT (X) (1 − θ)N −T (X)

N
=
T (X)
Portanto T (X) = i xi é uma estatística suficiente para θ.

P
Teorema
A estatística T (X) é suficiente para o parâmetro desconhecido θ se, e somente se,

existirem duas funções g(t|θ) e h(x) as quais permitem escrever a função fdp ou fp
conjunta da amostra como sendo
f (x|θ) = g(t|θ)h(x)
a fatoração da distribuição conjunta em termo das funções g(t|θ) e h(x).

1.3. SUFICIÊNCIA 4
Exemplo
Verifique se a estatística T (X) = X é suficiente para o parâmetro desconhecido θ

P
da dsitribuição Bernoulli.
Seja a função de Bernoulli f (X|θ) = θx (1 − θ)1−x

Y
Fatorando... p(x|t, θ) = f (X|θ)
Y
= θx (1 − θ)1−x
P P
= θ x (1 − θ)1− x
P x
θ
= · (1 − θ)
1−θ
Finalmente,
P x
θ
g(t, θ) = · (1 − θ); h(X) = 1
1−θ
a estatística T (X) = x é uma estatística suficiente.
P
Definição
Estatística anciliar Se a distribuição de probabilidade da estatística S(X) não de-

pender do parâmetro θ, definimos de estatística anciliar.
Definição
Estatística completa Se Eθ g(T ) = 0 ⇒ Pθ (g(T ) = 0) = 1 ∀θ, dizemos que T (X) é

uma estatística completa.
Exemplo
Verifique se as estatísticas T1 (X) = i xi /n e T2 (X) = S 2 são suficientes para µ e σ 2

P
respectivamente. Seja a distribuição Gaussiana
1 1 x−µ 2
f (x|µ, σ 2 ) = √ e− 2 ( σ ); −∞ < x < +∞
2πσ 2
Exemplo
Verifique se a estatística T (X) = 1

x̄
é suficiente para a distribuição exponencial
f (x|λ) = λe−λx ; x≥0

1.4. NÃO VIÉS 5
1.4 Não viés

Espera-se que o erro na medida seja nula, isto é, E(e) = 0. De fato, se o erro for descrito
pela diferença da estimativa em relação ao valor real, temos
e = θ̂ − θ
Portanto, definiremos o viés b(θ̂) como sendo o valor esperado do erro:
b(θ̂) = E(e) = E(θ̂ − θ)
Duas caracaterísticas importantes são

1) Caso não polarizado
b(θ̂) = 0
Quando não há viés.
b(θ̂) = E(θ̂ − θ) = 0
= E(θ̂) − E(θ) = 0
=⇒ E(θ̂) = θ
A este caso chamamos de Estimador Não Viesado - ENV
Exemplo
(X−X̄)2
P
Verifique se o estimador S 2 = n−1
é ENV.
lim E(S 2 ) = σ 2
n→∞
Exemplo
(X−X̄)2
P
Verifique se o estimador σˆ2 = é ENV.
n

ˆ n−1
2
lim E(σ ) = lim σ2 = σ2
n→∞ n→∞ n
Não. Esse estimador é conhecido por Estimador Assintóticamente Não

Viesado - EANV
2) Caso polarizado
b(θ̂) ̸= 0
Vale aqui duas situações:
▶ Polarização à direita: b(θ̂) > 0
b(θ̂) = E(θ̂ − θ) > 0

= E(θ̂) − E(θ) > 0
=⇒ E(θ̂) > θ
A média das estimativas estão à direita do valor de θ

1.4. NÃO VIÉS 6
▶ Polarização à esquerda: b(θ̂) < 0

b(θ̂) = E(θ̂ − θ) < 0
= E(θ̂) − E(θ) < 0
=⇒ E(θ̂) < θ
A média das estimativas estão à esquerda do valor de θ
1.4.1 EQM - Erro Quadrático Médio

A variância do erro determina o erro quadrático médio EQM (θ̂) ≡ V ar(e)
Dem.
EQM (θ̂) = V ar(e) = E[(θ̂ − θ)2 ]

= E[(θ̂ − E(θ̂) + E(θ̂) − θ)2 ]
= E{[θ̂ − E(θ̂)]2 + [E(θ̂) − θ]2 + 2 · [θ̂ − E(θ̂][E(θ̂) − θ]}
= E[θ̂ − E(θ̂)]2 + E[E(θ̂) − θ]2 + 2 · E{[θ̂ − E(θ̂][E(θ̂) − θ]}
= E[θ̂ − E(θ̂)]2 + E[E(θ̂) − θ]2 + 2 · E{θ̂E(θ̂) − θ̂θ − E(θ̂)E(θ̂) + E(θ̂)θ}
= E[θ̂ − E(θ̂)]2 + E[E(θ̂) − θ]2 + 2 · {E(θ̂)E(θ̂) − E(θ̂)θ − E(θ̂)E(θ̂) + E(θ̂)θ}
| {z }
termo nulo
Obtemos
EQM (θ̂) = E[θ̂ − E(θ̂)]2 + E[E(θ̂) − θ]2
Define-se os seguintes termos da soma pitagórica:
1 Variância do estimador
V ar(θ̂) = E[θ̂ − E(θ̂)]2
mede o grau de "espalhamento"das estimativas e a sua informação é iversamente
proporcional à precisão, pois quanto menor for a variância das estimativas, maior
será a precisão da informação.
2 Segundo momento do viés
E[b2 (θ̂)] = E[θ̂ − θ]2
mede o grau de deslocamento da informação. A sua informação é iversamente pro-
porcional à acurácia ou exatidão, pois quanto menor o valor do viés, maior será
a acurácia (ou acertividade) da informação. O ideal seria um viés nulo que caraca-
teriza altíssima acurácia.
Finalmente, definimos EQM por
EQM (θ̂) = V ar(θ̂) + E[b2 (θ̂)]
Deve-se procurar estimadores que controlem a variabilidade e o viés do estimador, em

outras palavras procura-se os estimadores que tenham uma boa precisão e sejam exatos
nas estimativas. Melhor ainda se o estimador for ENV:
EQM (θ̂) = V ar(θ̂)
1.5. CONSISTÊNCIA 7
Figura 1.1: Acurácia e precisão
1.5 Consistência
A consistência significa que o aumento do tamanho da amostra implicará na convergência
das estimativas para o valor desconhcido de θ.
Definição
Seja X1 , X2 , · · · Xn uma sequência de variávis aleatórias amostrais com T (X) a esta-

tística para h(θ), quando n → ∞
P (|Tn (X) − h(θ)| > ϵ) → 0, ϵ>0
A sequência de estimadores Tn (X) é fracamente consistente para h(θ) quando variando

o tamanho amostral n existe a convergência em probabilidade T (X) → h(θ) quando
n → ∞.
Devemos relembrar que duas variâncias estão sendo tratadas na população, a primeira é
a variância populacional σ 2 e a outra está relacionada à amostra, ou melhor, à estatística
T (X). No limite quando n → ∞ a média e a variância da estatística será

limn→∞ E(Tn (X)) = θ,
limn→∞ V ar(Tn (X)) = 0.
Exemplo
1.6. EFICIÊNCIA 8
Verifique se a estatística S 2 é consistente para a variância populacional.

(
limn→∞ E(S 2 ) = σ 2 ,
2σ 2
limn→∞ V ar(S 2 ) = limn→∞ n−1 = 0.
Exemplo
Verifique se a estatística σˆ2 é consistente para a variância populacional.
1.6 Eficiência
Um estimador será mais eficiente se o seu EQM (θ̂) for o menor possível.
Teorema
Desigualdade de Cramer-Rao: Sejam va’s X1 , X2 , X3 ...Xn com estimador T (X),

função densidade f (x|θ) e
ˆ
d ∂[T (X)f (x|θ)]
Eθ T (X) = dx
dθ ∂θ
com variância do estimador finito V arθ T (X) < ∞, tal que satisfaz a relação
d
2
dθ
T (X)
V ARθ T (X) ≥ 2
∂
Eθ ∂θ
log f (x|θ)
Teorema
Será dito estimador eficiente para θ se for um ENV e sua variância atingir o limite
inferior da desigualdade de Cramer-Rao para quaisquer valores de θ. Estimadores
eficientes são sempre UMVU.
[nI(θ)]−1
ef (θ̂) = ≤1
V ar(θ̂)
Exemplo
Suponha dois estimadores θˆ1 e θˆ2 , tal que o erro quadrático médio do primeiro esti-
1.6. EFICIÊNCIA 9
mador é menor. Encontre o estimador mais eficiente.
EQM (θˆ1 ) < EQM (θˆ2 )

=⇒ Se o estimador for ENV
V ar(θ1 ) < V ar(θˆ2 )
ˆ
Sendo ou não estimadores ENV, θˆ1 é mais eficiente.

Capítulo 2
Estimadores pontuais e intervalos de

confiança
2.1 Distribuições amostrais

Ao coletar a proporção de pessoas respondentes a um questionário sobre o gosto de um
produto ou serviço, qual seria a forma da distribuição? Seguiria uma distribuição de
probabilidade normal, Poisson, binomial ou qual outra? Ao mensurarmos a média dos
comprimentos dos parafusos por amostragem, qual a distribuição a média tenderia seguir?
O mesmo podemos nos perguntar com relação à variância das observações. A resposta
para essas e outras perguntas podem ser respondidas através das distribuições amostrais,
a saber: i) distribuição amostral para a média, ii) distribuição amostral para a variância
e a iii) distribuição amostral para a proporção.
2.1.1 Distribuição amostral para a média

Suponha coletar um conjunto de médias amostrais em uma população. A sua distri-
buição seguirá uma distribuição normal de probabilidade, cuja esperança das médias é
a própria média populacional µ e a sua variância dependerá do tamanho obervado n.
Definição 2
Sejam X1 , X2 , X3 , · · · Xn v.a’s independentes
Pn e identicamente distribuídas com X ∼
i X
2
N (µ, σ ), então a estatística X̄ = n segue uma distribuição normal X̄ ∼ (µ, σn ).
2
Dem.
10
2.1. DISTRIBUIÇÕES AMOSTRAIS 11
• Valor Esperado para a Média

Pn
i=1 Xi
E(X̄) = E
n
n
!
1 X
= E Xi
n i=1
n
1X
= E(Xi )
n i=1
n
1X n
= µ= µ=µ
n i=1 n
= µ
• Variância para a Média

2
σX̄ = V ar (x̄)
Pn
i=1 Xi
= V ar
n
n
!
1 X
= V ar Xi
n2 i=1
2
σ X
= +2 cov(Xi , Xi )
n i<j
=⇒ va’s independentes =⇒ cov(Xi , Xj ) = 0
σ2
=
n
x̄ − µ √

X − E(X) x̄ − µ
Z= p = q = n (2.1)
V ar(X) σ2 σ
n
cuja distribuição não pode depender do parâmetro desconhecido µ

1 1 2
fZ (z) = √ e− 2 z
2π
• Distribuição amostral
σ2

X̄ ∼ µ,
n
2.1.2 Distribuição amostral para a variância

A variância ou o desvio padrão podem ser de interesse nas mais diversas medidas, tais como
variações atmosféricas (temperatura, pressão, incidência solar ou velocidade do vento), na
metalurgia (determinação dos coeficientes térmicos dos materiais), na economia (distri-
buição da variação de preços ao consumidor), enfim, pode ser aplicado nos mais variados
casos. Portanto, torna-se necessário compreender a sua distribuição amostral.
Definição
Sejam X1 , X2 , X3 , · · · Xn v.a’s independentes e identicamente distribuídas com X ∼
N (µ, σ 2 ), então
(n − 1)s2
2
∼ χ2ν
σ
segue uma distribuição qui-quadrado com ν graus de liberdade.
Dem. Possíveis estimadores para a variância σ 2 são

a) Pn
i=1 (Xi − X̄)2
σˆ2 =
n
b) Pn
2 − X̄)2
i=1 (Xi
S =
n−1
• Valor Esperado para a variância
Pn 2

ˆ2 i=1 (Xi − X̄)
E(σν ) = E
ν
" n #
1 X
= E (Xi − X̄)2
ν
" i=1
n n n
#
1 X X X
= E Xi2 + X̄ 2 − 2 Xi X̄
ν i=1 i=1 i=1
" n n n
#
1 X X n X
= E Xi2 + X̄ 2 − 2 Xi X̄
ν i=1 i=1
n i=1
" n #
1 X
= E Xi2 + nX̄ 2 − 2nX̄ 2
ν
" i=1
n
#
1 X
= E Xi2 − nX̄ 2
ν
" ni=1 #
1 X
= E(Xi2 ) − nE(X̄ 2 )
ν i=1
1
nE(Xi2 ) − nE(X̄ 2 )

=
ν
n
E(Xi2 ) − E(X̄ 2 )

=
ν
(2.2)
e, como
σ 2 = E(x2 ) − E(x)2 → E(x2 ) = σ 2 + µ2
σ2 σ2
= E(x̄2 ) − E(x̄)2 → E(x̄2 ) = + µ2
n n
Então
n
E(σˆν2 ) = E(Xi2 ) − E(X̄ 2 )

ν 2
n 2 2
σ 2
= σ +µ − +µ
ν n
n 2 σ2

= σ −
ν n
n (n − 1)σ 2

=
ν n
(n − 1) 2
= σ
ν
Para cada caso temos
a) Estimador assintóticamente não viesado - EANV
(n − 1) 2
E(σˆ2 ) = σ
n
b) Estimador não viesado - ENV
E(S 2 ) = σ 2
• Variância para σˆ2 e S 2
Temos que
nσˆ2 = (n − 1)S 2
(n − 1) 2
σˆ2 = S
n
n − 1
V ar(σˆ2 ) = V ar S 2
n
2
ˆ n−1
2
V ar(σ ) = V ar(S 2 )
n
2
n−1
= E[(S 2 − σ 2 )2 ]
n
2
2σ 4

n−1
=
n n−1
Para cada caso temos

a) Variância para σˆ2
2(n − 1)σ 4
V ar(σˆ2 ) =
n2
b) Variância para S 2
2σ 4
V ar(S 2 ) =
n−1
(n − 1)s2
2
∼ χ2ν
σ
cuja distribuição não pode depender do parâmetro desconhecida σ
1
χ2ν = ν
xα/2−1 e−x/2
Γ 2
2α/2
2.1.3 Distribuição amostral para a proporção

Talvez esse seia o caso mais popularmente conhecido. Por exemplo, qual seria a distribui-
ção amostral da proporção da contagem do número de pessoas que rejeitaram um certo
produto. Devido ao teorema de Moivre-Laplace, essa distribuição proporcional serguirá
uma distribuição normal de probabilidade.
Definição 3
Binom(N p, N pq), então pq
p̂ ∼ N p,
n
segue uma distribuição normal com média E(p̂) = p e variância V ar(p̂) = pq/n.
• Valor Esperado para a proporção
Seja p̂ = x
n
x E(x) np
E(p̂) = E = =
n n n
E(p̂) = p
• Variância para a proporção
Seja p̂ = x
n
x V ar(x) npq
V ar(p̂) = V ar = 2
= 2
n n n
pq
V ar(p̂) =
n
X − E(X) p̂ − p
Z= p = p pq (2.3)
V ar(X) n
cuja distribuição não pode depender do parâmetro desconhecido µ

1 1 2
fZ (z) = √ e− 2 z
2π
• Distribuição amostral pq
p̂ ∼ p,
n
Resultado
Tabela 2.1: Distribuições Amostrais - Estimadores ENV
v.a. Estimador PPontual Distribuição Quantidade Pivotal

√ X−θ
X ∼ N (µ, σ 2 ) X̄ =P nx X̄ ∼ N (µ, σ 2 /n) n σ ∼ N (0, 1)
2 (n−1)S 2
X ∼ N (µ, σ 2 ) S 2 = (x−x̄)
n−1
χ2ν σ2
∼ χ2ν
X ∼ Binom(N p, N pq) p̂ = nx p̄ ∼ N (p, pq/n) √p̄−p ∼ N (0, 1)
pq/n
2.1.4 Distribuição amostral para a diferença entre duas médias

Se quizermos determinar a distribuição amostral da diferença entre médias de duas amos-
tras duas situações são possíveis: a) a variância populacional σ 2 é conhecida e b) a
variância populacional σ 2 é desconhecida.
No segundo caso, embora são as variâncias são desconhecidas, ambas podem ser iguais
ou diferentes.
Figura 2.1: Exemplo na composição das populações
Observe que podemos nos deparar com algumas situações:

• Duas populações distintas com ambas variâncias populacionais σ12 e σ22 conhecidas
• Duas populações distintas com ambas variâncias populacionais σ12 e σ22 desconheci-
das, porém iguais
• Duas populações distintas com acesso apenas nas variâncias amostrais S12 e S22
• Única população, porém com dois grupos distintos. Ou seja, duas amostras oriundas
da mesma população.
Variâncias conhecidas e desiguais σ12 ̸= σ22

Considere duas populações com variâncias particulares. A distribuição amostral segue a
distribuição Z.
Neste caso
σ2 σ2

(X̄1 − X̄2 ) ∼ N (µ1 − µ2 ); 1 + 2
n1 n2
A quantidade pivotal para esse caso será
(X̄1 − X̄2 ) − (µ1 − µ2 )

Z= q 2
σ1 σ2
n1
+ n22
Prova
Seja Ȳ =
P
i X̄i
!
X X σ2 X
i
V ar X̄i = +2 cov(X̄i , X̄j )
i i
ni i<j
σ22 σ12
V ar(X̄1 + X̄2 ) + 2 · cov(X̄1 , X̄2 )
= +
n1 n2
=⇒ se, e somente se, as v.a’s são independentes (2.4)
→ cov(X̄1 , X̄2 ) = 0
σ12 σ22
V ar(X̄1 + X̄2 ) = +
n1 n2
Supondo a diferença Ȳ = X̄1 − X̄2 com a quantidade pivotal será
Ȳ − E(Ȳ ) (X̄1 − X̄2 ) − (µ1 − µ2 ) (X̄1 − X̄2 ) − (µ1 − µ2 )

Z=p = p = q 2
V ar(Ȳ ) V ar(X̄1 + X̄2 ) σ1 σ2
+ 2 n1 n2
Variâncias desconhecidas, porém iguais

Neste caso
Sp2 Sp2

(X̄1 − X̄2 ) ∼ N (µ1 − µ2 ); +
n1 n2
Sejam temos duas amostras tal que σ12 = σ22

• Amostra 1: X̄1 ∼ tν1 (0, 1)
• Amostra 2: X̄2 ∼ tν2 (0, 1)
(X̄1 − X̄2 ) − (µ1 − µ2 )

t= q
Sp n11 + n12
Prova
P 2
ωs
Sp2 = P i com ωi o grau de liberdade
ω
ν1 s1 + ν2 s22
2
=
ν1 + ν2
(n1 − 1)s21 + (n2 − 1)s22
=
(n1 − 1) + (n2 − 1)
(n1 − 1)s21 + (n2 − 1)s22
Sp2 =
(n1 + n2 − 2)
é a variância combinada Sp2

(X̄1 − X̄2 ) − (µ1 − µ2 ) (X̄1 − X̄2 ) − (µ1 − µ2 )

T = q 2 = q
Sp Sp2
n1
+ n2 Sp n11 + n12
Segue uma distribuição t-Student com ν = n1 + n2 − 2 graus de liberdade

Variâncias desconhecidas e diferentes

Neste caso
(X̄1 − X̄2 ) ∼ tn1 +n2 −2 (0, 1)
Sejam duas amostras tal que σ12 ̸= σ22

• Amostra 1: X̄1 ∼ tν1 (0, 1) com s21
• Amostra 2: X̄2 ∼ tν2 (0, 1) com s22
(X̄1 − X̄2 ) − (µ1 − µ2 )
t= q 2
s1 s2
n1
+ n22
Dem.
Seja Ȳ = i X̄i
P
!
X X s2 X
i
V ar X̄i = +2 cov(X̄i , X̄j )
i i
ni i<j
s21 s22
V ar(X̄1 + X̄2 ) = + + 2 · cov(X̄1 , X̄2 )
n1 n2
=⇒ se, e somente se, as v.a’s são independentes → cov(X̄1 , X̄2 ) = 0
s21 s2
V ar(X̄1 + X̄2 ) = + 2
n1 n2

(X̄1 − X̄2 ) − (µ1 − µ2 )
T = q 2
s1 s22
n1
+ n2
Observe que o grande problema aqui é a determinação do grau de liberdade. Existem

duas opções:
a) Mímimo grau de liberdade
ν = min{ν1 , ν2 }
b) Método aproximado de Aspin-Welch

s21 s21
Sejam ω1 = ; ω2 =
n1 n2
(ω1 + ω2 )2
ν= ω12 ω22
ν1
+ ν2
2.1.5 Distribuição amostral para a diferença entre proporções

Neste caso
p 1 q1 p 2 q2
(p̂1 − p̂2 ) ∼ N (p1 − p2 ); +
n1 n2
Sejam temos duas amostras

• Amostra 1: X̄1 ∼ Binom(N p1 , N p1 q1 )

• Amostra 2: X̄2 ∼ Binom(N p2 , N p1 q2 )
A quatidade pivotal será dada por
(p̂1 − p̂2 ) − (p1 − p2 )

Z= q
p1 q1
n1
+ pn2 q22
Distribuição amostral para a razão de variâncias

A comparação entre variâncias é através da escala, isto é σ12 /σ22 através da amostra s21 /s22 .
Deseja-se verificar o quanto uma dispersão é maior (menor) do que outra.
Teorema
Sejam duas variáveis aleatórias U ∼ χ2ν1 e W ∼ χ2ν2 , ambas independentes 2x2 com
distribuição qui-quadrado. A variável aleatória
U/ν1
W = ∼ F (ν1 , ν2 )
V /ν2
segue uma distribuição Fisher-Snedecor Fν1 ,ν2 .
Dem.
(n1 − 1)s21
U=
σ12
(n2 − 1)s22
V =
σ22

(n1 −1)s21
2
χ /ν1 ν2 σ12
Fν1 ,ν2 ∼ ν21 = 2

χν2 /ν2 ν1 (n2 −1)s2
2
σ2
(2.5)
Portanto,
s21 σ22
Fν1 ,ν2 ∼
s22 σ12
A função é obtida por métodos computacionais poque não há solução analítica.

2.2. INTERVALOS DE CONFIANÇA 20
2.2 Intervalos de Confiança

Estimadores pontuais θ̂ variam com a réplica amostral. Cada nova observação teremos
uma nova estatística e isso é o que nos leva à criação de alguma estatística mais robusta,
o chamado Intervalos de Confiança.
Segundo Tchebythev
σ2
P (|X − E(X)| ≥ N ϵ) ≤
N 2 ϵ2
a versão para uma estatística será
σθ̂2
P (|θ̂ − E(θ̂)| ≥ N ϵ) ≤
N 2 ϵ2
ou
P (|θ̂ − E(θ̂)| < N ϵ) = 1 − P (|θ̂ − E(θ̂)| ≥ N ϵ)
| {z }
α
Figura 2.2: Região 1 − α
2.2.1 I.C. para média com variância σ 2 conhecida

Seja X̄ ∼ N (µ, σ 2 /n) com quantidade pivotal Z = X̄−µ
√
σ/ n
P (|Z| ≤ zα/2 ) = 1 − α
P (−zα/2 ≤ Z ≤ zα/2 ) = 1 − α
X̄ − µ
P (−zα/2 ≤ √ ≤ zα/2 ) = 1 − α
σ/ n
√ √
P (X̄ − zα/2 σ/ n ≤ µ ≤ X̄ + zα/2 σ/ n) = 1 − α
O intervalo de confiança para a média com variância σ 2 conhecida será
√ √
I.C. : {X̄ − zα/2 σ/ n ≤ µ ≤ X̄ + zα/2 σ/ n}
Definimos o erro E por
√
E = zα/2 σ/ n =⇒ {X̄ − E ≤ µ ≤ X̄ + E}
▶ I.C. para média com variância σ 2 desconhecida

Seja X̄ ∼ N (µ, σ 2 /n) com quantidade pivotal T = X̄−µ
√
s/ n
P (|T | ≤ zα/2 ) = 1 − α
P (−tα/2 ≤ T ≤ tα/2 ) = 1 − α
X̄ − µ
P (−tα/2 ≤ √ ≤ tα/2 ) = 1 − α
s/ n
√ √
P (X̄ − tα/2 s/ n ≤ µ ≤ X̄ + tα/2 s/ n) = 1 − α
O intervalo de confiança para a média com variância σ 2 desconhecida será

√ √
I.C. : {X̄ − tα/2 s/ n ≤ µ ≤ X̄ + tα/2 s/ n}
√
E = tα/2 s/ n =⇒ {X̄ − E ≤ µ ≤ X̄ + E}
2.2.2 I.C. para proporção

Seja X ∼ Binom(N p, N pq) com quantidade pivotal Z = √
p̂−p
pq
n
P (|Z| ≤ zα/2 ) = 1 − α
P (−zα/2 ≤ Z ≤ zα/2 ) = 1 − α
!
p̂ − p
P −zα/2 ≤ p pq ≤ zα/2 = 1 − α
n
r r
pq pq
P p̂ − zα/2 ≤ p ≤ p̂ + zα/2 =1−α
n n
O grande problema para encontrarmos o intervalo de confiança para as proproções é isolar

o valor do parâmetro desconhecido p. Nesse caso, podemos encontrar o valor do parâmetro
populacional isolando-o da sequinte equação:
p̂ − p
q = zα/2 (2.6)
p(1−p)
n
r
p(1 − p)
p̂ − p = zα/2 ·
n
p(1 − p)
(p̂ − p)2 = zα/2
2
·
n
p(1 − p)
p̂2 + p2 − 2p̂p = zα/22
·
! ! n
2 2
zα/2 zα/2
p2 1+ + p −2p̂ − + p̂2 = 0
n n
s Encontrando as raízes
2
2
2 2

zα/2 zα/2 zα/2
− −2p̂ − n
± −2p̂ − n − 4 1 + n p̂2
p12 = 2

zα/2
2 1+ n
2
q
zα/2 z2 2
zα/2 z2
2p̂ + n ± 4p̂ + α/2 n
+ 4p̂ n
− 4p̂ − 4p̂ 2 α/2
n
p12 =
z2
2 1 + α/2 n
2
q 2
zα/2 1 z z4
p̂ + 2n ± 2 4 α/2 n
(p̂ − p̂ 2 ) + α/2
n2
p12 =
z2
1 + α/2 n
2
q 2 4
zα/2 zα/2 zα/2
p̂ + 2n ± n
(p̂ − p̂2 ) + 4n 2
p12 =
z2
1 + α/2 n
2
q 2
zα/2 zα/2
p̂ + 2n ± zα/2 p̂(1−p̂) n
+ 4n2
p12 =
z2
1 + α/2 n

 ! r ! r 
z2 z2 z2 z2
 p̂+ α/2

2n
−z α/2
p̂(1−p̂)
n
+
α/2
4n2
p̂+
α/2
2n
+z α/2
p̂(1−p̂)
n
+
α/2 
4n2

I.C. : z2
! ≤p≤ z2
!
α/2 α/2

 1+ n 1+ n 

O intervalo de confiança para a proporção com tamanho amostral suficientemente grande

reduzirá para:
q q
I.C. : {p̂ − zα/2 p̂q̂
n
≤ p ≤ p̂ + zα/2
p̂q̂
n
}

r
p̂q̂
E = zα/2 =⇒ {p̂ − E ≤ µ ≤ p̂ + E}
n
2.2.3 I.C. para diferença das médias com variâncias σi2 conheci-
das

σ2 σ22
Seja (X̄1 − X̄2 ) ∼ N (µ1 − µ2 ); n11 + n2
com quantidade pivotal
(X̄1 − X̄2 ) − (µ1 − µ2 )

Z= q 2
σ1 σ2
n1
+ n22
P (|Z| ≤ zα/2 ) = 1 − α
P (−zα/2 ≤ Z ≤ zα/2 ) = 1 − α
(X̄1 − X̄2 ) − (µ1 − µ2 )
P (−zα/2 ≤ q 2 ≤ zα/2 ) = 1 − α
σ1 σ22
n1
+ n2
 s s 
2 2 2 2
σ1 σ2 σ1 σ2 
P (X̄1 − X̄2 ) − zα/2 + ≤ (µ1 − µ2 ) ≤ (X̄1 − X̄2 ) + zα/2 + =1−α
n1 n2 n1 n2

q 2 q 2
σ σ2 σ σ22
I.C. : {(X̄1 − X̄2 ) − zα/2 n11 + n22 ≤ (µ1 − µ2 ) ≤ (X̄1 − X̄2 ) + zα/2 n11 + n2
}

s
σ12 σ22
E = zα/2 + ≤ (µ1 − µ2 ) =⇒ {(X̄1 − X̄2 ) − E ≤ µ ≤ (X̄1 − X̄2 ) + E}
n1 n2
2.2.4 I.C. para diferença das médias com variâncias σi2 desconhe-
cidas e diferentes
Seja (X̄1 − X̄2 ) ∼ tν (0, 1) com quantidade pivotal
(X̄1 − X̄2 ) − (µ1 − µ2 )
T = q 2
s1 s2
n1
+ n22
P (|T | ≤ tα/2 ) = 1 − α
P (−tα/2 ≤ T ≤ tα/2 ) = 1 − α
(X̄1 − X̄2 ) − (µ1 − µ2 )
P (−tα/2 ≤ q 2 ≤ tα/2 ) = 1 − α
s1 s22
n1
+ n2
 s s 
2 2 2 2
s1 s s1 s
P (X̄1 − X̄2 ) − tα/2 + 2 ≤ (µ1 − µ2 ) ≤ (X̄1 − X̄2 ) + tα/2 + 2 = 1−α
n1 n2 n1 n2
O intervalo de confiança para a média com variância σ 2 desconhecida e, ambas diferentes,

será:
q 2 q 2
s1 s22 s s2
I.C. : {(X̄1 − X̄2 ) − tα/2 n1 + n2 ≤ (µ1 − µ2 ) ≤ (X̄1 − X̄2 ) + tα/2 n11 + n22 }
com
ν = min{ν1 , ν2 }
ou
(ω1 + ω2 )2
ν= ω12 ω22
ν1
+ ν2

s
s21 s2
E = tα/2 + 2 ≤ (µ1 − µ2 ) ≤ (µ1 − µ2 ) =⇒ {(X̄1 − X̄2 ) − E ≤ µ ≤ (X̄1 − X̄2 ) + E}
n1 n2
2.2.5 I.C. para diferença das médias com variâncias σi2 desconhe-
cidas, porém iguais
Seja (X̄1 − X̄2 ) ∼ tν (0, 1) com quantidade pivotal
(X̄1 − X̄2 ) − (µ1 − µ2 ) (n1 − 1)s21 + (n2 − 1)s22

T = q ; Sp2 =
Sp n11 + n12 (n1 + n2 − 2)
P (|T | ≤ tα/2 ) = 1 − α
P (−tα/2 ≤ T ≤ tα/2 ) = 1 − α
(X̄1 − X̄2 ) − (µ1 − µ2 )
P (−tα/2 ≤ q ≤ tα/2 ) = 1 − α
Sp n11 + n12
r r
1 1 1 1
P (X̄1 − X̄2 ) − tα/2 Sp + ≤ (µ1 − µ2 ) ≤ (X̄1 − X̄2 ) + tα/2 Sp + =1−α
n1 n2 n1 n2

q q
(X̄1 − X̄2 ) − tα/2 Sp n11 + n12 ≤ (µ1 − µ2 ) ≤ (X̄1 − X̄2 ) + tα/2 Sp n11 + 1
n2
com
ν = n1 + n2 − 2

r
1 1
E = tα/2 Sp + =⇒ {(X̄1 − X̄2 ) − E ≤ µ ≤ (X̄1 − X̄2 ) + E}
n1 n2
2.2.6 I.C. para diferença das proporções

Seja (p̂1 − p̂2 ) ∼ N (p1 − p2 ); p1 q1
n1
+ p2 q2
n2
com quantidade pivotal
(p̂1 − p̂2 ) − (p1 − p2 )

Z= q
p1 q1
n1
+ pn2 q22
P (|Z| ≤ zα/2 ) = 1 − α
P (−zα/2 ≤ T ≤ zα/2 ) = 1 − α
(p̂1 − p̂2 ) − (p1 − p2 )
P (−zα/2 ≤ q ≤ zα/2 ) = 1 − α
p1 q1 p2 q2
n1
+ n2
r r
p1 q1 p2 q2 p1 q1 p2 q2
P (p̂1 − p̂2 ) − tα/2 + ≤ (p1 − p2 ) ≤ (p̂1 − p̂2 ) + zα/2 + =1−α
n1 n2 n1 n2

q q
(p̂1 − p̂2 ) − zα/2 pn1 q11 + pn2 q22 ≤ (p1 − p2 ) ≤ (p̂1 − p̂2 ) + zα/2 pn1 q11 + p2 q2
n2

r
p1 q1 p2 q2
E = zα/2 + =⇒ {(p̂1 − p̂2 ) − E ≤ µ ≤ (p̂1 − p̂2 ) + E}
n1 n2
2.2.7 I.C. para variância

Seja X ∼ N (µ, σ 2 ) e a quantidade pivotal dada por
(n − 1)s2
∼ χ21
σ2
O intervalo de confiança será
(n − 1)s2 (n − 1)s2

;
↑ χα/2;ν ↓ χα/2;ν
2.3. EXERCÍCIOS PARA TREINAR 26
2.3 Exercícios para treinar

Exemplo
Uma amostra de n = 36 observações foi selecionada resultando em x̄ = 2 e s2 = 16.

Sabe-se que σ 2 = 144. Qual o estimador intervalar para µ? (Use α = 5%)
Exemplo
Uma amostra de n = 36 observações foi selecionada resultando em x̄ = 2 e s2 = 16.

Não se conhece σ 2 . Qual o estimador intervalar para µ? (Use α = 5%)
Exemplo
Arquitetura Deseja-se verificar a diferença entre temperaturas extremas em dois
pontos de uma mesma sala. Na primeira posição foi retirada 8 amostras próximo ao
piso com temperatura média de T̄1 = 25C com s1 ± 2.1C e na segunda posição foi
retirada 9 amostras perto de uma janela com T̄1 = 32C com s1 ± 1.5C. Qual a possível
variação térmica na sala? Sabe-se que ∆T ≈ Q.
Exemplo
Eng. Mecânica Um engenheiro mecânico verificou que a folga desejada em uma
peça foi projetada para σ = ±0.021 mm. Uma amostra de sete peças apresentou uma
variância de s2 = 0.000883 mm2 . Qual a possível folga das peças produzidas?
Exemplo
Eng. da Computação Em um lote de 3252 pentes de memória, foi verificado que
6 peças estavam com o código errado em um amostra de n = 125 peças. Qual o erro
E da amostra para α = 5%? Qual o tamanho amostral n para um erro admissível
máximo de ±2% para cima e para baixo?
Exemplo
Eng. Mecânica A folga ϕ entre eletrodos de uma vela de ignição é de 1,1 mm. Foi
retirada a seguinte amostra:
a.m = {1.092, 1.089, 1.088, 1.103, 1.061, 1.003, 1.104, 1.102, 1.100}
Encontre o estimador pontual e intervalar para ϕ.
Exemplo
Eng. Elétrica A corrente de excitação que o transformador suporta é de 0.8% segundo

2.3. EXERCÍCIOS PARA TREINAR 27
as suas características técnicas. Uma amostra de 10 unidades acusou a corrente de

excitação de p̂ = 0.76%. Qual o possível intervalo de corrente de excitação para esse
transformador?
Exemplo
Enfermagem O exame de creatinina avalia a função dos rins de uma pessoa. O laudo
de exames sobre a cretinina forneceu ao paciente o segunte resultado:
Creatinina : 0.69 Valor de referência: 0.7 − 1.3 mg/dL
Interprete-a.
Exemplo
Eng. de Alimentos Sistemas de refrigeração de alimentos a serem consumidos ime-
diatamente devem estar entre −1.5 a 15C. Uma amostra de n = 16 produtos conge-
lados estavam com T = 6 ± 7.2C na data 01/02/17 e autra amostra de n = 12 com
T = 8±5.2C retirada atualmente. Qual a diferença de temperatura no armazenamento
do alimento? Considere α = 1%.
Exemplo
Arquitetura Um arquiteto deverá projetar uma calçada para pessoas com necessida-
des especiais. Equipamentos para cadeirantes pesam entre 12 a 20 kg e a sua largura
está entre 0,60 e 0,70 m. A recomendação na construção da calçada é incorporar uma
faixa livre de no mínimo 1,20 m com faixa de serviço maior do que 0,75 m. Se o cadei-
rante varia a sua posição em ±0, 30 metros para a esquerda e/ou para a direita, projete
uma calçada com folga suficiente para o cadeirante passar considerando a variação da
posição (use α = 5%).
Exemplo
Eng. Civil Cargas variáveis ou acidentais são cargas atuantes sobre estruturas em
função do uso e são cargas uniformemente distribuídas. As estruturas como salas,
cozinhas, wc e quartos são projetadas para operarem com carga média de 1.5 kN/m2 ,
encontre tamanho amostral n para um erro máximo de E = ±2%.
Capítulo 3
Técnicas de Estimação
Talvez a pergunta mais pertinente até o momento será: "Como encontrar uma função
T (X) das variáveis aleatórias?". Na verdade existem três técnicas mais usuais, sendo duas
delas calculadas por técnicas otimização, mais precisamente por estudo das funções:
A) Método dos Momentos
B) Método dos Mínimos Quadrados Ordinários
C) Método da Máxima Verossimihança
3.1 Método dos Momentos

O método consiste em igualar o k-ésimo momento ao k-ésimo parâmeto desconhecido θk . A
proposta será resolver um sistema de k-equações de preferência possíveis e determinadas.
Em outras palavras prescreve os momentos populacionais nos momenos amostrais.
n
1X k
µ̂k = Xi
n i
(3.1)


 µˆ1 = µ1 ,

µˆ2 = µ2 ,


 ···

 µˆ = µ ,
k k
para k-parâmetros desconhecidos a determinar.

Lembramos aqui que podemos determinar o momento de qualquer função pelo gerador de
momento,
dK mX (t)
|t=0 = E(X k ); mX (t) = E(etx )
dtK
desde que exista.
Exemplo
28
3.2. MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS 29
Encontre o melhor estimador para θ da função Bernoulli.

n
1X k
µ̂k = Xi
n i
Apenas k = 1 equação é necessária
n
1X
µ̂1 = Xi = θ̂
n i
θ̂ = X̄
(3.2)
Exemplo
Encontre o melhor estimador para µ e σ 2 da função Gaussiana.
n
1X k
µ̂k = Xi
n i
k = 2 equações são necessárias
µ̂1 = n1 ni Xi ,
P
µ̂2 = n1 ni Xi2 ,
P
Dessa forma, (
µ̂ = X̄
Pn1
σˆ2 = µ̂2 − µ̂21 = 1
Pn
n
2
i Xi − ( n1 2
i Xi ) ,
Observe que a variância é a diferença entre o segundo momento e o quadrado do primeiro

momento, então seguem os estimadores
n
(Xi − X̄)2
P
1X ˆ2
X̄ = Xi ; σ =
n i n
3.2 Método dos Mínimos Quadrados Ordinários

Suponha querer encontrar os estimadores para β0 e β1 da função
yi = β0 + β1 xi + ϵi
A proposta é minimizar a função quádrica f (β0 , β1 ) e, por isso, chama-se MMQO.
n
X n
X
2
f (β0 , β1 ) = f (ϵ ) = (yi − β0 − β1 xi )2
i=1 i=1
cujas variáveis são β0 e β1 . Isto é,

⃗

⃗
∇f (β0 , β1 ) = 0

f f
β0 β0 fβ0 fβ1

det H = det > 0, para fβi βi > 0.


 fβ1 fβ0 fβ1 fβ1
3.2. MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS 30
Figura 3.1: a)Minimização
Expandindo o MMQO para βi
n
X n
X n
X
f (β0 , β1 ) = y2 + β02 + β12 x2
i i i
n
X n
X n
X
− 2 yβ0 − 2 yβ1 x + 2 β0 β1 x
i i i
Aplicando ∇f
⃗ (β0 , β1 ) = ⃗0
∂f (β0 , β1 ) ∂f (β0 , β1 )
î + ĵ = ⃗0
∂β0 ∂β1
será o ponto de máximo ou mínimo da função. Resolveno o sistema de duas equações e

duas icógnitas (β0 , β1 ) temos
(
∂f (β0 ,β1 )
= 2nβˆ0 − 2 ni y + 2 ni βˆ1 x = 0
P P
∂β0
∂f (β0 ,β1 )
= 2 ni βˆ1 x2 − 2 ni yx + 2 ni βˆ0 x = 0
P P P
∂β1
ou (
nβˆ0 + βˆ1 ni x = ni y
P P
βˆ0 ni x + βˆ1 ni x2 = ni yx
P P P
Resolvendo o sistema pela regra de Cramer,

Pn Pn Pn
i y i x n y
Pn Pn 2 Pn Pni
yx i x i x i yx
βˆ0 = i Pn e βˆ1 = Pn
n x n x
Pn Pni 2 Pn Pni 2
i x i x i x i x
3.3. FUNÇÃO DE MÁXIMA VEROSSIMILHANÇA 31
Encontramos os sequintes estimadores para β0 e β1 .

Pn Pn 2 Pn Pn Pn Pn Pn
y x − yx x n yx − i x i y
βˆ0 = i i
Pn 2 i
Pn 2 i
βˆ1 = i
Pn 2 P n
n i x − ( i x) n i x − ( i x)2
Verificando a matriz Hessiana

fβ0 fβ0 fβ0 fβ1
det H = det >0
fβ1 fβ0 fβ1 fβ1
 !2 
Pn n n
2n 2 i xi X X
det H = det Pn
= 4 n x2i − xi >0
2 i xi 2 ni x2i
P
i i
com fβ0 ,β0 = 2n > 0 e fβ1 ,β1 = 2 x2i > 0 confirmando um ponto de mínimo.
Pn
i
Exemplo
Dada o conjunto (X, Y ) encontre os estimadores βˆ0 e βˆ1 para a função linear
Y = β0 + β1 x + ϵ
X Y
-2 -3.7411458
-1 3.1580511
0 -0.9465511
1 3.3273956
2 4.2063737
3 4.6655514
4 5.4008614
5 10.7986029
Resp. βˆ0 = −0.3289 e βˆ1 = 1.9320
Exemplo
Dada a função y = β0 + β1 x + β2 x2 + ϵ, com ϵ ∼ N (0, σϵ2 ), encontre os estimadores βˆ0 ,

βˆ1 e βˆ2 .
3.3 Função de Máxima Verossimilhança

Definição
Seja X1 , X2 , X3 , · · · Xn variáveis aleatórias independentes e identicamente distribuídas
com distribuição p.d.f. ou p.f. f (x|θ), para X = x um observado da amostra, definimos
L(θ|x) = f (x|θ)
a função de verossimilhança, cuja variável é θ.
Como a função é iid, podemos fatorar f (x|θ)

Y
L(θ|x1 , x2 , x3 · · · xn ; θ) = f (xi |θ)
i
Aqui X é um vetor de variável aleatório observado e fixo e a variável é o parâme-

tro θ. Devemos encontrar o estimador θ̂ por estudo das funções da função verossímil
L(θ|x1 , x2 , x3 · · · xn ; θ)
Por definição f (x|θ) > 0 e, devido a facilidade no cálculo, a maximização para L(θ|x) é a
mesma para log L(θ|x) ≡ l(θ|x).
3.3.1 Maximização da função de Verossimilhança

Seja l(θ|x) uma função de θ,
⃗
∇l(θ|x) = ⃗0
ou
∂ log L(θ|x) ∂l(θ|x)
= =0
∂θi ∂θi
para x constante.
Exemplo
Encontre o melhor estimador para a função exponencial
f (x|λ) = λe−λx ; x≥0
Resol.
n
Y
L(θ|x1 , x2 , x3 · · · xn ; θ) = f (xi |θ)
i
n
Y
= λe−λx
i
P
n −λ x
= λ e
=⇒ Aplicando o logarítimo
P
l(λ|x) = ln λn e−λ x
=⇒ Aplicando a maximização
P
∂l(λ|x) ∂ ln λn e−λ x
= =0
∂λ ∂λ P
∂ (n · ln λ − λ x)
= =0
∂λ
1 X
= n − x=0
λ̂
finalmente,
1
λ̂ =
x̄
portanto, o melhor estmador para λ é o inverso da média.
Vamos simular no R as condições para esse exemplo. Façamos uma população da distri-
buição exponencial com λ = 12:
f (x|λ̂) = 12 · e−12·x ; x≥0
No R softare:
x < −rexp(n, rate = 12)
Suponha que o valor de λ é desconmhecido e não sabemos que o seu resultado é 12. Ao
conjunto de dados vamos montar um histograma:
> hist(x)
Figura 3.2: Histograma para f (x|λ̂) = 12 · e−12·x
Na seguinte fase desenvolvemos um intervalo possível para encontrarmos lambda
> lambda < −seq(0.1, 40, by = 0.01)
A etapa mais importante é escrever a função de Verossimihança l(θ|x) separando o

seu máximo verificando o seu valor
> l < −length(x) ∗ log(lambda) − lambda ∗ sum(x)

> maximoL < −lambda[l == max(l)]
> maximoL
[ 1 ] 11.06
Plotando o gráfico da verossimilhança com o seu respectivo valor de máximo verificamos

exatamente o valor MÁX l(λ|x) ⇒ λ̂ = 11.06, que coincide com o inverso da média
encontrada
Figura 3.3: Verossimilhança

Substituindo o valor do estimador λ̂ na função exponencial obtemos
f (x|λ̂) = λ̂ · e−λ̂·x = 11.06e−11.06x ; x≥0
Figura 3.4: Ajuste para a função exponencial com λ̂ = 11.06
> mean(x)
[ 1 ] 0.09038879
> 1/mean(x)
[ 1 ] 11.06332
3.3.2 Exemplos de estimação verossímil

Esses exercícios pertentem à etapa das técncias para encontrar os estimadores estatísticos
das distribuições.
• Função verossímel para Bernoulli
Exemplo
Encontre o estimador de máxima verossimilhança para
f (x|θ) = θx (1 − θ)1−x
Dada a função conjunta massa de probilidade
f (x|θ) = θx (1 − θ)1−x
Reescrevendo como produto das marginais encontramos a função

n
Y n
Y
L(θ; x) = f (x|θ) = θx ((1 − θ)1−x )
x=0 x=0
Yn n
Y
x
L(θ; x) = θ (1 − θ)1−x
x=0 x=0
Pn Pn
x
L(θ; x) = θ (1 − θ)n− x
Aplicando o logarírimo
Pn Pn
l(θ; x) = ln L(θ; x) = ln[θ x (1 − θ)n− x ]
n
! n
!
X X
l(θ; x) = x ln θ + n − x ln(1 − θ)]
Encontrando a máxima da função verossímel

" n ! n
! #
dl(θ; x) d X X
= x ln θ + n − x ln(1 − θ)] (3.3)
=0
dθ dθ
n
! n
!
X 1 X −1
= x + n− x =0
θ 1−θ
Encontramos o P
estimador θ̂
n
xi
θ̂ = i=1 = x̄
n
• Função verossímel para Binomial
Exemplo
Encontre o estimador de máxima verossimilhança para a probabilidade Binomial.

N x
f (x|θ) = θ (1 − θ)N −x (3.4)
x

n n
Y Y N x
L(θ; x) = f (x|θ) = θ (1 − θ)N −x (3.5)
x=0 x=0
x
n n n
N!
Y Y Y
L(θ; x) = θ x
(1 − θ)N −x
x=0
(N − x)!x! x=0 x=0
n
X n
X
l(θ; x) = [ln N ! − ln(N − x)! − ln x!] + x ln θ (3.6)
x=0 x=0
Xn n
X
+ ( N− x) ln(1 − θ)
x=0 x=0
n
!
X
+ nN − x ln(1 − θ)
x=0
(3.7)

" n ! n
! #
dl(θ; x) d X X
= x ln θ + nN − x ln(1 − θ)] = 0 (3.8)
dθ dθ
n
! n
!x=0
X 1 X −1
= x + nN − x =0
θ x=0
1 − θ
Encontramos o estimador
Pn
i=1 xi x̄
θ̂ = =
Nn N
• Função verossímel para Normal
Exemplo
Encontre a função de máxima verossimilhança l(θ|x) para a probabilidade Nor-

mal.

1 1 x−µ 2
f (x|µ, σ 2 ) = √ e− 2 ( σ )
2πσ 2

n n
Y Y 1 1 x−µ 2
2
L(µ, σ ; x) = 2
f (x|µ, σ ) = √ e− 2 (σ
)
x=0 x=0 2πσ 2

n n " 2 #
Y Y1 x − µ
L(µ, σ 2 ; x) = (2πσ 2 )−1/2 exp −
x=0 x=0
2 σ
n
" 2 #
Y 1 x − µ
L(µ, σ 2 ; x) = (2πσ 2 )−n/2 exp −
x=0
2 σ
n
" 2 #
n X 1 x − µ
l(µ, σ 2 ; x) = − ln(2π) + −
2 x=0
2 σ
Encontramos a função verossímel:

n
n n 1 X
l(µ, σ 2 ; x) = − ln(2π) − ln(σ 2 ) − 2 (x − µ)2
2 2 2σ x=0
• Função verossímel para Exponencial
Exemplo
Encontre o estimador de máxima verossimilhança para a probabilidade Expo-
nencial.
f (x|λ) = λe−λx ; x≥0 (3.9)

n
Y n
Y
L(λ; x) = f (x|λ) = λe−λx (3.10)
x=0 x=0
Yn n
Y
L(λ; x) = λ e−λx
x=0 x=0
n −λ n x
P
L(λ; x) = λ e
n
!
X
l(λ; x) = −λ x + n ln λ (3.11)
x=0

" n
! #
dl(λ; x) d X
= −λ x + n ln λ = 0 (3.12)
dλ dλ x=0
n
!
X 1
= − x +n· =0
λ
n 1
λ̂ = Pn =
i=1 xi x̄
• Função verossímel para Gama
Exemplo
Encontre a função de máxima verossimilhança l(θ|x) para a distribuição Gama.

1 x
α−1 − β
f (x|α, β) = x e (3.13)
Γ(α)β α

n n
Y Y 1 x
L(α, β; x) = 2
f (x|µ, σ ) = α
xα−1 e− β
x=0 x=0
Γ(α)β
n n n
Y1 Y Y x
2
L(µ, σ ; x) = α
x α−1
e− β
x=0
Γ(α)β x=0 x=0
n
!
Y 1 Pn
2 −n −nα
L(µ, σ ; x) = Γ(α) β x α−1
e− β x=o x
x=0
n n
X 1X
l(α, β; x) = −n ln Γ(α) − nα ln β + (α − 1) ln x − x
x=0
β x=o
n n
nX 1nX
l(α, β; x) = −n ln Γ(α) − nα ln β + (α − 1) ln x − x
n x=0 β n x=o
Encontramos a função verossímel:
l(α, β; x) = −n ln Γ(α) − nα ln β + n(α − 1)ln¯x − nβ −1 x̄

• Função verossímel para Geométrica
Exemplo
Encontre o estimador de máxima verossimilhança para a distribuição Geomé-
trica.
Dada a função conjunta massa de probilidade: primeira versão
p(x|θ) = θ(1 − θ)x−1 (3.14)

n
Y n
Y
L(λ; x) = p(x|θ) = θ(1 − θ)x−1
x=0 x=0
Pn
n x−n
L(θ; x) = θ (1 − θ) x
n
!
X
l(θ; x) = n ln θ + x − n ln(1 − θ)
x
n
θ X
l(θ; x) = n ln + ln(1 − θ) x
1−θ x

n
dl(θ; x) θ X
= n ln + ln(1 − θ) x
dθ 1−θ x
Pn
dl(θ; x) 1−θ 1 θ xx
= n + 2
− =0
dθ θ 1 − θ (1 − θ) (1 − θ)
n
n X
− x = 0
θ x
Finalmente,
(3.15)
1
θ̂ =
x̄
• Função verossímel para Poisson
Exemplo
Encontre o estimador de máxima verossimilhança para a distribuição Poisson.
λx e−λ
f (x|λ) = (3.16)
x!

n n
Y Y λx e−λ
L(λ; x) = f (x|λ) =
x=0 x=0
x!
Qn
λx nx=0 e−λ
Q
x=0Q
L(λ; x) = n
P x=0 x!
x −nλ
λ e
L(λ; x) =
(x!)n
n
!
X
l(λ; x) = x · ln λ − nλ − n · ln x!
x=0

" n ! #
dl(λ; x) d X
= x · ln λ − nλ − n · ln x! = 0
dλ dλ x=0
n
!
X 1
= x −n=0
λ
Pn
i=1 xi
λ̂ = = x̄
n
• Função verossímel para Kumaraswamy
Exemplo
Encontre o estimador de máxima verossimilhança para a distribuição Kuma-
raswamy.
f (x; θ) = 3θx2 (1 − x3 )θ−1 , x ∈ (0, 1),

n
Y n
Y
L(θ; x) = f (x|θ) = 3θx2 (1 − x3 )θ−1
n
Y n
Y n
Y
2
L(θ; x) = 3θ x (1 − x3 )θ−1
x=0 x=0
n
Y n
Y
L(θ; x) = 3n θn x2 (1 − x3 )θ−1
" n n
#
Y Y
l(θ; x) = ln 3n θn x2 (1 − x3 )θ−1
n
X n
X
l(θ; x) = n ln 3 + n ln θ + 2 ln x + (θ − 1) (1 − x3 )

" n n
#
dl(θ; x) d X X
= n ln 3 + n ln θ + 2 ln x + (θ − 1) (1 − x3 ) = 0
dθ dθ
n
n X
= + (1 − x3 ) = 0
θ̂
n
θ̂ = − Pn
(1 − x3 )
Capítulo 4
Teste de Hipóteses
Teste de hipótese é um conjunto de técnicas para testar afirmações sobre um parâmetro

populacional desconhecido.
4.1 Erros
O objetivo é lançar uma afirmativa e, se for verdade, gostaríamos de não rejeitá-la.
H0 é verdadeira H0 é falsa
Não Rejeita H0 Decisão correta β: Erro Tipo II
Rejeita-se H0 α: Erro Tipo I Decisão correta
a) Erro tipo I
P [rejeitar H0 |H0 é verdadeira] = α
Esta não é, com certeza, uma decisão correta. Essa probabilidade é o nível de
significância α que define a probabilidade de tomar uma decisão errada de rejeitar
uma hipótese nula, sendo essa verdadeira. Quando não sabemos o valor que assume
o nível de significância α, podemos propor o valor de α = 5%.
b) Erro tipo II
P [aceitar H0 |H0 é falsa] = β
Esta também é uma decisão incorreta. Essa probabilidade define a decisão errada
de aceitar uma afirmativa falsa.
4.2 Hipótese Nula

Definição
Hipótese estatística é qualquer afirmação sobre um parâmetro populacional θ desco-
nhecido. Chamamos de hipótese nula H0 a afirmativa que é fechada sobre alguma
afirmativa do parâmetro desconhecido.
44
4.2. HIPÓTESE NULA 45
1) Teste de hipótese à esquerda

H0 : µx ≤ θ0
H1 : µx > θ0 (4.1)
Figura 4.1: Teste de hipótese à esquerda
2) Teste de hipótese bilateral

H0 : µx = θ0
H1 : µx ̸= θ0 (4.2)
Figura 4.2: Teste de hipótese bilateral
3) Teste de hipótese à direita

H0 : µx ≥ θ0
H1 : µx < θ0 (4.3)
Figura 4.3: Teste de hipótese à direita
Testamos sempre a hipótese nula.

4.3. TESTE DE HIPÓTESE PARA UMA AMOSTRA 46
4.3 Teste de Hipótese para uma amostra

Quando desejamos avaliar alguma afirmação sobre um parâmetro desconhecido de uma
popuação, podemos avaliar sob uma amostra. Nesse caso, estamos interesados em apenas
uma e única amostragem. Vale ressaltar que estamos testando uma afirmação à pri-
ori com base nos resultados encontrados em um subconjunto da população de interesse.
Dependendo do problema desejamos verificar a média, a proporção, a variância ou o des-
vio padrão no teste da hipótese. A figura 4.4 mostra-nos um resumo com os possíveis
caminhos para a resolução das hipóteses.
Figura 4.4: Algorítimo para o teste de hipótese para uma amostra
Por exemplo, suponha que desejamos avaliar a proporção de aceitação sobre um produto
ou serviço através de um questionário e, assim avaliar a hipótese da proporção popu-
lacional. O algorítimo indica a quantidade pivotal z-score a ser utilizada para o teste
da proporção. No caso da média devemos tomar cuidado com o conhecimento prévio
(ou não) do desvio padrão amostral σ, a depender de seu conhecimento podemos decidir
ora por um teste normal padrão z-score ora por um teste t-Student. Por outro lado, o
teste do desvio padrão ou variância segue com a mesma quantidade pivotal que seque a
distribuição qui-quadrado.
4.3.1 Teste de Hipótese para a média

O teste de hipótese para a média dependerá do conhcecimento prévio (ou não) da variância
populacional. Dois casos são possíveis, quando a variância σ 2 é conhecida ou quando temos
apenas acesso à variância das das amostras S 2 .
Teste de Hipótese para a média com σ 2 conhecida

Quando a variância é conhecida ou fornecida podemos usar essa informação da populacao
para encontrar a estatística de teste para decidir sobre a hipótese nula.
Definição
Sejam as variáveis aleatórias independentes e identicamente distribuídas X ∼ N (µ, σ 2 ),

com distribuição para a média
σ2

X̄ ∼ N µ; ,
n
temos a estatística de teste a quantidade
X̄ − µ
Z= √
σ/ n
A seguir demostramos como testar a hipótese para um desvio padrão ou variância conhe-
cida.
Exemplo
Um engenheiro civil quer verificar se a tensão admissível na tensão dos laminados de
ferro estão dentro do padrão estabelecido em normativa com tensão de 1250 kg/cm2 .
Uma amostra de 200 laminados de ferro apresentou uma média de x̄ = 1284,89 kg/cm2 .
No entanto, análises dos dados amostrais em levantamentos anteriores determinam um
desvio padrão de σ = ±7, 85kg/cm2 . Podemos afirmar que a média amostral está de
acordo com a média populacional estabelecida?
Sol. A hipótese é dada pela igualdade da média populacional com o valor da tensão
admissível na tensão dos laminados de ferro, ou seja
H0 : µ = 1250
Entrada dos dados Nível de significância Hipótese Quantidade Pivotal

n=200 Teste t-Student:
x̄ = 1284,89 α = 5% H0 : µ = 1250 X̄−µ
Z = σ/ √
n
X̄ − µ 1284, 89 − 1250
Z= √ = √ = 62, 85594
σ/ n 7, 85/ 200
• Valor z-Score tabelado: como refere-se ao teste de hipótese bilateral, temos a diluição
do nível de significância em dois lados, uma para a esquerda e outro para a direita,
cada um com a metade do nível de significância, isto é, α/2 = 2, 5%.
Figura 4.5: Teste bilateral
Utilizando a tabela z-Score ou utilizando sofrwares estatísticos como o software R,

encontraremos o valor 1.959964. A seguir o comando do sofware R:
1 > a l f a = 0.05
2 > qnorm(1− a l f a / 2 , mean = 0 , sd = 1 , l o w e r . t a i l = TRUE, l o g . p = FALSE)
3 [ 1 ] 1.959964
4 > qnorm ( a l f a / 2 , mean = 0 , sd = 1 , l o w e r . t a i l = TRUE, l o g . p = FALSE)
5 [ 1 ] −1.959964
Listing 4.1: Código fonte em R
• Conclusão: existem evidências suficientes para rejeitarmos a hipótese nula com o

nível de significância de α = 5%. De fato, a estatística de teste z-Score calculado foi
de 62,855 e, portanto, maior do que o limite superior |z| < 1.96. Concluímos que o
valor da média da tensão populacional dos laminados de ferro está acima da tensão
admissível sendo classificada como diferente do valor estabelecido.
Teste de Hipótese para a média com σ 2 desconhecida

Em muitas situações não temos o conhecimento prévio da variância populacional. Nesses
casos podemos utilizar a distribuição t-Student.
Definição
Sejam as variáveis aleatórias independentes e identicamente distribuídas X ∼ (µ, σ 2 ),

com variância populacional desconhecida. A estatística de teste é dada pela quantidade
X̄ − µ
T = √
S/ n
O exemplo seguinte demostra como executar o teste de hipótese quando não conhecemos
a variância populacional para única amostra.
Exemplo
Teste de hipótese da média do comprimento dos parafusos Uma amostra de
18 comprimentos de parafusos observações acusou x̄ = 6.08 cm e s = 0.2 cm. Teste a
hipótese de que a média populacional das peças µ é superior ou igual a 6.12 cm.

x̄ = 6.08 α = 5% H0 : µ ≥ 6.12 cm tcalc = x̄−µ
√ x̄
s/ n
s = 0.2
6.08 − 6.12
tcalc = √ = −0.84852
0.2/ 18
• Tabela t-Student
tν=18−1=17 (0, 1) = tν=17 (0, 1)|α=5% = −1.740
Figura 4.6: Leitura da Tabela

• Conclusão: Como o valor da estatística de teste tcalc = −0.84852 > ttabelado =

−1.740, então não rejeitamos a hipótese nula em que a média parece ser superior
ou igual a 6.12 cm.
Figura 4.7: Leitura da Tabela
O exemplo sequinte apresenta o caso de decisão para uma distribuição bilateral. Q pro-
babilidade da estatística de teste deverá ser duplicada para encontrarmos a probabilidade
p-valor.
Teste de hipótese da média do comprimento de arcos

Exemplo
Um mecânico precisa verificar se a produção no comprimento dos arcos nos cortes
das secções dos cilindros de aço estão dento dos padrões especificados da fábrica. Os
desvios das peças devem ser nulos. Supondo que o erro segue uma distribuição normal
de probabilidade. Segue a amostra dos dados das variações nas medidas dos arcos:
V = {1223.67, 414.07, −1031.31, −645.61, 1473.57,

−290.86, 1410.35, −209.02, 88.01, 1092.72
Teste a hipótese ao nível se significância α = 5%.
Sol.

x̄ = 352.559 α = 2.5% H0 : µ = 0 cm tcalc = x̄−µ
√ x̄
s/ n
s = 906.5701 (Bilateral)
352.559 − 0
tcalc = √ = 1.2298
906.5701/ 10
tν=10−1=9 (0, 1) = tν=9 (0, 1)|α=2.5% = ±2.262157
Figura 4.8: Teste da Hipótese. a) Área em vermelho, região de rejeição. b) Área em

amarelo: p-valor
• Conclusão: Como o valor da estatística de teste tcalc = +1.2298 < ttabelado =

|2.262157|, então não rejeitamos a hipótese nula em que os desvios oscilam em torno
de 0, com p − valor = 0.25.
• Saída no software R
1 > t . t e s t ( dados , mu=mu_x , a l t e r n a t i v e = c ( "two . s i d e d " ) , p a i r e d = FALSE)
2
3 One Sample t−t e s t
4
5 data : dados
6 t = 1 . 2 2 9 8 , d f = 9 , p−v a l u e = 0 . 2 5
7 a l t e r n a t i v e h y p o t h e s i s : t r u e mean i s not e q u a l t o 0
8 95 p e r c e n t c o n f i d e n c e i n t e r v a l :
9 −295.9622 1 0 0 1 . 0 8 0 2
10 sample e s t i m a t e s :
11 mean o f x
12 352.559

Teste de hipótese da temperatura de cura em porcelanas

Exemplo 1
Suponha peças de porcelana que devem ser colocadas em um forno com temperatura
máxima de 9000 C. Para alcançar o efeito desejado as artes deverão ser cozidas durante
uma hora até a metade do tempo máximo do forno e alcançar uma dureza média de
640 HV. Para verificar se as peças estão sendo cozidas adequadamente, verificou-se a
dureza em Vickers (HV) das mesmas após 6h e o resultado foi o seguinte:
Dureza = {642.2743, 649.9932, 639.7849, 645.9724, 639.5335, 643.1083,

635.9725, 637.9142, 640.3257, 637.9405, 641.7366, 642.7751} HV
Verifique se, em média, a dureza das peças está acima de 640 HV.
Sol.

x̄ = 641.4443 α = 5% H0 : µ ≤ 640 HV tcalc = x̄−µ
√ x̄
s/ n
s = 3.828556 (unilateral à direita)
641.4443 − 640
tcalc = √ = 1.306786
3.828556/ 12
tν=12−1=11 (0, 1) = tν=11 (0, 1)|α=5% = ±2.795885

amarelo: p-valor
• Conclusão: Com o P − valor = 10.9% > α, não há evidências para rejeitarmos a

hipótese nula. Portanto, em média na dureza das peças não está acima de 640 HV.
• Saída no software R
1 > t . t e s t ( dados , mu=mu_x , a l t e r n a t i v e = c ( " g r e a t e r " ) , p a i r e d = FALSE)
2
3 One Sample t−t e s t
4
5 data : dados
6 t = 1 . 3 0 6 8 , d f = 1 1 , p−v a l u e = 0 . 1 0 9
7 a l t e r n a t i v e h y p o t h e s i s : t r u e mean i s g r e a t e r than 640
8 95 p e r c e n t c o n f i d e n c e i n t e r v a l :
9 639.4594 Inf
10 sample e s t i m a t e s :
11 mean o f x
12 641.4443
Teste de hipótese da aceleração gravitacional

Exemplo 2
Um geofísico mensurou as seguintes acelerações gravitacionais no nível do mar:
V el. = {9.734829, 9.879522, 9.756522, 9.824244, 9.842595,

9.861562, 9.896072, 9.815759, 9.764854, 9.780770,
9.828262, 9.826991, 9.806367, 9.828706, 9.813432,
9.786592, 9.850252, 9.859613, 9.856672, 9.846067,
9.758632, 9.825311, 9.772975, 9.834987, 9.847514,
9.820982, 9.776334, 9.883923, 9.801187, 9.792655,
9.808035, 9.703936, 9.856304, 9.837018, 9.739714,
9.777945, 9.883145, 9.841244, 9.709871, 9.788747} m/s2
Para verificar se o valor médido está de acordo com o valor teórico exato de 9.80665
m/s2 , o pesquisador utilizou o software R para encontrando a seguinte saída:
> t.test(dados, mu=mu_x ,alternative = H1,paired = FALSE)
One Sample t-test
data: dados
t = 0.85267, df = 39, p-value = 0.3991
alternative hypothesis: true mean is not equal to 9.80665
95 percent confidence interval:
9.797932 9.828076
sample estimates:
mean of x
9.813004
Qual o resultado do teste?

Sol.
Entrada dos dados Nível de confiança Hipótese Quantidade Pivotal

x̄ = 9.813004 1 − α = 95% H0 : µ = 9.80665 m/s2 tcalc = x̄−µ
√ x̄
s/ n
(bilateral)
O resultado mostrou que a média da amostra x̄ = 9.813004 equivale ao valor teórico µ =

9.80665 por um nível de confiança de 95%, demonstrando um p-valor 39.91%, portanto
maior do que o nível de sifnificância α = 5%, não rejeitando a hipótese nula de igualdade.
De fato, o resultado está entre 9.797932 e 9.828076 m/s2 .
Teste de hipótese do tempo de espera da rede clínica odontológica

Exemplo 3
O tempo de atendimento em uma rede de clínica odontológica segue uma distribuição
normal X ∼ N (17, 4) minutos. A diretoria fez um monitoramento na semana anterior
do tempo de espera dos clientes através de uma amostra de 151 pessoas, o resultado
médio foi de x̄ = 15±9 minutos. Teste a hipótese que a média populacional se manteve
em 17 minutos.
Sol.

n=151 Teste z-Score:
x̄ = 15 α = 5% H0 : µ = 17 min. zcalc = x̄−µ
√ x̄
s/ n
s=9 (bilateral)
15 − 17
zcalc = √ = −2.730712
9/ 151
zα/2 = ±1.644854

amarelo: p-valor
• Conclusão: Com o P − valor = 0.0063 < α ou porque zcalc < −1.64, existem
evidências suficientes para rejeitarmos a hipótese nula de igualdade. Portanto, a
média populacional não é igual a 17 minutos de espera.
Teste de hipótese do tempo médio no uso de celulares por jovens

Exemplo 4
Os dados populacionais referente ao tempo de uso dos celulares pela população ado-
lescente é em média 98,20 minutos com σ = 68 minutos - dados do censo da cidade de
Nova Franca, cuja população estimada está com n = 106 mil pessoas. Teste a hipótese
de que o uso médio de celulares por adolescentes está acima de 98,60 minutos.
Sol.

n=106 000 Teste z-Score:
x̄ = 98.20 α = 5% H0 : µ ≤ 98.60 min. zcalc = x̄−µ
√ x̄
s/ n
σ = 68 (unilateral à direita)
98.20 − 98.60
zcalc = √ = −1.915155
68/ 106000
zα = +1.644854

amarelo: p-valor
• Conclusão: Com o P −valor = 0.9445 > α ou porque zcalc < 1.64, existem evidências
suficientes para não rejeitarmos a hipótese nula de igualdade. Portanto, a média
populacional não é igual a 17 minutos de espera.
Teste de hipótese da distância percorrida por atletas

Exemplo 5
Segundo os dados do artigo "Human running performance from real-world big data"de
Emig T. e Peltonen J., Nature 2020, a velocidade de cruzamento em uma corrida vm
é aproximadamente normalmente distribuída com média de vm = 4, 4 m · s−1 . Em
uma amostra com n = 35 participantes foi encontrado uma média de cruzamento
x̄ = 4.1 ± 1.9 m · s−1 . Verifique se, de fato, a média é superior ou igual a vm = 4, 4
m · s−1 . (ref. https://www.nature.com/articles/s41467-020-18737-6/figures/2)
Sol.

n = 35 Teste z-Score:
x̄ = 4.1 α = 5% H0 : µ ≥ 4.4 min. zcalc = x̄−µ
√ x̄
s/ n
s = 1.9 (unilateral à esquerda)
4.1 − 4.4
zcalc = √ = −0.9341179
1.9/ 35
zα = −1.644854

amarelo: p-valor
• Conclusão: Com o P − valor = 0.3502 > α ou porque zcalc > −1.64, existem
evidências suficientes para não rejeitarmos a hipótese nula de igualdade.
Teste de hipótese para quantidade de vendas alcançadas no mês

Exemplo 6
Uma loja de roupas deseja avaliar se os seus funcionários alcançaram a meta de vendas
programadaos no mês. Foi decidido em reunião que, em média, a loja deverá alcançar
150 vendas diárias no mês. Considerando as vendas semanais presenciais e pela internet
foram
V endas = {146, 138, 166, 163}
Sol.

n=4 Teste z-Score:
x̄ = 153.25 α = 5% H0 : µ = 150 vendas. tcalc = x̄−µ
√ x̄
s/ n
s = 13.45053 (bilateral)
153.25 − 150
tcalc = √ = 0.4832525
13.45053/ 4
tα/2 = ±3.182446

amarelo: metade do p-valor
• Conclusão: Com o P − valor = 0.662 > α ou porque tcalc > −3.8 e tcalc < 3.8,
existem evidências suficientes para não rejeitarmos a hipótese nula de igualdade.
Portanto, a meta de vendas do mês foi alcançada.
4.3.2 Teste de Hipótese para a proporção

Podemos definir a proporção como sendo a quantidade
Y
p̂ =
n
sendo a soma Y = X dos elementos dicotômicos X = {0, 1}. Se X ∼ Bern(θ), temos
P
que a soma Y seguirá uma distribuição binomial Y ∼ bin(nθ, nθ(1 − θ)). Façamos θ ≡ p.
E, segundo a lei de De Moivre-Laplace:
Teorema
Dada uma função de distribuição das variáveis aleatórias definidas por zn = Y√nnpq
−np
,
onde yn ∼ Binom(n, p). Obteremos como resultado a convergência em distribuição
Yn − np
√ → N (0, 1)
npq
A distribuição amostral para a proporção está de acordo com o Teorema do Limite Central,
segundo De Muivre-Laplace citado acima:
Definição 4
Binom(N p, N pq), então pq
p̂ ∼ N p,
n
segue uma distribuição normal com média E(p̂) = p e variância V ar(p̂) = pq/n.
O teste de hipótese para a proporção segue a definição acima.

4.3.3 Teste de Hipótese para a variância ou desvio padrão

A quantidade pivotal para o teste da variância ou desvio padrão é dado por
(n − 1)s2
χ2 =
σ2
• Teste unilateal à direita
H0 : σ 2 ≤ σ02
H1 : σ 2 > σ02 (4.4)
Figura 4.14: Teste da Hipótese para H0 : σ 2 < σ02
• Teste unilateal à esquerda
H0 : σ 2 ≥ σ02
H1 : σ 2 < σ02 (4.5)
Figura 4.15: Teste da Hipótese para H0 : σ 2 > σ02

• Teste bilateral
H0 : σ 2 = σ02
H1 : σ 2 ̸= σ02 (4.6)
Figura 4.16: Teste da Hipótese para H0 : σ 2 = σ02
Se a estatística de teste estiver fora da região critica não rejeitamos a hipótese nula.
Teste de hipótese para variância na corrosão de metais

Exemplo 7
Um técnico em metalurgia deseja avaliar o grau de agressividade da ação atmosférica
na corrosão dos metais expostos à ambientes externos. A alta variação climática pode
interferir muito na corrosão dos metais. O tratamento químico têm eficácia quando
a variabiliade das corrosões estabilizam em σ 2 = 8mm2 . Foi mesurado o grau de
danificação das peças de metal através da profundidade da corrosão em milímetros em
sete pontos críticos.
P rof undidade = {19.85, 20.42, 18.66, 15.56, 16.66, 21.2, 18.1}
Deseja-se verificar se há necessidade de um novo tratamento químico nos metais.
Sol.

n=7 Teste χ2 :
2
x̄ = 18.63571 α = 5% H0 : σ 2 = 8 . χ2 = (n−1)s
σ2
s = 2.0365 (bilateral)
(n − 1)s2 (7 − 1)(2.0365)2
χ2calc = = = 3.110596
σ2 8
• Tabela χ2
χ2α/2 = 14.45
χ21−α/2 = 1.24

amarelo: metade do p-valor
• Conclusão: Não há evidências significativas para rejeitarmos a hipótese nula à α =

5%. De fato, χ21−α/2 < 3.11 < χ2α/2 , isto é, a variação está em σ 2 = 8mm2 não
necesitando novo tratamento químico.
4.4. TESTE DE HIPÓTESE PARA DUAS AMOSTRAS 63
4.4 Teste de Hipótese para duas amostras

Certas sutuações nos deparamos na comparação de duas populações distitnas ou não. Por
exemplo, podemos desejar avaliar se duas linhas de produção diferem entre si ou, se há
diferença no tratamento médico antes e após um procedimento cirúrgico. No entanto,
devemos avaliar se as amostras são oriundas da memsa população e, nesse caso, define-
se a estatística de teste para o teste da diferença entre médias por técnicas diferentes.
O teste de hipótese para dudas amostras têm como objetivo avaliar se existe diferença
significativa entre dois grupos.
Figura 4.18: Algorítimo para o teste de hipótese para médias em duas amostras
Figura 4.19: Algorítimo para o teste de hipótese para variâncai e proporção em duas
amostras
Capítulo 5
Análise de Dados Categóricos
A Análise dos Dados Categóricos refere-se a um conjunto de métodos estatísticos e in-

ferênciais para tratar dados classificados por atribuição, nominais ou categorizados. A
variável aleatória é uma contagem
X : {x ∈ N}
Tempos duas formas de tratamento:

• Teste de hipótese (TH) para proporções As proporções são calculadas através
da soma de unidades Bernoulli, cuja va’s são 1 se sucesso e 0 se fracasso. Sendo
assim, para qualquer k ≤ n, temos:
P
k≤n x
p̂ =
n
Sendo que podemos avaliar para
– TH uma amostra Quando queremos testar a hipótese em um valor fixo p.
– TH duas amostras Quando o objetivo é comparar duas proporções ou a
diferença entre elas (p2 − p1 ).
• Testes de Aderência e Análise de Dados Categorizados Quando a análsie
refere-se a uma tabela de entrada cruzada, digamos uma variável V1 com n1 linhas
e outra variável V2 com n2 colunas (nXm), chamamos de tabela de contingência.
São exclusivamente testes de hipótese para distribuição χ2 . Nesses casos, temos três
possibilidade de análises:
– Teste de aderência (goodness of fit): Testa a adequação de um modelo pro-
babilístico conhecido nos dados observados.
– Teste da Independência Duas variáveis aleatórias podem (ou não) depen-
derem entre si. Varificar se a independência entre variáveis é o objetivo do
teste.
– Teste da Homogeneidade Quando comparamos vários grupos distintos,
amostras ou tratamentos, queremos avaliar se os "grupos"são homegêneos entre
si.
64
5.1. TABELAS DE CONTINGÊNCIA 65
5.1 Tabelas de contingência

São tabelas de duas entradas. O valor aij está associado a uma linha i e coluna j,
indicadores para a variável X e variável Y, respectivamente.
Variável X
x1 x2 x3 x3
y1 a11 a12 a13 a14
y2 a21 a22 a23 a24
Variável Y
y3 a31 a32 a33 a34
y4 a41 a42 a43 a44
Cada elemento aij refere-se ao valor observado. A soma das observações são escritas
por
• Soma em cada linha X
ai+ = aij
j=1
• Soma em cada coluna X

a+j = aij
i=1
• Soma total XX
a++ = aij = n
i=1 j=1
Valor esperado
Define-se o valor esperado para variáveis discretas por
X
E(x) = xP (x)
No caso das obsrvações, temos:
Variável X
x1 x2 x3 x3
y1 E11 E12 E13 E14
y2 E21 E22 E23 E24
Variável Y
y3 E31 E32 E33 E34
y4 E41 E42 E43 E44
O valor esperado para cada observável é dados por

ai+ · a+j
E(aij ) =
a++
5.1. TABELAS DE CONTINGÊNCIA 66
Para um raciocínio simples, considere a observação aij . Suponha a probabilidade da

observação para aij = xi ∩ yj . Nesse caso, temos:
P (xi ∩ yj ) = P (X = xi ) · P (Y = yj |xi ) (5.1)
Sabemos que P (X = xi ) é a marginal de X, enquanto P (Y = yj |xi ) é a marginal de Y,

condicionada a um valor de xi . A marginal de x pode ser escrita como
X X aij 1 X ai+
P (X = xi ) = P (xij ) = = aij =
j j
a++ a++ j a++
Se considerarmos que as variáveis aleatórias são independentes, então P (Y = yj |xi ) =

a+j
P (Y = yj ), resultado no equivalente P (Y = yj ) = a++ . Isso leva ao resultado que a
porbabilidade para P (xi ∩ yj ) será
ai+ a+j
P (xi ∩ yj ) = · (5.2)
a++ a++
Suponha que essa probabilidade equivale ao resultado da proporção diluída sobre todas
as observações a++ . De fato, o valor esperado pode ser entendido como E(•) = n · p

ai+ a+j ai+ a+j
E(aij ) = n · pij = a++ · P (xi ∩ yj ) = a++ · · =
a++ a++ a++
Observe a existência de um padrão na localização da observação na tabela de contingên-

cia.
ai+ · a+j
E(aij ) =
a++
Para cada linha/coluna encontramos o valor esperado, aquele o qual seria a quantidade
mais provável de ocorrer.
Quantidade Pivotal
A estatística de teste, chamada de estatística Qui-quadrado de Pearson, seque a distri-
buição χ2ν com ν graus de liberdade:
X (Ok − Ek )2
χ2ν = ; ∀k ∈ N∗
k
Ek
sendo as observações dada por "O"e o valor esperado por "E". O grau de liberade é o pro-
dudo dos graus de liberdade da quantidade de linhas e colunas da tabela de contingência
ν = νL · νC :
νL = (nL − 1) para L linhas
νC = (nC − 1) para C colunas
5.2. TESTE DE ADERÊNCIA 67
5.2 Teste de Aderência

Quando a proposta é avaliar se o modelo probabilístico está adequado às observações,
podemos avaliar pelo teste Qui-quadrado de Pearson na qualidade de ajuste. Seja npi ≥ 5
para i ∈ N∗ , a hipótese
H0 : O modelo proposto está adequado
ou
H0 : p1 = p2 = p3 = · · · = pn ; ∀i ̸= j
é testada pela estatística de teste (quantidade pivotal)
Pk 2
2 i=1 (ni − npi0 )
χcalc =
npi0
sendo E(xi ) = npi0 , com grau de liberdade k −1. Rejeita-se a hipótese quando o resultado
da estatística de teste se encontrar na região crítica, isto é; χ2calc ≥ χ2α,k−1
Obs ou ni n1 n2 ··· n3
E(x) = npi0 E(x1 ) E(x2 ) ··· E(n3 )
A hipótese refere-se que não há diferença nas frequências observadas (Obs) e esperadas
E(x). Se isso ocorre, o modelo probabilístico têm a mesma distribuição da observa-
ção.
Ex1. Suponha jogar um dado de seis faces 120 vezes. Dada a frequência na observação
de cada face, verifique se o dado é honesto segundo a tabela abaixo:
Face 1 2 3 4 5 6
Obs. 20 22 17 18 19 24
Sol.
1) Hipótese
H0 : O dado é honesto
2) Valor esperado E(x) O lace dos dados seque a distribuição Binomial

N x
P (X = x) = θ (1 − θ)N −x
x
A quantidade esperada para a observação de qualquer face, dada a distribuição,

é dada por
E(X) = N θ
Supomos aqui que o dado é honesto com probabilidade
1 1
θ= = ,
N 6
tal que para uma quantidade de n = 120 lances, o número obsrvado esperado
deverá seguir uma distribuição Binomial para cada face, cujo resultado é:
1 1
E(x) = nθ = n = 120 · = 20
N 6
Portanto, podemos esperar os seguintes resultados:
Face 1 2 3 4 5 6
Obs. 20 22 17 18 19 24
Esperado. 20 20 20 20 20 20
3) Estatística de teste
6
X (Ok − Ek )2
χ2calc = (5.3)
k=1
Ek
(20 − 20)2 (22 − 20)2 (17 − 20)2 (18 − 20)2 (19 − 20)2 (24 − 20)2
= + + + + +
20 20 20 20 20 20
≈ 1, 7
3) Valor crítico χ2ν Considere a quantiade de 6 observações ou seis colunas. O

grau de liberdade é dado por:
ν = (nc − 1) = (6 − 1) = 5; 1 − α = 95%
Figura 5.1: Tabela qui-quadrado
4) Teste da hipótese H0 Como o valor da estaística de teste χ2ν = 1, 7 < 11, 070 =
χ2tab , encontra-se na região de acitação 1 − α, não rejeitamos a hipótese nula.
5) Conclusão Exitem evidências significativas para apoiarmos a hipótese nula com
95% de confiança. Portanto, o dado pode ser considerado honesto.
Figura 5.2: Área p-valor= 88, 89% em azul e o nível de significância α = 5% em vermelho.
No software R:
> Dados <- as.table(rbind(c(20, 22, 17, 18, 19, 24)))
> dimnames(Dados) <- list(
+ Linha = c("saida"),
+ Faces = c("face 1","face 2","face 3","face 4","face 5","face 6")
+ )
>
> Dados
Faces
Linha face 1 face 2 face 3 face 4 face 5 face 6
saida 20 22 17 18 19 24
> # teste Independencia

> Qui2 <- chisq.test(Dados); Qui2
Chi-squared test for given probabilities
data: Dados
X-squared = 1.7, df = 5, p-value = 0.8889
>
> # Valores Obervados
> Qui2$observed
[1] 20 22 17 18 19 24
>
> # Valores Esperados
> Qui2$expected
[1] 20 20 20 20 20 20
>
>
> alfa = 0.05
> ggplot(data.frame(x = c(0, 25)), aes(x)) +
+ stat_function(fun = dchisq, args =list(df =Qui2$parameter)) +
+ stat_function(fun = dchisq, args =list(df =Qui2$parameter),
+ xlim = c(Qui2$statistic,25),
+ geom = "area",
+ alpha = .2,
+ fill = "blue")+
+ stat_function(fun = dchisq, args =list(df =Qui2$parameter),
+ xlim = c(qchisq(1-alfa,Qui2$parameter),25),
+ geom = "area",
+ alpha = .2,
+ fill = "red")
5.3. TESTE DE HOMEGENEIDADE 70
5.3 Teste de Homegeneidade

Considere uma tabela de contagem com entrada dupla.
Variável X
x1 x2 x3 x3
y1 a11 a12 a13 a14
y2 a21 a22 a23 a24
Variável Y
y3 a31 a32 a33 a34
y4 a41 a42 a43 a44
Seja a proporção de indivíduos na população i que "cai"na categoria "j". A hipótese a

ser testada é:
H0 : Todas as possibilidades numa mesma coluna são iguais

ou
H0 : p1j = p1j = p2j = · · · pnj ; ∀j
tal que a estatística de teste, chamada de estatística Qui-quadrado de Pearson, seque a
distribuição χ2ν com ν graus de liberdade:
X (Ok − Ek )2
χ2ν = ; ∀k ∈ N∗
k
Ek
sendo as observações dada por "O"e o valor esperado por "E". O grau de liberade é o
produdo dos graus de liberdade da quantidade de linhas e colunas da tabela de contin-
gência:
ν = (nL − 1)(nC − 1)
A decisão do teste se faz para χ2calc ≤ χ2tab,ν,1−α ou quando a probabilidade da estatística
de teste p-valor for
P (χ2tab,ν,1−α > χ2calc |H0 ) < α
Ex1. Suponha duas linhas de produção. A tabela abaixo conta as quantidades de peças
classificadas como conforme (Conf.), não conforme (N.Conf.) e recuperadas (Rec.).
Os dados demostram que as proporções em cada categoria são as mesmas para as
duas linhas de produção.
Classificação
Conforme Não conforme Recuperado
Linha 1 32 18 12
Linha 2 43 15 17
No software R:
\begin{lstlisting}[caption={Código fonte em R}, label=lst:rcode]
> Dados <- as.table(rbind(c(32,18,12), c(43,15,17)))
+ Linha = c("Linha 1", "Linha 2"),
+ Classificacao = c("Conforme","Nao conforme", "Recuperado")
+ )
> Dados
Classificacao
Linha Conforme Nao conforme Recuperado
Linha 1 32 18 12
Linha 2 43 15 17
Sol.
Vamos avaliar a proporção em cada classificação.
Classificação
Linha 1 32 18 12
Linha 2 43 15 17
Total 75(p̂c = 54, 7%) 33(p̂nc = 24, 1%) 29(p̂rec = 21, 2%)
1) Hipótese
A hipótese a ser testada é
H0 : pc = pnc = prec
ou
H0 : p1+ = p2+ = p3+
Isto é, as proporções conforme, não conforme e recuperado são iguais? Ou seja,
são homogêneas, igualmente distribuídas?
2) Valor esperado E(x) Primeiramente preciamos encontrar as somas marginais
Classificação
Conforme Não conforme Recuperado ai+
Linha 1 32 18 12 62
Linha 2 43 15 17 75
a+j 75 33 29 a++ = 137
Aplicando o valor esperado

ai+ · a+j
E(aij ) =
a++
obtemos para a linha 1
a1+ · a+1 62 · 75
32 → E(a11 ) = = = 33, 941
a++ 137
a1+ · a+2 62 · 33
18 → E(a12 ) = = = 14, 934
a++ 137
a1+ · a+3 62 · 29
12 → E(a13 ) = = = 13, 124
a++ 137
e, para a linha 2
a2+ · a+1 75 · 75
43 → E(a21 ) = = = 41, 0581
a++ 137
a2+ · a+2 75 · 33
15 → E(a22 ) = = = 18, 065
a++ 137
a2+ · a+3 75 · 29
17 → E(a23 ) = = = 15, 875
a++ 137
Alocando os valores observados O e esperados E com O(E), temos:
Classificação O(E)
Linha 1 32(33,941) 18(14,934) 12(13,124)
Linha 2 43(41,058) 15(18,065) 17(15,875)
No software R:
> Qui2 <- chisq.test(Dados); #Qui2
>
> Qui2$observed
Classificacao
Linha 1 32 18 12
Linha 2 43 15 17
>
> Qui2$expected
Classificacao
Linha 1 33.94161 14.93431 13.12409
Linha 2 41.05839 18.06569 15.87591
6
X (Ok − Ek )2
χ2calc = (5.4)
k=1
Ek
(32 − 33, 941)2 (18 − 14, 934)2 (12 − 13, 124)2 (43 − 41, 058)2
= + + +
33, 941 14, 934 13, 124 41, 058
2 2
(15 − 18, 065) (17 − 15, 875)
+ +
18, 065 15, 875
≈ 1, 528
4) Valor crítico χ2ν Considere a quantidade das observações linha e coluna,

ν = (nc − 1)(nL − 1) = (3 − 1)(2 − 1) = 2; 1 − α = 95%
No software R:
Pearson's Chi-squared test
data: Dados
5) Conclusão
A decisão do teste se faz para χ2calc ≤ χ2tab,ν,1−α ou quando a probabilidade da
estatística de teste p-valor for
De fato,
χ2calc ≤ χ2tab,ν,1−α → 1, 528 ≤ 5, 991
decidimos em não rejeitar a hipótese nula para α = 5%. Isto é, a probabilidade
da estatística de teste χ2calc = 1.5283 é o p-valor 46,67%, o qual é maior do que
o nível de significância α = 5%. Portanto, as proporções não diferem.
No software R:
alfa = 0.05
ggplot(data.frame(x = c(0, 7)), aes(x)) +
stat_function(fun = dchisq, args =list(df =Qui2$parameter)) +
stat_function(fun = dchisq, args =list(df =Qui2$parameter),
xlim = c(Qui2$statistic,7),
geom = "area",
alpha = .2,
fill = "steelblue")+
xlim = c(qchisq(1-alfa,Qui2$parameter),7),
geom = "area",
alpha = .2,
fill = "red")
Figura 5.4: Área p-valor em azul e o nível de significância α em vermelho

5.4. TESTE DE INDEPENDÊNCIA 74
5.4 Teste de Independência

A proposta é verificar se as variáveis X e Y são independentes. Lembramos aqui, a
distribuição conjunta
P (X = x, Y = y) = P (X = x) · P (Y = y)
quando puder ser fatorada em suas marginais, obtemos o resultado de independência.

Daqui tiramos a hipótese a ser testada:
H0 : pij = pi+ · p+j
tal que a estatística de teste, chamada de estatística Qui-quadrado de Pearson, seque a

distribuição χ2ν com ν graus de liberdade:
X (Ok − Ek )2
χ2ν = ; ∀k ∈ N∗
k
Ek
sendo as observações dada por "O"e o valor esperado por "E". O grau de liberade é o
produdo dos graus de liberdade da quantidade de linhas e colunas da tabela de contin-
gência:
ν = (nL − 1)(nC − 1)
A decisão do teste se faz para χ2calc ≤ χ2tab,ν,1−α ou quando a probabilidade da estatística
de teste p-valor for
EX. Sejam duas variáveis distintas: velocidade e marca. Suponha querer determinar se
as velocidades do automóvel são independentes do consumo médio com relação à
marca.
80km/h 100km/h 120km/h

Marca A 21 15 10
Marca B 14 12 8
Marca C 21 15 10
No software R:
> Dados <- as.table(rbind(c(21,15,10), c(14,12,8),c(21,15,10)))
Marca = c("A", "B","C"),
Velocidade = c("80km/h","100km/h", "120km/h"))
> Dados
Velocidade
Marca 80km/h 100km/h 120km/h
A 21 15 10
B 14 12 8
C 21 15 10
>
1) Hipótese
H0 : As variáveis velocidade e marca são independentes

2) Valor esperado E(x)
80km/h 100km/h 120km/h ai+

Marca A 21 15 10 46
Marca B 14 12 8 34
Marca C 21 15 10 46
a+j 56 42 28 a++ = 126
Aplicando o valor esperado

ai+ · a+j
E(aij ) =
a++
Alocando os valores observados O e esperados E com O(E), temos:
80km/h 100km/h 120km/h

Marca A 21(20,444) 15(15,333) 10(10,222)
Marca B 14(15,111) 12(11,333) 8(7,555)
Marca C 21(20,444) 15(15,333) 10(10,222)
No software R:
> # teste Independencia

> Qui2 <- chisq.test(Dados); #Qui2
>
> Qui2$observed
Velocidade
A 21 15 10
B 14 12 8
C 21 15 10
>
> Qui2$expected
Velocidade
A 20.44444 15.33333 10.222222
B 15.11111 11.33333 7.555556
C 20.44444 15.33333 10.222222
6
X (Ok − Ek )2
χ2calc = (5.5)
k=1
Ek
(21 − 20, 444)2 (15 − 15, 333)2 (10 − 10, 222)2
= + +
20, 444 15, 333 10, 222
2 2
(14 − 15, 111) (12 − 11, 333) (8 − 7, 555)2
+ + +
15, 111 11, 333 7, 555
2 2
(21 − 20, 444) (15 − 15, 333) (10 − 10, 222)2
+ + +
20, 444 15, 333 10, 222
≈ 0, 2014
No software R:
Pearson's Chi-squared test
data: Dados
4) Valor crítico χ2ν

Considere a quantidade das observações linha e coluna,
ν = (nc − 1)(nL − 1) = (3 − 1)(3 − 1) = 4; 1 − α = 95%
5) Conclusão
A decisão do teste se faz para χ2calc ≤ χ2tab,ν,1−α ou quando a probabilidade da
estatística de teste p-valor for
De fato,
χ2calc ≤ χ2tab,ν,1−α → 0, 2014 ≤ 9, 488
Para a estatística de teste χ2calc = 0, 2014, a sua probabilidade, chamada de
p-valor é de 0,9953, sendo essa maior do que o nivel de significância α = 5%.
Assim, decidimos em aceitar a hipótese nula para esse nível de significância.
Portanto, as variávies velocidade e marca podem ser consideradas independen-
tes.
No software R:
alfa = 0.05
ggplot(data.frame(x = c(0, 7)), aes(x)) +
stat_function(fun = dchisq, args =list(df =Qui2$parameter)) +
xlim = c(Qui2$statistic,7),
geom = "area",
alpha = .2,
fill = "steelblue")+
xlim = c(qchisq(1-alfa,Qui2$parameter),7),
geom = "area",
alpha = .2,
fill = "red")
Figura 5.6: Área p-valor em azul e o nível de significância α em vermelho

Capítulo 6
Análise de Variância
Quando o nosso objetivo é verificar se há diferenca entre muitos grupos, mais do que
dois, então podemos usar a análsie de variância, cuj objetivo é avaliar se há diferença
significativa na média populacional, em pelo menos um grupo.
6.1 Experimento com único fator

Quando existe uma e única variável de interesse, dizemos que o experimento é de único
fator.
6.2 Delineamento Completamente Casualisado (RCC)

A proposta é verificar se existe diferença entre tratamentos T1 , T2 , T3 ... Ta . A hipótese
a ser testada será dada por:

H0 : µT 1 = µT 2 = µT 3 = ... = µT K = ... = µT a
H1 : ∃µl ̸= µs
O modelo DCC inclui a variável dependente yi,j como função dos tratamentos αi , cujo
erro ϵ segue uma distribuição normal, homocedástica e independente ϵ ∼ N (0, σϵ2 ):
yij = µ + αi + +ϵij
A tabela de observação dos resultados yij deve ser organizada em a-tratamentos T na linha
com as suas respectivas n-amostras nas colunas, resultando em N = n · a observações.
Teorema
A identidade da soma dos quadrados fornece
n X
X a a
X n X
X a
2 2
(yij − y¯.. ) = n (y¯i. − y¯.. ) + (yij − y¯i. )2
i j i i j
78
6.2. DELINEAMENTO COMPLETAMENTE CASUALISADO (RCC) 79
Tratamentos I II ... k ... n Total Média

T1 y11 y12 ... y1k ... y1n Y1. Y¯1.
T2 y21 y22 ... y2k ... y2n Y2. Y¯2.
... ... ... ... ... ... ... ... ...
Ta ya1 ya2 ... yak ... yan Yn. Y¯a.
Y..
Y¯..
Sob este aspecto chamaremos cada termo por:

• Soma dos quadrados totais: SQT = ni aj (yij − y¯.. )2
P P
• Soma dos quadrados dos tratamentos: SQtrat = n ni (y¯i. − y¯.. )2

P
• Soma dos quadados dos erros: SQE = ni aj (yij − y¯i. )2

P P
Como vimos, estes termos podem ser expandidos (A±B)2 = A2 ±2AB +B 2 sem perda de
genaralidade; lembrando que o termo cruzado AB é nulo dada a ortogonalidade entre A e
B. O motivo para isso é encontrar uma simetria nas somas com o objetivo de relacionar as
respectivas variâncias. O resultado da simetria auxilia-nos muito na condução de outros
croquis mais avançados. Vamos definir aqui o termo constante chamado de corretor:
y..2
C= N =n·a
N
Ou seja,
• Soma dos quadrados totais: SQT =
Pn Pa
yij2 − C
i j
• Soma dos quadrados dos tratamentos: SQtrat = n1 ni yi.2 − C

P
• Soma dos quadados dos erros: SQE = SQT − SQreg

Teorema
n X
X a
SQT = (yij − y¯.. )2 (6.1)
i j
n
XXa
= (yij2 + y¯.. 2 − 2yij y¯.. )
i j
n
XXa n X
X a n X
X a
= yij2 + 2
y¯.. − 2y¯.. yij
i j i j i j
n a
XX na
= yij2 + nay¯.. 2 − 2y¯.. y..
i j
na
n
XXa
= yij2 + nay¯.. 2 − 2nay¯.. 2
i j
n
XXa y 2
..
= yij2 − na ; como N = n · a
i j
na
n a
XX y..2
= yij2 −
i j
N
E aqui definimos o corretor como sendo
y..2
C=
N
Questão
Mostre que
n a
X 1X 2
2
SQtrat = n (y¯i. − y¯.. ) = y −C
i
n j i.
Finalmente, além da tabela de análise de variância ficar mais compacta ela mostra-nos
um padrão verificado no exercício acima.
Fonte SQ DF(ν) MS F P-valor

Tratamentos SQtrat = n1 ni yi.2 − C M Strat = SQ M Strat
P
a−1 trat
N −a
F = M SE
prob
Erro SQE = SQT − SQreg N-a M SE = SQE
N −a
Total SQT = ni aj yij2 − C N-1
P P
Exemplo
Seis máquinas diferentes estão sendo consideradas para o uso de fabricação. As máqui-
nas estão sendo comparadas em relação à resistência à tensão do produto. A resposta
da máquina é a resistência à tensão em kg/cm2 X10−1 . Verifique se as tensões na
fabricação diferem entre si.
T1 T2 T3 T4 T5 T6
1.750 1.770 1.755 1.703 1.776 1.635
1.705 1.716 1.745 1.723 1.628 1.703
1.740 1.700 1.745 1.741 1.707 1.672
1.698 1.702 1.695 1.795 1.672 1.697
Solução:
O objetivo é testar a seguinte hipótese

H0 : µT 1 = µT 2 = µT 3 = µT 4 = µT 5 = µT 6
Primeiramente vamos organizar os dados
TratReplicas I II III IV yi. y¯i.

T1 1.750 1.705 1.740 1.698 6.893 1.72325
T2 1.770 1.716 1.700 1.702 6.888 1.72200
T3 1.755 1.745 1.745 1.695 6.940 1.73500
T4 1.703 1.723 1.741 1.795 6.962 1.7405
T5 1.776 1.628 1.707 1.722 6.833 1.70825
T6 1.635 1.703 1.672 1.697 6.707 1.67675
Total 41.223
2 2 2
• Cálculo do coeficiente corretor C = yN.. = 41.223
6·4
= 41.223
24
= 70.80566
• Cálculo de SQT = i j yij − C = [(1.750)2 + (1.705)2 + ... + (1.795)2 + ... +
Pn Pa 2
(1.697)2 ] − 70.80566 = 70.84235 − 70.80566 = 0.03669763

• Cálculo de SQtrat = n1 aj yi.2 − C = 14 [(6.893)2 + (6.888)2 + (6.940)2 + (6.962)2 +
P
(6.833)2 + (6.707)2 ] − 70.80566 = 70.81619 − 70.80566 = 0.01053837

• Cálculo do erro: SQE = SQT − SQtrat = 0.03669763 − 0.01053837 = 0.02615926

Tratamentos 0.01053837 5 0.01053837
5
= 0.002107674 0.002107674
0.001453292
= 1.450276 0.2545
Erro 0.02615926 18 0.02615926
18
= 0.001453292
Total 0.03669763 23
Para validar o experimento e o teste de hipóteses devemos verificar todos os Pressupostos

da normalidade, homocedasticidade e independência dos resíduos para o modelo DCC.
6.3. ANÁLISE DE VARIÂNCIA PARA DOIS FATORES 82
Figura 6.1: Pressupostos da normalidade, homocedasticidade e independência dos resí-

duos para o modelo DCC
Como não há diferença significativa entre as médias em relação à resistência à tensão do

produto, temos evidência suficiente para aceitar a hipótese nula: H0 : µT 1 = µT 2 = µT 3 =
µT 4 = µT 5 = µT 6
> # Recolhendo as amostras
> T1<-c(1.750,1.705,1.740,1.698)
> T2<-c(1.770,1.716,1.700,1.702)
> T3<-c(1.755,1.745,1.745,1.695)
> T4<-c(1.703,1.723,1.741,1.795)
> T5<-c(1.776,1.628,1.707,1.722)
> T6<-c(1.635,1.703,1.672,1.697)
> # Criando a eestrutura dos dados conforme o croqui

> resp<-c(T1,T2,T3,T4,T5,T6)
> trat<-c(rep("T1",length(T1)),
> rep("T2",length(T2)),
> rep("T6",length(T6)))
> dados<-data.frame(trat)
> dados$resp<-as.numeric(resp)
> # avaliacao da analise de variancia

> exp.aov<-aov(dados$resp~dados$trat)
> summary(exp.aov)
O resultado da análise variacional utilizando o software R obteremos

> summary(exp.aov)
Df Sum Sq Mean Sq F value Pr(>F)
dados$trat 5 0.01054 0.002108 1.45 0.255
Residuals 18 0.02616 0.001453
>
O que, de fato, confere com os resultados obtidos manualmente.
6.3 Análise de variância para dois fatores

Considera-se uma tabela de entrada dupla, supondo dois fatores. Cada fator é subdividido
por níveis. A finalidade deste
O modelo proposto é:
yij = µ + τi + βj + γijk + ϵijk

 i = 1, 2, 3, · · · , a
j = 1, 2, 3, · · · , b
k = 1, 2, 3, · · · , n

tendo τi o efeito do nível i no fator A, βj o efeito do nível j no fator B e γij o efeito da

interação entre os fatores A e B.
As hipóteses são as seguintes
• Efeitos de A
H0 : τ1 = τ2 = τ3 = ... = τa
H1 : ∃ τl ̸= τs
• Efeitos de B
H0 : β1 = β2 = β3 = ... = βb
H1 : ∃ βl =
̸ βs
• Interação AB
H0 : γ11 = γ12 = γij = ... = γab
H1 : ∃ γlm ̸= γvs
A configuração do croqui utilizado poderá ser observado na tabela abaixo
Fator A/ Fator B B1 B2 ... Bp ... Bb Total Média

y111 y112 y121 y122 y1b1 y1b2
A1 ... ··· ... Y1.. Y¯1..
y113 y11k y123 y12k y1b3 y1bk
y211 y212 y221 y222
A2 ... ··· ... ··· Y2.. Y¯2..
y213 y21k y223 y22k
... ... ... ... ... ... ... ... ...
ya11 ya12 ya21 ya22 yab1 yab2
Aa ... ··· ... Yb.. Y¯b..
ya13 ya1k ya23 ya2k yab3 yabk
Total Y.1. Y.2. ... Y.p. ... Y.a. Y...
Média Y¯.1. Y¯.2. ... Y¯.p. ... Y¯.a. Y¯...
Sendo respectivamente as somas:

• Soma nos níveis de A
( Pb Pn
yi.. = j=1 k=1 yijk
yi..
y¯i.. = bn
• Soma nos níveis de B

Pa Pn
y.j. = i=1 k=1 yijk
yi..
y¯.j. = an
• Soma nas réplicas ou amostras
yij. = nk=1 yijk

P
y
y¯ij. = nij.
• Soma total ( Pa Pb Pn
yijk = i=1 j=1 k=1 yijk
yijk
yijk
¯ = abn
Teorema
A identidade da soma dos quadrados fornece
a X
X b X
n a
X b
X
2 2
(yijk − y¯··· ) = bn (y¯i.. − y¯··· ) + an (y¯.j. − y¯··· )2
i j k i j
a X
X b
+ n (yij. − y¯i.. − y¯.j. + y¯... )2
i j
a X
X b X
n
+ (yijk − y¯ij )2
i j k
Sob este aspecto chamaremos cada termo por:

• Soma dos quadrados totais: SQT = ai bj nk (yijk − y¯··· )2
P P P
• Soma dos quadrados do fator A: SQA = bn ai (y¯i.. − y¯··· )2

P
• Soma dos quadrados do fator B: SQB = an bj (y¯.j. − y¯··· )2

P
• Soma dos quadrados da interação dos fatores AB: n ai bj (yij. − y¯i.. − y¯.j. + y¯... )2
P P
• Soma dos quadados dos erros: SQE = ai bj (yij − y¯i. − y¯.j + y¯.. )2
P P
Ou utilizando o corretor
2
y···
C=
abn
podemos reescrever a anova para duplo fatorial por

Fator A a-1
Pa 2
1
SQA = bn y −C M SA = SQ A
F = M SA
P val
Pib i.. a−1 M SE
Fator B 1
SQB = an j y.j. 2
−C b-1 M SB = SQ
b−1
B
F = M SB
M SE
P val
Inter AB 1 a b 2
(a-1)(b-1) SQAB M SAB
P P
SQAB = n i j yij. − C M SAB = (a−1)(b−1) F = M SE
P val
Erro SQE = SQT − SQreg ab(n − 1) SQE
M SE = ab(n−1)
Total SQT = ai bj nk yijk abn-1
P P P 2
−C
Exemplo
Seis máquinas diferentes estão sendo consideradas para o uso de fabricação. As máqui-
nas estão sendo comparadas em relação à resistência à tensão do produto. A resposta
da máquina é a resistência à tensão em kg/cm2 X10−1 . Verifique se as tensões na
fabricação diferem entre si para o novo caso: suponha que cada funcionário opere as
máquinas em três etapas diferentes. Há diferença entre os operadores? Há diferença
entre as máquinas? Existe intereação entre máquinas e os operadores? Desenvolva os
procedimentos de cálculo em uma planilha ou desenvolva um programa no software R.
ETAPA I T1 T2 T3 T4 T5 T6
Oper. 1 17.5 16.4 20.3 14.6 17.5 18.2
Oper. 2 16.9 19.2 15.7 16.7 19.2 16.2
Oper. 3 15.8 17.7 17.8 20.8 16.5 17.5
Oper. 4 18.6 15.4 18.9 18.9 20.5 20.1
ETAPA II T1 T2 T3 T4 T5 T6
Oper. 1 17.4 18.9 22.3 16.8 17.5 25.6
Oper. 2 18.0 18.5 20.4 16.4 13.6 20.2
Oper. 3 16.1 16.3 16.4 21.1 11.6 15.3
Oper. 4 17.7 18.5 13.0 14.9 21.3 21.3
ETAPA III T1 T2 T3 T4 T5 T6
Oper. 1 17.7 17.8 21.4 18.2 15.6 22.2
Oper. 2 10.8 16.4 13.9 15.4 22.4 18.9
Oper. 3 15.8 17.9 22.1 16.5 23.7 16.6
Oper. 4 15.5 16.9 19.9 18.6 17.8 14.4
6.4. PRESSUPOSTOS DA ANÁLISE 86
6.4 Pressupostos da análise

Espera-se que os resíduos dos dados sejam independentes e sigam uma distribuição nor-
mal com média nula e variância σϵ2 , isto é, ϵ ∼ N (0, σϵ2 ). Para a independência dos
resíduos, considera-se que as unidades experimentais são todas não correlacionadas no
projeto e desenvolvimento do croqui do experimento. Os seguintes pressupostos devem
ser atendidos:
• Independência dos resíduos A consequência da Independência é a correlação
nula entre as observações, isto é,
Y
f (ϵ̃) = f (ϵ) ⇒ cov(ϵi , ϵj ) = 0, ∀i ̸= j
i
• Normalidade dos resíduos Os resíduos devem seguir uma distribuição normal de

probabilidade com média nula µ = 0 e variância própria σϵ2 .
e ∼ N (0, σϵ2 )
Existem muitos testes de hipóteses para verificar a normalidade dos resíduos. O

mais popularmente utilizado é o teste de Shapiro e Wilk. Em alguns casos casos, o
teste de Anderson-Darling pode ser apropriado.
• Homocedasticidade dos Resíduos Os resíduos devem apresentar variabilidades
equivalentes ou seja, igual variação. Esse omportamento chamamos de homocedas-
ticidade. O teste de Levene ou Bartlett é muito útil para a verificação da homoce-
dasticidade dos resíduos.
Capítulo 7
Correlação
7.1 Variância, covariância e correlação

7.1.1 Variância
Já vimos que a variância é definida por:
V AR(X) = E[(x − E(x))2 ] = E(X 2 ) − E(X)2 (7.1)

n
X Xn X
V AR( X) = Xi + 2 COV (Xi , Xj ) (7.2)
i=1 i=1 i<j
sendo a covariância a variabilidade compartilhada entre duas variáveis aleatórias:
7.1.2 Covariância
A variância compartilhada entre duas variváeis denominamos covariância cov(X, Y ).
Definição
A covariância é definida como sendo a variância compartilhada. Define-se pela espe-
rança do produto dos desvios de duas variáveis aleatórias: E(dXi dXj ), ou seja:
COV (Xi , Xj ) = E[(Xi − E(Xi ))(Xj − E(Xj ))] = E(Xi Xj ) − E(Xi )E(Xj )(7.3)
Podemos interpretar a covariância como sendo o quanto a aleatoriedade de uma variável

interage com uma segunda variável aleatória.
• Variância populacional de x:
d2x (x − x̄)2
P P
σx2 = =
n n
• Variância amostral de x:
d2x (x − x̄)2
P P
s2x = =
n−1 n−1
87
7.1. VARIÂNCIA, COVARIÂNCIA E CORRELAÇÃO 88
• Variância populacional de y:
d2y
P
(y − ȳ)2
P
σy2 = =
n n
• Variância amostral de y:
d2y
P
(y − ȳ)2
P
s2y = =
n−1 n−1
• Covariância populacional entre x,y:

P P
dx dy (x − x̄)(y − ȳ)
σX,Y = cov(X, Y ) = =
n n
• Covariância amostral entre x,y:

P P
dx dy (x − x̄)(y − ȳ)
sX,Y = cov(X, Y ) = =
n−1 n−1
Exemplo
Suponha os desvios dx = x − x̄ e dy = y − ȳ para duas variáveis aleatórias: X =
{0.2, 0.6, 0.5, 0.4, 0.28} e Y = {0.1, 0.5, 0.9, 0.5, 0.5}. Qual o valor da covariância amos-
tral entre ambas as variáves. Explique o que este valor significa.
Complete a tabela abaixo:
obs X Y x̄ ȳ dx dy d2x d2y dx · dy

1 0,2 0,1
2 0,6 0,5
3 0,5 0,9
4 0,4 0,5
5 0,28 0,5
Somas d2x d2y
P P P P P P P
x y − − dx dy dx dy
− −
Portanto, P
dx dy
SX,Y = =
n−1
7.1.3 Correlação
A imagem da covariância pode estar entre (−∞, +∞). Uma alternativa de padronizar a
escala da imagem da covariância para os valores entre (−1, +1) é chamado de correla-
ção.
Observe que a covariância pode assumir qualquer valor, isto é,

−∞ < cov(X, Y ) < ∞
Devemos encontrar uma medida estatística que forneça o resultado finito. Como V ar(x) <
∞ e V ar(y) < ∞. Podemos padronizar a covariância através da desigualdade de Cauchy-
Schwarz:
| < uv > |2 ≤< uu >< vv >
Para o espaço
Pn 2R Euclidiano
Pn vamos reescrever o produto < uv >= ui vi , bem como
n
Pn
i
< u >= i ui e < v >= i vi Então,
2
| < uv > |2 ≤< uu >< vv > (7.4)

n
!2 n
! n !
X X X
ui vi ≤ u2i vi2
i i i
Dividindo ambos os lados por n2 > 0,

2
( ni ui vi ) ( ni u2i ) ( ni vi2 )
P P P
≤ (7.5)
n2 n2
Pn 2 Pn 2 Pn 2
i ui vi i ui i vi
≤
n n n
Substituindo ui → dx e vi → dy e depois elevando à raíz quadrada amobos os lados
Pn 2 Pn 2 Pn 2
dx dy i dx i dy
i
≤ (7.6)
n n n
s P 2 s Pn 2 n 2
n
P
i dx dy i dx i dy
≤
n n n
s P 2 s s
Pn 2 n 2
n
P
i dx dy i dx i dy
≤
n n n
Ou seja,
q p q
(σx,y )2 ≤ σx2 σy2 (7.7)
|σx,y | ≤ |σx ||σy |

σx,y
σx σy ≤ 1

Vamos definir a correlação populacional por

σx,y
ρ=
σx σy
desde que,
−1 ≤ ρ ≤ 1
Definição
Define-se a correlação populacional por
σx,y
ρ=
σx σy
Figura 7.1: Conceito da correlação
Podemos interpretar a correlação como uma medida do grau da relação direta, inver-
samente proporcional ou inexistente. Isto é, quando a correlação for negativa (ρ < 0)
significa que as variáveis X e Y são inversamente proporcional. Quando inexistente terá
correlaçãonula (ρ = 0) e, por fim, quando ambas as variáveis forem diretamente propor-
cional a correlação será positiva (ρ > 0). Dizemos que será perfeitamente correlacionado
quando assumir valores extremos +1 ou -1.
É importante conhecermos a forma da correlação amostral. Basicamente podemos re-
escrever as variâncias de x e de y sem a dependência da média. Isso possibilita uma
estrutura mais prática para o cálculo da covariância amostral.
Definição
O coeficiente de correlação linear amostral r mede a força da correlação entre valores
emparelados de ambas as variáveis aleatórias de uma população. No caso amostral
usamos a letra latina r. A correlação linar pode ser definida por
COV (Xi , Xj ) E(XY ) − E(X)E(Y )

r=√ √ = p p (7.8)
V ARX V ARY E(X ) − E(X)2 E(Y 2 ) − E(Y )2
2
P P P
n XY − X Y
= p P P p P P . (7.9)
n X 2 − ( X)2 n Y 2 − ( Y )2
Podemos reescrever as variânicas amostrais e a covariância

• Variância amostral para x
d2x (x − x̄)2
P P
s2x = = (7.10)
n−1 n−1
(x2 + x̄2 − 2xx̄)
P
=
P 2 nP −1
x + x̄2 − 2x̄ x
P
=
n−1
P 2 P P
x + n nx − 2 nx
P 2
x n
= ·
n−1 n
P 2 P 2 P 2
n x + ( x) − 2 ( x)
=
n(n − 1)
n x − ( x)2
P 2 P
=
n(n − 1)
• Variância amostral para y

d2y
P
(y − ȳ)2
P
s2y = = (7.11)
P− 12
n
2
n−1
(y + ȳ − 2y ȳ)
=
P 2 nP −1
y + ȳ 2 − 2ȳ y
P
=
n−1
P 2 P P
y + n ny − 2 ny
P 2
y n
= ·
n−1 n
P 2 P 2 P 2
n y + ( y) − 2 ( y)
=
n(n − 1)
n y − ( y)2
P 2 P
=
n(n − 1)
• Correlação amostral
P P
dx dy (x − x̄)(y − ȳ)
sxy = = (7.12)
n−1
P n−1
(xy − xȳ − yx̄ + x̄ȳ)
=
P n−1 P
P P
xy − xȳ − yx̄ + x̄ȳ
=
P Pn − 1 P
xy − ȳ x − x̄ y + nx̄ȳ
=
P n−P1 P P P P
y x
y + n nx y
P
xy − n x− n n
=
P P nP− 1 P P P
P y x x y
xy − n
x− n
y+n n n n
= ·
P P P n − 1P P n
nxy − 2 ( y) ( x) + ( x) ( y)
=
n(n − 1)
P P P
n xy − x y
=
n(n − 1)
Como a correlação amostral é dada por

sx,y
r=
sx sy
e, substituindo as variâncias e a covariância
PP P
nxy− x y
n(n−1)
r = q P
2
P 2 q P 2 P 2 (7.13)
n x −( x) y −( y)
n(n−1)
· n n(n−1)
P P P
xy − x y
n
= q P P 2 q P 2
n x − ( x) · n y − ( y)2
2
P
As propriedades da correlação são:

• O valor de r está entre −1 ≤ X ≤ 1
• A permutação no cálculo das variáveis aleatórias não afeta o valor de r
• O valor de r é sensível a valores outlier
• r mede apenas a intensidade de uma relaçao linear
Exemplo
Para os dados X = 1, 2, 3, 4 e Y = 1, 5, 5, 9 encontre o valor da correlação r.
Uma alternativa para o cálculo de r seria através da transformação da variável aleatória

para a variável padronizada, isto é, X → ZX e Y → ZY :
P
Xx Zy
r=
n−1
7.2. TESTE DE HIPÓTESE PARA A CORRELAÇÃO 93
7.2 Teste de hipótese para a correlação

Teste a afirmativa que não existe nenhuma correlação linear ρ = 0. A hipótese a ser
lançada é
H0 : ρ = 0 (7.14)
H1 : ρ ̸= 0 (7.15)
sob a estatística de teste t-Student

r
t= q
1−r2
n−2
com ν = n − 2 graus de liberdade. Aceite H0 se o p-Valor for menor ou igual ao nível de

significância α.
Suponha o conjunto de dados: X = 1, 2, 3, 4, 5 e Y = 0.8, 0.9, 1.2, 1.4, 1.6. Vamos testar a
hipótese nula H0 : ρ = 0. O valor encontrado para r foi de r = 0.9921567 sendo o cálculo
do teste t-Student é dado por:
0.9921567
tcalc = q = 190.4941
1−0.99215672
5−2
O valor de t-Student para o caso bilateral com nível de significância alpha = 5% e ν = 3

graus de liberdade é ttab = ± 3.182. Como tcalc > +ttab não temos evidências suficientes
para aceitar a hipótese alternativa H0 a favor da hopítese alternativa em que a densidade
é diferente de zero.
Capítulo 8
Regressão
8.1 Regressão Linear Simples

A técncia de encontrar uma função matemática que descreva a dispersão dos pontos é
conhecida como análise de regressão. A função matemática ajustada é chamada de
regressora. Para o caso da distribuição linear (ou função afim) temos o seguinte mo-
delo:
y = β0 + β1 x + ϵ
sendo ϵ o erro aleatório com média nula e variância σ 2 .
Em um conjunto de repostas Y provenientes da variável independente X a regressora será
definida com base nos coeficientes estimados βˆ0 e βˆ1 dada por:
ŷ = βˆ0 + βˆ1 x
8.1.1 Método dos mínimos quadrados ordinários

O método dos mínimos quadrados ordinários MMO é a técncia mais utilizada para estimar
os coeficientes β0 e β1 da função regressora. A proposta é minimizar a soma dos quadrados
dos erros: n n
X X
2
L= ϵi = (yi − β0 − β1 x1 )2 )
i i=1
Como devemos encontrar o mínimo da soma dos quadrados devemos fazer o estudo das
funções, isto é,
n
∂L X
|βˆ0 ,βˆ1 = −2 (y1 − βˆ0 − βˆ1 xi ) = 0 (8.1)
∂β0 i=1
n
∂L X
|βˆ0 ,βˆ1 = −2 (y1 − βˆ0 − βˆ1 xi )xi = 0 (8.2)
∂β1 i=1
É facil verificar que tais equações geram um sistema a ser determinar:

(
nβˆ0 + βˆ1 ni=1 xi = ni=1 yi
P P
βˆ0 ni=1 xi + βˆ1 ni=1 x2i = ni=1 yi xi

P P P
94
8.1. REGRESSÃO LINEAR SIMPLES 95
Resolvendo ambas as equações acima encontraremos os estimandores βˆ0 e βˆ1 .

Pn Pn Pn
n x i y i − x i i=1 yi
βˆ1 = i=1
Pn 2 i=1
Pn
n i=1 xi − ( i=1 xi )2
Na prática o estimador βˆ0 pode ser encontrado com o uso das médias X̄, Ȳ e o valor
encontrado para a média βˆ1 , isto é:
βˆ0 = ȳ − βˆ1 x̄
Obs: Uma alternativa para encontar o estimador para a inclinação βˆ1 é através da razão
entre os desvios padrões sx , sy e o valor da correlação r:
sy
βˆ1 = r
sx
Exemplo
Um engenheiro mecânico deseja avaliar a capacidade de vazão em uma válvula com
fluído denso. O conjunto das medidas sobre a variação da pressão ∆P (P SI) e a
resposta na taxa de vazão cfm (pés cúbicos por minuto) está apresentado na seguinte
tabela:
Pressão 30,2 48,3 112,3 162,2 191,9 197,8

Taxa Vazão 0,15 0,35 1,0 1,25 1,75 2,00
Primeiramente definir as covariáveis e a variável dependente. Segundo o texto, a covariável

x será dada pela variação da pressão ∆P ≡ x, enquanto a velocidade do fluído a variável
dependente y.
x y x̄ ȳ xy x2
30,2 0,15 4,53 912,04
48,3 0,35 16,905 2332,89
112,3 1,00 112,3 12611,29
123,78333 1,08333
162,2 1,25 202,75 26308,84
191,9 1,75 335,825 36825,61
197,8 2,00 395,6 39124,84
Soma 742,7 6,5 1067,91 118115,51
Agora calculamos ambas as equações:

• Inclinação
Pn
xi yi − ni=1 xi ni=1 yi
P P
n
βˆ1 =
i=1
(8.3)
n ni=1 x2i − ( ni=1 xi )2
P P
(6)(1067, 91) − (742, 7)(6, 5) 1579, 91

= = = 0, 01005737 (8.4)
(6)(118115, 51) − (742, 7)2 157089, 77
8.2. REGRESSÃO LINEAR MÚLTIPLA 96
• Intercepto
βˆ0 = ȳ − βˆ1 x̄ (8.5)
= 1, 08333 − (0, 01005737)(123, 78333) = −0, 161601497 (8.6)
Finalmente encontramos o modelo regressor

ŷ = −0, 161601497 + 0, 01005737x
Usando os Software R:
> x < −c(30.2, 48.3, 112.3, 162.2, 191.9, 197.8)
> y < −c(0.15, 0.35, 1.00, 1.25, 1.75, 2.00)
> model1 < −lm(y ∼ x)
> plot(y ∼ x)
> summary(model1)
(8.7)
Figura 8.1: Ajuste da regressora nos pontos.
Exemplo
Refaça o exemplo anterior encontrando o estimador do inclinação usando os desvios e
a correlação r. Use a equação βˆ1 = r ssxy
8.2 Regressão Linear Múltipla

Considere uma dispersão de pontos com variáveis independentes X1 = x11 , x12 ...x1k ,
X2 = x21 , x22 ...x2k ...Xn = xn1 , xn2 ...xnk e sua resposta dependente Y = y1 , y2 , y3 ...yk . Se a
correlação linear indicar alto valor, por exemplo, r = 85%, podemos sugerir um modelo
afim (regressora):
y = β0 + β1 x1 + β2 x2 + ...βk xk
Chamamos de regressão linear simples se apenas uma variável dependente está pre-
sente:
y = β 0 + β 1 x1
e, chamamos de regressão linear múltipla se mais do que uma variável dependente está
presente
y = β0 + β1 x1 + β2 x2 + ... + βijxi xj ... + βk xk
podendo apresentar dois modos:
• Termo de interação: são termos cruzados e a sua interpretação significa o quanto
uma variável independente relacionado com uma segunda altera a resposta.
y = β0 + β1 x1 + β2 x2 + ... + βijxi xj ... + βk xk
• Termo de segunda ordem: são termos quadráticos envolvidos.
y = β0 + β1 x1 + β2 x2 + ... + β11 x21 + β22 x22 + ... + βk xk
Para uma melhor visualização da regressão múltipla, considere uma resposta Y dada
segundo k-variáveis independentes X.
resp/variáveis x1 x2 ... xk
y1 x11 x12 ... x1k
y2 x21 x22 ... x2k
... ... ... ... ...
yn x31 x32 ... x3k
Obviamente, a reta proposta não se ajustará sob todos os pontos dispersos no gráfico
obtendo uma certa distância entre o ponto observado e o regressora. Chamamos essa
distâcia de erro ϵ. Considerando esse erro, a reta proposta será dada por yi = β0 +βi xi +ϵ.
A equação múltipla pode ser modelada por
k
X
yi = β0 + βij xij + ϵi
j=1
ou, de forma matricial como

Y = Xβ + ϵ
sendo  
y1

 y2 

Y= y3
 

 
 ... 
yn
 
1 x11 x12 ... x1k

 1 x21 x22 ... x2k 

X= 1 x31 x32 ... x3k
 

 
 1 ... ... ... ... 
1 xn1 xn2 ... xnk
 
ϵ1

 ϵ2 

ϵ= ϵ3
 

 
 ... 
ϵn
 
β0

 β1 

β= β2
 

 
 ... 
βk
8.2.1 Estimando os coeficientes βi

A técnica utilizada é conhecido como o método dos mínimos quadrados ordinários MMQO.
De acordo com a figura observamos que podemos criar quadrados cujos lados são os erros
entre os valores observados e valores da regressora. A proposta é minimizae esse quadrado.
Seja a equação múltipla linear:
Y = Xβ + ϵ
Queremos aqui minimizar a soma dos quadrados dos erros ϵ por min L,
n
′ ′
X
L= ϵ2 = ϵ ϵ = (Y − XB)) (Y − XB))
j=1
Devemos minimizar pelo estudo de funções. Lembre-se que a variável a ser estimada são
os coeficientes de β.
′
L = (Y − XB)) (Y − XB)) (8.8)
′ ′ ′ ′ ′ ′
= Y Y − B X Y − Y XB + B X B (8.9)
′ ′ ′ ′ ′
= Y Y − 2B X Y + B X B (8.10)
O valor de mínimo na parábola L pode ser encontrado derivando-a parcialmente em relação

a B e igualando a zero:
∂L
=0
∂B
∂L ′ ′
|b = −2X Y + 2XX b = 0
∂B
que, facilmente podemos encontrar os coeficentes de β:

′ ′
X Xb = X Y (8.11)
′ ′
b = (X X)−1 X Y (8.12)
com  
β0

 β1 

b=β= β2
 

 
 ... 
βk
′ ′
Observe que a equação b = (X X)−1 X Y é formada apenas por k-variáveis independentes
e Y variaveis dependentes, isto é, é possível calcular os coeficientes apenas pelas variáveis
da dispersão.
Exemplo
Suponha o seguinte conjunto de dados. Com apenas estas informações encontre os
coeficientes lineares para a função y = β0 + β1 x1 + β2 x2 + β3 x3
y X1 X2 X3
25,5 1,74 5,30 10,80
31,2 6,32 5,42 9,40
25,9 6,22 8,41 7,20
38,4 10,52 4,63 8,50
18,4 1,19 11,60 9,40
26,7 1,22 5,85 9,90
26,4 4,10 6,62 8,00
25,9 6,32 8,72 9,10
32,0 4,08 4,42 8,70
25,2 4,15 7,60 9,20
39,7 10,15 4,83 9,40
35,7 1,72 3,12 7,60
26,5 1,70 5,30 8,20
Sol.
Vamos aplicar a equação matricial
′ ′
b = (X X)−1 X Y
Os passos para encontrarmos os parâmetros β das regressora serão:

• Identificar a matriz das k-variáveis independentes. Lembre-se que yi = β0 + kj=1 βij xij +
P
ϵi e, como é fácil verificar, o coeficiente linear β0 não multiplica nenhuma das k-
variáveis independentes. Por esse motivo, a matriz X contém em sua primeira
coluna um vetor unitário.
 
1 1, 74 5, 30 10, 80
1 6, 32 5, 42 9, 40
 
 
1 6, 22 8, 41 7, 20
 
 
 

 1 10, 52 4, 63 8, 50 


 1 1, 19 11, 60 9, 40 


 1 1, 22 5, 85 9, 90 

X= 1 4, 10 6, 62 8, 00
 

 
 1 6, 32 8, 72 9, 10 
 

 1 4, 08 4, 42 8, 70 


 1 4, 15 7, 60 9, 20 


 1 10, 15 4, 83 9, 40 

1 1, 72 3, 12 7, 60
 
 
1 1, 70 5, 30 8, 20
• Reescrevemos a matriz da variável resposta Y por

 
25, 5
 31, 2 
 
 25, 9 
 
 
 38, 4 
 
 18, 4 
 
 26, 7 
 
Y =  26, 4 
 
 
 25, 9 
 
 32, 0 
 
 25, 2 
 
 39, 7 
 
 35, 7 
 
26, 5
′ ′
• Para calcular os coeficientes lineares β por b = (X X)−1 X Y é conveniente subdi-
′ ′
vidir o cáclulo matricial entre (X X)−1 e X Y, tal que o produto de ambas as ma-
trizes gera-nos os coeficientes de interesse. Primeiramente, vamos calcular o termo
′
(X X)−1 . Essa última contém informações muito importante sobre o conjunto de
dados, veremos a diante.
 
1 1 1 1 1 1 1 1 1 1 1 1 1
′  1, 74 6, 32 6, 22 10, 52 1, 19 1, 22 4, 10 6, 32 4, 02 4, 15 10, 15 1, 72 1, 70 
(X X) =  ∗
 5, 30 5, 42 8, 41 4, 63 11, 60 5, 85 6, 62 8, 72 4, 42 7, 60 4, 83 3, 12 5, 30 
10, 80 9, 40 7, 20 8, 50 9, 40 9, 90 8, 00 9, 10 8, 70 9, 20 9, 40 7, 60 8, 20
 
1 1, 74 5, 30 10, 80
1 6, 32 5, 42 9, 40
 
 
1 6, 22 8, 41 7, 20
 
 
 

 1 10, 52 4, 63 8, 50 


 1 1, 19 11, 60 9, 40 


 1 1, 22 5, 85 9, 90 

∗ 1 4, 10 6, 62 8, 00
 

 
 1 6, 32 8, 72 9, 10 
 

 1 4, 08 4, 42 8, 70 


 1 4, 15 7, 60 9, 20 


 1 10, 15 4, 83 9, 40 

1 1, 72 3, 12 7, 60
 
 
1 1, 70 5, 30 8, 20
 
13 59, 43 81, 82 115, 40
59, 43 394, 7255 360, 6621 522, 0780
′
 
(X X) = 
 
81, 82 360, 6621 576, 7264 728, 3100

 
115, 40 522, 0780 728, 3100 1035, 9600
′
Não devemos esquecer de calcular a matriz a inversa (X X)−1
 
13 59, 43 81, 82 115, 40 1 0 0 0
 59, 43 394, 7255 360, 6621 522, 0780 0 1 0 0
′
 
(X X)−1 = 

 81, 82 360, 6621 576, 7264 728, 3100 0 0 1 0


115, 40 522, 0780 728, 3100 1035, 9600 0 0 0 1
 
8, 0648 −0, 0826 −0, 0942 −0, 7905
 −0, 0826 0, 0085 0, 0017 0, 0037 
′
 
−1
(X X) = 
 −0, 0942 0, 0017 0, 0166 −0, 0021 

−0, 7905 0, 0037 −0, 0021 0, 0886
′
• O segundo temrmo X Y deverá ser encontrado para calcularmos os coeficientes.
 
1 1 1 1 1 1 1 1 1 1 1 1 1
′  1, 74 6, 32 6, 22 10, 52 1, 19 1, 22 4, 10 6, 32 4, 02 4, 15 10, 15 1, 72 1, 70 
X Y= ∗
 5, 30 5, 42 8, 41 4, 63 11, 60 5, 85 6, 62 8, 72 4, 42 7, 60 4, 83 3, 12 5, 30 
10, 80 9, 40 7, 20 8, 50 9, 40 9, 90 8, 00 9, 10 8, 70 9, 20 9, 40 7, 60 8, 20
 
25, 5
31, 2
 
 
25, 9
 
 
 

 38, 4 


 18, 4 


 26, 7 

∗ 26, 4
 

 
 25, 9 
 

 32, 0 


 25, 2 


 39, 7 

35, 7
 
 
26, 5
 
377, 5
1877, 567
′
 
XY=
 
2246, 661

 
3337, 780
′ ′
• Finalmente podemos calcular o produto (X X)−1 X Y = b para encontrarmos os
coeficientes da regressão
  
8, 0648 −0, 0826 −0, 0942 −0, 7905 377, 5
−0, 0826 0, 0085 0, 0017 0, 0037 1877, 567
′ ′
  
(X X)−1 X Y = 
  
−0, 0942 0, 0017 0, 0166 −0, 0021 2246, 661
 
  
−0, 7905 0, 0037 −0, 0021 0, 0886 3337, 780
 
39, 1574
1, 0161
′ ′
 
b = (X X)−1 X Y = 
 
−1, 8616

 
−0, 3433
Portanto, a regressora será dada por:

ŷ = 39, 1574 + 1, 0161x1 − 1, 8616x2 − 0, 3433x3
Usando o Software R
> x1 < −c(1.74, 6.32, 6.22, 10.52, 1.19, 1.22, 4.10, 6.32, 4.08, 4.15, 10.15, 1.72, 1.70)
> x2 < −c(5.30, 5.42, 8.41, 4.63, 11.60, 5.85, 6.62, 8.72, 4.42, 7.60, 4.83, 3.12, 5.30)
> x3 < −c(10.80, 9.40, 7.20, 8.50, 9.40, 9.90, 8.00, 9.10, 8.70, 9.20, 9.40, 7.60, 8.20)
> y < −c(25.5, 31.2, 25.9, 38.4, 18.4, 26.7, 26.4, 25.9, 32.0, 25.2, 39.7, 35.7, 26.5)
> model1 < −lm(y x1 + x2 + x3)
> summary(model1)
(8.13)
8.3. VALORES PREDITOS 103
8.2.2 Propriedades dos Estimadores β

′ ′
Seja β̂ ≡ b = (X X)−1 X Y os coeficientes da regressora. O valor esperado para o
estimador de b será E(b) = β (Prove!). A matriz de covariância para b será dado
por:
′ ′
Cov(b) = E(b − E(b))(b − E(b)) = σ 2 (X X)−1
′
β̂ ∼ (β, C ≡ σ 2 (X X)−1 )
com C a chamada matriz simétrica:
 
C00 C01 C02
′
C = (X X)−1 =  C10 C11 C12 
C20 C11 C22
e a variância estimada por

′ ′ ′
SQE SQT − SQreg Y Y − β̂ X Y
σˆ2 = = =
n−p n−p n−p
′ ′
lembrando que β̂ = (X X)−1 X Y A afirmativa a ser testada é verificar se o estimador β̂
é nulo, isto é,

H0 : βj = 0
H1 : βj ̸= 0
β̂ segue a distribuição t-Student com ν = n − k graus de liberdade (sendo n observações

em k-variáveis independentes);
βˆj − βj
tn−p ∼ q
σˆ2 Cjj
8.3 Valores preditos

Os valores ajustados pela regressora Ŷ = Xβ̂ podem ser encontados pela matriz chapéu
H. Sabemos que a matriz dos estimadores é dada por:
Ŷ = Xβ̂
′ ′
Sabemos que β̂ = (X X)−1 X Y
′ ′
Ŷ = X[(X X)−1 X Y]
′ ′
Ŷ = [X(X X)−1 X ]Y
(8.14)
Vamos chamar de matriz chapéu H uma matriz formada apenas pelas variáveis indepen-
dentes que, quando aplicado na matriz de observação Y, têm o poder de gerar os valores
preditos Ŷ.
Ŷ = HY
′ ′
com H = X(X X)−1 X
a matriz chapéu.
Exemplo
′
No exemplo anterior encontramos a matriz (X X)−1 via matriz das variáveis observá-
veis X.  
8, 0648 −0, 0826 −0, 0942 −0, 7905
 −0, 0826 0, 0085 0, 0017 0, 0037 
′
 
(X X)−1 = 
 −0, 0942 0, 0017 0, 0166 −0, 0021 

−0, 7905 0, 0037 −0, 0021 0, 0886
Encontre a matriz chapéu H e, com se resultado, encontre os valores preditos Ŷ sem

calcular a regressora.
Sol.
′ ′
Para calcular a matriz chapéu temos que multiplicar as matrizes: H = X(X X)−1 X
 
1 1, 74 5, 30 10, 80
1 6, 32 5, 42 9, 40
 
 
1 6, 22 8, 41 7, 20
 
 
 

 1 10, 52 4, 63 8, 50 

 1 1, 19 11, 60 9, 40   
  8, 0648 −0, 0826 −0, 0942 −0, 7905
 1 1, 22 5, 85 9, 90 
−0, 0826 0, 0085 0, 0017 0, 0037
′ ′
   
H = X(X X)−1 X =  1 4, 10 6, 62 8, 00 ∗
   
−0, 0942 0, 0017 0, 0166 −0, 0021

   
 1 6, 32 8, 72 9, 10 
  −0, 7905 0, 0037 −0, 0021 0, 0886

 1 4, 08 4, 42 8, 70 


 1 4, 15 7, 60 9, 20 


 1 10, 15 4, 83 9, 40 

1 1, 72 3, 12 7, 60
 
 
1 1, 70 5, 30 8, 20
 
1 1 1 1 1 1 1 1 1 1 1 1 1
1, 74 6, 32 6, 22 10, 52 1, 19 1, 22 4, 10 6, 32 4, 02 4, 15 10, 15 1, 72 1, 70
 
∗ =
 
 5, 30 5, 42 8, 41 4, 63 11, 60 5, 85 6, 62 8, 72 4, 42 7, 60 4, 83 3, 12 5, 30 
10, 80 9, 40 7, 20 8, 50 9, 40 9, 90 8, 00 9, 10 8, 70 9, 20 9, 40 7, 60 8, 20
e, finalmente a matriz chapéu é dada por:

0.46603 0.15131 −0.27883 −0.05233 0.0898 0.316032 −0.0645 0.0190 0.1049 0.1039 0.095174 0.00359 0.04583

 0.15131
 0.14323 −0.01623 0.16815 −0.0130 0.087247 0.0176 0.0852 0.0833 0.0716 0.209164 0.00360 0.00860
 −0.27883 −0.01623 0.42964 0.13089 0.1817 −0.129805 0.2138 0.1646 0.0195 0.0788 0.002853 0.10030 0.10241

 −0.05233 0.16815 0.13089 0.38234 −0.1718 −0.078474 0.0565 0.1154 0.0868 0.0331 0.354873 0.00817 −0.03381

 0.08984
 −0.01304 0.18177 −0.17184 0.5801 0.123212 0.0917 0.2485 −0.0708 0.1979 −0.128523 −0.16017 0.03122
 0.31603
 0.08724 −0.12980 −0.07847 0.1232 0.249659 0.0145 0.0132 0.1039 0.0932 −0.000949 0.09667 0.11140
Ĥ =  −0.06457 0.01768 0.21383 0.05657 0.0917 0.014557 0.1524 0.0629 0.0823 0.0622 −0.011771 0.17795 0.14401

 0.01906 0.08522 0.16469 0.11545 0.2485 0.013209 0.0629 0.2203 −0.0169 0.1314 0.135838 −0.14286 −0.03701


 0.10491
 0.08337 0.01957 0.08686 −0.0708 0.103970 0.0823 −0.0169 0.1425 0.0345 0.071236 0.21769 0.14069
 0.10393
 0.07167 0.07887 0.03313 0.1979 0.093260 0.0622 0.1314 0.0345 0.1114 0.059177 −0.01833 0.04060
 0.09517
 0.20916 0.00285 0.35487 −0.1285 −0.000949 −0.0117 0.1358 0.0712 0.0591 0.397517 −0.09559 −0.08900
 0.00359 0.00360 0.10030 0.00817 −0.1601 0.096674 0.1779 −0.1428 0.2176 −0.0183 −0.095592 0.49929 0.30967
0.04583 0.00867 0.10241 −0.03381 0.0312 0.111403 0.1440 −0.0370 0.1406 0.0406 −0.089000 0.30967 0.22535
Para encontrar os valores preditos temos que operar a matriz chapéu H na variável resp-
sota, ou seja:
Ŷ = HY
0.46603 0.15131 −0.27883 −0.05233 0.0898 0.316032 −0.0645 0.0190 0.1049 0.1039 0.095174 0.00359 0.04583

 0.15131
 0.14323 −0.01623 0.16815 −0.0130 0.087247 0.0176 0.0852 0.0833 0.0716 0.209164 0.00360 0.00860
 −0.27883 −0.01623 0.42964 0.13089 0.1817 −0.129805 0.2138 0.1646 0.0195 0.0788 0.002853 0.10030 0.10241

 −0.05233 0.16815 0.13089 0.38234 −0.1718 −0.078474 0.0565 0.1154 0.0868 0.0331 0.354873 0.00817 −0.0338

 0.08984
 −0.01304 0.18177 −0.17184 0.5801 0.123212 0.0917 0.2485 −0.0708 0.1979 −0.128523 −0.16017 0.03122
 0.31603
 0.08724 −0.12980 −0.07847 0.1232 0.249659 0.0145 0.0132 0.1039 0.0932 −0.000949 0.09667 0.11140
HY =  −0.06457 0.01768 0.21383 0.05657 0.0917 0.014557 0.1524 0.0629 0.0823 0.0622 −0.011771 0.17795 0.14401

 0.01906 0.08522 0.16469 0.11545 0.2485 0.013209 0.0629 0.2203 −0.0169 0.1314 0.135838 −0.14286 −0.0370


 0.10491
 0.08337 0.01957 0.08686 −0.0708 0.103970 0.0823 −0.0169 0.1425 0.0345 0.071236 0.21769 0.14069
 0.10393
 0.07167 0.07887 0.03313 0.1979 0.093260 0.0622 0.1314 0.0345 0.1114 0.059177 −0.01833 0.04060
 0.09517
 0.20916 0.00285 0.35487 −0.1285 −0.000949 −0.0117 0.1358 0.0712 0.0591 0.397517 −0.09559 −0.0890
 0.00359 0.00360 0.10030 0.00817 −0.1601 0.096674 0.1779 −0.1428 0.2176 −0.0183 −0.095592 0.49929 0.30967
0.04583 0.00867 0.10241 −0.03381 0.0312 0.111403 0.1440 −0.0370 0.1406 0.0406 −0.089000 0.30967 0.22535
   
25, 5 27.35141
31, 2 32.26232
   
   
25, 9 27.34955
   
   
   

 38, 4  
  38.30958 


 18, 4  
  15.54473 


 26, 7  
  26.10807 

∗ 26, 4 = 28.25316  = Ŷ
   
   
 25, 9   26.22185 
   

 32, 0  
  32.08818 


 25, 2  
  26.06764 


 39, 7  
  37.25236 

35, 7 32.48792
   
   
26, 5 28.20324
Por fim encontramos os valores preditos.
Usando o Software R podemos encontrar tanto a matriz chapéu como os valores predi-
tos.
> H < −x% ∗ %solve(t(x)% ∗ %x)% ∗ %t(x)

> H% ∗ %y (8.15)
8.4. RESÍDUOS E ANÁLISE DOS RESÍDUOS 106
Exemplo
Utilizando a regressora encontrada para estes dados
ŷ = 39, 1574 + 1, 0161x1 − 1, 8616x2 − 0, 3433x3
substitua alguns valores x1 , x2 e x3 e verifique se o valor predito ŷ confere.
8.4 Resíduos e análise dos resíduos

O resíduo é o estimador do erro: ϵ = E(e). Define-se resíduo pela diferença entre os
valores da resposta Y e dos valores preditos Ŷ.
e = Y − Ŷ
A análise do resíduo é um dos mais IMPORTANTES DIAGNOSTICOS DA VALIDADE

sobre a adequação do modelo regressor. Consideramos que os resíduos apresentem uma
distribuição normal com média nula e variância σ 2
e ∼ N (0, σ 2 )
8.4.1 Propriedades dos resíduos

Seja Ŷ = HY via matriz chapéu. Pela definição do erro
e = Y − Ŷ
podemos substituir e encontrar arelação
e = Y − HY
e = (I − H)Y
e = MY
sendo M = I − H a matriz geradora de resíduos.
8.4.2 Valor esperado dos resíduos

O valor esperado (ou média) para os resíduos pode ser calculado por
µ = E(e) = E(Y − Ŷ) = E(Y) − E(Ŷ) = Y − Y = 0
Em relação a variância dos resíduos σ 2 , temos que estimar por meio da soma dos quadrados
dos resíduos
SQE SQRES
σˆ2 = ou σˆ2 =
n−p n−p
8.5. ANÁLISE DE VARIÂNCIA ANOVA (PARA A REGRESSORA) 107
sendo k variáveis com n observações e a soma dos quadrados dos resíduos dado por:
n
X
SQE = SQres = (Yi − Ŷi )2
i=1
n
′
X
= e2i = e e
i=1
′
= (Y − Xβ̂) (Y − Xβ̂)
′ ′ ′ ′ ′
= Y Y − 2β̂ X Y + β̂ X Xβ̂
como
′ ′ ′ ′ −1 ′
X Xβ̂ = X X(X X) X Y = X Y
′ ′ ′ ′ ′
= Y Y − 2β̂ X Y + β̂ X Y
′ ′ ′
= Y Y − β̂ X Y
Finalmente,
′ ′ ′
SQE Y Y − β̂ X Y
QMres = σˆ2 = =
n−p n−p
8.5 Análise de Variância ANOVA (para a regressora)

A soma dos quadrados totais é naturalmente escrito como
n
X
SQT = (Yi − Ȳ)2 .
i=1
Existem duas formas de cálculo, a pimeira é incluir a soma nula com Ȳ − Ȳ = 0,

n
X
SQT = (Yi − Ȳ)2
i=1
n
X
SQT = (Yi − Ŷ + Ŷ − Ȳ)2
i=1
n
X
SQT = [(Yi − Ŷ)2 + (Ŷ − Ȳ)2 − 2(Yi − Ŷ)(Ŷ − Ȳ)]
i=1
n
X n
X n
X
2 2
SQT = (Yi − Ŷ) + (Ŷ − Ȳ) − 2 (Yi − Ŷ)(Ŷ − Ȳ)
i=1 i=1 i=1
(8.16)
O termo n
X
2 (Yi − Ŷ)(Ŷ − Ȳ) = 0
i=1
é nulo.
Dessa forma,
P a soma dos quadrados totias pode ser interpretada como a soma dos qua-
drados de ni (Yi − Ŷ)2 e ni (Ŷ − Ȳ)2 . Chamamos de
P
• SQE = ni (Yi − Ŷ)2 a soma dos quadrados dos erros (ou desvio não explicado)
P
• SQreg = (Ŷ − Ȳ)2 a soma dos quadrados da regressora (ou o desvio explicado)
Pn
i
tal que nos formece a relação direta:
SQT = SQE + SQreg
A figura 8.2 mostra-nos esta relação.
Figura 8.2: Relação entre SQT = SQE + SQreg

A segunda alternativa é exmpandor a soma SQT =

Pn
i=1 (Yi − Ȳ)2
n
X
SQT = (Yi − Ȳ)2
i=1
n
2
X
= (Y2i − 2Yi Ȳ + Ȳ )
i=1
n n n
2
X X X
= Y2i −2 Yi Ȳ + Ȳ
i=1 i=1 i=1
n n
X nX 2
= Y2i − 2Ȳ Yi + nȲ
i=1
n i=1
n
2
X
= Y2i − 2nȲȲ + nȲ
i=1
n
2
X
= Y2i − nȲ
i=1
n Pn 2
X Yi
= Y2i −n i=1
i=1
n
Pn
′ ( i=1 Yi )2
= YY−
n
Vamos chamar de coeficiente corretor de
( ni=1 Yi )2
P
C=
n
e, por final encontramos a SQT
′
SQT = Y Y − C
A soma total SQT é igual a soma dos quadrados dos resítuos SQE mais a soma dos
quadrados da REGRESSORA. Para encontrar a última, vamos tirar a diferença,
SQT = SQE + SQreg

SQreg = SQT − SQE
( ni=1 Yi )2
P
′ ′ ′ ′
SQreg = (Y Y − ) − (Y Y − β̂ X Y)
Pn
′ ′ ( ni=1 Yi )2
SQreg = β̂ X Y −
n
′ ′
SQreg = β̂ X Y − C
′ ′
com β = (X X)−1 X Y e, finalmente, obtemos as três somas:
′ ′
• Regressora:SQreg = β̂ X Y − C
′ ′ ′
• Erro:SQE = Y Y − β̂ X Y
′
• Total:SQT = Y Y − C
Vamos montar a tabela de Análise Variacional

( n 2
P
′
i=1 Yi )
′
Regressora SQreg = β̂ X Y − n
p-1 M Sreg = SQ reg
p−1
F = M Sreg
M SE
probability
′ ′ ′
Erro SQE = Y Y − β̂ X Y N-p M SE = SQE
N −p
( n 2
P
′
i=1 Yi )
Total SQT = Y Y − n
N-1
Exemplo
Um engenheiro quer verificar se o aumento na umidade (via mensuração da tempera-

tura de ponto de orvalho) é proporcional ao crescimento da área de ferrugem. Seja a
umidade controlada em laboratório dado por X = (0, 10; 0, 15; 0, 20; 0, 25; 0, 30; 0, 35)C
e a resposta y = (1, 69; 5, 65; 5; 8; 9, 25; 11) em mm2 . O gráfico abaixo mostra-nos da-
dos retirado em laboratório.
Figura 8.3: Dispersão
Solução: Para montar a tabela de analise variacional temos que encontrar todos os qua-
drados
( n 2
P
′
i=1 Yi )
′
• Regressora: SQreg = β̂ X Y − n
′ ′ ′
• Erro: SQE = Y Y − β̂ X Y
( n 2
P
′
i=1 Yi )
• Total:SQT = Y Y − n
( n 2
P
′ ′
i=1 Yi )
sob os cáclulos de β = (X X)−1 X Y e C = n
;
   
1 0, 10 1, 69

 1 0, 15 


 5, 65 

1 0, 20 5
   
X= Y=
   
1 0, 25 8
 
   
   
 1 0, 30   9, 25 
1 0, 35 11

′ −1 1.323810 −5.142857
C = (X X) =
−0, 0017 0, 0037
Pn
( i=1 Yi ) 2 (1, 69 + 5, 65 + 5 + 8 + 9, 25 + 11)2
C= = = 274, 5914
n 6
 
1, 69
 5, 65 
 
1 1 1 1 1 1 5, 00 40.5900
′
 
XY= =
 
0, 1 0, 15 0, 2 0, 25 0, 3 0, 35  8, 00 10.6415


 
 9, 25 
11, 00

′ ′ −1 ′ 1.323810 −5.142857 40.5900 −0.9942857
β = CX Y = (X X) X Y = =
−0, 0017 0, 0037 10.6415 34.4857143
 
0, 1

 0, 15 

0, 2
′  
Y Y = 0, 1 0, 15 0, 2 0, 25 0, 3 0, 35   = 330.3411
 
 0, 25 
 
 0, 3 
0, 35
( n 2
P
′
i=1 Yi )
′
• Regressora: SQreg = β̂ X Y − n

′ ′ −0.9942857 40.5900
β XY−C = − 274.5914 = 52, 03032
34.4857143 10.6415
′ ′ ′
• Erro: SQE = Y Y − β̂ X Y

′ ′ ′ −0.9942857 40.5900
Y Y − β X Y = 330.3411 − = 3, 719429
34.4857143 10.6415
( n 2
P
′
i=1 Yi )
• Total:SQT = Y Y − n
′
Y Y − C = 330, 3411 − 274, 5914 = 55, 7497
• Regressora: p = 2 → p − 1 = 1 graus de liberdade (pois β0 e β1 , por isso p = 2)

• Erro: N − p → 6 − 2 = 4 graus de liberdade
• Total: N − 1 → 6 − 1 = 5 graus de liberdade, de fato 5 = 4 + 1
′ ( n Yi )2
P
′
β̂ X Y− i=1
• Regressora: M Sreg = p−1
n
= 52,03032
1
= 52, 03032
′ ′ ′
• Erro: M SE = Y Y−β̂ X Y
N −p
= 3,719429
4
= 0, 9298572
Calculando o valor para F-Senedecor
M Sreg 52, 03032
F = = = 55, 95517
M SE 0, 9298572
Para verificar se o valor de F foi ou não significativo devemos verificar o valor P-valor
através de alguma tabela F-Senedecor ou através de software. No caso do R encontraremos
o valor de P-valor 0, 001708.
Interpretação: Como o P − valor < 5% implica em aceitar a regressora linear.
Fonte DF(ν) SQ MS F P-valor

Regressora 52,030 1 52,03 55,955 0,001708 **
Erro 3,719 4 0,93
Total 58,813 5
Vamos verificar a soma dos quadrados. A tabela seguinte mostra-nos os valores da variável
dependente Y , o valor da média Ȳ e os valores preditos pela regressora Ŷ . Em seguida
podemos obsrevar pela definição de desvio que a soma dos desvios deverão ser nulas
d = 0 independente da fonte. Observe que a soma dos quadrados SQ pode ser verificada
P
pela soma SQT = SQreg +SQE. De fato, SQT = SQreg +SQE → 55.74975 = 52.03032+
3.719429
Y Ŷ Ȳ
1.69 2.454286 6.765
5.65 4.178571 6.765
5.00 5.902857 6.765
8.00 7.627143 6.765
9.25 9.351429 6.765
11.00 11.075714 6.765
dtotal = Y − Ȳ derro = Y − Ŷ dreg = Ŷ − Ȳ

-5.075 -0.76428571 -4.3107143
-1.115 1.47142857 -2.5864286
-1.765 -0.90285714 -0.8621429
1.235 0.37285714 0.8621429
2.485 -0.10142857 2.5864286
4.235 -0.07571429 4.3107143
soma = 0 soma = 0 soma = 0
d2total d2erro d2reg

25.755625 0.584132653 18.5822577
1.243225 2.165102041 6.6896128
3.115225 0.815151020 0.7432903
1.525225 0.139022449 0.7432903
6.175225 0.010287755 6.6896128
17.935225 0.005732653 18.5822577
soma = 55.74975 soma = 3.719429 soma = 52.03032
8.5.1 Medida de qualidade de ajuste: coeficiente de determinação

R2 (armadilhas do uso de R2 )
Lembramos que a soma dos quadrados potagóricos é SQT = SQreg +SQE. Qual a parcela
da soma dos quadrados da regressora (cateto) em relação ao total (hipotenusa)?
′ ′
SQreg
2 β̂ X Y − C
R = = ′
SQT YY−C
Pn
( Yi ) 2
com C = i=1
n
Figura 8.4: Pitágoras e decomposição
Exemplo
No exercício anterior calcule o valor R2 .
Solução:
′ ′
SQreg
2 β̂ X Y − C 52, 03032
R = = ′ = = 0, 9332903 ≈ 93, 33%
SQT YY−C 58, 813
O problema de R2 está associado a quantidade de variáveis p a serem ajustadas (β0 e β1 ,

neste caso - p = 2). Quanto maior for a quantidade de variáveis poir ficará o modelo e
menos parcimonioso, além de dificultar a interpretação. Como a soma dos quadrados do
erros SQE não pode ser maior com a inclusão de novas variáveis independentes, a SQT
é sempre a mesma para um certo conjunto de dados. Nisso devemos propor um controle
pelos graus de liberdade:
SQE
R2 = 1 − →
SQT
SQE
M SE (N −p)
Ra2 =1− =1− SQT
M ST (N −1)
Finalmente:
(N − 1)SQE
Ra2 = 1 −
(N − p)SQT
8.5.2 Verificação dos coeficientes

A afirmativa a ser testada é verificar se o estimador β̂ é nulo, isto é,

H0 : βj = 0
H1 : βj ̸= 0

βˆj − βj
tn−p ∼ q
σˆ2 Cjj
q
com erro padrão d.p. dado por: σˆ2 Cjj
Verifique que a variância estimada por
′ ′ ′
SQE SQT − SQreg Y Y − β̂ X Y
M SE = σˆ2 = = =
n−p n−p n−p
′ ′
lembrando que β̂ = (X X)−1 X Y
Antes de tudo, vamos separar todos os elementos de cálculo:

′ −1 1, 323810 −5, 142857 C11 C12
C = (X X) = =
−0, 0017 0, 0037 C21 C22
′ ′ ′
Y Y − β̂ X Y 3, 719429
M SE = σˆ2 = = = 0, 9298572
N −p 4

′ ′ −1 ′ −0.9942857 β1
β = CX Y = (X X) X Y = =
34.4857143 β2
Os testes de hipóteses para cada coeficiente proposto β0 e β1 será:

• Coeficiente intercepto: A testar

H0 : β0 = 0
H1 : β0 ̸= 0
βˆ1 − β1 −0.9942857 − 0
tn−p ∼ q =√ = −0.8961009
ˆ2 0, 9298572 · 1, 323810
σ C11
com erro padrão
q
d.p. = σˆ2 Cjj = 0, 9298572 · 1, 323810 = 1.109485
p
• Coeficiene angular: A testar

H0 : β1 = 0
H1 : β1 ̸= 0
βˆ2 − β2 34.4857143 − 0
tn−p ∼ q =√ = 7.479742
ˆ2 0, 9298572 · 0, 0037
σ C22
com erro padrão
q
σˆ2 Cjj =
p
d.p. = 0, 9298572 · 0, 0037 = 4.610198
Finalmente, podemos montar a tabela t-Student para verificar a significância de cada

coeficiente.
Coeficiente Estimative d.p. t-Student D.F. P-Value

β0 (Intercept) -0,9943 1,1095 = −0,9943
1,1095
= −0, 896 n-p 0,42082
β1 (x) 34,4857 4,6102 34,4857
= 4,6102 = 7, 480 n-p 0,00171 **
Através do valor P-Value observamos que o coeficiene linear é não significativo aceitando
a hipótese nula em que H0 : β1 = 0, mas o coeficiente angular β1 é bem significativo para
α = 5%, ou seja, além de rejeitar a hipótese de nulidade do valor H0 : β1 = 0, verificamos
que P − V alue < 5%. O modelo porposto será
ŷ = 34, 4857x
8.5.3 Regressoras
Podemos gerar os valores preditos Ŷ pela aplicação da matriz chapéu Ĥ nas variáveis
observáveis.
Ŷ = HY
′ ′
com H = X(X X)−1 X
a matriz chapéu.
 
1 0, 10
 1 0, 15 
 
1 1 1 1 1 1 1, 323810 −5, 142857  1 0, 20
′ ′
 
Ĥ = X(X X)−1 X =

0, 1 0, 15 0, 2 0, 25 0, 3 0, 35 −0, 0017 0, 0037 1 0, 25
 
 
 
 1 0, 30 
1 0, 35
 
0.52380952 0.38095238 0.2380952 0.0952381 −0.04761905 −0.19047619

 0.38095238 0.29523810 0.2095238 0.1238095 0.03809524 −0.04761905 
0.23809524 0.20952381 0.1809524 0.1523810 0.12380952 0.09523810 
 
Ĥ = 

0.09523810 0.12380952 0.1523810 0.1809524 0.20952381 0.23809524 


 
 −0.04761905 0.03809524 0.1238095 0.2095238 0.29523810 0.38095238 
−0.19047619 −0.04761905 0.0952381 0.2380952 0.38095238 0.52380952
Aplicando a matriz chapéu no vetor observável podemos encontrar os pontos predi-

tos:
 
2, 454286

 4, 178571 

5, 902857
 
ĤY =   = Ŷ
 
 7, 627143 
 
 9, 351429 
11, 075714
Figura 8.5: Resultado da aplicação da matrix chapéu nos observáveis Y

8.6. VERIFICAÇÃO DOS PRESSUPOSTOS DOS RESÍDUOS 117
Figura 8.6: Resultado da aplicação da matrix chapéu nos observáveis Y
8.6 Verificação dos pressupostos dos resíduos

 
−0.76428571

 1.47142857 

−0.90285714
 
e = Y − Ŷ = Y − ĤY = 
 
0.37285714

 
 
 −0.10142857 
−0.07571429
Os resíduos devem apresentar as condições de normalidade, homocedasticidade e inde-

pendência.
• Normalidade: Os resíduos devem satisfazer a condição de uma distribuição normal
padrão z-Score com média numa e σ 2 . Calculando a média e variância dos resíduos
encontramos µ = 0 e σ 2 = 0, 7438857, respectivamente. Existem várias formas para
verificar a normalidade dos dados. A forma mais utilizada é através do teste de
Shapiro-Wilk:
( ni ai xi )2
P
W = Pn 2
i (xi − x̄)
Não vamos nos aprofundar agora. Vamos utilizar esta informação do software. Se
o valor P − valor < 5% rejeitamos a hipótese de normalidade, caso contrário,
aceitamos. O resultado obtido para os valores dos resíduos calculados foi P −
V alor = 0, 4929, confirmando a hipótese de normalidade. A saída do resultado do
teste é mostrado abaixo
>shapiro.test(residuos)
>Shapiro-Wilk normality test
>data: residuos
>W = 0.9183, p − value = 0.4929
Uma outra forma mais prática é verificar o gráfico Normal qq-plot que visualiza as
relações entre ons quantis da distribuição normal e dos resíduos.
• Homocedasticidade: É a verificação MAIS IMPORTANTE PARA A VALIDAÇÃO
DA REGRESSORA. O método gráfico é simplesmente verificar a dispersão dos
resíduos tal que nenhuma outra regressora seja ajustável.
• Independência dos resíduos: basicamente temos que garantir que cov(ei , ei ) = 0 na
condução experimental.

duos
Exemplo
Suponha o seguinte conjunto de dados:
   
1 2.611906
 2   8.661405 
   
 3   18.707360 
   
   
 4   31.319768 
   
 5   49.463700 
X= 
 Y  72.224351 
  
 6   
 7   99.920688 
   
 8   127.601447 
   
   
 9   160.889314 
10 198.857687
Verifique pelos resíduos se um modelo linear do tipo
Y = β0 + β1 x
é ajsutável (Sujestão: utilize um software para verifição dos pressupostos).
Solução: Vamos utilizar os comandos do softwarw R:
> par(mf row = c(2, 2))

> plot(lm(y ∼ x))

duos
Observe que a dispersão dos resíduos não é aleatória mas segue uma tendência quadrática,
o que leva-nos a propor um modelo linear quadrático da forma:
y = β0 + β1 x + β2 x2
Para tanto: TODOS os passos vistos até aqui deverão ser recalculado para este polinô-
mio.
• ANOVA: verificação da regressora

Regressora: x 1 39378 39378 44332,8 1.439e-14 ***
Regressora: I(x)2 1 2057 2057 2316,3 4.374e-10 ***
Erro 7 6 1
Total 9 41441
• TESTE t-Student: verificação dos coeficientes da regressora
Fonte Estimativa Erro Padrão t-Student P-valor

β0 0,29244 1,10849 0,264 0,800
β1 0,13350 0,46295 0,288 0,781
β2 1,97400 0,04102 48,128 4,37e-10 ***
Observe que ssignificativo foi somente o termo quadrático β2 . Portanto, vamos verificar
os pressupostos dos resíduos.
Finalmente podemos propor a regressora y = 0, 29224 + 0, 13358x + 1, 97400x2 . Mas ob-
serve um problema: Devemos ou não incluir os coeficientes β0 e β1 não significativos dada
pelo teste t-Student? A resposta seria encontrar um selecionador de modelos. Existem
muitos e aqui vamos usar o critério de Akaike.

duos para o modelo quadrático
Figura 8.10: Dispersão dos dados e regressora
8.6.1 Critério de Escolha entre modelos: AIC - O critério de

Akaike (Parte I)
O critério mais difundido para a seleção de modelos é o critério de AIC
AIC = −2 log L(θ̂) + 2p
Quanto menor for o seu valor melhor será o ajuste.
Exemplo
No exemplo anterior ficamos na dúvida se deveríamos incluir no modelo quadrático os
coeficientes não significativos β0 e β1 . Existem três modelos popostos:
8.7. INTERVALOS DE PREDIÇÃO 124
• modelo1: y = β0 + β1 x
• modelo2: y = β0 + β1 x + β2 x2
• modelo3: y = β2 x2
Qual o melhor modelo?
Para tanto vamos selecionar o melhor modelo pelo critério AIC. Usando o Software R,
encontramos:
modelo1 < −lm(y ∼ x)

modelo2 < −lm(y ∼ x + I(x2 ))
modelo3 < −lm(y ∼ I(x2 ))
AIC(modelo1, modelo2, modelo3)
A saída correspondente foi:
DF AIC
Modelo 1 3 87.67532
Modelo 2 4 31.62696
Modelo 3 3 29.74505
O menor valor AIC, em módulo, é 29,7405. Propomos a regressora do modelo 3 que é

mais parcimonioso e simples:
y = 1, 97400x2
Exemplo
Para o primeiro exemplo da vazão do fluído em função da variação da pressão, encontre
o melhor modelo de ajuste.
Pressão 30,2 48,3 112,3 162,2 191,9 197,8

Taxa Vazão 0,15 0,35 1,0 1,25 1,75 2,00
Utilize o Critério de AIC.
8.7 Intervalos de Predição

Vimos que QUALQUER COEFICIENTE βj é verificado a sua significância pela afirmativa
a ser testada:

H0 : βj = 0
H1 : βj ̸= 0

βˆj − βj
tn−p ∼ q
σˆ2 Cjj
q
com erro padrão d.p. dado por: σˆ2 Cjj .
Portanto, como o coeficiente pode variar a depender do experimento podemos incluir um
intervalo de confiança I.C.
−tn−p, α2 < t < +tn−p, α2

βˆj − βj
−tn−p, α2 < q < +tn−p, α2
ˆ 2
σ Cjj
q q
βj − tn−p, α2 σ Cjj < βj < βj + tn−p, α2 σˆ2 Cjj
ˆ ˆ2 ˆ
Ou seja, os coeficientes apresentam um intervalo de confiança dada por:

q q
I.C.βj − tn−p, 2 σ Cjj < βj < βj + tn−p, 2 σˆ2 Cjj
ˆ α ˆ2 ˆ α
Exemplo
Com a tabela t-Student forneça os intervalos de confiança para os coeficientes β0 e β1 .
Coeficiente Estimative d.p. t-Student D.F. P-Value

β0 (Intercept) -0,9943 1,1095 = −0,9943
1,1095
= −0, 896 n-p 0,42082
β1 (x) 34,4857 4,6102 34,4857
= 4,6102 = 7, 480 n-p 0,00171 **
Solução:
• I.C. para β0
q q
βˆ0 − tn−p, α2 σˆ2 C00 < β0 < βˆ0 + tn−p, α2 σˆ2 C00
−0, 9943 − 1, 1095 · (−0, 896) > β0 > −0, 9943 + 1, 1095 · (−0, 896)
I.C.β0 − 1, 988412 < β0 < −0, 000188
• I.C. para β1
q q
β1 − tn−p, 2 σ C11 < β1 < β1 + tn−p, 2 σˆ2 C11
ˆ α ˆ2 ˆ α
34, 4857 − 4, 6102 · 7, 480 < β0 < 34, 4857 + 4, 6102 · 7, 480
Observe que o coeficiente angular β1 varia muito com 34, 4857 − 4, 6102 · 7, 480 < β0 <
34, 4857 + 4, 6102 · 7, 480, isso implica em encontrarmos um intervalo de predição porque
a reta regressora apresenta uma oscilação.
8.7.1 Cálculo do Intervalo de Predição

Seja as p-observações p=k+1
 
1 x11 x12 ... x1k

 1 x21 x22 ... x2k 

X= 1 x31 x32 ... x3k
 

 
 1 ... ... ... ... 
1 xn1 xn2 ... xnk
Para um ponto sob todas as variáveis em específico x0 = (1, x01 , x02 , ...., x0k ), podemos
calcular a oscilação em torno desse ponto.
Seja a regressora
Ŷ = X̂β̂
Precisamos lembrar do valor esperado e a variância da regressora. O valor esperado é a
própria regresosra Ŷ e a variância foi dada por:
′
V AR(Ŷ) = σˆ2 x Cx
′
com (C = x x)−1
O valor intervalar para um ponto em específico x0 = (1, x01 , x02 , ...., x0k ) será
media Ŷ0
′
varaiancia V AR(Ŷ0 ) = σˆ2 x0 Cx0
Para um intervalo de confiança
−tn−p, α2 < t < +tn−p, α2

s s
1 (x0 − x̄)2 1 (x0 − x̄)2
ŷ0 − tα/2 σ̂ 1+ + < y0 < ŷ0 + tα/2 σ̂ 1 + +
n Sxx n Sxx
com
− ¯(x))2
Pn
i=0 (x
Sxx =
N −1
e √ √
σ̂ = σ̂ 2 = M SE
é o intervalo de predição.
Figura 8.11: Intervalo de predição
No software R o comando é dado por
> predict(lm(y ∼ x))

> new < −data.f rame(x = seq(0.05, 0.40, 0.05))
> predict(lm(y ∼ x), new, se.f it = T RU E)
> pred.w.plim < −predict(lm(y ∼ x), new, interval = ”prediction”)
> pred.w.clim < −predict(lm(y ∼ x), new, interval = ”conf idence”)
> matplot(new$x, cbind(pred.w.clim, pred.w.plim[, −1]),
lty = c(1, 2, 2, 3, 3), type = ”l”, ylab = ”predictedy”)
> points(x, y, pch = ” + ”)
8.8. VERIFICAÇÃO DA QUALIDADE DE AJUSTE 128
8.8 Verificação da Qualidade de Ajuste

A qualidade do ajuste pode ser verificada melhor através das análises de resíduos mais
sofisticadas, são elas:
Resíduo Estilo
Resíduos standardized di = √MeiSE
Resíduos studentized ei
di = √M SE(1−h
ii )
Resíduos PRESS e(i) = heiii

ti = q 2 ei
Resíduos studendized externamente S(i) (1−hii )
2 (n−p−1)M SE−e2i (1−hii )
S(i) = n−p
com ei = yi − ŷi
Os resíduos são obtidos por e = MY sabendo que M = I−H e Y = Xβ +ϵ. Então:
e = MY
e = (I − H)Y
e = (I − H)(Xβ + ϵ)
e = IXβ − HXβ + (I − H)ϵ
′ ′
e = Xβ − (X(X X)−1 X )Xβ + (I − H)ϵ
′ ′
e = Xβ − X(X X)−1 (X X)β + (I − H)ϵ
e = Xβ − Xβ + (I − H)ϵ
e = (I − H)ϵ
(8.17)
finalmente
e = (I − H)ϵ
A característica do erro é
ϵ ∼ N (0, σ 2 )
. Qual a média e a variância de e? O valor esperado do erro será
E(e) = E((I − H)ϵ) = (I − H)E(ϵ) = (I − H)0 = 0
e a variância
V AR(e) = V AR((I − H)ϵ) = (I − H)2 V AR(ϵ) = (I − H)V AR(ϵ) = (I − H)σ 2
Finalmente a distribuição para os resíduos será dada por
e ∼ N (0, (I − H)σ 2 )
Cada resíduo ei será igualmente distribuído ei ∼ N (0, (1 − hii )σ̂ 2 )

8.8. VERIFICAÇÃO DA QUALIDADE DE AJUSTE 129
Exemplo
Faça a análise dos resíduos para o gráfico abaixo:
Figura 8.12: Pressupostos da normalidade, homocedasticidade e independência dos

resíduos para o modelo quadrático
8.8.1 Diagnóstico de influência

• Pontos de alavancagem è o diagnóstico para verificar qual observação prodiz o
fenômeno de alavancagem na regressora.
n
X
hii = rank(H) = rank(X) = p
i=1
– se hii > 2( np ) a observação (i) é um possível ponto de alavancagem.

• Influência nos coeficientes da regressão
– Distância de Cook (Cook (1979)) Seja a distância β̂ − β̂(i) . A medida refere-se
o quanto a retirada da observação (i) altera o valor da estimativa.
′ ′
(β̂ − β̂(i) ) X X(β̂ − β̂(i) )
Di =
p(M SE)
∗ Considera-se Di > 1 possivelmente pontos influentes
– DF F it(i) (Belsley, Kuh e Welsch (1980)): Se a i-ésima observação for removida
do conjunto de dados, quandos desvios padrão cada coeficiente de regressão β̂i .
β̂j − β̂j(i)
DF Betaj,i = q
2
S(i) Cj+1,j+1
∗ Amostras pequenas:|DF Betaj,i | > 1

8.9. CONCEITOS FUNDAMENTAIS EM ANÁLISE GENERALIZADA 130
∗ Amostras grandes: |DF Betaj,i | > √2

n
• Influência nos valores ajustados Mensura o quanto o valor ajustado altera na

ausência da i-ésima observação.
ŷj − ŷj(i)
DF F iti = q
2
S(i) hi,i
– Amostras pequenas:|DF F iti | > 1

– Amostras grandes: |DF F iti | > √2
n
• Influência na precisão da estimação

2
|C(i) S(i) |
Covratioi =
|C · (M SE)|
– Influência superior: Covratioi > 1 + 3(p/n)

– Influência inferior: Covratioi < 1 − 3(p/n)
Exemplo
A tabela seguinte da saída de um software mostra-nos diagnósicos de uma regressão.
Interprete-as.
8.9 Conceitos fundamentais em análise generalizada

Em muitas análises de ajuste regressivo podem estar equivocadas porque a fonte (ou a
origem) dos dados são naturalmente não normais, isto é, não seguem uma distribuição
Gaussiana. É razoável pressupor uma transformação nos dados para obter normalidade
dos dados. Hoje, com o desenvolvimento computacional mais sofisticados os modelos
generalizados são praticáveis e não necessitam da condição de normalidade. Como dizemos
e estudamos até aqui a análise de ajuste era feita por:
y = β0 + β1 x + β2 x2 + ...βp xp
desde que suponha a normalidade. A diferença aqui é pressupor uma função de ligação
chamada de componente sistemática
′
g(µi ) = xi β
Observe que estamos partindo a resposta não de Yi , mas de uma função f (Yi ) e isto tem
que ficar claro.
Definição
Seja Y1 , Y2 ,...Yn variáveis aleatórias independentes com densidade de probabilidade
dada por
f (y; θi , ϕ) = exp{ϕ[yθi − b(θi )]} + c(y, ϕ)
com 

 E(Yi ) = µi = d[b(θ
dθ
i )]
V ar(Yi ) = ϕ−1 Vi ϕ−1 > 0

V = dµ


dθ
sob condição da função de ligação

′
g(µi ) = xi β
Exemplo
Encontre os termos da família exponencial para a distribuição normal de probabilidade.
Seja Y ∼ N (µ, σ 2 ), sendo

1 1 y−µ 2
f (y|µ, σ 2 ) = √ e− 2 (σ
)
2πσ 2
Vamos encontrar os termos para f (y; θi , ϕ) = exp{ϕ[yθi − b(θi )]} + c(y, ϕ).
Na verdade é apenas reescrever a função densidade gaussiana de probabilidade no formato
da família exponencial;
1 1 y−µ 2
f (y|µ, σ 2 ) = √ e− 2 ( σ )
2πσ 2

2 1 − 12 ( y−µ )2
f (x|µ, σ ) = exp ln √ e σ
2πσ 2

1 2 1 y−µ 2
= exp − ln(2πσ ) − ( )
2 2 σ
1 y 2 − 2yµ + µ2

1 2
= exp − ln(2πσ ) − ( )
2 2 σ2
1 x2 1 µ 2

1 2 yµ
= exp − ln(2πσ ) − − + 2
2 2 σ 2 2 2σ 2 σ
2 2

1 µ 1 2 y
= exp 2 yµ − + − ln(2πσ ) − 2
σ 2 2 2σ
O próximo passo é comprar o reescrita com a forma da família exponencial:
µ2 y2

2 1 1 2
f (x|µ, σ ) = exp 2 yµ − + − ln(2πσ ) − 2
σ 2 2 2σ



 ϕ = σ12

y=y




θ=µ

2
2 d[ µ2 ]
b(θi ) = µ2 → E(Yi ) = d[b(θ i )]



 dθ
= dµ
=µ
 2
1 y


 c(y, ϕ) = − 2 ln(2πσ 2 ) − 2σ2
usando a condição de ligação

′
g(µi ) = xi β
para
θ = µ = g(µi )
é uma função linear já conhecida e estudada
′
µ = xi β
µ = β0 + β1 x1 + β2 x2 + ...βp xp
Exemplo
Encontre os termos da família exponencial para a distribuição binomial de probabili-
dade.
Seja Y ∼ binom(y, π), sendo π a probabildade de sucesso.

N y
f (y; π) = π (1 − π)N −y
y

N
f (y; π) = exp ln + y ln π + (N − y) ln(1 − π)
y

π N
f (y; π) = exp y ln + N ln(1 − π) + ln
1−π y
O próximo passo é comprar o reescrita com a forma da família exponencial:

π N
f (y; π) = exp 1 y ln + N ln(1 − π) + ln ]
1−π y


 ϕ=1



 y=y
π

θ = ln 1−π
b(θi ) = −N ln(1 − π)




c(y, ϕ) = ln Ny


usando a condição de ligação

′
g(µi ) = xi β
para
π
θ = ln = g(µi )
1−π
é uma função não-linear conhecida omo modelo logit (ou logístico)
′
µ = xi β

π
logit(π) = ln = β0 + β1 x1 + β2 x2 + ...βp xp
1−π
Capítulo 9
Controle Estatístico de Processo
o Controle Estatístico de Processo (CEP) têm por objetivo a redução sistemática da

variabilidade nos processos de produção. Devido aos efeitos físicos, químicos ou humanos,
a variabilidade na produção inviabiliza a produção exata. Os processos de fabricação eram
artesanais e com forte dependência da experiência e da habilidade do artesão. A revolução
industrial foi marcada pela alteração na forma de podução, na condução do trabalho e do
capital. O evento ocorreu na segunda metade do século XVIII na Inglaterra, espalhando
pela Europa e expandindo para o resto do globo. A expansão das ferrovias, das máquinas
a vapor e da indústria da tecelagem são exemplos do desenvolvimento da industrialização.
Com o crescimento econômico, houve maior demanda por produtos e serviços. Entre
os anos de 1870 e 1880, houve mudanças significativas na enconomia mundial devido à
grandes desconertgas na ciência e nas tecnologias empregadas. Por exemplo, o conceito do
limite de tolerância foi incorporado por volta de 1870 dada a necessidade de padronização.
A partir de 1920, os meios de produção tornavam-se mais complexos e o conceito de
CEP tornou-se amplamente difundido nos países industrializados. Foi com Shewhart
que, em 1924, criou o primeiro gráfico de controle de fabricação para melhor gerência da
variabilidade na manufartura. Mas foi durante a primeira e a segunda gerra mundial que
o Controle Estatístico de Processo evoluiu graças à necessidade da padronização militar.
Mais tarde, pós segunda gerra, as técnicas empregadas em batalhas foram expandidas
para o meio produtivo e industrial. O objetivo do Controle Estatístico de Processo é a
redução dos refugos, diminuição dos custos de produção e aumento do desempenho na
linha de produção. A justificativa do CEP é controlar a variabilidade na produção e/ ou
manufartura para proporcionar dispedício possível.
9.1 Controle de qualidade

Na inspeção do produto acabado a validação é feita somente no final da linha de produ-
ção, não temos a capacidade de avaliar o que ocorre durante a produção, tais como as
panes, as anomalias, possíveis paradas, processos irregularidades, inutilizações de peças,
ocorrênica de sinistros ou estragos, deteriorações dos materiais, entre outros eventos ine-
rentes a uma linha de produção. Diferentemente da inspeção final, o Controle Estatístico
de Processo avalia a produção "dentro"da linha produção ou porcessos de manufatura.
A variabilidade no processo subdivide-se em duas causas: i) Causas Comuns de Vari-
ação, aquelas devido à aleatoriedade, inerente ao processo, as quais não temos controle
134
9.2. GRÁFICOS DE CONTROLE 135
devido aos pequenos ruídos ou processos naturais e ii) Causas Especiais de Variação,
aqui nos referimos ao processo sistemático, à condução da produção, não sendo de fonte
aleatória, mas sim determinada por algum caso técnico, humano ou experimental ou de
calibração. Se o processo ocorre excusivamente sob causas comuns de variação, dizemos
que a produção ocorre sob condição normal de operação, caso contrário, será dito não
estável e fora de controle, pois altera significativamente a tendência média, ocasionar o
aumento variacaional.
9.1.1 Controle
Uma pergunta pertinente: o que é controle? Quando todas a especificações a priori estão
satisfeitas dentro de um limite de tolerância e de confiança, dizemos que algum processo
está sob controle. Suponha testar a hipótese nula em que o processo está controlado.
Como vimos nos testes de hipóteses dois tipos de erros podemos encontrar: i) erro tipo I:
dado que o processo está sob controle, concluirmos que não está e, ii) erro tipo II: dado
que o processo não está sob controle, concluirmos que o mesmo está controlado.
9.2 Gráficos de Controle

O gráfico de controle visa o acompanhamento ou vigilência do estado do processo produ-
tivo para verificar se está sob controle. Através dos limites superiores e inferiores torna-se
possível averiguar a evolução da produção.
9.2.1 Gráfico de controle para variáveis

Gráfico para a média X̄
Suponha
√
X ∼ N (µ, σ 2 ), então X̄ ∼ N (µ, σx2 ≡ σ 2 /n) e, para a quantidade pivotal z =
n(x̄−µ)
σ
, implica no seguinte intervalo de confiança:
σ
LCI = µ − zα/2 √
n
σ
LCS = µ + zα/2 √
n
De acordo com a distribuição z-Score, considerando o limite "três sigma", a quantidade
média de controle refere-se a 99,6% dos produtos dentro dos limites especificados LCI e
LCS. Além disso, suponha calcular a média das k-ésimas médias amostrais, ou seja
¯ = E(X̄) = µ
X̄
Isto implicará em
¯ − 3 √σ
LCI = X̄
n
¯ + 3√ σ
LCS = X̄
n
√
Observe que a quantidade 3/ n é uma constante denotada por A, quando conhecemos
ou é fornecido o valor de σ, então
¯ − Aσ
LCI = X̄
¯ + Aσ
LCS = X̄
√
com A = 3/ n.
Em muitas situações reais não conhecemos o valor da variância populacional σ 2 . Existem
duas possibilidades:
i Substituir a variância populacional σ 2 pela variância populacional e um
fator de correção, c2 .
A quantidade c2 é definida por
r
2 Γ( n2 )
c2 =
n Γ( n2 − 21 )
cujo valor para cada tamanho n amostral obtemos:
n 2 3 4 5 6 7 8
c2 0.564 0.723 0.797 0.840 0.868 0.888 0.902
n 9 10 11 12 13 15 20
c2 0.913 0.922 0.929 0.935 0.940 0.949 0.961
1 r e q u i r e ( "rQCC" ) # Pacote
2 n = 25
3 c o n s t a n t e s<−matrix ( r e p (NA, 2 ∗n ) , nc =2)
4 colnames ( c o n s t a n t e s )<−c ( "n" , " c2 " )
5 for ( i in 2: n){
6 constantes [ i ,1]= i
7 c o n s t a n t e s [ i , 2 ] = f a c t o r s . c c ( n=i , f a c t o r=" c2 " )
8 }
9 c o n s t a n t e s<−data . frame ( na . omit ( c o n s t a n t e s ) )
10 constantes
Portanto, podemos considerar o desvio da população substituído pela média dos

desvios padrão amostrais corrigido (desvio padrão médio corrigido):
s̄
σ=
c2
resultando em
¯ −3 √ s̄
LCI = X̄
c2 n
¯ +3 √ s̄
LCS = X̄
c2 n
√
Obervando que temos a quantidade 3/c2 n como sendo uma constante, digamos
A1 , ou seja,
¯ −A σ
LCI = X̄ 1
¯
LCS = X̄ + A1 σ
√
Nessa forma, encontramos os valores da constante A1 = 3/c2 n
n 2 3 4 5 6 7 8 9 10 11 12
A1 3.759 2.393 1.879 1.595 1.409 1.276 1.174 1.094 1.028 0.972 0.925
2 n = 25
4 colnames ( c o n s t a n t e s )<−c ( "n" , "A2" )
5 for ( i in 2: n){
7 c o n s t a n t e s [ i , 2 ] = f a c t o r s . c c ( n=i , f a c t o r="A2" )
8 }
10 constantes
ii Estimar a variância σ̂.

Para isso, suponha uma amplitude de alguma observação Ri = xmaxi − xmini . Ob-
serve que a variância estimada σ̂i é proporcional à média das amplitudes R̄.
R̄ ∼ σ̂
De fato,
R̄ = d2 σ̂
Ou seja,
R̄
σ̂ =
d2
Substituindo nos limites temos
¯ − 3√
LCI = X̄
R̄
d2 n
¯ + 3√
LCS = X̄
R̄
d2 n
A quantidade d2 pode ser calculada com base no tamanho da amostra, o seu valor
é calculado através da seguinte integral
ˆ ∞
d2 = 2 [(1 − Φ(x)n ) − (1 − Φ(x))n ]dx
0
sendo Φ(x) a distribuição Z-Score acumulada de x
n 2 3 4 5 6 7 8 9 10 11 12
d2 1.128 1.692 2.058 2.325 2.534 2.704 2.847 2.970 3.077 3.172 3.258
No software podemos encontrar através do pacote rQcc

2 n = 25
4 colnames ( c o n s t a n t e s )<−c ( "n" , "d2" )
5 for ( i in 2: n){
7 c o n s t a n t e s [ i , 2 ] = f a c t o r s . c c ( n=i , f a c t o r="d2" )
8 }
10 constantes
Observe que apenas X̄¯ e R̄ dependem da amostra. A quantidade 3√

é uma cons-
d2 n
tante e a definimos como tal
3
A2 = √
d2 n
resultando na seguinte tabela:
n 2 3 4 5 6 7 8 9 10 11 12
A2 1.880 1.023 0.729 0.577 0.483 0.419 0.373 0.337 0.308 0.285 0.266
No software podemos encontrar através do pacote rQcc

2 n = 25
4 colnames ( c o n s t a n t e s )<−c ( "n" , "A2" )
5 for ( i in 2: n){
7 c o n s t a n t e s [ i , 2 ] = f a c t o r s . c c ( n=i , f a c t o r="A2" )
8 }
10 constantes
¯ − A · R̄
LCI = X̄ 2
¯
LCS = X̄ + A2 · R̄
Exemplo
Suponha dados referentes a 40 amostras de tamanho n = 5 referentes aos diâmetros
internos dos anéis de pistão automotivo, todos manufaturado em uma linha de pro-
dução. Do total de 200 observações, são considerados as primeiras 25 amostras "em
controle"para a fase I (TRUE) e as demais amostras na fase II (FALSE). Encontre os
limites inferior LCL (LCI) e superior UCL (LCS). Faça o graáfico de controle para a
média.
Capítulo 10
Introdução à amostragem
A Teoria da Amostragem é uma das mais importantes, complexa e extensa teoria em

Estatística. Estuda as relações existentes entre a população e os seus respectivos subcon-
juntos, as amostras. A amostragem é o conjunto de técnicas que determinam o tamanho
mínimo da amostra necessária para a validação dos processos inferenciais. Em outras pa-
lavras, significa calcular um número de observações que minimiza a ação da variabilidade
dentro e entre as amostras ou o custo da observação-coleta.
• População: grupo de interesse caracterizado pela totalidade das unidades amostrais.
• Amostra: qualquer subconjunto da população. Cada elemento do conjunto é cha-
mado de unidade amostral.
• Censo: Levantamento de toda a população.
10.1 Amostragem probabilística

São dois tipos de amostragens: a amostragem por conveniência e amostragem proba-
bilística. A primeira não supõe nenhum tipo de distribuição probabilística a priori e
caracteriza-se pela simplicidade da sua aplicação com a desvantagem de ocasionar gran-
des variabiliades amostrais. Também conhecida por amostragem não-probabilística, é
aplicado para amostra piloto pois a seleção é feita aos elementos que têm acesso. A amos-
tragem probabilística define uma seleção aleatória com probabilidade conhecida e a sua
variância é controlada pela variância da distribuição de probabilidade. Qualquer plano
amostral exige o conhecimento prévio do tamanho da população N a ser amostrada e esse
é o objetivo dos censos demográficos. Toda amostragem define a variância fixa ou pré
calculada por testes piloto.
10.2 Tipos de amostragem

Os tipos de amostragem probabilística são:
• Amostragem aleatória simples AAS: A seleção é feita diretamente da popula-
ção. As amostras são equiprovávies, isto é, todas as unidades amostras têm a mesma
probabilidade de serem escolhidas segundo a distribuição uniforme discreta.
140
10.2. TIPOS DE AMOSTRAGEM 141
a) Vantagem: fácil aplicação, aplica-se a equiprobabilidade e bons resultados.

b) Desvantagem: menor precisão e a amostra pode não ser representativa.
• Amostragem estatificada AE: A seleção é feita indiretamente da população.
Subdivide-se em grupos amostrais que apresentam alguma característica em co-
mum ou qualquer característica internamente homogênea, desde que seja diferente
externamente. Cada estrato h apresenta um "peso Wh "proporcional à observação
na população.
a) Vantagem: maior precisão com resultados mais confiáveis.
b) Desvantagem: exige-se a homogeneidade nos estratos que nem sempre é possí-
vel.
• Amostragem por conglomerado AC: Subdivide-se a população em grupos por
unidades amostrais. Seu plano amostral é o menos eficiente.
a) Vantagem: maior precisão com resultados mais confiáveis.
b) Desvantagem: exige-se que os subgrupos sejam semelhantes entre si.
• Amostragem sistemática AS: Recolhe-se a amostra por dependência paramé-
trica. Dentro da amostragem sistemática pode-se desenvolver planos amostrais AAS,
AE ou AC.
a) Vantagem: maior praticidade e mais econômico
b) Desvantagem: exige-se a a ordenação dos elementos e homogeneidade entre as
amostras.
• Amostragem por regressão AREG: A seleção se faz por uma informação a
priori dada pela análise de regressão feita por amostragem piloto.
10.2.1 Amostragem Aleatória Simples

A amostragem aleatória simples - AAS é o plano amostral mais importante de todos os
planos porque serve como base ou subsídio a outras foramas de coleata amostral.
Amostragem Aleatória Simples Com Reposição

Para este plano cada retirada é feita com reposição sendo modelada pela distribuição
binomial de probabilidade:

N x
P [X = x] = p (1 − p)N −x
n
com variância calculada

1 1
V ar(x) = npq = n 1−
N N
sendo N o tamanho da população a ser amostrada e n o tamanho amostral. Segundo a
lei dos grandes números, para a distribuição binomial, à medida que a amostra n cresce
a distribuição binomial X ∼ Bin(n, p) se aproxima da distribuição normal Y N (µx , σx2 )
com µx = np e σx2 = npq, ou seja, dada a quantidade pivotal
√ X̄ − E(X̄))
n· p → N (0, 1)
V ar(X̄)
convergirá em distribuição para a distribuição normal.

• Amostragem para a média com variância conhecida A quantidade pivotal para a
distribuição normal de probabilidade com variância conhecida é dada por
X̄ − E(X̄)
Z= √
σ/ X̄
tal, que seu intervalo de confiança será definido da seguinte forma
I.C. = −zα/2 < z < zα/2

x̄ − E(x̄)
I.C. = −zα/2 < √ < zα/2
σ/ n
√ √
I.C. = −zα/2 σ/ n < x̄ − µ < zα/2 σ/ n
√ √
I.C. = x̄ − zα/2 σ/ n < µ < x̄ + zα/2 σ/ n
Ou seja,
I.C. = x̄ − E < µ < x̄ + E
com Erro definido por √
E = zα/2 σ/ n
Desde que N > 0.05 · N . Determina-se o erro admissível ou margem de erro E

para um nível de significância α determinado. O tamanho amostral necessário para
estimar uma média populacional será dado por:
z σ 2
α/2
n=
E
Alguns autores chamam de razão fixa D:
E2
D= 2
zα/2
Exemplo
Qual o tamanho amostral necessário para estimar a contagem média de células
brancas no sangue (em células por microlitro) para a população de adultos?
Suponha que desejemos 99% de confiança em que a média amostral esteja a até
0.2 da média populacional. O desvio-padrão populacional é de 2.5 unidades.
(zα/2 ≈ 2.575a )
z
α/2 σ
2
n=
E
2
2.575 · 2.5
n= ≈ 1036 unidades amostrais
0.2
a
> qnorm(0.005)
Fator de correção para população finita

Se o tamanho da população for finito, então a margem de erro E será
r
σ N −n
E = zα/2 √
n N −1
Isto implica na alteração do tamanho amostral para
N σ 2 (zα/2 )2
n=
(N − 1)E 2 + σ 2 (zzα/2 )2
Observe a exigência do conhecimento do tamanho populacional N.
• Amostragem para a média com variância desconhecida
Quando não conhecemos ou não temos acesso ao desvio padrão populacional recor-
remos a quantidade pivotal da distribuição t-Student:
X̄ − E(X̄)
T = p
S/ var(X̄)
tal, que seu intervalo de confiança será definido por:
I.C. = −tα,ν < T < tα,ν

x̄ − E(x̄)
I.C. = −tα,ν < √ < tα,ν
S/ n
√ √
I.C. = −tα,ν S/ n < x̄ − µ < tα,ν S/ n
√ √
I.C. = x̄ − tα,ν S/ n < µ < x̄ + tα/2 S/ n
Ou seja,
I.C. = x̄ − E < µ < x̄ + E
com Erro definido √
E = tα,ν S/ n
Determina-se o erro admissível ou margem de erro E para um nível de signifi-

cância α determinado. O tamanho amostral necessário para estimar uma média
populacional será dado por:
2
tα,ν S
n=
E
• Amostragem para a proporção

Quando o interesse é a proporção populacional, não podemos usar as quantidades
pivotais referentes à média. Nesse caso usamos a quantidade
p − p̂
Z= q
p̂q̂
n
sendo a estimativa da proporção amostral definida como

x
p̂ =
n
O tamanho amostral pode ser encontado via intervalo de confiança para a proporção,
porém dois resultados são possíveis:
– Quando se conhece a estimativa de p̂
2
!
zα/2
n= · p̂q̂
E2
– Quando não se conhece a estimativa de p̂

2
!
zα/2
n= · 0.25
E2
Exemplo
A internet está nos afetando a todos de maneiras diferentes, de modo que há
razões para estimar a proporção de joves e adultos que a usam. Dados da Pnad
(Pesquisa Nacional por Amostra de Domicílios), divulgados pelo IBGE (Instituto
Brasileiro de Geografia e Estatística) divulgou que a região Norte do Brasil, no
ano de 2013, apresentou o maior porcentual de domicílios que usaram o celular
para acessar a internet (75, 4%). Visando verificar a dependência digital pelo
celular, um grupo de psicólogos deseja calcular o tamanho da amostra com nível
de significância α = 5% com erro E não superior a três pontos pecentuais.
Calcule o tamanho amostral supondo: a) conhecido os resultados do Pnad e b)
que não temos nenhuma informação prévia sobre a proporção populacional.
Sol.
– a) conhecido os resultados do Pnad

2
!
zα/2 1.962 (0.754)(1 − 0.754)
n= · p̂q̂ = = 792 amostras
E2 0.032
– b) não temos nenhuma informação prévia sobre a proporção populacional.

2
!
zα/2 1.962 0.25
n= · p̂q̂ = = 1067 amostras
E2 0.032
Amostragem Aleatória Simples Sem Reposição

Para este plano amostral cada retirada sem reposição é modelada pela distribuição hiper-
geométrica de probabilidade:
k
N −k
′ n′ n−n′
P (X = n ) = N

′
n
com variância
nN −K N −n
V ar(x) =
k N N −1
Na amostragem sem reposição a variância para a média dependerá da fração amostral
f = Nn ,
S2 S2 S2
V ar(x̄) = (1 − f ) = n =
n (1−f )
nf
Definimos a quantidade de razão fixa pela quantidade
n S2 S2
D = 1− = (1 − f )
N n n
′ S2
Definindo n = D
encontraremos o tamanho da amostra por fator de correção
′ z
n ′ α/2·S
2
n= ′ , com n =
1+ n E
N
Exemplo
Considere uma população de material hospitalar fora de padrão oriundas de um for-
necedor. Uma pesquisa amostral foi conduzida para verificar o índice de incidência
de material fora do padrão. A unidade pode conter até 8 tipos de defeitos diferentes.
Uma amostra AAS sem reposição foi solicitada de 1423 unidades de um total de 36 mil
unidades em um período de três meses. Calcule o tamanho amostral mais adequado
sem reposição com erro admissível máximo de 5%. Faça o que se pede.
Qtde de material Qtde de defeitos encontrados

521 0
286 1
190 2
111 3
52 4
25 5
2 6
9 7
2 8
1) Encontre as caracaterísticas da amostra
X̄ = 1.187813, SX̄ = V ar(X̄) = 2.049074

10.3. AMOSTRAGEM ESTRATIFICADA 146
2) Desenvolva um programa no software R

> dados<-c(rep(0,521),rep(1,286),rep(2,190),rep(3,111),rep(4,52),rep(5,25),rep(6,2),rep(7,9),rep(8,2))
> mean(dados)
[1] 1.187813
> var(dados)
[1] 2.049074
′
3) Calcule o tamanho amostral versão com reposição n
√ !2
zα/2 S 2

′ 1.96 · 2.049074
n = = = 3.148, 69unidades
E 0.05
4) Calcule o tamanho amostral versão sem reposição n

′
n 3.148, 69
n= = = 2895.44 ≈ 2895
n′ 1 + 3.148,69
1+ N 36000
Devemos amostrar 2895 unidades de material hospitalar de consumo.
10.3 Amostragem Estratificada

A amostragem estatificada consiste na divisão de uma população em grupos ou parcelas
por alguma caracaterística comum e conhecida da população. Chamamos esta divisão de
estratos h com as seguintes definições
• Tamanho do estrato Nh
• Total da população N =
PH
i=1 Nh
• Peso do estrato Wh = Nh
N
• Total populacional TP = H ¯
P
i=1 Nh YH
• Média populacional H ¯
P
i=1 Wh YH
• Total do estrato Tn = H
P
i=1 Yhi
PH
Yhi
• Média do estrato Y¯h = i=1
Nh
PH ¯
i=1 (Yhi −Yhi )
• Variância do estrato Shi = Nh −1
10.3.1 Alocação Ótima de Neyman

Considere a função custo do levantamento amostral
H
X
C = c0 + ch nh
h=1
e a variância das médias nos estatos

H
X
Vest = V ar(y¯est ) = Wh2 σh2 /nh
i=1
onde C é o custo total e c0 é o aporte financeiro. Na prática esse modelo sugere a

contratação de plano de seguro amostral devido aos riscos inerentes ao processos.
O tamanho amostral do estatro h, escrito por nh , dependerá da parcela do custo do estrato
h em relação a todos os outros estratos
√
Wh σh / ch
n h = PH √
i=1 Wh σh / ch
Finalmente, podemos encontrar o tamanho amostral sob duas situações

• Custo fixo PH √
Nh σh / ch
n = (C − c0 ) Pi=1
H √
i=1 Nh σh ch
• Variância fixa !
H H
1 X √ X Wh σh
n= Wh σh ch √
Vest i=1 i=1
ch
Exemplo
Calcule o tamanho amostral n e nos estratos nh para custo fixo com aporte inicial de
c0 = R$3.200, 00. Abaixo segue a tabela dos estratos com as suas respecetivas médias,
desvios e custos.
h Nh xvar Sh ch em 103 Reais

1 28 7,2 1,18 2,2
2 30 6,9 2,01 2,8
3 20 7,0 1,19 2,5
4 15 7,2 1,20 3,0
5 32 7,7 1,15 2,9
Sol.
Primeiramente vamos calcular o tamanho geral da amostra n
PH √
i=1 Nh σh / ch 105.3662
n = (C − c0 ) PH √ = (13400 − 3200) 281.3836 = 3819.465 ≈ 3819amostras
i=1 Nh σh ch
O tamanho amostral é 3819 amostras que deverá ser subdividida nos estratos
√ √ √
W h s h / ch
h Nh xvar Sh ch ch Wh W h s h / ch p̂ = PH √ nn = n · p̂
i=1 Wh sh / ch
1 28 7,2 1,18 2,2 13483240 0,224 22,27556 0,21141099 807, 47 ≈ 807
2 30 6,9 2,01 2,8 1,673320 0,240 36,03614 0,34200870 1306, 29 ≈ 1306
3 20 7,0 1,19 2,5 1,581139 0.160 15,052244 0,14285841 545, 64 ≈ 546
4 15 7,2 1,20 3,0 1,732051 0,120 10,39230 0,09863039 376, 75 ≈ 377
5 32 7,7 1,15 2,9 1,702939 0,256 21,60970 0,205809151 783 ≈ 783
√
Wh σh / ch
n h = PH √
i=1 Wh σh / ch
Capítulo 11
Números Índices
Quando pensamos em indicadores nos referimos aos índices comparativos. As variações

dos preços ou das quantidades produzidas durante um período específico e, quando com-
parada por alguma referência, ano-base, por exemplo, estamos comparando o acréscio ou
o decréscimo do preço (ou quantidade) em um período de tempo. Nas áreas financeiras e
econômicas os números índices servem para auxiliar tanto nas políticas públicas de preço
e salário quanto no andamento do comércio em uma região.
11.1 Números Índices Simples

Podemos compor os números índices na compração da quantidade ou valor no período em
comparação com um período-base.
• Números Índices Simples para Preços
pn
Ip = · 100 ≡ p0/n · 100
p0
• Números Índices Simples para Quantidades

qn
Iq = · 100 ≡ q0/n · 100
q0
• Números Índices Simples para Valor

vn p n qn
Iv = · 100 = · 100 ≡ v0/n · 100
v0 p 0 q0
O valor de um produto é determinado pela quantidade vendida, ou seja, preço ×
quantidade.
149
11.1. NÚMEROS ÍNDICES SIMPLES 150
Exemplo
São produzidos borrachas para vedação em painéis solares. O preço sugerido no ano
base de 2010 foi de R$485, 80 por metro. Atualmente, no ano de 2022, devido à inflação
e ao aumento do barril de petróleo, o preço sugerido foi de R$602, 00. Encontre o índice
simples de preço com ano-base 2010.
Sol.
• Ano-base: 2010, preço R$485, 80

• Ano atual: 2022, preço R$602, 00
Utilizando o Números Índices Simples para Preços
pn
Ip = · 100 (11.1)
p0
602, 00
= · 100 = 123, 91%
485, 80
O índice de preço simples Ip = 123, 91% indica que houve crescimento no preço do produto
em 23, 91% do valor.
11.1.1 Propriedades
Os números índices apresentam algumas propriedades matemáticas que podem auxiliar
nos cálculos dos mesmos.
• Identidade
pn/n = 1
• Reversibilidade temporal
pa/b = 1/pb/a
• Propriedade cíclica
pa/b pb/c pc/d pd/e · · · py/z = 1
• Propriedade cíclica modificada
pa1 /a2 pa2 /a3 pa3 /an = pa1 /an
Exemplo
Prove a propriedade reversibilidade temporal
Sol.
̸ pa ̸ pb
pa/b · pb/a → · =1 (11.2)
̸ pb ̸ pa
11.2. ÍNDICES PODERADOS 151
11.2 Índices Poderados

Ponderar significa dar "peso"à informação. Com relação aos números índices nos referimos
ao peso do preço, da quantidade ou de ambos.
11.2.1 Índice Agregado de Preço

• Índice de Laspeyers: Média aritmética poderada das variações de cada produto, ou
seja, a atribuiçõe é para "carga"relativa dos produtos. A referência é dada pelo
período inicial. P
pn q0
Ip (L) = P · 100
p0 q0
P
p0 qn
Iq (L) = P · 100
p0 q0
• Índice de Paashe: A sua referência é o período final. A média harmônica poderada

é a base da fomulação. P
p n qn
Ip (P ) = P · 100
p0 qn
P
p n qn
Iq (P ) = P · 100
pn q0
• Índice da média ponderada relativa para preços:

(p0 q0 ) ppn0
P
Ip = P · 100
p0 q0
• Índice ideal de Fisher: refere-se à média geométrica dos números índices de Las-
peyers e Paashe sP P
F isher pn q0 p n qn
Ip = P P
p0 q0 p 0 qn
• Índice de Marshall-Edgeworth
P
pn (q0 + qn )
IpM arshall−Edgeworth = P
p0 (q0 + qn )
11.2. ÍNDICES PODERADOS 152
Exemplo
Suponha os seguintes dados abaixo sobre o consumo e o preço de alguns pordutos da
cesta básica no Brasil.
Consumo per capita anual (kg/ano

Preço médio
ou litros/ano)
Produto 2019 2022 2019 2022
feijão 34,02 30,74 17 14,3
arroz 8,76 11,07 34 32
óleo 3,84 8,82 25 20
Encontre os índices de Laspeyers para o preço, índice de Paashe para a quantidade e

o índice de Marshall-Edgeworth para o preço. Considere o ano-base em 2019.
Sol.
1 Índices de Laspeyers para o preço

P
pn q0
Ip (L) = P · 100
p0 q0
P
p2022 q2019
= P · 100
p2019 q2019
(30, 74 · 17) + (11, 07 · 34) + (8, 82 · 25)
= · 100 = 115, 149%
(34, 02 · 17) + (8, 76 · 34) + (3, 84 · 25)
2 Índices de Paashe para a quantidade

P
pn qn
Iq (P ) = P · 100
pn q0
P
p2022 q2022
= P · 100
p2022 q2019
(30, 74 · 14, 3) + (11, 07 · 32) + (8, 82 · 20)
= · 100 = 86, 668%
(30, 74 · 17) + (11, 07 · 34) + (8, 82 · 25)
3 Índice de Marshall-Edgeworth
P
pn (q0 + qn )
IpM arshall−Edgeworth = P
p (q + qn )
P 0 0
p2022 (q2019 + q2022 )
= P
p2019 (q2019 + q2022 )
[30, 74 · (17 + 14, 3)] + [11, 07 · (34 + 32)] + [8, 82 · (25 + 20)]
= 115, 08%
[34, 02 · (17 + 14, 3)] + [8, 76 · (34 + 32)] + [3, 84 · (25 + 20)]

Apostila Inferencia

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Apostila Inferencia

Enviado por

Direitos autorais:

Formatos disponíveis

Universidade Tecnológica Federal do

Jose Carlos Pereira Coninck

2 Estimadores pontuais e intervalos de confiança 10

4.3 Teste de Hipótese para uma amostra . . . . . . . . . . . . . . . . . . . . . 46

5 Análise de Dados Categóricos 64

9 Controle Estatístico de Processo 134

9.1 Controle de qualidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

10 Introdução à amostragem 140

11 Números Índices 149

Um estimador é uma função das variáveis aleatórias θ̂ = f (x1 , x2 , x3 · · · xn ) formada

Temos dois tipos de estimadores:

Ou seja, estimadores são também variáveis aleatórias e apresentam as suas respec-

Um exemplo dessa quantidade poderia ser a função

1.2 Propriedades dos estimadores

Se a distribuição da amostra X, dado o valor de T (X), for independente do parâmetro

Seja a probabilidade condicionada (Por definição!)

Verifique se a estatística T (X) = X é suficiente para o parâmetro desconhecido θ

a) Distribuição conjunta de probabilidade p(x|θ)

b) Distribuição amostral para a estatística T (x)

θT (X) (1 − θ)N −T (X)

Portanto T (X) = i xi é uma estatística suficiente para θ.

A estatística T (X) é suficiente para o parâmetro desconhecido θ se, e somente se,

a fatoração da distribuição conjunta em termo das funções g(t|θ) e h(x).

Verifique se a estatística T (X) = X é suficiente para o parâmetro desconhecido θ

Seja a função de Bernoulli f (X|θ) = θx (1 − θ)1−x

Estatística anciliar Se a distribuição de probabilidade da estatística S(X) não de-

Estatística completa Se Eθ g(T ) = 0 ⇒ Pθ (g(T ) = 0) = 1 ∀θ, dizemos que T (X) é

Verifique se as estatísticas T1 (X) = i xi /n e T2 (X) = S 2 são suficientes para µ e σ 2

Verifique se a estatística T (X) = 1

f (x|λ) = λe−λx ; x≥0

1.4 Não viés

Portanto, definiremos o viés b(θ̂) como sendo o valor esperado do erro:

b(θ̂) = E(e) = E(θ̂ − θ)

Duas caracaterísticas importantes são

A este caso chamamos de Estimador Não Viesado - ENV

Não. Esse estimador é conhecido por Estimador Assintóticamente Não

b(θ̂) = E(θ̂ − θ) > 0

A média das estimativas estão à direita do valor de θ

▶ Polarização à esquerda: b(θ̂) < 0

1.4.1 EQM - Erro Quadrático Médio

EQM (θ̂) = V ar(e) = E[(θ̂ − θ)2 ]

EQM (θ̂) = V ar(θ̂) + E[b2 (θ̂)]

Deve-se procurar estimadores que controlem a variabilidade e o viés do estimador, em

Figura 1.1: Acurácia e precisão

Seja X1 , X2 , · · · Xn uma sequência de variávis aleatórias amostrais com T (X) a esta-

P (|Tn (X) − h(θ)| > ϵ) → 0, ϵ>0

A sequência de estimadores Tn (X) é fracamente consistente para h(θ) quando variando

Verifique se a estatística S 2 é consistente para a variância populacional.

Verifique se a estatística σˆ2 é consistente para a variância populacional.

Desigualdade de Cramer-Rao: Sejam va’s X1 , X2 , X3 ...Xn com estimador T (X),

mador é menor. Encontre o estimador mais eficiente.

EQM (θˆ1 ) < EQM (θˆ2 )

Sendo ou não estimadores ENV, θˆ1 é mais eficiente.

Estimadores pontuais e intervalos de

2.1 Distribuições amostrais

2.1.1 Distribuição amostral para a média

• Valor Esperado para a Média

• Variância para a Média

cuja distribuição não pode depender do parâmetro desconhecido µ

2.1.2 Distribuição amostral para a variância

Dem. Possíveis estimadores para a variância σ 2 são

b) Estimador não viesado - ENV

• Variância para σˆ2 e S 2