Você está na página 1de 156

Universidade Tecnológica Federal do

Paraná
Departamento Acadêmico de Estatística

Fundamentos de Inferência

Jose Carlos Pereira Coninck


Maurício Kaubay do Amaral

6 de dezembro de 2022
Conteúdo

1 Estimadores 1
1.1 Estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Propriedades dos estimadores . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Suficiência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.4 Não viés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.1 EQM - Erro Quadrático Médio . . . . . . . . . . . . . . . . . . . . 6
1.5 Consistência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.6 Eficiência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2 Estimadores pontuais e intervalos de confiança 10


2.1 Distribuições amostrais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.1 Distribuição amostral para a média . . . . . . . . . . . . . . . . . . 10
2.1.2 Distribuição amostral para a variância . . . . . . . . . . . . . . . . 11
2.1.3 Distribuição amostral para a proporção . . . . . . . . . . . . . . . . 14
2.1.4 Distribuição amostral para a diferença entre duas médias . . . . . . 15
2.1.5 Distribuição amostral para a diferença entre proporções . . . . . . . 18
2.2 Intervalos de Confiança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.1 I.C. para média com variância σ 2 conhecida . . . . . . . . . . . . . 20
2.2.2 I.C. para proporção . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.3 I.C. para diferença das médias com variâncias σi2 conhecidas . . . . 23
2.2.4 I.C. para diferença das médias com variâncias σi2 desconhecidas e
diferentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.5 I.C. para diferença das médias com variâncias σi2 desconhecidas,
porém iguais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.6 I.C. para diferença das proporções . . . . . . . . . . . . . . . . . . . 25
2.2.7 I.C. para variância . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3 Exercícios para treinar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3 Técnicas de Estimação 28
3.1 Método dos Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2 Método dos Mínimos Quadrados Ordinários . . . . . . . . . . . . . . . . . 29
3.3 Função de Máxima Verossimilhança . . . . . . . . . . . . . . . . . . . . . . 31
3.3.1 Maximização da função de Verossimilhança . . . . . . . . . . . . . . 32
3.3.2 Exemplos de estimação verossímil . . . . . . . . . . . . . . . . . . . 36

4 Teste de Hipóteses 44
4.1 Erros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.2 Hipótese Nula . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

i
CONTEÚDO ii

4.3 Teste de Hipótese para uma amostra . . . . . . . . . . . . . . . . . . . . . 46


4.3.1 Teste de Hipótese para a média . . . . . . . . . . . . . . . . . . . . 47
4.3.2 Teste de Hipótese para a proporção . . . . . . . . . . . . . . . . . . 59
4.3.3 Teste de Hipótese para a variância ou desvio padrão . . . . . . . . . 60
4.4 Teste de Hipótese para duas amostras . . . . . . . . . . . . . . . . . . . . . 63

5 Análise de Dados Categóricos 64


5.1 Tabelas de contingência . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.2 Teste de Aderência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.3 Teste de Homegeneidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.4 Teste de Independência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

6 Análise de Variância 78
6.1 Experimento com único fator . . . . . . . . . . . . . . . . . . . . . . . . . 78
6.2 Delineamento Completamente Casualisado (RCC) . . . . . . . . . . . . . . 78
6.3 Análise de variância para dois fatores . . . . . . . . . . . . . . . . . . . . . 82
6.4 Pressupostos da análise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

7 Correlação 87
7.1 Variância, covariância e correlação . . . . . . . . . . . . . . . . . . . . . . . 87
7.1.1 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
7.1.2 Covariância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
7.1.3 Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
7.2 Teste de hipótese para a correlação . . . . . . . . . . . . . . . . . . . . . . 93

8 Regressão 94
8.1 Regressão Linear Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
8.1.1 Método dos mínimos quadrados ordinários . . . . . . . . . . . . . . 94
8.2 Regressão Linear Múltipla . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
8.2.1 Estimando os coeficientes βi . . . . . . . . . . . . . . . . . . . . . . 98
8.2.2 Propriedades dos Estimadores β . . . . . . . . . . . . . . . . . . . . 103
8.3 Valores preditos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
8.4 Resíduos e análise dos resíduos . . . . . . . . . . . . . . . . . . . . . . . . . 106
8.4.1 Propriedades dos resíduos . . . . . . . . . . . . . . . . . . . . . . . 106
8.4.2 Valor esperado dos resíduos . . . . . . . . . . . . . . . . . . . . . . 106
8.5 Análise de Variância ANOVA (para a regressora) . . . . . . . . . . . . . . 107
8.5.1 Medida de qualidade de ajuste: coeficiente de determinação R2 (ar-
madilhas do uso de R2 ) . . . . . . . . . . . . . . . . . . . . . . . . . 113
8.5.2 Verificação dos coeficientes . . . . . . . . . . . . . . . . . . . . . . . 114
8.5.3 Regressoras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
8.6 Verificação dos pressupostos dos resíduos . . . . . . . . . . . . . . . . . . . 117
8.6.1 Critério de Escolha entre modelos: AIC - O critério de Akaike (Parte I)123
8.7 Intervalos de Predição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
8.7.1 Cálculo do Intervalo de Predição . . . . . . . . . . . . . . . . . . . 126
8.8 Verificação da Qualidade de Ajuste . . . . . . . . . . . . . . . . . . . . . . 128
8.8.1 Diagnóstico de influência . . . . . . . . . . . . . . . . . . . . . . . . 129
8.9 Conceitos fundamentais em análise generalizada . . . . . . . . . . . . . . . 130

9 Controle Estatístico de Processo 134


CONTEÚDO iii

9.1 Controle de qualidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134


9.1.1 Controle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
9.2 Gráficos de Controle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
9.2.1 Gráfico de controle para variáveis . . . . . . . . . . . . . . . . . . . 135

10 Introdução à amostragem 140


10.1 Amostragem probabilística . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
10.2 Tipos de amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
10.2.1 Amostragem Aleatória Simples . . . . . . . . . . . . . . . . . . . . 141
10.3 Amostragem Estratificada . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
10.3.1 Alocação Ótima de Neyman . . . . . . . . . . . . . . . . . . . . . . 146

11 Números Índices 149


11.1 Números Índices Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
11.1.1 Propriedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
11.2 Índices Poderados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
11.2.1 Índice Agregado de Preço . . . . . . . . . . . . . . . . . . . . . . . 151
Capítulo 1

Estimadores

Não é necessário recolher informações de toda uma pupulação sobre algum parâmetro
desconhecido, basta uma amostragem adequada. Esse é o objetivo dos estimadores, uma
função que fornce-nos um valor, chamado de estimativa, que contém informações úteis e
importantes sobre uma população.

1.1 Estimadores
Os estimadores são funções criadas por variáveis aleatórias.

Definição 1

Um estimador é uma função das variáveis aleatórias θ̂ = f (x1 , x2 , x3 · · · xn ) formada


por amostras aleatórias X1 , X2 , · · · Xn (ou subconjunto de uma população).

Temos dois tipos de estimadores:


• Estatística

Definição
Define-se estatística o estimador que não depende do parâmetro desconhecido θ,
mas a sua distribuição (função densidade ou massa de probabilidade) dependerá
de θ.

Ou seja, estimadores são também variáveis aleatórias e apresentam as suas respec-


tivas distribuições.
P Mas, nem todo estimador é uma estatística. Por exemplo, a
função θ̂ = nX é uma estatística porque o estimador não depende do parâmetro
2
desconhecido e a sua distribuição depende dos parâmetros desconhecidos µ e σx̄2 = σn

1 1 x̄−µ 2
f (x̄|µ, σx̄2 ) = p e− 2 ( )
σx̄

2πσx̄2

• Quantidade Pivotal

1
1.2. PROPRIEDADES DOS ESTIMADORES 2

Definição
Um povot é uma v.a. que depende do parâmetro desconhecido θ, mas a sua
distribuição não depende.

Um exemplo dessa quantidade poderia ser a função


x−µ
Z=
σ
cuja distribuição não depende do parâmetro desconhecido.
1 1 2
fZ (z) = √ e− 2 z

1.2 Propriedades dos estimadores


Os estimadores gozam de quatro propriedades: suficiência, não viés, consistência e efi-
ciência. Aqueles estimadores que não apresentarem tais caracatersíticas, não podem ser
considerados um bom estimador.

1.3 Suficiência
O princípio da suficiência diz que uma estatística T (X) será suficiente se toda a informação
contida na amostra {X1 , X2 , X3 , · · · Xn } consegue assimilar toda a informação possível so-
bre o parâmetro desonhecido θ, propriedade da população. Qualquer outra inserção de in-
formação além daquela contida na estatística suficiente T (X) não contribuirá em nada com
alguma melhora das informações contidas na estatística T (X) sobre o parâmetro θ. Por
exemplo, supondo que a média populacional µ de uma distribuição Gaussiana é desconhe-
cida, digamos X ∼ N (µ, σ 2 ). A estatística T (X) que consegue captar Pn
toda a informação
sobre a média populacional será a média amostral dada por X̄ = xi i=1
n ≤ N ∀x ∈ ℜ,
ou seja, uma outra estatística como média quadrática X̄RM S ou média harmônica X̄h
não contribuirá com novas informações sobre µ, além do que a média aritmética já con-
tribui.

Definição

Se a distribuição da amostra X, dado o valor de T (X), for independente do parâmetro


desconhecido, dizemos que a estatística T (X) é suficiente.

Prova

Seja a probabilidade condicionada (Por definição!)

pθ (X = x ∩ T (X) = T (x))
pθ (X = x|T (X) = T (x)) = (1.1)
pθ (T (X) = T (x))
1.3. SUFICIÊNCIA 3

então
pθ (X = x)
pθ (X = x|T (X) = T (x)) = (1.2)
pθ (T (X) = T (x))
p(x|θ)
= (1.3)
q(T (x)|θ)

Lembramos aqui que qualquer distribuição de probabilidade para uma estatística T (X) é
dita ser uma distribuição amostral.

Exemplo

Verifique se a estatística T (X) = X é suficiente para o parâmetro desconhecido θ


P
da dsitribuição Bernoulli.

p(x|θ)
pθ (X = x|T (X) =
q(T (x)|θ)

a) Distribuição conjunta de probabilidade p(x|θ)


Y Y P P
p(x|θ) = p(xi |θ) = θxi (1−θ)1−xi = θ i xi (1−θ)N − i xi = θT (X) (1−θ)N −T (X)
i i

b) Distribuição amostral para a estatística T (x)


 
N
q(T (x)|θ) = θT (X) (1 − θ)N −T (X)
T (X)

θT (X) (1 − θ)N −T (X)


pθ (X = x|T (X) = N

T (X)
θT (X) (1 − θ)N −T (X)
 
N
=
T (X)

Portanto T (X) = i xi é uma estatística suficiente para θ.


P

Teorema

A estatística T (X) é suficiente para o parâmetro desconhecido θ se, e somente se,


existirem duas funções g(t|θ) e h(x) as quais permitem escrever a função fdp ou fp
conjunta da amostra como sendo

f (x|θ) = g(t|θ)h(x)

a fatoração da distribuição conjunta em termo das funções g(t|θ) e h(x).


1.3. SUFICIÊNCIA 4

Exemplo

Verifique se a estatística T (X) = X é suficiente para o parâmetro desconhecido θ


P
da dsitribuição Bernoulli.

Seja a função de Bernoulli f (X|θ) = θx (1 − θ)1−x


Y
Fatorando... p(x|t, θ) = f (X|θ)
Y
= θx (1 − θ)1−x
P P
= θ x (1 − θ)1− x
 P x
θ
= · (1 − θ)
1−θ
Finalmente,
 P x
θ
g(t, θ) = · (1 − θ); h(X) = 1
1−θ
a estatística T (X) = x é uma estatística suficiente.
P

Definição

Estatística anciliar Se a distribuição de probabilidade da estatística S(X) não de-


pender do parâmetro θ, definimos de estatística anciliar.

Definição

Estatística completa Se Eθ g(T ) = 0 ⇒ Pθ (g(T ) = 0) = 1 ∀θ, dizemos que T (X) é


uma estatística completa.

Exemplo

Verifique se as estatísticas T1 (X) = i xi /n e T2 (X) = S 2 são suficientes para µ e σ 2


P
respectivamente. Seja a distribuição Gaussiana
1 1 x−µ 2
f (x|µ, σ 2 ) = √ e− 2 ( σ ); −∞ < x < +∞
2πσ 2

Exemplo

Verifique se a estatística T (X) = 1



é suficiente para a distribuição exponencial

f (x|λ) = λe−λx ; x≥0


1.4. NÃO VIÉS 5

1.4 Não viés


Espera-se que o erro na medida seja nula, isto é, E(e) = 0. De fato, se o erro for descrito
pela diferença da estimativa em relação ao valor real, temos

e = θ̂ − θ

Portanto, definiremos o viés b(θ̂) como sendo o valor esperado do erro:

b(θ̂) = E(e) = E(θ̂ − θ)

Duas caracaterísticas importantes são


1) Caso não polarizado
b(θ̂) = 0
Quando não há viés.

b(θ̂) = E(θ̂ − θ) = 0
= E(θ̂) − E(θ) = 0
=⇒ E(θ̂) = θ

A este caso chamamos de Estimador Não Viesado - ENV

Exemplo
(X−X̄)2
P
Verifique se o estimador S 2 = n−1
é ENV.

lim E(S 2 ) = σ 2
n→∞

Exemplo
(X−X̄)2
P
Verifique se o estimador σˆ2 = é ENV.
n
 
ˆ n−1
2
lim E(σ ) = lim σ2 = σ2
n→∞ n→∞ n

Não. Esse estimador é conhecido por Estimador Assintóticamente Não


Viesado - EANV

2) Caso polarizado
b(θ̂) ̸= 0
Vale aqui duas situações:
▶ Polarização à direita: b(θ̂) > 0

b(θ̂) = E(θ̂ − θ) > 0


= E(θ̂) − E(θ) > 0
=⇒ E(θ̂) > θ

A média das estimativas estão à direita do valor de θ


1.4. NÃO VIÉS 6

▶ Polarização à esquerda: b(θ̂) < 0


b(θ̂) = E(θ̂ − θ) < 0
= E(θ̂) − E(θ) < 0
=⇒ E(θ̂) < θ
A média das estimativas estão à esquerda do valor de θ

1.4.1 EQM - Erro Quadrático Médio


A variância do erro determina o erro quadrático médio EQM (θ̂) ≡ V ar(e)
Dem.

EQM (θ̂) = V ar(e) = E[(θ̂ − θ)2 ]


= E[(θ̂ − E(θ̂) + E(θ̂) − θ)2 ]
= E{[θ̂ − E(θ̂)]2 + [E(θ̂) − θ]2 + 2 · [θ̂ − E(θ̂][E(θ̂) − θ]}
= E[θ̂ − E(θ̂)]2 + E[E(θ̂) − θ]2 + 2 · E{[θ̂ − E(θ̂][E(θ̂) − θ]}
= E[θ̂ − E(θ̂)]2 + E[E(θ̂) − θ]2 + 2 · E{θ̂E(θ̂) − θ̂θ − E(θ̂)E(θ̂) + E(θ̂)θ}
= E[θ̂ − E(θ̂)]2 + E[E(θ̂) − θ]2 + 2 · {E(θ̂)E(θ̂) − E(θ̂)θ − E(θ̂)E(θ̂) + E(θ̂)θ}
| {z }
termo nulo
Obtemos
EQM (θ̂) = E[θ̂ − E(θ̂)]2 + E[E(θ̂) − θ]2
Define-se os seguintes termos da soma pitagórica:
1 Variância do estimador
V ar(θ̂) = E[θ̂ − E(θ̂)]2
mede o grau de "espalhamento"das estimativas e a sua informação é iversamente
proporcional à precisão, pois quanto menor for a variância das estimativas, maior
será a precisão da informação.
2 Segundo momento do viés
E[b2 (θ̂)] = E[θ̂ − θ]2
mede o grau de deslocamento da informação. A sua informação é iversamente pro-
porcional à acurácia ou exatidão, pois quanto menor o valor do viés, maior será
a acurácia (ou acertividade) da informação. O ideal seria um viés nulo que caraca-
teriza altíssima acurácia.
Finalmente, definimos EQM por

EQM (θ̂) = V ar(θ̂) + E[b2 (θ̂)]

Deve-se procurar estimadores que controlem a variabilidade e o viés do estimador, em


outras palavras procura-se os estimadores que tenham uma boa precisão e sejam exatos
nas estimativas. Melhor ainda se o estimador for ENV:
EQM (θ̂) = V ar(θ̂)
1.5. CONSISTÊNCIA 7

Figura 1.1: Acurácia e precisão

1.5 Consistência
A consistência significa que o aumento do tamanho da amostra implicará na convergência
das estimativas para o valor desconhcido de θ.

Definição

Seja X1 , X2 , · · · Xn uma sequência de variávis aleatórias amostrais com T (X) a esta-


tística para h(θ), quando n → ∞

P (|Tn (X) − h(θ)| > ϵ) → 0, ϵ>0

A sequência de estimadores Tn (X) é fracamente consistente para h(θ) quando variando


o tamanho amostral n existe a convergência em probabilidade T (X) → h(θ) quando
n → ∞.

Devemos relembrar que duas variâncias estão sendo tratadas na população, a primeira é
a variância populacional σ 2 e a outra está relacionada à amostra, ou melhor, à estatística
T (X). No limite quando n → ∞ a média e a variância da estatística será

limn→∞ E(Tn (X)) = θ,
limn→∞ V ar(Tn (X)) = 0.

Exemplo
1.6. EFICIÊNCIA 8

Verifique se a estatística S 2 é consistente para a variância populacional.


(
limn→∞ E(S 2 ) = σ 2 ,
2σ 2
limn→∞ V ar(S 2 ) = limn→∞ n−1 = 0.

Exemplo

Verifique se a estatística σˆ2 é consistente para a variância populacional.

1.6 Eficiência
Um estimador será mais eficiente se o seu EQM (θ̂) for o menor possível.

Teorema

Desigualdade de Cramer-Rao: Sejam va’s X1 , X2 , X3 ...Xn com estimador T (X),


função densidade f (x|θ) e
ˆ
d ∂[T (X)f (x|θ)]
Eθ T (X) = dx
dθ ∂θ

com variância do estimador finito V arθ T (X) < ∞, tal que satisfaz a relação
d
2

T (X)
V ARθ T (X) ≥  2 

Eθ ∂θ
log f (x|θ)

Teorema
Será dito estimador eficiente para θ se for um ENV e sua variância atingir o limite
inferior da desigualdade de Cramer-Rao para quaisquer valores de θ. Estimadores
eficientes são sempre UMVU.

[nI(θ)]−1
ef (θ̂) = ≤1
V ar(θ̂)

Exemplo

Suponha dois estimadores θˆ1 e θˆ2 , tal que o erro quadrático médio do primeiro esti-
1.6. EFICIÊNCIA 9

mador é menor. Encontre o estimador mais eficiente.

EQM (θˆ1 ) < EQM (θˆ2 )


=⇒ Se o estimador for ENV
V ar(θ1 ) < V ar(θˆ2 )
ˆ

Sendo ou não estimadores ENV, θˆ1 é mais eficiente.


Capítulo 2

Estimadores pontuais e intervalos de


confiança

2.1 Distribuições amostrais


Ao coletar a proporção de pessoas respondentes a um questionário sobre o gosto de um
produto ou serviço, qual seria a forma da distribuição? Seguiria uma distribuição de
probabilidade normal, Poisson, binomial ou qual outra? Ao mensurarmos a média dos
comprimentos dos parafusos por amostragem, qual a distribuição a média tenderia seguir?
O mesmo podemos nos perguntar com relação à variância das observações. A resposta
para essas e outras perguntas podem ser respondidas através das distribuições amostrais,
a saber: i) distribuição amostral para a média, ii) distribuição amostral para a variância
e a iii) distribuição amostral para a proporção.

2.1.1 Distribuição amostral para a média


Suponha coletar um conjunto de médias amostrais em uma população. A sua distri-
buição seguirá uma distribuição normal de probabilidade, cuja esperança das médias é
a própria média populacional µ e a sua variância dependerá do tamanho obervado n.

Definição 2
Sejam X1 , X2 , X3 , · · · Xn v.a’s independentes
Pn e identicamente distribuídas com X ∼
i X
2
N (µ, σ ), então a estatística X̄ = n segue uma distribuição normal X̄ ∼ (µ, σn ).
2

Dem.

10
2.1. DISTRIBUIÇÕES AMOSTRAIS 11

• Valor Esperado para a Média


 Pn 
i=1 Xi
E(X̄) = E
n
n
!
1 X
= E Xi
n i=1
n
1X
= E(Xi )
n i=1
n
1X n
= µ= µ=µ
n i=1 n
= µ

• Variância para a Média


2
σX̄ = V ar (x̄)
 Pn 
i=1 Xi
= V ar
n
n
!
1 X
= V ar Xi
n2 i=1
2
σ X
= +2 cov(Xi , Xi )
n i<j
=⇒ va’s independentes =⇒ cov(Xi , Xj ) = 0
σ2
=
n

• Quantidade Pivotal
x̄ − µ √
 
X − E(X) x̄ − µ
Z= p = q = n (2.1)
V ar(X) σ2 σ
n

cuja distribuição não pode depender do parâmetro desconhecido µ


1 1 2
fZ (z) = √ e− 2 z

• Distribuição amostral
σ2
 
X̄ ∼ µ,
n

2.1.2 Distribuição amostral para a variância


A variância ou o desvio padrão podem ser de interesse nas mais diversas medidas, tais como
variações atmosféricas (temperatura, pressão, incidência solar ou velocidade do vento), na
metalurgia (determinação dos coeficientes térmicos dos materiais), na economia (distri-
buição da variação de preços ao consumidor), enfim, pode ser aplicado nos mais variados
casos. Portanto, torna-se necessário compreender a sua distribuição amostral.
2.1. DISTRIBUIÇÕES AMOSTRAIS 12

Definição
Sejam X1 , X2 , X3 , · · · Xn v.a’s independentes e identicamente distribuídas com X ∼
N (µ, σ 2 ), então
(n − 1)s2
2
∼ χ2ν
σ
segue uma distribuição qui-quadrado com ν graus de liberdade.

Dem. Possíveis estimadores para a variância σ 2 são


a) Pn
i=1 (Xi − X̄)2
σˆ2 =
n
b) Pn
2 − X̄)2
i=1 (Xi
S =
n−1
• Valor Esperado para a variância
Pn 2

ˆ2 i=1 (Xi − X̄)
E(σν ) = E
ν
" n #
1 X
= E (Xi − X̄)2
ν
" i=1
n n n
#
1 X X X
= E Xi2 + X̄ 2 − 2 Xi X̄
ν i=1 i=1 i=1
" n n n
#
1 X X n X
= E Xi2 + X̄ 2 − 2 Xi X̄
ν i=1 i=1
n i=1
" n #
1 X
= E Xi2 + nX̄ 2 − 2nX̄ 2
ν
" i=1
n
#
1 X
= E Xi2 − nX̄ 2
ν
" ni=1 #
1 X
= E(Xi2 ) − nE(X̄ 2 )
ν i=1
1
nE(Xi2 ) − nE(X̄ 2 )

=
ν
n
E(Xi2 ) − E(X̄ 2 )

=
ν
(2.2)

e, como
σ 2 = E(x2 ) − E(x)2 → E(x2 ) = σ 2 + µ2
σ2 σ2
= E(x̄2 ) − E(x̄)2 → E(x̄2 ) = + µ2
n n
2.1. DISTRIBUIÇÕES AMOSTRAIS 13

Então
n
E(σˆν2 ) = E(Xi2 ) − E(X̄ 2 )

ν  2 
n 2 2
 σ 2
= σ +µ − +µ
ν n
n 2 σ2
 
= σ −
ν n
n (n − 1)σ 2
 
=
ν n
(n − 1) 2
= σ
ν
Para cada caso temos
a) Estimador assintóticamente não viesado - EANV

(n − 1) 2
E(σˆ2 ) = σ
n

b) Estimador não viesado - ENV

E(S 2 ) = σ 2

• Variância para σˆ2 e S 2

Temos que

nσˆ2 = (n − 1)S 2
(n − 1) 2
σˆ2 = S
n 
n − 1
V ar(σˆ2 ) = V ar S 2
n
 2
ˆ n−1
2
V ar(σ ) = V ar(S 2 )
n
 2
n−1
= E[(S 2 − σ 2 )2 ]
n
2
2σ 4

n−1
=
n n−1

Para cada caso temos


a) Variância para σˆ2
2(n − 1)σ 4
V ar(σˆ2 ) =
n2

b) Variância para S 2
2σ 4
V ar(S 2 ) =
n−1
2.1. DISTRIBUIÇÕES AMOSTRAIS 14

• Quantidade Pivotal
(n − 1)s2
2
∼ χ2ν
σ
cuja distribuição não pode depender do parâmetro desconhecida σ
1
χ2ν = ν
 xα/2−1 e−x/2
Γ 2
2α/2

2.1.3 Distribuição amostral para a proporção


Talvez esse seia o caso mais popularmente conhecido. Por exemplo, qual seria a distribui-
ção amostral da proporção da contagem do número de pessoas que rejeitaram um certo
produto. Devido ao teorema de Moivre-Laplace, essa distribuição proporcional serguirá
uma distribuição normal de probabilidade.

Definição 3
Sejam X1 , X2 , X3 , · · · Xn v.a’s independentes e identicamente distribuídas com X ∼
Binom(N p, N pq), então  pq 
p̂ ∼ N p,
n
segue uma distribuição normal com média E(p̂) = p e variância V ar(p̂) = pq/n.

• Valor Esperado para a proporção

Seja p̂ = x
n
x E(x) np
E(p̂) = E = =
n n n
E(p̂) = p

• Variância para a proporção

Seja p̂ = x
n
 x  V ar(x) npq
V ar(p̂) = V ar = 2
= 2
n n n
pq
V ar(p̂) =
n

• Quantidade Pivotal
X − E(X) p̂ − p
Z= p = p pq (2.3)
V ar(X) n

cuja distribuição não pode depender do parâmetro desconhecido µ


1 1 2
fZ (z) = √ e− 2 z

2.1. DISTRIBUIÇÕES AMOSTRAIS 15

• Distribuição amostral  pq 
p̂ ∼ p,
n

Resultado
Tabela 2.1: Distribuições Amostrais - Estimadores ENV

v.a. Estimador PPontual Distribuição Quantidade Pivotal


√ X−θ 
X ∼ N (µ, σ 2 ) X̄ =P nx X̄ ∼ N (µ, σ 2 /n) n σ ∼ N (0, 1)
2 (n−1)S 2
X ∼ N (µ, σ 2 ) S 2 = (x−x̄)
n−1
χ2ν σ2
∼ χ2ν
X ∼ Binom(N p, N pq) p̂ = nx p̄ ∼ N (p, pq/n) √p̄−p ∼ N (0, 1)
pq/n

2.1.4 Distribuição amostral para a diferença entre duas médias


Se quizermos determinar a distribuição amostral da diferença entre médias de duas amos-
tras duas situações são possíveis: a) a variância populacional σ 2 é conhecida e b) a
variância populacional σ 2 é desconhecida.
No segundo caso, embora são as variâncias são desconhecidas, ambas podem ser iguais
ou diferentes.

Figura 2.1: Exemplo na composição das populações

Observe que podemos nos deparar com algumas situações:


• Duas populações distintas com ambas variâncias populacionais σ12 e σ22 conhecidas
• Duas populações distintas com ambas variâncias populacionais σ12 e σ22 desconheci-
das, porém iguais
• Duas populações distintas com acesso apenas nas variâncias amostrais S12 e S22
• Única população, porém com dois grupos distintos. Ou seja, duas amostras oriundas
da mesma população.
2.1. DISTRIBUIÇÕES AMOSTRAIS 16

Variâncias conhecidas e desiguais σ12 ̸= σ22


Considere duas populações com variâncias particulares. A distribuição amostral segue a
distribuição Z.
Neste caso
σ2 σ2
 
(X̄1 − X̄2 ) ∼ N (µ1 − µ2 ); 1 + 2
n1 n2
A quantidade pivotal para esse caso será

(X̄1 − X̄2 ) − (µ1 − µ2 )


Z= q 2
σ1 σ2
n1
+ n22

Prova

Seja Ȳ =
P
i X̄i
!
X X σ2 X
i
V ar X̄i = +2 cov(X̄i , X̄j )
i i
ni i<j

σ22 σ12
V ar(X̄1 + X̄2 ) + 2 · cov(X̄1 , X̄2 )
= +
n1 n2
=⇒ se, e somente se, as v.a’s são independentes (2.4)
→ cov(X̄1 , X̄2 ) = 0
σ12 σ22
V ar(X̄1 + X̄2 ) = +
n1 n2

Supondo a diferença Ȳ = X̄1 − X̄2 com a quantidade pivotal será

Ȳ − E(Ȳ ) (X̄1 − X̄2 ) − (µ1 − µ2 ) (X̄1 − X̄2 ) − (µ1 − µ2 )


Z=p = p = q 2
V ar(Ȳ ) V ar(X̄1 + X̄2 ) σ1 σ2
+ 2 n1 n2
2.1. DISTRIBUIÇÕES AMOSTRAIS 17

Variâncias desconhecidas, porém iguais


Neste caso
Sp2 Sp2
 
(X̄1 − X̄2 ) ∼ N (µ1 − µ2 ); +
n1 n2

Sejam temos duas amostras tal que σ12 = σ22


• Amostra 1: X̄1 ∼ tν1 (0, 1)
• Amostra 2: X̄2 ∼ tν2 (0, 1)
A quantidade pivotal para esse caso será

(X̄1 − X̄2 ) − (µ1 − µ2 )


t= q
Sp n11 + n12

Prova

P 2
ωs
Sp2 = P i com ωi o grau de liberdade
ω
ν1 s1 + ν2 s22
2
=
ν1 + ν2
(n1 − 1)s21 + (n2 − 1)s22
=
(n1 − 1) + (n2 − 1)
(n1 − 1)s21 + (n2 − 1)s22
Sp2 =
(n1 + n2 − 2)

é a variância combinada Sp2


Supondo a diferença Ȳ = X̄1 − X̄2 com a quantidade pivotal será

(X̄1 − X̄2 ) − (µ1 − µ2 ) (X̄1 − X̄2 ) − (µ1 − µ2 )


T = q 2 = q
Sp Sp2
n1
+ n2 Sp n11 + n12

Segue uma distribuição t-Student com ν = n1 + n2 − 2 graus de liberdade


2.1. DISTRIBUIÇÕES AMOSTRAIS 18

Variâncias desconhecidas e diferentes


Neste caso
(X̄1 − X̄2 ) ∼ tn1 +n2 −2 (0, 1)

Sejam duas amostras tal que σ12 ̸= σ22


• Amostra 1: X̄1 ∼ tν1 (0, 1) com s21
• Amostra 2: X̄2 ∼ tν2 (0, 1) com s22
A quantidade pivotal para esse caso será
(X̄1 − X̄2 ) − (µ1 − µ2 )
t= q 2
s1 s2
n1
+ n22
Dem.
Seja Ȳ = i X̄i
P
!
X X s2 X
i
V ar X̄i = +2 cov(X̄i , X̄j )
i i
ni i<j

s21 s22
V ar(X̄1 + X̄2 ) = + + 2 · cov(X̄1 , X̄2 )
n1 n2
=⇒ se, e somente se, as v.a’s são independentes → cov(X̄1 , X̄2 ) = 0
s21 s2
V ar(X̄1 + X̄2 ) = + 2
n1 n2

Supondo a diferença Ȳ = X̄1 − X̄2 com a quantidade pivotal será


(X̄1 − X̄2 ) − (µ1 − µ2 )
T = q 2
s1 s22
n1
+ n2

Observe que o grande problema aqui é a determinação do grau de liberdade. Existem


duas opções:
a) Mímimo grau de liberdade
ν = min{ν1 , ν2 }

b) Método aproximado de Aspin-Welch


s21 s21
Sejam ω1 = ; ω2 =
n1 n2
(ω1 + ω2 )2
ν= ω12 ω22
ν1
+ ν2

2.1.5 Distribuição amostral para a diferença entre proporções


Neste caso  
p 1 q1 p 2 q2
(p̂1 − p̂2 ) ∼ N (p1 − p2 ); +
n1 n2

Sejam temos duas amostras


2.1. DISTRIBUIÇÕES AMOSTRAIS 19

• Amostra 1: X̄1 ∼ Binom(N p1 , N p1 q1 )


• Amostra 2: X̄2 ∼ Binom(N p2 , N p1 q2 )
A quatidade pivotal será dada por

(p̂1 − p̂2 ) − (p1 − p2 )


Z= q
p1 q1
n1
+ pn2 q22

Distribuição amostral para a razão de variâncias


A comparação entre variâncias é através da escala, isto é σ12 /σ22 através da amostra s21 /s22 .
Deseja-se verificar o quanto uma dispersão é maior (menor) do que outra.

Teorema

Sejam duas variáveis aleatórias U ∼ χ2ν1 e W ∼ χ2ν2 , ambas independentes 2x2 com
distribuição qui-quadrado. A variável aleatória

U/ν1
W = ∼ F (ν1 , ν2 )
V /ν2

segue uma distribuição Fisher-Snedecor Fν1 ,ν2 .

Dem.

(n1 − 1)s21
U=
σ12
(n2 − 1)s22
V =
σ22
 
(n1 −1)s21
2
χ /ν1 ν2 σ12
Fν1 ,ν2 ∼ ν21 =  2

χν2 /ν2 ν1 (n2 −1)s2
2
σ2

(2.5)

Portanto,
s21 σ22
Fν1 ,ν2 ∼
s22 σ12

A função é obtida por métodos computacionais poque não há solução analítica.


2.2. INTERVALOS DE CONFIANÇA 20

2.2 Intervalos de Confiança


Estimadores pontuais θ̂ variam com a réplica amostral. Cada nova observação teremos
uma nova estatística e isso é o que nos leva à criação de alguma estatística mais robusta,
o chamado Intervalos de Confiança.
Segundo Tchebythev
σ2
P (|X − E(X)| ≥ N ϵ) ≤
N 2 ϵ2
a versão para uma estatística será
σθ̂2
P (|θ̂ − E(θ̂)| ≥ N ϵ) ≤
N 2 ϵ2
ou
P (|θ̂ − E(θ̂)| < N ϵ) = 1 − P (|θ̂ − E(θ̂)| ≥ N ϵ)
| {z }
α

Figura 2.2: Região 1 − α

2.2.1 I.C. para média com variância σ 2 conhecida


Seja X̄ ∼ N (µ, σ 2 /n) com quantidade pivotal Z = X̄−µ

σ/ n

P (|Z| ≤ zα/2 ) = 1 − α
P (−zα/2 ≤ Z ≤ zα/2 ) = 1 − α
X̄ − µ
P (−zα/2 ≤ √ ≤ zα/2 ) = 1 − α
σ/ n
√ √
P (X̄ − zα/2 σ/ n ≤ µ ≤ X̄ + zα/2 σ/ n) = 1 − α
O intervalo de confiança para a média com variância σ 2 conhecida será
√ √
I.C. : {X̄ − zα/2 σ/ n ≤ µ ≤ X̄ + zα/2 σ/ n}
Definimos o erro E por

E = zα/2 σ/ n =⇒ {X̄ − E ≤ µ ≤ X̄ + E}

▶ I.C. para média com variância σ 2 desconhecida


Seja X̄ ∼ N (µ, σ 2 /n) com quantidade pivotal T = X̄−µ

s/ n

P (|T | ≤ zα/2 ) = 1 − α
P (−tα/2 ≤ T ≤ tα/2 ) = 1 − α
X̄ − µ
P (−tα/2 ≤ √ ≤ tα/2 ) = 1 − α
s/ n
√ √
P (X̄ − tα/2 s/ n ≤ µ ≤ X̄ + tα/2 s/ n) = 1 − α
2.2. INTERVALOS DE CONFIANÇA 21

O intervalo de confiança para a média com variância σ 2 desconhecida será


√ √
I.C. : {X̄ − tα/2 s/ n ≤ µ ≤ X̄ + tα/2 s/ n}
Definimos o erro E por

E = tα/2 s/ n =⇒ {X̄ − E ≤ µ ≤ X̄ + E}

2.2.2 I.C. para proporção


Seja X ∼ Binom(N p, N pq) com quantidade pivotal Z = √
p̂−p
pq
n

P (|Z| ≤ zα/2 ) = 1 − α
P (−zα/2 ≤ Z ≤ zα/2 ) = 1 − α
!
p̂ − p
P −zα/2 ≤ p pq ≤ zα/2 = 1 − α
n
 r r 
pq pq
P p̂ − zα/2 ≤ p ≤ p̂ + zα/2 =1−α
n n

O grande problema para encontrarmos o intervalo de confiança para as proproções é isolar


o valor do parâmetro desconhecido p. Nesse caso, podemos encontrar o valor do parâmetro
populacional isolando-o da sequinte equação:
2.2. INTERVALOS DE CONFIANÇA 22

p̂ − p
q = zα/2 (2.6)
p(1−p)
n
r
p(1 − p)
p̂ − p = zα/2 ·
n
p(1 − p)
(p̂ − p)2 = zα/2
2
·
n
p(1 − p)
p̂2 + p2 − 2p̂p = zα/22
·
! ! n
2 2
zα/2 zα/2
p2 1+ + p −2p̂ − + p̂2 = 0
n n
s Encontrando as raízes
 2
 2
2  2

zα/2 zα/2 zα/2
− −2p̂ − n
± −2p̂ − n − 4 1 + n p̂2
p12 =  2

zα/2
2 1+ n
 2
 q
zα/2 z2 2
zα/2 z2
2p̂ + n ± 4p̂ + α/2 n
+ 4p̂ n
− 4p̂ − 4p̂ 2 α/2
n
p12 =  
z2
2 1 + α/2 n
 2
 q 2
zα/2 1 z z4
p̂ + 2n ± 2 4 α/2 n
(p̂ − p̂ 2 ) + α/2
n2
p12 =  
z2
1 + α/2 n
 2
 q 2 4
zα/2 zα/2 zα/2
p̂ + 2n ± n
(p̂ − p̂2 ) + 4n 2

p12 =  
z2
1 + α/2 n
 2
 q 2
zα/2 zα/2
p̂ + 2n ± zα/2 p̂(1−p̂) n
+ 4n2
p12 =  
z2
1 + α/2 n

O intervalo de confiança para a média com variância σ 2 conhecida será


 ! r ! r 
z2 z2 z2 z2
 p̂+ α/2

2n
−z α/2
p̂(1−p̂)
n
+
α/2
4n2
p̂+
α/2
2n
+z α/2
p̂(1−p̂)
n
+
α/2 
4n2

I.C. : z2
! ≤p≤ z2
!
α/2 α/2

 1+ n 1+ n 

O intervalo de confiança para a proporção com tamanho amostral suficientemente grande


reduzirá para:
q q
I.C. : {p̂ − zα/2 p̂q̂
n
≤ p ≤ p̂ + zα/2
p̂q̂
n
}
2.2. INTERVALOS DE CONFIANÇA 23

Definimos o erro E por


r
p̂q̂
E = zα/2 =⇒ {p̂ − E ≤ µ ≤ p̂ + E}
n

2.2.3 I.C. para diferença das médias com variâncias σi2 conheci-
das
 
σ2 σ22
Seja (X̄1 − X̄2 ) ∼ N (µ1 − µ2 ); n11 + n2
com quantidade pivotal

(X̄1 − X̄2 ) − (µ1 − µ2 )


Z= q 2
σ1 σ2
n1
+ n22

P (|Z| ≤ zα/2 ) = 1 − α
P (−zα/2 ≤ Z ≤ zα/2 ) = 1 − α
(X̄1 − X̄2 ) − (µ1 − µ2 )
P (−zα/2 ≤ q 2 ≤ zα/2 ) = 1 − α
σ1 σ22
n1
+ n2
 s s 
2 2 2 2
σ1 σ2 σ1 σ2 
P (X̄1 − X̄2 ) − zα/2 + ≤ (µ1 − µ2 ) ≤ (X̄1 − X̄2 ) + zα/2 + =1−α
n1 n2 n1 n2

O intervalo de confiança para a média com variância σ 2 conhecida será


q 2 q 2
σ σ2 σ σ22
I.C. : {(X̄1 − X̄2 ) − zα/2 n11 + n22 ≤ (µ1 − µ2 ) ≤ (X̄1 − X̄2 ) + zα/2 n11 + n2
}

Definimos o erro E por


s
σ12 σ22
E = zα/2 + ≤ (µ1 − µ2 ) =⇒ {(X̄1 − X̄2 ) − E ≤ µ ≤ (X̄1 − X̄2 ) + E}
n1 n2

2.2.4 I.C. para diferença das médias com variâncias σi2 desconhe-
cidas e diferentes
Seja (X̄1 − X̄2 ) ∼ tν (0, 1) com quantidade pivotal
(X̄1 − X̄2 ) − (µ1 − µ2 )
T = q 2
s1 s2
n1
+ n22

P (|T | ≤ tα/2 ) = 1 − α
P (−tα/2 ≤ T ≤ tα/2 ) = 1 − α
(X̄1 − X̄2 ) − (µ1 − µ2 )
P (−tα/2 ≤ q 2 ≤ tα/2 ) = 1 − α
s1 s22
n1
+ n2
 s s 
2 2 2 2
s1 s s1 s
P (X̄1 − X̄2 ) − tα/2 + 2 ≤ (µ1 − µ2 ) ≤ (X̄1 − X̄2 ) + tα/2 + 2 = 1−α
n1 n2 n1 n2
2.2. INTERVALOS DE CONFIANÇA 24

O intervalo de confiança para a média com variância σ 2 desconhecida e, ambas diferentes,


será:
q 2 q 2
s1 s22 s s2
I.C. : {(X̄1 − X̄2 ) − tα/2 n1 + n2 ≤ (µ1 − µ2 ) ≤ (X̄1 − X̄2 ) + tα/2 n11 + n22 }
com
ν = min{ν1 , ν2 }
ou
(ω1 + ω2 )2
ν= ω12 ω22
ν1
+ ν2

Definimos o erro E por


s
s21 s2
E = tα/2 + 2 ≤ (µ1 − µ2 ) ≤ (µ1 − µ2 ) =⇒ {(X̄1 − X̄2 ) − E ≤ µ ≤ (X̄1 − X̄2 ) + E}
n1 n2

2.2.5 I.C. para diferença das médias com variâncias σi2 desconhe-
cidas, porém iguais
Seja (X̄1 − X̄2 ) ∼ tν (0, 1) com quantidade pivotal

(X̄1 − X̄2 ) − (µ1 − µ2 ) (n1 − 1)s21 + (n2 − 1)s22


T = q ; Sp2 =
Sp n11 + n12 (n1 + n2 − 2)

P (|T | ≤ tα/2 ) = 1 − α
P (−tα/2 ≤ T ≤ tα/2 ) = 1 − α
(X̄1 − X̄2 ) − (µ1 − µ2 )
P (−tα/2 ≤ q ≤ tα/2 ) = 1 − α
Sp n11 + n12
 r r 
1 1 1 1
P (X̄1 − X̄2 ) − tα/2 Sp + ≤ (µ1 − µ2 ) ≤ (X̄1 − X̄2 ) + tα/2 Sp + =1−α
n1 n2 n1 n2

O intervalo de confiança para a média com variância σ 2 conhecida será


q q
(X̄1 − X̄2 ) − tα/2 Sp n11 + n12 ≤ (µ1 − µ2 ) ≤ (X̄1 − X̄2 ) + tα/2 Sp n11 + 1
n2

com
ν = n1 + n2 − 2

Definimos o erro E por


r
1 1
E = tα/2 Sp + =⇒ {(X̄1 − X̄2 ) − E ≤ µ ≤ (X̄1 − X̄2 ) + E}
n1 n2
2.2. INTERVALOS DE CONFIANÇA 25

2.2.6 I.C. para diferença das proporções


 
Seja (p̂1 − p̂2 ) ∼ N (p1 − p2 ); p1 q1
n1
+ p2 q2
n2
com quantidade pivotal

(p̂1 − p̂2 ) − (p1 − p2 )


Z= q
p1 q1
n1
+ pn2 q22

P (|Z| ≤ zα/2 ) = 1 − α
P (−zα/2 ≤ T ≤ zα/2 ) = 1 − α
(p̂1 − p̂2 ) − (p1 − p2 )
P (−zα/2 ≤ q ≤ zα/2 ) = 1 − α
p1 q1 p2 q2
n1
+ n2
 r r 
p1 q1 p2 q2 p1 q1 p2 q2
P (p̂1 − p̂2 ) − tα/2 + ≤ (p1 − p2 ) ≤ (p̂1 − p̂2 ) + zα/2 + =1−α
n1 n2 n1 n2

O intervalo de confiança para a média com variância σ 2 conhecida será


q q
(p̂1 − p̂2 ) − zα/2 pn1 q11 + pn2 q22 ≤ (p1 − p2 ) ≤ (p̂1 − p̂2 ) + zα/2 pn1 q11 + p2 q2
n2

Definimos o erro E por


r
p1 q1 p2 q2
E = zα/2 + =⇒ {(p̂1 − p̂2 ) − E ≤ µ ≤ (p̂1 − p̂2 ) + E}
n1 n2

2.2.7 I.C. para variância


Seja X ∼ N (µ, σ 2 ) e a quantidade pivotal dada por

(n − 1)s2
∼ χ21
σ2
O intervalo de confiança será

(n − 1)s2 (n − 1)s2
 
;
↑ χα/2;ν ↓ χα/2;ν
2.3. EXERCÍCIOS PARA TREINAR 26

2.3 Exercícios para treinar


Exemplo

Uma amostra de n = 36 observações foi selecionada resultando em x̄ = 2 e s2 = 16.


Sabe-se que σ 2 = 144. Qual o estimador intervalar para µ? (Use α = 5%)

Exemplo

Uma amostra de n = 36 observações foi selecionada resultando em x̄ = 2 e s2 = 16.


Não se conhece σ 2 . Qual o estimador intervalar para µ? (Use α = 5%)

Exemplo
Arquitetura Deseja-se verificar a diferença entre temperaturas extremas em dois
pontos de uma mesma sala. Na primeira posição foi retirada 8 amostras próximo ao
piso com temperatura média de T̄1 = 25C com s1 ± 2.1C e na segunda posição foi
retirada 9 amostras perto de uma janela com T̄1 = 32C com s1 ± 1.5C. Qual a possível
variação térmica na sala? Sabe-se que ∆T ≈ Q.

Exemplo
Eng. Mecânica Um engenheiro mecânico verificou que a folga desejada em uma
peça foi projetada para σ = ±0.021 mm. Uma amostra de sete peças apresentou uma
variância de s2 = 0.000883 mm2 . Qual a possível folga das peças produzidas?

Exemplo
Eng. da Computação Em um lote de 3252 pentes de memória, foi verificado que
6 peças estavam com o código errado em um amostra de n = 125 peças. Qual o erro
E da amostra para α = 5%? Qual o tamanho amostral n para um erro admissível
máximo de ±2% para cima e para baixo?

Exemplo
Eng. Mecânica A folga ϕ entre eletrodos de uma vela de ignição é de 1,1 mm. Foi
retirada a seguinte amostra:

a.m = {1.092, 1.089, 1.088, 1.103, 1.061, 1.003, 1.104, 1.102, 1.100}

Encontre o estimador pontual e intervalar para ϕ.

Exemplo

Eng. Elétrica A corrente de excitação que o transformador suporta é de 0.8% segundo


2.3. EXERCÍCIOS PARA TREINAR 27

as suas características técnicas. Uma amostra de 10 unidades acusou a corrente de


excitação de p̂ = 0.76%. Qual o possível intervalo de corrente de excitação para esse
transformador?

Exemplo
Enfermagem O exame de creatinina avalia a função dos rins de uma pessoa. O laudo
de exames sobre a cretinina forneceu ao paciente o segunte resultado:

Creatinina : 0.69 Valor de referência: 0.7 − 1.3 mg/dL

Interprete-a.

Exemplo
Eng. de Alimentos Sistemas de refrigeração de alimentos a serem consumidos ime-
diatamente devem estar entre −1.5 a 15C. Uma amostra de n = 16 produtos conge-
lados estavam com T = 6 ± 7.2C na data 01/02/17 e autra amostra de n = 12 com
T = 8±5.2C retirada atualmente. Qual a diferença de temperatura no armazenamento
do alimento? Considere α = 1%.

Exemplo
Arquitetura Um arquiteto deverá projetar uma calçada para pessoas com necessida-
des especiais. Equipamentos para cadeirantes pesam entre 12 a 20 kg e a sua largura
está entre 0,60 e 0,70 m. A recomendação na construção da calçada é incorporar uma
faixa livre de no mínimo 1,20 m com faixa de serviço maior do que 0,75 m. Se o cadei-
rante varia a sua posição em ±0, 30 metros para a esquerda e/ou para a direita, projete
uma calçada com folga suficiente para o cadeirante passar considerando a variação da
posição (use α = 5%).

Exemplo
Eng. Civil Cargas variáveis ou acidentais são cargas atuantes sobre estruturas em
função do uso e são cargas uniformemente distribuídas. As estruturas como salas,
cozinhas, wc e quartos são projetadas para operarem com carga média de 1.5 kN/m2 ,
encontre tamanho amostral n para um erro máximo de E = ±2%.
Capítulo 3

Técnicas de Estimação

Talvez a pergunta mais pertinente até o momento será: "Como encontrar uma função
T (X) das variáveis aleatórias?". Na verdade existem três técnicas mais usuais, sendo duas
delas calculadas por técnicas otimização, mais precisamente por estudo das funções:
A) Método dos Momentos
B) Método dos Mínimos Quadrados Ordinários
C) Método da Máxima Verossimihança

3.1 Método dos Momentos


O método consiste em igualar o k-ésimo momento ao k-ésimo parâmeto desconhecido θk . A
proposta será resolver um sistema de k-equações de preferência possíveis e determinadas.
Em outras palavras prescreve os momentos populacionais nos momenos amostrais.
n
1X k
µ̂k = Xi
n i
(3.1)


 µˆ1 = µ1 ,

µˆ2 = µ2 ,


 ···

 µˆ = µ ,
k k

para k-parâmetros desconhecidos a determinar.


Lembramos aqui que podemos determinar o momento de qualquer função pelo gerador de
momento,
dK mX (t)
|t=0 = E(X k ); mX (t) = E(etx )
dtK
desde que exista.

Exemplo

28
3.2. MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS 29

Encontre o melhor estimador para θ da função Bernoulli.


n
1X k
µ̂k = Xi
n i
Apenas k = 1 equação é necessária
n
1X
µ̂1 = Xi = θ̂
n i
θ̂ = X̄
(3.2)

Exemplo

Encontre o melhor estimador para µ e σ 2 da função Gaussiana.

n
1X k
µ̂k = Xi
n i
k = 2 equações são necessárias
µ̂1 = n1 ni Xi ,
 P

µ̂2 = n1 ni Xi2 ,
P

Dessa forma, (
µ̂ = X̄
Pn1
σˆ2 = µ̂2 − µ̂21 = 1
Pn
n
2
i Xi − ( n1 2
i Xi ) ,

Observe que a variância é a diferença entre o segundo momento e o quadrado do primeiro


momento, então seguem os estimadores
n
(Xi − X̄)2
P
1X ˆ2
X̄ = Xi ; σ =
n i n

3.2 Método dos Mínimos Quadrados Ordinários


Suponha querer encontrar os estimadores para β0 e β1 da função
yi = β0 + β1 xi + ϵi
A proposta é minimizar a função quádrica f (β0 , β1 ) e, por isso, chama-se MMQO.
n
X n
X
2
f (β0 , β1 ) = f (ϵ ) = (yi − β0 − β1 xi )2
i=1 i=1

cujas variáveis são β0 e β1 . Isto é,





∇f (β0 , β1 ) = 0

f f
β0 β0 fβ0 fβ1

det H = det > 0, para fβi βi > 0.


 fβ1 fβ0 fβ1 fβ1
3.2. MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS 30

Figura 3.1: a)Minimização

Expandindo o MMQO para βi

n
X n
X n
X
f (β0 , β1 ) = y2 + β02 + β12 x2
i i i
n
X n
X n
X
− 2 yβ0 − 2 yβ1 x + 2 β0 β1 x
i i i

Aplicando ∇f
⃗ (β0 , β1 ) = ⃗0

∂f (β0 , β1 ) ∂f (β0 , β1 )
î + ĵ = ⃗0
∂β0 ∂β1

será o ponto de máximo ou mínimo da função. Resolveno o sistema de duas equações e


duas icógnitas (β0 , β1 ) temos
(
∂f (β0 ,β1 )
= 2nβˆ0 − 2 ni y + 2 ni βˆ1 x = 0
P P
∂β0
∂f (β0 ,β1 )
= 2 ni βˆ1 x2 − 2 ni yx + 2 ni βˆ0 x = 0
P P P
∂β1

ou (
nβˆ0 + βˆ1 ni x = ni y
P P

βˆ0 ni x + βˆ1 ni x2 = ni yx
P P P

Resolvendo o sistema pela regra de Cramer,


 Pn Pn   Pn 
i y i x n y
Pn Pn 2 Pn Pni
yx i x i x i yx
βˆ0 =  i Pn  e βˆ1 =  Pn 
n x n x
Pn Pni 2 Pn Pni 2
i x i x i x i x
3.3. FUNÇÃO DE MÁXIMA VEROSSIMILHANÇA 31

Encontramos os sequintes estimadores para β0 e β1 .


Pn Pn 2 Pn Pn Pn Pn Pn
y x − yx x n yx − i x i y
βˆ0 = i i
Pn 2 i
Pn 2 i
βˆ1 = i
Pn 2 P n
n i x − ( i x) n i x − ( i x)2

Verificando a matriz Hessiana



fβ0 fβ0 fβ0 fβ1
det H = det >0
fβ1 fβ0 fβ1 fβ1

 !2 
Pn n n
2n 2 i xi X X
det H = det Pn
= 4 n x2i − xi >0
2 i xi 2 ni x2i
P
i i

com fβ0 ,β0 = 2n > 0 e fβ1 ,β1 = 2 x2i > 0 confirmando um ponto de mínimo.
Pn
i

Exemplo

Dada o conjunto (X, Y ) encontre os estimadores βˆ0 e βˆ1 para a função linear

Y = β0 + β1 x + ϵ

X Y
-2 -3.7411458
-1 3.1580511
0 -0.9465511
1 3.3273956
2 4.2063737
3 4.6655514
4 5.4008614
5 10.7986029

Resp. βˆ0 = −0.3289 e βˆ1 = 1.9320

Exemplo

Dada a função y = β0 + β1 x + β2 x2 + ϵ, com ϵ ∼ N (0, σϵ2 ), encontre os estimadores βˆ0 ,


βˆ1 e βˆ2 .

3.3 Função de Máxima Verossimilhança


3.3. FUNÇÃO DE MÁXIMA VEROSSIMILHANÇA 32

Definição
Seja X1 , X2 , X3 , · · · Xn variáveis aleatórias independentes e identicamente distribuídas
com distribuição p.d.f. ou p.f. f (x|θ), para X = x um observado da amostra, definimos

L(θ|x) = f (x|θ)

a função de verossimilhança, cuja variável é θ.

Como a função é iid, podemos fatorar f (x|θ)


Y
L(θ|x1 , x2 , x3 · · · xn ; θ) = f (xi |θ)
i

Aqui X é um vetor de variável aleatório observado e fixo e a variável é o parâme-


tro θ. Devemos encontrar o estimador θ̂ por estudo das funções da função verossímil
L(θ|x1 , x2 , x3 · · · xn ; θ)
Por definição f (x|θ) > 0 e, devido a facilidade no cálculo, a maximização para L(θ|x) é a
mesma para log L(θ|x) ≡ l(θ|x).

3.3.1 Maximização da função de Verossimilhança


Seja l(θ|x) uma função de θ,

∇l(θ|x) = ⃗0
ou
∂ log L(θ|x) ∂l(θ|x)
= =0
∂θi ∂θi
para x constante.

Exemplo
Encontre o melhor estimador para a função exponencial

f (x|λ) = λe−λx ; x≥0

Resol.
3.3. FUNÇÃO DE MÁXIMA VEROSSIMILHANÇA 33

n
Y
L(θ|x1 , x2 , x3 · · · xn ; θ) = f (xi |θ)
i
n
Y
= λe−λx
i
P
n −λ x
= λ e
=⇒ Aplicando o logarítimo
P 
l(λ|x) = ln λn e−λ x
=⇒ Aplicando a maximização
P 
∂l(λ|x) ∂ ln λn e−λ x
= =0
∂λ ∂λ P
∂ (n · ln λ − λ x)
= =0
∂λ
1 X
= n − x=0
λ̂
finalmente,
1
λ̂ =

portanto, o melhor estmador para λ é o inverso da média.

Vamos simular no R as condições para esse exemplo. Façamos uma população da distri-
buição exponencial com λ = 12:

f (x|λ̂) = 12 · e−12·x ; x≥0

No R softare:
x < −rexp(n, rate = 12)
Suponha que o valor de λ é desconmhecido e não sabemos que o seu resultado é 12. Ao
conjunto de dados vamos montar um histograma:

> hist(x)
3.3. FUNÇÃO DE MÁXIMA VEROSSIMILHANÇA 34

Figura 3.2: Histograma para f (x|λ̂) = 12 · e−12·x

Na seguinte fase desenvolvemos um intervalo possível para encontrarmos lambda

> lambda < −seq(0.1, 40, by = 0.01)

A etapa mais importante é escrever a função de Verossimihança l(θ|x) separando o


seu máximo verificando o seu valor

> l < −length(x) ∗ log(lambda) − lambda ∗ sum(x)


> maximoL < −lambda[l == max(l)]
> maximoL
[ 1 ] 11.06

Plotando o gráfico da verossimilhança com o seu respectivo valor de máximo verificamos


exatamente o valor MÁX l(λ|x) ⇒ λ̂ = 11.06, que coincide com o inverso da média
encontrada

Figura 3.3: Verossimilhança


3.3. FUNÇÃO DE MÁXIMA VEROSSIMILHANÇA 35

Substituindo o valor do estimador λ̂ na função exponencial obtemos

f (x|λ̂) = λ̂ · e−λ̂·x = 11.06e−11.06x ; x≥0

Figura 3.4: Ajuste para a função exponencial com λ̂ = 11.06

> mean(x)
[ 1 ] 0.09038879
> 1/mean(x)
[ 1 ] 11.06332
3.3. FUNÇÃO DE MÁXIMA VEROSSIMILHANÇA 36

3.3.2 Exemplos de estimação verossímil


Esses exercícios pertentem à etapa das técncias para encontrar os estimadores estatísticos
das distribuições.
• Função verossímel para Bernoulli

Exemplo
Encontre o estimador de máxima verossimilhança para

f (x|θ) = θx (1 − θ)1−x

Dada a função conjunta massa de probilidade

f (x|θ) = θx (1 − θ)1−x

Reescrevendo como produto das marginais encontramos a função


n
Y n
Y
L(θ; x) = f (x|θ) = θx ((1 − θ)1−x )
x=0 x=0
Yn n
Y
x
L(θ; x) = θ (1 − θ)1−x
x=0 x=0
Pn Pn
x
L(θ; x) = θ (1 − θ)n− x
Aplicando o logarírimo
Pn Pn
l(θ; x) = ln L(θ; x) = ln[θ x (1 − θ)n− x ]
n
! n
!
X X
l(θ; x) = x ln θ + n − x ln(1 − θ)]

Encontrando a máxima da função verossímel


" n ! n
! #
dl(θ; x) d X X
= x ln θ + n − x ln(1 − θ)] (3.3)
=0
dθ dθ
n
! n
!
X 1 X −1
= x + n− x =0
θ 1−θ
Encontramos o P
estimador θ̂
n
xi
θ̂ = i=1 = x̄
n
3.3. FUNÇÃO DE MÁXIMA VEROSSIMILHANÇA 37

• Função verossímel para Binomial

Exemplo
Encontre o estimador de máxima verossimilhança para a probabilidade Binomial.

Dada a função conjunta massa de probilidade


 
N x
f (x|θ) = θ (1 − θ)N −x (3.4)
x

Reescrevendo como produto das marginais encontramos a função


n n  
Y Y N x
L(θ; x) = f (x|θ) = θ (1 − θ)N −x (3.5)
x=0 x=0
x
n n n
N!
Y Y Y
L(θ; x) = θ x
(1 − θ)N −x
x=0
(N − x)!x! x=0 x=0

Aplicando o logarírimo
n
X n
X
l(θ; x) = [ln N ! − ln(N − x)! − ln x!] + x ln θ (3.6)
x=0 x=0
Xn n
X
+ ( N− x) ln(1 − θ)
x=0 x=0
n
!
X
+ nN − x ln(1 − θ)
x=0
(3.7)

Encontrando a máxima da função verossímel


" n ! n
! #
dl(θ; x) d X X
= x ln θ + nN − x ln(1 − θ)] = 0 (3.8)
dθ dθ
n
! n
!x=0
X 1 X −1
= x + nN − x =0
θ x=0
1 − θ

Encontramos o estimador
Pn
i=1 xi x̄
θ̂ = =
Nn N
3.3. FUNÇÃO DE MÁXIMA VEROSSIMILHANÇA 38

• Função verossímel para Normal

Exemplo

Encontre a função de máxima verossimilhança l(θ|x) para a probabilidade Nor-


mal.

Dada a função conjunta massa de probilidade


1 1 x−µ 2
f (x|µ, σ 2 ) = √ e− 2 ( σ )
2πσ 2

Reescrevendo como produto das marginais encontramos a função


n n
Y Y 1 1 x−µ 2
2
L(µ, σ ; x) = 2
f (x|µ, σ ) = √ e− 2 (σ
)

x=0 x=0 2πσ 2


n n  " 2 #
Y Y1 x − µ
L(µ, σ 2 ; x) = (2πσ 2 )−1/2 exp −
x=0 x=0
2 σ
n
"  2 #
Y 1 x − µ
L(µ, σ 2 ; x) = (2πσ 2 )−n/2 exp −
x=0
2 σ

Aplicando o logarírimo
n
"  2 #
n X 1 x − µ
l(µ, σ 2 ; x) = − ln(2π) + −
2 x=0
2 σ

Encontramos a função verossímel:


n
n n 1 X
l(µ, σ 2 ; x) = − ln(2π) − ln(σ 2 ) − 2 (x − µ)2
2 2 2σ x=0
3.3. FUNÇÃO DE MÁXIMA VEROSSIMILHANÇA 39

• Função verossímel para Exponencial

Exemplo
Encontre o estimador de máxima verossimilhança para a probabilidade Expo-
nencial.

Dada a função conjunta massa de probilidade

f (x|λ) = λe−λx ; x≥0 (3.9)

Reescrevendo como produto das marginais encontramos a função


n
Y n
Y
L(λ; x) = f (x|λ) = λe−λx (3.10)
x=0 x=0
Yn n
Y
L(λ; x) = λ e−λx
x=0 x=0
n −λ n x
P
L(λ; x) = λ e

Aplicando o logarírimo
n
!
X
l(λ; x) = −λ x + n ln λ (3.11)
x=0

Encontrando a máxima da função verossímel


" n
! #
dl(λ; x) d X
= −λ x + n ln λ = 0 (3.12)
dλ dλ x=0
n
!
X 1
= − x +n· =0
λ

Encontramos o estimador
n 1
λ̂ = Pn =
i=1 xi x̄
3.3. FUNÇÃO DE MÁXIMA VEROSSIMILHANÇA 40

• Função verossímel para Gama

Exemplo

Encontre a função de máxima verossimilhança l(θ|x) para a distribuição Gama.

Dada a função conjunta massa de probilidade


1 x
α−1 − β
f (x|α, β) = x e (3.13)
Γ(α)β α

Reescrevendo como produto das marginais encontramos a função


n n
Y Y 1 x
L(α, β; x) = 2
f (x|µ, σ ) = α
xα−1 e− β
x=0 x=0
Γ(α)β
n n n
Y1 Y Y x
2
L(µ, σ ; x) = α
x α−1
e− β
x=0
Γ(α)β x=0 x=0
n
!
Y 1 Pn
2 −n −nα
L(µ, σ ; x) = Γ(α) β x α−1
e− β x=o x
x=0

Aplicando o logarírimo
n n
X 1X
l(α, β; x) = −n ln Γ(α) − nα ln β + (α − 1) ln x − x
x=0
β x=o
n n
nX 1nX
l(α, β; x) = −n ln Γ(α) − nα ln β + (α − 1) ln x − x
n x=0 β n x=o

Encontramos a função verossímel:

l(α, β; x) = −n ln Γ(α) − nα ln β + n(α − 1)ln¯x − nβ −1 x̄


3.3. FUNÇÃO DE MÁXIMA VEROSSIMILHANÇA 41

• Função verossímel para Geométrica

Exemplo
Encontre o estimador de máxima verossimilhança para a distribuição Geomé-
trica.

Dada a função conjunta massa de probilidade: primeira versão

p(x|θ) = θ(1 − θ)x−1 (3.14)

Reescrevendo como produto das marginais encontramos a função


n
Y n
Y
L(λ; x) = p(x|θ) = θ(1 − θ)x−1
x=0 x=0
Pn
n x−n
L(θ; x) = θ (1 − θ) x

Aplicando o logarírimo
n
!
X
l(θ; x) = n ln θ + x − n ln(1 − θ)
x
  n
θ X
l(θ; x) = n ln + ln(1 − θ) x
1−θ x

Encontrando a máxima da função verossímel


  n
dl(θ; x) θ X
= n ln + ln(1 − θ) x
dθ 1−θ x
   Pn
dl(θ; x) 1−θ 1 θ xx
= n + 2
− =0
dθ θ 1 − θ (1 − θ) (1 − θ)
n
n X
− x = 0
θ x

Finalmente,

(3.15)
1
θ̂ =

3.3. FUNÇÃO DE MÁXIMA VEROSSIMILHANÇA 42

• Função verossímel para Poisson

Exemplo
Encontre o estimador de máxima verossimilhança para a distribuição Poisson.

Dada a função conjunta massa de probilidade

λx e−λ
f (x|λ) = (3.16)
x!

Reescrevendo como produto das marginais encontramos a função


n n
Y Y λx e−λ
L(λ; x) = f (x|λ) =
x=0 x=0
x!
Qn
λx nx=0 e−λ
Q
x=0Q
L(λ; x) = n
P x=0 x!
x −nλ
λ e
L(λ; x) =
(x!)n

Aplicando o logarírimo
n
!
X
l(λ; x) = x · ln λ − nλ − n · ln x!
x=0

Encontrando a máxima da função verossímel


" n ! #
dl(λ; x) d X
= x · ln λ − nλ − n · ln x! = 0
dλ dλ x=0
n
!
X 1
= x −n=0
λ

Encontramos o estimador
Pn
i=1 xi
λ̂ = = x̄
n
3.3. FUNÇÃO DE MÁXIMA VEROSSIMILHANÇA 43

• Função verossímel para Kumaraswamy

Exemplo
Encontre o estimador de máxima verossimilhança para a distribuição Kuma-
raswamy.

Dada a função conjunta massa de probilidade

f (x; θ) = 3θx2 (1 − x3 )θ−1 , x ∈ (0, 1),

Reescrevendo como produto das marginais encontramos a função


n
Y n
Y
L(θ; x) = f (x|θ) = 3θx2 (1 − x3 )θ−1
n
Y n
Y n
Y
2
L(θ; x) = 3θ x (1 − x3 )θ−1
x=0 x=0
n
Y n
Y
L(θ; x) = 3n θn x2 (1 − x3 )θ−1

Aplicando o logarírimo
" n n
#
Y Y
l(θ; x) = ln 3n θn x2 (1 − x3 )θ−1
n
X n
X
l(θ; x) = n ln 3 + n ln θ + 2 ln x + (θ − 1) (1 − x3 )

Encontrando a máxima da função verossímel


" n n
#
dl(θ; x) d X X
= n ln 3 + n ln θ + 2 ln x + (θ − 1) (1 − x3 ) = 0
dθ dθ
n
n X
= + (1 − x3 ) = 0
θ̂

Encontramos o estimador
n
θ̂ = − Pn
(1 − x3 )
Capítulo 4

Teste de Hipóteses

Teste de hipótese é um conjunto de técnicas para testar afirmações sobre um parâmetro


populacional desconhecido.

4.1 Erros
O objetivo é lançar uma afirmativa e, se for verdade, gostaríamos de não rejeitá-la.

H0 é verdadeira H0 é falsa
Não Rejeita H0 Decisão correta β: Erro Tipo II
Rejeita-se H0 α: Erro Tipo I Decisão correta

a) Erro tipo I
P [rejeitar H0 |H0 é verdadeira] = α
Esta não é, com certeza, uma decisão correta. Essa probabilidade é o nível de
significância α que define a probabilidade de tomar uma decisão errada de rejeitar
uma hipótese nula, sendo essa verdadeira. Quando não sabemos o valor que assume
o nível de significância α, podemos propor o valor de α = 5%.
b) Erro tipo II
P [aceitar H0 |H0 é falsa] = β
Esta também é uma decisão incorreta. Essa probabilidade define a decisão errada
de aceitar uma afirmativa falsa.

4.2 Hipótese Nula


Definição
Hipótese estatística é qualquer afirmação sobre um parâmetro populacional θ desco-
nhecido. Chamamos de hipótese nula H0 a afirmativa que é fechada sobre alguma
afirmativa do parâmetro desconhecido.

44
4.2. HIPÓTESE NULA 45

1) Teste de hipótese à esquerda


H0 : µx ≤ θ0
H1 : µx > θ0 (4.1)

Figura 4.1: Teste de hipótese à esquerda

2) Teste de hipótese bilateral


H0 : µx = θ0
H1 : µx ̸= θ0 (4.2)

Figura 4.2: Teste de hipótese bilateral

3) Teste de hipótese à direita


H0 : µx ≥ θ0
H1 : µx < θ0 (4.3)

Figura 4.3: Teste de hipótese à direita

Testamos sempre a hipótese nula.


4.3. TESTE DE HIPÓTESE PARA UMA AMOSTRA 46

4.3 Teste de Hipótese para uma amostra


Quando desejamos avaliar alguma afirmação sobre um parâmetro desconhecido de uma
popuação, podemos avaliar sob uma amostra. Nesse caso, estamos interesados em apenas
uma e única amostragem. Vale ressaltar que estamos testando uma afirmação à pri-
ori com base nos resultados encontrados em um subconjunto da população de interesse.
Dependendo do problema desejamos verificar a média, a proporção, a variância ou o des-
vio padrão no teste da hipótese. A figura 4.4 mostra-nos um resumo com os possíveis
caminhos para a resolução das hipóteses.

Figura 4.4: Algorítimo para o teste de hipótese para uma amostra

Por exemplo, suponha que desejamos avaliar a proporção de aceitação sobre um produto
ou serviço através de um questionário e, assim avaliar a hipótese da proporção popu-
lacional. O algorítimo indica a quantidade pivotal z-score a ser utilizada para o teste
da proporção. No caso da média devemos tomar cuidado com o conhecimento prévio
(ou não) do desvio padrão amostral σ, a depender de seu conhecimento podemos decidir
ora por um teste normal padrão z-score ora por um teste t-Student. Por outro lado, o
teste do desvio padrão ou variância segue com a mesma quantidade pivotal que seque a
distribuição qui-quadrado.
4.3. TESTE DE HIPÓTESE PARA UMA AMOSTRA 47

4.3.1 Teste de Hipótese para a média


O teste de hipótese para a média dependerá do conhcecimento prévio (ou não) da variância
populacional. Dois casos são possíveis, quando a variância σ 2 é conhecida ou quando temos
apenas acesso à variância das das amostras S 2 .

Teste de Hipótese para a média com σ 2 conhecida


Quando a variância é conhecida ou fornecida podemos usar essa informação da populacao
para encontrar a estatística de teste para decidir sobre a hipótese nula.

Definição

Sejam as variáveis aleatórias independentes e identicamente distribuídas X ∼ N (µ, σ 2 ),


com distribuição para a média

σ2
 
X̄ ∼ N µ; ,
n

temos a estatística de teste a quantidade

X̄ − µ
Z= √
σ/ n

A seguir demostramos como testar a hipótese para um desvio padrão ou variância conhe-
cida.

Exemplo
Um engenheiro civil quer verificar se a tensão admissível na tensão dos laminados de
ferro estão dentro do padrão estabelecido em normativa com tensão de 1250 kg/cm2 .
Uma amostra de 200 laminados de ferro apresentou uma média de x̄ = 1284,89 kg/cm2 .
No entanto, análises dos dados amostrais em levantamentos anteriores determinam um
desvio padrão de σ = ±7, 85kg/cm2 . Podemos afirmar que a média amostral está de
acordo com a média populacional estabelecida?

Sol. A hipótese é dada pela igualdade da média populacional com o valor da tensão
admissível na tensão dos laminados de ferro, ou seja
H0 : µ = 1250

Entrada dos dados Nível de significância Hipótese Quantidade Pivotal


n=200 Teste t-Student:
x̄ = 1284,89 α = 5% H0 : µ = 1250 X̄−µ
Z = σ/ √
n

• Quantidade Pivotal
X̄ − µ 1284, 89 − 1250
Z= √ = √ = 62, 85594
σ/ n 7, 85/ 200
4.3. TESTE DE HIPÓTESE PARA UMA AMOSTRA 48

• Valor z-Score tabelado: como refere-se ao teste de hipótese bilateral, temos a diluição
do nível de significância em dois lados, uma para a esquerda e outro para a direita,
cada um com a metade do nível de significância, isto é, α/2 = 2, 5%.

Figura 4.5: Teste bilateral

Utilizando a tabela z-Score ou utilizando sofrwares estatísticos como o software R,


encontraremos o valor 1.959964. A seguir o comando do sofware R:
1 > a l f a = 0.05
2 > qnorm(1− a l f a / 2 , mean = 0 , sd = 1 , l o w e r . t a i l = TRUE, l o g . p = FALSE)
3 [ 1 ] 1.959964
4 > qnorm ( a l f a / 2 , mean = 0 , sd = 1 , l o w e r . t a i l = TRUE, l o g . p = FALSE)
5 [ 1 ] −1.959964

Listing 4.1: Código fonte em R

• Conclusão: existem evidências suficientes para rejeitarmos a hipótese nula com o


nível de significância de α = 5%. De fato, a estatística de teste z-Score calculado foi
de 62,855 e, portanto, maior do que o limite superior |z| < 1.96. Concluímos que o
valor da média da tensão populacional dos laminados de ferro está acima da tensão
admissível sendo classificada como diferente do valor estabelecido.
4.3. TESTE DE HIPÓTESE PARA UMA AMOSTRA 49

Teste de Hipótese para a média com σ 2 desconhecida


Em muitas situações não temos o conhecimento prévio da variância populacional. Nesses
casos podemos utilizar a distribuição t-Student.

Definição

Sejam as variáveis aleatórias independentes e identicamente distribuídas X ∼ (µ, σ 2 ),


com variância populacional desconhecida. A estatística de teste é dada pela quantidade

X̄ − µ
T = √
S/ n

O exemplo seguinte demostra como executar o teste de hipótese quando não conhecemos
a variância populacional para única amostra.

Exemplo
Teste de hipótese da média do comprimento dos parafusos Uma amostra de
18 comprimentos de parafusos observações acusou x̄ = 6.08 cm e s = 0.2 cm. Teste a
hipótese de que a média populacional das peças µ é superior ou igual a 6.12 cm.

Entrada dos dados Nível de significância Hipótese Quantidade Pivotal


n=18 Teste t-Student:
x̄ = 6.08 α = 5% H0 : µ ≥ 6.12 cm tcalc = x̄−µ
√ x̄
s/ n
s = 0.2

• Quantidade Pivotal
6.08 − 6.12
tcalc = √ = −0.84852
0.2/ 18

• Tabela t-Student

tν=18−1=17 (0, 1) = tν=17 (0, 1)|α=5% = −1.740

Figura 4.6: Leitura da Tabela


4.3. TESTE DE HIPÓTESE PARA UMA AMOSTRA 50

• Conclusão: Como o valor da estatística de teste tcalc = −0.84852 > ttabelado =


−1.740, então não rejeitamos a hipótese nula em que a média parece ser superior
ou igual a 6.12 cm.

Figura 4.7: Leitura da Tabela

O exemplo sequinte apresenta o caso de decisão para uma distribuição bilateral. Q pro-
babilidade da estatística de teste deverá ser duplicada para encontrarmos a probabilidade
p-valor.

Teste de hipótese da média do comprimento de arcos


Exemplo
Um mecânico precisa verificar se a produção no comprimento dos arcos nos cortes
das secções dos cilindros de aço estão dento dos padrões especificados da fábrica. Os
desvios das peças devem ser nulos. Supondo que o erro segue uma distribuição normal
de probabilidade. Segue a amostra dos dados das variações nas medidas dos arcos:

V = {1223.67, 414.07, −1031.31, −645.61, 1473.57,


−290.86, 1410.35, −209.02, 88.01, 1092.72

Teste a hipótese ao nível se significância α = 5%.

Sol.

Entrada dos dados Nível de significância Hipótese Quantidade Pivotal


n=10 Teste t-Student:
x̄ = 352.559 α = 2.5% H0 : µ = 0 cm tcalc = x̄−µ
√ x̄
s/ n
s = 906.5701 (Bilateral)

• Quantidade Pivotal
352.559 − 0
tcalc = √ = 1.2298
906.5701/ 10
4.3. TESTE DE HIPÓTESE PARA UMA AMOSTRA 51

• Tabela t-Student

tν=10−1=9 (0, 1) = tν=9 (0, 1)|α=2.5% = ±2.262157

Figura 4.8: Teste da Hipótese. a) Área em vermelho, região de rejeição. b) Área em


amarelo: p-valor

• Conclusão: Como o valor da estatística de teste tcalc = +1.2298 < ttabelado =


|2.262157|, então não rejeitamos a hipótese nula em que os desvios oscilam em torno
de 0, com p − valor = 0.25.
• Saída no software R
1 > t . t e s t ( dados , mu=mu_x , a l t e r n a t i v e = c ( "two . s i d e d " ) , p a i r e d = FALSE)
2
3 One Sample t−t e s t
4
5 data : dados
6 t = 1 . 2 2 9 8 , d f = 9 , p−v a l u e = 0 . 2 5
7 a l t e r n a t i v e h y p o t h e s i s : t r u e mean i s not e q u a l t o 0
8 95 p e r c e n t c o n f i d e n c e i n t e r v a l :
9 −295.9622 1 0 0 1 . 0 8 0 2
10 sample e s t i m a t e s :
11 mean o f x
12 352.559

Listing 4.2: Código fonte em R


4.3. TESTE DE HIPÓTESE PARA UMA AMOSTRA 52

Teste de hipótese da temperatura de cura em porcelanas


Exemplo 1
Suponha peças de porcelana que devem ser colocadas em um forno com temperatura
máxima de 9000 C. Para alcançar o efeito desejado as artes deverão ser cozidas durante
uma hora até a metade do tempo máximo do forno e alcançar uma dureza média de
640 HV. Para verificar se as peças estão sendo cozidas adequadamente, verificou-se a
dureza em Vickers (HV) das mesmas após 6h e o resultado foi o seguinte:

Dureza = {642.2743, 649.9932, 639.7849, 645.9724, 639.5335, 643.1083,


635.9725, 637.9142, 640.3257, 637.9405, 641.7366, 642.7751} HV

Verifique se, em média, a dureza das peças está acima de 640 HV.

Sol.

Entrada dos dados Nível de significância Hipótese Quantidade Pivotal


n=12 Teste t-Student:
x̄ = 641.4443 α = 5% H0 : µ ≤ 640 HV tcalc = x̄−µ
√ x̄
s/ n
s = 3.828556 (unilateral à direita)

• Quantidade Pivotal
641.4443 − 640
tcalc = √ = 1.306786
3.828556/ 12

• Tabela t-Student

tν=12−1=11 (0, 1) = tν=11 (0, 1)|α=5% = ±2.795885

Figura 4.9: Teste da Hipótese. a) Área em vermelho, região de rejeição. b) Área em


amarelo: p-valor
4.3. TESTE DE HIPÓTESE PARA UMA AMOSTRA 53

• Conclusão: Com o P − valor = 10.9% > α, não há evidências para rejeitarmos a


hipótese nula. Portanto, em média na dureza das peças não está acima de 640 HV.
• Saída no software R
1 > t . t e s t ( dados , mu=mu_x , a l t e r n a t i v e = c ( " g r e a t e r " ) , p a i r e d = FALSE)
2
3 One Sample t−t e s t
4
5 data : dados
6 t = 1 . 3 0 6 8 , d f = 1 1 , p−v a l u e = 0 . 1 0 9
7 a l t e r n a t i v e h y p o t h e s i s : t r u e mean i s g r e a t e r than 640
8 95 p e r c e n t c o n f i d e n c e i n t e r v a l :
9 639.4594 Inf
10 sample e s t i m a t e s :
11 mean o f x
12 641.4443

Listing 4.3: Código fonte em R

Teste de hipótese da aceleração gravitacional


Exemplo 2
Um geofísico mensurou as seguintes acelerações gravitacionais no nível do mar:

V el. = {9.734829, 9.879522, 9.756522, 9.824244, 9.842595,


9.861562, 9.896072, 9.815759, 9.764854, 9.780770,
9.828262, 9.826991, 9.806367, 9.828706, 9.813432,
9.786592, 9.850252, 9.859613, 9.856672, 9.846067,
9.758632, 9.825311, 9.772975, 9.834987, 9.847514,
9.820982, 9.776334, 9.883923, 9.801187, 9.792655,
9.808035, 9.703936, 9.856304, 9.837018, 9.739714,
9.777945, 9.883145, 9.841244, 9.709871, 9.788747} m/s2

Para verificar se o valor médido está de acordo com o valor teórico exato de 9.80665
m/s2 , o pesquisador utilizou o software R para encontrando a seguinte saída:
> t.test(dados, mu=mu_x ,alternative = H1,paired = FALSE)

One Sample t-test

data: dados
t = 0.85267, df = 39, p-value = 0.3991
alternative hypothesis: true mean is not equal to 9.80665
95 percent confidence interval:
9.797932 9.828076
sample estimates:
mean of x
9.813004

Qual o resultado do teste?


4.3. TESTE DE HIPÓTESE PARA UMA AMOSTRA 54

Sol.

Entrada dos dados Nível de confiança Hipótese Quantidade Pivotal


n=40 Teste t-Student:
x̄ = 9.813004 1 − α = 95% H0 : µ = 9.80665 m/s2 tcalc = x̄−µ
√ x̄
s/ n
(bilateral)

O resultado mostrou que a média da amostra x̄ = 9.813004 equivale ao valor teórico µ =


9.80665 por um nível de confiança de 95%, demonstrando um p-valor 39.91%, portanto
maior do que o nível de sifnificância α = 5%, não rejeitando a hipótese nula de igualdade.
De fato, o resultado está entre 9.797932 e 9.828076 m/s2 .

Teste de hipótese do tempo de espera da rede clínica odontológica


Exemplo 3
O tempo de atendimento em uma rede de clínica odontológica segue uma distribuição
normal X ∼ N (17, 4) minutos. A diretoria fez um monitoramento na semana anterior
do tempo de espera dos clientes através de uma amostra de 151 pessoas, o resultado
médio foi de x̄ = 15±9 minutos. Teste a hipótese que a média populacional se manteve
em 17 minutos.

Sol.

Entrada dos dados Nível de significância Hipótese Quantidade Pivotal


n=151 Teste z-Score:
x̄ = 15 α = 5% H0 : µ = 17 min. zcalc = x̄−µ
√ x̄
s/ n
s=9 (bilateral)

• Quantidade Pivotal
15 − 17
zcalc = √ = −2.730712
9/ 151

• Tabela t-Student

zα/2 = ±1.644854
4.3. TESTE DE HIPÓTESE PARA UMA AMOSTRA 55

Figura 4.10: Teste da Hipótese. a) Área em vermelho, região de rejeição. b) Área em


amarelo: p-valor

• Conclusão: Com o P − valor = 0.0063 < α ou porque zcalc < −1.64, existem
evidências suficientes para rejeitarmos a hipótese nula de igualdade. Portanto, a
média populacional não é igual a 17 minutos de espera.

Teste de hipótese do tempo médio no uso de celulares por jovens


Exemplo 4
Os dados populacionais referente ao tempo de uso dos celulares pela população ado-
lescente é em média 98,20 minutos com σ = 68 minutos - dados do censo da cidade de
Nova Franca, cuja população estimada está com n = 106 mil pessoas. Teste a hipótese
de que o uso médio de celulares por adolescentes está acima de 98,60 minutos.

Sol.

Entrada dos dados Nível de significância Hipótese Quantidade Pivotal


n=106 000 Teste z-Score:
x̄ = 98.20 α = 5% H0 : µ ≤ 98.60 min. zcalc = x̄−µ
√ x̄
s/ n
σ = 68 (unilateral à direita)

• Quantidade Pivotal
98.20 − 98.60
zcalc = √ = −1.915155
68/ 106000

• Tabela t-Student

zα = +1.644854
4.3. TESTE DE HIPÓTESE PARA UMA AMOSTRA 56

Figura 4.11: Teste da Hipótese. a) Área em vermelho, região de rejeição. b) Área em


amarelo: p-valor

• Conclusão: Com o P −valor = 0.9445 > α ou porque zcalc < 1.64, existem evidências
suficientes para não rejeitarmos a hipótese nula de igualdade. Portanto, a média
populacional não é igual a 17 minutos de espera.

Teste de hipótese da distância percorrida por atletas


Exemplo 5
Segundo os dados do artigo "Human running performance from real-world big data"de
Emig T. e Peltonen J., Nature 2020, a velocidade de cruzamento em uma corrida vm
é aproximadamente normalmente distribuída com média de vm = 4, 4 m · s−1 . Em
uma amostra com n = 35 participantes foi encontrado uma média de cruzamento
x̄ = 4.1 ± 1.9 m · s−1 . Verifique se, de fato, a média é superior ou igual a vm = 4, 4
m · s−1 . (ref. https://www.nature.com/articles/s41467-020-18737-6/figures/2)

Sol.

Entrada dos dados Nível de significância Hipótese Quantidade Pivotal


n = 35 Teste z-Score:
x̄ = 4.1 α = 5% H0 : µ ≥ 4.4 min. zcalc = x̄−µ
√ x̄
s/ n
s = 1.9 (unilateral à esquerda)

• Quantidade Pivotal
4.1 − 4.4
zcalc = √ = −0.9341179
1.9/ 35
4.3. TESTE DE HIPÓTESE PARA UMA AMOSTRA 57

• Tabela t-Student

zα = −1.644854

Figura 4.12: Teste da Hipótese. a) Área em vermelho, região de rejeição. b) Área em


amarelo: p-valor

• Conclusão: Com o P − valor = 0.3502 > α ou porque zcalc > −1.64, existem
evidências suficientes para não rejeitarmos a hipótese nula de igualdade.

Teste de hipótese para quantidade de vendas alcançadas no mês


Exemplo 6
Uma loja de roupas deseja avaliar se os seus funcionários alcançaram a meta de vendas
programadaos no mês. Foi decidido em reunião que, em média, a loja deverá alcançar
150 vendas diárias no mês. Considerando as vendas semanais presenciais e pela internet
foram
V endas = {146, 138, 166, 163}

Sol.

Entrada dos dados Nível de significância Hipótese Quantidade Pivotal


n=4 Teste z-Score:
x̄ = 153.25 α = 5% H0 : µ = 150 vendas. tcalc = x̄−µ
√ x̄
s/ n
s = 13.45053 (bilateral)

• Quantidade Pivotal
153.25 − 150
tcalc = √ = 0.4832525
13.45053/ 4
4.3. TESTE DE HIPÓTESE PARA UMA AMOSTRA 58

• Tabela t-Student

tα/2 = ±3.182446

Figura 4.13: Teste da Hipótese. a) Área em vermelho, região de rejeição. b) Área em


amarelo: metade do p-valor

• Conclusão: Com o P − valor = 0.662 > α ou porque tcalc > −3.8 e tcalc < 3.8,
existem evidências suficientes para não rejeitarmos a hipótese nula de igualdade.
Portanto, a meta de vendas do mês foi alcançada.
4.3. TESTE DE HIPÓTESE PARA UMA AMOSTRA 59

4.3.2 Teste de Hipótese para a proporção


Podemos definir a proporção como sendo a quantidade
Y
p̂ =
n
sendo a soma Y = X dos elementos dicotômicos X = {0, 1}. Se X ∼ Bern(θ), temos
P
que a soma Y seguirá uma distribuição binomial Y ∼ bin(nθ, nθ(1 − θ)). Façamos θ ≡ p.
E, segundo a lei de De Moivre-Laplace:

Teorema

Dada uma função de distribuição das variáveis aleatórias definidas por zn = Y√nnpq
−np
,
onde yn ∼ Binom(n, p). Obteremos como resultado a convergência em distribuição

Yn − np
√ → N (0, 1)
npq

A distribuição amostral para a proporção está de acordo com o Teorema do Limite Central,
segundo De Muivre-Laplace citado acima:

Definição 4
Sejam X1 , X2 , X3 , · · · Xn v.a’s independentes e identicamente distribuídas com X ∼
Binom(N p, N pq), então  pq 
p̂ ∼ N p,
n
segue uma distribuição normal com média E(p̂) = p e variância V ar(p̂) = pq/n.

O teste de hipótese para a proporção segue a definição acima.


4.3. TESTE DE HIPÓTESE PARA UMA AMOSTRA 60

4.3.3 Teste de Hipótese para a variância ou desvio padrão


A quantidade pivotal para o teste da variância ou desvio padrão é dado por

(n − 1)s2
χ2 =
σ2
• Teste unilateal à direita

H0 : σ 2 ≤ σ02
H1 : σ 2 > σ02 (4.4)

Figura 4.14: Teste da Hipótese para H0 : σ 2 < σ02

• Teste unilateal à esquerda

H0 : σ 2 ≥ σ02
H1 : σ 2 < σ02 (4.5)

Figura 4.15: Teste da Hipótese para H0 : σ 2 > σ02


4.3. TESTE DE HIPÓTESE PARA UMA AMOSTRA 61

• Teste bilateral

H0 : σ 2 = σ02
H1 : σ 2 ̸= σ02 (4.6)

Figura 4.16: Teste da Hipótese para H0 : σ 2 = σ02

Se a estatística de teste estiver fora da região critica não rejeitamos a hipótese nula.

Teste de hipótese para variância na corrosão de metais


Exemplo 7
Um técnico em metalurgia deseja avaliar o grau de agressividade da ação atmosférica
na corrosão dos metais expostos à ambientes externos. A alta variação climática pode
interferir muito na corrosão dos metais. O tratamento químico têm eficácia quando
a variabiliade das corrosões estabilizam em σ 2 = 8mm2 . Foi mesurado o grau de
danificação das peças de metal através da profundidade da corrosão em milímetros em
sete pontos críticos.

P rof undidade = {19.85, 20.42, 18.66, 15.56, 16.66, 21.2, 18.1}

Deseja-se verificar se há necessidade de um novo tratamento químico nos metais.

Sol.

Entrada dos dados Nível de significância Hipótese Quantidade Pivotal


n=7 Teste χ2 :
2
x̄ = 18.63571 α = 5% H0 : σ 2 = 8 . χ2 = (n−1)s
σ2
s = 2.0365 (bilateral)
4.3. TESTE DE HIPÓTESE PARA UMA AMOSTRA 62

• Quantidade Pivotal

(n − 1)s2 (7 − 1)(2.0365)2
χ2calc = = = 3.110596
σ2 8

• Tabela χ2

χ2α/2 = 14.45
χ21−α/2 = 1.24

Figura 4.17: Teste da Hipótese. a) Área em vermelho, região de rejeição. b) Área em


amarelo: metade do p-valor

• Conclusão: Não há evidências significativas para rejeitarmos a hipótese nula à α =


5%. De fato, χ21−α/2 < 3.11 < χ2α/2 , isto é, a variação está em σ 2 = 8mm2 não
necesitando novo tratamento químico.
4.4. TESTE DE HIPÓTESE PARA DUAS AMOSTRAS 63

4.4 Teste de Hipótese para duas amostras


Certas sutuações nos deparamos na comparação de duas populações distitnas ou não. Por
exemplo, podemos desejar avaliar se duas linhas de produção diferem entre si ou, se há
diferença no tratamento médico antes e após um procedimento cirúrgico. No entanto,
devemos avaliar se as amostras são oriundas da memsa população e, nesse caso, define-
se a estatística de teste para o teste da diferença entre médias por técnicas diferentes.
O teste de hipótese para dudas amostras têm como objetivo avaliar se existe diferença
significativa entre dois grupos.

Figura 4.18: Algorítimo para o teste de hipótese para médias em duas amostras

Figura 4.19: Algorítimo para o teste de hipótese para variâncai e proporção em duas
amostras
Capítulo 5

Análise de Dados Categóricos

A Análise dos Dados Categóricos refere-se a um conjunto de métodos estatísticos e in-


ferênciais para tratar dados classificados por atribuição, nominais ou categorizados. A
variável aleatória é uma contagem

X : {x ∈ N}

Tempos duas formas de tratamento:


• Teste de hipótese (TH) para proporções As proporções são calculadas através
da soma de unidades Bernoulli, cuja va’s são 1 se sucesso e 0 se fracasso. Sendo
assim, para qualquer k ≤ n, temos:
P
k≤n x
p̂ =
n
Sendo que podemos avaliar para
– TH uma amostra Quando queremos testar a hipótese em um valor fixo p.
– TH duas amostras Quando o objetivo é comparar duas proporções ou a
diferença entre elas (p2 − p1 ).
• Testes de Aderência e Análise de Dados Categorizados Quando a análsie
refere-se a uma tabela de entrada cruzada, digamos uma variável V1 com n1 linhas
e outra variável V2 com n2 colunas (nXm), chamamos de tabela de contingência.
São exclusivamente testes de hipótese para distribuição χ2 . Nesses casos, temos três
possibilidade de análises:
– Teste de aderência (goodness of fit): Testa a adequação de um modelo pro-
babilístico conhecido nos dados observados.
– Teste da Independência Duas variáveis aleatórias podem (ou não) depen-
derem entre si. Varificar se a independência entre variáveis é o objetivo do
teste.
– Teste da Homogeneidade Quando comparamos vários grupos distintos,
amostras ou tratamentos, queremos avaliar se os "grupos"são homegêneos entre
si.

64
5.1. TABELAS DE CONTINGÊNCIA 65

5.1 Tabelas de contingência


São tabelas de duas entradas. O valor aij está associado a uma linha i e coluna j,
indicadores para a variável X e variável Y, respectivamente.

Variável X
x1 x2 x3 x3
y1 a11 a12 a13 a14
y2 a21 a22 a23 a24
Variável Y
y3 a31 a32 a33 a34
y4 a41 a42 a43 a44

Cada elemento aij refere-se ao valor observado. A soma das observações são escritas
por
• Soma em cada linha X
ai+ = aij
j=1

• Soma em cada coluna X


a+j = aij
i=1

• Soma total XX
a++ = aij = n
i=1 j=1

Valor esperado
Define-se o valor esperado para variáveis discretas por
X
E(x) = xP (x)

No caso das obsrvações, temos:

Variável X
x1 x2 x3 x3
y1 E11 E12 E13 E14
y2 E21 E22 E23 E24
Variável Y
y3 E31 E32 E33 E34
y4 E41 E42 E43 E44

O valor esperado para cada observável é dados por


ai+ · a+j
E(aij ) =
a++
5.1. TABELAS DE CONTINGÊNCIA 66

Para um raciocínio simples, considere a observação aij . Suponha a probabilidade da


observação para aij = xi ∩ yj . Nesse caso, temos:

P (xi ∩ yj ) = P (X = xi ) · P (Y = yj |xi ) (5.1)

Sabemos que P (X = xi ) é a marginal de X, enquanto P (Y = yj |xi ) é a marginal de Y,


condicionada a um valor de xi . A marginal de x pode ser escrita como
X X aij 1 X ai+
P (X = xi ) = P (xij ) = = aij =
j j
a++ a++ j a++

Se considerarmos que as variáveis aleatórias são independentes, então P (Y = yj |xi ) =


a+j
P (Y = yj ), resultado no equivalente P (Y = yj ) = a++ . Isso leva ao resultado que a
porbabilidade para P (xi ∩ yj ) será
ai+ a+j
P (xi ∩ yj ) = · (5.2)
a++ a++

Suponha que essa probabilidade equivale ao resultado da proporção diluída sobre todas
as observações a++ . De fato, o valor esperado pode ser entendido como E(•) = n · p
 
ai+ a+j ai+ a+j
E(aij ) = n · pij = a++ · P (xi ∩ yj ) = a++ · · =
a++ a++ a++

Observe a existência de um padrão na localização da observação na tabela de contingên-


cia.
ai+ · a+j
E(aij ) =
a++
Para cada linha/coluna encontramos o valor esperado, aquele o qual seria a quantidade
mais provável de ocorrer.

Quantidade Pivotal
A estatística de teste, chamada de estatística Qui-quadrado de Pearson, seque a distri-
buição χ2ν com ν graus de liberdade:

X (Ok − Ek )2
χ2ν = ; ∀k ∈ N∗
k
Ek
sendo as observações dada por "O"e o valor esperado por "E". O grau de liberade é o pro-
dudo dos graus de liberdade da quantidade de linhas e colunas da tabela de contingência
ν = νL · νC :
νL = (nL − 1) para L linhas
νC = (nC − 1) para C colunas
5.2. TESTE DE ADERÊNCIA 67

5.2 Teste de Aderência


Quando a proposta é avaliar se o modelo probabilístico está adequado às observações,
podemos avaliar pelo teste Qui-quadrado de Pearson na qualidade de ajuste. Seja npi ≥ 5
para i ∈ N∗ , a hipótese

H0 : O modelo proposto está adequado

ou
H0 : p1 = p2 = p3 = · · · = pn ; ∀i ̸= j
é testada pela estatística de teste (quantidade pivotal)
Pk 2
2 i=1 (ni − npi0 )
χcalc =
npi0
sendo E(xi ) = npi0 , com grau de liberdade k −1. Rejeita-se a hipótese quando o resultado
da estatística de teste se encontrar na região crítica, isto é; χ2calc ≥ χ2α,k−1

Obs ou ni n1 n2 ··· n3
E(x) = npi0 E(x1 ) E(x2 ) ··· E(n3 )

A hipótese refere-se que não há diferença nas frequências observadas (Obs) e esperadas
E(x). Se isso ocorre, o modelo probabilístico têm a mesma distribuição da observa-
ção.
Ex1. Suponha jogar um dado de seis faces 120 vezes. Dada a frequência na observação
de cada face, verifique se o dado é honesto segundo a tabela abaixo:

Face 1 2 3 4 5 6
Obs. 20 22 17 18 19 24

Sol.

1) Hipótese
H0 : O dado é honesto

2) Valor esperado E(x) O lace dos dados seque a distribuição Binomial


 
N x
P (X = x) = θ (1 − θ)N −x
x

A quantidade esperada para a observação de qualquer face, dada a distribuição,


é dada por
E(X) = N θ
Supomos aqui que o dado é honesto com probabilidade
1 1
θ= = ,
N 6
5.2. TESTE DE ADERÊNCIA 68

tal que para uma quantidade de n = 120 lances, o número obsrvado esperado
deverá seguir uma distribuição Binomial para cada face, cujo resultado é:
1 1
E(x) = nθ = n = 120 · = 20
N 6
Portanto, podemos esperar os seguintes resultados:

Face 1 2 3 4 5 6
Obs. 20 22 17 18 19 24
Esperado. 20 20 20 20 20 20

3) Estatística de teste
6
X (Ok − Ek )2
χ2calc = (5.3)
k=1
Ek
(20 − 20)2 (22 − 20)2 (17 − 20)2 (18 − 20)2 (19 − 20)2 (24 − 20)2
= + + + + +
20 20 20 20 20 20
≈ 1, 7

3) Valor crítico χ2ν Considere a quantiade de 6 observações ou seis colunas. O


grau de liberdade é dado por:

ν = (nc − 1) = (6 − 1) = 5; 1 − α = 95%

Figura 5.1: Tabela qui-quadrado

4) Teste da hipótese H0 Como o valor da estaística de teste χ2ν = 1, 7 < 11, 070 =
χ2tab , encontra-se na região de acitação 1 − α, não rejeitamos a hipótese nula.
5) Conclusão Exitem evidências significativas para apoiarmos a hipótese nula com
95% de confiança. Portanto, o dado pode ser considerado honesto.
5.2. TESTE DE ADERÊNCIA 69

Figura 5.2: Área p-valor= 88, 89% em azul e o nível de significância α = 5% em vermelho.

No software R:
> Dados <- as.table(rbind(c(20, 22, 17, 18, 19, 24)))
> dimnames(Dados) <- list(
+ Linha = c("saida"),
+ Faces = c("face 1","face 2","face 3","face 4","face 5","face 6")
+ )
>
> Dados
Faces
Linha face 1 face 2 face 3 face 4 face 5 face 6
saida 20 22 17 18 19 24

> # teste Independencia


> Qui2 <- chisq.test(Dados); Qui2

Chi-squared test for given probabilities

data: Dados
X-squared = 1.7, df = 5, p-value = 0.8889

>
> # Valores Obervados
> Qui2$observed
[1] 20 22 17 18 19 24
>
> # Valores Esperados
> Qui2$expected
[1] 20 20 20 20 20 20
>
>
> alfa = 0.05
> ggplot(data.frame(x = c(0, 25)), aes(x)) +
+ stat_function(fun = dchisq, args =list(df =Qui2$parameter)) +
+ stat_function(fun = dchisq, args =list(df =Qui2$parameter),
+ xlim = c(Qui2$statistic,25),
+ geom = "area",
+ alpha = .2,
+ fill = "blue")+
+ stat_function(fun = dchisq, args =list(df =Qui2$parameter),
+ xlim = c(qchisq(1-alfa,Qui2$parameter),25),
+ geom = "area",
+ alpha = .2,
+ fill = "red")
5.3. TESTE DE HOMEGENEIDADE 70

5.3 Teste de Homegeneidade


Considere uma tabela de contagem com entrada dupla.

Variável X
x1 x2 x3 x3
y1 a11 a12 a13 a14
y2 a21 a22 a23 a24
Variável Y
y3 a31 a32 a33 a34
y4 a41 a42 a43 a44

Seja a proporção de indivíduos na população i que "cai"na categoria "j". A hipótese a


ser testada é:

H0 : Todas as possibilidades numa mesma coluna são iguais


ou
H0 : p1j = p1j = p2j = · · · pnj ; ∀j
tal que a estatística de teste, chamada de estatística Qui-quadrado de Pearson, seque a
distribuição χ2ν com ν graus de liberdade:

X (Ok − Ek )2
χ2ν = ; ∀k ∈ N∗
k
Ek
sendo as observações dada por "O"e o valor esperado por "E". O grau de liberade é o
produdo dos graus de liberdade da quantidade de linhas e colunas da tabela de contin-
gência:
ν = (nL − 1)(nC − 1)
A decisão do teste se faz para χ2calc ≤ χ2tab,ν,1−α ou quando a probabilidade da estatística
de teste p-valor for
P (χ2tab,ν,1−α > χ2calc |H0 ) < α
Ex1. Suponha duas linhas de produção. A tabela abaixo conta as quantidades de peças
classificadas como conforme (Conf.), não conforme (N.Conf.) e recuperadas (Rec.).
Os dados demostram que as proporções em cada categoria são as mesmas para as
duas linhas de produção.

Classificação
Conforme Não conforme Recuperado
Linha 1 32 18 12
Linha 2 43 15 17
5.3. TESTE DE HOMEGENEIDADE 71

No software R:
\begin{lstlisting}[caption={Código fonte em R}, label=lst:rcode]
> Dados <- as.table(rbind(c(32,18,12), c(43,15,17)))
> dimnames(Dados) <- list(
+ Linha = c("Linha 1", "Linha 2"),
+ Classificacao = c("Conforme","Nao conforme", "Recuperado")
+ )
> Dados
Classificacao
Linha Conforme Nao conforme Recuperado
Linha 1 32 18 12
Linha 2 43 15 17

Sol.
Vamos avaliar a proporção em cada classificação.

Classificação
Conforme Não conforme Recuperado
Linha 1 32 18 12
Linha 2 43 15 17
Total 75(p̂c = 54, 7%) 33(p̂nc = 24, 1%) 29(p̂rec = 21, 2%)

1) Hipótese
A hipótese a ser testada é

H0 : pc = pnc = prec

ou
H0 : p1+ = p2+ = p3+
Isto é, as proporções conforme, não conforme e recuperado são iguais? Ou seja,
são homogêneas, igualmente distribuídas?
2) Valor esperado E(x) Primeiramente preciamos encontrar as somas marginais

Classificação
Conforme Não conforme Recuperado ai+
Linha 1 32 18 12 62
Linha 2 43 15 17 75
a+j 75 33 29 a++ = 137

Aplicando o valor esperado


ai+ · a+j
E(aij ) =
a++
obtemos para a linha 1
a1+ · a+1 62 · 75
32 → E(a11 ) = = = 33, 941
a++ 137
a1+ · a+2 62 · 33
18 → E(a12 ) = = = 14, 934
a++ 137
5.3. TESTE DE HOMEGENEIDADE 72

a1+ · a+3 62 · 29
12 → E(a13 ) = = = 13, 124
a++ 137
e, para a linha 2
a2+ · a+1 75 · 75
43 → E(a21 ) = = = 41, 0581
a++ 137
a2+ · a+2 75 · 33
15 → E(a22 ) = = = 18, 065
a++ 137
a2+ · a+3 75 · 29
17 → E(a23 ) = = = 15, 875
a++ 137

Alocando os valores observados O e esperados E com O(E), temos:

Classificação O(E)
Conforme Não conforme Recuperado
Linha 1 32(33,941) 18(14,934) 12(13,124)
Linha 2 43(41,058) 15(18,065) 17(15,875)

No software R:
> Qui2 <- chisq.test(Dados); #Qui2
>
> # Valores Obervados
> Qui2$observed
Classificacao
Linha Conforme Nao conforme Recuperado
Linha 1 32 18 12
Linha 2 43 15 17
>
> # Valores Esperados
> Qui2$expected
Classificacao
Linha Conforme Nao conforme Recuperado
Linha 1 33.94161 14.93431 13.12409
Linha 2 41.05839 18.06569 15.87591

3) Estatística de teste

6
X (Ok − Ek )2
χ2calc = (5.4)
k=1
Ek
(32 − 33, 941)2 (18 − 14, 934)2 (12 − 13, 124)2 (43 − 41, 058)2
= + + +
33, 941 14, 934 13, 124 41, 058
2 2
(15 − 18, 065) (17 − 15, 875)
+ +
18, 065 15, 875
≈ 1, 528

4) Valor crítico χ2ν Considere a quantidade das observações linha e coluna,


ν = (nc − 1)(nL − 1) = (3 − 1)(2 − 1) = 2; 1 − α = 95%

No software R:
5.3. TESTE DE HOMEGENEIDADE 73

Figura 5.3: Tabela qui-quadrado

> Qui2 <- chisq.test(Dados); Qui2

Pearson's Chi-squared test

data: Dados
X-squared = 1.5283, df = 2, p-value = 0.4657

5) Conclusão
A decisão do teste se faz para χ2calc ≤ χ2tab,ν,1−α ou quando a probabilidade da
estatística de teste p-valor for

P (χ2tab,ν,1−α > χ2calc |H0 ) < α

De fato,
χ2calc ≤ χ2tab,ν,1−α → 1, 528 ≤ 5, 991
decidimos em não rejeitar a hipótese nula para α = 5%. Isto é, a probabilidade
da estatística de teste χ2calc = 1.5283 é o p-valor 46,67%, o qual é maior do que
o nível de significância α = 5%. Portanto, as proporções não diferem.
No software R:
alfa = 0.05
ggplot(data.frame(x = c(0, 7)), aes(x)) +
stat_function(fun = dchisq, args =list(df =Qui2$parameter)) +
stat_function(fun = dchisq, args =list(df =Qui2$parameter),
xlim = c(Qui2$statistic,7),
geom = "area",
alpha = .2,
fill = "steelblue")+
stat_function(fun = dchisq, args =list(df =Qui2$parameter),
xlim = c(qchisq(1-alfa,Qui2$parameter),7),
geom = "area",
alpha = .2,
fill = "red")

Figura 5.4: Área p-valor em azul e o nível de significância α em vermelho


5.4. TESTE DE INDEPENDÊNCIA 74

5.4 Teste de Independência


A proposta é verificar se as variáveis X e Y são independentes. Lembramos aqui, a
distribuição conjunta

P (X = x, Y = y) = P (X = x) · P (Y = y)

quando puder ser fatorada em suas marginais, obtemos o resultado de independência.


Daqui tiramos a hipótese a ser testada:

H0 : pij = pi+ · p+j

tal que a estatística de teste, chamada de estatística Qui-quadrado de Pearson, seque a


distribuição χ2ν com ν graus de liberdade:

X (Ok − Ek )2
χ2ν = ; ∀k ∈ N∗
k
Ek
sendo as observações dada por "O"e o valor esperado por "E". O grau de liberade é o
produdo dos graus de liberdade da quantidade de linhas e colunas da tabela de contin-
gência:
ν = (nL − 1)(nC − 1)
A decisão do teste se faz para χ2calc ≤ χ2tab,ν,1−α ou quando a probabilidade da estatística
de teste p-valor for
P (χ2tab,ν,1−α > χ2calc |H0 ) < α
EX. Sejam duas variáveis distintas: velocidade e marca. Suponha querer determinar se
as velocidades do automóvel são independentes do consumo médio com relação à
marca.

80km/h 100km/h 120km/h


Marca A 21 15 10
Marca B 14 12 8
Marca C 21 15 10

No software R:
> Dados <- as.table(rbind(c(21,15,10), c(14,12,8),c(21,15,10)))
> dimnames(Dados) <- list(
Marca = c("A", "B","C"),
Velocidade = c("80km/h","100km/h", "120km/h"))
> Dados
Velocidade
Marca 80km/h 100km/h 120km/h
A 21 15 10
B 14 12 8
C 21 15 10
>

1) Hipótese

H0 : As variáveis velocidade e marca são independentes


5.4. TESTE DE INDEPENDÊNCIA 75

2) Valor esperado E(x)

80km/h 100km/h 120km/h ai+


Marca A 21 15 10 46
Marca B 14 12 8 34
Marca C 21 15 10 46
a+j 56 42 28 a++ = 126

Aplicando o valor esperado


ai+ · a+j
E(aij ) =
a++

Alocando os valores observados O e esperados E com O(E), temos:

80km/h 100km/h 120km/h


Marca A 21(20,444) 15(15,333) 10(10,222)
Marca B 14(15,111) 12(11,333) 8(7,555)
Marca C 21(20,444) 15(15,333) 10(10,222)

No software R:

> # teste Independencia


> Qui2 <- chisq.test(Dados); #Qui2
>
> # Valores Obervados
> Qui2$observed
Velocidade
Marca 80km/h 100km/h 120km/h
A 21 15 10
B 14 12 8
C 21 15 10
>
> # Valores Esperados
> Qui2$expected
Velocidade
Marca 80km/h 100km/h 120km/h
A 20.44444 15.33333 10.222222
B 15.11111 11.33333 7.555556
C 20.44444 15.33333 10.222222

3) Estatística de teste

6
X (Ok − Ek )2
χ2calc = (5.5)
k=1
Ek
(21 − 20, 444)2 (15 − 15, 333)2 (10 − 10, 222)2
= + +
20, 444 15, 333 10, 222
2 2
(14 − 15, 111) (12 − 11, 333) (8 − 7, 555)2
+ + +
15, 111 11, 333 7, 555
2 2
(21 − 20, 444) (15 − 15, 333) (10 − 10, 222)2
+ + +
20, 444 15, 333 10, 222
≈ 0, 2014
5.4. TESTE DE INDEPENDÊNCIA 76

No software R:
> Qui2 <- chisq.test(Dados); Qui2

Pearson's Chi-squared test

data: Dados
X-squared = 0.20141, df = 4, p-value = 0.9953

4) Valor crítico χ2ν


Considere a quantidade das observações linha e coluna,

ν = (nc − 1)(nL − 1) = (3 − 1)(3 − 1) = 4; 1 − α = 95%

Figura 5.5: Tabela qui-quadrado

5) Conclusão
A decisão do teste se faz para χ2calc ≤ χ2tab,ν,1−α ou quando a probabilidade da
estatística de teste p-valor for

P (χ2tab,ν,1−α > χ2calc |H0 ) < α

De fato,
χ2calc ≤ χ2tab,ν,1−α → 0, 2014 ≤ 9, 488
Para a estatística de teste χ2calc = 0, 2014, a sua probabilidade, chamada de
p-valor é de 0,9953, sendo essa maior do que o nivel de significância α = 5%.
Assim, decidimos em aceitar a hipótese nula para esse nível de significância.
Portanto, as variávies velocidade e marca podem ser consideradas independen-
tes.
No software R:
alfa = 0.05
ggplot(data.frame(x = c(0, 7)), aes(x)) +
stat_function(fun = dchisq, args =list(df =Qui2$parameter)) +
stat_function(fun = dchisq, args =list(df =Qui2$parameter),
xlim = c(Qui2$statistic,7),
geom = "area",
alpha = .2,
fill = "steelblue")+
stat_function(fun = dchisq, args =list(df =Qui2$parameter),
xlim = c(qchisq(1-alfa,Qui2$parameter),7),
geom = "area",
alpha = .2,
fill = "red")
5.4. TESTE DE INDEPENDÊNCIA 77

Figura 5.6: Área p-valor em azul e o nível de significância α em vermelho


Capítulo 6

Análise de Variância

Quando o nosso objetivo é verificar se há diferenca entre muitos grupos, mais do que
dois, então podemos usar a análsie de variância, cuj objetivo é avaliar se há diferença
significativa na média populacional, em pelo menos um grupo.

6.1 Experimento com único fator


Quando existe uma e única variável de interesse, dizemos que o experimento é de único
fator.

6.2 Delineamento Completamente Casualisado (RCC)


A proposta é verificar se existe diferença entre tratamentos T1 , T2 , T3 ... Ta . A hipótese
a ser testada será dada por:


H0 : µT 1 = µT 2 = µT 3 = ... = µT K = ... = µT a
H1 : ∃µl ̸= µs

O modelo DCC inclui a variável dependente yi,j como função dos tratamentos αi , cujo
erro ϵ segue uma distribuição normal, homocedástica e independente ϵ ∼ N (0, σϵ2 ):

yij = µ + αi + +ϵij

A tabela de observação dos resultados yij deve ser organizada em a-tratamentos T na linha
com as suas respectivas n-amostras nas colunas, resultando em N = n · a observações.

Teorema
A identidade da soma dos quadrados fornece
n X
X a a
X n X
X a
2 2
(yij − y¯.. ) = n (y¯i. − y¯.. ) + (yij − y¯i. )2
i j i i j

78
6.2. DELINEAMENTO COMPLETAMENTE CASUALISADO (RCC) 79

Tratamentos I II ... k ... n Total Média


T1 y11 y12 ... y1k ... y1n Y1. Y¯1.
T2 y21 y22 ... y2k ... y2n Y2. Y¯2.
... ... ... ... ... ... ... ... ...
Ta ya1 ya2 ... yak ... yan Yn. Y¯a.
Y..
Y¯..

Sob este aspecto chamaremos cada termo por:


• Soma dos quadrados totais: SQT = ni aj (yij − y¯.. )2
P P

• Soma dos quadrados dos tratamentos: SQtrat = n ni (y¯i. − y¯.. )2


P

• Soma dos quadados dos erros: SQE = ni aj (yij − y¯i. )2


P P

Como vimos, estes termos podem ser expandidos (A±B)2 = A2 ±2AB +B 2 sem perda de
genaralidade; lembrando que o termo cruzado AB é nulo dada a ortogonalidade entre A e
B. O motivo para isso é encontrar uma simetria nas somas com o objetivo de relacionar as
respectivas variâncias. O resultado da simetria auxilia-nos muito na condução de outros
croquis mais avançados. Vamos definir aqui o termo constante chamado de corretor:

y..2
C= N =n·a
N
Ou seja,
• Soma dos quadrados totais: SQT =
Pn Pa
yij2 − C
i j

• Soma dos quadrados dos tratamentos: SQtrat = n1 ni yi.2 − C


P

• Soma dos quadados dos erros: SQE = SQT − SQreg


6.2. DELINEAMENTO COMPLETAMENTE CASUALISADO (RCC) 80

Teorema

n X
X a
SQT = (yij − y¯.. )2 (6.1)
i j
n
XXa
= (yij2 + y¯.. 2 − 2yij y¯.. )
i j
n
XXa n X
X a n X
X a
= yij2 + 2
y¯.. − 2y¯.. yij
i j i j i j
n a
XX na
= yij2 + nay¯.. 2 − 2y¯.. y..
i j
na
n
XXa
= yij2 + nay¯.. 2 − 2nay¯.. 2
i j
n
XXa  y 2
..
= yij2 − na ; como N = n · a
i j
na
n a
XX y..2
= yij2 −
i j
N

E aqui definimos o corretor como sendo

y..2
C=
N

Questão
Mostre que
n a
X 1X 2
2
SQtrat = n (y¯i. − y¯.. ) = y −C
i
n j i.

Finalmente, além da tabela de análise de variância ficar mais compacta ela mostra-nos
um padrão verificado no exercício acima.

Fonte SQ DF(ν) MS F P-valor


Tratamentos SQtrat = n1 ni yi.2 − C M Strat = SQ M Strat
P
a−1 trat
N −a
F = M SE
prob
Erro SQE = SQT − SQreg N-a M SE = SQE
N −a
Total SQT = ni aj yij2 − C N-1
P P
6.2. DELINEAMENTO COMPLETAMENTE CASUALISADO (RCC) 81

Exemplo
Seis máquinas diferentes estão sendo consideradas para o uso de fabricação. As máqui-
nas estão sendo comparadas em relação à resistência à tensão do produto. A resposta
da máquina é a resistência à tensão em kg/cm2 X10−1 . Verifique se as tensões na
fabricação diferem entre si.

T1 T2 T3 T4 T5 T6
1.750 1.770 1.755 1.703 1.776 1.635
1.705 1.716 1.745 1.723 1.628 1.703
1.740 1.700 1.745 1.741 1.707 1.672
1.698 1.702 1.695 1.795 1.672 1.697

Solução:

O objetivo é testar a seguinte hipótese


H0 : µT 1 = µT 2 = µT 3 = µT 4 = µT 5 = µT 6
Primeiramente vamos organizar os dados

TratReplicas I II III IV yi. y¯i.


T1 1.750 1.705 1.740 1.698 6.893 1.72325
T2 1.770 1.716 1.700 1.702 6.888 1.72200
T3 1.755 1.745 1.745 1.695 6.940 1.73500
T4 1.703 1.723 1.741 1.795 6.962 1.7405
T5 1.776 1.628 1.707 1.722 6.833 1.70825
T6 1.635 1.703 1.672 1.697 6.707 1.67675
Total 41.223
2 2 2
• Cálculo do coeficiente corretor C = yN.. = 41.223
6·4
= 41.223
24
= 70.80566
• Cálculo de SQT = i j yij − C = [(1.750)2 + (1.705)2 + ... + (1.795)2 + ... +
Pn Pa 2

(1.697)2 ] − 70.80566 = 70.84235 − 70.80566 = 0.03669763


• Cálculo de SQtrat = n1 aj yi.2 − C = 14 [(6.893)2 + (6.888)2 + (6.940)2 + (6.962)2 +
P

(6.833)2 + (6.707)2 ] − 70.80566 = 70.81619 − 70.80566 = 0.01053837


• Cálculo do erro: SQE = SQT − SQtrat = 0.03669763 − 0.01053837 = 0.02615926

Fonte SQ DF(ν) MS F P-valor


Tratamentos 0.01053837 5 0.01053837
5
= 0.002107674 0.002107674
0.001453292
= 1.450276 0.2545
Erro 0.02615926 18 0.02615926
18
= 0.001453292
Total 0.03669763 23

Para validar o experimento e o teste de hipóteses devemos verificar todos os Pressupostos


da normalidade, homocedasticidade e independência dos resíduos para o modelo DCC.
6.3. ANÁLISE DE VARIÂNCIA PARA DOIS FATORES 82

Figura 6.1: Pressupostos da normalidade, homocedasticidade e independência dos resí-


duos para o modelo DCC

Como não há diferença significativa entre as médias em relação à resistência à tensão do


produto, temos evidência suficiente para aceitar a hipótese nula: H0 : µT 1 = µT 2 = µT 3 =
µT 4 = µT 5 = µT 6
> # Recolhendo as amostras
> T1<-c(1.750,1.705,1.740,1.698)
> T2<-c(1.770,1.716,1.700,1.702)
> T3<-c(1.755,1.745,1.745,1.695)
> T4<-c(1.703,1.723,1.741,1.795)
> T5<-c(1.776,1.628,1.707,1.722)
> T6<-c(1.635,1.703,1.672,1.697)

> # Criando a eestrutura dos dados conforme o croqui


> resp<-c(T1,T2,T3,T4,T5,T6)
> trat<-c(rep("T1",length(T1)),
> rep("T2",length(T2)),
> rep("T3",length(T3)),
> rep("T4",length(T4)),
> rep("T5",length(T5)),
> rep("T6",length(T6)))
> dados<-data.frame(trat)
> dados$resp<-as.numeric(resp)

> # avaliacao da analise de variancia


> exp.aov<-aov(dados$resp~dados$trat)
> summary(exp.aov)

O resultado da análise variacional utilizando o software R obteremos


> summary(exp.aov)
Df Sum Sq Mean Sq F value Pr(>F)
dados$trat 5 0.01054 0.002108 1.45 0.255
Residuals 18 0.02616 0.001453
>

O que, de fato, confere com os resultados obtidos manualmente.

6.3 Análise de variância para dois fatores


Considera-se uma tabela de entrada dupla, supondo dois fatores. Cada fator é subdividido
por níveis. A finalidade deste
O modelo proposto é:
yij = µ + τi + βj + γijk + ϵijk


 i = 1, 2, 3, · · · , a
j = 1, 2, 3, · · · , b
k = 1, 2, 3, · · · , n

tendo τi o efeito do nível i no fator A, βj o efeito do nível j no fator B e γij o efeito da


interação entre os fatores A e B.
As hipóteses são as seguintes
6.3. ANÁLISE DE VARIÂNCIA PARA DOIS FATORES 83

• Efeitos de A 
H0 : τ1 = τ2 = τ3 = ... = τa
H1 : ∃ τl ̸= τs

• Efeitos de B 
H0 : β1 = β2 = β3 = ... = βb
H1 : ∃ βl =
̸ βs

• Interação AB 
H0 : γ11 = γ12 = γij = ... = γab
H1 : ∃ γlm ̸= γvs

A configuração do croqui utilizado poderá ser observado na tabela abaixo

Fator A/ Fator B B1 B2 ... Bp ... Bb Total Média


y111 y112 y121 y122 y1b1 y1b2
A1 ... ··· ... Y1.. Y¯1..
y113 y11k y123 y12k y1b3 y1bk
y211 y212 y221 y222
A2 ... ··· ... ··· Y2.. Y¯2..
y213 y21k y223 y22k
... ... ... ... ... ... ... ... ...
ya11 ya12 ya21 ya22 yab1 yab2
Aa ... ··· ... Yb.. Y¯b..
ya13 ya1k ya23 ya2k yab3 yabk
Total Y.1. Y.2. ... Y.p. ... Y.a. Y...
Média Y¯.1. Y¯.2. ... Y¯.p. ... Y¯.a. Y¯...

Sendo respectivamente as somas:


• Soma nos níveis de A
( Pb Pn
yi.. = j=1 k=1 yijk
yi..
y¯i.. = bn

• Soma nos níveis de B


 Pa Pn
y.j. = i=1 k=1 yijk
yi..
y¯.j. = an

• Soma nas réplicas ou amostras

yij. = nk=1 yijk


 P
y
y¯ij. = nij.

• Soma total ( Pa Pb Pn
yijk = i=1 j=1 k=1 yijk
yijk
yijk
¯ = abn
6.3. ANÁLISE DE VARIÂNCIA PARA DOIS FATORES 84

Teorema
A identidade da soma dos quadrados fornece
a X
X b X
n a
X b
X
2 2
(yijk − y¯··· ) = bn (y¯i.. − y¯··· ) + an (y¯.j. − y¯··· )2
i j k i j
a X
X b
+ n (yij. − y¯i.. − y¯.j. + y¯... )2
i j
a X
X b X
n
+ (yijk − y¯ij )2
i j k

Sob este aspecto chamaremos cada termo por:


• Soma dos quadrados totais: SQT = ai bj nk (yijk − y¯··· )2
P P P

• Soma dos quadrados do fator A: SQA = bn ai (y¯i.. − y¯··· )2


P

• Soma dos quadrados do fator B: SQB = an bj (y¯.j. − y¯··· )2


P

• Soma dos quadrados da interação dos fatores AB: n ai bj (yij. − y¯i.. − y¯.j. + y¯... )2
P P

• Soma dos quadados dos erros: SQE = ai bj (yij − y¯i. − y¯.j + y¯.. )2
P P

Ou utilizando o corretor
2
y···
C=
abn
podemos reescrever a anova para duplo fatorial por

Fonte SQ DF(ν) MS F P-valor


Fator A a-1
Pa 2
1
SQA = bn y −C M SA = SQ A
F = M SA
P val
Pib i.. a−1 M SE
Fator B 1
SQB = an j y.j. 2
−C b-1 M SB = SQ
b−1
B
F = M SB
M SE
P val
Inter AB 1 a b 2
(a-1)(b-1) SQAB M SAB
P P
SQAB = n i j yij. − C M SAB = (a−1)(b−1) F = M SE
P val
Erro SQE = SQT − SQreg ab(n − 1) SQE
M SE = ab(n−1)
Total SQT = ai bj nk yijk abn-1
P P P 2
−C
6.3. ANÁLISE DE VARIÂNCIA PARA DOIS FATORES 85

Exemplo
Seis máquinas diferentes estão sendo consideradas para o uso de fabricação. As máqui-
nas estão sendo comparadas em relação à resistência à tensão do produto. A resposta
da máquina é a resistência à tensão em kg/cm2 X10−1 . Verifique se as tensões na
fabricação diferem entre si para o novo caso: suponha que cada funcionário opere as
máquinas em três etapas diferentes. Há diferença entre os operadores? Há diferença
entre as máquinas? Existe intereação entre máquinas e os operadores? Desenvolva os
procedimentos de cálculo em uma planilha ou desenvolva um programa no software R.

ETAPA I T1 T2 T3 T4 T5 T6
Oper. 1 17.5 16.4 20.3 14.6 17.5 18.2
Oper. 2 16.9 19.2 15.7 16.7 19.2 16.2
Oper. 3 15.8 17.7 17.8 20.8 16.5 17.5
Oper. 4 18.6 15.4 18.9 18.9 20.5 20.1

ETAPA II T1 T2 T3 T4 T5 T6
Oper. 1 17.4 18.9 22.3 16.8 17.5 25.6
Oper. 2 18.0 18.5 20.4 16.4 13.6 20.2
Oper. 3 16.1 16.3 16.4 21.1 11.6 15.3
Oper. 4 17.7 18.5 13.0 14.9 21.3 21.3

ETAPA III T1 T2 T3 T4 T5 T6
Oper. 1 17.7 17.8 21.4 18.2 15.6 22.2
Oper. 2 10.8 16.4 13.9 15.4 22.4 18.9
Oper. 3 15.8 17.9 22.1 16.5 23.7 16.6
Oper. 4 15.5 16.9 19.9 18.6 17.8 14.4
6.4. PRESSUPOSTOS DA ANÁLISE 86

6.4 Pressupostos da análise


Espera-se que os resíduos dos dados sejam independentes e sigam uma distribuição nor-
mal com média nula e variância σϵ2 , isto é, ϵ ∼ N (0, σϵ2 ). Para a independência dos
resíduos, considera-se que as unidades experimentais são todas não correlacionadas no
projeto e desenvolvimento do croqui do experimento. Os seguintes pressupostos devem
ser atendidos:
• Independência dos resíduos A consequência da Independência é a correlação
nula entre as observações, isto é,
Y
f (ϵ̃) = f (ϵ) ⇒ cov(ϵi , ϵj ) = 0, ∀i ̸= j
i

• Normalidade dos resíduos Os resíduos devem seguir uma distribuição normal de


probabilidade com média nula µ = 0 e variância própria σϵ2 .

e ∼ N (0, σϵ2 )

Existem muitos testes de hipóteses para verificar a normalidade dos resíduos. O


mais popularmente utilizado é o teste de Shapiro e Wilk. Em alguns casos casos, o
teste de Anderson-Darling pode ser apropriado.
• Homocedasticidade dos Resíduos Os resíduos devem apresentar variabilidades
equivalentes ou seja, igual variação. Esse omportamento chamamos de homocedas-
ticidade. O teste de Levene ou Bartlett é muito útil para a verificação da homoce-
dasticidade dos resíduos.
Capítulo 7

Correlação

7.1 Variância, covariância e correlação


7.1.1 Variância
Já vimos que a variância é definida por:

V AR(X) = E[(x − E(x))2 ] = E(X 2 ) − E(X)2 (7.1)


n
X Xn X
V AR( X) = Xi + 2 COV (Xi , Xj ) (7.2)
i=1 i=1 i<j

sendo a covariância a variabilidade compartilhada entre duas variáveis aleatórias:

7.1.2 Covariância
A variância compartilhada entre duas variváeis denominamos covariância cov(X, Y ).

Definição
A covariância é definida como sendo a variância compartilhada. Define-se pela espe-
rança do produto dos desvios de duas variáveis aleatórias: E(dXi dXj ), ou seja:

COV (Xi , Xj ) = E[(Xi − E(Xi ))(Xj − E(Xj ))] = E(Xi Xj ) − E(Xi )E(Xj )(7.3)

Podemos interpretar a covariância como sendo o quanto a aleatoriedade de uma variável


interage com uma segunda variável aleatória.
• Variância populacional de x:

d2x (x − x̄)2
P P
σx2 = =
n n

• Variância amostral de x:
d2x (x − x̄)2
P P
s2x = =
n−1 n−1

87
7.1. VARIÂNCIA, COVARIÂNCIA E CORRELAÇÃO 88

• Variância populacional de y:

d2y
P
(y − ȳ)2
P
σy2 = =
n n

• Variância amostral de y:

d2y
P
(y − ȳ)2
P
s2y = =
n−1 n−1

• Covariância populacional entre x,y:


P P
dx dy (x − x̄)(y − ȳ)
σX,Y = cov(X, Y ) = =
n n

• Covariância amostral entre x,y:


P P
dx dy (x − x̄)(y − ȳ)
sX,Y = cov(X, Y ) = =
n−1 n−1

Exemplo
Suponha os desvios dx = x − x̄ e dy = y − ȳ para duas variáveis aleatórias: X =
{0.2, 0.6, 0.5, 0.4, 0.28} e Y = {0.1, 0.5, 0.9, 0.5, 0.5}. Qual o valor da covariância amos-
tral entre ambas as variáves. Explique o que este valor significa.

Complete a tabela abaixo:

obs X Y x̄ ȳ dx dy d2x d2y dx · dy


1 0,2 0,1
2 0,6 0,5
3 0,5 0,9
4 0,4 0,5
5 0,28 0,5
Somas d2x d2y
P P P P P P P
x y − − dx dy dx dy
− −

Portanto, P
dx dy
SX,Y = =
n−1

7.1.3 Correlação
A imagem da covariância pode estar entre (−∞, +∞). Uma alternativa de padronizar a
escala da imagem da covariância para os valores entre (−1, +1) é chamado de correla-
ção.
7.1. VARIÂNCIA, COVARIÂNCIA E CORRELAÇÃO 89

Observe que a covariância pode assumir qualquer valor, isto é,


−∞ < cov(X, Y ) < ∞

Devemos encontrar uma medida estatística que forneça o resultado finito. Como V ar(x) <
∞ e V ar(y) < ∞. Podemos padronizar a covariância através da desigualdade de Cauchy-
Schwarz:

| < uv > |2 ≤< uu >< vv >

Para o espaço
Pn 2R Euclidiano
Pn vamos reescrever o produto < uv >= ui vi , bem como
n
Pn
i
< u >= i ui e < v >= i vi Então,
2

| < uv > |2 ≤< uu >< vv > (7.4)


n
!2 n
! n !
X X X
ui vi ≤ u2i vi2
i i i

Dividindo ambos os lados por n2 > 0,


2
( ni ui vi ) ( ni u2i ) ( ni vi2 )
P P P
≤ (7.5)
n2 n2
 Pn 2  Pn 2  Pn 2 
i ui vi i ui i vi

n n n

Substituindo ui → dx e vi → dy e depois elevando à raíz quadrada amobos os lados

 Pn 2  Pn 2   Pn 2 
dx dy i dx i dy
i
≤ (7.6)
n n n
s P 2 s  Pn 2   n 2 
n
P
i dx dy i dx i dy

n n n
s P 2 s s
 Pn 2   n 2 
n
P
i dx dy i dx i dy

n n n

Ou seja,
q p q
(σx,y )2 ≤ σx2 σy2 (7.7)
|σx,y | ≤ |σx ||σy |

σx,y
σx σy ≤ 1

Vamos definir a correlação populacional por


σx,y
ρ=
σx σy
desde que,
−1 ≤ ρ ≤ 1
7.1. VARIÂNCIA, COVARIÂNCIA E CORRELAÇÃO 90

Definição
Define-se a correlação populacional por
σx,y
ρ=
σx σy

Figura 7.1: Conceito da correlação

Podemos interpretar a correlação como uma medida do grau da relação direta, inver-
samente proporcional ou inexistente. Isto é, quando a correlação for negativa (ρ < 0)
significa que as variáveis X e Y são inversamente proporcional. Quando inexistente terá
correlaçãonula (ρ = 0) e, por fim, quando ambas as variáveis forem diretamente propor-
cional a correlação será positiva (ρ > 0). Dizemos que será perfeitamente correlacionado
quando assumir valores extremos +1 ou -1.
É importante conhecermos a forma da correlação amostral. Basicamente podemos re-
escrever as variâncias de x e de y sem a dependência da média. Isso possibilita uma
estrutura mais prática para o cálculo da covariância amostral.
7.1. VARIÂNCIA, COVARIÂNCIA E CORRELAÇÃO 91

Definição
O coeficiente de correlação linear amostral r mede a força da correlação entre valores
emparelados de ambas as variáveis aleatórias de uma população. No caso amostral
usamos a letra latina r. A correlação linar pode ser definida por

COV (Xi , Xj ) E(XY ) − E(X)E(Y )


r=√ √ = p p (7.8)
V ARX V ARY E(X ) − E(X)2 E(Y 2 ) − E(Y )2
2
P P P
n XY − X Y
= p P P p P P . (7.9)
n X 2 − ( X)2 n Y 2 − ( Y )2

Podemos reescrever as variânicas amostrais e a covariância


• Variância amostral para x

d2x (x − x̄)2
P P
s2x = = (7.10)
n−1 n−1
(x2 + x̄2 − 2xx̄)
P
=
P 2 nP −1
x + x̄2 − 2x̄ x
P
=
n−1
 P 2 P  P
x + n nx − 2 nx
P 2
x n
= ·
n−1 n
P 2 P 2 P 2
n x + ( x) − 2 ( x)
=
n(n − 1)
n x − ( x)2
P 2 P
=
n(n − 1)

• Variância amostral para y


d2y
P
(y − ȳ)2
P
s2y = = (7.11)
P− 12
n
2
n−1
(y + ȳ − 2y ȳ)
=
P 2 nP −1
y + ȳ 2 − 2ȳ y
P
=
n−1
 P 2 P  P
y + n ny − 2 ny
P 2
y n
= ·
n−1 n
P 2 P 2 P 2
n y + ( y) − 2 ( y)
=
n(n − 1)
n y − ( y)2
P 2 P
=
n(n − 1)

• Correlação amostral
7.1. VARIÂNCIA, COVARIÂNCIA E CORRELAÇÃO 92

P P
dx dy (x − x̄)(y − ȳ)
sxy = = (7.12)
n−1
P n−1
(xy − xȳ − yx̄ + x̄ȳ)
=
P n−1 P
P P
xy − xȳ − yx̄ + x̄ȳ
=
P Pn − 1 P
xy − ȳ x − x̄ y + nx̄ȳ
=
 P n−P1 P  P P  P 
y x
y + n nx y
P
xy − n x− n n
=
P  P nP− 1 P P  P 
P y x x y
xy − n
x− n
y+n n n n
= ·
P P P n − 1P P n
nxy − 2 ( y) ( x) + ( x) ( y)
=
n(n − 1)
P P P
n xy − x y
=
n(n − 1)

Como a correlação amostral é dada por


sx,y
r=
sx sy
e, substituindo as variâncias e a covariância
PP P
nxy− x y
n(n−1)
r = q P
2
P 2 q P 2 P 2 (7.13)
n x −( x) y −( y)
n(n−1)
· n n(n−1)
P P P
xy − x y
n
= q P P 2 q P 2
n x − ( x) · n y − ( y)2
2
P

As propriedades da correlação são:


• O valor de r está entre −1 ≤ X ≤ 1
• A permutação no cálculo das variáveis aleatórias não afeta o valor de r
• O valor de r é sensível a valores outlier
• r mede apenas a intensidade de uma relaçao linear

Exemplo
Para os dados X = 1, 2, 3, 4 e Y = 1, 5, 5, 9 encontre o valor da correlação r.

Uma alternativa para o cálculo de r seria através da transformação da variável aleatória


para a variável padronizada, isto é, X → ZX e Y → ZY :
P
Xx Zy
r=
n−1
7.2. TESTE DE HIPÓTESE PARA A CORRELAÇÃO 93

7.2 Teste de hipótese para a correlação


Teste a afirmativa que não existe nenhuma correlação linear ρ = 0. A hipótese a ser
lançada é

H0 : ρ = 0 (7.14)
H1 : ρ ̸= 0 (7.15)

sob a estatística de teste t-Student


r
t= q
1−r2
n−2

com ν = n − 2 graus de liberdade. Aceite H0 se o p-Valor for menor ou igual ao nível de


significância α.
Suponha o conjunto de dados: X = 1, 2, 3, 4, 5 e Y = 0.8, 0.9, 1.2, 1.4, 1.6. Vamos testar a
hipótese nula H0 : ρ = 0. O valor encontrado para r foi de r = 0.9921567 sendo o cálculo
do teste t-Student é dado por:
0.9921567
tcalc = q = 190.4941
1−0.99215672
5−2

O valor de t-Student para o caso bilateral com nível de significância alpha = 5% e ν = 3


graus de liberdade é ttab = ± 3.182. Como tcalc > +ttab não temos evidências suficientes
para aceitar a hipótese alternativa H0 a favor da hopítese alternativa em que a densidade
é diferente de zero.
Capítulo 8

Regressão

8.1 Regressão Linear Simples


A técncia de encontrar uma função matemática que descreva a dispersão dos pontos é
conhecida como análise de regressão. A função matemática ajustada é chamada de
regressora. Para o caso da distribuição linear (ou função afim) temos o seguinte mo-
delo:
y = β0 + β1 x + ϵ
sendo ϵ o erro aleatório com média nula e variância σ 2 .
Em um conjunto de repostas Y provenientes da variável independente X a regressora será
definida com base nos coeficientes estimados βˆ0 e βˆ1 dada por:

ŷ = βˆ0 + βˆ1 x

8.1.1 Método dos mínimos quadrados ordinários


O método dos mínimos quadrados ordinários MMO é a técncia mais utilizada para estimar
os coeficientes β0 e β1 da função regressora. A proposta é minimizar a soma dos quadrados
dos erros: n n
X X
2
L= ϵi = (yi − β0 − β1 x1 )2 )
i i=1

Como devemos encontrar o mínimo da soma dos quadrados devemos fazer o estudo das
funções, isto é,
n
∂L X
|βˆ0 ,βˆ1 = −2 (y1 − βˆ0 − βˆ1 xi ) = 0 (8.1)
∂β0 i=1
n
∂L X
|βˆ0 ,βˆ1 = −2 (y1 − βˆ0 − βˆ1 xi )xi = 0 (8.2)
∂β1 i=1

É facil verificar que tais equações geram um sistema a ser determinar:


(
nβˆ0 + βˆ1 ni=1 xi = ni=1 yi
P P

βˆ0 ni=1 xi + βˆ1 ni=1 x2i = ni=1 yi xi


P P P

94
8.1. REGRESSÃO LINEAR SIMPLES 95

Resolvendo ambas as equações acima encontraremos os estimandores βˆ0 e βˆ1 .


Pn Pn Pn
n x i y i − x i i=1 yi
βˆ1 = i=1
Pn 2 i=1
Pn
n i=1 xi − ( i=1 xi )2

Na prática o estimador βˆ0 pode ser encontrado com o uso das médias X̄, Ȳ e o valor
encontrado para a média βˆ1 , isto é:

βˆ0 = ȳ − βˆ1 x̄

Obs: Uma alternativa para encontar o estimador para a inclinação βˆ1 é através da razão
entre os desvios padrões sx , sy e o valor da correlação r:
sy
βˆ1 = r
sx

Exemplo
Um engenheiro mecânico deseja avaliar a capacidade de vazão em uma válvula com
fluído denso. O conjunto das medidas sobre a variação da pressão ∆P (P SI) e a
resposta na taxa de vazão cfm (pés cúbicos por minuto) está apresentado na seguinte
tabela:

Pressão 30,2 48,3 112,3 162,2 191,9 197,8


Taxa Vazão 0,15 0,35 1,0 1,25 1,75 2,00

Primeiramente definir as covariáveis e a variável dependente. Segundo o texto, a covariável


x será dada pela variação da pressão ∆P ≡ x, enquanto a velocidade do fluído a variável
dependente y.

x y x̄ ȳ xy x2
30,2 0,15 4,53 912,04
48,3 0,35 16,905 2332,89
112,3 1,00 112,3 12611,29
123,78333 1,08333
162,2 1,25 202,75 26308,84
191,9 1,75 335,825 36825,61
197,8 2,00 395,6 39124,84
Soma 742,7 6,5 1067,91 118115,51

Agora calculamos ambas as equações:


• Inclinação
Pn
xi yi − ni=1 xi ni=1 yi
P P
n
βˆ1 =
i=1
(8.3)
n ni=1 x2i − ( ni=1 xi )2
P P

(6)(1067, 91) − (742, 7)(6, 5) 1579, 91


= = = 0, 01005737 (8.4)
(6)(118115, 51) − (742, 7)2 157089, 77
8.2. REGRESSÃO LINEAR MÚLTIPLA 96

• Intercepto
βˆ0 = ȳ − βˆ1 x̄ (8.5)
= 1, 08333 − (0, 01005737)(123, 78333) = −0, 161601497 (8.6)

Finalmente encontramos o modelo regressor


ŷ = −0, 161601497 + 0, 01005737x

Usando os Software R:
> x < −c(30.2, 48.3, 112.3, 162.2, 191.9, 197.8)
> y < −c(0.15, 0.35, 1.00, 1.25, 1.75, 2.00)
> model1 < −lm(y ∼ x)
> plot(y ∼ x)
> summary(model1)
(8.7)

Figura 8.1: Ajuste da regressora nos pontos.

Exemplo
Refaça o exemplo anterior encontrando o estimador do inclinação usando os desvios e
a correlação r. Use a equação βˆ1 = r ssxy

8.2 Regressão Linear Múltipla


Considere uma dispersão de pontos com variáveis independentes X1 = x11 , x12 ...x1k ,
X2 = x21 , x22 ...x2k ...Xn = xn1 , xn2 ...xnk e sua resposta dependente Y = y1 , y2 , y3 ...yk . Se a
8.2. REGRESSÃO LINEAR MÚLTIPLA 97

correlação linear indicar alto valor, por exemplo, r = 85%, podemos sugerir um modelo
afim (regressora):
y = β0 + β1 x1 + β2 x2 + ...βk xk
Chamamos de regressão linear simples se apenas uma variável dependente está pre-
sente:
y = β 0 + β 1 x1
e, chamamos de regressão linear múltipla se mais do que uma variável dependente está
presente
y = β0 + β1 x1 + β2 x2 + ... + βijxi xj ... + βk xk
podendo apresentar dois modos:
• Termo de interação: são termos cruzados e a sua interpretação significa o quanto
uma variável independente relacionado com uma segunda altera a resposta.

y = β0 + β1 x1 + β2 x2 + ... + βijxi xj ... + βk xk

• Termo de segunda ordem: são termos quadráticos envolvidos.

y = β0 + β1 x1 + β2 x2 + ... + β11 x21 + β22 x22 + ... + βk xk

Para uma melhor visualização da regressão múltipla, considere uma resposta Y dada
segundo k-variáveis independentes X.

resp/variáveis x1 x2 ... xk
y1 x11 x12 ... x1k
y2 x21 x22 ... x2k
... ... ... ... ...
yn x31 x32 ... x3k

Obviamente, a reta proposta não se ajustará sob todos os pontos dispersos no gráfico
obtendo uma certa distância entre o ponto observado e o regressora. Chamamos essa
distâcia de erro ϵ. Considerando esse erro, a reta proposta será dada por yi = β0 +βi xi +ϵ.
A equação múltipla pode ser modelada por
k
X
yi = β0 + βij xij + ϵi
j=1

ou, de forma matricial como


Y = Xβ + ϵ
sendo  
y1

 y2 

Y= y3
 

 
 ... 
yn
8.2. REGRESSÃO LINEAR MÚLTIPLA 98

 
1 x11 x12 ... x1k

 1 x21 x22 ... x2k 

X= 1 x31 x32 ... x3k
 

 
 1 ... ... ... ... 
1 xn1 xn2 ... xnk
 
ϵ1

 ϵ2 

ϵ= ϵ3
 

 
 ... 
ϵn
 
β0

 β1 

β= β2
 

 
 ... 
βk

8.2.1 Estimando os coeficientes βi


A técnica utilizada é conhecido como o método dos mínimos quadrados ordinários MMQO.
De acordo com a figura observamos que podemos criar quadrados cujos lados são os erros
entre os valores observados e valores da regressora. A proposta é minimizae esse quadrado.
Seja a equação múltipla linear:
Y = Xβ + ϵ
Queremos aqui minimizar a soma dos quadrados dos erros ϵ por min L,
n
′ ′
X
L= ϵ2 = ϵ ϵ = (Y − XB)) (Y − XB))
j=1

Devemos minimizar pelo estudo de funções. Lembre-se que a variável a ser estimada são
os coeficientes de β.


L = (Y − XB)) (Y − XB)) (8.8)
′ ′ ′ ′ ′ ′
= Y Y − B X Y − Y XB + B X B (8.9)
′ ′ ′ ′ ′
= Y Y − 2B X Y + B X B (8.10)

O valor de mínimo na parábola L pode ser encontrado derivando-a parcialmente em relação


a B e igualando a zero:
∂L
=0
∂B
∂L ′ ′
|b = −2X Y + 2XX b = 0
∂B
8.2. REGRESSÃO LINEAR MÚLTIPLA 99

que, facilmente podemos encontrar os coeficentes de β:


′ ′
X Xb = X Y (8.11)
′ ′
b = (X X)−1 X Y (8.12)

com  
β0

 β1 

b=β= β2
 

 
 ... 
βk
′ ′
Observe que a equação b = (X X)−1 X Y é formada apenas por k-variáveis independentes
e Y variaveis dependentes, isto é, é possível calcular os coeficientes apenas pelas variáveis
da dispersão.

Exemplo
Suponha o seguinte conjunto de dados. Com apenas estas informações encontre os
coeficientes lineares para a função y = β0 + β1 x1 + β2 x2 + β3 x3

y X1 X2 X3
25,5 1,74 5,30 10,80
31,2 6,32 5,42 9,40
25,9 6,22 8,41 7,20
38,4 10,52 4,63 8,50
18,4 1,19 11,60 9,40
26,7 1,22 5,85 9,90
26,4 4,10 6,62 8,00
25,9 6,32 8,72 9,10
32,0 4,08 4,42 8,70
25,2 4,15 7,60 9,20
39,7 10,15 4,83 9,40
35,7 1,72 3,12 7,60
26,5 1,70 5,30 8,20

Sol.
Vamos aplicar a equação matricial
′ ′
b = (X X)−1 X Y

Os passos para encontrarmos os parâmetros β das regressora serão:


• Identificar a matriz das k-variáveis independentes. Lembre-se que yi = β0 + kj=1 βij xij +
P
ϵi e, como é fácil verificar, o coeficiente linear β0 não multiplica nenhuma das k-
variáveis independentes. Por esse motivo, a matriz X contém em sua primeira
coluna um vetor unitário.
8.2. REGRESSÃO LINEAR MÚLTIPLA 100

 
1 1, 74 5, 30 10, 80
1 6, 32 5, 42 9, 40
 
 
1 6, 22 8, 41 7, 20
 
 
 

 1 10, 52 4, 63 8, 50 


 1 1, 19 11, 60 9, 40 


 1 1, 22 5, 85 9, 90 

X= 1 4, 10 6, 62 8, 00
 

 
 1 6, 32 8, 72 9, 10 
 

 1 4, 08 4, 42 8, 70 


 1 4, 15 7, 60 9, 20 


 1 10, 15 4, 83 9, 40 

1 1, 72 3, 12 7, 60
 
 
1 1, 70 5, 30 8, 20

• Reescrevemos a matriz da variável resposta Y por


 
25, 5
 31, 2 
 
 25, 9 
 
 
 38, 4 
 
 18, 4 
 
 26, 7 
 
Y =  26, 4 
 
 
 25, 9 
 
 32, 0 
 
 25, 2 
 
 39, 7 
 
 35, 7 
 
26, 5

′ ′
• Para calcular os coeficientes lineares β por b = (X X)−1 X Y é conveniente subdi-
′ ′
vidir o cáclulo matricial entre (X X)−1 e X Y, tal que o produto de ambas as ma-
trizes gera-nos os coeficientes de interesse. Primeiramente, vamos calcular o termo

(X X)−1 . Essa última contém informações muito importante sobre o conjunto de
dados, veremos a diante.
 
1 1 1 1 1 1 1 1 1 1 1 1 1
′  1, 74 6, 32 6, 22 10, 52 1, 19 1, 22 4, 10 6, 32 4, 02 4, 15 10, 15 1, 72 1, 70 
(X X) =  ∗
 5, 30 5, 42 8, 41 4, 63 11, 60 5, 85 6, 62 8, 72 4, 42 7, 60 4, 83 3, 12 5, 30 
10, 80 9, 40 7, 20 8, 50 9, 40 9, 90 8, 00 9, 10 8, 70 9, 20 9, 40 7, 60 8, 20
8.2. REGRESSÃO LINEAR MÚLTIPLA 101

 
1 1, 74 5, 30 10, 80
1 6, 32 5, 42 9, 40
 
 
1 6, 22 8, 41 7, 20
 
 
 

 1 10, 52 4, 63 8, 50 


 1 1, 19 11, 60 9, 40 


 1 1, 22 5, 85 9, 90 

∗ 1 4, 10 6, 62 8, 00
 

 
 1 6, 32 8, 72 9, 10 
 

 1 4, 08 4, 42 8, 70 


 1 4, 15 7, 60 9, 20 


 1 10, 15 4, 83 9, 40 

1 1, 72 3, 12 7, 60
 
 
1 1, 70 5, 30 8, 20
 
13 59, 43 81, 82 115, 40
59, 43 394, 7255 360, 6621 522, 0780

 
(X X) = 
 
81, 82 360, 6621 576, 7264 728, 3100

 
115, 40 522, 0780 728, 3100 1035, 9600

Não devemos esquecer de calcular a matriz a inversa (X X)−1
 
13 59, 43 81, 82 115, 40 1 0 0 0
 59, 43 394, 7255 360, 6621 522, 0780 0 1 0 0

 
(X X)−1 = 

 81, 82 360, 6621 576, 7264 728, 3100 0 0 1 0


115, 40 522, 0780 728, 3100 1035, 9600 0 0 0 1
 
8, 0648 −0, 0826 −0, 0942 −0, 7905
 −0, 0826 0, 0085 0, 0017 0, 0037 

 
−1
(X X) = 
 −0, 0942 0, 0017 0, 0166 −0, 0021 

−0, 7905 0, 0037 −0, 0021 0, 0886

• O segundo temrmo X Y deverá ser encontrado para calcularmos os coeficientes.
 
1 1 1 1 1 1 1 1 1 1 1 1 1
′  1, 74 6, 32 6, 22 10, 52 1, 19 1, 22 4, 10 6, 32 4, 02 4, 15 10, 15 1, 72 1, 70 
X Y= ∗
 5, 30 5, 42 8, 41 4, 63 11, 60 5, 85 6, 62 8, 72 4, 42 7, 60 4, 83 3, 12 5, 30 
10, 80 9, 40 7, 20 8, 50 9, 40 9, 90 8, 00 9, 10 8, 70 9, 20 9, 40 7, 60 8, 20
8.2. REGRESSÃO LINEAR MÚLTIPLA 102

 
25, 5
31, 2
 
 
25, 9
 
 
 

 38, 4 


 18, 4 


 26, 7 

∗ 26, 4
 

 
 25, 9 
 

 32, 0 


 25, 2 


 39, 7 

35, 7
 
 
26, 5
 
377, 5
1877, 567

 
XY=
 
2246, 661

 
3337, 780
′ ′
• Finalmente podemos calcular o produto (X X)−1 X Y = b para encontrarmos os
coeficientes da regressão

  
8, 0648 −0, 0826 −0, 0942 −0, 7905 377, 5
−0, 0826 0, 0085 0, 0017 0, 0037 1877, 567
′ ′
  
(X X)−1 X Y = 
  
−0, 0942 0, 0017 0, 0166 −0, 0021 2246, 661
 
  
−0, 7905 0, 0037 −0, 0021 0, 0886 3337, 780
 
39, 1574
1, 0161
′ ′
 
b = (X X)−1 X Y = 
 
−1, 8616

 
−0, 3433

Portanto, a regressora será dada por:


ŷ = 39, 1574 + 1, 0161x1 − 1, 8616x2 − 0, 3433x3

Usando o Software R
> x1 < −c(1.74, 6.32, 6.22, 10.52, 1.19, 1.22, 4.10, 6.32, 4.08, 4.15, 10.15, 1.72, 1.70)
> x2 < −c(5.30, 5.42, 8.41, 4.63, 11.60, 5.85, 6.62, 8.72, 4.42, 7.60, 4.83, 3.12, 5.30)
> x3 < −c(10.80, 9.40, 7.20, 8.50, 9.40, 9.90, 8.00, 9.10, 8.70, 9.20, 9.40, 7.60, 8.20)
> y < −c(25.5, 31.2, 25.9, 38.4, 18.4, 26.7, 26.4, 25.9, 32.0, 25.2, 39.7, 35.7, 26.5)
> model1 < −lm(y x1 + x2 + x3)
> summary(model1)
(8.13)
8.3. VALORES PREDITOS 103

8.2.2 Propriedades dos Estimadores β


′ ′
Seja β̂ ≡ b = (X X)−1 X Y os coeficientes da regressora. O valor esperado para o
estimador de b será E(b) = β (Prove!). A matriz de covariância para b será dado
por:

′ ′
Cov(b) = E(b − E(b))(b − E(b)) = σ 2 (X X)−1


β̂ ∼ (β, C ≡ σ 2 (X X)−1 )

com C a chamada matriz simétrica:

 
C00 C01 C02

C = (X X)−1 =  C10 C11 C12 
C20 C11 C22

e a variância estimada por


′ ′ ′
SQE SQT − SQreg Y Y − β̂ X Y
σˆ2 = = =
n−p n−p n−p
′ ′
lembrando que β̂ = (X X)−1 X Y A afirmativa a ser testada é verificar se o estimador β̂
é nulo, isto é,


H0 : βj = 0
H1 : βj ̸= 0

β̂ segue a distribuição t-Student com ν = n − k graus de liberdade (sendo n observações


em k-variáveis independentes);

βˆj − βj
tn−p ∼ q
σˆ2 Cjj

8.3 Valores preditos


Os valores ajustados pela regressora Ŷ = Xβ̂ podem ser encontados pela matriz chapéu
H. Sabemos que a matriz dos estimadores é dada por:

Ŷ = Xβ̂
′ ′
Sabemos que β̂ = (X X)−1 X Y
′ ′
Ŷ = X[(X X)−1 X Y]
′ ′
Ŷ = [X(X X)−1 X ]Y
(8.14)
8.3. VALORES PREDITOS 104

Vamos chamar de matriz chapéu H uma matriz formada apenas pelas variáveis indepen-
dentes que, quando aplicado na matriz de observação Y, têm o poder de gerar os valores
preditos Ŷ.

Ŷ = HY
′ ′
com H = X(X X)−1 X

a matriz chapéu.

Exemplo

No exemplo anterior encontramos a matriz (X X)−1 via matriz das variáveis observá-
veis X.  
8, 0648 −0, 0826 −0, 0942 −0, 7905
 −0, 0826 0, 0085 0, 0017 0, 0037 

 
(X X)−1 = 
 −0, 0942 0, 0017 0, 0166 −0, 0021 

−0, 7905 0, 0037 −0, 0021 0, 0886

Encontre a matriz chapéu H e, com se resultado, encontre os valores preditos Ŷ sem


calcular a regressora.

Sol.
′ ′
Para calcular a matriz chapéu temos que multiplicar as matrizes: H = X(X X)−1 X

 
1 1, 74 5, 30 10, 80
1 6, 32 5, 42 9, 40
 
 
1 6, 22 8, 41 7, 20
 
 
 

 1 10, 52 4, 63 8, 50 

 1 1, 19 11, 60 9, 40   
  8, 0648 −0, 0826 −0, 0942 −0, 7905
 1 1, 22 5, 85 9, 90 
−0, 0826 0, 0085 0, 0017 0, 0037
′ ′
   
H = X(X X)−1 X =  1 4, 10 6, 62 8, 00 ∗
   
−0, 0942 0, 0017 0, 0166 −0, 0021

   
 1 6, 32 8, 72 9, 10 
  −0, 7905 0, 0037 −0, 0021 0, 0886

 1 4, 08 4, 42 8, 70 


 1 4, 15 7, 60 9, 20 


 1 10, 15 4, 83 9, 40 

1 1, 72 3, 12 7, 60
 
 
1 1, 70 5, 30 8, 20

 
1 1 1 1 1 1 1 1 1 1 1 1 1
1, 74 6, 32 6, 22 10, 52 1, 19 1, 22 4, 10 6, 32 4, 02 4, 15 10, 15 1, 72 1, 70
 
∗ =
 
 5, 30 5, 42 8, 41 4, 63 11, 60 5, 85 6, 62 8, 72 4, 42 7, 60 4, 83 3, 12 5, 30 
10, 80 9, 40 7, 20 8, 50 9, 40 9, 90 8, 00 9, 10 8, 70 9, 20 9, 40 7, 60 8, 20

e, finalmente a matriz chapéu é dada por:


8.3. VALORES PREDITOS 105

0.46603 0.15131 −0.27883 −0.05233 0.0898 0.316032 −0.0645 0.0190 0.1049 0.1039 0.095174 0.00359 0.04583

 0.15131
 0.14323 −0.01623 0.16815 −0.0130 0.087247 0.0176 0.0852 0.0833 0.0716 0.209164 0.00360 0.00860
 −0.27883 −0.01623 0.42964 0.13089 0.1817 −0.129805 0.2138 0.1646 0.0195 0.0788 0.002853 0.10030 0.10241

 −0.05233 0.16815 0.13089 0.38234 −0.1718 −0.078474 0.0565 0.1154 0.0868 0.0331 0.354873 0.00817 −0.03381

 0.08984
 −0.01304 0.18177 −0.17184 0.5801 0.123212 0.0917 0.2485 −0.0708 0.1979 −0.128523 −0.16017 0.03122
 0.31603
 0.08724 −0.12980 −0.07847 0.1232 0.249659 0.0145 0.0132 0.1039 0.0932 −0.000949 0.09667 0.11140
Ĥ =  −0.06457 0.01768 0.21383 0.05657 0.0917 0.014557 0.1524 0.0629 0.0823 0.0622 −0.011771 0.17795 0.14401

 0.01906 0.08522 0.16469 0.11545 0.2485 0.013209 0.0629 0.2203 −0.0169 0.1314 0.135838 −0.14286 −0.03701


 0.10491
 0.08337 0.01957 0.08686 −0.0708 0.103970 0.0823 −0.0169 0.1425 0.0345 0.071236 0.21769 0.14069
 0.10393
 0.07167 0.07887 0.03313 0.1979 0.093260 0.0622 0.1314 0.0345 0.1114 0.059177 −0.01833 0.04060
 0.09517
 0.20916 0.00285 0.35487 −0.1285 −0.000949 −0.0117 0.1358 0.0712 0.0591 0.397517 −0.09559 −0.08900
 0.00359 0.00360 0.10030 0.00817 −0.1601 0.096674 0.1779 −0.1428 0.2176 −0.0183 −0.095592 0.49929 0.30967
0.04583 0.00867 0.10241 −0.03381 0.0312 0.111403 0.1440 −0.0370 0.1406 0.0406 −0.089000 0.30967 0.22535

Para encontrar os valores preditos temos que operar a matriz chapéu H na variável resp-
sota, ou seja:
Ŷ = HY

0.46603 0.15131 −0.27883 −0.05233 0.0898 0.316032 −0.0645 0.0190 0.1049 0.1039 0.095174 0.00359 0.04583

 0.15131
 0.14323 −0.01623 0.16815 −0.0130 0.087247 0.0176 0.0852 0.0833 0.0716 0.209164 0.00360 0.00860
 −0.27883 −0.01623 0.42964 0.13089 0.1817 −0.129805 0.2138 0.1646 0.0195 0.0788 0.002853 0.10030 0.10241

 −0.05233 0.16815 0.13089 0.38234 −0.1718 −0.078474 0.0565 0.1154 0.0868 0.0331 0.354873 0.00817 −0.0338

 0.08984
 −0.01304 0.18177 −0.17184 0.5801 0.123212 0.0917 0.2485 −0.0708 0.1979 −0.128523 −0.16017 0.03122
 0.31603
 0.08724 −0.12980 −0.07847 0.1232 0.249659 0.0145 0.0132 0.1039 0.0932 −0.000949 0.09667 0.11140
HY =  −0.06457 0.01768 0.21383 0.05657 0.0917 0.014557 0.1524 0.0629 0.0823 0.0622 −0.011771 0.17795 0.14401

 0.01906 0.08522 0.16469 0.11545 0.2485 0.013209 0.0629 0.2203 −0.0169 0.1314 0.135838 −0.14286 −0.0370


 0.10491
 0.08337 0.01957 0.08686 −0.0708 0.103970 0.0823 −0.0169 0.1425 0.0345 0.071236 0.21769 0.14069
 0.10393
 0.07167 0.07887 0.03313 0.1979 0.093260 0.0622 0.1314 0.0345 0.1114 0.059177 −0.01833 0.04060
 0.09517
 0.20916 0.00285 0.35487 −0.1285 −0.000949 −0.0117 0.1358 0.0712 0.0591 0.397517 −0.09559 −0.0890
 0.00359 0.00360 0.10030 0.00817 −0.1601 0.096674 0.1779 −0.1428 0.2176 −0.0183 −0.095592 0.49929 0.30967
0.04583 0.00867 0.10241 −0.03381 0.0312 0.111403 0.1440 −0.0370 0.1406 0.0406 −0.089000 0.30967 0.22535

   
25, 5 27.35141
31, 2 32.26232
   
   
25, 9 27.34955
   
   
   

 38, 4  
  38.30958 


 18, 4  
  15.54473 


 26, 7  
  26.10807 

∗ 26, 4 = 28.25316  = Ŷ
   
   
 25, 9   26.22185 
   

 32, 0  
  32.08818 


 25, 2  
  26.06764 


 39, 7  
  37.25236 

35, 7 32.48792
   
   
26, 5 28.20324
Por fim encontramos os valores preditos.
Usando o Software R podemos encontrar tanto a matriz chapéu como os valores predi-
tos.

> H < −x% ∗ %solve(t(x)% ∗ %x)% ∗ %t(x)


> H% ∗ %y (8.15)
8.4. RESÍDUOS E ANÁLISE DOS RESÍDUOS 106

Exemplo
Utilizando a regressora encontrada para estes dados

ŷ = 39, 1574 + 1, 0161x1 − 1, 8616x2 − 0, 3433x3

substitua alguns valores x1 , x2 e x3 e verifique se o valor predito ŷ confere.

8.4 Resíduos e análise dos resíduos


O resíduo é o estimador do erro: ϵ = E(e). Define-se resíduo pela diferença entre os
valores da resposta Y e dos valores preditos Ŷ.

e = Y − Ŷ

A análise do resíduo é um dos mais IMPORTANTES DIAGNOSTICOS DA VALIDADE


sobre a adequação do modelo regressor. Consideramos que os resíduos apresentem uma
distribuição normal com média nula e variância σ 2

e ∼ N (0, σ 2 )

8.4.1 Propriedades dos resíduos


Seja Ŷ = HY via matriz chapéu. Pela definição do erro

e = Y − Ŷ

podemos substituir e encontrar arelação

e = Y − HY
e = (I − H)Y
e = MY

sendo M = I − H a matriz geradora de resíduos.

8.4.2 Valor esperado dos resíduos


O valor esperado (ou média) para os resíduos pode ser calculado por

µ = E(e) = E(Y − Ŷ) = E(Y) − E(Ŷ) = Y − Y = 0

Em relação a variância dos resíduos σ 2 , temos que estimar por meio da soma dos quadrados
dos resíduos
SQE SQRES
σˆ2 = ou σˆ2 =
n−p n−p
8.5. ANÁLISE DE VARIÂNCIA ANOVA (PARA A REGRESSORA) 107

sendo k variáveis com n observações e a soma dos quadrados dos resíduos dado por:
n
X
SQE = SQres = (Yi − Ŷi )2
i=1
n

X
= e2i = e e
i=1

= (Y − Xβ̂) (Y − Xβ̂)
′ ′ ′ ′ ′
= Y Y − 2β̂ X Y + β̂ X Xβ̂
como
′ ′ ′ ′ −1 ′
X Xβ̂ = X X(X X) X Y = X Y
′ ′ ′ ′ ′
= Y Y − 2β̂ X Y + β̂ X Y
′ ′ ′
= Y Y − β̂ X Y

Finalmente,
′ ′ ′
SQE Y Y − β̂ X Y
QMres = σˆ2 = =
n−p n−p

8.5 Análise de Variância ANOVA (para a regressora)


A soma dos quadrados totais é naturalmente escrito como
n
X
SQT = (Yi − Ȳ)2 .
i=1

Existem duas formas de cálculo, a pimeira é incluir a soma nula com Ȳ − Ȳ = 0,


n
X
SQT = (Yi − Ȳ)2
i=1
n
X
SQT = (Yi − Ŷ + Ŷ − Ȳ)2
i=1
n
X
SQT = [(Yi − Ŷ)2 + (Ŷ − Ȳ)2 − 2(Yi − Ŷ)(Ŷ − Ȳ)]
i=1
n
X n
X n
X
2 2
SQT = (Yi − Ŷ) + (Ŷ − Ȳ) − 2 (Yi − Ŷ)(Ŷ − Ȳ)
i=1 i=1 i=1
(8.16)

O termo n
X
2 (Yi − Ŷ)(Ŷ − Ȳ) = 0
i=1

é nulo.
Dessa forma,
P a soma dos quadrados totias pode ser interpretada como a soma dos qua-
drados de ni (Yi − Ŷ)2 e ni (Ŷ − Ȳ)2 . Chamamos de
P

• SQE = ni (Yi − Ŷ)2 a soma dos quadrados dos erros (ou desvio não explicado)
P
8.5. ANÁLISE DE VARIÂNCIA ANOVA (PARA A REGRESSORA) 108

• SQreg = (Ŷ − Ȳ)2 a soma dos quadrados da regressora (ou o desvio explicado)
Pn
i

tal que nos formece a relação direta:

SQT = SQE + SQreg

A figura 8.2 mostra-nos esta relação.

Figura 8.2: Relação entre SQT = SQE + SQreg


8.5. ANÁLISE DE VARIÂNCIA ANOVA (PARA A REGRESSORA) 109

A segunda alternativa é exmpandor a soma SQT =


Pn
i=1 (Yi − Ȳ)2
n
X
SQT = (Yi − Ȳ)2
i=1
n
2
X
= (Y2i − 2Yi Ȳ + Ȳ )
i=1
n n n
2
X X X
= Y2i −2 Yi Ȳ + Ȳ
i=1 i=1 i=1
n n
X nX 2
= Y2i − 2Ȳ Yi + nȲ
i=1
n i=1
n
2
X
= Y2i − 2nȲȲ + nȲ
i=1
n
2
X
= Y2i − nȲ
i=1
n  Pn 2
X Yi
= Y2i −n i=1

i=1
n
Pn
′ ( i=1 Yi )2
= YY−
n
Vamos chamar de coeficiente corretor de
( ni=1 Yi )2
P
C=
n
e, por final encontramos a SQT

SQT = Y Y − C

A soma total SQT é igual a soma dos quadrados dos resítuos SQE mais a soma dos
quadrados da REGRESSORA. Para encontrar a última, vamos tirar a diferença,

SQT = SQE + SQreg


SQreg = SQT − SQE
( ni=1 Yi )2
P
′ ′ ′ ′
SQreg = (Y Y − ) − (Y Y − β̂ X Y)
Pn
′ ′ ( ni=1 Yi )2
SQreg = β̂ X Y −
n
′ ′
SQreg = β̂ X Y − C
′ ′
com β = (X X)−1 X Y e, finalmente, obtemos as três somas:
′ ′
• Regressora:SQreg = β̂ X Y − C
′ ′ ′
• Erro:SQE = Y Y − β̂ X Y

• Total:SQT = Y Y − C
8.5. ANÁLISE DE VARIÂNCIA ANOVA (PARA A REGRESSORA) 110

Vamos montar a tabela de Análise Variacional

Fonte SQ DF(ν) MS F P-valor


( n 2
P

i=1 Yi )

Regressora SQreg = β̂ X Y − n
p-1 M Sreg = SQ reg
p−1
F = M Sreg
M SE
probability
′ ′ ′
Erro SQE = Y Y − β̂ X Y N-p M SE = SQE
N −p
( n 2
P

i=1 Yi )
Total SQT = Y Y − n
N-1

Exemplo

Um engenheiro quer verificar se o aumento na umidade (via mensuração da tempera-


tura de ponto de orvalho) é proporcional ao crescimento da área de ferrugem. Seja a
umidade controlada em laboratório dado por X = (0, 10; 0, 15; 0, 20; 0, 25; 0, 30; 0, 35)C
e a resposta y = (1, 69; 5, 65; 5; 8; 9, 25; 11) em mm2 . O gráfico abaixo mostra-nos da-
dos retirado em laboratório.

Figura 8.3: Dispersão

Solução: Para montar a tabela de analise variacional temos que encontrar todos os qua-
drados
( n 2
P

i=1 Yi )

• Regressora: SQreg = β̂ X Y − n
′ ′ ′
• Erro: SQE = Y Y − β̂ X Y
( n 2
P

i=1 Yi )
• Total:SQT = Y Y − n
( n 2
P
′ ′
i=1 Yi )
sob os cáclulos de β = (X X)−1 X Y e C = n
;
8.5. ANÁLISE DE VARIÂNCIA ANOVA (PARA A REGRESSORA) 111

   
1 0, 10 1, 69

 1 0, 15 


 5, 65 

1 0, 20 5
   
X= Y=
   
1 0, 25 8
 
   
   
 1 0, 30   9, 25 
1 0, 35 11
 
′ −1 1.323810 −5.142857
C = (X X) =
−0, 0017 0, 0037
Pn
( i=1 Yi ) 2 (1, 69 + 5, 65 + 5 + 8 + 9, 25 + 11)2
C= = = 274, 5914
n 6
 
1, 69
 5, 65 
    
1 1 1 1 1 1 5, 00 40.5900

 
XY= =
 
0, 1 0, 15 0, 2 0, 25 0, 3 0, 35  8, 00 10.6415


 
 9, 25 
11, 00

    
′ ′ −1 ′ 1.323810 −5.142857 40.5900 −0.9942857
β = CX Y = (X X) X Y = =
−0, 0017 0, 0037 10.6415 34.4857143

 
0, 1

 0, 15 

0, 2
′    
Y Y = 0, 1 0, 15 0, 2 0, 25 0, 3 0, 35   = 330.3411
 
 0, 25 
 
 0, 3 
0, 35
( n 2
P

i=1 Yi )

• Regressora: SQreg = β̂ X Y − n
  
′ ′ −0.9942857 40.5900
β XY−C = − 274.5914 = 52, 03032
34.4857143 10.6415

′ ′ ′
• Erro: SQE = Y Y − β̂ X Y
  
′ ′ ′ −0.9942857 40.5900
Y Y − β X Y = 330.3411 − = 3, 719429
34.4857143 10.6415

( n 2
P

i=1 Yi )
• Total:SQT = Y Y − n


Y Y − C = 330, 3411 − 274, 5914 = 55, 7497
8.5. ANÁLISE DE VARIÂNCIA ANOVA (PARA A REGRESSORA) 112

• Regressora: p = 2 → p − 1 = 1 graus de liberdade (pois β0 e β1 , por isso p = 2)


• Erro: N − p → 6 − 2 = 4 graus de liberdade
• Total: N − 1 → 6 − 1 = 5 graus de liberdade, de fato 5 = 4 + 1
′ ( n Yi )2
P

β̂ X Y− i=1
• Regressora: M Sreg = p−1
n
= 52,03032
1
= 52, 03032
′ ′ ′
• Erro: M SE = Y Y−β̂ X Y
N −p
= 3,719429
4
= 0, 9298572
Calculando o valor para F-Senedecor
M Sreg 52, 03032
F = = = 55, 95517
M SE 0, 9298572
Para verificar se o valor de F foi ou não significativo devemos verificar o valor P-valor
através de alguma tabela F-Senedecor ou através de software. No caso do R encontraremos
o valor de P-valor 0, 001708.
Interpretação: Como o P − valor < 5% implica em aceitar a regressora linear.

Fonte DF(ν) SQ MS F P-valor


Regressora 52,030 1 52,03 55,955 0,001708 **
Erro 3,719 4 0,93
Total 58,813 5

Vamos verificar a soma dos quadrados. A tabela seguinte mostra-nos os valores da variável
dependente Y , o valor da média Ȳ e os valores preditos pela regressora Ŷ . Em seguida
podemos obsrevar pela definição de desvio que a soma dos desvios deverão ser nulas
d = 0 independente da fonte. Observe que a soma dos quadrados SQ pode ser verificada
P
pela soma SQT = SQreg +SQE. De fato, SQT = SQreg +SQE → 55.74975 = 52.03032+
3.719429

Y Ŷ Ȳ
1.69 2.454286 6.765
5.65 4.178571 6.765
5.00 5.902857 6.765
8.00 7.627143 6.765
9.25 9.351429 6.765
11.00 11.075714 6.765

dtotal = Y − Ȳ derro = Y − Ŷ dreg = Ŷ − Ȳ


-5.075 -0.76428571 -4.3107143
-1.115 1.47142857 -2.5864286
-1.765 -0.90285714 -0.8621429
1.235 0.37285714 0.8621429
2.485 -0.10142857 2.5864286
4.235 -0.07571429 4.3107143
soma = 0 soma = 0 soma = 0
8.5. ANÁLISE DE VARIÂNCIA ANOVA (PARA A REGRESSORA) 113

d2total d2erro d2reg


25.755625 0.584132653 18.5822577
1.243225 2.165102041 6.6896128
3.115225 0.815151020 0.7432903
1.525225 0.139022449 0.7432903
6.175225 0.010287755 6.6896128
17.935225 0.005732653 18.5822577
soma = 55.74975 soma = 3.719429 soma = 52.03032

8.5.1 Medida de qualidade de ajuste: coeficiente de determinação


R2 (armadilhas do uso de R2 )
Lembramos que a soma dos quadrados potagóricos é SQT = SQreg +SQE. Qual a parcela
da soma dos quadrados da regressora (cateto) em relação ao total (hipotenusa)?
′ ′
SQreg
2 β̂ X Y − C
R = = ′
SQT YY−C
Pn
( Yi ) 2
com C = i=1
n

Figura 8.4: Pitágoras e decomposição

Exemplo

No exercício anterior calcule o valor R2 .

Solução:
′ ′
SQreg
2 β̂ X Y − C 52, 03032
R = = ′ = = 0, 9332903 ≈ 93, 33%
SQT YY−C 58, 813
8.5. ANÁLISE DE VARIÂNCIA ANOVA (PARA A REGRESSORA) 114

O problema de R2 está associado a quantidade de variáveis p a serem ajustadas (β0 e β1 ,


neste caso - p = 2). Quanto maior for a quantidade de variáveis poir ficará o modelo e
menos parcimonioso, além de dificultar a interpretação. Como a soma dos quadrados do
erros SQE não pode ser maior com a inclusão de novas variáveis independentes, a SQT
é sempre a mesma para um certo conjunto de dados. Nisso devemos propor um controle
pelos graus de liberdade:
SQE
R2 = 1 − →
SQT
SQE
M SE (N −p)
Ra2 =1− =1− SQT
M ST (N −1)

Finalmente:
(N − 1)SQE
Ra2 = 1 −
(N − p)SQT

8.5.2 Verificação dos coeficientes


A afirmativa a ser testada é verificar se o estimador β̂ é nulo, isto é,


H0 : βj = 0
H1 : βj ̸= 0

β̂ segue a distribuição t-Student com ν = n − k graus de liberdade (sendo n observações


em k-variáveis independentes);

βˆj − βj
tn−p ∼ q
σˆ2 Cjj
q
com erro padrão d.p. dado por: σˆ2 Cjj
Verifique que a variância estimada por
′ ′ ′
SQE SQT − SQreg Y Y − β̂ X Y
M SE = σˆ2 = = =
n−p n−p n−p
′ ′
lembrando que β̂ = (X X)−1 X Y
Antes de tudo, vamos separar todos os elementos de cálculo:
   
′ −1 1, 323810 −5, 142857 C11 C12
C = (X X) = =
−0, 0017 0, 0037 C21 C22

′ ′ ′
Y Y − β̂ X Y 3, 719429
M SE = σˆ2 = = = 0, 9298572
N −p 4
   
′ ′ −1 ′ −0.9942857 β1
β = CX Y = (X X) X Y = =
34.4857143 β2

Os testes de hipóteses para cada coeficiente proposto β0 e β1 será:


8.5. ANÁLISE DE VARIÂNCIA ANOVA (PARA A REGRESSORA) 115

• Coeficiente intercepto: A testar



H0 : β0 = 0
H1 : β0 ̸= 0

βˆ1 − β1 −0.9942857 − 0
tn−p ∼ q =√ = −0.8961009
ˆ2 0, 9298572 · 1, 323810
σ C11
com erro padrão
q
d.p. = σˆ2 Cjj = 0, 9298572 · 1, 323810 = 1.109485
p

• Coeficiene angular: A testar 


H0 : β1 = 0
H1 : β1 ̸= 0
βˆ2 − β2 34.4857143 − 0
tn−p ∼ q =√ = 7.479742
ˆ2 0, 9298572 · 0, 0037
σ C22
com erro padrão
q
σˆ2 Cjj =
p
d.p. = 0, 9298572 · 0, 0037 = 4.610198

Finalmente, podemos montar a tabela t-Student para verificar a significância de cada


coeficiente.

Coeficiente Estimative d.p. t-Student D.F. P-Value


β0 (Intercept) -0,9943 1,1095 = −0,9943
1,1095
= −0, 896 n-p 0,42082
β1 (x) 34,4857 4,6102 34,4857
= 4,6102 = 7, 480 n-p 0,00171 **

Através do valor P-Value observamos que o coeficiene linear é não significativo aceitando
a hipótese nula em que H0 : β1 = 0, mas o coeficiente angular β1 é bem significativo para
α = 5%, ou seja, além de rejeitar a hipótese de nulidade do valor H0 : β1 = 0, verificamos
que P − V alue < 5%. O modelo porposto será

ŷ = 34, 4857x

8.5.3 Regressoras
Podemos gerar os valores preditos Ŷ pela aplicação da matriz chapéu Ĥ nas variáveis
observáveis.

Ŷ = HY
′ ′
com H = X(X X)−1 X

a matriz chapéu.
8.5. ANÁLISE DE VARIÂNCIA ANOVA (PARA A REGRESSORA) 116

 
1 0, 10
 1 0, 15 
   
1 1 1 1 1 1 1, 323810 −5, 142857  1 0, 20
′ ′
 
Ĥ = X(X X)−1 X =

0, 1 0, 15 0, 2 0, 25 0, 3 0, 35 −0, 0017 0, 0037 1 0, 25
 
 
 
 1 0, 30 
1 0, 35

 
0.52380952 0.38095238 0.2380952 0.0952381 −0.04761905 −0.19047619

 0.38095238 0.29523810 0.2095238 0.1238095 0.03809524 −0.04761905 
0.23809524 0.20952381 0.1809524 0.1523810 0.12380952 0.09523810 
 
Ĥ = 

0.09523810 0.12380952 0.1523810 0.1809524 0.20952381 0.23809524 


 
 −0.04761905 0.03809524 0.1238095 0.2095238 0.29523810 0.38095238 
−0.19047619 −0.04761905 0.0952381 0.2380952 0.38095238 0.52380952

Aplicando a matriz chapéu no vetor observável podemos encontrar os pontos predi-


tos:

 
2, 454286

 4, 178571 

5, 902857
 
ĤY =   = Ŷ
 
 7, 627143 
 
 9, 351429 
11, 075714

Figura 8.5: Resultado da aplicação da matrix chapéu nos observáveis Y


8.6. VERIFICAÇÃO DOS PRESSUPOSTOS DOS RESÍDUOS 117

Figura 8.6: Resultado da aplicação da matrix chapéu nos observáveis Y

8.6 Verificação dos pressupostos dos resíduos


 
−0.76428571

 1.47142857 

−0.90285714
 
e = Y − Ŷ = Y − ĤY = 
 
0.37285714

 
 
 −0.10142857 
−0.07571429

Os resíduos devem apresentar as condições de normalidade, homocedasticidade e inde-


pendência.
• Normalidade: Os resíduos devem satisfazer a condição de uma distribuição normal
padrão z-Score com média numa e σ 2 . Calculando a média e variância dos resíduos
encontramos µ = 0 e σ 2 = 0, 7438857, respectivamente. Existem várias formas para
verificar a normalidade dos dados. A forma mais utilizada é através do teste de
Shapiro-Wilk:
( ni ai xi )2
P
W = Pn 2
i (xi − x̄)
Não vamos nos aprofundar agora. Vamos utilizar esta informação do software. Se
o valor P − valor < 5% rejeitamos a hipótese de normalidade, caso contrário,
aceitamos. O resultado obtido para os valores dos resíduos calculados foi P −
V alor = 0, 4929, confirmando a hipótese de normalidade. A saída do resultado do
teste é mostrado abaixo
>shapiro.test(residuos)
>Shapiro-Wilk normality test
>data: residuos
8.6. VERIFICAÇÃO DOS PRESSUPOSTOS DOS RESÍDUOS 118

>W = 0.9183, p − value = 0.4929

Uma outra forma mais prática é verificar o gráfico Normal qq-plot que visualiza as
relações entre ons quantis da distribuição normal e dos resíduos.
• Homocedasticidade: É a verificação MAIS IMPORTANTE PARA A VALIDAÇÃO
DA REGRESSORA. O método gráfico é simplesmente verificar a dispersão dos
resíduos tal que nenhuma outra regressora seja ajustável.
• Independência dos resíduos: basicamente temos que garantir que cov(ei , ei ) = 0 na
condução experimental.

Figura 8.7: Pressupostos da normalidade, homocedasticidade e independência dos resí-


duos
8.6. VERIFICAÇÃO DOS PRESSUPOSTOS DOS RESÍDUOS 119

Exemplo
Suponha o seguinte conjunto de dados:
   
1 2.611906
 2   8.661405 
   
 3   18.707360 
   
   
 4   31.319768 
   
 5   49.463700 
X= 
 Y  72.224351 
  
 6   
 7   99.920688 
   
 8   127.601447 
   
   
 9   160.889314 
10 198.857687

Verifique pelos resíduos se um modelo linear do tipo

Y = β0 + β1 x

é ajsutável (Sujestão: utilize um software para verifição dos pressupostos).

Solução: Vamos utilizar os comandos do softwarw R:

> par(mf row = c(2, 2))


> plot(lm(y ∼ x))
8.6. VERIFICAÇÃO DOS PRESSUPOSTOS DOS RESÍDUOS 120

Figura 8.8: Pressupostos da normalidade, homocedasticidade e independência dos resí-


duos

Observe que a dispersão dos resíduos não é aleatória mas segue uma tendência quadrática,
o que leva-nos a propor um modelo linear quadrático da forma:

y = β0 + β1 x + β2 x2

Para tanto: TODOS os passos vistos até aqui deverão ser recalculado para este polinô-
mio.
• ANOVA: verificação da regressora
8.6. VERIFICAÇÃO DOS PRESSUPOSTOS DOS RESÍDUOS 121

Fonte SQ DF(ν) MS F P-valor


Regressora: x 1 39378 39378 44332,8 1.439e-14 ***
Regressora: I(x)2 1 2057 2057 2316,3 4.374e-10 ***
Erro 7 6 1
Total 9 41441

• TESTE t-Student: verificação dos coeficientes da regressora

Fonte Estimativa Erro Padrão t-Student P-valor


β0 0,29244 1,10849 0,264 0,800
β1 0,13350 0,46295 0,288 0,781
β2 1,97400 0,04102 48,128 4,37e-10 ***

Observe que ssignificativo foi somente o termo quadrático β2 . Portanto, vamos verificar
os pressupostos dos resíduos.
Finalmente podemos propor a regressora y = 0, 29224 + 0, 13358x + 1, 97400x2 . Mas ob-
serve um problema: Devemos ou não incluir os coeficientes β0 e β1 não significativos dada
pelo teste t-Student? A resposta seria encontrar um selecionador de modelos. Existem
muitos e aqui vamos usar o critério de Akaike.
8.6. VERIFICAÇÃO DOS PRESSUPOSTOS DOS RESÍDUOS 122

Figura 8.9: Pressupostos da normalidade, homocedasticidade e independência dos resí-


duos para o modelo quadrático
8.6. VERIFICAÇÃO DOS PRESSUPOSTOS DOS RESÍDUOS 123

Figura 8.10: Dispersão dos dados e regressora

8.6.1 Critério de Escolha entre modelos: AIC - O critério de


Akaike (Parte I)
O critério mais difundido para a seleção de modelos é o critério de AIC

AIC = −2 log L(θ̂) + 2p

Quanto menor for o seu valor melhor será o ajuste.

Exemplo
No exemplo anterior ficamos na dúvida se deveríamos incluir no modelo quadrático os
coeficientes não significativos β0 e β1 . Existem três modelos popostos:
8.7. INTERVALOS DE PREDIÇÃO 124

• modelo1: y = β0 + β1 x
• modelo2: y = β0 + β1 x + β2 x2
• modelo3: y = β2 x2
Qual o melhor modelo?

Para tanto vamos selecionar o melhor modelo pelo critério AIC. Usando o Software R,
encontramos:

modelo1 < −lm(y ∼ x)


modelo2 < −lm(y ∼ x + I(x2 ))
modelo3 < −lm(y ∼ I(x2 ))
AIC(modelo1, modelo2, modelo3)

A saída correspondente foi:

DF AIC
Modelo 1 3 87.67532
Modelo 2 4 31.62696
Modelo 3 3 29.74505

O menor valor AIC, em módulo, é 29,7405. Propomos a regressora do modelo 3 que é


mais parcimonioso e simples:
y = 1, 97400x2

Exemplo
Para o primeiro exemplo da vazão do fluído em função da variação da pressão, encontre
o melhor modelo de ajuste.

Pressão 30,2 48,3 112,3 162,2 191,9 197,8


Taxa Vazão 0,15 0,35 1,0 1,25 1,75 2,00

Utilize o Critério de AIC.

8.7 Intervalos de Predição


Vimos que QUALQUER COEFICIENTE βj é verificado a sua significância pela afirmativa
a ser testada:


H0 : βj = 0
H1 : βj ̸= 0

β̂ segue a distribuição t-Student com ν = n − k graus de liberdade (sendo n observações


em k-variáveis independentes);
8.7. INTERVALOS DE PREDIÇÃO 125

βˆj − βj
tn−p ∼ q
σˆ2 Cjj
q
com erro padrão d.p. dado por: σˆ2 Cjj .
Portanto, como o coeficiente pode variar a depender do experimento podemos incluir um
intervalo de confiança I.C.

−tn−p, α2 < t < +tn−p, α2


βˆj − βj
−tn−p, α2 < q < +tn−p, α2
ˆ 2
σ Cjj
q q
βj − tn−p, α2 σ Cjj < βj < βj + tn−p, α2 σˆ2 Cjj
ˆ ˆ2 ˆ

Ou seja, os coeficientes apresentam um intervalo de confiança dada por:


q q
I.C.βj − tn−p, 2 σ Cjj < βj < βj + tn−p, 2 σˆ2 Cjj
ˆ α ˆ2 ˆ α

Exemplo
Com a tabela t-Student forneça os intervalos de confiança para os coeficientes β0 e β1 .

Coeficiente Estimative d.p. t-Student D.F. P-Value


β0 (Intercept) -0,9943 1,1095 = −0,9943
1,1095
= −0, 896 n-p 0,42082
β1 (x) 34,4857 4,6102 34,4857
= 4,6102 = 7, 480 n-p 0,00171 **

Solução:
• I.C. para β0
q q
βˆ0 − tn−p, α2 σˆ2 C00 < β0 < βˆ0 + tn−p, α2 σˆ2 C00
−0, 9943 − 1, 1095 · (−0, 896) > β0 > −0, 9943 + 1, 1095 · (−0, 896)
I.C.β0 − 1, 988412 < β0 < −0, 000188

• I.C. para β1
q q
β1 − tn−p, 2 σ C11 < β1 < β1 + tn−p, 2 σˆ2 C11
ˆ α ˆ2 ˆ α

34, 4857 − 4, 6102 · 7, 480 < β0 < 34, 4857 + 4, 6102 · 7, 480

Observe que o coeficiente angular β1 varia muito com 34, 4857 − 4, 6102 · 7, 480 < β0 <
34, 4857 + 4, 6102 · 7, 480, isso implica em encontrarmos um intervalo de predição porque
a reta regressora apresenta uma oscilação.
8.7. INTERVALOS DE PREDIÇÃO 126

8.7.1 Cálculo do Intervalo de Predição


Seja as p-observações p=k+1
 
1 x11 x12 ... x1k

 1 x21 x22 ... x2k 

X= 1 x31 x32 ... x3k
 

 
 1 ... ... ... ... 
1 xn1 xn2 ... xnk

Para um ponto sob todas as variáveis em específico x0 = (1, x01 , x02 , ...., x0k ), podemos
calcular a oscilação em torno desse ponto.
Seja a regressora
Ŷ = X̂β̂
Precisamos lembrar do valor esperado e a variância da regressora. O valor esperado é a
própria regresosra Ŷ e a variância foi dada por:


V AR(Ŷ) = σˆ2 x Cx

com (C = x x)−1
O valor intervalar para um ponto em específico x0 = (1, x01 , x02 , ...., x0k ) será

media Ŷ0

varaiancia V AR(Ŷ0 ) = σˆ2 x0 Cx0
Para um intervalo de confiança

−tn−p, α2 < t < +tn−p, α2


s s
1 (x0 − x̄)2 1 (x0 − x̄)2
ŷ0 − tα/2 σ̂ 1+ + < y0 < ŷ0 + tα/2 σ̂ 1 + +
n Sxx n Sxx
com
− ¯(x))2
Pn
i=0 (x
Sxx =
N −1
e √ √
σ̂ = σ̂ 2 = M SE

é o intervalo de predição.
8.7. INTERVALOS DE PREDIÇÃO 127

Figura 8.11: Intervalo de predição

No software R o comando é dado por

> predict(lm(y ∼ x))


> new < −data.f rame(x = seq(0.05, 0.40, 0.05))
> predict(lm(y ∼ x), new, se.f it = T RU E)
> pred.w.plim < −predict(lm(y ∼ x), new, interval = ”prediction”)
> pred.w.clim < −predict(lm(y ∼ x), new, interval = ”conf idence”)
> matplot(new$x, cbind(pred.w.clim, pred.w.plim[, −1]),
lty = c(1, 2, 2, 3, 3), type = ”l”, ylab = ”predictedy”)
> points(x, y, pch = ” + ”)
8.8. VERIFICAÇÃO DA QUALIDADE DE AJUSTE 128

8.8 Verificação da Qualidade de Ajuste


A qualidade do ajuste pode ser verificada melhor através das análises de resíduos mais
sofisticadas, são elas:

Resíduo Estilo
Resíduos standardized di = √MeiSE
Resíduos studentized ei
di = √M SE(1−h
ii )

Resíduos PRESS e(i) = heiii


ti = q 2 ei
Resíduos studendized externamente S(i) (1−hii )
2 (n−p−1)M SE−e2i (1−hii )
S(i) = n−p

com ei = yi − ŷi
Os resíduos são obtidos por e = MY sabendo que M = I−H e Y = Xβ +ϵ. Então:

e = MY
e = (I − H)Y
e = (I − H)(Xβ + ϵ)
e = IXβ − HXβ + (I − H)ϵ
′ ′
e = Xβ − (X(X X)−1 X )Xβ + (I − H)ϵ
′ ′
e = Xβ − X(X X)−1 (X X)β + (I − H)ϵ
e = Xβ − Xβ + (I − H)ϵ
e = (I − H)ϵ
(8.17)

finalmente
e = (I − H)ϵ

A característica do erro é
ϵ ∼ N (0, σ 2 )
. Qual a média e a variância de e? O valor esperado do erro será

E(e) = E((I − H)ϵ) = (I − H)E(ϵ) = (I − H)0 = 0

e a variância

V AR(e) = V AR((I − H)ϵ) = (I − H)2 V AR(ϵ) = (I − H)V AR(ϵ) = (I − H)σ 2

Finalmente a distribuição para os resíduos será dada por

e ∼ N (0, (I − H)σ 2 )

Cada resíduo ei será igualmente distribuído ei ∼ N (0, (1 − hii )σ̂ 2 )


8.8. VERIFICAÇÃO DA QUALIDADE DE AJUSTE 129

Exemplo
Faça a análise dos resíduos para o gráfico abaixo:

Figura 8.12: Pressupostos da normalidade, homocedasticidade e independência dos


resíduos para o modelo quadrático

8.8.1 Diagnóstico de influência


• Pontos de alavancagem è o diagnóstico para verificar qual observação prodiz o
fenômeno de alavancagem na regressora.
n
X
hii = rank(H) = rank(X) = p
i=1

– se hii > 2( np ) a observação (i) é um possível ponto de alavancagem.


• Influência nos coeficientes da regressão
– Distância de Cook (Cook (1979)) Seja a distância β̂ − β̂(i) . A medida refere-se
o quanto a retirada da observação (i) altera o valor da estimativa.
′ ′
(β̂ − β̂(i) ) X X(β̂ − β̂(i) )
Di =
p(M SE)
∗ Considera-se Di > 1 possivelmente pontos influentes
– DF F it(i) (Belsley, Kuh e Welsch (1980)): Se a i-ésima observação for removida
do conjunto de dados, quandos desvios padrão cada coeficiente de regressão β̂i .

β̂j − β̂j(i)
DF Betaj,i = q
2
S(i) Cj+1,j+1

∗ Amostras pequenas:|DF Betaj,i | > 1


8.9. CONCEITOS FUNDAMENTAIS EM ANÁLISE GENERALIZADA 130

∗ Amostras grandes: |DF Betaj,i | > √2


n

• Influência nos valores ajustados Mensura o quanto o valor ajustado altera na


ausência da i-ésima observação.
ŷj − ŷj(i)
DF F iti = q
2
S(i) hi,i

– Amostras pequenas:|DF F iti | > 1


– Amostras grandes: |DF F iti | > √2
n

• Influência na precisão da estimação


2
|C(i) S(i) |
Covratioi =
|C · (M SE)|

– Influência superior: Covratioi > 1 + 3(p/n)


– Influência inferior: Covratioi < 1 − 3(p/n)

Exemplo
A tabela seguinte da saída de um software mostra-nos diagnósicos de uma regressão.
Interprete-as.

8.9 Conceitos fundamentais em análise generalizada


Em muitas análises de ajuste regressivo podem estar equivocadas porque a fonte (ou a
origem) dos dados são naturalmente não normais, isto é, não seguem uma distribuição
Gaussiana. É razoável pressupor uma transformação nos dados para obter normalidade
dos dados. Hoje, com o desenvolvimento computacional mais sofisticados os modelos
generalizados são praticáveis e não necessitam da condição de normalidade. Como dizemos
e estudamos até aqui a análise de ajuste era feita por:

y = β0 + β1 x + β2 x2 + ...βp xp

desde que suponha a normalidade. A diferença aqui é pressupor uma função de ligação
chamada de componente sistemática

g(µi ) = xi β

Observe que estamos partindo a resposta não de Yi , mas de uma função f (Yi ) e isto tem
que ficar claro.
8.9. CONCEITOS FUNDAMENTAIS EM ANÁLISE GENERALIZADA 131

Definição
Seja Y1 , Y2 ,...Yn variáveis aleatórias independentes com densidade de probabilidade
dada por
f (y; θi , ϕ) = exp{ϕ[yθi − b(θi )]} + c(y, ϕ)
com 

 E(Yi ) = µi = d[b(θ

i )]

V ar(Yi ) = ϕ−1 Vi ϕ−1 > 0


V = dµ


sob condição da função de ligação



g(µi ) = xi β

Exemplo
Encontre os termos da família exponencial para a distribuição normal de probabilidade.

Seja Y ∼ N (µ, σ 2 ), sendo


1 1 y−µ 2
f (y|µ, σ 2 ) = √ e− 2 (σ
)
2πσ 2
Vamos encontrar os termos para f (y; θi , ϕ) = exp{ϕ[yθi − b(θi )]} + c(y, ϕ).
Na verdade é apenas reescrever a função densidade gaussiana de probabilidade no formato
da família exponencial;
1 1 y−µ 2
f (y|µ, σ 2 ) = √ e− 2 ( σ )
2πσ 2
  
2 1 − 12 ( y−µ )2
f (x|µ, σ ) = exp ln √ e σ
2πσ 2
 
1 2 1 y−µ 2
= exp − ln(2πσ ) − ( )
2 2 σ
1 y 2 − 2yµ + µ2
 
1 2
= exp − ln(2πσ ) − ( )
2 2 σ2
1 x2 1 µ 2
 
1 2 yµ
= exp − ln(2πσ ) − − + 2
2 2 σ 2 2 2σ 2 σ
2 2
    
1 µ 1 2 y
= exp 2 yµ − + − ln(2πσ ) − 2
σ 2 2 2σ

O próximo passo é comprar o reescrita com a forma da família exponencial:

µ2 y2
    
2 1 1 2
f (x|µ, σ ) = exp 2 yµ − + − ln(2πσ ) − 2
σ 2 2 2σ

f (y; θi , ϕ) = exp{ϕ[yθi − b(θi )]} + c(y, ϕ)


8.9. CONCEITOS FUNDAMENTAIS EM ANÁLISE GENERALIZADA 132



 ϕ = σ12

y=y




θ=µ

2
2 d[ µ2 ]
b(θi ) = µ2 → E(Yi ) = d[b(θ i )]



 dθ
= dµ

  2
1 y


 c(y, ϕ) = − 2 ln(2πσ 2 ) − 2σ2

usando a condição de ligação



g(µi ) = xi β
para
θ = µ = g(µi )
é uma função linear já conhecida e estudada

µ = xi β

µ = β0 + β1 x1 + β2 x2 + ...βp xp

Exemplo
Encontre os termos da família exponencial para a distribuição binomial de probabili-
dade.

Seja Y ∼ binom(y, π), sendo π a probabildade de sucesso.


 
N y
f (y; π) = π (1 − π)N −y
y
   
N
f (y; π) = exp ln + y ln π + (N − y) ln(1 − π)
y
    
π N
f (y; π) = exp y ln + N ln(1 − π) + ln
1−π y

O próximo passo é comprar o reescrita com a forma da família exponencial:


      
π N
f (y; π) = exp 1 y ln + N ln(1 − π) + ln ]
1−π y

f (y; θi , ϕ) = exp{ϕ[yθi − b(θi )]} + c(y, ϕ)



 ϕ=1



 y=y
π

θ = ln 1−π
b(θi ) = −N ln(1 − π)




c(y, ϕ) = ln Ny

 

usando a condição de ligação



g(µi ) = xi β
8.9. CONCEITOS FUNDAMENTAIS EM ANÁLISE GENERALIZADA 133

para  
π
θ = ln = g(µi )
1−π
é uma função não-linear conhecida omo modelo logit (ou logístico)

µ = xi β
 
π
logit(π) = ln = β0 + β1 x1 + β2 x2 + ...βp xp
1−π
Capítulo 9

Controle Estatístico de Processo

o Controle Estatístico de Processo (CEP) têm por objetivo a redução sistemática da


variabilidade nos processos de produção. Devido aos efeitos físicos, químicos ou humanos,
a variabilidade na produção inviabiliza a produção exata. Os processos de fabricação eram
artesanais e com forte dependência da experiência e da habilidade do artesão. A revolução
industrial foi marcada pela alteração na forma de podução, na condução do trabalho e do
capital. O evento ocorreu na segunda metade do século XVIII na Inglaterra, espalhando
pela Europa e expandindo para o resto do globo. A expansão das ferrovias, das máquinas
a vapor e da indústria da tecelagem são exemplos do desenvolvimento da industrialização.
Com o crescimento econômico, houve maior demanda por produtos e serviços. Entre
os anos de 1870 e 1880, houve mudanças significativas na enconomia mundial devido à
grandes desconertgas na ciência e nas tecnologias empregadas. Por exemplo, o conceito do
limite de tolerância foi incorporado por volta de 1870 dada a necessidade de padronização.
A partir de 1920, os meios de produção tornavam-se mais complexos e o conceito de
CEP tornou-se amplamente difundido nos países industrializados. Foi com Shewhart
que, em 1924, criou o primeiro gráfico de controle de fabricação para melhor gerência da
variabilidade na manufartura. Mas foi durante a primeira e a segunda gerra mundial que
o Controle Estatístico de Processo evoluiu graças à necessidade da padronização militar.
Mais tarde, pós segunda gerra, as técnicas empregadas em batalhas foram expandidas
para o meio produtivo e industrial. O objetivo do Controle Estatístico de Processo é a
redução dos refugos, diminuição dos custos de produção e aumento do desempenho na
linha de produção. A justificativa do CEP é controlar a variabilidade na produção e/ ou
manufartura para proporcionar dispedício possível.

9.1 Controle de qualidade


Na inspeção do produto acabado a validação é feita somente no final da linha de produ-
ção, não temos a capacidade de avaliar o que ocorre durante a produção, tais como as
panes, as anomalias, possíveis paradas, processos irregularidades, inutilizações de peças,
ocorrênica de sinistros ou estragos, deteriorações dos materiais, entre outros eventos ine-
rentes a uma linha de produção. Diferentemente da inspeção final, o Controle Estatístico
de Processo avalia a produção "dentro"da linha produção ou porcessos de manufatura.
A variabilidade no processo subdivide-se em duas causas: i) Causas Comuns de Vari-
ação, aquelas devido à aleatoriedade, inerente ao processo, as quais não temos controle

134
9.2. GRÁFICOS DE CONTROLE 135

devido aos pequenos ruídos ou processos naturais e ii) Causas Especiais de Variação,
aqui nos referimos ao processo sistemático, à condução da produção, não sendo de fonte
aleatória, mas sim determinada por algum caso técnico, humano ou experimental ou de
calibração. Se o processo ocorre excusivamente sob causas comuns de variação, dizemos
que a produção ocorre sob condição normal de operação, caso contrário, será dito não
estável e fora de controle, pois altera significativamente a tendência média, ocasionar o
aumento variacaional.

9.1.1 Controle
Uma pergunta pertinente: o que é controle? Quando todas a especificações a priori estão
satisfeitas dentro de um limite de tolerância e de confiança, dizemos que algum processo
está sob controle. Suponha testar a hipótese nula em que o processo está controlado.
Como vimos nos testes de hipóteses dois tipos de erros podemos encontrar: i) erro tipo I:
dado que o processo está sob controle, concluirmos que não está e, ii) erro tipo II: dado
que o processo não está sob controle, concluirmos que o mesmo está controlado.

9.2 Gráficos de Controle


O gráfico de controle visa o acompanhamento ou vigilência do estado do processo produ-
tivo para verificar se está sob controle. Através dos limites superiores e inferiores torna-se
possível averiguar a evolução da produção.

9.2.1 Gráfico de controle para variáveis


Gráfico para a média X̄
Suponha

X ∼ N (µ, σ 2 ), então X̄ ∼ N (µ, σx2 ≡ σ 2 /n) e, para a quantidade pivotal z =
n(x̄−µ)
σ
, implica no seguinte intervalo de confiança:
σ
LCI = µ − zα/2 √
n
σ
LCS = µ + zα/2 √
n
De acordo com a distribuição z-Score, considerando o limite "três sigma", a quantidade
média de controle refere-se a 99,6% dos produtos dentro dos limites especificados LCI e
LCS. Além disso, suponha calcular a média das k-ésimas médias amostrais, ou seja
¯ = E(X̄) = µ

Isto implicará em
¯ − 3 √σ
LCI = X̄
n
¯ + 3√ σ
LCS = X̄
n

Observe que a quantidade 3/ n é uma constante denotada por A, quando conhecemos
ou é fornecido o valor de σ, então
¯ − Aσ
LCI = X̄
¯ + Aσ
LCS = X̄
9.2. GRÁFICOS DE CONTROLE 136


com A = 3/ n.
Em muitas situações reais não conhecemos o valor da variância populacional σ 2 . Existem
duas possibilidades:
i Substituir a variância populacional σ 2 pela variância populacional e um
fator de correção, c2 .
A quantidade c2 é definida por
r
2 Γ( n2 )
c2 =
n Γ( n2 − 21 )
cujo valor para cada tamanho n amostral obtemos:

n 2 3 4 5 6 7 8
c2 0.564 0.723 0.797 0.840 0.868 0.888 0.902
n 9 10 11 12 13 15 20
c2 0.913 0.922 0.929 0.935 0.940 0.949 0.961

1 r e q u i r e ( "rQCC" ) # Pacote
2 n = 25
3 c o n s t a n t e s<−matrix ( r e p (NA, 2 ∗n ) , nc =2)
4 colnames ( c o n s t a n t e s )<−c ( "n" , " c2 " )
5 for ( i in 2: n){
6 constantes [ i ,1]= i
7 c o n s t a n t e s [ i , 2 ] = f a c t o r s . c c ( n=i , f a c t o r=" c2 " )
8 }
9 c o n s t a n t e s<−data . frame ( na . omit ( c o n s t a n t e s ) )
10 constantes

Listing 9.1: Código fonte em R

Portanto, podemos considerar o desvio da população substituído pela média dos


desvios padrão amostrais corrigido (desvio padrão médio corrigido):

σ=
c2
resultando em
¯ −3 √ s̄
LCI = X̄
c2 n
¯ +3 √ s̄
LCS = X̄
c2 n

Obervando que temos a quantidade 3/c2 n como sendo uma constante, digamos
A1 , ou seja,
¯ −A σ
LCI = X̄ 1
¯
LCS = X̄ + A1 σ

Nessa forma, encontramos os valores da constante A1 = 3/c2 n
9.2. GRÁFICOS DE CONTROLE 137

n 2 3 4 5 6 7 8 9 10 11 12
A1 3.759 2.393 1.879 1.595 1.409 1.276 1.174 1.094 1.028 0.972 0.925

1 r e q u i r e ( "rQCC" ) # Pacote
2 n = 25
3 c o n s t a n t e s<−matrix ( r e p (NA, 2 ∗n ) , nc =2)
4 colnames ( c o n s t a n t e s )<−c ( "n" , "A2" )
5 for ( i in 2: n){
6 constantes [ i ,1]= i
7 c o n s t a n t e s [ i , 2 ] = f a c t o r s . c c ( n=i , f a c t o r="A2" )
8 }
9 c o n s t a n t e s<−data . frame ( na . omit ( c o n s t a n t e s ) )
10 constantes

Listing 9.2: Código fonte em R

ii Estimar a variância σ̂.


Para isso, suponha uma amplitude de alguma observação Ri = xmaxi − xmini . Ob-
serve que a variância estimada σ̂i é proporcional à média das amplitudes R̄.

R̄ ∼ σ̂

De fato,
R̄ = d2 σ̂
Ou seja,

σ̂ =
d2
Substituindo nos limites temos

¯ − 3√
LCI = X̄

d2 n
¯ + 3√
LCS = X̄

d2 n

A quantidade d2 pode ser calculada com base no tamanho da amostra, o seu valor
é calculado através da seguinte integral
ˆ ∞
d2 = 2 [(1 − Φ(x)n ) − (1 − Φ(x))n ]dx
0

sendo Φ(x) a distribuição Z-Score acumulada de x

n 2 3 4 5 6 7 8 9 10 11 12
d2 1.128 1.692 2.058 2.325 2.534 2.704 2.847 2.970 3.077 3.172 3.258
9.2. GRÁFICOS DE CONTROLE 138

No software podemos encontrar através do pacote rQcc


1 r e q u i r e ( "rQCC" ) # Pacote
2 n = 25
3 c o n s t a n t e s<−matrix ( r e p (NA, 2 ∗n ) , nc =2)
4 colnames ( c o n s t a n t e s )<−c ( "n" , "d2" )
5 for ( i in 2: n){
6 constantes [ i ,1]= i
7 c o n s t a n t e s [ i , 2 ] = f a c t o r s . c c ( n=i , f a c t o r="d2" )
8 }
9 c o n s t a n t e s<−data . frame ( na . omit ( c o n s t a n t e s ) )
10 constantes

Listing 9.3: Código fonte em R

Observe que apenas X̄¯ e R̄ dependem da amostra. A quantidade 3√


é uma cons-
d2 n
tante e a definimos como tal

3
A2 = √
d2 n
resultando na seguinte tabela:

n 2 3 4 5 6 7 8 9 10 11 12
A2 1.880 1.023 0.729 0.577 0.483 0.419 0.373 0.337 0.308 0.285 0.266

No software podemos encontrar através do pacote rQcc


1 r e q u i r e ( "rQCC" ) # Pacote
2 n = 25
3 c o n s t a n t e s<−matrix ( r e p (NA, 2 ∗n ) , nc =2)
4 colnames ( c o n s t a n t e s )<−c ( "n" , "A2" )
5 for ( i in 2: n){
6 constantes [ i ,1]= i
7 c o n s t a n t e s [ i , 2 ] = f a c t o r s . c c ( n=i , f a c t o r="A2" )
8 }
9 c o n s t a n t e s<−data . frame ( na . omit ( c o n s t a n t e s ) )
10 constantes

Listing 9.4: Código fonte em R

¯ − A · R̄
LCI = X̄ 2
¯
LCS = X̄ + A2 · R̄
9.2. GRÁFICOS DE CONTROLE 139

Exemplo
Suponha dados referentes a 40 amostras de tamanho n = 5 referentes aos diâmetros
internos dos anéis de pistão automotivo, todos manufaturado em uma linha de pro-
dução. Do total de 200 observações, são considerados as primeiras 25 amostras "em
controle"para a fase I (TRUE) e as demais amostras na fase II (FALSE). Encontre os
limites inferior LCL (LCI) e superior UCL (LCS). Faça o graáfico de controle para a
média.
Capítulo 10

Introdução à amostragem

A Teoria da Amostragem é uma das mais importantes, complexa e extensa teoria em


Estatística. Estuda as relações existentes entre a população e os seus respectivos subcon-
juntos, as amostras. A amostragem é o conjunto de técnicas que determinam o tamanho
mínimo da amostra necessária para a validação dos processos inferenciais. Em outras pa-
lavras, significa calcular um número de observações que minimiza a ação da variabilidade
dentro e entre as amostras ou o custo da observação-coleta.
• População: grupo de interesse caracterizado pela totalidade das unidades amostrais.
• Amostra: qualquer subconjunto da população. Cada elemento do conjunto é cha-
mado de unidade amostral.
• Censo: Levantamento de toda a população.

10.1 Amostragem probabilística


São dois tipos de amostragens: a amostragem por conveniência e amostragem proba-
bilística. A primeira não supõe nenhum tipo de distribuição probabilística a priori e
caracteriza-se pela simplicidade da sua aplicação com a desvantagem de ocasionar gran-
des variabiliades amostrais. Também conhecida por amostragem não-probabilística, é
aplicado para amostra piloto pois a seleção é feita aos elementos que têm acesso. A amos-
tragem probabilística define uma seleção aleatória com probabilidade conhecida e a sua
variância é controlada pela variância da distribuição de probabilidade. Qualquer plano
amostral exige o conhecimento prévio do tamanho da população N a ser amostrada e esse
é o objetivo dos censos demográficos. Toda amostragem define a variância fixa ou pré
calculada por testes piloto.

10.2 Tipos de amostragem


Os tipos de amostragem probabilística são:
• Amostragem aleatória simples AAS: A seleção é feita diretamente da popula-
ção. As amostras são equiprovávies, isto é, todas as unidades amostras têm a mesma
probabilidade de serem escolhidas segundo a distribuição uniforme discreta.

140
10.2. TIPOS DE AMOSTRAGEM 141

a) Vantagem: fácil aplicação, aplica-se a equiprobabilidade e bons resultados.


b) Desvantagem: menor precisão e a amostra pode não ser representativa.
• Amostragem estatificada AE: A seleção é feita indiretamente da população.
Subdivide-se em grupos amostrais que apresentam alguma característica em co-
mum ou qualquer característica internamente homogênea, desde que seja diferente
externamente. Cada estrato h apresenta um "peso Wh "proporcional à observação
na população.
a) Vantagem: maior precisão com resultados mais confiáveis.
b) Desvantagem: exige-se a homogeneidade nos estratos que nem sempre é possí-
vel.
• Amostragem por conglomerado AC: Subdivide-se a população em grupos por
unidades amostrais. Seu plano amostral é o menos eficiente.
a) Vantagem: maior precisão com resultados mais confiáveis.
b) Desvantagem: exige-se que os subgrupos sejam semelhantes entre si.
• Amostragem sistemática AS: Recolhe-se a amostra por dependência paramé-
trica. Dentro da amostragem sistemática pode-se desenvolver planos amostrais AAS,
AE ou AC.
a) Vantagem: maior praticidade e mais econômico
b) Desvantagem: exige-se a a ordenação dos elementos e homogeneidade entre as
amostras.
• Amostragem por regressão AREG: A seleção se faz por uma informação a
priori dada pela análise de regressão feita por amostragem piloto.

10.2.1 Amostragem Aleatória Simples


A amostragem aleatória simples - AAS é o plano amostral mais importante de todos os
planos porque serve como base ou subsídio a outras foramas de coleata amostral.

Amostragem Aleatória Simples Com Reposição


Para este plano cada retirada é feita com reposição sendo modelada pela distribuição
binomial de probabilidade:
 
N x
P [X = x] = p (1 − p)N −x
n

com variância calculada  


1 1
V ar(x) = npq = n 1−
N N
sendo N o tamanho da população a ser amostrada e n o tamanho amostral. Segundo a
lei dos grandes números, para a distribuição binomial, à medida que a amostra n cresce
a distribuição binomial X ∼ Bin(n, p) se aproxima da distribuição normal Y N (µx , σx2 )
10.2. TIPOS DE AMOSTRAGEM 142

com µx = np e σx2 = npq, ou seja, dada a quantidade pivotal

√ X̄ − E(X̄))
n· p → N (0, 1)
V ar(X̄)

convergirá em distribuição para a distribuição normal.


• Amostragem para a média com variância conhecida A quantidade pivotal para a
distribuição normal de probabilidade com variância conhecida é dada por

X̄ − E(X̄)
Z= √
σ/ X̄

tal, que seu intervalo de confiança será definido da seguinte forma

I.C. = −zα/2 < z < zα/2


x̄ − E(x̄)
I.C. = −zα/2 < √ < zα/2
σ/ n
√ √
I.C. = −zα/2 σ/ n < x̄ − µ < zα/2 σ/ n
√ √
I.C. = x̄ − zα/2 σ/ n < µ < x̄ + zα/2 σ/ n

Ou seja,
I.C. = x̄ − E < µ < x̄ + E
com Erro definido por √
E = zα/2 σ/ n

Desde que N > 0.05 · N . Determina-se o erro admissível ou margem de erro E


para um nível de significância α determinado. O tamanho amostral necessário para
estimar uma média populacional será dado por:
 z σ 2
α/2
n=
E
Alguns autores chamam de razão fixa D:

E2
D= 2
zα/2

Exemplo
Qual o tamanho amostral necessário para estimar a contagem média de células
brancas no sangue (em células por microlitro) para a população de adultos?
Suponha que desejemos 99% de confiança em que a média amostral esteja a até
0.2 da média populacional. O desvio-padrão populacional é de 2.5 unidades.
10.2. TIPOS DE AMOSTRAGEM 143

(zα/2 ≈ 2.575a )
z
α/2 σ
2
n=
E
 2
2.575 · 2.5
n= ≈ 1036 unidades amostrais
0.2
a
> qnorm(0.005)

Fator de correção para população finita


Se o tamanho da população for finito, então a margem de erro E será
r
σ N −n
E = zα/2 √
n N −1

Isto implica na alteração do tamanho amostral para

N σ 2 (zα/2 )2
n=
(N − 1)E 2 + σ 2 (zzα/2 )2
Observe a exigência do conhecimento do tamanho populacional N.
• Amostragem para a média com variância desconhecida
Quando não conhecemos ou não temos acesso ao desvio padrão populacional recor-
remos a quantidade pivotal da distribuição t-Student:

X̄ − E(X̄)
T = p
S/ var(X̄)

tal, que seu intervalo de confiança será definido por:

I.C. = −tα,ν < T < tα,ν


x̄ − E(x̄)
I.C. = −tα,ν < √ < tα,ν
S/ n
√ √
I.C. = −tα,ν S/ n < x̄ − µ < tα,ν S/ n
√ √
I.C. = x̄ − tα,ν S/ n < µ < x̄ + tα/2 S/ n

Ou seja,
I.C. = x̄ − E < µ < x̄ + E
com Erro definido √
E = tα,ν S/ n

Determina-se o erro admissível ou margem de erro E para um nível de signifi-


cância α determinado. O tamanho amostral necessário para estimar uma média
populacional será dado por:
 2
tα,ν S
n=
E
10.2. TIPOS DE AMOSTRAGEM 144

• Amostragem para a proporção


Quando o interesse é a proporção populacional, não podemos usar as quantidades
pivotais referentes à média. Nesse caso usamos a quantidade
p − p̂
Z= q
p̂q̂
n

sendo a estimativa da proporção amostral definida como


x
p̂ =
n
O tamanho amostral pode ser encontado via intervalo de confiança para a proporção,
porém dois resultados são possíveis:
– Quando se conhece a estimativa de p̂
2
!
zα/2
n= · p̂q̂
E2

– Quando não se conhece a estimativa de p̂


2
!
zα/2
n= · 0.25
E2

Exemplo
A internet está nos afetando a todos de maneiras diferentes, de modo que há
razões para estimar a proporção de joves e adultos que a usam. Dados da Pnad
(Pesquisa Nacional por Amostra de Domicílios), divulgados pelo IBGE (Instituto
Brasileiro de Geografia e Estatística) divulgou que a região Norte do Brasil, no
ano de 2013, apresentou o maior porcentual de domicílios que usaram o celular
para acessar a internet (75, 4%). Visando verificar a dependência digital pelo
celular, um grupo de psicólogos deseja calcular o tamanho da amostra com nível
de significância α = 5% com erro E não superior a três pontos pecentuais.
Calcule o tamanho amostral supondo: a) conhecido os resultados do Pnad e b)
que não temos nenhuma informação prévia sobre a proporção populacional.

Sol.

– a) conhecido os resultados do Pnad


2
!
zα/2 1.962 (0.754)(1 − 0.754)
n= · p̂q̂ = = 792 amostras
E2 0.032

– b) não temos nenhuma informação prévia sobre a proporção populacional.


2
!
zα/2 1.962 0.25
n= · p̂q̂ = = 1067 amostras
E2 0.032
10.2. TIPOS DE AMOSTRAGEM 145

Amostragem Aleatória Simples Sem Reposição


Para este plano amostral cada retirada sem reposição é modelada pela distribuição hiper-
geométrica de probabilidade:
k
 N −k 
′ n′ n−n′
P (X = n ) = N


n

com variância
nN −K N −n
V ar(x) =
k N N −1
Na amostragem sem reposição a variância para a média dependerá da fração amostral
f = Nn ,
S2 S2 S2
V ar(x̄) = (1 − f ) = n =
n (1−f )
nf
Definimos a quantidade de razão fixa pela quantidade
 n  S2 S2
D = 1− = (1 − f )
N n n
′ S2
Definindo n = D
encontraremos o tamanho da amostra por fator de correção
′ z
n ′ α/2·S
2
n= ′ , com n =
1+ n E
N

Exemplo
Considere uma população de material hospitalar fora de padrão oriundas de um for-
necedor. Uma pesquisa amostral foi conduzida para verificar o índice de incidência
de material fora do padrão. A unidade pode conter até 8 tipos de defeitos diferentes.
Uma amostra AAS sem reposição foi solicitada de 1423 unidades de um total de 36 mil
unidades em um período de três meses. Calcule o tamanho amostral mais adequado
sem reposição com erro admissível máximo de 5%. Faça o que se pede.

Qtde de material Qtde de defeitos encontrados


521 0
286 1
190 2
111 3
52 4
25 5
2 6
9 7
2 8

1) Encontre as caracaterísticas da amostra

X̄ = 1.187813, SX̄ = V ar(X̄) = 2.049074


10.3. AMOSTRAGEM ESTRATIFICADA 146

2) Desenvolva um programa no software R


> dados<-c(rep(0,521),rep(1,286),rep(2,190),rep(3,111),rep(4,52),rep(5,25),rep(6,2),rep(7,9),rep(8,2))
> mean(dados)
[1] 1.187813
> var(dados)
[1] 2.049074


3) Calcule o tamanho amostral versão com reposição n
√ !2
zα/2 S 2
 
′ 1.96 · 2.049074
n = = = 3.148, 69unidades
E 0.05

4) Calcule o tamanho amostral versão sem reposição n



n 3.148, 69
n= = = 2895.44 ≈ 2895
n′ 1 + 3.148,69
1+ N 36000

Devemos amostrar 2895 unidades de material hospitalar de consumo.

10.3 Amostragem Estratificada


A amostragem estatificada consiste na divisão de uma população em grupos ou parcelas
por alguma caracaterística comum e conhecida da população. Chamamos esta divisão de
estratos h com as seguintes definições
• Tamanho do estrato Nh
• Total da população N =
PH
i=1 Nh
• Peso do estrato Wh = Nh
N

• Total populacional TP = H ¯
P
i=1 Nh YH

• Média populacional H ¯
P
i=1 Wh YH

• Total do estrato Tn = H
P
i=1 Yhi
PH
Yhi
• Média do estrato Y¯h = i=1
Nh
PH ¯
i=1 (Yhi −Yhi )
• Variância do estrato Shi = Nh −1

10.3.1 Alocação Ótima de Neyman


Considere a função custo do levantamento amostral

H
X
C = c0 + ch nh
h=1

e a variância das médias nos estatos


H
X
Vest = V ar(y¯est ) = Wh2 σh2 /nh
i=1
10.3. AMOSTRAGEM ESTRATIFICADA 147

onde C é o custo total e c0 é o aporte financeiro. Na prática esse modelo sugere a


contratação de plano de seguro amostral devido aos riscos inerentes ao processos.
O tamanho amostral do estatro h, escrito por nh , dependerá da parcela do custo do estrato
h em relação a todos os outros estratos

Wh σh / ch
n h = PH √
i=1 Wh σh / ch

Finalmente, podemos encontrar o tamanho amostral sob duas situações


• Custo fixo PH √
Nh σh / ch
n = (C − c0 ) Pi=1
H √
i=1 Nh σh ch

• Variância fixa !
H H
1 X √ X Wh σh
n= Wh σh ch √
Vest i=1 i=1
ch

Exemplo
Calcule o tamanho amostral n e nos estratos nh para custo fixo com aporte inicial de
c0 = R$3.200, 00. Abaixo segue a tabela dos estratos com as suas respecetivas médias,
desvios e custos.

h Nh xvar Sh ch em 103 Reais


1 28 7,2 1,18 2,2
2 30 6,9 2,01 2,8
3 20 7,0 1,19 2,5
4 15 7,2 1,20 3,0
5 32 7,7 1,15 2,9

Sol.
Primeiramente vamos calcular o tamanho geral da amostra n
PH √
i=1 Nh σh / ch 105.3662
n = (C − c0 ) PH √ = (13400 − 3200) 281.3836 = 3819.465 ≈ 3819amostras
i=1 Nh σh ch

O tamanho amostral é 3819 amostras que deverá ser subdividida nos estratos
√ √ √
W h s h / ch
h Nh xvar Sh ch ch Wh W h s h / ch p̂ = PH √ nn = n · p̂
i=1 Wh sh / ch
1 28 7,2 1,18 2,2 13483240 0,224 22,27556 0,21141099 807, 47 ≈ 807
2 30 6,9 2,01 2,8 1,673320 0,240 36,03614 0,34200870 1306, 29 ≈ 1306
3 20 7,0 1,19 2,5 1,581139 0.160 15,052244 0,14285841 545, 64 ≈ 546
4 15 7,2 1,20 3,0 1,732051 0,120 10,39230 0,09863039 376, 75 ≈ 377
5 32 7,7 1,15 2,9 1,702939 0,256 21,60970 0,205809151 783 ≈ 783
10.3. AMOSTRAGEM ESTRATIFICADA 148


Wh σh / ch
n h = PH √
i=1 Wh σh / ch
Capítulo 11

Números Índices

Quando pensamos em indicadores nos referimos aos índices comparativos. As variações


dos preços ou das quantidades produzidas durante um período específico e, quando com-
parada por alguma referência, ano-base, por exemplo, estamos comparando o acréscio ou
o decréscimo do preço (ou quantidade) em um período de tempo. Nas áreas financeiras e
econômicas os números índices servem para auxiliar tanto nas políticas públicas de preço
e salário quanto no andamento do comércio em uma região.

11.1 Números Índices Simples


Podemos compor os números índices na compração da quantidade ou valor no período em
comparação com um período-base.
• Números Índices Simples para Preços
pn
Ip = · 100 ≡ p0/n · 100
p0

• Números Índices Simples para Quantidades


qn
Iq = · 100 ≡ q0/n · 100
q0

• Números Índices Simples para Valor


vn p n qn
Iv = · 100 = · 100 ≡ v0/n · 100
v0 p 0 q0
O valor de um produto é determinado pela quantidade vendida, ou seja, preço ×
quantidade.

149
11.1. NÚMEROS ÍNDICES SIMPLES 150

Exemplo
São produzidos borrachas para vedação em painéis solares. O preço sugerido no ano
base de 2010 foi de R$485, 80 por metro. Atualmente, no ano de 2022, devido à inflação
e ao aumento do barril de petróleo, o preço sugerido foi de R$602, 00. Encontre o índice
simples de preço com ano-base 2010.

Sol.

• Ano-base: 2010, preço R$485, 80


• Ano atual: 2022, preço R$602, 00
Utilizando o Números Índices Simples para Preços
pn
Ip = · 100 (11.1)
p0
602, 00
= · 100 = 123, 91%
485, 80

O índice de preço simples Ip = 123, 91% indica que houve crescimento no preço do produto
em 23, 91% do valor.

11.1.1 Propriedades
Os números índices apresentam algumas propriedades matemáticas que podem auxiliar
nos cálculos dos mesmos.
• Identidade
pn/n = 1

• Reversibilidade temporal
pa/b = 1/pb/a

• Propriedade cíclica
pa/b pb/c pc/d pd/e · · · py/z = 1

• Propriedade cíclica modificada

pa1 /a2 pa2 /a3 pa3 /an = pa1 /an

Exemplo
Prove a propriedade reversibilidade temporal

Sol.

̸ pa ̸ pb
pa/b · pb/a → · =1 (11.2)
̸ pb ̸ pa
11.2. ÍNDICES PODERADOS 151

11.2 Índices Poderados


Ponderar significa dar "peso"à informação. Com relação aos números índices nos referimos
ao peso do preço, da quantidade ou de ambos.

11.2.1 Índice Agregado de Preço


• Índice de Laspeyers: Média aritmética poderada das variações de cada produto, ou
seja, a atribuiçõe é para "carga"relativa dos produtos. A referência é dada pelo
período inicial. P
pn q0
Ip (L) = P · 100
p0 q0
P
p0 qn
Iq (L) = P · 100
p0 q0

• Índice de Paashe: A sua referência é o período final. A média harmônica poderada


é a base da fomulação. P
p n qn
Ip (P ) = P · 100
p0 qn
P
p n qn
Iq (P ) = P · 100
pn q0

• Índice da média ponderada relativa para preços:


 
(p0 q0 ) ppn0
P
Ip = P · 100
p0 q0

• Índice ideal de Fisher: refere-se à média geométrica dos números índices de Las-
peyers e Paashe sP P
F isher pn q0 p n qn
Ip = P P
p0 q0 p 0 qn

• Índice de Marshall-Edgeworth
P
pn (q0 + qn )
IpM arshall−Edgeworth = P
p0 (q0 + qn )
11.2. ÍNDICES PODERADOS 152

Exemplo
Suponha os seguintes dados abaixo sobre o consumo e o preço de alguns pordutos da
cesta básica no Brasil.

Consumo per capita anual (kg/ano


Preço médio
ou litros/ano)
Produto 2019 2022 2019 2022
feijão 34,02 30,74 17 14,3
arroz 8,76 11,07 34 32
óleo 3,84 8,82 25 20

Encontre os índices de Laspeyers para o preço, índice de Paashe para a quantidade e


o índice de Marshall-Edgeworth para o preço. Considere o ano-base em 2019.

Sol.

1 Índices de Laspeyers para o preço


P
pn q0
Ip (L) = P · 100
p0 q0
P
p2022 q2019
= P · 100
p2019 q2019
(30, 74 · 17) + (11, 07 · 34) + (8, 82 · 25)
= · 100 = 115, 149%
(34, 02 · 17) + (8, 76 · 34) + (3, 84 · 25)

2 Índices de Paashe para a quantidade


P
pn qn
Iq (P ) = P · 100
pn q0
P
p2022 q2022
= P · 100
p2022 q2019
(30, 74 · 14, 3) + (11, 07 · 32) + (8, 82 · 20)
= · 100 = 86, 668%
(30, 74 · 17) + (11, 07 · 34) + (8, 82 · 25)

3 Índice de Marshall-Edgeworth
P
pn (q0 + qn )
IpM arshall−Edgeworth = P
p (q + qn )
P 0 0
p2022 (q2019 + q2022 )
= P
p2019 (q2019 + q2022 )
[30, 74 · (17 + 14, 3)] + [11, 07 · (34 + 32)] + [8, 82 · (25 + 20)]
= 115, 08%
[34, 02 · (17 + 14, 3)] + [8, 76 · (34 + 32)] + [3, 84 · (25 + 20)]

Você também pode gostar