Você está na página 1de 36

Revisão – Parte 1/2

Estatı́stica
Curso Cecı́lia Menon
(Notas de Aula 1 a 5)

1 Números Índices
1.1 Números Índices Simples
1.1.1 Números Índices Simples (relativos de base fixa)
O número ı́ndice simples (ou relativo de base fixa) do preço de um bem no perı́odo corrente t
com relação ao perı́odo base 0 é denotado por p0,t e definido por:
pt pt
p0,t = ou p0,t = 100 ×
p0 p0

Observe que o relativo do perı́odo base com relação ao perı́odo base p0,0 é, por definição, igual
a 1 (ou 100).

Podemos encontrar facilmente o percentual (ou taxa) da mudança do preço de um bem no


perı́odo t, relativo ao preço no perı́odo base 0 (denotado pro ∆p0,t ), uma vez que sabemos o
relativo p0,t referente a esse perı́odo:
p0,t
∆p0,t = p0,t − 1 ou ∆p0,t = −1
100

Se o valor de ∆p0,t for positivo, temos um aumento de preço. Se ele for negativo, temos uma
queda no preço.

Observando o relativo do preço, também podemos tirar a mesma conclusão: se p0,t for maior
do que 1 (ou 100), o preço em t será maior do que no perı́odo base.

Já se p0,t for menor do que 1 (ou 100), o preço em t será menor do que no perı́odo base.

1.1.2 Número Índice Simples (relativos) de Quantidade


Apesar de termos calculado o número ı́ndice simples para preços, também podemos fazê-lo
para quantidades e para valores, de modo inteiramente análogo:
qt qt
q0,t = ou q0,t = 100 × ,
q0 q0
onde qt é a quantidade do produto considerado no perı́odo corrente t, q0 a quantidade no
perı́odo base 0 e q0,t o número ı́ndice simples (ou relativo de quantidade de base fixa) que
descreve quanto a quantidade do perı́odo corrente t representa do perı́odo base 0.

1
1.1.3 Número Índice Simples (relativos) de Valor
O relativo de valor de base fixa é dado por:
vt vt
v0,t = ou v0,t = 100 × ,
v0 v0
onde vt é o valor do produto no perı́odo corrente t, v0 o valor no perı́odo base 0 e v0,t o relativo
de valor (de base fixa) que descreve o quanto o valor do perı́odo corrente t corresponde ao valor
do perı́odo base 0.

Como vt = pt × qt , temos que:


vt pt × qt
v0,t = = = p0,t × q0,t ,
v0 p0 × q0

ou seja, o relativo de valor é igual ao produto dos relativos de preço e de quantidade (propriedade
de decomposição das causas).

1.1.4 Números Índices de Ligação


O número ı́ndice de ligação (ou relativo de base móvel ou elo de relativo) para uma determinada
série de T + 1 de preços (ou quantidade ou valores) é definido como a série

p0,1 , p1,2 , p2,3 , . . . , pT −1,T ,

em que:
pt+1 pt+1
pt,t+1 = ou pt,t+1 = 100 × , para t = 0, . . . , T − 1 .
pt pt
onde pt,t+1 é o número ı́ndice de ligação (ou relativo de base móvel ou elo de relativo) entre t
e t + 1.

1.2 Números Índices Compostos


1.2.1 Números Índices Agregados
Antes a variável considerada era unidimensional: o preço (ou a a quantidade ou o gasto) de um
único bem. Neste caso fazemos isso de modo quase natural: vemos como esse preço se alterou
com relação a um perı́odo de referência (o perı́odo base).

Com uma variável multidimensional (um vetor de preços, neste caso), não temos mais uma
forma natural de fazer esse cálculo. Índices desse tipo, que levam em consideração mais de
uma variável, são chamados agregados (ou agregativos ou compostos).

Vamos denotar vetores em negrito e mudar um pouco a notação: no caso de vetores, denota-
remos o perı́odo por superescritos e, por subescritos, a coordenada do vetor.

Portanto, p0 é o vetor n-dimensional de preços no perı́odo base e pt é o vetor de preços no


perı́odo corrente. Além disso, w · p denota a multiplicação vetorial coordenada por coordenada
dos dois vetores (o produto interno dos vetores w e p).

2
1.2.2 Índices de Preços Compostos Ponderados
Considere o sistema de pesos w = (w1 , w2 , . . . , wn ). O número ı́ndice composto p0,t , ponderado
pelo sistema de pesos w, é definido por:

w · pt w1 pt1 + w2 pt2 + · · · + wn ptn


p0,t = = ,
w · p0 w1 p01 + w2 p02 + · · · + wn p0n

sendo que o ı́ndice pode ser apresentado na base 100 (ou seja, multiplicado por 100).

A questão que surge então é qual sistema de pesos usar. Não há uma resposta clara: diferentes
sistemas de pesos geram diferentes ı́ndices.

1.2.3 Cobrado pela ANPEC


O ı́ndices que analisaremos são:

1. Laspeyres (e Laspeyres modificado),

2. Paasche, e

3. Fischer,

que são os cobrados no exame da ANPEC (apenas em 1991 foi cobrado um ı́ndice diferente
desses, o de Marshall-Edgeworth).

1.2.4 Índice de Laspeyres


Os ı́ndices de Laspeyres utilizam como peso o perı́odo base 0.

Se o ı́ndice for de preço, a quantidade no perı́odo base constitui o sistema de ponderação:

pt · q0 pt · q0
LtP = 0 0 ou LtP = 100 × 0 0
p ·q p ·q

Já se o ı́ndice for de quantidade, o preço no perı́odo base constitui o sistema de ponderação:

p0 · qt p0 · qt
LtQ = ou LtP = 100 ×
p0 · q0 p0 · q0

1.2.5 Índice de Paasche


Os ı́ndices de Paasche utilizam o perı́odo corrente t como peso.

Se o ı́ndice for de preço, a quantidade no perı́odo corrente constitui o sistema de ponderação:

pt · qt pt · qt
PPt = ou PPt = 100 ×
p0 · qt p0 · qt

Já se o ı́ndice for de quantidade, o preço no perı́odo corrente constitui o sistema de ponderação:

pt · qt pt · qt
PQt = ou PQt = 100 ×
pt · q0 pt · q0

3
1.2.6 Base Fixa e Base Móvel
Observe que o ı́ndice de Laspeyres é considerado um ı́ndice com ponderação fixa (ou base fixa),
já que a ponderação é sempre a mesma (o perı́odo base), qualquer que seja o perı́odo corrente.

Observe que o ı́ndice de Paasche é considerado um ı́ndice com ponderação variável (ou base
móvel), já que variando o perı́odo corrente, a ponderação irá variar com ele.

1.2.7 Índices de Laspeyres e Paasche


é possı́vel mostrar também que o ı́ndice de preços de Laspeyres é igual à média aritmética
ponderada dos relativos considerados, com os pesos definidos no perı́odo base 0.

Já o ı́ndice de preços de Paasche é igual à média harmônica ponderada dos relativos conside-
rados, com os pesos definidos no perı́odo corrente t.

1.2.8 Índice de Fisher


O economista Irving Fisher propôs o seguinte ı́ndice, que é uma média geométrica entre os
ı́ndices de Laspeyres e Paasche:
s
p pt · q0 pt · qt
F P = L P × PP = × ,
p0 · q0 p0 · qt

sendo que o ı́ndice pode ser apresentado na base 100 (ou seja, multiplicado por 100) e também
pode ser calculado como ı́ndice de quantidade de modo similar.

1.3 Propriedades
1.3.1 Propriedades
1. Identidade: It,t = 1, para todo t.

2. Reversibilidade no tempo: It,0 × I0,t = 1, para todo t.

3. Encadeamento: I0,1 × I1,2 × · · · × It−1,t = I0,t .

4. Decomposição das causas: IP × IQ = IV .

5. Homogeneidade: mudanças de unidade não afetam o ı́ndice.

6. Proporcionalidade: Se todos os componentes do ı́ndice variarem na mesma proporção,


então o ı́ndice irá variar nessa mesma proporção.

1.3.2 Propriedades Satisfeitas pelos Índice Agregados Compostos


Propriedades Satisfeitas pelos Índices Agregados Ponderados
Índice Id RT Enc DC Hom Prop
Laspeyres Sim Não Não Não Sim Sim
Paasche Sim Não Não Não Sim Sim
Fisher Sim Sim Não Sim Sim Sim

4
2 Probabilidade
2.1 Probabilidade
2.1.1 Espaço Amostral e Eventos
O espaço amostral de um experimento aleatório é o conjunto de todas as ocorrências possı́veis
associadas a esse experimento.
Definição: Espaço Amostral. O espaço amostral Ω contém todos os resultados de um
experimento.
Definição: Eventos. Um evento é qualquer subconjunto do espaço amostral Ω.
Em particular, o evento ∅ é chamado evento impossı́vel, Ω é chamado evento certo, e {ω} ⊆ Ω
é chamado evento simples (ou ponto amostral ou estado da natureza).

2.1.2 Eventos Mutualmente Excludentes


Quando dois eventos A e B forem disjuntos (A ∩ B = ∅) então eles não podem ocorrer conjun-
tamente.
Neste caso, é comum dizer que os eventos A e B são mutualmente excludentes (ou incom-
patı́veis).
Uma probabilidade vincula números aos elementos do espaço amostral. Tais números expressam
as frequências relativas de cada evento, ou seja, a proporção de vezes que se espera que tais
eventos ocorram se o experimento for repetido um grande número de vezes.

2.1.3 Função de Probabilidade


Definição: Função de Probabilidade. Seja (Ω, A) um espaço mensurável, dizemos que
p : A → [0, 1] é uma função de probabilidade(ou uma medida de probabilidade ou simplesmente
uma probabilidade) se satisfaz:
1. p(A) ≥ 0, para todo A ∈ A,
2. p(Ω) = 1,
3. Se os conjuntos A1 , A2 , . . . em A são dois-a-dois disjuntos, então:

! ∞
[ X
p Ai = p(Ai )
i=1 i=1

2.1.4 Propriedades
As três propriedades acima (chamados axiomas de uma probabilidade σ-aditiva) têm como
consequência todas as outras propriedades comuns a uma probabilidade, tais como:
1. p(∅) = 0;
2. p(Ac ) = 1 − p(A) (ou p(A) + p(Ac ) = 1);
3. 0 ≤ p(A) ≤ 1;
4. Se A ⊆ B, então p(A) ≤ p(B);
5. p ( ∞
S P∞
i=1 Ai ) ≤ i=1 p(Ai );

6. p(A ∪ B) = p(A) + p(B) − p(A ∩ B).

5
2.1.5 Probabilidade Condicional
Vamos definir por p(A | B) a probabilidade de o evento A ocorrer, dado que o evento B ocorreu.
Chamamos p(A | B) a probabilidade de A condicional em B.

Definição: Probabilidade Condicional. Seja (Ω, A, p) um espaço de probabilidade. Se


B ∈ A e p(B) > 0, então a probabilidade condicional de A dado B, p(A | B), é definida como:

p(A ∩ B)
p(A | B) = ∀ A ∈ A.
p(B)

2.1.6 Regra de Probabilidade Composta


Observe que da definição de probabilidade condicional, temos que:

p(A ∩ B) = p(A | B) p(B) = p(B | A) p(A) ,

onde estamos supondo que p(A) e p(B) são positivos. Esse resultado pode ser generalizado na
seguinte regra.

Regra de Probabilidade Composta. Temos que:

p(A1 ∩ A2 ∩ · · · ∩ An ) = p(A1 ) p(A2 | A1 ) p(A3 | A1 ∩ A2 ) . . . p(An | A1 ∩ · · · ∩ An−1 ) ,

onde A1 , . . . , An são eventos aleatórios e n ≥ 2.

2.1.7 Teorema da Probabilidade Total


Teorema da Probabilidade Total. Suponha que A1 , A2 , . . . formam uma partição de Ω
(i.e., os eventos aleatórios A1 , A2 , . . . são dois a dois disjuntos, a união de todos eles é igual a
Ω, e que p(Ai ) > 0, para todo i). Então:
X
p(B) = p(Ai ) p(B | Ai ),
i

para todo evento aleatório B.

2.1.8 Fórmula de Bayes


O Teorema da Probabilidade Total implica a fórmula de Bayes:

p(Ai ) p(B | Ai )
p(Ai | B) = P ,
k p(Ak ) p(B | Ak )

onde estamos supondo que todos os elementos Ai da Ppartição possuem probabilidade positiva
de ocorrerem (p(Ai ) > 0, ∀ i, Ai ∩ Aj = ∅, ∀ i 6= j, i p(Ai ) = 1).

2.1.9 Independência
Dizemos que dois eventos são independentes quando a ocorrência de um deles não afeta a
probabilidade de ocorrência do outro.

Ou seja, saber que um deles ocorreu não fornece qualquer informação adicional sobre a ocorrência
do outro.

6
Definição: Independência. Seja (Ω, A, p) um espaço de probabilidade. Dizemos que os
eventos aleatórios A e B são independentes se:

p(A ∩ B) = p(A) p(B) .

Observe que se os eventos A e B são independentes, então p(A | B) = p(A) e p(B | A) = p(B).

Isso captura a ideia de que se A e B forem independentes, conhecer A não informa nada
adicional sobre a probabilidade de ocorrência de B (p(B | A) = p(B)) e conhecer B não
informa nada adicional sobre a probabilidade de ocorrência de A (p(A | B) = p(A)).

Se os conjuntos A e B são independentes, então A e B c (e Ac e B; e Ac e B c ) são independentes.

2.1.10 Dois Modos de Generalizar Independência


Dizemos que os eventos aleatórios A1 , A2 , . . . , An são:

• independentes dois a dois se:

p(Ai ∩ Ak ) = p(Ai ) p(Ak ), para todo i, k = 1, . . . , n, i 6= k .

• estocasticamente (ou mutualmente) independentes se:

p(Ai1 ∩ Ai2 ∩ · · · ∩ Aim ) = p(Ai1 )p(Ai2 ) . . . p(Aim ) ,

para todo 1 ≤ i1 ≤ i2 ≤ · · · ≤ im ≤ n, para todo m = 2, 3, . . . , n.

2.2 Variável Aleatória


2.2.1 Definição
Uma variável aleatória (v.a.) é um valor determinado por um experimento aleatório. Logo,
não podemos definir qual o exato valor que uma variável aleatória vai assumir, podemos apenas
listar todos os valores possı́veis.

Definição: Variável Aleatória. Dizemos que a função X : Ω → R é uma variável aleatória


(v.a.) se o conjunto {ω ∈ Ω | X(ω) ≤ x} pertence a A, para todo x ∈ R.

Considere uma v.a. X e um conjunto T ⊂ R quaisquer. Vamos denotar por X ∈ T como o


conjunto X ∈ T = {ω ∈ Ω | X(ω) ∈ T }.

2.2.2 Distribuição de uma v.a.


Definição. Seja X uma variável aleatória definida no espaço de probabilidade (Ω, A, p). A
função pX , definida sobre os subconjuntos de R, por:

pX (T ) = p(X ∈ T ) = p({ω ∈ Ω | X(ω) ∈ T }),

é chamada distribuição de X (mais rigorosamente, não podemos definir pX sobre todos os


subconjuntos de R, mas apenas sobre uma σ-álgebra de R chamada σ-álgebra de Borel).

7
2.2.3 V.A. Discreta
Dizemos que X é uma variável aleatória discreta se assume apenas um número contável de
valores, ou seja, se assume um valor finito de valores ou um valor infinito enumerável de valores.

No primeiro caso, X(ω) ∈ {x1 , . . . , xn }, para algum conjunto {x1 , . . . , xn } ⊆ R. Nesse caso,
dizemos que pX (xi ) = p({ω ∈ Ω | X(ω) = xi }) é a função de probabilidade gerada por X, que
satisfaz:
a) 0 ≤ pX (xi ) ≤ 1, para todo i,
P
b) i pX (xi ) = 1.

2.2.4 Função de Distribuição Acumulada


Definição. Se X é uma variável aleatória, definimos a função de distribuição acumulada (fda)
F : R → [0, 1] de X como:
F (x) = p(X ≤ x) .

Observe que a uma fda pode ser definida para v.a.s discretas e não-discretas. Se a v.a. X é
discreta, então: X
F (x) = p(X ≤ x) = pX (xi ) .
xi ≤x

2.2.5 V.A Absolutamente Contı́nua


Dizemos que a v.a. X é absolutamente contı́nua se existir uma função f : R → R+ , chamada
função densidade de probabilidade de X (fdp), tal que:
Z x
F (x) = f (t) dt .
−∞

2.2.6 Propriedades de uma FDP


Logo, para toda v.a. contı́nua com função de densidade f , temos que:
(a) f (x) ≥ 0, para todo x,
R +∞
(b) −∞ f (x) dx = 1, e
Rb
(c) p(a ≤ X ≤ b) = a f (x) dx, para todo a < b.

Poderı́amos ter definido uma v.a contı́nua dizendo que ela é contı́nua se existir uma função real
f tal que satisfaça as propriedades (a), (b) e (c) acima.

2.2.7 Variável Aleatória Multidimensional


Definição. Dizemos que o vetor aleatório n-dimensional (ou variável aleatória n-dimensional)
(X1 , X2 , . . . , Xn ) é composto pelas variáveis aleatórias Xi : Ω → R, i = 1, 2, . . . , n.
Vamos analisar apenas o caso bidimensional (X, Y ), o mais comum de ser questionado no
exame da ANPEC, em que X e Y formam um vetor aleatório bidimensional e X : Ω → R e
Y : Ω → R são variáveis aleatórias.
Todas as definições a seguir podem ser facilmente generalizadas para o caso de n variáveis
aleatórias.

8
2.2.8 Função de Distribuição Conjunta
Definição. Seja (X, Y ) um vetor aleatório bidimensional. A função de distribuição acumulada
FX,Y de (X, Y ) é definida por:
FX,Y (x, y) = p(X ≤ x, Y ≤ y) ,
onde
p(X ≤ x, Y ≤ y) = p({X ≤ x} ∩ {Y ≤ y})
FX,Y (x, y) é também chamada função de distribuição conjunta das v.a.s X e Y .

2.2.9 Vetor Aleatório Discreto


Definição. Dizemos que (X, Y ) é um vetor aleatório discreto se assumir apenas um número
contável de valores, ou seja, se (X, Y ) assumir apenas um valor finito de valores ou um valor
infinito enumerável de valores.

2.2.10 Vetor Aleatório Contı́nuo


Definição. Dizemos que (X, Y ) é um vetor aleatório (absolutamente) contı́nuo se existir uma
função fX,Y (x, y) ≥ 0 tal que:
Z y Z x
FX,Y (x, y) = fX,Y (s, t) ds dt , ∀ (x, y) ∈ R2
−∞ −∞

A função f é chamada densidade do vetor aleatório (X, Y ) ou densidade conjunta das variáveis
aleatórias X e Y .

2.2.11 Calculando a Distribuição Conjunta


Considere A ∈ R2 qualquer. Temos que:
1. Se o vetor aleatório (X, Y ) é discreto, então:
X
pX,Y (A) = p ((X, Y ) = (x, y))
(x,y)∈A

2. Se o vetor aleatório (X, Y ) é contı́nuo, então:


Z Z
pX,Y (A) = fX,Y (x, y) dx dy
A

2.2.12 Independência entre V.A.s


Definição. As variáveis aleatórias X e Y são (coletivamente) independentes se:
p(X ∈ A, Y ∈ B) = p(X ∈ A) × p(Y ∈ B) ,
onde A, B ∈ R.

• Se X, Y são independentes, então:


FX,Y (x, y) = FX (x) × FY (y) , ∀ (x, y) ∈ R2

• Se X, Y são independentes e possuem densidades fX e fY , então:


f (x, y) = fX (x) × fY (y) , ∀ (x, y) ∈ R2 ,
é a densidade conjunta de X e Y (ou seja, f = fX,Y ).

9
2.2.13 Densidade Marginal
Se fX,Y (x, y) é a densidade conjunta de X e Y , então a função de densidade de X é:
Z +∞
fX (x) = fX,Y (x, y) dy ,
−∞

onde fX obtida desse modo é chamada função de densidade marginal de X.

2.2.14 Os Dois Casos


O cálculo de probabilidades associadas a distribuições conjuntas (X, Y ) depende de as v.a.s
serem discretas ou contı́nuas:
• Caso discreto: ∞
X
p(X = xi ) = p(xi , yj )
j=1

• Caso contı́nuo:
Z b Z +∞  Z b
p(a ≤ X ≤ b) = f (x, y) dy dx = fX (x)dx
a −∞ a

2.2.15 Distribuição Condicional


Definição. Sejam X uma v.a. e A um evento com p(A) > 0. A distribuição condicional de X
dado o evento A é definido por:
p({X ∈ B} ∩ A)
p(X ∈ B | A) =
p(A)
para (quase...) todo conjunto B ∈ R.

A função de distribuição condicional de X dado A é definida por:


p({X ≤ x} ∩ A)
FX (x | A) = p(X ≤ x | A) = , ∀ x ∈ R.
p(A)

2.2.16 Distribuição Condicional entre V.A.s


Podemos definir a probabilidade condicionada em termos da v.a. Y . Suponha que (X, Y ) é
um vetor aleatório discreto. Então:
p(X = xi , Y = yj )
p(X = xi | Y = yj ) =
p(Y = yj )

Suponha agora que (X, Y ) é um vetor aleatório contı́nuo com fdp conjunta fX,Y e denote por
fX e fY as distribuições marginais de X e Y , respectivamente. Então:
• A fdp de X condicionada a um dado Y = y é definida por:
fX,Y (x, y)
fX|Y (x | y) = , onde fY (y) > 0
fY (y)

• A fdp de Y condicionada a um dado X = x é definida por:


fX,Y (x, y)
fY |X (y | x) = , onde fX (x) > 0
fX (x)

10
2.2.17 Resultados
• Seja (X, Y ) um vetor aleatório discreto. Então X e Y são independentes se, e somente
se, pX (xi | yj ) = pX (xi ), para todo i e j (ou, de modo análogo, se pY (yj | xi ) = pY (yj ),
para todo i e j).

• Seja (X, Y ) um vetor aleatório contı́nuo. Então X e Y são independentes se, e somente
se, fX|Y (x | y) = fX (x), para todo (x, y) (ou, de modo análogo, se fY |X (y | x) = fY (y),
para todo (x, y)).

2.3 Esperança e Outros Momentos


2.3.1 Esperança
Se X for uma v.a. discreta, então a esperança (ou valor esperado) de X pode ser calculada
como:
+∞
X
EX = xi pX (xi ) .
i=1

Já se X for uma v.a. absolutamente contı́nua, então a esperança de X pode ser calculada
como: Z ∞
EX = xf (x)dx ,
−∞

2.3.2 Propriedades do Valor Esperado


• Se X é uma v.a. constante, X = α sempre, então EX = α.

• Se X ≤ Y , então EX ≤ EY .

• Linearidade: E(aX + b) = aEX + b e E(aX + bY ) = aEX + bEY .

• Desigualdade de Jensen: Seja g : R → R uma função convexa (i.e., g(λx + (1 − λ)y) ≤


λg(x) + (1 − λ)g(y), para todo x, y ∈ R e λ ∈ [0, 1]). Então:

Eg(X) ≥ g(EX)

Se g for côncava, então vale a desigualdade inversa.

2.3.3 Variância e Covariância


2
Definição. A variância da v.a. X, denotada ou por V ar(X) ou por σX , é definida por:

V ar(X) = E(X − EX)2 = EX 2 − (EX)2

A raiz quadrada da variância de uma v.a. é chamada desvio-padrão.

Definição. A covariância das v.a.s X e Y , denotada por Cov(X, Y ) ou σXY , é definida como:

Cov(X, Y ) = E[(X − EX)(Y − EY )] = E(XY ) − EXEY

11
2.3.4 V.A.s Independentes
Se a covariância de X e Y é zero, então dizemos que X e Y são não-correlacionadas.

Se X e Y são independentes, então E(XY ) = EXEY e, portanto, X e Y são não-correlacionadas.

Porém não vale o contrário: se X e Y são não-correlacionadas então não necessariamente X e


Y são independentes.

Existe uma importante exceção a essa regra, muito cobrada pelo exame da ANPEC: se X e Y
são duas variáveis com distribuição normal bivariada, então se X e Y forem não correlacionadas,
elas serão independentes.

2.3.5 Propriedades da Variância e da Covariância


• Se X = α sempre, então V ar(X) = 0.

• V ar(aX + b) = a2 V ar(X), para todo a, b ∈ R.

• V ar(aX + bY ) = a2 V ar(X) + b2 V ar(Y ) + 2abCov(X, Y ).

• V ar(aX + bY ) = a2 V ar(X) + b2 V ar(Y ), se X e Y forem independentes.

• Cov(X, X) = V ar(X).

• Cov(aX + b, cY + d) = acCov(X, Y ), para a, b, c, d ∈ R.

2.3.6 Correlação
Definição. A correlação entre as v.a.s X e Y , denotada por Corr(X, Y ) ou ρXY , é definida
como:
Cov(X, Y ) σXY
Corr(X, Y ) = p p =
V ar(X) V ar(Y ) σX σY

2.3.7 Propriedades da Correlação


• −1 ≤ Corr(X, Y ) ≤ 1, para quaisquer v.a.s X e Y .

• Corr(X, Y ) = 1 se, e somente se, p(Y = aX + b) = 1 para algum a > 0, b ∈ R,

• Corr(X, Y ) = −1 se, e somente se, p(Y = aX + b) = 1 para algum a < 0, b ∈ R,

• Corr(aX + b, cY + d) = (ac/|ac|)Corr(X, Y ), para a, b, c, d ∈ R.

2.3.8 Esperança Condicional


(a) Se (X, Y ) for um vetor aleatório contı́nuo, então o valor esperado condicionado de X,
para um dado Y = y, é definido por:
Z +∞
E(X | Y = y) = x fX|Y (x | y)dx ,
−∞

onde fX|Y (x | y) é a distribuição de X condicionada em Y .

12
(b) Se (X, Y ) for um vetor aleatório discreto, então o valor esperado condicionado de X, para
um dado Y = y, é definido por:
+∞
X
E(X | Y = y) = xi pX|Y (xi | y) ,
i=1

onde pX|Y (x | y) é a distribuição de X condicionada em Y .

2.3.9 Regra das Expectativas Iteradas


Podemos definir E(Y | X) de modo equivalente. Temos que E(X | Y ) é uma v.a., em função
de y (toma valores E(X | Y = y).
Resultado: Regra das Expectativas Iteradas. Vale que:
E [E(X | Y )] = E(X) ,
E [E(Y | X)] = E(Y ) .

2.3.10 Propriedades da Esperança Condicional


• Se X e Y forem independentes, então E(X | Y ) = EX e E(Y | X) = EY .
• E[aY + bZ | X] = aE[Y | X] + bE[Z | X], onde a e b são números reais;
• E[h(X) | X] = h(X), onde h : R → R é uma função qualquer (logo, E[X | X] = X);
• E[h(X)Y + g(X)Z | X] = h(X)E[Y | X] + g(X)E[Z | X], onde h, g : R → R são funções
arbitrárias;
• Lei das Expectativas Iteradas generalizada:
E[E[Y | X1 , X2 , . . . , Xn ] | X1 , X2 , . . . , Xn−1 ] = E[Y | X1 , X2 , . . . , Xn−1 ]

2.3.11 Variância Condicional


Definição. Podemos definir a variância condicional V ar(X | Y ) por:
V ar(X | Y ) = E (X − E(X | Y ))2 | Y = E(X 2 | Y ) − (E(X | Y ))2


Se X e Y forem independentes, então:


V ar(X | Y ) = V ar(X)
De modo análogo, V ar(Y | X) = V ar(Y ), se Y e X forem independentes.

2.4 Distribuições de Probabilidade Discretas


2.4.1 Ensaio de Bernoulli
Um ensaio de Bernoulli é um experimento que possui apenas dois resultados, chamados “su-
cesso” e “fracasso” (Ω = {“sucesso”,“fracasso”}).
Exemplo: Lançar uma moeda. Se cara, temos sucesso, se coroa temos fracasso.
O resultado de um ensaio de Bernoulli pode ser descrito por uma variável aleatória que assume
o valor 0 no caso de fracasso e o valor 1 no caso de sucesso:

0, no caso de fracasso;
X=
1, no caso de sucesso.

13
2.4.2 Distribuição de Bernoulli
A probabilidade de sucesso, denotada por p, é, por hipótese, a mesma em cada ensaio de
Bernoulli.

Logo, dizemos que X tem distribuição de Bernoulli, cuja função de probabilidade pode ser
representada por:
p(X = x) = px (1 − p)1−x , para x = 0, 1 ,
e p(X = x) = 0 para outros valores de x.

A esperança e a variância de X são:

E(X) = p ,
V ar(X) = p(1 − p) .

2.4.3 Distribuição Binomial


O modelo probabilı́stico binomial consiste de n ensaios de Bernoulli independentes, onde cada
ensaio tem apenas dois resultados possı́veis. A variável aleatória de interesse em um modelo
binomial, denotada por X, é a quantidade de “sucessos” obtidos.

Logo, para descrevermos completamente um modelo binomial, precisamos conhecer dois valores,
a probabilidade p de sucesso em um ensaio e o número n de ensaios.

Além disso, se X1 , . . . , Xn são v.a.s independentes com distribuição de Bernoulli de parâmetro


p, então X = X1 + · · · + Xn possui distribuição binomial de parâmetros p e n.

A probabilidade da váriavel aleatória X assumir o valor k, ou seja, a probabilidade de obter k


sucessos em n ensaios, é dada por:
 
n k
p(X = k) = p (1 − p)n−k ,
k

onde:  
n n!
= ,
k (n − k)! k!
é o coeficiente binomial de n e k e n! = n × (n − 1) × · · · × 2 × 1 é o fatorial de n (por definição,
0! = 1).

Uma amostragem com reposição pode ser vista como um processo de Bernoulli, onde tiramos
um elemento da população, coletamos dados, o recolocamos na população para daı́ retirar outra
observação.

Porém, muitas amostragens são feitas sem reposição, logo, a propriedade de independência
entre ensaios não é válida (neste caso usamos a distribuição hipergeométrica).

Proposição. A distribuição binomial de parâmetros p e n tem valor esperado e variância


iguais a:
E(X) = np e V ar(X) = np(1 − p)

14
2.4.4 Distribuição Mutinomial
A distribuição multinomial generaliza a binomial, ao permitir que um experimento possa ter
k resultados possı́veis. Logo, cada ensaio do experimento resulta em k valores possı́veis, com
probabilidades pi , i = 1, 2, . . . , k.

Denotando por Xi a v.a. que informa o número de vezes que o resultado i foi observado nos
n ensaios independentes feitos, o vetor aleatório X = (X1 , . . . , Xk ) segue uma distribuição
multinomial com parâmetros n e p onde p = (p1 , . . . , pk ).

A distribuição de probabilidade de X é:


n!
P(X1 = n1 , . . . , Xk = nk ) = × pn1 1 × pn2 2 × . . . × pnk k .
n1 ! × . . . × nk !

2.4.5 Distribuição de Poisson


Dizemos que a v.a. discreta X que toma os valores 0, 1, 2, . . . possui uma distribuição de
Poisson com parâmetro λ > 0 se sua distribuição de probabilidade for:

λk e−λ
p(X = k) = , para k = 0, 1, 2, . . .
k!

Proposição: Se X tem distribuição de Poisson com parâmetro λ > 0, então EX = V ar(X) =


λ.

Teorema. Seja X uma v.a. com distibuição binomial de parâmetros n e p, ou seja,


 
n k
p(X = k) = p (1 − p)n−k
k

Suponha que quando n tende a infinito, p tende a zero de modo que np → λ > 0. Então a
distribuição de X tende para uma Poisson de parâmetro λ = np.

Proposição. Sejam X1 , . . . , Xn v.a.s independentes, Xi com distribuição de Poisson de parâmetro


λi > 0 para i = 1, . . . , n. Então a v.a. X = X1 + · · · + Xn possui distribuição de Poisson com
parâmetro λ = λ1 + · · · + λn .

2.4.6 Distribuição Geométrica


A distribuição geométrica, assim como a binomial, é uma distribuição de probabilidade discreta,
obtida por meio de um processo de Bernoulli.

O modelo probabilı́stico geométrico consiste então em repetir os ensaios, até que o evento
sucesso ocorra pela primeira vez.

Como X = k se, e somente se, as primeiras k − 1 repetições do experimento resultaram em


fracasso, temos que:
p(X = k) = (1 − p)k−1 p , k = 1, 2, . . . .

Proposição. O valor esperado e a variância de X distribuição geométrica de parâmetro p são:


1 1−p
E(X) = e V ar(X) =
p p2

15
Logo, quanto menor a probabilidade de sucesso p, maior o valor esperado EX, o que é intui-
tivamente claro: pequenos valores de sucesso exigem muitas repetições do experimento, “na
média”, para obter sucesso pela primeira vez.

O resultado abaixo mostra que a distribuição geométrica não possui memória, no sentido de que
se sucesso não ocorreu durante as primeiras k repetições do experimento, então a probabilidade
de que ele não ocorra durante as próximas n repetições do experimento é igual a probabilidade
de que ele não tivesse ocorrido durante as primeiras n repetições do experimento.

Teorema. Suponha que X tem distribuição geométrica com parâmetro p. Então para todo n
e k inteiros positivos, temos que:
p(X ≥ n + k | X > k) = p(X ≥ n) .

2.4.7 Distribuição Hipergeométrica


Suponha que temos N observações, em que N −r são sucesso e r fracasso. Selecionamos n ≤ N
observações desse total, sem reposição.

Seja X o número de observações de fracasso das n selecionadas.

Temos que X = k se, e somente se, k fracassos foram obtidos (e, portanto, n − k sucessos) da
amostra de n observações selecionada.

Neste caso, dizemos que X tem distribuição hipergeométrica com parâmetros N , r e n e que
sua distribuição de probabilidade é:
r N −r
 
k n−k
p(X = k) = N
 , k = 0, 1, 2, . . . ,
n
a

onde usamos a convenção de que b
= 0 se b > a.

Se o número N aumenta, a distribuição hipergeométrica pode ser aproximada pela distribuição


binomial, que é sem reposição.

Logo, temos que para X distribuição hipergeométrica de parâmetros N , r e n, vale que:


 
n k
p(X = k) ≈ p (1 − p)n−k ,
k
se N for grande.

2.5 Distribuições de Probabilidade Contı́nuas


2.5.1 Distribuição Uniforme
Uma v.a. com distribuição uniforme X com valores no intervalo [a, b] possui função de densi-
dade dada por:
1
f (x) = , para todo x ∈ [a, b] ,
b−a
e f (x) = 0 caso contrário. Neste caso denotamos X ∼ U ([a, b]).

O valor esperado e a variância de X ∼ U ([a, b]) são dados por:


a+b (b − a)2
E(X) = e V ar(X) =
2 12

16
2.5.2 Distribuição Normal
A distribuição normal é completamente caracterizada por dois valores apenas, a sua média,
denotada por µ, e a sua variância, denotada por σ 2 . Ela é simétrica em torno da sua média.

A função de densidade no caso da curva normal é dada por:


(  2 )
1 1 x−µ
f (x) = √ exp − , ∀x ∈ R,
2πσ 2 2 σ

com −∞ < µ < +∞ e σ > 0. Neste caso denotamos X ∼ N (µ, σ 2 ). Se Z ∼ N (0, 1), dizemos
que Z possui distribuição normal padrão (ou reduzida).

2.5.3 Resultados
O teorema abaixo mostra que qualquer distribuição normal X com média µ e desvio-padrão σ
pode ser padronizada, bastando para isso fazer Z = (X − µ)/σ.

Teorema. Seja X v.a. com distribuição normal N (µ, σ 2 ). Então Y = aX + b tem distribuição
normal N (aµ + b, a2 σ 2 ).

Corolário. Seja X v.a. com distribuição normal N (µ, σ 2 ). Então Z = (X − µ)/σ tem
distribuição normal padrão N (0, 1).

Teorema. Sejam X1 , X2 , . . . , Xn n v.a.s independentes, tais que Xi ∼ N (µi , σi2 ), para todo
i = 1, . . . , n. Então a variável aleatória Z definida como a combinação linear de X1 , . . . , Xn ,
Z = a1 X1 + a2 X2 + · · · + an Xn , possui distribuição N (µ, σ 2 ), em que:

µ = a1 µ 1 + a2 µ 2 + · · · + an µ n ,
σ 2 = a21 σ12 + a22 σ22 + · · · + a2n σn2 .

Pelo corolário acima, se X tem distribuição N (µ, σ 2 ), então Z = (X − µ)/σ tem distribuição
N (0, 1). Logo,
     
a−µ b−µ b−µ a−µ
p(a ≤ X ≤ b) = p ≤Z≤ =Φ −Φ
σ σ σ σ

Isso implica que se X ∼ N (µ, σ 2 ), então para todo k > 0, vale que:
 
X −µ
p(µ − kσ ≤ X ≤ µ + kσ) = p −k ≤ ≤k
σ
= Φ(k) − Φ(−k) = 2Φ(k) − 1 .

2.5.4 Distribuição Log-normal


A v.a. X tem distribuição log-normal se o seu logaritmo tem distribuição normal, ou seja, se
ln(X) tem distribuição normal com valor esperado µ e variância σ 2 .

O valor esperado e a variância de X com distribuição log-normal de parâmetros µ e σ 2 (ou


seja, ln(X) tem distribuição normal com valor esperado µ e variância σ 2 ) são:
2 /2 2 2
E(X) = eµ+σ e V ar(X) = e2(µ+σ ) − e2µ+σ

17
2.5.5 Distribuição Exponencial
A v.a. X tem distribuição exponencial com parâmetro α > 0 se sua função de densidade de
probabilidade é dada por:

f (x) = α exp−αx para todo x ≥ 0 ,

e f (x) = 0, se x < 0. Então a fda de X é F (x) = p(X ≤ x) = 1 − e−αx , para todo x ≥ 0, e


F (x) = 0 se x < 0.

O valor esperado e a variância de X com distribuição exponencial de parâmetro α > 0 são


dados por:
1 1
E(X) = e V ar(X) = 2
α α

O resultado abaixo mostra que, assim como a distribuição geométrica, a distribuição exponen-
cial não possui memória.

Teorema. Suponha que X tem distribuição exponencial com parâmetro α > 0. Então para
todo s e t positivos, temos que:

p(X ≥ s + t | X > s) = p(X > t) .

A recı́proca do teorema também é válida: a única v.a. contı́nua X que toma valores não
negativos e que satisfaz a propriedade p(X ≥ s + t | X > s) = p(X > t), para todo s, t > 0 é a
exponencial.

2.5.6 Distribuição Qui-quadrada


A distribuição qui-quadrada é um caso particular da distribuição gama, e é caracterizada por
um único parâmetro n, denominado graus de liberdade (usamos a notação X ∼ χ2n ).

O valor esperado e a variância de X ∼ χ2n são:

E(X) = n e V ar(X) = 2n .

Uma distribuição qui-quadrada com n graus de liberdade pode também ser obtida como a soma
de n v.a.s independentes elevadas ao quadrado, cada uma com distribuição normal padrão:

X12 + X22 + · · · + Xn2 ∼ χ2n ,

em que cada Xi ∼ N (0, 1), e X1 , X2 , . . . , Xn são independentes.

Teorema. Sejam X1 , X2 , . . . , Xk k v.a.s independentes, tais que Xi ∼ χ2ni , para i = 1, 2, . . . , k.


Então a v.a. Z = X1 + X2 + · · · + Xk possui distribuição χ2n , em que n = n1 + n2 + · · · + nk .

Teorema. Seja X ∼ χ2n . Então,
√ para n suficientemente grande, √ a v.a. √2X possui distribuição
normal com valor esperado 2n − 1 e variância unitária ( 2X ∼ N 2n − 1, 1 ).

18
2.5.7 Distribuição t de Student
Considere as v.a.s X ∼ N (0, 1) e Y ∼ χ2k independentes. A v.a. t de Student com k graus de
liberdade é definida como:
X
t= p
Y /k

A distribuição t de student é simétrica, em forma de sino, mas possui caudas mais grossas do
que a normal. O valor esperado e a variância de X com distribuição t de student com n graus
de liberdade são:
n
E(X) = 0 e V ar(X) = , n > 2.
n−2

Proposição. Se o número de graus de liberdade de uma v.a. t com distribuição t de stu-


dent aumenta, então a distribuição de t se aproxima da normal padronizada N (0, 1) (mais
D
precisamente, t → N (0, 1) quando n → +∞).

2.5.8 Distribuição F de Snedecor


Sejam X ∼ χ2n1 e Y ∼ χ2n2 v.a.s independentes.

Defina a v.a. F de Snedecor com (n1 , n2 ) graus de liberdade por:

F = (X/n1 )/(Y /n2 ) = n2 X/n1 Y .

Se a v.a X tem distribuição F com (n1 , n2 ) graus de liberdade, escrevemos X ∼ F (n1 , n2 ).

2.5.9 Relação entre t de student e F


Considere
p t uma v.a. com distribuição t 2de student com n graus de liberdade. Como vimos,
t = X/ Y /n, onde X ∼ N (0, 1) e Y ∼ χn , com X e Y independentes.

Logo,
X2 X 2 /1
t2 = =
Y /n Y /n
Como X 2 ∼ χ21 e X 2 e Y são independente (já que X e Y são independentes), então t2 ∼ F (1, n)
(ou seja, a v.a. t2 possui distribuição F com 1 e n graus de liberdade).

2.6 Tchebycheff, LGN e TCL


2.6.1 Ideia
Suponha que repetimos um experimento qualquer com uma v.a. X associada n vezes de
maneira que cada realização é independente uma da outra. Para cada ensaio, observamos o
resultado da v.a. X.

A Lei dos Grandes Números (LGN) diz que a média aritmética dos n valores observados
converge em certo sentido para o valor esperado EX, quando n tende a infinito, se determinadas
condições forem satisfeitas.
p
Já o Teorema Central do Limite (TCL) diz que (Sn − ESn )/ V ar(Sn ), onde Sn = X1 + X2 +
· · · + Xn , converge em certo sentido para a distribuição normal padronizada, se determinadas
condições forem satisfeitas.

19
2.6.2 Tipos de Convergência
Os dois tipos de convergência a que se referem a LGN e o TCL são diferentes.

A LGN se refere usualmente à convergência em probabilidade (Lei Fraca; em alguns casos a


convergência pode ser quase-certa: Lei Forte). O TCL se refere à convergência em distribuição.

Dizemos que a sequência de v.a.s {Xi }∞


i=1 é identicamente distribuı́da se a fda de cada Xi for
a mesma.

Além disso, dizemos que a sequência de v.a.s {Xi }∞


i=1 é independente e identicamente distribuı́da
(iid ) se essas v.a. além de identicamente distribuı́das forem independentes.

2.6.3 Convergência em Probabilidade e em Distribuição


Convergência em Probabilidade. Dizemos que a sequência de v.a.s. {Xn }∞n=1 converge em
P
probabilidade para X (denotado por Xn −→ X) se para todo número ε > 0, tivermos que:

p (|Xn − X| ≥ ε) → 0 quando n → ∞ .

Convergência em Distribuição. Dizemos que a sequência de v.a.s. {Xn }∞


n=1 converge em
D
distribuição para X (denotado por Xn −→ X) se Fn (x) → F (x) quando n → +∞ para todo
ponto x de continuidade de F .

2.6.4 Relações
Proposição: Convergência em Probabilidade implica Convergência em Distribuição.
P D
Se Xn −→ X então Xn −→ X.
D P
Proposição. Se Xn −→ c, c constante, então Xn −→ c.

Proposição. Sejam X1 , X2 , . . . e X v.a.s e g : R → R uma função real contı́nua. Então:


P P
1. Se Xn −→ X, então g(Xn ) −→ X.
D D
2. Se Xn −→ X, então g(Xn ) −→ X.

2.6.5 A Desigualdade de Tchebycheff


A desigualdade de Tchebycheff estabele limites superiores para expressões p(|X − c| ≥ ε) (ou
limites inferiores para expressões p(|X − c| < ε)), qualquer que seja a variável aleatória X,
desde que satisfaça certas condições bastante gerais.

Desigualdade de Tchebycheff. Seja X uma variável aleatória qualquer, com EX = µ e seja


c um número real qualquer. Então se E(X − c)2 for finito, temos que:

E(X − c)2
p (|X − c| ≥ ε) ≤ ,
ε2
para todo ε > 0.

Formas Alternativas da Desigualdade de Tchebycheff:

20
• Considerando o evento complementar:
E(X − c)2
p (|X − c| < ε) ≥ 1 − ,
ε2
para todo ε > 0.
• Fazendo c = µ:
V ar(X)
p (|X − µ| ≥ ε) ≤ ,
ε2
para todo ε > 0.
• Fazendo c = µ e ε = kσX , onde σX denota o desvio padrão de X:
1
p (|X − µ| ≥ kσX ) ≤ 2 ,
k
para todo k > 0.

2.6.6 Lei dos Grandes Números


A Lei dos Grandes Números (LGN) formaliza a intuição de frequência relativa e valor esperado.
Considere, por exemplo, o lançamento de uma moeda. É normal supor que a probabilidade de
sair cara é 0, 5 (e, por conseguinte, a probabilidade de sair coroa é 0, 5).
Suponha que repetimos esse experimento n vezes: lançamos uma moeda n vezes e verificamos
o número de vezes que caras que saiu, denotado por ncara . Intuitivamente, é plausı́vel supor
que ncara converge para 0, 5 quando o número de lançamentos n aumenta. A Lei dos Grandes
Números formaliza e mostra que essa intuição é correta.
Lei Fraca de Khintchin dos Grandes Números. Se X1 , X2 , . . . são variáveis aleatórias
independentes e identicamente distribuı́das (iid) com valor esperado µ finito, então:
Sn
→ µ em probabilidade.
n

Considere a sequência de v.a.s {Xn }+∞n=1 = {X1 , X2 , . . . } independentes definidas no mesmo


espaço amostral (Ω, A, p) e seja {Sn }+∞
n=1 = S1 , S2 , . . . a sequência de somas parciais de Xn .

A Lei dos Grandes Números trata da convergência de n1 (Sn − ESn ) para zero quando n tende
a infinito, supondo que as v.a.s Xi possuam valor esperado finito.

Logo, quando a sequência {Xn }+∞


n=1 de v.a.s iid satisfaz a LGN, a média amostral Sn /n tende
a concentrar-se em torno do valor esperado µ = E(Xn ).

2.6.7 Somas Parciais Normalizadas


Considere agora a distribuição das somas parciais normalizadas
S − ESn
pn
V ar(Sn )
com variâncias finitas e positivas.
Queremos saber sob que condições vale que:
S − ESn D
pn −→ N (0, 1) .
V ar(Sn )
Esse resultado de convergência é chamado Teorema Central do Limite (TCL).

21
2.6.8 Teorema Central do Limite
Teorema Central do Limite. Se X1 , X2 , . . . são v.a.s iid com EXn = µ e V ar(Xn ) = σ 2 ,
onde 0 < σ 2 < +∞, então:
Sn − nµ D
√ −→ N (0, 1) quando n → +∞ .
σ n


Note que para o TCL acima, se dividirmos o numerador e o denominador de (Sn − nµ)/(σ n)
por n, obtemos:
X̄ − µ D
√ −→ N (0, 1) quando n → +∞ ,
σ/ n
onde X̄ = (1/n) ni=1 Xi .
P

3 Inferência Estatı́stica
3.1 Estimação Pontual
3.1.1 Amostra Aleatória
Definição. Seja X uma variável aleatória com distribuição de probabilidade qualquer. Sejam
n v.a.s X1 , . . . , Xn independentes e com a mesma distribuição de X. Nesse caso dizemos que
(X1 , . . . , Xn ) é uma amostra aleatória de tamanho n da v.a. X.

Uma amostra aleatória de tamanho n da v.a. X consiste de n mensurações repetidas de X,


feitas sob condições inalteradas (ou pelo menos que quaisquer alterações não influenciem o
resultado do experimento).

3.1.2 Estatı́stica
Uma vez obtida uma amostra aleatória de X, queremos utilizar os valores amostrais para
realizar inferências sobre alguma ou algumas caracterı́sticas da população representada pela
amostra. Para isso, vamos definir o seguinte conceito.

Definição: Estatı́stica. Seja X1 , . . . , Xn uma amostra aleatória da v.a. X e sejam x1 , . . . , xn


os valores assumidos pela amostra. Seja H uma função definida para (x1 , . . . , xn ). Dizemos
que a v.a. Y = H(X1 , . . . , Xn ) é uma estatı́stica, que toma o valor y = H(x1 , . . . , xn ) quando
X1 , . . . , Xn toma os valores (x1 , . . . , xn ).

Uma estatı́stica nada mais é do que uma função de valores reais da amostra e, portanto, é
também uma variável aleatória.

É comum se referir à distribuição de probabilidade de Y por distribuição amostral, já que a


estatı́stica Y é uma função de amostras aleatórias.

Mais ainda, apesar de comum, não é correto dizer “a estatı́stica y = H(x1 , . . . , xn )”.

Temos que y é o valor que a estatı́stica Y = H(X1 , . . . , Xn ) assume quando a amostra


X1 , . . . , Xn toma os valores (x1 , . . . , xn ).

22
3.1.3 Duas Estatı́sticas Importantes
(a) X̄ = (1/n) ni=1 Xi é a média amostral.
P

Pn
(b) S 2 = [1/(n − 1)] i=1 (Xi − X̄)2 é a variância amostral.

3.1.4 Resultado sobre Médias Amostrais


Teorema. Seja X uma variável aleatória com valor esperado EX = µ e variância σ 2 . Seja X̄
a média amostral de uma amostra aleatória de tamanho n. Então:

i) E(X̄) = µ;

ii) V ar(X̄) = σ 2 /n;



iii) Para n grande, (X̄ − µ)/(σ/ n) terá aproximadamente a distribuição N (0, 1).

O teorema acima mostra que, quanto maior o tamanho n da amostra, a média amostral varia
cada vez menos (V ar(X̄) → 0 quando n → ∞).

Além disso, se n for suficientemente grande, podemos aproximar a distribuição de X̄ pela


2
distribuição normal de valor esperado
√ µ e variância σ /n (o Teorema Central do Limite garante
que a distribuição de (X̄ − µ)/(σ/ n) pode ser aproximada pela distribuição normal padrão,
para n suficientemente grande).

Se n não for grande, essa aproximação pode não ser boa e podemos então tentar calcular a
distribuição exata de X̄.

3.1.5 Definição: Estimador


Sejam X uma v.a cuja função de distribuição dependa de um parâmetro θ desconhecido e
H(X1 , . . . , Xn ) uma estatı́stica da amostra que será usada para a estimação de θ. Dizemos que
H é um estimador pontual de θ.

O valor que H assume em (x1 , . . . , xn ) é uma estimativa de θ, que será denotada por θ̂ =
H(x1 , . . . , xn ). Não é esperado que a estimativa θ̂ de θ seja igual a θ. Mais ainda, θ̂ é uma
variável aleatória, que depende da amostra considerada.

Logo, duas questões surgem:

1) Quais as caracterı́sticas que um “bom” estimador deve apresentar?

2) Como decidir que um estimador é melhor do que outro?

3.1.6 Definição: Estimador Linear


Dizemos que θ̂ é um estimador linear de θ se:

θ̂ = a1 X1 + a2 X2 + · · · + an Xn ,

onde a1 , . . . , an são números reais.

23
3.1.7 Abuso de Terminologia
Há um abuso de notação muito comum em livros de estatı́stica, que algumas vezes é replicado
nos exames da ANPEC.

A notação θ̂ é usada também para denotar o estimador de θ, apesar de que na definição acima
θ̂ é uma estimativa de θ, enquanto o estimador é H(X1 , . . . , Xn ).

Adotaremos essa terminologia, apesar de não ser inteiramente correta.

3.1.8 Definição: Estimador Não Viesado


Seja θ̂ um estimador do parâmetro desconhecido θ associado à v.a. X.

Dizemos que θ̂ é um estimador não viesado (ou não tendencioso ou não viciado) de θ se E θ̂ = θ.

Logo, um estimador não viesado de um parâmetro qualquer é tal que o seu valor esperado é
igual ao parâmetro que se deseja estimar.

3.1.9 Definição: Estimador Consistente


Seja θ̂ um estimador do parâmetro desconhecido θ associado à v.a. X.
P
Dizemos que θ̂ é um estimador consistente (ou coerente) de θ se θ̂ −→ θ (ou seja, θ̂ converge
em probabilidade para θ).

Portanto, o estimador θ̂ do parâmetro θ é consistente se para todo ε > 0, tivermos que:


 
lim p |θ̂ − θ| ≥ ε = 0 ;
n→∞

ou, de modo similar, se:  


lim p |θ̂ − θ| < ε = 1 .
n→∞

3.1.10 Verificando Consistência


Verificar se um estimador é consistente é relativamente complicado. O teorema a seguir, con-
sequência da desigualdade de Tchebycheff, ajuda essa tarefa.

Teorema. Seja θ̂ uma estimativa de θ baseada em uma amostra de tamanho n. Se:

lim E(θ̂) = θ e lim V ar(θ̂) = 0 ,


n→∞ n→∞

então θ̂ é uma estimativa consistente de θ.

Se a estimativa θ̂ for não tendenciosa, então E(θ̂) = θ e basta verificar se V ar(θ̂) → 0 quando
n → ∞ para concluirmos que θ̂ é consistente.

3.1.11 Variância Mı́nima


Definição: Variância Mı́nima. Seja θ̂ um estimador não-tendencioso do parâmetro θ.
Dizemos que θ̂ é um estimador não-tendencioso de variância mı́nima de θ se:

V ar(θ̂) ≤ V ar(θ̃) ,

para todas as estimativas θ̃ não-tendenciosas de θ.

24
3.1.12 Estimador BLUE
Definição: Estimador BLUE. Dizemos que θ̂ é o melhor estimador linear não-tendencioso
(no inglês, Best Linear Unbiased Estimate – BLUE ) do parâmetro θ se:
i) θ̂ é linear;

ii) θ̂ é não-tendencioso (E(θ̂) = θ);

iii) θ̂ possui a menor variância entre todos os estimadores lineares não-tendenciosos de θ (ou
seja, V ar(θ̂) ≤ V ar(θ̃), para todo θ̃ linear e não-tendencioso).

3.1.13 Eficiência
Se estivermos comparando um grupo de estimadores θ̂i , i = 1, . . . , k, de θ, todos não ten-
denciosos, dizemos que um estimador é o mais eficiente do grupo se tiver a menor variância.

Porém, essa comparação perde sentido quando alguns estimadores são tendenciosos.

3.1.14 Eficiência para Estimadores Tendenciosos


Uma possibilidade neste caso é calcular o erro quadrado médio (MSE – Mean Squared Error )
de cada estimador, definido como:

M SE(θ̂) = E[(θ̂ − θ)2 ] = V ar(θ̂) + [V IES(θ̂, θ)]2 ,

onde V IES(θ̂, θ) = E(θ̂)−θ (e, portanto, V IES(θ̂, θ) = 0 se o estimador θ̂ for não-tendencioso).


O estimador com menor MSE é dito o mais eficiente do grupo.

Observe que se o estimador for não tendencioso, então o MSE será igual à variância do esti-
mador. Logo, o MSE estende o conceito de eficiência para estimadores tendenciosos.

3.1.15 Resultado: Média Amostral


Teorema. Seja X uma variável aleatória com esperança finita µ e variância σ 2 . A média
amostral X̄ calculada a partir de uma amostra aleatória de tamanho n é uma estimativa não-
tendenciosa e consistente de µ.

Note então que a média amostral X̄ = (1/n) ni=1 Xi é uma estimativa linear e não-tendenciosa
P
do valor esperado µ. Além disso, X̄ tem a menor variância entre todos os estimadores lineares
não-tendenciosos de µ (logo, X̄ é BLUE).

3.1.16 Resultado: Variância Amostral


Teorema. Sejam X uma variável aleatória com esperança µ e variância σ 2 e X
P1 , . . . , Xn uma
amostra aleatória de tamanho n de X. Denote por X̄ a média amostral (1/n) ni=1 Xi . Então
n
2 1 X
S = (Xi − X̄)2 ,
n − 1 i=1

é tal que:
i) E(S 2 ) = σ 2 ; e

ii) Se X ∼ N (µ, σ 2 ), então (n − 1)S 2 /σ 2 ∼ χ2n−1 .

25
3.1.17 Estimador Tendencioso da Variância
Logo, S 2 definido no teorema acima é uma estimativa não-tendenciosa da variância σ 2 .

O estimador σ̂ 2 = (1/n) ni=1 (Xi − X̄)2 é viesado, pois:


P

 
n
E(σ̂) = σ2
n−1

Note que σ̂ 2 é assintoticamente não-tendencioso, no sentido de que:


 
2 n
lim E(σ̂ ) = lim σ2 = σ2 ,
n→∞ n→∞ n−1
Além disso, o viés se torna cada vez menor com o aumento do tamanho da amostra.

3.2 Estimação de Máxima Verossimilhança


3.2.1 Notação
Vamos denotar a fdp de X por f (x; θ), onde θ denota um vetor de parâmetros que define a
distribuição de X e sejam X1 , . . . , Xn uma amostra aleatória da v.a. X e x1 , . . . , xn os valores
amostrais observados.

A função de verossimilhança (FV) L(X1 , . . . , Xn ; θ) é definida como:


n
Y
L(X1 , . . . , Xn ; θ) = f (Xi ; θ)
i=1
= f (X1 ; θ) × f (X2 , θ) × · · · × f (Xn , θ) .

É comum log-linearizar a FV, que neste caso será denotada por L(X1 , . . . , Xn ; θ).

3.2.2 Estimador de Máxima Verossimilhança


Considere a v.a X e a amostra aleatória X1 , . . . , Xn de tamanho n de X e seja θ um vetor de
parâmetros que ajuda a definir a função de densidade de X.

A estimação de máxima verossimilhança consiste em, dada uma amostra aleatória qualquer,
encontrar o estimador que maximiza a função de verossimilhança. A definição abaixo conceitua
esse estimador.

Definição: Estimador de Máxima Verossimilhança. O estimador de máxima verossimi-


lhança (EMV) θ̂M V de θ é o valor que maximiza a função de verossimilhança L(X1 , . . . , Xn ; θ).

3.2.3 Equações de Máxima Verossimilhança


Os estimadores de máxima verossimilhança são usualmente determinados resolvendo as condições
de primeira ordem (CPO) do problema de maximização da FV:
∂L(x; θ)
=0
∂θ
Essas CPOs são denominadas equações de máxima verossimilhança.

As CPOs não são suficientes (nem necessárias, caso de solução de canto, a não ser que algumas
condições sejam satisfeitas) para uma solução.

26
3.2.4 Problemas Técnicos
A determinação de estimadores de máxima verossimilhança pode ser complicada e envolver
uma série de aspectos técnicos.

Além disso, em muitos problemas pode não ser possı́vel encontrar uma solução analı́tica fechada
para o estimador de MV.

Neste caso, determina-se o estimador de MV por meio de métodos computacionais.

3.2.5 Propriedades do Estimador de MV


a) podem ser tendenciosos. Muitas vezes o viés do estimador pode ser eliminado multipli-
cando o estimador por uma constante.

b) são assintoticamente não-tendenciosos. Ou seja, o valor esperado do estimador de MV


de θ tende a θ quando o tamanho da amostra aumenta.

c) são consistentes.

d) possuem distribuição assintótica normal. Logo, a distribuição do estimador de MV tende


a uma distribuição normal quando o tamanho da amostra aumenta.

e) são assintoticamente eficientes.

f) satisfazem a seguinte propriedade de invariância: Seja θ̂M V o estimador de MV de θ. O


estimador de MV de g(θ), onde g é uma função monótona contı́nua, é g(θ̂M V ).

3.2.6 Exemplo: Estimar µ e σ 2 de X ∼ N (µ, σ 2 )


Suponha que X ∼ N (µ, σ 2 ) e seja X1 , . . . , Xn uma amostra aleatória de X. Queremos encontrar
os estimadores de MV para µ e σ 2 .

É possı́vel mostrar que o estimador de MV para


Pno valor esperado µ é a média amostral X̄ e o
2 2
estimador de MV para a variância σ é (1/n) i=1 (Xi − X̄) .

O primeiro é não tendencioso. Porém, o estimador de MV de σ 2 é tendencioso.

3.3 Intervalos de Confiança e Teste de Hipóteses


3.3.1 Questões ANPEC
As questões da ANPEC sobre intervalo de confiança (IC) dividem-se em dois tipos:
1. Estimar o intervalo de confiança com variância conhecida;

2. Estimar o intervalo de confiança com variância desconhecida.

3.3.2 Variância Conhecida


Suponha que X ∼ N (µ, σ 2 ), com σ 2 conhecido e µ desconhecido. Sejam X1 , . . . , Xn uma
amostra aleatória de X e X̄ a média amostral.
 √
Então X̄ ∼ N (µ, σ 2 /n). Logo, Z = (X̄ − µ)/σ n possui distribuição normal padrão.
√ √
O intervalo aleatório (X̄ − (σ/ n) × z; X̄ + (σ/ n) × z) é chamado intervalo de confiança da
média aleatória µ.

27
Não é correto dizer que a “probabilidade de µ cair dentro do intervalo acima especificado é
2Φ − 1”, pois µ é um parâmetro fixo: ou ele está ou não está dentro do intervalo.
O intervalo é que é aleatório: a cada amostra obtida, será obtido um intervalo diferente.
O correto então é dizer que “se repertimos a estimação muitas vezes, os intervalos de confiança
obtidos conterão µ em 95% das vezes”.
Podemos escolher z de tal modo que 2Φ(z) − 1 = 1 − α, ou seja, Φ(z) = 1 − α/2.
Esse valor de z, denotado por K1−α/2 , é tabelado, de tal modo que Φ(K1−α/2 ) = 1 − α/2.
√ √
Dizemos que (X̄ − (σ/ n) × K1−α/2 ; X̄ + (σ/ n) × K1−α/2 ) é um intervalo de confiança do
parâmetro µ, com coeficiente de confiança 1 − α (ou um intervalo de confiança 100(1 − α)%).
Exemplo: Suponha que X ∼ N (µ, 16) representa a duração da vida de uma peça de equipa-
mento em horas. Suponha que foi obtida uma amostra aleatória de tamanho n = 100 dessa
variável, em que X̄ = 501, 2 horas. O intervalo de confiança de 95% para a média µ é:
 
4 4
501, 2 − √ × 1, 96 ; 501, 2 + √ × 1, 96 = (500,4 ; 502,0)
100 100
Note novamente que isto não significa que a média amostral cairá neste intervalo com 95% de
probabilidade. Ou µ está ou não está no intervalo (500,4 ; 502,0).
Finalmente, observe que para um mesmo nı́vel de confiança 1 − α e um mesmo tamanho n da
amostra aleatória, os intervalos de confiança estimados quando a variância é conhecida terão
sempre a mesma amplitude (ie, o mesmo comprimento), igual a:
   
σ σ 2zσ
X̄ + √ × z − X̄ − √ × z = √
n n n
Logo, se a amostra for diferente (mas de mesmo tamanho), então o comprimento do IC será o
mesmo, apenas os pontos extremos do intervalo serão distintos.

3.3.3 Variância Desconhecida


Suponha que X ∼ N (µ, σ 2 ), com σ 2 desconhecido e µ desconhecido. Sejam X1 , . . . , Xn uma
amostra aleatória de X e X̄ a média amostral.
Estimando σ 2 por meio da estimativa não viesada:
n
2 1 X
σ̂ = (Xi − X̄)2 ,
n − 1 i=1
então para α e n dados, o intervalo:
√ √ 
X̄ − (σ̂/ n) × tn−1,1−α/2 ; X̄ + (σ̂/ n) × tn−1,1−α/2
define um intervalo de confiança ao nı́vel de 100(1 − α)% para µ, onde tn−1,1−α/2 é dado pela
distribuição t de Student.
Exemplo: Suponha que X ∼ N (µ, σ 2 ) represente a duração da vida de uma peça de equipa-
mento em horas.
Suponha que foi obtida uma amostra aleatória de tamanho n = 9 dessa variável, em que
X̄ = 10, 50 horas e σ̂ = 1, 50 horas.
Temos então que o IC associada a esta amostra aleatória é:
 
1, 50 1, 50
10, 50 − √ × 2, 31 ; 10, 50 + √ × 2, 31 = (9,345 ; 11,655)
9 9

28
3.4 Testes de Hipóteses – Parte 1/2
3.4.1 Definição
Definição: Teste de Hipóteses. Um teste de hipóteses é um método estatı́stico que utiliza
amostras aleatórias para avaliar uma hipótese sobre algum parâmetro θ (que pode ser um vetor
de parâmetros) populacional.

Portanto, no lugar de obter uma estimativa para θ, vamos fazer um teste de hipótese, que
consiste em admitir um valor hipotético para θ e então usar a informação da amostra para
confirmar ou rejeitar esse valor hipotético.

3.4.2 Quatro Passos


1. Estabelecida a hipótese sobre a população (por exemplo, média de altura da população
em Brası́lia é 1,70m);

2. Usamos a hipótese para predizer caracterı́sticas que a amostra deve ter (no exemplo,
prevemos que a média amostral estará próxima de 1,70m);

3. Obtemos uma amostra aleatória da população;

4. Comparamos os resultados obtidos com a amostra aleatória com previsão que foi feita
na hipótese (no exemplo, se a média amostral for consistente com a previsão, concluı́mos
que a hipótese é razoável; se for muito discrepante, concluı́mos que não é razoável).

3.4.3 Tipo Usual de Teste


Vamos testar uma hipótese base H0 (ou hipótese nula ou de nulidade ou hipótese básica) versus
uma hipótese alternativa H1 .

O termo hipótese nula refere-se que na maioria das aplicações de testes de hipóteses, deseja-se
verificar se um determinado tratamento alterou a média populacional (sem alterar a vairância
ou a distribuição populacional).

A hipótese nula assume que não ocorre mudança e a hipótese alternativa que ocorre mudança.

3.4.4 Definição
Definição: Hipótese Nula. A hipótese nula H0 assume que a variável independente (o
tratamento) não tem efeito na variável dependente da população.

Definição: Hipótese Alternativa. A hipótese alternativa H1 assume que a variável inde-


pendente (o tratamento) tem efeito na variável dependente da população.

3.4.5 Teste Bicaudal


Podemos realizar basicamente dois tipos de testes. O primeiro, descrito por:

H0 : θ = θ0 vs H1 : θ 6= θ0 ,

é chamado bicaudal (ou bilateral ou não-direcional ).

Neste teste rejeitaremos a hipótese nula se encontrarmos evidência convincente de que θ 6= θ0


(ou seja, ou de que θ > θ0 ou de que θ < θ0 .

29
3.4.6 Teste Unicaudal
O segundo tipo, descrito por:

H0 : θ ≤ θ0 (ou θ ≥ θ0 ) vs H1 : θ > θ0 (ou θ < θ0 ) ,

é chamado unicaudal (à direita, pois H1 : θ > θ0 ; à esquerda se H1 : θ < θ0 ).

O teste unicaudal também é chamado unilateral ou direcional.

Neste teste rejeitaremos a hipótese nula se encontrarmos evidência convincente de que θ > θ0
(θ < θ0 ).

3.4.7 Teste Bicaudal – Set-up Inicial


Vamos analisar testes de hipóteses para a média populacional de uma v.a. X com distribuição
normal N (µ, σ 2 ).

Vamos supor que a variância σ 2 é conhecida


Pn (caso não seja, é fácil adaptar o teste usando o
2 2
estimador não viesado σ̂ = (1/(n − 1)) i=1 (Xi − X̄) de modo similar ao que foi feito acima
para intervalos de confiança).

Considere uma amostra


Pn aleatória X1 , . . . , Xn de tamanho n de X. Sabemos que a média
2
amostral X̄ = (1/n) i=1 Xi possui distribuição normal com média µ e variância σ /n.

3.4.8 Teste Bicaudal para Média Populacional


Vamos analisar o teste bicaudal para média, supondo o set-up acima. O teste pode ser descrito
então por:
H0 : µ = µ0 vs H1 : µ 6= µ0 ,
em que µ0 é o valor que assumimos para a média populacional,

3.4.9 Definição de Nı́vel de Significância


Definição: Nı́vel de Significância. O nı́vel de significância α de um teste de hipóteses é o
valor de probabilidade usado para definir que resultados amostrais são muito improváveis se a
hipótese nula for verdadeira.

Os valores mais comuns para α são 0, 10 = 10%, 0, 05 = 5%, 0, 01 = 1% e 0, 001 = 0, 1%. Um


α = 0, 05 significa que iremos separar os 5% menos prováveis valores para a média amostral
dos 95% valores mais prováveis (valores centrais).

3.4.10 Região Crı́tica


Definição: Região Crı́tica. A região crı́tica de um teste de hipóteses é dada pelos va-
lores amostrais extremos que são muito improváveis de serem obtidos (onde agora “muito
improvável” é definido pelo nı́vel de significância do teste) se a hipótese nula for verdadeira.

Os limites da região crı́tica são definidos pelo nı́vel de significância α selecionado para o teste.

30
3.4.11 Definindo os Limites da Região Crı́tica
Para determinar exatamente os limites da região crı́tica, usamos o valor α selecionado e a
tabela da normal padrão (para o caso do exemplo acima e de situações em que se deseja testar
a média populacional quando a variância populacional é conhecida).

Se α = 0, 05, precisamos encontrar os limites que separam os 5% extremos dos 95% centrais.

Como a distribuição normal padrão é simétrica ao redor de zero, temos 2, 5% em cada cauda.

Na tabela da normal padrão, obtemos z0,025 = 1, 96. Portanto, para qualquer distribuição
normal, os 5% extremos possuem valores acima de z = 1, 96 ou abaixo de z = −1, 96.

Figura 1: Região crı́tica para α = 0, 05

3.4.12 Valor Crı́tico


Os valores da distribuição que definem os dois extremos são denominados valores crı́ticos do
teste e determinados pelo nı́vel de significância adotado (e, evidentemente, pela distribuição
considerada).

Para o caso da distribuição normal padrão, como ela é simétrica em torno de zero, os dois
valores que determinam a região crı́tica são iguais em valor absoluto.

Se α = 5%, então o valor crı́tico |zc | associado, que delimita os dois extremos da distribuição
com probabilidade 2, 5% de ocorrer, é igual a 1, 96.

3.4.13 Decisão
Calculada a média amostral X̄, computamos o valor da estatı́stica do teste, denotada por z,
usando a hipótese nula:

X̄ − µ0 Média Amostral − Media Populacional Hipotética


z= √ =
σ/ n Desvio Padrão Amostral

Uma vez calculado a estatı́stica do teste z acima, devemos tomar uma decisão entre duas
possı́veis: rejeitar a hipótese nula ou falhar em rejeitar a hipótese nula.

31
3.4.14 Regra de Decisão
A decisão é feita simplesmente comparando a estatı́stica do teste z com o valor crı́tico zc :

• Se −zc < z < zc (ou seja, se |z| < |zc |), então não rejeitamos a hipótese nula (valor da
estatı́stica do teste caiu na região de aceitação de H0 .

• Se z < −zc ou z > zc (ou seja, se |z| > |zc |), então rejeitamos a hipótese nula (valor da
estatı́stica do teste caiu na região de crı́tica do teste).

3.4.15 p-Valor
Para um determinado valor da estatı́stica z do teste, podemos encontrar a probabilidade asso-
ciada a esse valor, usando a tabela da distribuição normal padrão (e.g., se z = 4, temso que
p = 0, 0003).

Este é o p-valor do teste de hipóteses (também chamado valor -p, nı́vel descritivo, probabilidade
de significância).

Definição: p-valor. O p-valor de um teste é a probabilidade de se obter uma estatı́stica de


teste igual àquela calculada com a amostra obtida, sob a hipótese nula.

Então o p-valor de um teste pode ser visto como o menor nı́vel de significância com o qual se
rejeitaria a hipótese nula (isso é bastante controverso!).

3.4.16 Tomada de Decisão Usando o p-Valor


Portanto, se o p-valor do teste for menor do 0, 05, pode-se rejeitar a hipótese nula ao nı́vel de
significância de 0, 05 = 5%.

Se a estatı́stica do teste for, por exemplo, z = 1, temos que p = 0, 3374. Neste caso, aceitamos
a hipótese nula ao nı́vel de significância de 5%.

Logo, quanto menor o p-valor, maior a incompatibilidade estatı́stica dos dados amostrais com
a hipótese nula.

Podemos usar o p-valor para a tomada de decisão:

• Se p > α: aceita-se a hipótese nula.

• Se p < α: rejeita-se a hipótese nula.

3.4.17 Observações sobre o p-Valor


1. O p-valor não é a probabilidade da hipótese nula de um teste ser verdadeira;

2. O p-valor não é a probabilidade da hipótese nula ter sido rejeitada erroneamente (ou seja,
a probabilidade de um erro do tipo I, que veremos abaixo);

3. A magnitude do p-valor não indica o tamanho ou a importância de um efeito observado;

4. p-valor e nı́vel de significância não são sinônimos: o p-valor é sempre computado a partir
da amostra, enquanto o nı́vel de significância é fixado antes de se obter a amostra.

32
3.4.18 Erro Tipo I
Testes de hipóteses são procedimentos de inferência estatı́stica, que usam informação limitada
(amostra) para chegar a uma conclusão geral (população).

Logo, existe a possibilidade de que a conclusão obtida seja incorreta. Existem dois tipos de
erros que podem ocorrer.

Definição: Erro Tipo I. Um erro tipo I ocorre quando a hipótese nula é válida, mas é
rejeitada pelo teste. Tipicamente, conclui-se que o tratamento teve efeito quando na verdade
não teve.

Definição (alternativa): Nı́vel de Significância. O nı́vel de significância α de um teste


de hipóteses é a probabilidade de ocorrer um erro tipo I.

3.4.19 Erro Tipo II


O erro tipo II consiste no outro tipo de erro que pode ocorrer em um teste de hipóteses, que
consiste em não rejeitar a hipótese nula quando ela é falsa. Ou seja, o teste de hipóteses falhou
em observar que o tratamento de fato teve efeito.

Definição: Erro Tipo II. Um erro tipo II ocorre quando não se rejeita uma hipótese nula
falsa. Tipicamente, conclui-se que o tratamento não teve efeito quando na verdade teve.

Figura 2: H0 : “pessoa não grávida”, H1 : “pessoa grávida”

3.4.20 Probabilidade do Erro Tipo II e Poder do Teste


A probabilidade de ocorrência de um erro tipo II é usualmente denotada por β:

β = p (Erro Tipo II) = p (Aceitar H0 | H0 é falsa) = p (H0 | H1 ) .

Definição: Poder de um Teste. O poder (ou potência) de um teste de hipóteses, denotado


por P D, é a probabilidade de o teste rejeitar H0 quando H0 é realmente falsa. Logo, o poder
de um teste é 1 menos a probabilidade de ocorrer um erro tipo II: P D = 1 − β.

33
Figura 3: Possibilidades em um Teste de Hipóteses

3.4.21 Aumentando o Poder de um Teste


Para aumentar o poder de um teste, podemos:

• Aumentar o tamanho n da amostra aleatória;

• Aumentar o nı́vel de significância α adotado (ou seja, se aumentarmos a probabilidade de


um erro tipo I, diminuı́mos a probabilidade de um erro tipo II, tudo o mais constante);

• Aumentar o tamanho do efeito (ou seja, a distância entre o valor do parâmetro real e o
considerado verdadeiro em H0 ).

3.4.22 Teste Unicaudal


O procedimento visto acima é válido para um teste bicaudal, ou seja, um teste em que a região
crı́tica se encontra nas duas caudas da distribuição. O procedimento para um teste unicaudal
(ou direcional ), definido abaixo, é um pouco diferente.

Definição: Teste de Hipóteses Unicaudal. Em um teste de hipóteses unicaudal, a hipótese


estatı́stica (dada por H0 e H1 ) especifica ou um aumento ou uma diminuição no parâmetro
populacional de interesse (usualmente, a média populacional).

3.4.23 Novo Procedimento


Portanto, um teste unicaudal modifica o procedimento do teste de hipóteses em duas etapas:

1. Na primeira etapa do teste de hipóteses, a predição direcional do tratamento é incorporada


nas hipóteses; e

2. Na segunda etapa do teste de hipóteses, a região crı́tica é localizada inteiramente em uma


das caudas da distribuição.

Daı́ procede-se exatamente como antes: calculamos a estatı́stica z e tomamos a decisão sobre
aceitar ou rejeitar H0 se a estatı́stica z estiver fora ou dentro da região crı́tica.

34
Figura 4: Teste Unicaudal

3.4.24 Exemplo
Suponha que a estatı́stica de um certo teste é:

X̄ − µ0 29, 5 − 26 3, 5
z= = = = 1, 75 .
σX̄ 2 2

O valor da estatı́stica z maior do que o tabelado ao nı́vel de 5% (zc = 1, 65) indica que a média
amostral obtida está na região crı́tica. Logo, a decisão é rejeitar H0 .

Se fosse usado um teste bicaudal, então para este caso H0 seria aceito. Temos que sempre que
se rejeitar H0 no teste bicaudal, rejeita-se também H0 em um teste unicaudal, mas o contrário
não é válido.

3.4.25 Variância Desconhecida


Suponha o mesmo arcabouço de antes, só que agora não conhecemos a variância populacional
associada a v.a. X ∼ N (µ, σ 2 ) para a qual queremos realizar um teste de hipótese sobre µ.

Como fazemos agora? Se utilizarmos a variância amostral σ̂ 2 = (1/(n − 1)) ni=1 (Xi − X̄)2 ,
P
em que X̄ denota a média amostral, podemos proceder exatamente do mesmo modo que antes
(seja um teste bicaudal, seja um teste unicaudal), usando a variância amostral no lugar da
variância populacional para calcular a estatı́stica do teste.

Porém, agora devemos comparar a estatı́stica obtida com uma estatı́stica t com n − 1 graus de
liberdade. A justificativa para isso é similar à que vimos com intervalos de confiança.

3.4.26 Teste para Proporções


O mesmo procedimento visto acima, com pequenas modificações, vale quando queremos realizar
um teste de hipóteses para proporções, como no exemplo abaixo.

Exemplo. Uma fábrica afirma que a probabilidade de uma peça produzida por ela ser defei-
tuosa é 0, 1. Suponha que obtivemos uma amostra aleatória com 100 peças e verificamos que
19 são defeituosas. Queremos realizar o seguinte teste de hipóteses:

H0 : p = 0, 1 vs H1 : p 6= 0, 1 ,

onde p denota a proporção de peças defeituosas. Vamos adotar o nı́vel de significância de 0, 1%.

35
Como procedemos para realizar o teste? Sob a hipótesep nula, temos
√ que a variância amostral
é p0 (1 − p0 )/n. Então o desvio-padrão amostral é p0 (1 − p0 )/ n.

Nesse tipo de teste, o correto seria utilizar a distribuição binomial.

Mas se n for grande, o Teorema Central do Limite permite usar


p a distribuição
√ normal para
calcular de modo aproximado a estatı́stica do teste, usando p0 (1 − p0 )/ n como desvio
padrão:
p̄ − p0
z=p √ ,
p0 (1 − p0 )/ n
onde p̄ é a proporção obtida na amostra.

Voltando ao Exemplo acima, temos que:


p̄ − p0 0, 19 − 0, 10 0, 09
z=p √ =p √ = = 10
p0 (1 − p0 )/ n (0, 1 × 0, 9)/ 100 0, 009

Como o valor crı́tico do teste para o nı́vel de significância α = 0, 1% é 3,3, podemos então
rejeitar a hipótese nula ao nı́vel de significância de 0, 1%.

36