BNDES - Economia PDF

Conheça a parceria entre o Curso DSc
e a XP Investimentos! Procure a
Secretaria.
Estatística
Turma Preparatória
BNDES/Economia
Professor (DSc) Eduardo Campos

1. ESTATÍSTICA
DESCRITIVA
Exemplo 1.1 - Faturamento bruto no mês
passado, em milhões de R$, das 30 filiais
de uma determinada empresa de varejo:
11,8 3,6 16,6 13,5 4,8 8,3

8,9 9,1 7,7 2,3 12,1 6.1
10,2 8,0 11,4 6,8 9,6 19,5
15,3 12,3 8,5 15,9 18,7 11,7
6,2 11,2 10,4 7,2 5,5 14,5
Que conclusões você pode tirar?

Esses dados estão na chamada forma
bruta, difícil de analisar diretamente.
Precisamos usar técnicas adequadas para
resumí-los ou facilitar sua visualização.
É disto que trata a

estatística descritiva!
Distribuição de Frequências
A distribuição de frequências é
uma tabela que agrupa os dados
em classes (intervalos), indicando o
número ou a proporção de observações
que pertencem a cada uma das classes.
As classes não precisam

ter amplitudes iguais.
• Distribuição de Frequências Absolutas
Classe Frequência
2 | 5 3
5 | 8 7
8 | 11 7
11 | 14 7
14 | 17 4
17 | 20 2
Total: 30
A notação | significa que o extremo inferior da classe
não está incluído, e o extremo superior está incluído!
Limitações da distribuição
de frequências absolutas:
1. As frequências absolutas de cada classe não

têm interpretação direta. É sempre necessário
olhar para o total de observações consideradas.
2. Não permite a comparação com outra
distribuição cujos totais sejam diferentes.
O uso de frequências relativas
soluciona os problemas acima.
• Distribuição de Frequências Relativas
Representa a proporção ou o percentual
de observações que caem em cada classe.
Classe Frequência Relativa
2 | 5 3/30 = 0,1 = 10%
5 | 8 = 7/30 ou 23,33%
8 | 11 23,33%
11| 14 23,33%
14 | 17 13,33%
17 | 20 6,67%
Total: 1 = 100%
• Distribuição de Frequências Acumuladas
Representa a soma das frequências
até a classe considerada (inclusive).
Classe Frequência Acumulada
2 | 5 3 ou 10%
5 | 8 3 + 7 = 10 ou 33,3%
8 | 11 3 + 7 + 7 = 17 ou 56,7%
11| 14 24 ou 80%
14 | 17 28 ou 93,3%
17 | 20 30 ou 100%
Histograma
O histograma é uma representação

gráfica da distribuição de frequências.
Como obter o histograma?

Colocar as classes no eixo horizontal,
as frequências no eixo vertical,
e traçar um diagrama de barras.
Histograma (Frequências Absolutas) - ex. 1.1:
Frequências
10
8
6
4
2
0
Classes
2-|5 5-|8 8-|11 11-|14 14-|17 17-|20
O histograma de frequências relativas tem o

mesmo formato, com o eixo vertical modificado.
• Curva ou Polígono de Frequências
É a curva obtida quando ligamos os pontos

médios das linhas superiores das barras do
histograma (que pode ser o de frequências
absolutas ou o de frequências relativas).
• Gráfico de Barras
Representação gráfica apropriada para

variáveis que representam contagens.
Consiste de barras verticais centradas

nos valores assumidos pela variável,
e com espaços separando as barras.
Exemplo 1.2
Distribuição das reclamações diárias no
SAC de uma empresa em um certo mês:
• Gráfico de Pareto e Ogiva
O gráfico de Pareto, usual em controle de

qualidade, é uma ferramenta estatística que
dispõe os eventos de interesse em ordem
decrescente de frequência de ocorrência.
Em geral, é sobreposta a ele uma curva de

frequências acumuladas, denominada ogiva.
Exemplo 1.3 - Análise dos tipos de defeito nas
chapas fabricadas por uma empresa siderúrgica.
Ogiva
• Gráfico de Pizza ou de Setores
O gráfico de pizza, ou de setores, é um

diagrama estatístico bastante popular.
É apropriado quando o objetivo

é identificar partes de um todo.
Exemplo 1.4:
• Medidas de Posição
Uma medida de posição é um valor em

torno do qual os dados estão concentrados.
Sinônimos: medida de localização

ou de tendência central.
Principais medidas de posição:

Média , Mediana e Moda.
Média
É a soma das observações dividida

pelo número de observações:
n
xx 1  x 2  ...  x n
i
 i 1
.
n n
no de i-ésima
observações observação
No exemplo 1.1, o faturamento médio
é  = 307,7/30 = 10,3 milhões.
Note que o valor 10,3 não ocorre.
Nenhum problema!
A média de um conjunto de dados não
precisa ser um dos valores observados.
Exemplo 1.5:
Salários de economistas recém-formados

(em R$ 1.000): 2,8; 6,0; 2,6; 3,1; 3,0.
Salário médio (destes 5 economistas):

 = 3,5 (R$ 3.500,00).
Este número é representativo

dos salários desses 5 economistas?
R: Não, pois está bem acima
de 4 dos 5 valores.
Claramente, o valor responsável

por esta distorção foi o “6,0”.
O “6,0” é um valor atípico ou discrepante,

tecnicamente denominado outlier.
Conclusão:
A média é uma medida de posição

muito sensível à presença de outliers!
Neste caso, é recomendável utilizar outra

medida de posição, chamada mediana!
Mediana
É o valor Md que divide os dados

ordenados em duas partes iguais.
Se n for ímpar: Md = observação central.
Se n for par:
Md = média das duas observações centrais.
Exemplo 1.5 (cont.):
Salários ordenados:
2,6; 2,8; 3,0; 3,1; 6,0.
Md = 3,0.
3,0 é mais representativo da posição ou

tendência central destes salários. A mediana
é uma medida robusta ou resistente a outliers.
Em algumas situações, nem a média nem
a mediana serão medidas apropriadas.
Exemplo 1.6 - O gerente de uma loja de

calçados está interessado em saber qual
tamanho de calçado ele deve priorizar na
hora de planejar seu estoque, a partir dos
tamanhos dos calçados vendidos no último
mês. Qual a medida de posição adequada?
Moda
A moda é o valor que ocorre com

maior frequência em um conjunto
de observações (notação: Mo).
Exercício 1.1 - As notas de uma turma

foram: 9, 7, 8, 6, 3, 8, 7 e 8. Obtenha a
média, a mediana e a moda das notas.
Um conjunto de dados que possua 2 modas
é chamado bimodal. Se possui mais de 2,
multimodal. Se não possui moda, amodal.
Exemplo 1.7 - Em uma pequena empresa,
os salários dos 12 funcionários estão
distribuídos da seguinte forma:
5 ganham R$ 2.500,00;
2 ganham R$ 3.000,00;
3 ganham R$ 4.000,00;
2 ganham R$ 4.500,00.
Calcule o salário médio dos

funcionários desta empresa.
Média Ponderada
A média ponderada, p, é definida como:

n
 x 1 x 1  2 x 2  ...  n x n
i i
p  i 1
 .
1  2  ...  n
n
 i i 1
peso da i-ésima observação (no exemplo,

frequência de ocorrência do i-ésimo salário).
Resposta do exemplo 1.7: R$ 3.291,67.

• Média para Dados Agrupados
Quando os dados estão disponíveis agrupados

(na forma de uma distribuição de frequências),
só é possível obter a média por aproximação.
O que se faz é a média dos pontos médios

das classes, ponderados por suas frequências.
Exercício 1.2 - Obtenha o peso médio da
população cuja distribuição de frequências é:
Classe Frequência
40 | 50 Kg 2
50 | 60 Kg 5
60 | 70 Kg 7
70 | 80 Kg 8
80 | 90 Kg 3
Solução:   (2*45 + 5*55 +

7*65 + 8*75 + 3*85)/25 = 67 Kg.
• Mediana para Dados Agrupados
Exemplo 1.8 - Considere a distribuição

de frequências dos consumos domiciliares
mensais de energia elétrica em uma
determinada área, apresentada a seguir:
Faixas de Consumo Frequência Relativa
0 | 50 KWh 8%
50 | 100 KWh 12%
100 | 150 KWh 32%
150 | 300 KWh 40%
300 | 500 KWh 8%
Total: 100%
O cálculo da mediana é feito

por meio de uma regra de 3.
O primeiro passo é obter
a distribuição acumulada:
Faixas de Consumo Frequência Acumulada
0 | 50 KWh 8%
50 | 100 KWh 20%
100 | 150 KWh 52%
150 | 300 KWh 92%
300 | 500 KWh 100%
A figura a seguir posiciona a mediana
(= 100+h) na distribuição acumulada:
h é calculado por meio da seguinte regra de três:
150  100 52  20
 .
h 50  20
Assim, a mediana é: Md  146,8 KWh.

• Medidas de Dispersão
Frequentemente, uma medida de posição

não fornece todas as informações de que
precisamos para tomar uma certa decisão.
Exemplo 1.9 - Dois fornecedores, A e

B, apresentaram os seguintes prazos de
entrega, referentes aos últimos 5 clientes:
(em dias)
Fornecedor A – 18; 10; 17; 3; 2.
Fornecedor B – 9; 10; 10; 9; 12.
Com base nos prazos acima, qual dos

fornecedores você escolheria: A ou B?
Naturalmente, você escolheria o fornecedor B

(menor risco inerente ao prazo de entrega).
Uma medida de dispersão é um valor que
nos diz o quanto os dados estão variando
em relação à uma medida de posição
(no caso usual, a medida de
posição considerada é a média ).
Seja (xi-) o desvio de xi em relação à média.
Possíveis medidas de dispersão seriam:
n
n  ( x  )
i
 ( x i  ) ou i 1
.
i 1 n
Solução:
Problema: trabalhar com
os quadrados
n dos desvios!
 (x  )  0, sempre!
i 1
i
Variância 2
( )
É a média dos quadrados dos desvios:

n
 (x i  ) 2
 
2 i 1
.
n
Exercício 1.3 - Seja um conjunto de 3 dados:

x1 = 2, x2 = 5 e x3 = 8. Ache a variância. R: 6.
Forma alternativa para o cálculo de 2:
n n
x 2
i  n 2
x 2
i
 
2 i 1
 i 1
 .
2
n n
Exemplo 1.9 (cont.):
Prazos de entrega aos últimos 5 clientes:
Fornecedor A – 18; 10; 17; 3; 2.

Fornecedor B – 9; 10; 10; 9; 12.
Para o fornecedor A: 2 = 45,2.

Para o fornecedor B: 2 = 1,2.
.
Interpretação?
A variância apresenta um sério problema: ela
é expressa no quadrado da unidade original,
em geral uma unidade que sequer faz sentido.
Como consequência, a variância

não possui interpretação direta.
Por esta razão o desvio padrão, apresentado

a seguir, é adotado com maior frequência.
Desvio Padrão ()
  . 2
No exemplo 1.9, para o fornecedor A:  =

6,72 dias, e para o fornecedor B:  = 1,10 dias.
O desvio padrão preserva a unidade original
dos dados e ainda possui interpretação direta.
Interpretação de  (válida se o histograma
apresentar formato similar ao de um sino):
99,72%
• Variância Amostral (s2)
média amostral.
n n
 (x i  x) 2
x 2
i  nx 2
s 
2 i 1
 i 1
.
n 1 n 1
Esta medida deve ser usada quando o

enunciado evidenciar que se trata de uma
amostra, ou pedir a variância amostral.
• Variância para Dados Agrupados
Quando os dados estão disponíveis na forma de
distribuição de frequências (isto é, agrupados),
só é possível obter a variância por meio de uma
aproximação, a partir da média dos quadrados
dos desvios dos pontos médios das k classes em
relação à média, ponderados pelas frequências:
k
  j ( x j  )
2
j1
 
2
.
n
Exercício 1.4 - Calcule a variância dos pesos
na população do exercício 1.2, com base
apenas na distribuição de frequências:
Classe Frequência
40 | 50 Kg 2
50 | 60 Kg 5
60 | 70 Kg 7
70 | 80 Kg 8
80 | 90 Kg 3
R: 128.
Coeficiente de Variação (CV)
Quando queremos comparar dados

expressos em diferentes unidades ou
magnitudes, o uso do desvio padrão
leva a conclusões equivocadas, sendo
necessário utilizar uma outra medida
chamada coeficiente de variação.
Exemplo 1.10 - Suponha que estejamos
interessados em estudar a variabilidade de
salários em diferentes ramos de atividade
profissional. Como um caso extremo,
considere a comparação entre salários
de gerentes e de auxiliares de escritório.
Sabe-se que o salário médio dos

gerentes é de R$ 5.000,00 e o dos
auxiliares de escritório é de R$ 500,00.
O desvio padrão dos salários dos gerentes
foi igual ao dos salários dos auxiliares
de escritório, ambos iguais a 100
Isto indica variabilidade alta ou baixa?
No caso dos auxiliares de escritório, cujos

salários estão em torno de R$ 500,00, é alta.
Já para os gerentes, cujos salários estão em

torno de R$ 5.000,00, é relativamente baixa.
Fórmula do Coeficiente de Variação:

CV  .

CV dos salários dos auxiliares de

escritório: 100/500 = 0,2 ou 20%.
CV dos salários dos gerentes: 100/5.000 =
0,02 ou 2%  dispersão relativa menor.
Propriedades do Coeficiente de Variação:
1 - É adimensional, isto é, não é expresso

em nenhuma unidade de medida.
2 - É uma medida de dispersão relativa.
3 - CV pequeno = dados homogêneos

e CV grande = dados heterogêneos.
• Assimetria
dados com Dados com

dados
assimetria positiva assimetria negativa
simétricos
ou à direita ou à esquerda
• Quartis
São medidas Q1, Q2 e Q3 que

dividem os dados em 4 partes iguais.
Cálculo de Quartis
O cálculo de quartis segue o mesmo

procedimento do cálculo da mediana
(regra de 3), apresentado no exemplo 1.8.
A seguir. daremos continuidade àquele

exemplo, procedendo agora ao cálculo
do primeiro e do terceiro quartis.
Exemplo 1.11 - Considerando os dados do
ex. 1.8, calcule o primeiro e o terceiro quartis.
Retomando a distribuição acumulada:
Faixas de Consumo Frequência Acumulada
0 | 50 KWh 8%
50 | 100 KWh 20%
100 | 150 KWh 52%
150 | 300 KWh 92%
300 | 500 KWh 100%
A figura a seguir posiciona Q1 (= 100+h)
na distribuição de frequências acumuladas:
150  100 52  20
 .
h 25  20
Assim, o primeiro quartil é: Q1  108 KWh.

A figura a seguir posiciona Q3 (= 150+h)
na distribuição de frequências acumuladas:
300  150 92  52
 .
h 75  52
Assim, o terceiro quartil é: Q3  236 KWh.

• Percentis
O percentil p é o valor tal que 100*p% dos

dados estão abaixo dele. Por exemplo, o 1º
quartil é o 25º percentil. Os percentis que
dividem a distribuição em 10 partes são
chamados decis (10º percentil =1º decil).
• Amplitude Interquartílica
É uma medida de dispersão dada pela

diferença entre o terceiro e o primeiro quartis:
Q = Q3 – Q1.
Obs - não confundir com amplitude total,

definida como (valor máximo - valor mínimo).
Box-Plot
É um diagrama que representa:
- a mediana,
- os quartis Q1 e Q3,
- uma linha que vai de Q3 até a maior
observação menor ou igual a LS = Q3+1,5Q,
- outra linha que vai de Q1 até a menor
observação maior ou igual a LI = Q1-1,5Q.
Exemplo 1.12 - Seja o seguinte conjunto de
dados (ordenado): 5, 10, 12, ... , 37, 42, 45.
Sabendo-se que os quartis são 20, 25

(mediana) e 28, obtenha o box-plot.
Aplicações do Box-Plot
1. Comparar dispersões (via amplitudes

interquartílicas) de dois conjuntos de dados.
2. Identificar a presença de assimetria

(e o tipo dela – se é positiva ou negativa).
Como detectar e identificar o tipo de assimetria?
A partir das distâncias da mediana aos quartis.
Se a mediana está mais próxima de Q1,

os dados apresentam assimetria positiva.
Se a mediana está mais próxima de Q3,

os dados apresentam assimetria negativa.
Se a distância da mediana para os quartis é a

mesma, os dados têm distribuição simétrica.
Aplicações do Box-Plot (cont.)
3. Detectar a presença de outliers:

Valores acima de LS são outliers (superiores)
Valores abaixo de LI são outliers (inferiores)
Os outliers costumam ser assinalados com *.
Exercício 1.5 - Identifique se existe

assimetria e/ou outliers no exemplo 1.12.
Exercício 1.6 - As idades das mulheres
com 40 anos ou mais, em uma localidade,
apresentam Q1 = 49, Md = 54 e Q3 = 63. A
mais velha tem 71 anos. Obtenha o box-plot.
Solução:
• Diagrama de Dispersão
Um diagrama de dispersão é um
gráfico de pontos {(xi,yi); i = 1,2,...,n}
que indica se parece ou não existir
alguma relação entre 2 variáveis X e Y,
e identificar o tipo de relação existente.
cada ponto desses representa o valor

de X e de Y para a i-ésima observação
O diagrama de dispersão permite
visualizar uma relação de associação. Se
os dados formam uma trajetória similar a
uma reta, dizemos que a relação é linear.
Um importante objetivo da estatística é

medir a força de uma associação linear.
Para isto, precisamos de medidas-resumo.

• Covariância
É uma medida que fornece o sinal

da relação linear entre 2 variáveis,
definida pela seguinte fórmula:
n n
 ( x i   X )( y i   Y )  x i yi   X Y
 XY  i 1
 i 1
.
n n
Coeficiente de Correlação
O coeficiente de correlação é um
número entre -1 e 1, que mede a força
da associação linear entre X e Y.
Fórmula:
 XY
 XY  .
XY
Interpretação do
Coeficiente de Correlação:
- Se a relação linear entre X e Y for
positiva, a correlação está entre 0 e 1.
Quanto mais forte, mais próxima de 1.
- Se a relação linear entre X e Y for
negativa, a correlação está entre -1 e 0.
Quanto mais forte, mais próxima de -1.
- Se não houver relação linear: o valor
do coeficiente de correlação é zero.
Obs - Correlação x Independência!
É importante frisar que a correlação mede

apenas a força de uma associação linear,
não fornecendo informação acerca de
relações de dependência não linear.
Por exemplo, se Y = X2, XY = 0,

porém as variáveis são dependentes.
2.
PROBABILIDADE
(CONCEITOS E
LEIS BÁSICAS)
Notas de Aula - Professor Eduardo
Lima Campos.
Os 3 conceitos fundamentais da teoria
da probabilidade são os seguintes:
1 - Experimento Aleatório
2 - Espaço Amostral
3 - Evento.
Cada um deles é apresentado

e exemplificado a seguir.
Lima Campos.
Experimento Aleatório
Um experimento aleatório é uma ação

cujo resultado não pode ser previsto.
Exemplos:
2.1 - Lançar um dado e observar a
face que fica voltada para cima.
2.2 - Selecionar uma bolinha de uma urna com
bolinhas vermelhas e azuis e verificar sua cor.
Embora o resultado de um experimento
aleatório não possa ser pré-determinado,
é possível descrever o conjunto dos
resultados que podem ocorrer.
Este conjunto é chamado

espaço amostral.
Lima Campos.
Espaço Amostral
O espaço amostral associado a um

experimento aleatório é o conjunto
de todos os seus possíveis resultados.
Notação: S.
No exemplo 2.1 – S = {1,2,3,4,5,6}.
No exemplo 2.2 – S = {ázul`,´vermelha`}.
Evento
Um evento é um
subconjunto do espaço amostral.
No exemplo 2.1, alguns possíveis eventos são:

A = ´face par` = {2,4,6};
B = ´face>3` = {4,5,6};
C = ´face=2` = {2}.
Lima Campos.
Um evento ocorre quando o resultado do
experimento é um ponto que pertence a ele.
Exemplos com os eventos do slide anterior:

Se a face observada foi o 5,
dizemos que B ocorreu,
Se a face observada foi o 4,
dizemos que A e B ocorreram,
e assim por diante...

• União e Interseção de Eventos
No exemplo 2.1, considere os eventos:
A: ´Face par` = {2,4,6}

B: ´Face > 3` = {4,5,6}

Lima Campos.
O evento Á ou B ocorre` é dado pela
união do evento A com o evento B.
AB = {2,4,5,6}.
O evento Á e B ocorrem` é dado pela

interseção do evento A com o evento B.
AB = {4,6}.
Lima Campos.
Probabilidade – Definição
Seja A um evento definido em um espaço

amostral S. A probabilidade de A, denotada
por P(A), é uma função que satisfaz a 3
Axiomas, os quais são apresentados a seguir.
Propriedades da Probabilidade:
Axiomas da Probabilidade
quanto mais perto de 1, maior a probabilidade de que A ocorra.
1) 0  P(A)  1, p/ todo A definido em S.

este é um evento
especial, chamado
2) P(S) = 1. evento certo.
3) P(AB) = P(A) + P(B), se AB = .

O Axioma 3 pode ser generalizado para mais de 2 eventos. Por exemplo,
P(ABC) = P(A)+P(B)+P(C), se os 3 pares possíveis têm interseções vazias.
• Eventos Especiais e suas Probabilidades
O espaço amostral S é o evento
certo, cuja probabilidade é 1.
O conjunto  (vazio) é o evento
impossível, cuja probabilidade é 0.
O evento composto de todos os pontos
não favoráveis a A é chamado evento
complementar de A e denotado por Ac.
Sua probabilidade é: P(Ac) = 1-P(A).
• Atribuição de Probabilidades
Se os elementos do espaço amostral são

todos equiprováveis, a probabilidade de
um evento A é obtida da seguinte forma:
casos favoráveis
#A
P( A)  ao evento A
#S casos possíveis
Exemplo 2.3 - Seja o experimento: lançar 3
moedas e observar as faces voltadas para cima.
Seja: ĆA` = cara e ĆO` = coroa.
O espaço amostral associado

a este experimento aleatório é:
S = {(CA,CA,CA);(CA,CA,CO);
(CA,CO,CA);(CO,CA,CA);(CA,CO,CO);
(CO,CA,CO);(CO,CO,CA);(CO,CO,CO)},
totalizando #S = 8 casos possíveis.
Seja o evento: A = ´2 caras`.
Obtenha a probabilidade de A.
Solução:
A = {(CA,CA,CO);(CA,CO,CA);(CO,CA,CA)}
#A = 3 casos favoráveis.
#A 3
P( A)   .
#S 8
Lei da Adição
(Probabilidade do ÓU`)
Sejam A e B dois eventos, com interseção
AB. Qual a probabilidade de AB?
(ou seja, de que A ou B ocorram)
A Lei da Adição fornece a solução deste
problema, por meio da seguinte fórmula:
P(AB) = P(A) + P(B) - P(AB)

Lima Campos.
Exemplo 2.4 - Um aluno estuda para um
exame por 2 livros. O primeiro aborda
30% do programa. O segundo, 28%. 24%
do programa é abordado pelos dois livros.
Qual a probabilidade de que determinado

tópico do programa esteja em pelo menos
um dos dois livros utilizados pelo aluno?

Lima Campos.
Solução: Seja A = ´tópico estar no
primeiro livro` e B = ´tópico estar no
segundo livro`. Pede-se P(AB).
São dados no enunciado:
P(A) = 0,30, P(B) = 0,28
e P(AB) = 0,24.
Aplicando a Lei da Adição:

P(AB) = 0,30 + 0,28 – 0,24 = 0,34.
Lima Campos.
Eventos Mutuamente Exclusivos
2 eventos A e B são mutuamente

exclusivos (ou disjuntos) se a ocorrência
de um impede a ocorrência do outro. Se B
ocorre, então A não ocorre, e vice-versa.
Em outras palavras, são aqueles que não
possuem pontos em comum, ou seja:
AB = , o que implica P(AB) = 0.
Lima Campos.
Exemplo 2.5 - Considere o
lançamento simultâneo de 2 dados.
Verifique se os pares de eventos
a seguir são mutuamente exclusivos:
a) A = ´soma das faces igual a 7` e

B = ´soma das faces igual a 11`.
b) A = ´soma das faces maior

que 8` e B = ´faces iguais`.
Solução:
a) A = {(3,4),(4,3),(2,5),(5,2),(1,6),(6,1)}
e B = {(5,6),(6,5)} e AB = . Portanto:
A e B são mutuamente exclusivos.
b) A ={(3,6),(6,3),(4,5),(5,4),(4,6),(6,4),
(5,6),(6,5),(5,5),(6,6)}, B =
{(1,1),(2,2),(3,3),(4,4),(5,5),(6,6)}
e AB = {(5,5),(6,6)}. Portanto:
A e B não são mutuamente exclusivos.
Exemplo 2.6 - Distribuição por sexo dos
funcionários promovidos em uma empresa:
Promovidos Não-Promovidos Total

Masc. 46 184 230
Fem. 8 72 80
Total 54 256 310
Responda as perguntas a seguir.

Lima Campos.
a) Qual a probabilidade de um funcionário ser
do sexo masculino e ter sido promovido?
Solução: sejam os eventos: A = ´ter sido

promovido` e B = ´ser do sexo masculino`.
Diretamente da tabela, temos que 46

indivíduos satisfazem ambas as condições.
Assim: P(AB) = 46/310 = 0,1483.

Lima Campos.
b) Qual a probabilidade de um funcionário
do sexo masculino ter sido promovido?
O que está sendo pedido é a

probabilidade (condicional) de A
dado B, denotada por P(A|B).
Obs - Perceba a diferença entre P(A|B) e

P(AB). Esta é uma confusão comum!
Lima Campos.
A idéia é que somente os casos favoráveis
ao evento condicionante (B = ´ser do sexo
masculino`) passam a ser os casos possíveis.
Promovidos Não-Promovidos Total
Masc. 46 184 230

Fem. 8 72 80
Total 54 256 310
Lima Campos.
A probabilidade de A dado B
é, portanto, 46/230 = 0,2.
Se dividirmos numerador e denominador

acima pelo total de funcionários (310),
obtemos P(A|B) em função de P(AB)
e P(B), conforme apresentado a seguir.
Lima Campos.
Probabilidade Condicional
Sejam 2 eventos A e B,
tais que P(B)>0.
A probabilidade de A dado B é:
P(A|B) = P(AB)/P(B)

Lima Campos.
Exemplo 2.7 - Considere novamente
o exemplo 2.1, e sejam os eventos:
A: ´Face par` e B: ´Face > 3`.
a) Calcule P(A|B).
R: 2/3.
Eventos Independentes
2 eventos são independentes se a

ocorrência de um não interfere na
probabilidade de ocorrência do outro.
Ou seja, se:
P(A|B) = P(A)
Lima Campos.
Exemplo 2.7 (cont.) - b) A: ´face par` e
B: ´face > 3` são eventos independentes?
R: não, pois P(A|B)  P(A).
Obs - Não confunda eventos

independentes com eventos
mutuamente exclusivos!
Lima Campos.
Exemplo 2.8 - Em uma classe, os percentuais
de aprovados em álgebra e literatura são,
respectivamente, 75% e 84%. 63% são
aprovados em ambas as disciplinas.
a) Qual a probabilidade de um aluno ter
passado em álgebra ou em literatura?
b) Se um aluno passou em literatura, qual a
probabilidade de ter passado em álgebra?
c) Ter passado em álgebra e ter passado
em literatura são eventos independentes?
Lima Campos.
Solução:
Sejam A = ´ter passado em álgebra`

e B = ´ter passado em literatura`.
a) P(AB) = P(A) + P(B) - P(AB)

= 0,75 + 0,84 – 0,63 = 0,96.
b) P(A|B) = P(AB)/P(B) = 0,75.
c) Sim, pois P(A|B) = P(A) = 0,75.
Lima Campos.
Exemplo 2.9 - Seja uma urna com 8
bolinhas azuis e 4 vermelhas. 2 bolinhas
são selecionadas ao acaso desta urna.
a) Qual a probabilidade de que a primeira
bolinha retirada da urna seja vermelha
e que a segunda seja azul?
Seja A = segunda bolinha azul e
B = primeira bolinha vermelha.
Queremos P(AB).
Lima Campos.
Para revolver o problema, basta inverter a
fórmula da probabilidade condicional para
obter P(AB) como função de P(A|B) e
P(B).
P(A|B) = P(AB)/P(B).

P(AB) = P(A|B)P(B)

Lima Campos.
Lei da Multiplicação
(Probabilidade do É`)
Sejam A e B dois eventos, com P(B)>0. Qual
a probabilidade de que A e B ocorram?
A Lei da Multiplicação fornece a solução

deste problema, por meio da fórmula a seguir:
P(AB) = P(A|B)P(B)
Solução do exemplo 2.9, item a:
A = segunda bolinha azul e B = primeira

bolinha vermelha. Do enunciado, temos
que: P(A|B) = 8/11 e P(B) = 4/12.
Assim:
P(AB) = 8/33.

Lima Campos.
• Evento AB em um Diagrama de Árvore:
P(A|B) A
P(B) B
P(Ac|B) Ac
P(A|Bc) A
P(Bc)
Bc
P(Ac|Bc) Ac
Lima Campos.
• Forma-Produto para Independência
Vimos que, pela Lei da Multiplicação:

P(AB) = P(A|B)P(B).
Por outro lado, vimos que 2 eventos A e B

são independentes se: P(A|B) = P(A).
Pode-se concluir que A e B são

independentes se: P(AB) = P(A)P(B)
Lima Campos.
Exercício 2.1 - Sejam 2 eventos A e B
tais que P(A) = 0,3 e P(AB) = 0,5.
Determine o valor de P(B) se:
a) A e B são mutuamente exclusivos.

b) A e B são independentes.
Respostas: a) 0,2. b) 2/7.

Obs - Se A e B são independentes:
Ac e B também são independentes,
A e Bc também são independentes,
Ac e Bc também são independentes.

Exemplo 2.9 (cont.)
b) Qual a probabilidade de que a segunda

bolinha selecionada seja azul?
Considere novamente:
A = segunda bolinha azul e
B = primeira bolinha vermelha.

Lima Campos.
• Evento A no Diagrama de Árvore
P(A|B) A
P(B) B
P(Ac|B) Ac
P(A|Bc) A
P(Bc)
Bc
P(Ac|Bc) Ac
Lima Campos.
Lei da Probabilidade Total
Sejam A e B dois eventos, em que A

possa ocorrer condicionado a B ou a Bc.
A probabilidade “total” do evento A pode
ser calculada por meio da seguinte fórmula:
P(A) = P(A|B)P(B) + P(A|Bc)P(Bc)

Lima Campos.
Solução do exemplo 2.9, item b:
Do enunciado, temos que:

P(A|B) = 8/11, P(B) = 4/12,
P(A|Bc) = 7/11 e P(Bc) = 8/12.
Assim:
P(A) = 2/3.
Lima Campos.
Exemplo 2.10 - A empresa X lança um
serviço inédito de envio de mensagens
pelo celular. Ela calcula que este novo
serviço gera lucro no primeiro ano com
probabilidade 0,6, caso o concorrente
não introduza um serviço semelhante.
Caso contrário, a probabilidade de lucro
é 0,3. Suponha ainda que exista 50% de
chances de que o concorrente introduza
um serviço semelhante naquele ano.
Este é um padrão de problema clássico de
probabilidade, cujas variantes costumam
ser cobradas em provas de concurso. Para
solucioná-lo, é fundamental identificar:
- os eventos e as probabilidades de interesse

- os probabilidades fornecidas no enunciado
(deve ter bastante cuidado com este último
ponto, a maior fonte de erro nestas questões!)
Lima Campos.
a) Qual a probabilidade de que o concorrente
introduza o serviço e que, mesmo assim, ele
seja lucrativo para a empresa X?
b) Qual a probabilidade de que o serviço

seja lucrativo para a empresa X?
c) Qual a probabilidade de que o serviço

seja lucrativo para a empresa X ou o
concorrente introduza o serviço?
Solução:
Os eventos de interesse são:

A: ´serviço é lucrativo p/ a empresa X`
B: ćoncorrente introduz serviço semelhante`.
São fornecidas no enunciado

as seguintes probabilidades:
P(A|B) = 0,3; P(A|Bc) = 0,6 e P(B) = 0,5.

a) Pela Lei da Multiplicação, temos que:
P(AB) = P(A|B)P(B) = 0,3*0,5 = 0,15.
b) Pela Lei da Probabilidade Total:

= 0,3*0,5 + 0,6*0,5 = 0,45.
c) Pela Lei da Adição:

P(AB) = P(A) + P(B) – P(AB)
= 0,45 + 0,5 – 0,15 = 0,8.
Exemplo 2.11 - 2 máquinas (M1 e M2) são
usadas para fabricar o mesmo tipo de item.
Suponha que:
60% dos itens tenham sido fabricados por M1,
40% dos itens tenham sido fabricados por M2,
e que:
1% dos itens fabricados por M1 têm defeito,
2% dos itens fabricados por M2 têm defeito.
Lima Campos.
Um item é selecionado aleatoriamente.
a) Qual a probabilidade de
que ele seja defeituoso?

Lima Campos.
Sejam A = ´ser defeituoso` e
B = ´ter sido produzido por M1`.

P(B) = 0,6, P(Bc) = 0,4,
P(A|B) = 0,01 e P(A|Bc) = 0,02.
Lima Campos.
Solução do item a:
Pede-se P(A)
Aplicando a Lei da Probabilidade Total:

= 0,01*0,6 + 0,02*0,4 = 0,014.
Lima Campos.
b) Se (= dado que) o item selecionado
é defeituoso, qual a probabilidade de
que ele tenha sido produzido por M1?

Lima Campos.
Solução do item b: pede-se P(B|A), que
pode ser obtida da seguinte forma:
P(B|A) = P(AB)/P(A)
= P(A|B)P(B)/P(A)
= 0,01*0,6/0,014 = 0,429.
A fórmula acima, que permite obter P(B|A) a

partir de P(A|B) é chamada Teorema de Bayes.
Lima Campos.
Teorema de Bayes
Sejam A e B eventos definidos em S, sendo

A dependente de B, na sequência: B  A.
O Teorema de Bayes (p/ 2 eventos) se ocupa
da sequência reversa: A  B, fornecendo:
obtida
P(A | B)P(B)
P( B | A)  . pela Lei da
Probabilidade
P( A) Total
Lima Campos.
Exemplo 2.12 - Um candidato que fez
o curso DSc tem probabilidade 0,9 de
ser aprovado na prova do BNDES.
Caso contrário, esta probabilidade é 0,3.
70% dos candidatos foram alunos do DSc.
a) Calcule a probabilidade de que um candidato

selecionado ao acaso passe para o BNDES.
b) Se um aluno passou para o BNDES, qual a
probabilidade de que tenha cursado o DSc?
A = ´passar no concurso`
B = ´ter cursado o DSc`.

P(A|B) = 0,9, P(A|Bc) = 0,3 e P(B) = 0,7.

Lima Campos.
Solução do Item a:
Pede-se P(A).
Aplicando a Lei da Probabilidade Total:

= 0,9*0,7 + 0,3*0,3 = 0,72.
Lima Campos.
Solução do Item b:
Pede-se P(B|A)
P(B|A) = P(A|B)P(B)/P(A)
= 0,9*0,7/0,72 = 0,875.
O Teorema de Bayes pode ser ampliado

para mais de 2 eventos, fazendo, por
exemplo: B1, B2 e B3, ao invés de B e Bc.
Lima Campos.
• Teorema de Bayes para 3 Eventos
Exemplo 2.13 - Os funcionários de uma

empresa dividem-se em 3 grupos: economistas,
engenheiros e analistas de sistemas. Estes
funcionários podem ocupar cargos técnicos ou
gerenciais. Sabemos que 20% dos funcionários
são analistas de sistemas, 30% são engenheiros
e 50% são economistas. 1% dos analistas
de sistemas, 2% dos engenheiros e 3% dos
economistas fazem parte da direção da empresa.
Um funcionário é selecionado aleatoriamente.
a) Qual a probabilidade de que ele

seja um dos diretores da empresa?
b) Dado que ele é um dos diretores, qual a

probabilidade de que seja engenheiro?
A = ser diretor da empresa
B1 = ser analista
B2 = ser engenheiro
B3 = ser economista.

P(B1) = 0,2, P(B2) = 0,3, P(B3) = 0,5,

P(A|B1) = 0,01, P(A|B2) = 0,02, P(A|B3) = 0,03.
Solução do Item a - Ampliando a Lei
da Probabilidade Total para 3 eventos:
P(A) = P(A|B1)P(B1) + P(A|B2)P(B2) +

P(A| B3)P(B3) = 0,01*0,2 + 0,02*0,3 +
0,03*0,5 = 0,002 + 0,006 + 0,015 = 0,023.
Solução do Item b:
P(B2|A) = P(A|B2)P(B2)/P(A)
= 0,02*0,3/0,023 = 0,2609.
Lei da Adição para 3 Eventos:
P(ABC) = P(A) + P(B) + P(C) -
P(AB) - P(AC) - P(BC) + P(ABC).
Lei da Adição para 4 Eventos:

P(ABCD) = P(A) + P(B) + P(C)
- P(AB) - P(AC) - P(AD) - P(BC) -
P(BD) - P(CD) + P(ABC) + P(ABD)
+ P(ACD) + P(BCD) - P(ABCD).
• Independência para 3 Eventos
3 eventos A, B e C são
independentes se, e somente se:
P(ABC) = P(A)P(B)P(C),
P(AB) = P(A)P(B),
P(AC) = P(A)P(C),
e
P(BC) = P(B)P(C).
3. VARIÁVEIS
ALEATÓRIAS
Variável Aleatória (V.A.)
Uma variável aleatória (v.a.) é uma

representação numérica dos resultados
possíveis de um experimento aleatório.
Exemplo 3.1 - Seja o experimento

do exemplo 2.3 (lançar três moedas
e observar o número de caras). A v.a.
adequada é: X = número de caras observadas.
S (espaço amostral): Valores de X:
(CO,CO,CO) 0
(CA,CO,CO)
(CO,CA,CO) 1
(CO,CO,CA)
(CA,CA,CO) 2
(CA,CO,CA)
(CO,CA,CA) 3
(CA,CA,CA)
• V.A.`s Discretas x Contínuas
A v.a. do exemplo anterior assume

valores que são contáveis (0, 1, 2 e 3).
Este tipo de v.a. é chamada discreta.
Uma v.a. que assuma valores em um

intervalo contínuo é chamada contínua.
Distribuição de
Probabilidade Discreta
É uma função P(X=x) que associa,
a cada valor possível x de uma v.a.
discreta X, a sua probabilidade.
Propriedades de uma distribuição discreta:

1) P(X  x )  0, x
2)  P(X  x )  1
x
Exemplo 3.2 - Na situação do exemplo 3.1,
qual a distribuição de probabilidade de X?
Solução - a distribuição de probabilidade de X é:
x P(X=x)
0 1/8
1 3/8
2 3/8
3 1/8
Distribuição de Probabilidade
Contínua (Função de Densidade)
Uma distribuição contínua f(x) é
uma função que permite calcular
a probabilidade de que uma v.a.
contínua pertença a um intervalo.
P(aXb) é a área sob o gráfico de f(x)

que corresponde ao intervalo [a,b].
Exemplo 3.3 - Seja X = peso de um
carregamento em Kg, com distribuição:
O cálculo desta área
f(x) envolve uma integral:
8.000
 f ( x )dx
6.000
x
A figura mostra: P(6.000X8.000).
Propriedades de uma função de densidade:
1) f(x)  0, para todo x.

2) A área total sob o gráfico é igual a 1.
3) P(X=x) = 0, para todo x.
Exemplo 3.4 - Seja X uma v.a.
contínua com a seguinte distribuição:
f(x) = cx2, 0<x<2.
a) Qual o valor da constante c?

Você tem que igualar a integral a 1.
b) Calcule P(X>1).
R: a) 3/8 b) 7/8.
Valor Esperado
O valor esperado de uma v.a. X, E(X),

é a média dos valores que X assumiria
em infinitas repetições do experimento.
Fórmula para o caso discreto:

E(X)   xP (X  x ).
x
Exemplo 3.5 - Considere a distribuição:
P(X=0) = 1/2
P(X=1) = 1/3
P(X=2) = 1/6.
Calcule o valor esperado de X.
Solução:
E(X) = 0*1/2 + 1*1/3 + 2*1/6 = 2/3.
Observações:
1 - E(X) é também chamado média de X.
2 - E(X) não é um valor que se espera que

ocorra, podendo ser (e em geral é) um
valor que não ocorre, como neste caso!
3 - E(X) pode ser interpretado como o

ponto de equilíbrio da distribuição, em
que as probabilidades são os pesos.
Fórmula do valor esperado
para o caso contínuo:
E(X)   x f (x)dx.
Exemplo 3.6 - Calcule E(X),
sendo X a v.a. definida no exemplo 3.4.
f(x)
2
3 2
E(X)   x x dx 
0 8
2 4 2
3 3 3x 3
 x dx   .
80 8 4 0
2
• Mediana de uma V.A.
É o valor que divide a distribuição em 2

intervalos com probabilidades iguais (0,5).
No caso contínuo, divide f(x) em 2 áreas iguais.
• Moda de uma V.A.
No caso discreto, é o valor que ocorre com

maior probabilidade. No caso contínuo, é o
valor x que faz com que f(x) seja máxima.
Exercício 3.1 - Determine a moda das
distribuições dos exemplos 3.4 e 3.5.
Exercício 3.2 - Calcule a mediana
da v.a. definida no exemplo 3.6.
Solução:
k3 2 3k 2
 x dx  0,5   x dx  0,5 
08 80
3
k
 0,5  k  4  k  4.
3 3
8
Variância de uma V.A.
A variância de uma v.a. X é o

valor esperado de [X-E(X)]2.
Exemplo 3.7 - Calcule V(X),

R : V(X)  [ x  E(X)] P(X  x)  5 / 9.

2
x
A variância pode ser
calculada da seguinte forma equivalente:
V(X) = E(X2) - E2(X)
Sendo:
E(X )   x P(X  x ), no caso discreto
2 2
e
E(X )   x f(x) dx, no caso contínuo.
2 2
Exemplo 3.7 (cont.) - Recalcule V(X),
usando a forma equivalente do slide anterior.
Solução:
E(X2) = 02*1/2 + 12*1/3 + 22*1/6 = 1.
V(X) = E(X2) - E2(X) = 1-(2/3)2 = 1 - 4/9 = 5/9.

Exemplo 3.8 - Calcule V(X),
2 f(x)
3 2
E(X )   x x dx 
2 2
0 8
5 2
32 4 3x 12
 x dx   .
80 8 5 0
5
2
12  3  3
V(X)  E(X )  E (X)      .
2 2
5 2 20
• Desvio Padrão de uma V.A.
É a raiz quadrada de V(X):
DP(X)  V(X)
• Coeficiente de Variação de uma V.A.
DP(X)
CV(X)  .
E ( X)
• Algumas Propriedades Importantes
do Valor Esperado e da Variância
(1) Se b é uma constante, e Y = b:

E(Y) = b e V(Y) = 0.
(2) Se a é uma constante, e Y = aX:

E(Y) = aE(X) e V(Y) = a2V(X).
(3) Se a e b são constantes, e Y = aX + b:

E(Y) = aE(X) + b e V(Y) = a2V(X).
Exemplo 3.9 - Seja um produto importado
cujo preço, em dólares, apresenta, ao longo
de um período, média 80 e desvio padrão 8.
a) Se a taxa de câmbio for 2 R$/Dólar,

calcule o valor esperado, a variância,
o desvio padrão e o CV do preço em R$.
b) Se o preço do produto aumenta 10 dólares,

calcule a média, a variância, o desvio padrão
e o CV do preço (em dólares), após o aumento.
Solução do item a:
a) Seja X o preço do produto em dólares.

Então: E(X) = 80, DP(X) = 8 e V(X) = 64.
Seja Y o preço do produto em R$.
Então: Y = 2X. Logo, E(Y) = 2E(X) =

R$ 160, V(Y) = 22V(X) = 4*64 = 256 R$2,
DP(Y) = R$ 16 e CV(Y) = 16/160 = 0,1 = 10%.
Solução do item b:
b) Seja Z o preço em dólares após o

aumento. Então: Z = X + 10.
Logo, E(Z) = E(X) + 10 = 90 dólares,

V(Z) = V(X) = 64 dólares2, DP(Z) =
8 dólares e CV(Z) = 8/90 = 8,88%.
• Padronizando uma V.A.
Seja X uma v.a. tal que E(X) =  e

V(X) = 2. Seja Z = (X-)/. Então:
E(Z) = 0 e V(Z) = 1.
Isto se chama padronizar a v.a. X (ou seja,

transformá-la em uma nova v.a., chamada
de Z, que possui média zero e variância 1).
Função de Distribuição
Acumulada (F.D.A.)
Função F(x) que associa, a cada valor

x, a probabilidade de que X seja
menor ou igual a x, isto é: P(Xx).
Exemplo 3.10 - Ache a f.d.a. da distribuição

do exemplo 3.5 (relembrando a distribuição:
P(X=0) = 1/2, P(X=1) = 1/3, P(X=2) = 1/6).
Solução:
Para x < 0, F(x) = 0.
Para 0  x < 1, F(x) = 1/2.
Para 1  x < 2, F(x) = 1/2 + 1/3 = 5/6.
Para x  2, F(x) = 1/2 + 1/3 + 1/6 = 1.

Exemplo 3.11 - Considere a distribuição de
probabilidade: f(x) = 2x, 0<x<1. Ache F(x).
Solução:
Para x < 0, F(x) = 0.
Para 0  x < 1:
x x
F( x )  P(X  x )   f ( x )dx   2xdx  x .
2
0 0
Para x  1, F(x) = 1.
Propriedades da F.D.A.:
1. Lim F(x)  0 e Lim F(x)  1.
x  x 
2. No caso discreto, F(x) é contínua à

direita. No caso contínuo, é contínua.
3. No caso contínuo, é possível, a partir
da f.d.a., obter a função de densidade f(x)
original, derivando F(x) com respeito a x:
dF( x )
f (x)  .
dx
• Covariância e Correlação entre 2 V.A.`s
A covariância entre duas variáveis
aleatórias X e Y é definida como:
Cov(X, Y)  E[( X  E(X))( Y  E(Y))],
ou ainda : E(XY )  E(X)E(Y).
E o coeficiente de correlação é:
Cov(X, Y)
Corr (X, Y)  XY  .
V( X) V( Y)
Obs - lembre-se que correlação zero não
necessariamente implica em independência!
A correlação só mede dependência do tipo

linear, conforme foi estudado no capítulo 1.
Porém, independência  correlação zero.

A única situação em que correlação zero
implica em independência é aquela em que
as variáveis seguem uma distribuição de
probabilidade chamada Normal bivariada.
Obs - valor esperado do produto.
Se Cov(X,Y) = 0:
E(XY) –E(X)E(Y) =0
E(XY) = E(X)E(Y).
Assim, esta igualdade só vale se X e Y são

descorrelacionadas. Note então que, se X e
Y são independentes, a igualdade acima é
válida, entretanto a volta não é verdadeira!
Esta relação também vale para potências de
X e Y. Isto é, se X e Y são independentes:
E(X2Y2) = E(X2)E(Y2)
E(XY2) = E(X)E(Y2)
E(X2Y) = E(X2)E(Y)
E(X3Y3) = E(X3)E(Y3)
Etc.
• Combinações Lineares de V.A.`s
Uma combinação linear de v.a.`s é uma

nova v.a. C definida da seguinte forma:
n
C   a i Xi .
i 1
pesos da combinação linear.

Valor esperado e variância para n = 2
(ou seja, para C = aX+bY):
Valor Esperado:
E(C) = aE(X) + bE(Y).
Variância (supondo XY = 0):
V(C)  a V(X)  b V(Y).

2 2
Exemplo 3.12 - O lucro diário L de uma
corretora (em milhões de R$) é L = 2L1+3L2,
em que L1, o lucro da área industrial, é
uma v.a. com média 5 e variância 16, e
L2, o lucro da área comercial, é outra v.a.
com média e variância iguais a 4. L1 e L2
são independentes. O valor esperado, a
variância e o desvio padrão de L são:
E(L) = 2E(L1) + 3E(L2) = 22 milhões de R$.

V(L) = (2)2V(L1) + (3)2V(L2) = 4*16 + 9*4 =
64 + 36 = 100  DP(L) = 10 milhões de R$.
Casos particulares importantes -
se X e Y são v.a.`s descorrelacionadas:
E(X+Y) = E(X) + E(Y)
V(X+Y) = V(X) + V(Y)
E(X-Y) = E(X) – E(Y) atenção!
V(X-Y) = V(X) + V(Y)

E se X e Y forem correlacionadas?
Neste caso, a fórmula da variância torna-se:
V(C)  a V(X)  b V(Y)  2abCov(X, Y).

2 2
Propriedades da Covariância
(a, b, c e d constantes)
P.1) Cov(X,X) = V(X).

P.2) Cov(aX+b,cY+d) = acCov(X,Y).
P.3) Distributiva: Cov(aX+bY,cZ+dW)

= Cov(aX,cZ) + Cov(aX,dW) +
Cov(bY,cZ) + Cov(bY,dW).
4. DISTRIBUIÇOES
DISCRETAS
• Distribuição Uniforme Discreta
É a distribuição discreta mais simples
possível. Considera que todos os valores
de X possuem a mesma probabilidade:
1
P(X  x )  , x  1, 2, ..., k.
k
Exemplo 4.1 - No lançamento de um dado,

a v.a. que representa a face voltada para
cima segue distribuição uniforme discreta.
• Distribuição de Bernoulli
Experimento de Bernoulli é um
experimento aleatório que possui
apenas dois resultados possíveis.
Exemplos:
4.2 - Lançar uma moeda e
observar a face voltada para cima.
4.3 - Observar se um atirador acerta o alvo.
Um dos resultados é chamado
“sucesso”, e o outro, “fracasso”.
A probabilidade de sucesso
é designada por p.
Como consequência, a
probabilidade de fracasso é 1-p.
.
Seja agora uma v.a. X que assume valor
0, se ocorre um fracasso, e 1, se ocorre
um sucesso. A distribuição desta v.a. é:
x P(X=x)
0 1-p
1 p
A distribuição acima é chamada

distribuição de Bernoulli.
• Distribuição Binomial
Sejam agora n realizações independentes

de experimentos de Bernoulli com a
mesma probabilidade de sucesso p.
Considere que estejamos interessados

no número de sucessos observados.
Exemplo 4.4 - Ao lançar 3 moedas, qual
a probabilidade de obtermos 2 caras?
Façamos:
{CA} = sucesso e {CO} = fracasso.
Neste problema, a v.a. X de interesse

representa o número de sucessos (caras).
A v.a. que representa o número de
sucessos em n realizações independentes
de experimentos de Bernoulli, todos com a
mesma probabilidade de sucesso p, segue
uma distribuição chamada binomial.
n (número de realizações) e p
(probabilidade de sucesso) são
os parâmetros da distribuição.
Fórmula da Distribuição Binomial:
 n  p x (1  p) n  x
P(X  x)    , x  0,1,..., n; 0  p  1.
x
probabilidade de
n! obter x sucessos
 . em n realizações
x!(n  x )!
independentes
Notação usual: X ~ Bin(n,p).
(“~” significa “segue distribuição”)
Solução do Exemplo 4.4:
A v.a. de interesse é: X = número de caras.
X ~ Bin(3,1/2). Pede-se P(X=2).
 3  1 
2 1
1 3
P(X  2)        .
 2  2  2 8
Exemplo 4.5 - Qual a probabilidade de
que um atirador acerte o alvo 3 vezes em 5
tentativas, se a probabilidade dele acertar
um tiro em uma tentativa qualquer é 2/3?
Solução:
A v.a. de interesse é:
X = número de acertos.
Se considerarmos que as tentativas são
independentes, então: X ~ Bin(5,2/3).
Daí:
 5  2 
3 2
1
P(X  3)        0,3292.
 3  3   3
Valor Esperado e Variância da Binomial:
E(X) = np
V(X) = np(1-p)
Exemplo 4.5 (cont.) - Calcule o valor

esperado do número de acertos do atirador.
Exemplo 4.6 - Considere um exame com
20 questões de múltipla escolha, cada uma
com 5 alternativas. Se um aluno que não
estudou nada resolve “chutar” todas as
respostas, qual é a probabilidade de que
acerte 30% da prova (isto é, 6 questões)?
Solução:
A v.a. de interesse é: X = número de acertos.
Logo: X ~ Bin(20;0,2). Daí:
 20 
P(X  6)   0,2 0,8  0,1091.
6 14
6
Qual o valor esperado do número

de questões que o aluno acerta?
• Distribuição Hipergeométrica
Exemplo 4.7 - Considere 4 extrações sem

reposição de bolinhas, de uma urna que
contém 8 bolinhas azuis e 5 vermelhas.
Calcule a probabilidade de que 3 sejam azuis.

Em princípio, poderíamos pensar na
extração de cada bolinha como um
experimento de Bernoulli, e a v.a. X de
interesse (número de bolinhas azuis na
amostra) seguindo distribuição binomial.
Pergunta: o que nos impede de fazer isto?

Resposta:
A amostragem é sem reposição, o que faz

com que sucessivas extrações sejam
dependentes e as probabilidades de
sucesso mudem a cada extração.
De forma geral, considere uma população
(no exemplo, urna) com N elementos
(no exemplo, bolinhas), dentre os quais
temos r sucessos (no exemplo, ser azul).
Seja então uma amostra de

tamanho n, obtida sem reposição.
Qual é a probabilidade de que tenhamos

exatamente x sucessos nesta amostra?
A distribuição da v.a. que representa o
número de sucessos na amostra chama-
se hipergeométrica, c/ parâmetros N, r e n.
Para obter a fórmula da distribuição

hipergeométrica é só fazer: P(A) = #A/#S
(casos favoráveis sobre casos possíveis).
O número de casos possíveis é o número
total de amostras de tamanho n que
podemos obter da população, ou seja:
 N
 .
n
O número de casos favoráveis é dado
pelo número de formas de extrair x
sucessos dentre os r possíveis e (n-x)
fracassos dentre os N-r possíveis:
 r  N  r 
  .
 x  n  x 
Fórmula da Distribuição Hipergeométrica:
 r  N  r 
  
 x  n  x 
P(X  x )  .
 N
 
n
probabilidade de que ocorram x sucessos, em
uma amostra sem reposição de tamanho n
Notação usual: X ~ Hiper(N,r,n).

Solução do exemplo 4.7:
Seja X o número de bolinhas azuis

na amostra de tamanho 4. Então:
 8 13  8   8  5 
     
 3  4  3   3  1 
P(X  3)    0,3916.
13  13 
   
4 4
Exemplo 4.8
Considere um lote de 10 peças, das quais

4 são defeituosas. Se extrairmos 5 peças,
sem reposição, qual a probabilidade de
que 2 sejam defeituosas?
Solução:
Seja X o número de peças defeituosas

na amostra de tamanho 5. Então:
 4  6 
  
P(X  2)   2  3 
 0,4762.
10 
 
5
Valor Esperado e Variância
da Hipergeométrica:
r
E( X )  n
N
 r  r  N  n 
V(X)  n  1   
 N  N  N  1 
• Aproximação da
Hipergeométrica pela Binomial
Se N é muito maior do que n (N  20n),

a distribuição hipergeométrica pode ser
aproximada pela distribuição binomial
(cujas probabilidades são mais simples
de calcular), com parâmetros n e p = r/N.
Exemplo 4.9 - Em uma eleição, suponha
que 300 dos 1000 habitantes de um
município são eleitores de um candidato
A. Toma-se uma amostra de 10 eleitores.
Qual a probabilidade de que exatamente 5

deles pretendam votar no candidato A?
Solução: A probabilidade exata seria
calculada da seguinte forma:
 300  700 
  
P(X  5)   5  5 
.
1000 
 
 10 
Note que as combinações envolvidas

são bastante chatas de se calcular...
A probabilidade aproximada pode ser
calculada utilizando a distribuição
binomial, com n = 10 e p = 300/1000 = 0,3.
10 
P(X  5)   (0,3) (0,7)  0,1029.
5 5
5
Compare com o resultado exato

(calculado no Excel: 0,1026)
• Distribuição Geométrica
Considere, como na definição da

Binomial, realizações independentes
de experimentos de Bernoulli, todos
com mesma probabilidade de sucesso p.
A v.a. que representa o número de

realizações necessárias até que ocorra o
primeiro sucesso segue uma distribuição
chamada geométrica, com parâmetro p.
Fórmula da Distribuição Geométrica:
x 1
P(X  x)  (1  p) p, x  1,2,...; 0  p  1.
probabilidade de que o primeiro sucesso

venha a ocorrer na x-ésima realização.
Parâmetro: p.
Notação: X ~ Geom(p).
Exemplo 4.10 - A probabilidade de um
indivíduo acertar um alvo é 2/3. Se ele
deve atirar até que acerte o alvo pela
primeira vez, qual a probabilidade de
que sejam necessários exatamente 5 tiros?
Solução: Seja X o número de tiros até o

primeiro acerto. Então: X ~ Geom(2/3).
4
 2 2
P(X  5)  1      0,0082.
 3 3
Valor Esperado e Variância da Geométrica:
E(X) = 1/p
V(X) = (1-p)/p2
No exemplo 4.10, qual o número de tiros

esperado até que ocorra o primeiro acerto?
Exercício (Resolvido) 4.1 - Um jogador
converte 10% dos pênaltis que cobra.
a) Qual a probabilidade de que ele acerte

apenas uma cobrança em 5 tentativas?
b) Qual a probabilidade de que ele precise

bater 5 pênaltis até acertar o primeiro?
Solução:
a) Seja X o número de pênaltis

que o jogador acerta. Então:
X ~ Bin(5;0,1).
Pede-se P(X=1).
 5
P(X  1)   (0,1) (0,9)  0,32805.
1 4
1
b) Seja X o número de cobranças até que
o jogador acerte a primeira. Então:
X ~ Geom(0,1).
Pede-se:
P(X  5)  (0,9) (0,1)  0,06561.

4
• Relações entre a Geométrica e a Binomial
Se X ~ Geom(p) e Y ~ Bin(n,p), então:
1) P(Y=1) = n*P(X=n)
2) P(X>n) = P(Y = 0)
• Distribuição Binomial Negativa
Considere novamente realizações
independentes de experimentos de
Bernoulli com probabilidade de sucesso p.
A v.a. que representa o número de realizações
necessárias até que ocorra o r-ésimo sucesso
(r = 1, 2, ...) segue uma distribuição chamada
binomial negativa, com parâmetros r e p.
Se r = 1, caímos na distribuição
geométrica (caso particular).
• Distribuição de Poisson
Seja  a taxa de ocorrência de um evento

por unidade de tempo ou de espaço. Por
exemplo, acidentes/hora em uma estrada.
A distribuição da v.a. que representa

o número de ocorrências de um evento
com taxa , no intervalo correspondente,
chama-se Poisson, com parâmetro .
Fórmula da Distribuição de Poisson:
x 
e
P( X  x )  , x  0,1,...;   0.
x!
probabilidade de que ocorram x eventos, em um

intervalo no qual ocorrem, em média,  eventos
Parâmetro: .
Notação usual: X ~ Poi().
Valor Esperado e Variância da Poisson:
E(X) = 
V(X) = 
A Poisson é a única distribuição na qual

a média e a variância são sempre iguais!
Exemplo 4.11 - Em determinada rodovia,
ocorrem, em média, 3 acidentes por hora.
Supondo distribuição de Poisson,

calcule as seguintes probabilidades:
a) De que ocorram 2 acidentes em uma hora.
b) De que ocorram pelo menos 2 acidentes

em 20 minutos (20 minutos = 1/3 de hora).
Solução:
32 e 3 3
a ) P(X  2)   4,5e .
2!
b) Aqui deve - se converter o  para o período de

20 minutos ( 1/3 de hora)  se ocorrem, em média,
3 acidentes em uma hora, então ocorre em média 1 a
cada 20 minutos. Assim, o  para 20 minutos é 1, e :
1
P(X  2)  1  [P(X  0)  P(X  1)]  1  2e .
• Aproximação da Binomial pela Poisson
Se n for grande e p for pequeno, o

número de sucessos em n realizações
independentes de experimentos de
Bernoulli pode ser aproximado
pela distribuição de Poisson, com =np.
Exemplo 4.12 - Uma companhia de
seguros de automóveis descobriu que
somente cerca de 0,005% da população
está incluída em um certo tipo de sinistro
cada ano. Se seus 20.000 segurados são
escolhidos ao acaso na população, qual
é a probabilidade aproximada de que 3
clientes venham a ser incluídos nesta
categoria de sinistro no próximo ano?
Solução:
Pede-se P(X=3), sendo:

X ~ Bin(20.000;0,00005).
A solução aproximada pode ser obtida de

forma bem mais simples (verifique) pela
Poisson, usando  = 20.000*0,00005 = 1.
5. DISTRIBUIÇOES
CONTÍNUAS
• Distribuição Uniforme Contínua
É a distribuição contínua
mais simples que existe.
Pressupõe que as probabilidades estejam

distribuídas de maneira uniforme pelo
intervalo de variação de X (de  a ).
Fórmula da Uniforme:
f(x) = 1/(-), <x<.
Parâmetros:  e .
Notação: X ~ Unif(,).
Cálculo de Probabilidades
Utilizando a Uniforme:
P(aXb) = (b-a)/(-)
Valor Esperado e Variância da Uniforme:
E(X) = (+)/2
V(X) = (-)2/12
Exemplo 5.1 - As notas de uma turma
apresentam média 5 e variância 3. A
nota mínima para aprovação é 7.
Supondo distribuição uniforme, calcule

a probabilidade de um aluno ser aprovado.
R: 1/6.
• Distribuição Exponencial
Distribuição definida para valores de X

estritamente positivos, usual para
representar tempo (duração, espera, etc.).
Fórmula da Exponencial:
f (x)  e , x  0;   0.
 x
Parâmetro: .
Notação: X ~ Expo().
Valor Esperado e Variância:
E(X) = 1/
V(X) = 1/2
Função Distribuição
Acumulada da Exponencial:
F(x) = P(Xx) = 0, x0

= 1-e-x, x>0.
Demonstração:
Para x0, F(x) = P(Xx) = 0.
Para x>0:
x
F( x )  P(X  x )   e dx  x
0
x
1 e  x
  e dx  
 x
1 e .  x
0 
Exemplo 5.2 - O tempo de espera em
uma fila segue distribuição exponencial.
Se um cliente espera, em média, 10 minutos
para ser atendido, qual a probabilidade:
a) De que demore menos do que 12 minutos
para ele ser atendido? R: 1-e-1,2.
b) De que demore menos do que 7 minutos
para ele ser atendido? R: 1-e-0,7.
c) E entre 7 e 12 minutos? R: e-0,7-e-1,2.
d) De que ele espere mais do que 10 minutos
(isto é, mais do que a média E(X))? R: e-1.
• Falta de Memória
É uma importantíssima propriedade

da distribuição exponencial. Ela diz que:
P(X>x+s|X>x) = P(X>s).
Interpretação: se uma lâmpada já durou x
horas, a probabilidade dela durar mais s
horas a partir dali é a mesma que ela teria
de durar s horas a partir da sua fabricação.
Em outras palavras, não há desgaste.
Isto é considerado uma crítica ao uso da

exponencial para este tipo de aplicação.
Demonstração:
P(X>x+s|X>x) =
P[(X>x+s)(X>x)]/P(X>x) =
P(X>x+s)/P(X>x) =
e-(x+s)/e-x = e-s
= P(X>s), C.Q.D.
• Relação entre a Exponencial e a Poisson
Se o número X de ocorrências de um
evento por unidade de tempo segue
distribuição de Poisson com parâmetro :
X ~ Poisson (),
então o intervalo de tempo T (medido
na mesma unidade de tempo) entre duas
ocorrências sucessivas segue distribuição
exponencial com parâmetro , ou seja:
T ~ Expo().
Exemplo 5.3 - O número de navios que
chega a um porto cujo estaleiro comporta
4 navios segue distribuição de Poisson.
A cada 24 horas, aportam, em média, 12
navios. Com base nestes dados, calcule:
a) A probabilidade de que, no intervalo de
uma hora, nenhum navio venha a aportar.
b) A probabilidade de que o tempo decorrido
entre dois navios seja superior a uma hora.
R: a) e-0,5 b) e-0,5.
• Distribuição Normal
( x  ) 2
1 
f (x)  e 2 2
; x  ;   ,   0.
2
 2
Parâmetros:  (=E(X)) e 2 (=V(X)).
O gráfico da distribuição Normal apresenta

formato similar ao de um sino (bell shaped).
Distribuição Normal para diferentes valores de :
Distribuição Normal para diferentes valores de :

• Cálculo de Probabilidades Normais
Exemplo 5.4 - Considere que as

alturas dos alunos desta turma sigam
distribuição Normal, com média igual
a 170 cm e desvio padrão igual a 5 cm.
Seja o experimento que consiste na

seleção de um aluno qualquer e na
medição de sua altura.
A v.a. que representa o resultado
deste experimento é X ~ N(170,25).
Qual a probabilidade de que a altura

do aluno esteja entre 170 e 172,3 cm?
Em princípio, você calcularia:
altura de um aluno selecionado ao acaso
( x 170) 2
1
172, 3

P(170  X  172,3)   e 50
dx
170 5 2
Problema:
( x  ) 2
1 
A integral de f ( x )  e 2 2
 2
não possui solução analítica!
Para calcular a probabilidade
solicitada, usaremos a tabela Normal.
A tabela Normal fornece probabilidades

associadas a uma v.a. padronizada:
Z = (X-)/,
que possui média zero e variância 1
(como demonstrado no capítulo 3).
P(170  X  172,3) 
 170   X   172,3   
P   
    
 170  170 172,3  170 
P Z 
 5 5 
 P(0  Z  0,46).
P(0 < Z < 0,46) é encontrada na tabela.

Tabela Normal:
Resposta final do item a):
A probabilidade de que a altura de um aluno

selecionado ao acaso esteja entre 170 e
172,3 cm é 0,17724.
b) Qual a probabilidade de que a altura

do aluno esteja entre 170 e 175 cm?
Neste caso:
P(170  X  175) 
 170   X   175   
P   
    
 170  170 175  170 
P Z 
 5 5 
 P(0  Z  1).
Ilustrando na Tabela Normal:
Resposta final do item b): 0,34134.
c) Qual a probabilidade de que a altura

Solução:
Pela simetria da Normal, temos:

P(-1 < Z < 0) = P(0 < Z < 1) = 0,34134.
Ilustração da Simetria da Normal:
P(-1 < Z < 0) P(0 < Z < 1)
P(-1 < Z < 1)

d) Qual a probabilidade de que a altura
Solução: do slide anterior,

P(-1 < Z < 1) = 0,68268.
Esta é a probabilidade de X estar a no máximo

1 desvio padrão de distância da sua média.
Revisitando a figura do capítulo 1, página 8:
99,72%
Considerando =
E(X) e  = DP(X).
e) Qual a probabilidade de que a altura
Solução: P(170 < X < 180) =

P(0 < Z < 2) = 0,47725.
f) E entre 160 e 180 cm?
Solução: P(160 < X < 180) =

P(-2 < Z < 2) = 2*0,47725 = 0,9545.
g) Qual a probabilidade de que a altura do
aluno seja maior do que 170 cm?
Solução: P(X > 170) = P(Z > 0).
A área total sob a curva é igual a 1.
Logo, a resposta é 0,5.
h) E maior do que 175 cm? P(Z > 0)
Solução: P(X > 175) = P(Z > 1) = 0,5 -

P(0 < Z < 1) = 0,5 - 0,34134 = 0,15866.
i) E menor do que 175 cm?
P(Z < 0)
Solução: P(X < 175) = P(Z < 1) = 0,5 +

P(0 < Z < 1) = 0,5 + 0,34134 = 0,84134.
j) E menor do que 165 cm?
Solução: P(X < 165) =

P(Z < -1) = P(Z > 1) = 0,15866.
Exemplo 5.5 - As notas dos alunos de um
vestibular distribuem-se normalmente, com
média 8 e desvio padrão 1. Se a relação
candidato/vaga é de 40 para 1, calcule a nota
mínima para que o aluno seja aprovado.
Obs - será necessário achar *

tal que: P(X > *) = 0,025.
Buscaremos na tabela o valor k tal que:

P(Z > k) = 0,025, denotado por z0,025.
Temos que achar na tabela o valor de k
correspondente à probabilidade 0,475:
k
Assim: z0,025 = 1,96.
Resposta do Exemplo 5.5: 9,96.

Outro valor importante na tabela Normal:
z0,05 = valor de k tal que P(Z > k) = 0,05.
k
Interpolando: z0,05 = 1,645.

Outro valor importante na tabela Normal:
z0,005 = valor de k tal que P(Z > k) = 0,005.
k
?
Interpolando: z0,005 = 2,575.
Resumo - valores importantes
envolvendo a distribuição Normal:
z0,025 = 1,96
z0,05 = 1,645
z0,005 = 2,575.
(serão úteis em intervalos de

confiança e testes de hipóteses)
• Soma de V.A.`s
Exemplo 5.6 - Um elevador suporta

um peso de 500Kg. Podemos estar
interessados na probabilidade do peso
limite ser ultrapassado quando 7
pessoas entram neste elevador.
Neste caso, a v.a. de interesse é:
7
S   Xi ,
peso da
i-ésima pessoa.
i 1
e a probabilidade de interesse é: P(S>500).

• Valor Esperado da Soma de n V.A.`s:
n
E(S)   E(Xi ).
i 1
• Variância da Soma de n
V.A.`s Descorrelacionadas:
n
V(S)   V(Xi ).
i 1
Exemplo 5.6 (cont.) - No exemplo do
elevador, suponha que os pesos das
pessoas tenham média  = 70 e
variância 2 = 100. Neste caso:
n
E(S)   E(X i )  n  7 * 70  490.
i 1
n
V(S)   V(X i )  n  7 *100  700.
2
i 1
• Soma de Normais Independentes
com Médias e Variâncias Iguais
Considere a soma S de n v.a.`s Xi, i =
1,2,...,n, Normais e independentes,
c/ médias  e variâncias 2. Então:
S ~ N(n, n ).2
E agora estamos aptos a calcular a

probabilidade de interesse do exemplo 5.6.
Exemplo 5.6 (cont.)
peso da i-ésima pessoa
7
S   Xi ,
i 1
e queremos P(S>500).
Vimos que S ~ N(490,700). Assim:

500  490
P(S  500)  P( Z  )
700
P( Z  0,38)  0,35197.
Exemplo 5.7 - Uma máquina de café é
calibrada para produzir pacotes com peso
500g. Entretanto, na prática, os pesos reais
dos pacotes produzidos serão v.a.`s.
Suponha que os pesos dos pacotes
produzidos pela máquina sigam
distribuição Normal com média
500 g e variância 16 g2.
a) Qual a probabilidade de que um pacote

qualquer tenha peso maior do que 502 g?
Solução:
peso de um pacote
selecionado ao acaso
P(X  502) 
 X   502   
P  
   
 502  500 
P Z  
 4 
 P( Z  0,5)  0,30854.
Se selecionarmos 100 pacotes (considere
os pesos dos pacotes independentes):
b) Qual a probabilidade de que o peso

total seja maior do que 49,96 Kg?
Solução:
peso total = soma dos pesos
n
S   Xi ~ N(n, n ). 2
i 1
 49.960  50.000 
P(S  49.960)  P Z  
 40 
 PZ  1  P(1  Z  0)  0,5 
P(0  Z  1)  0,5  0,84134.
• Média de V.A.`s
A média de n v.a.`s X1, X2, ..., Xn,

é definida da seguinte forma:
n
 Xi
X i 1
.
n
Note a distinção entre a média de n variáveis

aleatórias e o valor esperado de cada uma delas.
• Média de Normais Independentes
Considere a média X de n v.a.`s Xi,

i = 1,2,...,n, independentes e Normais,
c/ médias  e variâncias 2. Então:
 2
X ~ N(, ).
n
Este resultado será muito útil em estimação,

assunto que será tratado a partir do capítulo 6.
Valor Esperado de x:
1 n 1 n
E( X )  E(  X i )  E( X i ) 
n i1 n i1
1 n 1
 E(X i )  n  .
n i1 n
Variância de x:
2
1 n 1 n
V( X )  V(  X i )    V( X i ) 
n i1  n  i1
1 2 
2
1
2
n
   V(X i )  2 n  .
 n  i1 n n
v.a.`s descorrelacionadas
Exemplo 5.7 (cont.) - c) Qual a
probabilidade do peso médio dos 100
pacotes ser menor do que 500,7 g?
Solução: peso médio = X ~ N(,  ).
2
média dos pesos. n

 500,7  500 
P( X  500,7)  P Z  
 0,4 
PZ  1,75 
0,5  P(0  Z  1,75) 
0,5  0,45994  0,95994.
• Teorema Central do Limite (TCL)
A soma e a média de um número grande de

v.a.`s independentes, quaisquer que sejam as
suas distribuições, é aproximadamente Normal.
6. ESTIMADORES
E INTERVALOS
DE CONFIANÇA
• Estimação Pontual
Exemplo 6.1 - Seja o interesse em obter

alguma informação sobre uma turma grande.
Por exemplo, qual a altura média dos alunos?
Alunos da turma = universo em estudo.

Altura = característica de interesse.
Se o universo em estudo é pequeno, temos
um problema de estatística descritiva. Porém,
se o universo em estudo é amplo, temos um
problema de inferência, no qual, a partir dos
resultados obtidos para um subconjunto do
universo, objetivamos inferir (generalizar,
tirar conclusões) a respeito deste universo.
A seguir são apresentados os 4 conceitos

formais que norteiam a teoria da estimação:
população, parâmetro, amostra e estimador.
População
Define-se população como a

distribuição de probabilidade
considerada adequada para a
característica de interesse.
Uma suposição usual é que a característica de

interesse (no caso, a altura dos alunos) siga
distribuição Normal  população Normal.
Parâmetro
Um parâmetro é uma quantidade fixa

e desconhecida na população, sobre a
qual queremos obter informação.
No exemplo, o parâmetro de interesse é a

altura média dos alunos, ou seja, a média da
distribuição das alturas, que denotamos por .
Considerando que o universo de estudo
é grande o bastante para tornar inviável
observar a característica de interesse
(altura) para todas as unidades (alunos),
seleciona-se um subconjunto de n alunos
e registra-se as alturas de cada um deles.
A seleção de cada aluno, seguida do registro

da sua altura, é um experimento aleatório.
A seleção dos n alunos, então, consiste em
n experimentos aleatórios. O resultado de
cada um destes experimentos pode ser
representado por uma variável aleatória.
Seja então Xi = altura do i-ésimo aluno

selecionado, i = 1, 2, ..., n. Temos assim
um conjunto de v.a.`s: {X1, X2, ..., Xn}.
Amostra
Amostra é um conjunto de v.a.`s: {X1,

X2, ..., Xn} que representa os valores
da característica de interesse para as
n unidades selecionadas do universo.
Se X1, X2, ..., Xn são independentes, temos

uma Amostra Aleatória Simples  AAS.
Estimador
Estimador é uma estatística (função das

v.a.`s da amostra) usada para obter um
valor “plausível” para um parâmetro.
O estimador “natural” para  é:
n
X
o chapéu significa média da
que estamos i amostra
estimando  ˆ  X  i 1
. ou média
amostral
n
• Estimador x Estimativa
Quando substituímos no estimador os
valores observados de X1, X2, ..., Xn,
obtemos uma estimativa do parâmetro.
Exemplo 6.1 (cont.) - Considere a amostra

observada de tamanho 5: x1 = 174, x2 =
186, x3 = 186, x4 = 180 e x5 = 174 cm.
5
 xi
A estimativa de  é: x  i 1
 180.
5
Questão importante:
O que é um bom estimador?
Em linhas gerais, é aquele que tem alta

probabilidade de gerar uma estimativa
próxima ao parâmetro de interesse.
No caso do estimador apresentado, é tal que:
P(    X    )
seja alta, para um  (arbitrário) > 0.
Assim, para avaliar um estimador, devemos

conhecer sua distribuição de probabilidade.
Resultado importante (visto no capítulo 5):
Se a população é Normal, a
distribuição de x é Normal.
Obs - tecnicamente, a distribuição de um

estimador é chamada distribuição amostral.
Estimador Não Viciado
Um estimador não viciado (ou não

tendencioso ou não viesado) é tal que
seu valor esperado é igual ao parâmetro.
Ou seja, um estimador ̂ é não

viciado para um parâmetro  se:
E(ˆ )  .
Resultado importante (visto no capítulo 5):
x é não viciado para .
O vício (ou tendência ou viés) de ̂ é:
B(ˆ )  E(ˆ )  .
Do inglês: bias = vício.
Embora a ausência de vício seja uma
propriedade importante, ela não garante
que um estimador seja adequado.
A variância também é importante, pois

mede a dispersão em torno do parâmetro.
Qual dos estimadores propostos abaixo
parece melhor para estimar o parâmetro ?
distribuiç ão de ˆ 1
distribuiç ão de ˆ 2
-  +
Quanto menor a
variância, maior será:
P(    ˆ    ),
para um  arbitrário, > 0.

• Comparação de Estimadores
Se 2 estimadores são não viciados para

um parâmetro, qual deles é o melhor?
R: o que tiver menor variância.
Este estimador é dito mais eficiente.

Exemplo 6.2 - Seja uma AAS de tamanho 3
de uma população com média  e variância
2, e sejam os seguintes estimadores para :
X1  X 2  X 3
ˆ 1  X 
3
X1  X 3
e ˆ 2  .
2
Qual destes estimadores é mais eficiente?

A razão de variâncias só tem utilidade
para comparar estimadores não viciados.
E quando eles são viciados,
ou um deles é viciado?
Neste caso, a medida adequada de

eficiência não é mais a variância.
Isto porque a variância mede a incerteza do
estimador em torno do seu valor esperado:
ˆ ˆ ˆ
V()  E[  E()] ,
2
e o que queremos é a incerteza em

torno do valor real do parâmetro:
ˆ
E(  ) .
2
Esta medida é chamada erro quadrático

médio, em geral abreviada por EQM.
O erro quadrático médio pode ser escrito
como função da variância e do vício:
ˆ ˆ 2 ˆ
EQM()  V()  B ().
(Para estimadores não viciados,

o EQM e a variância são iguais)
• Erro Padrão
O desvio padrão de um estimador

é denominado erro padrão (EP).
Já foi demonstrado no capítulo 5 que:
2
e assim: EP ( X )  
V( X )  .
n n
• Estimação de 2
O candidato natural para estimar a

variância 2 de uma população seria:
n n
 (X i  X )  X  nX
2 2 2
i
ˆ  i1
2
*  i1 .
n n
Problema:
o valor esperado do estimador acima é
diferente de 2, portanto ele é viciado.
• Estimador Não Viciado para 2
n n
 (X i  X) 2
X 2
i  nX 2
S 
2 i 1
 i 1
.
n 1 n 1
Este estimador é chamado variância amostral.

S  S é chamado desvio padrão amostral.
2
Para grandes amostras, o uso de um ou de
outro estimador não faz muita diferença. Isto
porque o vício do estimador ̂*2 tende a zero
à medida que n aumenta. Tecnicamente, ̂*2
é chamado assintoticamente não viciado.
• Estimador Consistente
Um estimador ̂ é consistente se à
medida que o tamanho n da amostra
aumenta, a distribuição amostral de ̂ vai se
concentrando cada vez mais em torno de .
Exemplo 6.3
X é um estimador consistent e para a média 
de uma população. Este importante resultado
é conhecido como Lei dos Grandes Números.
Um estimador é consistente se ele
satisfaz a uma das seguintes condições:
1) É não viciado e:
Lim V(ˆ )  0.
n 
assintoticamente
não viciado. ou 2) É viciado, mas:
Lim B(ˆ )  0 e Lim V(ˆ )  0.

n  n 
Comportamento de um estimador viciado, mas
consistente, à medida que a amostra aumenta:
f (ˆ )
f (ˆ )
f (ˆ )
f (ˆ )
• Estimação Pontual x Intervalar
O que a estimativa de  permite

concluir acerca do valor real de 
Podemos afirmar que  é

igual à sua estimativa?
R: Não.
Possivelmente haverá o
chamado erro de estimação:
x  .
Este erro não é calculável. Todavia, é possível

obter um intervalo em torno da estimativa no
qual podemos confiar que o parâmetro esteja.
Intervalo de Confiança
Um intervalo de confiança (IC) é um

intervalo numérico, construído a partir
da estimativa pontual, no qual
confiamos que o parâmetro esteja.
O “quanto” confiamos é determinado pelo

grau de confiança, cujos valores usuais são
90%, 95% e 99%, denotados por 100(1-)%.
• IC p/ a Média  de uma População Normal
(considerando  conhecido)
   
IC100(1 )% ()   x  z  ; x  z .
 2 n 2 n 
grau de confiança do IC
(90, 95 ou 99 %).
Esta quantidade é a margem de erro , e

representa o erro máximo que pode estar sendo
cometido, com grau de confiança 100(1-)%.
Valores Importantes da Normal para IC`s
(já obtidos no capítulo 5, exemplo 5.5):
Para o IC de 99% ( = 0,01)  z0,005 = 2,575.
Para o IC de 95% ( = 0,05)  z0,025 = 1,96.
Para o IC de 90% ( = 0,1)  z0,05 = 1,645.

Exemplo 6.4 - Na situação do exemplo
6.1, considere que o desvio padrão das
alturas de toda a turma (populacional)
é  = 6. A altura média na amostra, já
calculada, foi 180. Determine o IC95%().
Solução:
Para um grau de confiança de 95%, o valor

da Normal a ser usado é z   z 0,025  1,96.
2
Substituindo na fórmula do IC, temos:
 6 6 
IC95% ()  180  1,96 ;180  1,96 
 5 5
= [174,74;185,26].
• Grau de Confiança x Probabilidade
Não é correto afirmar que a probabilidade

de que  esteja no IC calculado é 0,95, uma
vez que  não é uma variável aleatória!
O correto é: temos 95% de confiança de

que  esteja no intervalo [174,74;185,26].
Isto está relacionado à interpretação em

amostras repetidas, apresentada a seguir.
Se selecionássemos todas as amostras de
tamanho 5 possíveis da população, e para
cada uma delas calculássemos o IC:
  
IC95% ()  x  1,96 ; x  1,96 ,
 5 5
 estaria em 95% dos intervalos. Por isso,

confiamos que, na amostra específica que
observamos,  esteja no IC calculado.
• Significado de “Confiança”
1 - Sabemos que, se calculássemos o IC

[x  ; x  ] para todas as amostras de
tamanho n possíveis, o parâmetro 
estaria em 95% dos intervalos calculados.
2 - Na prática, temos apenas uma amostra

(aquela que selecionamos pra observar).
3 - Esta amostra pode ser uma das 95%
cujo IC contém o valor de .
4 - Esta amostra também pode ser uma das

5% cujo IC não contém o valor de .
No que você confiaria mais: “3” ou “4”?

5 - Nada mais razoável do que confiarmos
que nossa amostra seja uma daquelas 95%
cujo IC contém .
O grau com que confiamos é o

“grau de confiança”, no caso 95%.
• Como Escolher o Grau de Confiança?
Primeiramente, considere que,

quanto maior o grau de confiança
escolhido, mais amplo será o IC.
Pense nas implicações disto.

Um IC de 99% é bastante confiável, mas
em compensação, pode ser amplo demais,
caso em que não teria utilidade prática.
Um IC de 90% será bem mais estreito,

mas em compensação estamos expostos a
um percentual de erro elevado (1 em 10).
O grau de 95% é um bom “trade-off” entre

as duas situações acima sendo, por esta
razão, adotado com bastante frequência.
• Determinando o Tamanho
de uma Amostra
É comum inverter a fórmula da margem
de erro para obter n como função de .
Assim, a partir da especificação de ,
pode-se calcular o tamanho da amostra
necessário para esta margem de erro:
z 
2

2
n 2
.
 2
Se 2 é desconhecida, a distribuição usada
no IC não é a Normal, e sim a t de Student:
não é mais Normal, e s
t de Student com n-1 graus de liberdade!
• IC p/ a Média  de uma População Normal
(considerando  desconhecido e estimado)
 s s 
IC100(1 )% ()   x  t  ;x  t  .
 n 1;
2 n n 1;
2 n
T é uma v.a. com distribuição

t de Student com n-1 g.l..
t  é o valor k tal que: P(T>k) = /2.

n 1;
2
Exemplo 6.5 - Na situação do exemplo
6.1, considere agora que  é
desconhecido, e estimado a partir da
amostra: x1 = 174, x2 = 186, x3 = 186,
x4 = 180 e x5 = 174 cm. Ache o IC95%().
Solução - obtendo a estimativa de
 a partir da amostra observada:
n
 i
( x  x ) 2
s2  i 1

n 1
(174  180) 2  (186  180) 2  (186  180) 2  (180  180) 2  (174  180) 2
4
 36  s  36  6.
O valor na tabela t deve ser procurado
para 4 graus de liberdade e  = 0,05:
t 4;0,025  2,7764.
Substituindo na fórmula do IC, temos:
 6 4 
IC95% ()  180  2,7764 ;180  2,7764 
 5 5
= [172,55;187,45].
Interpretação: temos 95% de confiança

de que  esteja no intervalo acima.
• IC Aproximado para a Média
de uma População Normal
A distribuição t aproxima-se da Normal à

medida que os graus de liberdade aumentam.
Para 30 ou mais graus de liberdade (n>30),

a distribuição Normal pode ser usada para
obter um IC aproximado para a média,
mesmo se  for desconhecido e estimado.
• Intervalo de Confiança para
uma Proporção (Grandes Amostras)
Seja p uma proporção populacional.
 p̂(1  p̂) p̂(1  p̂) 

IC100(1 )% (p)  p̂  z  ; p̂  z  .
 2 n 2 n 
= , para o caso da estimação de uma proporção.

p̂ é a proporção que foi observada na amostra.
Exemplo 6.6 - São examinadas 70 peças
selecionadas ao acaso de um lote, e
observa-se que 49 são defeituosas.
Construa um IC de 95% para a
proporção de peças defeituosas no lote.
Solução :
 0,7 * 0,3 0,7 * 0,3 

IC95% (p)  0,7  1,96 ;0,7  1,96 
 70 70 
 [0,7  0,1073;0,7  0,1073]  [0,5927;0,8073].
• Intervalo de Confiança para a
Variância de uma População Normal
 
 
2 2
s s
IC100(1α)% (σ )  (n  1) 2 ; (n  1) 2
2
.
 χ α χ  α 
 n 1,
2
n 1, 1  
 2 
valor k 2 na tabela valor k1 na tabela

qui - quadrado tal que : qui - quadrado tal que :
α α
P(X  k 2 )  . P(X  k1 )  .
2 2
Exemplo 6.7 - Uma amostra de 30 alunos
de uma universidade apresenta variância
amostral das notas: s2 = 132,7.
Supondo que a população é Normal,
construa um IC de 95% para 2.
Solução - os valores da qui-quadrado são:

χ 2
29;0,975  16 e χ 2
29;0,025  45,7.
 132,7 132,7 
IC95% (σ )  29
2
;29   [84,21;240 ,52].
 45,7 16 
7. TESTES DE
HIPÓTESES
• Testes de Hipóteses
Uma hipótese estatística é uma afirmação

a respeito de um parâmetro da população.
Exemplo 7.1 - No exemplo das alturas dos

alunos (6.1), podemos formular a seguinte
hipótese: “ (que é a altura média dos
alunos da turma inteira) é igual a 175 cm”.
Esta hipótese de igualdade é chamada
hipótese nula, e representada por H0.
Ela será investigada a partir da amostra.

Se a amostra fornece evidência contra
H0, então rejeitamos esta hipótese.
Neste caso, aceitamos uma hipótese

alternativa, representada por H1.
H1 contradiz o que se afirma em H0.

No exemplo, teríamos H1:   175.
Caso contrário, se a amostra não fornece
evidência contra H0, não rejeitamos H0.
Obs - embora não seja rigorosamente correto,

algumas vezes “aceitar H0” é empregado.
Veremos que um teste não fornece evidência

estatística que leve a aceitar a hipótese nula.
Em provas da banca Cesgranrio, “aceitar

H0” tem sido tomado como correto.
Em resumo, diante das hipóteses:
H0:  = 175 (hipótese nula)
e
H1:   175 (hipótese alternativa),
tomamos uma das seguintes decisões:

não rejeitar H0
ou
rejeitar H0 (e, neste caso, aceitar H1).
Embora o ponto de partida seja a
hipótese nula, é a hipótese alternativa
que um teste permite evidenciar (ou não).
É ela, portanto, que queremos tentar

comprovar, quando formulamos um teste.
• Analogia com um Julgamento
Em nosso sistema judiciário, um júri

só decide condenar um réu caso haja
evidência de que ele seja culpado.
Isto porque o sistema considera mais

grave condenar um eventual inocente
do que absolver um eventual culpado.
Isto nada mais é do que
um teste de hipóteses.
Qual a hipótese nula?
Qual a hipótese alternativa?
R: H0: réu inocente

H1: réu culpado.
• Erros em Testes de Hipóteses
Um teste de hipóteses não leva

necessariamente à decisão correta.
Qualquer que seja nossa decisão,

sempre existe a possibilidade de erro.
Existem 2 tipos de erro que podemos

cometer ao testar hipóteses: tipo I e tipo II.
O erro tipo I é o erro que consiste em
rejeitar H0, quando ela é verdadeira.
A probabilidade de cometer este erro é

denotada por , e tem um nome específico:
nível de significância.
• Nível de Significância
O nível de significância  de um teste é

a probabilidade de cometer o erro tipo I
 é pré-especificado por quem vai fazer o

teste. Os valores usuais são: 0,01, 0,05 e 0,1.
Uma questão que pode surgir é: por que
não trabalhar com um valor de  muito
pequeno, bem menor ainda do que 0,01?

Porque isto aumentaria muito a exposição
ao erro oposto, ou seja, o de não rejeitar H0
quando ela é falsa, chamado erro tipo II.
O erro tipo II é o erro que consiste em
não rejeitar H0, quando ela é falsa.
A probabilidade do erro tipo II

é designada por .
O problema de usar um  muito

pequeno é que quanto menor o
valor de , maior o valor de .
Obs -  e  não têm uma relação exata. Por
exemplo, não se pode afirmar que + = 1.
A única coisa que se garante é que

quando um diminui, o outro aumenta.
A única forma de reduzir  e 

simultaneamente é aumentando
o tamanho da amostra.

Resumo - Erros em um Teste de Hipóteses:
H0 Verdadeira H0 Falsa
Rejeitar H0 Erro Tipo I
Não Rejeitar Erro Tipo II

H0
a probabilidade  de cometer este

erro é o nível de significância.
• Diretrizes para Formular Hipóteses
A formulação das hipóteses de um teste

deve levar em consideração o seguinte:
1) H0 deve ser definida de tal forma

que o erro de rejeitá-la quando ela for
verdadeira (isto é, o tipo I) seja mais
grave do que o erro contrário (tipo II).
Isto porque o erro tipo I tem uma
probabilidade pré-especificada como
um valor pequeno (isto é, controlada).
2) H1, por outro lado, é a hipótese

da qual um teste é capaz de fornecer
evidência estatística (= conclusão de
que a hipótese é verdadeira, sujeita a
uma probabilidade de erro controlada).
• Métodos para Testar Hipóteses
Há três métodos para testar hipóteses:
1. Método do Intervalo de Confiança

(IC)
2. Método da Região Crítica (RC)
3. Método do P-Valor
• Testando uma Hipótese a partir
de um Intervalo de Confiança
O teste de H0:  = k contra H1:   k,
ao nível de significância , pode ser
feito usando o IC de 100(1-)% (daí
a notação 100(1-)% que adotamos!).
A regra de decisão é a seguinte:
• Se k não pertence ao IC, rejeitamos H0
• Caso contrário, ou seja, se k
pertence ao IC, não rejeitamos H0
• IC`s e Testes de Hipóteses (Bilaterais)
O IC com grau permite testar ao

de confiança:: nível de significância:
90% 0,1
95% 0,05
99% 0,01
Exemplo 7.1 (cont.)
Vamos usar o método do IC

para conduzir o seguinte teste:
H0:  = 175
x
H1:   175,
ao nível de significância  = 0,05.

(considere  conhecido, igual a 6)
Solução: As hipóteses de interesse são:
H0:  = 175 (hipótese nula);
H1:   175 (hipótese alternativa).
O IC95%() (calculado no exemplo 6.1) é:

[174,74;185,26].
.
Basta verificar se este intervalo contém
o 175. De imediato, vemos que sim.
Conclusão:
não rejeitamos H0, ao nível  = 0,1.
Erro conceitual comum:
Não rejeitar H0 ao nível  porque a estimativa

de  pertence ao IC de 100(1-)%.
Por que isto está errado?

Resposta: a estimativa está sempre
dentro do intervalo, por construção.
O correto seria: não rejeitar H0 ao nível

 se k (isto é, o valor de  contemplado
em H0) pertencer ao IC de 100(1-)%.
• O Método da Região Crítica
Embora o método do IC seja simples

e conveniente, o método da região crítica
é o método formal para testar hipóteses.
Para a explicação deste método, é

necessário definir 2 quantidades:
- Estatística de teste
- Região crítica
A estatística de teste é uma estatística
(= função das v.a.`s na amostra) baseada
no estimador do parâmetro de interesse.
Seja  a média de uma população

Normal com  conhecido. A estatística
do teste de H0:  = k contra H1:   k é:
Xk
Z .
/ n
Quando H0 é verdadeira
( = k), sabemos que:
Xk
Z ~ N(0,1).
/ n
Portanto, se houver evidência de que o

resultado acima não seja válido, então
é porque H0 não deve ser verdadeira.
O valor observado de Z é:
xk
z0  .
/ n
Se z0 é um valor que seria pouco provável

caso Z ~ N(0,1), isto representa evidência
contra Z ~ N(0,1) e, portanto, contra H0.
Quais valores de z0 são pouco prováveis
se H0 é verdadeira, isto é, se Z ~ N(0,1)?
Ora, os valores que correspondem

às “caudas” da distribuição N(0,1).
Estes valores definem o que

denominaremos região crítica.
A região crítica RC (ou região de rejeição)
é o conjunto dos valores de z0 que
conduzem à decisão de rejeitar H0.
Para o teste de H0:  = k contra

H1:   k ( conhecido):
RC = (-,-z/2][z/2,).
este valor é chamado valor crítico.
• Por Que Rejeitar H0 Quando z0  RC?
Note que, se H0 é verdadeira:
P(ZRC) = P[(Z-z/2)(Zz/2)] = ,
que é um valor pré-especificado e baixo.
Assim, se z0RC, temos que decidir entre:

1 - H0 é verdadeira, e o evento ZRC, cuja
ocorrência era improvável (probabilidade
) acabou ocorrendo por obra do acaso
ou
2 - H0 é falsa.
O mais lógico é optar pela alternativa 2.
Assim, tomamos a decisão de rejeitar H0.

Resumo:
Se o valor observado da estatística de

teste pertencer à RC, a amostra fornece
evidência estatística para rejeitar H0.
Nesta situação, tomamos a

decisão de rejeitar H0.
Se o valor observado da estatística de
teste não pertencer à RC, a amostra não
fornece evidência para rejeitar H0.
Nesta situação, tomamos a

decisão de não rejeitar H0.
Exemplo 7.1 (cont.) - Vamos agora aplicar o
método da RC para conduzir o teste H0:  = 175
x H1:   175, ao nível de significância  = 0,05.
Valores Críticos da Normal para Testes

Bilaterais (iguais aos dos IC`s de 100(1- )%):
Para  = 0,01  z0,005 = 2,575.

Para  = 0,05  z0,025 = 1,96.
Para  = 0,1  z0,05 = 1,645.
Como  = 0,05:
RC = (-,-1,96][1,96,).
Para calcular z0, precisa-se da estimativa da

média que havia sido obtida no exemplo 6.1:
x  175 180  175

z0    1,8634.
6/ 5 6/ 5
Este valor não pertence à RC.

Conclusão: não rejeitamos H0, ao nível 0,05.
Se  é desconhecido, a estatística do
teste de H0:  = k contra H1:   k é:
Xk
T .
S/ n
Quando H0 é verdadeira ( = k), a

estatística acima segue distribuição t de
Student com n-1 graus de Liberdade.
O valor observado de T é:
xk
t0  .
s/ n
E a região crítica é:
RC = (-,-tn-1;/2][tn-1;/2,).
No exemplo 7.1, vamos agora considerar 
desconhecido e testar as mesmas hipóteses:
H0:  = 175
x
H1:   175,
A estimativa de  já foi obtida no

exemplo 6.5: s = 6. O valor crítico é o
mesmo daquele exemplo: t4;0,025 = 2,7764.
Assim:
RC = (-,-2,7764][2,7764,).
x  175 180  175

t0    1,8634.
s/ 5 6/ 5
Este valor não pertence à RC.
Conclusão: não rejeitamos

H0, ao nível 0,05.
Erro conceitual comum:
Não rejeitar H0 porque t0 (ou z0)

pertence ao IC de 100(1-)%.
Por que isto está errado?

Resposta: o valor calculado da estatística
de teste não tem nada a ver com IC.
Estariam sendo misturados 2 métodos.
O correto seria:
não rejeitar H0 porque k pertence ao IC

ou
rejeitar H0 porque t0 ou (z0) pertence à RC
Exemplo 7.2 - Uma AAS de 25
trabalhadores de uma fábrica foi
selecionada, fornecendo salário médio
de R$ 400,00 e desvio padrão R$ 450,00.
Considerando a população Normal, teste

a hipótese de que o salário médio dos
empregados da fábrica seja R$ 600,00,
ao nível de significância  = 0,1,
utilizando para isto o método da RC.
Solução:
1 - As hipóteses de interesse são:
H0:  = 600 (hipótese nula);
H1:   600 (hipótese alternativa).
O nível de significância é  = 0,1.
2 - A região crítica do teste é:

RC = (-,-t24;0,05][t24;0,05,).
Encontrando t24;0,05 na tabela t:
Assim, RC = (-,-1,7109][1,7109,).
3 - Cálculo de t0:
x  600 400  600 200

t0     2,2222.
s / 25 450 / 5 90
4 - Verifica-se que t0 pertence à RC.
5 - Conclusão: rejeitamos H0, ao nível 0,1.

Em algumas situações específicas, não
estaremos preocupados em evidenciar
se o parâmetro de interesse (, nos
exemplos até aqui) é diferente de k, e
sim se ele é maior ou menor do que k.
Isto conduz ao estudo de testes unilaterais.

• Testes Unilaterais/Unicaudais
Exemplo 7.3 - Um fabricante afirma

que seus cigarros contém, em média, no
máximo 30mg de nicotina. Queremos
verificar a partir de uma amostra se
existe evidência contra esta afirmação.
Neste caso, H1, a hipótese que se quer

evidenciar, não é   30, mas sim  > 30.
Assim é mais apropriado estabelecer
como hipótese alternativa H1:  > 30.
Neste caso, H0 pode ser:   30 ou  = 30.
A região crítica é definida com base na

hipótese alternativa, e será, neste caso:
RC = [z;), se  for conhecido ou
RC = [tn-1;;), se  for desconhecido.
não dividimos  por 2!
Valores Críticos da Normal
para Testes Unilaterais:
Para  = 0,01  z0,01 = 2,33.
Para  = 0,05  z0,05 = 1,645.
Para  = 0,1  z0,1 = 1,28.
O método do IC não pode ser

aplicado para testes unilaterais!
Exemplo 7.3 (cont.) - Foi coletada uma
amostra de 25 cigarros, fornecendo média
31,5 mg. O desvio padrão populacional é
conhecido, e igual a 3 mg. Ao nível  = 0,05,
os dados refutam a afirmação do fabricante?
Solução: RC = [1,645;) e z0 = 2,5, que

pertence à RC. Desta forma, rejeita-se H0,
ao nível de significância  = 0,05. Os dados
refutam a afirmação do fabricante, a este nível.
Considere agora o desvio padrão 
desconhecido e estimado, com s = 3 mg.
Já vimos no exemplo 7.3 que t24;0,05

= 1,7109. Assim: RC = [1,7109;).
t0 = 2,5, que pertence à RC acima,

portanto a conclusão permanece.
Obs - se H1 for  < 30, a RC

passa a ser: (-;-z] ou (-;-tn-1;].
Exercício 7.1 - Especula-se que,
próximo às eleições, a rentabilidade
média dos fundos de investimento mais
alavancados do mercado seja negativa.
Uma amostra aleatória de 16 fundos deste
tipo forneceu rentabilidade média de -1%
e desvio padrão de 0,5%. Existe evidência
de que proceda a especulação acima, a
algum dos níveis de significância usuais?
Resposta: t0 = -8  há evidência de que 
< 0, aos 3 níveis usuais (0,01, 0,05 e 0,1).
• Teste para uma Proporção
As hipóteses de interesse são:
H 0: p = k
H1: p  k,
sendo p uma proporção populacional

(por exemplo, de eleitores que
pretendem votar em um certo candidato).
O teste baseia-se no seguinte resultado
aproximado (para grandes amostras):
proporção amostral.
p̂  p
Z  N(0,1).
p(1  p)
n
O teste resultante será válido apenas em

grandes amostras (é um teste assintótico).
Estatística de Teste
A estatística de teste é obtida substituindo

em Z o valor considerado em H0 (p = k):
p̂  k
Z .
k (1  k )
n
O teste consiste em calcular o valor da
estatística Z para a amostra observada:
p̂  k
z0  ,
k (1  k )
n
e verificar se z0 pertence à RC, que

é baseada na distribuição Normal.
Exemplo 7.4 - Uma corretora afirma
que 30% dos seus clientes são avessos
ao risco. Uma AAS de 64 clientes
revela que 20 são avessos ao risco.
Teste a afirmação da corretora, ao

nível de significância  = 0,1.
Solução:
H0: p = 0,3
H1: p  0,3,
sendo p a proporção do total de clientes

da corretora que são avessos ao risco.
 = 0,1  z0,05 = 1,645, e assim:
RC = (-,-1,645][1,645,).
0,3125  0,3
z0   0,2182.
0,3(1  0,3)
64
Como z0 não pertence à RC, não

rejeitamos H0 ao nível  = 0,1.
Exercício 7.2 (cont. do exemplo 6.6) -
São examinadas 70 peças selecionadas ao
acaso de um lote, e observa-se que 49 são
defeituosas. Use o método do IC para testar,
ao nível 0,05, a hipótese de que metade
das peças do lote inteiro seja defeituosa.
R: IC95%(p) = [0,5927;0,8073].
Rejeita-se H0 ao nível 0,05.
Exemplo 7.5 - Uma emissora de TV
afirma que o índice de audiência de seu
programa “carro chefe”, em determinada
localidade e horário, é de 60%. Um
instituto de pesquisa entrevista 400
pessoas naquela localidade. Se 220
entrevistados assistem ao programa no
horário em questão, existe evidência
estatística contra a afirmativa feita pela
emissora, ao nível de significância 0,05?
Solução:
H0: p = 0,6
H1: p < 0,6,
sendo p a proporção de audiência do

programa na população em estudo.
Para  = 0,05:
RC = (-,-1,645].
0,55  0,6
z0   2,04.
0,6(1  0,6)
400
Como z0 pertence à RC,

rejeitamos H0 ao nível  = 0,05.
Conclusão:
A amostra fornece evidência contra a

afirmativa da emissora, ao nível 0,05.
E aos outros níveis usuais?

• Decisão x Nível de Significância
No exemplo 7.5, rejeitamos H0 aos

níveis 0,05 e 0,1, mas não ao nível 0,01.
Isto conduz à seguinte conclusão:
a decisão em um teste depende do

nível de significância estabelecido!
Note então que:
Se uma hipótese não é rejeitada a um
certo nível de significância, também não
o será a níveis inferiores (a RC diminuirá).
Por outro lado:

Se uma hipótese é rejeitada a um certo
nível de significância, também o será a
níveis superiores (pois a RC aumentará).
Podemos definir um “ponto de corte”, isto é,
um valor de  abaixo do qual não rejeitamos
H0, e acima do qual passamos a rejeitar H0.
Este ponto é chamado p-valor do teste.

P-Valor ou Nível Descritivo
O p-valor de um teste é o menor

valor de  que nos leva a rejeitar H0.
O p-valor é utilizado para testar

hipóteses de uma forma direta (sem
precisar de nenhuma conta ou tabela).
• Testando Hipóteses Usando o P-Valor
A regra de decisão é a seguinte:
se p-valor    rejeitamos H0
se p-valor >   não rejeitamos H0
Exemplo 7.6 - O p-valor obtido para um
teste foi 0,07. Qual a conclusão do teste
para os 3 níveis de significância usuais?
Solução:
Para  = 0,01 ou 0,05, não rejeitamos H0

(pois o p-valor é maior do que ambos);
Para  = 0,1, rejeitamos H0

(pois o p-valor é menor do que 0,1).
• Cálculo do P-Valor
O p-valor de um teste é dado pela

probabilidade, calculada sob H0,
de que a estatística de teste assuma
um valor igual ou “mais extremo”
do que o valor calculado na amostra.
Mais extremo = mais “dentro” da RC.

Para elucidar a definição, considere o teste
de H0:  = k contra H1:  > k, em que z0
é o valor observado da estatística de teste.
Note que, se z0 > z, o p-valor fica

menor do que . Isto corresponde
à situação em que H0 é rejeitada.
Por outro lado, se z0 < z, o p-valor fica
maior do que . Isto corresponde à
situação em que H0 não é rejeitada.
Se z0 = z, o p-valor é
igual a , e H0 é rejeitada.
Exemplo 7.7 - Calcule o p-valor do teste
do exemplo 7.3, e utilize-o para formular
sua conclusão aos três níveis usuais.
Solução :
conclusão?
p - valor  PH 0 (Z  2,5)  0,5  0,49379  0,00621.
indica que a probabilidade é calculada sob H0

Em um teste bilateral, o p-valor é obtido
multiplicando o p-valor unilateral por 2.
No exemplo 7.7, se H1:   30:
p-valor = 2*0,00621 = 0,01242.

Exercício 7.3 - No exemplo 7.5, calcule o
p-valor do teste, e utilize-o para formular
suas conclusões aos níveis usuais.
R: 0,02068.
Poder de um Teste
O poder  de um teste de
hipóteses é a probabilidade de
rejeitar H0 quando ela é falsa.
Obs - o poder também é

chamado potência do teste.
Temos então que o poder de um teste é
a probabilidade de uma decisão correta.
A idéia é que um bom teste deve - ao

menos na maioria das vezes - conduzir
à rejeição de H0 quando ela for falsa.
Erros em um Teste de Hipóteses x Poder:
H0 Verdadeira H0 Falsa
Rejeitar H0 Erro Tipo I Decisão

Correta
Não Rejeitar Erro Tipo II

H0
a probabilidade desta decisão correta é o poder do teste

Relação entre o Poder e a
Probabilidade do Erro Tipo II:
É fácil concluir que:
 = 1-.
• Cálculo do Poder de um Teste
O poder de um teste é
calculado da seguinte forma:
 = PH1(Estatística do Teste  RC).
indica que a probabilidade será calculada sob H1

Curva de Poder ou Função Poder
O poder de um teste é sempre função

do valor real do parâmetro, sob H1.
Isto conduz ao conceito de curva de poder

(ou ainda, função poder), que é a curva que
representa o poder em função do parâmetro.
Assim, para calcular o poder de um teste, é

necessário fixar um valor para o parâmetro.
Exemplo 7.8 - Calcule o poder do teste
do exemplo 7.3, assumindo que o nível
médio real de nicotina nos cigarros seja 32.
Solução - recordando os dados do problema:
H0:  = 30 x H1:  > 30 e RC = [1,645;).
Da amostra observada, calculamos z0 = 2,5.

Solução:
Este cálculo envolve 4 passos:
Passo 1  Reescrever a RC em termos de X :
X - 30
Z  1,645   1,645 
3 / 25
X  1,645 * 0,6  30  X  30,99.
Passo 2  Aplicar a definição de  :
  PH1 ( Z  RC )  PH1 ( X  30,99).
Passo 3  Padronizar X :
30,99  
()  PH1 ( Z  ).
0,6
valor real de  sob H1.

Passo 4  Substituir o valor de
 fornecido no enunciado :
30,99  32  1,01
(32)  P( Z  )  P( Z  )
3 / 25 0,6
 P( Z  1,68)  0,95352.
Obs - na prática, não saberemos o valor de , e

faz mais sentido expressar  como função de 
(a curva resultante é chamada curva de poder)
• Cálculo da Probabilidade do Erro Tipo II
A probabilidade de que se cometa

o erro tipo II em um teste, denotada
por , é calculada da seguinte forma:
 = PH1(Estatística do Teste  RC).
Ou, se já tiver calculado , fazer:  = 1-.

• Testes de Hipóteses Simples
Hipóteses como  < k ou   k são chamadas

compostas, ao passo que  = k é uma hipótese
simples. Teoricamente, embora não faça muito
sentido prático, é possível fazer um teste de uma
hipótese simples contra outra hipótese simples.
Por exemplo: H0:  = 30 x H1:  = 35.
A estatística e a RC deste teste são exatamente

as mesmas do teste: H0:  = 30 x H1:  > 30.
8. DISTRIBUIÇÕES
CONJUNTAS
Em algumas situações, estaremos
interessados no comportamento
conjunto de n variáveis aleatórias.
Surge então o conceito de

distribuição de probabilidade conjunta.
Distribuição Conjunta
(caso discreto)
Função P(X1=x1, X2=x2, ..., Xn=xn) que
fornece a probabilidade conjunta de
que as v.a.`s X1, X2, ..., Xn assumam,
respectiva e simultaneamente, os
valores observados x1, x2, ..., xn.
No caso de 2 variáveis, será adotada

a notação: X1  X e X2  Y.
Exemplo 8.1 - Distribuição conjunta
de 2 variáveis aleatórias X e Y:
x y 0 1
0 0,1 0,2
1 0,1 0,3
2 0,2 0,1
• Distribuições Marginais
As distribuições marginais de X e Y são

obtidas somando-se, respectivamente, as
colunas e linhas da conjunta de X e Y:
P ( X  x )   P ( X  x , Y  y)
y
P ( Y  y)   P ( X  x , Y  y)
x
Distribuições marginais no exemplo 8.1:
P(X=x) = 0,3, se x = 0
P(X1=x1) = 0,4, se x = 1
0,3, se x = 2.
P(Y=y) = 0,4, se y = 0
P(X1=x1) = 0,6, se y = 1.
Distribuição Conjunta
(caso contínuo)
Função f(x1,x2,...,xn) que permite obter

a probabilidade de que X1, X2, ..., Xn
pertençam a uma região C no Rn.
No caso bidimensional, P[(X,Y)C]

é dada pelo volume do sólido formado
pela projeção de f(x,y) sobre a área C.
Exemplo 8.2 - f(x,y) = 1; 0< x<1, 0<y<1:
f(x,y) y
x
Exemplo 8.3 - Normal Bivariada:
1  ( x  X ) 2 ( y  Y ) 2 ( x  X )( y  Y ) 
    2  
2    
2 (1 )  X2
Y2

e X Y
f ( x , y)  , ( x , y)  R 2
2X  Y 1   2
f(x,y)
y x
Propriedades:
1) f(x1,x2,...,xn)  0, para
toda n-upla (x1,x2,...,xn).
2) A integral de f(x1,x2,...,xn) no
domínio de X1, X2, ..., Xn é 1.
Exemplo 8.4 - Verifique se a seguinte

função é uma distribuição conjunta:
f(x,y) = 3x(x-y)/4, 0x2, 0y2.

Exercício 8.1
A função de densidade de probabilidade

conjunta da v.a. bidimensional (X,Y) é:
xy
f ( x, y)  x  ,0  x  1,0  y  2.
2
Ache P(Y<X).
R: 7/24.
As marginais de X e Y são obtidas
integrando a conjunta na “outra” variável:
f (x)   f ( x, y)dy
f ( y)   f ( x, y)dx
Exemplo 8.5 - Considere duas variáveis
aleatórias X e Y com distribuição conjunta:
f (x, y)   e
2  ( xy)
; x, y  0;   0.
Encontre f(x) e f(y) .

Solução:
 
f (x)    e 2  ( x  y )
dy   e
2  x
e
 y
dy
0 0
1
e 2  x
 e , x  0.
 x

 
f ( y)    e 2  ( x  y )
dx   e
2  y
e
 x
dx
0 0
1
e 2  y
 e , y  0.
 y

• Independência de V.A.`s
Se X1, X2, ..., Xn são independentes, então:

n
P( X1  x1 , X 2  x 2 ,..., X n  x n )   P( Xi  x i ),
i 1
(x1,x2,...,xn). (caso discreto)

n
f ( x1 , x 2 ,..., x n )   f ( x i ),
i 1
(x1,x2,...,xn). (caso contínuo)

Exercício 8.2 - Verifique se X e Y
são independentes nos exemplos:
a) 8.1
b) 8.5
Respostas:
a) Não. Por exemplo: P(X=0,Y=0) não

é igual ao produto P(X=0)P(Y=0).
b) Sim, pois f(x,y) = f(x)f(y),  x,y.

Vimos no capítulo 3 que, se 2 v.a.`s são
independentes, então E(XY) = E(X)E(Y).
Isto porque, se X e Y são independentes,

então isto implica que Cov(X,Y) = 0,
e desta forma: E(XY) - E(X)E(Y) = 0.
Porém, em geral a volta não vale, ou seja,

correlação zero não implica em independência.
Porém, há um caso de exceção:
Se X e Y seguem distribuição Normal

bivariada, então XY = 0 é condição suficiente
para garantir que X e Y são independentes.
Este é o único caso em que correlação

zero implica em independência.
Demonstração: faça  = 0 na fórmula da
Normal bivariada, abaixo, e verifique que
isto implica na independência de X e Y:
1  ( x  X ) 2 ( y  Y ) 2 ( x  X )( y  Y ) 
    2  
2    
2 (1 )  X2
Y2

e X Y
f ( x , y)  , ( x , y)  R 2
2X  Y 1   2
• Distribuições Condicionais
f ( x , y)
f ( x | y)  , f ( y)  0
f ( y)
f ( x , y)
f ( y | x)  , f (x)  0
f (x)
Exemplo 8.6 - Determine as densidades
marginais e condicionais associadas às
v.a.`s X eY, cuja distribuição conjunta é:
3x 0  y  x  1
f (x, y)  
 0 caso contrário
Respostas:
f ( x )  3x , 0  x  1
2
3
f ( y)  (1  y ), 0  y  1.
2
2 Y|x ~ Unif(0,x)
1
f ( y | x )  , 0  y  x; para 0  x  1.
x
2x
f ( x | y)  , y  x  1; para 0  y  1.
1 y 2
Importante frisar que, na definição da
condicional f(y|x), a variável aleatória
envolvida é Y, e não X, pois X foi fixado.
O valor x pode ser interpretado como um

“parâmetro” da distribuição condicional. Ou
ainda, f(y|x) pode ser interpretada como uma
família de distribuições parametrizada por x.
O mesmo vale (de forma inversa) para f(x|y).

• Valor Esperado Condicional
E(X | y)   xf (x | y)dx
E(Y | x)   yf( y | x)dy

Exercício 8.3 - Calcule os valores esperados
condicionais do slide anterior para a
distribuição conjunta do exemplo 8.6.
Respostas:
x
E(Y | x )  ; para 0  x  1.
2
2(1  y )
3
E ( X | y)  ; para 0  y  1.
3(1  y )
2
• Independência em Termos das
Distribuições e Momentos Condicionais
X e Y são independentes se e somente se:
f(x|y) = f(x) ou f(y|x) = f(y).
Neste caso, note que:
E(Y|x) = E(Y) e E(X|y) = E(X)

Além disto, pode-se provar facilmente
que, se X e Y são independentes, então:
V(Y|x) = V(Y) e V(X|y) = V(X).
Obs - se X e Y forem independentes, não

se pode afirmar que V(XY) = V(X)V(Y).
Exercício 8.4 - Considere duas variáveis
aleatórias X e Y, com distribuição conjunta:
f (x,y) = kx2y, 0x1, 0y1.
Verifique se X e Y são independentes, e

ache o valor esperado condicional E(Y|x).
• Lei das Expectativas Iteradas (LEI)
EY[E(X|Y)] = E(X)
• Teorema da Identidade
da Variância Condicional
VY[E(X|Y)] + EY[V(X|Y)] = V(X)

Exemplo 8.7 - Considere duas variáveis
aleatórias X e Y, com distribuição condicional:
f(y|x) = 1/x, 0 < y < x; para 0 < x < 1.
Se X ~ Unif(0,1), determine E(Y).
R: 1/4.
9. MÉTODOS
DE ESTIMAÇÃO
Nada foi dito até agora sobre como obter
bons estimadores para um parâmetro. Ou
seja, sobre métodos de estimação.
Estudaremos a seguir o método da máxima

verossimilhança e o método dos momentos.
• Método da Máxima Verossimilhança
Seja uma AAS observada {x1,x2,...,xn} de uma

população com parâmetro desconhecido .
O estimador de máxima verossimilhança é

aquele que conduz ao valor de  que tornaria
máxima a probabilidade de obter essa amostra.
Exemplo 9.1 - Seja X1 uma AAS de
tamanho 1 de uma população Poisson, cujo
parâmetro é . A amostra observada foi x = 2.
Ache o EMV de .
Solução - se X ~ Poisson():
x λ
λ e
P(X  x )  ; x  0,1,2,...; λ  0.
x!
Se fosse um problema de probabilidade,
você calcularia P(X=2) para um dado valor
de  (usando a fórmula do slide anterior).
Mas o problema aqui é inverso:
temos x (amostra), no caso: x = 2, e

queremos saber qual o valor de .
A probabilidade de que a amostra
fornecida no enunciado ocorra é:
2 λ
λe
P(X  2)  .
2!
Perceba que esta probabilidade

é uma função de , e não de x!
0,05
0,15
0,25
0,1
0,2
0,3
0
0,01
0,64
1,27
1,9
2,53
3,16
3,79
4,42
5,05
5,68
6,31
6,94
7,57
8,2
8,83
9,46
10,1
10,7
P(X = 2) como função de :
11,4
12
12,6
13,2
13,9
14,5
• Função de Verossimilhança
P(X=x), encarada como função de , é

chamada função de verossimilhança.
O nome original em inglês é likelihood

function, daí a notação usual: L().
A idéia do método a ser apresentado é

buscar o valor de  que maximiza L().
0,05
0,15
0,25
0,1
0,2
0,3
0
0,01
0,64
1,27
1,9
2,53
3,16
3,79
4,42
5,05
5,68
6,31
6,94
7,57
8,2
8,83
máximo da função
9,46
10,1
ponto de máximo
10,7
11,4
12
12,6
Resolvendo o problema graficamente:
13,2
13,9
14,5
E no caso de uma AAS de tamanho n>1?
A idéia é a mesma, só que agora a função de

verossimilhança é a distribuição conjunta
da amostra, encarada como função de .
• Função de Verossimilhança (caso discreto)
O produto é por causa da

independência (AAS)
n
P( X1  x1 , X 2  x 2 ,..., X n  x n )   P( Xi  x i ),
i 1
(x1,x2,...,xn).
L()
Exemplo 9.1 (cont.) no caso de uma AAS
de tamanho n de uma população Poisson():
 x i  n
 i1 e
L( )  n
.
x !
i 1
i
Esta função deve ser

maximizada em relação a .
• Função de Log-Verossimilhança
l() = ln[L()] é chamada

função de log-verossimilhança.
Nos casos práticos, é bem mais fácil derivar

(e, portanto, maximizar) l() do que L().
O valor de  que maximiza l()

é o mesmo que maximiza L().
Exemplo 9.1 (cont.) - função de
log-verossimilhança para a Poisson:
 n xi 
    
  i1
e n
  n

l()  ln    x i  ln   n  c
 n   i 1 
  x i! 
 i 1 
Maximizando a Função
de Log-Verossimilhança:
O ponto de máximo de l()

é o valor de  tal que:
l`() = 0 e l``() < 0.
Um facilitador: em geral, l() é

côncava, o que garante que: l``() < 0,
 . Portanto, basta resolver: l`() = 0.
Exemplo 9.1 (cont.) - A derivada da função
de log-verossimilhança encontrada é:
n
 xi
l`()  i 1
n

n
Assim, temos que  xi
resolver a equação: l`()  i 1  n  0,

n
 xi
cuja solução é:   i 1
 x.
n
Logo, o estimador de máxima
verossimilhança (EMV) é:
ˆ MV  X.
Método da Máxima Verossimilhança:
1. Escrever a função de verossimilhança

2. Escrever a função de log-verossimilhança
3. Derivar a função de log-verossimilhança
4. Igualar a derivada do passo 3 a zero, e
resolver para o parâmetro de interesse
5. Aplicar a função encontrada em (4) à
{X1,X2,...,Xn}, obtendo assim o EMV.
Caso Contínuo:
E se a população de interesse for contínua

(p.ex., exponencial com parâmetro )?
A idéia é a mesma, só que agora a função de

verossimilhança é a distribuição conjunta de
um conjunto de variáveis aleatórias contínuas.
• Função de Verossimilhança (caso contínuo)
n
f ( x1 , x 2 ,..., x n )   f ( x i ),
i 1
(x1,x2,...,xn).
L(), caso
contínuo
Exemplo 9.2 - Seja uma AAS
de tamanho n de uma população
exponencial com parâmetro .
Obtenha o EMV de .
Solução:
A função de densidade é: f(x) = e-x, x>0.
A função de verossimilhança é:
n
L( )   f ( x i ) 
i 1
n
n   xi
 e e
 x i n i 1
.
i 1
A função de log-verossimilhança é:
   x i     x i 
n n
 n i1 
l()  ln   e   ln n
  ln

 e i1 
 

   
n ln      x i .
n
i 1
Derivando e igualando a zero :

n n n 1
l`()    x i  0    n  .
 i 1  xi x i 1
Logo, o EMV é:
1
ˆ MV  .
X
Exercício 9.1 - Seja uma AAS de tamanho
n de uma população Bernoulli(p).
Obtenha o EMV de p.
R:
p̂ MV  X.
Solução Resumida do Exercício 9.1:
n n
n  xi  (1 x i )
L(p)   p (1  p) xi 1 x i
p i 1
(1 - p) i 1

i 1
n n
 xi n   xi
 l(p)   x i ln(p)   n   x i ln(1 - p).
n n
i 1 i 1
p (1 - p)
i 1  i1 
n
 n
 n n
 xi  n   xi   x i  np  xi
l`( p)  i 1
  i 1  (1)  i1  0  p  i1 .
p (1  p) p(1  p) n
Exemplo 9.3 - Seja uma AAS de
tamanho n de uma população N(,2).
Obtenha os EMV`s de  e 2.

Solução:
A idéia aqui é derivar a função de log-

verossimilhança em relação a  e  = 2
(que são os parâmetros a serem estimados).
A função de verossimilhança é:
n
L(,    )   f ( x i ) 
2
i 1
( x i  ) 2
n
( x  )

2
n 
1
 i 
n 
 (2) e (2) e
2 2
2 2 i 1
.
i 1
A função de log-verossimilhança é:
 
n
( x i  ) 2
 
n 
2 
l(, )  ln  (2) 2 e i 1
 

 
n
n  (x i  ) 2
 ln( 2)  i 1
.
2 2
Derivando em relação à :
n
l(, )  ( x   )
i
 i 1
.
 
Igualando a zero:
n
 (x
i 1
i  )  0    x  ˆ MV  X.
Derivando em relação à :
n
 ( x i  )
2
l(, ) n i 1
 
 2 2 2
Igualando a zero e substituindo  por x :

n
 (x i  x) 2
 i 1
.
n
Assim, os EMV`s de  e 2 da Normal são:
ˆ MV  X.
n
 (X i  X) 2
ˆ 2
MV  i 1
.
n
Obs - note que o EMV 2 é viciado.

EMV para os casos mais importantes:
Bernoulli : p̂ MV  X.
Poisson : ˆ  X.
MV
ˆ 1
Exponencia l :  MV  .
X
1
Geométrica : p̂ MV  .
X
n
 i
( X X ) 2
Normal : ˆ MV  X e  2MV  i 1
.
n
• Propriedades dos EMV
1) Não são necessariamente não viciados, mas

são assintoticamente não viciados e consistentes.
2) São assintoticamente eficientes.
3) Seguem distribuição aproximadamente
Normal, para grandes amostras
(isto é, são assintoticamente Normais).
4) São invariantes a transformações
(princípio da invariância, estudado a seguir).
• Princípio da Invariância do EMV
Se ̂ é o EMV de , então o EMV de

uma função g() é simplesmente g(ˆ ).
Exemplo 9.4 - O EMV de q = (1-p) da

distribuição de Bernoulli, usando o P.I., é:
q̂ MV  1  p̂ MV  1  X.
Exemplo 9.5 - Considere que queiramos
estimar a probabilidade de uma mulher
não ter filhos, em uma população Poisson.
Ache o EMV desta probabilidade,

baseado em uma AAS de tamanho n.
ˆ MV X
R : P̂MV (X  0)  e e .
Exercício 9.2 - Seja uma AAS de
tamanho n da população referenciada
pela distribuição: f(x) = x-1, 0<x<1, >0.
Obtenha o EMV de .
n
R : ˆ MV   n
.
 ln(Xi )
i 1
Solução Resumida do Exercício 9.2:
n n
L ( )   x  1
i  n
x  1
i .
i 1 i 1
n
l()  nln( )  (  1) ln( x i ).
i 1
n
n n
l`()    ln( x i )  0     .
 i1 n
 ln( x )
i 1
i
• Método dos Momentos
Vantagem: bem mais simples do que

o método da máxima verossimilhança
e, na maior parte dos casos práticos
de interesse, leva ao mesmo resultado.
O que são “momentos” ?
Momentos populacionais:
E(X), E(X2), ..., E(Xk).
Momentos amostrais:
n n n
 Xi  X 2
i X k
i
i 1 i 1 i 1
, ,..., .
n n n
Método dos Momentos para
Distribuições com 1 Parâmetro
No caso de distribuições com apenas

1 parâmetro (ex., Poisson, exponencial,
Bernoulli, geométrica), o estimador de
momentos é obtido igualando o primeiro
momento populacional ao primeiro
momento amostral - ou seja:
E(X)  X.
Estimadores de momentos para os casos
mais importantes envolvendo 1 parâmetro:
Bernoulli : p̂ MM  X.
Poisson : ˆ
MM  X.
ˆ 1
exponencial :  MM  .
X
1
geométrica : p̂ MM  .
X
Método dos Momentos para
Distribuições com 2 Parâmetros
No caso de populações com 2 parâmetros

(ex.: Normal), o estimador de momentos é
obtido igualando os 2 primeiros momentos
populacionais - E(X) e E(X2) - aos
respectivos momentos amostrais.
Exercício 9.3 - Seja uma AAS de
tamanho n de uma população N(,2).
Obtenha os estimadores de
momentos de  e 2.
n
 (X i  X ) 2
R :  MM  X e  MM 
ˆ ˆ 2 i 1
.
n
Dica para a solução do exercício 9.3:
Para obter o estimador da variância, você

precisará usar que E(X2) = V(X) + E2(X), e:
n n
X 2
i X 2
i
 X 
2 2 i 1
 ˆ 2
MM  i 1
X 2
n n
n n
X 2
i  nX 2
 (X i  X) 2
 i 1
 i 1
.
n n
Exercício 9.4 - Seja uma AAS de tamanho
n de uma população referenciada pela
distribuição: f(x) = x-1, 0<x<1, >0.
Obtenha o estimador de momentos de .

X
R : ˆ MM  .
1 X
Obs  passo intermediá rio :

verificar que E(X)  .
 1
10. REGRESSÃO
LINEAR
• Correlação x Regressão
Quando estudamos a correlação entre duas

variáveis, não pensamos na eventual relação
de causalidade (causa  efeito) entre elas.
Na análise de regressão, isto é importante.

Pressupõe-se que o comportamento de uma
das variáveis (X) possa explicar - ao menos de
forma parcial - o comportamento da outra (Y).
A relação de associação entre X e Y
pode então ser representada pela função:
Y = 0 + 1X,
sendo 0 o intercepto e 1 a inclinação.
Se a relação acima fosse perfeita,

poderíamos, a partir do valor de X,
determinar o valor exato de Y.
Na prática, entretanto, a relação
linear entre X e Y não será perfeita.
Isto é, se X for a renda de uma família,

o gasto com alimentação Y desta família
não será necessariamente Y = 0 + 1X.
É para isto que serve o termo de erro,

que aqui será designado pela letra .
Modelo de Regressão Linear
(Simples)
Y =  0 +  1X + 
Y é a variável dependente
X é a variável explicativa
0 e 1 são os parâmetros do modelo
 é o erro (supõe-se:  ~ N(0,2) )
Interpretação do Termo de Erro:
O erro  representa todos os demais fatores
que poderiam influenciar Y, além de X.
Hipóteses sobre  (também chamadas

hipóteses clássicas ou pressupostos
básicos do modelo de regressão linear):
E() = 0, V() = 2 (homocedasticidade),
distribuição Normal e Corr(i,j) = 0, ij.
Observação Importante:
A análise de regressão apresentada aqui é

a clássica, que é a cobrada em concursos.
Esta abordagem não trata X como variável

aleatória, mas como uma variável cujos
valores são pré-fixados, ou seja, a análise é
feita condicional a valores específicos de X.
• Reta de Regressão (Teórica)
Representa o valor esperado

de Y, como função de X:
E(Y|X) = 0 + 1X
Os parâmetros 0 e 1 precisam ser

estimados (veremos um método para isto).
• Interpretação do Intercepto 0
Se fizermos X = 0 na reta de regressão:
E(Y|X=0) = 0
0 representa o valor esperado de

Y, quando X assume o valor zero.
• Interpretação da Inclinação 1
Considere que a variável explicativa

X aumente uma unidade (X  X+1).
Vamos analisar qual o efeito

correspondente sobre Y.
Seja Y1 o valor de Y em resposta a X:
Y1 = 0 + 1X + 1,
e seja Y2 o valor de Y em resposta a (X+1):

Y2 = 0 + 1(X+1) + 2.
Fazendo Y = Y2-Y1
(variação em Y), temos:
Y =
[0 + 1(X+1) + 2] - (0 + 1X + 1) =
0 + 1X + 1+ 2 - 0 - 1X - 1 =
1 + 2 - 1 = 1 + .
Agora lembre-se que:
E() = E(2 - 1) =

E(2) - E(1) = 0, e assim:
E(Y) = 1.
.
1 é a variação esperada em Y
quando X varia uma unidade.
• Reta de Regressão Estimada/Ajustada
As estimativas de 0 e 1 serão utilizadas

para obter a reta estimada ou ajustada:
Ŷ  ˆ 0  ˆ 1X
estimativa de E(Y|X) = previsão de Y.

• Resíduos
Os resíduos da regressão são

definidos da seguinte forma:
{ˆ i  Yi  Ŷi , i  1, 2, ..., n}
i-ésima Ŷi  ˆ 0  ˆ 1Xi

observação de Y
É imediato notar que, quanto menores
os resíduos, melhor será o modelo.
Esta é a idéia do método dos mínimos

quadrados ordinários (MQO), utilizado para
estimar os coeficientes 0 e 1 do modelo.
• Estimação dos Coeficientes por MQO
O método dos Mínimos Quadrados

Ordinários (MQO) consiste em obter os
estimadores de 0 e 1 que minimizam
a soma dos quadrados dos resíduos:
n
SQR   ˆ 2
i
i 1
A minimização da função anterior em relação
a 0 e 1 resulta nas seguintes equações:
n
(I)   ˆ i  0
i 1
n
(II)   ˆ i X i  0
i 1
Substituindo a fórmula do resíduo e

resolvendo, obtemos os estimadores a seguir:
• Estimadores de MQO de 0 e 1:
n
 (Xi  X)(Yi  Y) SXY ˆ
ˆ 1  i 1
n
 2 , 0  Y  ˆ 1X.
SX
 (X i  X ) 2
i 1
a estimativa de 1 não é igual à correlação

amostral (rXY), mas tem o mesmo sinal dela
Propriedades Importantes da Reta de MQO:
1 - A reta de MQO passa pelo ponto

das médias amostrais de X e Y.
2 - A soma dos resíduos é igual a zero.
3 - A normalidade do erro não foi necessária

para obter os estimadores de MQO.
Exemplo 10.1 - O seguinte modelo (excel)
relaciona Y = gasto com alimentação e X =
renda semanal de uma amostra de 40 famílias:
Estatística de regressão
R múltiplo 0,937608458
R-Quadrado 0,879109621
R-quadrado ajustado 0,875928295
Erro padrão 4,81040437
Observações 40
ANOVA
gl SQ MQ F F de significação
Regressão 1 6394,37439 6394,374 276,3343605 5,02495E-19
Resíduo 38 879,319628 23,13999
Total 39 7273,69402
Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores

Interseção -13,3248381 4,45111079 -2,993598 0,004827374 -22,33564114 -4,314035109
Variável X 1 0,515720938 0,03102397 16,62331 5,02495E-19 0,452916199 0,578525676
a) O que a reta de regressão ajustada permite
concluir para famílias que ganham R$ 100,00?
R: O gasto médio com alimentação de famílias

com esta renda, ou o gasto esperado com
alimentação para famílias com esta renda é:
Ŷ  13,3248  0,5157 *100  38,24.

b) Se a renda familiar aumenta R$ 1,00, o
que ocorre com o gasto com alimentação?
R: Espera-se que o gasto com alimentação

aumente R$ 0,5157, ou: o gasto esperado
com alimentação aumenta R$ 0,5157.
Obs - se a renda aumenta R$ 100,00, o gasto

esperado com alimentação aumenta R$ 51,57.
• R2 ou Coeficiente de Determinação
Uma das quantidades mais importantes na

análise de um modelo de regressão é o R2.
Ele informa qual a proporção da variação

total de Y que o modelo consegue explicar.
Neste ponto, é importante definir os tipos de

variação envolvidos em uma análise de regressão.
Variação Total em Y  Soma dos Quadrados
n
Total : SQT   (Yi  Y ) 2
i 1
Variação Explicada  Soma dos Quadrados

n
da Regressão : SQE   (Ŷi  Y ) 2
i 1
Variação Não Explicada 

Soma dos Quadrados
n n
dos Resíduos : SQR   (Yi  Ŷi )    i
2
ˆ 2
i 1 i 1
Pode-se demonstrar que:
SQT = SQE + SQR
Daí:
n
 (Ŷ  Y )
i
2
SQE SQR
R 
2 i 1
n   1 .
 i
( Y 
i 1
Y ) 2 SQT SQT
O R2 está entre 0 e 1, e mede a proporção da

variação de Y que é explicada pelo modelo.
Identificando o R2 no exemplo 10.1:
R múltiplo 0,937608458 R2
R-quadrado ajustado 0,875928295 O modelo consegue
Erro padrão 4,81040437 explicar 87,91% da
Observações 40
variação de Y (bastante).
ANOVA
Regressão 1 6394,37439 6394,374 276,3343605 5,02495E-19
Resíduo 38 879,319628 23,13999
2
Total
O R é igual ao quadrado da correlação
39 7273,69402

2
amostral, denotada por r , daí o nome R .
Interseção
Variável X 1
-13,3248381 4,45111079 -2,993598 0,004827374
0,515720938 0,03102397 16,62331 5,02495E-19
XY
-22,33564114
0,452916199
-4,314035109
0,578525676
• Variância Residual =
Estimador Não Viciado de 2
SQR
ˆ 
2
n2
n-2 porque estamos estimando 2 parâmetros!
Obs - este estimador não é obtido por MQO,

mas é chamado “estimador de MQO de 2”.
• Propriedades dos Estimadores de MQO
1 - são não viciados
2 - são consistentes
3 - são os de menor variância dentre todos os

estimadores lineares e não viciados possíveis
(esta última propriedade é o Teorema de
Gauss-Markov, um dos mais importantes
da teoria de modelos de regressão linear!)
Obs - mostrando que ̂1 é um estimador linear:
n n n
 (X i  X )(Yi  Y )  (X i  X )Yi  Y  (X i  X )
ˆ 1  i 1
n
 i 1
n
i 1
 i
( X  X ) 2
 i
( X  X ) 2
i 1 i 1
n
M as, da estatística básica :  (X i  X )  0. Assim :
i 1
n
 (X i  X )Yi n
(X i  X )
ˆ 1  i 1
n
  i Yi , sendo i  n
.
 i
( X  X ) 2 i 1
 i
( X  X ) 2
i 1 i 1
• Estimadores de Máxima Verossimilhança
Os estimadores de máxima verossimilhança

dos coeficientes do modelo são exatamente
iguais aos respectivos estimadores de MQO.
O EMV de 2 é viciado,
com n no denominador.
Obs - para estimar por MV, a hipótese de

normalidade dos erros é necessária, ao
contrário do que ocorre com o método MQO.
• Distribuições Amostrais
Se o erro segue distribuição Normal,

as distribuições de ̂ 0 e ̂1 são:
ˆ 0  0 ˆ 1  1
~ t n 2 e ~ t n 2 .
EP (ˆ 0 ) EP (ˆ 1 )
erros padrão estimados
Estas distribuições são utilizadas para fazer
inferências estatísticas a respeito de 0 e 1.
• Intervalos de Confiança para 0 e 1
ˆ 
IC100(1 )% (0 )  0  t  EP (ˆ 0 ); ˆ 0  t  EP (ˆ 0 )
n  2; n  2;
 2 2 
ˆ 
IC100(1 )% (1 )  1  t  EP (ˆ 1 ); ˆ 1  t  EP (ˆ 1 )
n  2; n  2;
 2 2 
• Teste de Significância Estatística
O teste da significância
da estimativa de 1 é:
H0: 1 = 0 x H1: 1  0.
Este teste é também chamado de teste de

significância da regressão, pois se 1 = 0:
Y = 0 +   não há relação linear entre Y e X.
Teste usando o Método da Região Crítica:
O teste consiste em calcular:
ˆ 1
t0 
EP (ˆ 1 )
e verificar se t0 pertence à região crítica:
RC = (-,-tn-2;/2][tn-2;/2,).
No exemplo 10.1:
Para  = 0,01, t0 está na região

Estatística de regressão crítica (-,-2,711][2,711,).
Logo, rejeitamos H0: 1 = 0
em favor de H1: 1  0, aos 3
Observações 40 níveis usuais (0,01, 0,05 e 0,1).
ANOVA
Regressão 1 6394,37439 6394,374 276,3343605 5,02495E-19
Resíduo 38 879,319628 23,13999
Total 39 7273,69402

Interseção -13,3248381 4,45111079 -2,993598 0,004827374 -22,33564114 -4,314035109
Variável X 1 0,515720938 0,03102397 16,62331 5,02495E-19 0,452916199 0,578525676
Teste usando o P-Valor:
p-valor do teste de H0: 1 = 0 x
R múltiplo 0,937608458 H1: 1  0. Como o p-valor é
(bem) menor do que  = 0,01,
Observações 40 rejeitamos H0 aos níveis usuais.
ANOVA
Regressão 1 6394,37439 6394,374 276,3343605 5,02495E-19
Resíduo 38 879,319628 23,13999
Total 39 7273,69402

Interseção -13,3248381 4,45111079 -2,993598 0,004827374 -22,33564114 -4,314035109
Variável X 1 0,515720938 0,03102397 16,62331 5,02495E-19 0,452916199 0,578525676
Teste usando o Intervalo de Confiança:
R múltiplo
R-Quadrado
0,937608458
0,879109621
IC de 95%
R-quadrado ajustado 0,875928295 para 1
Observações 40
ANOVA
Regressão 1 6394,37439 6394,374 276,3343605 5,02495E-19
Resíduo 38 879,319628 23,13999
Total 39 7273,69402

Interseção -13,3248381 4,45111079 -2,993598 0,004827374 -22,33564114 -4,314035109
Variável X 1 0,515720938 0,03102397 16,62331 5,02495E-19 0,452916199 0,578525676
O IC de 95% não contém o zero. Logo, rejeitamos

H0: 1 = 0 em favor de H1: 1  0, ao nível  = 0,05.
• Modelo de Regressão Pela Origem
É o modelo de regressão estimado

sem intercepto: Y = 1X + .
Estimador de MQO de 1:

n
 Yi X i
ˆ RPO  i 1
.
1 n
X 2
i
i 1
Propriedades do Modelo
de Regressão Pela Origem:
1 - A reta não necessariamente passa

pelo ponto das médias de X e Y.
2 - A soma dos resíduos não é

necessariamente zero.
3 - SQT  SQE + SQR, e portanto o R2

não possui mais nenhum significado.
• Regressão Linear Múltipla
(noções)
É o modelo de regressão
com k variáveis explicativas.
Y = 0 + 1X1 + 2X2 +...+ kXk + .
O teste relevante aqui é o

de significância conjunta.
• Teste F de Significância Conjunta
O teste F para a significância conjunta

das estimativas de 1, 2, ... e k,
consiste nas seguintes hipóteses:
H0: 1 = 2 = ... = k = 0
x
H1: ao menos um j é diferente de zero.
O valor da estatística do teste (estatística F) é:
SQE / k
f0 
SQR /[ n  (k  1)]
2
R /k
ou : f 0  .
(1  R ) /[ n  (k  1)]
2
H0 é rejeitada se f0  F(k,n-(k+1)) = valor da

tabela F com k e n-(k+1) graus de liberdade.
• Tabela ANOVA
k SQE MQE = SQE/k f0 fsig

n-(k+1) SQR MQR = SQR/[n-(k+1)]
n-1 SQT
fsig é o p-valor do teste F.
Rejeitamos H0 ao nível  se: fsig  .

Exemplo 10.1 incluindo uma variável X2:
R-quadrado ajustado
0,941866343 Menor do que os
Erro padrão 3,292752067 níveis usuais,
Observações 40
logo o modelo é
ANOVA significante.
Regressão 2 6872,532024 3436,266012 316,9339143 5,23538E-24
Resíduo 37 401,1619984 10,84221617
Total 39 7273,694022

Interseção -16,38292449 3,081416164 -5,316686749 5,28353E-06 -22,62646061 -10,13938837
Variável X 1 0,260849877 0,043862535 5,946985831 7,40728E-07 0,171976025 0,349723729
Variável X 2 9,651225335 1,453302236 6,640893472 8,57007E-08 6,706558169 12,5958925
Todos os coeficientes são

individualmente significantes.
• Tabela ANOVA para o Modelo
de Regressão Linear Simples
1 SQE MQE = SQE/1 f0 fsig
n-2 SQR MQR = SQR/(n-2)
n-1 SQT
O teste F no modelo de regressão simples (H0:

1 = 0) é equivalente ao teste t de significância.
Além disto, vale a relação: t 0  f0 .

2
Relação entre Testes t e F no Modelo de Regressão Simples:
Observações 40 16,623312 = 276,3343605
R múltiplo
ANOVA
gl SQ MQ F 0,937608458
F de significação
Regressão 1 6394,37439 6394,374 276,3343605 5,02495E-19
R-Quadrado
Resíduo 38 879,319628 23,13999
Total 39 7273,69402
0,879109621
R-quadradoCoeficientes
ajustado Erro padrão Stat t valor-P 95% inferiores 95% superiores
Interseção -13,3248381 4,45111079 -2,993598 0,004827374 -22,33564114 -4,314035109
Variável X 1 0,515720938 0,03102397 16,62331 5,02495E-19 0,875928295
0,452916199 0,578525676
Erro padrão
p-valores iguais!
Estimativa de 2 na Tabela ANOVA:
R-quadrado ajustado
0,941866343
Observações 40
ANOVA
Regressão 2 6872,532024 3436,266012 316,9339143 5,23538E-24
Resíduo 37 401,1619984 10,84221617
Total 39 7273,694022

Interseção -16,38292449 3,081416164 -5,316686749 5,28353E-06 -22,62646061 -10,13938837
Variável X 1 0,260849877 0,043862535 5,946985831 7,40728E-07 0,171976025 0,349723729
Variável X 2 9,651225335 1,453302236 6,640893472 8,57007E-08 6,706558169 12,5958925
Propriedade Importante do R2:
O R2 de um modelo nunca diminui com

o acréscimo de uma variável explicativa
(no limite, se n = k, R2 é igual a 1).
Portanto, se utilizarmos o R2 para comparar

modelos “encaixados”, o modelo com
mais variáveis (cheio) nunca perderá. O
correto, neste caso, é utilizar o R2 ajustado.
• R2 Ajustado
SQR/(n - (k  1))
R  1-
2
SQT/(n - 1)
n -1
 1 - (1 - R )
2
.
n - (k  1)
2 2
Obs - o R é sempre menor que o R .
Modelo 1 - só com X1
Observações 40
ANOVA
Regressão 1 6394,37439 6394,374 276,3343605 5,02495E-19
Resíduo 38 879,319628 23,13999
Total 39 7273,69402

Interseção -13,3248381 4,45111079 -2,993598 0,004827374 -22,33564114 -4,314035109
Variável X 1 0,515720938 0,03102397 16,62331 5,02495E-19 0,452916199 0,578525676
Modelo 2 - com X1 e X2
Estatística de regressão O R2 ajustado aumentou de 0,87 para 0,94.
R múltiplo 0,972032693 Concluímos que o acréscimo de X2 contribuiu
R-Quadrado 0,944847557 para a melhoria do ajuste do modelo, que passa a
R-quadrado ajustado
0,941866343 apresentar maior capacidade preditiva, descontado
o efeito do maior número de variáveis explicativas.
Observações 40
ANOVA
Regressão 2 6872,532024 3436,266012 316,9339143 5,23538E-24
Resíduo 37 401,1619984 10,84221617
Total 39 7273,694022

Interseção -16,38292449 3,081416164 -5,316686749 5,28353E-06 -22,62646061 -10,13938837
Variável X 1 0,260849877 0,043862535 5,946985831 7,40728E-07 0,171976025 0,349723729
Variável X 2 9,651225335 1,453302236 6,640893472 8,57007E-08 6,706558169 12,5958925
• Análise de Resíduos
Após a estimação do modelo, é preciso

verificar se os resíduos estão de acordo com os
pressupostos para o termo de erro do modelo:
- Homocedasticidade (variância constante)
- Não Autocorrelação (Corr(i,j) = 0,  ij)
- Normalidade ( segue distribuição Normal)

• Heterocedasticidade
Definição: variância do erro V()

não constante, variando com X.
Um padrão comum de
heterocedasticidade é:
V()   X
2 V() proporcional à X.
conforme sugerido pelo gráfico a seguir.

Gráfico dos resíduos indicando um
padrão usual de heterocedasticidade:
̂
X
• Autocorrelação
Corr(i,j)  0, ij.
Este tipo de violação é mais comum

em regressão de séries temporais, ao
contrário da heterocedasticidade, mais
comum em dados de corte transversal.
̂ t Autocorrelação positiva ̂ê t
X êˆ t 1
̂êtt Autocorrelação negativa ê̂ tt
X êˆ t 1
• Consequências das Violações
1. Sob Heterocedasticidade e/ou Autocorrelação:

O Teorema de Gauss-Markov não vale mais.
(os estimadores de MQO continuam sendo não
viciados e consistentes, mas não mais eficientes).
2. Sob Heterocedasticidade e/ou Autocorrelação

e/ou não-Normalidade: os testes t e F não são
mais válidos  não há como fazer inferências!
• Multicolinearidade
É a correlação alta entre os valores

das variáveis explicativas de um
modelo de regressão linear múltipla.
A multicolinearidade é um problema da
amostra, e indica que ela não fornece
informação suficiente para estimar com
precisão os efeitos individuais das variáveis.
Consequência da Multicolinearidade:
As variâncias dos estimadores de MQO

dos coeficientes serão elevadas/“infladas”,
fazendo com que os testes t de significância
usualmente adotados tendam a não rejeitar H0.
Obs - estamos falando da correlação alta, mas

não perfeita, entre as variáveis explicativas.
A multicolinearidade perfeita não pode existir,
pois tornaria impossível estimar o modelo!
Um forte indício de multicolinearidade é
quando os testes t individuais indicam que
os coeficientes não são significantes, mas o
teste F indica a significância conjunta deles.
Isto ocorre porque o teste F não

é afetado pela multicolinearidade.
• Notação Matricial
É comum expressar um modelo de regressão

linear utilizando vetores e matrizes.
Esta representação é denominada matricial.
A idéia é escrever o modelo para todo

i = 1, 2, ..., n em uma única equação.
Escrevendo o modelo para cada i:
Y1 = 0 + 1X11 + 2X21 +...+ kXk1 + 1

Y2 = 0 + 1X12 + 2X22 +...+ kXk2 + 2
Y3 = 0 + 1X13 + 2X23 +...+ kXk3 + 3
.
.
.
Yn = 0 + 1X1n + 2X2n +...+ kXkn + n
O modelo, em notação matricial, torna-se:
Y  Xβ   , sendo:
Y = (Y1, Y2, ..., Yn)`,  = (0, 1, ..., k)`,
 1 X11 ... X k1 
1 X ... X k 2 
X  12
,  = ( ,  , ...,  )`.
... ... ... ...  1 2 n
 
 1 X1n ... X kn 
1
β̂ MQO  (X`X) X`Y.
11. SÉRIES
TEMPORAIS -
MODELOS ARIMA
• Processo Estocástico
Um processo estocástico é um
conjunto de v.a.`s {Yt, t = 1,2,...,T}.
Uma série temporal é um conjunto
{yt, t = 1,2,...,T}, em que cada yt é tratado
como se fosse uma observação de uma v.a.
Yt que compõe um processo estocástico.
Formalmente, uma série temporal é uma
realização de um processo estocástico.
• Modelo de Séries Temporais
É o processo estocástico que supostamente

gerou a série, ou processo gerador dos dados.
Todos os modelos utilizam em sua

composição o processo estocástico mais
simples possível, chamado ruído branco.
• Ruído Branco
Ruído branco é o processo t tal que:
E( t )  0 e V( t )   , t
2
Corr (i ,  j )  0, i  j.
Já o ruído branco Gaussiano é tal que:

independentes e
i.i.d. identicamente
 t ~ N(0,  ), t.
2
distribuídas
• Passeio Aleatório (Random Walk)
Processo estocástico mais simples depois do

ruído branco, definido pela seguinte equação:
Yt  Yt 1   t , sendo  t um RB.
O passeio aleatório pode incluir uma constante:
Yt  0  Yt 1  t .
Propriedades do Passeio Aleatório:
Passeio aleatório sem constante:

E(Yt) = 0 e V(Yt) = t2
Passeio aleatório com constante:

E(Yt) = t0 e V(Yt) = t2
Demonstração (caso geral com constante):
Y1  0  1 (supondo Y0  0)
Y2  0  Y1   2 
0  0  1   2
 20  1   2
Y3  0  Y2   3
 30  1   2   3
A fórmula geral para um instante t genérico é:
t
Yt  t0    i ,
i 1
cujo valor esperado é :

  t
E (Yt )  t0  E   i  
 i 1 
t
t 0   E (  i )  t  0 .
i 1
E cuja variância é (lembrando
que os  i são descorrela cionados) :
 t
  t

V(Yt )  V t0    i   V( t0 )  V   i 
 i 1   i 1 
 t
 t
 V    i    V (  i )  t .
2
 i 1  i 1
Para o caso sem constante, basta fazer 0 = 0.
Processos como o passeio aleatório, em

que alguma característica (como média e/ou
variância) se altera ao longo do tempo (isto é,
depende de t), são chamados não estacionários.
• Estacionariedade (no sentido Forte)
Um processo estocástico é dito estacionário

(no sentido forte, estrito ou amplo) se suas
características não se alteram no tempo.
De forma geral, esta condição é muito difícil

de verificar, sendo comum adotar uma noção
mais simples - ou fraca - de estacionariedade.
• Estacionariedade Fraca ou de 2ª Ordem
Um PE é dito estacionário no sentido fraco,

fracamente estacionário, estacionário de 2a
ordem, ou ainda, covariância-estacionário, se
todas as 3 condições a seguir são satisfeitas:
E(Yt) = ,  t = 1,2,...,T (média constante)

V(Yt) = 2,  t = 1,2,...,T (variância constante)
Cov(Yt,Yt-k) = k (Cov é função apenas de k!)
• Processos/Modelos Gaussianos
Um PE é dito Gaussiano se o ruído branco

t envolvido em sua especificação segue
uma distribuição Normal ou Gaussiana.
Para processos Gaussianos,

estacionariedade fraca é suficiente para
garantir estacionariedade no sentido forte.
Exercício 11.1 - Dentre os modelos
estudados até aqui, identifique um:
a) não estacionário na média

b) não estacionário na variância
c) estacionário
• Operador de Defasagem (ou de
backshift) e Equação Característica
O operador de defasagem B é tal que BYt =

Yt-1 (B “defasa” Y em uma unidade de tempo).
Exemplo 11.1 - Seja o modelo:

Yt  0,8Yt 1  t .
Escreva este modelo em termos de B.
Solução:
Yt  0,8Yt 1   t
Yt  0,8BYt   t
Yt  0,8BYt   t
(1  0,8B)Yt   t
(1-0,8B) é chamado polinômio característico
do modelo. E a equação (1-0,8B) = 0 é
chamada equação característica do modelo.
• Modelo Autoregressivo ou AR
O modelo:
Yt  1Yt 1   t ,
é chamado autoregressivo de ordem 1,

ou AR(1). Trata-se de uma regressão
de Yt em seu valor defasado Yt-1.
• Condição de Estacionariedade
do Modelo AR(1)
Um modelo AR(1) é estacionário se o

módulo da raiz da sua equação
característica é maior do que 1.
Exemplo 11.2 - Verifique qual a condição
sobre 1 para que o AR(1) seja estacionário.
Solução - A equação característica é:

(1-1B) = 0, cuja raiz é: B = 1/1.
Para que |B| > 1, precisamos ter |1| < 1.
Conclusão: um modelo AR(1)

é estacionário se |1| < 1.
A aplicação do operador B k vezes
sucessivas defasa Y em k unidades de tempo.
Por exemplo:
B2Yt = Yt-2,
B3Yt = Yt-3,
e assim por diante.
O modelo AR(p) é definido da seguinte forma:
Yt  1Yt 1  2 Yt 2  ...  p Yt p   t
sendo p denominada ordem do modelo.
Em termos do operador de defasagem:
Yt  1BYt  2 B Yt  ...  p B Yt   t
2 p
Yt  1BYt  2 B Yt  ...  p B Yt   t
2 p
Isolando Yt:
(1  1B  2 B  ...  p B )Yt   t

2 p
polinômio característico
A equação característica deste modelo é:

1  1B  2 B  ...  p B  0
2 p
ou, na forma usual equivalent e :

p B  ...  2 B  1B  1  0
p 2
• Condição de Estacionariedade
do Modelo AR(p)
Um modelo AR(p) é estacionário se as raízes

da sua equação característica têm módulo > 1.
Se p = 2, pode-se aplicar a fórmula de Bhaskara
para encontrar as raízes de ax2 + bx + c = 0:
 b  b  4ac
2
x .
2a
Outro caminho é usar o fato de que as raízes

x1 e x2 de uma equação do segundo grau
satisfazem: x1 + x2 = -b/a e x1x2 = c/a.
Exercício 11.2 - Verifique se os
seguintes modelos são estacionários:
a ) Yt  0,8Yt 1  0,5Yt 2   t .
b) Yt  0,3Yt 1  0,6Yt 2   t .
A equação característica
do modelo em a) é:
1  0,8B  0,5B  0
2
ou :
0,5B  0,8B  1  0
2
cujas raízes são: 0,8248 e –2,4228.
O módulo de uma das raízes é menor do

que 1, portanto o modelo não é estacionário.
A equação característica
do modelo em b) é:
1  0,3B  0,6B  0
2
ou :
0,6B  0,3B  1  0
2
cujas raízes são: 1,065 e –1,565.
O módulo de ambas as raízes é maior do

que 1, portanto o modelo é estacionário
No caso de um AR(2), uma excelente dica é
que as condições de estacionariedade podem
ser representadas em termos de 1 e 2:
|2| < 1
1 + 2 < 1
2 - 1 < 1
Perceba que |1| < 1 e |2| < 1 não garantem a

estacionariedade do AR(2). Em particular, |1|
< 1 não é condição necessária nem suficiente.
Região de estacionariedade do AR(2),
representada no espaço dos coeficientes:
Obs - as raízes da equação característica
podem ser complexas. Uma forma geral de
expressar a condição de estacionariedade é
que as raízes estejam fora do círculo unitário.
No caso de raízes reais, a condição acima

equivale a terem módulo menor do que 1.
• Modelos de Médias Móveis ou MA
Em um modelo de médias móveis (MA), Yt

é representado como uma função linear dos
erros t presente e defasados. Por exemplo,
o modelo MA de ordem 1, ou MA(1), é:
Yt   t  1 t 1.
Obs - Pode haver uma constante 0
no modelo, embora seja pouco usual.
• Inversibilidade (Modelo MA)
Sob certas condições, um modelo MA pode

ser escrito como um AR com infinitos termos.
Neste caso, ele é denominado inversível.
Ou seja, um MA é uma especificação

parcimoniosa para um AR de ordem infinita.
Exemplo 11.3 - Inverta o modelo MA(1)
abaixo (isto é, escreva-o como um AR()):
Yt   t  0,8 t 1.
Solução:
Yt   t  0,8 t 1 
 t  0,8B t  (1  0,8B) t
1
 Yt   t .
1  0,8B
Obs - fórmula da soma de uma p.g. infinita,
com primeiro termo a1 e razão q tal que |q|<1:
a1
S  .
1 q
Esta fórmula pode ser aplicada

para inverter um modelo MA(1).
Invertendo a fórmula da soma da p.g.,
identificando que a1 = 1 e q = 0,8B:
1
 1  0,8B  0,64B ...
2
1  0,8B
E assim:
(1  0,8B  0,64B ...)Yt   t

2
Yt  0,8Yt 1  0,64Yt  2  ...   t

Yt  0,8Yt 1  0,64Yt  2  ...   t
• Condição de Inversibilidade
do Modelo MA(1)
Um modelo MA(1) é inversível se o

módulo da raiz da sua equação
característica é maior do que 1.
Exemplo 11.4 - Verifique qual a condição
sobre 1 para que um MA(1) seja inversível.
Solução - A equação característica é:

(1-1B) = 0, cuja raiz é: B = 1/1.
Para que |B| > 1, precisamos ter |1| < 1.
Conclusão: um modelo MA(1)

é inversível se |1| < 1.
O modelo MA de ordem q, ou MA(q), é:
Yt   t  1 t 1  2 t 2  ...  q  t q .
Em termos do operador de defasagem:
Yt   t  B1 t  B 2 t  ...  B q  t
2 q
 (1  B1  B 2  ...  B q ) t .
2 q
A equação característica deste modelo é:

1  B1  B 2  ...  B q  0
2 q
ou B q  ...  B 2  B1  1  0
q 2
As condições de inversibilidade para o
MA(q) são exatamente as mesmas que as
condições de estacionariedade para o AR(p).
Desta forma, as condições de inversibilidade

do MA(2) podem ser escritas em termos dos
coeficientes, por analogia com o AR(2), como:
|2| < 1
1 + 2 < 1
2 - 1 < 1
Exercício 11.3 - Verifique se os
seguintes modelos são inversíveis:
a ) Yt   t - 1,4 t 1
b) Yt   t - 1,4 t 1  0,5 t 2
R: a) não. b) sim.
• Inversibilidade (Modelo AR)
Um modelo AR é dito inversível se

ele pode ser escrito como um MA.
Um modelo AR finito e
estacionário é sempre inversível.
Um modelo MA finito é sempre estacionário

(isto pode ser verificado de maneira trivial)
Obs - na literatura de séries temporais,

designa-se o AR como trivialmente inversível,
e o MA como trivialmente estacionário.
• Modelo ARMA(p,q)
O modelo ARMA de ordens p e q para

Yt é especificado da seguinte forma
Yt  0  1Yt 1  2 Yt 2  ...  p Yt p
  t  1 t 1  2 t 2  ...  q  t q .
A condição de estacionariedade é definida

pela equação característica da parte AR, e a
condição de inversibilidade, pela parte MA.
• Tendências em Séries Temporais
Uma tendência é uma trajetória geral

em torno da qual a série oscila, e que
pode ser determinística ou estocástica.
• Tendência Determinística
Uma tendência determinística é aquela

que é representável por um modelo linear:
Yt = 0 + 1t + t, t = 1, 2, ..., T.
Esta tendência é estimável por MQO. Ela

também pode ser quadrática, exponencial, etc.
• Tendência Estocástica
Uma tendência estocástica caracteriza-se

pela presença de raiz(es) unitária(s) na
equação característica do modelo.
• Raiz Unitária
Considere o passeio aleatório:
Yt  Yt 1   t .
Escrevendo o modelo em termos de B:

Yt  BYt   t
(1  B)Yt   t
A equação característica é:
(1-B) = 0, cuja raiz é: B = 1.
Nesta situação, dizemos que a série, ou

(mais precisamente) seu processo gerador,
possui uma raiz unitária, que é um tipo
de tendência denominada estocástica.
Para remover a raiz unitária da série,
é necessário diferenciá-la, ou seja, fazer:
Yt  Yt  Yt 1.
 = 1-B
A série estacionária é denotada por Zt,

que no caso do exemplo é o ruído branco:
Zt  Yt   t .
• Ordem de Integração
A série original Yt, antes de ser

diferenciada, é denominada integrada.
Pode ser necessário diferenciar a série

mais de uma vez. O número d de vezes que
a série precisa ser diferenciada para se tornar
estacionária é chamado ordem de integração.
Neste caso, dizemos que Yt é integrada de

ordem d, ou “I de d”, e a notação é: Yt ~ I(d).
• Box & Jenkins p/ Séries Não Estacionárias
Para representar uma série por um modelo

ARMA, é necessário que ela seja estacionária.
Se Yt ~ I(d), precisamos diferenciá-la d vezes.
A série diferenciada (estacionária) é Zt = dYt.
Se Zt segue um ARMA(p,q), dizemos que

Yt segue um ARIMA(p,d,q), em que o “I”
no meio significa Integrated (integrado).
• Modelo ARIMA(p,d,q)
Seja Yt ~ I(d) e Zt = dYt, sendo d o número

de vezes que Yt precisa ser diferenciada para
tornar-se estacionária (= ordem de integração).
O modelo ARIMA de ordens p, d e q
para Yt é especificado da seguinte forma:
Z t  0  1Z t 1  2 Z t 2  ...  p Z t p   t
 1 t 1  2 t 2  ...  q  t q , com Z t   Yt .
d
• Propriedades Estatísticas dos Modelos
Uma vez descritas as condições de

estacionariedade e inversibilidade de
um modelo ARMA, é importante calcular
o valor esperado e a variância associados a
cada modelo específico, bem como descrever
as estruturas de dependência correspondentes.
• Valor Esperado
com constante
Modelo AR(1): Yt = 0 + 1Yt-1 + t, |1|<1.
E(Yt )  E(0 )  1E(Yt 1 )  E( t ) 

0  1E(Yt 1 )  0  0  1E(Yt 1 ).
Sob estacionariedade : E(Yt )  E(Yt 1 ).

0
Daí : E(Yt )  0  1E(Yt )  E(Yt )  .
1  1
Modelo AR(p):
0
E(Yt )  p .
1   j
j1
Modelo MA(q) – é fácil verificar que:
E(Yt) = 0 (0 para o modelo com constante).

Modelo ARMA(1,1):
Yt = 0 + 1Yt-1 + t - 1t-1, |1|<1, |1|<1.
0
E(Yt )  (mesma média do AR(1)).
1  1
Obs - no ARMA(1,1) s/ constante: E(Yt) = 0.

Para o cálculo da variância,
a seguinte fórmula será útil:
Se C = aX + bY, então: V(C) =

a2V(X) + b2V(Y) + 2abCov(X,Y).
• Variância
Modelo AR(1): Yt = 0 + 1Yt-1 + t, |1|<1.
V(Yt )  V(0 )   V(Yt 1 )  V( t )

2
1
 0  12 V(Yt 1 )   2 , pois Cov(Yt 1 ,  t )  0.
Sob estacionar iedade : V(Yt )  V(Yt 1 ).

 2
Daí : V(Yt )   V(Yt )    V(Yt ) 
2 2
.
1  1
1 2
Modelo MA(1) - Yt = t - 1t-1, |1|<1.
V(Yt )  V( t )   V( t 1 ), pois Cov( t ,  t 1 )  0.

2
1
Mas V( t )  V( t 1 )   , e assim :

2
V(Yt )       (1   ) .
2 2
1
2 2
1
2
Modelo MA(q) - é fácil verificar que:

q
V(Yt )  (1    ) . 2
j
2
j1
Modelo ARMA(1,1):
Yt = 0 + 1Yt-1 + t - 1t-1, |1|<1, |1|<1.
V(Yt )   V(Yt 1 )  V( t ) 

2
1
 V( t 1 )  211Cov(Yt 1 ,  t 1 ).
2
1
Sob estacionar iedade : V(Yt )  V(Yt 1 ),

Daí : V(Yt )   V(Yt )  V( t ) 
2
1
 V( t 1 )  211Cov(Yt 1 ,  t 1 ).
2
1
A covariânci a é calculada a seguir :
Cov(Yt 1 ,  t 1 ) 
Cov(1Yt  2   t 1  1 t  2 ,  t 1 ) 
Cov( t 1 ,  t 1 )  V( t 1 )   . 2
E assim : V(Yt )   V(Yt )     

2
1
2 2
1
2
1    211 2 2
 211  V(Yt ) 
2
 .1
1  1
2
Exercício 11.4
Sobre o processo Yt = 0,8Yt-1 + 0,2Yt-2
+ t – 0,8t-1, julgue as seguintes proposições:
(1) Yt segue um ARMA(1,2) ( )
(2) Se o coeficiente de t-1 fosse 1,1,
ao invés de 0,8, o processo Zt =
(1-B)Yt seria não estacionário ( )
(3) Se 2 = 1, a variância do processo
Wt = (1-B)(1+0,2B)Yt é igual a 1,64 ( )
(R: FFV)
Metodologia de Box & Jenkins:
Identificação

Estimação

Diagnóstico

Previsão
• Identificação
A primeira etapa da metodologia proposta

por Box & Jenkins para a análise de uma
série temporal é a identificação das ordens
p e q do modelo. Isto envolve os conceitos
de Função de Autocovariância (FACV),
Função de Autocorrelação (FAC) e
Função de Autocorrelação Parcial (FACP).
• FACV - Função de Autocovariância
Vimos que, em um modelo estacionário,

Cov(Yt,Yt-k) é função apenas de k (e não de t).
Neste caso, k = Cov(Yt,Yt-k) é chamada

Função de Autocovariância (FACV) de
Yt, definida para k = 0, 1, 2, ...
Note que: 0 = Cov(Yt,Yt) = V(Yt).

Obs - qual o significado do termo lag?
Cada valor k para o qual definimos k =

Cov(Yt,Yt-k) é chamado defasagem, ou,
do inglês, lag. Este anglicismo é muito
comum na literatura de séries temporais.
É usual, portanto, nos referirmos a k

por função de autocovariância de lag k.
• FAC - Função de Autocorrelação
k
k  Corr (Yt , Yt k )  
V(Yt ) V(Yt k )
k k k
  .
V(Yt ) V(Yt ) V(Yt )  0
pois o modelo é suposto estacionário!
Esta função também é definida para

os lags k = 0, 1, 2, ..., sendo 0 = 1.
Para o Modelo AR(1):
1  Cov(Yt , Yt 1 )  Cov(0  1Yt 1   t , Yt 1 )
 1Cov(Yt 1 , Yt 1 )  1V(Yt 1 )  1V(Yt )  1 0 .
 2  Cov(Yt , Yt  2 )  Cov(0  1Yt 1   t , Yt  2 )

 1Cov(Yt 1 , Yt  2 )  11  1  0 .
2
 3  Cov(Yt , Yt 3 )  Cov(0  1Yt 1   t , Yt 3 )

 1Cov(Yt 1 , Yt 3 )  1 2  1  0 .
3
A fórmula geral é:
 k  1 k 1    0 .
k
1
 2
Mas  0  V(Yt )  , e assim

1  1
2
a FACV do modelo AR(1) é :

 k
k  1
 , k  1, 2, ...
2
1  1
2
A FAC do modelo AR(1) é :
k
k   1 , k  1, 2, ...
k
0
A FAC de um modelo AR(1) apresenta

decaimento exponencial, se 1>0, e é uma
senóide amortecida, se 1<0. A FAC de um
modelo AR(p) também apresenta este padrão.
Para o Modelo MA(1):
1  Cov(Yt , Yt 1 ) 
Cov( t  1 t 1 ,  t 1  1 t  2 ) 
 1Cov( t 1 ,  t 1 )  1 . 2
 k  0, k  2, 3, ....
A FAC do modelo M A(1)é :
 1
1  .
(1  1 )
2
 k  0, k  2, 3, ...
Dizemos que a FAC do MA(1) é

“truncada” no lag (= defasagem) 1.
FAC do AR(2): Yt = 0 + 1Yt-1 + 2Yt-2 + t.
1
1 
(1   2 )
 2
2  1
 2
(1   2 )
etc.
FAC do MA(2): Yt = t - 1t-1 - 2t-2.
1 ( 2  1)
1 
1  1   2
2 2
 2
2 
1  1   2
2 2
A FAC do MA(2) é
“truncada” no lag 2.
 k  0, k  3,4,....
A FAC de um modelo MA(1) é truncada em 1.
A FAC de um modelo MA(q) é truncada em q.
Este resultado pode ser utilizado para

identificar a ordem q de um modelo MA.
• Identificação de um Modelo MA
O que se faz na prática é estimar a FAC,

e fazer o seu gráfico. A FAC estimada
é chamada FAC amostral ou correlograma.
Se o correlograma apresenta um
comportamento similar àquele que
corresponde ao modelo MA(q), então
identificamos este modelo para a série.
• Estimação da FAC
Para cada lag k, calcula-se a correlação

amostral entre Yt e Yt-k, da seguinte forma:
T
 (Yt  Y)(Yt k  Y)
ˆ k  t  k 1
T
, k  0, 1, 2, ...
 t
( Y  Y ) 2
t 1
média amostral da série

• Identificação de um
Processo Não Estacionário
Qual o comportamento esperado para o

correlograma de uma série não estacionária?
Ela deverá apresentar decaimento

lento, pois a estimativa do coeficiente
autoregressivo deve ser próxima de 1.
• FACP
A Função de Autocorrelação Parcial FACP

é a correlação parcial entre Yt e Yt-k, ou seja,
é a correlação entre Yt e Yt-k, após ter sido
descontada a influência de Yt-1, Yt-2, ..., Yt-k+1.
Notação: kk.
Obs1 - por definição: 11 = 1.

Obs2 - no modelo AR(p), pp = p.
• Estimação da FACP
Usa-se o fato de que, no AR(p), pp = p.

Assim, ˆ pp  ˆ p .
Estima-se modelos AR de diferentes ordens,

tomando como estimativa de kk a estimativa
do coeficiente k do termo Yt-k do AR(k).
A FACP estimada é chamada FACP amostral.

O resultado fundamental envolvendo a FACP
é: no modelo MA(q), ela tem comportamento
igual à FAC de um modelo AR (decaimento
exponencial ou senóide amortecida), e no
modelo AR(p), ela é truncada no lag p.
Este resultado pode ser utilizado para

identificar a ordem p de um modelo AR.
• Identificação de um Modelo AR
O que se faz na prática é estimar a FACP,

e fazer o seu gráfico. Se a FACP amostral
- também chamada correlograma parcial -
apresenta um comportamento similar
àquele que corresponde ao modelo AR(p),
identificamos este modelo para a série.
Exemplo 11.5 - Sejam as seguintes
FAC e FACP estimadas:
Neste caso, identifica-se claramente um AR(1).

Resumo - Identificação de um Modelo ARMA:
A FAC de um MA(q) é truncada em q.

A FACP de um AR(p) é truncada em p.
FAC e FACP de um ARMA(p,q)
apresentam uma mistura
dos comportamentos acima.
Um ARIMA(p,d,q) com d>0 (raiz unitária)
apresenta FAC com decaimento muito lento.
• Estimação dos Parâmetros
Uma vez identificado um modelo, a etapa

seguinte da metodologia de Box & Jenkins
é a estimação dos parâmetros do modelo.
A estimação de um modelo de Box e Jenkins

é feita por um método complicado denominado
máxima verossimilhança condicional, ou por
um método mais simples, que é o cobrado em
concursos, que é o método dos momentos.
• Método dos Momentos
É uma forma simples de obter estimativas

dos parâmetros de um modelo ARMA.
Consiste em utilizar as expressões teóricas

da FAC, que são funções dos coeficientes do
modelo, substituir nestas fórmulas as estimativas
das correlações, e resolver para os coeficientes.
Exercício 11.5 - O correlograma de uma
série é truncado no lag 1, com ̂1 = -0,4.
Identifique o modelo adequado para esta série
e estime-o utilizando o método dos momentos.
Resposta: Yt = t – 0,5t-1.
Obs - caímos em uma equação do segundo grau

cujas raízes são 0,5 e 2. Por que descartamos o 2?
Exercício 11.6 - Estime o modelo AR(1)
para uma série cuja média é zero e cujas
FAC e FACP amostrais são dadas a seguir:
Resposta: Yt = 0,6Yt-1 + t.

• Testes de Significância
A significância dos parâmetros pode ser testada

por meio do mesmo teste t usado em regressão.
Após os testes de significância, os modelos são

comparados mediante critérios de informação.
• Critérios de Informação
Motivação: assim como ocorre com modelos

de regressão, modelos de séries temporais com
mais parâmetros apresentam melhor ajuste,
isto é, menor soma de quadrados dos resíduos.
Os critérios de informação são fórmulas para

escolher entre 2 ou mais modelos estimados,
que têm um papel similar ao do R2 ajustado, no
caso da comparação de modelos de regressão.
Basicamente, eles computam a soma de
quadrados dos resíduos, mas penalizam de
forma adequada o número de parâmetros.
Os critérios de informação mais usuais são

o de Akaike (AIC) e o de Schwarz (BIC) (este
último funciona melhor em grandes amostras).
.
É considerado melhor o modelo que gera o
menor valor para o critério de informação.
• Análise de Resíduos (Diagnóstico)
Uma vez identificado e estimado um modelo,

devemos verificar se os resíduos apresentam
as propriedades esperadas para eles.
Ou seja, se eles se comportam

de acordo com um ruído branco.
Uma estratégia usual é verificar
se o IC para  j contém o zero.
Este IC é aproximada mente :
1
IC100(1- )% ( j )  [ˆ j  z  V̂(ˆ j ) ], sendo V̂(ˆ j )  .
2 T
Um teste mais apropriado, que considera

conjuntamente as estimativas das correlações
de diversas ordens, é o teste de Ljung-Box.
• Teste de Ljung-Box
Verifica se a FAC estimada dos resíduos

é similar à esperada para um ruído branco.
Denotando por j a autocorrelação de lag j

da série de resíduos, as hipóteses do teste são:
H0: 1 = 2 = 3 ... = K = 0.
H1: ao menos um j (j = 1, 2, .., K)  0.
arbitrário, suficientemente grande
Estatística do teste:
K ˆ 2
Q  n (n  2)
j
.
j1 (n  j)
Sob H0 , Q ~  2
.
K -(número de parâmetros estimados)
Por exemplo, no caso do AR(p): Q ~  2K -p ,

e no caso do ARMA(p,q) : Q ~  2K -(p q).
• Previsão de Séries Temporais
A função de previsão k passos a frente

de um modelo de séries temporais é:
Ŷt  k|t  E(Yt  k | Yt , Yt 1 ,...)
origem da previsão horizonte de previsão
Obs  outra notação possível : Ŷt (k).

Exercício 11.7 - considere o modelo:
Yt = 40 + 0,6Yt-1 + t. Se Yt-3 = 35, Yt-2 = 28,
Yt-1 = 38 e Yt = 30, obtenha as previsões para
1 e 2 passos à frente feita a partir do instante t.
Re spostas:
Ŷt 1|t  58 e Ŷt  2|t  74,8.

• Previsão de Longo Prazo do AR(1)
Se |1|<1 (condição de estacionariedade):
0
Ŷt  k|t k


1  1
Conclusão importante:
A previsão de longo prazo do modelo AR(1)
é igual à sua média incondicional E(Yt).
• Amortecimento Exponencial
Outra forma popular de fazer previsão de

uma série temporal é um método chamado
amortecimento (ou suavização) exponencial.
Ele consiste em adotar como função de previsão:

Ŷt 1|t  Yt  (1  )Ŷt|t 1 ,
em que (0,1) é a constante de amortecimento
(arbitrária ou escolhida para minimizar o EQM).
Obs1 - as previsões costumam ser feitas a partir
de t = 1, sendo o ponto de partida a primeira
previsão:Ŷ1|0 , cujo valor é impossível de ser
determinado (pois dependeria de Y0). Neste
sentido, é usual considerar: Ŷ1|0  Y1.
Obs2 - É possível escrever a função de previsão

do amortecimento exponencial a partir de uma
soma ponderada das observações passadas,
com pesos exponencialmente decrescentes:
Ŷt 1|t  Yt  (1  )Yt 1  (1  ) Yt 2  ...
2
• Sazonalidade e Modelos SARIMA
Sazonalidade é a repetição periódica de

um comportamento, geralmente anual.
O modelo ARIMA pode ser ampliado para

considerar a sazonalidade da série temporal.
O modelo resultante é denominado

SARIMA (= Seasonal ARIMA).
Exemplo 11.6 - SARIMA (1,0,1)x(1,0,1)S:
(1-B)(1-BS)Yt = (1-B)(1-BS)t
Exemplo 11.7 - SARIMA (1,1,1)x(1,1,1)S:
(1-B)(1-BS)(1-B)(1-BS)Yt = (1-B)(1-BS)t
12. RAÍZ UNITÁRIA
E REGRESSÃO DE
SÉRIES TEMPORAIS
• Testes de Raiz Unitária
Para testar a existência de uma raiz

unitária, é usual pressupor o seguinte p.g.d.:
Yt =  + Yt-1 + t
As hipóteses a serem testadas são:
H0:  = 1 x H1:  < 1.

Algumas observações:
1. >1 é desconsiderado (pois

corresponde a um p.g.d. “explosivo”).
2. A hipótese nula é que há raiz unitária
3. Especifica-se H1 como <1, e não como

||<1, porque é bem raro encontrar séries
econômicas para as quais  seja negativo.
Desta forma, na prática: H1: 0<<1.
É conveniente reparametrizar o modelo
subtraindo Yt-1 de ambos os lados:
Yt - Yt-1 =  + Yt-1 -Yt-1 + t

Yt =  + (-1)Yt-1 + t
Yt =  + Yt-1 + t, em que  = -1.
A vantagem desta reparametrização é que o
teste de raiz unitária passa a ser um teste de
significância (unilateral) da estimativa de .
De fato,  =1   = 0 e  < 1   < 0, assim

as hipóteses do teste podem ser escritas como:
H0:  = 0 x H1:  < 0. teste unilateral

à esquerda.
Estatística do Teste:
ˆ mesma estatística
 . T usual, agora
V̂(ˆ ) chamada de .
Problema: sob H0 (=0), a estatística 

acima não possui distribuição t, e nem
mesmo distribuição assintótica Normal.
A distribuição adequada para  foi obtida
por Dickey & Fuller (1979), em estudos de
simulação. O teste que compara o valor de 
na amostra com os valores críticos obtidos por
D & F é chamado teste de Dickey-Fuller (DF).
• Teste de Dickey-Fuller (DF)
1. Rodar a regressão Yt =  + Yt-1 + t.
2. Calcular  (que nada mais é do que a

estatística T usual para testar =0).
3. Rejeitar H0 (raiz unitária) se  < DF

(valor crítico de Dickey-Fuller para o nível ).
Valores Críticos do Teste DF
(grandes amostras):
  1% 5% 10%
DF  -3,43 -2,86 -2,57
Se, por exemplo,  = -2,

não rejeitamos H0 a 5%.
(qual seria a decisão se fosse usado o

valor crítico da distribuição Normal?)
Observação importante: antes de calcular o
valor de  e fazer o teste de raiz unitária, é
necessário verificar se os resíduos do modelo
estimado estão “bem comportados”, isto é, se
apresentam comportamento de ruído branco.
Se existir alguma estrutura de autocorrelação,

é necessário inserir defasagens da variável
dependente (ou seja, de Yt), até que os
resíduos passem a ter FAC de ruído branco.
(ou que, no teste de LB, H0 não seja rejeitada)
Inicialmente, inclui-se Yt-1:
Yt =  + Yt-1 + 1Yt-1 + t
Se os resíduos continuarem “mal comportados”,

inclui-se Yt-2, em seguida Yt-3 e assim
por diante, até “branquear” os resíduos.
O teste DF considerando o modelo ampliado

é chamado teste aumentado de Dickey-Fuller.
• Teste ADF (Augmented Dickey-Fuller)
O teste ADF é igual ao teste DF, porém

acrescentando ao modelo p defasagens de Y:
Yt =  + Yt-1 + 1Yt-1 + ... + pYt-p + t
Os valores críticos para o teste ADF são

exatamente os mesmos que no teste DF.
• O Problema da Regressão Espúria
Considere uma regressão de uma série

temporal Yt em outra série temporal Xt:
Yt = 0 + 1Xt + ut.
Se Yt e Xt são séries temporais I(1),

os resultados desta regressão serão,
em geral, aparentemente excelentes.
Granger e Newbold (1974) efetuaram
várias regressões entre passeios aleatórios
independentes, e verificaram que, na
maioria das vezes, a estatística t foi
significante e o R2 foi muito elevado.
Concluíram que esses resultados são espúrios

(= enganosos, sem consistência estatística),
e não evidenciam uma relação entre as séries,
sendo fruto apenas da tendência comum a elas.
Porém, uma regressão envolvendo séries I(1)
em geral conduz a coeficientes significantes e R2
alto, ainda que estas séries sejam independentes.
Neste caso, a regressão é espúria, porque estes

resultados não são confiáveis. Os estimadores
de MQO dos coeficientes são inconsistentes!
Se as séries envolvidas são I(1), apenas a
regressão na diferença das séries é válida!
(mas não costuma ser muito útil)
Há, porém, um caso particular em que os

resultados da regressão entre séries I(1)
são confiáveis: se elas forem cointegradas.
• Cointegração
Duas séries não estacionárias Yt e Xt com a

mesma ordem de integração d (>0) são ditas
cointegradas se existe alguma combinação
linear de Yt e Xt que seja estacionária (I(0)).
Obs - duas séries com diferentes ordens

de integração não podem ser cointegradas.
Pode haver mais de uma combinação linear
de Yt e Xt que seja I(0). É usual fixar em 1 o
coeficiente de Yt, e neste caso Yt-Xt é única.
 é chamado parâmetro de cointegração.
Apresentamos a seguir o procedimento

mais simples e mais popular para testar
cointegração: o teste de Engle-Granger.
• Teste de Engle-Granger
O teste de cointegração de Engle-Granger

consiste em investigar se o resíduo da
regressão de Yt em Xt é estacionário.
Se o resíduo for estacionário, então ele

é uma combinação linear estacionária
de Yt e Xt, logo elas são cointegradas.
Passos do teste de Engle-Granger:
Passo 1 - rodar a seguinte regressão:

Yt = 0 + 1Xt + ut.
Passo 2 - obter os resíduos

da regressão em 1:
û t  Yt  (ˆ 0  ˆ 1X t ).
Passo 3 - Testar a presença de raiz unitária
na série dos resíduos obtidos em (2), isto é:
Passo 3.1 - obter a série

de diferença dos resíduos:
û t  û t  û t 1.
Passo 3.2 - rodar a regressão
necessária para o teste DF/ADF:
û t    û t 1   t ou
p
û t    û t 1    jû t  j   t
j1
e aplicar o teste de raiz unitária, considerando

valores críticos específicos para este teste. Se o
resíduo for estacionário, Y e X são cointegradas!
O que fazer se Yt e Xt forem
I(1), mas não cointegradas?
Se Yt e Xt não são cointegradas, a regressão

entre elas é “espúria” e não informa nada
importante. Neste caso, não existe relação de
longo prazo entre Yt e Xt, e o máximo que se
pode fazer é uma regressão de Yt em Xt.
O que fazer se Yt e Xt forem cointegradas?
Se Yt e Xt são cointegradas, então a regressão

de Yt em Xt é válida, representando a relação
de longo prazo entre as séries. Os estimadores
são consistentes e os resultados não são espúrios.
Neste caso, a análise de regressão usual

(testes t e F, R2, etc.) é válida e confiável.

BNDES - Economia PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

BNDES - Economia PDF

Enviado por

Direitos autorais:

Formatos disponíveis

Conheça a parceria entre o Curso DSc

Professor (DSc) Eduardo Campos

11,8 3,6 16,6 13,5 4,8 8,3

Que conclusões você pode tirar?

É disto que trata a

As classes não precisam

1. As frequências absolutas de cada classe não

O histograma é uma representação

Como obter o histograma?

O histograma de frequências relativas tem o

É a curva obtida quando ligamos os pontos

Representação gráfica apropriada para

Consiste de barras verticais centradas

O gráfico de Pareto, usual em controle de

Em geral, é sobreposta a ele uma curva de

O gráfico de pizza, ou de setores, é um

É apropriado quando o objetivo

Uma medida de posição é um valor em

Sinônimos: medida de localização

Principais medidas de posição:

É a soma das observações dividida

Note que o valor 10,3 não ocorre.

Salários de economistas recém-formados

Salário médio (destes 5 economistas):

Este número é representativo

Claramente, o valor responsável

O “6,0” é um valor atípico ou discrepante,

A média é uma medida de posição

Neste caso, é recomendável utilizar outra

É o valor Md que divide os dados

Se n for ímpar: Md = observação central.

3,0 é mais representativo da posição ou

Exemplo 1.6 - O gerente de uma loja de

A moda é o valor que ocorre com

Exercício 1.1 - As notas de uma turma

Calcule o salário médio dos

A média ponderada, p, é definida como:

peso da i-ésima observação (no exemplo,

Resposta do exemplo 1.7: R$ 3.291,67.

Quando os dados estão disponíveis agrupados

O que se faz é a média dos pontos médios

Solução:   (2*45 + 5*55 +

Exemplo 1.8 - Considere a distribuição

O cálculo da mediana é feito

Faixas de Consumo Frequência Acumulada

Assim, a mediana é: Md  146,8 KWh.

Frequentemente, uma medida de posição

Exemplo 1.9 - Dois fornecedores, A e

Com base nos prazos acima, qual dos

Naturalmente, você escolheria o fornecedor B

É a média dos quadrados dos desvios:

Exercício 1.3 - Seja um conjunto de 3 dados:

Prazos de entrega aos últimos 5 clientes:

Fornecedor A – 18; 10; 17; 3; 2.

Para o fornecedor A: 2 = 45,2.

Como consequência, a variância

Por esta razão o desvio padrão, apresentado

No exemplo 1.9, para o fornecedor A:  =

Esta medida deve ser usada quando o

Quando queremos comparar dados

Sabe-se que o salário médio dos

No caso dos auxiliares de escritório, cujos

Já para os gerentes, cujos salários estão em

Solução:   (245 + 555 +