Você está na página 1de 702

Conheça a parceria entre o Curso DSc

e a XP Investimentos! Procure a
Secretaria.

Estatística
Turma Preparatória

BNDES/Economia

Professor (DSc) Eduardo Campos


1. ESTATÍSTICA
DESCRITIVA
Exemplo 1.1 - Faturamento bruto no mês
passado, em milhões de R$, das 30 filiais
de uma determinada empresa de varejo:

11,8 3,6 16,6 13,5 4,8 8,3


8,9 9,1 7,7 2,3 12,1 6.1
10,2 8,0 11,4 6,8 9,6 19,5
15,3 12,3 8,5 15,9 18,7 11,7
6,2 11,2 10,4 7,2 5,5 14,5

Que conclusões você pode tirar?


Esses dados estão na chamada forma
bruta, difícil de analisar diretamente.
Precisamos usar técnicas adequadas para
resumí-los ou facilitar sua visualização.

É disto que trata a


estatística descritiva!
Distribuição de Frequências

A distribuição de frequências é
uma tabela que agrupa os dados
em classes (intervalos), indicando o
número ou a proporção de observações
que pertencem a cada uma das classes.

As classes não precisam


ter amplitudes iguais.
• Distribuição de Frequências Absolutas
Classe Frequência
2 | 5 3
5 | 8 7
8 | 11 7
11 | 14 7
14 | 17 4
17 | 20 2
Total: 30
A notação | significa que o extremo inferior da classe
não está incluído, e o extremo superior está incluído!
Limitações da distribuição
de frequências absolutas:

1. As frequências absolutas de cada classe não


têm interpretação direta. É sempre necessário
olhar para o total de observações consideradas.
2. Não permite a comparação com outra
distribuição cujos totais sejam diferentes.
O uso de frequências relativas
soluciona os problemas acima.
• Distribuição de Frequências Relativas
Representa a proporção ou o percentual
de observações que caem em cada classe.
Classe Frequência Relativa
2 | 5 3/30 = 0,1 = 10%
5 | 8 = 7/30 ou 23,33%
8 | 11 23,33%
11| 14 23,33%
14 | 17 13,33%
17 | 20 6,67%
Total: 1 = 100%
• Distribuição de Frequências Acumuladas
Representa a soma das frequências
até a classe considerada (inclusive).
Classe Frequência Acumulada
2 | 5 3 ou 10%
5 | 8 3 + 7 = 10 ou 33,3%
8 | 11 3 + 7 + 7 = 17 ou 56,7%
11| 14 24 ou 80%
14 | 17 28 ou 93,3%
17 | 20 30 ou 100%
Histograma

O histograma é uma representação


gráfica da distribuição de frequências.

Como obter o histograma?


Colocar as classes no eixo horizontal,
as frequências no eixo vertical,
e traçar um diagrama de barras.
Histograma (Frequências Absolutas) - ex. 1.1:

Frequências
10
8
6
4
2
0
Classes
2-|5 5-|8 8-|11 11-|14 14-|17 17-|20

O histograma de frequências relativas tem o


mesmo formato, com o eixo vertical modificado.
• Curva ou Polígono de Frequências

É a curva obtida quando ligamos os pontos


médios das linhas superiores das barras do
histograma (que pode ser o de frequências
absolutas ou o de frequências relativas).
• Gráfico de Barras

Representação gráfica apropriada para


variáveis que representam contagens.

Consiste de barras verticais centradas


nos valores assumidos pela variável,
e com espaços separando as barras.
Exemplo 1.2
Distribuição das reclamações diárias no
SAC de uma empresa em um certo mês:
• Gráfico de Pareto e Ogiva

O gráfico de Pareto, usual em controle de


qualidade, é uma ferramenta estatística que
dispõe os eventos de interesse em ordem
decrescente de frequência de ocorrência.

Em geral, é sobreposta a ele uma curva de


frequências acumuladas, denominada ogiva.
Exemplo 1.3 - Análise dos tipos de defeito nas
chapas fabricadas por uma empresa siderúrgica.

Ogiva
• Gráfico de Pizza ou de Setores

O gráfico de pizza, ou de setores, é um


diagrama estatístico bastante popular.

É apropriado quando o objetivo


é identificar partes de um todo.
Exemplo 1.4:
• Medidas de Posição

Uma medida de posição é um valor em


torno do qual os dados estão concentrados.

Sinônimos: medida de localização


ou de tendência central.

Principais medidas de posição:


Média , Mediana e Moda.
Média

É a soma das observações dividida


pelo número de observações:
n

xx 1  x 2  ...  x n
i
 i 1
.
n n

no de i-ésima
observações observação
No exemplo 1.1, o faturamento médio
é  = 307,7/30 = 10,3 milhões.

Note que o valor 10,3 não ocorre.

Nenhum problema!
A média de um conjunto de dados não
precisa ser um dos valores observados.
Exemplo 1.5:

Salários de economistas recém-formados


(em R$ 1.000): 2,8; 6,0; 2,6; 3,1; 3,0.

Salário médio (destes 5 economistas):


 = 3,5 (R$ 3.500,00).

Este número é representativo


dos salários desses 5 economistas?
R: Não, pois está bem acima
de 4 dos 5 valores.

Claramente, o valor responsável


por esta distorção foi o “6,0”.

O “6,0” é um valor atípico ou discrepante,


tecnicamente denominado outlier.
Conclusão:

A média é uma medida de posição


muito sensível à presença de outliers!

Neste caso, é recomendável utilizar outra


medida de posição, chamada mediana!
Mediana

É o valor Md que divide os dados


ordenados em duas partes iguais.

Se n for ímpar: Md = observação central.

Se n for par:
Md = média das duas observações centrais.
Exemplo 1.5 (cont.):

Salários ordenados:
2,6; 2,8; 3,0; 3,1; 6,0.

Md = 3,0.

3,0 é mais representativo da posição ou


tendência central destes salários. A mediana
é uma medida robusta ou resistente a outliers.
Em algumas situações, nem a média nem
a mediana serão medidas apropriadas.

Exemplo 1.6 - O gerente de uma loja de


calçados está interessado em saber qual
tamanho de calçado ele deve priorizar na
hora de planejar seu estoque, a partir dos
tamanhos dos calçados vendidos no último
mês. Qual a medida de posição adequada?
Moda

A moda é o valor que ocorre com


maior frequência em um conjunto
de observações (notação: Mo).

Exercício 1.1 - As notas de uma turma


foram: 9, 7, 8, 6, 3, 8, 7 e 8. Obtenha a
média, a mediana e a moda das notas.
Um conjunto de dados que possua 2 modas
é chamado bimodal. Se possui mais de 2,
multimodal. Se não possui moda, amodal.
Exemplo 1.7 - Em uma pequena empresa,
os salários dos 12 funcionários estão
distribuídos da seguinte forma:

5 ganham R$ 2.500,00;
2 ganham R$ 3.000,00;
3 ganham R$ 4.000,00;
2 ganham R$ 4.500,00.

Calcule o salário médio dos


funcionários desta empresa.
Média Ponderada

A média ponderada, p, é definida como:


n

 x 1 x 1  2 x 2  ...  n x n
i i
p  i 1
 .
1  2  ...  n
n

 i i 1

peso da i-ésima observação (no exemplo,


frequência de ocorrência do i-ésimo salário).

Resposta do exemplo 1.7: R$ 3.291,67.


• Média para Dados Agrupados

Quando os dados estão disponíveis agrupados


(na forma de uma distribuição de frequências),
só é possível obter a média por aproximação.

O que se faz é a média dos pontos médios


das classes, ponderados por suas frequências.
Exercício 1.2 - Obtenha o peso médio da
população cuja distribuição de frequências é:
Classe Frequência
40 | 50 Kg 2
50 | 60 Kg 5
60 | 70 Kg 7
70 | 80 Kg 8
80 | 90 Kg 3

Solução:   (2*45 + 5*55 +


7*65 + 8*75 + 3*85)/25 = 67 Kg.
• Mediana para Dados Agrupados

Exemplo 1.8 - Considere a distribuição


de frequências dos consumos domiciliares
mensais de energia elétrica em uma
determinada área, apresentada a seguir:
Faixas de Consumo Frequência Relativa

0 | 50 KWh 8%
50 | 100 KWh 12%
100 | 150 KWh 32%
150 | 300 KWh 40%
300 | 500 KWh 8%
Total: 100%

O cálculo da mediana é feito


por meio de uma regra de 3.
O primeiro passo é obter
a distribuição acumulada:

Faixas de Consumo Frequência Acumulada

0 | 50 KWh 8%
50 | 100 KWh 20%
100 | 150 KWh 52%
150 | 300 KWh 92%
300 | 500 KWh 100%
A figura a seguir posiciona a mediana
(= 100+h) na distribuição acumulada:
h é calculado por meio da seguinte regra de três:

150  100 52  20
 .
h 50  20

Assim, a mediana é: Md  146,8 KWh.


• Medidas de Dispersão

Frequentemente, uma medida de posição


não fornece todas as informações de que
precisamos para tomar uma certa decisão.

Exemplo 1.9 - Dois fornecedores, A e


B, apresentaram os seguintes prazos de
entrega, referentes aos últimos 5 clientes:
(em dias)
Fornecedor A – 18; 10; 17; 3; 2.
Fornecedor B – 9; 10; 10; 9; 12.

Com base nos prazos acima, qual dos


fornecedores você escolheria: A ou B?

Naturalmente, você escolheria o fornecedor B


(menor risco inerente ao prazo de entrega).
Uma medida de dispersão é um valor que
nos diz o quanto os dados estão variando
em relação à uma medida de posição
(no caso usual, a medida de
posição considerada é a média ).
Seja (xi-) o desvio de xi em relação à média.
Possíveis medidas de dispersão seriam:
n

n  ( x  )
i

 ( x i  ) ou i 1
.
i 1 n
Solução:
Problema: trabalhar com
os quadrados
n dos desvios!
 (x  )  0, sempre!
i 1
i
Variância 2
( )

É a média dos quadrados dos desvios:


n

 (x i  ) 2

 
2 i 1
.
n

Exercício 1.3 - Seja um conjunto de 3 dados:


x1 = 2, x2 = 5 e x3 = 8. Ache a variância. R: 6.
Forma alternativa para o cálculo de 2:

n n
x 2
i  n 2
x 2
i
 
2 i 1
 i 1
 .
2

n n
Exemplo 1.9 (cont.):

Prazos de entrega aos últimos 5 clientes:

Fornecedor A – 18; 10; 17; 3; 2.


Fornecedor B – 9; 10; 10; 9; 12.

Para o fornecedor A: 2 = 45,2.


Para o fornecedor B: 2 = 1,2.
.

Interpretação?
A variância apresenta um sério problema: ela
é expressa no quadrado da unidade original,
em geral uma unidade que sequer faz sentido.

Como consequência, a variância


não possui interpretação direta.

Por esta razão o desvio padrão, apresentado


a seguir, é adotado com maior frequência.
Desvio Padrão ()

  . 2

No exemplo 1.9, para o fornecedor A:  =


6,72 dias, e para o fornecedor B:  = 1,10 dias.
O desvio padrão preserva a unidade original
dos dados e ainda possui interpretação direta.
Interpretação de  (válida se o histograma
apresentar formato similar ao de um sino):

99,72%
• Variância Amostral (s2)
média amostral.
n n
 (x i  x) 2
x 2
i  nx 2

s 
2 i 1
 i 1
.
n 1 n 1

Esta medida deve ser usada quando o


enunciado evidenciar que se trata de uma
amostra, ou pedir a variância amostral.
• Variância para Dados Agrupados
Quando os dados estão disponíveis na forma de
distribuição de frequências (isto é, agrupados),
só é possível obter a variância por meio de uma
aproximação, a partir da média dos quadrados
dos desvios dos pontos médios das k classes em
relação à média, ponderados pelas frequências:
k
  j ( x j  )
2

j1
 
2
.
n
Exercício 1.4 - Calcule a variância dos pesos
na população do exercício 1.2, com base
apenas na distribuição de frequências:
Classe Frequência
40 | 50 Kg 2
50 | 60 Kg 5
60 | 70 Kg 7
70 | 80 Kg 8
80 | 90 Kg 3

R: 128.
Coeficiente de Variação (CV)

Quando queremos comparar dados


expressos em diferentes unidades ou
magnitudes, o uso do desvio padrão
leva a conclusões equivocadas, sendo
necessário utilizar uma outra medida
chamada coeficiente de variação.
Exemplo 1.10 - Suponha que estejamos
interessados em estudar a variabilidade de
salários em diferentes ramos de atividade
profissional. Como um caso extremo,
considere a comparação entre salários
de gerentes e de auxiliares de escritório.

Sabe-se que o salário médio dos


gerentes é de R$ 5.000,00 e o dos
auxiliares de escritório é de R$ 500,00.
O desvio padrão dos salários dos gerentes
foi igual ao dos salários dos auxiliares
de escritório, ambos iguais a 100
Isto indica variabilidade alta ou baixa?

No caso dos auxiliares de escritório, cujos


salários estão em torno de R$ 500,00, é alta.

Já para os gerentes, cujos salários estão em


torno de R$ 5.000,00, é relativamente baixa.
Fórmula do Coeficiente de Variação:


CV  .

CV dos salários dos auxiliares de


escritório: 100/500 = 0,2 ou 20%.
CV dos salários dos gerentes: 100/5.000 =
0,02 ou 2%  dispersão relativa menor.
Propriedades do Coeficiente de Variação:

1 - É adimensional, isto é, não é expresso


em nenhuma unidade de medida.

2 - É uma medida de dispersão relativa.

3 - CV pequeno = dados homogêneos


e CV grande = dados heterogêneos.
• Assimetria

dados com Dados com


dados
assimetria positiva assimetria negativa
simétricos
ou à direita ou à esquerda
• Quartis

São medidas Q1, Q2 e Q3 que


dividem os dados em 4 partes iguais.
Cálculo de Quartis

O cálculo de quartis segue o mesmo


procedimento do cálculo da mediana
(regra de 3), apresentado no exemplo 1.8.

A seguir. daremos continuidade àquele


exemplo, procedendo agora ao cálculo
do primeiro e do terceiro quartis.
Exemplo 1.11 - Considerando os dados do
ex. 1.8, calcule o primeiro e o terceiro quartis.
Retomando a distribuição acumulada:
Faixas de Consumo Frequência Acumulada

0 | 50 KWh 8%
50 | 100 KWh 20%
100 | 150 KWh 52%
150 | 300 KWh 92%
300 | 500 KWh 100%
A figura a seguir posiciona Q1 (= 100+h)
na distribuição de frequências acumuladas:
h é calculado por meio da seguinte regra de três:

150  100 52  20
 .
h 25  20

Assim, o primeiro quartil é: Q1  108 KWh.


A figura a seguir posiciona Q3 (= 150+h)
na distribuição de frequências acumuladas:
h é calculado por meio da seguinte regra de três:

300  150 92  52
 .
h 75  52

Assim, o terceiro quartil é: Q3  236 KWh.


• Percentis

O percentil p é o valor tal que 100*p% dos


dados estão abaixo dele. Por exemplo, o 1º
quartil é o 25º percentil. Os percentis que
dividem a distribuição em 10 partes são
chamados decis (10º percentil =1º decil).
• Amplitude Interquartílica

É uma medida de dispersão dada pela


diferença entre o terceiro e o primeiro quartis:

Q = Q3 – Q1.

Obs - não confundir com amplitude total,


definida como (valor máximo - valor mínimo).
Box-Plot
É um diagrama que representa:
- a mediana,
- os quartis Q1 e Q3,
- uma linha que vai de Q3 até a maior
observação menor ou igual a LS = Q3+1,5Q,
- outra linha que vai de Q1 até a menor
observação maior ou igual a LI = Q1-1,5Q.
Exemplo 1.12 - Seja o seguinte conjunto de
dados (ordenado): 5, 10, 12, ... , 37, 42, 45.

Sabendo-se que os quartis são 20, 25


(mediana) e 28, obtenha o box-plot.
Aplicações do Box-Plot

1. Comparar dispersões (via amplitudes


interquartílicas) de dois conjuntos de dados.

2. Identificar a presença de assimetria


(e o tipo dela – se é positiva ou negativa).
Como detectar e identificar o tipo de assimetria?

A partir das distâncias da mediana aos quartis.

Se a mediana está mais próxima de Q1,


os dados apresentam assimetria positiva.

Se a mediana está mais próxima de Q3,


os dados apresentam assimetria negativa.

Se a distância da mediana para os quartis é a


mesma, os dados têm distribuição simétrica.
Aplicações do Box-Plot (cont.)

3. Detectar a presença de outliers:


Valores acima de LS são outliers (superiores)
Valores abaixo de LI são outliers (inferiores)

Os outliers costumam ser assinalados com *.

Exercício 1.5 - Identifique se existe


assimetria e/ou outliers no exemplo 1.12.
Exercício 1.6 - As idades das mulheres
com 40 anos ou mais, em uma localidade,
apresentam Q1 = 49, Md = 54 e Q3 = 63. A
mais velha tem 71 anos. Obtenha o box-plot.

Solução:
• Diagrama de Dispersão

Um diagrama de dispersão é um
gráfico de pontos {(xi,yi); i = 1,2,...,n}
que indica se parece ou não existir
alguma relação entre 2 variáveis X e Y,
e identificar o tipo de relação existente.

cada ponto desses representa o valor


de X e de Y para a i-ésima observação
O diagrama de dispersão permite
visualizar uma relação de associação. Se
os dados formam uma trajetória similar a
uma reta, dizemos que a relação é linear.

Um importante objetivo da estatística é


medir a força de uma associação linear.

Para isto, precisamos de medidas-resumo.


• Covariância

É uma medida que fornece o sinal


da relação linear entre 2 variáveis,
definida pela seguinte fórmula:

n n
 ( x i   X )( y i   Y )  x i yi   X Y
 XY  i 1
 i 1
.
n n
Coeficiente de Correlação

O coeficiente de correlação é um
número entre -1 e 1, que mede a força
da associação linear entre X e Y.

Fórmula:
 XY
 XY  .
XY
Interpretação do
Coeficiente de Correlação:
- Se a relação linear entre X e Y for
positiva, a correlação está entre 0 e 1.
Quanto mais forte, mais próxima de 1.
- Se a relação linear entre X e Y for
negativa, a correlação está entre -1 e 0.
Quanto mais forte, mais próxima de -1.
- Se não houver relação linear: o valor
do coeficiente de correlação é zero.
Obs - Correlação x Independência!

É importante frisar que a correlação mede


apenas a força de uma associação linear,
não fornecendo informação acerca de
relações de dependência não linear.

Por exemplo, se Y = X2, XY = 0,


porém as variáveis são dependentes.
2.
PROBABILIDADE
(CONCEITOS E
LEIS BÁSICAS)
Notas de Aula - Professor Eduardo
Lima Campos.
Os 3 conceitos fundamentais da teoria
da probabilidade são os seguintes:

1 - Experimento Aleatório
2 - Espaço Amostral
3 - Evento.

Cada um deles é apresentado


e exemplificado a seguir.
Notas de Aula - Professor Eduardo
Lima Campos.
Experimento Aleatório

Um experimento aleatório é uma ação


cujo resultado não pode ser previsto.

Exemplos:
2.1 - Lançar um dado e observar a
face que fica voltada para cima.
2.2 - Selecionar uma bolinha de uma urna com
bolinhas vermelhas e azuis e verificar sua cor.
Embora o resultado de um experimento
aleatório não possa ser pré-determinado,
é possível descrever o conjunto dos
resultados que podem ocorrer.

Este conjunto é chamado


espaço amostral.
Notas de Aula - Professor Eduardo
Lima Campos.
Espaço Amostral

O espaço amostral associado a um


experimento aleatório é o conjunto
de todos os seus possíveis resultados.

Notação: S.
No exemplo 2.1 – S = {1,2,3,4,5,6}.
No exemplo 2.2 – S = {´azul`,´vermelha`}.
Evento

Um evento é um
subconjunto do espaço amostral.

No exemplo 2.1, alguns possíveis eventos são:


A = ´face par` = {2,4,6};
B = ´face>3` = {4,5,6};
C = ´face=2` = {2}.
Notas de Aula - Professor Eduardo
Lima Campos.
Um evento ocorre quando o resultado do
experimento é um ponto que pertence a ele.

Exemplos com os eventos do slide anterior:


Se a face observada foi o 5,
dizemos que B ocorreu,
Se a face observada foi o 4,
dizemos que A e B ocorreram,

e assim por diante...


• União e Interseção de Eventos

No exemplo 2.1, considere os eventos:

A: ´Face par` = {2,4,6}


B: ´Face > 3` = {4,5,6}

Notas de Aula - Professor Eduardo


Lima Campos.
O evento ´A ou B ocorre` é dado pela
união do evento A com o evento B.

AB = {2,4,5,6}.

O evento ´A e B ocorrem` é dado pela


interseção do evento A com o evento B.

AB = {4,6}.
Notas de Aula - Professor Eduardo
Lima Campos.
Probabilidade – Definição

Seja A um evento definido em um espaço


amostral S. A probabilidade de A, denotada
por P(A), é uma função que satisfaz a 3
Axiomas, os quais são apresentados a seguir.
Propriedades da Probabilidade:
Axiomas da Probabilidade
quanto mais perto de 1, maior a probabilidade de que A ocorra.

1) 0  P(A)  1, p/ todo A definido em S.


este é um evento
especial, chamado
2) P(S) = 1. evento certo.

3) P(AB) = P(A) + P(B), se AB = .


O Axioma 3 pode ser generalizado para mais de 2 eventos. Por exemplo,
P(ABC) = P(A)+P(B)+P(C), se os 3 pares possíveis têm interseções vazias.
• Eventos Especiais e suas Probabilidades
O espaço amostral S é o evento
certo, cuja probabilidade é 1.
O conjunto  (vazio) é o evento
impossível, cuja probabilidade é 0.
O evento composto de todos os pontos
não favoráveis a A é chamado evento
complementar de A e denotado por Ac.
Sua probabilidade é: P(Ac) = 1-P(A).
• Atribuição de Probabilidades

Se os elementos do espaço amostral são


todos equiprováveis, a probabilidade de
um evento A é obtida da seguinte forma:

casos favoráveis
#A
P( A)  ao evento A
#S casos possíveis
Exemplo 2.3 - Seja o experimento: lançar 3
moedas e observar as faces voltadas para cima.

Seja: ´CA` = cara e ´CO` = coroa.

O espaço amostral associado


a este experimento aleatório é:
S = {(CA,CA,CA);(CA,CA,CO);
(CA,CO,CA);(CO,CA,CA);(CA,CO,CO);
(CO,CA,CO);(CO,CO,CA);(CO,CO,CO)},
totalizando #S = 8 casos possíveis.
Seja o evento: A = ´2 caras`.
Obtenha a probabilidade de A.

Solução:
A = {(CA,CA,CO);(CA,CO,CA);(CO,CA,CA)}

#A = 3 casos favoráveis.

#A 3
P( A)   .
#S 8
Lei da Adição
(Probabilidade do ´OU`)
Sejam A e B dois eventos, com interseção
AB. Qual a probabilidade de AB?
(ou seja, de que A ou B ocorram)
A Lei da Adição fornece a solução deste
problema, por meio da seguinte fórmula:

P(AB) = P(A) + P(B) - P(AB)


Notas de Aula - Professor Eduardo
Lima Campos.
Exemplo 2.4 - Um aluno estuda para um
exame por 2 livros. O primeiro aborda
30% do programa. O segundo, 28%. 24%
do programa é abordado pelos dois livros.

Qual a probabilidade de que determinado


tópico do programa esteja em pelo menos
um dos dois livros utilizados pelo aluno?

Notas de Aula - Professor Eduardo


Lima Campos.
Solução: Seja A = ´tópico estar no
primeiro livro` e B = ´tópico estar no
segundo livro`. Pede-se P(AB).
São dados no enunciado:
P(A) = 0,30, P(B) = 0,28
e P(AB) = 0,24.

Aplicando a Lei da Adição:


P(AB) = 0,30 + 0,28 – 0,24 = 0,34.
Notas de Aula - Professor Eduardo
Lima Campos.
Eventos Mutuamente Exclusivos

2 eventos A e B são mutuamente


exclusivos (ou disjuntos) se a ocorrência
de um impede a ocorrência do outro. Se B
ocorre, então A não ocorre, e vice-versa.
Em outras palavras, são aqueles que não
possuem pontos em comum, ou seja:
AB = , o que implica P(AB) = 0.
Notas de Aula - Professor Eduardo
Lima Campos.
Exemplo 2.5 - Considere o
lançamento simultâneo de 2 dados.
Verifique se os pares de eventos
a seguir são mutuamente exclusivos:

a) A = ´soma das faces igual a 7` e


B = ´soma das faces igual a 11`.

b) A = ´soma das faces maior


que 8` e B = ´faces iguais`.
Solução:

a) A = {(3,4),(4,3),(2,5),(5,2),(1,6),(6,1)}
e B = {(5,6),(6,5)} e AB = . Portanto:
A e B são mutuamente exclusivos.

b) A ={(3,6),(6,3),(4,5),(5,4),(4,6),(6,4),
(5,6),(6,5),(5,5),(6,6)}, B =
{(1,1),(2,2),(3,3),(4,4),(5,5),(6,6)}
e AB = {(5,5),(6,6)}. Portanto:
A e B não são mutuamente exclusivos.
Exemplo 2.6 - Distribuição por sexo dos
funcionários promovidos em uma empresa:

Promovidos Não-Promovidos Total


Masc. 46 184 230
Fem. 8 72 80
Total 54 256 310

Responda as perguntas a seguir.


Notas de Aula - Professor Eduardo
Lima Campos.
a) Qual a probabilidade de um funcionário ser
do sexo masculino e ter sido promovido?

Solução: sejam os eventos: A = ´ter sido


promovido` e B = ´ser do sexo masculino`.

Diretamente da tabela, temos que 46


indivíduos satisfazem ambas as condições.

Assim: P(AB) = 46/310 = 0,1483.


Notas de Aula - Professor Eduardo
Lima Campos.
b) Qual a probabilidade de um funcionário
do sexo masculino ter sido promovido?

O que está sendo pedido é a


probabilidade (condicional) de A
dado B, denotada por P(A|B).

Obs - Perceba a diferença entre P(A|B) e


P(AB). Esta é uma confusão comum!
Notas de Aula - Professor Eduardo
Lima Campos.
A idéia é que somente os casos favoráveis
ao evento condicionante (B = ´ser do sexo
masculino`) passam a ser os casos possíveis.

Promovidos Não-Promovidos Total

Masc. 46 184 230


Fem. 8 72 80
Total 54 256 310
Notas de Aula - Professor Eduardo
Lima Campos.
A probabilidade de A dado B
é, portanto, 46/230 = 0,2.

Se dividirmos numerador e denominador


acima pelo total de funcionários (310),
obtemos P(A|B) em função de P(AB)
e P(B), conforme apresentado a seguir.
Notas de Aula - Professor Eduardo
Lima Campos.
Probabilidade Condicional

Sejam 2 eventos A e B,
tais que P(B)>0.

A probabilidade de A dado B é:

P(A|B) = P(AB)/P(B)

Notas de Aula - Professor Eduardo


Lima Campos.
Exemplo 2.7 - Considere novamente
o exemplo 2.1, e sejam os eventos:

A: ´Face par` e B: ´Face > 3`.

a) Calcule P(A|B).

R: 2/3.
Eventos Independentes

2 eventos são independentes se a


ocorrência de um não interfere na
probabilidade de ocorrência do outro.

Ou seja, se:
P(A|B) = P(A)
Notas de Aula - Professor Eduardo
Lima Campos.
Exemplo 2.7 (cont.) - b) A: ´face par` e
B: ´face > 3` são eventos independentes?

R: não, pois P(A|B)  P(A).

Obs - Não confunda eventos


independentes com eventos
mutuamente exclusivos!
Notas de Aula - Professor Eduardo
Lima Campos.
Exemplo 2.8 - Em uma classe, os percentuais
de aprovados em álgebra e literatura são,
respectivamente, 75% e 84%. 63% são
aprovados em ambas as disciplinas.
a) Qual a probabilidade de um aluno ter
passado em álgebra ou em literatura?
b) Se um aluno passou em literatura, qual a
probabilidade de ter passado em álgebra?
c) Ter passado em álgebra e ter passado
em literatura são eventos independentes?
Notas de Aula - Professor Eduardo
Lima Campos.
Solução:

Sejam A = ´ter passado em álgebra`


e B = ´ter passado em literatura`.

a) P(AB) = P(A) + P(B) - P(AB)


= 0,75 + 0,84 – 0,63 = 0,96.
b) P(A|B) = P(AB)/P(B) = 0,75.
c) Sim, pois P(A|B) = P(A) = 0,75.
Notas de Aula - Professor Eduardo
Lima Campos.
Exemplo 2.9 - Seja uma urna com 8
bolinhas azuis e 4 vermelhas. 2 bolinhas
são selecionadas ao acaso desta urna.
a) Qual a probabilidade de que a primeira
bolinha retirada da urna seja vermelha
e que a segunda seja azul?
Seja A = segunda bolinha azul e
B = primeira bolinha vermelha.
Queremos P(AB).
Notas de Aula - Professor Eduardo
Lima Campos.
Para revolver o problema, basta inverter a
fórmula da probabilidade condicional para
obter P(AB) como função de P(A|B) e
P(B).

P(A|B) = P(AB)/P(B).


P(AB) = P(A|B)P(B)

Notas de Aula - Professor Eduardo


Lima Campos.
Lei da Multiplicação
(Probabilidade do ´E`)
Sejam A e B dois eventos, com P(B)>0. Qual
a probabilidade de que A e B ocorram?

A Lei da Multiplicação fornece a solução


deste problema, por meio da fórmula a seguir:

P(AB) = P(A|B)P(B)
Solução do exemplo 2.9, item a:

A = segunda bolinha azul e B = primeira


bolinha vermelha. Do enunciado, temos
que: P(A|B) = 8/11 e P(B) = 4/12.

Assim:
P(AB) = 8/33.

Notas de Aula - Professor Eduardo


Lima Campos.
• Evento AB em um Diagrama de Árvore:

P(A|B) A

P(B) B
P(Ac|B) Ac

P(A|Bc) A
P(Bc)
Bc

P(Ac|Bc) Ac
Notas de Aula - Professor Eduardo
Lima Campos.
• Forma-Produto para Independência

Vimos que, pela Lei da Multiplicação:


P(AB) = P(A|B)P(B).

Por outro lado, vimos que 2 eventos A e B


são independentes se: P(A|B) = P(A).

Pode-se concluir que A e B são


independentes se: P(AB) = P(A)P(B)
Notas de Aula - Professor Eduardo
Lima Campos.
Exercício 2.1 - Sejam 2 eventos A e B
tais que P(A) = 0,3 e P(AB) = 0,5.

Determine o valor de P(B) se:

a) A e B são mutuamente exclusivos.


b) A e B são independentes.

Respostas: a) 0,2. b) 2/7.


Obs - Se A e B são independentes:

Ac e B também são independentes,

A e Bc também são independentes,

Ac e Bc também são independentes.


Exemplo 2.9 (cont.)

b) Qual a probabilidade de que a segunda


bolinha selecionada seja azul?

Considere novamente:
A = segunda bolinha azul e
B = primeira bolinha vermelha.

Notas de Aula - Professor Eduardo


Lima Campos.
• Evento A no Diagrama de Árvore

P(A|B) A

P(B) B
P(Ac|B) Ac

P(A|Bc) A
P(Bc)
Bc

P(Ac|Bc) Ac
Notas de Aula - Professor Eduardo
Lima Campos.
Lei da Probabilidade Total

Sejam A e B dois eventos, em que A


possa ocorrer condicionado a B ou a Bc.
A probabilidade “total” do evento A pode
ser calculada por meio da seguinte fórmula:

P(A) = P(A|B)P(B) + P(A|Bc)P(Bc)


Notas de Aula - Professor Eduardo
Lima Campos.
Solução do exemplo 2.9, item b:

Do enunciado, temos que:


P(A|B) = 8/11, P(B) = 4/12,
P(A|Bc) = 7/11 e P(Bc) = 8/12.

Assim:
P(A) = 2/3.
Notas de Aula - Professor Eduardo
Lima Campos.
Exemplo 2.10 - A empresa X lança um
serviço inédito de envio de mensagens
pelo celular. Ela calcula que este novo
serviço gera lucro no primeiro ano com
probabilidade 0,6, caso o concorrente
não introduza um serviço semelhante.
Caso contrário, a probabilidade de lucro
é 0,3. Suponha ainda que exista 50% de
chances de que o concorrente introduza
um serviço semelhante naquele ano.
Este é um padrão de problema clássico de
probabilidade, cujas variantes costumam
ser cobradas em provas de concurso. Para
solucioná-lo, é fundamental identificar:

- os eventos e as probabilidades de interesse


- os probabilidades fornecidas no enunciado
(deve ter bastante cuidado com este último
ponto, a maior fonte de erro nestas questões!)
Notas de Aula - Professor Eduardo
Lima Campos.
a) Qual a probabilidade de que o concorrente
introduza o serviço e que, mesmo assim, ele
seja lucrativo para a empresa X?

b) Qual a probabilidade de que o serviço


seja lucrativo para a empresa X?

c) Qual a probabilidade de que o serviço


seja lucrativo para a empresa X ou o
concorrente introduza o serviço?
Solução:

Os eventos de interesse são:


A: ´serviço é lucrativo p/ a empresa X`
B: ´concorrente introduz serviço semelhante`.

São fornecidas no enunciado


as seguintes probabilidades:

P(A|B) = 0,3; P(A|Bc) = 0,6 e P(B) = 0,5.


a) Pela Lei da Multiplicação, temos que:
P(AB) = P(A|B)P(B) = 0,3*0,5 = 0,15.

b) Pela Lei da Probabilidade Total:


P(A) = P(A|B)P(B) + P(A|Bc)P(Bc)
= 0,3*0,5 + 0,6*0,5 = 0,45.

c) Pela Lei da Adição:


P(AB) = P(A) + P(B) – P(AB)
= 0,45 + 0,5 – 0,15 = 0,8.
Exemplo 2.11 - 2 máquinas (M1 e M2) são
usadas para fabricar o mesmo tipo de item.
Suponha que:
60% dos itens tenham sido fabricados por M1,
40% dos itens tenham sido fabricados por M2,
e que:
1% dos itens fabricados por M1 têm defeito,
2% dos itens fabricados por M2 têm defeito.
Notas de Aula - Professor Eduardo
Lima Campos.
Um item é selecionado aleatoriamente.

a) Qual a probabilidade de
que ele seja defeituoso?

Notas de Aula - Professor Eduardo


Lima Campos.
Os eventos de interesse são:
Sejam A = ´ser defeituoso` e
B = ´ter sido produzido por M1`.

São fornecidas no enunciado


as seguintes probabilidades:
P(B) = 0,6, P(Bc) = 0,4,
P(A|B) = 0,01 e P(A|Bc) = 0,02.
Notas de Aula - Professor Eduardo
Lima Campos.
Solução do item a:

Pede-se P(A)

Aplicando a Lei da Probabilidade Total:

P(A) = P(A|B)P(B) + P(A|Bc)P(Bc)


= 0,01*0,6 + 0,02*0,4 = 0,014.
Notas de Aula - Professor Eduardo
Lima Campos.
b) Se (= dado que) o item selecionado
é defeituoso, qual a probabilidade de
que ele tenha sido produzido por M1?

Notas de Aula - Professor Eduardo


Lima Campos.
Solução do item b: pede-se P(B|A), que
pode ser obtida da seguinte forma:

P(B|A) = P(AB)/P(A)
= P(A|B)P(B)/P(A)
= 0,01*0,6/0,014 = 0,429.

A fórmula acima, que permite obter P(B|A) a


partir de P(A|B) é chamada Teorema de Bayes.
Notas de Aula - Professor Eduardo
Lima Campos.
Teorema de Bayes

Sejam A e B eventos definidos em S, sendo


A dependente de B, na sequência: B  A.
O Teorema de Bayes (p/ 2 eventos) se ocupa
da sequência reversa: A  B, fornecendo:
obtida
P(A | B)P(B)
P( B | A)  . pela Lei da
Probabilidade
P( A) Total
Notas de Aula - Professor Eduardo
Lima Campos.
Exemplo 2.12 - Um candidato que fez
o curso DSc tem probabilidade 0,9 de
ser aprovado na prova do BNDES.
Caso contrário, esta probabilidade é 0,3.
70% dos candidatos foram alunos do DSc.

a) Calcule a probabilidade de que um candidato


selecionado ao acaso passe para o BNDES.
b) Se um aluno passou para o BNDES, qual a
probabilidade de que tenha cursado o DSc?
Os eventos de interesse são:

A = ´passar no concurso`
B = ´ter cursado o DSc`.

São fornecidas no enunciado


as seguintes probabilidades:

P(A|B) = 0,9, P(A|Bc) = 0,3 e P(B) = 0,7.

Notas de Aula - Professor Eduardo


Lima Campos.
Solução do Item a:

Pede-se P(A).

Aplicando a Lei da Probabilidade Total:

P(A) = P(A|B)P(B) + P(A|Bc)P(Bc)


= 0,9*0,7 + 0,3*0,3 = 0,72.
Notas de Aula - Professor Eduardo
Lima Campos.
Solução do Item b:

Pede-se P(B|A)

P(B|A) = P(A|B)P(B)/P(A)
= 0,9*0,7/0,72 = 0,875.

O Teorema de Bayes pode ser ampliado


para mais de 2 eventos, fazendo, por
exemplo: B1, B2 e B3, ao invés de B e Bc.
Notas de Aula - Professor Eduardo
Lima Campos.
• Teorema de Bayes para 3 Eventos

Exemplo 2.13 - Os funcionários de uma


empresa dividem-se em 3 grupos: economistas,
engenheiros e analistas de sistemas. Estes
funcionários podem ocupar cargos técnicos ou
gerenciais. Sabemos que 20% dos funcionários
são analistas de sistemas, 30% são engenheiros
e 50% são economistas. 1% dos analistas
de sistemas, 2% dos engenheiros e 3% dos
economistas fazem parte da direção da empresa.
Um funcionário é selecionado aleatoriamente.

a) Qual a probabilidade de que ele


seja um dos diretores da empresa?

b) Dado que ele é um dos diretores, qual a


probabilidade de que seja engenheiro?
Os eventos de interesse são:
A = ser diretor da empresa
B1 = ser analista
B2 = ser engenheiro
B3 = ser economista.

São fornecidas no enunciado


as seguintes probabilidades:

P(B1) = 0,2, P(B2) = 0,3, P(B3) = 0,5,


P(A|B1) = 0,01, P(A|B2) = 0,02, P(A|B3) = 0,03.
Solução do Item a - Ampliando a Lei
da Probabilidade Total para 3 eventos:

P(A) = P(A|B1)P(B1) + P(A|B2)P(B2) +


P(A| B3)P(B3) = 0,01*0,2 + 0,02*0,3 +
0,03*0,5 = 0,002 + 0,006 + 0,015 = 0,023.

Solução do Item b:

P(B2|A) = P(A|B2)P(B2)/P(A)
= 0,02*0,3/0,023 = 0,2609.
Lei da Adição para 3 Eventos:
P(ABC) = P(A) + P(B) + P(C) -
P(AB) - P(AC) - P(BC) + P(ABC).

Lei da Adição para 4 Eventos:


P(ABCD) = P(A) + P(B) + P(C)
- P(AB) - P(AC) - P(AD) - P(BC) -
P(BD) - P(CD) + P(ABC) + P(ABD)
+ P(ACD) + P(BCD) - P(ABCD).
• Independência para 3 Eventos

3 eventos A, B e C são
independentes se, e somente se:

P(ABC) = P(A)P(B)P(C),
P(AB) = P(A)P(B),
P(AC) = P(A)P(C),
e
P(BC) = P(B)P(C).
3. VARIÁVEIS
ALEATÓRIAS
Variável Aleatória (V.A.)

Uma variável aleatória (v.a.) é uma


representação numérica dos resultados
possíveis de um experimento aleatório.

Exemplo 3.1 - Seja o experimento


do exemplo 2.3 (lançar três moedas
e observar o número de caras). A v.a.
adequada é: X = número de caras observadas.
S (espaço amostral): Valores de X:
(CO,CO,CO) 0
(CA,CO,CO)
(CO,CA,CO) 1
(CO,CO,CA)
(CA,CA,CO) 2
(CA,CO,CA)
(CO,CA,CA) 3
(CA,CA,CA)
• V.A.`s Discretas x Contínuas

A v.a. do exemplo anterior assume


valores que são contáveis (0, 1, 2 e 3).

Este tipo de v.a. é chamada discreta.

Uma v.a. que assuma valores em um


intervalo contínuo é chamada contínua.
Distribuição de
Probabilidade Discreta
É uma função P(X=x) que associa,
a cada valor possível x de uma v.a.
discreta X, a sua probabilidade.

Propriedades de uma distribuição discreta:


1) P(X  x )  0, x
2)  P(X  x )  1
x
Exemplo 3.2 - Na situação do exemplo 3.1,
qual a distribuição de probabilidade de X?

Solução - a distribuição de probabilidade de X é:

x P(X=x)
0 1/8
1 3/8
2 3/8
3 1/8
Distribuição de Probabilidade
Contínua (Função de Densidade)
Uma distribuição contínua f(x) é
uma função que permite calcular
a probabilidade de que uma v.a.
contínua pertença a um intervalo.

P(aXb) é a área sob o gráfico de f(x)


que corresponde ao intervalo [a,b].
Exemplo 3.3 - Seja X = peso de um
carregamento em Kg, com distribuição:
O cálculo desta área
f(x) envolve uma integral:
8.000

 f ( x )dx
6.000

x
A figura mostra: P(6.000X8.000).
Propriedades de uma função de densidade:

1) f(x)  0, para todo x.


2) A área total sob o gráfico é igual a 1.
3) P(X=x) = 0, para todo x.
Exemplo 3.4 - Seja X uma v.a.
contínua com a seguinte distribuição:

f(x) = cx2, 0<x<2.

a) Qual o valor da constante c?


Você tem que igualar a integral a 1.

b) Calcule P(X>1).

R: a) 3/8 b) 7/8.
Valor Esperado

O valor esperado de uma v.a. X, E(X),


é a média dos valores que X assumiria
em infinitas repetições do experimento.

Fórmula para o caso discreto:


E(X)   xP (X  x ).
x
Exemplo 3.5 - Considere a distribuição:
P(X=0) = 1/2
P(X=1) = 1/3
P(X=2) = 1/6.

Calcule o valor esperado de X.

Solução:
E(X) = 0*1/2 + 1*1/3 + 2*1/6 = 2/3.
Observações:

1 - E(X) é também chamado média de X.

2 - E(X) não é um valor que se espera que


ocorra, podendo ser (e em geral é) um
valor que não ocorre, como neste caso!

3 - E(X) pode ser interpretado como o


ponto de equilíbrio da distribuição, em
que as probabilidades são os pesos.
Fórmula do valor esperado
para o caso contínuo:

E(X)   x f (x)dx.
Exemplo 3.6 - Calcule E(X),
sendo X a v.a. definida no exemplo 3.4.

f(x)
2
3 2
E(X)   x x dx 
0 8

2 4 2
3 3 3x 3
 x dx   .
80 8 4 0
2
• Mediana de uma V.A.

É o valor que divide a distribuição em 2


intervalos com probabilidades iguais (0,5).
No caso contínuo, divide f(x) em 2 áreas iguais.

• Moda de uma V.A.

No caso discreto, é o valor que ocorre com


maior probabilidade. No caso contínuo, é o
valor x que faz com que f(x) seja máxima.
Exercício 3.1 - Determine a moda das
distribuições dos exemplos 3.4 e 3.5.
Exercício 3.2 - Calcule a mediana
da v.a. definida no exemplo 3.6.

Solução:

k3 2 3k 2
 x dx  0,5   x dx  0,5 
08 80
3
k
 0,5  k  4  k  4.
3 3

8
Variância de uma V.A.

A variância de uma v.a. X é o


valor esperado de [X-E(X)]2.

Exemplo 3.7 - Calcule V(X),


sendo X a v.a. definida no exemplo 3.5.

R : V(X)  [ x  E(X)] P(X  x)  5 / 9.


2

x
A variância pode ser
calculada da seguinte forma equivalente:

V(X) = E(X2) - E2(X)

Sendo:
E(X )   x P(X  x ), no caso discreto
2 2

e
E(X )   x f(x) dx, no caso contínuo.
2 2
Exemplo 3.7 (cont.) - Recalcule V(X),
usando a forma equivalente do slide anterior.

Solução:

E(X2) = 02*1/2 + 12*1/3 + 22*1/6 = 1.

V(X) = E(X2) - E2(X) = 1-(2/3)2 = 1 - 4/9 = 5/9.


Exemplo 3.8 - Calcule V(X),
sendo X a v.a. definida no exemplo 3.4.
2 f(x)
3 2
E(X )   x x dx 
2 2

0 8
5 2
32 4 3x 12
 x dx   .
80 8 5 0
5
2
12  3  3
V(X)  E(X )  E (X)      .
2 2

5 2 20
• Desvio Padrão de uma V.A.

É a raiz quadrada de V(X):

DP(X)  V(X)

• Coeficiente de Variação de uma V.A.

DP(X)
CV(X)  .
E ( X)
• Algumas Propriedades Importantes
do Valor Esperado e da Variância

(1) Se b é uma constante, e Y = b:


E(Y) = b e V(Y) = 0.

(2) Se a é uma constante, e Y = aX:


E(Y) = aE(X) e V(Y) = a2V(X).

(3) Se a e b são constantes, e Y = aX + b:


E(Y) = aE(X) + b e V(Y) = a2V(X).
Exemplo 3.9 - Seja um produto importado
cujo preço, em dólares, apresenta, ao longo
de um período, média 80 e desvio padrão 8.

a) Se a taxa de câmbio for 2 R$/Dólar,


calcule o valor esperado, a variância,
o desvio padrão e o CV do preço em R$.

b) Se o preço do produto aumenta 10 dólares,


calcule a média, a variância, o desvio padrão
e o CV do preço (em dólares), após o aumento.
Solução do item a:

a) Seja X o preço do produto em dólares.


Então: E(X) = 80, DP(X) = 8 e V(X) = 64.

Seja Y o preço do produto em R$.

Então: Y = 2X. Logo, E(Y) = 2E(X) =


R$ 160, V(Y) = 22V(X) = 4*64 = 256 R$2,
DP(Y) = R$ 16 e CV(Y) = 16/160 = 0,1 = 10%.
Solução do item b:

b) Seja Z o preço em dólares após o


aumento. Então: Z = X + 10.

Logo, E(Z) = E(X) + 10 = 90 dólares,


V(Z) = V(X) = 64 dólares2, DP(Z) =
8 dólares e CV(Z) = 8/90 = 8,88%.
• Padronizando uma V.A.

Seja X uma v.a. tal que E(X) =  e


V(X) = 2. Seja Z = (X-)/. Então:

E(Z) = 0 e V(Z) = 1.

Isto se chama padronizar a v.a. X (ou seja,


transformá-la em uma nova v.a., chamada
de Z, que possui média zero e variância 1).
Função de Distribuição
Acumulada (F.D.A.)

Função F(x) que associa, a cada valor


x, a probabilidade de que X seja
menor ou igual a x, isto é: P(Xx).

Exemplo 3.10 - Ache a f.d.a. da distribuição


do exemplo 3.5 (relembrando a distribuição:
P(X=0) = 1/2, P(X=1) = 1/3, P(X=2) = 1/6).
Solução:

Para x < 0, F(x) = 0.

Para 0  x < 1, F(x) = 1/2.

Para 1  x < 2, F(x) = 1/2 + 1/3 = 5/6.

Para x  2, F(x) = 1/2 + 1/3 + 1/6 = 1.


Exemplo 3.11 - Considere a distribuição de
probabilidade: f(x) = 2x, 0<x<1. Ache F(x).

Solução:

Para x < 0, F(x) = 0.

Para 0  x < 1:
x x
F( x )  P(X  x )   f ( x )dx   2xdx  x .
2

0 0

Para x  1, F(x) = 1.
Propriedades da F.D.A.:
1. Lim F(x)  0 e Lim F(x)  1.
x  x 

2. No caso discreto, F(x) é contínua à


direita. No caso contínuo, é contínua.
3. No caso contínuo, é possível, a partir
da f.d.a., obter a função de densidade f(x)
original, derivando F(x) com respeito a x:
dF( x )
f (x)  .
dx
• Covariância e Correlação entre 2 V.A.`s
A covariância entre duas variáveis
aleatórias X e Y é definida como:
Cov(X, Y)  E[( X  E(X))( Y  E(Y))],
ou ainda : E(XY )  E(X)E(Y).
E o coeficiente de correlação é:
Cov(X, Y)
Corr (X, Y)  XY  .
V( X) V( Y)
Obs - lembre-se que correlação zero não
necessariamente implica em independência!

A correlação só mede dependência do tipo


linear, conforme foi estudado no capítulo 1.

Porém, independência  correlação zero.


A única situação em que correlação zero
implica em independência é aquela em que
as variáveis seguem uma distribuição de
probabilidade chamada Normal bivariada.
Obs - valor esperado do produto.

Se Cov(X,Y) = 0:
E(XY) –E(X)E(Y) =0

E(XY) = E(X)E(Y).

Assim, esta igualdade só vale se X e Y são


descorrelacionadas. Note então que, se X e
Y são independentes, a igualdade acima é
válida, entretanto a volta não é verdadeira!
Esta relação também vale para potências de
X e Y. Isto é, se X e Y são independentes:

E(X2Y2) = E(X2)E(Y2)

E(XY2) = E(X)E(Y2)

E(X2Y) = E(X2)E(Y)

E(X3Y3) = E(X3)E(Y3)

Etc.
• Combinações Lineares de V.A.`s

Uma combinação linear de v.a.`s é uma


nova v.a. C definida da seguinte forma:

n
C   a i Xi .
i 1

pesos da combinação linear.


Valor esperado e variância para n = 2
(ou seja, para C = aX+bY):

Valor Esperado:

E(C) = aE(X) + bE(Y).

Variância (supondo XY = 0):

V(C)  a V(X)  b V(Y).


2 2
Exemplo 3.12 - O lucro diário L de uma
corretora (em milhões de R$) é L = 2L1+3L2,
em que L1, o lucro da área industrial, é
uma v.a. com média 5 e variância 16, e
L2, o lucro da área comercial, é outra v.a.
com média e variância iguais a 4. L1 e L2
são independentes. O valor esperado, a
variância e o desvio padrão de L são:

E(L) = 2E(L1) + 3E(L2) = 22 milhões de R$.


V(L) = (2)2V(L1) + (3)2V(L2) = 4*16 + 9*4 =
64 + 36 = 100  DP(L) = 10 milhões de R$.
Casos particulares importantes -
se X e Y são v.a.`s descorrelacionadas:

E(X+Y) = E(X) + E(Y)

V(X+Y) = V(X) + V(Y)

E(X-Y) = E(X) – E(Y) atenção!

V(X-Y) = V(X) + V(Y)


E se X e Y forem correlacionadas?

Neste caso, a fórmula da variância torna-se:

V(C)  a V(X)  b V(Y)  2abCov(X, Y).


2 2
Propriedades da Covariância
(a, b, c e d constantes)

P.1) Cov(X,X) = V(X).


P.2) Cov(aX+b,cY+d) = acCov(X,Y).

P.3) Distributiva: Cov(aX+bY,cZ+dW)


= Cov(aX,cZ) + Cov(aX,dW) +
Cov(bY,cZ) + Cov(bY,dW).
4. DISTRIBUIÇOES
DISCRETAS
• Distribuição Uniforme Discreta
É a distribuição discreta mais simples
possível. Considera que todos os valores
de X possuem a mesma probabilidade:

1
P(X  x )  , x  1, 2, ..., k.
k

Exemplo 4.1 - No lançamento de um dado,


a v.a. que representa a face voltada para
cima segue distribuição uniforme discreta.
• Distribuição de Bernoulli

Experimento de Bernoulli é um
experimento aleatório que possui
apenas dois resultados possíveis.

Exemplos:
4.2 - Lançar uma moeda e
observar a face voltada para cima.
4.3 - Observar se um atirador acerta o alvo.
Um dos resultados é chamado
“sucesso”, e o outro, “fracasso”.

A probabilidade de sucesso
é designada por p.

Como consequência, a
probabilidade de fracasso é 1-p.
.
Seja agora uma v.a. X que assume valor
0, se ocorre um fracasso, e 1, se ocorre
um sucesso. A distribuição desta v.a. é:

x P(X=x)
0 1-p
1 p

A distribuição acima é chamada


distribuição de Bernoulli.
• Distribuição Binomial

Sejam agora n realizações independentes


de experimentos de Bernoulli com a
mesma probabilidade de sucesso p.

Considere que estejamos interessados


no número de sucessos observados.
Exemplo 4.4 - Ao lançar 3 moedas, qual
a probabilidade de obtermos 2 caras?

Façamos:
{CA} = sucesso e {CO} = fracasso.

Neste problema, a v.a. X de interesse


representa o número de sucessos (caras).
A v.a. que representa o número de
sucessos em n realizações independentes
de experimentos de Bernoulli, todos com a
mesma probabilidade de sucesso p, segue
uma distribuição chamada binomial.

n (número de realizações) e p
(probabilidade de sucesso) são
os parâmetros da distribuição.
Fórmula da Distribuição Binomial:

 n  p x (1  p) n  x
P(X  x)    , x  0,1,..., n; 0  p  1.
x

probabilidade de
n! obter x sucessos
 . em n realizações
x!(n  x )!
independentes
Notação usual: X ~ Bin(n,p).
(“~” significa “segue distribuição”)
Solução do Exemplo 4.4:

A v.a. de interesse é: X = número de caras.

X ~ Bin(3,1/2). Pede-se P(X=2).

 3  1 
2 1
1 3
P(X  2)        .
 2  2  2 8
Exemplo 4.5 - Qual a probabilidade de
que um atirador acerte o alvo 3 vezes em 5
tentativas, se a probabilidade dele acertar
um tiro em uma tentativa qualquer é 2/3?
Solução:
A v.a. de interesse é:
X = número de acertos.
Se considerarmos que as tentativas são
independentes, então: X ~ Bin(5,2/3).
Daí:

 5  2 
3 2
1
P(X  3)        0,3292.
 3  3   3
Valor Esperado e Variância da Binomial:

E(X) = np
V(X) = np(1-p)

Exemplo 4.5 (cont.) - Calcule o valor


esperado do número de acertos do atirador.
Exemplo 4.6 - Considere um exame com
20 questões de múltipla escolha, cada uma
com 5 alternativas. Se um aluno que não
estudou nada resolve “chutar” todas as
respostas, qual é a probabilidade de que
acerte 30% da prova (isto é, 6 questões)?
Solução:

A v.a. de interesse é: X = número de acertos.

Logo: X ~ Bin(20;0,2). Daí:

 20 
P(X  6)   0,2 0,8  0,1091.
6 14

6

Qual o valor esperado do número


de questões que o aluno acerta?
• Distribuição Hipergeométrica

Exemplo 4.7 - Considere 4 extrações sem


reposição de bolinhas, de uma urna que
contém 8 bolinhas azuis e 5 vermelhas.

Calcule a probabilidade de que 3 sejam azuis.


Em princípio, poderíamos pensar na
extração de cada bolinha como um
experimento de Bernoulli, e a v.a. X de
interesse (número de bolinhas azuis na
amostra) seguindo distribuição binomial.

Pergunta: o que nos impede de fazer isto?


Resposta:

A amostragem é sem reposição, o que faz


com que sucessivas extrações sejam
dependentes e as probabilidades de
sucesso mudem a cada extração.
De forma geral, considere uma população
(no exemplo, urna) com N elementos
(no exemplo, bolinhas), dentre os quais
temos r sucessos (no exemplo, ser azul).

Seja então uma amostra de


tamanho n, obtida sem reposição.

Qual é a probabilidade de que tenhamos


exatamente x sucessos nesta amostra?
A distribuição da v.a. que representa o
número de sucessos na amostra chama-
se hipergeométrica, c/ parâmetros N, r e n.

Para obter a fórmula da distribuição


hipergeométrica é só fazer: P(A) = #A/#S
(casos favoráveis sobre casos possíveis).
O número de casos possíveis é o número
total de amostras de tamanho n que
podemos obter da população, ou seja:

 N
 .
n
O número de casos favoráveis é dado
pelo número de formas de extrair x
sucessos dentre os r possíveis e (n-x)
fracassos dentre os N-r possíveis:

 r  N  r 
  .
 x  n  x 
Fórmula da Distribuição Hipergeométrica:

 r  N  r 
  
 x  n  x 
P(X  x )  .
 N
 
n
probabilidade de que ocorram x sucessos, em
uma amostra sem reposição de tamanho n

Notação usual: X ~ Hiper(N,r,n).


Solução do exemplo 4.7:

Seja X o número de bolinhas azuis


na amostra de tamanho 4. Então:

 8 13  8   8  5 
     
 3  4  3   3  1 
P(X  3)    0,3916.
13  13 
   
4 4
Exemplo 4.8

Considere um lote de 10 peças, das quais


4 são defeituosas. Se extrairmos 5 peças,
sem reposição, qual a probabilidade de
que 2 sejam defeituosas?
Solução:

Seja X o número de peças defeituosas


na amostra de tamanho 5. Então:

 4  6 
  
P(X  2)   2  3 
 0,4762.
10 
 
5
Valor Esperado e Variância
da Hipergeométrica:

r
E( X )  n
N
 r  r  N  n 
V(X)  n  1   
 N  N  N  1 
• Aproximação da
Hipergeométrica pela Binomial

Se N é muito maior do que n (N  20n),


a distribuição hipergeométrica pode ser
aproximada pela distribuição binomial
(cujas probabilidades são mais simples
de calcular), com parâmetros n e p = r/N.
Exemplo 4.9 - Em uma eleição, suponha
que 300 dos 1000 habitantes de um
município são eleitores de um candidato
A. Toma-se uma amostra de 10 eleitores.

Qual a probabilidade de que exatamente 5


deles pretendam votar no candidato A?
Solução: A probabilidade exata seria
calculada da seguinte forma:

 300  700 
  
P(X  5)   5  5 
.
1000 
 
 10 

Note que as combinações envolvidas


são bastante chatas de se calcular...
A probabilidade aproximada pode ser
calculada utilizando a distribuição
binomial, com n = 10 e p = 300/1000 = 0,3.

10 
P(X  5)   (0,3) (0,7)  0,1029.
5 5

5

Compare com o resultado exato


(calculado no Excel: 0,1026)
• Distribuição Geométrica

Considere, como na definição da


Binomial, realizações independentes
de experimentos de Bernoulli, todos
com mesma probabilidade de sucesso p.

A v.a. que representa o número de


realizações necessárias até que ocorra o
primeiro sucesso segue uma distribuição
chamada geométrica, com parâmetro p.
Fórmula da Distribuição Geométrica:

x 1
P(X  x)  (1  p) p, x  1,2,...; 0  p  1.

probabilidade de que o primeiro sucesso


venha a ocorrer na x-ésima realização.

Parâmetro: p.

Notação: X ~ Geom(p).
Exemplo 4.10 - A probabilidade de um
indivíduo acertar um alvo é 2/3. Se ele
deve atirar até que acerte o alvo pela
primeira vez, qual a probabilidade de
que sejam necessários exatamente 5 tiros?

Solução: Seja X o número de tiros até o


primeiro acerto. Então: X ~ Geom(2/3).
4
 2 2
P(X  5)  1      0,0082.
 3 3
Valor Esperado e Variância da Geométrica:

E(X) = 1/p
V(X) = (1-p)/p2

No exemplo 4.10, qual o número de tiros


esperado até que ocorra o primeiro acerto?
Exercício (Resolvido) 4.1 - Um jogador
converte 10% dos pênaltis que cobra.

a) Qual a probabilidade de que ele acerte


apenas uma cobrança em 5 tentativas?

b) Qual a probabilidade de que ele precise


bater 5 pênaltis até acertar o primeiro?
Solução:

a) Seja X o número de pênaltis


que o jogador acerta. Então:
X ~ Bin(5;0,1).

Pede-se P(X=1).

 5
P(X  1)   (0,1) (0,9)  0,32805.
1 4

1
b) Seja X o número de cobranças até que
o jogador acerte a primeira. Então:
X ~ Geom(0,1).

Pede-se:

P(X  5)  (0,9) (0,1)  0,06561.


4
• Relações entre a Geométrica e a Binomial

Se X ~ Geom(p) e Y ~ Bin(n,p), então:

1) P(Y=1) = n*P(X=n)

2) P(X>n) = P(Y = 0)
• Distribuição Binomial Negativa
Considere novamente realizações
independentes de experimentos de
Bernoulli com probabilidade de sucesso p.
A v.a. que representa o número de realizações
necessárias até que ocorra o r-ésimo sucesso
(r = 1, 2, ...) segue uma distribuição chamada
binomial negativa, com parâmetros r e p.
Se r = 1, caímos na distribuição
geométrica (caso particular).
• Distribuição de Poisson

Seja  a taxa de ocorrência de um evento


por unidade de tempo ou de espaço. Por
exemplo, acidentes/hora em uma estrada.

A distribuição da v.a. que representa


o número de ocorrências de um evento
com taxa , no intervalo correspondente,
chama-se Poisson, com parâmetro .
Fórmula da Distribuição de Poisson:

x 
e
P( X  x )  , x  0,1,...;   0.
x!

probabilidade de que ocorram x eventos, em um


intervalo no qual ocorrem, em média,  eventos

Parâmetro: .
Notação usual: X ~ Poi().
Valor Esperado e Variância da Poisson:

E(X) = 
V(X) = 

A Poisson é a única distribuição na qual


a média e a variância são sempre iguais!
Exemplo 4.11 - Em determinada rodovia,
ocorrem, em média, 3 acidentes por hora.

Supondo distribuição de Poisson,


calcule as seguintes probabilidades:

a) De que ocorram 2 acidentes em uma hora.

b) De que ocorram pelo menos 2 acidentes


em 20 minutos (20 minutos = 1/3 de hora).
Solução:

32 e 3 3
a ) P(X  2)   4,5e .
2!

b) Aqui deve - se converter o  para o período de


20 minutos ( 1/3 de hora)  se ocorrem, em média,
3 acidentes em uma hora, então ocorre em média 1 a
cada 20 minutos. Assim, o  para 20 minutos é 1, e :
1
P(X  2)  1  [P(X  0)  P(X  1)]  1  2e .
• Aproximação da Binomial pela Poisson

Se n for grande e p for pequeno, o


número de sucessos em n realizações
independentes de experimentos de
Bernoulli pode ser aproximado
pela distribuição de Poisson, com =np.
Exemplo 4.12 - Uma companhia de
seguros de automóveis descobriu que
somente cerca de 0,005% da população
está incluída em um certo tipo de sinistro
cada ano. Se seus 20.000 segurados são
escolhidos ao acaso na população, qual
é a probabilidade aproximada de que 3
clientes venham a ser incluídos nesta
categoria de sinistro no próximo ano?
Solução:

Pede-se P(X=3), sendo:


X ~ Bin(20.000;0,00005).

A solução aproximada pode ser obtida de


forma bem mais simples (verifique) pela
Poisson, usando  = 20.000*0,00005 = 1.
5. DISTRIBUIÇOES
CONTÍNUAS
• Distribuição Uniforme Contínua

É a distribuição contínua
mais simples que existe.

Pressupõe que as probabilidades estejam


distribuídas de maneira uniforme pelo
intervalo de variação de X (de  a ).
Fórmula da Uniforme:

f(x) = 1/(-), <x<.

Parâmetros:  e .

Notação: X ~ Unif(,).
Cálculo de Probabilidades
Utilizando a Uniforme:

P(aXb) = (b-a)/(-)
Valor Esperado e Variância da Uniforme:

E(X) = (+)/2
V(X) = (-)2/12
Exemplo 5.1 - As notas de uma turma
apresentam média 5 e variância 3. A
nota mínima para aprovação é 7.

Supondo distribuição uniforme, calcule


a probabilidade de um aluno ser aprovado.

R: 1/6.
• Distribuição Exponencial

Distribuição definida para valores de X


estritamente positivos, usual para
representar tempo (duração, espera, etc.).

Fórmula da Exponencial:

f (x)  e , x  0;   0.
 x
Parâmetro: .

Notação: X ~ Expo().

Valor Esperado e Variância:

E(X) = 1/
V(X) = 1/2
Função Distribuição
Acumulada da Exponencial:

F(x) = P(Xx) = 0, x0


= 1-e-x, x>0.
Demonstração:

Para x0, F(x) = P(Xx) = 0.

Para x>0:
x

F( x )  P(X  x )   e dx  x

0
x
1 e  x

  e dx  
 x
1 e .  x

0 
Exemplo 5.2 - O tempo de espera em
uma fila segue distribuição exponencial.
Se um cliente espera, em média, 10 minutos
para ser atendido, qual a probabilidade:
a) De que demore menos do que 12 minutos
para ele ser atendido? R: 1-e-1,2.
b) De que demore menos do que 7 minutos
para ele ser atendido? R: 1-e-0,7.
c) E entre 7 e 12 minutos? R: e-0,7-e-1,2.
d) De que ele espere mais do que 10 minutos
(isto é, mais do que a média E(X))? R: e-1.
• Falta de Memória

É uma importantíssima propriedade


da distribuição exponencial. Ela diz que:

P(X>x+s|X>x) = P(X>s).
Interpretação: se uma lâmpada já durou x
horas, a probabilidade dela durar mais s
horas a partir dali é a mesma que ela teria
de durar s horas a partir da sua fabricação.

Em outras palavras, não há desgaste.

Isto é considerado uma crítica ao uso da


exponencial para este tipo de aplicação.
Demonstração:

P(X>x+s|X>x) =
P[(X>x+s)(X>x)]/P(X>x) =
P(X>x+s)/P(X>x) =
e-(x+s)/e-x = e-s
= P(X>s), C.Q.D.
• Relação entre a Exponencial e a Poisson
Se o número X de ocorrências de um
evento por unidade de tempo segue
distribuição de Poisson com parâmetro :
X ~ Poisson (),
então o intervalo de tempo T (medido
na mesma unidade de tempo) entre duas
ocorrências sucessivas segue distribuição
exponencial com parâmetro , ou seja:
T ~ Expo().
Exemplo 5.3 - O número de navios que
chega a um porto cujo estaleiro comporta
4 navios segue distribuição de Poisson.
A cada 24 horas, aportam, em média, 12
navios. Com base nestes dados, calcule:
a) A probabilidade de que, no intervalo de
uma hora, nenhum navio venha a aportar.
b) A probabilidade de que o tempo decorrido
entre dois navios seja superior a uma hora.
R: a) e-0,5 b) e-0,5.
• Distribuição Normal

( x  ) 2
1 
f (x)  e 2 2
; x  ;   ,   0.
2

 2

Parâmetros:  (=E(X)) e 2 (=V(X)).

O gráfico da distribuição Normal apresenta


formato similar ao de um sino (bell shaped).
Distribuição Normal para diferentes valores de :

Distribuição Normal para diferentes valores de :


• Cálculo de Probabilidades Normais

Exemplo 5.4 - Considere que as


alturas dos alunos desta turma sigam
distribuição Normal, com média igual
a 170 cm e desvio padrão igual a 5 cm.

Seja o experimento que consiste na


seleção de um aluno qualquer e na
medição de sua altura.
A v.a. que representa o resultado
deste experimento é X ~ N(170,25).

Qual a probabilidade de que a altura


do aluno esteja entre 170 e 172,3 cm?
Em princípio, você calcularia:
altura de um aluno selecionado ao acaso

( x 170) 2
1
172, 3

P(170  X  172,3)   e 50
dx
170 5 2

Problema:
( x  ) 2
1 
A integral de f ( x )  e 2 2

 2
não possui solução analítica!
Para calcular a probabilidade
solicitada, usaremos a tabela Normal.

A tabela Normal fornece probabilidades


associadas a uma v.a. padronizada:

Z = (X-)/,
que possui média zero e variância 1
(como demonstrado no capítulo 3).
P(170  X  172,3) 
 170   X   172,3   
P   
    
 170  170 172,3  170 
P Z 
 5 5 
 P(0  Z  0,46).

P(0 < Z < 0,46) é encontrada na tabela.


Tabela Normal:
Resposta final do item a):

A probabilidade de que a altura de um aluno


selecionado ao acaso esteja entre 170 e
172,3 cm é 0,17724.

b) Qual a probabilidade de que a altura


do aluno esteja entre 170 e 175 cm?
Neste caso:

P(170  X  175) 
 170   X   175   
P   
    
 170  170 175  170 
P Z 
 5 5 
 P(0  Z  1).
Ilustrando na Tabela Normal:
Resposta final do item b): 0,34134.

c) Qual a probabilidade de que a altura


do aluno esteja entre 165 e 170 cm?

Solução:

Pela simetria da Normal, temos:


P(-1 < Z < 0) = P(0 < Z < 1) = 0,34134.
Ilustração da Simetria da Normal:

P(-1 < Z < 0) P(0 < Z < 1)

P(-1 < Z < 1)


d) Qual a probabilidade de que a altura
do aluno esteja entre 165 e 175 cm?

Solução: do slide anterior,


P(-1 < Z < 1) = 0,68268.

Esta é a probabilidade de X estar a no máximo


1 desvio padrão de distância da sua média.
Revisitando a figura do capítulo 1, página 8:

99,72%

Considerando =
E(X) e  = DP(X).
e) Qual a probabilidade de que a altura
do aluno esteja entre 170 e 180 cm?

Solução: P(170 < X < 180) =


P(0 < Z < 2) = 0,47725.

f) E entre 160 e 180 cm?

Solução: P(160 < X < 180) =


P(-2 < Z < 2) = 2*0,47725 = 0,9545.
g) Qual a probabilidade de que a altura do
aluno seja maior do que 170 cm?
Solução: P(X > 170) = P(Z > 0).
A área total sob a curva é igual a 1.
Logo, a resposta é 0,5.

h) E maior do que 175 cm? P(Z > 0)

Solução: P(X > 175) = P(Z > 1) = 0,5 -


P(0 < Z < 1) = 0,5 - 0,34134 = 0,15866.
i) E menor do que 175 cm?
P(Z < 0)

Solução: P(X < 175) = P(Z < 1) = 0,5 +


P(0 < Z < 1) = 0,5 + 0,34134 = 0,84134.

j) E menor do que 165 cm?

Solução: P(X < 165) =


P(Z < -1) = P(Z > 1) = 0,15866.
Exemplo 5.5 - As notas dos alunos de um
vestibular distribuem-se normalmente, com
média 8 e desvio padrão 1. Se a relação
candidato/vaga é de 40 para 1, calcule a nota
mínima para que o aluno seja aprovado.

Obs - será necessário achar *


tal que: P(X > *) = 0,025.

Buscaremos na tabela o valor k tal que:


P(Z > k) = 0,025, denotado por z0,025.
Temos que achar na tabela o valor de k
correspondente à probabilidade 0,475:
k

Assim: z0,025 = 1,96.

Resposta do Exemplo 5.5: 9,96.


Outro valor importante na tabela Normal:
z0,05 = valor de k tal que P(Z > k) = 0,05.
k

Interpolando: z0,05 = 1,645.


Outro valor importante na tabela Normal:
z0,005 = valor de k tal que P(Z > k) = 0,005.
k

?
Interpolando: z0,005 = 2,575.
Resumo - valores importantes
envolvendo a distribuição Normal:

z0,025 = 1,96
z0,05 = 1,645
z0,005 = 2,575.

(serão úteis em intervalos de


confiança e testes de hipóteses)
• Soma de V.A.`s

Exemplo 5.6 - Um elevador suporta


um peso de 500Kg. Podemos estar
interessados na probabilidade do peso
limite ser ultrapassado quando 7
pessoas entram neste elevador.
Neste caso, a v.a. de interesse é:
7
S   Xi ,
peso da
i-ésima pessoa.
i 1

e a probabilidade de interesse é: P(S>500).


• Valor Esperado da Soma de n V.A.`s:

n
E(S)   E(Xi ).
i 1

• Variância da Soma de n
V.A.`s Descorrelacionadas:

n
V(S)   V(Xi ).
i 1
Exemplo 5.6 (cont.) - No exemplo do
elevador, suponha que os pesos das
pessoas tenham média  = 70 e
variância 2 = 100. Neste caso:

n
E(S)   E(X i )  n  7 * 70  490.
i 1
n
V(S)   V(X i )  n  7 *100  700.
2

i 1
• Soma de Normais Independentes
com Médias e Variâncias Iguais
Considere a soma S de n v.a.`s Xi, i =
1,2,...,n, Normais e independentes,
c/ médias  e variâncias 2. Então:

S ~ N(n, n ).2

E agora estamos aptos a calcular a


probabilidade de interesse do exemplo 5.6.
Exemplo 5.6 (cont.)
peso da i-ésima pessoa
7
S   Xi ,
i 1
e queremos P(S>500).

Vimos que S ~ N(490,700). Assim:


500  490
P(S  500)  P( Z  )
700
P( Z  0,38)  0,35197.
Exemplo 5.7 - Uma máquina de café é
calibrada para produzir pacotes com peso
500g. Entretanto, na prática, os pesos reais
dos pacotes produzidos serão v.a.`s.
Suponha que os pesos dos pacotes
produzidos pela máquina sigam
distribuição Normal com média
500 g e variância 16 g2.

a) Qual a probabilidade de que um pacote


qualquer tenha peso maior do que 502 g?
Solução:
peso de um pacote
selecionado ao acaso

P(X  502) 
 X   502   
P  
   
 502  500 
P Z  
 4 
 P( Z  0,5)  0,30854.
Se selecionarmos 100 pacotes (considere
os pesos dos pacotes independentes):

b) Qual a probabilidade de que o peso


total seja maior do que 49,96 Kg?
Solução:
peso total = soma dos pesos
n
S   Xi ~ N(n, n ). 2

i 1

 49.960  50.000 
P(S  49.960)  P Z  
 40 
 PZ  1  P(1  Z  0)  0,5 
P(0  Z  1)  0,5  0,84134.
• Média de V.A.`s

A média de n v.a.`s X1, X2, ..., Xn,


é definida da seguinte forma:

n
 Xi
X i 1
.
n

Note a distinção entre a média de n variáveis


aleatórias e o valor esperado de cada uma delas.
• Média de Normais Independentes

Considere a média X de n v.a.`s Xi,


i = 1,2,...,n, independentes e Normais,
c/ médias  e variâncias 2. Então:

 2
X ~ N(, ).
n

Este resultado será muito útil em estimação,


assunto que será tratado a partir do capítulo 6.
Valor Esperado de x:

1 n 1 n
E( X )  E(  X i )  E( X i ) 
n i1 n i1
1 n 1
 E(X i )  n  .
n i1 n
Variância de x:
2
1 n 1 n
V( X )  V(  X i )    V( X i ) 
n i1  n  i1
1 2 
2
1
2
n

   V(X i )  2 n  .
 n  i1 n n

v.a.`s descorrelacionadas
Exemplo 5.7 (cont.) - c) Qual a
probabilidade do peso médio dos 100
pacotes ser menor do que 500,7 g?
Solução: peso médio = X ~ N(,  ).
2

média dos pesos. n


 500,7  500 
P( X  500,7)  P Z  
 0,4 
PZ  1,75 
0,5  P(0  Z  1,75) 
0,5  0,45994  0,95994.
• Teorema Central do Limite (TCL)

A soma e a média de um número grande de


v.a.`s independentes, quaisquer que sejam as
suas distribuições, é aproximadamente Normal.
6. ESTIMADORES
E INTERVALOS
DE CONFIANÇA
• Estimação Pontual

Exemplo 6.1 - Seja o interesse em obter


alguma informação sobre uma turma grande.
Por exemplo, qual a altura média dos alunos?

Alunos da turma = universo em estudo.


Altura = característica de interesse.
Se o universo em estudo é pequeno, temos
um problema de estatística descritiva. Porém,
se o universo em estudo é amplo, temos um
problema de inferência, no qual, a partir dos
resultados obtidos para um subconjunto do
universo, objetivamos inferir (generalizar,
tirar conclusões) a respeito deste universo.

A seguir são apresentados os 4 conceitos


formais que norteiam a teoria da estimação:
população, parâmetro, amostra e estimador.
População

Define-se população como a


distribuição de probabilidade
considerada adequada para a
característica de interesse.

Uma suposição usual é que a característica de


interesse (no caso, a altura dos alunos) siga
distribuição Normal  população Normal.
Parâmetro

Um parâmetro é uma quantidade fixa


e desconhecida na população, sobre a
qual queremos obter informação.

No exemplo, o parâmetro de interesse é a


altura média dos alunos, ou seja, a média da
distribuição das alturas, que denotamos por .
Considerando que o universo de estudo
é grande o bastante para tornar inviável
observar a característica de interesse
(altura) para todas as unidades (alunos),
seleciona-se um subconjunto de n alunos
e registra-se as alturas de cada um deles.

A seleção de cada aluno, seguida do registro


da sua altura, é um experimento aleatório.
A seleção dos n alunos, então, consiste em
n experimentos aleatórios. O resultado de
cada um destes experimentos pode ser
representado por uma variável aleatória.

Seja então Xi = altura do i-ésimo aluno


selecionado, i = 1, 2, ..., n. Temos assim
um conjunto de v.a.`s: {X1, X2, ..., Xn}.
Amostra

Amostra é um conjunto de v.a.`s: {X1,


X2, ..., Xn} que representa os valores
da característica de interesse para as
n unidades selecionadas do universo.

Se X1, X2, ..., Xn são independentes, temos


uma Amostra Aleatória Simples  AAS.
Estimador

Estimador é uma estatística (função das


v.a.`s da amostra) usada para obter um
valor “plausível” para um parâmetro.
O estimador “natural” para  é:
n

X
o chapéu significa média da
que estamos i amostra
estimando  ˆ  X  i 1
. ou média
amostral
n
• Estimador x Estimativa
Quando substituímos no estimador os
valores observados de X1, X2, ..., Xn,
obtemos uma estimativa do parâmetro.

Exemplo 6.1 (cont.) - Considere a amostra


observada de tamanho 5: x1 = 174, x2 =
186, x3 = 186, x4 = 180 e x5 = 174 cm.
5
 xi
A estimativa de  é: x  i 1
 180.
5
Questão importante:

O que é um bom estimador?

Em linhas gerais, é aquele que tem alta


probabilidade de gerar uma estimativa
próxima ao parâmetro de interesse.
No caso do estimador apresentado, é tal que:

P(    X    )

seja alta, para um  (arbitrário) > 0.

Assim, para avaliar um estimador, devemos


conhecer sua distribuição de probabilidade.
Resultado importante (visto no capítulo 5):

Se a população é Normal, a
distribuição de x é Normal.

Obs - tecnicamente, a distribuição de um


estimador é chamada distribuição amostral.
Estimador Não Viciado

Um estimador não viciado (ou não


tendencioso ou não viesado) é tal que
seu valor esperado é igual ao parâmetro.

Ou seja, um estimador ̂ é não


viciado para um parâmetro  se:

E(ˆ )  .
Resultado importante (visto no capítulo 5):

x é não viciado para .

O vício (ou tendência ou viés) de ̂ é:

B(ˆ )  E(ˆ )  .
Do inglês: bias = vício.
Embora a ausência de vício seja uma
propriedade importante, ela não garante
que um estimador seja adequado.

A variância também é importante, pois


mede a dispersão em torno do parâmetro.
Qual dos estimadores propostos abaixo
parece melhor para estimar o parâmetro ?

distribuiç ão de ˆ 1

distribuiç ão de ˆ 2

-  +
Quanto menor a
variância, maior será:

P(    ˆ    ),

para um  arbitrário, > 0.


• Comparação de Estimadores

Se 2 estimadores são não viciados para


um parâmetro, qual deles é o melhor?

R: o que tiver menor variância.

Este estimador é dito mais eficiente.


Exemplo 6.2 - Seja uma AAS de tamanho 3
de uma população com média  e variância
2, e sejam os seguintes estimadores para :

X1  X 2  X 3
ˆ 1  X 
3
X1  X 3
e ˆ 2  .
2

Qual destes estimadores é mais eficiente?


A razão de variâncias só tem utilidade
para comparar estimadores não viciados.
E quando eles são viciados,
ou um deles é viciado?

Neste caso, a medida adequada de


eficiência não é mais a variância.
Isto porque a variância mede a incerteza do
estimador em torno do seu valor esperado:

ˆ ˆ ˆ
V()  E[  E()] ,
2

e o que queremos é a incerteza em


torno do valor real do parâmetro:

ˆ
E(  ) .
2

Esta medida é chamada erro quadrático


médio, em geral abreviada por EQM.
O erro quadrático médio pode ser escrito
como função da variância e do vício:

ˆ ˆ 2 ˆ
EQM()  V()  B ().

(Para estimadores não viciados,


o EQM e a variância são iguais)
• Erro Padrão

O desvio padrão de um estimador


é denominado erro padrão (EP).

Já foi demonstrado no capítulo 5 que:

2
e assim: EP ( X )  
V( X )  .
n n
• Estimação de 2

O candidato natural para estimar a


variância 2 de uma população seria:
n n
 (X i  X )  X  nX
2 2 2
i
ˆ  i1
2
*  i1 .
n n
Problema:
o valor esperado do estimador acima é
diferente de 2, portanto ele é viciado.
• Estimador Não Viciado para 2

n n

 (X i  X) 2
X 2
i  nX 2

S 
2 i 1
 i 1
.
n 1 n 1

Este estimador é chamado variância amostral.


S  S é chamado desvio padrão amostral.
2
Para grandes amostras, o uso de um ou de
outro estimador não faz muita diferença. Isto
porque o vício do estimador ̂*2 tende a zero
à medida que n aumenta. Tecnicamente, ̂*2
é chamado assintoticamente não viciado.
• Estimador Consistente

Um estimador ̂ é consistente se à
medida que o tamanho n da amostra
aumenta, a distribuição amostral de ̂ vai se
concentrando cada vez mais em torno de .

Exemplo 6.3
X é um estimador consistent e para a média 
de uma população. Este importante resultado
é conhecido como Lei dos Grandes Números.
Um estimador é consistente se ele
satisfaz a uma das seguintes condições:

1) É não viciado e:

Lim V(ˆ )  0.
n 

assintoticamente
não viciado. ou 2) É viciado, mas:

Lim B(ˆ )  0 e Lim V(ˆ )  0.


n  n 
Comportamento de um estimador viciado, mas
consistente, à medida que a amostra aumenta:

f (ˆ )

f (ˆ )

f (ˆ )

f (ˆ )
• Estimação Pontual x Intervalar

O que a estimativa de  permite


concluir acerca do valor real de 

Podemos afirmar que  é


igual à sua estimativa?
R: Não.

Possivelmente haverá o
chamado erro de estimação:
x  .

Este erro não é calculável. Todavia, é possível


obter um intervalo em torno da estimativa no
qual podemos confiar que o parâmetro esteja.
Intervalo de Confiança

Um intervalo de confiança (IC) é um


intervalo numérico, construído a partir
da estimativa pontual, no qual
confiamos que o parâmetro esteja.

O “quanto” confiamos é determinado pelo


grau de confiança, cujos valores usuais são
90%, 95% e 99%, denotados por 100(1-)%.
• IC p/ a Média  de uma População Normal
(considerando  conhecido)

   
IC100(1 )% ()   x  z  ; x  z .
 2 n 2 n 
grau de confiança do IC
(90, 95 ou 99 %).

Esta quantidade é a margem de erro , e


representa o erro máximo que pode estar sendo
cometido, com grau de confiança 100(1-)%.
Valores Importantes da Normal para IC`s
(já obtidos no capítulo 5, exemplo 5.5):

Para o IC de 99% ( = 0,01)  z0,005 = 2,575.

Para o IC de 95% ( = 0,05)  z0,025 = 1,96.

Para o IC de 90% ( = 0,1)  z0,05 = 1,645.


Exemplo 6.4 - Na situação do exemplo
6.1, considere que o desvio padrão das
alturas de toda a turma (populacional)
é  = 6. A altura média na amostra, já
calculada, foi 180. Determine o IC95%().

Solução:

Para um grau de confiança de 95%, o valor


da Normal a ser usado é z   z 0,025  1,96.
2
Substituindo na fórmula do IC, temos:

 6 6 
IC95% ()  180  1,96 ;180  1,96 
 5 5

= [174,74;185,26].
• Grau de Confiança x Probabilidade

Não é correto afirmar que a probabilidade


de que  esteja no IC calculado é 0,95, uma
vez que  não é uma variável aleatória!

O correto é: temos 95% de confiança de


que  esteja no intervalo [174,74;185,26].

Isto está relacionado à interpretação em


amostras repetidas, apresentada a seguir.
Se selecionássemos todas as amostras de
tamanho 5 possíveis da população, e para
cada uma delas calculássemos o IC:

  
IC95% ()  x  1,96 ; x  1,96 ,
 5 5

 estaria em 95% dos intervalos. Por isso,


confiamos que, na amostra específica que
observamos,  esteja no IC calculado.
• Significado de “Confiança”

1 - Sabemos que, se calculássemos o IC


[x  ; x  ] para todas as amostras de
tamanho n possíveis, o parâmetro 
estaria em 95% dos intervalos calculados.

2 - Na prática, temos apenas uma amostra


(aquela que selecionamos pra observar).
3 - Esta amostra pode ser uma das 95%
cujo IC contém o valor de .

4 - Esta amostra também pode ser uma das


5% cujo IC não contém o valor de .

No que você confiaria mais: “3” ou “4”?


5 - Nada mais razoável do que confiarmos
que nossa amostra seja uma daquelas 95%
cujo IC contém .

O grau com que confiamos é o


“grau de confiança”, no caso 95%.
• Como Escolher o Grau de Confiança?

Primeiramente, considere que,


quanto maior o grau de confiança
escolhido, mais amplo será o IC.

Pense nas implicações disto.


Um IC de 99% é bastante confiável, mas
em compensação, pode ser amplo demais,
caso em que não teria utilidade prática.

Um IC de 90% será bem mais estreito,


mas em compensação estamos expostos a
um percentual de erro elevado (1 em 10).

O grau de 95% é um bom “trade-off” entre


as duas situações acima sendo, por esta
razão, adotado com bastante frequência.
• Determinando o Tamanho
de uma Amostra
É comum inverter a fórmula da margem
de erro para obter n como função de .
Assim, a partir da especificação de ,
pode-se calcular o tamanho da amostra
necessário para esta margem de erro:

z 
2

2

n 2
.
 2
Se 2 é desconhecida, a distribuição usada
no IC não é a Normal, e sim a t de Student:
não é mais Normal, e s
t de Student com n-1 graus de liberdade!
• IC p/ a Média  de uma População Normal
(considerando  desconhecido e estimado)

 s s 
IC100(1 )% ()   x  t  ;x  t  .
 n 1;
2 n n 1;
2 n

T é uma v.a. com distribuição


t de Student com n-1 g.l..

t  é o valor k tal que: P(T>k) = /2.


n 1;
2
Exemplo 6.5 - Na situação do exemplo
6.1, considere agora que  é
desconhecido, e estimado a partir da
amostra: x1 = 174, x2 = 186, x3 = 186,
x4 = 180 e x5 = 174 cm. Ache o IC95%().
Solução - obtendo a estimativa de
 a partir da amostra observada:

n
 i
( x  x ) 2

s2  i 1

n 1
(174  180) 2  (186  180) 2  (186  180) 2  (180  180) 2  (174  180) 2
4
 36  s  36  6.
O valor na tabela t deve ser procurado
para 4 graus de liberdade e  = 0,05:

t 4;0,025  2,7764.
Substituindo na fórmula do IC, temos:

 6 4 
IC95% ()  180  2,7764 ;180  2,7764 
 5 5

= [172,55;187,45].

Interpretação: temos 95% de confiança


de que  esteja no intervalo acima.
• IC Aproximado para a Média
de uma População Normal

A distribuição t aproxima-se da Normal à


medida que os graus de liberdade aumentam.

Para 30 ou mais graus de liberdade (n>30),


a distribuição Normal pode ser usada para
obter um IC aproximado para a média,
mesmo se  for desconhecido e estimado.
• Intervalo de Confiança para
uma Proporção (Grandes Amostras)
Seja p uma proporção populacional.

 p̂(1  p̂) p̂(1  p̂) 


IC100(1 )% (p)  p̂  z  ; p̂  z  .
 2 n 2 n 

= , para o caso da estimação de uma proporção.


p̂ é a proporção que foi observada na amostra.
Exemplo 6.6 - São examinadas 70 peças
selecionadas ao acaso de um lote, e
observa-se que 49 são defeituosas.
Construa um IC de 95% para a
proporção de peças defeituosas no lote.
Solução :

 0,7 * 0,3 0,7 * 0,3 


IC95% (p)  0,7  1,96 ;0,7  1,96 
 70 70 
 [0,7  0,1073;0,7  0,1073]  [0,5927;0,8073].
• Intervalo de Confiança para a
Variância de uma População Normal

 
 
2 2
s s
IC100(1α)% (σ )  (n  1) 2 ; (n  1) 2
2
.
 χ α χ  α 
 n 1,
2
n 1, 1  
 2 

valor k 2 na tabela valor k1 na tabela


qui - quadrado tal que : qui - quadrado tal que :
α α
P(X  k 2 )  . P(X  k1 )  .
2 2
Exemplo 6.7 - Uma amostra de 30 alunos
de uma universidade apresenta variância
amostral das notas: s2 = 132,7.
Supondo que a população é Normal,
construa um IC de 95% para 2.

Solução - os valores da qui-quadrado são:


χ 2
29;0,975  16 e χ 2
29;0,025  45,7.

 132,7 132,7 
IC95% (σ )  29
2
;29   [84,21;240 ,52].
 45,7 16 
7. TESTES DE
HIPÓTESES
• Testes de Hipóteses

Uma hipótese estatística é uma afirmação


a respeito de um parâmetro da população.

Exemplo 7.1 - No exemplo das alturas dos


alunos (6.1), podemos formular a seguinte
hipótese: “ (que é a altura média dos
alunos da turma inteira) é igual a 175 cm”.
Esta hipótese de igualdade é chamada
hipótese nula, e representada por H0.

Ela será investigada a partir da amostra.


Se a amostra fornece evidência contra
H0, então rejeitamos esta hipótese.

Neste caso, aceitamos uma hipótese


alternativa, representada por H1.

H1 contradiz o que se afirma em H0.


No exemplo, teríamos H1:   175.
Caso contrário, se a amostra não fornece
evidência contra H0, não rejeitamos H0.

Obs - embora não seja rigorosamente correto,


algumas vezes “aceitar H0” é empregado.

Veremos que um teste não fornece evidência


estatística que leve a aceitar a hipótese nula.

Em provas da banca Cesgranrio, “aceitar


H0” tem sido tomado como correto.
Em resumo, diante das hipóteses:
H0:  = 175 (hipótese nula)
e
H1:   175 (hipótese alternativa),

tomamos uma das seguintes decisões:


não rejeitar H0
ou
rejeitar H0 (e, neste caso, aceitar H1).
Embora o ponto de partida seja a
hipótese nula, é a hipótese alternativa
que um teste permite evidenciar (ou não).

É ela, portanto, que queremos tentar


comprovar, quando formulamos um teste.
• Analogia com um Julgamento

Em nosso sistema judiciário, um júri


só decide condenar um réu caso haja
evidência de que ele seja culpado.

Isto porque o sistema considera mais


grave condenar um eventual inocente
do que absolver um eventual culpado.
Isto nada mais é do que
um teste de hipóteses.

Qual a hipótese nula?

Qual a hipótese alternativa?

R: H0: réu inocente


H1: réu culpado.
• Erros em Testes de Hipóteses

Um teste de hipóteses não leva


necessariamente à decisão correta.

Qualquer que seja nossa decisão,


sempre existe a possibilidade de erro.

Existem 2 tipos de erro que podemos


cometer ao testar hipóteses: tipo I e tipo II.
O erro tipo I é o erro que consiste em
rejeitar H0, quando ela é verdadeira.

A probabilidade de cometer este erro é


denotada por , e tem um nome específico:

nível de significância.
• Nível de Significância

O nível de significância  de um teste é


a probabilidade de cometer o erro tipo I

 é pré-especificado por quem vai fazer o


teste. Os valores usuais são: 0,01, 0,05 e 0,1.
Uma questão que pode surgir é: por que
não trabalhar com um valor de  muito
pequeno, bem menor ainda do que 0,01?


Porque isto aumentaria muito a exposição
ao erro oposto, ou seja, o de não rejeitar H0
quando ela é falsa, chamado erro tipo II.
O erro tipo II é o erro que consiste em
não rejeitar H0, quando ela é falsa.

A probabilidade do erro tipo II


é designada por .

O problema de usar um  muito


pequeno é que quanto menor o
valor de , maior o valor de .
Obs -  e  não têm uma relação exata. Por
exemplo, não se pode afirmar que + = 1.

A única coisa que se garante é que


quando um diminui, o outro aumenta.

A única forma de reduzir  e 


simultaneamente é aumentando
o tamanho da amostra.

Resumo - Erros em um Teste de Hipóteses:

H0 Verdadeira H0 Falsa

Rejeitar H0 Erro Tipo I

Não Rejeitar Erro Tipo II


H0

a probabilidade  de cometer este


erro é o nível de significância.
• Diretrizes para Formular Hipóteses

A formulação das hipóteses de um teste


deve levar em consideração o seguinte:

1) H0 deve ser definida de tal forma


que o erro de rejeitá-la quando ela for
verdadeira (isto é, o tipo I) seja mais
grave do que o erro contrário (tipo II).
Isto porque o erro tipo I tem uma
probabilidade pré-especificada como
um valor pequeno (isto é, controlada).

2) H1, por outro lado, é a hipótese


da qual um teste é capaz de fornecer
evidência estatística (= conclusão de
que a hipótese é verdadeira, sujeita a
uma probabilidade de erro controlada).
• Métodos para Testar Hipóteses

Há três métodos para testar hipóteses:

1. Método do Intervalo de Confiança


(IC)
2. Método da Região Crítica (RC)
3. Método do P-Valor
• Testando uma Hipótese a partir
de um Intervalo de Confiança
O teste de H0:  = k contra H1:   k,
ao nível de significância , pode ser
feito usando o IC de 100(1-)% (daí
a notação 100(1-)% que adotamos!).
A regra de decisão é a seguinte:
• Se k não pertence ao IC, rejeitamos H0
• Caso contrário, ou seja, se k
pertence ao IC, não rejeitamos H0
• IC`s e Testes de Hipóteses (Bilaterais)

O IC com grau permite testar ao


de confiança:: nível de significância:

90% 0,1

95% 0,05

99% 0,01
Exemplo 7.1 (cont.)

Vamos usar o método do IC


para conduzir o seguinte teste:

H0:  = 175
x
H1:   175,

ao nível de significância  = 0,05.


(considere  conhecido, igual a 6)
Solução: As hipóteses de interesse são:
H0:  = 175 (hipótese nula);
H1:   175 (hipótese alternativa).

O IC95%() (calculado no exemplo 6.1) é:


[174,74;185,26].
.
Basta verificar se este intervalo contém
o 175. De imediato, vemos que sim.
Conclusão:
não rejeitamos H0, ao nível  = 0,1.
Erro conceitual comum:

Não rejeitar H0 ao nível  porque a estimativa


de  pertence ao IC de 100(1-)%.

Por que isto está errado?


Resposta: a estimativa está sempre
dentro do intervalo, por construção.

O correto seria: não rejeitar H0 ao nível


 se k (isto é, o valor de  contemplado
em H0) pertencer ao IC de 100(1-)%.
• O Método da Região Crítica

Embora o método do IC seja simples


e conveniente, o método da região crítica
é o método formal para testar hipóteses.

Para a explicação deste método, é


necessário definir 2 quantidades:
- Estatística de teste
- Região crítica
A estatística de teste é uma estatística
(= função das v.a.`s na amostra) baseada
no estimador do parâmetro de interesse.

Seja  a média de uma população


Normal com  conhecido. A estatística
do teste de H0:  = k contra H1:   k é:

Xk
Z .
/ n
Quando H0 é verdadeira
( = k), sabemos que:

Xk
Z ~ N(0,1).
/ n

Portanto, se houver evidência de que o


resultado acima não seja válido, então
é porque H0 não deve ser verdadeira.
O valor observado de Z é:

xk
z0  .
/ n

Se z0 é um valor que seria pouco provável


caso Z ~ N(0,1), isto representa evidência
contra Z ~ N(0,1) e, portanto, contra H0.
Quais valores de z0 são pouco prováveis
se H0 é verdadeira, isto é, se Z ~ N(0,1)?

Ora, os valores que correspondem


às “caudas” da distribuição N(0,1).

Estes valores definem o que


denominaremos região crítica.
A região crítica RC (ou região de rejeição)
é o conjunto dos valores de z0 que
conduzem à decisão de rejeitar H0.

Para o teste de H0:  = k contra


H1:   k ( conhecido):

RC = (-,-z/2][z/2,).
este valor é chamado valor crítico.
• Por Que Rejeitar H0 Quando z0  RC?

Note que, se H0 é verdadeira:

P(ZRC) = P[(Z-z/2)(Zz/2)] = ,
que é um valor pré-especificado e baixo.

Assim, se z0RC, temos que decidir entre:


1 - H0 é verdadeira, e o evento ZRC, cuja
ocorrência era improvável (probabilidade
) acabou ocorrendo por obra do acaso
ou
2 - H0 é falsa.

O mais lógico é optar pela alternativa 2.

Assim, tomamos a decisão de rejeitar H0.


Resumo:

Se o valor observado da estatística de


teste pertencer à RC, a amostra fornece
evidência estatística para rejeitar H0.

Nesta situação, tomamos a


decisão de rejeitar H0.
Se o valor observado da estatística de
teste não pertencer à RC, a amostra não
fornece evidência para rejeitar H0.

Nesta situação, tomamos a


decisão de não rejeitar H0.
Exemplo 7.1 (cont.) - Vamos agora aplicar o
método da RC para conduzir o teste H0:  = 175
x H1:   175, ao nível de significância  = 0,05.

Valores Críticos da Normal para Testes


Bilaterais (iguais aos dos IC`s de 100(1- )%):

Para  = 0,01  z0,005 = 2,575.


Para  = 0,05  z0,025 = 1,96.
Para  = 0,1  z0,05 = 1,645.
Como  = 0,05:
RC = (-,-1,96][1,96,).

Para calcular z0, precisa-se da estimativa da


média que havia sido obtida no exemplo 6.1:

x  175 180  175


z0    1,8634.
6/ 5 6/ 5

Este valor não pertence à RC.


Conclusão: não rejeitamos H0, ao nível 0,05.
Se  é desconhecido, a estatística do
teste de H0:  = k contra H1:   k é:

Xk
T .
S/ n

Quando H0 é verdadeira ( = k), a


estatística acima segue distribuição t de
Student com n-1 graus de Liberdade.
O valor observado de T é:

xk
t0  .
s/ n

E a região crítica é:
RC = (-,-tn-1;/2][tn-1;/2,).
No exemplo 7.1, vamos agora considerar 
desconhecido e testar as mesmas hipóteses:

H0:  = 175
x
H1:   175,

A estimativa de  já foi obtida no


exemplo 6.5: s = 6. O valor crítico é o
mesmo daquele exemplo: t4;0,025 = 2,7764.
Assim:

RC = (-,-2,7764][2,7764,).

x  175 180  175


t0    1,8634.
s/ 5 6/ 5

Este valor não pertence à RC.

Conclusão: não rejeitamos


H0, ao nível 0,05.
Erro conceitual comum:

Não rejeitar H0 porque t0 (ou z0)


pertence ao IC de 100(1-)%.

Por que isto está errado?


Resposta: o valor calculado da estatística
de teste não tem nada a ver com IC.
Estariam sendo misturados 2 métodos.

O correto seria:

não rejeitar H0 porque k pertence ao IC


ou
rejeitar H0 porque t0 ou (z0) pertence à RC
Exemplo 7.2 - Uma AAS de 25
trabalhadores de uma fábrica foi
selecionada, fornecendo salário médio
de R$ 400,00 e desvio padrão R$ 450,00.

Considerando a população Normal, teste


a hipótese de que o salário médio dos
empregados da fábrica seja R$ 600,00,
ao nível de significância  = 0,1,
utilizando para isto o método da RC.
Solução:
1 - As hipóteses de interesse são:
H0:  = 600 (hipótese nula);
H1:   600 (hipótese alternativa).
O nível de significância é  = 0,1.

2 - A região crítica do teste é:


RC = (-,-t24;0,05][t24;0,05,).
Encontrando t24;0,05 na tabela t:
Assim, RC = (-,-1,7109][1,7109,).

3 - Cálculo de t0:

x  600 400  600 200


t0     2,2222.
s / 25 450 / 5 90

4 - Verifica-se que t0 pertence à RC.

5 - Conclusão: rejeitamos H0, ao nível 0,1.


Em algumas situações específicas, não
estaremos preocupados em evidenciar
se o parâmetro de interesse (, nos
exemplos até aqui) é diferente de k, e
sim se ele é maior ou menor do que k.

Isto conduz ao estudo de testes unilaterais.


• Testes Unilaterais/Unicaudais

Exemplo 7.3 - Um fabricante afirma


que seus cigarros contém, em média, no
máximo 30mg de nicotina. Queremos
verificar a partir de uma amostra se
existe evidência contra esta afirmação.

Neste caso, H1, a hipótese que se quer


evidenciar, não é   30, mas sim  > 30.
Assim é mais apropriado estabelecer
como hipótese alternativa H1:  > 30.
Neste caso, H0 pode ser:   30 ou  = 30.

A região crítica é definida com base na


hipótese alternativa, e será, neste caso:
RC = [z;), se  for conhecido ou
RC = [tn-1;;), se  for desconhecido.
não dividimos  por 2!
Valores Críticos da Normal
para Testes Unilaterais:

Para  = 0,01  z0,01 = 2,33.

Para  = 0,05  z0,05 = 1,645.

Para  = 0,1  z0,1 = 1,28.

O método do IC não pode ser


aplicado para testes unilaterais!
Exemplo 7.3 (cont.) - Foi coletada uma
amostra de 25 cigarros, fornecendo média
31,5 mg. O desvio padrão populacional é
conhecido, e igual a 3 mg. Ao nível  = 0,05,
os dados refutam a afirmação do fabricante?

Solução: RC = [1,645;) e z0 = 2,5, que


pertence à RC. Desta forma, rejeita-se H0,
ao nível de significância  = 0,05. Os dados
refutam a afirmação do fabricante, a este nível.
Considere agora o desvio padrão 
desconhecido e estimado, com s = 3 mg.

Já vimos no exemplo 7.3 que t24;0,05


= 1,7109. Assim: RC = [1,7109;).

t0 = 2,5, que pertence à RC acima,


portanto a conclusão permanece.

Obs - se H1 for  < 30, a RC


passa a ser: (-;-z] ou (-;-tn-1;].
Exercício 7.1 - Especula-se que,
próximo às eleições, a rentabilidade
média dos fundos de investimento mais
alavancados do mercado seja negativa.
Uma amostra aleatória de 16 fundos deste
tipo forneceu rentabilidade média de -1%
e desvio padrão de 0,5%. Existe evidência
de que proceda a especulação acima, a
algum dos níveis de significância usuais?
Resposta: t0 = -8  há evidência de que 
< 0, aos 3 níveis usuais (0,01, 0,05 e 0,1).
• Teste para uma Proporção

As hipóteses de interesse são:

H 0: p = k
H1: p  k,

sendo p uma proporção populacional


(por exemplo, de eleitores que
pretendem votar em um certo candidato).
O teste baseia-se no seguinte resultado
aproximado (para grandes amostras):
proporção amostral.

p̂  p
Z  N(0,1).
p(1  p)
n

O teste resultante será válido apenas em


grandes amostras (é um teste assintótico).
Estatística de Teste

A estatística de teste é obtida substituindo


em Z o valor considerado em H0 (p = k):

p̂  k
Z .
k (1  k )
n
O teste consiste em calcular o valor da
estatística Z para a amostra observada:

p̂  k
z0  ,
k (1  k )
n

e verificar se z0 pertence à RC, que


é baseada na distribuição Normal.
Exemplo 7.4 - Uma corretora afirma
que 30% dos seus clientes são avessos
ao risco. Uma AAS de 64 clientes
revela que 20 são avessos ao risco.

Teste a afirmação da corretora, ao


nível de significância  = 0,1.
Solução:

As hipóteses de interesse são:

H0: p = 0,3
H1: p  0,3,

sendo p a proporção do total de clientes


da corretora que são avessos ao risco.
 = 0,1  z0,05 = 1,645, e assim:

RC = (-,-1,645][1,645,).

0,3125  0,3
z0   0,2182.
0,3(1  0,3)
64

Como z0 não pertence à RC, não


rejeitamos H0 ao nível  = 0,1.
Exercício 7.2 (cont. do exemplo 6.6) -
São examinadas 70 peças selecionadas ao
acaso de um lote, e observa-se que 49 são
defeituosas. Use o método do IC para testar,
ao nível 0,05, a hipótese de que metade
das peças do lote inteiro seja defeituosa.

R: IC95%(p) = [0,5927;0,8073].
Rejeita-se H0 ao nível 0,05.
Exemplo 7.5 - Uma emissora de TV
afirma que o índice de audiência de seu
programa “carro chefe”, em determinada
localidade e horário, é de 60%. Um
instituto de pesquisa entrevista 400
pessoas naquela localidade. Se 220
entrevistados assistem ao programa no
horário em questão, existe evidência
estatística contra a afirmativa feita pela
emissora, ao nível de significância 0,05?
Solução:

As hipóteses de interesse são:

H0: p = 0,6
H1: p < 0,6,

sendo p a proporção de audiência do


programa na população em estudo.
Para  = 0,05:
RC = (-,-1,645].

0,55  0,6
z0   2,04.
0,6(1  0,6)
400

Como z0 pertence à RC,


rejeitamos H0 ao nível  = 0,05.
Conclusão:

A amostra fornece evidência contra a


afirmativa da emissora, ao nível 0,05.

E aos outros níveis usuais?


• Decisão x Nível de Significância

No exemplo 7.5, rejeitamos H0 aos


níveis 0,05 e 0,1, mas não ao nível 0,01.

Isto conduz à seguinte conclusão:

a decisão em um teste depende do


nível de significância estabelecido!
Note então que:
Se uma hipótese não é rejeitada a um
certo nível de significância, também não
o será a níveis inferiores (a RC diminuirá).

Por outro lado:


Se uma hipótese é rejeitada a um certo
nível de significância, também o será a
níveis superiores (pois a RC aumentará).
Podemos definir um “ponto de corte”, isto é,
um valor de  abaixo do qual não rejeitamos
H0, e acima do qual passamos a rejeitar H0.

Este ponto é chamado p-valor do teste.


P-Valor ou Nível Descritivo

O p-valor de um teste é o menor


valor de  que nos leva a rejeitar H0.

O p-valor é utilizado para testar


hipóteses de uma forma direta (sem
precisar de nenhuma conta ou tabela).
• Testando Hipóteses Usando o P-Valor

A regra de decisão é a seguinte:

se p-valor    rejeitamos H0
se p-valor >   não rejeitamos H0
Exemplo 7.6 - O p-valor obtido para um
teste foi 0,07. Qual a conclusão do teste
para os 3 níveis de significância usuais?

Solução:

Para  = 0,01 ou 0,05, não rejeitamos H0


(pois o p-valor é maior do que ambos);

Para  = 0,1, rejeitamos H0


(pois o p-valor é menor do que 0,1).
• Cálculo do P-Valor

O p-valor de um teste é dado pela


probabilidade, calculada sob H0,
de que a estatística de teste assuma
um valor igual ou “mais extremo”
do que o valor calculado na amostra.

Mais extremo = mais “dentro” da RC.


Para elucidar a definição, considere o teste
de H0:  = k contra H1:  > k, em que z0
é o valor observado da estatística de teste.

Note que, se z0 > z, o p-valor fica


menor do que . Isto corresponde
à situação em que H0 é rejeitada.
Por outro lado, se z0 < z, o p-valor fica
maior do que . Isto corresponde à
situação em que H0 não é rejeitada.

Se z0 = z, o p-valor é
igual a , e H0 é rejeitada.
Exemplo 7.7 - Calcule o p-valor do teste
do exemplo 7.3, e utilize-o para formular
sua conclusão aos três níveis usuais.

Solução :
conclusão?
p - valor  PH 0 (Z  2,5)  0,5  0,49379  0,00621.

indica que a probabilidade é calculada sob H0


Em um teste bilateral, o p-valor é obtido
multiplicando o p-valor unilateral por 2.

No exemplo 7.7, se H1:   30:

p-valor = 2*0,00621 = 0,01242.


Exercício 7.3 - No exemplo 7.5, calcule o
p-valor do teste, e utilize-o para formular
suas conclusões aos níveis usuais.

R: 0,02068.
Poder de um Teste

O poder  de um teste de
hipóteses é a probabilidade de
rejeitar H0 quando ela é falsa.

Obs - o poder também é


chamado potência do teste.
Temos então que o poder de um teste é
a probabilidade de uma decisão correta.

A idéia é que um bom teste deve - ao


menos na maioria das vezes - conduzir
à rejeição de H0 quando ela for falsa.
Erros em um Teste de Hipóteses x Poder:

H0 Verdadeira H0 Falsa

Rejeitar H0 Erro Tipo I Decisão


Correta

Não Rejeitar Erro Tipo II


H0

a probabilidade desta decisão correta é o poder do teste


Relação entre o Poder e a
Probabilidade do Erro Tipo II:

É fácil concluir que:

 = 1-.
• Cálculo do Poder de um Teste

O poder de um teste é
calculado da seguinte forma:

 = PH1(Estatística do Teste  RC).

indica que a probabilidade será calculada sob H1


Curva de Poder ou Função Poder

O poder de um teste é sempre função


do valor real do parâmetro, sob H1.

Isto conduz ao conceito de curva de poder


(ou ainda, função poder), que é a curva que
representa o poder em função do parâmetro.

Assim, para calcular o poder de um teste, é


necessário fixar um valor para o parâmetro.
Exemplo 7.8 - Calcule o poder do teste
do exemplo 7.3, assumindo que o nível
médio real de nicotina nos cigarros seja 32.

Solução - recordando os dados do problema:

H0:  = 30 x H1:  > 30 e RC = [1,645;).

Da amostra observada, calculamos z0 = 2,5.


Solução:

Este cálculo envolve 4 passos:

Passo 1  Reescrever a RC em termos de X :

X - 30
Z  1,645   1,645 
3 / 25
X  1,645 * 0,6  30  X  30,99.
Passo 2  Aplicar a definição de  :
  PH1 ( Z  RC )  PH1 ( X  30,99).

Passo 3  Padronizar X :
30,99  
()  PH1 ( Z  ).
0,6

valor real de  sob H1.


Passo 4  Substituir o valor de
 fornecido no enunciado :

30,99  32  1,01
(32)  P( Z  )  P( Z  )
3 / 25 0,6
 P( Z  1,68)  0,95352.

Obs - na prática, não saberemos o valor de , e


faz mais sentido expressar  como função de 
(a curva resultante é chamada curva de poder)
• Cálculo da Probabilidade do Erro Tipo II

A probabilidade de que se cometa


o erro tipo II em um teste, denotada
por , é calculada da seguinte forma:

 = PH1(Estatística do Teste  RC).

Ou, se já tiver calculado , fazer:  = 1-.


• Testes de Hipóteses Simples

Hipóteses como  < k ou   k são chamadas


compostas, ao passo que  = k é uma hipótese
simples. Teoricamente, embora não faça muito
sentido prático, é possível fazer um teste de uma
hipótese simples contra outra hipótese simples.
Por exemplo: H0:  = 30 x H1:  = 35.

A estatística e a RC deste teste são exatamente


as mesmas do teste: H0:  = 30 x H1:  > 30.
8. DISTRIBUIÇÕES
CONJUNTAS
Em algumas situações, estaremos
interessados no comportamento
conjunto de n variáveis aleatórias.

Surge então o conceito de


distribuição de probabilidade conjunta.
Distribuição Conjunta
(caso discreto)
Função P(X1=x1, X2=x2, ..., Xn=xn) que
fornece a probabilidade conjunta de
que as v.a.`s X1, X2, ..., Xn assumam,
respectiva e simultaneamente, os
valores observados x1, x2, ..., xn.

No caso de 2 variáveis, será adotada


a notação: X1  X e X2  Y.
Exemplo 8.1 - Distribuição conjunta
de 2 variáveis aleatórias X e Y:

x y 0 1
0 0,1 0,2

1 0,1 0,3

2 0,2 0,1
• Distribuições Marginais

As distribuições marginais de X e Y são


obtidas somando-se, respectivamente, as
colunas e linhas da conjunta de X e Y:

P ( X  x )   P ( X  x , Y  y)
y

P ( Y  y)   P ( X  x , Y  y)
x
Distribuições marginais no exemplo 8.1:

P(X=x) = 0,3, se x = 0
P(X1=x1) = 0,4, se x = 1
0,3, se x = 2.

P(Y=y) = 0,4, se y = 0
P(X1=x1) = 0,6, se y = 1.
Distribuição Conjunta
(caso contínuo)

Função f(x1,x2,...,xn) que permite obter


a probabilidade de que X1, X2, ..., Xn
pertençam a uma região C no Rn.

No caso bidimensional, P[(X,Y)C]


é dada pelo volume do sólido formado
pela projeção de f(x,y) sobre a área C.
Exemplo 8.2 - f(x,y) = 1; 0< x<1, 0<y<1:

f(x,y) y

x
Exemplo 8.3 - Normal Bivariada:

1  ( x  X ) 2 ( y  Y ) 2 ( x  X )( y  Y ) 
    2  
2    
2 (1 )  X2
Y2

e X Y

f ( x , y)  , ( x , y)  R 2

2X  Y 1   2

f(x,y)

y x
Propriedades:
1) f(x1,x2,...,xn)  0, para
toda n-upla (x1,x2,...,xn).

2) A integral de f(x1,x2,...,xn) no
domínio de X1, X2, ..., Xn é 1.

Exemplo 8.4 - Verifique se a seguinte


função é uma distribuição conjunta:

f(x,y) = 3x(x-y)/4, 0x2, 0y2.


Exercício 8.1

A função de densidade de probabilidade


conjunta da v.a. bidimensional (X,Y) é:

xy
f ( x, y)  x  ,0  x  1,0  y  2.
2

Ache P(Y<X).

R: 7/24.
As marginais de X e Y são obtidas
integrando a conjunta na “outra” variável:

f (x)   f ( x, y)dy

f ( y)   f ( x, y)dx
Exemplo 8.5 - Considere duas variáveis
aleatórias X e Y com distribuição conjunta:

f (x, y)   e
2  ( xy)
; x, y  0;   0.

Encontre f(x) e f(y) .


Solução:
 

f (x)    e 2  ( x  y )
dy   e
2  x
e
 y
dy
0 0

1
e 2  x
 e , x  0.
 x


 

f ( y)    e 2  ( x  y )
dx   e
2  y
e
 x
dx
0 0

1
e 2  y
 e , y  0.
 y


• Independência de V.A.`s

Se X1, X2, ..., Xn são independentes, então:


n
P( X1  x1 , X 2  x 2 ,..., X n  x n )   P( Xi  x i ),
i 1

(x1,x2,...,xn). (caso discreto)


n
f ( x1 , x 2 ,..., x n )   f ( x i ),
i 1

(x1,x2,...,xn). (caso contínuo)


Exercício 8.2 - Verifique se X e Y
são independentes nos exemplos:
a) 8.1
b) 8.5

Respostas:

a) Não. Por exemplo: P(X=0,Y=0) não


é igual ao produto P(X=0)P(Y=0).

b) Sim, pois f(x,y) = f(x)f(y),  x,y.


Vimos no capítulo 3 que, se 2 v.a.`s são
independentes, então E(XY) = E(X)E(Y).

Isto porque, se X e Y são independentes,


então isto implica que Cov(X,Y) = 0,
e desta forma: E(XY) - E(X)E(Y) = 0.

Porém, em geral a volta não vale, ou seja,


correlação zero não implica em independência.
Porém, há um caso de exceção:

Se X e Y seguem distribuição Normal


bivariada, então XY = 0 é condição suficiente
para garantir que X e Y são independentes.

Este é o único caso em que correlação


zero implica em independência.
Demonstração: faça  = 0 na fórmula da
Normal bivariada, abaixo, e verifique que
isto implica na independência de X e Y:

1  ( x  X ) 2 ( y  Y ) 2 ( x  X )( y  Y ) 
    2  
2    
2 (1 )  X2
Y2

e X Y

f ( x , y)  , ( x , y)  R 2

2X  Y 1   2
• Distribuições Condicionais

f ( x , y)
f ( x | y)  , f ( y)  0
f ( y)

f ( x , y)
f ( y | x)  , f (x)  0
f (x)
Exemplo 8.6 - Determine as densidades
marginais e condicionais associadas às
v.a.`s X eY, cuja distribuição conjunta é:

3x 0  y  x  1
f (x, y)  
 0 caso contrário
Respostas:

f ( x )  3x , 0  x  1
2

3
f ( y)  (1  y ), 0  y  1.
2

2 Y|x ~ Unif(0,x)
1
f ( y | x )  , 0  y  x; para 0  x  1.
x
2x
f ( x | y)  , y  x  1; para 0  y  1.
1 y 2
Importante frisar que, na definição da
condicional f(y|x), a variável aleatória
envolvida é Y, e não X, pois X foi fixado.

O valor x pode ser interpretado como um


“parâmetro” da distribuição condicional. Ou
ainda, f(y|x) pode ser interpretada como uma
família de distribuições parametrizada por x.

O mesmo vale (de forma inversa) para f(x|y).


• Valor Esperado Condicional

E(X | y)   xf (x | y)dx

E(Y | x)   yf( y | x)dy


Exercício 8.3 - Calcule os valores esperados
condicionais do slide anterior para a
distribuição conjunta do exemplo 8.6.

Respostas:

x
E(Y | x )  ; para 0  x  1.
2
2(1  y )
3
E ( X | y)  ; para 0  y  1.
3(1  y )
2
• Independência em Termos das
Distribuições e Momentos Condicionais

X e Y são independentes se e somente se:

f(x|y) = f(x) ou f(y|x) = f(y).

Neste caso, note que:

E(Y|x) = E(Y) e E(X|y) = E(X)


Além disto, pode-se provar facilmente
que, se X e Y são independentes, então:

V(Y|x) = V(Y) e V(X|y) = V(X).

Obs - se X e Y forem independentes, não


se pode afirmar que V(XY) = V(X)V(Y).
Exercício 8.4 - Considere duas variáveis
aleatórias X e Y, com distribuição conjunta:
f (x,y) = kx2y, 0x1, 0y1.

Verifique se X e Y são independentes, e


ache o valor esperado condicional E(Y|x).
• Lei das Expectativas Iteradas (LEI)

EY[E(X|Y)] = E(X)

• Teorema da Identidade
da Variância Condicional

VY[E(X|Y)] + EY[V(X|Y)] = V(X)


Exemplo 8.7 - Considere duas variáveis
aleatórias X e Y, com distribuição condicional:

f(y|x) = 1/x, 0 < y < x; para 0 < x < 1.

Se X ~ Unif(0,1), determine E(Y).

R: 1/4.
9. MÉTODOS
DE ESTIMAÇÃO
Nada foi dito até agora sobre como obter
bons estimadores para um parâmetro. Ou
seja, sobre métodos de estimação.

Estudaremos a seguir o método da máxima


verossimilhança e o método dos momentos.
• Método da Máxima Verossimilhança

Seja uma AAS observada {x1,x2,...,xn} de uma


população com parâmetro desconhecido .

O estimador de máxima verossimilhança é


aquele que conduz ao valor de  que tornaria
máxima a probabilidade de obter essa amostra.
Exemplo 9.1 - Seja X1 uma AAS de
tamanho 1 de uma população Poisson, cujo
parâmetro é . A amostra observada foi x = 2.

Ache o EMV de .

Solução - se X ~ Poisson():
x λ
λ e
P(X  x )  ; x  0,1,2,...; λ  0.
x!
Se fosse um problema de probabilidade,
você calcularia P(X=2) para um dado valor
de  (usando a fórmula do slide anterior).

Mas o problema aqui é inverso:

temos x (amostra), no caso: x = 2, e


queremos saber qual o valor de .
A probabilidade de que a amostra
fornecida no enunciado ocorra é:

2 λ
λe
P(X  2)  .
2!

Perceba que esta probabilidade


é uma função de , e não de x!
0,05
0,15
0,25

0,1
0,2
0,3

0
0,01
0,64
1,27
1,9
2,53
3,16
3,79
4,42
5,05
5,68
6,31
6,94
7,57
8,2
8,83
9,46
10,1
10,7
P(X = 2) como função de :

11,4
12
12,6
13,2
13,9
14,5
• Função de Verossimilhança

P(X=x), encarada como função de , é


chamada função de verossimilhança.

O nome original em inglês é likelihood


function, daí a notação usual: L().

A idéia do método a ser apresentado é


buscar o valor de  que maximiza L().
0,05
0,15
0,25

0,1
0,2
0,3

0
0,01
0,64
1,27
1,9
2,53
3,16
3,79
4,42
5,05
5,68
6,31
6,94
7,57
8,2
8,83
máximo da função

9,46
10,1
ponto de máximo

10,7
11,4
12
12,6
Resolvendo o problema graficamente:

13,2
13,9
14,5
E no caso de uma AAS de tamanho n>1?

A idéia é a mesma, só que agora a função de


verossimilhança é a distribuição conjunta
da amostra, encarada como função de .
• Função de Verossimilhança (caso discreto)

O produto é por causa da


independência (AAS)
n
P( X1  x1 , X 2  x 2 ,..., X n  x n )   P( Xi  x i ),
i 1
(x1,x2,...,xn).
L()
Exemplo 9.1 (cont.) no caso de uma AAS
de tamanho n de uma população Poisson():

 x i  n
 i1 e
L( )  n
.
x !
i 1
i

Esta função deve ser


maximizada em relação a .
• Função de Log-Verossimilhança

l() = ln[L()] é chamada


função de log-verossimilhança.

Nos casos práticos, é bem mais fácil derivar


(e, portanto, maximizar) l() do que L().

O valor de  que maximiza l()


é o mesmo que maximiza L().
Exemplo 9.1 (cont.) - função de
log-verossimilhança para a Poisson:

 n xi 
    
  i1
e n
  n

l()  ln    x i  ln   n  c
 n   i 1 
  x i! 
 i 1 
Maximizando a Função
de Log-Verossimilhança:

O ponto de máximo de l()


é o valor de  tal que:

l`() = 0 e l``() < 0.

Um facilitador: em geral, l() é


côncava, o que garante que: l``() < 0,
 . Portanto, basta resolver: l`() = 0.
Exemplo 9.1 (cont.) - A derivada da função
de log-verossimilhança encontrada é:

n
 xi
l`()  i 1
n

n
Assim, temos que  xi
resolver a equação: l`()  i 1  n  0,

n
 xi
cuja solução é:   i 1
 x.
n
Logo, o estimador de máxima
verossimilhança (EMV) é:

ˆ MV  X.
Método da Máxima Verossimilhança:

1. Escrever a função de verossimilhança


2. Escrever a função de log-verossimilhança
3. Derivar a função de log-verossimilhança
4. Igualar a derivada do passo 3 a zero, e
resolver para o parâmetro de interesse
5. Aplicar a função encontrada em (4) à
{X1,X2,...,Xn}, obtendo assim o EMV.
Caso Contínuo:

E se a população de interesse for contínua


(p.ex., exponencial com parâmetro )?

A idéia é a mesma, só que agora a função de


verossimilhança é a distribuição conjunta de
um conjunto de variáveis aleatórias contínuas.
• Função de Verossimilhança (caso contínuo)

n
f ( x1 , x 2 ,..., x n )   f ( x i ),
i 1
(x1,x2,...,xn).
L(), caso
contínuo
Exemplo 9.2 - Seja uma AAS
de tamanho n de uma população
exponencial com parâmetro .

Obtenha o EMV de .
Solução:

A função de densidade é: f(x) = e-x, x>0.

A função de verossimilhança é:
n
L( )   f ( x i ) 
i 1
n
n   xi
 e e
 x i n i 1
.
i 1
A função de log-verossimilhança é:
   x i     x i 
n n

 n i1 
l()  ln   e   ln n
  ln

 e i1 
 

   
n ln      x i .
n

i 1

Derivando e igualando a zero :


n n n 1
l`()    x i  0    n  .
 i 1  xi x i 1
Logo, o EMV é:

1
ˆ MV  .
X
Exercício 9.1 - Seja uma AAS de tamanho
n de uma população Bernoulli(p).

Obtenha o EMV de p.

R:
p̂ MV  X.
Solução Resumida do Exercício 9.1:

n n
n  xi  (1 x i )
L(p)   p (1  p) xi 1 x i
p i 1
(1 - p) i 1

i 1
n n
 xi n   xi
 l(p)   x i ln(p)   n   x i ln(1 - p).
n n
i 1 i 1
p (1 - p)
i 1  i1 
n
 n
 n n
 xi  n   xi   x i  np  xi
l`( p)  i 1
  i 1  (1)  i1  0  p  i1 .
p (1  p) p(1  p) n
Exemplo 9.3 - Seja uma AAS de
tamanho n de uma população N(,2).

Obtenha os EMV`s de  e 2.


Solução:

A idéia aqui é derivar a função de log-


verossimilhança em relação a  e  = 2
(que são os parâmetros a serem estimados).
A função de verossimilhança é:

n
L(,    )   f ( x i ) 
2

i 1

( x i  ) 2
n
( x  )

2
n 
1
 i 
n 

 (2) e (2) e
2 2
2 2 i 1
.
i 1
A função de log-verossimilhança é:

 
n
( x i  ) 2
 
n 
2 
l(, )  ln  (2) 2 e i 1
 

 
n

n  (x i  ) 2

 ln( 2)  i 1
.
2 2
Derivando em relação à :
n

l(, )  ( x   )
i
 i 1
.
 

Igualando a zero:
n

 (x
i 1
i  )  0    x  ˆ MV  X.
Derivando em relação à :
n
 ( x i  )
2
l(, ) n i 1
 
 2 2 2

Igualando a zero e substituindo  por x :


n

 (x i  x) 2

 i 1
.
n
Assim, os EMV`s de  e 2 da Normal são:

ˆ MV  X.
n

 (X i  X) 2

ˆ 2
MV  i 1
.
n

Obs - note que o EMV 2 é viciado.


EMV para os casos mais importantes:

Bernoulli : p̂ MV  X.
Poisson : ˆ  X.
MV

ˆ 1
Exponencia l :  MV  .
X
1
Geométrica : p̂ MV  .
X
n

 i
( X X ) 2

Normal : ˆ MV  X e  2MV  i 1
.
n
• Propriedades dos EMV

1) Não são necessariamente não viciados, mas


são assintoticamente não viciados e consistentes.
2) São assintoticamente eficientes.
3) Seguem distribuição aproximadamente
Normal, para grandes amostras
(isto é, são assintoticamente Normais).
4) São invariantes a transformações
(princípio da invariância, estudado a seguir).
• Princípio da Invariância do EMV

Se ̂ é o EMV de , então o EMV de


uma função g() é simplesmente g(ˆ ).

Exemplo 9.4 - O EMV de q = (1-p) da


distribuição de Bernoulli, usando o P.I., é:

q̂ MV  1  p̂ MV  1  X.
Exemplo 9.5 - Considere que queiramos
estimar a probabilidade de uma mulher
não ter filhos, em uma população Poisson.

Ache o EMV desta probabilidade,


baseado em uma AAS de tamanho n.

ˆ MV X
R : P̂MV (X  0)  e e .
Exercício 9.2 - Seja uma AAS de
tamanho n da população referenciada
pela distribuição: f(x) = x-1, 0<x<1, >0.

Obtenha o EMV de .

n
R : ˆ MV   n
.
 ln(Xi )
i 1
Solução Resumida do Exercício 9.2:

n n
L ( )   x  1
i  n
x  1
i .
i 1 i 1
n
l()  nln( )  (  1) ln( x i ).
i 1
n
n n
l`()    ln( x i )  0     .
 i1 n

 ln( x )
i 1
i
• Método dos Momentos

Vantagem: bem mais simples do que


o método da máxima verossimilhança
e, na maior parte dos casos práticos
de interesse, leva ao mesmo resultado.
O que são “momentos” ?

Momentos populacionais:
E(X), E(X2), ..., E(Xk).

Momentos amostrais:
n n n
 Xi  X 2
i X k
i
i 1 i 1 i 1
, ,..., .
n n n
Método dos Momentos para
Distribuições com 1 Parâmetro

No caso de distribuições com apenas


1 parâmetro (ex., Poisson, exponencial,
Bernoulli, geométrica), o estimador de
momentos é obtido igualando o primeiro
momento populacional ao primeiro
momento amostral - ou seja:

E(X)  X.
Estimadores de momentos para os casos
mais importantes envolvendo 1 parâmetro:

Bernoulli : p̂ MM  X.
Poisson : ˆ
MM  X.
ˆ 1
exponencial :  MM  .
X
1
geométrica : p̂ MM  .
X
Método dos Momentos para
Distribuições com 2 Parâmetros

No caso de populações com 2 parâmetros


(ex.: Normal), o estimador de momentos é
obtido igualando os 2 primeiros momentos
populacionais - E(X) e E(X2) - aos
respectivos momentos amostrais.
Exercício 9.3 - Seja uma AAS de
tamanho n de uma população N(,2).

Obtenha os estimadores de
momentos de  e 2.

n
 (X i  X ) 2

R :  MM  X e  MM 
ˆ ˆ 2 i 1
.
n
Dica para a solução do exercício 9.3:

Para obter o estimador da variância, você


precisará usar que E(X2) = V(X) + E2(X), e:
n n

X 2
i X 2
i
 X 
2 2 i 1
 ˆ 2
MM  i 1
X 2

n n
n n

X 2
i  nX 2
 (X i  X) 2

 i 1
 i 1
.
n n
Exercício 9.4 - Seja uma AAS de tamanho
n de uma população referenciada pela
distribuição: f(x) = x-1, 0<x<1, >0.

Obtenha o estimador de momentos de .


X
R : ˆ MM  .
1 X
Obs  passo intermediá rio :

verificar que E(X)  .
 1
10. REGRESSÃO
LINEAR
• Correlação x Regressão

Quando estudamos a correlação entre duas


variáveis, não pensamos na eventual relação
de causalidade (causa  efeito) entre elas.

Na análise de regressão, isto é importante.


Pressupõe-se que o comportamento de uma
das variáveis (X) possa explicar - ao menos de
forma parcial - o comportamento da outra (Y).
A relação de associação entre X e Y
pode então ser representada pela função:

Y = 0 + 1X,

sendo 0 o intercepto e 1 a inclinação.

Se a relação acima fosse perfeita,


poderíamos, a partir do valor de X,
determinar o valor exato de Y.
Na prática, entretanto, a relação
linear entre X e Y não será perfeita.

Isto é, se X for a renda de uma família,


o gasto com alimentação Y desta família
não será necessariamente Y = 0 + 1X.

É para isto que serve o termo de erro,


que aqui será designado pela letra .
Modelo de Regressão Linear
(Simples)

Y =  0 +  1X + 

Y é a variável dependente
X é a variável explicativa
0 e 1 são os parâmetros do modelo
 é o erro (supõe-se:  ~ N(0,2) )
Interpretação do Termo de Erro:
O erro  representa todos os demais fatores
que poderiam influenciar Y, além de X.

Hipóteses sobre  (também chamadas


hipóteses clássicas ou pressupostos
básicos do modelo de regressão linear):
E() = 0, V() = 2 (homocedasticidade),
distribuição Normal e Corr(i,j) = 0, ij.
Observação Importante:

A análise de regressão apresentada aqui é


a clássica, que é a cobrada em concursos.

Esta abordagem não trata X como variável


aleatória, mas como uma variável cujos
valores são pré-fixados, ou seja, a análise é
feita condicional a valores específicos de X.
• Reta de Regressão (Teórica)

Representa o valor esperado


de Y, como função de X:

E(Y|X) = 0 + 1X

Os parâmetros 0 e 1 precisam ser


estimados (veremos um método para isto).
• Interpretação do Intercepto 0

Se fizermos X = 0 na reta de regressão:

E(Y|X=0) = 0

0 representa o valor esperado de


Y, quando X assume o valor zero.
• Interpretação da Inclinação 1

Considere que a variável explicativa


X aumente uma unidade (X  X+1).

Vamos analisar qual o efeito


correspondente sobre Y.
Seja Y1 o valor de Y em resposta a X:
Y1 = 0 + 1X + 1,

e seja Y2 o valor de Y em resposta a (X+1):


Y2 = 0 + 1(X+1) + 2.
Fazendo Y = Y2-Y1
(variação em Y), temos:

Y =
[0 + 1(X+1) + 2] - (0 + 1X + 1) =
0 + 1X + 1+ 2 - 0 - 1X - 1 =
1 + 2 - 1 = 1 + .
Agora lembre-se que:

E() = E(2 - 1) =


E(2) - E(1) = 0, e assim:

E(Y) = 1.
.
1 é a variação esperada em Y
quando X varia uma unidade.
• Reta de Regressão Estimada/Ajustada

As estimativas de 0 e 1 serão utilizadas


para obter a reta estimada ou ajustada:

Ŷ  ˆ 0  ˆ 1X

estimativa de E(Y|X) = previsão de Y.


• Resíduos

Os resíduos da regressão são


definidos da seguinte forma:

{ˆ i  Yi  Ŷi , i  1, 2, ..., n}

i-ésima Ŷi  ˆ 0  ˆ 1Xi


observação de Y
É imediato notar que, quanto menores
os resíduos, melhor será o modelo.

Esta é a idéia do método dos mínimos


quadrados ordinários (MQO), utilizado para
estimar os coeficientes 0 e 1 do modelo.
• Estimação dos Coeficientes por MQO

O método dos Mínimos Quadrados


Ordinários (MQO) consiste em obter os
estimadores de 0 e 1 que minimizam
a soma dos quadrados dos resíduos:

n
SQR   ˆ 2
i
i 1
A minimização da função anterior em relação
a 0 e 1 resulta nas seguintes equações:

n
(I)   ˆ i  0
i 1
n
(II)   ˆ i X i  0
i 1

Substituindo a fórmula do resíduo e


resolvendo, obtemos os estimadores a seguir:
• Estimadores de MQO de 0 e 1:

n
 (Xi  X)(Yi  Y) SXY ˆ
ˆ 1  i 1
n
 2 , 0  Y  ˆ 1X.
SX
 (X i  X ) 2

i 1

a estimativa de 1 não é igual à correlação


amostral (rXY), mas tem o mesmo sinal dela
Propriedades Importantes da Reta de MQO:

1 - A reta de MQO passa pelo ponto


das médias amostrais de X e Y.

2 - A soma dos resíduos é igual a zero.

3 - A normalidade do erro não foi necessária


para obter os estimadores de MQO.
Exemplo 10.1 - O seguinte modelo (excel)
relaciona Y = gasto com alimentação e X =
renda semanal de uma amostra de 40 famílias:
Estatística de regressão
R múltiplo 0,937608458
R-Quadrado 0,879109621
R-quadrado ajustado 0,875928295
Erro padrão 4,81040437
Observações 40

ANOVA
gl SQ MQ F F de significação
Regressão 1 6394,37439 6394,374 276,3343605 5,02495E-19
Resíduo 38 879,319628 23,13999
Total 39 7273,69402

Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores


Interseção -13,3248381 4,45111079 -2,993598 0,004827374 -22,33564114 -4,314035109
Variável X 1 0,515720938 0,03102397 16,62331 5,02495E-19 0,452916199 0,578525676
a) O que a reta de regressão ajustada permite
concluir para famílias que ganham R$ 100,00?

R: O gasto médio com alimentação de famílias


com esta renda, ou o gasto esperado com
alimentação para famílias com esta renda é:

Ŷ  13,3248  0,5157 *100  38,24.


b) Se a renda familiar aumenta R$ 1,00, o
que ocorre com o gasto com alimentação?

R: Espera-se que o gasto com alimentação


aumente R$ 0,5157, ou: o gasto esperado
com alimentação aumenta R$ 0,5157.

Obs - se a renda aumenta R$ 100,00, o gasto


esperado com alimentação aumenta R$ 51,57.
• R2 ou Coeficiente de Determinação

Uma das quantidades mais importantes na


análise de um modelo de regressão é o R2.

Ele informa qual a proporção da variação


total de Y que o modelo consegue explicar.

Neste ponto, é importante definir os tipos de


variação envolvidos em uma análise de regressão.
Variação Total em Y  Soma dos Quadrados
n
Total : SQT   (Yi  Y ) 2

i 1

Variação Explicada  Soma dos Quadrados


n
da Regressão : SQE   (Ŷi  Y ) 2

i 1

Variação Não Explicada 


Soma dos Quadrados
n n
dos Resíduos : SQR   (Yi  Ŷi )    i
2
ˆ 2

i 1 i 1
Pode-se demonstrar que:
SQT = SQE + SQR

Daí:
n

 (Ŷ  Y )
i
2
SQE SQR
R 
2 i 1
n   1 .
 i
( Y 
i 1
Y ) 2 SQT SQT

O R2 está entre 0 e 1, e mede a proporção da


variação de Y que é explicada pelo modelo.
Identificando o R2 no exemplo 10.1:

Estatística de regressão
R múltiplo 0,937608458 R2
R-Quadrado 0,879109621
R-quadrado ajustado 0,875928295 O modelo consegue
Erro padrão 4,81040437 explicar 87,91% da
Observações 40
variação de Y (bastante).
ANOVA
gl SQ MQ F F de significação
Regressão 1 6394,37439 6394,374 276,3343605 5,02495E-19
Resíduo 38 879,319628 23,13999
2
Total
O R é igual ao quadrado da correlação
39 7273,69402

Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores


2
amostral, denotada por r , daí o nome R .
Interseção
Variável X 1
-13,3248381 4,45111079 -2,993598 0,004827374
0,515720938 0,03102397 16,62331 5,02495E-19
XY
-22,33564114
0,452916199
-4,314035109
0,578525676
• Variância Residual =
Estimador Não Viciado de 2

SQR
ˆ 
2

n2

n-2 porque estamos estimando 2 parâmetros!

Obs - este estimador não é obtido por MQO,


mas é chamado “estimador de MQO de 2”.
• Propriedades dos Estimadores de MQO

1 - são não viciados

2 - são consistentes

3 - são os de menor variância dentre todos os


estimadores lineares e não viciados possíveis
(esta última propriedade é o Teorema de
Gauss-Markov, um dos mais importantes
da teoria de modelos de regressão linear!)
Obs - mostrando que ̂1 é um estimador linear:
n n n
 (X i  X )(Yi  Y )  (X i  X )Yi  Y  (X i  X )
ˆ 1  i 1
n
 i 1
n
i 1

 i
( X  X ) 2
 i
( X  X ) 2

i 1 i 1
n
M as, da estatística básica :  (X i  X )  0. Assim :
i 1
n
 (X i  X )Yi n
(X i  X )
ˆ 1  i 1
n
  i Yi , sendo i  n
.
 i
( X  X ) 2 i 1
 i
( X  X ) 2

i 1 i 1
• Estimadores de Máxima Verossimilhança

Os estimadores de máxima verossimilhança


dos coeficientes do modelo são exatamente
iguais aos respectivos estimadores de MQO.

O EMV de 2 é viciado,
com n no denominador.

Obs - para estimar por MV, a hipótese de


normalidade dos erros é necessária, ao
contrário do que ocorre com o método MQO.
• Distribuições Amostrais

Se o erro segue distribuição Normal,


as distribuições de ̂ 0 e ̂1 são:

ˆ 0  0 ˆ 1  1
~ t n 2 e ~ t n 2 .
EP (ˆ 0 ) EP (ˆ 1 )
erros padrão estimados
Estas distribuições são utilizadas para fazer
inferências estatísticas a respeito de 0 e 1.
• Intervalos de Confiança para 0 e 1

ˆ 
IC100(1 )% (0 )  0  t  EP (ˆ 0 ); ˆ 0  t  EP (ˆ 0 )
n  2; n  2;
 2 2 

ˆ 
IC100(1 )% (1 )  1  t  EP (ˆ 1 ); ˆ 1  t  EP (ˆ 1 )
n  2; n  2;
 2 2 
• Teste de Significância Estatística

O teste da significância
da estimativa de 1 é:
H0: 1 = 0 x H1: 1  0.

Este teste é também chamado de teste de


significância da regressão, pois se 1 = 0:
Y = 0 +   não há relação linear entre Y e X.
Teste usando o Método da Região Crítica:

O teste consiste em calcular:

ˆ 1
t0 
EP (ˆ 1 )

e verificar se t0 pertence à região crítica:

RC = (-,-tn-2;/2][tn-2;/2,).
No exemplo 10.1:

Para  = 0,01, t0 está na região


Estatística de regressão crítica (-,-2,711][2,711,).
Logo, rejeitamos H0: 1 = 0
R múltiplo 0,937608458
R-Quadrado 0,879109621
R-quadrado ajustado 0,875928295
Erro padrão 4,81040437
em favor de H1: 1  0, aos 3
Observações 40 níveis usuais (0,01, 0,05 e 0,1).
ANOVA
gl SQ MQ F F de significação
Regressão 1 6394,37439 6394,374 276,3343605 5,02495E-19
Resíduo 38 879,319628 23,13999
Total 39 7273,69402

Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores


Interseção -13,3248381 4,45111079 -2,993598 0,004827374 -22,33564114 -4,314035109
Variável X 1 0,515720938 0,03102397 16,62331 5,02495E-19 0,452916199 0,578525676
Teste usando o P-Valor:

Estatística de regressão
p-valor do teste de H0: 1 = 0 x
R múltiplo 0,937608458 H1: 1  0. Como o p-valor é
(bem) menor do que  = 0,01,
R-Quadrado 0,879109621
R-quadrado ajustado 0,875928295
Erro padrão 4,81040437
Observações 40 rejeitamos H0 aos níveis usuais.
ANOVA
gl SQ MQ F F de significação
Regressão 1 6394,37439 6394,374 276,3343605 5,02495E-19
Resíduo 38 879,319628 23,13999
Total 39 7273,69402

Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores


Interseção -13,3248381 4,45111079 -2,993598 0,004827374 -22,33564114 -4,314035109
Variável X 1 0,515720938 0,03102397 16,62331 5,02495E-19 0,452916199 0,578525676
Teste usando o Intervalo de Confiança:
Estatística de regressão
R múltiplo
R-Quadrado
0,937608458
0,879109621
IC de 95%
R-quadrado ajustado 0,875928295 para 1
Erro padrão 4,81040437
Observações 40

ANOVA
gl SQ MQ F F de significação
Regressão 1 6394,37439 6394,374 276,3343605 5,02495E-19
Resíduo 38 879,319628 23,13999
Total 39 7273,69402

Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores


Interseção -13,3248381 4,45111079 -2,993598 0,004827374 -22,33564114 -4,314035109
Variável X 1 0,515720938 0,03102397 16,62331 5,02495E-19 0,452916199 0,578525676

O IC de 95% não contém o zero. Logo, rejeitamos


H0: 1 = 0 em favor de H1: 1  0, ao nível  = 0,05.
• Modelo de Regressão Pela Origem

É o modelo de regressão estimado


sem intercepto: Y = 1X + .

Estimador de MQO de 1:


n
 Yi X i
ˆ RPO  i 1
.
1 n
X 2
i
i 1
Propriedades do Modelo
de Regressão Pela Origem:

1 - A reta não necessariamente passa


pelo ponto das médias de X e Y.

2 - A soma dos resíduos não é


necessariamente zero.

3 - SQT  SQE + SQR, e portanto o R2


não possui mais nenhum significado.
• Regressão Linear Múltipla
(noções)
É o modelo de regressão
com k variáveis explicativas.

Y = 0 + 1X1 + 2X2 +...+ kXk + .

O teste relevante aqui é o


de significância conjunta.
• Teste F de Significância Conjunta

O teste F para a significância conjunta


das estimativas de 1, 2, ... e k,
consiste nas seguintes hipóteses:

H0: 1 = 2 = ... = k = 0
x
H1: ao menos um j é diferente de zero.
O valor da estatística do teste (estatística F) é:

SQE / k
f0 
SQR /[ n  (k  1)]
2
R /k
ou : f 0  .
(1  R ) /[ n  (k  1)]
2

H0 é rejeitada se f0  F(k,n-(k+1)) = valor da


tabela F com k e n-(k+1) graus de liberdade.
• Tabela ANOVA

k SQE MQE = SQE/k f0 fsig


n-(k+1) SQR MQR = SQR/[n-(k+1)]
n-1 SQT

fsig é o p-valor do teste F.

Rejeitamos H0 ao nível  se: fsig  .


Exemplo 10.1 incluindo uma variável X2:
Estatística de regressão
R múltiplo 0,972032693
R-Quadrado 0,944847557
R-quadrado ajustado
0,941866343 Menor do que os
Erro padrão 3,292752067 níveis usuais,
Observações 40
logo o modelo é
ANOVA significante.
gl SQ MQ F F de significação
Regressão 2 6872,532024 3436,266012 316,9339143 5,23538E-24
Resíduo 37 401,1619984 10,84221617
Total 39 7273,694022

Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores


Interseção -16,38292449 3,081416164 -5,316686749 5,28353E-06 -22,62646061 -10,13938837
Variável X 1 0,260849877 0,043862535 5,946985831 7,40728E-07 0,171976025 0,349723729
Variável X 2 9,651225335 1,453302236 6,640893472 8,57007E-08 6,706558169 12,5958925

Todos os coeficientes são


individualmente significantes.
• Tabela ANOVA para o Modelo
de Regressão Linear Simples
1 SQE MQE = SQE/1 f0 fsig
n-2 SQR MQR = SQR/(n-2)
n-1 SQT

O teste F no modelo de regressão simples (H0:


1 = 0) é equivalente ao teste t de significância.

Além disto, vale a relação: t 0  f0 .


2
Relação entre Testes t e F no Modelo de Regressão Simples:

Estatística de regressão
R múltiplo 0,937608458
R-Quadrado 0,879109621
R-quadrado ajustado 0,875928295
Erro padrão 4,81040437
Estatística de regressão
Observações 40 16,623312 = 276,3343605

R múltiplo
ANOVA
gl SQ MQ F 0,937608458
F de significação
Regressão 1 6394,37439 6394,374 276,3343605 5,02495E-19
R-Quadrado
Resíduo 38 879,319628 23,13999
Total 39 7273,69402
0,879109621
R-quadradoCoeficientes
ajustado Erro padrão Stat t valor-P 95% inferiores 95% superiores
Interseção -13,3248381 4,45111079 -2,993598 0,004827374 -22,33564114 -4,314035109
Variável X 1 0,515720938 0,03102397 16,62331 5,02495E-19 0,875928295
0,452916199 0,578525676

Erro padrão
p-valores iguais!
Estimativa de 2 na Tabela ANOVA:
Estatística de regressão
R múltiplo 0,972032693
R-Quadrado 0,944847557
R-quadrado ajustado
0,941866343
Erro padrão 3,292752067
Observações 40

ANOVA
gl SQ MQ F F de significação
Regressão 2 6872,532024 3436,266012 316,9339143 5,23538E-24
Resíduo 37 401,1619984 10,84221617
Total 39 7273,694022

Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores


Interseção -16,38292449 3,081416164 -5,316686749 5,28353E-06 -22,62646061 -10,13938837
Variável X 1 0,260849877 0,043862535 5,946985831 7,40728E-07 0,171976025 0,349723729
Variável X 2 9,651225335 1,453302236 6,640893472 8,57007E-08 6,706558169 12,5958925
Propriedade Importante do R2:

O R2 de um modelo nunca diminui com


o acréscimo de uma variável explicativa
(no limite, se n = k, R2 é igual a 1).

Portanto, se utilizarmos o R2 para comparar


modelos “encaixados”, o modelo com
mais variáveis (cheio) nunca perderá. O
correto, neste caso, é utilizar o R2 ajustado.
• R2 Ajustado

SQR/(n - (k  1))
R  1-
2

SQT/(n - 1)
n -1
 1 - (1 - R )
2
.
n - (k  1)

2 2
Obs - o R é sempre menor que o R .
Modelo 1 - só com X1
Estatística de regressão
R múltiplo 0,937608458
R-Quadrado 0,879109621
R-quadrado ajustado 0,875928295
Erro padrão 4,81040437
Observações 40

ANOVA
gl SQ MQ F F de significação
Regressão 1 6394,37439 6394,374 276,3343605 5,02495E-19
Resíduo 38 879,319628 23,13999
Total 39 7273,69402

Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores


Interseção -13,3248381 4,45111079 -2,993598 0,004827374 -22,33564114 -4,314035109
Variável X 1 0,515720938 0,03102397 16,62331 5,02495E-19 0,452916199 0,578525676
Modelo 2 - com X1 e X2
Estatística de regressão O R2 ajustado aumentou de 0,87 para 0,94.
R múltiplo 0,972032693 Concluímos que o acréscimo de X2 contribuiu
R-Quadrado 0,944847557 para a melhoria do ajuste do modelo, que passa a
R-quadrado ajustado
0,941866343 apresentar maior capacidade preditiva, descontado
Erro padrão 3,292752067
o efeito do maior número de variáveis explicativas.
Observações 40

ANOVA
gl SQ MQ F F de significação
Regressão 2 6872,532024 3436,266012 316,9339143 5,23538E-24
Resíduo 37 401,1619984 10,84221617
Total 39 7273,694022

Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores


Interseção -16,38292449 3,081416164 -5,316686749 5,28353E-06 -22,62646061 -10,13938837
Variável X 1 0,260849877 0,043862535 5,946985831 7,40728E-07 0,171976025 0,349723729
Variável X 2 9,651225335 1,453302236 6,640893472 8,57007E-08 6,706558169 12,5958925
• Análise de Resíduos

Após a estimação do modelo, é preciso


verificar se os resíduos estão de acordo com os
pressupostos para o termo de erro do modelo:

- Homocedasticidade (variância constante)

- Não Autocorrelação (Corr(i,j) = 0,  ij)

- Normalidade ( segue distribuição Normal)


• Heterocedasticidade

Definição: variância do erro V()


não constante, variando com X.

Um padrão comum de
heterocedasticidade é:
V()   X
2 V() proporcional à X.

conforme sugerido pelo gráfico a seguir.


Gráfico dos resíduos indicando um
padrão usual de heterocedasticidade:

̂

X
• Autocorrelação

Corr(i,j)  0, ij.

Este tipo de violação é mais comum


em regressão de séries temporais, ao
contrário da heterocedasticidade, mais
comum em dados de corte transversal.
̂ t Autocorrelação positiva ̂ê t

X êˆ t 1

̂êtt Autocorrelação negativa ê̂ tt

X êˆ t 1
• Consequências das Violações

1. Sob Heterocedasticidade e/ou Autocorrelação:


O Teorema de Gauss-Markov não vale mais.
(os estimadores de MQO continuam sendo não
viciados e consistentes, mas não mais eficientes).

2. Sob Heterocedasticidade e/ou Autocorrelação


e/ou não-Normalidade: os testes t e F não são
mais válidos  não há como fazer inferências!
• Multicolinearidade

É a correlação alta entre os valores


das variáveis explicativas de um
modelo de regressão linear múltipla.

A multicolinearidade é um problema da
amostra, e indica que ela não fornece
informação suficiente para estimar com
precisão os efeitos individuais das variáveis.
Consequência da Multicolinearidade:

As variâncias dos estimadores de MQO


dos coeficientes serão elevadas/“infladas”,
fazendo com que os testes t de significância
usualmente adotados tendam a não rejeitar H0.

Obs - estamos falando da correlação alta, mas


não perfeita, entre as variáveis explicativas.
A multicolinearidade perfeita não pode existir,
pois tornaria impossível estimar o modelo!
Um forte indício de multicolinearidade é
quando os testes t individuais indicam que
os coeficientes não são significantes, mas o
teste F indica a significância conjunta deles.

Isto ocorre porque o teste F não


é afetado pela multicolinearidade.
• Notação Matricial

É comum expressar um modelo de regressão


linear utilizando vetores e matrizes.

Esta representação é denominada matricial.

A idéia é escrever o modelo para todo


i = 1, 2, ..., n em uma única equação.
Escrevendo o modelo para cada i:

Y1 = 0 + 1X11 + 2X21 +...+ kXk1 + 1


Y2 = 0 + 1X12 + 2X22 +...+ kXk2 + 2
Y3 = 0 + 1X13 + 2X23 +...+ kXk3 + 3
.
.
.
Yn = 0 + 1X1n + 2X2n +...+ kXkn + n
O modelo, em notação matricial, torna-se:
Y  Xβ   , sendo:
Y = (Y1, Y2, ..., Yn)`,  = (0, 1, ..., k)`,
 1 X11 ... X k1 
1 X ... X k 2 
X  12
,  = ( ,  , ...,  )`.
... ... ... ...  1 2 n
 
 1 X1n ... X kn 
1
β̂ MQO  (X`X) X`Y.
11. SÉRIES
TEMPORAIS -
MODELOS ARIMA
• Processo Estocástico

Um processo estocástico é um
conjunto de v.a.`s {Yt, t = 1,2,...,T}.
Uma série temporal é um conjunto
{yt, t = 1,2,...,T}, em que cada yt é tratado
como se fosse uma observação de uma v.a.
Yt que compõe um processo estocástico.
Formalmente, uma série temporal é uma
realização de um processo estocástico.
• Modelo de Séries Temporais

É o processo estocástico que supostamente


gerou a série, ou processo gerador dos dados.

Todos os modelos utilizam em sua


composição o processo estocástico mais
simples possível, chamado ruído branco.
• Ruído Branco

Ruído branco é o processo t tal que:

E( t )  0 e V( t )   , t
2

Corr (i ,  j )  0, i  j.

Já o ruído branco Gaussiano é tal que:


independentes e
i.i.d. identicamente
 t ~ N(0,  ), t.
2
distribuídas
• Passeio Aleatório (Random Walk)

Processo estocástico mais simples depois do


ruído branco, definido pela seguinte equação:

Yt  Yt 1   t , sendo  t um RB.

O passeio aleatório pode incluir uma constante:

Yt  0  Yt 1  t .
Propriedades do Passeio Aleatório:

Passeio aleatório sem constante:


E(Yt) = 0 e V(Yt) = t2

Passeio aleatório com constante:


E(Yt) = t0 e V(Yt) = t2
Demonstração (caso geral com constante):
Y1  0  1 (supondo Y0  0)

Y2  0  Y1   2 
0  0  1   2
 20  1   2

Y3  0  Y2   3
 30  1   2   3
A fórmula geral para um instante t genérico é:
t
Yt  t0    i ,
i 1

cujo valor esperado é :


  t
E (Yt )  t0  E   i  
 i 1 
t
t 0   E (  i )  t  0 .
i 1
E cuja variância é (lembrando
que os  i são descorrela cionados) :

 t
  t

V(Yt )  V t0    i   V( t0 )  V   i 
 i 1   i 1 
 t
 t
 V    i    V (  i )  t .
2
 i 1  i 1
Para o caso sem constante, basta fazer 0 = 0.

Processos como o passeio aleatório, em


que alguma característica (como média e/ou
variância) se altera ao longo do tempo (isto é,
depende de t), são chamados não estacionários.
• Estacionariedade (no sentido Forte)

Um processo estocástico é dito estacionário


(no sentido forte, estrito ou amplo) se suas
características não se alteram no tempo.

De forma geral, esta condição é muito difícil


de verificar, sendo comum adotar uma noção
mais simples - ou fraca - de estacionariedade.
• Estacionariedade Fraca ou de 2ª Ordem

Um PE é dito estacionário no sentido fraco,


fracamente estacionário, estacionário de 2a
ordem, ou ainda, covariância-estacionário, se
todas as 3 condições a seguir são satisfeitas:

E(Yt) = ,  t = 1,2,...,T (média constante)


V(Yt) = 2,  t = 1,2,...,T (variância constante)
Cov(Yt,Yt-k) = k (Cov é função apenas de k!)
• Processos/Modelos Gaussianos

Um PE é dito Gaussiano se o ruído branco


t envolvido em sua especificação segue
uma distribuição Normal ou Gaussiana.

Para processos Gaussianos,


estacionariedade fraca é suficiente para
garantir estacionariedade no sentido forte.
Exercício 11.1 - Dentre os modelos
estudados até aqui, identifique um:

a) não estacionário na média


b) não estacionário na variância
c) estacionário
• Operador de Defasagem (ou de
backshift) e Equação Característica

O operador de defasagem B é tal que BYt =


Yt-1 (B “defasa” Y em uma unidade de tempo).

Exemplo 11.1 - Seja o modelo:


Yt  0,8Yt 1  t .
Escreva este modelo em termos de B.
Solução:
Yt  0,8Yt 1   t

Yt  0,8BYt   t
Yt  0,8BYt   t
(1  0,8B)Yt   t
(1-0,8B) é chamado polinômio característico
do modelo. E a equação (1-0,8B) = 0 é
chamada equação característica do modelo.
• Modelo Autoregressivo ou AR

O modelo:

Yt  1Yt 1   t ,

é chamado autoregressivo de ordem 1,


ou AR(1). Trata-se de uma regressão
de Yt em seu valor defasado Yt-1.
• Condição de Estacionariedade
do Modelo AR(1)

Um modelo AR(1) é estacionário se o


módulo da raiz da sua equação
característica é maior do que 1.
Exemplo 11.2 - Verifique qual a condição
sobre 1 para que o AR(1) seja estacionário.

Solução - A equação característica é:


(1-1B) = 0, cuja raiz é: B = 1/1.

Para que |B| > 1, precisamos ter |1| < 1.

Conclusão: um modelo AR(1)


é estacionário se |1| < 1.
A aplicação do operador B k vezes
sucessivas defasa Y em k unidades de tempo.

Por exemplo:
B2Yt = Yt-2,
B3Yt = Yt-3,
e assim por diante.
O modelo AR(p) é definido da seguinte forma:

Yt  1Yt 1  2 Yt 2  ...  p Yt p   t

sendo p denominada ordem do modelo.

Em termos do operador de defasagem:

Yt  1BYt  2 B Yt  ...  p B Yt   t
2 p

Yt  1BYt  2 B Yt  ...  p B Yt   t
2 p
Isolando Yt:

(1  1B  2 B  ...  p B )Yt   t


2 p

polinômio característico

A equação característica deste modelo é:


1  1B  2 B  ...  p B  0
2 p

ou, na forma usual equivalent e :


p B  ...  2 B  1B  1  0
p 2
• Condição de Estacionariedade
do Modelo AR(p)

Um modelo AR(p) é estacionário se as raízes


da sua equação característica têm módulo > 1.
Se p = 2, pode-se aplicar a fórmula de Bhaskara
para encontrar as raízes de ax2 + bx + c = 0:

 b  b  4ac
2
x .
2a

Outro caminho é usar o fato de que as raízes


x1 e x2 de uma equação do segundo grau
satisfazem: x1 + x2 = -b/a e x1x2 = c/a.
Exercício 11.2 - Verifique se os
seguintes modelos são estacionários:

a ) Yt  0,8Yt 1  0,5Yt 2   t .
b) Yt  0,3Yt 1  0,6Yt 2   t .
A equação característica
do modelo em a) é:

1  0,8B  0,5B  0
2

ou :
0,5B  0,8B  1  0
2

cujas raízes são: 0,8248 e –2,4228.

O módulo de uma das raízes é menor do


que 1, portanto o modelo não é estacionário.
A equação característica
do modelo em b) é:

1  0,3B  0,6B  0
2

ou :
0,6B  0,3B  1  0
2

cujas raízes são: 1,065 e –1,565.

O módulo de ambas as raízes é maior do


que 1, portanto o modelo é estacionário
No caso de um AR(2), uma excelente dica é
que as condições de estacionariedade podem
ser representadas em termos de 1 e 2:

|2| < 1
1 + 2 < 1
2 - 1 < 1

Perceba que |1| < 1 e |2| < 1 não garantem a


estacionariedade do AR(2). Em particular, |1|
< 1 não é condição necessária nem suficiente.
Região de estacionariedade do AR(2),
representada no espaço dos coeficientes:
Obs - as raízes da equação característica
podem ser complexas. Uma forma geral de
expressar a condição de estacionariedade é
que as raízes estejam fora do círculo unitário.

No caso de raízes reais, a condição acima


equivale a terem módulo menor do que 1.
• Modelos de Médias Móveis ou MA

Em um modelo de médias móveis (MA), Yt


é representado como uma função linear dos
erros t presente e defasados. Por exemplo,
o modelo MA de ordem 1, ou MA(1), é:

Yt   t  1 t 1.
Obs - Pode haver uma constante 0
no modelo, embora seja pouco usual.
• Inversibilidade (Modelo MA)

Sob certas condições, um modelo MA pode


ser escrito como um AR com infinitos termos.
Neste caso, ele é denominado inversível.

Ou seja, um MA é uma especificação


parcimoniosa para um AR de ordem infinita.
Exemplo 11.3 - Inverta o modelo MA(1)
abaixo (isto é, escreva-o como um AR()):

Yt   t  0,8 t 1.

Solução:
Yt   t  0,8 t 1 
 t  0,8B t  (1  0,8B) t
1
 Yt   t .
1  0,8B
Obs - fórmula da soma de uma p.g. infinita,
com primeiro termo a1 e razão q tal que |q|<1:

a1
S  .
1 q

Esta fórmula pode ser aplicada


para inverter um modelo MA(1).
Invertendo a fórmula da soma da p.g.,
identificando que a1 = 1 e q = 0,8B:
1
 1  0,8B  0,64B ...
2

1  0,8B
E assim:

(1  0,8B  0,64B ...)Yt   t


2

Yt  0,8Yt 1  0,64Yt  2  ...   t


Yt  0,8Yt 1  0,64Yt  2  ...   t
• Condição de Inversibilidade
do Modelo MA(1)

Um modelo MA(1) é inversível se o


módulo da raiz da sua equação
característica é maior do que 1.
Exemplo 11.4 - Verifique qual a condição
sobre 1 para que um MA(1) seja inversível.

Solução - A equação característica é:


(1-1B) = 0, cuja raiz é: B = 1/1.

Para que |B| > 1, precisamos ter |1| < 1.

Conclusão: um modelo MA(1)


é inversível se |1| < 1.
O modelo MA de ordem q, ou MA(q), é:
Yt   t  1 t 1  2 t 2  ...  q  t q .
Em termos do operador de defasagem:
Yt   t  B1 t  B 2 t  ...  B q  t
2 q

 (1  B1  B 2  ...  B q ) t .
2 q

A equação característica deste modelo é:


1  B1  B 2  ...  B q  0
2 q

ou B q  ...  B 2  B1  1  0
q 2
As condições de inversibilidade para o
MA(q) são exatamente as mesmas que as
condições de estacionariedade para o AR(p).

Desta forma, as condições de inversibilidade


do MA(2) podem ser escritas em termos dos
coeficientes, por analogia com o AR(2), como:

|2| < 1
1 + 2 < 1
2 - 1 < 1
Exercício 11.3 - Verifique se os
seguintes modelos são inversíveis:

a ) Yt   t - 1,4 t 1
b) Yt   t - 1,4 t 1  0,5 t 2

R: a) não. b) sim.
• Inversibilidade (Modelo AR)

Um modelo AR é dito inversível se


ele pode ser escrito como um MA.
Um modelo AR finito e
estacionário é sempre inversível.

Um modelo MA finito é sempre estacionário


(isto pode ser verificado de maneira trivial)

Obs - na literatura de séries temporais,


designa-se o AR como trivialmente inversível,
e o MA como trivialmente estacionário.
• Modelo ARMA(p,q)

O modelo ARMA de ordens p e q para


Yt é especificado da seguinte forma

Yt  0  1Yt 1  2 Yt 2  ...  p Yt p
  t  1 t 1  2 t 2  ...  q  t q .

A condição de estacionariedade é definida


pela equação característica da parte AR, e a
condição de inversibilidade, pela parte MA.
• Tendências em Séries Temporais

Uma tendência é uma trajetória geral


em torno da qual a série oscila, e que
pode ser determinística ou estocástica.
• Tendência Determinística

Uma tendência determinística é aquela


que é representável por um modelo linear:

Yt = 0 + 1t + t, t = 1, 2, ..., T.

Esta tendência é estimável por MQO. Ela


também pode ser quadrática, exponencial, etc.
• Tendência Estocástica

Uma tendência estocástica caracteriza-se


pela presença de raiz(es) unitária(s) na
equação característica do modelo.
• Raiz Unitária

Considere o passeio aleatório:

Yt  Yt 1   t .

Escrevendo o modelo em termos de B:


Yt  BYt   t
(1  B)Yt   t
A equação característica é:
(1-B) = 0, cuja raiz é: B = 1.

Nesta situação, dizemos que a série, ou


(mais precisamente) seu processo gerador,
possui uma raiz unitária, que é um tipo
de tendência denominada estocástica.
Para remover a raiz unitária da série,
é necessário diferenciá-la, ou seja, fazer:

Yt  Yt  Yt 1.
 = 1-B

A série estacionária é denotada por Zt,


que no caso do exemplo é o ruído branco:

Zt  Yt   t .
• Ordem de Integração

A série original Yt, antes de ser


diferenciada, é denominada integrada.

Pode ser necessário diferenciar a série


mais de uma vez. O número d de vezes que
a série precisa ser diferenciada para se tornar
estacionária é chamado ordem de integração.

Neste caso, dizemos que Yt é integrada de


ordem d, ou “I de d”, e a notação é: Yt ~ I(d).
• Box & Jenkins p/ Séries Não Estacionárias

Para representar uma série por um modelo


ARMA, é necessário que ela seja estacionária.
Se Yt ~ I(d), precisamos diferenciá-la d vezes.
A série diferenciada (estacionária) é Zt = dYt.

Se Zt segue um ARMA(p,q), dizemos que


Yt segue um ARIMA(p,d,q), em que o “I”
no meio significa Integrated (integrado).
• Modelo ARIMA(p,d,q)

Seja Yt ~ I(d) e Zt = dYt, sendo d o número


de vezes que Yt precisa ser diferenciada para
tornar-se estacionária (= ordem de integração).
O modelo ARIMA de ordens p, d e q
para Yt é especificado da seguinte forma:

Z t  0  1Z t 1  2 Z t 2  ...  p Z t p   t
 1 t 1  2 t 2  ...  q  t q , com Z t   Yt .
d
• Propriedades Estatísticas dos Modelos

Uma vez descritas as condições de


estacionariedade e inversibilidade de
um modelo ARMA, é importante calcular
o valor esperado e a variância associados a
cada modelo específico, bem como descrever
as estruturas de dependência correspondentes.
• Valor Esperado
com constante
Modelo AR(1): Yt = 0 + 1Yt-1 + t, |1|<1.

E(Yt )  E(0 )  1E(Yt 1 )  E( t ) 


0  1E(Yt 1 )  0  0  1E(Yt 1 ).

Sob estacionariedade : E(Yt )  E(Yt 1 ).


0
Daí : E(Yt )  0  1E(Yt )  E(Yt )  .
1  1
Modelo AR(p):

0
E(Yt )  p .
1   j
j1

Modelo MA(q) – é fácil verificar que:

E(Yt) = 0 (0 para o modelo com constante).


Modelo ARMA(1,1):

Yt = 0 + 1Yt-1 + t - 1t-1, |1|<1, |1|<1.

0
E(Yt )  (mesma média do AR(1)).
1  1

Obs - no ARMA(1,1) s/ constante: E(Yt) = 0.


Para o cálculo da variância,
a seguinte fórmula será útil:

Se C = aX + bY, então: V(C) =


a2V(X) + b2V(Y) + 2abCov(X,Y).
• Variância

Modelo AR(1): Yt = 0 + 1Yt-1 + t, |1|<1.

V(Yt )  V(0 )   V(Yt 1 )  V( t )


2
1

 0  12 V(Yt 1 )   2 , pois Cov(Yt 1 ,  t )  0.

Sob estacionar iedade : V(Yt )  V(Yt 1 ).


 2
Daí : V(Yt )   V(Yt )    V(Yt ) 
2 2
.
1  1
1 2
Modelo MA(1) - Yt = t - 1t-1, |1|<1.

V(Yt )  V( t )   V( t 1 ), pois Cov( t ,  t 1 )  0.


2
1

Mas V( t )  V( t 1 )   , e assim :


2

V(Yt )       (1   ) .
2 2
1
2 2
1
2

Modelo MA(q) - é fácil verificar que:


q
V(Yt )  (1    ) . 2
j
2

j1
Modelo ARMA(1,1):
Yt = 0 + 1Yt-1 + t - 1t-1, |1|<1, |1|<1.

V(Yt )   V(Yt 1 )  V( t ) 


2
1

 V( t 1 )  211Cov(Yt 1 ,  t 1 ).
2
1

Sob estacionar iedade : V(Yt )  V(Yt 1 ),


Daí : V(Yt )   V(Yt )  V( t ) 
2
1

 V( t 1 )  211Cov(Yt 1 ,  t 1 ).
2
1
A covariânci a é calculada a seguir :
Cov(Yt 1 ,  t 1 ) 
Cov(1Yt  2   t 1  1 t  2 ,  t 1 ) 
Cov( t 1 ,  t 1 )  V( t 1 )   . 2

E assim : V(Yt )   V(Yt )     


2
1
2 2
1
2

1    211 2 2
 211  V(Yt ) 
2
 .1
1  1
2
Exercício 11.4
Sobre o processo Yt = 0,8Yt-1 + 0,2Yt-2
+ t – 0,8t-1, julgue as seguintes proposições:
(1) Yt segue um ARMA(1,2) ( )
(2) Se o coeficiente de t-1 fosse 1,1,
ao invés de 0,8, o processo Zt =
(1-B)Yt seria não estacionário ( )
(3) Se 2 = 1, a variância do processo
Wt = (1-B)(1+0,2B)Yt é igual a 1,64 ( )
(R: FFV)
Metodologia de Box & Jenkins:

Identificação

Estimação

Diagnóstico

Previsão
• Identificação

A primeira etapa da metodologia proposta


por Box & Jenkins para a análise de uma
série temporal é a identificação das ordens
p e q do modelo. Isto envolve os conceitos
de Função de Autocovariância (FACV),
Função de Autocorrelação (FAC) e
Função de Autocorrelação Parcial (FACP).
• FACV - Função de Autocovariância

Vimos que, em um modelo estacionário,


Cov(Yt,Yt-k) é função apenas de k (e não de t).

Neste caso, k = Cov(Yt,Yt-k) é chamada


Função de Autocovariância (FACV) de
Yt, definida para k = 0, 1, 2, ...

Note que: 0 = Cov(Yt,Yt) = V(Yt).


Obs - qual o significado do termo lag?

Cada valor k para o qual definimos k =


Cov(Yt,Yt-k) é chamado defasagem, ou,
do inglês, lag. Este anglicismo é muito
comum na literatura de séries temporais.

É usual, portanto, nos referirmos a k


por função de autocovariância de lag k.
• FAC - Função de Autocorrelação
k
k  Corr (Yt , Yt k )  
V(Yt ) V(Yt k )
k k k
  .
V(Yt ) V(Yt ) V(Yt )  0

pois o modelo é suposto estacionário!

Esta função também é definida para


os lags k = 0, 1, 2, ..., sendo 0 = 1.
Para o Modelo AR(1):
1  Cov(Yt , Yt 1 )  Cov(0  1Yt 1   t , Yt 1 )
 1Cov(Yt 1 , Yt 1 )  1V(Yt 1 )  1V(Yt )  1 0 .

 2  Cov(Yt , Yt  2 )  Cov(0  1Yt 1   t , Yt  2 )


 1Cov(Yt 1 , Yt  2 )  11  1  0 .
2

 3  Cov(Yt , Yt 3 )  Cov(0  1Yt 1   t , Yt 3 )


 1Cov(Yt 1 , Yt 3 )  1 2  1  0 .
3
A fórmula geral é:
 k  1 k 1    0 .
k
1

 2

Mas  0  V(Yt )  , e assim


1  1
2

a FACV do modelo AR(1) é :


 k

k  1
 , k  1, 2, ...
2

1  1
2
A FAC do modelo AR(1) é :

k
k   1 , k  1, 2, ...
k

0

A FAC de um modelo AR(1) apresenta


decaimento exponencial, se 1>0, e é uma
senóide amortecida, se 1<0. A FAC de um
modelo AR(p) também apresenta este padrão.
Para o Modelo MA(1):

1  Cov(Yt , Yt 1 ) 
Cov( t  1 t 1 ,  t 1  1 t  2 ) 

 1Cov( t 1 ,  t 1 )  1 . 2

 k  0, k  2, 3, ....
A FAC do modelo M A(1)é :

 1
1  .
(1  1 )
2

 k  0, k  2, 3, ...

Dizemos que a FAC do MA(1) é


“truncada” no lag (= defasagem) 1.
FAC do AR(2): Yt = 0 + 1Yt-1 + 2Yt-2 + t.

1
1 
(1   2 )

 2
2  1
 2
(1   2 )

etc.
FAC do MA(2): Yt = t - 1t-1 - 2t-2.

1 ( 2  1)
1 
1  1   2
2 2

 2
2 
1  1   2
2 2

A FAC do MA(2) é
“truncada” no lag 2.

 k  0, k  3,4,....
A FAC de um modelo MA(1) é truncada em 1.

A FAC de um modelo MA(q) é truncada em q.

Este resultado pode ser utilizado para


identificar a ordem q de um modelo MA.
• Identificação de um Modelo MA

O que se faz na prática é estimar a FAC,


e fazer o seu gráfico. A FAC estimada
é chamada FAC amostral ou correlograma.

Se o correlograma apresenta um
comportamento similar àquele que
corresponde ao modelo MA(q), então
identificamos este modelo para a série.
• Estimação da FAC

Para cada lag k, calcula-se a correlação


amostral entre Yt e Yt-k, da seguinte forma:

T
 (Yt  Y)(Yt k  Y)
ˆ k  t  k 1
T
, k  0, 1, 2, ...
 t
( Y  Y ) 2

t 1

média amostral da série


• Identificação de um
Processo Não Estacionário

Qual o comportamento esperado para o


correlograma de uma série não estacionária?

Ela deverá apresentar decaimento


lento, pois a estimativa do coeficiente
autoregressivo deve ser próxima de 1.
• FACP

A Função de Autocorrelação Parcial FACP


é a correlação parcial entre Yt e Yt-k, ou seja,
é a correlação entre Yt e Yt-k, após ter sido
descontada a influência de Yt-1, Yt-2, ..., Yt-k+1.

Notação: kk.

Obs1 - por definição: 11 = 1.


Obs2 - no modelo AR(p), pp = p.
• Estimação da FACP

Usa-se o fato de que, no AR(p), pp = p.


Assim, ˆ pp  ˆ p .

Estima-se modelos AR de diferentes ordens,


tomando como estimativa de kk a estimativa
do coeficiente k do termo Yt-k do AR(k).

A FACP estimada é chamada FACP amostral.


O resultado fundamental envolvendo a FACP
é: no modelo MA(q), ela tem comportamento
igual à FAC de um modelo AR (decaimento
exponencial ou senóide amortecida), e no
modelo AR(p), ela é truncada no lag p.

Este resultado pode ser utilizado para


identificar a ordem p de um modelo AR.
• Identificação de um Modelo AR

O que se faz na prática é estimar a FACP,


e fazer o seu gráfico. Se a FACP amostral
- também chamada correlograma parcial -
apresenta um comportamento similar
àquele que corresponde ao modelo AR(p),
identificamos este modelo para a série.
Exemplo 11.5 - Sejam as seguintes
FAC e FACP estimadas:

Neste caso, identifica-se claramente um AR(1).


Resumo - Identificação de um Modelo ARMA:

A FAC de um MA(q) é truncada em q.


A FACP de um AR(p) é truncada em p.
FAC e FACP de um ARMA(p,q)
apresentam uma mistura
dos comportamentos acima.
Um ARIMA(p,d,q) com d>0 (raiz unitária)
apresenta FAC com decaimento muito lento.
• Estimação dos Parâmetros

Uma vez identificado um modelo, a etapa


seguinte da metodologia de Box & Jenkins
é a estimação dos parâmetros do modelo.

A estimação de um modelo de Box e Jenkins


é feita por um método complicado denominado
máxima verossimilhança condicional, ou por
um método mais simples, que é o cobrado em
concursos, que é o método dos momentos.
• Método dos Momentos

É uma forma simples de obter estimativas


dos parâmetros de um modelo ARMA.

Consiste em utilizar as expressões teóricas


da FAC, que são funções dos coeficientes do
modelo, substituir nestas fórmulas as estimativas
das correlações, e resolver para os coeficientes.
Exercício 11.5 - O correlograma de uma
série é truncado no lag 1, com ̂1 = -0,4.
Identifique o modelo adequado para esta série
e estime-o utilizando o método dos momentos.

Resposta: Yt = t – 0,5t-1.

Obs - caímos em uma equação do segundo grau


cujas raízes são 0,5 e 2. Por que descartamos o 2?
Exercício 11.6 - Estime o modelo AR(1)
para uma série cuja média é zero e cujas
FAC e FACP amostrais são dadas a seguir:

Resposta: Yt = 0,6Yt-1 + t.


• Testes de Significância

A significância dos parâmetros pode ser testada


por meio do mesmo teste t usado em regressão.

Após os testes de significância, os modelos são


comparados mediante critérios de informação.
• Critérios de Informação

Motivação: assim como ocorre com modelos


de regressão, modelos de séries temporais com
mais parâmetros apresentam melhor ajuste,
isto é, menor soma de quadrados dos resíduos.

Os critérios de informação são fórmulas para


escolher entre 2 ou mais modelos estimados,
que têm um papel similar ao do R2 ajustado, no
caso da comparação de modelos de regressão.
Basicamente, eles computam a soma de
quadrados dos resíduos, mas penalizam de
forma adequada o número de parâmetros.

Os critérios de informação mais usuais são


o de Akaike (AIC) e o de Schwarz (BIC) (este
último funciona melhor em grandes amostras).
.
É considerado melhor o modelo que gera o
menor valor para o critério de informação.
• Análise de Resíduos (Diagnóstico)

Uma vez identificado e estimado um modelo,


devemos verificar se os resíduos apresentam
as propriedades esperadas para eles.

Ou seja, se eles se comportam


de acordo com um ruído branco.
Uma estratégia usual é verificar
se o IC para  j contém o zero.
Este IC é aproximada mente :

1
IC100(1- )% ( j )  [ˆ j  z  V̂(ˆ j ) ], sendo V̂(ˆ j )  .
2 T

Um teste mais apropriado, que considera


conjuntamente as estimativas das correlações
de diversas ordens, é o teste de Ljung-Box.
• Teste de Ljung-Box

Verifica se a FAC estimada dos resíduos


é similar à esperada para um ruído branco.

Denotando por j a autocorrelação de lag j


da série de resíduos, as hipóteses do teste são:
H0: 1 = 2 = 3 ... = K = 0.
H1: ao menos um j (j = 1, 2, .., K)  0.
arbitrário, suficientemente grande
Estatística do teste:

K ˆ 2

Q  n (n  2)
j
.
j1 (n  j)

Sob H0 , Q ~  2
.
K -(número de parâmetros estimados)

Por exemplo, no caso do AR(p): Q ~  2K -p ,


e no caso do ARMA(p,q) : Q ~  2K -(p q).
• Previsão de Séries Temporais

A função de previsão k passos a frente


de um modelo de séries temporais é:

Ŷt  k|t  E(Yt  k | Yt , Yt 1 ,...)

origem da previsão horizonte de previsão

Obs  outra notação possível : Ŷt (k).


Exercício 11.7 - considere o modelo:
Yt = 40 + 0,6Yt-1 + t. Se Yt-3 = 35, Yt-2 = 28,
Yt-1 = 38 e Yt = 30, obtenha as previsões para
1 e 2 passos à frente feita a partir do instante t.

Re spostas:

Ŷt 1|t  58 e Ŷt  2|t  74,8.


• Previsão de Longo Prazo do AR(1)
Se |1|<1 (condição de estacionariedade):

0
Ŷt  k|t k


1  1

Conclusão importante:
A previsão de longo prazo do modelo AR(1)
é igual à sua média incondicional E(Yt).
• Amortecimento Exponencial

Outra forma popular de fazer previsão de


uma série temporal é um método chamado
amortecimento (ou suavização) exponencial.

Ele consiste em adotar como função de previsão:


Ŷt 1|t  Yt  (1  )Ŷt|t 1 ,
em que (0,1) é a constante de amortecimento
(arbitrária ou escolhida para minimizar o EQM).
Obs1 - as previsões costumam ser feitas a partir
de t = 1, sendo o ponto de partida a primeira
previsão:Ŷ1|0 , cujo valor é impossível de ser
determinado (pois dependeria de Y0). Neste
sentido, é usual considerar: Ŷ1|0  Y1.

Obs2 - É possível escrever a função de previsão


do amortecimento exponencial a partir de uma
soma ponderada das observações passadas,
com pesos exponencialmente decrescentes:
Ŷt 1|t  Yt  (1  )Yt 1  (1  ) Yt 2  ...
2
• Sazonalidade e Modelos SARIMA

Sazonalidade é a repetição periódica de


um comportamento, geralmente anual.

O modelo ARIMA pode ser ampliado para


considerar a sazonalidade da série temporal.

O modelo resultante é denominado


SARIMA (= Seasonal ARIMA).
Exemplo 11.6 - SARIMA (1,0,1)x(1,0,1)S:

(1-B)(1-BS)Yt = (1-B)(1-BS)t

Exemplo 11.7 - SARIMA (1,1,1)x(1,1,1)S:

(1-B)(1-BS)(1-B)(1-BS)Yt = (1-B)(1-BS)t
12. RAÍZ UNITÁRIA
E REGRESSÃO DE
SÉRIES TEMPORAIS
• Testes de Raiz Unitária

Para testar a existência de uma raiz


unitária, é usual pressupor o seguinte p.g.d.:

Yt =  + Yt-1 + t

As hipóteses a serem testadas são:

H0:  = 1 x H1:  < 1.


Algumas observações:

1. >1 é desconsiderado (pois


corresponde a um p.g.d. “explosivo”).

2. A hipótese nula é que há raiz unitária

3. Especifica-se H1 como <1, e não como


||<1, porque é bem raro encontrar séries
econômicas para as quais  seja negativo.
Desta forma, na prática: H1: 0<<1.
É conveniente reparametrizar o modelo
subtraindo Yt-1 de ambos os lados:

Yt - Yt-1 =  + Yt-1 -Yt-1 + t


Yt =  + (-1)Yt-1 + t
Yt =  + Yt-1 + t, em que  = -1.
A vantagem desta reparametrização é que o
teste de raiz unitária passa a ser um teste de
significância (unilateral) da estimativa de .

De fato,  =1   = 0 e  < 1   < 0, assim


as hipóteses do teste podem ser escritas como:

H0:  = 0 x H1:  < 0. teste unilateral


à esquerda.
Estatística do Teste:

ˆ mesma estatística
 . T usual, agora
V̂(ˆ ) chamada de .

Problema: sob H0 (=0), a estatística 


acima não possui distribuição t, e nem
mesmo distribuição assintótica Normal.
A distribuição adequada para  foi obtida
por Dickey & Fuller (1979), em estudos de
simulação. O teste que compara o valor de 
na amostra com os valores críticos obtidos por
D & F é chamado teste de Dickey-Fuller (DF).
• Teste de Dickey-Fuller (DF)

1. Rodar a regressão Yt =  + Yt-1 + t.

2. Calcular  (que nada mais é do que a


estatística T usual para testar =0).

3. Rejeitar H0 (raiz unitária) se  < DF


(valor crítico de Dickey-Fuller para o nível ).
Valores Críticos do Teste DF
(grandes amostras):

  1% 5% 10%
DF  -3,43 -2,86 -2,57

Se, por exemplo,  = -2,


não rejeitamos H0 a 5%.

(qual seria a decisão se fosse usado o


valor crítico da distribuição Normal?)
Observação importante: antes de calcular o
valor de  e fazer o teste de raiz unitária, é
necessário verificar se os resíduos do modelo
estimado estão “bem comportados”, isto é, se
apresentam comportamento de ruído branco.

Se existir alguma estrutura de autocorrelação,


é necessário inserir defasagens da variável
dependente (ou seja, de Yt), até que os
resíduos passem a ter FAC de ruído branco.
(ou que, no teste de LB, H0 não seja rejeitada)
Inicialmente, inclui-se Yt-1:

Yt =  + Yt-1 + 1Yt-1 + t

Se os resíduos continuarem “mal comportados”,


inclui-se Yt-2, em seguida Yt-3 e assim
por diante, até “branquear” os resíduos.

O teste DF considerando o modelo ampliado


é chamado teste aumentado de Dickey-Fuller.
• Teste ADF (Augmented Dickey-Fuller)

O teste ADF é igual ao teste DF, porém


acrescentando ao modelo p defasagens de Y:

Yt =  + Yt-1 + 1Yt-1 + ... + pYt-p + t

Os valores críticos para o teste ADF são


exatamente os mesmos que no teste DF.
• O Problema da Regressão Espúria

Considere uma regressão de uma série


temporal Yt em outra série temporal Xt:

Yt = 0 + 1Xt + ut.

Se Yt e Xt são séries temporais I(1),


os resultados desta regressão serão,
em geral, aparentemente excelentes.
Granger e Newbold (1974) efetuaram
várias regressões entre passeios aleatórios
independentes, e verificaram que, na
maioria das vezes, a estatística t foi
significante e o R2 foi muito elevado.

Concluíram que esses resultados são espúrios


(= enganosos, sem consistência estatística),
e não evidenciam uma relação entre as séries,
sendo fruto apenas da tendência comum a elas.
Porém, uma regressão envolvendo séries I(1)
em geral conduz a coeficientes significantes e R2
alto, ainda que estas séries sejam independentes.

Neste caso, a regressão é espúria, porque estes


resultados não são confiáveis. Os estimadores
de MQO dos coeficientes são inconsistentes!
Se as séries envolvidas são I(1), apenas a
regressão na diferença das séries é válida!
(mas não costuma ser muito útil)

Há, porém, um caso particular em que os


resultados da regressão entre séries I(1)
são confiáveis: se elas forem cointegradas.
• Cointegração

Duas séries não estacionárias Yt e Xt com a


mesma ordem de integração d (>0) são ditas
cointegradas se existe alguma combinação
linear de Yt e Xt que seja estacionária (I(0)).

Obs - duas séries com diferentes ordens


de integração não podem ser cointegradas.
Pode haver mais de uma combinação linear
de Yt e Xt que seja I(0). É usual fixar em 1 o
coeficiente de Yt, e neste caso Yt-Xt é única.
 é chamado parâmetro de cointegração.

Apresentamos a seguir o procedimento


mais simples e mais popular para testar
cointegração: o teste de Engle-Granger.
• Teste de Engle-Granger

O teste de cointegração de Engle-Granger


consiste em investigar se o resíduo da
regressão de Yt em Xt é estacionário.

Se o resíduo for estacionário, então ele


é uma combinação linear estacionária
de Yt e Xt, logo elas são cointegradas.
Passos do teste de Engle-Granger:

Passo 1 - rodar a seguinte regressão:


Yt = 0 + 1Xt + ut.

Passo 2 - obter os resíduos


da regressão em 1:
û t  Yt  (ˆ 0  ˆ 1X t ).
Passo 3 - Testar a presença de raiz unitária
na série dos resíduos obtidos em (2), isto é:

Passo 3.1 - obter a série


de diferença dos resíduos:

û t  û t  û t 1.
Passo 3.2 - rodar a regressão
necessária para o teste DF/ADF:

û t    û t 1   t ou
p
û t    û t 1    jû t  j   t
j1

e aplicar o teste de raiz unitária, considerando


valores críticos específicos para este teste. Se o
resíduo for estacionário, Y e X são cointegradas!
O que fazer se Yt e Xt forem
I(1), mas não cointegradas?

Se Yt e Xt não são cointegradas, a regressão


entre elas é “espúria” e não informa nada
importante. Neste caso, não existe relação de
longo prazo entre Yt e Xt, e o máximo que se
pode fazer é uma regressão de Yt em Xt.
O que fazer se Yt e Xt forem cointegradas?

Se Yt e Xt são cointegradas, então a regressão


de Yt em Xt é válida, representando a relação
de longo prazo entre as séries. Os estimadores
são consistentes e os resultados não são espúrios.

Neste caso, a análise de regressão usual


(testes t e F, R2, etc.) é válida e confiável.