Você está na página 1de 39

Fundamentos de

Estatística
Luciane Bonatto
Universidade Corporativa Petrobras
Luciane.bonatto@petrobras.com.br
Chave:clw3
Outubro/2005
Tópicos do Curso

„ Análise de Séries Históricas

„ Estimação de Parâmetros

„ Regressão Linear

„ Introdução à Simulação

2
Análise de Séries Históricas
‡ Objetivo:
‡ Definir métodos para a escolha da distribuição de probabilidade da
variável analisada e para estimar os parâmetros a partir dos seus dados
históricos.
‡ Identificar a relação entre as séries analisadas

‡ Série Histórica:
‡ Brent Platts Dated US$/bbl de jul/87 –abril/05.
‡ A variável de incerteza que deve ser analisada não é o nível de preço, mas
a variação com relação ao preço de atual.
rt=(St-St-1)/St-1
Ou,
Rt=ln(St/St-1)
usando composição contínua ao invés de discreta. Para dados diários
existe pouca diferença entre Rt e rt.

3
Dependência e Independência de v.a.
‡ Definição:
„ Duas v.a. X e Y são independentes se o conhecimento de uma
não altera a distribuição de probabilidades da outra.

Em termos formais, f(x,y) = f(x). f(y)

‡ Propriedades:
„ Se X e Y são independentes, então o valor esperado do
produto é igual ao produto dos valores esperados, isto é:
E[X . Y] = E[X] . E[Y]
„ Além disso, se X e Y são independentes, então para quaisquer
funções g(X) e h(X), temos:
E[g(X) . h(Y)] = E[g(X)] . E[h(Y)]
4
Dependência e Independência de v.a.

‡ Quando as variáveis rt podem ser vistas como observações


independentes?

Existem razões econômicas para afirmar que as taxas de retorno


dos preços financeiros são aproximadamente independentes:
„ Mercado Eficiente – teoria do random walk

Além disso, se a distribuição dos retornos é constante ao longo


do tempo, as variáveis são chamadas independentes e
identicamente distribuídas (i.i.d).

5
Covariância
„ Mede a dependência linear entre 2 variáveis:

Cov ( X , Y ) = E ( X − E ( X ))(Y − E (Y )) = E (X − X )(Y − Y )

„ Se Cov(X,Y) ≠ 0 X e Y são dependentes.


„ Se X e Y são independentes Cov(X,Y) = 0
Cov( X,Y ) = E (XY − XY − XY + XY ) = E ( XY ) − XY = 0

X Y X.Y
-2 4 -8
„ Exemplo :
-1 1 -1
Cov(X,Y) = 0 e X e Y são dependentes. 0 0 0
1 1 1
Y = X2 para X=-2,-1,0,1,2. 2 4 8
Média 0 2 0
„ Excel...
6
Coeficiente de Correlação
„ É uma medida padronizada da covariância
„ Não considera a causalidade entre as variáveis
„ Conhecido como coeficiente de correlação de Pearson

Cov ( X,Y ) E (X − X )(Y − Y )


ρ XY = =
σ X .σ Y E ( X − X ) 2 E (Y − Y ) 2
n

∑ (x i − x )( yi − y )
ρ XY =
n
i =1
n
e − 1 ≤ ρ XY ≤ 1
(
∑ ix − x )2
. (
∑ iy − y )2

i =1 i =1

7
Coeficiente de Correlação
r=0

Amostras geradas de 2 400

distribuições Normais 350


300
250
200
150
100
50
0
-100 -50 0 100 200 300 400

r = 0,70 r = - 0,70

400 200

350 150

300 100

250 50

200 0
-100 -50 0 100 200 300 400
150
100 -100

50 -150

0 -200
0 100 200 300 400 -250

8
Coeficiente de Correlação Parcial
„ Mede o grau de associação entre 2 variáveis, eliminando
(controlando) o efeito causado por outras variáveis. Não
considera a causalidade entre as variáveis

ρ xy − ρ xz .ρ yz
ρ xy , z =
1 − ρ xz2 1 − ρ yz2

„ Exemplo Excel...

9
Estimação de Parâmetros
„ Dado que temos uma amostra i.i.d de T observações,
podemos estimar os parâmetros de interesse, média,
variância e outros momentos.

„ A média pode ser estimada pela média da amostra,

1 T
m =µ̂ = ∑ xi
T i =1
„ Atribuímos o mesmo peso 1/T para todas as observações
porque todas tem a mesma probabilidade.

10
Estimação de Parâmetros
„ A variância também poder ser estimada pela variância da
amostra:
T
1
s =σˆ =
2 2

(T − 1) i =1
( xi − µˆ ) 2

„ Dividimos por T-1 ao invés de T, porque estimamos a


variância sobre um parâmetro desconhecido, a média.
„ Os valores estimados dependem da amostra analisada e,
assim, tem uma variabilidade própria. A média da amostra
tem distribuição:
m =µˆ ~ N ( µ , σ 2 / T )
„ Se a distribuição da população é normal, a distribuição da
média da amostra também será. O mesmo ocorre quando a
população não é normal, mas a amostra é grande (Teorema
do Limite Central). 11
Teorema do Limite Central
„ Seja X 1 , X 2 , .... , X n uma seqüência de v.a. i.i.d.
(independentes e identicamente distribuídas), cada
uma com média µ e variância σ2.

„ Considerando n grande, a variável aleatória

X 1 + X 2 + ...... + X n
X=
n
tem distribuição aproximadamente Normal com
média µ e variância σ2 /n

„ Exemplo Excel...
12
Estimação de Parâmetros
„ Assim,a distribuição da variância da amostra,
quando X é normal é Chi-quadrado com (T-1) grau
de liberdade.
(T − 1)σˆ 2
~ χ 2 (T − 1)
σ 2

„ E se o tamanho da amostra é suficientemente


grande, a distribuição Chi-quadrado converge para a
normal:
2
σˆ 2 ~ N (σ 2 , σ 4 )
(T − 1)

13
Regressão Linear
‡ Objetivo :
„ Estabelecer e quantificar relação linear entre as variáveis;
„ Fazer previsão dos valores futuros.

‡ Forma Geral:

yi = α + βxi + εi , i= 1, ...., n.

Onde :
yi = variável dependente ou variável resposta;
xi = variável independente ou explicativa;
εi = erro aleatório;
α e β = parâmetros desconhecidos do modelo:
‡ α : Coeficiente linear ( Intercepto ou termo constante);
‡ β : Coeficiente angular

14
Mínimos Quadrados Ordinários
‡ Hipóteses Básicas:

i. E(εi) = 0 : os erros tem média zero.

ii. E(xiεi) = 0 : os erros são independentes de x.

iii. Var(εi) = σ2 : os erros tem variância constante.

iv. Cov(εi, εj) = 0 , i ≠ j : os erros das observações são


independentes.

v. εi ~ N(0, σ2) : os erros tem distribuição normal.

15
Mínimos Quadrados Ordinários
Gráfico de Dispersão

160
155
150
145
140
135
130
125

„ A equação da reta que 120


115

melhor representa a 110


1 2 3 4 5 6 7 8 9 10 11 12 13

relação entre Y e X é
aquela que minimiza a
soma dos quadrados dos
Gráfico de Dispersão

Y
erros.
160
155
150
145
e8
140
135 e4
130
125
120 e1
115
110
1 2 3 4 5 6 7 8 9 10 11 12 13
X

16
Mínimos Quadrados Ordinários
„ Método dos Mínimos Quadrados Ordinários
n n 2

min SQ = min ∑ ε = min ∑ ( yi − α − β xi )


i
2

i =1 i =1

„ Derivando em relação a α :
dSQ n
= ∑ 2( yi − α − βxi ) = 0
dα i =1

∑ yi − nα − β ∑ xi = 0
^ ^
α = y−β x
17
Mínimos Quadrados Ordinários
„ Derivando em relação a β :
dSQ n
= ∑ 2( yi − α − βxi )xi = 0
dβ i =1

∑ y x −α ∑ x − β ∑ x
2
i i i i =0
i =1
n
⎛ ^
⎞ ^
∑ yi xi − ⎜ y − βx ⎟∑ xi − β ∑ xi = 0
2

i =1 ⎝ ⎠

β = ∑ i 2i
^ y x − nx y Cov( y, x )
=
∑ xi − nx 2
σ x2

18
Mínimos Quadrados Ordinários
„ Assim, temos:

Estimadores dos Parâmetros:


^ ^ ^ Cov ( y, x )
α = y−β x β=
σ x2

Equação do Modelo Ajustado: yˆ i = αˆ + βˆ xi

Resíduos: ei = yi - yˆ i
n n

Variância dos Resíduos:


∑e 2
i ∑ i i
( y − ˆ
y ) 2

σ e2 = i =1
= i =1
n−2 n−2
19
Propriedades dos Resíduos
i) ∑e =0
i

∑ ( y − (αˆ + βˆx )) = ∑ ( y
i i i − ( y − βˆx + βˆxi )) =

∑ y − ny − nβˆx − βˆnx = 0
i

ii) ∑ x e =0 i i

∑ x ( y − αˆ − βˆx ) = 0
i i i

iii) ∑ yˆ e = 0 ⇒ yˆ e e são não correlacionados


i i i i

∑ (αˆ + ∑ ∑
ˆx )e = αˆ e + βˆ x e = 0
β i i i i i
20
Propriedades dos estimadores de MQO:
‡ São combinações lineares de yi
‡ São não tendenciosos
‡ Têm variância mínima

‡ Distribuição dos estimadores:


σ e2
αˆ ~ N (α , σ e 2 ∑x 2
i βˆ ~ N ( β , )
n∑ ( x − x )
i
2
) ∑ (x − x)
i
2

‡ Intervalo de Confiança para β̂ :


βˆ − β Distribuição t-Student
~t
σβ (n − 2) com (n-2) graus de liberdade

(βˆ − t n − 2;α .σ β ; βˆ + t n − 2;α .σ β ) 21


Coeficiente de Determinação

„ é a proporção da variabilidade de y que é explicada


pelo modelo de regressão
Variabilidade não explicada
R = 1−
2

Variabilidade total

R2 = 1−
∑i
e 2

∑ i
( y − y ) 2

2
Raj = 1 −
∑ i /(n − 2)
e 2
R 2 ajustado
∑ i
( y − y ) 2
/(n − 1) 22
Regressão Linear Múltipla
„ Forma geral :

yi = β 0 + β1 x1 + β 2 x2 + ..... + β p −1 x p −1 + ε i

„ Usando a notação matricial :


y = Xβ + ε
onde : y : vetor de ordem nx1
X : matriz de ordem nxp
β : vetor de parâmetros px1
e : vetor aleatório nx1

23
Regressão Linear Múltipla
y = Xβ + ε

ou, na forma matricial :

⎡ y1 ⎤ ⎡ 1 x11 ... x1( p −1) ⎤ ⎡ β 0 ⎤ ⎡ ε 1 ⎤


⎢ y ⎥ ⎢1 x ... x2 ( p −1) ⎥⎥ ⎢⎢ β1 ⎥⎥ ⎢ε 2 ⎥
⎢ 2⎥ = ⎢ 21
+⎢ ⎥
⎢ ... ⎥ ⎢... ... ... ... ⎥ ⎢ ... ⎥ ⎢ ... ⎥
⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥
⎣ yn ⎦ ⎢⎣ 1 xn1 ... xn ( p −1) ⎥⎦ ⎢⎣ β p −1 ⎥⎦ ⎣ε n ⎦

24
Regressão Linear Múltipla
„ Estimador de Mínimos Quadrados :

min SQ = min e′. e = min ∑ ei2

δ
( y − Xβ )′( y − Xβ ) = 0
δβ
e′.e
β̂ = ( X ′X ) X ′y
−1 σ =
2
e
n− p

ˆ ′
β ~ N (β ,σ e ( X X ) )
2 −1

25
Diagnósticos de Regressão
„ Má especificação da função de regressão

40

exX
Y 180
e
160
140
Y x X 20
120
100
80 0

60
40
-20
20
0
-20 4 6 8 10 12 14 16 -40
X X

„ Solução :
i) Mudar o modelo teórico, corrigindo a função de regressão

ii) Fazer transformação na var. dependente e/ou independente

iii) Verificar se alguma variável foi omitida

26
Diagnósticos de Regressão
„ Presença de ‘outliers’

e
Y1614
12
10
8
6
4
2
0
4 6 8 10 12 14 16 -3
X X

„ Solução :
i) Identificar a origem do outlier e refazer a modelagem

ii) Rejeitar o outlier e refazer o ajuste por MQO

iii) Utilizar métodos de estimação mais robustos

27
Diagnósticos de Regressão
„ Heterocedasticidade
60
270
Y e
250 40
230
20
210
0
190

170 -20
150
-40
130
-60
110
90 -80
1 6 11 16 21 26
X
X

„ Solução :
i) Identificar comportamento do sigma , p.ex.: σ i2 = k 2 . xi2
yi α εi
ii) Fazer transformação nas variáveis : = +β +
xi xi xi
28
Diagnósticos de Regressão
„ Não Normalidade dos erros
Quando a hipótese ei ~Normal não é válida

1) Usar gráfico Q-Q para verificar a validade da hipótese de


normalidade Q-Q Plot

2,5

Percentil Normal
1,5
0,5
-0,5
-1,5
-2,5
-2,5 -1,5 -0,5 0,5 1,5 2,5

Resíduos

2) Realizar teste K-S para testar a normalidade dos erros

29
Diagnósticos de Regressão
„ Autocorrelação dos erros

Autocorrelação de 1a ordem : ε t = ρ ε t −1 + ut ut ~ N(0, σ 2 )


;
A 4a hipótese básica não é válida
Cov(εt,εt-1) ≠ 0
‡ Solução :
i) Testar a autocorrelação usando a estatística de Durbin-Watson

ii) Usar o método de Cochrane-Orcutt (iterativo):


„ ajustar MQO e estimar
resíduos
ρ̂ através da autocorrelação de 1a ordem dos

„ utilizar um modelo da forma : yt* = yt − ρˆ yt −1


„ ajustar o novo modelo por MQO e reestimar ρ̂
30
Simulação de Monte Carlo
É um método que consiste na geração de um número suficientemente
grande de cenários (iterações) com o objetivo de obter as propriedades
estatísticas das variáveis influenciadas por estes cenários.

PDF’s de entrada
46
45
44
43
42
41
40
39
38
37 Varrer todos Calcular todos
36

pontos
35
34
33
32
31

pontos
30
29
28
27
26
25
24
23

de saída
22
21
20
19
18
17
16
15
14
13
12
11
109
87
de entrada
6
54
32
01

PDF’s de saída

45

40

35

Var. Aleatórias Var. Aleatórias 30

25

20

Processo 15

de Entrada de Saída 10

0
1° T r i m

31
Passos da Simulação de Monte Carlo

1) Atribuir distribuições de probabilidades às variáveis de entrada

2) Identificar e especificar dependências entre as variáveis de entrada

3) Amostrar aleatoriamente valores para as variáveis de entrada

4) Para cada iteração calcular os valores das variáveis de saída

5) Repetir o processo até obter a distribuição das variáveis de saída

32
Simulação de Monte Carlo

Utilização da distribuição Uniforme(0,1) para geração de uma


amostra de uma distribuição X.

1) Dada uma v.a. X e sua função de distribuição F(x) = Pr(X≤x)

2) Determinar a função inversa de F(x) F-1(x)

3) Gerar um número aleatório u a partir de uma distribuição


Uniforme(0,1)

4) O valor obtido pela F-1(u) é uma amostra da v.a. X

33
Simulação de Monte Carlo
Relação entre x , F(x) e F-1(x)

0.8

0.6
X F(X)

0.4 F--1(X) X

0.2

25 35 45 55

34
Simulação de Monte Carlo

Exemplo : Como obter uma amostra de uma v.a.


Triangular(min,moda,max)

⎧ 2( x − min)
⎪ (max− min)(moda − min) min ≤ x ≤ moda

f ( x) = ⎨
⎪ 2(max− x)
moda ≤ x ≤ max
⎪⎩ (max− min)(max− moda)

⎧ ( x − min)2
⎪ min ≤ x ≤ moda
⎪ (max− min)(moda − min)
Pr( X ≤ x) = F ( x) = ⎨
⎪1 − (max− x) 2
moda ≤ x ≤ max
⎪⎩ (max− min)(max− moda)

⎧ moda− min
−1
⎪⎪min+ u(max− min)(moda− min) u≤
max− min
F (u) = ⎨
⎪max− (1 − u)(max− min)(max− moda) max− moda
u ≥1 −
⎪⎩ max− min 35
Simulação de Monte Carlo

Exemplo : Considerando uma Triangular(20,40,70)

Então substituindo em F-1(u) :


−1
⎧⎪20+ u.1000 u ≤0,40
F (u) =⎨
⎪⎩70− (1−u).1500 u ≥0,40

Se o 1o valor sorteado da U(0,1) for u=0,32 , então F-1(0,32) = 37,89

Se o 2o valor sorteado da U(0,1) for u=0,67 , então F-1(0,67) = 47,75

36
Simulação de Monte Carlo

Métodos de Amostragem

„ Monte Carlo : usa uma A.A.S. (amostragem aleatória simples), o


que significa que cada elemento tem a mesma probabilidade de ser
escolhido.

„ Latin-Hypercube : usa uma amostragem aleatória estratificada.


• Consiste em dividir a distribuição de probabilidades em n
grupos, onde n é o número de iterações da simulação ;
• Um grupo é selecionado segundo uma AAS sem
reposição ;
• Um segundo número aleatório é gerado para determinar o
valor de F-1 dentro do grupo escolhido ;
• O processo continua selecionando-se um outro grupo.
37
Simulação de Monte Carlo
Método Latin-Hypercube

0.8

0.6
F(x)

0.4

0.2

0
25 35 45 55
x

38
Análise de Projeto de Investimento
Método de Avaliação

Fluxo de Caixa Descontado à taxa Mínima de Atratividade


FC1 FC2 FCn
. . . .

FC0

n
E ( FC k ) onde j=0;0,5 ;1 (posição do vetor)
E (VPL ) = E ( FC 0 ) + ∑
k =1 (1 + tma ) k − j

Indicadores
• VPL esperado [ E(VPL) ]
• VaR 95% [ E(VPL) – VPL5% ]
• Pr(VPL <0) 39

Você também pode gostar