Escolar Documentos
Profissional Documentos
Cultura Documentos
COVARIÂNCIA
X -μ × Y -μ
i =1
i X i Y
σ 2XY =
N
Onde: μ são as médias populacionais e N o número de elementos da população.
CORRELAÇÃO
7
Cons. Resid. Padron. (KWh)
0
0 20 40 60 80 100 120 140
Meses
Portanto, quando uma das variáveis cresce a outra, em média, também cresce, ou
seja, quando o conjunto dos pontos cartesianos xy (nuvem de dados) apresentar uma
tendência crescente, nestes casos, dizemos que entre essas duas variáveis existe uma
correlação positiva. O diagrama de dispersão destas variáveis deve ter, então, o seguinte
aspecto conceitual.
Nuvem de dados
x
Nuvem de dados
x
a) b) c)
y y y
Nuvem Nuvem
Nuvem x , x ou x
Coeficiente de Correlação
rXY =
cov X,Y
νz i i
x y i i
sX × sY n-1 x y 2
i
2
i
onde, se:
y y
_
+
r xy = +1 rxy = -1
x x
Em muitos casos não existe correlação entre variáveis no tempo atual, por isso é
bastante comum trabalhar-se também com a defasagem de uma delas, pois pode ser que a
correlação apareça apenas quando uma das variáveis está em um período t e a outra está em
outro período defasado t-1. O coeficiente estimado nestes casos chama-se coeficiente de
correlação cruzada.
Na prática, é muito comum esse fenômeno. Em séries econômicas, por exemplo,
existem três tipos de defasagens que podem explicar o tempo em que acréscimos de uma
variável levam para se refletir em outra (1. identificação da existência do problema; 2.
Identificação da medida a ser adotada; e 3. Percepção dos efeitos da medida adotada).
Cuidados na Interpretação do Coeficiente de Correlação
Tabela de Correlação
Variáveis Nº obs. CI UCI IPI Aleatóros
CI 144 1.0000 -0.0914 0.8166 0.1602
UCI 144 -0.0914 1.0000 0.0562 0.0021
IPI 144 0.8166 0.0562 1.0000 0.2175
Aleatóros 144 0.1602 0.0021 0.2175 1.0000
CI - Padronizado
CI - Padronizado
600000000
500000000
400000000
300000000
200000000
100000000
0
0 20 40 60 80 100 120 140 160
Tempo - meses
Ln de CI
Ln de CI Padronizado
20.2
20.1
20
19.9
19.8
19.7
19.6
19.5
19.4
19.3
0 20 40 60 80 100 120 140 160
Tempo - meses
1ª Diferença do Ln de CI
1ª Diferença do Ln de CI Padronizado
0.3
0.2
0.1
0
1
9
17
25
33
41
49
57
65
73
81
89
97
105
113
121
129
137
-0.1
-0.2
-0.3
Tempo - meses
3
2
1
0
-1 0 20 40 60 80 100 120 140 160
-2
-3
-4
-5
Tempo - meses
IPI - Padronizado
IPI - Padronizado
160
140
120
100
80
60
40
20
0
0 20 40 60 80 100 120 140 160
Tempo - meses
Como pode ser visualizado no gráfico abaixo, a primeira diferença tanto estacionou
a série como a tornou homoscedástica (Levene = 0,0507), além de manter a normalidade
(JB = 4,66).
1ª Diferença de IPI
1ª Diferença de IPI Padronizado
30
20
10
0
1
9
17
25
33
41
49
57
65
73
81
89
97
105
113
121
129
137
-10
-20
-30
Tempo - meses
Finalmente, para os dados aleatórios, como pode ser visualizado no gráfico abaixo,
a variável não apresentou tendência, podendo ser considerada estacionária e
homoscedástica (Levene = 0,0535), porém é não normal (JB = 10,16). Para resolvermos
este problema iremos aplicar a primeira diferença nos dados, o que fez com que passassem
a distribuir-se normalmente (JB = 0,14) sem deixar de permanecer com variância constante
ao longo do tempo (Levene = 0,01411).
Dados
DadosAleatóros
Aleatórios- Padronizados
Padronizados
60
50
40
30
20
10
0
0 20 40 60 80 100 120 140 160
-10
Tempo - meses
Tabela de Correlação
Variáveis Nº obs.Dif_ln_CI(1) UCI_p Dif_IPI(1)
Dif_Aleatóros(1)
Dif_ln_CI(1) 142 1.0000 -0.0181 0.3916 -0.0488
UCI_p 142 -0.0181 1.0000 -0.0896 0.0583
Dif_IPI(1) 142 0.3916 -0.0896 1.0000 -0.0057
Dif_Aleatóros(1) 142 -0.0488 0.0583 -0.0057 1.0000
Teste de Hipóteses
Os testes representam uma regra de decisão que permite aceitar ou rejeitar uma
hipótese nula questionada. Esta decisão é tomada em função de valores obtidos a partir da
análise de uma amostra, mas com o caráter de permitir que a conclusão seja válida para a
população geradora desta amostra. É o que se chama de inferência estatística.
No procedimento de aplicação de um teste de hipótese admite-se inicialmente um
valor hipotético para um parâmetro populacional desconhecido e a seguir, baseando-se em
informações baseadas na amostra, é testada a aceitação ou não deste valor a partir de um
determinado grau de confiança.
O primeiro passo trata-se da construção das duas hipóteses básicas, a nula e a
alternativa.
1. Hipótese Nula (H0): É aquela que será testada. É geralmente definida pelo que já é
cientificamente comprovado e, portanto, aceito pela comunidade acadêmica. No
caso do coeficiente de correlação, por exemplo, H0 é a hipótese de que não há
correlação existente entre as variáveis em termos populacionais (H0: ρ = 0). Isto se
deve a necessidade de se provar que o relacionamento de fato existe.
Como se trata de um teste que é invariavelmente aplicado sob valores obtidos a partir
de uma amostra, erros são possíveis. No caso, erros cuja sua probabilidade de ocorrência é
pré-definida pelo pesquisador. Estes erros podem ser tipo I ou tipo II.
1. Erro Tipo I (α): É o erro que se comete ao rejeitar uma hipótese nula correta. Sua
probabilidade de ocorrência é simbolizada por “α” e é pré-definida a partir da
diferença entre 1 (toda a área abaixo da curva de distribuição de probabilidade) e o
grau de confiança escolhido (probabilidade com a qual desejamos aceitar ou rejeitar
H0). Trata-se, portanto, do nível de significância exigido no teste.
No nosso exemplo do coeficiente de correlação, cometer erro tipo I seria o mesmo
que rejeitar o relacionamento nulo existente entre variáveis que de fato são
independentes.
2. Erro Tipo II (β): É o erro que se comete ao aceitarmos uma hipótese nula que é
incorreta. Sua probabilidade de ocorrência é simbolizada por “β” e não é pré-
definida. No nosso exemplo do coeficiente de correlação, cometer erro tipo II seria
o mesmo que rejeitar o relacionamento existente entre variáveis que de fato são
dependentes.
A tabela abaixo traz um resumo das decisões tomadas que incorreriam e um dos tipos
de erro. O objetivo é tornar mais clara a visualização das características das situações onde
se comete erro tipo I e tipo II.
Realidade
Decisão
H0 Verdadeira H0 Falsa
Aceitar H0 Aceita Corretamente β Erro Tipo II
Rejeitar H0 α Erro Tipo I Rejeita Corretamente
Exploremos aqui o caso do exemplo das doze relações estimadas para as séries tratadas
(mais fidedignas), expostas na tabela de correlação acima. Visando dar mais praticidade a
decisão de aceitar ou não cada uma das relações estimadas, testando a significância
estatística dos valores mensurados, realizaremos o cálculo do valor mínimo necessário para
rejeitarmos H0 para o tamanho da amostra utilizada e o grau de confiança escolhido (no
caso 95%). Neste processo realizaremos o cálculo utilizando tanto a distribuição t de Gosset
como a F-Snedecor, que logicamente resultam no mesmo rxy mínimo.
rXY n -2
tc =
2
1- rXY
H 0 :ρ XY = 0
2
rXY 140 2
140 rXY 140 rXY2
3,84 1- rXY 140 rXY2 3,84-3,84 rXY2 140 rXY2 rXY2 3,84
2
0, 026696
143,84
rXY 16,34%
r 2 n - 2
F=
1- r 2
H 0 : ρ XY = 0
H a : ρ XY 0
2
3,84 1- rXY
140 rXY 3,84
3,84 2
2
140 rXY
2
3,84-3,84 rXY
2
140 rXY
2
rXY
2
0, 026696
1- rXY 143,84
rXY 16,34%
No caso do nosso exemplo, das doze relações estimadas para as séries tratadas (mais
fidedignas), expostas na tabela de correlação acima, apenas a relação entre o consumo
industrial de energia e o índice de produção industrial (rxy = 0,3916) mostrou-se
estatisticamente significativo.