Você está na página 1de 15

Universidade Federal de Santa Catarina

Departamento de Ciências Econômicas


Estatística Econômica e Econometria
Prof.: Gueibi Peres Souza

COVARIÂNCIA

Os conceitos de probabilidade, variância e esperança também são utilizados no


estudo de relação de dependência entre duas variáveis aleatórias, a esta análise chamamos
de covariância. O sinal de uma análise de covariância indica o sentido da relação observada
na amostra e as unidades de medida, sua grandeza.
A fórmula de cálculo (equação abaixo), como a da variância, é baseada na diferença
entre as médias ponderadas. Portanto, se o valor resultante for nulo e as variáveis
respeitarem uma distribuição normal de probabilidade, isto significa que as variáveis em
questão são independentes. Se as variáveis não forem normalmente distribuídas e o valor
resultante do cálculo da covariância for nulo, isto significa que a independência entre elas
apenas pode ser afirmada com segurança no caso da relação linear entre ambas.

  X -μ ×  Y -μ 
i =1
i X i Y

σ 2XY =
N
Onde: μ são as médias populacionais e N o número de elementos da população.

Como a covariância varia de -∞ a +∞, não se têm, através dela, um parâmetro de


quão relacionadas são as variáveis (se fortemente ou fracamente). Para resolver este
problema padroniza-se a equação de covariância dividindo-se a covariância das variáveis
pelo produto dos desvios padrão das amostras de cada uma das variáveis envolvidas.
Esta nova medida permite comparações entre diferentes pares de variáveis, pois não
depende das unidades de medida, ou seja, é adimensional e varia entre 1 e -1. A ela damos
o nome de coeficiente de correlação (rxy) e estaremos a abordaremos no tópico seguinte,
inclusive com os cuidados que se deve ter no momento de sua interpretação.

CORRELAÇÃO

O estudo do inter-relacionamento entre diversas variáveis denomina-se correlação,


logo, a correlação mede a força, ou grau de relacionamento entre variáveis.
Muitas vezes o crescimento de uma variável é acompanhado pelo crescimento de
outra variável, como por exemplo, número de consumidores e consumo de energia, pois à
medida que aumenta o número de consumidores, aumenta também o consumo de energia.
Outras vezes o crescimento de uma variável é acompanhado pela diminuição de
outra variável, como por exemplo, preço da tarifa no horário de ponta e consumo no horário
de ponta.
Esse comportamento conjunto das duas variáveis pode ser observado através de um
gráfico denominado Diagrama de Dispersão. Por conveniência, falaremos aqui em termos
de duas variáveis devido à facilidade de análise e compreensão de gráficos em duas
dimensões.

Consumo Residencial de Energia Elétrica em Santa Catarina Padronizado Vs. Tempo


(meses- out93-dez03)
8

7
Cons. Resid. Padron. (KWh)

0
0 20 40 60 80 100 120 140

Meses

Portanto, quando uma das variáveis cresce a outra, em média, também cresce, ou
seja, quando o conjunto dos pontos cartesianos xy (nuvem de dados) apresentar uma
tendência crescente, nestes casos, dizemos que entre essas duas variáveis existe uma
correlação positiva. O diagrama de dispersão destas variáveis deve ter, então, o seguinte
aspecto conceitual.

Nuvem de dados
x

Em contrapartida, quando uma das variáveis cresce a outra, em média, decresce,


dizemos que entre essas duas variáveis existe uma correlação negativa. O diagrama de
dispersão então terá o seguinte aspecto conceitual.
y

Nuvem de dados
x

Existem também, os casos em que não existe correlação estatisticamente


significante entre as variáveis, ou seja, situações onde o valor encontrado com o cálculo do
coeficiente é insuficiente para rejeitarmos a hipótese nula de que ele é estatisticamente
diferente (maior ou menor) do que zero. Nestes casos o aspecto do diagrama de dispersão
apresenta uma nuvem de dados pouco definida, o que pode ser de três aspectos: a) quando o
coeficiente for nulo; b) quando o coeficiente for negativo, porém muito próximo de zero
(estatisticamente insignificante) e c) quando for positivo, mas muito próximo de zero
(estatisticamente insignificante).

a) b) c)
y y y

Nuvem Nuvem

Nuvem x , x ou x

Sinais e valores estatisticamente insignificantes

Coeficiente de Correlação

Para medir o grau de correlação entre duas variáveis, utilizamos o coeficiente de


correlação. Esse coeficiente varia entre –1 e +1. Na verdade correlações com valores
positivos ou negativos iguais a 1, casos de correlação perfeita, dificilmente são encontradas
em situações reais. O que ocorre é que sempre existem outras variáveis que influenciam o
comportamento de ambas, e/ou a própria aleatoriedade intrínseca de cada uma delas faz
com que apenas uma única variável não seja capaz de explicar totalmente (em 100%) o
comportamento de outra. Portanto, o mais comum são grandezas de relacionamento
maiores do que zero e menores que |1|.
Já o sinal do coeficiente, como induzido anteriormente, determina se a correlação é
negativa ou se a correlação entre as variáveis em questão é positiva. Isto é, se uma decresce
ou cresce, respectivamente, com o crescimento da outra.
Coeficiente nulo, assim como no caso da covariância, significa que as variáveis são
independentes, ou seja, que há a ausência de relacionamento linear entre elas. No entanto,
não é demais lembrar que tal afirmação poderá ser estendida à relação não-linear se o
resultado for o mesmo e as mesmas respeitarem distribuição normal de probabilidade.
O coeficiente de correlação amostral é indicado por “r” e calculado através da
seguinte fórmula:

rXY =
cov  X,Y 

 νz i i

x y i i

sX × sY n-1 x y 2
i
2
i
onde, se:

r = 1 => correlação perfeita positiva;


r = 0 => correlação nula;
r = -1 => correlação perfeita negativa.

A correlação entre duas variáveis será considerada positiva quando acréscimos


constantes em uma das variáveis, determinarem acréscimos constantes na outra variável, e
negativa quando acréscimos constantes, em uma das variáveis determinam decréscimos
constantes na outra variável. No entanto, é importante mencionar que o sinal do coeficiente
de correlação não determina a inclinação da reta que representa a nuvem de pontos e sim,
apenas seu sentido, ou seja, se é crescente ou decrescente.

y y
_
+
r xy = +1 rxy = -1

x x

Em muitos casos não existe correlação entre variáveis no tempo atual, por isso é
bastante comum trabalhar-se também com a defasagem de uma delas, pois pode ser que a
correlação apareça apenas quando uma das variáveis está em um período t e a outra está em
outro período defasado t-1. O coeficiente estimado nestes casos chama-se coeficiente de
correlação cruzada.
Na prática, é muito comum esse fenômeno. Em séries econômicas, por exemplo,
existem três tipos de defasagens que podem explicar o tempo em que acréscimos de uma
variável levam para se refletir em outra (1. identificação da existência do problema; 2.
Identificação da medida a ser adotada; e 3. Percepção dos efeitos da medida adotada).
Cuidados na Interpretação do Coeficiente de Correlação

Se duas variáveis apresentam correlação positiva, isto significa apenas que as


variáveis crescem no mesmo sentido. No entanto, isto não implica na idéia de que o
crescimento de uma das variáveis determina o crescimento da outra, pois pode ser que não
haja causalidade entre elas (relação espúria).
Imagine que foram obtidos, em determinada cidade do estado, dados sobre o
consumo residencial mensal de energia e o número de internações hospitalares por
desidratação, para cada um dos 12 meses de um ano qualquer. É bastante possível que os
dados tenham um gráfico com o aspecto que mostra que existe correlação positiva entre a
quantidade de energia consumida nas residências e o número de internações por
desidratação, mas não permite concluir que consumo de energia causa desidratação.
Neste exemplo, o fato é simples e conhecido: um aumento da temperatura determina
tanto um aumento no consumo residencial de energia elétrica como uma maior incidência
de casos de desidratação.
Para que sejam mais confiáveis as análises baseadas no coeficiente de correlação,
recomenda-se a observação de alguns preceitos básicos quanto as variáveis em estudo,
como:

1. LINEARIDADE: O coeficiente de correlação de Pearson é uma medida de


relacionamento entre duas variáveis, sempre supondo que a relação entre elas é
linear. Em outras palavras, uma relação forte e bem definida entre duas variáveis,
mas em forma não-linear, por exemplo, quadrática, vai produzir um rxy próximo a
zero, e levará o pesquisador a decisões erradas. Por isso a relação das variáveis deve
ser linearizada antes de entrar no calculo do coeficiente, para isto basta elevar ao
quadrado o valor do desvio padrão do Y, o coeficiente de correlação resultante
aumentará, assim como o valor de t. Com esta transformação das variáveis pode-se
tornar uma relação aparentemente fraca em surpreendentemente forte.

2. ANÁLISE GRÁFICA: A melhor maneira de reconhecer um relacionamento não-


linear nos dados é, por exemplo, através de investigações gráficas. Em muitos casos
a representação gráfica dos dados em um gráfico de dispersão xy pode sugerir que
os dados originais devem ser transformados para que se atinja a linearidade. As
transformações incluem entre outras a inversa das variáveis, a raiz quadrada, a
exponencialização, além da exponencialização quadrada.

3. VARIÂNCIA HOMOSCEDÁSTICA: No caso de séries temporais, as duas


variáveis devem ser caracterizadas por variâncias constantes no tempo, ou seja, sua
variabilidade não deve nem aumentar nem diminuir ao longo do tempo. Esta
qualidade dos dados é chamada de homoscedasticidade. Isso pode ser visto num
gráfico da variável ou em um teste de estatística de Levene, por exemplo, disponível
no aplicativo BER. A estatística do Levene agrupa os dados em sub amostras e testa
a hipótese de que todas as sub amostras tem a mesma variância (valores menores
que 0,05 para esta estatística indicam uma heteroscedasticidade).

4. CAUSALIDADE: É comum confundir um valor do rxy próximo a um com a


evidência de causalidade. Como foi argumentado acima, não é correto associar
causalidade entre variáveis baseando-se apenas no cálculo de seu coeficiente de
correlação. O aparecimento de relações fortes pode ser o resultado de “relações
espúrias” entre as variáveis, ou seja, uma terceira variável causadora, ignorada na
pesquisa, afeta as duas variáveis no calculo do coeficiente de correlação. Porém, na
verdade, a causalidade só existe com a inclusão desta terceira variável que está fora
da pesquisa, por isso é melhor sempre buscar causalidade nas teorias apropriadas da
área relevante da pesquisa antes de iniciar as investigações estatísticas. Esse
fenômeno de correlação espúria acontece muito em estudos de variáveis sócio-
econômicas, pois essas variáveis muitas vezes variam em medidas semelhantes,
apoiados na subida ou descida geral da atividade econômica do país. Isto ocorre
devido ao fato dessas variáveis serem geralmente não estacionárias, ou seja, seu
nível está sempre ou subindo ou decrescendo, o que resultará em um rxy que indique
fortes correlações entre variáveis que não possuem causalidade. Para resolver este
problema, pode-se trabalhar com a diferença dos dados, primeira ou até mesmo a
segunda se for necessário, para estacionar o nível das variáveis num valor mais
constante. Com as diferenças dos dados, o cálculo de rxy será mais consistente e
talvez a causalidade seja confirmada se estiver apoiada em uma teoria consistente.

5. REGRESSÃO: A relação quantitativa entre duas variáveis, de quanto uma variável


X afeta a outra Y, é dada pela estimação do coeficiente de inclinação “b” de uma
equação de regressão e não pelo coeficiente de correlação rxy. Como já apresentado
acima, o coeficiente de correlação corresponde apenas à definição da nuvem de
dados e se a relação entre as variáveis é inversa ou direta, não sendo, portanto, uma
medida de sua inclinação.

6. AGRUPAMENTO: Imagina-se o caso onde duas variáveis podem se agrupar em


duas nuvens de dados no mesmo gráfico. Cada nuvem considerada separadamente
pode ter rxy aproximadamente igual a zero, no entanto, calculando o rxy com todos
os dados das duas nuvens poderia resultar em valores altos para o coeficiente. Nesse
caso, seria correto investigar a possibilidade que as duas nuvens representem
objetos de pesquisa diferentes. Por exemplo, os eixos do gráfico representam
consumo residencial de energia e tempo, e as duas nuvens representam o consumo
de populações com características diferentes: um do estado de Santa Catarina e
outra do Brasil. Certamente, uma analise usando dois rxy, uma para cada território
seria o procedimento mais apropriado.

7. DADOS SUSPEITOS: Dado suspeito, em inglês chamado de “out-lier”, lembra


um pouco o caso anterior, pois se trata de dados que estão muito longe da nuvem, e
suas inclusões podem distorcer o valor de rxy. O dado suspeito deve ser investigado
e, se, por exemplo, for resultado de um evento excepcional ou de um erro de
digitação, deve ser retirado da amostra como sendo não representativo da população
sob estudo. A excepcionalidade do evento exige que o dado seja eliminado da
amostra pelo fato de não pertencer à mesma população dos outros dados da nuvem,
mas a eliminação ocorre se e somente se, depois de uma investigação, chegou-se à
conclusão de que realmente ele não pertence àquela família de dados.
Vejamos agora um exemplo onde efetuamos uma aplicação prática desses preceitos
básicos para o uso adequado do coeficiente de correlação utilizando como apoio o
aplicativo livre BER-Lâmbda (disponível para download em WWW.qualimetria.ufsc.br).
Para isso elegemos como variáveis a serem estudadas o consumo industrial de energia
(KWh), o índice da produção industrial (base: 1991=100), a variação percentual da
utilização da capacidade industrial instalada no estado e uma série de dados aleatórios
gerados no Excel (gerador de números aleatórios).
Primeiramente iremos calcular os coeficientes de correlação, visando compará-los
com os coeficientes calculados após a aplicação das recomendações básicas para que sejam
evidenciadas as interpretações errôneas derivadas de relações espúrias.
Na tabela abaixo podem ser identificadas como as relações mais fortes as
verificadas entre o consumo industrial e a produção industrial (positiva), consumo
industrial e dados aleatórios (negativa) e dados aleatórios com produção industrial. Com
uma relação um tanto quanto mais fraca, podemos citar a do consumo industrial com a
utilização da capacidade instalada e a relação da produção industrial com a utilização da
capacidade instalada.

Tabela de Correlação
Variáveis Nº obs. CI UCI IPI Aleatóros
CI 144 1.0000 -0.0914 0.8166 0.1602
UCI 144 -0.0914 1.0000 0.0562 0.0021
IPI 144 0.8166 0.0562 1.0000 0.2175
Aleatóros 144 0.1602 0.0021 0.2175 1.0000

Fonte: BER Lâmbda.

Em seguida, iremos plotar os gráficos de cada variável padronizada ao longo do


tempo, esperando visualizar a tendência, o nível e a variabilidade de cada uma,
identificando com isso a necessidade ou não de transformações.
No caso dos dados de consumo industrial, como pode ser observado no gráfico
abaixo, observamos uma tendência crescente e uma fraca, porém existente, certa
variabilidade dos dados no decorrer do tempo o que segundo o teste de Levene (0,0319)
calculado no aplicativo BER, é suficiente para considera-los heteroscedásticos, além de não
normais, pois o teste de Jarque-Bera apresentou resultado de 7,35.

CI - Padronizado
CI - Padronizado
600000000
500000000
400000000

300000000
200000000
100000000
0
0 20 40 60 80 100 120 140 160
Tempo - meses

Visando resolver estes problemas, o primeiro procedimento a ser adotado será a


aplicação do logaritmo natural (Ln) aos dados, para tornar mais constante sua variação e
com isso eliminar o problema de não homoscedasticidade. Em seguida, será aplicada a
primeira diferença nos dados para que a série fique estacionada, o que também poderá
também torná-los normalmente distribuídos.
Como pode ser observado no gráfico abaixo, a aplicação de Ln nos dados,
modificou sua variabilidade, tornando mais homogênea a nuvem de dados, o suficiente para
torná-la homoscedástica, segundo o teste de Levene (0,0689).

Ln de CI
Ln de CI Padronizado
20.2
20.1
20
19.9
19.8
19.7
19.6
19.5
19.4
19.3
0 20 40 60 80 100 120 140 160
Tempo - meses

Já com a aplicação da primeira diferença nos dados logaritmizados, foi possível


atingir, ao mesmo tempo, sua estacionaridade e normalidade, o que pode ser confirmado
pelo gráfico abaixo e pelo resultado do teste de Jarque-Bera (4,48), respectivamente.

1ª Diferença do Ln de CI
1ª Diferença do Ln de CI Padronizado
0.3

0.2

0.1

0
1
9
17
25
33
41
49
57
65
73
81
89
97
105
113
121
129
137
-0.1

-0.2

-0.3
Tempo - meses

Já para os dados da utilização da capacidade industrial instalada, como pode ser


visualizado no gráfico abaixo, os dados não apresentaram uma tendência, ou seja, da
maneira como foram registrados (variação percentual) já apresentam-se estacionados.
Porém, apresentaram-se como sendo não normais (JB = 27,72) e heteroscedásticos (Levene
= 0,0482), isto devido a apenas dois dados (referentes a dezembro de 1992 e 2000) um
tanto distante da nuvem, considerados como outlier’s, pois se apresentaram a mais de três
desvios padrão da média.
Ao excluí-los do grupo de dados a distribuição mostrou-se normal (JB = 2,98) e
homoscedástica (Levene = 0,1065).
UCI
UCI- -Padronizada
Padronizado

3
2
1
0
-1 0 20 40 60 80 100 120 140 160
-2
-3
-4
-5
Tempo - meses

Já no caso dos dados do índice da produção industrial, apresentam-se normais (JB =


3,01), porém com tendência crescente, ou seja, não estacionários, além de heteroscedásticos
(Levene 0,0281). Para resolver tais problemas, aplicaremos a primeira diferença, o que
deve resolver o problema.

IPI - Padronizado
IPI - Padronizado
160
140
120
100
80
60
40
20
0
0 20 40 60 80 100 120 140 160
Tempo - meses

Como pode ser visualizado no gráfico abaixo, a primeira diferença tanto estacionou
a série como a tornou homoscedástica (Levene = 0,0507), além de manter a normalidade
(JB = 4,66).

1ª Diferença de IPI
1ª Diferença de IPI Padronizado
30

20

10

0
1
9
17
25
33
41
49
57
65
73
81
89
97
105
113
121
129
137

-10

-20

-30
Tempo - meses

Finalmente, para os dados aleatórios, como pode ser visualizado no gráfico abaixo,
a variável não apresentou tendência, podendo ser considerada estacionária e
homoscedástica (Levene = 0,0535), porém é não normal (JB = 10,16). Para resolvermos
este problema iremos aplicar a primeira diferença nos dados, o que fez com que passassem
a distribuir-se normalmente (JB = 0,14) sem deixar de permanecer com variância constante
ao longo do tempo (Levene = 0,01411).
Dados
DadosAleatóros
Aleatórios- Padronizados
Padronizados

60
50
40
30

20

10
0
0 20 40 60 80 100 120 140 160
-10
Tempo - meses

Depois de realizadas as transformações necessárias (para estacionar, tornar


constante a variabilidade e normalizar as séries) todos os coeficientes de correlação foram
recalculados a fim de se determinar os graus de relação entre as variáveis de forma mais
fidedigna.
Como pode ser observado na tabela abaixo, a maior correlação existente entre estas
variáveis é mesmo entre consumo industrial de energia e produção industrial, porém não
tão forte (rxy = 0,82) como determinado na primeira análise apresentada na tabela anterior.
Por fim torna-se necessária a realização dos testes de hipóteses para que possamos verificar
quais destas relações podem ser consideradas estatisticamente significantes e, portanto,
válidas para embasar o processo decisório.

Tabela de Correlação
Variáveis Nº obs.Dif_ln_CI(1) UCI_p Dif_IPI(1)
Dif_Aleatóros(1)
Dif_ln_CI(1) 142 1.0000 -0.0181 0.3916 -0.0488
UCI_p 142 -0.0181 1.0000 -0.0896 0.0583
Dif_IPI(1) 142 0.3916 -0.0896 1.0000 -0.0057
Dif_Aleatóros(1) 142 -0.0488 0.0583 -0.0057 1.0000

Fonte: BER Lâmbda.

Teste de Hipóteses

Os testes representam uma regra de decisão que permite aceitar ou rejeitar uma
hipótese nula questionada. Esta decisão é tomada em função de valores obtidos a partir da
análise de uma amostra, mas com o caráter de permitir que a conclusão seja válida para a
população geradora desta amostra. É o que se chama de inferência estatística.
No procedimento de aplicação de um teste de hipótese admite-se inicialmente um
valor hipotético para um parâmetro populacional desconhecido e a seguir, baseando-se em
informações baseadas na amostra, é testada a aceitação ou não deste valor a partir de um
determinado grau de confiança.
O primeiro passo trata-se da construção das duas hipóteses básicas, a nula e a
alternativa.

1. Hipótese Nula (H0): É aquela que será testada. É geralmente definida pelo que já é
cientificamente comprovado e, portanto, aceito pela comunidade acadêmica. No
caso do coeficiente de correlação, por exemplo, H0 é a hipótese de que não há
correlação existente entre as variáveis em termos populacionais (H0: ρ = 0). Isto se
deve a necessidade de se provar que o relacionamento de fato existe.

2. Hipótese Alternativa (Ha): É a hipótese complementar de H0 ou a negação da


mesma. No caso do coeficiente de correlação, por exemplo, Ha é a hipótese de que
há correlação entre as variáveis em termos populacionais (H0: ρ ≠ 0).

Como se trata de um teste que é invariavelmente aplicado sob valores obtidos a partir
de uma amostra, erros são possíveis. No caso, erros cuja sua probabilidade de ocorrência é
pré-definida pelo pesquisador. Estes erros podem ser tipo I ou tipo II.

1. Erro Tipo I (α): É o erro que se comete ao rejeitar uma hipótese nula correta. Sua
probabilidade de ocorrência é simbolizada por “α” e é pré-definida a partir da
diferença entre 1 (toda a área abaixo da curva de distribuição de probabilidade) e o
grau de confiança escolhido (probabilidade com a qual desejamos aceitar ou rejeitar
H0). Trata-se, portanto, do nível de significância exigido no teste.
No nosso exemplo do coeficiente de correlação, cometer erro tipo I seria o mesmo
que rejeitar o relacionamento nulo existente entre variáveis que de fato são
independentes.

2. Erro Tipo II (β): É o erro que se comete ao aceitarmos uma hipótese nula que é
incorreta. Sua probabilidade de ocorrência é simbolizada por “β” e não é pré-
definida. No nosso exemplo do coeficiente de correlação, cometer erro tipo II seria
o mesmo que rejeitar o relacionamento existente entre variáveis que de fato são
dependentes.

A tabela abaixo traz um resumo das decisões tomadas que incorreriam e um dos tipos
de erro. O objetivo é tornar mais clara a visualização das características das situações onde
se comete erro tipo I e tipo II.

Realidade
Decisão
H0 Verdadeira H0 Falsa
Aceitar H0 Aceita Corretamente β Erro Tipo II
Rejeitar H0 α Erro Tipo I Rejeita Corretamente

Etapas Básicas da Aplicação de um Teste de Hipóteses:

1. Formular a hipótese nula e a alternativa (sendo as duas sempre complementares);


2. Especificar o nível de significância (α) a ser utilizado, ou seja, a margem de erro
aceitável para se rejeitar H0 quando verdadeira;
3. Estabelecer se o tipo de teste é unilateral (superior ou inferior) ou bilateral, ou seja,
se na hipótese alternativa o valor testado será maior, menor ou diferente do valor
testado na hipótese nula. A tabela a seguir mostra os três tipos de testes de uma
forma mais detalhada;
4. Estabelecer o valor crítico ou os valores críticos da estatística do teste, ou seja, o
valor tabelado. O valor crítico identifica o valor estatístico do teste necessário para
se rejeitar a hipótese nula;
5. Determinar o valor observado da estatística do teste, ou seja, o valor calculado;
6. Tomar a decisão: comparar o valor observado da estatística da amostra com o valor
crítico e decidir aceitar ou rejeitar H0 com o grau de confiança anteriormente
escolhido (etapa 2).

Teste H0 Ha Gráfico Hipóteses


Área de aceitação (1- α) entre as duas áreas de H0: =
Bilateral = ≠
rejeição (α/2) demarcadas pelos valores críticos. Ha: ≠
Unilateral Área de aceitação (1- α) à esquerda do valor crítico e H0: =
= >
Superior área de rejeição (α) à direita do valor crítico. Ha: >
Unilateral Área de aceitação (1- α) à direita do valor crítico e H0: =
= <
Inferior área de rejeição (α) à esquerda do valor crítico. Ha: <

Exploremos aqui o caso do exemplo das doze relações estimadas para as séries tratadas
(mais fidedignas), expostas na tabela de correlação acima. Visando dar mais praticidade a
decisão de aceitar ou não cada uma das relações estimadas, testando a significância
estatística dos valores mensurados, realizaremos o cálculo do valor mínimo necessário para
rejeitarmos H0 para o tamanho da amostra utilizada e o grau de confiança escolhido (no
caso 95%). Neste processo realizaremos o cálculo utilizando tanto a distribuição t de Gosset
como a F-Snedecor, que logicamente resultam no mesmo rxy mínimo.

Cálculo do Valor Mínimo da Relação, utilizando a distribuição t de Gosset

rXY n -2
tc =
2
1- rXY
H 0 :ρ XY = 0
2
rXY 140  2
140 rXY 140 rXY2

 1,96 =  1,96   1,96 2



H a :ρ XY  0
2 2
2
1- rXY 1- rXY 1- rXY

3,84 1- rXY  140 rXY2  3,84-3,84 rXY2 140 rXY2  rXY2  3,84
2
 0, 026696
143,84

rXY  16,34%

Conclusão: Para amostras de 142 observações e um grau de confiança de 95% (α = 5%


de nível de significância) a correlação mínima para podermos rejeitar H0 é de
aproximadamente 16%.
Cálculo do Valor Mínimo da Relação, utilizando a distribuição F-Snedecor

r 2  n - 2
F=
1- r 2
H 0 : ρ XY = 0

H a : ρ XY  0
2
 3,84 1- rXY 
140 rXY 3,84
3,84  2
2
140 rXY
2
 3,84-3,84 rXY
2
140 rXY
2
 rXY
2
  0, 026696
1- rXY 143,84
rXY  16,34%

Conclusão: Para amostras de 142 observações e um grau de confiança de 95% (α = 5%


de nível de significância) a correlação mínima para podermos rejeitar H0 é de
aproximadamente 16%.

No caso do nosso exemplo, das doze relações estimadas para as séries tratadas (mais
fidedignas), expostas na tabela de correlação acima, apenas a relação entre o consumo
industrial de energia e o índice de produção industrial (rxy = 0,3916) mostrou-se
estatisticamente significativo.

Análise de Correlação utilizando BER-Lâmbda (aplicativo livre disponível


para download em http://www.qualimetria.ufsc.br/site/index.html)
Análise de Correlação utilizando Gretl (software aplicativo livre disponível
para download em http://gretl.sourceforge.net/)
rxy mínimo para uma amostra de 107 observações e 95% de confiança (α = 5%)

Você também pode gostar