Você está na página 1de 30

ANÁLISE DE CORRELAÇÃOi

Existem diversas situações em administração e economia em que o interesse maior é


identificar o nível de associação entre duas variáveis quaisquer. Por exemplo:

 Existe relação de dependência entre volume de vendas e tamanho da equipe de


vendas?
 A renda familiar influencia o nível de consumo?
 O preço está associado ao tempo de durabilidade do produto?
 A área do imóvel influencia o preço final?

Nestes casos, é perfeitamente possível avaliar o grau e o tipo de relacionamento entre


as variáveis através de uma medida estatística chamada de “coeficiente de correlação”.

1.1 Correlação linear simples (Pearson)


O coeficiente de correlação linear simples entre duas variáveis identificadas como “x e
y” é um número padronizado obtido a partir de três de medidas estatísticas. São elas:
a) Covariância entre “x” e “y”
É dada pela soma dos produtos dos desvios de “x” e de “y” em relação às suas médias
aritméticas. Pode ser utilizada para identificar o tipo de relação entre as variáveis, pois
assume sinal positivo (relação direta) ou negativo (relação inversa).
A fórmula desenvolvida da covariância entre “x” e “y” é:

(x . y)
S x y  xy 
n

b) Variância de “x”
Mede a variabilidade em torno da variável “x”, sendo definida como a raiz quadrada do
desvio padrão da distribuição.
A fórmula desenvolvida da variância de “x” é:

( x)2
S x  x 2 
n

c) Variância de “y”

1
Mede a variabilidade em torno da variável “y”, sendo definida como a raiz quadrada do
desvio padrão da distribuição.
A fórmula desenvolvida da variância de “y” é:

( y)2
S y  y 2 
n

De posse das três medidas de variabilidade calcula-se o coeficiente de correlação


linear simples, que é dado pela seguinte fórmula:
Sx y
Rx y 
S x .S y

Cabe esclarecer que o coeficiente de correlação linear simples é um número


padronizado cujo campo de variação vai de 1 até +1.

1.2 Interpretação do coeficiente R x y


Tem por objetivo avaliar o grau e o tipo de relacionamento (ou associação) entre duas
variáveis. Caso o grau de associação entre as variáveis seja fraco, torna-se
desnecessário ajustar uma função matemática com o objetivo de realizar previsões.
A identificação do grau e do tipo de relação também pode ser feita a partir de um
gráfico chamado de diagrama de dispersão. Construindo-se o diagrama de dispersão, é
possível observar o tipo de relação (direta ou inversa), além do grau de relacionamento
(forte, regular ou fraco).

Veja os diagramas em situações típicas:

Correlação Positiva Correlação Negativa

2
Correlação perfeita (positiva Correlação nula
ou negativa)

Tipo de relação Ocorre quando:


A variável “y” varia na razão direta da variável
Direta
“x”, ou seja, as variáveis são diretamente
proporcionais.
A variável “y” varia na razão inversa da variável
Inversa
“x”, ou seja, são inversamente proporcionais.

Grau de relação Ocorre quando:


O conjunto de coordenadas no plano apresenta
Forte dispersão relativamente pequena, ou seja, os
pontos definem uma tendência.
O conjunto de coordenadas no plano apresenta
alguma dispersão, ou seja, os pontos definem
Regular
uma tendência, porém, com alguma
variabilidade.
O conjunto de coordenadas no plano apresenta
Fraco dispersão relativamente grande, ou seja, os
pontos não definem uma tendência.

Fica claro que a espessura e a direção do grupamento de coordenadas indicam


consistência de relação entre as duas variáveis. Se o conjunto de coordenadas tender
a uma linha reta, mais consistente será a relação entre as variáveis.
Considerando que o coeficiente de correlação calculado é um número cujo campo de
variação vai de 1 até +1, então, a interpretação pode ser feita a partir do seguinte
quadro:

Relação Inversa Relação Direta

           
1 0,7 0,5 0 0,5 0,7 1

3
grau forte   grau regular   grau fraco

Atenção: Cabe esclarecer que não há correlação quando o coeficiente calculado


tender a zero. Por outro lado, quando o coeficiente calculado for 1 ou +1, haverá uma
correlação perfeita (sem dispersão) entre as variáveis.

Vejamos alguns exemplos:


1. Os dados abaixo se referem ao preço médio (em R$) do frete rodoviário e a respectiva
distância (em km) de dez municípios a partir da cidade de São Paulo. A tonelagem transportada é
constante. Os dados foram obtidos em pesquisa realizada com várias transportadoras.
Cidade A B C D E F G H I J
Preço 240 300 270 340 460 380 560 480 500 530
Distância 55 83 120 176 280 320 388 460 490 510

Calcule e interprete o coeficiente de correlação linear simples.


Inicialmente deve-se uma obter um sumário estatístico para que se possa calcular as
três medidas necessárias. Para tanto, é importante identificar corretamente a variável
“x” e a variável “y”. Considere uma relação funcional em que y = f (x), permitindo-nos
concluir que a variável “y” é explicada pela variável “x”. Ou ainda, que existe uma
relação de dependência entre elas, de tal forma que “x” é a variável independente e “y”
a variável dependente.
Assim sendo, no exemplo em questão a variável “y” é preço do frete e a variável “x” é
distância percorrida, uma vez que o preço do frete depende da distância percorrida 1.

n x x2 y y2  x.y


10 2882 1098434 4060 1767000 1334120

Calculando as três medidas de variabilidade:


(2882 . 4060)
S x y  1334120   164028
10
(2882)2
S x  1098434   267841,6
10

1
Observe que a variável distância percorrida não é a única que explica o preço, poderia se pensar
também na tonelagem transportada. Na realidade, existem “n” variáveis independentes que poderiam
explicar a variação em “y”.

4
(4060) 2
S y  1767000   118640
10
Agora podemos calcular o coeficiente R xy :
164028
Rx y   0,92
267841,6 .118640

O coeficiente 0,92 indica que existe relação direta com grau forte entre as variáveis
preço e distância. Além disso, pode-se argumentar que a dispersão dos pontos no
plano é relativamente pequena, pois o valor do coeficiente está próximo da unidade. Na
prática, isso significa que podemos utilizar o conjunto de dados para ajustar um modelo
de previsão do preço do frete a partir dos dados de distância percorrida.

2. A tabela abaixo apresenta o custo unitário (em R$) e a quantidade produzida (em mil
unidades) de um determinado produto.
Custo unitário 4,5 3,9 3,72 3,4 3 2,75 2,25 2
Quantidade 3 3,8 4,9 5,7 6,5 7,2 7,4 8

Calcular e interpretar o coeficiente de correlação linear simples.


Neste caso, a variável dependente “y” é custo unitário, enquanto a variável
independente “x” é quantidade produzida.
O sumário estatístico dos dados é:

n x x2 y y2  x.y


8 46,5 292,79 25,52 86,48 137,88

Calculando as três medidas de variabilidade:


(46,5 . 25,52)
S x y  137,88   10,46
8
(46,5) 2
S x  292,79   22,51
8
(25,52) 2
S y  86,48   5,07
8

Agora podemos calcular o coeficiente R xy :


- 10,46
Rx y   0,98
22,51. 5,07

O coeficiente 0,98 indica que existe relação inversa com grau forte entre as variáveis
custo unitário e quantidade produzida. Além disso, pode-se argumentar que a
dispersão dos pontos no plano é relativamente pequena.

5
Aplicação na HP-12C
O coeficiente de correlação linear simples pode ser calculado diretamente na
calculadora. Para tanto, procede-se da seguinte forma:
1º passo: limpar os registradores “R1 a R6” pressionando “ f  ”, para que se possa
introduzir alternadamente os valores das variáveis “x” e “y”, com o objetivo de obter o
sumário estatístico.
2º passo: introduzir os dados nos registradores.
 Digite o primeiro valor de “y”;
 Pressione “ENTER”;
 Digite o primeiro valor de “x”;
 Pressione “+”;
Tal procedimento deverá ser feito com os “n” pares de observações. No final, os
somatórios estarão alocados nos registradores R1 a R6 da seguinte forma:

N x x2 y y2  x.y


R1 R2 R3 R4 R5 R6

Atenção: esse quadro esquemático também é apresentado na parte traseira da calculadora.


Para recuperar qualquer valor alocado em registradores basta pressionar a tecla RCL e em
seguida o número do registrador de interesse.
3º passo: para calcular o coeficiente de correlação faça antes uma estimativa de “ ŷ ” para
qualquer valor de “x”. Para tanto, digite o valor de “x” no visor e pressione “g ŷ r (tecla do
>
número 2). Em seguida pressione a tecla “x < y” para acessar o valor do coeficiente de
correlação que se encontra na pilha “y”.
Atenção: atente para o fato de que o valor do coeficiente de correlação só pode ser observado
depois da estimativa de “ ŷ ”. Na prática, esse aspecto é muito importante, pois qualquer
estimativa só teria confiabilidade se o coeficiente apresentasse grau forte. Ou seja, fazemos a
estimativa e olhamos para o valor do coeficiente de correlação para que a mesma seja
referendada ou não.

Aplicação no Excel
O cálculo do coeficiente de correlação no Excel é bastante simplificado. Para tanto,
proceda da seguinte forma:
 digite o conjunto de dados em uma matriz de duas linhas ou duas colunas (por
exemplo, 10 pares de observações de “x” e de “y” intervalo A1:J2);

6
 digite numa célula qualquer (por exemplo: A3) a seguinte fórmula: =correl(matriz de
“y”; matriz de “x”)
=correl(A1:J1;A2:J2)
 pressione enter  aparecerá o valor do coeficiente R x y

Atividade
As séries de números - índices (1990 = 100) abaixo se referem a algumas variáveis da
indústria automobilística brasileira no período 1990/2002.

Vendas
Ano Produção Emprego Investimento
internas
1990 100 100 100 100
1991 110,9 105 90,2 94,3
1992 107,2 117,4 86,2 95
1993 158,7 152,2 87,2 97,2
1994 195,8 172,9 88,3 131,8
1995 242,5 178,1 83,3 180,9
1996 242,8 147,3 80,5 245
1997 272,7 226,3 83,4 216,9
1998 215,4 173,5 67,3 246,6
1999 176,4 148,4 68,3 189,2
2001 209 184,9 71,3 175,4
2002 224,7 198,7 68 183,4

Calcule e interprete o coeficiente de correlação linear simples para todas as


combinações possíveis.

Adec 5 – Correlação e Regressão Exercícios


1. Uma função matemática de renda e poupança apresentou coeficiente de correlação
linear simples igual a –0,88. Neste caso, o modelo em questão poderá ser utilizado
para previsões, pois está de acordo com a expectativa teórica? Sim ou não? Justifique.
2. Para o diagrama de dispersão abaixo, o coeficiente de correlação calculado é 0,65.
Se eliminarmos a coordenada (12;3), será possível calcular um novo coeficiente de
correlação ? Sim ou não? Justifique a resposta:

7
4

0
0 2 4 6 8 10 12 14

3. A tabela abaixo apresenta a idade média das máquinas (em meses), tempo médio diário de
utilização (em horas) e custo de manutenção mensal (em R$ mil), para uma empresa de médio
porte durante dez meses.

Idade 40 45 44 43 42 44 48 45 44 43
Tempo 11 13 12 14 14 17 16 18 17 19
Custo 25 29 27 32 31 33 32 35 34 36

Utilizando o coeficiente de correlação linear simples, identifique o par de variáveis que


possui relação de causa e efeito consistente.

4. Uma função matemática de renda e consumo apresentou coeficiente de correlação


linear simples igual a 0,51. Neste caso, o modelo em questão poderá ser utilizado para
previsões? Sim ou não? Justifique.

5. O diagrama de dispersão abaixo apresenta a demanda por refrigerantes durante 12 meses, em


uma capital da região sudeste.

Pergunta-se: as coordenadas no plano indicam relação de causa e efeito entre tempo e


demanda?

6. A tabela abaixo apresenta a renda domiciliar per capita (em R$) e o índice de
analfabetismo (em % da população) em 10 estados brasileiros.

8
Estado MA PI MG PE MS CE BA PA GO MT
Renda 80 85 180 120 182 118 128 150 160 170
Índice 23 25 11 23 10 22 14 13 14 12

Calcule o coeficiente de correlação linear simples e avalie se existe associação


consistente entre as variáveis renda per capita e índice de analfabetismo.

9
CAPÍTULO 2

ANÁLISE DE REGRESSÃO

Diferentemente da análise de correlação, que é utilizada para medir o grau e o tipo de


associação entre duas variáveis quaisquer, a análise de regressão é utilizada
principalmente com o objetivo de fornecer previsões. Ou seja, nosso propósito é o
desenvolvimento de um modelo estatístico que possa ser utilizado para prever os
valores de uma variável dependente “y”, com base nos valores de uma variável
independente “x”.
Cabe esclarecer, no entanto, que a construção de um modelo matemático de previsão
só se justifica caso a relação entre as variáveis seja consistente 2. Neste sentido, a
análise de correlação funciona como um pré-estudo para a análise de regressão.

2.1 Função linear simples


A função linear simples ou equação da reta é, sem dúvida, o modelo matemático mais
simples. Sua forma especificativa é dada pela seguinte equação:

ŷ  a  bx

Os coeficientes “a e b” são denominados parâmetros do modelo, com os seguintes


significados:
 o parâmetro “b” é denominado coeficiente de declividade da reta. Indica a variação
em “y” para cada unidade de variação em “x”. Assume sinal positivo ou negativo,
dependendo da relação ser direta ou inversa;
 o parâmetro “a” é denominado intercepto, sendo igual ao valor de “y” quando “x” for
igual a zero, ou seja, é um valor que independe da variação de “x”;
 “x e y” são as variáveis do modelo, de tal modo que “y” é função de “x”.

Antes de ajustar a função linear aos dados é necessário avaliar se o conjunto de


coordenadas marcadas no plano sugere uma relação linear (reta). Para tanto, deve-se
construir o diagrama de dispersão marcando a variável “x” na abscissa (eixo horizontal)
e a variável “y” na ordenada (eixo vertical). Veja representação abaixo:

2
Um modelo consistente pressupõe que o grau de associação seja forte, e que a declividade (sinal do
parâmetro “b”) esteja de acordo com a expectativa teórica.

10
Variável "y"
Variável "x"

Visualmente é possível avaliar se a “nuvem” de pontos se ajusta a uma reta ou não.


Caso a relação sugerida seja não-linear, deve-se optar por modelos transformados
(potência, semilogarítmica, etc), que fogem ao escopo deste livro.
O primeiro passo, na análise de regressão, é obtermos o valor dos parâmetros “a” e “b”
a partir dos “n” pares de observações das variáveis. As fórmulas são as seguintes:
Sxy
b
Sx
onde:
( x . y) (x)2
S x y  xy  S x  x 2 
n n

y x
a -b ou a  y - bx
n n
A fim de desenvolver os conceitos que envolvem a análise de regressão, vamos
considerar o seguinte exemplo:
O gerente de vendas de uma empresa vive insistindo com os seus vendedores que “o volume de
vendas dos produtos têm relação consistente com o número de visitas realizadas aos clientes”.
Para tentar provar que a afirmação é verdadeira foi feito um levantamento do número de visitas
realizadas e das unidades comercializadas de 10 vendedores durante um mês. Os dados são os
seguintes:
Vendedor A B C D E F G H I J
Nº de visitas 39 45 52 34 30 43 35 30 48 50
Unidades
vendidas 175 175 190 155 130 170 145 150 185 210

Veja como ficou o diagrama de dispersão:

11
220

Unidades vendidas
200
180
160
140
120
25 30 35 40 45 50 55
Núm ero de visitas

Observa-se claramente que o conjunto de coordenadas sugere uma relação linear


entre “unidades vendidas” e “número de visitas”. Portanto, deve-se ajustar uma função
linear aos dados.
A partir do sumário estatístico, procede-se ao cálculo dos parâmetros da equação linear:

N x x2 y y2  x.y


10 406 17084 1685 289025 70015

(406 . 1685)
S x y  70015   1604
10

(406) 2
S x  17084   600,4
10

1604
b  2,67
600,4

1685 406
a - 2,67  a  168,5 - (2,67.40,6 )  60,1
10 10
A forma especificativa da função linear que expressa a relação verdadeira entre as
variáveis é:
ŷ  60,1  2,67x

onde:
“x”  variável independente “número de visitas”; e
“ ŷ ”  estimativa da variável dependente “unidades vendidas”.
Uma vez ajustada, a função linear pode ser utilizada para se fazer previsões de “y” a
partir de um valor qualquer de “x”. No entanto, é necessário verificar antes se a
equação obtida apresenta precisão.
Poderia-se inicialmente traçar a função ajustada no diagrama de dispersão, de tal
forma que se possa verificar a qualidade do ajuste em termos visuais. Um ajuste de

12
boa qualidade pressupõe que a reta “minimize” a diferença entre os pontos no plano,
ou seja, ela deve passar exatamente entre as coordenadas.
Para traçar a reta no plano basta obter duas coordenadas que serão estimadas a partir
da função ajustada:

x ŷ
30 140,2
52 198,9

Marcando-se as duas coordenadas no plano e traçando a reta verifica-se que a


equação foi ajustada corretamente, pois ela passa exatamente entre os pontos. Além
disso, observa-se que o nível de dispersão em relação ao ajuste não é muito grande
(vide diagrama), indicando que o modelo em questão é consistente.

220
Unidades vendidas

200

180

160

140

120
25 35 45 55
Número de visitas

A questão do nível de dispersão também pode ser avaliada –conforme visto no capítulo
8 – através do coeficiente de correlação. Para este exemplo, o valor calculado de 0,92
indica relação direta com grau forte entre “unidades vendidas” e “número de visitas”.

Coeficiente de determinação R2
Uma medida alternativa pode ser utilizada para avaliar a consistência do modelo
ajustado, trata-se do coeficiente de determinação, que também é chamado de poder
explicativo da função ajustada.
Na prática, este coeficiente define em “quantos por cento” a variável independente “x”
explica a variável dependente “y”. Quanto mais próximo de 100%, melhor a qualidade
do ajuste, indicando que as previsões serão mais confiáveis. Adota-se, no entanto,
como regra que coeficientes superiores a 70% já viabilizam a utilização do modelo para
fins de previsão.
O coeficiente de determinação R2 é obtido a partir da seguinte fórmula:

13
 b . Sx y 
onde : S y  y 2  ( y)
2
R 2    . 100

 Sy  n

Para o exemplo em questão:


(1685) 2
S y  289025   5102,5
10

 2,67 . 1604 
R2    . 100  83,93%
 5102,5 

O resultado indica que as variações nos “números de visitas” explicam as “unidades


vendidas” em 83,93%, sendo que os 16,07% são causas aleatórias 3 do modelo linear
adotado.
Cabe esclarecer que o coeficiente de determinação pode ser obtido a partir do
coeficiente de correlação; basta elevar esse valor ao quadrado e multiplicar por 100.
No exemplo em questão:

R2 = [(0,9164)2] . 100 = 83,98%

Pequenas diferenças entre os valores obtidos segundo os dois métodos se devem a


problemas de arredondamento.
Deve-se observar, contudo, que o coeficiente R 2 não define o tipo de relação (positiva
ou negativa). Para isso, deve-se recorrer ao diagrama ou ao coeficiente de correlação.

Significado dos parâmetros estimados


Uma vez estimados, os parâmetros “a” e “b” do modelo podem ser interpretados em
função do valor e do sinal que assumem no modelo. Por exemplo, se um modelo de
renda (x) e consumo (y) apresentar a equação: ŷ = 300 + 0,8x, qual seria o significado
econômico dos parâmetros?
O parâmetro “a” chamado de intercepto é aquela parte do consumo que não depende
da renda, ou seja, se a renda for zero, ainda assim haverá consumo de R$ 300,00.
Portanto, o parâmetro “a” equivalente ao valor R$ 300,00, podendo ser identificado
economicamente como consumo autônomo.
Para entender o significado econômico do parâmetro “b”, vamos realizar algumas
estimativas do consumo partindo de supostas rendas:

x ŷ  em ŷ

3
Entende-se que as “causas aleatórias” são outras variáveis que poderiam explicar a variação nas
unidades vendidas (experiência, treinamento, etc), mas que o modelo em questão não contempla.

14
2000 1900 
3000 2700 800
4000 3500 800

Observe que a cada acréscimo de R$ 1000,00 na renda, o consumo aumenta R$


800,00. Portanto, o parâmetro “0,8” pode ser definido como consumo marginal, ou seja,
variação no consumo para cada unidade de variação na renda.
Para o modelo de “unidades vendidas” e “número de visitas” cuja equação ajustada é:
ŷ  60,1  2,67x , os parâmetros poderiam interpretados da seguinte forma:
O parâmetro “a” representado pelo valor “60,1”, indica que independente do número de
visitas, um vendedor qualquer comercializaria no mês aproximadamente 60 unidades.
Ou seja, os clientes solicitariam essa quantidade de produto sem a atuação do
vendedor.
O parâmetro “b” representado pelo valor “2,67”, indica a variação nas unidades
vendidas para cada unidade variação no número de visitas, ou seja, para cada visita
adicional seriam comercializadas a mais aproximadamente 2,67 unidades.

Elasticidade
É uma medida econômica muito importante, pois permite identificar a variação relativa
(percentual) na estimativa “ ŷ ” para cada 1% de variação na variável “x”.
A elasticidade é calculada a partir da seguinte fórmula:
x
E  b.
y

Elasticidade Definição Interpretação


1% de variação em “x” define uma
E =1 unitária
variação de 1% em “ ŷ ”.
1% de variação em “x” define uma
E>1 elástica
variação maior do que 1% em “ ŷ ”.
1% de variação em “x” define uma
E<1 inelástica
variação menor do que 1% em “ ŷ ”.
Quando o modelo apresenta relação inversa (parâmetro “b” negativo) o valor da
elasticidade será negativo. Neste caso, agrega-se à definição o termo “inversa”.

Para o exemplo em questão, a elasticidade é:


40,6
E  2,67.  0,64
168,5

15
O modelo em questão apresenta elasticidade inelástica, pois o valor 0,64 é menor do
que a unidade. Significa que variando o número de visitas em 1% 4, haverá uma
variação de 0,64% nas unidades vendidas.

Estimativa por intervalo


Se as estatísticas de avaliação conferem credibilidade ao modelo, então ele poderá ser
utilizado para fins de previsão. Por exemplo, se um vendedor qualquer realizar 40
visitas num determinado mês, qual seria a previsão de unidades vendidas?
ŷ  60,1  2,67.40  167 unidades

Segundo o modelo ajustado, esse vendedor deverá comercializar aproximadamente


167 unidades. No entanto, cabe uma questão: podemos afirmar com 100% de
segurança que serão comercializadas 167 unidades? Evidente que não, pois o modelo
em questão apresenta dispersão dos pontos no plano, ou seja, apresenta 15,8% de
variações não-explicadas pelo “número de visitas”.
Para resolver o problema, deve-se fazer a estimativa por intervalo, de tal forma que se
estabeleçam limites (inferior e superior) para a estimativa pontual, com um determinado
nível de risco, também chamado de nível de significância.
Portanto, o intervalo de confiança seria dado por:
ŷ - E ŷ  ŷ  ŷ  E ŷ

onde:
“ ŷ ”  estimativa pontual para um certo valor de “x”;
“ E ŷ ”  fator de erro permitido no intervalo (metade do intervalo);
O fato de erro ( E ŷ ) é dado por:
E ŷ  t . S ŷ

A variável “t” de Student indica o número de desvios padrões que deverão ser tomados
com determinado nível de significância. Esse valor será identificado a partir da tabela
“t” (página 212) considerando “n  2” graus de liberdade (gl), além do nível de risco que se
deseja no intervalo (10%, 5% ou 2%). Veja um extrato da tabela abaixo:
gl p = 10% p=5% P=2%
01 6.314 12.706 31.821
02 2.920 4.303 6.965
03 2.353 3.182 4.541
04 2.132 2.776 3.747

4
Poderia se trabalhar com múltiplos de “x”. Por exemplo, se variarmos o número de visitas em 10%, as
unidades vendidas irão variar 6,4%.

16
05 2.015 2.571 3.365
06 1.943 2.447 3.143
07 1.895 2.365 2.998
08 1.860 2.306 2.896
09 1.833 2.262 2.821
10 1.812 2.228 2.764

Para o vendedor que realiza 40 visitas, o número estimado (pontual) de unidades


vendidas seria 167. Vamos construir um intervalo de confiança para essa estimativa
com significância5 (risco) de 10%.
Neste caso, o valor de “t” da tabela com 102 = 8 graus de liberdade será 1,86.
O valor " S ŷ " é definido como erro padrão da estimativa. Seu
conceito é equivalente ao do desvio padrão, ou seja, mede a variabilidade dos valores
em torno da estimativa “ ŷ ”.
É dado pela seguinte fórmula:

 1 ( x  x )2 
S ŷ  S 2 1   
 n Sx 

onde:
S y  b.S xy (y)2 ( x . y)
S2  S y  y 2  S x y  xy 
n2 n n
b  parâmetro estimado;
n  número de pares de observações;
x  valor da variável “x” que deu origem à estimativa ŷ , para a qual se está
construindo o intervalo de confiança;
x  média aritmética dos valores da variável “x”;
S x  variância da variável “x”

Para o exemplo em questão, o erro padrão da estimativa será:


5102,5  2,67.1604
S2   102,48
8

 1 ( 40  40,6) 2 
S ŷ  102,48 1     10,62
 10 600,4 

Dessa forma, o fator de erro permitido no intervalo será:


E ŷ  1,86 . 10,62  19,75  20

5
Falar em risco de 10% significa dizer que o verdadeiro valor da estimativa cairá no intervalo com 90%
de segurança.

17
Podemos agora construir o intervalo de confiança para estimativa com 90% de
segurança:
167 - 20  ŷ  167  20

147 unidades  ŷ  187 unidades

Conclusão: um vendedor que realiza 40 visitas mensalmente deverá vender entre 147
e 187 unidades com 90% de segurança.

Aplicação na HP-12C
Algumas estatísticas que nos interessam na análise de regressão podem ser obtidas
diretamente na calculadora. Por exemplo:
 o parâmetro “a”: introduza os dados nos registradores (R1 a R6), depois digite “0”
no visor e pressione “g ŷ , r”. O que significa isto? Simplesmente, fizemos uma
estimativa de ŷ , quando o valor de “x” for zero. Portanto, o valor que aparecer no
visor corresponde ao intercepto “a”;
 o parâmetro “b”: com os dados nos registradores, providencie duas estimativas ŷ ;
a primeira com o valor de “x” igual a “0”; a segunda com valor de “x” igual a “1”. A
diferença entre a segunda e a primeira estimativa fornece o coeficiente de
declividade “b”;
 o coeficiente de determinação (R 2): para tanto, basta calcular o coeficiente de
correlação “R x y”, elevá-lo ao quadrado, e multiplicar por 100.

Tanto estas, como outras estatísticas de interesse, podem ser calculadas introduzindo-
se um programa na calculadora.
Apesar das dificuldades iniciais para se introduzir um programa que efetue análise de
regressão, deve-se considerar que os benefícios são enormes, pois uma vez
introduzido e testado não haverá necessidade de se recorrer às fórmulas toda vez que
se pretenda resolver um exercício. Além disso, aumenta-se a segurança em termos de
cálculos, pois as medidas estatísticas são geradas automaticamente.
Os passos do programa são os seguintes:
RCL RCL RCL
Sxy f P/R f PRGM RCL 4 x  CHS + STO 0
2 1 6

Sx RCL 2 2 yx RCL 1  CHS RCL 3 + STO 7

b  STO 8

a RCL 8 RCL 2 RCL 1  x CHS RCL RCL 1  + STO

18
4 9

Sy RCL 4 2 yx RCL 1  CHS RCL 5 + STO .0

R2 RCL 8 RCL 0 x RCL .0  100 x STO .1

RCL RCL STO


S2 x CHS RCL .0 + RCL 1 2   f P/R
8 0 n

Para carregar o programa, introduza na HP-12C todos os passos indicados,


começando por f P/R na primeira barra e terminado com f P/R, na última barra
(Cuidado! a primeira célula de cada barra não são passos do programa). Para rodar o
programa, após a introdução dos dados, pressione R/S .
Para introduzir os dados na HP-12C proceda da seguinte forma:
 limpar os registradores (R1 a R6) pressionando: f ;
 introduza o primeiro valor de “y” no visor;
 pressione: Enter;
 introduza o primeiro valor de “x” no visor;
 pressione:  +

Tal procedimento deve ser feito com os “n” pares de observações.


As medidas estatísticas calculadas pelo programa ficam alocadas nos seguintes registradores:
Registrador 0 7 8 9 .0 .1 n
Medida Sxy Sxx b A Syy R2 S2
Vejamos uma aplicação com o programa:
A tabela abaixo apresenta a renda domiciliar per capita (em R$) e o índice de
analfabetismo (em % da população) em 10 estados brasileiros.
Estado MA PI MG PE MS CE BA PA GO MT
Renda 80 85 180 120 182 100 128 150 160 170
Índice 23 25 8 20 11 22 14 13 14 12
Ainda que dúvidas possam ser suscitadas, vamos considerar que o índice de
analfabetismo (y) é função da renda (x), pois em Estados com renda per capita muito
baixa, os filhos abdicam da escola para trabalharem, visando a complementar a renda
familiar.
1. Avalie graficamente o tipo e o grau de relacionamento entre as variáveis: índice de
analfabetismo e renda per capita.

19
30
25

20

Índice
15

10
5
60 80 100 120 140 160 180 200
Renda

Verifica-se que a “nuvem” de pontos no plano sugere uma relação inversa entre as
variáveis, pois quanto maior a renda; menor será o índice de analfabetismo. Além
disso, o grau da relação deve ser forte, pois a dispersão dos pontos no plano é
pequena.

Para gerar as estatísticas de interesse devemos introduzir os dados nos registradores (R1 a R6):
Valor de “y” Pressione Valor de “x” Pressione
23 Enter 80 +
25 Enter 85 +
8 Enter 180 +
. .
. .
. .
12 Enter 170 +

Após a introdução do “enésimo” par de variáveis, pressione a tecla R/S para rodar o
programa. Durantes alguns segundos aparece a palavra “running” piscando no visor;
no final, todas as medidas estatísticas estarão alocadas no registradores especificados.
Para recuperar os valores pressione RCL e o número do registrador de interesse.
Para o exemplo em questão, as medidas são:

Registrador Medida Valor


0 Sxy 1922
7 Sx 13330,5
8 b 0,144
9 a 35,74
.0 Sy 303,6
.1 R2 91,3
n S2 3,31

20
2. Calcular e interpretar o coeficiente de correlação linear (R x y).
Para calcular o coeficiente de correlação faça antes uma estimativa de “ ŷ ” para
qualquer valor de “x”. Por exemplo, faça uma estimativa do índice de analfabetismo,
quando a renda for de R$ 140,00. Para tanto, digite o valor 140 no visor e pressione
>
“g ŷ r (tecla do número 2). Em seguida pressione a tecla “x < y” para acessar o valor
do coeficiente de correlação que se encontra na pilha “y”.
Neste caso, o coeficiente R x y é 0,96, indicando que existe correlação inversa com
grau entre as duas variáveis do modelo.

3. Calcular e interpretar o coeficiente de determinação R 2.


O programa instalado gera automaticamente esse coeficiente, basta recupera-lo no
registrador “.1”. O valor calculado indica que a variável renda explica o índice de
analfabetismo em 91,3%, sendo que os 8,7% restantes são causas aleatórias do
modelo linear adotado.

4. Especificar a função linear que expressa a relação verdadeira entre as variáveis.


Observe que os parâmetros “a” e “b” estão alocados nos registradores 8 e 9.
ŷ  35,74 - 0,144x

onde:
x  renda per capita
y  índice de analfabetismo

5. Qual o significado econômico do parâmetro “b” calculado?


Observe que o sinal de “b” é negativo. Neste caso, se a renda aumentar R$ 1,00,
então, o índice de analfabetismo diminuirá 0,144%.

6. Calcule e interprete elasticidade-renda do índice de analfabetismo.


135,5
E  -0,144.  1,2
16,2

O coeficiente calculado indicada que existe elasticidade elástica inversa no modelo;


significa que a cada 1% de variação na renda, o índice de analfabetismo varia 1,2%.

7. Pode-se aceitar um índice de analfabetismo de 18%, para um Estado qualquer cuja


renda seja de R$ 140,00, com 95% de segurança?

21
Para uma renda de R$ 140,00, o índice de analfabetismo estimado será de 15,55%. O
valor de “t” na tabela com 8 graus de liberdade e 5% de risco é 2,306.
Calcula-se agora o erro padrão da estimativa:

 1 ( x  x )2   1 (140  135,5)2 
S ŷ  S 2 1     3,311   
 n Sx   10 13330,5 

S ŷ  1,91

O fator de erro permitido no intervalo será:


E  2,306 . 1,91  4,4

Com 95% de segurança, o intervalo de confiança é:


15,55 - 4,4  ŷ  15,55  4,4

11,15%  ŷ  19,95%

Com 95% de segurança, quando a renda per capita for R$ 140,00, o índice de
analfabetismo ficará entre 11,15% e 19,95%. É possível aceitar um índice de
analfabetismo de 18% para um Estado qualquer, com 95% de segurança, quando a
renda for de R$ 140,00, pois o valor se encontra no intervalo de confiança.
Aplicação no Excel
O comando “Adicionar linha de tendência”
Este comando disponibilizado no Excel permite o ajustamento da função linear e de
outros tipos de curvas. É possível adicionar linhas de tendência ao diagrama de
dispersão, bem como, exibir a equação ajustada e o valor do R 2 no próprio gráfico.
O procedimento para construir a linha de tendência é o seguinte:
 clicar na área do gráfico.
 abrir na barra de menu: gráfico.
 escolher: adicionar linha de tendência
A caixa de diálogo do comando linha de tendência tem duas partes: Tipo e Opção. Em
Tipo de regressão, selecionamos o tipo de função que se pretende ajustar. Existem 6
tipos de curvas, sendo cinco de ajuste e uma curva de média móvel.
Em Opções, seleciona-se: Exibir equação no gráfico e Exibir valor de R-quadrado no
gráfico.
Pressionando o botão OK, o Excel constrói a curva ajustada selecionada e registra no
mesmo quadro sua equação e o coeficiente de determinação.

A função “projeção linear”

22
Utilizando a função proj.lin, o Excel fornecerá uma matriz com 10 resultados: os dois
parâmetros da função e mais oito estatísticas de interesse na regressão linear.
Procedimento:
 seleciona-se cinco linhas em duas colunas;
 digita-se a seguinte fórmula:
=proj.lin(matriz de “y”;matriz de “x”;1;1);
 pressione: Ctrl + Shift + Enter.

Parâmetro “b” Parâmetro “a”


Erro padrão do coeficiente “b” Erro padrão do coeficiente “a”
(Sb) (Sa)
Poder Explicativo (R2) Erro padrão da estimativa (Sy)
Estatística “F” Graus de liberdade (gl)
Sum of squares for regression
Sum of squares errors (SSE)
(SSR)

Definição das estatísticas:


1. Parâmetro “b”  coeficiente de declividade.
2. Parâmetro “a”  intercepto.
3. Erro padrão do coeficiente “b” indica o grau de variabilidade em torno do
parâmetro “b”. Dividindo-se o valor do parâmetro “b” pelo respectivo erro padrão,
obtém-se a variável “tc” de Student, utilizada no teste de hipóteses.
4. Erro padrão do coeficiente “a”  indica o grau de variabilidade em torno do
parâmetro “a”. Dividindo-se o valor do parâmetro “a” pelo respectivo erro padrão,
obtém-se a variável “tc” de Student, utilizada no teste de hipóteses.
5. Coeficiente de determinação (R2)  define a qualidade de ajustamento do modelo.
6. Erro padrão da estimativa  indica o grau de variabilidade dos valores estimados
em relação às estimativas. Utilizando este valor é possível construir intervalos de
confiança para a estimativa com determinado grau de segurança.
7. Estatística “F”  teste de hipóteses (não estamos utilizando em modelos de duas
variáveis).
8. Graus de Liberdade (gl)  n2, utilizado no teste “t”.
9. Sum of squares for regression (SSR)  definida como variação explicada, é igual à
soma dos quadrados dos desvios dos valores estimados pelo modelo de regressão “ ŷ

”, com relação à média das observações de “ y ”, ou seja, (ŷ - y) 2 .

23
10. Sum of squares for errors (SSR)  definida como variação não-explicada, é igual à
soma dos quadrados dos desvios das observações de “y”, com relação aos valores
estimados pelo modelo de regressão “ ŷ ”, ou seja, (y - ŷ) 2 .

24
Atividade
A tabela abaixo apresenta a quantidade demandada (em mil unidades) em função do
preço de mercado (em R$) de um determinado produto.

Preço 2,1 2,2 2,3 2,4 2,5 2,7 2,8 2,9 3 3,1 3,2 3,3
Quantidade 41 38 35 35,2 32 33 29 31 28 28,5 27,5 27

Pede-se:
1. Construir o diagrama de dispersão.
2. Calcular e interpretar o coeficiente de correlação linear simples.
3. Ajustar uma função linear simples aos dados.
4. Calcular e interpretar o coeficiente de determinação (R 2).
5. Calcular e interpretar elasticidade-preço da demanda.
6. É possível aceitar uma demanda de 28 mil unidades, quando o preço de mercado
for R$ 2,60, com 90% de segurança.

Exercícios
1. Uma pesquisa realizada com dez famílias apresentou os seguintes dados de
consumo e renda familiar (em R$ mil).
Família A B C D E F G H I J
Consumo 2,1 2,4 2,3 2,6 2,4 2,9 3,5 3,2 3,4 3,8
Renda 2,3 2,6 2,4 3,0 3,4 3,2 4,5 4,0 3,8 4,3

a) Calcule o coeficiente de correlação linear simples entre as variáveis consumo e


renda, e identifique o tipo e o grau de relação existente.
b) Ajuste uma função linear simples aos dados.
c) Objetivando avaliar a qualidade do ajuste entre consumo e renda, calcule e
interprete o poder explicativo (R2) da função consumo.
d) Qual o significado econômico dos parâmetros “a” e “b” estimados da função
consumo.
e) Como as variáveis em estudo possuem relação consistente de causa e efeito, faça
uma estimativa do consumo familiar para uma família que tem renda de R$ 3,6 mil.
f) Uma vez que, as coordenadas no plano apresentam dispersão, construa um intervalo
de confiança para o consumo estimado, com 90% de segurança, quando a renda
familiar for de R$ 3,6 mil.
g) Calcule e interprete a elasticidade-renda do consumo.

25
2. A quantidade demandada (em mil unidades) e o preço de mercado (em R$) de um
determinado produto, em onze capitais, foram os seguintes:
Capital A B C D E F G H I J K
Qtdade 10 10,5 11 12 13 14 15 16 17,5 19 20
Preço 68 64 65 64 58 62 61 56 57 54 55

a) Identificar através do coeficiente de correlação linear simples, o tipo e o grau de


relacionamento entre as variáveis: quantidade demandada e preço de mercado.
b) Caso haja regressão entre as variáveis do modelo, ajuste uma função linear simples
aos dados.
c) A tendência da função de demanda é condizente com o sinal do coeficiente de
correlação linear? E com o sinal do parâmetro “b” calculado?
d) Calcule e interprete o poder explicativo (R 2) da função demanda, e avalie se o
resultado numérico da qualidade do ajuste é condizente com a análise visual feita no
item anterior.
e) Qual o significado econômico do parâmetro “b” calculado?
f) É possível aceitar uma demanda de 18 mil unidades do produto, com 95% de
segurança, quando o preço de mercado numa determinada capital for de R$ 60,00?
g) Calcule e interprete elasticidade-preço da quantidade demandada.

3. A adoção de um modelo econométrico tem por objetivo a mensuração de variáveis


que possuem relação de causa e efeito consistente. O ajustamento de uma função
matemática que expressa a relação propicia a obtenção de estimativas que auxiliam o
processo de tomada de decisões. Além disso, é possível obter uma série de
estatísticas de avaliação, que irão explicitar, ainda mais, o modelo em estudo.
Vejamos um exemplo:
Uma pesquisa realizada por um escritório imobiliário, levantou dados referentes ao
preço (em R$ mil), área construída (em m 2) e idade (em anos) de dez imóveis
residenciais, localizados num bairro de classe média de uma determinada cidade.
Imóvel A B C D E F G H I J
Preço 80 81 84 84 88 86 92 101 98 106
Área 70 73 76 79 82 83 85 88 90 92
Idade 12 5 10 13 4 9 2 5 6 3

26
A partir desse conjunto de dados, referentes às três variáveis, pode-se levantar uma
série de questionamentos que só poderão ser respondidos fazendo-se uma análise
econométrica completa:
a) As duas variáveis independentes são igualmente importantes na explicação da
variável dependente? Justifique essa questão calculando o poder explicativo R 2.
b) Definida as duas variáveis para as quais existe regressividade, ajuste uma função
linear simples aos dados.
c) Calcule e interprete a elasticidade do modelo.
d) Um corretor afirma que um imóvel de 80 m 2, neste bairro, custa R$ 95,5 mil.
Considerando a função ajustada, esse preço pode ser aceito com 90% de segurança?
Justifique essa questão construindo o intervalo de confiança.

27
TABELA I

DISTRIBUIÇÃO “t” DE STUDENT

gl p = 10 % P=5% p=2%
01 6.314 12.706 31.821
02 2.920 4.303 6.965
03 2.353 3.182 4.541
04 2.132 2.776 3.747
05 2.015 2.571 3.365
06 1.943 2.447 3.143
07 1.895 2.365 2.998
08 1.860 2.306 2.896
09 1.833 2.262 2.821
10 1.812 2.228 2.764
11 1.796 2.201 2.718
12 1.782 2.179 2.681
13 1.771 2.160 2.650
14 1.761 2.145 2.624
15 1.753 2.131 2.602
16 1.746 2.120 2.583
17 1.740 2.110 2.567
18 1.734 2.101 2.552
19 1.729 2.093 2.539
20 1.725 2.086 2.528
21 1.721 2.080 2.518
22 1.717 2.074 2.508
23 1.714 2.069 2.500
24 1.711 2.064 2.492
25 1.708 2.060 2.485
26 1.706 2.056 2.479
27 1.703 2.052 2.473
28 1.701 2.048 2.467
29 1.699 2.045 2.462
30 1.697 2.042 2.457

OBS: para os modelos que apresentam apenas uma variável independente, devemos
procurar o valor de “t” na tabela, com (n2) graus de liberdade.

28
BIBLIOGRAFIA

Anderson, David R. e outros. Estatística Aplicada à Administração e Economia. São


Paulo: Pioneira Thomson Learning, 2002.

Kirsten, José Tiacci. Custo de Vida - Metodologia de Cálculos, Problemas e


Aplicações. São Paulo: FIPE/Pioneira, 1985.

Lapponi, Juan Carlos. Estatística usando Excel. São Paulo: Lapponi Treinamento e
Editora, 2000.

Levine, David M. e outros. Estatística: Teoria e Aplicações. Rio de Janeiro: LTC


Editora, 2000.

Malhotra, Naresh K. Pesquisa de Marketing – Uma Orientação Aplicada. Porto Alegre:


Bookman, 2001.

Matos, Orlando Carneiro. Econometria Básica – Teoria e Aplicações. São Paulo:


Editora Atlas, 1995.

Pereira, Wilson e Tanaka, Oswaldo K. Estatística: Conceitos Básicos. São Paulo:


Editora McGraw-Hill, 2º edição, 1990.

Stevenson, William J. Estatística Aplicada à Administração. São Paulo: Editora


Harbra, 1981.

Toledo, Geraldo Luciano e Ovalle, Ivo Izidoro. Estatística Básica. São Paulo: Editora
Atlas, 1983.

29
i
ANÁLISE DE REGRESSÃO PROF. JOSÉ MILTON SANCHES CAMPINAS - 2015

Você também pode gostar