Escolar Documentos
Profissional Documentos
Cultura Documentos
(x . y)
S x y xy
n
b) Variância de “x”
Mede a variabilidade em torno da variável “x”, sendo definida como a raiz quadrada do
desvio padrão da distribuição.
A fórmula desenvolvida da variância de “x” é:
( x)2
S x x 2
n
c) Variância de “y”
1
Mede a variabilidade em torno da variável “y”, sendo definida como a raiz quadrada do
desvio padrão da distribuição.
A fórmula desenvolvida da variância de “y” é:
( y)2
S y y 2
n
2
Correlação perfeita (positiva Correlação nula
ou negativa)
1 0,7 0,5 0 0,5 0,7 1
3
grau forte grau regular grau fraco
1
Observe que a variável distância percorrida não é a única que explica o preço, poderia se pensar
também na tonelagem transportada. Na realidade, existem “n” variáveis independentes que poderiam
explicar a variação em “y”.
4
(4060) 2
S y 1767000 118640
10
Agora podemos calcular o coeficiente R xy :
164028
Rx y 0,92
267841,6 .118640
O coeficiente 0,92 indica que existe relação direta com grau forte entre as variáveis
preço e distância. Além disso, pode-se argumentar que a dispersão dos pontos no
plano é relativamente pequena, pois o valor do coeficiente está próximo da unidade. Na
prática, isso significa que podemos utilizar o conjunto de dados para ajustar um modelo
de previsão do preço do frete a partir dos dados de distância percorrida.
2. A tabela abaixo apresenta o custo unitário (em R$) e a quantidade produzida (em mil
unidades) de um determinado produto.
Custo unitário 4,5 3,9 3,72 3,4 3 2,75 2,25 2
Quantidade 3 3,8 4,9 5,7 6,5 7,2 7,4 8
O coeficiente 0,98 indica que existe relação inversa com grau forte entre as variáveis
custo unitário e quantidade produzida. Além disso, pode-se argumentar que a
dispersão dos pontos no plano é relativamente pequena.
5
Aplicação na HP-12C
O coeficiente de correlação linear simples pode ser calculado diretamente na
calculadora. Para tanto, procede-se da seguinte forma:
1º passo: limpar os registradores “R1 a R6” pressionando “ f ”, para que se possa
introduzir alternadamente os valores das variáveis “x” e “y”, com o objetivo de obter o
sumário estatístico.
2º passo: introduzir os dados nos registradores.
Digite o primeiro valor de “y”;
Pressione “ENTER”;
Digite o primeiro valor de “x”;
Pressione “+”;
Tal procedimento deverá ser feito com os “n” pares de observações. No final, os
somatórios estarão alocados nos registradores R1 a R6 da seguinte forma:
Aplicação no Excel
O cálculo do coeficiente de correlação no Excel é bastante simplificado. Para tanto,
proceda da seguinte forma:
digite o conjunto de dados em uma matriz de duas linhas ou duas colunas (por
exemplo, 10 pares de observações de “x” e de “y” intervalo A1:J2);
6
digite numa célula qualquer (por exemplo: A3) a seguinte fórmula: =correl(matriz de
“y”; matriz de “x”)
=correl(A1:J1;A2:J2)
pressione enter aparecerá o valor do coeficiente R x y
Atividade
As séries de números - índices (1990 = 100) abaixo se referem a algumas variáveis da
indústria automobilística brasileira no período 1990/2002.
Vendas
Ano Produção Emprego Investimento
internas
1990 100 100 100 100
1991 110,9 105 90,2 94,3
1992 107,2 117,4 86,2 95
1993 158,7 152,2 87,2 97,2
1994 195,8 172,9 88,3 131,8
1995 242,5 178,1 83,3 180,9
1996 242,8 147,3 80,5 245
1997 272,7 226,3 83,4 216,9
1998 215,4 173,5 67,3 246,6
1999 176,4 148,4 68,3 189,2
2001 209 184,9 71,3 175,4
2002 224,7 198,7 68 183,4
7
4
0
0 2 4 6 8 10 12 14
3. A tabela abaixo apresenta a idade média das máquinas (em meses), tempo médio diário de
utilização (em horas) e custo de manutenção mensal (em R$ mil), para uma empresa de médio
porte durante dez meses.
Idade 40 45 44 43 42 44 48 45 44 43
Tempo 11 13 12 14 14 17 16 18 17 19
Custo 25 29 27 32 31 33 32 35 34 36
6. A tabela abaixo apresenta a renda domiciliar per capita (em R$) e o índice de
analfabetismo (em % da população) em 10 estados brasileiros.
8
Estado MA PI MG PE MS CE BA PA GO MT
Renda 80 85 180 120 182 118 128 150 160 170
Índice 23 25 11 23 10 22 14 13 14 12
9
CAPÍTULO 2
ANÁLISE DE REGRESSÃO
ŷ a bx
2
Um modelo consistente pressupõe que o grau de associação seja forte, e que a declividade (sinal do
parâmetro “b”) esteja de acordo com a expectativa teórica.
10
Variável "y"
Variável "x"
y x
a -b ou a y - bx
n n
A fim de desenvolver os conceitos que envolvem a análise de regressão, vamos
considerar o seguinte exemplo:
O gerente de vendas de uma empresa vive insistindo com os seus vendedores que “o volume de
vendas dos produtos têm relação consistente com o número de visitas realizadas aos clientes”.
Para tentar provar que a afirmação é verdadeira foi feito um levantamento do número de visitas
realizadas e das unidades comercializadas de 10 vendedores durante um mês. Os dados são os
seguintes:
Vendedor A B C D E F G H I J
Nº de visitas 39 45 52 34 30 43 35 30 48 50
Unidades
vendidas 175 175 190 155 130 170 145 150 185 210
11
220
Unidades vendidas
200
180
160
140
120
25 30 35 40 45 50 55
Núm ero de visitas
(406 . 1685)
S x y 70015 1604
10
(406) 2
S x 17084 600,4
10
1604
b 2,67
600,4
1685 406
a - 2,67 a 168,5 - (2,67.40,6 ) 60,1
10 10
A forma especificativa da função linear que expressa a relação verdadeira entre as
variáveis é:
ŷ 60,1 2,67x
onde:
“x” variável independente “número de visitas”; e
“ ŷ ” estimativa da variável dependente “unidades vendidas”.
Uma vez ajustada, a função linear pode ser utilizada para se fazer previsões de “y” a
partir de um valor qualquer de “x”. No entanto, é necessário verificar antes se a
equação obtida apresenta precisão.
Poderia-se inicialmente traçar a função ajustada no diagrama de dispersão, de tal
forma que se possa verificar a qualidade do ajuste em termos visuais. Um ajuste de
12
boa qualidade pressupõe que a reta “minimize” a diferença entre os pontos no plano,
ou seja, ela deve passar exatamente entre as coordenadas.
Para traçar a reta no plano basta obter duas coordenadas que serão estimadas a partir
da função ajustada:
x ŷ
30 140,2
52 198,9
220
Unidades vendidas
200
180
160
140
120
25 35 45 55
Número de visitas
A questão do nível de dispersão também pode ser avaliada –conforme visto no capítulo
8 – através do coeficiente de correlação. Para este exemplo, o valor calculado de 0,92
indica relação direta com grau forte entre “unidades vendidas” e “número de visitas”.
Coeficiente de determinação R2
Uma medida alternativa pode ser utilizada para avaliar a consistência do modelo
ajustado, trata-se do coeficiente de determinação, que também é chamado de poder
explicativo da função ajustada.
Na prática, este coeficiente define em “quantos por cento” a variável independente “x”
explica a variável dependente “y”. Quanto mais próximo de 100%, melhor a qualidade
do ajuste, indicando que as previsões serão mais confiáveis. Adota-se, no entanto,
como regra que coeficientes superiores a 70% já viabilizam a utilização do modelo para
fins de previsão.
O coeficiente de determinação R2 é obtido a partir da seguinte fórmula:
13
b . Sx y
onde : S y y 2 ( y)
2
R 2 . 100
Sy n
2,67 . 1604
R2 . 100 83,93%
5102,5
x ŷ em ŷ
3
Entende-se que as “causas aleatórias” são outras variáveis que poderiam explicar a variação nas
unidades vendidas (experiência, treinamento, etc), mas que o modelo em questão não contempla.
14
2000 1900
3000 2700 800
4000 3500 800
Elasticidade
É uma medida econômica muito importante, pois permite identificar a variação relativa
(percentual) na estimativa “ ŷ ” para cada 1% de variação na variável “x”.
A elasticidade é calculada a partir da seguinte fórmula:
x
E b.
y
15
O modelo em questão apresenta elasticidade inelástica, pois o valor 0,64 é menor do
que a unidade. Significa que variando o número de visitas em 1% 4, haverá uma
variação de 0,64% nas unidades vendidas.
onde:
“ ŷ ” estimativa pontual para um certo valor de “x”;
“ E ŷ ” fator de erro permitido no intervalo (metade do intervalo);
O fato de erro ( E ŷ ) é dado por:
E ŷ t . S ŷ
A variável “t” de Student indica o número de desvios padrões que deverão ser tomados
com determinado nível de significância. Esse valor será identificado a partir da tabela
“t” (página 212) considerando “n 2” graus de liberdade (gl), além do nível de risco que se
deseja no intervalo (10%, 5% ou 2%). Veja um extrato da tabela abaixo:
gl p = 10% p=5% P=2%
01 6.314 12.706 31.821
02 2.920 4.303 6.965
03 2.353 3.182 4.541
04 2.132 2.776 3.747
4
Poderia se trabalhar com múltiplos de “x”. Por exemplo, se variarmos o número de visitas em 10%, as
unidades vendidas irão variar 6,4%.
16
05 2.015 2.571 3.365
06 1.943 2.447 3.143
07 1.895 2.365 2.998
08 1.860 2.306 2.896
09 1.833 2.262 2.821
10 1.812 2.228 2.764
1 ( x x )2
S ŷ S 2 1
n Sx
onde:
S y b.S xy (y)2 ( x . y)
S2 S y y 2 S x y xy
n2 n n
b parâmetro estimado;
n número de pares de observações;
x valor da variável “x” que deu origem à estimativa ŷ , para a qual se está
construindo o intervalo de confiança;
x média aritmética dos valores da variável “x”;
S x variância da variável “x”
1 ( 40 40,6) 2
S ŷ 102,48 1 10,62
10 600,4
5
Falar em risco de 10% significa dizer que o verdadeiro valor da estimativa cairá no intervalo com 90%
de segurança.
17
Podemos agora construir o intervalo de confiança para estimativa com 90% de
segurança:
167 - 20 ŷ 167 20
Conclusão: um vendedor que realiza 40 visitas mensalmente deverá vender entre 147
e 187 unidades com 90% de segurança.
Aplicação na HP-12C
Algumas estatísticas que nos interessam na análise de regressão podem ser obtidas
diretamente na calculadora. Por exemplo:
o parâmetro “a”: introduza os dados nos registradores (R1 a R6), depois digite “0”
no visor e pressione “g ŷ , r”. O que significa isto? Simplesmente, fizemos uma
estimativa de ŷ , quando o valor de “x” for zero. Portanto, o valor que aparecer no
visor corresponde ao intercepto “a”;
o parâmetro “b”: com os dados nos registradores, providencie duas estimativas ŷ ;
a primeira com o valor de “x” igual a “0”; a segunda com valor de “x” igual a “1”. A
diferença entre a segunda e a primeira estimativa fornece o coeficiente de
declividade “b”;
o coeficiente de determinação (R 2): para tanto, basta calcular o coeficiente de
correlação “R x y”, elevá-lo ao quadrado, e multiplicar por 100.
Tanto estas, como outras estatísticas de interesse, podem ser calculadas introduzindo-
se um programa na calculadora.
Apesar das dificuldades iniciais para se introduzir um programa que efetue análise de
regressão, deve-se considerar que os benefícios são enormes, pois uma vez
introduzido e testado não haverá necessidade de se recorrer às fórmulas toda vez que
se pretenda resolver um exercício. Além disso, aumenta-se a segurança em termos de
cálculos, pois as medidas estatísticas são geradas automaticamente.
Os passos do programa são os seguintes:
RCL RCL RCL
Sxy f P/R f PRGM RCL 4 x CHS + STO 0
2 1 6
b STO 8
18
4 9
19
30
25
20
Índice
15
10
5
60 80 100 120 140 160 180 200
Renda
Verifica-se que a “nuvem” de pontos no plano sugere uma relação inversa entre as
variáveis, pois quanto maior a renda; menor será o índice de analfabetismo. Além
disso, o grau da relação deve ser forte, pois a dispersão dos pontos no plano é
pequena.
Para gerar as estatísticas de interesse devemos introduzir os dados nos registradores (R1 a R6):
Valor de “y” Pressione Valor de “x” Pressione
23 Enter 80 +
25 Enter 85 +
8 Enter 180 +
. .
. .
. .
12 Enter 170 +
Após a introdução do “enésimo” par de variáveis, pressione a tecla R/S para rodar o
programa. Durantes alguns segundos aparece a palavra “running” piscando no visor;
no final, todas as medidas estatísticas estarão alocadas no registradores especificados.
Para recuperar os valores pressione RCL e o número do registrador de interesse.
Para o exemplo em questão, as medidas são:
20
2. Calcular e interpretar o coeficiente de correlação linear (R x y).
Para calcular o coeficiente de correlação faça antes uma estimativa de “ ŷ ” para
qualquer valor de “x”. Por exemplo, faça uma estimativa do índice de analfabetismo,
quando a renda for de R$ 140,00. Para tanto, digite o valor 140 no visor e pressione
>
“g ŷ r (tecla do número 2). Em seguida pressione a tecla “x < y” para acessar o valor
do coeficiente de correlação que se encontra na pilha “y”.
Neste caso, o coeficiente R x y é 0,96, indicando que existe correlação inversa com
grau entre as duas variáveis do modelo.
onde:
x renda per capita
y índice de analfabetismo
21
Para uma renda de R$ 140,00, o índice de analfabetismo estimado será de 15,55%. O
valor de “t” na tabela com 8 graus de liberdade e 5% de risco é 2,306.
Calcula-se agora o erro padrão da estimativa:
1 ( x x )2 1 (140 135,5)2
S ŷ S 2 1 3,311
n Sx 10 13330,5
S ŷ 1,91
11,15% ŷ 19,95%
Com 95% de segurança, quando a renda per capita for R$ 140,00, o índice de
analfabetismo ficará entre 11,15% e 19,95%. É possível aceitar um índice de
analfabetismo de 18% para um Estado qualquer, com 95% de segurança, quando a
renda for de R$ 140,00, pois o valor se encontra no intervalo de confiança.
Aplicação no Excel
O comando “Adicionar linha de tendência”
Este comando disponibilizado no Excel permite o ajustamento da função linear e de
outros tipos de curvas. É possível adicionar linhas de tendência ao diagrama de
dispersão, bem como, exibir a equação ajustada e o valor do R 2 no próprio gráfico.
O procedimento para construir a linha de tendência é o seguinte:
clicar na área do gráfico.
abrir na barra de menu: gráfico.
escolher: adicionar linha de tendência
A caixa de diálogo do comando linha de tendência tem duas partes: Tipo e Opção. Em
Tipo de regressão, selecionamos o tipo de função que se pretende ajustar. Existem 6
tipos de curvas, sendo cinco de ajuste e uma curva de média móvel.
Em Opções, seleciona-se: Exibir equação no gráfico e Exibir valor de R-quadrado no
gráfico.
Pressionando o botão OK, o Excel constrói a curva ajustada selecionada e registra no
mesmo quadro sua equação e o coeficiente de determinação.
22
Utilizando a função proj.lin, o Excel fornecerá uma matriz com 10 resultados: os dois
parâmetros da função e mais oito estatísticas de interesse na regressão linear.
Procedimento:
seleciona-se cinco linhas em duas colunas;
digita-se a seguinte fórmula:
=proj.lin(matriz de “y”;matriz de “x”;1;1);
pressione: Ctrl + Shift + Enter.
23
10. Sum of squares for errors (SSR) definida como variação não-explicada, é igual à
soma dos quadrados dos desvios das observações de “y”, com relação aos valores
estimados pelo modelo de regressão “ ŷ ”, ou seja, (y - ŷ) 2 .
24
Atividade
A tabela abaixo apresenta a quantidade demandada (em mil unidades) em função do
preço de mercado (em R$) de um determinado produto.
Preço 2,1 2,2 2,3 2,4 2,5 2,7 2,8 2,9 3 3,1 3,2 3,3
Quantidade 41 38 35 35,2 32 33 29 31 28 28,5 27,5 27
Pede-se:
1. Construir o diagrama de dispersão.
2. Calcular e interpretar o coeficiente de correlação linear simples.
3. Ajustar uma função linear simples aos dados.
4. Calcular e interpretar o coeficiente de determinação (R 2).
5. Calcular e interpretar elasticidade-preço da demanda.
6. É possível aceitar uma demanda de 28 mil unidades, quando o preço de mercado
for R$ 2,60, com 90% de segurança.
Exercícios
1. Uma pesquisa realizada com dez famílias apresentou os seguintes dados de
consumo e renda familiar (em R$ mil).
Família A B C D E F G H I J
Consumo 2,1 2,4 2,3 2,6 2,4 2,9 3,5 3,2 3,4 3,8
Renda 2,3 2,6 2,4 3,0 3,4 3,2 4,5 4,0 3,8 4,3
25
2. A quantidade demandada (em mil unidades) e o preço de mercado (em R$) de um
determinado produto, em onze capitais, foram os seguintes:
Capital A B C D E F G H I J K
Qtdade 10 10,5 11 12 13 14 15 16 17,5 19 20
Preço 68 64 65 64 58 62 61 56 57 54 55
26
A partir desse conjunto de dados, referentes às três variáveis, pode-se levantar uma
série de questionamentos que só poderão ser respondidos fazendo-se uma análise
econométrica completa:
a) As duas variáveis independentes são igualmente importantes na explicação da
variável dependente? Justifique essa questão calculando o poder explicativo R 2.
b) Definida as duas variáveis para as quais existe regressividade, ajuste uma função
linear simples aos dados.
c) Calcule e interprete a elasticidade do modelo.
d) Um corretor afirma que um imóvel de 80 m 2, neste bairro, custa R$ 95,5 mil.
Considerando a função ajustada, esse preço pode ser aceito com 90% de segurança?
Justifique essa questão construindo o intervalo de confiança.
27
TABELA I
gl p = 10 % P=5% p=2%
01 6.314 12.706 31.821
02 2.920 4.303 6.965
03 2.353 3.182 4.541
04 2.132 2.776 3.747
05 2.015 2.571 3.365
06 1.943 2.447 3.143
07 1.895 2.365 2.998
08 1.860 2.306 2.896
09 1.833 2.262 2.821
10 1.812 2.228 2.764
11 1.796 2.201 2.718
12 1.782 2.179 2.681
13 1.771 2.160 2.650
14 1.761 2.145 2.624
15 1.753 2.131 2.602
16 1.746 2.120 2.583
17 1.740 2.110 2.567
18 1.734 2.101 2.552
19 1.729 2.093 2.539
20 1.725 2.086 2.528
21 1.721 2.080 2.518
22 1.717 2.074 2.508
23 1.714 2.069 2.500
24 1.711 2.064 2.492
25 1.708 2.060 2.485
26 1.706 2.056 2.479
27 1.703 2.052 2.473
28 1.701 2.048 2.467
29 1.699 2.045 2.462
30 1.697 2.042 2.457
OBS: para os modelos que apresentam apenas uma variável independente, devemos
procurar o valor de “t” na tabela, com (n2) graus de liberdade.
28
BIBLIOGRAFIA
Lapponi, Juan Carlos. Estatística usando Excel. São Paulo: Lapponi Treinamento e
Editora, 2000.
Toledo, Geraldo Luciano e Ovalle, Ivo Izidoro. Estatística Básica. São Paulo: Editora
Atlas, 1983.
29
i
ANÁLISE DE REGRESSÃO PROF. JOSÉ MILTON SANCHES CAMPINAS - 2015