Você está na página 1de 76

REGRESSÃO LINEAR

 O coeficiente de correlação não mede a relação causa-efeito entre


duas variáveis, apesar de que essa relação possa estar presente.
 Por exemplo, uma correlação fortemente positiva entre as
variáveis X e Y não significa afirmar que variações da
variável X provocam variações na variável Y, ou vice-versa.
 O coeficiente de correlação sozinho não identifica a relação causa-
efeito entre as duas variáveis; entretanto, numa regressão linear a
relação causa-efeito deve ser definida no início da análise.
 Iniciaremos com a apresentação da relação linear simples entre
duas amostras ou variáveis aleatórias, e termina com a
apresentação da relação de dependência linear múltipla entre três
ou mais amostras ou variáveis aleatórias.
 Na regressão linear simples será deduzida e analisada a reta que
melhor explica essa relação, tendo previamente definido a variável
independente e a variável dependente.
 A regressão linear múltipla será apresentada através
de um exemplo resolvido com a ferramenta de análise
Regressão.
 Todos os dias, a mídia se encarrega de informar resultados de
análises e pesquisas do tipo:
 O valor da empresa depende do lucro futuro, a taxa
de juro depende da inflação.
 O salário depende da escolaridade do trabalhador etc.
 O objetivo da análise de regressão é encontrar uma função linear
que permita:
 Descrever e compreender a relação entre uma variável
dependente e uma ou mais variáveis independentes.
 Projetar ou estimar uma variável em função de uma ou mais
variáveis independentes; por exemplo, as vendas para
diferentes valores de investimento em propaganda, a
demanda em função do preço unitário e do investimento em
propaganda etc.
Exemplo
 O objetivo do diretor de vendas de uma rede de varejo é
analisar a relação entre o investimento realizado em
propaganda e as vendas das lojas da rede, para realizar
projeções de vendas de futuros investimentos em
propaganda.
 A tabela seguinte registra uma amostra representativa
extraída dos registros históricos das lojas de tamanho
equivalente, com os valores de Propaganda e Vendas em
milhões.
 Analisar a possibilidade de definir um modelo que represente
a relação entre as duas variáveis ou amostras.
Solução
 Para analisar a relação entre as duas variáveis foi construído o
gráfico de dispersão das vendas anuais em função do
investimento anual em propaganda. Nesse gráfico pode-se ver
que, nos últimos dez anos, o aumento de investimento em
propaganda gerou aumento das vendas, e vice-versa.

600
500
400
Vendas

300
200
100
0
0 10 20 30 40 50
Propaganda
 O gráfico de dispersão mostra que as vendas e o investimento
em propaganda estão correlacionados de forma positiva, com um
coeficiente de correlação próximo de +1.
 Uma reta como a linha tracejada no gráfico de dispersão acima
poderá ser utilizada para realizar projeções das vendas futuras
em função do investimento em propaganda.
 A linha tracejada foi ajustada tentando equilibrar os pontos
acima da reta com os pontos abaixo dela.
 Essa reta é uma das muitas possíveis retas que poderiam ser
ajustadas.
Modelo do Ajuste de uma Reta
 O ajuste de uma reta é um modelo linear que relaciona a
variável dependente y e a variável independente x por meio
da equação de uma reta do tipo:
y  a  bx
 É importante observar que, da mesma forma como a média
resume uma variável aleatória, a reta de regressão resume a
relação linear entre duas variáveis aleatórias e,
conseqüentemente, da forma como a média varia entre
amostras do mesmo tamanho extraídas da mesma
população, as retas também variarão entre amostras da
mesma população.
 O objetivo deste Exemplo é ajustar uma reta a partir dos
valores das amostras retiradas da população, considerando que
o investimento em propaganda é a variável independente x, e
as vendas anuais, a variável dependente y.
 Uma primeira forma de fazer isso é ajustar manualmente essa
reta tentando equilibrar os pontos acima e abaixo dessa reta,
como foi feito no gráfico deste Exemplo.
 Como esse procedimento permite o ajuste de diversas retas, é
necessário estabelecer um objetivo de eficiência de ajuste
possível de medir, como é mostrado a seguir.
 Uma primeira forma é ajustar uma reta horizontal de valor igual
à média dos valores da variável dependente y, que é uma reta
de regressão com b=0.
 Esse critério não necessita de regressão, entretanto, será
uma referência útil para medir o grau de explicação da reta
de regressão.
 Outra forma é ajustar uma reta que divida os pontos
observados de forma que a soma dos desvios seja nula.
 Entretanto, como há muitas retas que cumprem com essa
condição, esse critério não poderá ser utilizado.
 Outra forma é ajustar uma reta de forma que minimize a soma
dos quadrados dos desvios, lembrando a definição de
variância.
 Verifique que se aumentar ou diminuir o valor do intercepto ao
redor de 380, mantendo a declividade igual a zero, a soma dos
quadrados dos desvios sempre aumentará. Por quê?
 Porque o valor de intercepto é a própria média da amostra y, e
esse valor é sempre um mínimo.
 O modelo do slide anterior foi preparado para este Exemplo
com o objetivo de mostrar o que ocorre com a tentativa de
ajuste manual com pouca precisão da reta de regressão.
 Clicando nos dois controles giratórios pode-se tentar outros
valores de intercepto combinado com valores diferentes de
declividade.
 Por exemplo, fixando um valor menor de declividade, será
possível ajustar o valor de intercepto que minimiza o
resultado da célula H16, ou conseguir a soma mínima dos
quadrados dos desvios dos dez valores da amostra y com
relação à reta de regressão.
 Dentre todos esses possíveis valores mínimos deve haver um
que seja o menor de todos. O slide seguinte mostra o mínimo
encontrado manualmente, intercepto 110, declividade 10 e erro
34.050.
 O procedimento manual para encontrar a soma mínima dos
quadrados dos desvios dos dez valores da amostra y com
relação à reta de regressão é bastante trabalhoso e com
resultado aproximado.
 É claro que melhorando a escala dos controles giratórios será
possível ajustar essa aproximação. Entretanto, sempre haverá
um erro, pois nem todos os pares de valores das duas
amostras estarão contidos na reta ajustada, eles estarão
distribuídos ao redor dessa reta.
 Somente se os pares de valores formassem uma reta o erro
seria zero. Entretanto, o procedimento manual de ajuste da
regressão tem o crédito de visualizar o caminho para
estabelecer o critério de ajuste da reta de regressão.
 O objetivo é encontrar os coeficientes a e b da reta de
regressão que minimizam a soma dos quadrados dos desvios
dos valores da amostra y com relação aos correspondentes
valores da reta de regressão.
 Com a equação obtida com o comando linha de tendência será
possível representar o comportamento das vendas em função
do investimento em propaganda com um modelo linear e
realizar projeções.
 Mas qual o critério utilizado pelo comando linha de tendência
para obter os coeficientes dessa reta de regressão?
 A resposta a essa questão o leitor deve ter deduzido, os
coeficientes a e b da reta de regressão minimizam a soma dos
quadrados dos desvios dos valores da amostra y com relação
aos correspondentes valores da reta de regressão.
 Outra questão, quão bem a reta representa o fenômeno
amostrado se alguns dos pontos do gráfico de dispersão não
estão contidos na reta de regressão?
Coeficientes de Regressão
Coeficientes de Regressão
 Se os n pares de valores das duas amostras formassem uma
reta, então a equação da reta ajustada representaria esses n
pares de valores.
 Entretanto, nem todos os n pares de valores estarão contidos
na reta, eles estarão distribuídos ao redor da reta ajustada.
 A minimização da soma dos quadrados dos desvios é apenas
uma propriedade desejada de ajuste da reta e, portanto, não
garante que se tenha a melhor reta ajustada.
 O método de ajuste pelo método dos quadrados mínimos é
preferível, pois:
 Obtém as melhores estimativas, pois elas serão não-
viesadas.
 Onera os desvios maiores, fato desejável que evita grandes
desvios.
 Permite realizar testes de significância na equação de
regressão.
 A reta de regressão passa pelo ponto formado pelos valores
das médias das duas amostras.
Exemplo
 Com os dados das amostras na próxima planilha obter a reta de
regressão linear.
Coeficiente b
 Substituindo os resultados parciais obtidos na planilha do slide
anterior:
10  112 . 455  270  3 . 800
b 2
 9, 7381
10  8 . 302  270
Coeficiente a
 Substituindo os resultados parciais obtidos na planilha do slide
anterior :
3 . 800  9, 7381  270
a  117 ,07
10

 Portanto, a equação da reta de regressão procurada é:

yˆ  117 ,07  9, 74 x
Projeção
 Uma das aplicações da regressão linear é projetar valores da
variável dependente para valores definidos da variável
independente.
 Para projetar valores de ŷ deve-se tomar o cuidado de escolher
valores de x dentro do intervalo de valores da amostra
independente x.
 De outra maneira, as interpolações dentro do intervalo de x
são permitidas, entretanto, não devem ser realizadas
projeções extrapolando o intervalo da amostra x.
As Medidas Estatísticas
 Embora as expressões dos coeficientes de regressão a e b não
mostrem que estão sendo utilizadas medidas estatísticas das
séries de valores de onde foram obtidos, esses conceitos estão
presentes nessas expressões.
 Se nas expressões de a e b forem realizadas transformações
algébricas adequadas, obteremos outra forma de calcular a e
b, como mostram as expressões seguintes deduzidas no final
do Apêndice 2.

a  y  b x

  xy
b  2
 x
 Considerando que:
 xy  r xy  x  y
 O coeficiente b poderá ser calculado com a expressão:
r xy  x  y
b
 2x
 Prescindindo dos índices do coeficiente de correlação, as
expressões dos coeficientes de regressão com coeficiente de
correlação r serão:

a  y  b x

 y
b  r 
 x
Como regra geral, recomenda-se lembrar que:
 O coeficiente b é o resultado de dividir a covariância das
variáveis pela variância da variável independente.
 De outra maneira, o coeficiente b é o resultado de multiplicar
o coeficiente de correlação das variáveis pelo resultado de
dividir o resultado de multiplicar o desvio padrão da variável
dependente pelo desvio padrão da variável independente.
 O coeficiente a é o resultado de subtrair o produto do
coeficiente b pela média da variável independente da média da
variável dependente.
 Uma vantagem adicional desse procedimento de cálculo é a
possibilidade de calcular as duas possíveis retas de regressão
linear com as mesmas medidas estatísticas, permutando
apenas as posições das variáveis. xˆ  f ( y )
 Por exemplo, se y for a variável independente e x a variável
dependente, os coeficientes da reta de regressão
serão calculados com as fórmulas:
a  x  b y

b   xy  r  x
 2 y
 y
MEDIDAS DE VARIAÇÃO

 Nem todos os valores das amostras estão contidos na reta de


regressão, e quanto mais afastados estiverem pior, a reta
representará a relação entre as amostras.
 A reta obtida pelo método dos quadrados mínimos é um
resumo útil da tendência entre as variáveis, pois não explica
perfeitamente os dados.
 Quão útil é a reta de regressão obtida pelo procedimento
apresentado? Para responder essa pergunta primeiro será
analisada a característica dos desvios.
 Vamos supor que escolhemos como modelo de regressão a
reta de regressão horizontal yˆ  y , a equação que representa a
média da variável dependente y.
 Nesse caso, o coeficiente b da reta de regressão é igual a zero
e, conseqüentemente, o coeficiente de correlação também é
nulo.
 Embora a reta da média pouco explique, ela é um ponto
importante de partida para medir variações. Analisando a reta
de regressão com os coeficientes a e b, pode-se ver que a
maioria dos valores das amostras está dispersa ao redor da
reta, como mostra a figura do slide seguinte para um par de
valores fora da reta.
 Variação total é o resultado da soma dos quadrados dos
desvios dos valores y com relação à média:
n
SST  
i 1
( yi  y ) 2

 Variação explicada é o resultado da soma dos quadrados dos


desvios dos valores estimados com relação à média:

n
SSR  
i 1
( yˆ i  y ) 2
 Variação não-explicada é o resultado da soma dos quadrados
dos desvios de y com relação aos valores projetados:

n
SSE  i 1
( y i  yˆ i ) 2
 Demonstra-se que:

n n n
 ( yi  y ) 2   ( y i  yˆ ) 2   ( yˆ  y ) 2
i 1 i 1 i 1
Coeficiente de Determinação
 O coeficiente de determinação r2 é definido como a relação que
mede a proporção da variação total da variável dependente,
que é explicada pela variação da variável independente:
Variação explicada
r2 
Variação total
 Substituindo as expressões matemáticas na expressão anterior
temos:
n
 ( yˆ i  y ) 2
r 2  i 1
n
 ( yi  y ) 2
i 1
Coeficiente de Determinação
 A expressão mostra que o coeficiente de determinação r2
é sempre um número positivo entre zero e um.
 Da própria fórmula pode-se deduzir que quanto maior for r2
melhor será o poder de explicação da reta de regressão.
Coeficiente de Determinação
 O coeficiente de determinação r2, também denominado r-
quadrado, é sempre um número positivo dentro do
intervalo (0; 1) e deve ser interpretado como a proporção
da variação total da variável dependente y, que é
explicada pela variação da variável independente x.
 Observe que o coeficiente de correlação mede as
variações dos dados da amostra y com relação aos
valores projetados da reta, sempre na direção de y.
 Embora na determinação do coeficiente de correlação não
seja necessário separar as variáveis entre independente e
dependente, há uma relação importante entre correlação e
regressão. Uma delas é a declividade da reta de
regressão, que é função do coeficiente de correlação.
 Demonstra-se também que o coeficiente de determinação
é igual ao quadrado do coeficiente de correlação, e vice-
versa.
 Partindo do coeficiente de correlação r=0,859366 obtido
na planilha do Exemplo 15.4, se obtém o valor do
coeficiente de determinação r2=0,8593662 que é o mesmo
valor já determinado.
 O coeficiente de correlação é mais indicado para medir a
força da relação linear entre as variáveis, e o coeficiente
de determinação é mais apropriado para medir a
explicação da reta de regressão. Dessa maneira, para
apreciar o ajuste de uma reta é melhor utilizar o
coeficiente de determinação que mede o sucesso da
regressão em explicar y.
 O coeficiente de correlação também pode ser calculado a
partir do coeficiente de determinação. Entretanto, como o
coeficiente de determinação é sempre positivo, o sinal de r
será o mesmo que o sinal do coeficiente b da reta de
regressão.
Erro Padrão da Estimativa
 Ao ajustar uma reta, espera-se que ela explique o grupo de valores
amostrados.
 Embora a reta de regressão tenha sido obtida minimizando a soma
dos quadrados dos desvios, sempre haverá uma variabilidade dos
dados ao redor da reta, exceto se os dados fizerem parte da própria
reta de regressão.
 O desvio padrão dos dados ao redor da reta de regressão é
denominado erro padrão da estimativa Se cuja medida é obtida da
variância com (n-2) graus de liberdade definida com a fórmula, onde
SSE mede a parte não explicada pela regressão:
n


i 1
( y i  yˆ i ) 2
SSE
Se  
n 2 n 2
 O conceito do erro padrão da estimativa é equivalente ao do
desvio padrão que mede a variabilidade dos valores da amostra ao
redor da média aritmética desses valores.
 O erro padrão da estimativa é também uma medida da
qualidade do ajustamento da reta.
 Atendidas as premissas da regressão linear, por exemplo,
espera-se que aproximadamente 95% dos valores da
amostra y se encontrem no intervalo 2Se de seus
respectivos valores projetados pela reta de regressão.
Premissas
 A amostragem aleatória utilizada para obter a reta de
regressão captura alguns pontos da população.
 A regressão linear realizada é uma estimativa da relação entre
as variáveis, relação que é desconhecida.
 Portanto, os coeficientes de regressão a e b são estimativas
pontuais dos correspondentes parâmetros da população  e .
yˆ  a  bx
yˆ     x  e
 O valor e (resíduo) representa a dispersão na população, pois
não há um relacionamento perfeito entre as duas variáveis na
população.
 De outra maneira, há outras variáveis não consideradas na
regressão que também influem na relação, pois a regressão
foi realizada com apenas duas variáveis do experimento.
 Devido à variabilidade amostral, deve-se aceitar que cada
amostra aleatória gerará uma equação de regressão diferente.
 Portanto, o coeficiente a é um estimador de  e b é um
estimador de .
 Se toda a população fosse amostrada, o coeficiente a seria
igual a  e b igual a .
 A dispersão na população significa que há diversos valores de
y para cada valor de x.
 Portanto, para cada valor de x há uma distribuição de
freqüências de y que o modelo de regressão linear supõe
seja uma distribuição normal denominada distribuição
condicional, pois depende da condição x.
 Todas as distribuições condicionais de y têm o mesmo
desvio padrão, denominado desvio padrão condicional.
As premissas do modelo de regressão linear são:
 Para cada valor de x há um grupo de valores de y, e todos os
grupos de y têm distribuição normal com o mesmo desvio
padrão.
 As médias das distribuições normais de y pertencem à reta de
regressão.
 A média dos desvios ou erros é nula, pois a variância é
mínima.
 A variância dos desvios é constante e igual à variância da
população, pois se supõe que todos os desvios têm a mesma
variância.
 Os desvios são variáveis aleatórias independentes e têm
distribuição normal. Portanto, o coeficiente de correlação entre
os desvios tomados dois a dois é nulo, e os desvios e a
variável independente x não têm nenhuma correlação.
Intervalo de Projeção
 Qual é a variação do valor projetado y para um determinado x
considerando as possíveis amostras da mesma população?
 A resposta dependerá do objetivo da projeção:
 A média de todas as projeções y para um determinado x.
Projeção denominada média y.
 A projeção de um único valor y para um determinado x.
Projeção denominada específico y.
 Operando com o modelo, podemos observar as seguintes
características:
 O ponto com coordenadas iguais às médias das amostras x e y
pertence à reta de regressão.
 O intervalo de confiança da projeção da Média y é menor do que
da projeção Específico y.
 A estimativa correspondente à média da amostra x tem o menor
intervalo de todas as estimativas dentro do intervalo de
amostragem de x.
 Quanto mais afastado de sua média o valor x estiver, maior será o
erro de estimativa. Pela forma das curvas do intervalo, as
estimativas fora do intervalo de amostragem de x não devem ser
realizadas.
 Variando o nível de significância  na célula C22 será possível
verificar o comportamento do intervalo de estimativa.
FdeA - Regressão
R-quadrado ajustado.
 O coeficiente de determinação ajustado r 2 é uma medida
utilizada em regressão linear múltipla.
 Partindo da regressão linear simples, com uma única variável
independente, o significado do coeficiente de determinação é a
porcentagem de explicação dessa regressão.
 Ao adicionar uma ou mais variáveis independentes, demonstra-
se que o r2 não deverá diminuir, devendo aumentar em alguns
casos. O r2
tenta compensar o aumento natural de explicação
provocado pelo aumento do número de variáveis
independentes e o tamanho da amostra, sendo calculado com
a expressão:
2
r r 2 k
n  k 1

 1 r2 
1
r 2  0 , 73851   1  0 ,73851   0 ,705824
10  1  1
A figura seguinte mostra a segunda parte.
A figura seguinte mostra a terceira parte.
 Há casos em que é possível saber antecipadamente que a
reta de regressão passa pela origem.
 Por exemplo, um provedor de Internet cujo faturamento
depende somente da venda de contratos mensais de
fornecimento de acessos, se não tiver contratos, não terá
faturamento. Outro caso, a reta de regressão entre os
custos mensais de envio de produtos vendidos
mensalmente pela TV com despesas de envio incluídas
também passa pela origem, pois se num mês não for
vendido nenhum produto, as despesas de envio serão
igual a zero.
 A fórmula da declividade b da equação :
n yˆ  bx
 x i  yi
b  i 1
n
 x i2
i 1
Completando os resultados da
FdeA - Regressão
Resíduos
 A análise dos resíduos é um procedimento gráfico que
permite analisar o ajuste da reta de regressão.
 As medidas de variação que definiram o coeficiente de
determinação e o erro de estimativa partiram do conceito de
desvios medidos a partir da média da amostra y dos desvios
medidos ao redor da reta de regressão.
 Ao desvio do valor projetado com relação ao valor observado
é denominado resíduo, como mostra a fórmula:

e  y i  yˆ i
 Lembrando que uma das premissas do modelo de regressão
linear estabelece que a média dos desvios ou erros é nula,
pois a variância é mínima, a forma do gráfico dos desvios em
função dos valores x da amostra ajudará a verificar o acerto
da reta de regressão.
 Se os desvios não mantêm nenhum padrão com os valores x,
pode-se deduzir que a reta de regressão é uma boa
representação dos dados observados, como mostra o gráfico
seguinte construído pela ferramenta.
e  y i  yˆ i

x Plotagem de resíduos
150
100
50
Resíduos

0
-50 0 10 20 30 40 50
-100
-150
x
x Plotagem de ajuste de linha
600
500
400 y
300
y
Previsto(a) y
200
100
0
0 20 40 60
x

Plotagem de probabilidade norm al


600
500
400
300
y

200
100
0
0 20 40 60 80 100
Percentil da am ostra
REGRESSÃO LINEAR MÚLTIPLA
 O modelo de regressão linear que foi apresentado é o mais
simples deles e nem sempre atende à modelagem mais
complexa.
 Por exemplo, as vendas não dependem somente do
investimento em propaganda, pois há uma parte da variação das
vendas que não é explicada pela propaganda.
 Da mesma maneira, a demanda de um determinado produto
pode ser explicada pela combinação do preço unitário e do
investimento em propaganda.
 Em geral, a aplicação quantitativa de conceitos econômicos
requer a estimação de funções de oferta, demanda, custo etc.
 Os modelos lineares com mais de uma variável independente
são denominados modelos de regressão linear múltipla.
 O desenvolvimento da equação de regressão linear múltipla é
similar ao da equação de regressão linear simples incluindo a
dependência de duas ou mais variáveis independentes.
 Dispondo de um grupo de amostras do mesmo tamanho, sendo
uma variável dependente y e n variáveis independentes xi, o
objetivo é determinar os coeficientes da equação da reta:

yˆ  a  b1 x1  b 2 x 2    b n x n
cujos coeficientes minimizam a soma dos quadrados dos desvios
da variável com relação a y.
Exemplo
 O analista de marketing de uma rede de varejo acredita que um
modelo que relacione a quantidade (y em milhares) de peças de
roupa íntima vendidas por trimestre com o preço médio de (x1
em $) e o investimento em propaganda (x2 em $milhares) poderá
ser útil para projetar a quantidade de peças do trimestre
seguinte e reduzir o custo unitário ocasionado pelo menor risco
de encalhe.
 Para encontrar essa relação linear foi extraída a amostra de
valores trimestrais registrada na tabela seguinte.
 Determinar a equação de regressão e analisar quão bem ela se
ajusta às necessidades do analista.
yˆ  818 ,145  7,046 x 1  0 , 44 x 2

Você também pode gostar