Você está na página 1de 64

Estatística Indutiva

Análise de Regressão e Regressão


Linear
Profa Me. Camila Gonçalves Costa

Curso: Ciência de Dados, 3º Semestre


FATEC Adamantina
Associação entre duas variáveis
• Muitas vezes o tomador de decisões está interessado na relação entre
duas variáveis
• Exemplo: Um gerente de uma loja de equipamentos de som quer
determina a relação entre o número de comerciais de televisão
divulgados no fim de semana e as vendas na loja durante a semana
seguinte.

FATEC Adamantina- Profa Camila Gonçalves 2


Dados de amostra com as vendas expressas em centenas de dólares são
apresentados abaixo, que apresenta 10 observações, sendo uma para cada
semana

FATEC Adamantina- Profa Camila Gonçalves 3


Diagrama de Dispersão

FATEC Adamantina - Profa Camila Gonçalves 4


USANDO O R PARA OS GRÁFICOS de Dispersão (comandos):
Título main=”Título do gráfico”
Tipo de ponto no gráfico de dispersão pch=número
Cor col=”nome da cor”
Gráfico de dispersão plot(x,y)

Exemplo: plot(x,y,main=”Gráfico de Dispersão entre x e y”, pch=16, col=”lightblue”)


FATEC Adamantina - Profa Camila Gonçalves 5
O diagrama de dispersão indica a forma da relação entre as variáveis estudadas e
proporciona uma ideia sobre as funções de regressão a serem utilizadas.

A depender da relação entre as variáveis, os pontos observados, às vezes, se


encontram, relativamente, próximos da linha de regressão e em outras situações
bastante disseminados em torno dela (estudaremos regressão mais adiante).

Para melhor quantificar esta “aproximação” é necessário determinar um


coeficiente de correlação entre as variáveis. Porém não devemos interpretar a
palavra “correlação” como a que quantifica uma relação de causa (ex: emissão do
Banco Central) e efeito (ex: índice de preços ao consumidor). O valor obtido
assinala unicamente uma relação funcional em determinado conjunto de dados.
FATEC Adamantina - Profa Camila Gonçalves 6
• O diagrama de dispersão
entre essas duas variáveis
exibe uma relação
positiva, com vendas mais
elevadas (y) associadas a
um número maior de
comerciais (x).
• Esse diagrama sugere que
uma linha reta poderia ser
usada como uma
aproximação da relação,
mas como saber disso
através de um número e o
quão isto é confiável?
Como medir?
FATEC Adamantina- Profa Camila Gonçalves 7
Covariância
• É uma medida descritiva da associação entre duas variáveis.
• Indica a intensidade da relação linear entre duas variáveis.
• Para uma amostra de tamanho n, com observações 𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 , …, a
covariância é definida:
σ(𝑥𝑖 − 𝑥)(𝑦
ҧ 𝑖 − 𝑦)

𝑠𝑥𝑦 =
𝑛−1
Essa fórmula emparelha cada 𝑥𝑖 com um 𝑦𝑖 .
• Para as variáveis do exemplo anterior (número de comerciais e volume de
vendas), obtemos: (cálculos no próximo slide)
σ(𝑥𝑖 − 𝑥)(𝑦
ҧ 𝑖 − 𝑦)ത 99
𝑠𝑥𝑦 = = = 11
𝑛−1 9
FATEC Adamantina- Profa Camila Gonçalves 8
Comerciais x Volume de Vendas

No R Studio
cov(x,y)
FATEC Adamantina- Profa Camila Gonçalves 9
Covariância populacional
• A fórmula para calcular a covariância de uma população de N é similar
ao cálculo da covariância de uma amostra, mas usamos uma notação
diferente:
σ(𝑥𝑖 − 𝜇𝑥 )(𝑦𝑖 − 𝜇𝑦 )
𝜎𝑥𝑦 =
𝑁

FATEC Adamantina- Profa Camila Gonçalves 10


Interpretação da covariância
• 𝑠𝑥𝑦 > 0 indica uma associação linear positiva entre 𝑥 e 𝑦, ou seja, a
medida que 𝑥 aumenta, 𝑦 também aumenta.
• 𝑠𝑥𝑦 < 0 indica uma associação linear negativa entre 𝑥 e 𝑦, ou seja, a
medida que 𝑥 aumenta, 𝑦 diminui.
• O valor de 𝑠𝑥𝑦 se aproximará de zero quando não houver nenhuma
associação linear entre 𝑥 e 𝑦

FATEC Adamantina- Profa Camila Gonçalves 11


FATEC Adamantina- Profa Camila Gonçalves 12
Correlação
• Correlação é o estudo do grau de associação entre variáveis. Na
correlação interessa observar se duas ou mais variáveis são
independentes ou variam juntas, por exemplo:
• Conteúdo de colesterol no sangue e peso de pessoas de mesma idade e sexo.
• Estatura dos pais e estatura dos filhos de pessoas de mesma raça.
• Renda e consumo por faixa de salário.
• Preço e Demanda.
• Produção agrícola e fertilizante. etc,

FATEC Adamantina - Profa Camila Gonçalves 13


Correlação Linear

• Investiga a existência de associação entre duas variáveis, isto é, o grau


de inter-relacionamento entre a variável dependente e a
independente. Porém devemos ficar atentos que a correlação linear
simplesmente comprova uma variação concomitante entre duas
variáveis, não significando, a priori, que uma é causa da outra, visto
que muitas outras variáveis, não consideradas no estudo, podem
afetar o comportamento da variável dependente.
FATEC Adamantina - Profa Camila Gonçalves 14
De acordo com a relação entre as variáveis esta correlação pode ser:
• Direta ou Positiva – quando a variável dependente está diretamente
relacionada com a variável independente. Ex.: Renda e Consumo.
• Indireta ou Negativa – quando a variável dependente tem relação
inversamente proporcionalmente com a variável independente. Ex.:
Preço e Demanda.
• Nula – quando não há inter-relação entre as variáveis.

FATEC Adamantina - Profa Camila Gonçalves 15


Coeficiente de correlação -> r
• É uma medida que mede a intensidade da associação entre duas
variáveis e varia de −1 a 1. Valores que se aproximam de −1 ou +1
indicam uma relação linear forte. Quanto mais próxima a correlação
estiver de zero, mais fraca será a relação.
• Amostral:
𝑠𝑥𝑦 No R – Studio:
𝑟𝑥𝑦 =
𝑠𝑥 𝑠𝑦 cor(x,y)
• Populacional:
𝜎𝑥𝑦
𝜌𝑥𝑦 =
𝜎𝑥 𝜎𝑦
• O coeficiente de correlação da amostra fornece uma estimativa do
coeficiente de correlação da população.
FATEC Adamantina- Profa Camila Gonçalves 16
• A medida que o valor de 𝑟 se aproxima de 1 ou de –1 a correlação entre as
variáveis vai se tornando forte. Quando 𝑟 tende para “zero” a correlação passa a
ser fraca. Quando 𝑟 = 0 não existe a correlação procurada (correlação nula),
podendo, no entanto, existir outro tipo de correlação, razão pela qual devemos ser
bastante cautelosos quando afirmarmos da inexistência de correlação entre
variáveis.
FATEC Adamantina - Profa Camila Gonçalves 17
FATEC Adamantina - Profa Camila Gonçalves 18
FATEC Adamantina - Profa Camila Gonçalves 19
Exemplo
Considere o exemplo fictício da Ceres Fruticultura Irrigada Ltda. A empresa
coletou dados referentes ao volume de chuvas nos últimos seis anos e a
produtividade média por hectare em cinco culturas diferentes, conforme
tabela abaixo:

20
FATEC Adamantina - Profa Camila Gonçalves
• Faça os diagramas de dispersão, empregando o nível de chuvas como
variável independente ( 𝑥) e as diferentes produtividades como
variável dependente, 𝑦.

• Calcule o coeficiente de correlação, compare com os gráficos e entre


as produtividades.

FATEC Adamantina - Profa Camila Gonçalves 21


22
FATEC Adamantina - Profa Camila Gonçalves
X<-c(42, 18, 25, 20, 35, 10)
M<-c(134, 86, 100, 9, 120, 70)
plot(X,M,main=”Manga”, pch=16)

FATEC Adamantina - Profa Camila Gonçalves 23


Comerciais x Volume de Vendas
• Para as variáveis do problema sobre o número de comerciais e
volume de vendas, obtemos:
11
𝑟 = 𝑟𝑥𝑦 = = 0,93
(1,49)(7,93)

FATEC Adamantina- Profa Camila Gonçalves 24


• O número 𝑟 é um valor adimensional e uma estimativa do
correspondente parâmetro 𝜌 para a população.

• O coeficiente de correlação 𝑟 também pode ser chamado de


coeficiente de correlação de Pearson.

FATEC Adamantina - Profa Camila Gonçalves 25


A medida que o valor de 𝑟 se aproxima de 1 ou de –1 a correlação entre as
variáveis vai se tornando forte. Quando 𝑟 tende para “zero” a correlação passa
a ser fraca. Quando 𝑟 = 0 não existe a correlação procurada (correlação nula),
podendo, no entanto, existir outro tipo de correlação, razão pela qual
devemos ser bastante cautelosos quando afirmarmos da inexistência de
correlação entre variáveis.

FATEC Adamantina - Profa Camila Gonçalves 26


• Exemplo: Calcular o coeficiente de correlação entre altura (𝑋𝑖 ) e peso
(𝑌𝑖 ) de uma amostra de 10 estudantes universitários.

𝑋𝑖 173 169 172 174 165 170 171 168 178 180
𝑌𝑖 70 66 70 68 64 68 72 65 72 79

FATEC Adamantina - Profa Camila Gonçalves 27


No Excel:

FATEC Adamantina - Profa Camila Gonçalves 28


Excel – Ferramenta de Análise – Aba Dados

FATEC Adamantina - Profa Camila Gonçalves 29


No R:

• Logo, 𝑟 = 0,88 → Ótima correlação positiva.

• Usualmente, podemos determinar o coeficiente de correlação para uma


amostra, pois desconhecemos esse valor na população. Uma população
que tenha duas variáveis não-correlacionadas pode produzir uma
amostra com coeficiente de correlação diferente de zero.
FATEC Adamantina - Profa Camila Gonçalves 30
Coeficiente de Determinação
• O coeficiente de determinação, 𝑟 2 (o quadrado do coeficiente de
correlação), representa a relação entre a variação explicada pelo
método e variação total:
2
variação explicada
𝑟 = .
variação total
• Quanto maior o valor de 𝑟, maior o percentual da variação explicada
em relação à variação total.
• O coeficiente de determinação 𝑟 2 (0 ≤ 𝑟 2 ≤ 1) expressa o quanto da
variação em relação à média é explicada pelo modelo linear
construído.
FATEC Adamantina - Profa Camila Gonçalves 31
FATEC Adamantina - Profa Camila Gonçalves 32
• Se 𝑟 2 = 1, a qualidade do ajuste é excelente (toda variação em
relação à média é explicada pelo modelo – todos os pontos da
amostra estão sobre a reta de regressão).
• Se 𝑟 2 = 0, a qualidade do ajuste é péssima e não há relação numérica
linear para os pontos da amostra.
• Se 𝑟 2 = 0,8, significa que 80% das variações totais são explicadas
pela reta de regressão.
• De modo geral, se 𝑟 2 ≥ 0,60, disse-se que o ajuste linear apresenta
uma boa qualidade.

FATEC Adamantina - Profa Camila Gonçalves 33


• O cálculo do valor do coeficiente de determinação permite
compreender melhor a adequação do modelo linear.

• Quanto menor for 𝑟 2 , mais distantes de uma equação de ajuste linear


os pontos se encontram. No ajuste perfeito, 𝑟 2 = 1, e no ajuste
imperfeito, 𝑟 2 = 0.

FATEC Adamantina - Profa Camila Gonçalves 34


• No exemplo das chuvas e das produtividades das frutas, os valores
dos coeficientes de correlação e determinação são:

Tabela 4: Coeficientes 𝑟 e 𝑟 2
Manga Abacate Ameixa Goiaba Acerola
𝑟 1 0,9748 -0,7877 0,0017 -1
𝑟2 1 0,9502 0,6204 0,0000 1

FATEC Adamantina - Profa Camila Gonçalves 35


Exercícios
• Calcule os coeficientes de correlação e diga se existe ou não associação
entre as variáveis. Construa o gráfico de dispersão:

1) Em determinada empresa industrial a relação entre horas trabalhadas e a


produção obtida em toneladas, foi a seguinte:

FATEC Adamantina - Profa Camila Gonçalves 36


• 2) A tabela abaixo relata os custos de manutenção por hora, classificados
por idade de máquina em messes.

• 3) As idades e pesos (médios) de um grupo de crianças estão registrados no


quadro que se segue:

FATEC Adamantina - Profa Camila Gonçalves 37


• 4) A tabela abaixo apresenta uma amostra com os pesos de 10 pais e
de seus filhos mais velhos.

FATEC Adamantina - Profa Camila Gonçalves 38


Regressão
• Assim como a correlação, a regressão também tem como objetivo
estimar o grau de relação que possa ser identificado entre populações
de duas ou mais variáveis, a partir de amostras.
• Considere o exemplo de uma rede de lojas de confecções que coletou
uma amostra de dados passados referentes a seus gastos com
publicidade ($ mil) e seu volume de vendas ($ mil). Os dados são
apresentados na tabela:

Tabela: Vendas versus gastos com publicidade de loja de confecções


Gastos com publicidade (em $ mil) 3 4 8 12 14
Vendas (em $ mil) 7 14 15 28 32
• A apresentação dos dados pode ser feita com o auxílio de um diagrama de
dispersão, conforme a figura 1 abaixo:

• Os gastos com publicidade estão representados pela variável


independente, 𝑋, e o volume de vendas pelas variável dependente, 𝑌.
Análise de regressão

A análise de regressão ocupa-se do estudo da relação de dependência


de uma variável, a variável dependente, em relação a uma ou mais
variáveis, as variáveis independentes, com o objetivo de estimar ou
prever a média da população ou o valor médio da variável dependente
em função dos valores conhecidos ou fixos da amostra.
Curiosidade
• O termo regressão teria sido
originalmente apresentado por Sir Francis
Galton.
• Em um famoso ensaio, Galton verificou
que, embora houvesse uma tendência de
pais altos terem filhos altos e pais baixos
terem filhos baixos, a altura média de
filhos de pais de uma dada altura tendia a
se deslocar ou regredir até a altura média
da população como um todo.
• Ou seja, a altura dos filhos de pais
extraordinariamente altos ou baixos tende
a se mover para a altura média da
população.
Análise de regressão
• A análise de regressão fornece
uma função matemática que
descreve a relação entre duas ou
mais variáveis.
• Esta função pode ser usada para
estimar ou predizer valores
futuros de uma variável, com base
em valores conhecidos ou
supostos.

Esta Foto de Autor Desconhecido está licenciado em CC BY-SA


Regressão Linear Simples
• A análise de regressão linear simples tem por objetivo obter a equação matemática
da reta que representa o melhor relacionamento numérico linear entre duas
variáveis:
𝑦 = 𝑎 + 𝑏𝑥 (1)

• em que 𝑥 é a variável independente e 𝑦 é a variável dependente. Os números 𝑎 e 𝑏


são números reais encontrados pelo método dos mínimo quadrados, que
determina a equação de ajuste linear que apresenta a menor soma dos quadrados
dos erros 𝑒, conforme observamos na figura 2. Observe que 𝑎 = 𝑌𝑖 quando 𝑋𝑖 = 0.
• Observando a figura 2, poderíamos escrever a equação (1) como
𝑦 = 𝑎 + 𝑏𝑥 + 𝑒,
em que 𝑒 representa o erro ao dizermos que os dados pontuais da população
se ajustam a reta de regressão obtida pela amostra.
• O modelo linear obtido caracteriza a relação entre o conjunto de
pares de valores na amostra analisada, isto é, trata-se de uma
estimativa da reta de ajuste para as duas populações.

• Para a dedução algébrica do modelo do método dos mínimos


quadrados, é utilizada a derivada da função erro – para detalhes
consulte Bruni (2007) e Almeida (2015).
• Os valores algébricos dos coeficientes 𝑎 e 𝑏, obtidos pelo
método dos mínimos quadrados são:

𝑛 σ 𝑋𝑌−σ 𝑋 σ 𝑌 σ 𝑌−𝑏 σ 𝑋
𝑏= e 𝑎=
𝑛 σ 𝑋 2− σ 𝑋 2 𝑛

• em que 𝑛 é o tamanho da amostra.


O Método dos Mínimos quadrados
A aplicação do método dos mínimos quadrados gera três características
importantes relacionadas com a reta de regressão obtida:
• É mínima a soma dos erros ou desvios para a reta de regressão,
menor que a de qualquer outra reta de ajuste;
• É igual a zero a soma algébrica dos desvios verticais entre o valor da
ordenada de cada ponto da amostra analisada e a correspondente
ordenada da reta estimada;
• A reta estimada passa pelo ponto de coordenadas 𝑥,ҧ 𝑦ത , que
correspondem à média dos pares de pontos da amostra.
Exemplo

Tabela 1: Vendas versus gastos com publicidade de loja de confecções


Gastos com publicidade (em $ mil) 3 4 8 12 14
Vendas (em $ mil) 7 14 15 28 32

• Tomando o exemplo da tabela 1, observe que o diagrama de dispersão


(figura 1) revela a inexistência de uma relação linear exata. Porém, a
disposição dos pontos sugere o fato de se aceitar a construção de uma
estimativa linear que minimize os erros dos ajustes.
• Para facilitar a obtenção das somas necessárias para o cálculo dos
coeficientes 𝑎 e 𝑏 pelo método dos mínimos quadrados, foi construída a
tabela 2:
• Temos então

• Assim, a reta que melhor se ajusta aos dados é 𝑦 = 2,0751 + 2,0884𝑥.


USANDO O R PARA OS GRÁFICOS (comandos):
Título main=”Título do gráfico”
Tipo de ponto no gráfico de dispersão pch=número
Cor col=”nome da cor”
Reta de regressão linear abline(lm(y~x))
Gráfico de dispersão plot(x,y)

Exemplo:
>> plot(x,y,main=”Gráfico de Dispersão entre x e y”, pch=16, col=”lightblue”)
>> abline(lm(y~x), col=”red”)
OBS: O comando lm(y~x) nos dá os coeficientes da reta de regressão 𝑦 = 𝑎 +
𝑏𝑥, o coeficiente de determinação e outras informações estatísticas importantes.
OBS: A função summary mostra todas as informações do método de regressão
y = a + bx

b
Gráfico com a reta de regressão e r²
Instalar os pacotes:

install.packages("readx1")
install.packages("ggpubr")
install.packages("ggcorrplot")
Dados = data.frame(comerciais,
vendas)
library(ggplot2)

ggplot(Dados,aes(x = comerciais, y=vendas))+


geom_point(shape=21, size=2.8, fill = "lightblue", col = "blue")+
geom_smooth(method = "lm", col = "tomato", se = FALSE, formula = "y~x")+
stat_regline_equation(aes(label=paste(..eq.label.., ..rr.label.., sep = "~~")))+
labs(x = "Comerciais", y = "Vendas", title = "Gráfico")+
theme_light()
Exemplo – Faça no R
• Considere o exemplo fictício da Ceres Fruticultura Irrigada Ltda. A empresa
coletou dados referentes ao volume de chuvas nos últimos seis anos e a
produtividade média por hectare em cinco culturas diferentes, conforme
tabela 3:

Faça o gráfico de dispersão e a reta de


Regressão Linear empregando o nível
de chuvas como variável
independente ( 𝒙) e as diferentes
produtividades como variável
dependente, 𝒚.
• Embora modelos lineares possam ser construídos para análise entre o
volume de chuvas e a produção de manga, abacate, ameixa, goiaba ou
acerola (𝑦 = 50 + 2𝑥; 𝑦 = 47,5867 + 3,1032𝑥; 𝑦 = 46,4283 − 0,3038𝑥;
𝑦 = 18,8658 + 0,007𝑥 e 𝑦 = 50 − 0,5𝑥 , respectivamente), essas
equações nada dizem sobre a qualidade do modelo.

• Existem modelos onde os pontos estão mais próximos da reta de ajuste,


apresentando erros menores, mas existem modelos com pontos mais
dispersos, apresentando maiores erros. Desta forma, é necessário
complementar o modelo de regressão por estatísticas de correlação.
Exercícios
Construir o gráfico de dispersão e regressão linear, escrever a equação de
regressão e analisar os coeficientes de determinação em cada caso:

• 1) Em determinada empresa industrial a relação entre horas trabalhadas e a


produção obtida em toneladas, foi a seguinte:

• Qual a previsão de produção para 9 horas trabalhadas?


• 2) A tabela abaixo relata os custos de manutenção por hora, classificados
por idade de máquina em meses.

• Qual a previsão do custo médio para uma máquina que tem 39 meses de
idade?

• 3) As idades e pesos (médios) de um grupo de crianças estão registrados no


quadro que se segue:

• Qual a previsão do peso para uma criança que possui 12 meses?


• 4) A tabela abaixo apresenta uma amostra com os pesos de 10 pais e
de seus filhos mais velhos (em kg).

• Qual a previsão do peso de um filho cujo pai pesa 80kg?


Exercícios extras
• 1) Um professor resolveu analisar as notas de uma amostra formada
por 8 alunos. Os dados coletados estão apresentados na tabela a
seguir. Pede-se: (a) construa um modelo de ajuste linear entre os
pontos; (b) calcule o coeficiente de determinação e comente a
qualidade do ajuste; (c) calcule a nota esperada na prova para um
aluno que obteve nota 6 no teste.
• 2) Uma empresa resolveu comparar o número de horas de
treinamentos preventivos com o número de acidentes verificados nas
suas instalações. Obteve os números apresentados na tabela a seguir.
Pede-se: (a) construa um modelo de ajuste linear entre os pontos; (b)
calcule o coeficiente de determinação e comente a qualidade do
ajuste; (c) qual a previsão de acidentes para um funcionário que teve
20 horas de treinamento?
Referências Bibliográficas
• ALMEIDA, R. N. O Métodos dos Mínimos Quadrados: Estudo e
Aplicações para o Ensino Médio. Dissertação (Mestrado em
Matemática) – Universidade Estadual do Norte Fluminense – UENF.
Campos dos Goytacazes– Rio de Janeiro, p. 36 - 39. 2015.

• BRUNI, A. L. Estatística Aplicada à Gestão Empresarial. Editora Atlas,


São Paulo, 2007.

Você também pode gostar