Você está na página 1de 10

FATEC – Adamantina

Prof. Me. Camila Gonçalves Costa

1. Regressão
Assim como a correlação, a regressão também tem como objetivo estimar
numericamente o grau de relação que possa ser identificado entre populações de duas
ou mais variáveis, a partir de amostras.
Considere o exemplo de uma rede de lojas de confecções que coletou uma amostra
de dados passados referentes a seus gastos com publicidade ($ mil) e seu volume de
vendas ($ mil). Os dados são apresentados na tabela 1:
Tabela 1: Vendas versus gastos com publicidade de loja de confecções
Gastos com publicidade (em $ mil) 3 4 8 12 14
Vendas (em $ mil) 7 14 15 28 32
A apresentação dos dados pode ser feita com o auxílio de um diagrama de dispersão,
conforme a figura 1 abaixo:

Figura 1: Gastos com publicidade versus vendas

Os gastos com publicidade estão representados pela variável independente, 𝑋, e o


volume de vendas pelas variável dependente, 𝑌.
Curiosidade
O termo regressão teria sido originalmente apresentado por Sir Francis Galton. Em
um famoso ensaio, Galton verificou que, embora houvesse uma tendência de pais
altos terem filhos altos e pais baixos terem filhos baixos, a altura média de filhos de
pais de uma dada altura tendia a se deslocar ou regredir até a altura média da
população como um todo. Ou seja, a altura dos filhos de pais extraordinariamente
altos ou baixos tende a se mover para a altura média da população.

1
FATEC – Adamantina
Prof. Me. Camila Gonçalves Costa

De forma mais recente, a análise de regressão ocupa-se do estudo da dependência


de uma variável, a variável dependente, em relação a uma ou mais variáveis, as
variáveis independentes, com o objetivo de estimar ou prever a média da população
ou o valor médio da variável dependente em função dos valores conhecidos ou fixos
da amostra.

Análise de Regressão
A análise de regressão fornece uma função matemática que descreve a relação entre duas
ou mais variáveis. Esta função pode ser usada para estimar ou predizer valores futuros de
uma variável, com base em valores conhecidos ou supostos.

1.2 Regressão Linear Simples

A análise de regressão linear simples tem por objetivo obter a equação matemática da
reta que representa o melhor relacionamento numérico linear entre duas variáveis:
𝑦 = 𝑎 + 𝑏𝑥 (1)
em que 𝑥 é a variável independente e 𝑦 é a variável dependente. Os números 𝑎 e 𝑏 são
números reais encontrados pelo método dos mínimo quadrados, que determina a equação
de ajuste linear que apresenta a menor soma dos quadrados dos erros 𝑒, conforme
observamos na figura 2. Observe que 𝑎 = 𝑌𝑖 quando 𝑋𝑖 = 0.

Figura 2: Diagrama de dispersão e melhor modelo de ajuste de reta

2
FATEC – Adamantina
Prof. Me. Camila Gonçalves Costa

Observando a figura 2, poderíamos escrever a equação (1) como 𝑦 = 𝑎 + 𝑏𝑥 + 𝑒,


em que 𝑒 representa o erro ao dizermos que os dados pontuais da população se ajustam a
reta de regressão obtida pela amostra.
O modelo linear obtido caracteriza a relação entre o conjunto de pares de valores
na amostra analisada, isto é, trata-se de uma estimativa da reta de ajuste para as duas
populações.
Para a dedução algébrica do modelo do método dos mínimos quadrados, consulte
[1]. Os valores algébricos dos coeficientes 𝑎 e 𝑏, obtidos pelo método dos mínimos
quadrados são:
𝑛 ∑ 𝑋𝑌 − ∑ 𝑋 ∑ 𝑌
𝑏=
𝑛 ∑ 𝑋 2 − (∑ 𝑥)2
∑𝑌 − 𝑏∑𝑌
𝑎=
𝑛
em que 𝑛 é o tamanho da amostra.

Exemplo: Tomando o exemplo da tabela 1, observe que o diagrama de dispersão


(figura 1) revela a inexistência de uma relação linear exata. Porém, a disposição dos
pontos sugere o fato de se aceitar a construção de uma estimativa linear que minimize os
erros dos ajustes. Para facilitar a obtenção das somas necessárias para o cálculo dos
coeficientes 𝑎 e 𝑏 pelo método dos mínimos quadrados, foi construída a tabela 2:

Tabela 2: Gastos com publicidade, vendas e somatórios

3
FATEC – Adamantina
Prof. Me. Camila Gonçalves Costa

Temos então

Assim, a reta que melhor se ajusta aos dados é 𝑦 = 2,0751 + 2,0884𝑥.

Figura 3: Diagrama de dispersão e reta de ajuste

USANDO O R PARA OS GRÁFICOS (comandos):


Título main=”Título do gráfico”
Tipo de ponto no gráfico de dispersão pch=número
Cor col=”nome da cor”

4
FATEC – Adamantina
Prof. Me. Camila Gonçalves Costa

Reta de regressão linear abline(lm(y~x))


Gráfico de dispersão plot(x,y)

Exemplo:
plot(x,y,main=”Gráfico de Dispersão entre x e y”, pch=16, col=”lightblue”)
abline(lm(y~x), col=”red”)

Exemplo: Considere o exemplo fictício da Ceres Fruticultura Irrigada Ltda. A


empresa coletou dados referentes ao volume de chuvas nos últimos seis anos e a
produtividade média por hectare em cinco culturas diferentes, conforme tabela abaixo:

Tabela 3: Chuvas e produtividades médias

Observe os diagramas de dispersão, empregando o nível de chuvas como variável


independente (𝑥) e as diferentes produtividades como variável dependente, 𝑦.

5
FATEC – Adamantina
Prof. Me. Camila Gonçalves Costa

Figura 4: Diagrama de dispersão: Chuvas × Produtividades

Embora modelos lineares possam ser construídos para análise entre o volume de
chuvas e a produção de manga, abacate, ameixa, goiaba ou acerola (𝑦 = 50 + 2𝑥; 𝑦 =
47,5867 + 3,1032𝑥; 𝑦 = 46,4283 − 0,3038𝑥; 𝑦 = 18,8658 + 0,007𝑥 e 𝑦 = 50 −
0,5𝑥, respectivamente), essas equações nada dizem sobre a qualidade do modelo.
Existem modelos onde os pontos estão mais próximos da reta de ajuste,
apresentando erros menores, mas existem modelos com pontos mais dispersos,
apresentando maiores erros. Desta forma, é necessário complementar o modelo de
regressão por estatísticas de correlação.

Análise de Correlação
Sendo 𝑟 o coeficiente de correlação, temos:

6
FATEC – Adamantina
Prof. Me. Camila Gonçalves Costa

Quadro 1: Tipos de Correlação

Lembrando que o coeficiente de correlação 𝑟 também pode ser chamado de


coeficiente de correlação de Pearson:
∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) 𝑛 ∑ 𝑥𝑖 𝑦𝑖 − ∑ 𝑥𝑖 ∑ 𝑦𝑖
𝑟= ou 𝑟 = ±
∑(𝑥𝑖 − 𝑥̅ )2 √∑(𝑦𝑖 − 𝑦̅)2 √(𝑛 ∑ 𝑥𝑖2 − (∑ 𝑥𝑖 )2 )(𝑛 ∑ 𝑦𝑖2 − (∑ 𝑦𝑖 )2 )
(𝑛 − 1). √
𝑛−1 . 𝑛−1
em que 𝑥𝑖 e 𝑦𝑖 são os dados da amostra que representam respectivamente as variáveis
independente e dependente e 𝑛 é o número de pares na amostra.

O número 𝑟 é um valor adimensional e um estimar do correspondente parâmetro


𝜌 para a população.

7
FATEC – Adamantina
Prof. Me. Camila Gonçalves Costa

O Coeficiente de Determinação
O coeficiente de determinação, 𝑟 2 (o quadrado do coeficiente de correlação),
representa a relação entre a variação explicada pelo método e variação total:
variação explicada
𝑟2 = .
variação total
Quanto maior o valor de 𝑟, maior o percentual da variação explicada em relação à variação
total.
O coeficiente de determinação 𝑟 2 (0 ≤ 𝑟 2 ≤ 1) expressa o quanto da variação em
relação à média é explicada pelo modelo linear construído.

Figura 5: Variação: Total, explica e não explicada

Se 𝑟 2 = 1, a qualidade do ajuste é excelente (toda variação em relação à média é


explicada pelo modelo – todos os pontos da amostra estão sobre a reta de regressão).
Se 𝑟 2 = 0, a qualidade do ajuste é péssima e não há relação numérica linear para
os pontos da amostra.
Se 𝑟 2 = 0,8, significa que 80% das variações totais são explicadas pela reta de
regressão.
De modo geral, se 𝑟 2 ≥ 0,60, dize-se que o ajuste linear apresenta uma boa
qualidade.
O cálculo do valor do coeficiente de determinação permite compreender melhor a
adequação do modelo linear. Quanto menor for 𝑟 2 , mais distantes de uma equação de
ajuste linear os pontos se encontram. No ajuste perfeito, 𝑟 2 = 1, e no ajuste imperfeito,
𝑟 2 = 0.

8
FATEC – Adamantina
Prof. Me. Camila Gonçalves Costa

No exemplo das chuvas e das produtividades das frutas, os valores dos


coeficientes de correlação e determinação são:
Tabela 4: Coeficientes 𝑟 e 𝑟 2
Manga Abacate Ameixa Goiaba Acerola
𝑟 1 0,9748 -0,7877 0,0017 -1
𝑟2 1 0,9502 0,6204 0,0000 1

Figura 6: Diagramas de Dispersão e retas de ajuste

9
FATEC – Adamantina
Prof. Me. Camila Gonçalves Costa

Exercícios

Referências Bibliográficas
[1] BRUNI, A. L. Estatística Aplicada à Gestão Empresarial. Editora Atlas,
São Paulo, 2007.

10

Você também pode gostar