Você está na página 1de 33

Capítulo 2 – Regressão Linear

ENGENHARIA DA COMPUTAÇÃO GRÁFICA E MULTIMÉDIA


MCG – MÓDULO 3

1
Regressão Linear Simples
A análise de regressão utiliza-se quando se pretende estudar a associação entre duas (ou mais)
variáveis quantitativas, onde seja possível identificar uma relação de causa-efeito, isto é, que a
variação de uma variável possa ser atribuída à variação da(s) outra(s).
Um modelo de regressão é um modelo matemático (equação) que descreve uma relação entre
duas ou mais variáveis.
Se o estudo incluir apenas duas variáveis temos uma regressão simples. Além disso, se o modelo
utilizado for a equação de uma reta então estamos na presença de uma regressão linear
simples.

2
Regressão Linear Simples
Um dos objetivos deste tipo de análise é a estimação (previsão) dos valores de uma variável,
variável dependente (Y) a partir do conhecimento dos valores da outra variável independente
(X), sintetizando a associação entre as duas variáveis, através de uma linha que se aproxime o
mais possível dos dados recolhidos e que é designada por reta de regressão.

3
Regressão Linear Simples
Quando numa população ou num seu subconjunto se pretendem estudar duas caraterísticas estamos na presença
de dados bivariados.

Amostra bivariada: (xi, yi), onde:


 xi é a medida de uma das caraterísticas do indivíduo/objeto i
 yi é a medida da outra caraterística do indivíduo/objeto i

Estudo da associação entre variáveis:


 Diagrama de dispersão
 Covariância(associação linear)
 Coeficiente de correlação linear (associação linear)

4
Diagrama de dispersão
O diagrama de dispersão é uma representação gráfica, num sistema de eixos coordenados onde
cada ponto representa um par de valores observados (xi, yi ) correspondentes, respetivamente,
aos valores das variáveis independente e dependente. Este tipo de representação permite
analisar o tipo de associação entre os valores observados da variável X e da variável Y.

5
Exemplos de Diagramas de Dispersão

6
Exemplos de Diagramas de Dispersão

7
Exemplos de Diagramas de Dispersão

8
Covariância
Dá-se o nome de covariância entre duas variáveis quantitativas X e Y, a uma medida que pode
ser utilizada para avaliar a maior ou menor intensidade com que elas se associam linearmente,
que se representa por:

A grande desvantagem na sua utilização reside na sua difícil interpretação. De facto, como esta medida
depende das unidades com que se apresentam os elementos de cada amostra, torna-se difícil avaliar
quando é que estamos na presença de uma covariância elevada, média ou pequena.

9
Coeficiente de Correlação Linear
Este coeficiente é obtido padronizando a covariância amostral, ou seja, dividindo-a pelo produto
dos desvios padrão das duas variáveis em causa, ou seja:

10
Coeficiente de Correlação Linear
O coeficiente de correlação, varia entre −1 e 1 e indica não apenas a intensidade mas também o
sentido da relação entre as duas variáveis.

A grande vantagem da sua utilização é o facto de o seu valor ser independente das unidades de
medida utilizadas em cada uma das variáveis. Além disso, como tem limites bem definidos,
torna possível distinguir entre graus de associação elevados e reduzidos.

11
Coeficiente de Correlação Linear
Propriedades
1. O valor de r [−1, 1].
2. Quanto maior for o módulo de r, maior será a intensidade da relação linear existente entre os
valores xi e yi.
3. Se r = 0 não existe qualquer tipo de associação linear entre os valores xi e yi.
4. Se r > 0 a relação entre os valores xi e yi é do mesmo sentido, ou seja, a valores elevados de x
correspondem valores elevados de y e vice-versa.
5. Se r < 0 a relação entre os valores xi e yi é de sentido contrário, ou seja, a valores elevados de x
correspondem valores pequenos de y e vice-versa.

12
Coeficiente de Correlação Linear
Usualmente,
|r|< 0.2 → relação muito fraca ou pra camente inexistente;
 0.2 < |r|< 0.4 → relação fraca;
 0.4 < |r|< 0.6 → relação de intensidade média ou moderada;
 0.6 < |r|< 0.8 → relação forte;
|r|> 0.8 → relação muito forte.

13
Exercício 1
Considere os seguintes dados, que representam o nº de faltas não autorizadas por ano e a
distância (em km) a que os empregados de determinada empresa estão de casa:

Construa o diagrama de dispersão que relacione a


distância a que os empregados estão de casa e o nº de
faltas não autorizadas e determine o coeficiente de
correlação linear.

14
Exercício 1

A análise do diagrama de dispersão aponta para a existência de uma relação de tipo linear positiva entre o nº de
faltas não autorizadas por ano e a distância a que os empregados estão de casa.

15
Exercício 1
O coeficiente de correlação linear entre as variáveis quantitativas X e Y, é dado por:

Como o valor do coeficiente de correlação linear é positivo e maior que 0,8, pode-se afirmar que
existe uma relação linear muito forte, em sentido direto, entre as variáveis nº de faltas não
autorizadas por ano e a distância a que os empregados estão de casa; neste caso, quanto maior
é a distância a que os empregados estão de casa maior o nº de faltas não autorizadas por ano.

16
Modelo de Regressão Linear Simples
Um dos objetivos deste tipo de análise é a estimação (previsão) dos valores de uma variável
dependente (Y) a partir do conhecimento dos valores da outra – variável independente (X),
sintetizando a associação entre as duas variáveis, através de uma linha que se aproxime o mais
possível dos dados recolhidos e que é designada por reta de regressão.

Y= 𝜶 + 𝜷𝑿 + 𝜺 Modelo geral de regressão linear simples


onde
X é a variável explicativa ou independente;
Y é a variável explicada ou dependente;
𝜀 é uma variável de tipo residual que inclui todas as influências em Y não explicadas por X;
𝛼 e 𝛽 são os parâmetros do modelo.

17
Modelo de Regressão Linear Simples
Objetivo: Conhecer os parâmetros populacionais e .
Dada a dificuldade em obter os valores das variáveis relativos à população: recolhe-se uma
amostra de dimensão n e a partir desta calculam-se as estimativas de e : a e b,
respetivamente.
Método dos mínimos quadrados: método utilizado para encontrar a equação da reta
y=a+bx
que melhor se ajusta ao conjunto de dados (xi,yi), i=1,…,n.

18
Modelo de Regressão Linear Simples
Como em geral, as observações não estão sobre a reta então,

19
Modelo de Regressão Linear Simples
Objetivo do método do mínimos quadrados:
Minimizar:

Os valores de b (declive da reta) e a (ordenada na origem), obtidos são:

20
Modelo de Regressão Linear Simples
Numa reta de regressão linear o valor de:

 a indica o valor da variável dependente quando o efeito da variável independente é nulo;

 b indica o valor da variação média para a variável dependente por cada unidade de variação da
variável independente.

21
Exercício 2
Considere os dados do Exercício 1 e adotando um modelo de regressão linear simples, ajuste
uma reta utilizando o método dos mínimos quadrados.
Qual o nº de faltas não justificadas previsto para um empregado que mora a 9 km da empresa?

22
Exercício 2

23
Exercício 2
Interpretação dos coeficientes:
a = 1.8696 - Nº de faltas não autorizadas de um empregado cuja distância de casa à empresa
seja 0 km.

b = 0.3478 - Cada quilómetro, em média, a mais de distância traduz-se num aumento médio de
0,3478 faltas. O sinal positivo no valor de b indica que existe uma relação em sentido direto
entre as variáveis, isto é, quando a distância a que os empregados da empresa estão de casa
aumenta o nº de faltas não autorizadas por ano também aumenta.

24
Exercício 2

25
Medidas de Qualidade da Estimação
Medidas mais utilizadas para avaliar a qualidade da estimação:

 Coeficiente de determinação
 Coeficiente de variação

26
Coeficiente de Determinação
O coeficiente de determinação, R2, obtém-se através do quociente:

O coeficiente de determinação e o coeficiente de correlação linear estão relacionados através da


seguinte expressão, sendo o sinal dado pelo declive da reta.

27
Coeficiente de Determinação
Propriedades:
1. O valor de R2 varia entre 0 e 1.
2. O valor de R2 dá-nos a proporção da variação de Y que é explicada pela regressão, isto é,
pela influência linear da variável X.
3. Quanto mais próximo for de 1, melhor a qualidade do ajustamento da reta de regressão.
4. Se a relação entre as variáveis não for linear, R2=0.
5. Se todos os dados estão representados sobre a reta de regressão, R2= 1.
6. Normalmente, valores de R2 superiores a 0,80 indicam um bom ajustamento, pois mais de
80% da variação total de Y é explicada pela regressão.

28
Coeficiente de Variação

Quanto menor for o erro padrão da estimação, e portanto menor for o coeficiente de
variação, melhor a reta de regressão estimada se ajusta aos dados e, consequentemente,
melhor é a qualidade da estimação.

29
Exercício 3
Considere os dados do Exercício 1 e calcule o coeficiente de determinação e o coeficiente de
variação.

30
Exercício 3

31
Exercício 3
A qualidade do ajustamento é razoável uma vez que 72,6% da variação do nº de faltas anuais (Y)
é explicada pela variação da distância de casa à empresa (X).
De notar que poderíamos ter determinado o valor de R2 utilizando o valor do coeficiente de
correlação linear, já calculado anteriormente.
De facto, dado que r = 0,852, o coeficiente de determinação vem
R2 = 0,8522 = 0,7259.

32
Exercício 3

33

Você também pode gostar