Escolar Documentos
Profissional Documentos
Cultura Documentos
1
Regressão Linear Simples
A análise de regressão utiliza-se quando se pretende estudar a associação entre duas (ou mais)
variáveis quantitativas, onde seja possível identificar uma relação de causa-efeito, isto é, que a
variação de uma variável possa ser atribuída à variação da(s) outra(s).
Um modelo de regressão é um modelo matemático (equação) que descreve uma relação entre
duas ou mais variáveis.
Se o estudo incluir apenas duas variáveis temos uma regressão simples. Além disso, se o modelo
utilizado for a equação de uma reta então estamos na presença de uma regressão linear
simples.
2
Regressão Linear Simples
Um dos objetivos deste tipo de análise é a estimação (previsão) dos valores de uma variável,
variável dependente (Y) a partir do conhecimento dos valores da outra variável independente
(X), sintetizando a associação entre as duas variáveis, através de uma linha que se aproxime o
mais possível dos dados recolhidos e que é designada por reta de regressão.
3
Regressão Linear Simples
Quando numa população ou num seu subconjunto se pretendem estudar duas caraterísticas estamos na presença
de dados bivariados.
4
Diagrama de dispersão
O diagrama de dispersão é uma representação gráfica, num sistema de eixos coordenados onde
cada ponto representa um par de valores observados (xi, yi ) correspondentes, respetivamente,
aos valores das variáveis independente e dependente. Este tipo de representação permite
analisar o tipo de associação entre os valores observados da variável X e da variável Y.
5
Exemplos de Diagramas de Dispersão
6
Exemplos de Diagramas de Dispersão
7
Exemplos de Diagramas de Dispersão
8
Covariância
Dá-se o nome de covariância entre duas variáveis quantitativas X e Y, a uma medida que pode
ser utilizada para avaliar a maior ou menor intensidade com que elas se associam linearmente,
que se representa por:
A grande desvantagem na sua utilização reside na sua difícil interpretação. De facto, como esta medida
depende das unidades com que se apresentam os elementos de cada amostra, torna-se difícil avaliar
quando é que estamos na presença de uma covariância elevada, média ou pequena.
9
Coeficiente de Correlação Linear
Este coeficiente é obtido padronizando a covariância amostral, ou seja, dividindo-a pelo produto
dos desvios padrão das duas variáveis em causa, ou seja:
10
Coeficiente de Correlação Linear
O coeficiente de correlação, varia entre −1 e 1 e indica não apenas a intensidade mas também o
sentido da relação entre as duas variáveis.
A grande vantagem da sua utilização é o facto de o seu valor ser independente das unidades de
medida utilizadas em cada uma das variáveis. Além disso, como tem limites bem definidos,
torna possível distinguir entre graus de associação elevados e reduzidos.
11
Coeficiente de Correlação Linear
Propriedades
1. O valor de r [−1, 1].
2. Quanto maior for o módulo de r, maior será a intensidade da relação linear existente entre os
valores xi e yi.
3. Se r = 0 não existe qualquer tipo de associação linear entre os valores xi e yi.
4. Se r > 0 a relação entre os valores xi e yi é do mesmo sentido, ou seja, a valores elevados de x
correspondem valores elevados de y e vice-versa.
5. Se r < 0 a relação entre os valores xi e yi é de sentido contrário, ou seja, a valores elevados de x
correspondem valores pequenos de y e vice-versa.
12
Coeficiente de Correlação Linear
Usualmente,
|r|< 0.2 → relação muito fraca ou pra camente inexistente;
0.2 < |r|< 0.4 → relação fraca;
0.4 < |r|< 0.6 → relação de intensidade média ou moderada;
0.6 < |r|< 0.8 → relação forte;
|r|> 0.8 → relação muito forte.
13
Exercício 1
Considere os seguintes dados, que representam o nº de faltas não autorizadas por ano e a
distância (em km) a que os empregados de determinada empresa estão de casa:
14
Exercício 1
A análise do diagrama de dispersão aponta para a existência de uma relação de tipo linear positiva entre o nº de
faltas não autorizadas por ano e a distância a que os empregados estão de casa.
15
Exercício 1
O coeficiente de correlação linear entre as variáveis quantitativas X e Y, é dado por:
Como o valor do coeficiente de correlação linear é positivo e maior que 0,8, pode-se afirmar que
existe uma relação linear muito forte, em sentido direto, entre as variáveis nº de faltas não
autorizadas por ano e a distância a que os empregados estão de casa; neste caso, quanto maior
é a distância a que os empregados estão de casa maior o nº de faltas não autorizadas por ano.
16
Modelo de Regressão Linear Simples
Um dos objetivos deste tipo de análise é a estimação (previsão) dos valores de uma variável
dependente (Y) a partir do conhecimento dos valores da outra – variável independente (X),
sintetizando a associação entre as duas variáveis, através de uma linha que se aproxime o mais
possível dos dados recolhidos e que é designada por reta de regressão.
17
Modelo de Regressão Linear Simples
Objetivo: Conhecer os parâmetros populacionais e .
Dada a dificuldade em obter os valores das variáveis relativos à população: recolhe-se uma
amostra de dimensão n e a partir desta calculam-se as estimativas de e : a e b,
respetivamente.
Método dos mínimos quadrados: método utilizado para encontrar a equação da reta
y=a+bx
que melhor se ajusta ao conjunto de dados (xi,yi), i=1,…,n.
18
Modelo de Regressão Linear Simples
Como em geral, as observações não estão sobre a reta então,
19
Modelo de Regressão Linear Simples
Objetivo do método do mínimos quadrados:
Minimizar:
20
Modelo de Regressão Linear Simples
Numa reta de regressão linear o valor de:
b indica o valor da variação média para a variável dependente por cada unidade de variação da
variável independente.
21
Exercício 2
Considere os dados do Exercício 1 e adotando um modelo de regressão linear simples, ajuste
uma reta utilizando o método dos mínimos quadrados.
Qual o nº de faltas não justificadas previsto para um empregado que mora a 9 km da empresa?
22
Exercício 2
23
Exercício 2
Interpretação dos coeficientes:
a = 1.8696 - Nº de faltas não autorizadas de um empregado cuja distância de casa à empresa
seja 0 km.
b = 0.3478 - Cada quilómetro, em média, a mais de distância traduz-se num aumento médio de
0,3478 faltas. O sinal positivo no valor de b indica que existe uma relação em sentido direto
entre as variáveis, isto é, quando a distância a que os empregados da empresa estão de casa
aumenta o nº de faltas não autorizadas por ano também aumenta.
24
Exercício 2
25
Medidas de Qualidade da Estimação
Medidas mais utilizadas para avaliar a qualidade da estimação:
Coeficiente de determinação
Coeficiente de variação
26
Coeficiente de Determinação
O coeficiente de determinação, R2, obtém-se através do quociente:
27
Coeficiente de Determinação
Propriedades:
1. O valor de R2 varia entre 0 e 1.
2. O valor de R2 dá-nos a proporção da variação de Y que é explicada pela regressão, isto é,
pela influência linear da variável X.
3. Quanto mais próximo for de 1, melhor a qualidade do ajustamento da reta de regressão.
4. Se a relação entre as variáveis não for linear, R2=0.
5. Se todos os dados estão representados sobre a reta de regressão, R2= 1.
6. Normalmente, valores de R2 superiores a 0,80 indicam um bom ajustamento, pois mais de
80% da variação total de Y é explicada pela regressão.
28
Coeficiente de Variação
Quanto menor for o erro padrão da estimação, e portanto menor for o coeficiente de
variação, melhor a reta de regressão estimada se ajusta aos dados e, consequentemente,
melhor é a qualidade da estimação.
29
Exercício 3
Considere os dados do Exercício 1 e calcule o coeficiente de determinação e o coeficiente de
variação.
30
Exercício 3
31
Exercício 3
A qualidade do ajustamento é razoável uma vez que 72,6% da variação do nº de faltas anuais (Y)
é explicada pela variação da distância de casa à empresa (X).
De notar que poderíamos ter determinado o valor de R2 utilizando o valor do coeficiente de
correlação linear, já calculado anteriormente.
De facto, dado que r = 0,852, o coeficiente de determinação vem
R2 = 0,8522 = 0,7259.
32
Exercício 3
33