Correlação e Regressão Linear Simples 12042022d - 220421 - 153440

UNIVERSIDADE WUTIVI
Faculdade de Engenharia
Disciplina: ESTATÍSTICA E PROBABILIDADE Ano: 2º; Semestre: I;

Ano Académico: 2022; Carga horária:4 hrs/s; Curso: Engenharia Civil.
TEMA 3: CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES;
OBJECTIVOS:
1. Conhecer medidas de associação entre variáveis quantitativas;
2. Identificar a existência de relação linear entre variáveis estatísticas;
3. Dadas 2 variáveis estatísticas, indentificar a variável dependente e independente;
4. Construír e interpretar o diagrama de dispersão;
5. Conhecer/aplicar o método de mínimos quadrados (MMQ) para estimar parametros α e β;
6. Interpretar o significado estatístico, prático ou económico dos parametros α e β;
7. Prevêr ou estimar a variação da variavel dependente em função da variável independente;
8. Determinar o poder explicativo do Modelo.
1. Introdução
Na vida quotidiana costumamos nos deparar com vários casos pelos quais afirmarmos haver
relação entre si. Por exemplo, costumamos afirmar que estão relacionados: o peso de um
indivíduo e a sua idade; a demanda por um produto e o preço do mesmo; as notas de um
indivíduo em determinada cadeira e a boa ou má prestação nos testes, etc. Essas relações podem
ser lineares, quadráticas, logarítmas, e mais.
A verificação da existência e do grau de associação ou relação entre duas variáveis é o bjecto
de estudo da correlação. Considere a existência de uma variável quantitativa X a qual
acreditamos apresentar alguma relação com uma outra variável quantitativa Y. Por exemplo:
consumo de electricidade e valor da conta de energia eléctrica; idade e tempo de reacção um
estímulo; temperatura e tempo de uma reacção química, dentre outros.
Em situações como as citadas, a construção de um gráfico de dispersão dos valores de X versus
os valores de Y, se constitui numa ferramenta estatística simples, porém muito útil, para
investigar a existência de uma possível relação entre essas duas variáveis.
1.1. Correlação Linear Simples

A correlação linear procura medir a relação linear entre as variáveis aleatórias.
Essa correlação pode ser analisada graficamente através da disposição dos pontos (X,Y) em
torno de uma recta. O chamado diagrama de dispersão.
O diagrama de Dispersão é uma forma de gráfico onde simplesmente representa-se
graficamente cada par ordenado de variáveis (X,Y), de uma série de dados em um sistema de
eixos, permitindo assim, especular sobre a relação entre duas variáveis.
Probabilidade/Estatística, Correlação e regressão linear simples. Docente: Noé Eugénio Bila, Msc. Wutive-Unitiva 2022
Se X e Y representam as duas variáveis consideradas e, se todos os pontos de seu respectivo
diagrama de dispersão parecem cair nas extremidades de uma recta, a correlação é denominada
linear.
A correlação pode ser linear positiva ou directa, quando o Y tende a aumentar a medida que X
aumenta (figura a), linear negativa ou inversa, quando o Y tende a diminuir a mediada que X
aumenta (figura b) ou não existência de relação linear quando os pontos apresentam-se
dispersos e não parecem estar em torno de uma recta (figura c).
(c)
(a)
(b)
1.2. Coeficiente de Correlação de Pearson (r)

O coeficiente de correlação de Pearson (r) é uma medida de associação linear entre duas
variáveis, isto é, mede o quão duas variáveis estão linearmente associadas.
O cálculo do coeficiente de correlação é dado pela fórmula abaixo apresentada:
n *  xi y i   xi  y i
rxy 
  
(1)
n *  xi   xi  * n *  yi   yi 
2 2 2 2
O valor de rxy situa-se entre -1 e +1.

Valor de r Tipo de correlação
r  1 correlação negativa perfeita
 1  r   0.5 correlação é negativa forte
 0.5  r  0 correlação negativa fraca
r0 correlação nula
0  r  0.5 correlação positiva fraca
0.5  r  1 correlação positiva forte
r 1 correlação positiva perfeita
Observação:
1. O coeficiente de correlação linear, apesar de se expressar em percentagem, ela não é uma
percentagem. Assim uma correlação de 0.3 não corresponde 30% da correlação perfeita.
2. Os coeficientes de correlação não constituem uma escala de intervalo, i.é, 0.4 não é o dobro
de 0.2. Da mesma forma que as diferenças entre 0.3 e 0.4 e entre 0.8 e 0.9 não são
estatisticamente iguais.
3. As variáveis x e y devem possuir escalas de intervalo ou de razão, caso contrário, deve-se
aplicar outras estatísticas para medir o grau de associação.
Exemplo: Calcula o coeficiente de correlação entre as variáveis número de filhos de uma

família (y) e a renda mensal da familia (x)
i xi yi xi2 yi2 xi * y i
1 10 2 100 4 20
2 8 4 64 16 32
3 6 6 36 36 36
4 10 8 100 64 80
5 12 10 144 100 120
Total 46 30 444 220 288
n *  xi y i   xi  y i 5 * 288  46 * 30
rxy    0.416
n *  x 2
i 
  xi  * n *  y   yi 
2 2
i
2
 5 * 444  46 * 5 * 220  30 
2 2
Interpretação: existe uma correlação positiva fraca entre o número de filhos de uma família e
a renda mensal da mesma, pois o coeficiente de correlação de Pearson é de 0.416. O que
significa que quanto maior for a renda familiar, maior é o número de filhos que a mesma terá.
1.3. Algumas propriedades do Coeficiente de Correlação

 Sua natureza é simétrica, isto é, o coeficiente de correlacção entre x e y rxy  é o mesmo
que aquele entre y e x ryx  .
 É independente da origem e da escala, isto é, tendo dados de 2 variáveis onde já foi
calculado o r, se reduzirmos a escala de medida das duas variáveis o coeficiente de
correlação entre elas será o mesmo que o calculado sem a redução da escala.
 X e Y são estatisticamente independentes se o coeficiente de correlação linear entre eles
é zero, mas isso não significa independência entre as variáveis.
 É apenas uma medida de associação linear ou de dependência linear. Não tem sentido
para descrever relações não lineares. Por exemplo Y=X2, é uma relação exacta e
contudo o r=0.
 Embora seja uma medida de associação linear entre duas variáveis, ela não implica
necessariamente uma relação de causa e efeito.
Tema 3.1. Modelo de Regressão Linear Simples, Método dos Mínimos Quadrados
Estimação dos Coeficientes
3.2. Introdução
O termos regressão foi criado por Francis Galton, quando em um artigo famoso verificou que
embora existisse uma tendência para pais altos terem filhos de altura alta, e pais baixos filhos
de estatura baixa, a estatura média das crianças nascidas de pais com dada altura tendiam a
mover-se ou “regredir” para altura média da população como um todo, isto é, a altura de
crianças filhas de pais mais altos ou mais baixos que o comum, tende a mover-se no sentido da
altura média da população.
Esta lei, conhecida como Lei da regressão universal de Galton, foi confirmada por Karl Pearson
que fez uma colecta de mais de 1000 registos de alturas de membros de grupos familiares. Ele
verificou que a altura média do grupo de filhos de pais baixos era maior que a de seus pais, e a
altura média de grupo de filhos de pais altos, era menor que a de seus pais, constatando desse
modo que a altura de filhos de pais altos e baixos “regrediam” igualmente à altura média de
todos os homens.
3.2.1. Interpretação moderna do termo Regressão

A interpretação moderna que se dá ao termo regressão é muito diferente daquela dada por
Galton e Pearson.
Regressão é o cálculo do valor esperado de uma variável Y, dado o conjunto de informações

fornecidas por um conjunto de características X´s.
Análise de regressão tem por objectivo estimar o valor médio de uma variável dependente
atravês de uma ou várias variáveis independentes, a partir de n observações dessas variáveis.
O problema consiste em estabelecer a função matemática que melhor exprime a relação

existente entre as duas variáveis ( uma dependente, Y e outra independente, X).
Simbolicamente a relação é expressa por uma equação de regressão e graficamente por uma
curva de regressão.
A equação de regressão tem por finalidade ESTIMAR (prever) valores de uma variável Y
com base em valores conhecidos da outra X.
3.2.2. Modelo de Regressão Linear

Modelo de Regressão Linear Simples é o modelo constituído pelas variáveis dependente (Y)
e variável independente (X), no qual, a variável independente concorre para explicar o
comportamento médio da variável dependente com base nos valores conhecidos de X.
A variável a ser explicada pode ser chamada variável dependente, explicada, resposta, prevista
ou regressando e tem o símbolo Y.
A variável que a explicar é chamada variável independente, explicativa, de controle, previsora

ou regressor e é representada por X.
O modelo geral da equação de regressão linear entre duas variáveis tem a seguinte forma:
Yi     *X i i ou Yi  1   2 X i  ui (1)
Modelo para população, com parâmetros ( ,  ) ou  1 ,  2 
Ou yˆ i  aˆ  bˆ * xi   i ou Yˆ  ˆ1  ˆ2 X i  uˆi , (2)
Modelo para amostra, com estimativas (a, b) ou ˆ1 , ˆ 2  
onde:
Yi ou yˆ i variável dependente;
X i ou xˆ i variável independente;
 ou a : intercepto do modelo. Caracteriza a variação média de y quando a variável x é igual
a zero.
 ou b : coeficiente angular da recta de regressão. Caracteriza a variação média de y provocada
pela variação da variável x em uma unidade.
uˆ i ou  i 1: resíduo. Representa o conjunto de todas as variáveis que explicam o y mas que não
foram incluídas no modelo.
3.2.2.1. Significado do termo linear

A linearidade possui dois significados:
Linearidade nas variáveis, onde a esperança condicional de Y é uma função linear de Xi
EY / X i   f  X i  .
Exemplo 1:
Regressão Linear nas variáveis Regressão não Linear nas variáveis
Y  1   2 X i Y  1   2 X i
2
Y  e 1   2 X i
Linearidade nos parâmetros, onde a esperança condicional de Y é uma função linear dos
parâmetros, podendo ou não ser linear nas variáveis.
Exemplo 2:
Regressão Linear nos parâmetros Regressão não Linear nos parâmetros
Y  1   2 X i Y  1   2 X i
2
Y  1   22 X i
Nota: Das duas interpretações de linearidade, a linearidade nos parâmetros é a relevante.
Portanto a expressão regressão Linear significará sempre uma regressão linear nos parâmetros.
3.2.3. Método para estimação dos parâmetros  e 

Na maioria das situações práticas, o que temos na verdade é uma amostra de valores de Y
correpondentes a valores fixados de X. Portanto o obejctivo é estimar a função de regressão
populacional a partir de dados amostrais.
1
Essas variáveis podem não ser incluídas no modelo por várias razões. para mais
detalhes ver Livro de Econometria de Gujarati. Tecnicamente é conhecido como
termo de erro estocástico.
As estimativas dos parâmetros  e  dadas por “a” e “b” podem ser obtidas usando vários
métodos. O método mais usado para ajustar uma linha recta para um conjunto de pontos
( x1 , y1 ), ( x2 , y 2 ),..., ( xn , y n ) é o método de mínimos quadrados.
O método dos mínimos quadrados consiste em adoptar como estimativa dos parâmetros os
valores que minimizam a soma dos quadrados dos desvios2.
Características
1a) A soma dos desvios verticais dos pontos em relação a recta é zero;
2a) A soma dos quadrados desses desvios é mínima.
Para que o ajuste do modelo seja “bom” é necessário que o valor de d seja mínimo possível.
Os valores de “a” e “b” de recta de regressão yˆ i  a  b * xˆi serão:
n *  xi * y i   xi *  y i  y *  x   x * x 2
* yi
b (3) a  (4 Ou a  y  b * x
i i i i
n *  xi2   xi  n *  x   x 
2 2 2
i 1
(5)
Exemplo 3:
i Vendas ( xi ) Lucro ( yi ) xi2 yi2 xi * y i
1 201 17 40401 289 3417
2 225 20 50625 400 4500
3 305 21 93025 441 6405
4 380 23 144400 529 8740
5 560 25 313600 625 14000
6 600 24 360000 576 14400
7 685 27 469225 729 18495
8 735 27 540225 729 19845
Total 3691 184 2011501 4318 89802
Nota: Para facilitar os cálculos das estimativas da recta, acrescentamos três novas colunas na
tabela dada.
n *  x * y   x *  y 8 * 89802  3691 * 184
b   0.0159
n *  x 2   x  8 * 2011501  36912
2
a
 y *  x   x * x
i
2
i i i * yi

184 * 2011501  3691 * 89802
 0.0159
n *  x   x  8 * 2011501  36912
2 2
i 1
Ou
a  y  b * x  23  0.0159 * 461.38  15.66
A recta é: yˆ  15.66  0.0159 * xˆ
Interpretação:
2
A diferença di  yi  yˆ i u i , chama-se desvio em relação a recta de regressão ou resíduo.
a  15.66 , significa que quando a venda do produto for nula, a variação média de lucro será
de 15,66 u.m. Esta interpretação não tem sentido prático, pois não pode existir lucro sem
vendas.
b  0.0159 , espera-se que o lucro tenha uma variação média de 0.0159 u.m quando a venda
variar em uma unidade.
3.2.4. Coeficiente de Determinação (Poder explicativo do modelo)

Símbolo: R 2
O poder explicativo da regressão tem por objectivo avaliar a “qualidade” do ajuste. Esse valor
fornece a proporção da variação total do y explicada pela variação do x através da função
ajustada.
Este coeficiente é empregue como um indicador inicial da precisão das regressões para a
selecção dos modelos mais ajustados
Podemos expressar R 2 por:
R 2

 Yˆ  Y 
i
2
 Y  Y 
2
i
Ou podemos usar a seguinte relação R 2  rxy2 . a formula de rxy foi anteriormente apresentada
na ficha da aula teórica anterior.
Quando:
a) R 2  0 , variação explicada de Y é zero, a recta ajustada é paralela ao eixo de variável X.
b) R 2  1 , a recta ajustada explicará toda a variação de Y.
Assim sendo, quanto mais próximo da unidade estiver o valor de R 2 , melhor “a qualidade” do
ajuste da função aos pontos do diagrama de dispersão e quanto mais próximo de zero, pior será
“ a qualidade” do ajuste.
Por exemplo, se o poder explicativo for de 98%, isto significa que 98% da variação de Y é
explicada pela variação de X através da função escolhida e apenas 2% é atribuída a causas
aleatórias ou outras variáveis não incluídas no modelo.
FIM!
O professor: Noé Eugénio Bila, Msc.
“Lembre-se que as pessoas podem tirar tudo de ti, menos o seu conhecimento.”
Albert Einstein
UNIVERSIDADE WUTIVI
Faculdade de Engenharia
Disciplina: ESTATÍSTICA E PROBABILIDADE Ano: 2º; Semestre: I;

Ano Académico: 2022; Carga horária:4 hrs/s; Curso: Engenharia Civil.
TEMA 3: EXERCÍCIOS-CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES;
1. Para cada uma das situações abaixo, diga qual é a variável dependente e qual é a variável
independente:
a) O rendimento na universidade e o êxito na profissão escolhida.
b) Número de quilómetros que um pneu pode rodar e a velocidade da viatura.
c) Tempo necessário para executar determinada tarefa por 1 pessoa e o tempo de treinamento.
d) Vendas e a procura de um certo produto.
2. Explique se concorda ou não com as seguintes afirmações:

a) um coeficiente de correlação de +1,0 entre duas variáveis X e Y indica que X causa Y, mas
um coeficiente de correlação de -1,0 significa que X não causa Y.
b) se o coeficiente de regressão é zero, o coeficiente de correlação é também zero.
c) se o coeficiente angular é 1 (um), isto significa que existe perfeita correlação entre X e Y.
d) é possível que o coeficiente de correlação amostral seja positivo, quando não existe, de fato,
nenhuma correlação entre as variáveis X e Y.
3. Uma seguradora deseja examinar a relação entre o valor das apólices de seguros de vida
tomadas pelas famílias e o seu rendimento. Partindo de uma amostra aleatória de 10 famílias,
a enpresa recolheu as seguintes observações:
Família Valor da apólice Rendimento
1 90 25
2 165 40
3 220 60
4 145 30
5 114 29
6 175 41
7 145 37
8 192 46
9 395 105
10 339 81
a) Constroi o diagrama de Dispersão e interprete-o.
b) Calcule o coeficiente de pearson e classifique-o.
c) Calcule o coeficiente de Determinação e interprete-o.
d) Calcule os coeficientes do modelo de regressão, apresente o modelo e interprete os resultados.
e) Que percentagem é explicada pelo modelo?
Rendimento
200
100
Rendimento
0
0 200 400 600
a)
n *  xi y i   xi  y i 10 * 120012  1980 * 494
rxy    0,9891
b) n *  x 2
i 
  xi  * n *  yi2   yi 
2 2
 10 * 477206  1980 *10 *30318  494 
2 2
Interpretação: Como rxy  0,9891 Estamos perante a uma correlação positiva forte.
c) R 2  rxy2  0,98912  0,9784. Interpretação: As variaveis em estudo estão
correlacionadas a 97,84%.
n
 n n

 x y
i i    i  yi  / n
 i 1
x 
 , b  222000  0,26066.
d) b  i 1 i 1
2
n
 n  851660
i 1
xi
2
   xi  / n
 i 1 
a  y  b * x  49,4  0.26066 *198  2,21
Y  a  b * X  e  2.21  0,26 * X  e.
e) R 2 %  rxy2 *100%  0,98912 *100%  97,84%.
100%  R 2 %  100%  97,84%  2,16%. Resposta: A 2,16% não é explicada pelo modelo
apresentado na d).
Valor da
Família
apólice Rendimento
1 90 25 2250 8100 625
2 165 40 6600 27225 1600
3 220 60 13200 48400 3600
4 145 30 4350 21025 900
5 114 29 3306 12996 841
6 175 41 7175 30625 1681
7 145 37 5365 21025 1369
8 192 46 8832 36864 2116
9 395 105 41475 156025 11025
10 339 81 27459 114921 6561
Total 1980 494 120012 477206 30318
4. Considere as idades de 16 cônjuges, em que X representa a idade do marido e Y a idade da

mulher:
X 18 20 21 21 22 23 23 23 24 25 25 26 26 26 28 28
Y 17 20 20 22 22 21 22 23 23 24 25 23 24 27 26 27
5. A altura e o peso de estudantes seleccionados ao acaso da turma de engenharia civil da Universidade

Wutive-Unitiva, estão representados na tabela abaixo:
Altura (cm) 155 150 180 135 156 168 178 160 132 145 139 152
Peso (kg) 70 63 72 60 66 70 74 65 62 67 68 68
6. Após uma regulagem electrónica, um veículo apresenta um rendimento ideal no que tange
ao consumo de combustível. Contudo, com o passar do tempo esse rendimento vai se
degradando. Os dados a seguir representam o rendimento medido mês a mês após a regulagem:
Tempo (meses) 1 2 3 4 5 6 7 8 9 10 11 12
Rendimento (R) 10.7 10.9 10.8 9.3 9.5 10.4 9 9.3 7.6 7.6 7.9 7.7
FIM!
O professor: Noé Eugénio Bila, Msc.
“Pouco conhecimento faz com que as pessoas se sintam orgulhosas. Muito conhecimento, com que se sintam humildes.”
Leonardo da Vinci

Correlação e Regressão Linear Simples 12042022d - 220421 - 153440

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Correlação e Regressão Linear Simples 12042022d - 220421 - 153440

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE WUTIVI

Disciplina: ESTATÍSTICA E PROBABILIDADE Ano: 2º; Semestre: I;

1.1. Correlação Linear Simples

1.2. Coeficiente de Correlação de Pearson (r)

O valor de rxy situa-se entre -1 e +1.

Exemplo: Calcula o coeficiente de correlação entre as variáveis número de filhos de uma

1.3. Algumas propriedades do Coeficiente de Correlação

3.2.1. Interpretação moderna do termo Regressão

Regressão é o cálculo do valor esperado de uma variável Y, dado o conjunto de informações

O problema consiste em estabelecer a função matemática que melhor exprime a relação

3.2.2. Modelo de Regressão Linear

A variável que a explicar é chamada variável independente, explicativa, de controle, previsora

3.2.2.1. Significado do termo linear

3.2.3. Método para estimação dos parâmetros  e 

3.2.4. Coeficiente de Determinação (Poder explicativo do modelo)

Disciplina: ESTATÍSTICA E PROBABILIDADE Ano: 2º; Semestre: I;

2. Explique se concorda ou não com as seguintes afirmações:

c) R 2  rxy2  0,98912  0,9784. Interpretação: As variaveis em estudo estão

e) R 2 %  rxy2 100%  0,98912 100%  97,84%.

4. Considere as idades de 16 cônjuges, em que X representa a idade do marido e Y a idade da

5. A altura e o peso de estudantes seleccionados ao acaso da turma de engenharia civil da Universidade

Você também pode gostar