Você está na página 1de 18

Professora:

ª Shirlene Souza

Probabilidade e
Estatística
Capítulo 11
CORRELAÇÃO E REGRESSÃO

ª Engenharia de Software
ª Sistemas de Informação
Turma: ____________
CORRELAÇÃO E REGRESSÃO
Introdução
Muitas vezes, na prática, necessitamos estudar o relacionamento de
duas variáveis, coletadas como pares de valores, para resolver questões,
como por exemplo:
O sucesso de um emprego pode ser predito com base no
resultado de testes;
Quanto maior for a produção, maior será o custo total;
Quanto maior for a idade de um automóvel, menor será seu
preço de venda.
Problemas como esses podem ser estudados através de uma análise
de correlação simples, onde podemos determinar a “força” do
relacionamento entre estas duas variáveis estudadas.
As variáveis estudadas serão: x, denominada de variável
independente, e y, denominada de variável dependente.
Se o relacionamento entre x e y for consistente e necessitamos fazer
uma predição para o valor de y, conhecido um valor de x, através de uma
fórmula matemática adequada, podemos aplicar a chamada análise de
regressão simples.

Diagrama de Dispersão

É um gráfico no qual cada ponto plotado representa um par


observado de valores para as variáveis estudadas (x, y), num sistema de
eixos cartesianos.
Através do diagrama de dispersão podemos ter uma idéia do tipo de
relação entre as variáveis estudadas.
A seguir temos alguns exemplos de diagramas de dispersão.

2
Coeficiente de Correlação Linear

Medida do grau de associação (relacionamento) entre duas variáveis


estudadas a partir de uma série de observações.
Esta medida é também chamada de coeficiente de correlação de
Pearson, em homenagem ao seu criador e é dada por:

n xi y i    xi   y i 
r
n  x 2
i   xi 
2
 n  y 2
i   y i 
2

Onde n é o número de pares de valores (x, y) observados e r varia no
intervalo  1  r  1 , para o mesmo, temos que:
• Valores de r próximos de (+1) indicam uma forte correlação positiva entre x
e y;

3
• Valores de r próximos de (– 1) indicam uma forte correlação negativa entre
x e y;
• Valores de r próximos de 0 indicam uma fraca correlação positiva ou
negativa entre x e y.
A partir dos valores de r, podemos verificar o tipo da correlação
existente entre as variáveis estudadas, conforme a seguinte tabela:

Valor de r Correlação
0,0 nula
0,0 ----| 0,5 fraca
0,5 ----| 0,8 média
0,8 ----|1,0 forte
1,0 perfeita

Obs.: Usar a equação de regressão somente quando r indicar correlação


linear significativa.
Alguns Conceitos

Outliers – pontos muito afastados dos demais.


Predição – as equações de regressão podem ser úteis para predizer
(estimar) o valor de uma variável, dado um valor determinado da outra
variável.
Coeficiente Angular (a) – medida da variação que ocorre em uma
característica quando outra característica se modifica de uma unidade.
Intercepto – coeficiente linear (b) – ponto de intersecção da reta com o
eixo das ordenadas (eixo y). Equivale ao valor de y quando x = 0.
Equação das Retas de Regressão – funções resultantes do ajuste de uma
função linear entre 2 variáveis y e x, define a linha reta que descreve a
associação entre duas características e permite estimar o valor de uma
medida pela outra. Para obter a reta de regressão é necessário calcular o
Coeficiente angular “a” e o Coeficiente linear da reta com o eixo das
ordenadas “b”.

Parâmetros da reta y = ax + b (Regressão):


n xi y i    xi   y i 
a e b  y  ax .
n xi2   xi 
2

x i y i
Onde: x
n
e y
n
.

4
Exemplo. Consideremos as duas variáveis, Pesos e Comprimentos de
Ursos (População), cujos dados coletados estão abaixo.

x Comprimento 53,0 67,5 72,0 72,0 73,5 68,5 73,0 37,0


(in.)
y Peso (lb) 80 344 416 348 262 360 332 34
Obs.: in. – polegada e lb – libras.

A relação entre as variáveis é evidenciada pela formação de um


padrão no Diagrama de Dispersão. Segue abaixo o Diagrama de Dispersão
dos dados do problema.

Observando a tabela e o diagrama anteriores desenvolva os itens abaixo.

a) Preencha a tabela abaixo.

Comprimento ( Peso ( y ) i xi y i xi2 y i2


x )i

53 80 4240 2809 6400


67,5 344 23220 4556,25 118336
72 416 29952 5184 173056
72 348 25056 5184 121104
73,5 262 19257 5402,25 68644
68,5 360 24660 4692,25 129600
73 332 24236 5329 110224
37 34 1258 1369 1156
  516,5   2.176   151.87   34.525,7   728.52
9 5 0
b) Calcule o coeficiente de correlação de Pearson. r = 0,90
5
n xi y i    xi   y i 
r
n  x 2
i   xi 
2
 n  y 2
i   y i 
2

8  151879  (516,5)  ( 2176)
r 
8  34525,75   516,5   8  728520   2176 
2 2

(1215032  1123904)
r  0,8973  0,90
((276206  266772,25)(5828160  4734976))

c) Tire conclusões: Há uma forte correlação (há ou não há) evidência


suficiente para apoiar a existência de uma correlação linear
significativa entre as duas variáveis.
d) Encontre a equação da reta ajustada. y = 9,66 x – 351,65
y = ax + b  y = 9,66x-351,65
n xi yi    xi   yi  (1215032  1123904 ) 91128
a    9,66
n xi2   xi  (276206  266772,25) 9433,75
2

b  y  ax  272  9,66  64,56  351,65


xi 516,5 yi 2176
x   64,56 y   272
n 8 n 8

e) Se um urso tem comprimento de 71,0 in., prediga seu peso. y =


334,21
Para x = 71  y = 9,66x-351,65
Y=9,66.71-351,65 = 334,21

EXERCÍCIOS

1. Sejam os seguintes diagramas de dispersão. Determine se há uma


correlação linear positiva, uma correlação linear negativa ou se não
há correlação entre as variáveis.

6
2. Um grupo de pessoas fez uma avaliação do peso aparente de alguns
objetos. Com o peso real e a média dos pesos aparentes, dados pelo
grupo, obteve-se a tabela:

Peso real ( Peso xi y i xi2 y i2


x )
i aparente ( y )
i

7
18 10 180 324 100
30 23 690 900 529
42 33 1386 1764 1089
62 60 3720 3844 3600
73 91 6643 5329 8281
97 98 9506 9409 9604
120 159 19080 14400 25281
  _442__   474____   41205_   35970   48484
_ _ _ _
Com a tabela preenchida, calcule o índice de correlação.
n xi y i    xi   y i 
r
n  x 2
i   xi 
2
 n  y 2
i   y i 
2

7  41205  442  474
r  0,9810  0,98
7  35970   442  7  48484   474 
2 2

Encontre a equação da reta ajustada:


y = ax + b
y=1,40x-20,69
Se o peso real for x = 99 qual seria o peso aparente:

Y = 1,40 x 99 – 20,69 = 118

n xi yi    xi   yi  7 x 41205  442 x 474


a   1,40
n xi2   xi  7 x35970  4422
2

b  y  ax  67,71  1,40  63,14  20,69


xi 442 yi 474
x   63,14 y   67,71
n 7 n 7

3. Uma amostra de residências selecionadas aleatoriamente, num bairro,


foi observada quanto à idade do imóvel (x), em anos, e ao preço de
venda (y), em mil reais, resultando:

xi yi xi y i xi2 y i2
1 100
2 80
3 90
8
4 15
5 50
6 20
  _______   _______   _______   ______   ______
_ _

Com os dados da tabela, responda os itens abaixo.


a) Estime a reta de regressão.

b) Calcule o coeficiente de correlação x e y.

9
4. Considere os resultados de dois testes, x e y, obtidos por um grupo de
alunos da escola A:

xi yi xi y i xi2 y i2
11 13
14 14
19 18
19 15
22 22
28 17
30 24
31 22
34 24
37 25
  _______   _______   _______   ______   ______
_ _

Com os dados da tabela, calcule o coeficiente de correlação.


5. A variação do valor da UPC (Unidade Padrão de Capital),
relativamente a alguns meses de 2009, deu origem à tabela:

Meses xi Valores (R$) ( x y


i ixi2 y i2
y )
i

Maio 21,75
Junho 21,75
Julho 21,78
Agosto 21,78
Setembro 21,78
Outubro 21,81
Novembro 21,81
  _   _________   _____   _____   _____
____ ____ ___ ___ ___
Preencha a tabela e responda os itens abaixo.
a) Calcule o grau de correlação.

b) Estabeleça a equação de regressão de y sobre x.

c) Estime o valor da UPC para o mês de dezembro.


Sugestão: Substitua os meses, respectivamente, por 5, 6, ..., 11.

6. A partir da tabela:
xi yi xi y i xi2 y i2
1 70
2 50
3 40
4 30
5 20
6 10
  ________   __________   ______   _____   _____
___ ___ __ __ __
a) Calcule o grau de correlação;

b) Determine a reta ajustada;

c) Estime o valor de y para x = 0.

12
7. É esperado que a massa muscular de uma pessoa diminua com a
idade. Para estudar essa relação, uma nutricionista selecionou 18
mulheres, com idade entre 40 e 79 anos, e observou em cada uma
delas a idade (x) e a massa muscular (y).

Massa
Idade (xi) x y
i i xi2 y i2
muscular (yi)
71 82
64 91
43 100
67 68
56 87
73 73
68 78
56 80
76 65
65 84
45 116
58 76
45 97
53 100
49 105
78 77
73 73
68 78
  ______   _______   ______   ______   ______
__ __ __ ___ ___
Com os dados da tabela, responda os itens abaixo.
a) O diagrama de dispersão está construído abaixo, interprete-o.
b) Calcule o coeficiente de correlação linear entre x e y. O que se pode
concluir sobre a correlação de posse do valor de r?
Resp.: -0,86

c) Ajuste uma reta de regressão para a relação entre as variáveis y:


massa muscular (dependente) e x: idade (independente).
Resp.: Y=-1,04x+149,7

d) Considerando a reta estimada dada no item (c), estime a massa


muscular média de mulheres com 50 anos. Resp.: y=97,7

14
8. Os dados a seguir correspondem à variável renda familiar e gasto
com alimentação (em unidades monetárias) para uma amostra de 25
famílias.

Gasto com
Renda
Alimentação x y i i xi2 y i2
Familiar (xi)
(yi)
3 1,5
5 2,0
10 6,0
10 7,0
20 10,0
20 12,0
20 15,0
30 8,0
40 10,0
50 20,0
60 20,0
70 25,0
70 30,0
80 25,0
100 40,0
100 35,0
100 40,0
120 30,0
120 40,0
140 40,0
150 50,0
180 40,0
180 50,0
200 60,0
200 50,0
  _______   _______   _______   _______   _______
__ __ __ __ __

15
Faça o que se pede com o auxílio do Excel.
a) Faça o diagrama de dispersão e interprete-o.

b) Calcular o coeficiente de correlação entre essas variáveis. O que se


pode concluir sobre a correlação de posse do valor de r. r = 0,95

c) Obtenha a equação de regressão do gasto com alimentação em


função da renda familiar.
R: y = 0,26 x + 5,05

16
ANEXO

TABELA DE NÚMEROS ALEATÓRIOS (T.N.A.)

L/C 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
1 5 7 7 2 0 0 3 9 8 4 8 4 4 1 7 9 6 7 7 1 4 0 2 1 1
2 2 8 8 0 5 3 5 1 5 9 0 9 9 3 9 8 8 7 5 8 7 0 2 7 7
3 9 2 5 9 1 8 5 2 8 7 3 0 4 8 8 6 9 7 4 8 3 5 2 5 1
4 9 0 3 8 1 2 9 1 7 4 3 0 1 9 7 5 8 9 0 7 5 0 6 4 1
5 8 0 9 1 1 6 9 4 6 7 5 8 6 0 8 2 0 6 6 6 9 0 4 7 5
6 2 2 0 1 7 0 3 1 3 2 9 6 9 1 9 2 7 5 4 0 1 6 5 4 2
7 5 6 2 4 1 0 0 4 3 0 2 0 4 6 2 9 9 0 5 3 5 3 1 1 0
8 7 9 4 4 9 2 6 2 0 2 9 6 8 6 6 4 3 0 0 0 9 4 5 6 6
9 5 3 9 9 6 6 4 5 0 8 8 9 7 8 5 0 7 7 5 3 3 7 2 5 7
10 1 8 9 2 8 7 3 5 8 8 5 5 0 5 2 1 3 6 5 1 3 9 2 8 5
11 5 3 0 8 5 8 9 6 6 3 0 5 6 1 2 5 7 0 2 2 5 0 4 1 2
12 0 3 5 8 8 0 2 9 2 8 7 6 8 9 5 1 1 8 2 4 8 8 8 9 4
13 2 7 0 7 8 1 8 8 6 5 6 9 4 9 9 8 0 0 2 8 0 4 7 0 5
14 0 5 2 1 0 8 5 9 0 1 0 6 2 2 2 4 9 8 9 1 8 1 1 7 5
15 4 0 3 6 1 3 2 7 8 4 3 0 8 2 3 3 3 6 3 9 6 9 4 2 0
16 5 4 6 0 2 5 2 8 8 5 8 8 2 0 0 0 1 0 5 9 6 1 0 5 3
17 7 1 5 1 6 3 4 0 7 6 7 1 1 1 7 3 7 3 5 2 3 7 3 1 6
18 6 1 0 2 0 1 8 1 7 3 9 2 6 0 6 6 7 3 5 8 5 3 3 4 4
19 8 2 5 5 9 3 1 3 4 6 3 0 9 5 2 6 5 5 0 6 9 6 1 7 6
20 8 9 9 8 5 4 1 4 2 1 7 4 1 3 5 7 6 8 1 9 8 6 2 8 6
21 0 0 9 9 8 4 8 4 1 4 6 7 9 5 1 3 7 7 5 8 9 0 1 4 5
22 6 2 4 1 5 0 7 8 2 0 4 8 0 5 8 8 4 3 5 2 9 8 0 3 1
23 9 4 2 7 9 0 6 9 2 4 6 8 0 9 9 2 1 1 8 6 0 7 6 3 8
24 4 4 8 9 2 9 2 8 8 4 3 6 2 8 2 5 1 5 8 2 8 7 7 4 1
25 9 7 3 0 7 6 9 5 3 3 2 1 1 0 5 4 2 6 9 5 6 6 6 5 5
26 3 9 1 6 5 8 0 4 4 4 8 0 1 5 5 9 5 9 8 3 9 0 9 5 5
27 6 0 7 8 1 1 0 3 2 6 6 7 5 0 3 4 0 9 6 1 3 1 3 0 2
28 0 3 1 9 2 3 4 7 6 2 8 9 5 7 7 7 9 1 3 3 8 8 4 7 6
29 4 1 2 8 5 2 6 7 5 6 2 5 3 9 5 9 9 6 6 5 5 1 3 6 9
30 7 7 5 4 9 8 5 0 3 9 2 5 3 7 4 2 5 2 9 7 1 0 0 3 5
31 2 8 6 3 4 1 6 1 9 1 6 4 2 4 8 3 8 1 3 7 3 4 4 8 8
32 7 4 2 4 4 8 8 5 4 0 1 2 3 3 5 9 6 7 5 0 1 4 9 8 1
33 0 0 2 4 0 3 3 7 9 6 4 6 6 8 7 5 0 5 3 2 4 2 1 6 6
34 0 5 4 1 4 7 6 9 6 9 4 5 3 6 1 6 7 1 1 8 9 5 5 1 9
35 6 2 6 9 8 4 9 7 9 7 4 7 2 3 6 6 5 1 5 6 1 3 0 8 6

17
18

Você também pode gostar