Você está na página 1de 39

Introdução à Probabilidade e

à Estatística

Prof. Igor

1
Associação entre Variáveis Quantitativas

Até agora, examinamos os métodos numéricos utilizados


para sintetizar os dados para uma variável de cada vez.

Frequentemente, um tomador de decisões está interessado


na relação entre duas variáveis.

2
Associação entre Variáveis Quantitativas

Diagrama de Dispersão
Covariância
Correlação
Regressão Linear Simples

3
Associação entre Variáveis Quantitativas

Idade Colesterol (mg/dL)


27 35 211,8 226,4
32 33 220,6 220,7
42 37 234,0 223,4
42 48 233,2 241,3
27 30 177,6 215,9
49 53 238,6 250,2
50 52 246,1 247,5
50 46 242,2 234,7 Qual a relação entre a idade e
48 43 236,1 233,6 o nível de colesterol?
35 34 222,7 222,4
41 28 233,0 207,0
36 47 222,8 240,0
27 51 203,4 246,5
40 52 227,6 249,4
55 47 267,6 234,8
29 34 215,6 224,1
53 41 256,0 233,9
56 54 272,2 262,0
54 56 258,0 278,5
30 31 218,2 218,9 4
Diagrama de dispersão

280,0
Colesterol (mg/dL)

260,0

240,0

220,0

200,0
25 30 35 40 45 50 55 60
Idade
5
Diagrama de Dispersão

◼ Um diagrama de dispersão é uma apresentação gráfica


da relação entre duas variáveis quantitativas.

◼ Uma variável é mostrada no eixo horizontal e a outra


variável é mostrada no eixo vertical.

◼ O padrão geral dos pontos representados sugere a


relação geral entre as variáveis.

6
◼ Percepções obtidas a partir do diagrama de dispersão
anterior

O diagrama de dispersão indica uma relação positiva


entre a idade e o valor do colesterol.

A relação não é perfeita; todos os pontos representados


no diagrama de dispersão não estão em uma linha reta.

7
Diagrama de dispersão

◼ Uma relação positiva

8
Diagrama de dispersão

◼ Uma relação negativa

9
Diagrama de dispersão

◼ Sem relação aparente

10
Medidas de Associação entre Variáveis
Quantitativas

Duas medidas descritivas da relação entre duas variáveis


são a covariância e o coeficiente de correlação.

11
Covariância

A covariância é a medida da associação linear entre


duas variáveis.

Valores positivos indicam uma associação linear


positiva.

Valores negativos indicam uma associação linear


negativa.

12
Covariância

A covariância é calculada da seguinte maneira:

 ( xi − x )( yi − y ) covariância
sxy =
n −1 amostral

 ( xi −  x )( yi −  y ) covariância
 xy = populacional
N

13
Correlação

A correlação é medida em níveis percentuais.

A correlação é uma medida de associação linear e não


necessariamente de causa.

Apenas porque duas variáveis são altamente


correlacionadas, isso não significa que alterações em
uma variável seja a causa de alterações em outra.

14
Correlação

https://www.fastcompany.com/30305
29/hilarious-graphs-prove-that-
correlation-isnt-causation

15
Coeficiente de correlação

O coeficiente de correlação é calculado do seguinte modo:


sxy  xy
rxy =  xy =
sx s y  x y

Coeficiente Coeficiente
de correlação de correlação
amostral populacional

16
Coeficiente de correlação

O coeficiente de correlação varia entre -1 e +1.

Valores próximos de -1 indicam forte relação linear


negativa.

Valores próximos de +1 indicam forte relação linear


positiva.

Quanto mais próxima a correlação estiver de zero,


mais fraca será a relação.

17
Covariância e Coeficiente de Correlação

Idade Colesterol (mg/dL)


27 35 211,8 226,4
32 33 220,6 220,7
42 37 234,0 223,4
42 48 233,2 241,3
27 30 177,6 215,9
49 53 238,6 250,2
50 52 246,1 247,5 Idade Colesterol
50 46 242,2 234,7 Desvio 9,62 19,69
48 43 236,1 233,6 Covariância 175,59
35 34 222,7 222,4 Correlação 92,68%
41 28 233,0 207,0
36 47 222,8 240,0
27 51 203,4 246,5
40 52 227,6 249,4
55 47 267,6 234,8
29 34 215,6 224,1
53 41 256,0 233,9
56 54 272,2 262,0
54 56 258,0 278,5
30 31 218,2 218,9 18
Regressão Linear Simples

◼ A análise de regressão pode ser utilizada para desenvolver


uma equação que demonstre como as variáveis se
relacionam.

◼ A regressão linear simples envolve uma variável


independente e uma variável dependente.
◼ A relação entre as duas variáveis se aproxima de uma
linha reta.
◼ A análise de regressão envolvendo duas ou mais variáveis
independentes é chamada análise de regressão múltipla.

19
Regressão Linear Simples

Exemplo: as vendas da Reed Auto


A Reed Auto, de tempos em tempos, tem um
período de vendas especial, com duração de uma
semana.
Como parte da campanha publicitária, a Reed
veicula um ou mais comerciais de televisão durante o
fim de semana anterior às vendas. Os dados de uma
amostra de 5 vendas anteriores são apresentados no
próximo slide.

20
Regressão Linear Simples

Exemplo: as vendas da Reed Auto

Número de Número de
anúncios na carros
TV (x) vendidos (y)
1 14
3 24
2 18
1 17
3 27

21
Diagrama de Dispersão e a Equação de Regressão Estimada

Reta de regressão estimada para as vendas da Reed Auto


30
25
Carros Vendidos

20
y = 5x + 10
15
10
5
0
0 1 2 3 4
Anúncios de TV

22
Modelo Teórico de Regressão Linear Simples

◼ A equação que descreve como y está relacionado a x e


a uma parcela de erro é chamada modelo de regressão.
◼ O modelo teórico de regressão linear simples é:

y = b0 + b1x +e

onde:
b0 e b1 são chamados parâmetros do modelo
e é uma variável aleatória chamada parcela de erro

23
Equação de Regressão Estimada

A equação de regressão linear simples estimada é:

ŷ = b0 + b1 x

• O gráfico é chamado reta de regressão estimada.


• b0 é o intercepto y da reta.
• b1 é a inclinação da reta.
• ŷ é o valor estimado de y para um determinado valor
de x.

24
Processo de estimação
Dados amostrais:
Modelo de regressão x y
y = b0 + b1x +e x1 y1
Equação de regressão x2 y2
E(y) = b0 + b1x . .
Parâmetros desconhecidos . .
b 0, b 1 . .
xn yn

Equação de
b0 e b1 regressão estimada
fornecem estimativas de ŷ = b0 + b1 x
b0 e b1 Estatísticas amostrais
b0, b1

25
Processo de estimação

Inclinação da equação de regressão estimada

b1 =  ( x − x )( y − y )
i i

 (x − x )
i
2

onde:
xi = valor da variável independente para a i-ésima
observação
yi = valor da variável dependente para a i-ésima
_ observação
x = valor médio da variável independente
_
y = valor médio da variável dependente

26
Processo de estimação

Intercepto y para a equação de regressão estimada

b0 = y − b1 x

27
Processo de estimação

Exemplo: as vendas da Reed Auto


Número de Número de
anúncios na carros
TV (x) vendidos (y)
1 14
3 24
2 18
1 17
3 27
Sx = 10 Sy = 100
x=2 y = 20

28
Processo de estimação

Inclinação da equação de regressão estimada

b1 =  ( x − x )( y − y ) 20
i i
= =5
 (x − x )i
2
4

Intercepto y da equação de regressão estimada


b0 = y − b1 x = 20 − 5(2) = 10
Equação de regressão estimada
yˆ = 10 + 5x

29
Diagrama de Dispersão e a Equação de Regressão Estimada

Reta de regressão estimada para as vendas da Reed Auto


30
25
Carros Vendidos

20
y = 5x + 10
15
10
5
0
0 1 2 3 4
Anúncios de TV

30
Coeficiente de Determinação

Relação entre SQTot, SQReg, SQRes

SQTot = SQReg + SQRes

 i
( y − y ) 2
=  i
( ˆ
y − y ) 2
+  i i
( y − ˆ
y ) 2

onde:
SQTot = soma dos quadrados total
SQReg = soma dos quadrados da regressão
SQRes = soma dos quadrados dos resíduos

31
Coeficiente de Determinação

O coeficiente de determinação é:

r2 = SQReg/SQTot

onde:
SQReg = soma dos quadrados da regressão
SQTot = soma dos quadrados total

32
Coeficiente de Determinação

r2 = SQReg/SQTot = 100/114 = 0,8772


A relação de regressão é muito forte; 87,72% da
variabilidade no número de carros vendidos pode
ser explicada pela relação linear entre o número de
anúncios na TV e o número de carros vendidos.

33
Coeficiente de Correlação Amostral

rxy = (sinal de b1 ) Coeficiente de Determinação


rxy = (sinal de b1 ) r2

onde:
b1 = a inclinação da equação de regressão estimada
yˆ = b0 + b1 x

34
Coeficiente de Correlação Amostral

rxy = (sinal de b1 ) r 2

O sinal de b1 na equação yˆ = 10 + 5x é “+”.

rxy = + 0,8772

rxy = +0,9366

35
Exemplo: consumo de cerveja e temperatura

Y: consumo de cerveja diário por mil habitantes, em litros.


X: temperatura máxima (em ºC).

As variáveis foram observadas em nove localidades com as


mesmas características demográficas e socioeconômicas.

36
Exemplo: consumo de cerveja e temperatura

Dados:
Localidade Temperatura Consumo
(X) (Y)

1 16 290
2 31 374
3 38 393
4 39 425
5 37 406
6 36 370
7 36 365
8 22 320
9 10 269

37
Exemplo: consumo de cerveja e temperatura
450
430
y = 4,7385x + 217,37
410 R² = 0,9246
390
370
Consumo

350
330
310
290
270
250
0 5 10 15 20 25 30 35 40 45
Temperatura

38
Exemplo: consumo de cerveja e temperatura

Qual é a interpretação de b?
Aumentando-se um grau na temperatura (X), o consumo de
cerveja (Y) aumenta, em média, 4,74 litros por mil habitantes.

Qual é o consumo previsto para uma temperatura de 25ºC?


𝑌෠ = 217,37 + 4,74 × 25 = 335,87 litros/mil hab

39

Você também pode gostar