Você está na página 1de 19

CORRELAÇÃO e

REGRESSÃO LINEAR
Docente Responsável
Dra. Carina Alexandra Rondini
carondini.pos@gmail.com
BIBLIOGRAFIA

BÁSICA:
- DANCEY, C.P., REIDY, J. Estatística sem matemática para psicologia. Porto
Alegre: Artmed, 2006. (Capítulos 5 e 11)
- LEVIN, J., FOX, J.A. Estatística para ciências humanas. São Paulo: Pearson
Prentice Hall, 2004. (Capítulos 10 e 11)
- VIEIRA, SONIA. Introdução à Bioestatística. 4ª ed. Rio de Janeiro: Elsevier, 2011.
Capítulos 6 e 7.

2
Questionamos ...

- Indivíduos altos também são C


mais pesados? O
R
- Os hábitos de ler e de assistir R
VARIÁVEIS E
televisão concorrem quanto ao
QUANTITATIVAS L
tempo de lazer? A
Ç
- A idade do motorista está Ã
associada a acidentes de carro? O

3
VARIÁVEIS NUMÉRICAS?

- Seus níveis estão associados com pontos numa escala


numérica.
Exemplos:
temperatura (vários graus de temperatura)
tempo (vários momentos diferentes)
comprimento (várias medidas diferentes) etc

4
VARIÁVEIS CORRELACIONADAS?

- O termo correlação significa relação nos dois sentidos:


descreve a relação entre duas variáveis.

- A correlação é usada quando se deseja estudar quão


consistentemente duas variáveis mudam em conjunto.

- Quando isso ocorre, dizemos que há uma correlação ou


uma covariação, cuja direção e magnitude podem ser
quantificadas.

5
CAUSA E EFEITO?

- O fato de existir uma correlação não significa que uma


variável seja causa ou conseqüência da outra.

Dezenas de fatos estão associados e não têm uma relação


de causa e efeito.

Exemplo: Escolaridade e renda per capita.

CUIDADO! 6
TIPOS DE RELAÇÕES E O DIAGRAMA
DE DISPERSÃO

7
O DIAGRAMA DE DISPERSÃO

O diagrama de dispersão, além de permitir visualizar


uma possível correlação nos dados observados (e que
tipo de correção), pode, também, indicar outros aspectos
relevantes na análise exploratória de dados como, por
exemplo, a presença de dados discrepantes (outliers).

8
FORÇA OU MAGNITUDE DO
RELACIONAMENTO

- O grau de um relacionamento linear entre duas


variáveis é medido por uma estatística chamada
coeficiente de correlação de Pearson.
- É denotado por r.
- Varia entre -1 e 1.
- É um teste paramétrico.

9
FORÇA OU MAGNITUDE DO RELACIONAMENTO

Valor de r

-1 0 1
sentido negativo ausência positivo

força forte moderado fraco fraco moderado forte

0 → ausência
± 0,1 a ± 0,3 → fraco
± 0,4 a ± 0,6 → moderado
± 0,7 a ± 0,9 → forte
±1 → perfeito
10
TESTE DE SIGNIFICÂNCIA SOBRE r

Para testar a existência de correlação entre duas variáveis


X e Y, a partir de uma amostra de observações pareadas (x,
y), devemos colocar a prova as seguintes hipóteses:

H0: As variáveis X e Y não são correlacionadas


H1: As variáveis X e Y são correlacionadas

11
COEFICIENTE DE DETERMINAÇÃO

- É interpretado como a
fração da variância que
é compartilhada entre
as duas variáveis.

- Mede a proporção da variação


em Y, que é explicada através
da variável independente X.

R2 = r2
12
PEARSON OU SPEARMAN?

O r de Pearson só é usado para dados contínuos. Se dados


ordinais estiverem envolvidos, deve-se utilizar técnicas
estatísticas para correlações não-paramétricas, calculando,
por exemplo, o coeficiente de correlação de postos de
Spearman (rs), cujos valores, similares aos do r, devem ser
interpretados da mesma forma.

13
Ajuste de uma regressão linear simples

Se a reta ajustada captar bem o padrão, fica sendo o modelo


matemático que descreve o fenômeno.

Poderemos então:
- Dizer que a quantidade de tempo de sono de ratos de
laboratório é função linear da dose de sonífero que
receberam.
- Predizer o tempo de sono de ratos de laboratório, quando
soubermos quanto de sonífero lhes foi administrado.
14
Ajuste de uma regressão linear simples

A regressão linear responde à pergunta:

“Quanto y irá mudar, se x mudar”?

Quer dizer, se x mudar em certo valor, poderemos


ter uma estimativa de quanto y mudará

15
A RETA DE MÍNIMOS QUADRADOS

Essa reta é desenhada no melhor lugar possível,


isto é, nenhuma outra reta encaixaria tão bem
aos dados. Por isso é chamada de reta de melhor
aderência, ou reta de mínimos quadrados.

O método determina a distância (entre a reta e cada ponto) do


diagrama de dispersão e eleva o resultado ao quadrado.
A reta considerada como a que melhor se ajusta é a que resulta na
menor soma dos quadrados dos afastamentos.

16
O MODELO DA REGRESSÃO
LINEAR SIMPLES

yˆ  a  b.x
- b é a inclinação da reta, representa a alteração esperada
em Y, a cada unidade de alteração em X (coeficiente
angular)
- a é o intercepto, porque é o valor que Y assume quando
a reta corta (intercepta) o eixo das ordenadas, ou seja,
quando x = 0 (coeficiente linear)
17
INTERPOLAÇÃO OU
EXTRAPOLAÇÃO?

Ao utilizar um modelo de regressão para fins de


previsão, é importante considerar somente o
intervalo da variável independente. Esse
intervalo engloba todos os valores de X
utilizados no desenvolvimento do modelo de
regressão. Portanto, ao prever Y para um
determinado valor de X, pode-se interpolar
dentre deste intervalo de valores
correspondentes a X, mas não deve-se extrapolar
além do intervalo dos valores referentes a X.
18
REGRESSÃO OU CORRELAÇÃO?

A regressão linear e a correlação estão relacionadas, mas são diferentes:


a regressão linear encontra a reta que melhor prevê Y em função de X,
ao passo que a correlação quantifica quão bem X e Y variam em
conjunto. Se houver dúvida na escolha, considere os seguintes pontos:
- Se X é controlado (tempo, por exemplo), não use correlação e sim
regressão linear.
- Use somente regressão linear se for possível determinar com clareza
qual variável é X e qual é Y, pois elas não são simétricas e se houver
inversão de eixos, obtêm-se resultados diferentes.
- São raros os casos em que faz sentido calcular ambas.
19

Você também pode gostar