Você está na página 1de 20

Estatística

Aula 5 - 4º Bimestre

Correlação e
Regressão

Curso de Medicina Profas


Faculdade Souza Marques
Claudia Beltri
Iniciação à Pesquisa Científica Flavia Moraes
(IPC)
Introdução

• Existem situações nas quais há interesse em estudar o


comportamento conjunto de duas ou mais variáveis;

• Em muitos casos, a explicação de um fenômeno de interesse


pode estar associado a outros fatores (variáveis) que
contribuem de algum modo para a ocorrência deste fenômeno.

• O comportamento conjunto de duas variáveis quantitativas


pode ser analisado por meio da análise de Correlação e
Regressão
Correlação e Regressão

• São duas técnicas estreitamente relacionadas, que analisam


uma relação que possa existir entre duas variáveis quantitativas
na população.

Correlação: resume o grau de relacionamento entre duas


variáveis (X e Y, por exemplo).

Regressão: tem como resultado uma equação matemática que


descreve o relacionamento entre variáveis.
A análise de correlação fornece um número que resume o grau
de relacionamento linear entre as duas variáveis.

Já a análise de regressão fornece uma equação que descreve


o comportamento de uma das variáveis em função do
comportamento da outra variável.
Procedimento para estudo da Correlação linear entre x e y:

1 - Explorar os dados: Diagrama de Dispersão


- Identificar x e y, ou seja, a variável dependente (xy e a independente
(x);
- Montar a tabela de pares ordenados (x,y) de cada unidade de
análise;
- Fazer o gráfico de dispersão;

2- Calcular o Coeficiente de correlação linear de Pearson

3-;Realizar o teste de hipótese para a Correlação


- testar se a correlação observada na amostra é estatisticamente
significativa, ou seja, se ela existe ra população.
Passo 1- Diagrama (Gráfico) de Dispersão

É o gráfico utilizado para observar o comportamento conjunto de duas variáveis, a variável


independente é representada no eixo x e a variável dependente (a que queremos explicar) é
representada no eixo y.
Passo 2- Cálculo o Coeficiente de correlação linear de Pearson

Apesar do diagrama de dispersão nos fornecer uma idéia do tipo e extensão do


relacionamento entre duas variáveis X e Y, seria desejável ter um número que mensure
esta relação.
Esta medida é denominada de Coeficiente de Correlação Linear de Pearson e é
definida por:

Coeficiente de correlação amostral é indicado pela letra r.


Coeficiente de correlação populacional é indicado pela letra ρ (rho).

O valor de “r” estará sempre no intervalo de -1 a 1.


Interpretando os valores de r

Fonte: http://leg.ufpr.br/~silvia/CE003/node74.html

Obs.: Existem várias classificações de diferentes autores


As propriedades mais importantes do coeficiente de correlação linear (r) são:

1. O intervalo de variação: -1 ≤ r ≤ 1
2. O coeficiente de correlação é uma medida adimensional, isto é, ele é independente das unidades
de medida das variáveis X e Y.
3. Quanto mais próximo de +1 for “r”, maior o grau de relacionamento linear positivo entre X e Y;
4. Quanto mais próximo de -1 for “r”, maior o grau de relacionamento linear negativo entre X e Y;
5. Quanto mais próximo de zero estiver “r” menor (mais fraco) será o relacionamento linear entre X e
Y.
Se existe uma relação linear realizar:
Passo 3 - o teste de hipótese para a Correlação
Para o nosso exemplo queremos testar se existe ou não correlação linear entre X= altura
e Y = peso.
Vamos verificar se existe relacionamento linear entre as duas variáveis ao nível de 5%
de significância.

a) As hipóteses a serem testadas são:


H0: ρ = 0 (Não existe relação linear na população)
H1: ρ ≠ 0 (Existe relação linear na população) (teste bilateral)
b) Nível de significância do teste, ou erro tipo I (α = 5%)
c) Cálculo Teste estatístico (usa a fórmula da estatística teste)
d) Regra de Decisão:
- Compara o valor calculado com o valor tabelado
ou
- Compara o p-valor com o nível significância
Se p-valor< α
Voltando ao exemplo do estudo sobre a relação entre peso e altura, temos:

Coeficiente de Correlação de Pearson


r = 0,96 forte correlação linear positiva
ou seja, no grupo observado (amostra) existe relação linear positiva
forte entre peso e altura
Análise de Regressão linear simples entre x e y
• Quando analisamos dados que sugerem a existência de uma relação linear
entre duas variáveis, surge então o problema de se determinar uma função
matemática que exprima essa relação, ou seja, uma equação de
regressão.

• Estamos interessados numa função que explique grande parte da variação


de Y por X. Entretanto, uma parcela da variabilidade de Y não explicada por X
será atribuída ao acaso, ou seja, ao erro aleatório.

• Quando se estuda a variação de uma variável Y em função de uma variável


X, dizemos que Y é a variável dependente e que X é a variável explanatória
(ou independente).
O modelo em que busca explicar uma variável Y como uma função linear de
apenas uma variável X é denominado de modelo de regressão linear
simples que é representado por uma equação do tipo:

y=a+bx

Equação da reta:
y = valor de uma observação no eixo y
x = valor de uma observação no eixo x
a = intercepto da regressão (o valor de y quando o valor de x é zero)
b = inclinação (a variação no valor de y quando o valor de x varia uma unidade)

a e b são os parâmetros da de regressão linear simples


Estimativa dos parâmetros de regressão

Se fosse conhecido toda a população de valores (Xi, Yi) então seria


possível determinar os valores exatos dos parâmetros α e β. Como em
geral se trabalha com amostras, é necessário estimar estes parâmetros
com base nos valores da amostra.

Existem alguns métodos para ajustar uma linha (uma RETA) entre as
variáveis X e Y o mais utilizado é o denominado método dos mínimos
quadrados (MMQ).

O método dos mínimos quadrados exige que os estimadores a e b sejam escolhidos


de tal forma que a soma dos quadrados dos desvios dos mesmos em relação à reta
de regressão ajustada seja mínima.

Obs: O MMQ não será abordado nesta aula/disciplina.


b a

A inclinação (b) foi de 1,16, significando que havia um aumento médio de 1,16
Kg de peso para cada 1 cm de aumento na altura
Coeficiente de Determinação (r2 )
O coeficiente de determinação é uma medida da proporção da variação de Y que
pode ser explicada por variações em X, segundo o modelo de regressão
especificado.

• Quanto mais próximo de 1 estiver o coeficiente de determinação, melhor será o grau


de explicação da variação de Y em termos da variável X.

• É uma medida sempre positiva, e é obtida, na regressão linear simples, elevando-se o


coeficiente de correlação de pearson ao quadrado.

No exemplo:
coeficiente de determinação (r2)
r2 = 0,92 indicando que 92% da variação peso é “explicada” pela altura
e os outros 8% por fatores (variáveis) desconhecidas.

Você também pode gostar