Escolar Documentos
Profissional Documentos
Cultura Documentos
Correlação e Regressão
1. Correlação
Estabelecer a relação de variáveis pode ser importante em diversos momentos, na matemática
existem duas formas de estabelecer relação: relação funcional e a correlação. No estudo
estatístico, a relação entre duas ou mais variáveis denomina-se correlação. A utilidade e
importância das correlações entre duas variáveis podem conduzir à descoberta de novos
métodos, cujas estimativas são vitais em tomadas de decisões. Pode-se citar, por exemplo, a
relação entre a altura de uma criança e a sua idade.
1.1. Correlação linear:
É a correlação entre duas variáveis, cuja representação em um gráfico é uma reta ou
aproxima de uma reta. Essa reta (ou linha) é uma tendência das distribuições dos pontos em
um gráfico. Uma variável está relacionada com a outra se a mudança de uma provocar uma
mudança na outra. Por exemplo, aceleração e velocidade.
1.2. Diagrama de dispersão:
É um gráfico cartesiano em que cada um dos eixos corresponde às variáveis
correlacionadas. A variável dependente (y), ou seja, que pode mudar de acordo com a
mudança da variável independente (X), situa-se no eixo vertical e o eixo das abscissas é
reservado a variável independente.
Em síntese três situações marcantes poderiam acontecer:
Se, quando uma das variáveis “cresce”, a outra, em média, também “cresce", dizemos
que entre as duas variáveis existem correlação positiva, tanto mais forte quanto mais
perto de uma reta imaginária os pontos estiverem;
Se, quando uma das variáveis “cresce”, a outra, em média, também “decresce”,
dizemos que entre as duas variáveis existem correlação negativa, tanto mais forte
quanto mais perto de uma reta imaginária os pontos estiverem;
Se os pontos estiverem dispersos, sem definição de direção, dizemos que a correlação
é muito baixa, ou mesmo nula. As variáveis nesse caso são ditas não correlacionadas.
A configuração geométrica do diagrama de dispersão pode estar associada a uma linha rela
(correlação linear), uma linha curva (correlação curvilínea). A análise gráfica nem sempre é a
mais recomendada, para evitar qualquer erro existe uma medida numérica para suplementar o
gráfico: coeficiente de correlação linear (r);
1.3. Coeficiente de correlação:
Tem como objetivo de indicar o nível de intensidade que ocorre na correlação entre as
variáveis. A correlação poderá assumir valores positivos ou negativos. O sinal positivo do
coeficiente indica que o sentido da correlação corresponde a uma reta de inclinação
ascendente, e o negativo corresponde a uma reta de inclinação descendente. O coeficiente
mede o grau de ajustamento dos valores de uma reta. O coeficiente de correlação linear,
também conhecido por coeficiente de correlação de Pearson, que se representa por r, é
definido pela seguinte fórmula:
Onde:
r = coeficiente de Pearson
n = número de observações
Xi= variável independente
Yi = variável dependente
Os valores das correlações lineares poderão assumir valores entre o intervalo [-1, +1].
r = + 1 (Correlação positiva entre as variáveis)
r = - 1 (Correlação perfeita negativa entre as variáveis)
r = 0 (Não há correlação entre as variáveis ou, ainda, a correlação não é linear, caso
exista).
A relação poderá ser classificada de acordo com as correlações. Elas poderão ser classificadas
como fraca caso estejam próximos de “1” (seja o valor negativo ou positivo), ou poderão ser
classificadas como fracas se estiverem próximos de zero.
1.4. Pressuposições:
Para se calcular o coeficiente de correlação, são necessárias algumas pressuposições sejam
satisfeitas:
1.5. Exemplo
Uma pesquisa pretende verificar se há correlação significativa entre o peso total do lixo
descartado, por dia, numa empresa com o peso do papel contido nesse lixo.
Hotel H1 H2 H3 H4 H5 H6 H7 H8 H9 H10
Peso 10,4 19,85 21,2 24,3 27,38 58,09 33,61 35,75 38,33 49,14
total
Peso 2,4 5,12 6,88 6,22 8,84 8,76 7,54 8,47 9,55 11,43
do
papel
De acordo com o gráfico percebemos que o valor do peso do lixo corresponde a
variável independente, logo fazendo o gráfico de dispersão, temos:
Como foi dito anteriormente, o valor do coeficiente linear varia de -1 a +1. Como o
valor de r = 0,9206 ele indica que há uma forte correlação entre as variáveis, ou pode-se
afirmar que as duas variáveis são bem significativas. Portanto concluímos que existe uma
correlação entre o peso total do lixo descartado e o peso do papel contido no lixo.
2. Regressão
Muitas vezes, a simples visualização do diagrama de dispersão sugere a existência de
uma relação funcional entre as duas variáveis. Essa observação introduz o problema de se
determinar uma função que exprima esse relacionamento. A análise de regressão é uma
técnica estatística cujo escopo é investigar e modelar a relação entre variáveis. Considerando
que exista um relacionamento funcional entre os valores Y e X, responsável pelo aspecto do
diagrama, essa função deverá explicar parcela significativa da variação de Y com X.
Contudo, uma parcela da variação permanece inexplicada e deve ser atribuída ao acaso.
Colocando em outros termos, admite-se a existência de uma função que explica, em termos
médios, a variação de uma das variáveis com a variação da outra. Frequentemente, os pontos
observados apresentarão uma variação em torno da linha da função de regressão, devido à
existência de uma variação aleatória adicional denominada de variação residual.
2.1. Regressão linear
A relação entre duas variáveis em uma análise de regressão é expressa por uma
equação matemática chamada de modelo de regressão ou equação de regressão. Uma
equação de regressão, quando apresentada na forma de um gráfico, pode assumir um dentre
muitos formatos possíveis, incluindo uma linha reta. Uma equação da regressão, que fornece
uma relação de linha reta entre duas variáveis, é chamada de modelo de regressão linear;
caso não seja assim, o modelo é chamado de modelo de regressão não linear.
2.2. Gráfico de linhas
Nessa sessão estaremos mostrando como montar um gráfico de linhas. O primeiro
passo é saber os valores de X e Y. As variáveis podem ser classificadas segundo a sua
dependência, nesse caso temos duas variáveis (X e Y). A variável Y depende do
‘comportamento’ da variável independente X.
Para fazer o gráfico deve seguir uma sequência de passos que se segue:
Colete valores de Y;
Trace um sistema de eixos cartesianos, sendo que o X é o eixo da
abscissa e o Y das ordenadas;
Estabeleça as escalas;
Escreva o nome dos respectivos eixos;
Desenhe cada ponto como um par ordenado de (X, Y);
Uma os pontos por seguimento de retas;
E não poderia faltar, coloque o título.
2.3. Reta de regressão
Admitindo ser uma reta a linha teórica de regressão, a função entre X e Y é a seguinte:
Y =α + βx +e
Onde, Y é a variável dependente, x é a variável independente, α e β são os
coeficientes do modelo e e denota os erros ou resíduos da regressão.
Os coeficientes α e β da reta teórica são estimados através dos dados observados
fornecidos pela amostra, obtendo uma reta estimativa na forma:
^
y i=a+b x i
Abrir o Excel;
Ir em: Arquivo > Opções;
Na janela que abrir, selecionar guia: Suplementos;
Na próxima janela, ir para “Gerenciar” e clicar no botão “ir”;
Em “Suplementos” selecionar “Ferramentas de análise”.
Feito isso a funcionalidade “Analise de dados” estará disponível na aba “Dados”. Para
ilustrar o uso do Excel, vamos plotar a regressão linear do seguinte problema:
Problema 1: Os dados a seguir correspondem à variável renda familiar e gasto com
alimentação (em unidades monetárias) para uma amostra de 25 famílias.
3 1,5
5 2
10 6
10 7
20 10
20 12
20 15
30 8
40 10
50 20
60 20
70 25
70 30
80 25
100 40
100 35
100 40
120 30
120 40
140 40
150 50
180 40
180 50
200 60
200 50
Estatísticas da regressão
0,9540508
R 9
0,9102130
R² 9
0,9063093
R² Ajustado 1
5,2759214
Erro Padrão 1
n 25
ANOVA
df SS MS F Significância F
6490,14
Regressão 1 6490,147025 7 233,1620684 1,57412E-13
27,8353
Residual 23 640,2129754 5
Total 24 7130,36
Regressão simples
70
60
50
Series2
40 Linear (Series2)
Predicted
30
20
10
0
0 50 100 150 200 250
Normal Probability Plot
70
60
50
40
30
20
10
0
0 20 40 60 80 100 120
Sample Percentile
Residual Plot
15
10
5
Residuals
0
0 50 100 150 200 250
-5
-10
-15