Você está na página 1de 11

Universidade Estadual da Paraíba

Centro de Ciência e Tecnologia


Departamento de Computação
Componente curricular: Probabilidade e estatística II
Alunos: Lucas Miranda e Melquisedec Andrade

Correlação e Regressão

1. Correlação
Estabelecer a relação de variáveis pode ser importante em diversos momentos, na matemática
existem duas formas de estabelecer relação: relação funcional e a correlação. No estudo
estatístico, a relação entre duas ou mais variáveis denomina-se correlação. A utilidade e
importância das correlações entre duas variáveis podem conduzir à descoberta de novos
métodos, cujas estimativas são vitais em tomadas de decisões. Pode-se citar, por exemplo, a
relação entre a altura de uma criança e a sua idade.
1.1. Correlação linear:
É a correlação entre duas variáveis, cuja representação em um gráfico é uma reta ou
aproxima de uma reta. Essa reta (ou linha) é uma tendência das distribuições dos pontos em
um gráfico. Uma variável está relacionada com a outra se a mudança de uma provocar uma
mudança na outra. Por exemplo, aceleração e velocidade.
1.2. Diagrama de dispersão:
É um gráfico cartesiano em que cada um dos eixos corresponde às variáveis
correlacionadas. A variável dependente (y), ou seja, que pode mudar de acordo com a
mudança da variável independente (X), situa-se no eixo vertical e o eixo das abscissas é
reservado a variável independente.
Em síntese três situações marcantes poderiam acontecer:
 Se, quando uma das variáveis “cresce”, a outra, em média, também “cresce", dizemos
que entre as duas variáveis existem correlação positiva, tanto mais forte quanto mais
perto de uma reta imaginária os pontos estiverem;
 Se, quando uma das variáveis “cresce”, a outra, em média, também “decresce”,
dizemos que entre as duas variáveis existem correlação negativa, tanto mais forte
quanto mais perto de uma reta imaginária os pontos estiverem;
 Se os pontos estiverem dispersos, sem definição de direção, dizemos que a correlação
é muito baixa, ou mesmo nula. As variáveis nesse caso são ditas não correlacionadas.
A configuração geométrica do diagrama de dispersão pode estar associada a uma linha rela
(correlação linear), uma linha curva (correlação curvilínea). A análise gráfica nem sempre é a
mais recomendada, para evitar qualquer erro existe uma medida numérica para suplementar o
gráfico: coeficiente de correlação linear (r);
1.3. Coeficiente de correlação:
Tem como objetivo de indicar o nível de intensidade que ocorre na correlação entre as
variáveis. A correlação poderá assumir valores positivos ou negativos. O sinal positivo do
coeficiente indica que o sentido da correlação corresponde a uma reta de inclinação
ascendente, e o negativo corresponde a uma reta de inclinação descendente. O coeficiente
mede o grau de ajustamento dos valores de uma reta. O coeficiente de correlação linear,
também conhecido por coeficiente de correlação de Pearson, que se representa por r, é
definido pela seguinte fórmula:

Onde:
r = coeficiente de Pearson
n = número de observações
Xi= variável independente
Yi = variável dependente
Os valores das correlações lineares poderão assumir valores entre o intervalo [-1, +1].
 r = + 1 (Correlação positiva entre as variáveis)
 r = - 1 (Correlação perfeita negativa entre as variáveis)
 r = 0 (Não há correlação entre as variáveis ou, ainda, a correlação não é linear, caso
exista).
A relação poderá ser classificada de acordo com as correlações. Elas poderão ser classificadas
como fraca caso estejam próximos de “1” (seja o valor negativo ou positivo), ou poderão ser
classificadas como fracas se estiverem próximos de zero.
1.4. Pressuposições:
Para se calcular o coeficiente de correlação, são necessárias algumas pressuposições sejam
satisfeitas:

1) A correlação exige que as variáveis sejam quantitativas (contínuas ou discretas). Não


faz sentido utilizar a correlação de Pearson (r) para dados categóricos já que é
impossível calcular o desvio padrão da variável sexo, por exemplo.
2) Os valores observados precisam estar normalmente distribuídos. Dessa forma,
assume-se que:
N (μ, σ)
Esse pressuposto é especialmente importante em amostras pequenas (N<40). Isso
porque, a partir do Teorema do Limite Central, sabe-se que na medida em que o
número de observações aumenta, a distribuição das médias amostrais se aproxima da
curva normal, independente do formato da distribuição dos dados na população.
3) Faz-se necessário uma análise de valores atípicos, o coeficiente de correlação é
fortemente afetado pela presença deles. A presença de valores atípicos pode
comprometer fortemente as estimativas dos pesquisadores, levando inclusive a
cometer erros do tipo I ou do tipo II.
4) Faz-se necessária a independência das observações, ou seja, a ocorrência de uma
observação X1 não influencia a ocorrência de outra observação X 2. A violação desta
orientação implica risco de assumir correlações espúrias.

1.5. Exemplo
Uma pesquisa pretende verificar se há correlação significativa entre o peso total do lixo
descartado, por dia, numa empresa com o peso do papel contido nesse lixo.
Hotel H1 H2 H3 H4 H5 H6 H7 H8 H9 H10
Peso 10,4 19,85 21,2 24,3 27,38 58,09 33,61 35,75 38,33 49,14
total
Peso 2,4 5,12 6,88 6,22 8,84 8,76 7,54 8,47 9,55 11,43
do
papel
De acordo com o gráfico percebemos que o valor do peso do lixo corresponde a
variável independente, logo fazendo o gráfico de dispersão, temos:

Para verificar o grau de correlação entre as variáveis, calcula-se o coeficiente de


correlação linear pela formula apresentada anteriormente:
Peso total Peso papel Xi² Yi² Xi*Yi
H1 10,47 2,4 109,62 5,90 25,4421
H2 19,85 5,12 394,02 26,21 101,632
H3 21,20 6,88 449,44 47,33 145,856
H4 24,30 6,22 590,49 38,69 151,146
H5 27,38 8,84 749,66 78,15 242,0392
H6 58,09 8,76 3374,45 76,74 508,8684
H7 33,61 7,54 1129,63 56,85 253,4194
H8 35,75 8,47 1278,06 71,74 302,8025
H9 38,33 9,55 1469,19 91,20 366,0515
H10 49,14 11,43 2414,74 130,64 561,6702
∑ 318,12 75,24 11959,31 623,47 2658,93

Pela formula da correlação temos:

Como foi dito anteriormente, o valor do coeficiente linear varia de -1 a +1. Como o
valor de r = 0,9206 ele indica que há uma forte correlação entre as variáveis, ou pode-se
afirmar que as duas variáveis são bem significativas. Portanto concluímos que existe uma
correlação entre o peso total do lixo descartado e o peso do papel contido no lixo.
2. Regressão
Muitas vezes, a simples visualização do diagrama de dispersão sugere a existência de
uma relação funcional entre as duas variáveis. Essa observação introduz o problema de se
determinar uma função que exprima esse relacionamento. A análise de regressão é uma
técnica estatística cujo escopo é investigar e modelar a relação entre variáveis. Considerando
que exista um relacionamento funcional entre os valores Y e X, responsável pelo aspecto do
diagrama, essa função deverá explicar parcela significativa da variação de Y com X.
Contudo, uma parcela da variação permanece inexplicada e deve ser atribuída ao acaso.
Colocando em outros termos, admite-se a existência de uma função que explica, em termos
médios, a variação de uma das variáveis com a variação da outra. Frequentemente, os pontos
observados apresentarão uma variação em torno da linha da função de regressão, devido à
existência de uma variação aleatória adicional denominada de variação residual.
2.1. Regressão linear
A relação entre duas variáveis em uma análise de regressão é expressa por uma
equação matemática chamada de modelo de regressão ou equação de regressão. Uma
equação de regressão, quando apresentada na forma de um gráfico, pode assumir um dentre
muitos formatos possíveis, incluindo uma linha reta. Uma equação da regressão, que fornece
uma relação de linha reta entre duas variáveis, é chamada de modelo de regressão linear;
caso não seja assim, o modelo é chamado de modelo de regressão não linear.
2.2. Gráfico de linhas
Nessa sessão estaremos mostrando como montar um gráfico de linhas. O primeiro
passo é saber os valores de X e Y. As variáveis podem ser classificadas segundo a sua
dependência, nesse caso temos duas variáveis (X e Y). A variável Y depende do
‘comportamento’ da variável independente X.
Para fazer o gráfico deve seguir uma sequência de passos que se segue:
 Colete valores de Y;
 Trace um sistema de eixos cartesianos, sendo que o X é o eixo da
abscissa e o Y das ordenadas;
 Estabeleça as escalas;
 Escreva o nome dos respectivos eixos;
 Desenhe cada ponto como um par ordenado de (X, Y);
 Uma os pontos por seguimento de retas;
 E não poderia faltar, coloque o título.
2.3. Reta de regressão
Admitindo ser uma reta a linha teórica de regressão, a função entre X e Y é a seguinte:
Y =α + βx +e
Onde, Y é a variável dependente, x é a variável independente, α e β são os
coeficientes do modelo e e denota os erros ou resíduos da regressão.
Os coeficientes α e β da reta teórica são estimados através dos dados observados
fornecidos pela amostra, obtendo uma reta estimativa na forma:
^
y i=a+b x i

Onde, α é a estimativa do coeficiente α (α^ =a); b é a estimativa de β ( ^β=a); ^


yi é o
valor estimado da variável dependente e x i é o valor observado da variável independente.
Existem vários métodos para a obtenção da reta desejada. O mais simples de todos,
que podemos chamar de “método do ajuste visual”, consiste simplesmente em traçar
diretamente a reta, com auxílio de uma régua, no diagrama de dispersão, procurando fazer, da
melhor forma possível, com que essa reta, passe por entre os pontos. Entretanto, esse
procedimento subjetivo, somente será razoável se a correlação linear for muito forte. Um dos
procedimentos objetivos mais adequados é a aplicação do método dos mínimos quadrados,
segundo o qual a reta a ser adotada deverá ser aquela que torna mínima a soma dos quadrados
dos erros ou resíduos da regressão.
Em estatística, o coeficiente angular b da reta é obtido por meio da fórmula:
b=∑ xy−¿ ¿ ¿ ¿

E o coeficiente linear é obtido por meio da fórmula:


a= y−b x
Em que y e x são as médias de x e y , respectivamente.

2.4. Escolha da variável explanatória


Nem sempre os valores de X são fixados no início do trabalho. Nesse caso, tanto se pode
ajustar a regressão de Y contra X, como a regressão de X contra Y, porém é recomendado
que identificasse a variável que deve ser prevista, conhecendo o valor da outra variável e
ajustar a regressão de Y contra X toda vez que se pretende estudar a variável de Y (prever Y)
em função da variação de X.

2.5. Coeficiente de determinação


Também chamado de R², é uma medida de ajustamento de uma modelo estatístico linear
generalizado, com a regressão linear, em relação aos valores observados. O R² varia entre 0 e
1. Quanto maior o valor de R², mais explicativo é modelo, ou seja, mais ele se ajusta à
amostra. O coeficiente de determinação é a proporção de Y explicada pela variação de X.
Para ter uma melhor interpretação do coeficiente recomenda-se transforma-lo em
porcentagem.

3. Outros tipos de regressão


Nem sempre a distribuição dos pares das variáveis X e Y apresenta em diagrama de
dispersão uma reta, elas poderão ter comportamentos diferentes de uma reta.
O modelo de regressão é multivariado quando envolve uma relação causal com mais de
duas variáveis. Isto é, quando o comportamento de Y é explicado por mais de uma variável
independe X1, X2,..., Xn. Os modelos simples ou multivariados simulam relacionamentos
entre as variáveis. Esse relacionamento poderá ser do tipo linear (equação da reta ou do
plano) ou não linear (equação exponencial, geométrica, etc.). A análise de regressão
compreende, portanto quatro tipos básicos de modelos:
 Linear simples;
 Linear multivariado;
 Não linear simples;
 Não linear multivariado.

4. Regressão simples no Excel


Podemos utilizar o Excel para fazer análise de regressão. Antes de tudo é preciso
habilitar a ferramenta de análise que já vem instalada no programa. Para isso devemos
proceder:

 Abrir o Excel;
 Ir em: Arquivo > Opções;
 Na janela que abrir, selecionar guia: Suplementos;
 Na próxima janela, ir para “Gerenciar” e clicar no botão “ir”;
 Em “Suplementos” selecionar “Ferramentas de análise”.
Feito isso a funcionalidade “Analise de dados” estará disponível na aba “Dados”. Para
ilustrar o uso do Excel, vamos plotar a regressão linear do seguinte problema:
Problema 1: Os dados a seguir correspondem à variável renda familiar e gasto com
alimentação (em unidades monetárias) para uma amostra de 25 famílias.

Renda Familiar Gasto com


(X) Alimentação (Y)

3 1,5
5 2
10 6
10 7
20 10
20 12
20 15
30 8
40 10
50 20
60 20
70 25
70 30
80 25
100 40
100 35
100 40
120 30
120 40
140 40
150 50
180 40
180 50
200 60
200 50

Primeiramente, inserimos os dados numa planilha do Excel:


A seguir, clicamos na aba “Dados” e clicamos em “Análise de dado”:

Selecionamos a ferramenta “Regressão”, selecionamos os intervalos de X e Y. Podemos pedir


para a ferramenta gerar análise residual, plotar o gráfico de resíduos, etc.
Finalmente, temos a análise realizada:

Os resultados completos do estudo podem ser visto a seguir:


Relatório

Estatísticas da regressão
0,9540508
R 9
0,9102130
R² 9
0,9063093
R² Ajustado 1
5,2759214
Erro Padrão 1
n 25

ANOVA
df SS MS F Significância F
6490,14
Regressão 1 6490,147025 7 233,1620684 1,57412E-13
27,8353
Residual 23 640,2129754 5
Total 24 7130,36

Regressão simples
70

60

50
Series2
40 Linear (Series2)
Predicted
30

20

10

0
0 50 100 150 200 250
Normal Probability Plot
70
60
50
40
30
20
10
0
0 20 40 60 80 100 120
Sample Percentile

Residual Plot
15

10

5
Residuals

0
0 50 100 150 200 250
-5

-10

-15

Você também pode gostar