Você está na página 1de 13

ESTATÍSTICA APLICADA

ESTATÍSTICA APLICADA

Graduação

1
ESTATÍSTICA APLICADA

CORRELAÇÃO E REGRESSÃO
UNIDADE 8
Estudaremos, nesta unidade, o comportamento de uma variável em
relação à outra através de uma equação linear e a relação existente entre
elas e aprenderemos também, como estimar valores para duas variáveis.

OBJETIVOS DA UNIDADE:
Ajustar uma reta a um conjunto de dados e determinar a equação da
reta que constitui o melhor ajuste.

Calcular e classificar o grau de correlação existente entre duas variáveis.

PLANO DA UNIDADE:
• Correlação.

• Regressão.

• Métodos dos Mínimos Quadrados.

Bons estudos!

83
UNIDADE 8 - CORRELAÇÃO E REGRESSÃO

CORRELAÇÃO
Quando precisamos estudar a relação existente entre duas variáveis,
por exemplo, peso e altura, com o objetivo de identificar o comportamento
entre essas variáveis, podemos representá-las graficamente e verificar a
dispersão existente entre elas. Para medir esta dispersão temos o
Coeficiente de Correlação.

Hoje, com o auxílio da informática podemos rapidamente construir um


gráfico de dispersão. Não havendo uma ferramenta computacional para
facilitar este processo, é bem simples construí-lo manualmente.
EXEMPLIFICANDO

Dada as variáveis X e Y, construa um gráfico de dispersão para representá-las.

1o Trace o sistema de eixos cartesianos.

2o Relacione as variáveis aos eixos.

Eixos das abcissas – Variável X.

Eixo das ordenadas – Variável Y.

3 Represente com um ponto, cada par de valores.


o

84
ESTATÍSTICA APLICADA

O gráfico de dispersão mostra o comportamento entre as duas


variáveis, isto é, se estão relacionadas. Como se comportam? Se X cresce, Y
também cresce? Para respondermos estas perguntas, precisamos calcular o
Coeficiente de Correlação de Pearson - r.

Para o exemplo, qual valor de r?

O que significa r=0,90? Significa que existe uma forte relação positiva
entre as variáveis X e Y, ou seja, quando X cresce Y também cresce.

· Intervalo de Variação de r

Os valores de r estão compreendidos dentro de um intervalo que varia de -


1 a +1 ou seja, -1 r +1.

· Possíveis valores de r.

85
UNIDADE 8 - CORRELAÇÃO E REGRESSÃO

Para entender o significado do valor de r, não basta apenas conhecer


r, é preciso uma análise profunda entre as variáveis. O valor indica o tipo de
relação existente, com isso, o pesquisador pode se aprofundar no sentido
de estudar a real relação entre essas variáveis. Vários fatores podem, num
dado momento, fazer com que variáveis que aparentemente possuiriam uma
EXEMPLIFICANDO
forte relação não atingir esse resultado. Esses fatores podem ser de causas
externas, naturais, etc. É preciso sensibilidade e conhecimento do estudo
que está sendo feito para permitir uma boa análise dos resultados.

Foi feito um levantamento com 10 jovens atletas para verificar se existe


relação entre o consumo de proteínas e a perda de peso, no período de 1
semana. Os dados revelados são:

86
ESTATÍSTICA APLICADA

Gráfico de dispersão

Coeficiente de correlação r = 0,097

Conclusão: se o atleta fizer uma dieta à base somente de proteínas, com o


r calculado podemos verificar que o grau de correlação é quase nula, ou
seja, r é muito próximo de zero. Mas somente com este resultado, é possível
afirmarmos que não existe realmente nenhuma relação entre as variáveis?
É preciso conhecer uma série de fatores para se chegar a uma conclusão
precisa. O que concluímos com isso? O objetivo é demonstrar que não basta
somente obter o valor de r, é preciso ter conhecimento de vários outros
fatores que envolvem a variável em estudo. A aplicação da teoria da relação
entre as variáveis necessita de fatores externos para uma análise precisa
do fato em estudo. É necessário que tenhamos muito cuidado ao afirmarmos
que variáveis que possuem forte relação entre elas, somente o valor de r
basta para comprovar esta relação.

87
UNIDADE 8 - CORRELAÇÃO E REGRESSÃO

REGRESSÃO
O modelo de regressão serve para permitir que possamos examinar o
comportamento de uma variável em relação à outra, ou seja, verificar a
existência de relação entre as variáveis. Por exemplo, existe relação entre:

1. Valor do dólar e exportação de carros.

2. Peso de um atleta e altura.

3. Produção de papel e tempo.

O objetivo é poder verificar se existe relação forte ou fraca entre as


variáveis, existindo esta relação, se ela é funcional ou não, e ainda poder
prever essa relação funcional entre elas.

A análise de regressão permite a verificação dessa relação das


variáveis em estudo, permitindo a interpretação de tais resultados. Como
existem duas variáveis, a análise de regressão mede a dependência existente
de uma das variáveis em relação à outra.

Teremos uma variável dependente (y) que sofrerá influência da variável


independente (x).

Para representarmos as variáveis graficamente utilizamos o mesmo


procedimento do gráfico de dispersão, o que diferencia é que no eixo das
abscissas representamos a variável independente (x) e no eixo das
ordenadas, apresentamos a variável dependente (y). Para representarmos
graficamente, marcamos os pares e ligamos os pontos para formar um gráfico
de linhas. EXEMPLIFICANDO
Os dados são referentes à pressão arterial de pacientes hipertensos
do sexo feminino, segundo a faixa etária, entre 30 e 60 anos, do hospital X.

88
ESTATÍSTICA APLICADA

De acordo com o gráfico, que representa a relação existente entre


a PSA (pressão sistólica arterial) das pacientes entre 30 e 60 anos,
observamos uma reta. Os dados poderiam ter qualquer tipo de
comportamento, uma reta, uma parábola, etc. Neste estudo de regressão,
vamos trabalhar com equações lineares. Como os dados representam
uma reta, esta é chamada de reta de regressão. E como ajustar a equação
de uma reta? Precisamos, inicialmente, conhecer o coeficiente angular e
o coeficiente linear da reta.

Equação linear y = a + bx

Coeficiente angular – representado por b, permite medir a inclinação


da reta.

Coeficiente linear – representado por a, é o intercepto de y.

A vantagem da equação linear se deve ao fato de que permite com


facilidade a aproximação, existente entre as variáveis, de uma
linearidade. O que significa esta aproximação? Quando estudamos análise
de regressão estamos estudando o comportamento de uma variável
dependente (y) em função da variável independente (x), logo conhecendo
os valores observados para a variável x, podemos calcular e “estimar”
os valores previstos para y.

MÉTODO DOS MÍNIMOS QUADRADOS

EXEMPLIFICANDO
Número de anos que os alunos de um curso
de Engenharia estudaram até a colação de grau
e o coeficiente de rendimento (CR) obtido ao final
do curso.

89
UNIDADE 8 - CORRELAÇÃO E REGRESSÃO

Representando os dados graficamente, ou seja, os pares x e y,


observamos que há uma linha reta mesmo não estando todos os

valores sobre ela. Como não há uma dispersão muito acentuada dos valores
no diagrama de dispersão, podemos concluir que a relação existente entre
as variáveis pode ser uma linha reta.

Se os dados observados tendem a uma linha reta, podemos, então,


determinar a equação da reta. Com a equação da reta, podemos prever os
valores de y com relação a x, ou seja, podemos prever, estimar o CR de um
aluno de engenharia em relação ao tempo que ele leva para concluir o curso

90
ESTATÍSTICA APLICADA

de graduação. O nosso problema é encontrar um ajuste que seja bem


considerável em relação aos dados observados.

Para ajustarmos a reta dos mínimos quadrados, iremos considerar o


conjunto de n pontos (x1, y1), (x2, y2) , ..., (xn, yn).

Equação da reta = a + bx.

O (lê-se: y chapéu) é um valor estimado de y e y, efetivamente, é o valor


observado. O objetivo é que a diferença entre o valor observado de y e o
valor estimado seja o mínimo possível.

Como calcular o valor estimado de y que será ?

-Equações normais:

Nessas equações, chamadas de equações normais, n é o número de pares


observados, (x) é o somatório dos valores observados de x (variável
independente), e (y) é o somatório dos valores observados de y (variável
dependente). x2 é a soma dos valores ao quadrado de x e (xy) é a soma
do produto da variável x pela variável y.

Tomando o exemplo dos alunos de engenharia e calculado os somatório


necessário temos:

Substituindo os valores nas equações normais:

698 = 10a + b38 arrumando a equação temos:

698 = 10a + 38b (1)

91
UNIDADE 8 - CORRELAÇÃO E REGRESSÃO

2739 = a38 + b150 arrumando a equação temos:

2739 = 38a + 150b (2)

Para o cálculo de a e b temos um sistema de equações lineares:

Para encontrar os valores de a e b, é necessário igualarmos as duas


equações e efetuar operações matemáticas, simples, que elimine a ou b e,
assim, calculado o valor de a ou de b, permita-se a substituição na equação
para o cálculo do outro valor.

Como precisamos eliminar a ou b faremos a seguinte operação:

Multiplicamos a primeira equação por -3,8, assim podemos eliminar a,


permitindo o cálculo de b.

com isso teremos:

86,60 = 5,6b

b=15,46

Substituindo em qualquer uma das equações (1) ou (2), teremos o


valor de a.

a = 11,05

Podemos calcular os valores de a e b utilizando sistemas de equações


lineares ou pelo cálculo dos mínimos quadrados.

· Fórmulas para o cálculo dos mínimos quadrados

Os valores das médias, já conhecemos, , as outras expressões


permitem uma facilidade para resolução pelo cálculo dos mínimos quadrados.

92
ESTATÍSTICA APLICADA

· Cálculo de a e b

Utilizando o mesmo exemplo, precisamos calcular as médias de x e y e


os valores de y2.

Vimos duas formas de calcular os valores de a e b para estimação dos


valores da variável dependente y. A escolha do processo de cálculo fica a
critério de quem está calculando. Podemos optar pelo cálculo através do
sistema de equações normais ou pelo método dos mínimos quadrados.

93
UNIDADE 8 - CORRELAÇÃO E REGRESSÃO

Agora podemos estimar qualquer valor para y.

Exemplo: Suponha que um aluno leve x=3,5 anos para concluir seu curso
de engenharia. Qual seria o valor estimado do seu coeficiente de rendimento?

x=7 a = 11,05 b = 15,46 = a + bx

= 11,05 + 15,46 x 3,5 = 65,16 Coeficiente de rendimento estimado =


65,16

Nesta unidade, aprendemos como calcular e analisar o grau de correlação


entre duas variáveis, verificando seu comportamento e se estão ou não
relacionadas.

Vimos, ainda, a relação existente entre duas variáveis e a influência


da variável independente sobre a variável dependente, permitindo, assim,
estimar valores para esta variável através do estimador .

É HORA DE SE AVALIAR!
Não esqueça de realizar as atividades desta unidade de
estudo, presentes no caderno de exercício! Elas irão ajudá-
lo a fixar o conteúdo, além de proporcionar sua autonomia
no processo de ensino-aprendizagem. Caso prefira, redija
as respostas no caderno e depois as envie através do nosso
ambiente virtual de aprendizagem (AVA). Interaja conosco!

Na próxima unidade, estudaremos Análise de Variância, mais conhecido


como ANOVA. Aprenderemos a calcular as diferenças entre médias e a aplicar
o teste F para essas diferenças.

94

Você também pode gostar