Escolar Documentos
Profissional Documentos
Cultura Documentos
Em Estatística, quando estudamos uma variável, nosso interesse está nas medidas de tendência central,
de dispersão, de assimetria e curtose, etc. Com duas ou mais variáveis além destas medidas individuais
também é de interesse conhecer se elas possuem alguma relação entre si, isto é, se valores altos (ou
baixos) de uma das variáveis implicam em valores altos (ou baixos) da outra variável. Por exemplo,
podemos verificar se existe associação entre a taxa de desemprego e a taxa de criminalidade em uma
grande cidade, entre a verba investida em propaganda e retorno nas vendas, etc.
A análise de correlação fornece um número que resume o grau de relacionamento linear entre as duas
variáveis. Já a análise de regressão fornece uma equação que descreve o comportamento de uma das
variáveis em função do comportamento da outra variável.
DIAGRAMA DE DISPERSÃO
Um comerciante de temperos está curioso sobre a grande variação nas vendas de loja para loja e acha
que as vendas estão associadas com o espaço nas prateleiras dedicados à sua linha de produto em cada
ponto de venda. Dez lojas foram selecionadas ao acaso através do país e as duas seguintes variáveis
foram mensuradas: (1) total de espaço de frente (comprimento x altura em cm²) dedicados à sua linha
de produtos e (2) total das vendas dos produtos, em reais, no último mês. Os dados são apresentados
na tabela a seguir:
Pela observação da tabela não é fácil perceber se existe ou não relação entre as duas variáveis. Para ter
uma ideia melhor, as variáveis são colocadas no que é denominado de diagrama de dispersão. Uma
das variáveis (X) é representada no eixo horizontal e a outra variável (Y) no eixo vertical, conforme
figura a seguir.
-1-
Uma olhada rápida no diagrama de dispersão mostra a existência de um relacionamento entre as
variáveis, com altos valores de uma das variáveis associados a altos valores da outra variável. Se não
houvesse relacionamento entre elas, os pontos estariam distribuídos ao acaso no gráfico sem mostrarem
alguma tendência.
COEFICIENTE DE CORRELAÇÃO
Apesar do diagrama de dispersão nos fornecer uma ideia do tipo e extensão do relacionamento entre
duas variáveis X e Y, seria altamente desejável ter um número que medisse esta relação. Esta medida
existe e é denominada de coeficiente de correlação. Quando se está trabalhando com amostras o
coeficiente de correlação é indicado pela letra r que é, por sua vez, uma estimativa do coeficiente de
correlação populacional: ρ (rho).
Dadas duas amostras, uma da variável X e outra da variável Y, o coeficiente de correlação amostral
poderá ser calculado através de uma das seguintes expressões (Coeficiente de Correlação de
Pearson):
̅ ) ∙ (𝒀𝒊 − 𝒀
∑(𝑿𝒊 − 𝑿 ̅)
𝒓=
̅ )𝟐 ∙ (𝒀𝒊 − 𝒀
√∑(𝑿𝒊 − 𝑿 ̅ )𝟐
𝒏 ∙ ∑ 𝑿𝒊 ∙ 𝒀𝒊 − (∑ 𝑿𝒊 ) ∙ (∑ 𝒀𝒊 )
𝒓=
√[𝒏 ∙ ∑ 𝑿𝟐𝒊 − (∑ 𝑿𝒊 )𝟐 ] ∙ [𝒏 ∙ ∑ 𝒀𝟐𝒊 − (∑ 𝒀𝒊 )𝟐 ]
-2-
PROPRIEDADES DO COEFICIENTE DE CORRELAÇÃO
O termo regressão foi introduzido em fins do século 19, por Sir Francis Galton, provavelmente
interessado em responder à seguinte indagação: é possível prever a altura de filhos com base nas alturas
dos pais? Após coletar pares de alturas de pais e respectivos filhos, ele verificou que pais altos têm filhos
altos, mas em média não tão altos, o mesmo acontecendo com pais baixos, o que deu a ele a impressão
de que havia uma “regressão” das alturas para um valor médio de altura. Este termo ficou então de uso
corrente, embora provavelmente não seja o mais adequado.
A análise de regressão é uma das técnicas mais utilizadas para investigar e modelar o relacionamento
existente entre as diversas variáveis de um processo. Sua utilização vem se aplicando a cada dia,
principalmente devido ao fato de a análise de regressão ser baseada na ideia relativamente simples de
se empregar uma equação para expressar o relacionamento entre as variáveis de interesse.
O modelo de regressão linear simples é aquele que contém apenas uma variável explicativa. Sua forma
básica é a seguinte:
Os parâmetros e poderão ser estimados a partir de valores amostrais das variáveis Yi e Xi.
-3-
onde e são parâmetros desconhecidos. Este modelo será estimado por
̂𝒊 = 𝜶
𝒀 ̂ ∙ 𝑿𝒊
̂+𝜷
O erro estimado é a diferença entre um valor observado Yi e o valor correspondente 𝑌̂𝑖 , estimado pela
reta ajustada.
Os estimadores dos parâmetros e são obtidos pelas equações dadas a seguir, que decorrem do
método dos mínimos quadrados, que propositalmente não vamos desenvolver aqui.
𝒏 ∙ ∑ 𝑿𝒊 ∙ 𝒀𝒊 − (∑ 𝑿𝒊 ) ∙ (∑ 𝒀𝒊 ) 𝑺𝒙𝒚
̂=
𝜷 ̂=
𝜷
𝒏 ∙ ∑ 𝑿𝟐𝒊 − (∑ 𝑿𝒊 )𝟐 𝑺𝟐𝒙
ou simplesmente
̂=𝒀
𝜶 ̂ ∙𝑿
̅−𝜷 ̅
̂𝒊 = 𝜶
𝒀 ̂ ∙ 𝑿𝒊 , para i = 1, 2, ..., n
̂+𝜷
A figura abaixo mostra como se apresenta o gráfico da reta de regressão para o exemplo do comerciante
de temperos, apresentado anteriormente.
Podemos estimar a qualidade de um modelo ajustado através do coeficiente de determinação (R²). Este
coeficiente pode ser calculado através da seguinte equação:
𝒏 ∙ ∑(𝒀𝒊 − 𝒀̂ 𝒊 )𝟐
𝟐
𝑹 =𝟏−
𝒏 ∙ ∑ 𝒀𝟐𝒊 − (∑ 𝒀𝒊 )𝟐
-4-
Outra forma para a determinação de R² é dada por
𝑺𝑸𝑹
𝑹𝟐 =
𝑺𝑸𝑻
onde:
SQR é a Soma dos Quadrados da Regressão ou soma dos quadrados explicada (variação da
variável resposta que é explicada pelo modelo - de cada um dos valores estimados pelo modelo
subtrai-se o valor da média aritmética dos valores observado, usada acima, eleva-se o resultado
ao quadrado e somam-se os resultados);
SQE é a Soma dos Quadrados dos Erros ou soma dos quadrados dos resíduos (variação da variável
resposta que não é explicada pelo modelo);
SQT é a Soma dos Quadrados Total (variação da variável resposta - de cada um dos valores
observados subtrai-se o valor da média aritmética, eleva-se o resultado ao quadrado e somam-
se os resultados), também dada por SQT = SQR + SQE.
INTERPOLAÇÃO E EXTRAPOLAÇÃO
Dizemos que foi feita uma interpolação quando usamos a equação de regressão linear para estimar um
valor de Yi para um valor de Xi pertencente ao intervalo entre o menor e o maior valor entre os Xi
observados na amostra dada.
Dizemos que foi feita uma extrapolação quando usamos a equação de regressão linear para estimar
um valor de Yi para um valor de Xi que não pertence ao intervalo entre o menor e o maior valor entre os
Xi observados na amostra dada.
QUESTÕES DE PROVAS
01. TSE / CONSULPLAN / 2012
Na análise de regressão múltipla foram encontrados:
• soma dos quadrados da regressão: 40.000.
• soma dos quadrados dos erros: 10.000.
Assim, o coeficiente de determinação múltipla (R²) dessa regressão é
a) 0,25. b) 0,80. c) 0,75. d) 0,90.
variâncias amostrais:
covariância:
-5-
Qual a reta de regressão estimada de Y em X?
a)
b)
c)
d)
e)
A partir dessas informações, julgue o item seguinte, considerando um modelo de regressão linear simples
na forma
Yk = a + bXk + ek,
em que a e b são os coeficientes do modelo, {ek} representa uma sequência independente de erros
aleatórios normais com média zero e variância ².
Considerando que o coeficiente a seja nulo, tem-se uma reta de regressão que passa pela origem, na
forma Yk = bXk + ek. Nesse caso, a estimativa de mínimos do coeficiente b será maior que 0,90.
( ) Certo ( ) Errado
RESPOSTAS
01) B 02) E 03) C 04) C 05) E
-6-