Você está na página 1de 39

Correlação

Estatística e
Regressão linear

Prof. Walter Sousa


CORRELAÇÃO LINEAR
A CORRELAÇÃO mede a força, a intensidade ou grau de
relacionamento entre duas ou mais variáveis.
Exemplo. Os dados a seguir apresentam os investimentos (em milhares
de reais) e os lucros (em milhares de reais), no ano seguinte, realizados
por cinco empresas escolhidas aleatoriamente:

Qual a relação existente entre Lucro e investimento?


CORRELAÇÃO LINEAR
Qual a relação existente entre Lucro e investimento?
É possível perceber que, à medida que o investimento X
aumenta, o lucro 𝑌 tende a aumentar. No gráfico ao lado, os pares
ordenados (𝑥, 𝑦) indicam os pontos A, B, ..., E, e mostram essa relação,
onde no eixo x (abscissas) temos a variável investimento e no eixo y a
variável lucro.
CORRELAÇÃO LINEAR
O índice de correlação linear entre duas variáveis X e Y, indicado por R =
𝑟xy, é um número real que pertence ao intervalo [-1; +1]. Quanto mais próximo de
+1 ou de -1, mais forte é a correção linear. Podendo ser classificada em:

a) Direta (positiva): 0 < 𝑟𝑥𝑦 ≤ 1.

A correlação é direta quando o índice for positivo. Nesse caso, se os valores de


uma variável X aumentarem, a tendência é que os valores da outra variável Y
aumentem. para valores baixos de uma, associam-se também valores baixos
para outra. Por exemplo, Lucro e Investimento na tabela acima. Quanto mais
próximo de +1, mais forte será esta correlação.

Se 𝑟𝑥𝑦 = 1 ⇒ 𝐶𝑜𝑟𝑟𝑒𝑙𝑎çã𝑜 𝑝𝑒𝑟𝑓𝑒𝑖𝑡𝑎.


CORRELAÇÃO LINEAR
b) Inversa (negativa): −1 ≤ 𝑟𝑥𝑦 < 0.

A correlação é inversa se o índice for negativo. Nesse caso, as


variáveis tendem a ter sentidos opostos, ou seja, à medida que X
aumenta, a tendência é que o valor de Y diminua. Quanto mais
próximo de -1, mais forte é a correlação.
Um exemplo de correlação Inversa: considerando automóveis de
mesmo ano, marca e modelo, quanto maior for a quilometragem do
veículo, menor será o preço de revenda.

Se 𝑟𝑥𝑦 = −1 ⇒ 𝐶𝑜𝑟𝑟𝑒𝑙𝑎çã𝑜 𝑝𝑒𝑟𝑓𝑒𝑖𝑡𝑎


CORRELAÇÃO LINEAR
C) Ausência de correlação linear

𝑟𝑥𝑦 = 0.

Quando o índice de correlação linear é igual a zero, pode-se


concluir que não há correlação linear. Não é correto dizer que não
há correlação, porque pode haver outro tipo de correlação, por
exemplo quadrática. A correlação apenas não é linear.

Se 𝑟𝑥𝑦 = 0 ⇒ 𝑛ã𝑜 ℎá 𝑐𝑜𝑟𝑟𝑒𝑙𝑎çã𝑜 𝒍𝒊𝒏𝒆𝒂𝒓.


DIAGRAMA DE DISPERSÃO
O diagrama de dispersão é um gráfico em que cada ponto plotado no
plano cartesiano representa um par ordenado (𝑥, 𝑦) das variáveis.
O diagrama de dispersão pode ser bastante útil para analisarmos a
relação linear (ausência ou presença) entre as variáveis, bem como para
indicar se tal relação é forte ou fraca.

• Correlação forte
Correlação forte Ausência Correlação forte
Correlação moderada
Direta inversa
Direta
CORRELAÇÃO LINEAR
CÁLCULO DO ÍNDICE
O Coeficiente de Correlação (𝑟𝑥𝑦 ) varia apenas no intervalo [–1; 1],
podendo ser calculado pelas formas abaixo:

a) Em função dos desvios simples

Σ 𝑑𝑥 ∙𝑑𝑦
𝑟𝑥𝑦 =
Σ(𝑑𝑥 )2 ∙Σ(𝑑𝑦 )2

dx = 𝑥 − 𝑥ҧ (desvio)
dy = y − 𝑦ത (desvio)
CORRELAÇÃO LINEAR
CÁLCULO DO ÍNDICE
b) Em função da Covariância e dos desvios-padrão

𝐶𝑜𝑣(𝑥, 𝑦)
𝑟𝑥𝑦 =
𝜎𝑥 ∙ 𝜎𝑦

• 𝐶𝑜𝑣 𝑥, 𝑦 = 𝐸 𝑥 ∙ 𝑦 − 𝐸 𝑥 ∙ 𝐸 𝑦
σ 𝑥∙𝑦
• 𝐸 𝑥∙𝑦 =
𝑛
σ𝑥
• 𝐸 𝑥 =
𝑛
σ𝑦
• 𝐸 𝑦 =
𝑛
CORRELAÇÃO LINEAR – CÁLCULO DO ÍNDICE
𝑋 𝑌 𝑋2 𝑌2 𝑋∙𝑌
Exemplo 10 1,5 100 2,25 15
15 2,0 225 4,00 30
5 0,5 25 0,25 2,5
12 1,5 144 2,25 18
18 2,5 324 6,25 45

෍ 𝑋 = 60 ෍𝑌 = 8 ෍ 𝑋 2 = 818 ෍ 𝑌 2 = 15 ෍ 𝑋 ∙ 𝑌 = 110,5
Passo 1: Cálculo da Covariância
σ 𝑥∙𝑦 110,5
• 𝐸 𝑥∙𝑦 = = = 22,1
𝑛 5
σ𝑥 60
• 𝐸 𝑥 = = = 12
𝑛 5
σ𝑦 8
• 𝐸 𝑦 = = = 1,6
𝑛 5
• 𝐶𝑜𝑣 𝑥, 𝑦 = 𝐸(𝑥 ∙ 𝑦) − 𝐸ถ𝑥 ∙ 𝐸ถ𝑦 = 2,9
22,1 12 1,6
CORRELAÇÃO LINEAR – CÁLCULO DO ÍNDICE

Variância de X e de Y

818
𝑉 𝑥 = 𝐸 𝑥2 − 𝐸 𝑥 2 = − 12 2 = 19,6
5

15
𝑉 𝑦 =𝐸 𝑦2 − 𝐸 𝑦 2 = − 1,6 2 = 0,44
5

Desvios padrão 𝐶𝑜𝑣(𝑥, 𝑦) 2,9 2,9


𝑟𝑥𝑦 = = =
𝜎𝑥 ∙ 𝜎𝑦 19,6 ∙ 0,44 2,94
σ𝑥 = 19,6
σ𝑦 = 0,44 ⇒ 𝑟𝑥𝑦 = 0,986
CÁLCULO DO ÍNDICE
Notação SUV
c) Cálculo do índice pela notação Suv

σ𝑼 ∙ σ𝑽
𝑺𝑼𝑽 = ෍ 𝑼 ∙ 𝑽 −
𝒏
Deve-se calcular 𝑆𝑥𝑦 , 𝑆𝑥𝑥 e 𝑆𝑦𝑦 . Para tanto, substitua U e V, na notação
acima, por 𝑥 e 𝑦 conforme o indicador. O índice de correlação será
𝑆𝑥𝑦
𝑟𝑥𝑦 =
𝑆𝑥𝑥 ∙ 𝑆𝑦𝑦
Exemplo
notação Suv
σ𝑼 ∙ σ𝑽
𝑺𝑼𝑽 = ෍ 𝑼 ∙ 𝑽 −
𝒏

σ 𝒙∙σ𝒚 𝟔𝟎∙𝟖
𝑺𝒙𝒚 = σ 𝒙 ∙ 𝒚 − ⇒ 𝑺𝒙𝒚 = 𝟏𝟏𝟎, 𝟓 − = 𝟏𝟒, 𝟓𝟎
𝒏 𝟓

σ 𝒙∙σ𝒙 𝟔𝟎∙𝟔𝟎
𝟐
𝑺𝒙𝒙 = σ𝒙 − ⇒ 𝑺𝒙𝒙 = 𝟖𝟏𝟖 − = 𝟗𝟖, 𝟎𝟎
𝒏 𝟓

σ 𝒚∙σ𝒚 𝟖∙𝟖
𝟐
𝑺𝒚𝒚 = σ 𝒚 − ⇒ 𝑺𝒚𝒚 = 𝟏𝟓 − = 𝟐, 𝟐
𝒏 𝟓

𝑆𝑥𝑦 14,5
𝑟𝑥𝑦 = ⇒ 𝑟𝑥𝑦 = = 0,986
𝑆𝑥𝑥 ∙𝑆𝑦𝑦 98∙2,2
PROPRIEDADES
Seja r o coeficiente de correlação entre X e Y.
➢Se multiplicarmos cada uma destas variáveis por duas constantes a e
b, o novo coeficiente r' é dado por:
r'= r , se ab > 0 (não se altera)
r'= -r , se ab < 0 (é o simétrico de r)

Pode-se concluir que se multiplicarmos qualquer das variáveis por


uma constante positiva, o coeficiente r de correlação não se altera.

➢Se somarmos (ou subtrairmos), a cada uma destas variáveis, uma


constante, o coeficiente de correlação fica inalterado.
REGRESSÃO LINEAR
A correlação mede a força, ou grau, de relacionamento entre duas
variáveis; a regressão dá uma equação que descreve o relacionamento em
termos matemáticos.

Quando 𝑟𝑥𝑦 ≠ 0 podemos estabelecer a reta de regressão, dada por:


𝑌 = 𝛽𝑋 + 𝛼.
𝛽 e 𝛼 são valores que se determinam com base nos dados amostrais,
sendo que 𝛼 é a cota da reta em 𝑥 = 0, ponto no qual a reta intercepta o
eixo 𝑌 (intercepto-Y); 𝛽 é o seu coeficiente angular, indicando a variação
∆𝑦
de 𝑌 por unidade de variação de 𝑥, ou . A variável 𝑌 é a variável que
∆𝑥
deve ser predita (variável dependente), e 𝑥 é a variável independente
(preditor).
REGRESSÃO LINEAR
Caso o modelo não seja perfeito, haverá erro (𝜀𝑖 ) que representa
a distância da reta ao verdadeiro ponto no diagrama de dispersão.
Assim, o modelo de ajuste linear pode, genericamente, ser
representado por
𝑌෠ = 𝛼 + 𝛽 𝑋෠ + 𝜀𝑖

tal que o valor esperado 𝐸(𝜀𝑖 ) = 0 e 𝜀𝑖 é variável aleatória que segue


um distribuição normal.
REGRESSÃO LINEAR

𝑌෠ = 𝛼 + 𝛽 𝑋෠ + 𝜀𝑖 , tal que o valor esperado 𝐸(𝜀𝑖 ) = 0 e 𝜀𝑖 é variável


aleatória que segue um distribuição normal.
REGRESSÃO LINEAR – CÁLCULO DOS COEFICIENTES
𝑌෠ = 𝛼 + 𝛽 𝑋෠
a) Em função da Covariância
O coeficiente angular 𝛽 pode ser calculado pela razão entre a
covariância,Cov(x, y), e a Variância de X, 𝑉(𝑥).
𝒄𝒐𝒗(𝒙, 𝒚)
𝜷=
𝒗(𝒙)
A reta de regressão passa pelo ponto de coordenada (𝑋,ത 𝑌),
ത que é o
par ordenado da média de X e de Y. Assim o termo independente 𝜶
pode ser calculado substituindo o par ordenado de valores indicados
pelas médias 𝑥ҧ = 𝐸 𝑥 𝑒 𝑦ത = 𝐸[𝑦] na equação de regressão:
𝜶=𝒚 ഥ − 𝛽ഥ𝒙
REGRESSÃO LINEAR – COEFICIENTES
Notação SUV
b) Cálculo do Coeficiente 𝜷 pela notação Suv
σ𝑼 ∙ σ𝑽
𝑺𝑼𝑽 = ෍ 𝑼 ∙ 𝑽 −
𝒏
Deve-se calcular 𝑆𝑥𝑦 , 𝑆𝑥𝑥 . Para tanto, substitua U e V, na notação
acima, por 𝑥 e 𝑦 conforme o indicador. O coeficiente angular será
𝑺𝒙𝒚
𝜷=
𝑺𝒙𝒙
O termo independente 𝜶 pode ser calculado substituindo o par
ordenado de valores indicados pelas médias 𝑥ҧ = 𝐸 𝑥 𝑒 𝑦ത = 𝐸[𝑦] na
equação de regressão: 𝜶 = 𝒚 ഥ − 𝜷ഥ𝒙
Questão 7
(CESPE) Ao avaliar o efeito das variações de uma grandeza X sobre outra
grandeza Y por meio de uma regressão linear da forma, 𝑌෠ = 𝛼 + 𝛽 𝑋෠ um
analista, usando o método dos mínimos quadrados, encontrou, a partir de
20 amostras, os seguintes somatórios (calculados sobre os vinte valores de
cada variável):

(1) 𝛽መ < 0
(2) Para X = 10, a estimativa de Y é 𝑌෠ = 12.
Exemplo – questão 14
(FCC) Uma empresa, com a finalidade de determinar a relação entre os
gastos anuais com propaganda (X), em R$ 1 000,00, e o lucro bruto
anual (Y), em R$ 1 000,00, optou por utilizar o modelo linear simples Yi
= α + βXi + εi , em que Yi é o valor do lucro bruto auferido no ano i, Xi é
o valor gasto com propaganda no ano i e εi o erro aleatório com as
respectivas hipóteses consideradas para a regressão linear simples (α e
β são parâmetros desconhecidos). Considerou, para o estudo, as
seguintes informações referentes às observações nos últimos 10 anos
da empresa:
Utilizando a equação da reta obtida pelo método dos mínimos quadrados, tem-
se que, caso haja um gasto anual com propaganda de 80 mil reais, a previsão
do lucro anual, em mil reais, será de

(A)158.
(B)128,4.
(C)121.
(D)102,5.
(E)84.
Correlação e
Estatística Regressão linear
Exercícios

Prof. Walter Sousa


Questão 1
(CESGRANRIO) Considere as asserções a seguir.

• O Coeficiente de Correlação Linear de Pearson é necessariamente um número no intervalo (-1,1).


PORQUE
• O Coeficiente de Correlação Linear de Pearson só pode ser calculado para variáveis
quantitativas.
Analisando-se as asserções, conclui-se que
(A) as duas asserções são verdadeiras, e a segunda é uma justificativa correta da primeira.
(B) as duas asserções são verdadeiras, e a segunda não é uma justificativa correta da primeira.
(C) a primeira asserção é verdadeira, e a segunda é falsa.
(D) a primeira asserção é falsa, e a segunda é verdadeira.
(E) a primeira e a segunda asserções são falsas.

Gab. B
Questão 2
(Funiversa – perito PCDF) Considerando a tabela, referente aos valores das
variáveis X e Y, é correto afirmar que a correlação entre as variáveis X e Y
(A) é menor que – 1.
(B) encontra-se entre + 0,9 e + 1.
(C) é zero.
(D) encontra-se entre – 0,9 e – 1.
(E) é maior do que +1

Gab. B
Questão 3
(CESGRANRIO) Considere as afirmações a seguir a respeito do Coeficiente de Correlação (r)
de Pearson entre duas variáveis.
I - Se r = 1, as observações estão todas sobre uma linha reta no diagrama de dispersão.
II - Se r > 0, a variável independente aumenta quando a variável dependente aumenta.
III - Se r < 0, a variável independente decresce quando a variável dependente decresce.
IV - Se r = 0, não existe relação entre as duas variáveis.
São corretas APENAS as afirmações
(A) I e II
(B) I e III
(C) II e III
(D) II e IV
(E) III e IV

Gab. A
Questão 4

(CESPE) Um analista coletou os dados a respeito da renda, do consumo e do número de


filhos de uma amostra aleatória de 100 famílias. Em 21 dessas famílias, não há filhos, em
26 delas, há apenas um filho, em outras 43, há dois filhos, e em 10 delas, há três filhos. A
média da renda das 100 famílias é R$ 5.389,00, e o desvio padrão é R$ 2.709,00. Com base
nessas informações, o analista elaborou um gráfico da relação entre renda e consumo
(gráfico I). No entanto, posteriormente o analista verificou a existência de erro nesse
gráfico, o que o levou a elaborar um segundo gráfico com os dados corretos (gráfico II).
Questão 4
Considerando que Z siga uma distribuição normal padrão, P(Z ≤ 1,9600) = 0,975, e que
T siga uma distribuição t com 99 graus de liberdade, P(T ≤ 1,9840) = 0,975, julgue os
próximos itens acerca da situação hipotética e dos gráficos apresentados,
arredondando os valores encontrados ao inteiro mais próximo quando for o caso.
(1) Considerando-se que a variável renda siga uma distribuição normal com média e
variância desconhecidas, é correto afirmar que o intervalo de confiança bilateral para a
média de renda na população com nível de confiança de 95% é [4.858, 5.920].
Questão 4
(CESPE) Um analista coletou os dados a respeito da renda, do consumo e do
número de filhos de uma amostra aleatória de 100 famílias. Em 21 dessas
famílias, não há filhos, em 26 delas, há apenas um filho, em outras 43, há
dois filhos, e em 10 delas, há três filhos.

(2) O coeficiente de determinação R2 entre consumo e renda será maior para os dados do gráfico II do que
para os dados do gráfico I.
(3) O valor referente à esperança do número de filhos de uma família escolhida aleatoriamente entre as
famílias da amostra é 1,42.
Questão 5
(CESPE) Uma agência de desenvolvimento urbano divulgou os dados apresentados
na tabela a seguir, acerca dos números de imóveis ofertados (X) e vendidos (Y) em
determinado município, nos anos de 2005 a 2007. Julgue o item

(1) O coeficiente de correlação linear entre X e Y é inferior a 0,8.


Questão 5
(CESPE) Uma agência de desenvolvimento urbano divulgou os dados apresentados
na tabela a seguir, acerca dos números de imóveis ofertados (X) e vendidos (Y) em
determinado município, nos anos de 2005 a 2007. Julgue o item

(1) O coeficiente de correlação linear entre X e Y é inferior a 0,8.


Questão 6

Considerando a tabela de valores acima, nas variáveis X e Y, julgue os itens subsequentes.


(1) Se Cov (X,Y) é a covariância entre X e Y, V(X) é a variância de X e V(Y) é a variância de Y, então é correto
𝐶𝑜𝑣(𝑋,𝑌)
afirmar que o coeficiente de correlação linear, 𝐶𝑜𝑟𝑟 𝑋, 𝑌 = , é inferior a 0,8.
𝑉 𝑋 ∙𝑉(𝑌)
(2) Se o coeficiente de correlação linear entre as variáveis é igual a zero, então não existe nenhuma
relação entre as variáveis X e Y.
Questão 7
(CESPE) Ao avaliar o efeito das variações de uma grandeza X sobre outra
grandeza Y por meio de uma regressão linear da forma, 𝑌෠ = 𝛼 + 𝛽 𝑋෠ um
analista, usando o método dos mínimos quadrados, encontrou, a partir de
20 amostras, os seguintes somatórios (calculados sobre os vinte valores de
cada variável):

(1) 𝛽መ < 0
(2) Para X = 10, a estimativa de Y é 𝑌෠ = 12.
Questão 8
(CESPE) Uma concessionária de veículos estudou o preço de determinado
tipo de veículo em função da idade (anos de uso). Os resultados encontram-
se na seguinte tabela.

Um estatístico ajustou o modelo de regressão linear simples 𝑌 = 𝑎 +


𝑏𝑋 + 𝜀 aos dados, em que 𝜀 representa um desvio aleatório. Com base
nessas informações, julgue os itens a seguir.
Questão 8

(1) As estimativas dos parâmetros 𝑎ො e 𝑏෠ são: 𝑎ො = 78.000 e 𝑏෠ = -10.300.


(2) O preço esperado de um veículo de 5 anos de idade é igual a R$ 30.100.
(3) Comparando os preços observados da tabela com os preços esperados, o desvio absoluto entre esses
valores será maior para o veículo com 2 anos de idade.
Questão 9
Um analista avaliou, por meio de um modelo de regressão linear, se a quantidade de professores doutores
formados no exterior — X — influenciava na quantidade de artigos publicados — Y. Para isso, ele selecionou
10 universidades que ofertavam determinado curso no ano de 2014, conforme dados apresentados na tabela
a seguir.
Questão 9
(1) Caso o modelo seja estimado por mínimos quadrados ordinários, os resíduos terão 8 graus de liberdade.
(2) O coeficiente angular estimado é positivo.
(3) O intercepto do modelo linear é maior que 10.
(4) O número de doutores no exterior explicaria mais de 75% da variação em Y.
Questão 15
(FCC) Uma empresa, com finalidade de determinar a relação entre gastos
anuais em pesquisa e desenvolvimento (X), em milhares de reais, e o
acréscimo anual nas vendas (Y), também em milhares de reais, optou por
utilizar o modelo linear simples Yi = α + βXi + εi , em que Yi é o acréscimo
nas vendas no ano i e εi o erro aleatório com as respectivas hipóteses
consideradas para a regressão linear simples (α e β são parâmetros
desconhecidos). Considerou, para o estudo, as seguintes informações
referentes às observações nos últimos 10 anos da empresa:
Utilizando a equação da reta obtida pelo método dos mínimos quadrados,
obteve-se, para um determinado gasto em pesquisa e desenvolvimento,
uma previsão de acréscimo nas vendas no valor de 19 mil reais. O valor
que se considerou para o gasto com pesquisa e desenvolvimento, em mil
reais, foi:
a) 14
b) 13,75
c) 13,0
d) 12,4
e) 12,0

Você também pode gostar