Escolar Documentos
Profissional Documentos
Cultura Documentos
Sumário
1. Correlação Linear ................................................................................................. 3
2. Regressão Linear ................................................................................................ 22
2.1. Reta que passa pela origem .................................................................................. 30
Lista de Questões de Concursos sem Comentários ................................................ 31
Gabarito sem comentário ........................................................................................ 43
Lista de Questões de Concursos com Comentários................................................ 44
Exercícios sobre Correlação ............................................................................................ 44
Exercícios sobre Regressão Linear.......... ............................................................... 55
Considerações Finais ............................................................................................... 77
Esses são os nossos dados brutos. Fica difícil analisar a relação entre altura e massa apenas com
essa tabela. Uma ideia é colocar esses dados em um gráfico. No eixo x vamos colocar as alturas
em centímetros e no eixo y vamos colocar a massa em kg.
Quando isso ocorre, dizemos que as variáveis estão correlacionadas, ou seja, existe uma
correlação linear entre as variáveis.
Nesta aula, vamos aprender a medir esse grau de correlação, em outras palavras, queremos
determinar se existe uma relação linear entre duas variáveis X e Y.
Se existir a relação linear entre as variáveis, frequentemente se deseja saber qual é a função que
mostra como Y varia aproximadamente em função de X. Esse é o objeto de estudo da Regressão
Linear.
É claro que o diagrama de dispersão ajuda muito em determinar se existe ou não uma relação
linear entre as variáveis, mas vamos aprender um método numérico para medir o grau dessa
relação.
Veja que a relação linear neste caso não existe (ou é muito fraca).
O Coeficiente de Correlação Linear de Pearson serve justamente para medir a força da relação
linear entre as duas variáveis.
Da mesma forma que é possível manipular os somatórios para obter uma forma alternativa para o
cálculo da variância (lembra daquela historinha de “Média dos quadrados menos o quadrado da
média”?), também é possível manipular os somatórios da fórmula acima para obter formas
alternativas de cálculo bem úteis nas questões. Assim, é importante que você decore a fórmula a
seguir:
Veja que a fórmula do lado esquerdo nos força a calcular os desvios 𝑋' − 𝑋) e 𝑌' − 𝑌). A fórmula do
lado direito é mais simples. Na fórmula acima, 𝑛 representa o número de pontos, ou seja, o
número de pares ordenados.
Essa é apenas uma outra forma de calcular o numerador do coeficiente de correlação. Daqui a
pouquinho vou fazer um exemplo numérico para que você possa entender como aplicar essas
fórmulas.
Ou seja,
Essas duas fórmulas são fórmulas alternativas para o cálculo dos termos do denominador do
coeficiente de correlação.
Pois bem. Demonstra-se que o coeficiente de correlação de Pearson é sempre um número que
pertence ao intervalo real [−1,1], ou seja:
−1 ≤ 𝑟 ≤ 1
Quando Y tende a crescer quando X cresce, o valor de 𝑟 é positivo. Dizemos que as variáveis
estão positivamente correlacionadas.
Quando Y tende a decrescer quando X cresce, o valor de 𝑟 é negativo. Dizemos que as variáveis
estão negativamente correlacionadas.
Quanto mais próximo de 1 ou de -1 for o coeficiente de correlação, mais forte será a correlação.
Se a correlação for perfeita, ou seja, se todos os pontos estiverem sobre uma mesma reta, o valor
de r será exatamente 1 (se a correlação for positiva) ou será exatamente -1 (se for uma correlação
negativa).
O Excel indica que o coeficiente de correlação entre essas variáveis é 0,9293355. Veja que temos
uma correlação positiva forte (o coeficiente de correlação é positivo e próximo de 1).
Se a correlação é positiva e todos os pontos estão sobre uma mesma reta, o coeficiente de
correlação será exatamente igual a 1. Observe o diagrama de dispersão a seguir.
𝑟=1
O Excel indica que o coeficiente de correlação nesse caso é -0,9836038. Veja que os dados estão
praticamente em cima de uma reta. Como a correlação é negativa e forte, o coeficiente de
correlação foi bem próximo de −1.
Se a correlação fosse negativa e os pontos estivessem todos sobre a mesma reta, o coeficiente
seria exatamente −1.
𝑟 = −1
Não existe uma relação linear entre essas variáveis. Assim, o coeficiente de correlação será 0 (ou
um número muito próximo de 0). De fato, o Excel indica que o coeficiente de correlação do
diagrama de dispersão acima é -0,0205218.
Uma forte correlação não significa causalidade. A correlação mede a relação linear
entre duas variáveis, mas não significa que a variação de uma cause a variação da
outra. Por exemplo, existe uma correlação entre o consumo de cerveja e o número de
ataques de tubarão. Com o aumento da temperatura no verão, mais pessoas vão à
praia e consomem mais cerveja. Com isso, aumenta também o número de ataques de
tubarão. Dessa forma, o aumento de temperatura no verão é a causa comum aos dois
aumentos.
É possível ainda que dois eventos tenham uma forte correlação mesmo sem
causalidade nem causa em comum. Simplesmente por acaso. São as chamadas
“correlações espúrias”.
A taxa de divórcios no estado americano do Maine correlaciona com o consumo per capita de
Margarina (r = 0,9925).
0(𝑌' − 𝑌))/ = 9 + 0 + 1 + 16 = 26
25 25 25
𝑟= = =
√26 ∙ 26 √26/ 26
𝑟 ≅ 0,9615
Temos uma correlação positiva forte (coeficiente bem próximo de 1). De fato, observe o
diagrama de dispersão com a respectiva reta de regressão.
Vamos agora calcular o mesmo coeficiente utilizando as fórmulas alternativas dos somatórios.
Observe que esses dois últimos resultados podem ser obtidos através do primeiro
0[(𝑋' − 𝑋)) ∙ (𝑌' − 𝑌) )] = 0(𝑋' ∙ 𝑌' ) − 𝑛 ∙ 𝑋) ∙ 𝑌)
0 𝑋'/ = 1 + 9 + 16 + 64 = 90
0 𝑋'/ − 𝑛 ∙ (𝑋))/ = 90 − 4 ∙ 4/ = 26
25 25 25
𝑟= = =
√26 ∙ 26 √26/ 26
2. REGRESSÃO LINEAR
A correlação linear nos diz se existe uma relação linear entre duas variáveis 𝑋 e 𝑌. Agora estamos
interessados em calcular a expressão matemática que relaciona 𝑌 em função de 𝑋.
A Matemática Básica nos ensina que a equação de uma reta pode ser escrita como
𝑦 = 𝑝 + 𝑚𝑥
O coeficiente 𝑝 é o coeficiente linear da reta (indica onde a reta corta o eixo 𝑦) e o coeficiente 𝑚
é chamado de taxa de variação (ou coeficiente angular da reta). O coeficiente 𝑚 indica se a
função é crescente (𝑚 > 0), decrescente (𝑚 < 0) ou constante (𝑚 = 0).
Δ𝑦 𝑦/ − 𝑦O
𝑚= =
Δ𝑥 𝑥/ − 𝑥O
Vamos determinar a equação da reta AB na figura acima. A reta passa pelos pontos (1,5) e (3,9).
Δ𝑦 9 − 5 4
𝑚= = = =2
Δ𝑥 3 − 1 2
Precisamos calcular o valor de 𝑝. Podemos usar indistintamente um dos pontos (1,5) ou (3,9).
Vamos utilizar o segundo ponto, por exemplo (o resultado dá o mesmo independente do ponto
que você escolher).
9=2∙3+𝑝
9=6+𝑝
𝑝=3
Com 𝑖 = 1, 2, 3, … , 𝑛.
Nesse modelo, a expressão 𝛼 + 𝛽𝑋' é o componente de 𝑌' que varia linearmente com 𝑋' ,
enquanto que 𝑢' é o componente aleatório de 𝑌' (também chamado de erro ou desvio). Em
outras palavras, 𝑢' é a variável aleatória que descreve o erro cometido quando tentamos
aproximar a relação entre 𝑋 e 𝑌 por uma reta.
Nesse modelo, dizemos que 𝑋' é a variável explanatória (ou independente) e 𝑌' é a variável
dependente.
Para desenvolver esse modelo, temos algumas pressuposições acerca da variável aleatória 𝑢'
(erro ou desvio) quais sejam:
i) 𝐸(𝑢' ) = 0
ii) 𝑉𝑎𝑟(𝑢' ) = 𝜎 /
A primeira suposição diz que a média do erro é zero para 𝑖 = 1, 2, … , 𝑛. Essa suposição é bem
óbvia: se o erro em média não fosse zero, o modelo escolhido não estaria adequado.
A terceira hipótese diz que os erros não estão correlacionados, ou seja, estamos supondo que os
erros 𝑢' são variáveis aleatórias independentes. Dizemos que ocorre “autocorrelação” quando os
erros não são independentes.
Pois bem, vamos supor que não temos acesso aos dados populacionais. Assim, queremos obter
estimadores para os parâmetros 𝛼 e 𝛽 do modelo 𝑌' = 𝛼 + 𝛽𝑋' + 𝑢' .
𝑌d = 𝑎 + 𝑏𝑋'
É claro que estaremos cometendo erros (desvios) entre os valores observados e os respectivos
valores estimados de 𝑌.
gf
𝑒 = 𝑌' − 𝑌
O método dos mínimos quadrados é aquele que determina as estimativas 𝑎 e 𝑏 dos parâmetros
minimizando a soma dos quadrados dos desvios.
∑(𝑋' − 𝑋)((𝑌' − 𝑌)
𝑏= /
∑_𝑋' − 𝑋a
𝑌 = 𝑎 + 𝑏𝑋
Isso porque a reta calculada passa pelo ponto (𝑋, 𝑌), ou seja, a reta calculada passa pelos pontos
médios das variáveis X e Y.
É possível manipular os somatórios da fórmula acima para obter formas alternativas de cálculo
bem úteis nas questões. Assim, é importante que você decore a fórmula a seguir:
Veja que a fórmula do lado esquerdo nos força a calcular os desvios 𝑋' − 𝑋) e 𝑌' − 𝑌). A fórmula do
lado direito é mais simples. Na fórmula acima, 𝑛 representa o número de pontos, ou seja, o
número de pares ordenados.
Ou seja,
(CESPE 2018/STM)
Considerando que 𝒀 g seja uma variável resposta ajustada por um modelo de regressão em função
de uma variável explicativa 𝑿, que 𝒙𝟏 , … , 𝒙𝒏 representem as réplicas de 𝑿 e que 𝜶 g sejam as
le𝜷
estimativas dos parâmetros do modelo, julgue os itens a seguir.
II. Em um modelo linear 𝒀 g=𝜶 l+𝜷 g 𝑿, com coeficientes obtidos pelo método dos mínimos
quadrados ordinários, sendo 𝜶 l > 𝟎, a média dos valores estimados de 𝒀 é igual à média dos
g.
valores de 𝑿 multiplicados por 𝜷
Comentário
O item I está errado. Dizer que um estimador é não viesado é o mesmo que dizer que a sua
esperança é igual ao parâmetro populacional.
Vimos que 𝒀 = 𝒂 + 𝒃𝑿. Utilizando a notação da questão, temos que 𝒀 = 𝜶 g 𝑿. Logo, o item II
l+𝜷
está errado (faltou adicionar 𝜶
l ).
O item III está errado, pois a homocedasticidade significa apenas que a variância dos erros é
constante (a segunda parte, valor esperado dos erros é zero, tem nada a ver com a
homocedasticidade).
(CESPE 2018/ABIN)
Ao avaliar o efeito das variações de uma grandeza X sobre outra grandeza Y por meio de uma
regressão linear da forma 𝒀 g=𝜶l+𝜷 g 𝑿, um analista, usando o método dos mínimos quadrados,
encontrou, a partir de 20 amostras, os seguintes somatórios (calculados sobre os vinte valores de
cada variável): ∑𝑿 = 𝟑𝟎𝟎, ∑𝒀 = 𝟒𝟎𝟎, ∑𝑿𝟐 = 𝟔. 𝟎𝟎𝟎, ∑𝒀𝟐 = 𝟏𝟐. 𝟖𝟎𝟎 𝒆 ∑(𝑿𝒀) = 𝟖. 𝟒𝟎𝟎
g < 𝟎.
I. 𝜷
g = 𝟏𝟐.
II. Para 𝑿 = 𝟏𝟎, a estimativa de Y é 𝒀
Comentário
∑𝑿 𝟑𝟎𝟎
𝑿= = = 𝟏𝟓
𝒏 𝟐𝟎
∑𝒀 𝟒𝟎𝟎
𝒀= = = 𝟐𝟎
𝒏 𝟐𝟎
g é dado por
O coeficiente 𝜷
∑(𝑿𝒊 − 𝑿)((𝒀𝒊 − 𝒀)
g=
𝜷 𝟐
∑_𝑿𝒊 − 𝑿a
> ) ∙ (𝒀𝒊 − 𝒀
0[(𝑿𝒊 − 𝑿 > )] = 0(𝑿𝒊 ∙ 𝒀𝒊 ) − 𝒏 ∙ 𝑿
> ∙𝒀
>
= 𝟖. 𝟒𝟎𝟎 − 𝟐𝟎 × 𝟏𝟓 × 𝟐𝟎
= 𝟐. 𝟒𝟎𝟎
> )𝟐 = 0 𝑿𝟐𝒊 − 𝒏 ∙ (𝑿
0(𝑿𝒊 − 𝑿 > )𝟐
= 𝟔. 𝟎𝟎𝟎 − 𝟐𝟎 × 𝟏𝟓𝟐
= 𝟏. 𝟓𝟎𝟎
Assim, temos:
𝟐. 𝟒𝟎𝟎
g=
𝜷 >𝟎
𝟏. 𝟓𝟎𝟎
𝟐.𝟒𝟎𝟎
g=
Já encontramos o valor de 𝜷 = 𝟏, 𝟔.
𝟏.𝟓𝟎𝟎
g𝑿
l+𝜷
𝒀=𝜶
l + 𝟏, 𝟔 × 𝟏𝟓
𝟐𝟎 = 𝜶
l = −𝟒
𝜶
g = −𝟒 + 𝟏, 𝟔𝑿
𝒀
g = −𝟒 + 𝟏, 𝟔 × 𝟏𝟎 = 𝟏𝟐
𝒀
Em algumas situações, o modelo teórico requer que a reta de regressão passe pela origem, ou
seja, 𝛼 = 0.
∑𝑋𝑌
𝛽} =
∑𝑋 /
1. (AOCP 2018/FUNPAPA)
Um pesquisador suspeita que existe uma correlação entre o número de promessas que um
candidato político faz e o número de promessas que são cumpridas uma vez que o candidato é
eleito. Ele acompanha vários políticos proeminentes e registra as promessas feitas (X) e as
promessas mantidas (Y). Utilizando os seguintes dados sumarizados, calcule o coeficiente de
correlação entre as promessas feitas e as promessas mantidas e assinale a alternativa correta.
~ ~ ~ ~ ~
0 𝑥' = 280, 0 𝑦' = 28, 0 𝑥' 𝑦' = 940, 0 𝑥'/ = 12.400, 0 𝑦'/ = 140
'•O '•O '•O '•O '•O
Uma Prefeitura conduziu uma pesquisa com 12.000 estudantes da Rede Pública de Ensino,
relacionando a quantidade de sema- nas que os estudantes permaneceram nas escolas, em
período integral, com o desempenho em um teste posteriormente aplicado. Obteve-se os
seguintes resultados médios, para cada grupo de 1.000 alunos, conforme tabela abaixo.
e) não se pode observar nenhum tipo ligação entre o tempo de permanência na escola e o
desempenho no teste.
d) estabelece-se, necessariamente, uma relação de causa e efeito entre duas variáveis, sempre
que exista uma correlação forte (coeficiente de correlação (r) próximo de 1,0) entre elas.
e) há uma intensidade de relação fraca, porque negativa, entre os dados sobre os investimentos
em infraestrutura de transporte e os dados sobre dispêndio de tempo em viagens de ônibus.
4. (FEPESE 2014/ISS-Florianópolis)
Aplicando o modelo estatístico de regressão linear aos dados da tabela acima, podemos afirmar
que:
b) Há uma correlação não linear entre os dados e a correlação entre eles é provavelmente
espúria.
c) Há uma correlação não linear entre os dados e podemos concluir que o consumo excessivo de
sorvete aumenta o risco de afogamento.
5. (FGV 2014/DPE-RJ)
Através de um estudo para fins comparativos, entre o perfil dos cidadãos que procuram a
Defensoria Pública e a natureza dos seus problemas ou dificuldades levantadas, foram obtidos,
considerando-se o total de processos, os seguintes percentuais:
a) exceto pelo primeiro ano, as mulheres respondem pela maior parte das causas de família.
b) a maior parte das causas de família são geradas a partir de atendimentos às mulheres.
6. (FCC 2013/DPE-RS)
a) r = 1.
b) multiplicando por 0,5 todos os valores 𝑥' e por 0,8 todos os valores 𝑦' , verifica-se que o novo
coeficiente de correlação linear dos dois novos conjuntos é igual a 0,4r.
d) r = 0,45.
e) o valor de r é positivo.
I. Um dispositivo útil quando se quer verificar a associação entre duas variáveis quantitativas é o
gráfico de dispersão entre essas duas variáveis.
II. O coeficiente de variação é uma medida de dispersão relativa que depende da unidade de
medida da variável que está sendo analisada.
III. Dentre as medidas de posição central, a média é considerada uma medida robusta pelo fato
de não ser afetada por valores aberrantes.
IV. Se o coeficiente de correlação linear de Pearson entre duas variáveis for igual a zero, não
haverá associação linear entre elas, implicando a ausência de qualquer outro tipo de associação.
a) II e III.
b) I e II.
c) I e III.
d) II e IV.
e) I.
8. (FCC 2019/BANRISUL)
(A) 2021.
(B) 2025.
(C) 2024.
(D) 2023.
(E) 2022.
a) 11,6
b) 15,0
c) 13,2
d) 12,4
e) 14,4
Utilizando o método da regressão linear, por mínimos quadrados, obteve-se a equação da reta
estimada 𝑻g = 𝟐𝟎 + 𝟎, 𝟖𝒕 correspondente a uma série de tempo referente às vendas, em 1.000
unidades, de um produto no ano t. Esta equação foi obtida com base nas observações das
vendas nos 12 primeiros anos, isto é, para t = 1, 2, 3, ... ,12.
A soma das vendas observadas, em 1.000 unidades, nesses 12 primeiros anos, foi
a) 252,6
b) 280,0
c) 302,4
d) 292,8
e) 336,0
Durante um período de 10 anos (de 2008 a 2017), foi registrado, em cada ano, o faturamento
anual (F) de uma empresa, em milhões de reais, e o respectivo gasto anual com propaganda (G),
em milhões de reais. Um modelo de regressão linear simples 𝑭𝒕 = 𝜶 + 𝜷𝑮𝒕 + 𝜺𝒕 , t = 1, 2, ... foi
elaborado para se prever F em função de G, considerando as informações registradas, em que
𝑭𝟏 e 𝑮𝟏 são o faturamento e o gasto com propaganda em 2008, 𝑭𝟐 e 𝑮𝟐 são o faturamento e o
gasto com propaganda em 2009, e assim por diante. Os parâmetros 𝜶 e 𝜷 são desconhecidos e
𝜺𝒕 é o erro aleatório com as respectivas hipóteses do modelo de regressão linear simples. As
estimativas de 𝜶 e 𝜷 foram obtidas pelo método dos mínimos quadrados, sabendo-se que o
valor da soma dos faturamentos e dos gastos com propaganda de 2008 a 2017 foram, em
milhões de reais, iguais a 120 e 15, respectivamente.
Se a estimativa do coeficiente angular da reta obtida por meio do método dos mínimos
quadrados foi de 1,8, então a previsão do faturamento em um determinado ano, uma vez que a
empresa gastou com propaganda neste ano 2 milhões de reais, é
a) 6,1
b) 5,2
c) 6,0
d) 5,5
e) 5,8
Considere que o gerente de uma empresa comercial adotou o modelo linear simples 𝑽𝒊 = 𝜶 +
𝜷𝒈𝒊 + 𝜺𝒊 para analisar a relação entre o volume de vendas anual (V), em unidades monetárias
(u.m.), em função do gasto anual com promoções de vendas (g), também em u.m. Os
parâmetros 𝜶 e 𝜷 são desconhecidos, i corresponde à i-ésima observação anual e 𝜺𝒊 é o erro
aleatório com as respectivas hipóteses para a regressão linear simples. Com base em 10 pares
de observações anuais (𝒈𝒊 , 𝑽𝒊 ), i = 1, 2, 3, ... , 10, e com a utilização do método dos mínimos
quadrados foram encontradas as estimativas de 𝜶 e 𝜷.
OŠ OŠ OŠ OŠ OŠ
0 𝑔' = 50, 0 𝑉' = 1.500, 0 𝑔'/ = 314, 0 𝑉'/ = 242.600, 0 𝑔' 𝑉' = 8.460
'•O '•O '•O '•O '•O
Em um ano que a empresa não efetua gasto com promoções de vendas, significa que
considerando a equação da reta obtida pelo método dos mínimos quadrados a previsão do
volume de vendas deste ano é igual, em u.m., a
a) 50
b) 150
c) 100
d) 90
e) 75
Deseja-se determinar, usando o método da regressão linear, a tendência (T) da seguinte série de
tempo dada pelo quadro abaixo, em que 𝒀𝒕 representa o volume de vendas (em milhões de
reais) de um produto em t (ano).
a) 4,50
b) 3,00
c) 4,25
d) 4,75
e) 4,00
Dados:
/Š /Š /Š /Š
Considerando a equação da reta obtida pelo método dos mínimos quadrados, tem-se que a
estimativa do salário de um trabalhador com 16 anos de experiência é, em unidades monetárias,
de
a) 33,50
b) 40,00
c) 30,75
d) 25,00
e) 35,00
Sabe-se que:
Ž Ž Ž Ž
a) 7,55
b) 8,15
c) 7,90
d) 8,80
e) 9,50
Seja o modelo linear 𝒀𝒊 = 𝜷𝑿𝒊 + 𝜺𝒊 estabelecendo uma relação linear, sem intercepto, entre duas
variáveis X e Y, em que 𝒀𝒊 i é a variável dependente na observação i, 𝑿𝒊 é a variável explicativa na
observação i e 𝜺𝒊 o erro aleatório com as respectivas hipóteses para a regressão linear simples.
O parâmetro 𝜷 do modelo é desconhecido e sua estimativa foi obtida pelo método dos mínimos
quadrados com base em 10 pares de observações (𝑿𝒊 , 𝒀𝒊 ).
Dados:
OŠ OŠ OŠ OŠ
Considerando a equação da reta obtida pelo método dos mínimos quadrados, obtém-se que Y é
igual a 24 quando X for igual a
a) 15.
b) 6.
c) 16.
d) 18.
e) 20.
Em uma determinada indústria, foi efetuada uma pesquisa a respeito da possível relação entre o
número de horas trabalhadas (X), com 𝑿 ≥ 𝟐, e as quantidades produzidas de um produto (Y).
Com base em 10 pares de observações (𝑿𝒊 , 𝒀𝒊 ) e considerando o gráfico de dispersão
correspondente, optou-se por utilizar o modelo linear 𝒀𝒊 = 𝜶 + 𝜷𝑿𝒊 + 𝜺𝒊 , com 𝒊 representando a
i-ésima observação, ou seja, i = 1, 2, 3, ..., 10. Os parâmetros 𝜶 e 𝜷 são desconhecidos e as suas
estimativas (𝒂 e 𝒃, respectivamente) foram obtidas pelo método dos mínimos quadrados.
Observação: 𝜺𝒊 é o erro aleatório com as respectivas hipóteses do modelo de regressão linear
simples. Considere o gráfico abaixo, construído utilizando os valores encontrados para as
estimativas de 𝜶 e 𝜷.
A previsão da quantidade produzida será igual ao dobro da média verificada das 10 observações
𝒀𝒊 quando o número de horas trabalhadas for igual a
a) 18
b) 12
c) 20
d) 24
e) 22
01. C
02. B
03. B
04. D
05. D
06. E
07. E
08. C
09. D
10. C
11. D
12. D
13. E
14. C
15. E
16. D
17. A
18. E