Escolar Documentos
Profissional Documentos
Cultura Documentos
Autor:
Guilherme Neves
Aula 19
14 de Setembro de 2020
Guilherme Neves
Aula 19
Sumário
1. Correlação Linear .................................................................................................................................... 3
2. Regressão Linear ................................................................................................................................... 22
2.1. Reta que passa pela origem ........................................................................................................... 30
3. Análise de Variância da Regressão ........................................................................................................ 31
Lista de Questões de Concursos sem Comentários ..................................................................................... 38
Gabarito sem comentário ............................................................................................................................. 53
Lista de Questões de Concursos com Comentários ..................................................................................... 54
Exercícios sobre Correlação ..................................................................................................................... 54
Exercícios sobre Regressão Linear ................................
............................................................................ 65
Exercícios sobre Análise de Variância da Regressão ................................................................................ 86
Considerações Finais .................................................................................................................................... 98
Para tirar dúvidas e ter acesso a dicas e conteúdos gratuitos, acesse minhas redes
sociais:
Instagram - @profguilhermeneves
https://www.instagram.com/profguilhermeneves
https://youtu.be/gqab047D9l4
E-mail: profguilhermeneves@gmail.com
1. CORRELAÇÃO LINEAR
Imagine que realizamos uma pesquisa com 25 alunos do Estratégia. Para cada um desses alunos
anotamos a sua altura em centímetros e a sua massa em quilogramas.
Esses são os nossos dados brutos. Fica difícil analisar a relação entre altura e massa apenas com
essa tabela. Uma ideia é colocar esses dados em um gráfico. No eixo x vamos colocar as alturas
em centímetros e no eixo y vamos colocar a massa em kg.
Quando isso ocorre, dizemos que as variáveis estão correlacionadas, ou seja, existe uma
correlação linear entre as variáveis.
Nesta aula, vamos aprender a medir esse grau de correlação, em outras palavras, queremos
determinar se existe uma relação linear entre duas variáveis X e Y.
Se existir a relação linear entre as variáveis, frequentemente se deseja saber qual é a função que
mostra como Y varia aproximadamente em função de X. Esse é o objeto de estudo da Regressão
Linear.
É claro que o diagrama de dispersão ajuda muito em determinar se existe ou não uma relação
linear entre as variáveis, mas vamos aprender um método numérico para medir o grau dessa
relação.
Veja que a relação linear neste caso não existe (ou é muito fraca).
O Coeficiente de Correlação Linear de Pearson serve justamente para medir a força da relação
linear entre as duas variáveis.
Da mesma forma que é possível manipular os somatórios para obter uma forma alternativa para o
cálculo da variância (lembra daquela historinha de “Média dos quadrados menos o quadrado da
média”?), também é possível manipular os somatórios da fórmula acima para obter formas
alternativas de cálculo bem úteis nas questões. Assim, é importante que você decore a fórmula a
seguir:
Veja que a fórmula do lado esquerdo nos força a calcular os desvios 𝑋' − 𝑋) e 𝑌' − 𝑌). A fórmula do
lado direito é mais simples. Na fórmula acima, 𝑛 representa o número de pontos, ou seja, o
número de pares ordenados.
Essa é apenas uma outra forma de calcular o numerador do coeficiente de correlação. Daqui a
pouquinho vou fazer um exemplo numérico para que você possa entender como aplicar essas
fórmulas.
Ou seja,
Essas duas fórmulas são fórmulas alternativas para o cálculo dos termos do denominador do
coeficiente de correlação.
Pois bem. Demonstra-se que o coeficiente de correlação de Pearson é sempre um número que
pertence ao intervalo real [−1,1], ou seja:
−1 ≤ 𝑟 ≤ 1
Quando Y tende a crescer quando X cresce, o valor de 𝑟 é positivo. Dizemos que as variáveis
estão positivamente correlacionadas.
Quando Y tende a decrescer quando X cresce, o valor de 𝑟 é negativo. Dizemos que as variáveis
estão negativamente correlacionadas.
Quanto mais próximo de 1 ou de -1 for o coeficiente de correlação, mais forte será a correlação.
Se a correlação for perfeita, ou seja, se todos os pontos estiverem sobre uma mesma reta, o valor
de r será exatamente 1 (se a correlação for positiva) ou será exatamente -1 (se for uma correlação
negativa).
O Excel indica que o coeficiente de correlação entre essas variáveis é 0,9293355. Veja que temos
uma correlação positiva forte (o coeficiente de correlação é positivo e próximo de 1).
Se a correlação é positiva e todos os pontos estão sobre uma mesma reta, o coeficiente de
correlação será exatamente igual a 1. Observe o diagrama de dispersão a seguir.
𝑟=1
O Excel indica que o coeficiente de correlação nesse caso é -0,9836038. Veja que os dados estão
praticamente em cima de uma reta. Como a correlação é negativa e forte, o coeficiente de
correlação foi bem próximo de −1.
Se a correlação fosse negativa e os pontos estivessem todos sobre a mesma reta, o coeficiente
seria exatamente −1.
𝑟 = −1
Não existe uma relação linear entre essas variáveis. Assim, o coeficiente de correlação será 0 (ou
um número muito próximo de 0). De fato, o Excel indica que o coeficiente de correlação do
diagrama de dispersão acima é -0,0205218.
Uma forte correlação não significa causalidade. A correlação mede a relação linear
entre duas variáveis, mas não significa que a variação de uma cause a variação da
outra. Por exemplo, existe uma correlação entre o consumo de cerveja e o número de
ataques de tubarão. Com o aumento da temperatura no verão, mais pessoas vão à
praia e consomem mais cerveja. Com isso, aumenta também o número de ataques de
tubarão. Dessa forma, o aumento de temperatura no verão é a causa comum aos dois
aumentos.
É possível ainda que dois eventos tenham uma forte correlação mesmo sem
causalidade nem causa em comum. Simplesmente por acaso. São as chamadas
“correlações espúrias”.
A taxa de divórcios no estado americano do Maine correlaciona com o consumo per capita de
Margarina (r = 0,9925).
Normalmente, a questão já vai indicar valores dos somatórios para que você simplesmente
aplique a fórmula. De qualquer forma, vamos criar aqui uma tabelinha com apenas 4 pares
ordenados para calcular o coeficiente de correlação pelas duas fórmulas.
X Y
1 3
3 6
4 5
8 10
1+3+4+8
𝑋) = =4
4
3 + 6 + 5 + 10
𝑌) = =6
4
X Y >
𝑿𝒊 − 𝑿 𝒀𝒊 − 𝒀
1 3 1 − 4 = −3 3 − 6 = −3
3 6 3 − 4 = −1 6−6=0
4 5 4−4=0 5 − 6 = −1
8 10 8−4=4 10 − 6 = 4
X Y >
𝑿𝒊 − 𝑿 𝒀𝒊 − 𝒀
1 3 −3 −3
3 6 −1 0
4 5 0 −1
8 10 4 4
X Y >
𝑿𝒊 − 𝑿 𝒀𝒊 − 𝒀 > ) ∙ (𝒀𝒊 − 𝒀
(𝑿𝒊 − 𝑿 >) > )𝟐
(𝑿𝒊 − 𝑿 > )𝟐
(𝒀𝒊 − 𝒀
1 3 −3 −3 (−3) ∙ (−3) = 9 (−3)/ = 9 (−3)/ = 9
3 6 −1 0 −1 ∙ 0 = 0 (−1)/ = 1 0/ = 0
4 5 0 −1 0 ∙ (−1) = 0 0/ = 0 (−1)/ = 1
8 10 4 4 4 ∙ 4 = 16 4/ = 16 4/ = 16
X Y >
𝑿𝒊 − 𝑿 𝒀𝒊 − 𝒀 > ) ∙ (𝒀𝒊 − 𝒀
(𝑿𝒊 − 𝑿 >) > )𝟐
(𝑿𝒊 − 𝑿 > )𝟐
(𝒀𝒊 − 𝒀
1 3 −3 −3 9 9 9
3 6 −1 0 0 1 0
4 5 0 −1 0 0 1
8 10 4 4 16 16 16
0(𝑋' − 𝑋) )/ = 9 + 1 + 0 + 16 = 26
0(𝑌' − 𝑌))/ = 9 + 0 + 1 + 16 = 26
25 25 25
𝑟= = =
√26 ∙ 26 √26/ 26
𝑟 ≅ 0,9615
Temos uma correlação positiva forte (coeficiente bem próximo de 1). De fato, observe o
diagrama de dispersão com a respectiva reta de regressão.
Vamos agora calcular o mesmo coeficiente utilizando as fórmulas alternativas dos somatórios.
Observe que esses dois últimos resultados podem ser obtidos através do primeiro
X Y
1 3
3 6
4 5
8 10
1+3+4+8
𝑋) = =4
4
3 + 6 + 5 + 10
𝑌) = =6
4
X Y 𝑿∙𝒀 𝑿𝟐 𝒀𝟐
1 3 1×3=3 1/ = 1 3/ = 9
3 6 3 × 6 = 18 3/ = 9 6/ = 36
4 5 4 × 5 = 20 4/ = 16 5/ = 25
8 10 8 × 10 = 80 8/ = 64 10/ = 100
X Y 𝑿∙𝒀 𝑿𝟐 𝒀𝟐
1 3 3 1 9
3 6 18 9 36
4 5 20 16 25
8 10 80 64 100
0 𝑋'/ = 1 + 9 + 16 + 64 = 90
0 𝑋'/ − 𝑛 ∙ (𝑋))/ = 90 − 4 ∙ 4/ = 26
25 25 25
𝑟= = =
√26 ∙ 26 √26/ 26
Por exemplo, quando adicionamos uma constante a todos os valores, à média será adicionada
essa constante, mas a variância não será alterada.
Daí surge a pergunta: o que ocorre com o coeficiente de correlação quando transformamos a
variável?
X Y
1 3
3 6
4 5
8 10
25
𝑟(𝑋, 𝑌) =
26
X+4 Y+5
5 8
7 11
8 10
12 15
25
𝑟(𝑋 + 4, 𝑌 + 5) =
26
3X 4Y
3 12
9 24
12 20
24 40
Como multiplicamos as variáveis por constantes de mesmo sinal (3 e 4 são positivos), então o
coeficiente de correlação continua sendo 25/26.
25
𝑟(3𝑋, 4𝑌) =
26
-2X -3Y
-2 -9
-6 -18
-8 -15
-16 -30
Como multiplicamos as variáveis por constantes de mesmo sinal (-2 e -3 são negativos), então o
coeficiente de correlação continua sendo 25/26.
25
𝑟(−2𝑋, −3𝑌) =
26
Finalmente, vamos multiplicar X por -2 e Y por 3 (uma constante é positiva e a outra é negativa).
-2X 3Y
-2 9
-6 18
-8 15
-16 30
Como as constantes que foram usadas para multiplicar as variáveis possuem sinais contrários,
então o coeficiente de correlação terá seu sinal trocado.
25
𝑟(−2𝑋, 3𝑌) = −
26
2. REGRESSÃO LINEAR
A correlação linear nos diz se existe uma relação linear entre duas variáveis 𝑋 e 𝑌. Agora estamos
interessados em calcular a expressão matemática que relaciona 𝑌 em função de 𝑋.
A Matemática Básica nos ensina que a equação de uma reta pode ser escrita como
𝑦 = 𝑝 + 𝑚𝑥
O coeficiente 𝑝 é o coeficiente linear da reta (indica onde a reta corta o eixo 𝑦) e o coeficiente 𝑚
é chamado de taxa de variação (ou coeficiente angular da reta). O coeficiente 𝑚 indica se a
função é crescente (𝑚 > 0), decrescente (𝑚 < 0) ou constante (𝑚 = 0).
Δ𝑦 𝑦/ − 𝑦O
𝑚= =
Δ𝑥 𝑥/ − 𝑥O
Vamos determinar a equação da reta AB na figura acima. A reta passa pelos pontos (1,5) e (3,9).
Δ𝑦 9 − 5 4
𝑚= = = =2
Δ𝑥 3 − 1 2
Precisamos calcular o valor de 𝑝. Podemos usar indistintamente um dos pontos (1,5) ou (3,9).
Vamos utilizar o segundo ponto, por exemplo (o resultado dá o mesmo independente do ponto
que você escolher).
9=2∙3+𝑝
9=6+𝑝
𝑝=3
Com 𝑖 = 1, 2, 3, … , 𝑛.
Nesse modelo, a expressão 𝛼 + 𝛽𝑋' é o componente de 𝑌' que varia linearmente com 𝑋' ,
enquanto que 𝑢' é o componente aleatório de 𝑌' (também chamado de erro ou desvio). Em
outras palavras, 𝑢' é a variável aleatória que descreve o erro cometido quando tentamos
aproximar a relação entre 𝑋 e 𝑌 por uma reta.
Nesse modelo, dizemos que 𝑋' é a variável explanatória (ou independente) e 𝑌' é a variável
dependente.
Para desenvolver esse modelo, temos algumas pressuposições acerca da variável aleatória 𝑢'
(erro ou desvio) quais sejam:
i) 𝐸(𝑢' ) = 0
ii) 𝑉𝑎𝑟(𝑢' ) = 𝜎 /
A primeira suposição diz que a média do erro é zero para 𝑖 = 1, 2, … , 𝑛. Essa suposição é bem
óbvia: se o erro em média não fosse zero, o modelo escolhido não estaria adequado.
A terceira hipótese diz que os erros não estão correlacionados, ou seja, estamos supondo que os
erros 𝑢' são variáveis aleatórias independentes. Dizemos que ocorre “autocorrelação” quando os
erros não são independentes.
Pois bem, vamos supor que não temos acesso aos dados populacionais. Assim, queremos obter
estimadores para os parâmetros 𝛼 e 𝛽 do modelo 𝑌' = 𝛼 + 𝛽𝑋' + 𝑢' .
𝑌d = 𝑎 + 𝑏𝑋'
É claro que estaremos cometendo erros (desvios) entre os valores observados e os respectivos
valores estimados de 𝑌.
gf
𝑒 = 𝑌' − 𝑌
O método dos mínimos quadrados é aquele que determina as estimativas 𝑎 e 𝑏 dos parâmetros
minimizando a soma dos quadrados dos desvios.
∑(𝑋' − 𝑋)((𝑌' − 𝑌)
𝑏= /
∑_𝑋' − 𝑋a
𝑌 = 𝑎 + 𝑏𝑋
Isso porque a reta calculada passa pelo ponto (𝑋, 𝑌), ou seja, a reta calculada passa pelos pontos
médios das variáveis X e Y.
É possível manipular os somatórios da fórmula acima para obter formas alternativas de cálculo
bem úteis nas questões. Assim, é importante que você decore a fórmula a seguir:
Veja que a fórmula do lado esquerdo nos força a calcular os desvios 𝑋' − 𝑋) e 𝑌' − 𝑌). A fórmula do
lado direito é mais simples. Na fórmula acima, 𝑛 representa o número de pontos, ou seja, o
número de pares ordenados.
Ou seja,
(CESPE 2018/STM)
Considerando que 𝒀 g seja uma variável resposta ajustada por um modelo de regressão em função
de uma variável explicativa 𝑿, que 𝒙𝟏 , … , 𝒙𝒏 representem as réplicas de 𝑿 e que 𝜶 g sejam as
le𝜷
estimativas dos parâmetros do modelo, julgue os itens a seguir.
II. Em um modelo linear 𝑌d = 𝛼n + 𝛽o 𝑋, com coeficientes obtidos pelo método dos mínimos
quadrados ordinários, sendo 𝛼n > 0, a média dos valores estimados de 𝑌 é igual à média dos
valores de 𝑋 multiplicados por 𝛽o .
IV. No modelo linear 𝑌 = 𝑎 + 𝛽𝑋 + 𝑒, considere que para cada valor 𝑥' de 𝑋 corresponda a um
erro 𝑒' , que é uma variável aleatória. Nessa situação a hipótese de erros não autocorrelacionados
implica que 𝑐𝑜𝑣_𝑒' , 𝑒` a = 0, para 𝑖 ≠ 𝑗.
Comentário
O item I está errado. Dizer que um estimador é não viesado é o mesmo que dizer que a sua
esperança é igual ao parâmetro populacional.
Vimos que 𝑌 = 𝑎 + 𝑏𝑋. Utilizando a notação da questão, temos que 𝑌 = 𝛼n + 𝛽o 𝑋. Logo, o item II
está errado (faltou adicionar 𝛼n).
O item III está errado, pois a homocedasticidade significa apenas que a variância dos erros é
constante (a segunda parte, valor esperado dos erros é zero, tem nada a ver com a
homocedasticidade).
(CESPE 2018/ABIN)
Ao avaliar o efeito das variações de uma grandeza X sobre outra grandeza Y por meio de uma
regressão linear da forma 𝒀 g=𝜶l+𝜷 g 𝑿, um analista, usando o método dos mínimos quadrados,
encontrou, a partir de 20 amostras, os seguintes somatórios (calculados sobre os vinte valores de
cada variável): ∑𝑿 = 𝟑𝟎𝟎, ∑𝒀 = 𝟒𝟎𝟎, ∑𝑿𝟐 = 𝟔. 𝟎𝟎𝟎, ∑𝒀𝟐 = 𝟏𝟐. 𝟖𝟎𝟎 𝒆 ∑(𝑿𝒀) = 𝟖. 𝟒𝟎𝟎
I. 𝛽o < 0.
Comentário
∑𝑋 300
𝑋= = = 15
𝑛 20
∑𝑌 400
𝑌= = = 20
𝑛 20
∑(𝑋' − 𝑋)((𝑌' − 𝑌)
𝛽o = /
∑_𝑋' − 𝑋a
= 8.400 − 20 × 15 × 20
= 2.400
= 6.000 − 20 × 15/
= 1.500
Assim, temos:
2.400
𝛽o = >0
1.500
/.wxx
Já encontramos o valor de 𝛽o = O.yxx = 1,6.
𝑌 = 𝛼n + 𝛽o 𝑋
20 = 𝛼n + 1,6 × 15
𝛼n = −4
𝑌d = −4 + 1,6𝑋
𝑌d = −4 + 1,6 × 10 = 12
Em algumas situações, o modelo teórico requer que a reta de regressão passe pela origem, ou
seja, 𝛼 = 0.
∑𝑋𝑌
𝛽o =
∑𝑋 /
Mais uma vez: é importante que você lembre as seguintes transformações dos somatórios que
vimos anteriormente:
Para que possamos entender profundamente o que o coeficiente de correlação mede, vamos
entender três medidas de desvio na regressão.
O desvio total de Y, _𝑌' − 𝑌a, é o desvio de cada valor de 𝑌' em relação à média 𝑌.
/
𝑆𝑄𝑇 = 0_𝑌' − 𝑌a
Esse desvio total pode ser desmembrado em desvios explicáveis (SQM, soma dos quadrados do
modelo de regressão) e não explicáveis (SQR, soma dos quadrados dos resíduos).
Em outras palavras,
O desvio explicável é a parte do desvio total que é explicada pelo modelo de regressão, ou seja,
é a diferença entre o valor que o modelo de regressão prevê 𝑌 gf e o valor de médio 𝑌. Assim,
podemos definir a soma dos quadrados do modelo de regressão
/
gf − 𝑌a
𝑆𝑄𝑀 = 0_𝑌
Cuidado com a notação. Alguns livros e questões de provas indicam a soma acima pelo símbolo
𝑆𝑄𝑅, em que R é significa regressão. É importante que você saiba diferenciar, pois outras provas
utilizam SQR para representar a soma dos quadrados dos resíduos (erros), assim como estou
fazendo aqui nesta aula.
O desvio não explicável é a parte do desvio total que não é explicada pelo modelo de regressão,
gf a entre cada valor de 𝑌' e o valor previsto pelo modelo. Assim,
ou seja, é a diferença _𝑌' − 𝑌
podemos definir a soma dos quadrados dos erros (resíduos).
gf a/
𝑆𝑄𝑅 = 0_𝑌' − 𝑌
𝑆𝑄𝑀
𝑅=‹
𝑆𝑄𝑇
Já vimos que −1 ≤ 𝑅 ≤ 1.
𝑆𝑄𝑀
𝑅/ =
𝑆𝑄𝑇
𝑆𝑄𝑅
𝑅/ = 1 −
𝑆𝑄𝑇
Temos que 0 ≤ 𝑅/ ≤ 1.
Em outras palavras, o coeficiente de determinação é uma medida de precisão do ajuste feito pela
regressão. O coeficiente de determinação exprime a proporção da variação total de Y que é
explicada pela reta de regressão.
𝐻 :𝛽 = 0
Œ x
𝐻O : 𝛽 ≠ 0
Se a hipótese nula é aceita, concluímos que não existe relação linear significativa entre as
variáveis 𝑋 e 𝑌.
Para montar a tabela da ANOVA, precisamos dos números de graus de liberdade das somas dos
quadrados (sugiro que você revise a aula sobre ANOVA).
𝑔𝑙•‘•’“ = 𝑛 − 1
Como a equação de regressão tem dois parâmetros, então, o número de graus de liberdade do
modelo é 2 − 1 = 1.
Logo,
𝑛 − 1 = 1 + 𝑔𝑙—–˜í•š‘˜
𝑔𝑙—–˜í•š‘˜ = 𝑛 − 2
Lembre-se que o quadrado médio é a razão entre a soma dos quadrados e o número de graus
de liberdade.
Uma prática comum para a regressão múltipla é calcular o coeficiente de determinação ajustado,
simbolizado por 𝑅/ . Esta estatística ajusta a medida da força de explicação para o número de
graus de liberdade. O coeficiente de determinação ajustado é obtido dividindo 𝑆𝑄𝑅 e 𝑆𝑄𝑇 pelos
respectivos graus de liberdade.
𝑆𝑄𝑅/(𝑛 − 2)
𝑅/ = 1 −
𝑆𝑄𝑇/(𝑛 − 1)
𝑛−1
𝑅/ = 1 − (1 − 𝑅/ ) ∙
𝑛−2
(CESPE 2018/EBSERH)
02. A correlação linear entre o número de leitos hospitalares por habitante (y) e o indicador de
qualidade de vida (x) foi igual a 0,9.
Comentário
𝑛 − 1 = 11
𝑛 = 12
𝑆𝑄𝑀
𝑅=‹
𝑆𝑄𝑇
900
𝑅=‹ = .0,9
1.000
O item 02 está errado. Observe que o coeficiente de determinação 𝑅/ é que é igual a 0,9. A
banca tentou confundir.
Pois bem, já sabemos que 𝑅/ = 0,9. Vamos agora calcular o coeficiente de determinação
ajustado.
𝑛−1
𝑅/ = 1 − (1 − 𝑅/ ) ∙
𝑛−2
12 − 1
𝑅/ = 1 − (1 − 0,9) ∙
12 − 2
11
𝑅/ = 1 − 0,1 ∙ = 0,89
10
A ANOVA testa a hipótese de que o coeficiente angular 𝛽O é nulo. Portanto, o item 04 está
errado.
£/ = 𝑄𝑀𝑅 = 10
𝜎
1. (AOCP 2018/FUNPAPA)
Um pesquisador suspeita que existe uma correlação entre o número de promessas que um
candidato político faz e o número de promessas que são cumpridas uma vez que o candidato é
eleito. Ele acompanha vários políticos proeminentes e registra as promessas feitas (X) e as
promessas mantidas (Y). Utilizando os seguintes dados sumarizados, calcule o coeficiente de
correlação entre as promessas feitas e as promessas mantidas e assinale a alternativa correta.
¤ ¤ ¤ ¤ ¤
0 𝑥' = 280, 0 𝑦' = 28, 0 𝑥' 𝑦' = 940, 0 𝑥'/ = 12.400, 0 𝑦'/ = 140
'¥O '¥O '¥O '¥O '¥O
Uma Prefeitura conduziu uma pesquisa com 12.000 estudantes da Rede Pública de Ensino,
relacionando a quantidade de sema- nas que os estudantes permaneceram nas escolas, em
período integral, com o desempenho em um teste posteriormente aplicado. Obteve-se os
seguintes resultados médios, para cada grupo de 1.000 alunos, conforme tabela abaixo.
e) não se pode observar nenhum tipo ligação entre o tempo de permanência na escola e o
desempenho no teste.
d) estabelece-se, necessariamente, uma relação de causa e efeito entre duas variáveis, sempre
que exista uma correlação forte (coeficiente de correlação (r) próximo de 1,0) entre elas.
e) há uma intensidade de relação fraca, porque negativa, entre os dados sobre os investimentos
em infraestrutura de transporte e os dados sobre dispêndio de tempo em viagens de ônibus.
4. (FEPESE 2014/ISS-Florianópolis)
Aplicando o modelo estatístico de regressão linear aos dados da tabela acima, podemos afirmar
que:
b) Há uma correlação não linear entre os dados e a correlação entre eles é provavelmente
espúria.
c) Há uma correlação não linear entre os dados e podemos concluir que o consumo excessivo de
sorvete aumenta o risco de afogamento.
5. (FGV 2014/DPE-RJ)
Através de um estudo para fins comparativos, entre o perfil dos cidadãos que procuram a
Defensoria Pública e a natureza dos seus problemas ou dificuldades levantadas, foram obtidos,
considerando-se o total de processos, os seguintes percentuais:
a) exceto pelo primeiro ano, as mulheres respondem pela maior parte das causas de família.
b) a maior parte das causas de família são geradas a partir de atendimentos às mulheres.
6. (FCC 2013/DPE-RS)
a) r = 1.
b) multiplicando por 0,5 todos os valores 𝑥' e por 0,8 todos os valores 𝑦' , verifica-se que o novo
coeficiente de correlação linear dos dois novos conjuntos é igual a 0,4r.
d) r = 0,45.
e) o valor de r é positivo.
I. Um dispositivo útil quando se quer verificar a associação entre duas variáveis quantitativas é o
gráfico de dispersão entre essas duas variáveis.
II. O coeficiente de variação é uma medida de dispersão relativa que depende da unidade de
medida da variável que está sendo analisada.
III. Dentre as medidas de posição central, a média é considerada uma medida robusta pelo fato
de não ser afetada por valores aberrantes.
IV. Se o coeficiente de correlação linear de Pearson entre duas variáveis for igual a zero, não
haverá associação linear entre elas, implicando a ausência de qualquer outro tipo de associação.
a) II e III.
b) I e II.
c) I e III.
d) II e IV.
e) I.
8. (FCC 2019/BANRISUL)
(A) 2021.
(B) 2025.
(C) 2024.
(D) 2023.
(E) 2022.
a) 11,6
b) 15,0
c) 13,2
d) 12,4
e) 14,4
Utilizando o método da regressão linear, por mínimos quadrados, obteve-se a equação da reta
estimada 𝑻g = 𝟐𝟎 + 𝟎, 𝟖𝒕 correspondente a uma série de tempo referente às vendas, em 1.000
unidades, de um produto no ano t. Esta equação foi obtida com base nas observações das
vendas nos 12 primeiros anos, isto é, para t = 1, 2, 3, ... ,12.
A soma das vendas observadas, em 1.000 unidades, nesses 12 primeiros anos, foi
a) 252,6
b) 280,0
c) 302,4
d) 292,8
e) 336,0
Durante um período de 10 anos (de 2008 a 2017), foi registrado, em cada ano, o faturamento
anual (F) de uma empresa, em milhões de reais, e o respectivo gasto anual com propaganda (G),
em milhões de reais. Um modelo de regressão linear simples 𝑭𝒕 = 𝜶 + 𝜷𝑮𝒕 + 𝜺𝒕 , t = 1, 2, ... foi
elaborado para se prever F em função de G, considerando as informações registradas, em que
𝑭𝟏 e 𝑮𝟏 são o faturamento e o gasto com propaganda em 2008, 𝑭𝟐 e 𝑮𝟐 são o faturamento e o
gasto com propaganda em 2009, e assim por diante. Os parâmetros 𝜶 e 𝜷 são desconhecidos e
𝜺𝒕 é o erro aleatório com as respectivas hipóteses do modelo de regressão linear simples. As
estimativas de 𝜶 e 𝜷 foram obtidas pelo método dos mínimos quadrados, sabendo-se que o
valor da soma dos faturamentos e dos gastos com propaganda de 2008 a 2017 foram, em
milhões de reais, iguais a 120 e 15, respectivamente.
Se a estimativa do coeficiente angular da reta obtida por meio do método dos mínimos
quadrados foi de 1,8, então a previsão do faturamento em um determinado ano, uma vez que a
empresa gastou com propaganda neste ano 2 milhões de reais, é
a) 6,1
b) 5,2
c) 6,0
d) 5,5
e) 5,8
Considere que o gerente de uma empresa comercial adotou o modelo linear simples 𝑽𝒊 = 𝜶 +
𝜷𝒈𝒊 + 𝜺𝒊 para analisar a relação entre o volume de vendas anual (V), em unidades monetárias
(u.m.), em função do gasto anual com promoções de vendas (g), também em u.m. Os
parâmetros 𝜶 e 𝜷 são desconhecidos, i corresponde à i-ésima observação anual e 𝜺𝒊 é o erro
aleatório com as respectivas hipóteses para a regressão linear simples. Com base em 10 pares
de observações anuais (𝒈𝒊 , 𝑽𝒊 ), i = 1, 2, 3, ... , 10, e com a utilização do método dos mínimos
quadrados foram encontradas as estimativas de 𝜶 e 𝜷.
Ox Ox Ox Ox Ox
0 𝑔' = 50, 0 𝑉' = 1.500, 0 𝑔'/ = 314, 0 𝑉'/ = 242.600, 0 𝑔' 𝑉' = 8.460
'¥O '¥O '¥O '¥O '¥O
Em um ano que a empresa não efetua gasto com promoções de vendas, significa que
considerando a equação da reta obtida pelo método dos mínimos quadrados a previsão do
volume de vendas deste ano é igual, em u.m., a
a) 50
b) 150
c) 100
d) 90
e) 75
Deseja-se determinar, usando o método da regressão linear, a tendência (T) da seguinte série de
tempo dada pelo quadro abaixo, em que 𝒀𝒕 representa o volume de vendas (em milhões de
reais) de um produto em t (ano).
a) 4,50
b) 3,00
c) 4,25
d) 4,75
e) 4,00
Dados:
/x /x /x /x
Considerando a equação da reta obtida pelo método dos mínimos quadrados, tem-se que a
estimativa do salário de um trabalhador com 16 anos de experiência é, em unidades monetárias,
de
a) 33,50
b) 40,00
c) 30,75
d) 25,00
e) 35,00
Sabe-se que:
± ± ± ±
a) 7,55
b) 8,15
c) 7,90
d) 8,80
e) 9,50
Seja o modelo linear 𝒀𝒊 = 𝜷𝑿𝒊 + 𝜺𝒊 estabelecendo uma relação linear, sem intercepto, entre duas
variáveis X e Y, em que 𝒀𝒊 i é a variável dependente na observação i, 𝑿𝒊 é a variável explicativa na
observação i e 𝜺𝒊 o erro aleatório com as respectivas hipóteses para a regressão linear simples.
O parâmetro 𝜷 do modelo é desconhecido e sua estimativa foi obtida pelo método dos mínimos
quadrados com base em 10 pares de observações (𝑿𝒊 , 𝒀𝒊 ).
Dados:
Ox Ox Ox Ox
Considerando a equação da reta obtida pelo método dos mínimos quadrados, obtém-se que Y é
igual a 24 quando X for igual a
a) 15.
b) 6.
c) 16.
d) 18.
e) 20.
Em uma determinada indústria, foi efetuada uma pesquisa a respeito da possível relação entre o
número de horas trabalhadas (X), com 𝑿 ≥ 𝟐, e as quantidades produzidas de um produto (Y).
Com base em 10 pares de observações (𝑿𝒊 , 𝒀𝒊 ) e considerando o gráfico de dispersão
correspondente, optou-se por utilizar o modelo linear 𝒀𝒊 = 𝜶 + 𝜷𝑿𝒊 + 𝜺𝒊 , com 𝒊 representando a
i-ésima observação, ou seja, i = 1, 2, 3, ..., 10. Os parâmetros 𝜶 e 𝜷 são desconhecidos e as suas
estimativas (𝒂 e 𝒃, respectivamente) foram obtidas pelo método dos mínimos quadrados.
Observação: 𝜺𝒊 é o erro aleatório com as respectivas hipóteses do modelo de regressão linear
simples. Considere o gráfico abaixo, construído utilizando os valores encontrados para as
estimativas de 𝜶 e 𝜷.
A previsão da quantidade produzida será igual ao dobro da média verificada das 10 observações
𝒀𝒊 quando o número de horas trabalhadas for igual a
a) 18
b) 12
c) 20
d) 24
e) 22
III. 𝜺𝒊 representa o erro aleatório com as respectivas hipóteses para a regressão linear simples.
IV. As estimativas de 𝜶 e 𝜷 foram obtidas pelo método de mínimos quadrados por meio de 10
observações, utilizando-se as seguintes informações:
==7ee66==
a) 810
b) 515
c) 920
d) 460
e) 785
c) o valor da estatística F (F calculado) utilizado para testar a existência da regressão é igual a 32.
e) a variação explicada, fonte de variação devido à regressão, tem distribuição qui-quadrado com
18 graus de liberdade.
Com base na equação da reta obtida por meio do método dos mínimos quadrados e no quadro
de análise de variância considerado para testar a existência de uma relação linear entre L e X, é
correto afirmar que
d) dividindo o valor encontrado para a variação explicada pelo valor encontrado para a variação
total encontra-se o coeficiente de determinação (𝑅/ ) que é igual a 0,64.
01. C
02. B
03. B
04. D
05. D
06. E
07. E
08. C
09. D
10. C
11. D
12. D
13. E
14. C
15. E
16. D
17. A
18. E
19. C
20. C
21. C
Um pesquisador suspeita que existe uma correlação entre o número de promessas que um
candidato político faz e o número de promessas que são cumpridas uma vez que o candidato é
eleito. Ele acompanha vários políticos proeminentes e registra as promessas feitas (X) e as
promessas mantidas (Y). Utilizando os seguintes dados sumarizados, calcule o coeficiente de
correlação entre as promessas feitas e as promessas mantidas e assinale a alternativa correta.
¤ ¤ ¤ ¤ ¤
0 𝑥' = 280, 0 𝑦' = 28, 0 𝑥' 𝑦' = 940, 0 𝑥'/ = 12.400, 0 𝑦'/ = 140
'¥O '¥O '¥O '¥O '¥O
Comentário
∑𝑥' 280
𝑋) = = = 40
𝑛 7
∑𝑦' 28
𝑌) = = =4
𝑛 7
= 940 − 7 × 40 × 4
= −180
= 140 − 7 × 4/ = 28
−180 −180
𝑟= =
√1.200 × 28 √12 × 100 × 28
−180 −180
𝑟= =
10√4 × 3 × 4 × 7 10 ∙ 4 ∙ √21
−180
𝑟≅
40 × 4,5
𝑟 ≅ −1
Veja que o coeficiente de correlação é bem próximo de −1, mas não é igual, já que usamos uma
aproximação. Isso quer dizer que existe uma forte correlação negativa.
Gabarito: C
Uma Prefeitura conduziu uma pesquisa com 12.000 estudantes da Rede Pública de Ensino,
relacionando a quantidade de sema- nas que os estudantes permaneceram nas escolas, em
período integral, com o desempenho em um teste posteriormente aplicado. Obteve-se os
seguintes resultados médios, para cada grupo de 1.000 alunos, conforme tabela abaixo.
e) não se pode observar nenhum tipo ligação entre o tempo de permanência na escola e o
desempenho no teste.
Comentário
Observe que, de uma maneira geral, os menores valores de x estão associados aos menores
valores de y e os maiores valores de x estão associados aos maiores valores de y. Portanto, a
correlação é positiva.
Gabarito: B
d) estabelece-se, necessariamente, uma relação de causa e efeito entre duas variáveis, sempre
que exista uma correlação forte (coeficiente de correlação (r) próximo de 1,0) entre elas.
e) há uma intensidade de relação fraca, porque negativa, entre os dados sobre os investimentos
em infraestrutura de transporte e os dados sobre dispêndio de tempo em viagens de ônibus.
Comentário
Isso quer dizer que todos os pontos estão sobre uma mesma reta. Além disso, o valor de y
decresce quando o valor de x cresce.
a) Se os dados estão sobre uma reta, podemos utilizar essa reta para prever dados futuros, já que
uma variável está em função da outra.
b) Correto. Quando o coeficiente é 1 ou -1, os pontos estão todos sobre a mesma reta.
c) Como o coeficiente de correlação linear é -1, então a relação linear entre as variáveis é
perfeita. Assim, a relação é linear e não exponencial.
d) Correlação forte não indica relação de causa e efeito. A alternativa está errada.
Gabarito: B
Aplicando o modelo estatístico de regressão linear aos dados da tabela acima, podemos afirmar
que:
b) Há uma correlação não linear entre os dados e a correlação entre eles é provavelmente
espúria.
c) Há uma correlação não linear entre os dados e podemos concluir que o consumo excessivo de
sorvete aumenta o risco de afogamento.
Comentário
Observe que quando o consumo de sorve diminui, diminui também a quantidade de afogamento
no mês. Os dados estão praticamente sobre uma reta.
Assim, apesar de haver uma forte correlação positiva, não podemos dizer que um evento causa o
outro. É claro que o consumo de sorvete não influencia na quantidade de afogamentos no mês.
Provavelmente existe alguma causa comum aos dos eventos. Por exemplo, com a chegada do
verão, mais pessoas consomem sorvete e também mais pessoas vão à praia. Com mais pessoas
na praia, temos um aumento no número de afogamentos.
Assim, existe uma correlação linear, mas trata-se de uma correlação espúria.
Gabarito: D
Através de um estudo para fins comparativos, entre o perfil dos cidadãos que procuram a
Defensoria Pública e a natureza dos seus problemas ou dificuldades levantadas, foram obtidos,
considerando-se o total de processos, os seguintes percentuais:
a) exceto pelo primeiro ano, as mulheres respondem pela maior parte das causas de família.
b) a maior parte das causas de família são geradas a partir de atendimentos às mulheres.
Comentário
As alternativas A, B e E estão erradas pelo mesmo motivo: a tabela não indica qual o percentual
de mulheres que responde pelas causas de família.
X Y
50 10
60 20
60 30
70 20
50 + 60 + 60 + 70
𝑋) = = 60
4
10 + 20 + 30 + 20
𝑌) = = 20
4
X Y 𝑿∙𝒀 𝑿𝟐 𝒀𝟐
50 10 50 × 10 = 500 50/ = 2.500 10/ = 100
60 20 60 × 20 = 1.200 60/ = 3.600 20/ = 400
60 30 60 × 30 = 1.800 60/ = 3.600 30/ = 900
70 20 70 × 20 = 1.400 70/ = 4.900 20/ = 400
100 100
𝑟= =
√200 × 200 200
𝑟 = 0,5
Gabarito: D
a) r = 1.
b) multiplicando por 0,5 todos os valores 𝑥' e por 0,8 todos os valores 𝑦' , verifica-se que o novo
coeficiente de correlação linear dos dois novos conjuntos é igual a 0,4r.
d) r = 0,45.
e) o valor de r é positivo.
Comentário
Os pontos não estão sobre uma mesma reta. Portanto, o coeficiente é diferente de 1 e diferente
de -1. A alternativa A está errada.
A alternativa B está errada. Quando multiplicamos as variáveis por constantes de mesmo sinal
(ambas positivas ou ambas negativas), o coeficiente de correlação linear não se altera. Portanto,
𝑟(0,5𝑥' , 0,8𝑦' ) = 𝑟
Como a equação da reta é 𝑦' = 2.000 + 45𝑥' , então o coeficiente angular 45 é positivo. Logo, a
correlação linear é positiva (r é positivo). A resposta é a alternativa E.
Com os dados do problema, não temos como calcular o valor exato de r. Logo, a alternativa D
está errada.
Gabarito: E
I. Um dispositivo útil quando se quer verificar a associação entre duas variáveis quantitativas é o
gráfico de dispersão entre essas duas variáveis.
II. O coeficiente de variação é uma medida de dispersão relativa que depende da unidade de
medida da variável que está sendo analisada.
III. Dentre as medidas de posição central, a média é considerada uma medida robusta pelo fato
de não ser afetada por valores aberrantes.
IV. Se o coeficiente de correlação linear de Pearson entre duas variáveis for igual a zero, não
haverá associação linear entre elas, implicando a ausência de qualquer outro tipo de associação.
a) II e III.
b) I e II.
c) I e III.
d) II e IV.
e) I.
Comentário
A assertiva I está correta. O diagrama de dispersão é muito útil para verificar visualmente a
relação entre as variáveis.
A assertiva II está errada. Apesar de o coeficiente de variação ser uma medida de dispersão
relativa, seu valor não depende da unidade. O coeficiente de variação é adimensional. Lembre-se
que o coeficiente de variação é o quociente entre o desvio padrão e a média. Como o desvio
padrão e a média possuem a mesma unidade, as unidades se cancelam na divisão e o coeficiente
de variação não em unidades.
A sentença III está errada. A média é sim bastante afetada por valores extremos.
A sentença IV está errada. Se o coeficiente de correlação linear é 0, então não existe relação
linear entre as variáveis, mas pode existir outros tipos de relação entre as variáveis (uma relação
logarítmica, por exemplo).
Gabarito: E
(A) 2021.
(B) 2025.
(C) 2024.
(D) 2023.
(E) 2022.
Comentário
𝟓𝟓 = 𝟏𝟓 + 𝟐, 𝟓𝒕
𝟒𝟎 = 𝟐, 𝟓𝒕
𝟒𝟎 𝟒𝟎𝟎
𝒕= = = 𝟏𝟔 𝒂𝒏𝒐𝒔
𝟐, 𝟓 𝟐𝟓
Como a contagem começou no ano de 2009 (t=1 representa o ano de 2009), então para obter o
16º ano devemos adicionar 15 ao ano de 2009.
𝟐𝟎𝟎𝟗 + 𝟏𝟓 = 𝟐𝟎𝟐𝟒
Gabarito: C
a) 11,6
b) 15,0
c) 13,2
d) 12,4
e) 14,4
Comentário
∑𝑌 64
𝑌= = = 6,4
𝑛 10
1 + 2 + ⋯ + 10
𝑡= = 5,5
10
Sabemos que
𝑌 = 𝑎 + 𝑏𝑡
Logo,
6,4 = 2 + 𝑏 ∙ 5,5
4,4 44 4
𝑏= = = = 0,8
5,5 55 5
𝑌 = 2 + 0,8𝑡
𝑌(13) = 2 + 0,8 × 13
𝑌(13) = 12,4
Gabarito: D
Utilizando o método da regressão linear, por mínimos quadrados, obteve-se a equação da reta
estimada 𝑻g = 𝟐𝟎 + 𝟎, 𝟖𝒕 correspondente a uma série de tempo referente às vendas, em 1.000
unidades, de um produto no ano t. Esta equação foi obtida com base nas observações das
vendas nos 12 primeiros anos, isto é, para t = 1, 2, 3, ... ,12.
A soma das vendas observadas, em 1.000 unidades, nesses 12 primeiros anos, foi
a) 252,6
b) 280,0
c) 302,4
d) 292,8
e) 336,0
Comentário
𝟏 + 𝟐 + ⋯ + 𝟏𝟐
𝒕= = 𝟔, 𝟓
𝟏𝟐
Assim, temos:
𝑇 = 20 + 0,8𝑡
𝑇 = 20 + 0,8 × 6,5
𝑇 = 25,2
Como a média de T é igual à soma dos valores observados dividido pela quantidade de termos,
temos:
∑𝑇
𝑇=
𝑛
∑𝑇 = 𝑛 × 𝑇
∑𝑇 = 12 × 25,2 = 302,4
Gabarito: C
Durante um período de 10 anos (de 2008 a 2017), foi registrado, em cada ano, o faturamento
anual (F) de uma empresa, em milhões de reais, e o respectivo gasto anual com propaganda (G),
em milhões de reais. Um modelo de regressão linear simples 𝑭𝒕 = 𝜶 + 𝜷𝑮𝒕 + 𝜺𝒕 , t = 1, 2, ... foi
elaborado para se prever F em função de G, considerando as informações registradas, em que
Se a estimativa do coeficiente angular da reta obtida por meio do método dos mínimos
quadrados foi de 1,8, então a previsão do faturamento em um determinado ano, uma vez que a
empresa gastou com propaganda neste ano 2 milhões de reais, é
Comentário
∑𝐹 120
𝐹= = = 12
𝑛 10
A soma dos gastos com propaganda é igual a 15. Logo, a média é igual a
∑𝐺 15
𝐺= = = 1,5
𝑛 10
Sabemos ainda que o coeficiente angular da reta calculada é igual a 1,8. Portanto, a equação da
reta é dada por 𝐹• = 𝛼n + 1,8𝐺• .
12 = 𝛼n + 1,8 × 1,5
𝛼n = 9,3
𝐹• = 9,3 + 1,8𝐺•
= 12,9
Gabarito: D
a) 6,1
b) 5,2
c) 6,0
d) 5,5
e) 5,8
Comentário
2+3+5+3+2
𝑥= =3
5
3+4+7+4+2
𝑦= =4
5
Vamos também calcular o somatório dos produtos 𝑥𝑦 e também o somatório dos quadrados de
X.
∑𝑥𝑦 = 2 × 3 + 3 × 4 + 5 × 7 + 3 × 4 + 2 × 2
∑𝑋𝑌 = 69
∑𝑥 / = 2/ + 3/ + 5/ + 3/ + 2/ = 51
∑(𝑋' − 𝑋)((𝑌' − 𝑌)
𝛽o = /
∑_𝑋' − 𝑋a
= 69 − 5 × 3 × 4
=9
= 51 − 5 × 3/
=6
Assim, o coeficiente 𝛽o é:
9
𝛽o = = 1,5
6
𝑦 = 𝛼n + 𝛽o 𝑥
4 = 𝛼n + 1,5 × 3
𝛼n = −0,5
𝑦 = −0,5 + 1,5𝑥
Gabarito: D
Considere que o gerente de uma empresa comercial adotou o modelo linear simples 𝑽𝒊 = 𝜶 +
𝜷𝒈𝒊 + 𝜺𝒊 para analisar a relação entre o volume de vendas anual (V), em unidades monetárias
(u.m.), em função do gasto anual com promoções de vendas (g), também em u.m. Os
parâmetros 𝜶 e 𝜷 são desconhecidos, i corresponde à i-ésima observação anual e 𝜺𝒊 é o erro
aleatório com as respectivas hipóteses para a regressão linear simples. Com base em 10 pares
de observações anuais (𝒈𝒊 , 𝑽𝒊 ), i = 1, 2, 3, ... , 10, e com a utilização do método dos mínimos
quadrados foram encontradas as estimativas de 𝜶 e 𝜷.
Ox Ox Ox Ox Ox
0 𝑔' = 50, 0 𝑉' = 1.500, 0 𝑔'/ = 314, 0 𝑉'/ = 242.600, 0 𝑔' 𝑉' = 8.460
'¥O '¥O '¥O '¥O '¥O
Em um ano que a empresa não efetua gasto com promoções de vendas, significa que
considerando a equação da reta obtida pelo método dos mínimos quadrados a previsão do
volume de vendas deste ano é igual, em u.m., a
a) 50
b) 150
c) 100
d) 90
e) 75
Comentário
Para calcular os coeficientes da reta, precisamos efetuar alguns cálculos para as médias.
∑𝑔' 50
𝑔= = =5
𝑛 10
∑𝑉' 1.500
𝑉= = = 150
𝑛 10
∑(𝑋' − 𝑋)((𝑌' − 𝑌)
𝛽o = /
∑_𝑋' − 𝑋a
= 8.460 − 10 × 5 × 150
= 960
= 314 − 10 × 5/
= 64
Assim, o coeficiente 𝛽o é:
960
𝛽o = = 15
64
𝑉 = 𝛼n + 𝛽o 𝑔
150 = 𝛼n + 15 × 5
𝛼n = 75
gf = 75 + 15𝑔' .
Assim, a reta calculada é 𝑉
gf = 75 + 15 × 0 = 75
𝑉
Gabarito: E
Deseja-se determinar, usando o método da regressão linear, a tendência (T) da seguinte série de
tempo dada pelo quadro abaixo, em que 𝒀𝒕 representa o volume de vendas (em milhões de
reais) de um produto em t (ano).
a) 4,50
b) 3,00
c) 4,25
d) 4,75
e) 4,00
Comentário
∑𝑡 36
𝑡= = = 4,5
8 8
∑𝑌• 88
𝑌= = = 11
8 8
∑(𝑋' − 𝑋)((𝑌' − 𝑌)
𝑏= /
∑_𝑋' − 𝑋a
= 459 − 8 × 4,5 × 11
= 63
= 204 − 8 × 4,5/
= 42
Assim, o coeficiente 𝑏 é:
63
𝑏= = 1,5
42
𝑌 = 𝑎 + 𝑏𝑡
11 = 𝑎 + 1,5 × 4,5
𝑎 = 4,25
Gabarito: C
Dados:
/x /x /x /x
Considerando a equação da reta obtida pelo método dos mínimos quadrados, tem-se que a
estimativa do salário de um trabalhador com 16 anos de experiência é, em unidades monetárias,
de
a) 33,50
b) 40,00
c) 30,75
d) 25,00
e) 35,00
Comentário
∑𝑥' 144
𝑥= = = 7,2
𝑛 20
∑𝑦' 480
𝑦= = = 24
𝑛 20
𝑦 = 𝑎 + 𝑏𝑥
24 = 𝑎 + 𝑏 ∙ 7,2
𝑎 + 7,2𝑏 = 24 − 𝐸𝑞𝑢𝑎çã𝑜 𝐼
Além disso, sabemos que a reta 𝑦 = 𝑎 + 𝑏𝑥 passa pelo ponto (10,0; 27,5). Logo,
27,5 = 𝑎 + 𝑏 ∙ 10
−𝑎 − 7,2𝑏 = −24
Œ
𝑎 + 10𝑏 = 27,5
2,8𝑏 = 3,5
𝑏 = 1,25
𝑎 + 10𝑏 = 27,5
𝑎 + 10 × 1,25 = 27,5
𝑎 + 12,5 = 27,5
𝑎 = 15
𝑦 = 15 + 1,25𝑥
𝑦(16) = 15 + 1,25 × 16 = 35
Gabarito: E
Sabe-se que:
± ± ± ±
/
0 𝑡 = 21, 0 𝑡 = 91, 0 𝑡𝑌 = 140, 0 𝑌• = 36
•¥O •¥O •¥O •¥O
a) 7,55
b) 8,15
c) 7,90
d) 8,80
e) 9,50
Comentário
∑𝑡 21
𝑡= = = 3,5
8 6
∑𝑌• 36
𝑌= = =6
8 6
∑(𝑋' − 𝑋)((𝑌' − 𝑌)
𝛽o = /
∑_𝑋' − 𝑋a
= 140 − 6 × 3,5 × 6
= 14
= 91 − 6 × 3,5/
= 17,5
Assim, o coeficiente 𝛽o é:
14 140
𝛽o = = = 0,8
17,5 175
𝑌 = 𝛼n + 𝛽o 𝑡
6 = 𝛼n + 0,8 × 3,5
𝑎 = 3,2
𝑌• = 3,2 + 0,8𝑡
Gabarito: D
Seja o modelo linear 𝒀𝒊 = 𝜷𝑿𝒊 + 𝜺𝒊 estabelecendo uma relação linear, sem intercepto, entre duas
variáveis X e Y, em que 𝒀𝒊 i é a variável dependente na observação i, 𝑿𝒊 é a variável explicativa na
observação i e 𝜺𝒊 o erro aleatório com as respectivas hipóteses para a regressão linear simples.
O parâmetro 𝜷 do modelo é desconhecido e sua estimativa foi obtida pelo método dos mínimos
quadrados com base em 10 pares de observações (𝑿𝒊 , 𝒀𝒊 ).
Dados:
Ox Ox Ox Ox
Considerando a equação da reta obtida pelo método dos mínimos quadrados, obtém-se que Y é
igual a 24 quando X for igual a
a) 15.
b) 6.
c) 16.
d) 18.
e) 20.
Comentário
∑𝑋𝑌
𝛽o =
∑𝑋 /
2.400
𝛽o = = 1,6
1.500
gf = 1,6𝑋'
𝑌
24 = 1,6𝑋'
24
𝑋' = = 15
1,6
Gabarito: A
Em uma determinada indústria, foi efetuada uma pesquisa a respeito da possível relação entre o
número de horas trabalhadas (X), com 𝑿 ≥ 𝟐, e as quantidades produzidas de um produto (Y).
Com base em 10 pares de observações (𝑿𝒊 , 𝒀𝒊 ) e considerando o gráfico de dispersão
correspondente, optou-se por utilizar o modelo linear 𝒀𝒊 = 𝜶 + 𝜷𝑿𝒊 + 𝜺𝒊 , com 𝒊 representando a
i-ésima observação, ou seja, i = 1, 2, 3, ..., 10. Os parâmetros 𝜶 e 𝜷 são desconhecidos e as suas
estimativas (𝒂 e 𝒃, respectivamente) foram obtidas pelo método dos mínimos quadrados.
Observação: 𝜺𝒊 é o erro aleatório com as respectivas hipóteses do modelo de regressão linear
simples. Considere o gráfico abaixo, construído utilizando os valores encontrados para as
estimativas de 𝜶 e 𝜷.
A previsão da quantidade produzida será igual ao dobro da média verificada das 10 observações
𝒀𝒊 quando o número de horas trabalhadas for igual a
a) 18
b) 12
c) 20
d) 24
e) 22
Comentário
A reta tem equação 𝑦 = 𝑎 + 𝑏𝑥. Sabemos que a reta passa pelos pontos (4,4) e (10,16).
Δ𝑌 16 − 4 12
𝑏= = = =2
Δ𝑋 10 − 4 6
4=𝑎+2∙4
𝑎 = −4
∑𝑋' 120
𝑥= = = 12
𝑛 10
Vamos calcular a média de y. Lembre-se que a reta de mínimos quadrados passa pelo ponto
(𝑥, 𝑦). Logo,
𝑦 = −4 + 2𝑥
𝑦 = −4 + 2 ∙ 12 = 20
Queremos que o valor de 𝑌 seja o dobro dessa média, ou seja, queremos que 𝑦 = 40. Vamos
calcular o valor correspondente de 𝑥.
𝑦 = −4 + 2𝑥
40 = −4 + 2𝑥
44 = 2𝑥
𝑥 = 22
Gabarito: E
III. 𝜺𝒊 representa o erro aleatório com as respectivas hipóteses para a regressão linear simples.
IV. As estimativas de 𝜶 e 𝜷 foram obtidas pelo método de mínimos quadrados por meio de 10
observações, utilizando-se as seguintes informações:
a) 810
b) 515
c) 920
d) 460
e) 785
Comentário
∑(𝑋' − 𝑋)((𝑌' − 𝑌)
𝑏= /
∑_𝑋' − 𝑋a
= 40.200 − 10 × 30 × 102
= 9.600
= 13.000 − 10 × 30/
= 4.000
Assim, o coeficiente 𝑏 é:
9.600
𝑏= = 2,4
4.000
𝑆𝑄𝑀 = 𝑏 ∙ ¼0 𝑋𝑌 − 𝑛 ∙ 𝑋) ∙ 𝑌)½
𝑆𝑄𝑀 = 23.040
𝑆𝑄𝑀 = 23.040
/
𝑆𝑄𝑇 = 0 𝑌'/ − 𝑛 ∙ _𝑌a
𝑆𝑄𝑅 = 920
Gabarito: C
c) o valor da estatística F (F calculado) utilizado para testar a existência da regressão é igual a 32.
e) a variação explicada, fonte de variação devido à regressão, tem distribuição qui-quadrado com
18 graus de liberdade.
Comentário
Sabemos que a reta passa pelos pontos (10; 9,8) e (40; 33,8). Com isso, podemos rapidamente
calcular o coeficiente angular da reta 𝑏. Lembre-se que o coeficiente angular da reta é a variação
de Y dividida pela variação de X.
Δ𝑌 33,8 − 9,8 24
𝑏= = = = 0,8
Δ𝑋 40 − 10 30
Para calcular o valor de 𝑎, basta utilizar um dos pontos dados. Vamos utilizar, por exemplo, o
ponto (10; 9,8). Esse ponto indica que 𝑌 = 9,8 para 𝑋 = 10.
𝑌 = 𝑎 + 0,8𝑋
9,8 = 𝑎 + 0,8 × 10
𝑎 = 1,8
A equação da reta é 𝑌 = 1,8 + 0,8𝑋. Lembre-se que a reta de regressão sempre passa pelo ponto
(𝑋), 𝑌)).
∑𝑋' 600
𝑋) = = = 30
𝑛 20
Como a reta passa pelo ponto (𝑋), 𝑌)), vamos substituir 𝑋 e 𝑌 pelas suas médias na equação da
reta.
𝑌 = 1,8 + 0,8𝑋
𝑌) = 1,8 + 0,8𝑋)
𝑆𝑄𝑀 = 𝑏 ∙ ¼0 𝑋𝑌 − 𝑛 ∙ 𝑋) ∙ 𝑌)½
𝑆𝑄𝑀 = 192
/
𝑆𝑄𝑇 = 0 𝑌'/ − 𝑛 ∙ _𝑌a
𝑆𝑄𝑅 = 108
𝑆𝑄𝑀 192
𝑅/ = = = 0,64
𝑆𝑄𝑇 300
A alternativa E está errada, pois a variável explicada (modelo) tem 1 grau de liberdade. Além
disso, para termos uma distribuição qui-quadrado, deveríamos dividir a soma de quadrados pelo
desvio padrão.
Gabarito: C
Com base na equação da reta obtida por meio do método dos mínimos quadrados e no quadro
de análise de variância considerado para testar a existência de uma relação linear entre L e X, é
correto afirmar que
d) dividindo o valor encontrado para a variação explicada pelo valor encontrado para a variação
total encontra-se o coeficiente de determinação (𝑅/ ) que é igual a 0,64.
Comentário
∑(𝑋' − 𝑋)((𝑌' − 𝑌)
𝑏= /
∑_𝑋' − 𝑋a
∑𝑋' 120
𝑋) = = = 12
𝑛 10
∑𝐿' 1.000
𝐿) = = = 100
𝑛 10
= 13.600 − 10 × 12 × 100
= 1.600
= 1.600 − 10 × 12/
= 160
Assim, o coeficiente 𝑏 é:
1.600
𝑏= = 10
160
𝐿 = 𝑎 + 𝑏𝑥
100 = 𝑎 + 10 × 12
𝑎 = −20
Observe que o coeficiente angular da reta é igual a 10. Isso quer dizer que L cresce 10 unidades
quando X cresce 1 unidade. A alternativa B está errada.
Vamos calcular as somas dos quadrados. Comecemos pela soma dos quadrados total.
/
𝑆𝑄𝑇 = 0 𝑌'/ − 𝑛 ∙ _𝑌a
𝑆𝑄𝑀 = 𝑏 ∙ ¼0 𝑋𝑌 − 𝑛 ∙ 𝑋) ∙ 𝑌)½
𝑆𝑄𝑀 = 16.000
𝑆𝑄𝑅 = 4.000
O valor observado da estatística F é igual a 32. Se o valor tabelado for maior do que o valor
observado, então o valor observado cairá na região de aceitação do teste e deveremos aceitar a
hipótese nula. A alternativa C está certa.
d) dividindo o valor encontrado para a variação explicada pelo valor encontrado para a variação
total encontra-se o coeficiente de determinação (𝑅/ ) que é igual a 0,64.
𝑆𝑄𝑀 16.000
𝑅/ = = = 0,8
𝑆𝑄𝑇 20.000
Gabarito: C
CONSIDERAÇÕES FINAIS
Ficamos por aqui, queridos alunos. Espero que tenham gostado da aula.
Vamos juntos nesta sua caminhada. Lembre-se que vocês podem fazer perguntas e sugestões no
nosso fórum de dúvidas.
Guilherme Neves