Você está na página 1de 43

Guilherme Neves

Aula Extra (edital de 2018)

Sumário
1. Correlação Linear ................................................................................................. 3
2. Regressão Linear ................................................................................................ 22
2.1. Reta que passa pela origem .................................................................................. 30
Lista de Questões de Concursos sem Comentários ................................................ 31
Gabarito sem comentário ........................................................................................ 43
Lista de Questões de Concursos com Comentários................................................ 44
Exercícios sobre Correlação ............................................................................................ 44
Exercícios sobre Regressão Linear.......... ............................................................... 55
Considerações Finais ............................................................................................... 77

Estatística p/ Banco do Brasil (Escriturário) Com Videoaulas - 2020 1


www.estrategiaconcursos.com.br
Guilherme Neves
Aula Extra (edital de 2018)

Esses são os nossos dados brutos. Fica difícil analisar a relação entre altura e massa apenas com
essa tabela. Uma ideia é colocar esses dados em um gráfico. No eixo x vamos colocar as alturas
em centímetros e no eixo y vamos colocar a massa em kg.

Esse gráfico é denominado “diagrama de dispersão”.

O gráfico dá a impressão que “existe” uma reta acompanhando o conjunto de pontos.

Estatística p/ Banco do Brasil (Escriturário) Com Videoaulas - 2020 4


www.estrategiaconcursos.com.br
Guilherme Neves
Aula Extra (edital de 2018)

Quando isso ocorre, dizemos que as variáveis estão correlacionadas, ou seja, existe uma
correlação linear entre as variáveis.

Nesta aula, vamos aprender a medir esse grau de correlação, em outras palavras, queremos
determinar se existe uma relação linear entre duas variáveis X e Y.

Se existir a relação linear entre as variáveis, frequentemente se deseja saber qual é a função que
mostra como Y varia aproximadamente em função de X. Esse é o objeto de estudo da Regressão
Linear.

Agora, vamos focar apenas na correlação.

É claro que o diagrama de dispersão ajuda muito em determinar se existe ou não uma relação
linear entre as variáveis, mas vamos aprender um método numérico para medir o grau dessa
relação.

Por exemplo, poderíamos ter o seguinte diagrama de dispersão:

Veja que a relação linear neste caso não existe (ou é muito fraca).

O Coeficiente de Correlação Linear de Pearson serve justamente para medir a força da relação
linear entre as duas variáveis.

Estatística p/ Banco do Brasil (Escriturário) Com Videoaulas - 2020 5


www.estrategiaconcursos.com.br
Guilherme Neves
Aula Extra (edital de 2018)

∑[(𝑋' − 𝑋) ) ∙ (𝑌' − 𝑌))]


𝑟=
.∑(𝑋' − 𝑋))/ ∙ ∑(𝑌' − 𝑌))/

Da mesma forma que é possível manipular os somatórios para obter uma forma alternativa para o
cálculo da variância (lembra daquela historinha de “Média dos quadrados menos o quadrado da
média”?), também é possível manipular os somatórios da fórmula acima para obter formas
alternativas de cálculo bem úteis nas questões. Assim, é importante que você decore a fórmula a
seguir:

0[(𝑋' − 𝑋)) ∙ (𝑌' − 𝑌) )] = 0(𝑋' ∙ 𝑌' ) − 𝑛 ∙ 𝑋) ∙ 𝑌)

Veja que a fórmula do lado esquerdo nos força a calcular os desvios 𝑋' − 𝑋) e 𝑌' − 𝑌). A fórmula do
lado direito é mais simples. Na fórmula acima, 𝑛 representa o número de pontos, ou seja, o
número de pares ordenados.

Essa é apenas uma outra forma de calcular o numerador do coeficiente de correlação. Daqui a
pouquinho vou fazer um exemplo numérico para que você possa entender como aplicar essas
fórmulas.

Se, na fórmula acima, você substituir 𝑌 por 𝑋, obteremos:

0[(𝑋' − 𝑋) ) ∙ (𝑋' − 𝑋) )] = 0(𝑋' ∙ 𝑋' ) − 𝑛 ∙ 𝑋) ∙ 𝑋)

Ou seja,

0(𝑋' − 𝑋))/ = 0 𝑋'/ − 𝑛 ∙ (𝑋))/

Substituindo X por Y, obtemos:

Estatística p/ Banco do Brasil (Escriturário) Com Videoaulas - 2020 6


www.estrategiaconcursos.com.br
Guilherme Neves
Aula Extra (edital de 2018)

0(𝑌' − 𝑌))/ = 0 𝑌'/ − 𝑛 ∙ (𝑌) )/

Essas duas fórmulas são fórmulas alternativas para o cálculo dos termos do denominador do
coeficiente de correlação.

Pois bem. Demonstra-se que o coeficiente de correlação de Pearson é sempre um número que
pertence ao intervalo real [−1,1], ou seja:

−1 ≤ 𝑟 ≤ 1

Quando Y tende a crescer quando X cresce, o valor de 𝑟 é positivo. Dizemos que as variáveis
estão positivamente correlacionadas.

Quando Y tende a decrescer quando X cresce, o valor de 𝑟 é negativo. Dizemos que as variáveis
estão negativamente correlacionadas.

Quanto mais próximo de 1 ou de -1 for o coeficiente de correlação, mais forte será a correlação.

Se a correlação for perfeita, ou seja, se todos os pontos estiverem sobre uma mesma reta, o valor
de r será exatamente 1 (se a correlação for positiva) ou será exatamente -1 (se for uma correlação
negativa).

Observe novamente o nosso exemplo inicial.

Estatística p/ Banco do Brasil (Escriturário) Com Videoaulas - 2020 7


www.estrategiaconcursos.com.br
Guilherme Neves
Aula Extra (edital de 2018)

O Excel indica que o coeficiente de correlação entre essas variáveis é 0,9293355. Veja que temos
uma correlação positiva forte (o coeficiente de correlação é positivo e próximo de 1).

Se a correlação é positiva e todos os pontos estão sobre uma mesma reta, o coeficiente de
correlação será exatamente igual a 1. Observe o diagrama de dispersão a seguir.

Estatística p/ Banco do Brasil (Escriturário) Com Videoaulas - 2020 8


www.estrategiaconcursos.com.br
Guilherme Neves
Aula Extra (edital de 2018)

No exemplo acima, temos:

𝑟=1

Se a correlação é negativa, ou seja, se Y decresce quando X cresce, o coeficiente de correlação é


negativo. Observe o exemplo a seguir.

O Excel indica que o coeficiente de correlação nesse caso é -0,9836038. Veja que os dados estão
praticamente em cima de uma reta. Como a correlação é negativa e forte, o coeficiente de
correlação foi bem próximo de −1.

Se a correlação fosse negativa e os pontos estivessem todos sobre a mesma reta, o coeficiente
seria exatamente −1.

Estatística p/ Banco do Brasil (Escriturário) Com Videoaulas - 2020 9


www.estrategiaconcursos.com.br
Guilherme Neves
Aula Extra (edital de 2018)

No exemplo acima, temos:

𝑟 = −1

Observe agora o seguinte diagrama de dispersão.

Estatística p/ Banco do Brasil (Escriturário) Com Videoaulas - 2020 10


www.estrategiaconcursos.com.br
Guilherme Neves
Aula Extra (edital de 2018)

Não existe uma relação linear entre essas variáveis. Assim, o coeficiente de correlação será 0 (ou
um número muito próximo de 0). De fato, o Excel indica que o coeficiente de correlação do
diagrama de dispersão acima é -0,0205218.

É importante notar que o coeficiente de correlação calcula a “força” da relação linear


entre as variáveis. Se o coeficiente é zero ou bem próximo de zero, então não existe
relação linear entre as variáveis. Entretanto, é possível que as variáveis sigam um outro
modelo matemático (polinomial, trigonométrico, logarítmico, exponencial, etc).

Uma forte correlação não significa causalidade. A correlação mede a relação linear
entre duas variáveis, mas não significa que a variação de uma cause a variação da
outra. Por exemplo, existe uma correlação entre o consumo de cerveja e o número de
ataques de tubarão. Com o aumento da temperatura no verão, mais pessoas vão à
praia e consomem mais cerveja. Com isso, aumenta também o número de ataques de
tubarão. Dessa forma, o aumento de temperatura no verão é a causa comum aos dois
aumentos.

É possível ainda que dois eventos tenham uma forte correlação mesmo sem
causalidade nem causa em comum. Simplesmente por acaso. São as chamadas
“correlações espúrias”.

Estatística p/ Banco do Brasil (Escriturário) Com Videoaulas - 2020 11


www.estrategiaconcursos.com.br
Guilherme Neves
Aula Extra (edital de 2018)

Complementando o quadro acima. Verifique o site http://www.tylervigen.com/spurious-


correlations . Lá, existem diversos exemplos esdrúxulos de eventos que são correlacionados, mas
que não tem o menor sentido (correlações espúrias). Por exemplo, o gasto dos EUA em Ciência,
Espaço e Tecnologia e o número de suicídios por enforcamento, estrangulamento ou
sufocamento ao longo dos anos tem uma correlação de 0,9979.

A taxa de divórcios no estado americano do Maine correlaciona com o consumo per capita de
Margarina (r = 0,9925).

Agora que estamos entendidos quanto à interpretação do coeficiente de correlação, vamos


aprender a aplicar a fórmula.

Estatística p/ Banco do Brasil (Escriturário) Com Videoaulas - 2020 12


www.estrategiaconcursos.com.br
Guilherme Neves
Aula Extra (edital de 2018)

0(𝑌' − 𝑌))/ = 9 + 0 + 1 + 16 = 26

Agora é só aplicar a fórmula do coeficiente de correlação.

∑[(𝑋' − 𝑋) ) ∙ (𝑌' − 𝑌))]


𝑟=
.∑(𝑋' − 𝑋))/ ∙ ∑(𝑌' − 𝑌))/

25 25 25
𝑟= = =
√26 ∙ 26 √26/ 26

𝑟 ≅ 0,9615

Temos uma correlação positiva forte (coeficiente bem próximo de 1). De fato, observe o
diagrama de dispersão com a respectiva reta de regressão.

Estatística p/ Banco do Brasil (Escriturário) Com Videoaulas - 2020 15


www.estrategiaconcursos.com.br
Guilherme Neves
Aula Extra (edital de 2018)

Vamos agora calcular o mesmo coeficiente utilizando as fórmulas alternativas dos somatórios.

Eis a fórmula do coeficiente:

∑[(𝑋' − 𝑋) ) ∙ (𝑌' − 𝑌))]


𝑟=
.∑(𝑋' − 𝑋))/ ∙ ∑(𝑌' − 𝑌))/

O numerador pode ser calculado da seguinte forma:

0[(𝑋' − 𝑋)) ∙ (𝑌' − 𝑌) )] = 0(𝑋' ∙ 𝑌' ) − 𝑛 ∙ 𝑋) ∙ 𝑌)

O denominador pode ser calculado com as seguintes fórmulas:

0(𝑋' − 𝑋))/ = 0 𝑋'/ − 𝑛 ∙ (𝑋))/

0(𝑌' − 𝑌))/ = 0 𝑌'/ − 𝑛 ∙ (𝑌) )/

Observe que esses dois últimos resultados podem ser obtidos através do primeiro


0[(𝑋' − 𝑋)) ∙ (𝑌' − 𝑌) )] = 0(𝑋' ∙ 𝑌' ) − 𝑛 ∙ 𝑋) ∙ 𝑌)

Para tanto, basta substituir X por Y e depois Y por X.

Voltemos à nossa tabela original.

Estatística p/ Banco do Brasil (Escriturário) Com Videoaulas - 2020 16


www.estrategiaconcursos.com.br
Guilherme Neves
Aula Extra (edital de 2018)

0 𝑋'/ = 1 + 9 + 16 + 64 = 90

0 𝑌'/ = 9 + 36 + 25 + 100 = 170

Agora estamos prontos para aplicar nas fórmulas.

O somatório do numerador do coeficiente de correlação é:

0(𝑋' ∙ 𝑌' ) − 𝑛 ∙ 𝑋) ∙ 𝑌) = 121 − 4 ∙ 4 ∙ 6 = 25

Os somatórios do denominador são:

0 𝑋'/ − 𝑛 ∙ (𝑋))/ = 90 − 4 ∙ 4/ = 26

0 𝑌'/ − 𝑛 ∙ (𝑌))/ = 170 − 4 ∙ 6/ = 26

Assim, o coeficiente de correlação é:

∑[(𝑋' − 𝑋) ) ∙ (𝑌' − 𝑌))]


𝑟=
.∑(𝑋' − 𝑋))/ ∙ ∑(𝑌' − 𝑌))/

25 25 25
𝑟= = =
√26 ∙ 26 √26/ 26

Estatística p/ Banco do Brasil (Escriturário) Com Videoaulas - 2020 18


www.estrategiaconcursos.com.br
Guilherme Neves
Aula Extra (edital de 2018)

2. REGRESSÃO LINEAR

A correlação linear nos diz se existe uma relação linear entre duas variáveis 𝑋 e 𝑌. Agora estamos
interessados em calcular a expressão matemática que relaciona 𝑌 em função de 𝑋.

Assim, vamos partir do pressuposto de que há uma relação linear entre 𝑋 e 𝑌.

A Matemática Básica nos ensina que a equação de uma reta pode ser escrita como

𝑦 = 𝑝 + 𝑚𝑥

O coeficiente 𝑝 é o coeficiente linear da reta (indica onde a reta corta o eixo 𝑦) e o coeficiente 𝑚
é chamado de taxa de variação (ou coeficiente angular da reta). O coeficiente 𝑚 indica se a
função é crescente (𝑚 > 0), decrescente (𝑚 < 0) ou constante (𝑚 = 0).

O coeficiente 𝑚 é a taxa de variação (também conhecido como “coeficiente angular” da reta). Se


a reta passa pelos pontos (𝑥O , 𝑦O ) e (𝑥/ , 𝑦/ ), então a taxa de variação é dada por:

Δ𝑦 𝑦/ − 𝑦O
𝑚= =
Δ𝑥 𝑥/ − 𝑥O

O coeficiente 𝑏 é o termo independente e indica o ponto em que a reta corta o eixo 𝑦.

Observe o seguinte exemplo.

Vamos determinar a equação da reta AB na figura acima. A reta passa pelos pontos (1,5) e (3,9).

Estatística p/ Banco do Brasil (Escriturário) Com Videoaulas - 2020 22


www.estrategiaconcursos.com.br
Guilherme Neves
Aula Extra (edital de 2018)

Vamos calcular a taxa de variação. A taxa de variação é o quociente entre a variação de y e a


variação de x.

Δ𝑦 9 − 5 4
𝑚= = = =2
Δ𝑥 3 − 1 2

Assim, a equação da reta 𝑦 = 𝑚𝑥 + 𝑝 fica 𝑦 = 2𝑥 + 𝑝.

Precisamos calcular o valor de 𝑝. Podemos usar indistintamente um dos pontos (1,5) ou (3,9).

Vamos utilizar o segundo ponto, por exemplo (o resultado dá o mesmo independente do ponto
que você escolher).

O ponto (3,9) indica que 𝑦 = 9 para 𝑥 = 3. Vamos substituir na equação 𝑦 = 2𝑥 + 𝑝.

9=2∙3+𝑝

9=6+𝑝

𝑝=3

Logo, a equação da reta é 𝑦 = 2𝑥 + 3.

Como 𝑝 = 3, então a reta corta o eixo 𝑦 no ponto 𝐶(0,3). Observe.

Estatística p/ Banco do Brasil (Escriturário) Com Videoaulas - 2020 23


www.estrategiaconcursos.com.br
Guilherme Neves
Aula Extra (edital de 2018)

Voltemos à regressão linear simples.

O modelo estatístico de uma regressão linear simples entre 𝑋 e 𝑌 é dado por:

𝑌' = 𝛼 + 𝛽𝑋' + 𝑢'

Com 𝑖 = 1, 2, 3, … , 𝑛.

Nesse modelo, a expressão 𝛼 + 𝛽𝑋' é o componente de 𝑌' que varia linearmente com 𝑋' ,
enquanto que 𝑢' é o componente aleatório de 𝑌' (também chamado de erro ou desvio). Em
outras palavras, 𝑢' é a variável aleatória que descreve o erro cometido quando tentamos
aproximar a relação entre 𝑋 e 𝑌 por uma reta.

Nesse modelo, dizemos que 𝑋' é a variável explanatória (ou independente) e 𝑌' é a variável
dependente.

A variável dependente Y é a variável que desejamos prever ou explicar. É também chamada de


variável resposta.

A variável independente X é também chamada de variável explicativa.

Estatística p/ Banco do Brasil (Escriturário) Com Videoaulas - 2020 24


www.estrategiaconcursos.com.br
Guilherme Neves
Aula Extra (edital de 2018)

Para desenvolver esse modelo, temos algumas pressuposições acerca da variável aleatória 𝑢'
(erro ou desvio) quais sejam:

i) 𝐸(𝑢' ) = 0

ii) 𝑉𝑎𝑟(𝑢' ) = 𝜎 /

iii) 𝑐𝑜𝑣_𝑢' , 𝑢` a = 0 para 𝑖 ≠ 𝑗

A primeira suposição diz que a média do erro é zero para 𝑖 = 1, 2, … , 𝑛. Essa suposição é bem
óbvia: se o erro em média não fosse zero, o modelo escolhido não estaria adequado.

A segunda suposição diz que a variância de 𝑢' é constante para 𝑖 = 1, 2, … , 𝑛. O fato de a


variância do erro ser constante é denominado homocedasticia. Esse é o postulado da
homocedasticidade. Quando isso não ocorre, ou seja, quando o modelo apresenta variâncias
diferentes para o erro, dizemos que ocorre heterocedasticia.

A terceira hipótese diz que os erros não estão correlacionados, ou seja, estamos supondo que os
erros 𝑢' são variáveis aleatórias independentes. Dizemos que ocorre “autocorrelação” quando os
erros não são independentes.

Pois bem, vamos supor que não temos acesso aos dados populacionais. Assim, queremos obter
estimadores para os parâmetros 𝛼 e 𝛽 do modelo 𝑌' = 𝛼 + 𝛽𝑋' + 𝑢' .

O método usual para a obtenção dos estimadores de 𝛼 e 𝛽 é denominado método de mínimos


quadrados.

Suponha que temos uma amostra de 𝑛 pares de valores observados de 𝑋 e 𝑌. Sejam 𝑎 e 𝑏 as


estimativas de 𝛼 e 𝛽, respectivamente.

A reta de regressão estimada é:

𝑌d = 𝑎 + 𝑏𝑋'

É claro que estaremos cometendo erros (desvios) entre os valores observados e os respectivos
valores estimados de 𝑌.

O desvio é, portanto, a diferença entre o valor observado e o valor estimado.

gf
𝑒 = 𝑌' − 𝑌

Estatística p/ Banco do Brasil (Escriturário) Com Videoaulas - 2020 25


www.estrategiaconcursos.com.br
Guilherme Neves
Aula Extra (edital de 2018)

O método dos mínimos quadrados é aquele que determina as estimativas 𝑎 e 𝑏 dos parâmetros
minimizando a soma dos quadrados dos desvios.

Por esse método, o valor de 𝑏 é dado por:

∑(𝑋' − 𝑋)((𝑌' − 𝑌)
𝑏= /
∑_𝑋' − 𝑋a

Depois de obtido o valor de 𝑏, podemos calcular o valor de 𝑎 substituindo o valor de 𝑏 na


equação

𝑌 = 𝑎 + 𝑏𝑋

Isso porque a reta calculada passa pelo ponto (𝑋, 𝑌), ou seja, a reta calculada passa pelos pontos
médios das variáveis X e Y.

É possível manipular os somatórios da fórmula acima para obter formas alternativas de cálculo
bem úteis nas questões. Assim, é importante que você decore a fórmula a seguir:

0[(𝑋' − 𝑋)) ∙ (𝑌' − 𝑌) )] = 0(𝑋' ∙ 𝑌' ) − 𝑛 ∙ 𝑋) ∙ 𝑌)

Veja que a fórmula do lado esquerdo nos força a calcular os desvios 𝑋' − 𝑋) e 𝑌' − 𝑌). A fórmula do
lado direito é mais simples. Na fórmula acima, 𝑛 representa o número de pontos, ou seja, o
número de pares ordenados.

Essa é apenas uma outra forma de calcular o numerador do coeficiente 𝑏.

Se, na fórmula acima, você substituir 𝑌 por 𝑋, obteremos:

0[(𝑋' − 𝑋) ) ∙ (𝑋' − 𝑋) )] = 0(𝑋' ∙ 𝑋' ) − 𝑛 ∙ 𝑋) ∙ 𝑋)

Ou seja,

Estatística p/ Banco do Brasil (Escriturário) Com Videoaulas - 2020 26


www.estrategiaconcursos.com.br
Guilherme Neves
Aula Extra (edital de 2018)

0(𝑋' − 𝑋))/ = 0 𝑋'/ − 𝑛 ∙ (𝑋))/

(CESPE 2018/STM)

Considerando que 𝒀 g seja uma variável resposta ajustada por um modelo de regressão em função
de uma variável explicativa 𝑿, que 𝒙𝟏 , … , 𝒙𝒏 representem as réplicas de 𝑿 e que 𝜶 g sejam as
le𝜷
estimativas dos parâmetros do modelo, julgue os itens a seguir.

I. No método de mínimos quadrados, a condição de estimativas não viesadas significa que os


erros terão variância positiva.

II. Em um modelo linear 𝒀 g=𝜶 l+𝜷 g 𝑿, com coeficientes obtidos pelo método dos mínimos
quadrados ordinários, sendo 𝜶 l > 𝟎, a média dos valores estimados de 𝒀 é igual à média dos
g.
valores de 𝑿 multiplicados por 𝜷

III. Em um modelo linear 𝒀 g=𝜶l+𝜷 g 𝑿, a hipótese de homoscedastiscidade significa que a


variância dos erros deve ser constante, e o valor esperado dos erros deve ser zero.

IV. No modelo linear 𝒀 = 𝒂 + 𝜷𝑿 + 𝒆, considere que para cada valor 𝒙𝒊 de 𝑿 corresponda a um


erro 𝒆𝒊 , que é uma variável aleatória. Nessa situação a hipótese de erros não autocorrelacionados
implica que 𝒄𝒐𝒗_𝒆𝒊 , 𝒆𝒋 a = 𝟎, para 𝒊 ≠ 𝒋.

Comentário

O item I está errado. Dizer que um estimador é não viesado é o mesmo que dizer que a sua
esperança é igual ao parâmetro populacional.

Vimos que 𝒀 = 𝒂 + 𝒃𝑿. Utilizando a notação da questão, temos que 𝒀 = 𝜶 g 𝑿. Logo, o item II
l+𝜷
está errado (faltou adicionar 𝜶
l ).

Estatística p/ Banco do Brasil (Escriturário) Com Videoaulas - 2020 27


www.estrategiaconcursos.com.br
Guilherme Neves
Aula Extra (edital de 2018)

O item III está errado, pois a homocedasticidade significa apenas que a variância dos erros é
constante (a segunda parte, valor esperado dos erros é zero, tem nada a ver com a
homocedasticidade).

O item IV está correto. É a terceira hipótese do nosso modelo.

Gabarito: Errado, errado, errado, certo.

(CESPE 2018/ABIN)

Ao avaliar o efeito das variações de uma grandeza X sobre outra grandeza Y por meio de uma
regressão linear da forma 𝒀 g=𝜶l+𝜷 g 𝑿, um analista, usando o método dos mínimos quadrados,
encontrou, a partir de 20 amostras, os seguintes somatórios (calculados sobre os vinte valores de
cada variável): ∑𝑿 = 𝟑𝟎𝟎, ∑𝒀 = 𝟒𝟎𝟎, ∑𝑿𝟐 = 𝟔. 𝟎𝟎𝟎, ∑𝒀𝟐 = 𝟏𝟐. 𝟖𝟎𝟎 𝒆 ∑(𝑿𝒀) = 𝟖. 𝟒𝟎𝟎

A partir desses resultados, julgue os itens a seguir.

g < 𝟎.
I. 𝜷

g = 𝟏𝟐.
II. Para 𝑿 = 𝟏𝟎, a estimativa de Y é 𝒀

Comentário

Comecemos calculando as médias de 𝑿 e 𝒀.

∑𝑿 𝟑𝟎𝟎
𝑿= = = 𝟏𝟓
𝒏 𝟐𝟎

∑𝒀 𝟒𝟎𝟎
𝒀= = = 𝟐𝟎
𝒏 𝟐𝟎

g é dado por
O coeficiente 𝜷

∑(𝑿𝒊 − 𝑿)((𝒀𝒊 − 𝒀)
g=
𝜷 𝟐
∑_𝑿𝒊 − 𝑿a

Vimos que o numerador e o denominador podem ser calculados de outra forma.

Estatística p/ Banco do Brasil (Escriturário) Com Videoaulas - 2020 28


www.estrategiaconcursos.com.br
Guilherme Neves
Aula Extra (edital de 2018)

> ) ∙ (𝒀𝒊 − 𝒀
0[(𝑿𝒊 − 𝑿 > )] = 0(𝑿𝒊 ∙ 𝒀𝒊 ) − 𝒏 ∙ 𝑿
> ∙𝒀
>

= 𝟖. 𝟒𝟎𝟎 − 𝟐𝟎 × 𝟏𝟓 × 𝟐𝟎

= 𝟐. 𝟒𝟎𝟎

> )𝟐 = 0 𝑿𝟐𝒊 − 𝒏 ∙ (𝑿
0(𝑿𝒊 − 𝑿 > )𝟐

= 𝟔. 𝟎𝟎𝟎 − 𝟐𝟎 × 𝟏𝟓𝟐

= 𝟏. 𝟓𝟎𝟎

Assim, temos:

𝟐. 𝟒𝟎𝟎
g=
𝜷 >𝟎
𝟏. 𝟓𝟎𝟎

Logo, o item I está errado.

𝟐.𝟒𝟎𝟎
g=
Já encontramos o valor de 𝜷 = 𝟏, 𝟔.
𝟏.𝟓𝟎𝟎

Vamos agora calcular o valor de 𝜶


l.

g𝑿
l+𝜷
𝒀=𝜶

l + 𝟏, 𝟔 × 𝟏𝟓
𝟐𝟎 = 𝜶

l = −𝟒
𝜶

Assim, a reta modelo é dada por

g = −𝟒 + 𝟏, 𝟔𝑿
𝒀

Estatística p/ Banco do Brasil (Escriturário) Com Videoaulas - 2020 29


www.estrategiaconcursos.com.br
Guilherme Neves
Aula Extra (edital de 2018)

Substituindo X por 10, temos:

g = −𝟒 + 𝟏, 𝟔 × 𝟏𝟎 = 𝟏𝟐
𝒀

O item II está certo.

Gabarito: Errado, certo

2.1. Reta que passa pela origem

Em algumas situações, o modelo teórico requer que a reta de regressão passe pela origem, ou
seja, 𝛼 = 0.

Neste caso, o modelo de regressão fica:

𝑌' = 𝛽𝑋' + 𝜀'

O estimador de 𝛽, nesse caso, pelo método dos mínimos quadrados fica:

∑𝑋𝑌
𝛽} =
∑𝑋 /

Estatística p/ Banco do Brasil (Escriturário) Com Videoaulas - 2020 30


www.estrategiaconcursos.com.br
Guilherme Neves
Aula Extra (edital de 2018)

LISTA DE QUESTÕES DE CONCURSOS SEM COMENTÁRIOS

1. (AOCP 2018/FUNPAPA)

Um pesquisador suspeita que existe uma correlação entre o número de promessas que um
candidato político faz e o número de promessas que são cumpridas uma vez que o candidato é
eleito. Ele acompanha vários políticos proeminentes e registra as promessas feitas (X) e as
promessas mantidas (Y). Utilizando os seguintes dados sumarizados, calcule o coeficiente de
correlação entre as promessas feitas e as promessas mantidas e assinale a alternativa correta.

~ ~ ~ ~ ~

0 𝑥' = 280, 0 𝑦' = 28, 0 𝑥' 𝑦' = 940, 0 𝑥'/ = 12.400, 0 𝑦'/ = 140
'•O '•O '•O '•O '•O

a) O coeficiente de correlação entre as promessas feitas e as promessas mantidas indicam uma


correlação forte e positiva.

b) O coeficiente de correlação entre as promessas feitas e as promessas mantidas indicam uma


correlação fraca e negativa.

c) O coeficiente de correlação entre as promessas feitas e as promessas mantidas indicam uma


correlação forte e negativa.

d) O coeficiente de correlação entre as promessas feitas e as promessas mantidas indicam uma


correlação fraca e positiva.

e) O coeficiente de correlação entre as promessas feitas e as promessas mantidas indicam uma


correlação 𝑟 ≅ 0,5.

2. (FCC 2016/Prefeitura de Teresina)

Uma Prefeitura conduziu uma pesquisa com 12.000 estudantes da Rede Pública de Ensino,
relacionando a quantidade de sema- nas que os estudantes permaneceram nas escolas, em
período integral, com o desempenho em um teste posteriormente aplicado. Obteve-se os
seguintes resultados médios, para cada grupo de 1.000 alunos, conforme tabela abaixo.

Estatística p/ Banco do Brasil (Escriturário) Com Videoaulas - 2020 31


www.estrategiaconcursos.com.br
Guilherme Neves
Aula Extra (edital de 2018)

A partir da análise da tabela,

a) há uma correlação negativa entre o tempo de permanência na escola e o desempenho no


teste.

b) o coeficiente de correlação “r” é maior que zero.

c) o coeficiente de correlação “r” é menor que zero.

d) o coeficiente de correlação “r” é igual a zero.

e) não se pode observar nenhum tipo ligação entre o tempo de permanência na escola e o
desempenho no teste.

3. (FCC 2016/Prefeitura de Teresina)

Observando-se a correlação entre hipotéticos dados de investimentos em infraestrutura de


transporte público, em Teresina, e o tempo de viagens de ônibus dispendido pelos usuários,
calculou-se um coeficiente de correlação (r) igual a −1,0 (um negativo).

A partir deste resultado,

a) o conhecimento de dados sobre os investimentos em infraestrutura de transporte em nada


contribui para a previsão do tempo dispendido em viagens de ônibus.

b) todos os pontos gerados em um gráfico de coordenadas x e y, relacionando esses


investimentos em infraestrutura de transporte e o tempo dispendido em viagens de ônibus, estão
sobre uma reta.

c) o tempo dispendido com viagens de ônibus decresce, necessariamente, de forma exponencial


frente ao aumento linear de investimentos em infraestrutura de transporte.

d) estabelece-se, necessariamente, uma relação de causa e efeito entre duas variáveis, sempre
que exista uma correlação forte (coeficiente de correlação (r) próximo de 1,0) entre elas.

Estatística p/ Banco do Brasil (Escriturário) Com Videoaulas - 2020 32


www.estrategiaconcursos.com.br
Guilherme Neves
Aula Extra (edital de 2018)

e) há uma intensidade de relação fraca, porque negativa, entre os dados sobre os investimentos
em infraestrutura de transporte e os dados sobre dispêndio de tempo em viagens de ônibus.

4. (FEPESE 2014/ISS-Florianópolis)

Com o objetivo de diminuir os casos de afogamento na temporada de 2015, uma prefeitura de


uma cidade litorânea encomendou estudos estatísticos que identificassem prováveis fatores de
risco.

A empresa contratada comparou os dados disponíveis e entregou um relatório com a seguinte


tabela.

Aplicando o modelo estatístico de regressão linear aos dados da tabela acima, podemos afirmar
que:

a) Os dados são linearmente correlacionados e podemos concluir que o consumo excessivo de


sorvete aumenta o risco de afogamento.

b) Há uma correlação não linear entre os dados e a correlação entre eles é provavelmente
espúria.

c) Há uma correlação não linear entre os dados e podemos concluir que o consumo excessivo de
sorvete aumenta o risco de afogamento.

d) Os dados são linearmente correlacionados e a correlação entre eles é provavelmente espúria.

e) Não há correlação estatística entre os dados.

Estatística p/ Banco do Brasil (Escriturário) Com Videoaulas - 2020 33


www.estrategiaconcursos.com.br
Guilherme Neves
Aula Extra (edital de 2018)

5. (FGV 2014/DPE-RJ)

Através de um estudo para fins comparativos, entre o perfil dos cidadãos que procuram a
Defensoria Pública e a natureza dos seus problemas ou dificuldades levantadas, foram obtidos,
considerando-se o total de processos, os seguintes percentuais:

Então, é possível afirmar que

a) exceto pelo primeiro ano, as mulheres respondem pela maior parte das causas de família.

b) a maior parte das causas de família são geradas a partir de atendimentos às mulheres.

c) o coeficiente de correlação entre os percentuais levantados é de 0,8.

d) o coeficiente de correlação entre os percentuais levantados é de 0,5.

e) a estabilidade do percentual de mulheres, entre o 2º e 3º ano, por estar acompanhada de uma


elevação das causas de família demonstra que a relação existe, mas é fraca.

6. (FCC 2013/DPE-RS)

As variáveis aleatórias X e Y representam, respectivamente, os anos de experiência e os salários,


em reais, dos empregados em um determinado ramo de atividade. Sejam os pares (𝒙𝟏 , 𝒚𝟏 ),
(𝒙𝟐 , 𝒚𝟐 ), ..., (𝒙𝒏 , 𝒚𝒏 ), em que 𝒙𝒊 𝒆 𝒚𝒊 (1 ≤ i ≤ n) são os valores de X e Y, respectivamente. Para
prever 𝒚𝒊 em função de 𝒙𝒊 , optou-se por utilizar uma forma de relação linear entre X e Y tal que
𝒚𝒊 = 𝟐. 𝟎𝟎𝟎 + 𝟒𝟓𝒙𝒊 , obtida pelo método dos mínimos quadrados, verificando-se que nem todos
os pontos pertencem a uma mesma reta. Se o coeficiente de correlação linear entre X e Y for
igual a r (r ≠ zero), então

a) r = 1.

b) multiplicando por 0,5 todos os valores 𝑥' e por 0,8 todos os valores 𝑦' , verifica-se que o novo
coeficiente de correlação linear dos dois novos conjuntos é igual a 0,4r.

c) é possível que r seja negativo.

Estatística p/ Banco do Brasil (Escriturário) Com Videoaulas - 2020 34


www.estrategiaconcursos.com.br
Guilherme Neves
Aula Extra (edital de 2018)

d) r = 0,45.

e) o valor de r é positivo.

7. (FCC 2012/ISS-São Paulo)

Considere as seguintes afirmações:

I. Um dispositivo útil quando se quer verificar a associação entre duas variáveis quantitativas é o
gráfico de dispersão entre essas duas variáveis.

II. O coeficiente de variação é uma medida de dispersão relativa que depende da unidade de
medida da variável que está sendo analisada.

III. Dentre as medidas de posição central, a média é considerada uma medida robusta pelo fato
de não ser afetada por valores aberrantes.

IV. Se o coeficiente de correlação linear de Pearson entre duas variáveis for igual a zero, não
haverá associação linear entre elas, implicando a ausência de qualquer outro tipo de associação.

Está correto o que se afirma APENAS em

a) II e III.

b) I e II.

c) I e III.

d) II e IV.

e) I.

8. (FCC 2019/BANRISUL)

Utilizando o método dos mínimos quadrados, obteve-se a equação de tendência 𝑻 ƒ𝒕 = 𝟏𝟓 + 𝟐, 𝟓𝒕


, sendo t = 1, 2, 3, ..., com base nos lucros anuais de uma empresa, em milhões de reais, nos
últimos 10 anos, em que t 1 representa 2009, t 2 representa 2010 e assim por diante. Por
meio dessa equação, obtém-se que a previsão do lucro anual dessa empresa, no valor de 55
milhões de reais, será́ para o ano

(A) 2021.

Estatística p/ Banco do Brasil (Escriturário) Com Videoaulas - 2020 35


www.estrategiaconcursos.com.br
Guilherme Neves
Aula Extra (edital de 2018)

(B) 2025.

(C) 2024.

(D) 2023.

(E) 2022.

9. (FCC 2018/ISS-São Luís)

Analisando um gráfico de dispersão referente a 10 pares de observações (𝒕, 𝒀𝒕 ) com t = 1, 2, 3,


... , 10, optou-se por utilizar o modelo linear 𝒀𝒕 = 𝜶 + 𝜷𝒕 + 𝜺𝒕 com o objetivo de se prever a
variável Y, que representa o faturamento anual de uma empresa em milhões de reais, no ano
(2007 + t). Os parâmetros 𝜶 e 𝜷 são desconhecidos e 𝜺𝒕 é o erro aleatório com as respectivas
hipóteses do modelo de regressão linear simples. As estimativas de 𝜶 e 𝜷 (a e b,
respectivamente) foram obtidas por meio do método dos mínimos quadrados com base nos
dados dos 10 pares de observações citados. Se a = 2 e a soma dos faturamentos dos 10 dados
observados foi de 64 milhões de reais, então, pela equação da reta obtida, a previsão do
faturamento para 2020 é, em milhões de reais, de

a) 11,6

b) 15,0

c) 13,2

d) 12,4

e) 14,4

10. (FCC 2018/TCE-RS)

Utilizando o método da regressão linear, por mínimos quadrados, obteve-se a equação da reta
estimada 𝑻g = 𝟐𝟎 + 𝟎, 𝟖𝒕 correspondente a uma série de tempo referente às vendas, em 1.000
unidades, de um produto no ano t. Esta equação foi obtida com base nas observações das
vendas nos 12 primeiros anos, isto é, para t = 1, 2, 3, ... ,12.

A soma das vendas observadas, em 1.000 unidades, nesses 12 primeiros anos, foi

a) 252,6

Estatística p/ Banco do Brasil (Escriturário) Com Videoaulas - 2020 36


www.estrategiaconcursos.com.br
Guilherme Neves
Aula Extra (edital de 2018)

b) 280,0

c) 302,4

d) 292,8

e) 336,0

11. (FCC 2018/CL-DF)

Durante um período de 10 anos (de 2008 a 2017), foi registrado, em cada ano, o faturamento
anual (F) de uma empresa, em milhões de reais, e o respectivo gasto anual com propaganda (G),
em milhões de reais. Um modelo de regressão linear simples 𝑭𝒕 = 𝜶 + 𝜷𝑮𝒕 + 𝜺𝒕 , t = 1, 2, ... foi
elaborado para se prever F em função de G, considerando as informações registradas, em que
𝑭𝟏 e 𝑮𝟏 são o faturamento e o gasto com propaganda em 2008, 𝑭𝟐 e 𝑮𝟐 são o faturamento e o
gasto com propaganda em 2009, e assim por diante. Os parâmetros 𝜶 e 𝜷 são desconhecidos e
𝜺𝒕 é o erro aleatório com as respectivas hipóteses do modelo de regressão linear simples. As
estimativas de 𝜶 e 𝜷 foram obtidas pelo método dos mínimos quadrados, sabendo-se que o
valor da soma dos faturamentos e dos gastos com propaganda de 2008 a 2017 foram, em
milhões de reais, iguais a 120 e 15, respectivamente.

Se a estimativa do coeficiente angular da reta obtida por meio do método dos mínimos
quadrados foi de 1,8, então a previsão do faturamento em um determinado ano, uma vez que a
empresa gastou com propaganda neste ano 2 milhões de reais, é

a) 15,4 milhões de reais.

b) 16,0 milhões de reais.

c) 14,4 milhões de reais.

d) 12,9 milhões de reais.

e) 13,6 milhões de reais.

12. (FCC 2018/SEFAZ-SC)

A tabela a seguir indica o valor y do salário, em número de salários mínimos (SM) e os


respectivos tempos de serviço, em anos, x, de 5 funcionários de uma empresa:

Estatística p/ Banco do Brasil (Escriturário) Com Videoaulas - 2020 37


www.estrategiaconcursos.com.br
Guilherme Neves
Aula Extra (edital de 2018)

Suponha que valha a relação: 𝒚𝒊 = 𝜶 + 𝜷𝒙𝒊 + 𝜺𝒊 em que i representa a i-ésima


observação, 𝜶 e 𝜷 são parâmetros desconhecidos e 𝜺𝒊 é o erro aleatório com as hipóteses para
a regressão linear simples. Se as estimativas de 𝜶 e 𝜷 forem obtidas pelo método de mínimos
quadrados por meio dessas 5 observações, a previsão de salário para um funcionário com 4 anos
de serviço será, em SM, igual a

a) 6,1

b) 5,2

c) 6,0

d) 5,5

e) 5,8

13. (FCC 2017/TRT 11ª Região)

Considere que o gerente de uma empresa comercial adotou o modelo linear simples 𝑽𝒊 = 𝜶 +
𝜷𝒈𝒊 + 𝜺𝒊 para analisar a relação entre o volume de vendas anual (V), em unidades monetárias
(u.m.), em função do gasto anual com promoções de vendas (g), também em u.m. Os
parâmetros 𝜶 e 𝜷 são desconhecidos, i corresponde à i-ésima observação anual e 𝜺𝒊 é o erro
aleatório com as respectivas hipóteses para a regressão linear simples. Com base em 10 pares
de observações anuais (𝒈𝒊 , 𝑽𝒊 ), i = 1, 2, 3, ... , 10, e com a utilização do método dos mínimos
quadrados foram encontradas as estimativas de 𝜶 e 𝜷.

OŠ OŠ OŠ OŠ OŠ

0 𝑔' = 50, 0 𝑉' = 1.500, 0 𝑔'/ = 314, 0 𝑉'/ = 242.600, 0 𝑔' 𝑉' = 8.460
'•O '•O '•O '•O '•O

Em um ano que a empresa não efetua gasto com promoções de vendas, significa que
considerando a equação da reta obtida pelo método dos mínimos quadrados a previsão do
volume de vendas deste ano é igual, em u.m., a

a) 50

b) 150

Estatística p/ Banco do Brasil (Escriturário) Com Videoaulas - 2020 38


www.estrategiaconcursos.com.br
Guilherme Neves
Aula Extra (edital de 2018)

c) 100

d) 90

e) 75

14. (FCC 2017/DPE-RS)

Deseja-se determinar, usando o método da regressão linear, a tendência (T) da seguinte série de
tempo dada pelo quadro abaixo, em que 𝒀𝒕 representa o volume de vendas (em milhões de
reais) de um produto em t (ano).

Analisando o diagrama de dispersão, optou-se pela forma de tendência T = a + bt, em que a e b


foram obtidos por meio do método dos mínimos quadrados. O valor de a é igual a

a) 4,50

b) 3,00

c) 4,25

d) 4,75

e) 4,00

15. (FCC 2016/ TRT 20ª Região)

Considere que (𝟏𝟎, 𝟎; 𝟐𝟕, 𝟓) é um ponto pertencente à reta de equação 𝒚 = 𝒂 + 𝒃𝒙,


correspondente ao modelo de regressão linear simples 𝒚𝒊 = 𝜶 + 𝜷𝒙𝒊 + 𝜺𝒊 (𝒊 = 𝟏, 𝟐, 𝟑, … ), em que:

I. 𝒚𝒊 é o salário do trabalhador 𝒊 em um determinado país, em unidades monetárias.

II. 𝒙𝒊 é o número de anos de experiência do trabalhador 𝒊.

Estatística p/ Banco do Brasil (Escriturário) Com Videoaulas - 2020 39


www.estrategiaconcursos.com.br
Guilherme Neves
Aula Extra (edital de 2018)

III. 𝜶 e 𝜷 são parâmetros desconhecidos com suas estimativas (𝒂 e 𝒃, respectivamente) obtidas


pelo método dos mínimos quadrados e com base em 20 pares de observações (𝒙𝒊 , 𝒚𝒊 ).

IV. 𝜺𝒊 é o erro aleatório com as respectivas hipóteses consideradas do modelo de regressão


linear simples.

Dados:

/Š /Š /Š /Š

0 𝑥' = 144, 0 𝑦' = 480, 0 𝑥' 𝑦' = 3.620, 0 𝑦'/ = 11.770


'•O '•O '•O '•O

Considerando a equação da reta obtida pelo método dos mínimos quadrados, tem-se que a
estimativa do salário de um trabalhador com 16 anos de experiência é, em unidades monetárias,
de

a) 33,50

b) 40,00

c) 30,75

d) 25,00

e) 35,00

16. (FCC 2015/SEFAZ-PI)

O modelo 𝒀𝒕 = 𝜶 + 𝜷𝒕 + 𝜺𝒕 , 𝒕 = 𝟏, 𝟐, 𝟑, …, foi considerado para prever o lucro de uma companhia


no ano (𝟐𝟎𝟎𝟕 + 𝒕).

Sabe-se que:

• 𝒀𝒕 representa o lucro, em milhões de reais no ano t;


• 𝜶 e 𝜷 são parâmetros desconhecidos;
• 𝜺𝒕 é o correspondente erro aleatório, com as respectivas hipóteses da regressão linear;
• as estimativas de 𝜶 e 𝜷 foram obtidas pelo método de mínimos quadrados, considerando-
se as observações Yt no período de 6 anos (2008 a 2013).

Os dados relativos às observações são:

Estatística p/ Banco do Brasil (Escriturário) Com Videoaulas - 2020 40


www.estrategiaconcursos.com.br
Guilherme Neves
Aula Extra (edital de 2018)

Ž Ž Ž Ž

0 𝑡 = 21, 0 𝑡 / = 91, 0 𝑡𝑌 = 140, 0 𝑌• = 36


••O ••O ••O ••O

Nessas condições, a previsão de mínimos quadrados para o lucro da companhia, em milhões de


reais, no ano de 2014, é igual a

a) 7,55

b) 8,15

c) 7,90

d) 8,80

e) 9,50

17. (FCC 2015/CNMP)

Seja o modelo linear 𝒀𝒊 = 𝜷𝑿𝒊 + 𝜺𝒊 estabelecendo uma relação linear, sem intercepto, entre duas
variáveis X e Y, em que 𝒀𝒊 i é a variável dependente na observação i, 𝑿𝒊 é a variável explicativa na
observação i e 𝜺𝒊 o erro aleatório com as respectivas hipóteses para a regressão linear simples.
O parâmetro 𝜷 do modelo é desconhecido e sua estimativa foi obtida pelo método dos mínimos
quadrados com base em 10 pares de observações (𝑿𝒊 , 𝒀𝒊 ).

Dados:

OŠ OŠ OŠ OŠ

0 𝑋' = 120, 0 𝑌' = 180, 0 𝑋' 𝑌' = 2.400, 0 𝑋'/ = 1.500


'•O '•O '•O '•O

Considerando a equação da reta obtida pelo método dos mínimos quadrados, obtém-se que Y é
igual a 24 quando X for igual a

a) 15.

b) 6.

c) 16.

d) 18.

e) 20.

Estatística p/ Banco do Brasil (Escriturário) Com Videoaulas - 2020 41


www.estrategiaconcursos.com.br
Guilherme Neves
Aula Extra (edital de 2018)

18. (FCC 2019/SEFAZ-BA)

Em uma determinada indústria, foi efetuada uma pesquisa a respeito da possível relação entre o
número de horas trabalhadas (X), com 𝑿 ≥ 𝟐, e as quantidades produzidas de um produto (Y).
Com base em 10 pares de observações (𝑿𝒊 , 𝒀𝒊 ) e considerando o gráfico de dispersão
correspondente, optou-se por utilizar o modelo linear 𝒀𝒊 = 𝜶 + 𝜷𝑿𝒊 + 𝜺𝒊 , com 𝒊 representando a
i-ésima observação, ou seja, i = 1, 2, 3, ..., 10. Os parâmetros 𝜶 e 𝜷 são desconhecidos e as suas
estimativas (𝒂 e 𝒃, respectivamente) foram obtidas pelo método dos mínimos quadrados.
Observação: 𝜺𝒊 é o erro aleatório com as respectivas hipóteses do modelo de regressão linear
simples. Considere o gráfico abaixo, construído utilizando os valores encontrados para as
estimativas de 𝜶 e 𝜷.

A previsão da quantidade produzida será igual ao dobro da média verificada das 10 observações
𝒀𝒊 quando o número de horas trabalhadas for igual a

a) 18

b) 12

c) 20

d) 24

e) 22

Estatística p/ Banco do Brasil (Escriturário) Com Videoaulas - 2020 42


www.estrategiaconcursos.com.br
Guilherme Neves
Aula Extra (edital de 2018)

GABARITO SEM COMENTÁRIO

01. C
02. B
03. B
04. D
05. D
06. E
07. E
08. C
09. D
10. C
11. D
12. D
13. E
14. C
15. E
16. D
17. A
18. E

Estatística p/ Banco do Brasil (Escriturário) Com Videoaulas - 2020 43


www.estrategiaconcursos.com.br

Você também pode gostar