Você está na página 1de 128

ESTATÍSTICA

Regressão Linear

Livro Eletrônico
ESTATÍSTICA
Regressão Linear

Sumário
Thiago Cardoso

Regressão Linear.. ............................................................................................................................ 3


1. Regressão Linear.......................................................................................................................... 3
1.1. Parâmetros do Modelo de Regressão Linear. . ..................................................................... 4
1.2. Estimador de Mínimos Quadrados........................................................................................ 5
1.3. Reta Passando pela Origem.. ................................................................................................ 10
1.4. Regressão Multivariada........................................................................................................ 14

2. Avaliação do Modelo..................................................................................................................16
2.1. Análise dos Resíduos.. .............................................................................................................16
2.2. Análise de Variância. . ............................................................................................................. 20
2.3. Análise dos Coeficientes. . ..................................................................................................... 30
Resumo............................................................................................................................................. 36
Mapa Mental................................................................................................................................... 38
Questões Comentadas em Aula.................................................................................................. 39
Exercícios......................................................................................................................................... 47
Gabarito............................................................................................................................................ 73
Gabarito Comentado..................................................................................................................... 74

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 2 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

REGRESSÃO LINEAR
Olá, aluno (a), seja bem-vindo (a) a mais uma aula de Estatística. Hoje, falaremos sobre
Regressão Linear.
Houve um tempo em que esse tema era praticamente inexplorado pelas provas de concur-
so, porém isso mudou. Considerando o panorama atual dos concursos, que estão cada vez
mais valorizando a parte de Estatística Inferencial, devo-lhe advertir que esse é um dos temas
mais importantes atualmente.
Mas fique tranquilo (a)! Você verá que a grande maioria das questões de Regressão Linear
podem ser resolvidas com simples aplicações de fórmulas. Você raramente precisará desen-
volver raciocínios complexos ou contas sofisticadas. Memorize as fórmulas e você terá suces-
so nas questões desse tópico.
Pronto (a) para começar?

1. Regressão Linear
A Regressão Linear é uma técnica muito utilizada em todas as áreas que se utilizam de
gráficos e números. Ela tem por objetivo estudar o comportamento de uma variável em função
da outra. Por exemplo, consideremos um estudo social sobre a idade e o salário de um grupo
de pessoas. Como pessoas da mesma idade podem ter salários diferentes, o gráfico mais ade-
quado para representar essas duas variáveis é o gráfico de dispersão.

Figura 1: Gráfico de Dispersão de Salários pela Idade de um Grupo de Pessoas

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 3 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

O gráfico de dispersão nos mostra que, de maneira geral, o salário de uma pessoa cresce
com a sua idade.
Não se trata de um comportamento absoluto. Por exemplo, há duas pessoas de 40 anos na
pesquisa: uma delas tem o salário de pouco acima de 5,00 e outra em torno de 15,00. Também
podemos encontrar uma pessoa de 25 anos que ganha mais que outra pessoa de 40 anos.
Porém, há uma tendência de que os salários cresçam em função da idade. A fim de avaliar
essa tendência, podemos traçar uma linha de tendência.

Figura 2: Linha de Tendência no Gráfico de Dispersão de Salários pela Idade

No gráfico, temos algumas definições interessantes:


Variável independente, regressora, explicativa ou preditora: é a variável principal. No caso,
é a variável idade, geralmente chamada de X.
A variável independente é, também, chamada de explicativa ou preditora, porque ela é uti-
lizada para explicar o comportamento da variável dependente e prever seus valores futuros.
Variável dependente ou resposta: é a variável cujos valores são observados em função da
variável independente.
No caso em apreço, é a variável salários, geralmente chamada de Y.
Quando aumentamos a idade de um grupo de entrevistados, é natural esperarmos um
aumento de seu salário médio em resposta a essa variação de idade.

1.1. Parâmetros do Modelo de Regressão Linear


O valor real da variável dependente é expresso no modelo de regressão linear pela soma:

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 4 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

A estimativa é a estimativa feita pelo método de regressão linear e corresponde à linha


de tendência que pode ser traçada no gráfico (Y x X).
Por outro lado, o erro ou desvio corresponde aos desvios dos valores reais de Y em torno
da linha de tendência. Como pode ser bem visualizado na Figura 2, nem sempre os valores re-
ais observados para a variável Y se encaixam perfeitamente nos valores obtidos pelo método
de regressão linear.
Por isso, existe o erro de estimativa. Teremos uma seção mais adiante dedicada exclusi-
vamente a comentar sobre esse fator. O erro de estimativa é dado pela diferença entre o valor
real e a estimativa:

Em geral, os modelos de regressão linear têm por objetivo diminuir esse erro segundo
algum critério.
Por hora, vamos comentar sobre os parâmetros a e b que definem o modelo de regres-
são linear.
O parâmetro b é o mais importante e está relacionado à inclinação da linha de tendência.
Quanto maior o parâmetro b, maior será a variação na variável Y em resposta a um aumento
da variável X.
Por outro lado, o parâmetro a é chamado de intercepto, pois corresponde ao ponto em que
a linha de tendência intercepta o eixo dos Y. Isso acontece porque, quando X = 0, temos que a
estimativa linear para Y será igual a esse parâmetro.

Agora, vamos aprender formas de calcular esses coeficientes.

1.2. Estimador de Mínimos Quadrados


O estimador de mínimos quadrados é aquele que tem por objetivo minimizar a seguinte
função de custo:

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 5 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Ou seja, pegamos o quadrado de todos os desvios encontrados e somamos. O estimador


de mínimos quadrados é aquele que minimiza essa soma.
A importância de somar os quadrados está no fato de que é dessa forma que considera-
mos todos os desvios para a esquerda e para direita (negativos ou positivos) como contri-
buintes para aumentar o erro total de estimativa. É exatamente o mesmo princípio do des-
vio-padrão.
É possível demonstrar, por meio de cálculo diferencial, o que está além do escopo deste
material, que o parâmetro b que minimiza essa soma é dado por:

É bastante interessante que, para um problema tão complexo quanto à regressão linear,
tenhamos uma solução razoavelmente simples e elegante. Basta dividir a covariância entre
as duas variáveis pela variância da variável regressora.
É natural, ainda, que as questões tentem confundi-lo (a). Elas vão colocar a variância da
variável resposta no denominador ou trocar a covariância pela correlação.
É possível, sim, obter uma expressão coeficiente b pela correlação, mas ela será ligeira-
mente diferente. Vejamos:
Primeiramente, precisamos nos lembrar de que a correlação é igual à covariância dividida
pelo produto dos desvios-padrões.

Agora, podemos nos lembrar de que a variância é igual ao quadrado do desvio-padrão.


Portanto, temos para o coeficiente de inclinação:

Não considero necessário memorizar essa expressão, mas é interessante que você tenha
visto a forma como chegamos até ela, porque isso pode ser exigido em questões de prova.
Para o coeficiente a, considero que a forma mais fácil de lembrar é partir do princípio de
que a média da estimativa deve ser igual à média da variável real.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 6 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Usando o fato de que o valor esperado é linear, temos que:

001. (CESPE/AUDITOR DE CONTROLE EXTERNO/TCE-PA/2016) Uma regressão linear simples


é expressa por Y = a + b × X + e, em que o termo e corresponde ao erro aleatório da regressão
e os parâmetros a e b são desconhecidos e devem ser estimados a partir de uma amostra
disponível. Assumindo que a variável X é não correlacionada com o erro e, julgue o item sub-
secutivo, no qual os resíduos das amostras consideradas são IID, com distribuição normal,
média zero e variância constante.
Para uma amostra de tamanho n = 25, em que a covariância amostral para o par de variáveis
X e Y seja Cov(X, Y) = 20,0, a variância amostral para a variável Y seja Var(Y) = 4,0 e a variância
amostral para a variável X seja Var(X) = 5,0, a estimativa via estimador de mínimos quadrados
ordinários para o coeficiente b é igual a 5,0.

O coeficiente b é dado por:

Errado.

002. (CESPE/AUDITOR DE CONTROLE EXTERNO/TCE-PA/2016) Uma regressão linear simples


é expressa por Y = a + b × X + e, em que o termo e corresponde ao erro aleatório da regressão
e os parâmetros a e b são desconhecidos e devem ser estimados a partir de uma amostra
disponível. Assumindo que a variável X é não correlacionada com o erro e, julgue o item sub-
secutivo, no qual os resíduos das amostras consideradas são IID, com distribuição normal,
média zero e variância constante.
A variável Y é denominada variável explicativa, e a variável X é denominada variável dependente.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 7 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Como a regressão linear é escrita da forma Y = a + bX, temos que a variável Y é descrita em
função da variável X. Sendo assim, a variável Y é a variável dependente ou resposta, enquanto
a variável X é a variável explicativa.
Errado.

003. (CESPE/AUDITOR DE CONTROLE EXTERNO/TCE-PA/2016) Uma regressão linear simples


é expressa por Y = a + b × X + e, em que o termo e corresponde ao erro aleatório da regressão
e os parâmetros a e b são desconhecidos e devem ser estimados a partir de uma amostra
disponível. Assumindo que a variável X é não correlacionada com o erro e, julgue o item sub-
secutivo, no qual os resíduos das amostras consideradas são IID, com distribuição normal,
média zero e variância constante.
Considere que as estimativas via método de mínimos quadrados ordinários para o parâmetro
a seja igual a 2,5 e, para o parâmetro b, seja igual a 3,5. Nessa situação, assumindo que X = 4,0,
o valor predito para Y será igual a 16,5, se for utilizada a reta de regressão estimada.

Calcularemos o valor predito para Y usando os dados fornecidos no enunciado.

Certo.

004. (ESAF/ANALISTA TÉCNICO/SUSEP/2010) A partir de uma amostra aleatória ,


,..., foram obtidas as estatísticas:
• Médias:
• Variâncias Amostrais: SX² = 30 e SY² = 54;
• Covariância: SXY = 36.

Qual é a reta de regressão estimada de Y em X?


a)
b)
c)
d)
e)

Podemos calcular o coeficiente de inclinação:


Podemos calcular o coeficiente de inclinação assim:

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 8 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Já para calcular o coeficiente de intercepto por meio das médias, procedemos assim:

Dessa maneira, a reta de regressão estimada é:

Letra c.

005. (FGV/TÉCNICO SUPERIOR ESPECIALIZADO-ESTATÍSTICO/DPE-RJ/2014) Considere a


equação de regressão Yi = α + β. Xi + εi onde Y e X são as variáveis explicada e explicativa,
respectivamente, ε é o erro aleatório e α e β os parâmetros a estimar. São supostos válidos
todos os pressupostos clássicos do Modelo de Regressão Linear Simples (MRLS). Além dis-
so, para determinada amostra de pares (X,Y), foram calculadas as estatísticas p ( X, Y ) = 0,8,
= 6, = 15, DP (Y ) = 5 e DP ( X ) = 2. Portanto, a partir do método de Mínimos Quadrados
Ordinários os estimadores de α e β são
a) 2 e 3
b) 3 e 2
c) -9 e 4
d) 4 e -9
e) 6 e 1,5

coeficiente de inclinação é dado por:

Como não nos foi disponibilizada a covariância, podemos calculá-la a partir da correlação:

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 9 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Desse modo, temos:

Por outro lado, o coeficiente de intercepto é dado pelas médias:

Letra b.

1.3. Reta Passando pela Origem


Nesse caso, deseja-se fazer um ajuste forçando o coeficiente de intercepto a ser
igual a zero.

Dessa forma, o coeficiente de inclinação b é dado por uma expressão ligeiramente diferente:

Não temos muito o que comentar. Basta apenas decorar a expressão. Observe bem se o
modelo de regressão linear é fornecido também da forma Y = bX + erro. Se não houver inter-
cepto, é a chave para utilizar a expressão acima.

006. (CESPE/ANALISTA DE CONTROLE EXTERNO/TCU/2008) Uma agência de desenvolvi-


mento urbano divulgou os dados apresentados na tabela a seguir, acerca dos números de
imóveis ofertados (X) e vendidos (Y) em determinado município, nos anos de 2005 a 2007.

Número de imóveis
ano
ofertados (X) vendidos (y)
2005 1.500 100
2006 1.750 400
2007 2.000 700

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 10 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

A estimativa do valor do coeficiente a da reta de regressão Y = aX, em que Y representa o nú-


mero esperado de imóveis vendidos para uma quantidade X de imóveis ofertados, é superior
a 0,23 e inferior a 0,26.

Como o enunciado fala numa reta Y = aX sem o coeficiente de intercepto, devemos utilizar a
expressão da reta passando pela origem.

Quando o denominador termina em 25, o modo simples de fazer a conta é multiplicando por 4.

Certo.

007. (CESPE/INSPETOR/TCE-RN/2015)Para k = 1,..., 5, um modelo de regressão linear é dado


por em que representam, respectivamente, os valores da variá-
vel resposta e da variável regressora do k-ésimo elemento da amostra, e representa o erro
aleatório. Os erros aleatórios ε1,..., ε5 são independentes e identicamente distribuídos.
Cada erro segue uma distribuição normal com média zero e variância V. Sabendo que:

Julgue o item seguinte.


A estimativa de mínimos quadrados ordinários do coeficiente a é igual ou superior a 1.

Mais uma vez, temos o modelo Y = aX + erro, sem o coeficiente de intercepto. Sendo assim, a
expressão da reta passando pela origem deve ser usada para solucionar o problema:

Errado.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 11 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Para k = 1,..., 5, um modelo de regressão linear é dado por em que


representam, respectivamente, os valores da variável resposta e da variável regressora do
k-ésimo elemento da amostra, e representa o erro aleatório. Os erros aleatórios ε1,..., ε5
são independentes e identicamente distribuídos.
Cada erro segue uma distribuição normal com média zero e variância V. Sabendo que:

Julgue o item seguinte.


A variável aleatória yk, para k = 1,..., 5, segue uma distribuição normal com variância V.

O modelo de regressão linear fornecido é:

Como os valores da variável regressora são determinísticos, temos que a única fonte de erro
para o valor de y é o erro aleatório, que é normal gaussiano de variância V.
Sendo assim, Y seguirá uma normal com a mesma variância do erro aleatório fornecido e com
média igual ao produto ax.
Certo.

008. (CESPE/INSPETOR/TCE-RN/2015) Para k = 1,..., 5, um modelo de regressão linear é dado


por em que representam, respectivamente, os valores da variá-
vel resposta e da variável regressora do k-ésimo elemento da amostra, e representa o erro
aleatório. Os erros aleatórios ε1,..., ε5 são independentes e identicamente distribuídos.
Cada erro segue uma distribuição normal com média zero e variância V. Sabendo que:

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 12 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Julgue os itens a seguir.


Julgue o item seguinte.
A estimativa da variância V é igual ou inferior a 1,5.

A resolução mais comum, mais simples e que eu acredito que o CESPE esperava que os alu-
nos apresentassem na hora da prova é a seguinte.
Podemos utilizar que a variância do erro é menor ou igual à variância de Y a priori, ou seja,
antes do modelo de regressão linear:

Nesse caso, como existe correlação entre X e Y, podemos descartar o sinal de igual. Logo, a
variância V será:

Portanto, a variância realmente é inferior a 1,5. Eu apresentei essa solução, pois é um recurso
que você pode utilizar e será bem mais fácil do que calcular precisamente a estimativa da
variância do erro.
No entanto, é possível obter o valor preciso da estimativa da variância do erro utilizando fór-
mulas que já conhecemos. Sabemos que:

Vamos nos lembrar da definição dos resíduos:

Como temos todos os valores fornecidos, podemos dizer que:

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 13 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Agora, podemos calcular a estimativa da variância do erro:

Portanto, isso nos levaria a concluir que o gabarito é errado. E, nesse momento, o (a) aluno(a)
se questionaria: mas a variância do erro a posteriori não deveria ser menor que a variância a
priori, que é 1,5?
A resposta é que isso realmente só pode ser garantido quando a amostra é grande. Não se
pode fazer um modelo de regressão linear com uma amostra muito pequena de apenas 5 ele-
mentos. O mesmo pode ser dito para vários e vários estimadores.
Por conta disso, considero uma pequena tragédia essa adaptação feita para uma questão de prova.
Na vida prática, você nunca fará regressão linear com uma amostra de 5 elementos, precisará
de mais dados. Quando a regressão é feita com poucos dados, ela pode, sim, ser pouco efetiva.
A despeito disso, nenhum recurso foi elaborado e a banca manteve o gabarito oficial. Mas eu
não poderia deixar de registrar a minha contrariedade a esse gabarito.
Certo.

1.4. Regressão Multivariada


 Obs.: Se você não conhece o assunto Matrizes, esta matéria será muito difícil e creio que
não vale a pena estudá-la.

Suponhamos que nós queremos escrever y como uma regressão linear em mais de uma
variável independente:

Daremos o nome de x ao vetor (matriz linha) formado por todas as variáveis independen-
tes. No caso, temos:

Os coeficientes b também podem ser agrupados em um vetor (matriz coluna).

Para calcular o vetor B, precisamos anotar todas as observações das variações x1, x2 etc.
em uma matriz. Essa matriz terá o número de colunas igual ao número de variáveis e o núme-
ro de linhas igual ao número de observações.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 14 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Dessa forma, o vetor B será dado por:

Nessa notação, X’ corresponde à matriz transposta das observações de X, em que X re-


presenta as observações da variável X.
Sinceramente, eu creio que não faça o menor sentido cobrar esse assunto numa prova de
concurso. Porém, o CESPE já cobrou uma vez no TCU-2015.
De qualquer forma, se você for capaz de entender matrizes, vale a pena saber a fórmula
da regressão linear múltipla, mas nem se preocupe em entender esse assunto em muitos de-
talhes. Nem mesmo nas provas específicas para Estatísticos ele costuma aparecer em maior
nível de dificuldade.

009. (CESPE/AUDITOR FEDERAL DE CONTROLE EXTERNO/TCU/2015) Com o objetivo de mo-


delar a arrecadação anual do ICMS em municípios brasileiros (y), o modelo de regressão linear
múltipla foi representado, na forma matricial, como y = Xβ + ε, em que y representa o vetor de
respostas, X denota a matriz de delineamento, β é o vetor de parâmetros e ε é o vetor de erros
aleatórios independentes e identicamente distribuídos. Considerando-se que X’ representa
a transposta da matriz de delineamento, apresenta-se a seguir a matriz inversa do produto
matricial X’X produzida no modelo.

Com base nessas informações e sabendo que , julgue o próximo item.

A estimativado vetor de parâmetros produzida pelo método de mínimos quadrados or-


dinários é:

Observe que o enunciado já deu todas as matrizes trabalhadas para o (a) aluno (a). Basta
multiplicar:

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 15 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Certo.

2. Avaliação do Modelo
Agora, vamos falar um pouco mais sobre o erro de estimativa. Algumas características
importantes que o erro deve apresentar:
• média nula: o erro deve apresentar média nula. Caso o erro apresentasse qualquer des-
vio médio, o estimador seria claramente viesado e, portanto, essa média deveria ter
sido incluída no parâmetro a.

Pense, por exemplo, que você está fazendo uma pesquisa sobre o salário médio de um
grupo de pessoas. Então, você descobre que, em média, a sua pesquisa erra o salário médio
das pessoas em 1,00 unidade para cima. Isso significa, na verdade, que a sua linha de tendên-
cia está mal posicionada e que ela deveria ter aparecido 1,00 unidade para baixo.

• independente da variável X: se houvesse qualquer dependência da variável X, isso sig-


nificaria que esse fator deveria ter sido incluído no modelo. Essa propriedade também
é conhecida pelo nome de homocedasticidade.

Quando existe dependência entre o erro e a variável X, é bastante provável que o modelo
de regressão linear não se adapte bem ao sistema que está sendo estudado.
Dito isso, existem algumas métricas importantes de avaliação do erro em modelos de re-
gressão linear. Primeiramente, vejamos uma ideia geral sobre ele.

2.1. Análise dos Resíduos


A estimativa de um modelo de regressão linear corresponde à linha reta que pode ser
derivada diretamente dos coeficientes de inclinação e intercepto, como constam no modelo.

Os resíduos da variável resposta, por sua vez, correspondem às diferenças entre o valor
correto dessa variável e as suas estimativas.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 16 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

O gráfico de resíduos é um gráfico que dispõe os resíduos da variável resposta em função


da variável explicativa e ele é uma importante ferramenta para a avaliação de um modelo de
regressão linear.
Pelas características ideias de um erro, um gráfico de resíduos saudável, sem pro-
blemas, deve:
• não-viesado: isto é, a média dos resíduos deve ser igual a zero;
• homocedásticos: o desvio padrão dos resíduos é, independente da variável aleatória,
independente.

Vejamos na Figura 3 um exemplo ideal dessa situação.

Figura 3 - Exemplo de um gráfico de resíduos sem problemas

Agora, vejamos alguns problemas que podem ser notados com a análise do gráfico
de resíduos.

• Heterocedasticidade: a variância dos erros apresenta um comportamento heterogêneo


em função da variável independente (X).

Figura 4: Resíduos Heterocedásticos

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 17 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

• Assimetria: a média dos erros não é nula, portanto, o coeficiente de intercepto deve ser
ajustado.

Figura 5 - Resíduos Assimétricos

• Resíduos extremos: a presença de alguns resíduos muito distantes do padrão dos de-
mais indica a presença de dados atípicos nas suas observações.

Figura 6 - Resíduos Extremos

Esses dados atípicos podem ser meros frutos da aleatoriedade. Pense, por exemplo, que
você estuda o salário das pessoas em função da sua idade e descobre um jovem de 20 anos
ganha 50 salários-mínimos por mês. Seria uma observação bastante atípica, não é? É possí-
vel de acontecer, mas certamente é bem raro.
Mas, vale notar que esses dados atípicos também podem ser oriundos de erros de me-
didas. Pense, por exemplo, que você está estudando as velocidades de carros em uma via e
descobre um carro que atravessou o radar acima de 500 km/h. Há uma grande chance de
essa medida ter sido um erro do radar.

• Não linearidade: quando se observa uma linha de tendência nos resíduos que não é
uma linha reta.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 18 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Figura 7 - Linha de Tendência não linear

Nesse gráfico, observamos uma linha de tendência não linear, o que mostra que uma es-
timativa Ŷ = a + bX não é suficiente para descrever a variável Y em função de X. Seria preciso
incluir também a relação não linear entre as duas variáveis.

010. (FUNDATEC/ESTATÍSTICO/PREFEITURA DE PORTO ALEGRE-RS/2021) Em um gráfico de


resíduos em uma análise de regressão, são exibidos:
a) Resíduos da variável explicativa versus resíduos da variável de resposta.
b) Resíduos da variável explicativa versus a variável de resposta.
c) A variável explicativa versus a variável de resposta.
d) A variável explicativa sobre o eixo x, contra a variável resposta sobre o eixo y
e) A variável explicativa versus resíduos da variável resposta.

O gráfico de resíduos tem por objetivo estudar os resíduos da variável resposta em função
da variável explicativa, que correspondem à diferença entre o valor correto e a estimativa da
variável resposta.

Letra e.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 19 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

2.2. Análise de Variância


Voltemos ao caso da dispersão dos salários pela idade. Antes da regressão linear, tínha-
mos uma lista de salários de diversas pessoas e poderíamos calcular a sua média e o seu
desvio-padrão.

Podemos observar dois tipos de desvios a serem calculados:


• Soma dos Quadrados Totais SQTot (antes): corresponde aos desvios em relação à mé-
dia da variável Y, ou seja, antes de se fazer qualquer estimativa de regressão linear.

Perceba que esse fator é diretamente relacionado ao desvio-padrão (ou à variância SYY)
da variável resposta.

Utilizamos (N-1) no denominador, pois consideramos a variância amostral, que será o


caso da maior parte das questões envolvendo regressão linear.

• Soma dos Quadrados dos Erros ou Resíduos, SQRes ou SQEr (depois): é a soma dos
quadrados dos erros ou resíduos de estimativa. Corresponde aos desvios em relação
às estimativas lineares, ou seja, depois da regressão linear.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 20 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

É natural esperar que a soma dos erros depois da regressão linear seja menor que a soma
dos erros antes da regressão linear. Afinal, é para isso que serve essa técnica: melhorar a es-
timativa da variável Y.
Assim, define-se:
• Soma dos Quadrados da Regressão SQReg: é a melhoria ou redução dos erros. Tem-se:

Pode-se provar que a soma dos quadrados da regressão se relaciona com a variância
entre as variáveis.

A soma dos quadrados da regressão também pode ser relacionada com a variância da
regressora. Para isso, devemos nos lembrar de que:

Substituindo na expressão acima, temos:

Temos, então, duas expressões muito úteis para o cálculo da soma dos quadrados do
modelo de regressão:

2.2.1. Coeficiente de Determinação ou Explicação

Esse é disparadamente o assunto mais cobrado em questões de prova.


O coeficiente de determinação (R²) é dado pela razão de melhoria. Isto é, o quanto o mo-
delo de regressão melhorou os erros da variável resposta sobre o quanto os erros eram antes.

Pode-se demonstrar – e esse é disparado o assunto mais cobrado em questões de prova


– que o coeficiente de determinação é igual ao quadrado da correlação.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 21 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Atenção, assim como a variância, o coeficiente de determinação (R²) tem o seu símbolo
R². Não caia no erro de tirar a raiz, tudo bem? Lembre-se da relação importantíssima:

2.2.2. Variáveis Endógenas e Exógenas

Trata-se de uma definição simples, porém de suma importância. Uma variável explicativa
pode ser classificada como:
• endógena: quando está correlacionada com a perturbação (chamada endogeneidade),
portanto o coeficiente de determinação do modelo de regressão linear é significativo;
• exógena: quando está descorrelacionada com a perturbação (chamada exogeneidade),
portanto o coeficiente de determinação do modelo de regressão linear é muito pequeno,
próximo a zero.

Vale observar que, como a correlação não implica causalidade, é bastante possível que
a correlação observada seja fruto de erros de medição ou, até mesmo, da aleatoriedade. A
endogeneidade não é uma prova definitiva de que há alguma relação entre as duas variáveis.
Os modelos estatísticos servem apenas como um indicativo inicial de pesquisa.

011. (CESPE/AGENTE DE POLÍCIA/PC-DF/2021) Determinado pesquisador reuniu dados de vá-


rios municípios brasileiros e estimou um modelo de regressão linear múltipla por mínimos qua-
drados ordinários. A variável dependente foi a taxa de homicídios, e as variáveis independentes
incluíam variáveis, como, por exemplo, PIB per capita, média de anos de estudo, índice de Gini e
outras variáveis socioeconômicas. Após a estimação, o pesquisador calculou a correlação en-
tre os resíduos e as variáveis independentes e notou que essas correlações foram iguais a zero.
Com referência a essa situação hipotética, julgue o próximo item.
A ausência de correlação entre as variáveis independentes e os resíduos da regressão mostra
que as variáveis independentes são exógenas.

Na análise de regressão, uma variável explicativa exógena é aquela que não está correlacio-
nada com a perturbação da variável dependente. Portanto, para avaliar se a variável é real-

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 22 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

mente exógena, o pesquisador deveria analisar a correlação entre a variável dependente e a


explicativa.
Porém, nesse caso, ele avaliou a correlação entre a variável independente e o resíduo. E, note
que, na realidade, essa é uma das exigências do método dos mínimos quadrados. Estudamos
as características adequadas para o resíduo de regressão, que deve apresentar média nula e
ser estatisticamente independente da variável explicativa.
Portanto, o fato de a correlação entre os resíduos obtidos e as variáveis independentes ter
sido nula é apenas uma característica esperada da estimativa por mínimos quadrados e é
prova apenas de que o modelo de regressão linear foi calculado adequadamente usando
esse método.
Errado.

2.2.3. Variância do Erro

A estimativa de variância do erro é dada por:

Na equação acima, p é o número de variáveis envolvidas na regressão linear – tanto as


dependentes como as independentes. Se estivermos falando de uma regressão linear comum,
no caso, os salários (Y) pela idade (X) de um grupo de entrevistados, temos duas variáveis.
Esse é o caso geral cobrado em questões de prova.
No entanto, é útil saber que a mesma expressão poderia ser cobrada para uma regres-
são múltipla em que se tem várias variáveis regressoras. Por exemplo, poderíamos avaliar o
comportamento dos salários em função da idade e da carga horária semanal de um grupo de
pessoas. Nesse caso, teríamos p = 3, pois são três variáveis envolvidas.
O grande objetivo de um modelo de regressão linear é que essa estimativa do erro seja
menor que a variância amostral obtida para a variável isoladamente.

A razão para isso é que o erro ou desvio do modelo de regressão linear diz respeito ao
quanto o valor real da variável se afasta em relação à estimativa de regressão linear. Por outro
lado, a variância de Y se relaciona ao quanto o valor real da variável se afasta em relação à
média da variável Y.
Se, por acaso, a estimativa do erro do modelo de regressão linear for superior ao próprio
desvio-padrão da variável Y, o nosso modelo está, na verdade, atrapalhando, pois resulta em
desvios maiores do que simplesmente considerar a média de Y.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 23 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Seria, portanto, melhor tomar a média da variável Y como sua estimativa em vez de tomar
o nosso modelo de regressão linear.

012. (CESPE/AUDITOR DE CONTROLE EXTERNO/TCE-PA/2016) Uma regressão linear simples


é expressa por Y = a + b × X + e, em que o termo e corresponde ao erro aleatório da regressão
e os parâmetros a e b são desconhecidos e devem ser estimados a partir de uma amostra
disponível. Assumindo que a variável X é não correlacionada com o erro e, julgue o item sub-
secutivo, no qual os resíduos das amostras consideradas são IID, com distribuição normal,
média zero e variância constante.
Se, em uma amostra de tamanho n = 25, o coeficiente de correlação entre as variáveis X e Y
for igual a 0,8, o coeficiente de determinação da regressão estimada via mínimos quadrados
ordinários, com base nessa amostra, terá valor R2 = 0,64.

Questão bastante direta. Basta nos lembrarmos de que o coeficiente de determinação é igual
ao quadrado da correlação.

Certo.

013. (CONSULPLAN/ANALISTA JUDICIÁRIO/TSE/2012) Na análise de regressão múltipla, fo-


ram encontrados:
Soma dos Quadrados da Regressão: 40.000;
Soma dos Quadrados dos Erros: 10.000;
Assim, o coeficiente de determinação Múltipla dessa regressão é:
a) 0,25
b) 0,80
c) 0,75
d) 0,90

O coeficiente de determinação é dado por:

Já foi dado o SQReg. Podemos, agora, calcular o SQTot nos lembrando de que:

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 24 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Sendo assim, temos o coeficiente de determinação:

Letra b.

014. (FGV/FISCAL DA RECEITA ESTADUAL/SEAD-AP/2010) Se no ajuste de uma reta de re-


gressão linear simples de uma variável Y em uma variável X o coeficiente de determinação
observado foi igual a 0,64, então o módulo do coeficiente de correlação amostral entre X e Y
é igual a:
a) 0,24
b) 0,36
c) 0,50
d) 0,64
e) 0,80

Questão clássica. O coeficiente de determinação é igual ao quadrado da correlação.

Letra e.

015. (FGV/ANALISTA DE CONTROLE INTERNO/ISS-RECIFE/2014) Numa regressão linear


simples, obteve-se um coeficiente de correlação igual a 0,78. O coeficiente de determinação
é aproximadamente igual a:
a) 0,36
b) 0,48
c) 0,50
d) 0,61
e) 0,69

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 25 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Outra questão clássica. O coeficiente de determinação é igual ao quadrado da correlação.

Letra d.

016. (FEPESE/ANALISTA FINANCEIRO/SEFAZ-SC/2010) Considere que um modelo de regres-


são qualquer gerou resíduos padronizados que estão representados no diagrama de disper-
são a seguir, em função dos valores da variável independente:

Sobre o modelo de regressão que gerou os resíduos padronizados mostrados no diagrama


acima, pode-se afirmar que:
a) É adequado para representar o relacionamento entre as variáveis, pois seus resíduos pa-
dronizados apresentam heterocedasticidade.
b) É adequado para representar o relacionamento entre as variáveis, pois seus resíduos pa-
dronizados apresentam homocedasticidade.
c) É inadequado para representar o relacionamento entre as variáveis, pois seus resíduos pa-
dronizados apresentam homocedasticidade.
d) É adequado para representar o relacionamento entre as variáveis, pois seus resíduos pa-
dronizados apresentam padrão não aleatório.
e) É inadequado para representar o relacionamento entre as variáveis, pois seus resíduos pa-
dronizados apresentam heterocedasticidade.

A variância do erro depende do valor de X, sendo assim, o modelo de regressão utilizado apre-
senta heterocedasticidade, o que o torna inadequado para representar o relacionamento entre
as variáveis.
Letra e.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 26 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

017. (FGV/AGENTE FISCAL DE RENDAS/SEFAZ-RJ/2008) O coeficiente de determinação de


um modelo de regressão linear serve como uma importante ferramenta para avaliar o grau
de ajustamento do modelo aos dados. A respeito desse coeficiente, assinale a afirmativa
incorreta.
a) Seu valor varia entre 0 e 1.
b) É invariante a uma mudança de escala das variáveis independentes.
c) É utilizado para escolher modelos com número de variáveis independentes diferentes.
d) É uma função não decrescente no número de variáveis independentes no modelo.
e) Representa a participação relativa da soma dos quadrados da regressão sobre a soma dos
quadrados total.

a) Certa. Como o coeficiente de determinação é igual ao quadrado da correlação, que está


entre -1 e 1, então, o coeficiente de determinação realmente ficará entre 0 e 1. Portanto, o item
“a” está certo.
b) Certa. De fato, também a mudança de escala não altera o coeficiente de determinação. O
item “b” está certo.
c) Errada. O item “c” é, no mínimo, estranho. Não faz muito sentido, de fato, escolher entre
modelos diferentes com variáveis independentes diferentes.
d) Certa. No que se refere ao item “d”, de fato, quanto maior o número de variáveis, melhor se
ajustará o modelo de regressão linear às variáveis estudadas.
e) Certa. Por fim, a definição do coeficiente de determinação é exatamente a que consta na
letra “e”, que representa a razão entre a soma dos quadrados da regressão (SQReg) sobre a
soma dos quadrados totais (SQTot).
Letra c.

2.2.4. Graus de Liberdade

Já estudamos anteriormente os conceitos das somas dos quadrados totais, da regressão


e dos erros. Considerando que os erros sigam distribuição normal e sejam estatisticamente
independentes da variável explicativa, teremos que todas essas somas de quadrados seguem
distribuições qui-quadradas.
Cada distribuição qui-quadrada é caracterizada pelo seu número de graus de liberdade
que podem ser determinados se conhecermos duas importantes características:
• N: o tamanho das amostras das variáveis explicativas e resposta;
• p: o número de variáveis totais envolvidas (explicativas e resposta).

Assim, os graus de liberdade importantes de conhecermos são:

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 27 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

• total: N – 1;
• modelo: p – 1;
• erro: N – p.

É importante observar que o número de graus de liberdade do erro corresponde à diferen-


ça entre os graus de liberdade totais e o do modelo.
Assim, podemos escrever:

Considero que é importante apenas saber que todas elas seguem distribuição qui-quadrado
e seus respectivos graus de liberdade. Apenas isso. Não creio que será necessário trabalhar com
as tabelas da distribuição qui-quadrado para as variáveis aleatórias SqTot, SqReg e SqEr.
Esses graus de liberdade são importantes também, porque eles aparecem no denominado
do cálculo das variâncias. Lembre-se:

Vejamos, como exemplo, essa tabela de graus de liberdade extraída da prova da Polícia
Federal, aplicada pelo CESPE em 2018.

Somente com base nessa tabela, podemos determinar que:

Assim, podemos concluir que esse modelo foi construído com base:
• em duas variáveis aleatórias, sendo uma variável aleatória explicativa e uma variável
regressora. Portanto, é um modelo do tipo:

• em uma amostra de 901 elementos das variáveis X e Y.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 28 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Vamos, então, treinar com questões?

018. (CESPE/CEBRASPE/ESTATÍSTICO/FUB/2015) Após a implementação de reserva de va-


gas para os cotistas nas universidades brasileiras, um estudo foi realizado com uma amostra
de 500 estudantes de determinado curso, para ser avaliada a possível existência de uma re-
lação entre o desempenho — Y —, medido pela média final na disciplina e a forma de ingresso
na universidade — X. A tabela a seguir apresenta a análise de variância do modelo Y = α +βX
+ ε, em que Y varia de 0 a 10, X = 0 para cotas e X = 1 para ampla concorrência, α e β são os
parâmetros do modelo e ε é o erro aleatório.

Com base nas informações e na tabela apresentadas, sabendo-se que


e Var(X) = 0,2487 e considerando que 3,84 seja o
valor aproximado de .
Julgue o item a seguir.
O modelo apresentado possui 2 graus de liberdade.

Quanto aos graus de liberdade, sabe-se que:

Trocando os dados do enunciado, temos:

Dessa forma, o modelo apresentado possui apenas 1 grau de liberdade.


Errado.
(FUNDATEC/ESTATÍSTICO/PREFEITURA DE PORTO ALEGRE-RS/2021) Complete a tabela de
graus de liberdade para a realização do teste de ANOVA, a tabela deve ser preenchida de

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 29 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

acordo os dados da tabela de dados abaixo, para comparar o desempenho de médias entre
variáveis X1, X2 e X3:

Tabela de graus de liberdade da ANOVA:

Os graus de liberdade, respectivamente para o fator (I), para o erro (II) e para o total (III) são:
a) 2, 18 e 20.
b) 3, 18 e 21.
c) 2, 20 e 22.
d) 3, 20 e 23.
e) 2, 19 e 21.

Observe que foram colocados um total de 21 dados (N = 21) na tabela e que foram registrados
3 parâmetros (p = 3). Assim, podemos obter:
• Total: N – 1 = 21 – 1 = 20;
• Fator: p – 1 = 3 – 1 = 2;
• Erro: N – p = 21 – 3 = 18.
Letra a.

2.3. Análise dos Coeficientes


2.3.1 Razão t

O objetivo da razão t é determinar se a influência da variável explicativa é realmente sig-


nificativa ou se ela pode ser materialmente nula.
Uma visão muito importante sobre os modelos de regressão linear é que os próprios pa-
râmetros do modelo são aleatórios, porque as variáveis X e Y são aleatórias e o modelo de
regressão linear é obtido a partir de amostras dessas variáveis.
O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 30 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Assim, podemos obter o erro padrão. A razão t é a razão entre o valor estimado para o
coeficiente e o seu erro padrão. Dessa maneira, temos:

A razão t expressa quantos desvios-padrão está o coeficiente afastado de zero. Isso é


muito importante, pois, se o coeficiente não está significativamente afastado da origem, o
próprio modelo de regressão linear é pouco significativo. Nesse caso, a variável explicativa X
é dita exógena.
Outra forma de estudar se o modelo de regressão linear é realmente significativo em rela-
ção à variável é o valor-p associado aos coeficientes.
Nesse caso, utilizam-se as mesmas ferramentas que já havíamos estudado em Testes de
Hipóteses. Suponhamos que, em um modelo de regressão linear, a estimativa do coeficiente
b > 0 e que seu p-valor seja igual a 10. O que isso significa?
Pelas ferramentas de Testes de Hipóteses, isso significa que há uma probabilidade de 10%
de que esse coeficiente tenha valor real negativo. Com isso, há uma probabilidade de 10% de
que a influência da variável explicativa X sobre a variável resposta Y seja materialmente nula.
Vamos ver um exemplo prático dessa análise.

019. (CESPE/ESCRIVÃO/POLÍCIA FEDERAL/2021) Um estudo objetivou avaliar a evolução do


número mensal Y de milhares de ocorrências de certo tipo de crime em determinado ano. Com
base no método dos mínimos quadrados ordinários, esse estudo apresentou um modelo de
regressão linear simples da forma Ŷ = 5 – 0,1 x T,
em que Ŷ representa a reta ajustada em função da variável regressora T, tal que 1 ≤ T ≤ 12.
Os erros padrão das estimativas dos coeficientes desse modelo, as razões t e seus respecti-
vos p-valores encontram-se na tabela a seguir.

Os desvios padrão amostrais das variáveis Y e T foram, respectivamente, 1 e 3,6.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 31 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Com base nessas informações, julgue o item a seguir.


Considere que a denote o coeficiente angular do modelo de regressão linear simples e consi-
dere, ainda, que o teste de hipóteses H0 : a = 0 versus H1 : a ≠ 0. Nessa situação, com referência
a esse teste, caso o nível de significância escolhido seja igual a 5%, os resultados do estudo
em questão indicarão que não há evidências estatísticas contra a hipótese nula H0 : a = 0.

Foi fornecido o erro padrão para o modelo de coeficiente angular igual a 0,064. Esse erro já é
muito próximo da própria estimativa do coeficiente. Podemos calcular a estatística normali-
zada para ele:

O enunciado forneceu ainda o p-valor:

Esse p-valor é maior que 5%. Isso significa que, ao nível de 5% de significância, não temos
como garantir que realmente o coeficiente de inclinação seja maior que zero. Portanto, não
temos provas estatísticas suficientes contra essa hipótese nula.
Em outras palavras, isso significa que o modelo de regressão linear deduzido não garante que
o seu próprio coeficiente de inclinação seja significativo. Logo, a influência do parâmetro T
sobre Y é muito pequena, materialmente nula.
Podemos, então, dizer que a variável T é, na realidade, uma variável exógena, tendo em vista
que sua influência sobre o parâmetro Y é pouco significativa.
Certo.

2.3.2. Estatística F

O teste F tem por objetivo testar a significância global do modelo. Para isso, considere um
modelo geral de regressão linear com p parâmetros e p – 1 variáveis independentes:

Um modelo é significativo quando tivermos provas estatísticas de que os coeficientes


são significativamente diferentes de zero. Para examinar isso, podemos montar um teste de
hipóteses com as seguintes hipóteses nula e alternativa:
• H0: β1 = β2 = … = βp–1 = 0
• H1: pelo menos um dos βi é diferente de zero

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 32 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Para determinar se o modelo é significativo, devemos recorrer ao teste F. Vamos nos re-
cordar da definição da distribuição F de Snedecor.

Se V1 e V2 são duas variáveis aleatórias independentes que seguem distribuições qui-quadra-


das com graus de liberdade respectivamente iguais a m1 e m2 com média nula. Isto é:

Então, a variável F definida como:

Segue distribuição qui-quadrado.

A distribuição qui-quadrado é obtida pela soma dos quadrados de uma distribuição nor-
mal. Considerando que os erros de um modelo de regressão linear seguem distribuição nor-
mal e são estatisticamente da variável resposta, então podemos criar a seguinte estatística
de teste F:

Como vimos, tanto o SQReg como SQEr seguem distribuições qui-quadradas. Além disso,
o modelo de regressão (SQReg) tem p – 1 graus de liberdade e os erros (SQEr) possuem N – p
graus de liberdade. Assim, temos:

O objetivo da estatística F é que ela testa a aderência do modelo como um todo e não so-
mente de cada coeficiente isoladamente.
O valor calculado deve, então, ser comparado com a estatística crítica que é fornecida nas
tabelas da distribuição F com os números de graus de liberdade apropriados, ou, ainda, com
o auxílio de softwares de estatística, como o R ou até mesmo Excel com a função =INV.F. Se a
estatística F for superior ao valor crítico, então, o modelo será significativo.
Eu sei que você pode ter achado complicada a teoria. Mas, em termos práticos, em ques-
tões de prova tudo o que você precisa fazer é:

• calcule a estatística F pela expressão:

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 33 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

• compare com a estatística crítica que, na hora da prova, pode ser fornecida por meio de uma
tabela;
• se for maior, conclua que o modelo é significativo. Caso contrário, conclua que o modelo não
é significativo.

Vejamos, como exemplo, essa tabela de graus de liberdade extraída da prova da Polícia
Federal, aplicada pelo CESPE em 2018. Queremos

Podemos calcular a estatística F referente ao modelo de regressão linear como:

Com o auxílio do Excel, podemos calcular a estatística limite usando o comando =IN-
V.F(0,95; 1; 899) – usamos 0,95, porque o Excel calcula a distribuição acumulada. E, assim,
obtemos a estatística crítica:

Como F = 1153,8 > Fcrítico, podemos concluir que o modelo de regressão linear em estudo é
significativo.
Vejamos agora uma questão de prova sobre essa estatística.

020. (VUNESP/ANALISTA ADMINISTRATIVO – ESTATÍSTICO/EBSERH/2020) Numa regressão


linear simples em que foi utilizada uma amostra com 52 observações, a soma dos quadrados
totais é de 50 e a soma dos quadrados dos resíduos é de 20. O coeficiente de determinação e
a estatística F dessa regressão são, respectivamente:
a) 0,6 e 75.
b) 0,6 e 12.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 34 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

c) 0,8 e 1,5.
d) 0,8 e 12.
e) 0,8 e 75.

O coeficiente de determinação pode ser obtido como a relação entre a soma dos quadrados
da regressão (SQR) e a soma dos quadrados totais (SQT). Assim, temos:

A soma dos quadrados da regressão (SQR) não foi fornecida. Porém, ela pode ser obtida
como a diferença entre a soma dos quadrados totais (SQT) e a soma dos quadrados dos re-
síduos ou erros (SQE):

A estatística F, por sua vez, pode ser obtida como:

Letra a.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 35 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

RESUMO

Coeficientes:

Análise dos Resíduos

Soma dos Quadrados da Regressão

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 36 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Graus de Liberdade

• total: N – 1;
• modelo: p – 1;
• erro: N – p.

Coeficiente de Determinação

Variância do Erro

Estatística F

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 37 de 128
MAPA MENTAL

www.grancursosonline.com.br 38 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

QUESTÕES COMENTADAS EM AULA


001. (CESPE/AUDITOR DE CONTROLE EXTERNO/TCE-PA/2016) Uma regressão linear simples
é expressa por Y = a + b × X + e, em que o termo e corresponde ao erro aleatório da regressão
e os parâmetros a e b são desconhecidos e devem ser estimados a partir de uma amostra
disponível. Assumindo que a variável X é não correlacionada com o erro e, julgue o item sub-
secutivo, no qual os resíduos das amostras consideradas são IID, com distribuição normal,
média zero e variância constante.
Para uma amostra de tamanho n = 25, em que a covariância amostral para o par de variáveis
X e Y seja Cov(X, Y) = 20,0, a variância amostral para a variável Y seja Var(Y) = 4,0 e a variância
amostral para a variável X seja Var(X) = 5,0, a estimativa via estimador de mínimos quadrados
ordinários para o coeficiente b é igual a 5,0.

002. (CESPE/AUDITOR DE CONTROLE EXTERNO/TCE-PA/2016) Uma regressão linear simples


é expressa por Y = a + b × X + e, em que o termo e corresponde ao erro aleatório da regressão
e os parâmetros a e b são desconhecidos e devem ser estimados a partir de uma amostra
disponível. Assumindo que a variável X é não correlacionada com o erro e, julgue o item sub-
secutivo, no qual os resíduos das amostras consideradas são IID, com distribuição normal,
média zero e variância constante.
A variável Y é denominada variável explicativa, e a variável X é denominada variável dependente.

003. (CESPE/AUDITOR DE CONTROLE EXTERNO/TCE-PA/2016) Uma regressão linear simples


é expressa por Y = a + b × X + e, em que o termo e corresponde ao erro aleatório da regressão
e os parâmetros a e b são desconhecidos e devem ser estimados a partir de uma amostra
disponível. Assumindo que a variável X é não correlacionada com o erro e, julgue o item sub-
secutivo, no qual os resíduos das amostras consideradas são IID, com distribuição normal,
média zero e variância constante.
Considere que as estimativas via método de mínimos quadrados ordinários para o parâmetro
a seja igual a 2,5 e, para o parâmetro b, seja igual a 3,5. Nessa situação, assumindo que X = 4,0,
o valor predito para Y será igual a 16,5, se for utilizada a reta de regressão estimada.

004. ((ESAF/ANALISTA TÉCNICO/SUSEP/2010) A partir de uma amostra aleatória ,


,..., foram obtidas as estatísticas:
• Médias:
• Variâncias Amostrais: SX² = 30 e SY² = 54;
• Covariância: SXY = 36.

Qual é a reta de regressão estimada de Y em X?

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 39 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

a)
b)
c)
d)
e)

005. (FGV/TÉCNICO SUPERIOR ESPECIALIZADO-ESTATÍSTICO/DPE-RJ/2014) Considere a


equação de regressão Yi = α + β. Xi + εi onde Y e X são as variáveis explicada e explicativa,
respectivamente, ε é o erro aleatório e α e β os parâmetros a estimar. São supostos válidos
todos os pressupostos clássicos do Modelo de Regressão Linear Simples (MRLS). Além dis-
so, para determinada amostra de pares (X,Y), foram calculadas as estatísticas p ( X, Y ) = 0,8,
= 6, = 15, DP (Y ) = 5 e DP ( X ) = 2. Portanto, a partir do método de Mínimos Quadrados
Ordinários os estimadores de α e β são
a) 2 e 3
b) 3 e 2
c) -9 e 4
d) 4 e -9
e) 6 e 1,5

006. (CESPE/ANALISTA DE CONTROLE EXTERNO/TCU/2008) Uma agência de desenvolvi-


mento urbano divulgou os dados apresentados na tabela a seguir, acerca dos números de
imóveis ofertados (X) e vendidos (Y) em determinado município, nos anos de 2005 a 2007.

Número de imóveis
ano
ofertados (X) vendidos (y)
2005 1.500 100
2006 1.750 400
2007 2.000 700

A estimativa do valor do coeficiente a da reta de regressão Y = aX, em que Y representa o nú-


mero esperado de imóveis vendidos para uma quantidade X de imóveis ofertados, é superior
a 0,23 e inferior a 0,26.

007. (CESPE/INSPETOR/TCE-RN/2015)Para k = 1,..., 5, um modelo de regressão linear é dado


por em que representam, respectivamente, os valores da variá-
vel resposta e da variável regressora do k-ésimo elemento da amostra, e representa o erro
aleatório. Os erros aleatórios ε1,..., ε5 são independentes e identicamente distribuídos.
Cada erro segue uma distribuição normal com média zero e variância V. Sabendo que:

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 40 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Julgue o item seguinte.


A estimativa de mínimos quadrados ordinários do coeficiente a é igual ou superior a 1.

008. (CESPE/INSPETOR/TCE-RN/2015) Para k = 1,..., 5, um modelo de regressão linear é dado


por em que representam, respectivamente, os valores da variá-
vel resposta e da variável regressora do k-ésimo elemento da amostra, e representa o erro
aleatório. Os erros aleatórios ε1,..., ε5 são independentes e identicamente distribuídos.
Cada erro segue uma distribuição normal com média zero e variância V. Sabendo que:

Julgue o item seguinte.


A variável aleatória yk, para k = 1,..., 5, segue uma distribuição normal com variância V.

009. (CESPE/INSPETOR/TCE-RN/2015) Para k = 1,..., 5, um modelo de regressão linear é dado


por em que representam, respectivamente, os valores da variá-
vel resposta e da variável regressora do k-ésimo elemento da amostra, e representa o erro
aleatório. Os erros aleatórios ε1,..., ε5 são independentes e identicamente distribuídos.
Cada erro segue uma distribuição normal com média zero e variância V. Sabendo que:

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 41 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Julgue o item seguinte.


A estimativa da variância V é igual ou inferior a 1,5.

010. (CESPE/AUDITOR FEDERAL DE CONTROLE EXTERNO/TCU/2015) Com o objetivo de mo-


delar a arrecadação anual do ICMS em municípios brasileiros (y), o modelo de regressão linear
múltipla foi representado, na forma matricial, como y = Xβ + ε, em que y representa o vetor de
respostas, X denota a matriz de delineamento, β é o vetor de parâmetros e ε é o vetor de erros
aleatórios independentes e identicamente distribuídos. Considerando-se que X’ representa
a transposta da matriz de delineamento, apresenta-se a seguir a matriz inversa do produto
matricial X’X produzida no modelo.

Com base nessas informações e sabendo que , julgue o próximo item.

A estimativado vetor de parâmetros produzida pelo método de mínimos quadrados or-


dinários é:

011. (FUNDATEC/ESTATÍSTICO/PREFEITURA DE PORTO ALEGRE-RS/2021) Em um gráfico de


resíduos em uma análise de regressão, são exibidos:
a) Resíduos da variável explicativa versus resíduos da variável de resposta.
b) Resíduos da variável explicativa versus a variável de resposta.
c) A variável explicativa versus a variável de resposta.
d) A variável explicativa sobre o eixo x, contra a variável resposta sobre o eixo y
e) A variável explicativa versus resíduos da variável resposta.

012. (CESPE/AGENTE DE POLÍCIA/PC-DF/2021) Determinado pesquisador reuniu dados de


vários municípios brasileiros e estimou um modelo de regressão linear múltipla por mínimos
quadrados ordinários. A variável dependente foi a taxa de homicídios, e as variáveis indepen-
dentes incluíam variáveis, como, por exemplo, PIB per capita, média de anos de estudo, índice
de Gini e outras variáveis socioeconômicas. Após a estimação, o pesquisador calculou a cor-
relação entre os resíduos e as variáveis independentes e notou que essas correlações foram
iguais a zero.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 42 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Com referência a essa situação hipotética, julgue o próximo item.


A ausência de correlação entre as variáveis independentes e os resíduos da regressão mostra
que as variáveis independentes são exógenas.

013. (CESPE/AUDITOR DE CONTROLE EXTERNO/TCE-PA/2016) Uma regressão linear simples


é expressa por Y = a + b × X + e, em que o termo e corresponde ao erro aleatório da regressão
e os parâmetros a e b são desconhecidos e devem ser estimados a partir de uma amostra
disponível. Assumindo que a variável X é não correlacionada com o erro e, julgue o item sub-
secutivo, no qual os resíduos das amostras consideradas são IID, com distribuição normal,
média zero e variância constante.
Se, em uma amostra de tamanho n = 25, o coeficiente de correlação entre as variáveis X e Y
for igual a 0,8, o coeficiente de determinação da regressão estimada via mínimos quadrados
ordinários, com base nessa amostra, terá valor R2 = 0,64.

014. (CONSULPLAN/ANALISTA JUDICIÁRIO/TSE/2012) Na análise de regressão múltipla, fo-


ram encontrados:
Soma dos Quadrados da Regressão: 40.000;
Soma dos Quadrados dos Erros: 10.000;
Assim, o coeficiente de determinação Múltipla dessa regressão é:
a) 0,25
b) 0,80
c) 0,75
d) 0,90

015. (FGV/FISCAL DA RECEITA ESTADUAL/SEAD-AP/2010) Se no ajuste de uma reta de re-


gressão linear simples de uma variável Y em uma variável X o coeficiente de determinação
observado foi igual a 0,64, então o módulo do coeficiente de correlação amostral entre X e Y
é igual a:
a) 0,24
b) 0,36
c) 0,50
d) 0,64
e) 0,80

016. (FGV/ANALISTA DE CONTROLE INTERNO/ISS-RECIFE/2014) Numa regressão linear


simples, obteve-se um coeficiente de correlação igual a 0,78. O coeficiente de determinação
é aproximadamente igual a:
a) 0,36
b) 0,48

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 43 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

c) 0,50
d) 0,61
e) 0,69

017. (FEPESE/ANALISTA FINANCEIRO/SEFAZ-SC/2010) Considere que um modelo de regres-


são qualquer gerou resíduos padronizados que estão representados no diagrama de disper-
são a seguir, em função dos valores da variável independente:

Sobre o modelo de regressão que gerou os resíduos padronizados mostrados no diagrama


acima, pode-se afirmar que:
a) É adequado para representar o relacionamento entre as variáveis, pois seus resíduos pa-
dronizados apresentam heterocedasticidade.
b) É adequado para representar o relacionamento entre as variáveis, pois seus resíduos pa-
dronizados apresentam homocedasticidade.
c) É inadequado para representar o relacionamento entre as variáveis, pois seus resíduos pa-
dronizados apresentam homocedasticidade.
d) É adequado para representar o relacionamento entre as variáveis, pois seus resíduos pa-
dronizados apresentam padrão não aleatório.
e) É inadequado para representar o relacionamento entre as variáveis, pois seus resíduos pa-
dronizados apresentam heterocedasticidade.

018. (FGV/AGENTE FISCAL DE RENDAS/SEFAZ-RJ/2008) O coeficiente de determinação de


um modelo de regressão linear serve como uma importante ferramenta para avaliar o grau
de ajustamento do modelo aos dados. A respeito desse coeficiente, assinale a afirmativa
incorreta.
a) Seu valor varia entre 0 e 1.
b) É invariante a uma mudança de escala das variáveis independentes.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 44 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

c) É utilizado para escolher modelos com número de variáveis independentes diferentes.


d) É uma função não decrescente no número de variáveis independentes no modelo.
e) Representa a participação relativa da soma dos quadrados da regressão sobre a soma dos
quadrados total.

019. (CESPE/CEBRASPE/ESTATÍSTICO/FUB/2015)Após a implementação de reserva de va-


gas para os cotistas nas universidades brasileiras, um estudo foi realizado com uma amostra
de 500 estudantes de determinado curso, para ser avaliada a possível existência de uma re-
lação entre o desempenho — Y —, medido pela média final na disciplina e a forma de ingresso
na universidade — X. A tabela a seguir apresenta a análise de variância do modelo Y = α +βX
+ ε, em que Y varia de 0 a 10, X = 0 para cotas e X = 1 para ampla concorrência, α e β são os
parâmetros do modelo e ε é o erro aleatório.

Com base nas informações e na tabela apresentadas, sabendo-se que


e Var(X) = 0,2487 e considerando que 3,84 seja o
valor aproximado de .
Julgue o item a seguir.
O modelo apresentado possui 2 graus de liberdade.

020. (FUNDATEC/ESTATÍSTICO/PREFEITURA DE PORTO ALEGRE-RS/2021) Complete a tabe-


la de graus de liberdade para a realização do teste de ANOVA, a tabela deve ser preenchida de
acordo os dados da tabela de dados abaixo, para comparar o desempenho de médias entre
variáveis X1, X2 e X3:

Tabela de graus de liberdade da ANOVA:

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 45 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Os graus de liberdade, respectivamente para o fator (I), para o erro (II) e para o total (III) são:
a) 2, 18 e 20.
b) 3, 18 e 21.
c) 2, 20 e 22.
d) 3, 20 e 23.
e) 2, 19 e 21.

021. (CESPE/ESCRIVÃO/POLÍCIA FEDERAL/2021) Um estudo objetivou avaliar a evolução do


número mensal Y de milhares de ocorrências de certo tipo de crime em determinado ano. Com
base no método dos mínimos quadrados ordinários, esse estudo apresentou um modelo de
regressão linear simples da forma Ŷ = 5 – 0,1 x T,
em que Ŷ representa a reta ajustada em função da variável regressora T, tal que 1 ≤ T ≤ 12.
Os erros padrão das estimativas dos coeficientes desse modelo, as razões t e seus respecti-
vos p-valores encontram-se na tabela a seguir.

Os desvios padrão amostrais das variáveis Y e T foram, respectivamente, 1 e 3,6.


Com base nessas informações, julgue o item a seguir.
Considere que a denote o coeficiente angular do modelo de regressão linear simples e consi-
dere, ainda, que o teste de hipóteses H0 : a = 0 versus H1 : a ≠ 0. Nessa situação, com referência
a esse teste, caso o nível de significância escolhido seja igual a 5%, os resultados do estudo
em questão indicarão que não há evidências estatísticas contra a hipótese nula H0 : a = 0.

022. (VUNESP/ANALISTA ADMINISTRATIVO – ESTATÍSTICO/EBSERH/2020) Numa regressão


linear simples em que foi utilizada uma amostra com 52 observações, a soma dos quadrados
totais é de 50 e a soma dos quadrados dos resíduos é de 20. O coeficiente de determinação e
a estatística F dessa regressão são, respectivamente:
a) 0,6 e 75.
b) 0,6 e 12.
c) 0,8 e 1,5.
d) 0,8 e 12.
e) 0,8 e 75.
O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 46 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

EXERCÍCIOS
023. (IBFC/IBGE/SUPERVISOR DE PESQUISAS/2021) Num modelo de regressão linear pelo
método dos mínimos quadrados, sabe-se que a inclinação da reta é a = 3,24 e o intercepto da
reta é b = 12,6, então o valor de para x = 30 é:
a) 126,8
b) 136,8
c) 116,2
d) 108,2
e) 109,8

024. (VUNESP/EBSERH/ANALISTA ADMINISTRATIVO – ESTATÍSTICO/2020) A variável x tem


média 4 e desvio padrão 2, enquanto a variável y tem média 3 e desvio padrão 1. A covariância
entre x e y é –1.
A equação estimada da regressão linear simples de y por x é:
a) y = 2 – 0,25x.
b) y = 3 – 0,5x.
c) y = 3 – x.
d) y = 4 – x.
e) y = 4 – 0,25x.

025. (FUNDATEC/PREFEITURA DE PORTO ALEGRE-RS/ESTATÍSTICO/2021) Em uma análise


de regressão, se o coeficiente de determinação r² = 1, então:
(Considere SQT = Soma de quadrados total; SQE = Soma de quadrados do erro; SQR = Soma
de quadrados da regressão.)
a) SQE = SQT.
b) SQE = 1.
c) SQR = SQE.
d) SQR = SQT.
e) SQR > SQT.

026. (IBFC/EBSERH/ANALISTA ADMINISTRATIVO–ESTATÍSTICA/2020) Um modelo de re-


gressão linear simples foi gerado para explicar vendas (Y, em milhares de reais) a partir de
propaganda (X, em centenas de reais). Algumas informações do modelo são apresentadas:
Equação de regressão estimada: Y=12 + 1,8X
Tamanho da amostra: 17 observações.
Soma de quadrados da regressão: 225,00.
Soma de quadrados dos resíduos: 75,00.
Sb1= 0,27.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 47 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Considere as seguintes afirmações:


I – De acordo com a equação de regressão estimada, um gasto de R$ 1.000,00 em propagan-
da resulta em vendas estimadas de R$ 40.000,00.
II – O coeficiente de determinação do modelo (R²) é de 75%.
III – A cada incremento unitário em X, espera-se que Y aumente 1,8.
Estão corretas as afirmativas:
a) I apenas
b) I e II, apenas
c) I e III, apenas
d) II e III, apenas

027. (CESPE/POLÍCIA FEDERAL/PAPILOSCOPISTA/2018) O intervalo de tempo entre a morte


de uma vítima até que ela seja encontrada (y em horas) denomina-se intervalo post mortem.
Um grupo de pesquisadores mostrou que esse tempo se relaciona com a concentração molar
de potássio encontrada na vítima (x, em mmol/dm3). Esses pesquisadores consideraram um
modelo de regressão linear simples na forma y = ax + b + ε, em que a representa o coeficiente
angular, b denomina-se intercepto, e ε denota um erro aleatório que segue distribuição nor-
mal com média zero e desvio padrão igual a 4.
As estimativas dos coeficientes a e b, obtidas pelo método dos mínimos quadrados ordiná-
rios foram, respectivamente, iguais a 2,5 e 10. O tamanho da amostra para a obtenção desses
resultados foi n = 101. A média amostral e o desvio padrão amostral da variável x foram, res-
pectivamente, iguais a 9 mmol/dm3 e 1,6 mmol/dm3 e o desvio padrão da variável y foi igual
a 5 horas.
A respeito dessa situação hipotética, julgue o item a seguir.
O coeficiente de explicação do modelo (R2) foi superior a 0,70.

028. (CESPE/POLÍCIA FEDERAL/PAPILOSCOPISTA/2018) O intervalo de tempo entre a morte


de uma vítima até que ela seja encontrada (y em horas) denomina-se intervalo post mortem.
Um grupo de pesquisadores mostrou que esse tempo se relaciona com a concentração molar
de potássio encontrada na vítima (x, em mmol/dm3). Esses pesquisadores consideraram um
modelo de regressão linear simples na forma y = ax + b + ε, em que a representa o coeficiente
angular, b denomina-se intercepto, e ε denota um erro aleatório que segue distribuição nor-
mal com média zero e desvio padrão igual a 4.
As estimativas dos coeficientes a e b, obtidas pelo método dos mínimos quadrados ordiná-
rios foram, respectivamente, iguais a 2,5 e 10. O tamanho da amostra para a obtenção desses
resultados foi n = 101. A média amostral e o desvio padrão amostral da variável x foram, res-
pectivamente, iguais a 9 mmol/dm3 e 1,6 mmol/dm3 e o desvio padrão da variável y foi igual
a 5 horas.
A respeito dessa situação hipotética, julgue o item a seguir.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 48 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

A média amostral da variável resposta y foi superior a 30 horas.

029. (IBFC/IBGE/SUPERVISOR DE PESQUISAS/2021) Dentre os gráficos abaixo, o que melhor


representa um coeficiente de correlação linear próximo de -0,23 é:

a)

b)

c)

d)

e)

030. (FUNDATEC/PREFEITURA DE PORTO ALEGRE-RS/ESTATÍSTICO/2021) Considerando o


relacionamento entre a variável independente X e a variável dependente Y, mostrado na figura
abaixo, assinale a alternativa correta.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 49 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

a) O relacionamento entre X e Y é positivo, e o coeficiente de correlação é igual a 73,2%.


b) O relacionamento entre X e Y é fraco e não deve ser considerado.
c) Não existe relação linear entre as variáveis analisadas.
d) O relacionamento entre X e Y é negativo, e a variável X explica 73,2% da variação da variável Y.
e) O relacionamento entre X e Y é positivo, e a variável X explica 73,2% da variação da variável Y.

031. (FCC/SEFAZ-BA/AUDITOR-FISCAL/2019) Em uma determinada indústria, foi efetuada


uma pesquisa a respeito da possível relação entre o número de horas trabalhadas (X), com X
≥ 2, e as quantidades produzidas de um produto (Y). Com base em 10 pares de observações
(Xi,Yi) e considerando o gráfico de dispersão correspondente, optou-se por utilizar o modelo
linear Yi = α + βXi + εi, com i representando a i-ésima observação, ou seja, i = 1, 2, 3,... 10. Os
parâmetros α e β são desconhecidos e as suas estimativas (a e b, respectivamente) foram ob-
tidas pelo método dos mínimos quadrados. Observação: εi é o erro aleatório com as respecti-
vas hipóteses do modelo de regressão linear simples. Considere o gráfico, abaixo, construído
utilizando os valores encontrados para as estimativas de α e β.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 50 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

A previsão da quantidade produzida será igual ao dobro da média verificada das 10 observa-
ções Yi quando o número de horas trabalhadas for igual a:
a) 20.
b) 24.
c) 22.
d) 18.
e) 12.

032. (CESPE/CGE–CE/AUDITOR DE CONTROLE INTERNO/2019) Considerando-se que, em


uma regressão múltipla de dados estatísticos, a soma dos quadrados da regressão seja igual
a 60.000 e a soma dos quadrados dos erros seja igual a 15.000, é correto afirmar que o coefi-
ciente de determinação — R² — é igual a:
a) 0,75.
b) 0,25.
c) 0,50.
d) 0,20.
e) 0,80.

033. (CESPE/DEPEN/AGENTE PENITENCIÁRIO FEDERAL/2015) A tabela mostrada apresenta


a quantidade de detentos no sistema penitenciário brasileiro por região em 2013. Nesse ano,
o déficit relativo de vagas — que se define pela razão entre o déficit de vagas no sistema pe-
nitenciário e a quantidade de detentos no sistema penitenciário — registrado em todo o Brasil
foi superior a 38,7%, e, na média nacional, havia 277,5 detentos por 100 mil habitantes.
O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 51 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Com base nessas informações e na tabela apresentada, julgue o item a seguir.


Considerando que a figura a seguir apresente o diagrama de dispersão entre o tamanho po-
pulacional da região (em milhões de habitantes) e a população carcerária correspondente (em
mil pessoas), então é correto afirmar que a população carcerária tende a crescer linearmente
à medida que a população da região aumenta.

034. (FCC/TRT-5ª REGIÃO-BA/ANALISTA JUDICIÁRIO-ESTATÍSTICA/2013) Utilizando o mé-


todo dos mínimos quadrados, obteve-se o ajustamento do modelo linear Zi = α + βXi + γYi
+εi , i = 1, 2, 3,..., em que Z é a variável dependente, X e Y são as variáveis explicativas, i cor-
responde a i-ésima observação, α, β e γ são parâmetros desconhecidos e εi o erro aleatório,
com as respectivas hipóteses consideradas para a regressão linear múltipla. O ajustamento
foi encontrado com base em uma amostra aleatória de 20 ternos (Xi , Yi , Zi ) apurando-se as
estimativas de α, β e γ.
Dados do correspondente quadro de análise de variância:

A estimativa da variância populacional do modelo teórico (σ²), com base nos dados da amos-
tra, é igual a:
a) 15,300.
b) 16,150.
c) 17,100.
d) 18,165.
e) 19,380.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 52 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

035. ((CESPE/ANALISTA SUPERIOR-ESTATÍSTICA/TELEBRAS/2015) Um estudo a respeito do


índice de cancelamento de assinaturas (Y) de uma operadora de telefonia celular no período
de 2010 a 2014 produziu um ajuste na forma , em que t = 2010, 2011, 2012,
2013, 2014; é a estimativa desse índice no ano t correspondente; e representam as
estimativas de mínimos quadrados ordinários dos coeficientes da reta ajustada. A tabela a
seguir apresenta a análise de variância (ANOVA) do ajuste.

Considerando que , julgue o item subsequente relativo ao referido ajuste.


A estimativa da variância de é inferior a 3.

036. (CESPE/ANALISTA SUPERIOR-ESTATÍSTICA/TELEBRAS/2015) Um estudo a respeito do


índice de cancelamento de assinaturas (Y) de uma operadora de telefonia celular no período
de 2010 a 2014 produziu um ajuste na forma , em que t = 2010, 2011, 2012,
2013, 2014; é a estimativa desse índice no ano t correspondente; e representam as
estimativas de mínimos quadrados ordinários dos coeficientes da reta ajustada. A tabela a
seguir apresenta a análise de variância (ANOVA) do ajuste.

Considerando que , julgue o item subsequente relativo ao referido ajuste.


A estimativa da variância do erro aleatório em torno da tendência ajustada é superior a 27.

037. (CESPE/TELEBRÁS/ANALISTA SUPERIOR-ESTATÍSTICA/2015) Um estudo a respeito do


índice de cancelamento de assinaturas (Y) de uma operadora de telefonia celular no período
de 2010 a 2014 produziu um ajuste na forma , em que t = 2010, 2011, 2012,
2013, 2014; é a estimativa desse índice no ano t correspondente; e representam as
estimativas de mínimos quadrados ordinários dos coeficientes da reta ajustada. A tabela a
seguir apresenta a análise de variância (ANOVA) do ajuste.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 53 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Considerando que , julgue o item subsequente relativo ao referido ajuste.


No período de 2010 a 2014, a média aritmética do índice Y foi igual a 30.

038. (CESPE/CEBRASPE/FUB/ESTATÍSTICO/2015) Após a implementação de reserva de va-


gas para os cotistas nas universidades brasileiras, um estudo foi realizado com uma amostra
de 500 estudantes de determinado curso, para ser avaliada a possível existência de uma re-
lação entre o desempenho — Y —, medido pela média final na disciplina e a forma de ingresso
na universidade — X. A tabela a seguir apresenta a análise de variância do modelo Y = α +βX
+ ε, em que Y varia de 0 a 10, X = 0 para cotas e X = 1 para ampla concorrência, α e β são os
parâmetros do modelo e ε é o erro aleatório.

Com base nas informações e na tabela apresentadas, sabendo-se que


e Var(X) = 0,2487 e considerando que 3,84 seja o
valor aproximado de .
Julgue o item a seguir.
A porcentagem estimada de estudantes cotistas é menor que 50%.

039. (CESPE/CEBRASPE/FUB/ESTATÍSTICO/2015) Após a implementação de reserva de va-


gas para os cotistas nas universidades brasileiras, um estudo foi realizado com uma amostra
de 500 estudantes de determinado curso, para ser avaliada a possível existência de uma re-
lação entre o desempenho — Y —, medido pela média final na disciplina e a forma de ingresso
na universidade — X. A tabela a seguir apresenta a análise de variância do modelo Y = α +βX
+ ε, em que Y varia de 0 a 10, X = 0 para cotas e X = 1 para ampla concorrência, α e β são os
parâmetros do modelo e ε é o erro aleatório.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 54 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Com base nas informações e na tabela apresentadas, sabendo-se que


e Var(X) = 0,2487 e considerando que 3,84 seja o
valor aproximado de .
Julgue o item a seguir.
O coeficiente de determinação é maior que 0,7.

040. (CESPE/CEBRASPE/FUB/ESTATÍSTICO/2015) Após a implementação de reserva de va-


gas para os cotistas nas universidades brasileiras, um estudo foi realizado com uma amostra
de 500 estudantes de determinado curso, para ser avaliada a possível existência de uma re-
lação entre o desempenho — Y —, medido pela média final na disciplina e a forma de ingresso
na universidade — X. A tabela a seguir apresenta a análise de variância do modelo Y = α +βX
+ ε, em que Y varia de 0 a 10, X = 0 para cotas e X = 1 para ampla concorrência, α e β são os
parâmetros do modelo e ε é o erro aleatório.

Com base nas informações e na tabela apresentadas, sabendo-se que


e Var(X) = 0,2487 e considerando que 3,84
seja o valor aproximado de .
Julgue o item a seguir:
A variância de Y é menor que 10.

041. (CESPE/BANCO DA AMAZÔNIA/TÉCNICO CIENTÍFICO-ESTATÍSTICA/2010) Deseja-se


estudar a relação entre a quantidade de chuvas (em mm) e a produção de soja em um de-
terminado município. Para isso, utilizou-se a técnica de regressão linear simples, sendo sua
matriz de análise de variância (ANOVA) apresentada abaixo.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 55 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

A partir da tabela acima, julgue o seguinte item, com base nos conceitos de inferência
estatística.
Dadas as hipóteses H0: µ = 8 e H1: µ ≠ 8, e sabendo-se que foi utilizada uma amostra de
tamanho 25, que a variável em estudo X segue uma distribuição normal com média µ e vari-
ância 4 e que, para α = 0,05, Φ(-1,96) = 0,05 então o valor crítico para esse teste é aproxima-
damente 7,216.

042. (CESPE/BANCO DA AMAZÔNIA/TÉCNICO CIENTÍFICO-ESTATÍSTICA/2010) Deseja-se


estudar a relação entre a quantidade de chuvas (em mm) e a produção de soja em um de-
terminado município. Para isso, utilizou-se a técnica de regressão linear simples, sendo sua
matriz de análise de variância (ANOVA) apresentada abaixo.

A partir da tabela acima, julgue o seguinte item, com base nos conceitos de inferência
estatística.
O coeficiente de determinação é aproximadamente 0,59.

043. (FGV/IBGE/TECNOLOGISTA-ESTATÍSTICA/2016) Após estimar um modelo de regressão


linear múltipla, por MQO, um econometrista repara que, por algum motivo, a tabela contendo
os resultados da análise da variância ficou incompleta, conforme abaixo:

Apesar dos valores acima omitidos, é correto afirmar que:

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 56 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

a) a equação de regressão tem cinco variáveis explicativas;


b) o coeficiente de determinação R2 é igual a 0,8;
c) ao nível de significância de 2% não se rejeita a hipótese nula de que o modelo explica a
variável dependente;
d) o tamanho da amostra é n = 20;
e) a estimativa não tendenciosa da variância dos erros aleatórios do modelo é igual a 80.

044. (CESPE/BANCO DA AMAZÔNIA/TÉCNICO CIENTÍFICO-ESTATÍSTICA/2010) Deseja-se


estudar a relação entre a quantidade de chuvas (em mm) e a produção de soja em um de-
terminado município. Para isso, utilizou-se a técnica de regressão linear simples, sendo sua
matriz de análise de variância (ANOVA) apresentada abaixo.

A partir da tabela acima, julgue o seguinte item, com base nos conceitos de inferência
estatística.
Foram utilizados 19 dados para a estimação do modelo de regressão linear.

045. (CESPE/POLÍCIA FEDERAL/2021) Um estudo objetivou avaliar a evolução do número


mensal Y de milhares de ocorrências de certo tipo de crime em determinado ano. Com base
no método dos mínimos quadrados ordinários, esse estudo apresentou um modelo de regres-
são linear simples da forma Ŷ = 5 – 0,1 x T, em que Ŷ representa a reta ajustada em função da
variável regressora T, tal que 1 ≤ T ≤ 12.
Os erros padrão das estimativas dos coeficientes desse modelo, as razões t e seus respecti-
vos p-valores encontram-se na tabela a seguir.

Os desvios padrão amostrais das variáveis Y e T foram, respectivamente, 1 e 3,6. Com base
nessas informações, julgue o item a seguir.
Se a média amostral da variável T for igual a 6,5, então a média amostral da variável Y será
igual a 4,35 mil ocorrências.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 57 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

046. (CESPE/POLÍCIA FEDERAL/2021) Um estudo objetivou avaliar a evolução do número


mensal Y de milhares de ocorrências de certo tipo de crime em determinado ano. Com base
no método dos mínimos quadrados ordinários, esse estudo apresentou um modelo de regres-
são linear simples da forma Ŷ = 5 – 0,1 x T, em que Ŷ representa a reta ajustada em função da
variável regressora T, tal que 1 ≤ T ≤ 12.
Os erros padrão das estimativas dos coeficientes desse modelo, as razões t e seus respecti-
vos p-valores encontram-se na tabela a seguir.

Os desvios padrão amostrais das variáveis Y e T foram, respectivamente, 1 e 3,6. Com base
nessas informações, julgue o item a seguir.
A correlação linear entre as variáveis Y e T foi igual a –0,1

047. (CESPE/POLÍCIA FEDERAL/AGENTE/2018) Um pesquisador estudou a relação entre a


taxa de criminalidade (Y) e a taxa de desocupação da população economicamente ativa (X)
em determinada região do país. Esse pesquisador aplicou um modelo de regressão linear
simples na forma Y = bX + a + ε, em que b representa o coeficiente angular, a é o intercepto do
modelo e ε denota o erro aleatório com média zero e variância σ2 . A tabela a seguir represen-
ta a análise de variância (ANOVA) proporcionada por esse modelo.

A respeito dessa situação hipotética, julgue o próximo item, sabendo que b > 0 e que o desvio
padrão amostral da variável X é igual a 2.
A estimativa do coeficiente angular b, pelo método de mínimos quadrados ordinários, é
igual a 0,25.

048. (CESPE/POLÍCIA FEDERAL/AGENTE/2018) Um pesquisador estudou a relação entre a


taxa de criminalidade (Y) e a taxa de desocupação da população economicamente ativa (X)
em determinada região do país. Esse pesquisador aplicou um modelo de regressão linear
simples na forma Y = bX + a + ε, em que b representa o coeficiente angular, a é o intercepto do
modelo e ε denota o erro aleatório com média zero e variância σ2 . A tabela a seguir represen-
ta a análise de variância (ANOVA) proporcionada por esse modelo.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 58 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

A respeito dessa situação hipotética, julgue o próximo item, sabendo que b > 0 e que o desvio
padrão amostral da variável X é igual a 2.
A estimativa da variância σ² é superior a 0,5.

049. (CESPE/POLÍCIA FEDERAL/AGENTE/2018) Um pesquisador estudou a relação entre a


taxa de criminalidade (Y) e a taxa de desocupação da população economicamente ativa (X)
em determinada região do país. Esse pesquisador aplicou um modelo de regressão linear
simples na forma Y = bX + a + ε, em que b representa o coeficiente angular, a é o intercepto do
modelo e ε denota o erro aleatório com média zero e variância σ2 . A tabela a seguir represen-
ta a análise de variância (ANOVA) proporcionada por esse modelo.

A respeito dessa situação hipotética, julgue o próximo item, sabendo que b > 0 e que o desvio
padrão amostral da variável X é igual a 2.
A correlação linear de Pearson entre a variável resposta Y e a variável regressora X é igual a 0,75.

050. 50. (FGV/TJ-RO/ESTATÍSTICO/2015) Num modelo de regressão linear, a violação dos


pressupostos de homocedasticidade e do emprego de variáveis explicativas não estocás-
ticas, mantidas as demais hipóteses, poderá causar a perda, por parte dos estimadores de
MQO, respectivamente, das propriedades de:
a) não tendenciosidade e eficiência assintótica;
b) consistência e eficiência;
c) suficiência e completude;
d) eficiência e consistência;
e) não tendenciosidade assintótica e suficiência.

051. (FGV/AL-RO/ASSISTENTE LEGISLATIVO - TÉCNICO EM LOGÍSTICA/2018) Há 5 meses,


sua empresa fez um contrato para vender exclusivamente o trigo produzido por uma coope-
rativa. Seu fornecedor informa que não poderá fazer entrega nos próximos dois meses (mês

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 59 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

6 e mês 7). Em função dessa descontinuidade, o gerente geral de sua empresa pede para
você calcular a previsão da soma das demandas dos dois meses citados. Ele o orientou a
simplificar os cálculos, optando por uma projeção baseada em uma regressão linear que usa
os dados das demandas dos 5 meses desde o início da venda de trigo. Os dados estão apre-
sentados, mês a mês, na tabela a seguir.

Assim, após fazer os cálculos segundo essas orientações, o resultado correto para a
soma pedida é:
a) 24,5.
b) 31,6.
c) 45,0.
d) 51,9.
e) 56,1.

052. (FCC/TRT-5ª REGIÃO-BA/ANALISTA JUDICIÁRIO-ESTATÍSTICA/2013) O modelo linear


Yt = α + βt + εt , t = 1, 2, 3,..., é utilizado para prever a venda (Yt ), em milhares de reais, de um
produto no ano (2002 + t). α e β são parâmetros desconhecidos e εt é o erro aleatório com as
respectivas hipóteses da regressão linear simples. As estimativas de α e β foram obtidas pelo
método dos mínimos quadrados, com base nas observações das vendas de 2003 a 2012.

Dados:

Considerando a equação da reta obtida pelo método dos mínimos quadrados, a previsão do
primeiro ano em que a venda irá superar R$ 60.000,00 será em:
a) 2016.
b) 2017.
c) 2018.
d) 2019.
e) 2020.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 60 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

053. (CESPE/TCE-PE/ANALISTA DE CONTROLE EXTERNO/2017) Um estudo de acompanha-


mento ambiental considerou, para , um modelo de regressão linear simples na
forma , em que a e b são constantes reais, representa a variável resposta
referente ao j-ésimo elemento da amostra, é a variável regressora correspondente, e de-
nota o erro aleatório que segue distribuição normal com média nula e variância V.
Aplicando-se, nesse estudo, o método dos mínimos quadrados ordinários, obteve-se a reta
ajustada , para
Considerando que a estimativa da variância V seja igual a 6 e que o coeficiente de explicação
do modelo (R quadrado) seja igual a 0,64, julgue os seguintes itens.

054. (CESPE/TCE-PE/ANALISTA DE CONTROLE EXTERNO/2017) Um estudo de acompanha-


mento ambiental considerou, para , um modelo de regressão linear simples na
forma , em que a e b são constantes reais, representa a variável resposta
referente ao j-ésimo elemento da amostra, é a variável regressora correspondente, e
denota o erro aleatório que segue distribuição normal com média nula e variância V.
Aplicando-se, nesse estudo, o método dos mínimos quadrados ordinários, obteve-se a reta
ajustada , para
Considerando que a estimativa da variância V seja igual a 6 e que o coeficiente de explicação
do modelo (R quadrado) seja igual a 0,64, julgue o seguinte item.

Se representar a média amostral da variável regressora e se denotar a


média amostral da variável resposta, com , então .

055. (CESPE/TCE-PE/ANALISTA DE CONTROLE EXTERNO/2017) Um estudo de acompanha-


mento ambiental considerou, para , um modelo de regressão linear simples na
forma , em que a e b são constantes reais, representa a variável resposta
referente ao j-ésimo elemento da amostra, é a variável regressora correspondente, e
denota o erro aleatório que segue distribuição normal com média nula e variância V.
Aplicando-se, nesse estudo, o método dos mínimos quadrados ordinários, obteve-se a reta
ajustada , para
Considerando que a estimativa da variância V seja igual a 6 e que o coeficiente de explicação
do modelo (R quadrado) seja igual a 0,64, julgue o seguinte item.
O desvio padrão amostral da variável regressora é igual a 1,6.

056. (CESPE/TCE-PE/ANALISTA DE CONTROLE EXTERNO/2017) Um estudo de acompanha-


mento ambiental considerou, para , um modelo de regressão linear simples na
forma , em que a e b são constantes reais, representa a variável resposta

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 61 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

referente ao j-ésimo elemento da amostra, é a variável regressora correspondente, e


denota o erro aleatório que segue distribuição normal com média nula e variância V.
Aplicando-se, nesse estudo, o método dos mínimos quadrados ordinários, obteve-se a reta
ajustada , para
Considerando que a estimativa da variância V seja igual a 6 e que o coeficiente de explicação
do modelo (R quadrado) seja igual a 0,64, julgue o seguinte item.
A correlação linear entre as variáveis x e y é igual a 0,5, pois a reta invertida proporcionada pelo
método de mínimos quadrados ordinários é expressa por , para .

057. Um estudo de acompanhamento ambiental considerou, para , um modelo


de regressão linear simples na forma , em que a e b são constantes reais,
representa a variável resposta referente ao j-ésimo elemento da amostra, é a variável
regressora correspondente, e denota o erro aleatório que segue distribuição normal com
média nula e variância V.
Aplicando-se, nesse estudo, o método dos mínimos quadrados ordinários, obteve-se a reta
ajustada , para
Considerando que a estimativa da variância V seja igual a 6 e que o coeficiente de explicação
do modelo (R quadrado) seja igual a 0,64, julgue o seguinte item.
Se, para cada , o ponto seguir uma distribuição normal bivariada cuja
matriz de covariânicas seja dada por , então a estimativa do elemento será
igual a 2.

058. (FCC/AL-AP/ANALISTA LEGISLATIVO–ECONOMIA/2020) Em uma empresa de determi-


nado ramo de atividade, utilizando o método de regressão linear, obteve-se a equação de
tendência (T) da série temporal abaixo.
Os dados apresentam 10 observações da série temporal Y, que representa o faturamento de
uma empresa, em milhões de reais. Supõe-se que essa série é composta apenas de uma ten-
dência T e um ruído branco de média zero e variância constante.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 62 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

A tendência apresenta a forma T = a + bt, em que a e b foram obtidos usando o método dos
mínimos quadrados. Considerando a equação obtida, tem-se que o acréscimo no faturamen-
to do ano t, com t > 1, para o ano (t + 1) é, em milhões de reais, de
a) 1,2.
b) 1,5.
c) 0,6.
d) 2,4.
e) 1,8.

059. (INÉDITA/2021) Sejam X e Y duas variáveis aleatórias tais que a covariância entre elas é
dada por SXY = 3, cujas variâncias são iguais a SXX = 4 e SYY = 9 e cujas médias são iguais,
respectivamente, a μX = 4 e μY = 0. A respeito dessa situação, julgue o seguinte item.
O modelo de regressão linear entre as duas variáveis é Y = X/3 – 4/3.

060. (INÉDITA/2021) Sejam X e Y duas variáveis aleatórias tais que a covariância entre elas é
dada por SXY = 3, cujas variâncias são iguais a SXX = 4 e SYY = 9 e cujas médias são iguais,
respectivamente, a μX = 4 e μY = 0. A respeito dessa situação, julgue o seguinte item.
O coeficiente de determinação do modelo de regressão linear é igual a 25%.

061. (INÉDITA/2021) Uma equipe de médicos desejava estudar a influência do consumo di-
ário de açúcares (em gramas) sobre a pressão diastólica de indivíduos. Pelos estudos com
uma população, foram registrados os seguintes dados:

Pressão Diastólica (Y) Consumo de Açúcar (X)


Média 120 mmHg 80 g
Desvio-Padrão 20 mmHg 10 g
Covariância 120 mmHg.g 120 mmHg.g

Desejava-se fazer um estudo de regressão Y = a + bX + є, em que є é uma variável aleatória


com média nula.
Com base nessas informações, julgue o seguinte item.
O parâmetro b é menor que 1.

062. (INÉDITA/2021) Uma equipe de médicos desejava estudar a influência do consumo diário
de açúcares (em gramas) sobre a pressão diastólica de indivíduos. Pelos estudos com uma
população, foram registrados os seguintes dados:

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 63 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Pressão Diastólica (Y) Consumo de Açúcar (X)


Média 120 mmHg 80 g
Desvio-Padrão 20 mmHg 10 g
Covariância 120 mmHg.g 120 mmHg.g

Desejava-se fazer um estudo de regressão Y = a + bX + є, em que є é uma variável aleatória


com média nula.
Com base nessas informações, julgue o seguinte item.
O coeficiente de determinação para esse modelo de regressão linear é igual a 36%.

063. (INÉDITA/2021) Uma equipe de médicos desejava estudar a influência do consumo di-
ário de açúcares (em gramas) sobre a pressão diastólica de indivíduos. Pelos estudos com
uma população, foram registrados os seguintes dados:

Pressão Diastólica (Y) Consumo de Açúcar (X)


Média 120 mmHg 80 g
Desvio-Padrão 20 mmHg 10 g
Covariância 120 mmHg.g 120 mmHg.g

Desejava-se fazer um estudo de regressão Y = a + bX + є, em que є é uma variável aleatória


com média nula.
Com base nessas informações, julgue o seguinte item.
Se uma pessoa consome 100 g de açúcar, a expectativa de sua pressão diastólica é igual
a 144 mmHg.

064. (INÉDITA/2021) Uma equipe de médicos desejava estudar a influência do consumo di-
ário de açúcares (em gramas) sobre a pressão diastólica de indivíduos. Pelos estudos com
uma população, foram registrados os seguintes dados:

Pressão Diastólica (Y) Consumo de Açúcar (X)


Média 120 mmHg 80 g
Desvio-Padrão 20 mmHg 10 g
Covariância 120 mmHg.g 120 mmHg.g

Desejava-se fazer um estudo de regressão Y = a + bX + є, em que є é uma variável aleatória


com média nula.
Com base nessas informações, julgue o seguinte item.
O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 64 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Considerando um grupo de pessoas que consomem 100 g de açúcar por dia, o desvio-padrão
esperado para a pressão diastólica nesse grupo é igual a 16 mmHg.

065. (INÉDITA/2021) Um pesquisador construiu um modelo de regressão linear para duas


variáveis Y = a + bX + ε, em que ε é um ruído aleatório de média nula.

X Y
Média 2 10
Variância 4 36
Covariância 10,8 10,8

A respeito dessa situação, julgue o seguinte item.


A estimativa pelo método dos mínimos quadrados para o coeficiente b é maior que 3.

066. (INÉDITA/2021) Um pesquisador construiu um modelo de regressão linear para duas


variáveis Y = a + bX + ε, em que ε é um ruído aleatório de média nula.

X Y
Média 2 10
Variância 4 36
Covariância 10,8 10,8

A respeito dessa situação, julgue o seguinte item.


A estimativa pelo método dos mínimos quadrados para o coeficiente a é menor que 4.

067. (INÉDITA/2021) Um pesquisador construiu um modelo de regressão linear para duas


variáveis Y = a + bX + ε, em que ε é um ruído aleatório de média nula.

X Y
Média 2 10
Variância 4 36
Covariância 10,8 10,8

A respeito dessa situação, julgue o seguinte item.


O coeficiente de determinação do modelo é igual a 90%.

068. (INÉDITA/2021) Um pesquisador coletou dados sobre a criminalidade em diversos pa-


íses (Y) em função do desemprego (X), chegando ao modelo Y = 0,5 + 0,2.X + ε, em que ε é
O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 65 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

uma variável aleatória com distribuição normal, média nula, estatisticamente independente X
e com variância igual a 1.
Sabe-se, ainda, que a média de X é igual a 1 e que a variância de X também é igual a 1.
A respeito dessa situação, julgue o seguinte item.
A covariância entre X e Y é igual a 0,2.

069. (INÉDITA/2021) Um pesquisador coletou dados sobre a criminalidade em diversos pa-


íses (Y) em função do desemprego (X), chegando ao modelo Y = 0,5 + 0,2.X + ε, em que ε é
uma variável aleatória com distribuição normal, média nula, estatisticamente independente X
e com variância igual a 1.
Sabe-se, ainda, que a média de X é igual a 1 e que a variância de X também é igual a 1.
A respeito dessa situação, julgue o seguinte item.
A média de Y é maior que a média X.

070. (INÉDITA/2021) Um pesquisador coletou dados sobre a criminalidade em diversos pa-


íses (Y) em função do desemprego (X), chegando ao modelo Y = 0,5 + 0,2.X + ε, em que ε é
uma variável aleatória com distribuição normal, média nula, estatisticamente independente X
e com variância igual a 1.
Sabe-se, ainda, que a média de X é igual a 1 e que a variância de X também é igual a 1.
A respeito dessa situação, julgue o seguinte item.
O coeficiente de determinação do modelo é elevado, o que indica uma forte relação entre as
duas variáveis.

071. (INÉDITA/2021) Um pesquisador coletou dados sobre a criminalidade em diversos pa-


íses (Y) em função do desemprego (X), chegando ao modelo Y = 0,5 + 0,2.X + ε, em que ε é
uma variável aleatória com distribuição normal, média nula, estatisticamente independente X
e com variância igual a 1.
Sabe-se, ainda, que a média de X é igual a 1 e que a variância de X também é igual a 1.
A respeito dessa situação, julgue o seguinte item.
O modelo criado é homocedástico.

072. (INÉDITA/2021) Um pesquisador estava analisando a relação entre o número de homicí-


dios no Brasil (Y) e o número de operações policiais realizadas (X) na forma de uma regres-
são linear Y = a + bX + ε, em que ε é um erro aleatório com média nula. Para isso, ele coletou
dados em uma amostra de 10 anos e calculou alguns somatórios chegando às seguintes
expressões:

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 66 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

A respeito dessa situação, julgue o seguinte item.


A variável Y é a variável explicativa.

073. (INÉDITA/2021) Um pesquisador estava analisando a relação entre o número de homicí-


dios no Brasil (Y) e o número de operações policiais realizadas (X) na forma de uma regres-
são linear Y = a + bX + ε, em que ε é um erro aleatório com média nula. Para isso, ele coletou
dados em uma amostra de 10 anos e calculou alguns somatórios chegando às seguintes
expressões:

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 67 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

A respeito dessa situação, julgue o seguinte item.


O coeficiente de variação de X é maior que 25%.

074. (INÉDITA/2021) Um pesquisador estava analisando a relação entre o número de homicí-


dios no Brasil (Y) e o número de operações policiais realizadas (X) na forma de uma regres-
são linear Y = a + bX + ε, em que ε é um erro aleatório com média nula. Para isso, ele coletou
dados em uma amostra de 10 anos e calculou alguns somatórios chegando às seguintes
expressões:

A respeito dessa situação, julgue o seguinte item.


Os dados indicam que o aumento do número de operações policiais provoca uma redução no
número de homicídios naquela região.

075. (INÉDITA/2021) Foi construído um modelo de regressão linear entre duas variáveis alea-
tórias X e Y, expresso por Y = a + b.X + ε, em que ε é um ruído branco gaussiano e estatistica-
mente independente de X. São conhecidos os seguintes dados sobre as variáveis:

X Y
Média 0 4
Desvio-Padrão 2 5
Covariância –9 –9

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 68 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

A respeito dessa situação, julgue o seguinte item.


O coeficiente de determinação do modelo é igual a 81%.

076. (INÉDITA/2021) Foi construído um modelo de regressão linear entre duas variáveis alea-
tórias X e Y, expresso por Y = a + b.X + ε, em que ε é um ruído branco gaussiano e estatistica-
mente independente de X. São conhecidos os seguintes dados sobre as variáveis:

X Y
Média 0 4
Desvio-Padrão 2 5
Covariância –9 –9

A respeito dessa situação, julgue o seguinte item.


O modelo de regressão linear é Y = 4 – 0,36X + ε.

077. (INÉDITA/2021) Foi construído um modelo de regressão linear entre duas variáveis alea-
tórias X e Y, expresso por Y = a + b.X + ε, em que ε é um ruído branco gaussiano e estatistica-
mente independente de X. São conhecidos os seguintes dados sobre as variáveis:

X Y
Média 0 4
Desvio-Padrão 2 5
Covariância –9 –9

A respeito dessa situação, julgue o seguinte item.


A variável X é a variável regressora.

078. (INÉDITA/2021) Considere os seguintes dados sobre duas variáveis aleatórias X e Y.

X Y
Média 12 4
Variância 36 9
Covariância 16,2 16,2

Desejava-se construir um modelo de regressão linear Y = a + bX + є, em que є é um ruído


branco gaussiano de média nula.
Com base nesses dados, julgue o seguinte item.
O coeficiente de variação da variável X é menor que o coeficiente de variação da variável Y.
O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 69 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

079. (INÉDITA/2021) Considere os seguintes dados sobre duas variáveis aleatórias X e Y.

X Y
Média 12 4
Variância 36 9
Covariância 16,2 16,2

Desejava-se construir um modelo de regressão linear Y = a + bX + є, em que є é um ruído


branco gaussiano de média nula.
Com base nesses dados, julgue o seguinte item.
O coeficiente de variação de uma variável aleatória está sempre limitado entre -100% e +100%.

080. (INÉDITA/2021) Considere os seguintes dados sobre duas variáveis aleatórias X e Y.

X Y
Média 12 4
Variância 36 9
Covariância 16,2 16,2

Desejava-se construir um modelo de regressão linear Y = a + bX + є, em que є é um ruído


branco gaussiano de média nula.
Com base nesses dados, julgue o seguinte item.
O coeficiente angular do modelo de regressão linear descrito é igual a 3.

081. (INÉDITA/2021) Considere os seguintes dados sobre duas variáveis aleatórias X e Y.

X Y
Média 12 4
Variância 36 9
Covariância 16,2 16,2

Desejava-se construir um modelo de regressão linear Y = a + bX + є, em que є é um ruído


branco gaussiano de média nula.
Com base nesses dados, julgue o seguinte item.
A variância da variável aleatória X + Y é inferior a 50.

082. (INÉDITA/2021) Considere os seguintes dados sobre duas variáveis aleatórias X e Y.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 70 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

X Y
Média 12 4
Variância 36 9
Covariância 16,2 16,2

Desejava-se construir um modelo de regressão linear Y = a + bX + є, em que є é um ruído


branco gaussiano de média nula.
Com base nesses dados, julgue o seguinte item.
O coeficiente de determinação do modelo de regressão linear é igual a 90%.

083. (INÉDITA/2021) Um pesquisador desejava pesquisar a relação entre a taxa de crimina-


lidade (X) e o volume movimentado de drogas (Y) em determinada região do país. Esse pes-
quisador utilizou um modelo de regressão linear simples na forma Y = a + bX + ε, em que ε
denota o erro aleatório com média nula e variância σ². A tabela a seguir representa a análise
de variância (ANOVA) proporcionada por esse modelo.

Fonte de Variação Graus de Liberdade Soma dos Quadrados


regressão 2 6400
erro 398 3600
total 400 10000

A respeito dessa situação, julgue o próximo item:


O coeficiente de determinação do modelo é igual a 80%.

084. (INÉDITA/2021) Um pesquisador desejava pesquisar a relação entre a taxa de crimina-


lidade (X) e o volume movimentado de drogas (Y) em determinada região do país. Esse pes-
quisador utilizou um modelo de regressão linear simples na forma Y = a + bX + ε, em que ε
denota o erro aleatório com média nula e variância σ². A tabela a seguir representa a análise
de variância (ANOVA) proporcionada por esse modelo.

Fonte de Variação Graus de Liberdade Soma dos Quadrados


regressão 2 6400
erro 398 3600
total 400 10000

A respeito dessa situação, julgue o próximo item:


A estimativa da variância do erro é superior a 9.
O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 71 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

085. (INÉDITA/2021) Um pesquisador desejava pesquisar a relação entre a taxa de crimina-


lidade (X) e o volume movimentado de drogas (Y) em determinada região do país. Esse pes-
quisador utilizou um modelo de regressão linear simples na forma Y = a + bX + ε, em que ε
denota o erro aleatório com média nula e variância σ². A tabela a seguir representa a análise
de variância (ANOVA) proporcionada por esse modelo.

Fonte de Variação Graus de Liberdade Soma dos Quadrados


regressão 2 6400
erro 398 3600
total 400 10000

A respeito dessa situação, julgue o próximo item:


O desvio-padrão da variável Y é igual a 5.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 72 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

GABARITO
1. E 37. C 73. C
2. E 38. E 74. C
3. C 39. E 75. C
4. C 40. C 76. E
5. b 41. C 77. C
6. C 42. C 78. C
7. E 43. e 79. E
8. C 44. E 80. E
9. C 45. C 81. E
10. C 46. E 82. E
11. e 47. C 83. E
12. E 48. E 84. C
13. C 49. C 85. C
14. b 50. d
15. e 51. d
16. d 52. b
17. e 53. E
18. c 54. C
19. E 55. C
20. a 56. E
21. C 57. E
22. a 58. c
23. e 59. E
24. e 60. C
25. d 61. E
26. d 62. C
27. E 63. E
28. C 64. C
29. c 65. E
30. d 66. E
31. c 67. E
32. e 68. C
33. E 69. E
34. c 70. E
35. C 71. C
36. b 72. E

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 73 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

GABARITO COMENTADO
023. (IBFC/IBGE/SUPERVISOR DE PESQUISAS/2021) Num modelo de regressão linear pelo
método dos mínimos quadrados, sabe-se que a inclinação da reta é a = 3,24 e o intercepto da
reta é b = 12,6, então o valor de para x = 30 é:
a) 126,8
b) 136,8
c) 116,2
d) 108,2
e) 109,8

Em uma reta de regressão linear, o coeficiente de inclinação é o que acompanha a variável


independente x, enquanto o intercepto é o termo independente. Assim, temos a reta:

Letra e.

024. (VUNESP/EBSERH/ANALISTA ADMINISTRATIVO – ESTATÍSTICO/2020) A variável x tem


média 4 e desvio padrão 2, enquanto a variável y tem média 3 e desvio padrão 1. A covariância
entre x e y é –1.
A equação estimada da regressão linear simples de y por x é:
a) y = 2 – 0,25x.
b) y = 3 – 0,5x.
c) y = 3 – x.
d) y = 4 – x.
e) y = 4 – 0,25x.

Pela estimativa dos mínimos quadrados, podemos obter o coeficiente de inclinação do mode-
lo como a razão entre a covariância e a variância da regressora.

Substituindo na expressão geral do modelo de regressão linear, temos:

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 74 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Substituindo os dados do enunciado e o valor calculado para o coeficiente b, temos:

Portanto, a estimativa do coeficiente Y a partir de X é:

Letra e.

025. (FUNDATEC/PREFEITURA DE PORTO ALEGRE-RS/ESTATÍSTICO/2021) Em uma análise


de regressão, se o coeficiente de determinação r² = 1, então:
(Considere SQT = Soma de quadrados total; SQE = Soma de quadrados do erro; SQR = Soma
de quadrados da regressão.)
a) SQE = SQT.
b) SQE = 1.
c) SQR = SQE.
d) SQR = SQT.
e) SQR > SQT.

O coeficiente de determinação corresponde à razão entre a soma dos quadrados da regressão


(SQR) e a soma dos quadrados total (SQT). Assim, temos:

Letra d.

026. (IBFC/EBSERH/ANALISTA ADMINISTRATIVO–ESTATÍSTICA/2020) Um modelo de re-


gressão linear simples foi gerado para explicar vendas (Y, em milhares de reais) a partir de
propaganda (X, em centenas de reais). Algumas informações do modelo são apresentadas:
Equação de regressão estimada: Y=12 + 1,8X
Tamanho da amostra: 17 observações.
Soma de quadrados da regressão: 225,00.
Soma de quadrados dos resíduos: 75,00.
Sb1= 0,27.
Considere as seguintes afirmações:

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 75 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

I – De acordo com a equação de regressão estimada, um gasto de R$ 1.000,00 em propagan-


da resulta em vendas estimadas de R$ 40.000,00.
II – O coeficiente de determinação do modelo (R²) é de 75%.
III – A cada incremento unitário em X, espera-se que Y aumente 1,8.
Estão corretas as afirmativas:
a) I apenas
b) I e II, apenas
c) I e III, apenas
d) II e III, apenas

Vamos analisar as afirmações.


I – Errada. Façamos X = 1000 na equação de regressão apresentada pelo enunciado.

Portanto, as receitas serão de R$30.000,00. Afirmação incorreta.


II – Correta. O coeficiente de determinação é dado pela expressão:

O enunciado não forneceu o SQTot, mas ele pode ser obtido como a soma:

Então, substituindo na expressão do coeficiente de determinação, temos:

Afirmação correta.
III – Correta. Para X = 0, temos:

Para X = 1, temos:

Portanto, o incremento é:

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 76 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Afirmação correta.
Letra d.

027. (CESPE/POLÍCIA FEDERAL/PAPILOSCOPISTA/2018) O intervalo de tempo entre a morte


de uma vítima até que ela seja encontrada (y em horas) denomina-se intervalo post mortem.
Um grupo de pesquisadores mostrou que esse tempo se relaciona com a concentração molar
de potássio encontrada na vítima (x, em mmol/dm3). Esses pesquisadores consideraram um
modelo de regressão linear simples na forma y = ax + b + ε, em que a representa o coeficiente
angular, b denomina-se intercepto, e ε denota um erro aleatório que segue distribuição nor-
mal com média zero e desvio padrão igual a 4.
As estimativas dos coeficientes a e b, obtidas pelo método dos mínimos quadrados ordiná-
rios foram, respectivamente, iguais a 2,5 e 10. O tamanho da amostra para a obtenção desses
resultados foi n = 101. A média amostral e o desvio padrão amostral da variável x foram, res-
pectivamente, iguais a 9 mmol/dm3 e 1,6 mmol/dm3 e o desvio padrão da variável y foi igual
a 5 horas.
A respeito dessa situação hipotética, julgue o item a seguir.
O coeficiente de explicação do modelo (R2) foi superior a 0,70.

Primeiramente, podemos utilizar a fórmula que relaciona o coeficiente angular com a correla-
ção linear, para uma regressão do tipo y = a·x + b:

Temos:
• a = coeficiente angular = 2,5
• r = correlação linear
• σy = desvio-padrão amostral de y = 5
• σx = desvio-padrão amostral de x = 1,6

Logo, basta substituir os valores:

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 77 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Entretanto, a pergunta é sobre o coeficiente de explicação do modelo, ou seja, o R2. Assim:

Portanto, o resultado é menor que 0,70.


Errado.

028. 28. (CESPE/POLÍCIA FEDERAL/PAPILOSCOPISTA/2018) O intervalo de tempo entre a


morte de uma vítima até que ela seja encontrada (y em horas) denomina-se intervalo post
mortem. Um grupo de pesquisadores mostrou que esse tempo se relaciona com a concentra-
ção molar de potássio encontrada na vítima (x, em mmol/dm3). Esses pesquisadores consi-
deraram um modelo de regressão linear simples na forma y = ax + b + ε, em que a representa
o coeficiente angular, b denomina-se intercepto, e ε denota um erro aleatório que segue dis-
tribuição normal com média zero e desvio padrão igual a 4.
As estimativas dos coeficientes a e b, obtidas pelo método dos mínimos quadrados ordiná-
rios foram, respectivamente, iguais a 2,5 e 10. O tamanho da amostra para a obtenção desses
resultados foi n = 101. A média amostral e o desvio padrão amostral da variável x foram, res-
pectivamente, iguais a 9 mmol/dm3 e 1,6 mmol/dm3 e o desvio padrão da variável y foi igual
a 5 horas.
A respeito dessa situação hipotética, julgue o item a seguir.
A média amostral da variável resposta y foi superior a 30 horas.

Apesar do tamanho, trata-se de uma questão apenas de substituição de valores. Note que as
estimativas ocorreram pelo método de mínimos quadrados ordinários, ou seja, o ε=0. Assim,
usando a fórmula:

Com as seguintes substituições:


• a = 2,5
• b = 10

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 78 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

• x = 9
• ε = 0

Temos:

Como a média amostral de y é superior a 30, a afirmação é correta.


Certo.

029. (IBFC/IBGE/SUPERVISOR DE PESQUISAS/2021) Dentre os gráficos abaixo, o que melhor


representa um coeficiente de correlação linear próximo de -0,23 é:

a)

b)

c)

d)

e)

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 79 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Como a correlação é negativa, a tendência geral é de que Y decresça com X. Por isso, as letras
“a” e “b” estão incorretas.
Além disso, como a correlação tem valor absoluto pequeno, muito distante de 1, devemos
ter bastante flutuação em torno da reta de tendência. Vamos comparar o que acontece nas
demais alternativas.
Vale notar que o coeficiente de determinação do modelo é (–0,23)² = 0,0529 = 5,29%. Portanto,
haverá muita flutuação em torno da linha de tendência.

Perceba, então, que a letra “e” se aproxima de uma elevada correlação negativa, que seria uma
correlação próxima de –1. A letra “d” ainda tem um ajuste muito próximo, o que indica uma
forte correlação.
A letra “c”, portanto, é a que mais se adéqua à correlação –0,23, porque mostra uma tendência
geral de decrescimento do item C, mas com baixíssimo coeficiente de determinação.
Letra c.

030. (FUNDATEC/PREFEITURA DE PORTO ALEGRE-RS/ESTATÍSTICO/2021) Considerando o


relacionamento entre a variável independente X e a variável dependente Y, mostrado na figura
abaixo, assinale a alternativa correta.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 80 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

a) O relacionamento entre X e Y é positivo, e o coeficiente de correlação é igual a 73,2%.


b) O relacionamento entre X e Y é fraco e não deve ser considerado.
c) Não existe relação linear entre as variáveis analisadas.
d) O relacionamento entre X e Y é negativo, e a variável X explica 73,2% da variação da variável Y.
e) O relacionamento entre X e Y é positivo, e a variável X explica 73,2% da variação da variável Y.

Como a variável Y decresce com o aumento da variável X, elas estão negativamente corre-
lacionadas.
Além disso, foi fornecido o R², o coeficiente de determinação do modelo. Podemos dizer, en-
tão, que a variação da variável X explica 73,2% das variações da variável Y.
Não podemos dizer que o coeficiente de correlação é igual a –73,2%, porque o coeficiente de
correlação é igual à raiz quadrada do coeficiente de determinação, que seria:

Letra d.

031. (FCC/SEFAZ-BA/AUDITOR-FISCAL/2019) Em uma determinada indústria, foi efetuada


uma pesquisa a respeito da possível relação entre o número de horas trabalhadas (X), com X
≥ 2, e as quantidades produzidas de um produto (Y). Com base em 10 pares de observações
(Xi,Yi) e considerando o gráfico de dispersão correspondente, optou-se por utilizar o modelo
linear Yi = α + βXi + εi, com i representando a i-ésima observação, ou seja, i = 1, 2, 3,... 10. Os
parâmetros α e β são desconhecidos e as suas estimativas (a e b, respectivamente) foram ob-
tidas pelo método dos mínimos quadrados. Observação: εi é o erro aleatório com as respecti-
vas hipóteses do modelo de regressão linear simples. Considere o gráfico, abaixo, construído
utilizando os valores encontrados para as estimativas de α e β.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 81 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

A previsão da quantidade produzida será igual ao dobro da média verificada das 10 observa-
ções Yi quando o número de horas trabalhadas for igual a:
a) 20.
b) 24.
c) 22.
d) 18.
e) 12.

Primeiramente, precisamos achar a equação que rege a reta no gráfico.

Para encontrar o valor de b, basta fazer o seguinte cálculo:

Substituindo, temos:

Para achar o valor de a, basta substituir 1 ponto na equação da reta. Escolhendo o ponto
(4,4), temos:

Logo, a equação é:

Como o somatório das 10 observações foi dado e é 120, temos que a média dessas 10 obser-
vações é 12. Substituindo a média na equação da reta, temos:

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 82 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Encontrando o dobro desse valor, temos y=40. Logo, basta substituir novamente na equação
para encontrarmos o valor de X quando Y for o dobro do y encontrado para a média das 10
observações:

Letra c.

032. (CESPE/CGE–CE/AUDITOR DE CONTROLE INTERNO/2019) Considerando-se que, em


uma regressão múltipla de dados estatísticos, a soma dos quadrados da regressão seja igual
a 60.000 e a soma dos quadrados dos erros seja igual a 15.000, é correto afirmar que o coefi-
ciente de determinação — R² — é igual a:
a) 0,75.
b) 0,25.
c) 0,50.
d) 0,20.
e) 0,80.

O coeficiente de determinação é dado por:

Podemos, agora, calcular o SQTot nos lembrando de que:

Voltando para a fórmula do coeficiente, temos:

Letra e.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 83 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

033. (CESPE/DEPEN/AGENTE PENITENCIÁRIO FEDERAL/2015) A tabela mostrada apresenta


a quantidade de detentos no sistema penitenciário brasileiro por região em 2013. Nesse ano,
o déficit relativo de vagas — que se define pela razão entre o déficit de vagas no sistema pe-
nitenciário e a quantidade de detentos no sistema penitenciário — registrado em todo o Brasil
foi superior a 38,7%, e, na média nacional, havia 277,5 detentos por 100 mil habitantes.
Com base nessas informações e na tabela apresentada, julgue o item a seguir.
Considerando que a figura a seguir apresente o diagrama de dispersão entre o tamanho po-
pulacional da região (em milhões de habitantes) e a população carcerária correspondente (em
mil pessoas), então é correto afirmar que a população carcerária tende a crescer linearmente
à medida que a população da região aumenta.

Para ser linear, o gráfico deveria crescer de forma constante entre cada faixa de população
carcerária. O gráfico mostrado apresenta um comportamento mais exponencial do que linear.
Errado.

034. (FCC/TRT-5ª REGIÃO-BA/ANALISTA JUDICIÁRIO-ESTATÍSTICA/2013) Utilizando o mé-


todo dos mínimos quadrados, obteve-se o ajustamento do modelo linear Zi = α + βXi + γYi
+εi , i = 1, 2, 3,..., em que Z é a variável dependente, X e Y são as variáveis explicativas, i cor-
responde a i-ésima observação, α, β e γ são parâmetros desconhecidos e εi o erro aleatório,
com as respectivas hipóteses consideradas para a regressão linear múltipla. O ajustamento
foi encontrado com base em uma amostra aleatória de 20 ternos (Xi , Yi , Zi ) apurando-se as
estimativas de α, β e γ.
Dados do correspondente quadro de análise de variância:

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 84 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

A estimativa da variância populacional do modelo teórico (σ²), com base nos dados da amos-
tra, é igual a:
a) 15,300.
b) 16,150.
c) 17,100.
d) 18,165.
e) 19,380.

Para o problema, basta usar a expressão:

• Como o número de amostras é 20, nosso N=20.


• Como há 3 variáveis envolvidas no problema, nosso p = 3.
• O valor da soma dos quadrados da variação residual está na tabela e vale 290,7.

Substituindo todos esses valores na fórmula, temos:

Letra c.

035. (CESPE/TELEBRAS/ANALISTA SUPERIOR–ESTATÍSTICA/2015) Um estudo a respeito do


índice de cancelamento de assinaturas (Y) de uma operadora de telefonia celular no período
de 2010 a 2014 produziu um ajuste na forma , em que t = 2010, 2011, 2012,
2013, 2014; é a estimativa desse índice no ano t correspondente; e representam as
estimativas de mínimos quadrados ordinários dos coeficientes da reta ajustada. A tabela a
seguir apresenta a análise de variância (ANOVA) do ajuste.

Considerando que , julgue o item subsequente relativo ao referido ajuste.


A estimativa da variância de é inferior a 3.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 85 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

É preciso saber a fórmula da variância do coeficiente angular.

A variância do erro (var(ε)) é o quadrado médio do erro:

O denominador da equação será calculado da seguinte forma:

Substituindo os valores na fórmula da variância do coeficiente β, temos:

Logo, a variância é inferior a 3.


Certo.

036. (Um estudo a respeito do índice de cancelamento de assinaturas (Y) de uma operadora
de telefonia celular no período de 2010 a 2014 produziu um ajuste na forma
, em que t = 2010, 2011, 2012, 2013, 2014; é a estimativa desse índice no ano t correspon-
dente; e representam as estimativas de mínimos quadrados ordinários dos coeficientes
da reta ajustada. A tabela a seguir apresenta a análise de variância (ANOVA) do ajuste.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 86 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Considerando que , julgue o item subsequente relativo ao referido ajuste.


A estimativa da variância do erro aleatório em torno da tendência ajustada é superior a 27.

Sabendo que a estimativa da variância erro aleatório é a razão da soma do quadrado do erro
(dado na tabela) e o grau de liberdade (dado na tabela), basta calcular:

Logo, é um valor inferior a 27.


Letra b.

037. 37. (CESPE/TELEBRÁS/ANALISTA SUPERIOR-ESTATÍSTICA/2015) Um estudo a respeito


do índice de cancelamento de assinaturas (Y) de uma operadora de telefonia celular no perío-
do de 2010 a 2014 produziu um ajuste na forma , em que t = 2010, 2011, 2012,
2013, 2014; é a estimativa desse índice no ano t correspondente; e representam as
estimativas de mínimos quadrados ordinários dos coeficientes da reta ajustada. A tabela a
seguir apresenta a análise de variância (ANOVA) do ajuste.

Considerando que , julgue o item subsequente relativo ao referido ajuste.


No período de 2010 a 2014, a média aritmética do índice Y foi igual a 30.

Para resolver a questão, precisamos lembrar a fórmula dos estimadores dos mínimos
quadrados:

Fazendo uma comparação com a fórmula da questão e a fórmula acima, temos que o  = t –
2012. Além disso, o valor de a também foi dado e vale 30.
Agora, é preciso calcular o valor de , a partir dos seguintes cálculos:

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 87 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Resolvendo:

Isso significa que a média de Y independe do valor de b. Substituindo os dados, temos:

Certo.

038. (CESPE/CEBRASPE/FUB/ESTATÍSTICO/2015) Após a implementação de reserva de va-


gas para os cotistas nas universidades brasileiras, um estudo foi realizado com uma amostra
de 500 estudantes de determinado curso, para ser avaliada a possível existência de uma re-
lação entre o desempenho — Y —, medido pela média final na disciplina e a forma de ingresso
na universidade — X. A tabela a seguir apresenta a análise de variância do modelo Y = α +βX
+ ε, em que Y varia de 0 a 10, X = 0 para cotas e X = 1 para ampla concorrência, α e β são os
parâmetros do modelo e ε é o erro aleatório.

Com base nas informações e na tabela apresentadas, sabendo-se que


e Var(X) = 0,2487 e considerando que 3,84
seja o valor aproximado de .
Julgue o item a seguir.
A porcentagem estimada de estudantes cotistas é menor que 50%.

A questão é simples, basta calcular o percentual de estudantes da ampla concorrência.

Portanto, o percentual de estudantes cotistas será o complementar, ou seja, 54,2%.


Errado.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 88 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

039. (CESPE/CEBRASPE/FUB/ESTATÍSTICO/2015) Após a implementação de reserva de va-


gas para os cotistas nas universidades brasileiras, um estudo foi realizado com uma amostra
de 500 estudantes de determinado curso, para ser avaliada a possível existência de uma re-
lação entre o desempenho — Y —, medido pela média final na disciplina e a forma de ingresso
na universidade — X. A tabela a seguir apresenta a análise de variância do modelo Y = α +βX
+ ε, em que Y varia de 0 a 10, X = 0 para cotas e X = 1 para ampla concorrência, α e β são os
parâmetros do modelo e ε é o erro aleatório.

Com base nas informações e na tabela apresentadas, sabendo-se que


e Var(X) = 0,2487 e considerando que 3,84
seja o valor aproximado de .
Julgue o item a seguir.
O coeficiente de determinação é maior que 0,7.

Sabendo que o coeficiente de determinação é o coeficiente de explicação, temos:

Logo, inserindo os dados encontrados na tabela:

Assim, é um número inferior a 0,7.


Errado.

040. (CESPE/CEBRASPE/FUB/ESTATÍSTICO/2015) Após a implementação de reserva de va-


gas para os cotistas nas universidades brasileiras, um estudo foi realizado com uma amostra
de 500 estudantes de determinado curso, para ser avaliada a possível existência de uma re-
lação entre o desempenho — Y —, medido pela média final na disciplina e a forma de ingresso
na universidade — X. A tabela a seguir apresenta a análise de variância do modelo Y = α +βX

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 89 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

+ ε, em que Y varia de 0 a 10, X = 0 para cotas e X = 1 para ampla concorrência, α e β são os


parâmetros do modelo e ε é o erro aleatório.

Com base nas informações e na tabela apresentadas, sabendo-se que


e Var(X) = 0,2487 e considerando que 3,84
seja o valor aproximado de .
Julgue o item a seguir:
A variância de Y é menor que 10.

Para o problema, basta sabermos a fórmula da variância de Y:

Sabendo que:

Temos:

Logo, a variância de Y é menor que 10.


Certo.

041. (CESPE/BANCO DA AMAZÔNIA/TÉCNICO CIENTÍFICO-ESTATÍSTICA/2010) Deseja-se


estudar a relação entre a quantidade de chuvas (em mm) e a produção de soja em um de-
terminado município. Para isso, utilizou-se a técnica de regressão linear simples, sendo sua
matriz de análise de variância (ANOVA) apresentada abaixo.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 90 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

A partir da tabela acima, julgue o seguinte item, com base nos conceitos de inferência
estatística.
Dadas as hipóteses H0: µ = 8 e H1: µ ≠ 8, e sabendo-se que foi utilizada uma amostra de
tamanho 25, que a variável em estudo X segue uma distribuição normal com média µ e vari-
ância 4 e que, para α = 0,05, Φ(-1,96) = 0,05 então o valor crítico para esse teste é aproxima-
damente 7,216.

Basta aplicar a ideia da distribuição normal. Assim:

Sabendo que:
Z = valor de Z tabelado = -1,96
 = valor crítico para o teste
µ=8
σ =  = 2
N = 25
Então, substituindo na fórmula, temos:

Certo.
O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 91 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

042. (CESPE/BANCO DA AMAZÔNIA/TÉCNICO CIENTÍFICO-ESTATÍSTICA/2010) Deseja-se


estudar a relação entre a quantidade de chuvas (em mm) e a produção de soja em um de-
terminado município. Para isso, utilizou-se a técnica de regressão linear simples, sendo sua
matriz de análise de variância (ANOVA) apresentada abaixo.

A partir da tabela acima, julgue o seguinte item, com base nos conceitos de inferência
estatística.
O coeficiente de determinação é aproximadamente 0,59.

Sabendo que o coeficiente de determinação é o coeficiente de explicação, temos:

Logo, inserindo os dados encontrados na tabela, temos:

Certo.

043. (FGV/IBGE/TECNOLOGISTA-ESTATÍSTICA/2016) Após estimar um modelo de regressão


linear múltipla, por MQO, um econometrista repara que, por algum motivo, a tabela contendo
os resultados da análise da variância ficou incompleta, conforme abaixo:

Apesar dos valores acima omitidos, é correto afirmar que:


a) a equação de regressão tem cinco variáveis explicativas;
b) o coeficiente de determinação R2 é igual a 0,8;

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 92 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

c) ao nível de significância de 2% não se rejeita a hipótese nula de que o modelo explica a


variável dependente;
d) o tamanho da amostra é n = 20;
e) a estimativa não tendenciosa da variância dos erros aleatórios do modelo é igual a 80.

a) Errada. A letra “a” está errada, pois a regressão tem apenas uma variável explicativa.
b) Errada. A letra “b” também está errada porque o coeficiente de determinação é 0,4.

c) Errada. Com um nível de significância de 2%, deve-se rejeitar a hipótese nula de acordo com
o p-valor de 1,05.
d) Errada. O tamanho da amostra, na verdade, é 21.
e) Certa. A estimativa da variância dos erros aleatórios é o W. Seu valor, pela fórmula, será:

Alternativa correta.
Letra e.

044. (CESPE/BANCO DA AMAZÔNIA/TÉCNICO CIENTÍFICO-ESTATÍSTICA/2010) Deseja-se


estudar a relação entre a quantidade de chuvas (em mm) e a produção de soja em um de-
terminado município. Para isso, utilizou-se a técnica de regressão linear simples, sendo sua
matriz de análise de variância (ANOVA) apresentada abaixo.

A partir da tabela acima, julgue o seguinte item, com base nos conceitos de inferência
estatística.
Foram utilizados 19 dados para a estimação do modelo de regressão linear.

Na tabela tem a informação de graus de liberdade totais. Então, basta aplicar na fórmula, com
N = número de dados:

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 93 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Substituindo o valor, temos:

Errado.

045. (CESPE/POLÍCIA FEDERAL/2021) Um estudo objetivou avaliar a evolução do número


mensal Y de milhares de ocorrências de certo tipo de crime em determinado ano. Com base
no método dos mínimos quadrados ordinários, esse estudo apresentou um modelo de regres-
são linear simples da forma Ŷ = 5 – 0,1 x T, em que Ŷ representa a reta ajustada em função da
variável regressora T, tal que 1 ≤ T ≤ 12.
Os erros padrão das estimativas dos coeficientes desse modelo, as razões t e seus respecti-
vos p-valores encontram-se na tabela a seguir.

Os desvios padrão amostrais das variáveis Y e T foram, respectivamente, 1 e 3,6. Com base
nessas informações, julgue o item a seguir.
Se a média amostral da variável T for igual a 6,5, então a média amostral da variável Y será
igual a 4,35 mil ocorrências.

Podemos utilizar a propriedade de que o valor esperado é linear. Então, o valor esperado da
soma é igual à soma de valores esperados e o produto por uma constante; o valor esperado
também fica multiplicado por essa mesma constante.

Certo.

046. (CESPE/POLÍCIA FEDERAL/2021) Um estudo objetivou avaliar a evolução do número


mensal Y de milhares de ocorrências de certo tipo de crime em determinado ano. Com base
no método dos mínimos quadrados ordinários, esse estudo apresentou um modelo de regres-

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 94 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

são linear simples da forma Ŷ = 5 – 0,1 x T, em que Ŷ representa a reta ajustada em função da
variável regressora T, tal que 1 ≤ T ≤ 12.
Os erros padrão das estimativas dos coeficientes desse modelo, as razões t e seus respecti-
vos p-valores encontram-se na tabela a seguir.

Os desvios padrão amostrais das variáveis Y e T foram, respectivamente, 1 e 3,6. Com base
nessas informações, julgue o item a seguir.
A correlação linear entre as variáveis Y e T foi igual a –0,1

Foi fornecido o coeficiente de inclinação do modelo de regressão, que é dado pela razão en-
tre a covariância e o desvio-padrão da variável regressora (T). Então, podemos calcular a
covariância:

Em seguida, podemos calcular a correlação entre as duas variáveis pela definição de covari-
ância dividida pelos desvios-padrões:

Errado.

047. (CESPE/POLÍCIA FEDERAL/AGENTE/2018) Um pesquisador estudou a relação entre a


taxa de criminalidade (Y) e a taxa de desocupação da população economicamente ativa (X)
em determinada região do país. Esse pesquisador aplicou um modelo de regressão linear
simples na forma Y = bX + a + ε, em que b representa o coeficiente angular, a é o intercepto do
modelo e ε denota o erro aleatório com média zero e variância σ2 . A tabela a seguir represen-
ta a análise de variância (ANOVA) proporcionada por esse modelo.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 95 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

A respeito dessa situação hipotética, julgue o próximo item, sabendo que b > 0 e que o desvio
padrão amostral da variável X é igual a 2.
A estimativa do coeficiente angular b, pelo método de mínimos quadrados ordinários, é
igual a 0,25.

Questão muito complicada! O enunciado forneceu o desvio-padrão de X e também o número


de graus de liberdade total da amostra (N – 1 = 900). Então, podemos calcular:

Como o enunciado forneceu a soma dos quadrados da regressão (SQReg), podemos relacio-
ná-lo com a variância de X usando o coeficiente b e a variância de X usando a expressão:

Então, basta tirar a raiz de b:

Certo.

048. (CESPE/POLÍCIA FEDERAL/AGENTE/2018) Um pesquisador estudou a relação entre a


taxa de criminalidade (Y) e a taxa de desocupação da população economicamente ativa (X)
em determinada região do país. Esse pesquisador aplicou um modelo de regressão linear
simples na forma Y = bX + a + ε, em que b representa o coeficiente angular, a é o intercepto do
modelo e ε denota o erro aleatório com média zero e variância σ2 . A tabela a seguir represen-
ta a análise de variância (ANOVA) proporcionada por esse modelo.

A respeito dessa situação hipotética, julgue o próximo item, sabendo que b > 0 e que o desvio
padrão amostral da variável X é igual a 2.
A estimativa da variância σ² é superior a 0,5.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 96 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

A variância do erro pode ser calculada pela expressão:

Errado.

049. (CESPE/POLÍCIA FEDERAL/AGENTE/2018) Um pesquisador estudou a relação entre a


taxa de criminalidade (Y) e a taxa de desocupação da população economicamente ativa (X)
em determinada região do país. Esse pesquisador aplicou um modelo de regressão linear
simples na forma Y = bX + a + ε, em que b representa o coeficiente angular, a é o intercepto do
modelo e ε denota o erro aleatório com média zero e variância σ2 . A tabela a seguir represen-
ta a análise de variância (ANOVA) proporcionada por esse modelo.

A respeito dessa situação hipotética, julgue o próximo item, sabendo que b > 0 e que o desvio
padrão amostral da variável X é igual a 2.
A correlação linear de Pearson entre a variável resposta Y e a variável regressora X é igual a 0,75.

A forma mais simples e direta de calcular o coeficiente de determinação é por meio da sua
definição:

Como o coeficiente de determinação é igual ao quadrado da correlação linear, basta tirar a


raiz quadrada:

Certo.

050. (FGV/TJ-RO/ESTATÍSTICO/2015) Num modelo de regressão linear, a violação dos pres-


supostos de homocedasticidade e do emprego de variáveis explicativas não estocásticas,
mantidas as demais hipóteses, poderá causar a perda, por parte dos estimadores de MQO,
respectivamente, das propriedades de:

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 97 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

a) não tendenciosidade e eficiência assintótica;


b) consistência e eficiência;
c) suficiência e completude;
d) eficiência e consistência;
e) não tendenciosidade assintótica e suficiência.

Para ter melhor eficiência, o estimador deverá ter menor variância. A afirmação de que há
violação dos pressupostos de homocedasticidade representa uma variação indesejada no
estimador, seja ela positiva ou negativa.
Para ter maior consistência, sabe-se que o aumento no número da amostra é fundamental.
Isso fornecerá um resultado mais preciso e a variância tenderá a 0. Logo, o enunciado mostra
que haverá perda de eficiência e consistência.
Letra d.

051. (FGV/AL-RO/ASSISTENTE LEGISLATIVO - TÉCNICO EM LOGÍSTICA/2018) Há 5 meses,


sua empresa fez um contrato para vender exclusivamente o trigo produzido por uma coope-
rativa. Seu fornecedor informa que não poderá fazer entrega nos próximos dois meses (mês
6 e mês 7). Em função dessa descontinuidade, o gerente geral de sua empresa pede para
você calcular a previsão da soma das demandas dos dois meses citados. Ele o orientou a
simplificar os cálculos, optando por uma projeção baseada em uma regressão linear que usa
os dados das demandas dos 5 meses desde o início da venda de trigo. Os dados estão apre-
sentados, mês a mês, na tabela a seguir.

Assim, após fazer os cálculos segundo essas orientações, o resultado correto para a
soma pedida é:
a) 24,5.
b) 31,6.
c) 45,0.
d) 51,9.
e) 56,1.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 98 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Primeiramente, precisamos achar a equação da regressão linear da tabela que relaciona mês,
considerado como x, e toneladas, consideradas como y. Segue a fórmula:

Para encontrar os coeficientes a e b da regressão, precisamos descobrir, antes, alguns valores


baseados nos dados da amostra. Uma tabela foi construída para tal.

x y x·y x2
1 10 10 1
2 13 26 4
3 15 45 9
4 20 80 16
5 21 105 25
∑ 15 79 266 55

Dessa forma, para encontrar o valor de b, precisamos fazer o seguinte cálculo:

Substituindo os valores e tomando n = 5 (pois são 5 meses), temos:

Já para descobrir o valor de a, precisamos da seguinte fórmula:

Substituindo os valores:

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 99 de 128
ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Logo, a equação será da forma:

Substituindo x=6 e x=7 para encontrar a soma dos meses 6 e 7, temos:

Assim, a soma dos y para o mês 6 e 7 será:

Letra d.

052. 52. (FCC/TRT-5ª REGIÃO-BA/ANALISTA JUDICIÁRIO-ESTATÍSTICA/2013) O modelo line-


ar Yt = α + βt + εt , t = 1, 2, 3,..., é utilizado para prever a venda (Yt ), em milhares de reais, de
um produto no ano (2002 + t). α e β são parâmetros desconhecidos e εt é o erro aleatório com
as respectivas hipóteses da regressão linear simples. As estimativas de α e β foram obtidas
pelo método dos mínimos quadrados, com base nas observações das vendas de 2003 a 2012.

Dados:

Considerando a equação da reta obtida pelo método dos mínimos quadrados, a previsão do
primeiro ano em que a venda irá superar R$ 60.000,00 será em:

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 100 de 128


ESTATÍSTICA
Regressão Linear
Thiago Cardoso

a) 2016.
b) 2017.
c) 2018.
d) 2019.
e) 2020.

A questão tratou a regressão linear da seguinte forma:

Precisamos calcular os coeficientes da reta. Calculando β a partir da fórmula:

Assim, temos:

Calculando α, basta lembrar-se de que o ponto (,) pertence à reta da regressão. Logo:

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 101 de 128


ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Assim, a equação da regressão é:

Note que a unidade de Y é em milhares de reais. Portanto, colocaremos 60 em vez de 60000


nos cálculos. Por fim, os valores de T para Y>60 serão:

Então o ano pedido será, no mínimo, 14,75 anos a mais que o ano inicial.

Logo, o primeiro ano em que a venda superará 60 mil reais será 2017.
Letra b.

053. (CESPE/TCE-PE/ANALISTA DE CONTROLE EXTERNO/2017) Um estudo de acompanha-


mento ambiental considerou, para , um modelo de regressão linear simples na
forma , em que a e b são constantes reais, representa a variável resposta
referente ao j-ésimo elemento da amostra, é a variável regressora correspondente, e de-
nota o erro aleatório que segue distribuição normal com média nula e variância V.
Aplicando-se, nesse estudo, o método dos mínimos quadrados ordinários, obteve-se a reta
ajustada , para
Considerando que a estimativa da variância V seja igual a 6 e que o coeficiente de explicação
do modelo (R quadrado) seja igual a 0,64, julgue o seguinte item.
A razão para cada é uma variável aleatória que segue distribuição normal
com média nula e variância unitária.

A normalização deve ser feita sempre dividindo pelo desvio-padrão, não pela variância. Por-
tanto, a variável normal padrão correspondente ao erro será:

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 102 de 128


ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Como já alertei no capítulo de Distribuição Normal, essa é uma pegadinha que as questões de
prova sempre estão fazendo. Não caia nela.
Errado.

054. (CESPE/TCE-PE/ANALISTA DE CONTROLE EXTERNO/2017) Um estudo de acompanha-


mento ambiental considerou, para , um modelo de regressão linear simples na
forma , em que a e b são constantes reais, representa a variável resposta
referente ao j-ésimo elemento da amostra, é a variável regressora correspondente, e de-
nota o erro aleatório que segue distribuição normal com média nula e variância V.
Aplicando-se, nesse estudo, o método dos mínimos quadrados ordinários, obteve-se a reta
ajustada , para
Considerando que a estimativa da variância V seja igual a 6 e que o coeficiente de explicação
do modelo (R quadrado) seja igual a 0,64, julgue o seguinte item.
Se representar a média amostral da variável regressora e se denotar a
média amostral da variável resposta, com , então .

Já vimos que a média da variável Y pode ser expressa em função da média da variável X:

Certo.

055. (CESPE/TCE-PE/ANALISTA DE CONTROLE EXTERNO/2017) Um estudo de acompanha-


mento ambiental considerou, para , um modelo de regressão linear simples na
forma , em que a e b são constantes reais, representa a variável resposta
referente ao j-ésimo elemento da amostra, é a variável regressora correspondente, e de-
nota o erro aleatório que segue distribuição normal com média nula e variância V.
Aplicando-se, nesse estudo, o método dos mínimos quadrados ordinários, obteve-se a reta
ajustada , para
Considerando que a estimativa da variância V seja igual a 6 e que o coeficiente de explicação
do modelo (R quadrado) seja igual a 0,64, julgue o seguinte item.
O desvio padrão amostral da variável regressora é igual a 1,6.

Essa questão de regressão linear foi provavelmente a questão mais difícil de Estatística que
eu já vi em provas de concurso público fora da área de Estatístico.
O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 103 de 128


ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Primeiramente, vamos à variância do erro, que é expresso em termos da soma dos quadrados
dos resíduos (depois da regressão linear).
Note que a amostra tem 26 elementos e duas variáveis envolvidas (X e Y).

Agora, vamos ao coeficiente de determinação, que é dado pela razão entre a melhoria (SQRe-
gressão) e os erros antes da regressão (SQTotais).

Vamos nos lembrar de que a melhoria (soma dos quadrados da regressão) é igual à redução
dos erros devido à regressão linear:

Como já conhecemos a soma dos quadrados dos resíduos, podemos calcular a soma dos
quadrados totais:

Agora, podemos analisar a soma dos quadrados da regressão, ou seja, a melhoria promovida
pelo modelo de regressão linear.

Já vimos uma importante relação entre a soma dos quadrados da regressão e a covariância
entre as variáveis:

Agora, podemos examinar o coeficiente b:

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 104 de 128


ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Porém, não queremos a variância, mas, sim, o desvio-padrão, que é a raiz quadrada da
variância:

Certo.

056. (CESPE/TCE-PE/ANALISTA DE CONTROLE EXTERNO/2017) Um estudo de acompanha-


mento ambiental considerou, para , um modelo de regressão linear simples na
forma , em que a e b são constantes reais, representa a variável resposta
referente ao j-ésimo elemento da amostra, é a variável regressora correspondente, e de-
nota o erro aleatório que segue distribuição normal com média nula e variância V.
Aplicando-se, nesse estudo, o método dos mínimos quadrados ordinários, obteve-se a reta
ajustada , para
Considerando que a estimativa da variância V seja igual a 6 e que o coeficiente de explicação
do modelo (R quadrado) seja igual a 0,64, julgue o seguinte item.
A correlação linear entre as variáveis x e y é igual a 0,5, pois a reta invertida proporcionada pelo
método de mínimos quadrados ordinários é expressa por , para .

O coeficiente de correlação pode ser calculado a partir do coeficiente de determinação por


meio de uma expressão clássica demais:

Errado.

057. (CESPE/TCE-PE/ANALISTA DE CONTROLE EXTERNO/2017) Um estudo de acompanha-


mento ambiental considerou, para , um modelo de regressão linear simples na
forma , em que a e b são constantes reais, representa a variável resposta
referente ao j-ésimo elemento da amostra, é a variável regressora correspondente, e de-
nota o erro aleatório que segue distribuição normal com média nula e variância V.
Aplicando-se, nesse estudo, o método dos mínimos quadrados ordinários, obteve-se a reta
ajustada , para
Considerando que a estimativa da variância V seja igual a 6 e que o coeficiente de explicação
do modelo (R quadrado) seja igual a 0,64, julgue o seguinte item.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 105 de 128


ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Se, para cada , o ponto seguir uma distribuição normal bivariada cuja
matriz de covariânicas seja dada por , então a estimativa do elemento será
igual a 2.

Na matriz de covariâncias, será a covariância. Sendo assim, temos:

Errado.

058. (FCC/AL-AP/ANALISTA LEGISLATIVO–ECONOMIA/2020) Em uma empresa de determi-


nado ramo de atividade, utilizando o método de regressão linear, obteve-se a equação de
tendência (T) da série temporal abaixo.
Os dados apresentam 10 observações da série temporal Y, que representa o faturamento de
uma empresa, em milhões de reais. Supõe-se que essa série é composta apenas de uma ten-
dência T e um ruído branco de média zero e variância constante.

A tendência apresenta a forma T = a + bt, em que a e b foram obtidos usando o método dos
mínimos quadrados. Considerando a equação obtida, tem-se que o acréscimo no faturamen-
to do ano t, com t > 1, para o ano (t + 1) é, em milhões de reais, de
a) 1,2.
b) 1,5.
c) 0,6.
d) 2,4.
e) 1,8.

Vamos utilizar a expressão para o cálculo do coeficiente angular.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 106 de 128


ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Vale notar que o coeficiente angular é o próprio incremento, porque, para X = 0, teríamos:

Para X = 1, teríamos:

Então, o incremento é:

Tanto a covariância como a variância pode ser obtida a partir dos somatórios fornecidos,
tendo em vista que:

Então, o coeficiente b fica:

Podemos obter as esperanças por suas definições:

Então, podemos calcular o coeficiente b:

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 107 de 128


ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Letra c.

059. (INÉDITA/2021) Sejam X e Y duas variáveis aleatórias tais que a covariância entre elas é
dada por SXY = 3, cujas variâncias são iguais a SXX = 4 e SYY = 9 e cujas médias são iguais,
respectivamente, a μX = 4 e μY = 0. A respeito dessa situação, julgue o seguinte item.
O modelo de regressão linear entre as duas variáveis é Y = X/3 – 4/3.

Vamos calcular o coeficiente angular da regressão linear:

Dessa forma, o modelo deve ser Y = 3/4.X + a, logo a afirmação está errada. Podemos, ainda,
calcular o coeficiente linear. Para isso, basta tomar as médias:

Portanto, o modelo de regressão linear é Y = ¾.X – 3.


Errado.

060. (INÉDITA/2021) Sejam X e Y duas variáveis aleatórias tais que a covariância entre elas é
dada por SXY = 3, cujas variâncias são iguais a SXX = 4 e SYY = 9 e cujas médias são iguais,
respectivamente, a μX = 4 e μY = 0. A respeito dessa situação, julgue o seguinte item.
O coeficiente de determinação do modelo de regressão linear é igual a 25%.

O coeficiente de determinação é igual ao quadrado da correlação.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 108 de 128


ESTATÍSTICA
Regressão Linear
Thiago Cardoso

A correlação pode ser calculada pela definição, que é a razão entre a correlação e o produto
dos desvios-padrões. No enunciado, foram fornecidas as variâncias. Para calcular os des-
vios-padrões, devemos tomar a raiz quadrada:

Agora, vamos utilizar a definição de correlação:

Certo.

061. (INÉDITA/2021) Uma equipe de médicos desejava estudar a influência do consumo di-
ário de açúcares (em gramas) sobre a pressão diastólica de indivíduos. Pelos estudos com
uma população, foram registrados os seguintes dados:

Pressão Diastólica (Y) Consumo de Açúcar (X)


Média 120 mmHg 80 g
Desvio-Padrão 20 mmHg 10 g
Covariância 120 mmHg.g 120 mmHg.g

Desejava-se fazer um estudo de regressão Y = a + bX + є, em que є é uma variável aleatória


com média nula.
Com base nessas informações, julgue o seguinte item.
O parâmetro b é menor que 1.

O parâmetro b pode ser calculado pela relação entre a covariância e o desvio-padrão da vari-
ável independente:

Logo, o coeficiente b é superior a 1.


Errado.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 109 de 128


ESTATÍSTICA
Regressão Linear
Thiago Cardoso

062. (INÉDITA/2021) Uma equipe de médicos desejava estudar a influência do consumo di-
ário de açúcares (em gramas) sobre a pressão diastólica de indivíduos. Pelos estudos com
uma população, foram registrados os seguintes dados:

Pressão Diastólica (Y) Consumo de Açúcar (X)


Média 120 mmHg 80 g
Desvio-Padrão 20 mmHg 10 g
Covariância 120 mmHg.g 120 mmHg.g

Desejava-se fazer um estudo de regressão Y = a + bX + є, em que є é uma variável aleatória


com média nula.
Com base nessas informações, julgue o seguinte item.
O coeficiente de determinação para esse modelo de regressão linear é igual a 36%.

O coeficiente de determinação é igual ao quadrado da correlação entre as variáveis.

A correlação, por sua vez, pode ser obtida como a razão entre a covariância e os desvios-pa-
drões de ambas as variáveis:

Por fim, podemos obter o coeficiente de determinação:

Certo.

063. (INÉDITA/2021) Uma equipe de médicos desejava estudar a influência do consumo di-
ário de açúcares (em gramas) sobre a pressão diastólica de indivíduos. Pelos estudos com
uma população, foram registrados os seguintes dados:

Pressão Diastólica (Y) Consumo de Açúcar (X)


Média 120 mmHg 80 g
Desvio-Padrão 20 mmHg 10 g
Covariância 120 mmHg.g 120 mmHg.g

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 110 de 128


ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Desejava-se fazer um estudo de regressão Y = a + bX + є, em que є é uma variável aleatória


com média nula.
Com base nessas informações, julgue o seguinte item.
Se uma pessoa consome 100 g de açúcar, a expectativa de sua pressão diastólica é igual
a 144 mmHg.

Vamos considerar o modelo de regressão linear:

Agora, vamos tomar a média em ambos os lados:

Dessa forma, podemos escrever:

Errado.

064. (INÉDITA/2021) Uma equipe de médicos desejava estudar a influência do consumo di-
ário de açúcares (em gramas) sobre a pressão diastólica de indivíduos. Pelos estudos com
uma população, foram registrados os seguintes dados:

Pressão Diastólica (Y) Consumo de Açúcar (X)


Média 120 mmHg 80 g
Desvio-Padrão 20 mmHg 10 g
Covariância 120 mmHg.g 120 mmHg.g

Desejava-se fazer um estudo de regressão Y = a + bX + є, em que є é uma variável aleatória


com média nula.
Com base nessas informações, julgue o seguinte item.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 111 de 128


ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Considerando um grupo de pessoas que consomem 100 g de açúcar por dia, o desvio-padrão
esperado para a pressão diastólica nesse grupo é igual a 16 mmHg.

Voltemos ao modelo de regressão linear:

Temos dois importantes erros sobre a variância de Y a considerar:


• erro de Y a priori: é a variância de Y antes de se fazer o modelo de regressão linear;
• erro de Y a posteriori: é o erro de Y que não pode ser explicado pelas variações de X.
Corresponde justamente à variância do erro aleatório e é o valor pedido.

Podemos, também, provar matematicamente que a variável de Y após o modelo de regressão


linear é igual à própria variância do erro. Se a variável X está fixa, no caso, X = 100 g por dia,
podemos calcular a variância de Y como:

Como o coeficiente a e a variável X são fixas, temos:

Portanto, a variância de Y após fixar o parâmetro X em 100 g é igual à própria variância do erro
de estimação.
Para calcular a variância do erro de estimação, podemos tomar o modelo completo e usar a
variância total de Y, isto é, antes do modelo de regressão linear.

Vamos utilizar as propriedades das variâncias:

Agora, vamos utilizar os valores fornecidos no enunciado:

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 112 de 128


ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Assim, podemos calcular o desvio-padrão do erro residual:

Certo.

065. (INÉDITA/2021) Um pesquisador construiu um modelo de regressão linear para duas


variáveis Y = a + bX + ε, em que ε é um ruído aleatório de média nula.

X Y
Média 2 10
Variância 4 36
Covariância 10,8 10,8

A respeito dessa situação, julgue o seguinte item.


A estimativa pelo método dos mínimos quadrados para o coeficiente b é maior que 3.

Pelo método dos mínimos quadrados, o coeficiente de inclinação é dado pela razão entre a
covariância, as duas variáveis e a variância da regressora:

Errado.

066. (INÉDITA/2021) Um pesquisador construiu um modelo de regressão linear para duas


variáveis Y = a + bX + ε, em que ε é um ruído aleatório de média nula.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 113 de 128


ESTATÍSTICA
Regressão Linear
Thiago Cardoso

X Y
Média 2 10
Variância 4 36
Covariância 10,8 10,8

A respeito dessa situação, julgue o seguinte item.


A estimativa pelo método dos mínimos quadrados para o coeficiente a é menor que 4.

Vamos escrever a expressão geral do modelo de regressão linear.

Aplicando o valor esperado de ambos os lados, teremos:

Errado.

067. (INÉDITA/2021) Um pesquisador construiu um modelo de regressão linear para duas


variáveis Y = a + bX + ε, em que ε é um ruído aleatório de média nula.

X Y
Média 2 10
Variância 4 36
Covariância 10,8 10,8

A respeito dessa situação, julgue o seguinte item.


O coeficiente de determinação do modelo é igual a 90%.

O coeficiente de correlação pode ser obtido a partir da correlação entre as duas variáveis:

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 114 de 128


ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Então, o coeficiente de determinação do modelo é igual ao quadrado da correlação:

Errado.

068. (INÉDITA/2021) Um pesquisador coletou dados sobre a criminalidade em diversos pa-


íses (Y) em função do desemprego (X), chegando ao modelo Y = 0,5 + 0,2.X + ε, em que ε é
uma variável aleatória com distribuição normal, média nula, estatisticamente independente X
e com variância igual a 1.
Sabe-se, ainda, que a média de X é igual a 1 e que a variância de X também é igual a 1.
A respeito dessa situação, julgue o seguinte item.
A covariância entre X e Y é igual a 0,2.

O coeficiente de inclinação do modelo é:

Certo.

069. (INÉDITA/2021) Um pesquisador coletou dados sobre a criminalidade em diversos pa-


íses (Y) em função do desemprego (X), chegando ao modelo Y = 0,5 + 0,2.X + ε, em que ε é
uma variável aleatória com distribuição normal, média nula, estatisticamente independente X
e com variância igual a 1.
Sabe-se, ainda, que a média de X é igual a 1 e que a variância de X também é igual a 1.
A respeito dessa situação, julgue o seguinte item.
A média de Y é maior que a média X.

Como o valor esperado é um operador linear, podemos utilizar a propriedade de que o valor
esperado da soma é igual à soma dos valores esperados:

Como a média de Y é igual a 0,7 e a média de X é igual a 1, a média de Y é menor.


Errado.
O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 115 de 128


ESTATÍSTICA
Regressão Linear
Thiago Cardoso

070. (INÉDITA/2021) Um pesquisador coletou dados sobre a criminalidade em diversos pa-


íses (Y) em função do desemprego (X), chegando ao modelo Y = 0,5 + 0,2.X + ε, em que ε é
uma variável aleatória com distribuição normal, média nula, estatisticamente independente X
e com variância igual a 1.
Sabe-se, ainda, que a média de X é igual a 1 e que a variância de X também é igual a 1.
A respeito dessa situação, julgue o seguinte item.
O coeficiente de determinação do modelo é elevado, o que indica uma forte relação entre as
duas variáveis.

Podemos calcular o desvio-padrão de Y:

Agora, vamos calcular os coeficientes de variação:

Portanto, o coeficiente de determinação do modelo é de apenas 3,85%, o que indica uma baixa
relação entre as duas variáveis.
Errado.

071. (INÉDITA/2021) Um pesquisador coletou dados sobre a criminalidade em diversos pa-


íses (Y) em função do desemprego (X), chegando ao modelo Y = 0,5 + 0,2.X + ε, em que ε é
uma variável aleatória com distribuição normal, média nula, estatisticamente independente X
e com variância igual a 1.
Sabe-se, ainda, que a média de X é igual a 1 e que a variância de X também é igual a 1.
A respeito dessa situação, julgue o seguinte item.
O modelo criado é homocedástico.

Como o erro é estatisticamente independente da variável X, o modelo é homocedástico.


Certo.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 116 de 128


ESTATÍSTICA
Regressão Linear
Thiago Cardoso

072. (INÉDITA/2021) Um pesquisador estava analisando a relação entre o número de homicí-


dios no Brasil (Y) e o número de operações policiais realizadas (X) na forma de uma regres-
são linear Y = a + bX + ε, em que ε é um erro aleatório com média nula. Para isso, ele coletou
dados em uma amostra de 10 anos e calculou alguns somatórios chegando às seguintes
expressões:

A respeito dessa situação, julgue o seguinte item.


A variável Y é a variável explicativa.

A variável independente ou explicativa é aquela que se encontra no eixo X. A variável Y, por-


tanto, não é a variável explicativa, já que ela está em função de X, ou seja, depende de X, e é
classificada como variável dependente ou de resposta.
Errado.

073. (INÉDITA/2021) Um pesquisador estava analisando a relação entre o número de homicí-


dios no Brasil (Y) e o número de operações policiais realizadas (X) na forma de uma regres-
são linear Y = a + bX + ε, em que ε é um erro aleatório com média nula. Para isso, ele coletou
dados em uma amostra de 10 anos e calculou alguns somatórios chegando às seguintes
expressões:

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 117 de 128


ESTATÍSTICA
Regressão Linear
Thiago Cardoso

A respeito dessa situação, julgue o seguinte item.


O coeficiente de variação de X é maior que 25%.

O coeficiente de variação é dado por .


Para calcular a média amostral de X, vamos utilizar a fórmula . Como a questão nos
forneceu os somatórios, temos:

E para calcular o desvio-padrão, iremos, também, aproveitar os somatórios fornecidos e aplicar


a expressão que diz que a variância de uma variável aleatória é igual à média dos quadrados
menos o quadrado da média.

Por fim, o desvio-padrão é a raiz quadrada da variância:

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 118 de 128


ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Podemos, então, aplicar o fator de ajuste para o desvio amostral:

Agora aplicaremos os valores encontrados na fórmula , ficando finalmente com:

Dessa forma, o item está correto.


Certo.

074. (INÉDITA/2021) Um pesquisador estava analisando a relação entre o número de homicí-


dios no Brasil (Y) e o número de operações policiais realizadas (X) na forma de uma regres-
são linear Y = a + bX + ε, em que ε é um erro aleatório com média nula. Para isso, ele coletou
dados em uma amostra de 10 anos e calculou alguns somatórios chegando às seguintes
expressões:

A respeito dessa situação, julgue o seguinte item.


Os dados indicam que o aumento do número de operações policiais provoca uma redução no
número de homicídios naquela região.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 119 de 128


ESTATÍSTICA
Regressão Linear
Thiago Cardoso

A covariância entre duas variáveis aleatórias é dada pela média do produto menos o produto
das médias. A média dos produtos pode ser calculada pela mesma ideia de que é igual ao
somatório dos produtos dividido pelo total de observações:

Assim, temos:

Podemos, então, aplicar o fator de ajuste para a covariância amostral:

De todo modo, como a covariância é negativa, as duas variáveis se relacionam inversamente.


Logo, o aumento das operações policiais provoca uma redução no número de homicídios.
Poderíamos ir além e calcular o coeficiente de inclinação do modelo de regressão:

Certo.

075. (INÉDITA/2021) Foi construído um modelo de regressão linear entre duas variáveis alea-
tórias X e Y, expresso por Y = a + b.X + ε, em que ε é um ruído branco gaussiano e estatistica-
mente independente de X. São conhecidos os seguintes dados sobre as variáveis:

X Y
Média 0 4
Desvio-Padrão 2 5
Covariância –9 –9

A respeito dessa situação, julgue o seguinte item.


O coeficiente de determinação do modelo é igual a 81%.

Vamos calcular a correlação:


O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 120 de 128


ESTATÍSTICA
Regressão Linear
Thiago Cardoso

O coeficiente de determinação é igual ao quadrado da correlação:

Certo.

076. (INÉDITA/2021) Foi construído um modelo de regressão linear entre duas variáveis alea-
tórias X e Y, expresso por Y = a + b.X + ε, em que ε é um ruído branco gaussiano e estatistica-
mente independente de X. São conhecidos os seguintes dados sobre as variáveis:

X Y
Média 0 4
Desvio-Padrão 2 5
Covariância –9 –9

A respeito dessa situação, julgue o seguinte item.


O modelo de regressão linear é Y = 4 – 0,36X + ε.

O coeficiente de inclinação pode ser obtido pela expressão:

Portanto, a inclinação da curva é igual a –2,25.


Errado.

077. (INÉDITA/2021) Foi construído um modelo de regressão linear entre duas variáveis alea-
tórias X e Y, expresso por Y = a + b.X + ε, em que ε é um ruído branco gaussiano e estatistica-
mente independente de X. São conhecidos os seguintes dados sobre as variáveis:

X Y
Média 0 4
Desvio-Padrão 2 5
Covariância –9 –9

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 121 de 128


ESTATÍSTICA
Regressão Linear
Thiago Cardoso

A respeito dessa situação, julgue o seguinte item.


A variável X é a variável regressora.

A variável regressora, também conhecida como independente, é a variável X. Vamos nos lem-
brar do esquema de regressão linear:

Certo.

078. (INÉDITA/2021) Considere os seguintes dados sobre duas variáveis aleatórias X e Y.

X Y
Média 12 4
Variância 36 9
Covariância 16,2 16,2

Desejava-se construir um modelo de regressão linear Y = a + bX + є, em que є é um ruído


branco gaussiano de média nula.
Com base nesses dados, julgue o seguinte item.
O coeficiente de variação da variável X é menor que o coeficiente de variação da variável Y.

Vamos calcular os desvios-padrões associados às duas variáveis como a raiz quadrada de


suas variâncias.

Os coeficientes de variação podem ser obtidos como a relação entre o desvio-padrão e a média:

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 122 de 128


ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Portanto, o coeficiente de variação de X é realmente menor.


Certo.

079. (INÉDITA/2021) Considere os seguintes dados sobre duas variáveis aleatórias X e Y.

X Y
Média 12 4
Variância 36 9
Covariância 16,2 16,2

Desejava-se construir um modelo de regressão linear Y = a + bX + є, em que є é um ruído


branco gaussiano de média nula.
Com base nesses dados, julgue o seguinte item.
O coeficiente de variação de uma variável aleatória está sempre limitado entre -100% e +100%.

O coeficiente de variação é obtido como a razão entre o desvio-padrão e a média da variável


aleatória. O desvio-padrão é sempre positivo e pode ser maior que a média, portanto o coefi-
ciente de variação é sempre maior ou igual a 0 e ele pode ser superior a 100%.
Errado.

080. (INÉDITA/2021) Considere os seguintes dados sobre duas variáveis aleatórias X e Y.

X Y
Média 12 4
Variância 36 9
Covariância 16,2 16,2

Desejava-se construir um modelo de regressão linear Y = a + bX + є, em que є é um ruído


branco gaussiano de média nula.
Com base nesses dados, julgue o seguinte item.
O coeficiente angular do modelo de regressão linear descrito é igual a 3.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 123 de 128


ESTATÍSTICA
Regressão Linear
Thiago Cardoso

O coeficiente angular é igual à razão entre a covariância e a variância da regressora.

Errado.

081. (INÉDITA/2021) Considere os seguintes dados sobre duas variáveis aleatórias X e Y.

X Y
Média 12 4
Variância 36 9
Covariância 16,2 16,2

Desejava-se construir um modelo de regressão linear Y = a + bX + є, em que є é um ruído


branco gaussiano de média nula.
Com base nesses dados, julgue o seguinte item.
A variância da variável aleatória X + Y é inferior a 50.

Vamos utilizar a expressão da variância da soma:

Errado.

082. (INÉDITA/2021) Considere os seguintes dados sobre duas variáveis aleatórias X e Y.

X Y
Média 12 4
Variância 36 9
Covariância 16,2 16,2

Desejava-se construir um modelo de regressão linear Y = a + bX + є, em que є é um ruído


branco gaussiano de média nula.
Com base nesses dados, julgue o seguinte item.
O coeficiente de determinação do modelo de regressão linear é igual a 90%.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 124 de 128


ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Vamos calcular a correlação entre as duas variáveis:

O coeficiente de determinação é igual ao quadrado da correlação:

Errado.

083. (INÉDITA/2021) Um pesquisador desejava pesquisar a relação entre a taxa de crimina-


lidade (X) e o volume movimentado de drogas (Y) em determinada região do país. Esse pes-
quisador utilizou um modelo de regressão linear simples na forma Y = a + bX + ε, em que ε
denota o erro aleatório com média nula e variância σ². A tabela a seguir representa a análise
de variância (ANOVA) proporcionada por esse modelo.

Fonte de Variação Graus de Liberdade Soma dos Quadrados


regressão 2 6400
erro 398 3600
total 400 10000

A respeito dessa situação, julgue o próximo item:


O coeficiente de determinação do modelo é igual a 80%.

Por definição, o coeficiente de determinação é igual à relação entre a soma dos quadrados da
regressão e a soma dos quadrados totais:

Errado.

084. (INÉDITA/2021) Um pesquisador desejava pesquisar a relação entre a taxa de crimina-


lidade (X) e o volume movimentado de drogas (Y) em determinada região do país. Esse pes-
quisador utilizou um modelo de regressão linear simples na forma Y = a + bX + ε, em que ε
denota o erro aleatório com média nula e variância σ². A tabela a seguir representa a análise de
variância (ANOVA) proporcionada por esse modelo.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 125 de 128


ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Fonte de Variação Graus de Liberdade Soma dos Quadrados


regressão 2 6400
erro 398 3600
total 400 10000

A respeito dessa situação, julgue o próximo item:


A estimativa da variância do erro é superior a 9.

Seja N o número de elementos da amostra, N = 400, porque corresponde ao total de graus de


liberdade. A expressão da variância do erro é:

Certo.

085. (INÉDITA/2021) Um pesquisador desejava pesquisar a relação entre a taxa de crimina-


lidade (X) e o volume movimentado de drogas (Y) em determinada região do país. Esse pes-
quisador utilizou um modelo de regressão linear simples na forma Y = a + bX + ε, em que ε
denota o erro aleatório com média nula e variância σ². A tabela a seguir representa a análise
de variância (ANOVA) proporcionada por esse modelo.

Fonte de Variação Graus de Liberdade Soma dos Quadrados


regressão 2 6400
erro 398 3600
total 400 10000

A respeito dessa situação, julgue o próximo item:


O desvio-padrão da variável Y é igual a 5.

Por definição, a variância de Y é dada pelo SQTot, como mostrado a seguir:

Então, o seu desvio-padrão é a raiz quadrada da variância:

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 126 de 128


ESTATÍSTICA
Regressão Linear
Thiago Cardoso

Certo.

Thiago Cardoso
Engenheiro eletrônico formado pelo ITA com distinção em Matemática, analista-chefe da Múltiplos
Investimentos, especialista em mercado de ações. Professor desde os 19 anos e, atualmente, leciona
todos os ramos da Matemática para concursos públicos.

O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

www.grancursosonline.com.br 127 de 128


O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.

Você também pode gostar