Você está na página 1de 70

Estatística p/AFRFB

Teoria e exercícios comentados


Prof. Jeronymo Marcondes - Aula 09

AULA 09 - Correlação e Regressão

SUMÁRIO PÁGINA
Associação entre variáveis 2
Associação entre variáveis qualitativas 4
Associação entre variáveis quantitativas 10
Associação entre variáveis qualitativas e quantitativas 15
Introdução ao método de regressão 17
Estimação com base em amostra e Método dos Mínimos 21
Quadrados Ordinários (MQO)
Tabela ANOVA 28
Teste de hipóteses sobre os coeficientes 35
Eficiência do estimador de Mínimos Quadrados Ordinários (MQO) 38
Lista de Exercícios resolvidos 60
Gabarito 70

Bem vindos à nossa última aula teórica! Nesta aula, temos alguns assuntos
importantes para discutir:

1) Correlação.
2) Regressão Linear.

Dica de um concurseiro

Aquele pensamento de estudar matérias de exatas, tais


como estatística, só por exercícios não é muito correto. Toda
matéria, independentemente de qual, deve ser estudada com
base em teoria também. Muitos exercícios podem exigir
conhecimentos mais aprofundados, tal como vocês verão no
simulado.

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 1 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

1. Associação entre variáveis

Até agora estudamos o comportamento de variáveis com distribuições e parâmetros


definidores de sua dinâmica, tal como sua média, por exemplo.

Mas, uma questão que os estatísticos sempre têm que abordar é: como é o
comportamento conjunto de mais de uma variável?

Por exemplo, um pesquisador pode estar interessado em saber como a renda dos
indivíduos de uma determinada região está correlacionada com seus gastos em
consumo. O que deve ser feito é avaliar como a variável "renda” de um determinado
indivíduo se relaciona com a variável "gastos em consumo” do mesmo.

Neste caso, teríamos um conjunto de variáveis relativas à renda dos diversos


indivíduos pesquisados (rt) e outro conjunto com as variáveis relativas ao consumo
destes mesmos indivíduos (q). Suponha que nossa amostra seja dada por 8 (oito)
indivíduos, cujos valores para estas variáveis sejam dados por:

Renda Consumo
Indivíduo (R$) (R$)
1 1000 700
2 1500 800
3 2000 1000
4 2300 1100
5 2700 1200
6 5500 2300
7 6000 2500
8 7300 3000

Se você colocar em um gráfico os pontos relativos a cada indivíduo, de forma que


localizemos o valor de consumo no eixo vertical, da renda no eixo horizontal e que o
ponto seja a "intersecção” destes valores, teríamos o seguinte gráfico de dispersão:

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 2 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Olhe o que este gráfico está te mostrando! Conforme a renda cresce, o valor gasto
em consumo também cresce, mas a taxas decrescentes. Veja que, para o primeiro
indivíduo o consumo é 70% de toda sua renda, enquanto que, para o 8° indivíduo, o
consumo é 41%.

Viu que conclusão interessante você tirou a partir da análise desta amostra fictícia?
A lista de possibilidades é infinita! Vocês terão que fazer isso várias vezes no setor
público, pois a análise de muitos projetos necessita este conhecimento estatístico.

Assim, nesta aula, precisaremos estudar a forma de avaliar o comportamento


conjunto de variáveis. Entretanto, vocês devem lembrar-se de que há dois tipos de
variáveis: quantitativas e qualitativas. Assim, podemos ter 3 (três) casos de
associação entre variáveis:

1) Entre duas variáveis qualitativas;


2) Entre duas variáveis quantitativas;
3) Entre uma variável qualitativa e outra quantitativa.

Então, vamos começar!

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 3 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

2. Associação entre variáveis qualitativas

Para que vocês entendam direitinho, vamos analisar alguns exemplos do livro
"Estatística Básica” dos professores Bussab e Morettin.

Suponha que queiramos verificar se existe associação entre o sexo e a carreira


escolhida por 200 alunos de Economia e Administração. Nós podemos verificar
como se dá a distribuição conjunta destas variáveis por meio de uma tabela de
dupla entrada ou tabela de contingência. Veja como seria uma tabela deste tipo:

Curso\Sexo Masculino Feminino Total


Economia 85 35 120
Administração 55 25 80
Total 140 60 200

Olhe, cada entrada da tabela representa quantas vezes ocorre cada realização
conjunta. Não entendeu? Veja o primeiro quadradinho da tabela, que tem o valor
de 85:

Curso\Sexo Masculino Feminino Total


Economia 85 35 120
Administração 55 25 80
Total 140 60 200

O que ele está te dizendo é que há 85 homens que cursam economia, ou seja, ele
dá a realização simultânea de (sexo = masculino) e (curso = economia).

Em termos matriciais, nós podemos chamar esta


célula de (1, 1), pois se trata da intersecção da primeira linha com a primeira coluna.
Assim, sempre que você ver a definição de uma célula de uma matriz com base em
dois números entre parênteses (x e y , por exemplo), o que isso está te falando é
que: (x ,y ) = (linha, coluna) = intersecção da linha x com coluna y.

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 4 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Este é um exemplo de amostragem aleatória estratificada em contraposição à


amostragem aleatória simples, que estudamos até agora! Esta última é o caso no
qual qualquer membro da população tem a mesma chance de ser sorteado para a
amostra, como se fosse um sorteio. Já no presente exemplo, a população foi
dividida em subgrupos (tal como homens e mulheres, por exemplo) e, a partir daí, é
realizada uma amostragem aleatória simples em cada um destes estratos.

E qual é a quantidade de alunos de Economia, independentemente do sexo?

Ora, basta somar a linha respectiva à economia:

Curso\Sexo Masculino Feminino Total


Economia 85 35 120
Administração 55 25 80
Total 140 60 200

Entendeu? Há 120 alunos de Economia, sendo 85 homens e 35 mulheres. Este


valor, que nos dá o valor total de realizações de uma variável qualitativa
(independentemente das outras variáveis qualitativas), é chamado de distribuição
marginal. Na nossa tabela, estes valores estão nas células (1,3), (2,3), (3,1) e (3,2).

Em vez de trabalharmos com frequências absolutas, como é o caso, fica mais fácil
visualizar interações utilizando frequências relativas!

-“Como fazer isso, professor”?

Basta dividir as células pelas suas distribuições marginais.

“Mas, devo utilizar as distribuições marginais das linhas ou das colunas”?

Aí,depende do que você quer avaliar. No nosso caso, vamos fixar o total dos sexos
como 100% e, com base nisso, encontrar quanto cada curso representa de
matriculas por sexo. Veja como ficaria:

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 5 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Curso\Sexo Masculino Feminino Total


Economia 61% 58% 60%
Administração 39% 42% 40%
Total 100% 100% 100%

Viu o que eu fiz? Eu dividi cada célula pelo total dado pela coluna e multipliquei por
100. Por exemplo, na célula (1,1), realizamos a divisão de 85 por 140, o que dá,
aproximadamente, 0,61.

Agora eu te pergunto: existe relação entre o sexo da pessoa e o curso escolhido?

Quando nós fixamos a coluna e encontramos as frequências relativas, estamos


encontrando, nas duas primeiras colunas, qual o percentual de cada sexo que
frequenta cada curso, enquanto que, na última coluna, determinamos o percentual
de pessoas que frequenta cada curso, independentemente do sexo.

INDO
^jrrnais fundo Isso não te lembra nada? Exatamente! As
probabilidades condicionais. As duas primeiras colunas referem-se a “frequências
condicionais”, enquanto que a última seria como se fosse uma “frequência
incondicional”. Lembra-se de que, quando os eventos são independentes, a
probabilidade condicional é igual à incondicional? Aplique um raciocínio análogo ao
presente caso, se a frequência condicional é muito próxima à incondicional, a
“condição” parece não ajudar a explicar o fenômeno.

Vamos exemplificar! No nosso exemplo, 60% das pessoas da população


frequentam cursos de Economia e 40% frequentam cursos de Administração,
independentemente do sexo. Assim, olhando a tabela, podemos ver que as
proporções do sexo masculino (61% e 39%) e feminino (58% e 42%) são muito
próximas das marginais (60% e 40%). Este resultado parece indicar não haver
dependência entre as duas variáveis. Com base nestas afirmações podemos inferir
que, provavelmente, o sexo de uma pessoa não influencia na escolha entre
cursos de Economia e Administração.

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 6 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Veja outro exemplo:

Curso\Sexo Masculino Feminino Total


Física 100 (71%) 20(33%) 120(60% )
Ciências Sociais 40 (29%) 40(67% ) 80(40% )
Total 140(100% ) 60(100% ) 200(100% )

Agora a coisa é diferente! Veja que as proporções de frequência nos cursos de


Física e Ciências Sociais por parte do sexo masculino (71% e 29%,
respectivamente) e feminino (29% e 67%, respectivamente) são muito diferentes
das proporções marginais (60% e 40%, respectivamente). Ou seja, quando
incluímos a informação referente ao sexo do indivíduo, a distribuição de pessoas
pelos cursos se modifica muito com relação ao total geral. Assim, as variáveis
parecem estar associadas!

Porém, muitas vezes, é importante quantificar esta associação, isso é, o


“quanto” estas variáveis estão associadas?

Para isso utilizaremos o chamado coeficiente de contingência de Pearson. Este


coeficiente se baseia no somatório dos desvios de cada célula com relação ao seu
valor esperado caso as variáveis em estudo não fossem associadas. Não entendeu
nada, não é? Vamos voltar ao exemplo dos alunos de Física e Ciências Sociais.

No fundo, o que fizemos foi comparar a proporção marginal de cada curso com
relação às suas respectivas proporções associada a cada sexo. Assim, caso as
variáveis não tivessem nenhuma associação, esperar-se-ia que:

Curso\Sexo Masculino Feminino Total


Física 84 (60%) 36 (60%) 120 (60%)
Ciências Sociais 56 (40%) 24 (40%) 80 (40%)
Total 140 (100%) 60(100% ) 200 (100%)

Entendeu? Se as variáveis não forem associadas, espera-se que 60% das pessoas
frequentarão cursos de Física e 40% cursos de Ciências Sociais,
independentemente do sexo. Se isso for verdade, basta aplicar estes

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 7 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - A ula 09
percentuais no total de cada coluna que encontraríamos os valores esperados
de cada célula se as variáveis não fossem associadas.

Se compararmos o valor real de cada célula com seu valor esperado, teremos a
seguinte distribuição:

Curso\Sexo Masculino Feminino Total


Física 100-84=16 20-36=-16 0
Ciências Sociais 4 0- 56=-16 4 0 -24=16 0
Total 0 0 0

Este é o mesmo problema que encontramos quando estudamos a variância,


pois a soma dos desvios deve igualar zero. Assim, vamos adotar uma estratégia
semelhante para resolver o problema, elevando os desvios ao quadrado e dividindo
tal resultado pelo valor esperado da célula:

Curso\Sexo Masculino Feminino


Física (1 6 )7 8 4 (-16) 7 36
CiênciasSociais (-1 6 )7 5 6 (16) 7 24

Pode-se provar que a soma de todos estes elementos


gera uma estatística de teste qui-quadrado (x2). Não cabe demonstrar isso
aqui, portanto, decore!

Assim, a estatística de teste para análise de associação entre estas variáveis é


dada por:

2
( 16)2 _ ( - 16)2 _ ( 16)2 _ ( - 16)2
x = 3,04 + 4, 57 + 7, 11 + 10,67 = 25,4
84 + 56 + 24 + 36

Este é um valor significantemente maior do que zero, portanto, pode-se inferir que
as variáveis estão associadas. Quanto maior este valor, menor é a associação
entre as variáveis.

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 8 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estratégia
r nONNr Ci i UR R« ;S nO<S;
C
Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Viu como se faz? Portanto, guarde a fórmula:

Sendo que esta expressão está te dizendo para somar, para todas as células (i, í ), o
quadrado das diferenças entre o valor real (ríjí) e o valor esperado em cada célula
(eu), caso as variáveis não fossem associadas, divido pelo seu respectivo valor
esperado.

“Tá bom professor, mas devo comparar este valor com a tabela qui-
quadrado”?

Olha, não precisamos entrar nisso. Esta parte fica um pouco mais complicadinha e
nunca cai em concursos que não sejam específicos para estatísticos. Assim, só
saiba calcular a estatística de teste e o coeficiente de Pearson que já basta.

Com base neste valor qui-quadrado, pode-se calcular o coeficiente de contingência


de Pearson, dado por:

C o e fic ie n te d e P e a rs o n =

Sendo n o tamanho da amostra.

Surge uma pergunta natural:

-“Qual o tamanho ideal de minha amostra”?

Essa é uma pergunta sem uma única resposta! Isso muda de autor para autor. Mas,
é importante que vocês conheçam uma "regrinha de bolso” para determinação do
valor ideal de uma amostra com base no erro amostrai tolerável (E).

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 9 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Nós já estudamos o que é um erro amostrai: a margem


de erro da aula anterior. Existe uma fórmula que nos dá a amostra mínima com
base no máximo de erro que estamos dispostos a cometer:

Isso é, para um erro amostral da ordem de 4%, devemos ter uma amostra de, no
mínimo:

Ou seja, nossa amostra deve ter, no mínimo, 625 elementos.

3. Associação entre variáveis quantitativas

No caso de uma análise entre variáveis quantitativas o nosso "arsenal” para análise
é muito maior! Nós podemos tanto utilizar o que estudamos na seção anterior,
quanto outras possibilidades gráficas, como o diagrama de dispersão.

Veja o exemplo que demos no início da aula:


Renda Consumo
Indivíduo (R$) (R$)
1 1000 700
2 1500 800
3 2000 1000
4 2300 1100
5 2700 1200
6 5500 2300
7 6000 2500
8 7300 3000

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 10 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Este é um caso de variáveis quantitativas em que podemos usar o diagrama de


dispersão, ensinado na aula 00. O que eu quero que vocês notem é o seguinte:

Entendeu? Se você traçar uma reta que "mais ou menos” que une os pontos, você
encontra uma reta inclinada para cima, ou como chamam os matemáticos,
positivamente inclinada. O que isso quer dizer é: quanto maior a renda, maior
será o consumo associado, isso é, trata-se de variáveis positivamente
correlacionadas.

Este é um caso possível de associação entre duas variáveis quantitativas, mas não
o único. As variáveis podem ser negativamente correlacionadas. Neste caso,
quanto maior uma delas, menor será o valor associado na outra.

Quer um exemplo? Suponha que seja feita uma pesquisa que relacione o PIB de 6
economias com a taxa de incidência de leptospirose nas mesmas. É de se esperar
que economias mais ricas tendam a ter melhores condições de saneamento, o que
reduz a taxa de incidência desta doença. Em termos gráficos, seria algo mais ou
menos assim:

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 11 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - A u la 09

Com efeito, os pontos indicam que, quanto maior o PIB, menor a taxa de incidência
da doença. O traçado de uma reta que explicita esta dinâmica mostra uma reta
inclinada para baixo, ou negativamente inclinada. Este é um caso de variáveis
negativamente associadas.

Os dois casos mostram exemplos de correlação linear, ou seja, que podem ser
representados por uma linha reta. Podem existir casos de associação não linear,
entretanto não vamos entrar neste detalhe. Apenas entenda o que é uma
associação entre variáveis, que pode ser positiva (quando uma aumenta a
outra também aumenta, ou quando uma se reduz a outra também reduz) ou
negativa (quando uma aumenta a outra reduz ou quando uma reduz a outra
aumenta). No frigir dos ovos: uma relação positiva significa que a “direção"
em que uma variável se movimenta é a mesma da outra variável, por outro
lado, uma relação negativa implica que as variáveis se “movimentarão" em
sentidos opostos.

-“E se as variáveis forem não associadas”?

Boa pergunta! Neste caso, não conseguiremos tirar uma "tendência” da análise
gráfica. A título de ilustração:

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 12 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWWMATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - A u la 09

Neste caso, não há uma tendência clara entre as duas variáveis! Este é um exemplo
de variáveis não associadas.

Uma medida numérica de associação pode ser obtida pelo coeficiente de


correlação (p). Para uma amostra de tamanho (n ), o coeficiente de correlação entre
duas variáveis quaisquer, x e y, é dado por:

Sendo x e y as médias e dp(x) e dp{y) os desvios padrões das variáveis x e y


respectivamente.

Em termos bem simples, cada parêntese representa a versão padronizada de cada


uma das variáveis, portanto o coeficiente de correlação é igual à média dos
produtos dos valores padronizados das variáveis em análise. Este valor vai de - 1
(menos hum) a 1 (hum):

-!< p < !

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 13 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Um valor próximo de 1 indica associação positiva, enquanto


que outro próximo de -1 indica associação negativa. Um valor próximo de zero
indica não associação entre variáveis.

Outra forma de explicitar o coeficiente de correlação é por meio da covariância.

Covariância (Cov) é uma medida da “variância conjunta” entre duas variáveis. Para
uma amostra de tamanho (n ), a covariância entre duas variáveis quaisquer, x e y, é
dada por:

Cov(x, y) = Z[O* - x) •(yf - y)]


n

Aí fica fácil ver que:

Cov{x, y)
Pxy dp{x) •dp{y)

Entendeu? Antes de passarmos para o próximo tópico, vocês precisam saber uma
coisa importante demais sobre a covariância!

A covariância entre duas variáveis é influenciada pela


associação que uma variável tem sobre a outra. Assim, se duas variáveis são
independentes, a covariância entre ambas é igual à zero. Porém, o fato de a
covariância entre duas variáveis ser igual à zero não quer dizer que elas sejam
independentes. Atenção a isso!

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 14 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

4. Associação entre variáveis quantitativas e qualitativas

Este é um caso que não é muito cobrado em concurso, assim vamos tentar ser mais
rápidos aqui.

Vamos nos basear em outro exemplo dos professores Bussab e Morettin. Suponha
que seja feita uma pesquisa de forma a avaliar o comportamento dos salários
(variável quantitativa) dentro de cada categoria de grau de instrução (variável
qualitativa). Os resultados encontrados foram:

Grau de Instrução Tamanho da amostra (n ) Média Salarial Variância Amostral


Fundamental 12 7,84 7,77
Médio 18 11,54 13,1
Superior 6 16,48 16,89
Total 36 11,12 20,46

Pode-se inferir que, quanto maior o nível educacional, na média, maior será o
salário do indivíduo. Uma forma de confirmar a veracidade dessa afirmação é
percebendo que a variância amostrai para todos os dados é maior do que a
variância para cada subclasse.

-“Por que isso é importante”?

Ora, se os dados totais apresentam maior variância do que cada classe


individualmente, isso significa que re»uzir nossa análise a subclasse melhora a
acurácia de nossas conclusões.

-“E se, por exemplo, a variância da subclasse “ensino superior” fosse de 23”?

Neste caso, a subdivisão dos dados em uma classe de nível superior não estaria
"ajudando” na análise, pois a variabilidade seria menor se analisássemos os dados
dos salários como um todo.

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 15 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estratégia
r nONNr Ci i UR R« ;S nO<S;
C
Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Assim, podemos quantificar o grau de associação entre duas variáveis como o


“ganho relativo na variância” obtido pela introdução da variável qualitativa.
Isso é feito por meio do R2 (nós a estudaremos com mais detalhes logo mais).

Para quantificarmos o R2 precisamos definir (Var), a média das variâncias dentro


dos subgrupos, que chamaremos de variância média. Ao definirmos Vart • nt como
o produto da variância do subgrupo i pelo tamanho da amostra no mesmo, a
variância média será dada por:

Z(Vari ■nt)

Assim, com base na variância total da amostra (Var), podemos definir R2 como:

Então se aplicarmos esta fórmula a nosso exemplo acima:

Isso quer dizer que 41,5% da variabilidade dos salários é explicada pela
variável “grau de instrução”.

Beleza, terminamos a parte de correlação, vamos à regressão!

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 16 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

5. Introdução ao método de Regressão

Pessoal, hora de forçar a memória escolar e lembrar o que é uma função, ou


melhor, uma função linear. Função é uma relação entre duas variáveis, como por
exemplo:

a) Vendas de uma empresa e gastos em propaganda;

b) Aumento de peso de uma pessoa e quantidade de comida ingerida;

c) Valor da conta de energia e número de equipamentos elétricos em uma casa.

Se chamarmos a primeira variável de cada item de y e a segunda de x,


matematicamente, pode-se descrever tal relação como:

y = f(x).
O que quer dizer "y é função de X" ou que as vendas de uma empresa são uma
função da quantidade investida em propaganda. Pode-se afirmar que y depende de
x, portanto, a nomenclatura usual chama y de variável dependente ou explicada e x
de variável independente ou explicativa.

Uma das formas de se expressar tal função é a partir de uma relação linear, tal
como:

y = 2 + 3x.

Ou, genericamente, para qualquer valor que pudesse substituir 2 e 3 na equação


acima:

y = a + 0x. (1)

Este é um exemplo de uma função linear, dado que o expoente de x é 1. (lembrem-


se que qualquer variável elevada a 1 é igual à própria variável). Esta função linear
(lembrem-se da escola) é uma reta. Se x estivesse elevado ao quadrado, seria uma
parábola. Para que você tenha certeza que isso é uma reta, substitua alguns valores

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 17 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estratégia
r nONNr Ci i UR R« ;S nO<S;
C
Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09
na primeira equação e os coloque em um gráfico, você verá que se trata de uma
equação de reta.

- "Professor, ótimo, mas por que você está falando tudo isso?”

Porque, meus queridos alunos, um dos principais objetivos da análise de regressão


é encontrar uma função linear que descreva o comportamento estatístico entre duas
variáveis. Assim, com base em uma série estatística, a estimação de uma regressão
possibilitaria que você encontrasse os valores de a e na equação (1).

O processo de encontrar a relação entre y e x é chamado de Regressão e,


se for uma reta, como na equação (1), é chamado de Regressão Linear.
Como a equação (1) só possui uma variável explicativa, o processo de
encontrar tal relação se chama Regressão Linear Simples.

Porém, perceba que é muito raro que uma variável do mundo real, ainda mais
quando ligada à economia ou a fenômenos sociais, consiga ser representada por
uma reta. Vamos supor que estamos tratando do exemplo (a) acima descrito para o
ano de 2012 e que possuímos dados de todas as vendas de todas as empresas de
um determinado setor e de todos os gastos de propaganda efetuados por estas
empresas.1 Colocando tal relação em um gráfico:

1 Gente, só para chamar a atenção, por enquanto estamos trabalhando com dados coletados em um
único período de tempo, no caso uma única observação por empresa no ano de 2012 (pode ser a soma
de todo o ano, ou de um determinado mês, etc.) Este tipo de disposição de dados é chamado de dados em
cortes transversais ou “cross section".

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 18 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

A reta é representada pela equação (1) e os pontos são os valores que y assume
para cada x.

E aí pessoal, o que vocês estão vendo? Veja que a reta explica bem o
comportamento da variável, se aproximando dos valores reais, mas ainda assim não
explica tudo. Olhe o 3° ponto, nele o valor das vendas aumentou, na média, muito
mais do que o esperado para um determinado investimento em propaganda. Isso
pode ser decorrência de muitos fatores do mundo real, como o fato de que a
empresa talvez fosse muito desconhecida até então, portanto, um pequeno
investimento em propaganda teve resultados muito grandes quando comparado a
empresas que já são relativamente conhecidas. Este tipo de raciocínio pode ser
aplicado para os pontos abaixo da reta também, que apresentam, na média,
retornos abaixo do esperado para um determinado gasto em propaganda.

Assim, se uma versão linear e simples da equação de reta for a mais bem ajustada
à série de dados, pode-se inferir que a equação que representa a real dinâmica do
fenômeno em estudo, no caso, as vendas da empresa é dada por:

yi = a + p X i + Et

Sendo m o termo que representa o "erro”, ou seja, os desvios das observações com
relação à reta (pensem comigo, o erro é a distância da reta até cada um daqueles
pontos no gráfico acima). O subscrito 7 ’ se refere à cada uma das empresas

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 19 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estratégia
r nONNr Ci i UR R« ;S nO<S;
C
Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09
analisadas em 2012, isto é, a empresa representada no primeiro ponto no gráfico
tem subscrito (1), a segunda subscrito (2) e assim por diante.

Vocês concordam comigo que não dá para levar em conta todas as variáveis que
afetam o comportamento das vendas de todas as empresas? Pode ser que um
gerente comercial muito bom de serviço tenha pedido demissão da empresa (4), o
que puxaria suas vendas para baixo, apesar do investimento em propaganda, etc.
Assim, o erro leva em conta estes efeitos impossíveis de se mensurar, mas que
afetam a dinâmica de y.

Bom, apesar do fato de que este erro é algo que nós temos que aprender a viver
com ele, o mesmo possui uma característica interessante que nós temos que levar
em conta:

E (eô = 0

Isto é, a média dos erros é igual a zero. Ou seja, os desvios "para cima da reta”
igualam o valor dos desvios” para baixo da reta” na média.

1- hipótese sobre o modelo de regressão linear:


atento! E (eô = 0

Ou seja, estes erros são supostamente aleatórios, então a teoria nos permite inferir
que, se o modelo estiver corretamente especificado, o erro será, na média, igual à
zero.

E aí rapaziada, que cara de sono é esta? Vamos acordando, pois um futuro servidor
público não pode dormir em serviço! Você será bem remunerado e com status, mas
com muita responsabilidade.

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 20 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

6. Estimação com base em amostra e Método dos Mínimos Quadrados


Ordinários (MQO)

Vamos ver se vocês estão realmente atentos: lembram-se quando eu disse que a
regressão tinha a ver com todas as empresas, todas as receitas de vendas e todos
os gastos em propaganda?

Atenção, até agora falamos de uma regressão com a população, ou universo, das
variáveis escolhidas. Mas, na maioria dos casos, não possuímos o universo. Por
exemplo, no caso de uma regressão do valor salarial obtido por um trabalhador em
função do nível de escolaridade de cada um destes, é praticamente impossível se
realizar este exercício, pois a base de dados para isto é infinitamente grande.
Assim, na maior parte das vezes, o pesquisador acaba trabalhando com uma
amostra! Ao se avaliar uma regressão para uma amostra estaremos a estimar os
parâmetros de regressão (a e p na equação (1)), ou como nós falamos no dia a
dia, estimar uma regressão.

- “Tá bom Professor, mas, afinal de contas, como se estima uma regressão?”

Ótimo! Tente imaginar um momento: a estimativa dos parâmetros deve ser feita de
forma a garantir o que?

É isso! De forma a minimizar os erros. Isso é feito pelo método dos Mínimos
Quadrados Ordinários (MQO) que nos dá um valor estimado para a e p, que,
chamaremos, a partir daqui, de a e b.

Com base no fato de que a média dos erros é igual a zero, não há como se
minimizar a soma dos erros, dado que o valor sempre será zero. Assim, o objetivo
do método é minimizar a soma dos quadrados dos erros, o que é feito pelo

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 21 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estratégia
C O N C U R S O S ^
Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - A ula 09
estimador de MQO. Gente, sejamos práticos, nunca caiu e, provavelmente, nunca
vai cair a derivação do estimador de MQO, assim, decorem:

X x ty t _ C o v ( x ,y )
Xx f V ar(x )

a = y — bx

Sendo que o travessão sobre determinada variável representa o valor médio da


mesma, define-se a média de uma variável, bem como o valor de uma variável
centrada na média:

xi = xi - x

Assim, b pode ser encontrado pelo somatório da multiplicação de cada


Xj com seu respectivo yt (covariância entre x e y) dividido pela soma de todos os xt
elevados ao quadrado (variância de x). Gente, muita atenção mesmo, perceba que
as variáveis devem ser inseridas na fórmula acima de forma a estarem centradas na
média, ou seja, reduzidas do valor da média de sua série.

Atenção! Muitos exercícios de concursos públicos se utilizam de propriedades


estatísticas que permitem inferir que:

Ou seja, o exercício fornece o somatório das variáveis utilizadas na equação,


mas sem estarem centradas na média. Neste caso, você precisa decorar estas
fórmulas, ok?

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 22 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

No caso da segunda equação, que define a (também chamado de intercepto), há


uma forma específica, mas ela é um pouco esquisita e eu acho que esta forma
facilita a memorização, dado que com os valores médios das variáveis e com a
estimativa de b, encontra-se a.

Exercício 1

Só para vocês ficarem contentes em ver uma aplicação prática, vamos fazer
um exemplo. Vamos lá! Dada a seguinte série de dados, estime a regressão
linear Y = f(X), ou costumeiramente chamada de “Y contra X”.

Variáveis X Y
103 160
123 167
145 207
126 173
189 256
211 290
178 237
155 209
141 193
156 219
166 235
179 234
197 273
204 272
125 181
112 166
107 161
135 195
144 201
188 255
Soma 3084 4284
Média 154,2 214,2

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 23 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Resolução

Bom, primeiramente, vamos encontrar alguns dados necessários para a

X Y (Ycentrado)2
Variáveis X Y X(centrado)*Y(centrado) (Xcentrado)2
centrado centrado
103 160 -51,2 -54,2 277 5 ,0 4 262 1 ,4 4 2 9 3 7,64
123 167 -31,2 -47,2 1472,64 9 7 3 ,4 4 2 2 2 7,84
145 207 -9,2 -7,2 66 ,2 4 84,64 51,84
126 173 -28,2 -41,2 1161,84 7 9 5 ,2 4 1697,44
189 256 34,8 4 1 ,8 1454,64 1211,04 1747,24
211 290 56,8 75,8 4 3 0 5 ,4 4 3 2 2 6 ,2 4 5 7 4 5 ,6 4
178 237 23,8 22,8 5 42,64 5 6 6 ,4 4 5 1 9 ,8 4
155 209 0,8 -5,2 -4,16 0,64 27,04
141 193 -13,2 -21,2 279,84 174,24 4 4 9 ,4 4
156 219 1,8 4,8 8,64 3,24 23,04
166 235 11,8 20,8 245,44 139,24 4 3 2 ,6 4
179 234 24,8 19,8 4 9 1 ,0 4 6 1 5 ,0 4 3 9 2 ,0 4
197 273 4 2 ,8 58,8 251 6 ,6 4 1831,84 3 4 5 7 ,4 4
204 272 4 9 ,8 57,8 287 8 ,4 4 248 0 ,0 4 3 3 4 0 ,8 4
125 181 -29,2 -33,2 9 69,44 8 5 2 ,6 4 1102,24
112 166 -42,2 -48,2 203 4 ,0 4 1780,84 2 3 2 3,24
107 161 -47,2 -53,2 251 1 ,0 4 222 7 ,8 4 2 8 3 0,24
135 195 -19,2 -19,2 3 68,64 3 6 8 ,6 4 3 6 8 ,6 4
144 201 -10,2 -13,2 134,64 104,04 174,24
188 255 33,8 4 0 ,8 1379,04 1142,44 1664,64
Soma 3084 4284 21199,2 31513,2
Média 154,2 214,2 1059,96 1575,66
resolução.

Vamos aplicar a fórmula:

Com base no resultado acima, podemos calcular:

a = y - b x = 2 1 4, 2 - 1,2 0 7 * 1 5 4, 2 = 2 8, 0 5

Portanto, a reta estimada por meio de MQO é:

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 24 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

y. = 2 8, 0 5 + 1,2 0 7xt

Voltando à aula!

Pessoal, vocês estão entendendo o que representa cada coeficiente? Pense um


pouquinho, se o valor gasto em propaganda aumenta em 1 (uma unidade),
espera-se que o valor das vendas varie, na média, em b.

Cabe destacar a diferença entre erros e resíduos. Os erros são decorrentes dos
aspectos que relatamos acima, já os resíduos são os erros de ajuste após a
estimação da reta original (1), ou seja, na regressão feita com base na amostra e
não mais na população. Assim, a versão estimada de (1) é dada por:

yt = a + bxi + et (2)

Então, estes parâmetros são a versão estimada dos parâmetros na equação (1).
Portanto, et são os resíduos da regressão com base em uma amostra n da
população N.

Meus amigos, vocês conseguem enxergar que este resíduo tem mais um problema
além dos já citados para os erros? Lembra do gerente comercial eficiente que pediu
demissão? Então, este é um desvio natural de se interpretar um comportamento
econômico, derivado de influências de infinitas variáveis, a partir de uma reta.
Agora, há outro fator em cena, há um "erro” decorrente de se inferir uma estimativa
da reta (1) a partir de (2). Ou seja, o fato de nós só termos uma amostra leva a
desvios com relação à estimativa dos parâmetros. Dado que, com base na nossa
regressão estimada, o valor esperado de y (y) é:

yt = a + bxj

Assim, os resíduos são:

ei = yi ~( a + bXi)

ei = yt - yt

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 25 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Bom pessoal, nós já temos uma estimativa de uma regressão, agora vocês podem
estar se perguntando: "Será que isso está bom? Será que esta reta representa bem
a situação ocorrida no mundo real?” Nós vamos estudar isso a seguir.

Exercício 2

(FCC - ANALISTA BACEN 2005) Uma empresa com a finalidade de determinar


a relação entre os gastos anuais com propaganda (X), em R$ 1000,00, e o lucro
bruto anual (Y), em 1000,00, optou por utilizar o modelo linear simples Y(i) = a
+ bX(i) + e(i), em que Y(i) é o valor do lucro bruto auferido no ano (i), X(i) é o
valor do gasto com propaganda no ano (i) e e(i) o erro aleatório com as
respectivas hipóteses consideradas para a regressão linear simples.

Considerou, para o estudo, as seguintes informações referentes às


observações dos últimos 10 anos da empresa:

%Y. = 1 o0

ü l = 60

I YtX. = 6 5 0

= 4 00

I Yj2 = 1 0 8 0

Utilizando a equação da reta obtida pelo método dos mínimos quadrados, tem-
se que, caso haja um gasto anual com propaganda de 80 mil reais, a previsão
do lucro bruto anual, em mil reais, será de:

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 26 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estratégia
r nONNr Ci i UR R« ;S nO<S;
C
Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

a) 158

b) 128,4

c) 121

d) 102,5

e) 84

Resolução

Bom, primeiramente, não caia na armadilha! Estes valores que o exercício te deu
não estão centrados na média. Portanto, com base em propriedades estatísticas,
pode-se demonstrar que:

Assim, dadas as formas funcionais para cálculo:

a = y — bx

Pode-se inferir as estimativas:

100 60
10

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 27 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Assim, temos a equação de reta. Substituindo X = 80, tem-se que:

y = 2,5 + 1,2 5X = 2,5 + 1,2 5 * 80 = 1 0 2,5

7. Tabela ANOVA

Vamos lá pessoal, de olho na aprovação!

Agora vamos falar sobre o grau de ajustamento de uma regressão. Isso é, quanto
uma reta explica dos dados?

Bom, é fácil pensar que há uma parcela da variação explicada pela regressão, ou
seja, aqueles parâmetros que nós estimamos devem explicar parte da variação real
nas observações da amostra, excluída a parte explicada pelos resíduos.

-"Professor, não entendi nada!”

Ok. Acho que esta parte que fica mais intuitiva com a matemática. E aí, qual a
expressão que vocês acham que representa a parcela explicada por uma regressão
realizada com base em uma amostra? Claro que é:

y t = a + bxi

Dado que a é constante, ela não compõe a parte da variância explicada. Assim, com
o intuito de se definir uma expressão para a variância explicada pode-se descartá-
la:

y. = bxt

Portanto, trata-se da parte estimada da reta que dá o valor previsto de y para cada
x, que é costumeiramente descrita como a variável dependente com um acento
circunflexo em cima.

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 28 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

E a parte não explicada?

y —y = e

É evidente que a soma de ambas as equações geram a equação de reta original,


com a soma do comportamento dos resíduos com a parte explicada. Assim,
precisaríamos somar tais expressões para encontrar o total e, a partir daí, tentar
entender como cada uma destas parcelas participam da formação do resultado.

Mas, sabendo-se que os resíduos têm soma igual à zero, o estudo será feito com
base na soma dos quadrados dos resíduos e, por conseqüência, com base na
soma dos quadrados explicados e na soma dos quadrados totais.

Vamos, primeiro, pelo mais fácil. A soma dos quadrados totais (SQT) é:

S Q T = £y?

Segue-se a Soma dos Quadrados Explicados (SQE):

E a Soma dos Quadrados dos Resíduos (SQR):

SQR = SQT - SQE

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 29 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estratégia
r nONNr Ci i UR R« ;S nO<S;
C
Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Vocês estão entendendo o que nós estamos fazendo? Em termos bem leigos, nós
estamos decompondo o quanto uma regressão consegue explicar de quanto ela não
consegue! Será que você consegue pensar em um jeito de dizer, em termos
percentuais, o quanto uma regressão consegue explicar de uma série de dados, ou
seja, o quanto a regressão estimada se aproxima do real processo gerador de
dados (equação (1))?

Beleza! A resposta é fácil mesmo e é dada por:

tome nota!
Este é o famoso R2 ou coeficiente de determinação. Ele determina "o quanto a
regressão está conseguindo refazer da série original a partir de valores estimados”.
Assim, a regressão será bem ajustada quanto mais próximo este coeficiente se
aproximar de 1. Ou seja, um valor de 0,97 indica que a regressão estimada 97% da
variância de y é explicada por x.

Lembram-se do coeficiente de correlação amostral nas aulas de estatística? Então,


pode-se demonstrar que:

Esta é, somente, uma das formas de se encontrar o R2. Mas, ela já caiu várias
vezes, então, meus amigos, vou simplificar para vocês: decorem!

Agora podemos partir para a análise da tabela ANOVA. A partir da definição de


SRT, SQT e SQE, iremos construir uma tabela que indica como as parcelas
decompostas variam ao redor da média da regressão como um todo e se todos os
coeficientes em conjunto tem capacidade de explicar a regressão, conforme
veremos a seguir.

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 30 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Esta tabela é chamada de ANOVA e tem o seguinte formato:

Quadrados
Soma dos Quadrados Graus de Liberdade Teste F
Médios

SQE
SQE K
k

SQR
SQR N- k- 1
n —k — 1

SQT
SQT N- 1
n —1

Sendo N o número de observações da amostra e k o número de variáveis


explicativas na regressão, assim, no caso da regressão simples, k = 1.

Novamente pessoal, vamos nos lembrar das aulas de Estatística. Sendo SQR a
soma dos quadrados dos resíduos e sua média igual a zero, se nós dividirmos tal
expressão pelos seus graus de liberdade, o que teríamos?

2=
a2 SQR
N -k - 1

O que é isso? Não é a variância? Exatamente! Trata-se de uma medida não


tendenciosa da variância dos erros. Portanto, o quadrado médio dos resíduos
iguala a variância dos erros. O mesmo pode ser dito com relação ao coeficiente
SQE/k, haja vista o mesmo medir também uma variância, mas a variância
explicada.

Bom, nós já temos a variância dos erros e a variância explicada pela regressão,
SOE
dada por - j -, portanto cabe questionar: será que a esta regressão faz sentido?

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 31 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estratégia
r nONNr Ci i UR R« ;S nO<S;
C
Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09
Não entendeu? Vamos lá. Nós poderiamos encontrar uma regressão na qual os
quadrados médios dos resíduos (variância dos erros) representam a maior parte da
variabilidade da regressão, invalidando a representatividade da regressão como um
processo que poderia ter gerado aquelas variáveis explicadas. Assim, a parte que
se constitui como uma reta (bx) só explicou alguma parte da variável explicada "por
coincidência”, isto é, sem significância estatística.

Como nós podemos verificar isso? Por meio do teste F. O teste F é um teste
estatístico que visa comparar variâncias e se a diferença entre ambas é
estatisticamente significante. Analiticamente, sob a hipótese nula, o quociente entre
dois quadrados médios, isso é, entre duas variâncias, segue uma distribuição F.

A título de ilustração vamos nos utilizar da tabela ANOVA que nós construímos.
Portanto:

SQE

N - k - 1

Sob a hipótese nula de que estas duas variâncias são iguais, a estatística de teste
segue uma distribuição F com k graus de liberdade no numerador e N - k - 1 graus
de liberdade no denominador.

O que você está buscando? Bom, quando você estima uma regressão, você busca
encontrar uma relação estatisticamente significante que explique o fenômeno que
está em estudo. Assim, se você concluir que não há como rejeitar a hipótese nula
de que a variância explicada pela sua regressão é igual à variância dos resíduos, na
verdade, você não encontrou nada! Isso deriva do fato de que, se isso aconteceu, é
muito provável que toda parcela que você conseguiu explicar da variável
dependente foi por acaso, o que deve ter acontecido somente em virtude da
variação dos erros e não de uma especificação correta de uma reta. Ou seja, toda

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 32 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estratégia
C O N C U R S O S ^
Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - A ula 09
sua regressão não tem grande validade em termos de explicar a dinâmica da
variável dependente em estudo.

Portanto, o teste F aplicado ao estudo de regressão é equivalente a um teste de


hipóteses conjunto de que todos, ou parte de todos, os coeficientes têm valor igual
a zero.

r INDO
^ - / mmais
a i fundo Antes de encerrarmos o assunto sobre o teste F,
temos de ressaltar uma coisa importante. A teoria estatística por detrás da
derivação do teste exige que a variável y seja normalmente distribuída.

Todo mundo se lembra da distribuição normal das aulas de estatística, certo? Trata-
se de uma distribuição de probabilidade, que associa determinado valor a
determinada probabilidade da seguinte forma:

Já que y é composto de uma parte fixa (reta) e de uma parte aleatória (erro), a
variância da variável explicada é igual à variância do erro. Assim, a hipótese de
normalidade de y é equivalente a se afirmar que o erro tem de ser normalmente
distribuído. Portanto, esta será nossa segunda hipótese sobre o modelo de
regressão.

2° Hipótese sobre o modelo de regressão

Os erros são normalmente distribuídos

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 33 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Um exercício para testar o seu conhecimento.

Exercício 3.

(FCC - ANALISTA BACEN 2005) Uma empresa com a finalidade de determinar


a relação entre os gastos anuais com propaganda (X), em R$ 1000,00, e o lucro
bruto anual (Y), em 1000,00, optou por utilizar o modelo linear simples Y(i) = a
+ bX(i) + e(i), em que Y(i) é o valor do lucro bruto auferido no ano (i), X(i) é o
valor do gasto com propaganda no ano (i) e e(i) o erro aleatório com as
respectivas hipóteses consideradas para a regressão linear simples.

Considerou, para o estudo, as seguintes informações referentes às


observações dos últimos 10 anos da empresa:

%Y. = 1 o0

ü l = 60

I YtX. = 6 5 0

= 4 00

I Yj2 = 1 0 8 0

Montando o quadro de análise de variância (ANOVA), tem-se que:

a) a variação total apresenta um valor de 62,5.

b) a variação explicada, fonte de variação devido à regressão, apresenta um


valor igual a 80.

c) Dividindo a variação residual pela variação total, obtemos o coeficiente de


determinação (R2).

d) o valor da estatística F necessária para o teste da existência da regressão é


igual ao quociente da divisão da variação explicada pela variação residual.

e) a variação residual apresenta um valor igual a 17,5.

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 34 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09
Resolução

Vamos começar definindo SQT, SQE e SQR:


yy
SQT = y Yj2 - - j j = 1 0 80 - 1 0 0 0 = 80

SQE = y (b x {)2 = b 2 * y x f = 1,5 6 2 5 * 40 = 6 2,5

SQR = SQT - SQE = 8 0 - 6 2,5 = 1 7, 5

Assim, chega-se ao gabarito (e). Sabe-se que a alternativa (c) está incorreta porque
o R2 surge da divisão da variação explicada pela total, enquanto que a alternativa
(d) advém da divisão dos quadrados médios explicados e dos resíduos e não
somente da variação.

8. Teste de hipóteses sobre os coeficientes

Na última seção nós vimos como o teste F avalia a hipótese conjunta de que todos
os coeficientes têm valor igual a zero. Agora vamos avaliar a significância estatística
dos coeficientes, um por um. Com efeito, vamos avaliar a significância estatística de
b isoladamente, tal como na equação (2)

- “Peraí professor, mas você acabou de ensinar a aplicação do teste F na


regressão simples e disse que ele avalia a hipótese nula de que todos os
coeficientes são iguais a zero, ou seja, b é igual a zero. Então qual a diferença
deste teste de hipóteses para o teste F?”

Se você pensou isso, parabéns! Já está a caminho de passar em concurso.

Pois é, realmente, no caso da regressão linear simples não há diferença. Mas, a


regressão simples não é a única forma de regressão possível. Existe o caso da
regressão múltipla, que, no caso, depende de mais de um x. Por exemplo:

y t = a + b jX 1 + b 2X2 + - bnxn + et

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 35 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWWMATERIALPARACONCURSOS.COM


Estratégia
r nONNr Ci i UR R« ;S nO<S;
C
Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09
Assim, por exemplo, as vendas de uma empresa podem ser função não somente
dos gastos em propaganda, mas também do investimento em treinamento de
pessoal, da parcela do mercado dominada por ela, etc. Este é um caso de
Regressão Linear Múltipla.

Neste caso, é fácil perceber que o resultado do teste F não é equivalente ao


encontrado nos testes de hipótese sobre b. O teste de hipóteses sobre os
coeficientes analisa a significância estatística de cada coeficiente isoladamente,
enquanto que o teste F analisa a significância estatística conjunta de todos os
coeficientes ao mesmo tempo.

Então meus amigos, agora que vocês entenderam o porquê do teste de hipóteses,
além do teste F, vamos entender como operacionalizá-lo.

A idéia básica do teste de hipóteses é afirmar se a ocorrência de um evento tem


uma probabilidade estatística significante, dado um valor de significância, ou seja,
um valor que seria considerado "muita coincidência”.

Vamos para um exemplo prático de nossa aula. Com base na nossa amostra e na
regressão estimada, será que os gastos em propaganda realmente afetam as
vendas da empresa? Isso seria equivalente a estipular duas hipóteses, uma
hipótese nula (H0) e outra alternativa (Hx) de tal forma que:

H 0:b = 0

H ^ .b * 0

A estatística de teste deve ser calculada da seguinte forma:

b —0

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 36 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Sendo s o valor estimado para o desvio padrão do parâmetro, que, por se tratar de
uma amostra, é desconhecida.2

A estimativa para a variância de b é dada por:

SQR
2 _ N - k - 1
5 Ift)2

Ao calcular a estatística de teste, cabe compará-la com o valor tabelado da


distribuição t de Student, distribuição esta que é utilizada para os casos em que a
variância populacional não é conhecida. Assim, é preciso fazer o cálculo acima e
consultar tabela t com N-k-1 graus de liberdade e com a significância estatística que
você achar conveniente.3 Olhe o gráfico abaixo.
R e g iã o crítica: teste b ilatera l

Caso o valor calculado seja inferior ao valor tabelado, isto significa que não é
possível rejeitar a hipótese nula de que o coeficiente da reta é igual a zero,

2 Lembrem-se, o desvio padrão é igual à raiz quadrada da variância.

3 A consulta na tabela irá depender dos graus de liberdade dos quadrados médios dos resíduos e da
significância estatística que o pesquisador achar relevante, como 5%, por exemplo, o que se escreve como
t(N-k-1,5%).

P rof. Jero n ym o M a rc o n d e s WWW.estrategiaconcursoS.COm.br 37 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estratégia
r nONNr Ci i UR R« ;S nO<S;
C
Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09
situando-se dentro da área branca do gráfico acima. Olha pessoal, o que se está
dizendo com isso é que, dado um valor considerado improvável (área cinza), a
estatística nos permite dizer se este valor está dentro destes padrões esperados.

Caso o valor calculado supere o valor tabelado (área cinza gráfico), rejeita-se a
hipótese nula de que o coeficiente é igual a zero. Ou seja, como aquele "cantinho” é
improvável no caso de a hipótese nula ser verdadeira e como a estatística de teste
nos diz que o valor encontrado está lá, a hipótese nula deve estar errada.
Entenderam?

A idéia básica deste teste de hipóteses sobre os parâmetros da regressão é avaliar


se estes últimos apresentam significância estatística. Se o teste de hipóteses indicar
que o parâmetro da equação (2) tem valor igual a zero, deve-se pensar em outra
forma funcional, com outra(s) variável(is) explicativa(s), para explicar a variável y.
Em outras palavras, uma conclusão deste tipo indica que os gastos em propaganda
não afetam as vendas, devendo-se excluir tal variável.

Uma coisinha: tal como no caso do teste F, a avaliação destes coeficientes por
meio de testes de hipóteses exige que os erros sejam normalmente distribuídos.

9. Eficiência do estimador de Mínimos Quadrados Ordinários (MQO)

Vamos lá, lembram-se das 2 hipóteses que dissemos ser necessárias para a
atividade de análise de regressão?

Então, vamos lá! As hipóteses do modelo de regressão linear já estipuladas são:

1° Hipótese sobre o modelo de regressão linear


atento!
E(£Ò = 0

2° Hipótese sobre o modelo de regressão linear

Os erros são normalmente distribuídos

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 38 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Veja, tudo que nós discutimos na seção anterior tem a ver com o estimador MQO.
Uma característica importante para um estimador é a sua ausência de viés. Quando
eu digo "viés” é exatamente isso que vocês estão pensando. Ao afirmar que a
opinião de uma pessoa sobre determinado assunto é "enviesada”, você está
dizendo que ela está se distanciando dos fatos da realidade e "puxando a sardinha”
para uma determinada conclusão.

Se eu digo para vocês que um estimador não é viesado, eu estou dizendo que, na
média, ele “acerta”, ou seja, dá o valor real do parâmetro. Vou repetir um
pouquinho da seção anterior, só para vocês lembrarem.

Um exemplo para vocês entenderem, suponha um fenômeno que se comporte


conforme a regressão múltipla abaixo:

y t = a + p ±x ! + p 2x 2 + - p nxn + et

Esta equação pode representar o fenômeno de vendas de uma empresa (y)


explicadas pelo seu gasto com propaganda (x ) por cada uma de suas filiais (í ).
Porém, dado que nós só temos uma amostra dos dados que compõem esta relação,
nós iremos estimar esta reta por meio de MQO, tal como na seção anterior, o que
nos levará à seguinte relação:

y. = a + b±x ! + b2X2 + - bnxn + et

Perceba que a e b são as estimativas de a e para uma dada amostra de dados


da população. Algo intuitivo, mas qj e é importante destacar é que b mede a
alteração em y para uma dada variação em x, mantido tudo mais constante, ou
como os economistas chamam coeteris paribus.

Agora, a pergunta é: será que, na média, estes estimadores se aproximam do valor


real do parâmetro? Pronto, agora você vai entender o que é viés de um estimador.

Meus amigos, b será não viesado se:

E{b) = p

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 39 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Isto quer dizer, a "esperança do estimador é igual ao seu correspondente parâmetro


populacional”. Só para lembrá-los das aulas de Estatística, quando você falar em
esperança de uma variável, tire a sua média e pronto! Vocês não precisam saber
mais do que isso para sua prova.

Bom, falamos um monte para chegarmos à seguinte pergunta: quais as condições


necessárias para que o estimador de MQO seja não viesado? A resposta para esta
pergunta depende de uma demonstração matemática que se utiliza do operador
esperança.

-"Professor, esta demonstração cai na prova?”

Quem pensou assim é um verdadeiro concurseiro, com meio caminho andado para
sua aprovação. Você tem que ser objetivo e focar em resultados e não em
perfumarias. Se você gostar muito de Estatística e quiser aprender isso, passe no
concurso e vá fazer um Mestrado ou Doutorado depois, agora, pense no concurso.
Mas, quem quiser dar uma olhada na demonstração, dê uma olhada no livro do meu
orientador de doutorado, Rodolfo Hoffmann, “Análise de Regressão: uma
introdução à Econometria”.

Então, vamos direto ao ponto. Para garantir o não viés de um estimador de uma
regressão linear, assuma a 1â "hipótese” do modelo de regressão linear e
acrescente:

FIQ U E
3° Hipótese sobre o modelo de regressão linear
atento!
E O jX j) = 0

Ou seja, os x t não são correlacionados com os erros

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 40 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Obs. Pessoal, eu já vi autores dizendo por aí que a


normalidade dos erros é condição necessária para que o estimador MQO seja não
viesado. Cuidado! No caso da ESAF, a mesma considera que tal hipótese não é
necessária. De acordo com as provas da banca, podemos perceber que eles
consideram que a não normalidade dos erros só afeta os testes de hipóteses.

O que nós estamos dizendo aqui? Vejamos, vamos ao exemplo dos gastos em
propaganda.

Os erros na equação original poderiam representar a fatia de mercado já dominada


pela empresa. Se os gastos em propaganda forem uma parcela fixa do total que a
empresa vende, estes gastos seriam cada vez maiores quanto maiores fossem as
vendas. Neste sentido, o que poderia estar afetando as vendas seria a fatia de
mercado já dominada pela empresa e não os gastos em propaganda. Assim, o
efeito b encontrado para os gastos em propaganda poderia estar contaminado e ser
espúrio (isso é, não representar nada), dado que quanto maior a fatia de mercado,
maior seriam os gastos em propaganda e, por conseqüência do aumento na fatia de
mercado e não dos gastos em propaganda, maiores seriam as vendas.

Assim, aquelas 2 condições são necessárias para se concluir que o estimador MQO
seja não viesado.

Bom, mas isso não basta para provar que um estimador é eficiente.

- "Professor, o que é um estimador eficiente?”

É aquele que possui a menor a menor variância dentre todos os estimadores


lineares não viesados. O que é bastante óbvio, dado que se seu estimador é não
viesado, o que você busca é que o mesmo possua variância mínima, de modo a se
aproximar ao máximo do parâmetro populacional.

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 41 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estratégia
C O N C U R S O S ^
Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - A ula 09
Você garante que um estimador é o melhor estimador linear não viesado, ou, como
é conhecido na literatura especializada, BLUE (best linear unbiased estimatoi) por
meio da satisfação das condições do Teorema de Gauss Markov.

Novamente, vocês não têm que saber como derivar tal teorema (no livro do Prof.
Hoffmann você também encontra tal demonstração), então vamos direto ao que
interessa. As pressuposições são as mesmas necessárias para garantir o não viés e
mais estas duas:

4- hipótese sobre o modelo de regressão linear:

VarÇsí) = o 2 = constante

5- hipótese sobre o modelo de regressão linear:

Ef esj ) = 0 , i ± j
Ou seja, os erros não são autocorrelacionados.

Pessoal, todas estas hipóteses e suas violações não precisam ser


aprofundadas para sua prova, apenas decore!

Só para explicar melhor, no caso da 4â hipótese, o que se quer é garantir que os


erros tem variância constante ao longo da amostra. Por exemplo, pode-se encontrar
um erro que se comporte de tal forma que:

Var(£i) = a- Xi

Se isso ocorrer, você concorda que a variância será função do valor da variável
explicativa e, portanto, não constante? Se isso ocorrer, surgirão problemas na
análise de regressão, conforme será discutido mais adiante. Quando a variância dos
erros não é constante, chamamos a este problema de heterocedasticidade.

Quanto à 5â hipótese, espera-se que os erros do período presente não guardem


relação com os erros do período passado. Com efeito, os erros observados nas
estimativas MQO no período t não podem influenciar os erros de estimativa no
período t+1. Para entender melhor, substitua t por um determinado ano, 2010, por

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 42 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estratégia
r nONNr Ci i UR R« ;S nO<S;
C
Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09
exemplo, e pense sobre isso. Caso isso não ocorra, dizemos que o modelo possui
autocorrelação.

Vocês lembram de que eu disse que, por enquanto, estamos trabalhando com
dados em cortes transversais, ou seja, com observações para diferentes unidades
no mesmo período de tempo (como no caso dos gastos com propaganda, que
avaliamos diferentes empresas em um único ponto do tempo, um ano, por
exemplo)? Então, a hipótese 5â, na maior parte dos casos, só é violada quando
estamos trabalhando com séries de tempo, ou seja, observações para uma mesma
unidade em diferentes períodos do tempo (seria o equivalente a avaliar a questão
dos gastos com propaganda em uma única empresa, mas ao longo do tempo).

Então, se estas hipóteses estiverem valendo, você pode dizer que sua Regressão
Linear Simples é BLUE.

Ufa! Falamos para burro ao longo deste curso, portanto chega de conversa e
vamos fazer exercícios.

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 43 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Exercício 4

(SUSEP- ESAF\2010) A partir de uma amostra aleatória [x(1), y(1)], [x(2),


y(2)]...[x(20), y(20)] foram obtidas as estatísticas:

Média de X = 12,5

Média de Y = 19

Variância de X = 30

Variância de Y = 54

Covariância entre X e Y = 36

Calcule a reta de regressão estimada de Y contra X.

a) Y = 19 + 0,667*X

b) Y = 12,5 + 1,2*X

c) Y = 4 + 1,2 X

d) Y = 19 + 1,2 X

e) Y = 80 + 22,8X

Resolução

Vamos lá!

B _ Covjx.y) 36 ^
V ar(x ) 30 '

Com base neste resultado:

a = y - f i x = l 9 - (1,2 ) ■( 12, 5) = 4

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 44 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estratégia
r nONNr Ci i UR R« ;S nO<S;
C
Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Exercício 5

(SUSEP- ESAF\2010) Com os dados da questão anterior, determine o valor da


estatística F para testar a hipótese nula de que o coeficiente angular da reta do
modelo de regressão linear simples de Y contra X é igual a zero.

a) 144

b) 18

c) 36

d) 72

e) 48

Resolução

Bom, essa é complicada. Agora vamos ter que para pensar um pouquinho. Vamos
nos relembrar de como é calculada a estatística F:

SQE

N - k - l

Se nós dividirmos o numerador e o denominador pelo mesmo número, o total da


fração permanece a mesma. Assim, vamos dividir os dois membros por SQT:

N-k-l

Viram? Esta é uma forma muito importante de se definir o cálculo do R2. Decorem!

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 45 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Com base nas variâncias de x e y e na estimativa do parâmetro b, é possível


encontrar o R2. Vejamos:

SQE U bxd2 b ^ jx d 2
SQT 2C9í ) 2 K 9 i) 2

O que pode ser obtido pela seguinte propriedade estatística:

V ar(a ■x) = a 2V a r ( x )

Se a = constante.

Pense comigo, vamos explicitar a função em termos das variáveis centradas na


média:

r2 = b2Z (xj)2 = b2( X j - x ) 2


~ 1W 2 ~ (yt-y)2

O que acontece se nós dividirmos o numerador e o denominador por (N-1), sendo N


o número de observações da regressão (deixando o resultado final inalterado)? É
isso! Você terá a variância de x e y, pois (N-1)é o número de graus de liberdade da
variância destas variáveis. Assim:

h2 (xt - x )2
r2 = b N - 1 = b Var(x)
(Vi - 9)2 Var(y)
N -1

Decore isso! Agora é fácil:

f i2 = ( 1 2)2 Q ) = a8
1 - R 2 = 0, 2

Calculando a estatística F, chega-se a:

0,8
F = 1 =7 2
r 02 '2
18

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 46 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWWMATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Exercício 6

(ESAF - AFRFB 2009) Na análise de regressão linear simples, as estimativas

ot e P dos parâmetros a e P da reta de regressão podem ser obtidas pelo


método de Mínimos Quadrados. Nesse caso, os valores dessas estimativas
são obtidos através de uma amostra de n pares de valores com (i = 1,

2,....,n), obtendo-se: a + P^-i, onde é a estimativa de Y i = “ + P X >.


Para cada par de valores ^ íj^ íc o m (i = 1, 2,...,n) pode-se estabelecer o desvio
ou resíduo - aqui denotado por ei- entre a reta de regressão £ e sua

estimativa ^ i . Sabe-se que o Método de Mínimos Quadrados consiste em


adotar como estimativas dos parâmetros a e P os valores que minimizam a
soma dos quadrados dos desvios ei. Desse modo, o Método de Mínimos
Quadrados consiste em minimizar a expressão dada por:

£ Yr-ici-pXi)
a) í = l

b)
n
£ [ y í —( a —p X j j f
C )i = l
íi
E [y f-? í]
d) -i = l

, t\Y }-ía -0 X ,f
e) í = l

Resolução
Pessoal, o que faz o método do MQO?
Isso mesmo! Ele minimiza a soma dos quadrados dos resíduos. Portanto, é fácil
perceber que a expressão que mostra isso, dada a notação usada na questão, é:

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 47 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09
£ [ K , - ( a + /?x,)]2 Z(K| - Yi)

O gabarito é (a), mas está incorreto, pois deveria haver um sinal de "+” antes de p.
Portanto, foi anulada.

Exercício 7

(EPE - ECONOMIA DA ENERGIA/2007) Qual das afirmações abaixo faz


referência correta ao modelo de regressão linear simples?
a) Toda regressão apresenta heterocedasticidade
b) Se a variância dos erros é constante, os dados são homocedásticos
c) O intercepto a representa a inclinação da reta
d) Os erros do modelo não são aleatórios, com esperança igual a 1
e) A constante a é sempre positiva

Resolução
Essa é bem fácil. A alternativa (b) é a definição de homocedasticidade.

Só para destacar, a, o intercepto, não é a inclinação da reta, mas somente o valor


no qual a reta tangencia o eixo vertical. A inclinação é dada por p.

Exercício 8

(ESAF - ATRFB/2009) O modelo de Regressão Linear Múltipla Y = a + PX + 9Z


+ e é ajustado às observações (Y, X, Z) que constituem uma amostra aleatória
simples de tamanho 23. Considerando que o coeficiente de determinação foi
R2 = 0,80, obtenha o valor mais próximo da estatística F para testar a hipótese
nula de não existência da regressão:
a) 84
b) 44
c) 40
d) 42
e) 80

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 48 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estratégia
r nONNr Ci i UR R« ;S nO<S;
C
Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Resolução
Vamos aplicar a fórmula do teste F:

n —k —1 20

Alternativa (c).

(ANPEC - 2010) Julgue as afirmativas

Exercício 9

Os estimadores de MQO são eficientes, mesmo se os erros não forem


normalmente distribuídos.

Resolução

Verdadeira! Como eu disse, controvérsias à parte, mesmo que os erros não sejam
normalmente distribuídos, a eficiência do estimador não é afetada.

Exercício 10

Sob heterocedasticidade os estimadores de MQO são viesados.

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 49 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Resolução

Incorreta. Conforme vimos, a homocedasticidade é hipótese necessária para


garantir eficiência e confiabilidade nos testes de hipóteses, não afetando o viés.

Exercício 11

Sob autocorrelação o estimador de MQO não é mais eficiente.

Resolução

Perfeito. Esta é uma das condições necessárias impostas pelo Teorema de Gauss-
Markov, que demonstra que o estimador MQO é BLUE.

(ANAC - NCE/2007 - ADAPTADA) Considerando o modelo abaixo, estimado


pelo método de mínimos quadrados ordinários, com uma amostra de 300
observações, com:

R2= 0,39

P = 30,0 + 20,0Q + 10,0V + u


(3,0) (2,2) (0,9)

P é o preço de venda dos apartamentos em uma determinada cidade (em mil


reais), Q o número de quartos do apartamento, V o número de varandas, u o
erro e os valores entre parêntesis são os desvios-padrão dos coeficientes
estimados. Com base nisso, julgue os itens a seguir.

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 50 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Questão 12

O preço esperado de um apartamento com 2 quartos e uma varanda será


maior que R$ 80.000, pois não conhecemos o valor esperado de u.

Resolução

Pessoal, substituam:

E{P) = 30 + 20 ■2 + 10 ■1 = 80

O preço não é maior que 80. Alternativa falsa.

Questão 13

Segundo o coeficiente de determinação, mais da metade da variação dos


preços dos apartamentos pode ser explicada.

Resolução

Gente, a alternativa está falando do R2. No caso, ele é de 39%, portanto não explica
mais da metade da variação dos preços. Alternativa Falsa.

Questão 14

Através da observação do valor do R2, podemos concluir que a regressão é


estatisticamente não-significante.

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 51 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Resolução

Já discutimos isso. O R2 é tão somente um coeficiente de determinação e não nos


diz nada sobre a significância de uma regressão. Isso é para o teste F. Alternativa
falsa.

Exercício 15

(AFRFB - ESAF/2013) A expectância de uma variável aleatória x — média ou


esperança matemática como também é chamada — é igual a 2, ou seja: E(x) =
2. Sabendo-se que a média dos quadrados de x é igual a 9, então os valores da
variância e do coeficiente de variação de x são, respectivamente,
iguais a:

a)
b)

c)

d)

e)

Resolução

Para resolvermos esta questão precisamos nos lembrar de que:

Variància = média dos quadrados —quadrado da mé dia = E(x2) —[E(x)Y

Assim:

Var(x) = 9 —( 2) 2 = 5

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 52 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Agora, fica fácil achar o coeficiente de variação:

^V ar(x) V5
CV =
E(x) 2

Alternativa (a)

Exercício 16

(AFRFB - ESAF/2013) Um modelo de regressão linear múltipla foi estimado


pelo método de Mínimos Quadrados, obtendo-se, com um nível de confiança
de 95%, os seguintes resultados:

I. Y = 10 + 2,5*x1 + 0,3*x2 + 2*x3


II. o coeficiente de determinação R2 é igual a 0,9532
III. o valor-p = 0,003

Desse modo, pode-se afirmar que:


a) se a variável x1 for acrescida de uma unidade, então Y terá um acréscimo
de 2,5 %.
b) 0,003 é o mais baixo nível de significância ao qual a hipótese nula pode ser
rejeitada.
c) x3 explica 95,32% das variações de Y em torno de sua média.
d) as probabilidades de se cometer o Erro Tipo I e o Erro Tipo II são,
respectivamente, iguais a 5% e 95%.
e) se no teste de hipóteses individual para 22 se rejeitar a hipótese nula (H0),
então tem-se fortes razões para acreditar que x2 não explica Y.

Resolução

Vamos analisar uma a uma:


A - se a variável x1 for acrescida em uma unidade Y aumentará em 2,5, não em
percentual.

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 53 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09
B - Perfeito, esta é a definição de p-valor.
C - O R2 não é ó para x3, mas para a regressão toda.
D - Alternativa sem sentido
E - Errado, a rejeição da hipótese nula indica a significância do respectivo
coeficiente.

Exercício 17

(FINEP - CESGRANRIO/2011) O modelo de regressão linear Y = aX + erro,


onde (X, Y) são pares de dados observados e a é um parâmetro a ser
estimado, foi ajustado aos dados (X, Y) mostrados na figura abaixo.

Foi usada a técnica de minimizar a soma dos erros quadráticos para ajustar a
reta de regressão, a qual
a) passa por (X, Y), onde X e Y são as médias de X e de Y.
b) passa pela origem (0, 0).
c) não é a única reta que minimiza a soma dos erros quadráticos.
d) tem variância esperada nula.
e) tem coeficiente angular necessariamente negativo.

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 54 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Resolução

Vamos analisar cada uma das alternativas:


A - não necessariamente, não há nada que garanta isso
B - Correto. Devido ao fato de o modelo ser dado por Y = a X + e r r o , não há
intercepto, portanto, quando X = 0, Y será igual à zero também.
C - Errado, estamos estudando o caso em que só há uma reta que minimiza a
soma dos quadrados dos erros.
D - Nada garante isso.
E - O coeficiente angular tem o mesmo sinal da associação entre as variáveis,
então, no presente caso, o mesmo é positivo. Olhe no gráfico!

Exercício 18

(FINEP - CESGRANRIO/2011) Se o coeficiente de correlação entre duas


variáveis X e Y for nulo, então a(s)
a) covariância entre X e Y é nula.
b) média de X é nula.
c) média de Y é nula.
d) médias de X e Y são iguais.
e) variâncias de X e de Y são não correlacionadas.

Resolução

Essa é muito fácil! Lembre-se da fórmula do coeficiente de correlação:

C o v ( x ,y )
^ x,y d p { x ) •d p ( y )

Portanto, quando a correlação for nula, a covariância também o será. Alternativa (a).

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 55 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estratégia
r nONNr Ci i UR R« ;S nO<S;
C
Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Exercício 19

(TRT 19ã região - FCC\2014 - modificada) Sejam duas variáveis X e Y


representando os salários dos empregados nas empresas Alfa e Beta,
respectivamente, com 100 empregados cada uma. Em um censo realizado nas
duas empresas apurou-se que a média, em milhares de reais, de X foi igual a
2,5 e a média de Y foi igual a 3,2. A soma dos valores dos quadrados, em (R$
1.000,00)2, de todos os valores de X foi igual a 650 e de todos os valores de Y
foi igual a 1.047,04. Assim, o coeficiente de variação de:
a) X é igual a 10% e o de Y igual a 20%.
b) X é igual a 20% e o de Y igual a 15%.
c) X é igual ao coeficiente de variação de Y.
d) Y é igual à metade do coeficiente de variação de X.
e) Y não é menor que o coeficiente de variação de X.

Resolução

Bom, o coeficiente de variação (cv) tem a seguinte fórmula:

desvio padrão a
média X

A média nós já temos, portanto temos que calcular a variância com base na
seguinte fórmula:

Variãncia = média dos quadrados —quadrado da média

Vamos encontrar a variância para X e Y:

Variancia X = - ( 2, 5)2 = 6, 5 - 6, 25 = 0,25


100

Variancia Y =

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 56 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estratégia
r nONNr Ci i UR R« ;S nO<S;
C
Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09
Assim, os coeficientes de variação são:

Esta última conta é meio complicada, mas não tem jeito! A melhor forma de
encontrar a resposta é utilizar jo , 25. Como os números são bem próximos, você
consegue perceber que o coeficiente de variação de Y será menor do que o de X,
eliminando a maior parte das alternativas. A alternativa (d), também não seria
possível, pois cv(Y) não chegaria a ser metade do de X.

Alternativa (b).

Exercício 20

(SEFAZ-SP - 2013/FCC) Considere:


I. O coeficiente de variação de uma variável é uma medida de dispersão
absoluta que é o resultado da divisão entre a média e o desvio padrão da
variável em questão.
II. Um dispositivo útil quando se deseja verificar se existe correlação linear
entre duas variáveis é o gráfico de colunas justapostas.
III. O desvio padrão é mais apropriado do que o coeficiente de variação
quando se deseja comparar a variabi idade de duas variáveis.
IV. Na amostragem aleatória estratificada, a população é dividida em estratos,
usualmente, de acordo com os valores ou categorias de uma variável, e,
depois, uma amostragem aleatória simples é utilizada na seleção de uma
amostra de cada estrato. Está correto o que se afirma APENAS em
a) I.
b) II.
c) III.
d) I e IV.
e) IV.

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 57 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Resolução

Vamos analisar cada item:

1.0 conceito está incorreto, o conceito de coeficiente de variação é uma medida de


dispersão relativa, que decorre da divisão do desvio padrão pela média e não o
contrário.
II.Essa utilização gráfica não é adequada para encontrar correlação linear, há vários
métodos, conforme descritos na aula de correlação e regressão.
111.0 coeficiente de variação permite uma comparação mais adequada entre as
dispersões de duas variáveis diferentes, essa é sua principal utilidade!
IV.Definição perfeita. Alternativa (e).

Exercício 21

(TRT 12ã - FCC\2013) Um modelo de regressão linear múltipla, com intercepto,


consiste de uma variável dependente, 3 variáveis explicativas e com base em
12 observações. As estimativas dos parâmetros do modelo foram obtidas pelo
método dos mínimos quadrados e o valor encontrado da estatística F (F
calculado) utilizado para testar a existência da regressão foi igual a 14. O
coeficiente de explicação (R2), definido como sendo o resultado da divisão da
variação explicada pela variação total, é, em %, igual a
a) 80,0.
b) 76,8.
c) 78,0.
d) 72,0.
e) 84,0.

Resolução

Vamos inverter um raciocínio que já fizemos a fim de encontrar o R2! Veja a fórmula
que já usamos:

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 58 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

EL
p _ k

n —k —1

Agora, a nossa incógnita é o R2! A quantidade de observações é 12, há 3 variáveis


explicativas e o F calculado é de 14. Assim:

R*_ El
14 = ------ - ^ 14 = — 3
1-R2 1-R2
12 - 3 - 1 8

Vamos multiplicar invertido:

1-R2 R2 14 - 1 4R2 R2
14x( 8 j = 8 = T

Multiplicando invertido novamente:

42
( 14 - 14^2 ) x 3 = 8^2 ^ 42 - 42R2 = 8R2 ^ R2 = — = 0, 84 = 84%

Alternativa (e).

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 59 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Lista de Exercícios Resolvidos

Exercício 4

(SUSEP - ESAF\2010) A partir de uma amostra aleatória [x(1), y(1)], [x(2),


y(2)]...[x(20), y(20)] foram obtidas as estatísticas:

Média de X = 12,5

Média de Y = 19

Variância de X = 30

Variância de Y = 54

Covariância entre X e Y = 36

Calcule a reta de regressão estimada de Y contra X.

a) Y = 19 + 0,667*X

b) Y = 12,5 + 1,2*X

c) Y = 4 + 1,2 X

d) Y = 19 + 1,2 X

e) Y = 80 + 22,8X

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 60 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Exercício 5

(SUSEP- ESAF\2010) Com os dados da questão anterior, determine o valor da


estatística F para testar a hipótese nula de que o coeficiente angular da reta do
modelo de regressão linear simples de Y contra X é igual a zero.

a) 144

b) 18

c) 36

d) 72

e) 48

Exercício 6

(ESAF - AFRFB 2009) Na análise de regressão linear simples, as estimativas

a e P dos parâmetros a e P da reta de regressão podem ser obtidas pelo


método de Mínimos Quadrados. Nesse caso, os valores dessas estimativas
são obtidos através de uma amostra de n pares de valores com (j = 1 ,

2,....,n), obtendo-se: ^7 = a + P ^ i, onde é a estimativa de Y i = a + PX


Para cada par de valores /com (i = 1, 2,...,n) pode-se estabelecer o desvio
ou resíduo - aqui denotado por ei- entre a reta de regressão Y i e sua

estimativa Sabe-se que o Método de Mínimos Quadrados consiste em


adotar como estimativas dos parâmetros a e P os valores que minimizam a
soma dos quadrados dos desvios eí. Desse modo, o Método de Mínimos
Quadrados consiste em minimizar a expressão dada por:

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 61 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

a) í = l

n
£ [ Y i - ( a - 0Xi)f
c )i = l
n

d) 1 = 1

Exercício 7

(EPE - ECONOMIA DA ENERGIA/2007) Qual das afirmações abaixo faz


referência correta ao modelo de regressão linear simples?
a) Toda regressão apresenta heterocedasticidade
b) Se a variância dos erros é constante, os dados são homocedásticos
c) O intercepto a representa a inclinação da reta
d) Os erros do modelo não são aleatórios, com esperança igual a 1
e) A constante a é sempre positiva

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 62 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Exercício 8

(ESAF - ATRFB/2009) O modelo de Regressão Linear Múltipla Y = a + PX + 9Z


+ e é ajustado às observações (Y, X, Z) que constituem uma amostra aleatória
simples de tamanho 23. Considerando que o coeficiente de determinação foi
R2 = 0,80, obtenha o valor mais próximo da estatística F para testar a hipótese
nula de não existência da regressão:
a) 84
b) 44
c) 40
d) 42
e) 80

(ANPEC - 2010) Julgue as afirmativas

Exercício 9

Os estimadores de MQO são eficientes, mesmo se os erros não forem


normalmente distribuídos.

Exercício 10

Sob heterocedasticidade os estimadores de MQO são viesados.

Exercício 11

Sob autocorrelação o estimador de MQO não é mais eficiente.

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 63 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

(ANAC - NCE/2007 - ADAPTADA) Considerando o modelo abaixo, estimado


pelo método de mínimos quadrados ordinários, com uma amostra de 300
observações, com:

R2= 0,39

P = 30,0 + 20,0Q + 10,0V + u


(3,0) (2,2) (0,9)

P é o preço de venda dos apartamentos em uma determinada cidade (em mil


reais), Q o número de quartos do apartamento, V o número de varandas, u o
erro e os valores entre parêntesis são os desvios-padrão dos coeficientes
estimados. Com base nisso, julgue os itens a seguir.

Questão 12

O preço esperado de um apartamento com 2 quartos e uma varanda será


maior que R$ 80.000, pois não conhecemos o valor esperado de u.

Questão 13

Segundo o coeficiente de determinação, mais da metade da variação dos


preços dos apartamentos pode ser explicada.

Questão 14

Através da observação do valor do R2, podemos concluir que a regressão é


estatisticamente não-significante.

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 64 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Exercício 15

(AFRFB - ESAF/2013) A expectância de uma variável aleatória x — média ou


esperança matemática como também é chamada — é igual a 2, ou seja: E(x) =
2. Sabendo-se que a média dos quadrados de x é igual a 9, então os valores da
variância e do coeficiente de variação de x são, respectivamente,
iguais a:

a)
b) 5;V5
V2
c) V5 ’ 5
._2_
V5
d) ’V5

e)

Exercício 16

(AFRFB - ESAF/2013) Um modelo de regressão linear múltipla foi estimado


pelo método de Mínimos Quadrados, obtendo-se, com um nível de confiança
de 95%, os seguintes resultados:

I. Y = 10 + 2,5*x1 + 0,3*x2 + 2*x3


II. o coeficiente de determinação R2 é igual a 0,9532
III. o valor-p = 0,003

Desse modo, pode-se afirmar que:


a) se a variável x1 for acrescida de uma unidade, então Y terá um acréscimo
de 2,5 %.
b) 0,003 é o mais baixo nível de significância ao qual a hipótese nula pode ser
rejeitada.
c) x3 explica 95,32% das variações de Y em torno de sua média.

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 65 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estratégia
C O N C U R S O S ^
Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - A ula 09
d) as probabilidades de se cometer o Erro Tipo I e o Erro Tipo II são,
respectivamente, iguais a 5% e 95%.
e) se no teste de hipóteses individual para 22 se rejeitar a hipótese nula (H0),
então tem-se fortes razões para acreditar que x2 não explica Y.

Exercício 17

(FINEP - CESGRANRIO/2011) O modelo de regressão linear Y = aX + erro,


onde (X, Y) são pares de dados observados e a é um parâmetro a ser
estimado, foi ajustado aos dados (X, Y) mostrados na figura abaixo.

Foi usada a técnica de minimizar a soma dos erros quadráticos para ajustar a
reta de regressão, a qual

a) passa por (X, Y), onde X e Y são as médias de X e de Y.


b) passa pela origem (0, 0).
c) não é a única reta que minimiza a soma dos erros quadráticos.
d) tem variância esperada nula.
e) tem coeficiente angular necessariamente negativo.

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 66 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Exercício 18

(FINEP - CESGRANRIO/2011) Se o coeficiente de correlação entre duas


variáveis X e Y for nulo, então a(s)
a) covariância entre X e Y é nula.
b) média de X é nula.
c) média de Y é nula.
d) médias de X e Y são iguais.
e) variâncias de X e de Y são não correlacionadas.

Exercício 19

(TRT 19ã região - FCC\2014 - modificada) Sejam duas variáveis X e Y


representando os salários dos empregados nas empresas Alfa e Beta,
respectivamente, com 100 empregados cada uma. Em um censo realizado nas
duas empresas apurou-se que a média, em milhares de reais, de X foi igual a
2,5 e a média de Y foi igual a 3,2. A soma dos valores dos quadrados, em (R$
1.000,00)2, de todos os valores de X foi igual a 650 e de todos os valores de Y
foi igual a 1.047,04. Assim, o coeficiente de variação de:
a) X é igual a 10% e o de Y igual a 20%.
b) X é igual a 20% e o de Y igual a 15%.
c) X é igual ao coeficiente de variação de Y.
d) Y é igual à metade do coeficiente de variação de X.
e) Y não é menor que o coeficiente de variação de X.

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 67 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Exercício 20

(SEFAZ-SP - 2013/FCC) Considere:


I. O coeficiente de variação de uma variável é uma medida de dispersão
absoluta que é o resultado da divisão entre a média e o desvio padrão da
variável em questão.
II. Um dispositivo útil quando se deseja verificar se existe correlação linear
entre duas variáveis é o gráfico de colunas justapostas.
III. O desvio padrão é mais apropriado do que o coeficiente de variação
quando se deseja comparar a variabilidade de duas variáveis.
IV. Na amostragem aleatória estratificada, a população é dividida em estratos,
usualmente, de acordo com os valores ou categorias de uma variável, e,
depois, uma amostragem aleatória simples é utilizada na seleção de uma
amostra de cada estrato. Está correto o que se afirma APENAS em
a) I.
b) II.
c) III.
d) I e IV.
e) IV.

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 68 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Exercício 21

(TRT 12ã - FCC\2013) Um modelo de regressão linear múltipla, com intercepto,


consiste de uma variável dependente, 3 variáveis explicativas e com base em
12 observações. As estimativas dos parâmetros do modelo foram obtidas pelo
método dos mínimos quadrados e o valor encontrado da estatística F (F
calculado) utilizado para testar a existência da regressão foi igual a 14. O
coeficiente de explicação (R2), definido como sendo o resultado da divisão da
variação explicada pela variação total, é, em %, igual a
-xj -xj 00

a)
00 o> o
o 00 o

b)
c)
d) 72,0.
CO
<3

e)

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 69 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM


Estratégia
r nONNr Ci i UR R« ;S nO<S;
C
Estatística p/AFRFB
Teoria e exercícios comentados
Prof. Jeronymo Marcondes - Aula 09

Gabarito
2- d
3- e
4- c
5- d
6- anulada
7- b
8- c
9- Certo
10- Errado
11- Certo
12- Errado
13- Errado
14- Errado
15- a
16- b
17- b
18- a
19- b
20- e
21- e

Encerramos a parte teórica pessoal, falta o simulado! Espero que vocês


tenham gostado do curso e, desde já, me coloco à disposição para tirar
qualquer dúvida de Estatística/Econometria/Economia. Tenho certeza que
aqueles que se esforçaram serão recompensados em breve! Lembre-se do
que um professor meu dizia: “só não passa quem desiste”. Mandem dúvidas e
boa sorte!

jeronymo@estrategiaconcursos.com.br

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 70 de 70

ATENÇÃO! ESSE MATERIAL PERTENCE AO SITE: WWW.MATERIALPARACONCURSOS.COM

Você também pode gostar