Escolar Documentos
Profissional Documentos
Cultura Documentos
desvios deve igualar zero. Assim, vamos adotar uma estratégia semelhante para resolver o
problema, elevando os desvios ao quadrado e dividindo tal resultado pelo valor esperado da célula:
Assim, a estatística de teste para análise de associação entre estas variáveis é dada por:
Este é um valor significantemente maior do que zero, portanto, pode-se inferir que as variáveis
estão associadas. Quanto maior este valor, maior é a associação entre as variáveis. Viu como
se faz? Portanto, guarde a fórmula:
Sendo que esta expressão está te dizendo para somar, para todas as células ( ), o quadrado das
diferenças entre o valor real ( ) e o valor esperado em cada célula ( ), caso as variáveis não
fossem associadas, divido pelo seu respectivo valor esperado.
“Tá bom professor, mas devo comparar este valor com a tabela qui-quadrado”?
Olha, não precisamos entrar nisso. Esta parte fica um pouco mais complicadinha e nunca cai em
concursos que não sejam específicos para estatísticos. Assim, só saiba calcular a estatística de
teste e o coeficiente de Pearson que já basta.
Essa é uma pergunta sem uma única resposta! Isso muda de autor para autor. Mas, é importante
que vocês conheçam uma “regrinha de bolso” para determinação do valor ideal de uma amostra
com base no erro amostral tolerável ( ).
Isso é, para um erro amostral da ordem de 4%, devemos ter uma amostra de, no mínimo:
Vamos fazer um exercício para que você veja como isso cai?
a) qui-quadrado
e) análise de variância
RESOLUÇÃO:
A alternativa B cita comparação entre médias, porém médias são medidas utilizadas no
tratamento de dados quantitativos.
A alternativa C cita verificação de média, mediana e moda, que são medidas utilizadas
também no tratamento de dados quantitativos.
A alternativa D cita verificação de desvio padrão, sendo o desvio padrão também uma
medida utilizada no tratamento de dados quantitativos.
Finalmente, a alternativa E cita análise de variância, também conhecida como ANOVA, que
também é um teste estatístico utilizado no tratamento de dados quantitativos. Logo, concluímos que
as demais alternativas estão incorretas porque contêm procedimentos utilizados no tratamento de
dados quantitativos, e não nominais, e nota-se mesmo que não se saiba o que é qui-quadrado seria
possível chegar ao gabarito apenas eliminando as demais alternativas.
Resposta: A
Covariância ( ) é uma medida da “variância conjunta” entre duas variáveis. Para uma amostra
de tamanho ( ), a covariância entre duas variáveis quaisquer, e , é dada por:
Entendeu? Antes de passarmos para o próximo tópico, vocês precisam saber uma coisa importante
demais sobre a covariância!
Para quantificarmos o R² precisamos definir ( ), a média das variâncias dentro dos subgrupos,
que chamaremos de variância média. Ao definirmos como o produto da variância do
subgrupo pelo tamanho da amostra no mesmo, a variância média será dada por:
Isso quer dizer que 41,5% da variabilidade dos salários é explicada pela variável “grau de
instrução”.
Só para vocês ficarem contentes em ver uma aplicação prática, vamos fazer um exemplo.
Vamos lá! Dada a seguinte série de dados, estime a regressão linear Y = f(X), ou
costumeiramente chamada de “Y contra X”.
Variáveis X Y
103 160
123 167
145 207
126 173
189 256
211 290
178 237
155 209
141 193
156 219
166 235
179 234
197 273
204 272
125 181
112 166
107 161
135 195
144 201
188 255
(2)
Então, estes parâmetros são a versão estimada dos parâmetros na equação (1). Portanto, são
os resíduos da regressão com base em uma amostra n da população N.
Meus amigos, vocês conseguem enxergar que este resíduo tem mais um problema além dos já
citados para os erros? Lembra do gerente comercial eficiente que pediu demissão? Então, este é
um desvio natural de se interpretar um comportamento econômico, derivado de influências de
infinitas variáveis, a partir de uma reta. Agora, há outro fator em cena, há um “erro” decorrente de
se inferir uma estimativa da reta (1) a partir de (2). Ou seja, o fato de nós só termos uma amostra
leva a desvios com relação à estimativa dos parâmetros. Dado que, com base na nossa regressão
estimada, o valor esperado de y ( ) é:
Bom pessoal, nós já temos uma estimativa de uma regressão, agora vocês podem estar se
perguntando: “Será que isso está bom? Será que esta reta representa bem a situação ocorrida no
mundo real?” Nós vamos estudar isso a seguir.
Veja um exercício!
Utilizando a equação da reta obtida pelo método dos mínimos quadrados, tem-se que, caso haja
um gasto anual com propaganda de 80 mil reais, a previsão do lucro bruto anual, em mil reais, será
de:
a) 158
b) 128,4
c) 121
d) 102,5
e) 84
Resolução:
Bom, primeiramente, não caia na armadilha! Estes valores que o exercício te deu não estão
centrados na média. Portanto, com base em propriedades estatísticas, pode-se demonstrar que:
SQE K
SQR N–k–1
SQT N–1
O que é isso? Não é a variância? Exatamente! Trata-se de uma medida não tendenciosa da
variância dos erros. Portanto, o quadrado médio dos resíduos iguala a variância dos erros. O
mesmo pode ser dito com relação ao coeficiente SQE/k, haja vista o mesmo medir também uma
variância, mas a variância explicada.
Bom, nós já temos a variância dos erros e a variância explicada pela regressão, dada por ,
Não entendeu? Vamos lá. Nós poderíamos encontrar uma regressão na qual os quadrados médios
dos resíduos (variância dos erros) representam a maior parte da variabilidade da regressão,
invalidando a representatividade da regressão como um processo que poderia ter gerado aquelas
Como nós podemos verificar isso? Por meio do teste F. O teste F é um teste estatístico que visa
comparar variâncias e se a diferença entre ambas é estatisticamente significante. Analiticamente,
sob a hipótese nula, o quociente entre dois quadrados médios, isso é, entre duas variâncias, segue
uma distribuição F.
A título de ilustração vamos nos utilizar da tabela ANOVA que nós construímos. Portanto:
Sob a hipótese nula de que estas duas variâncias são iguais, a estatística de teste segue uma
distribuição F com k graus de liberdade no numerador e N - k – 1 graus de liberdade no
denominador.
O que você está buscando? Bom, quando você estima uma regressão, você busca encontrar uma
relação estatisticamente significante que explique o fenômeno que está em estudo. Assim, se você
concluir que não há como rejeitar a hipótese nula de que a variância explicada pela sua regressão
é igual à variância dos resíduos, na verdade, você não encontrou nada! Isso deriva do fato de que,
se isso aconteceu, é muito provável que toda parcela que você conseguiu explicar da variável
dependente foi por acaso, o que deve ter acontecido somente em virtude da variação dos erros e
não de uma especificação correta de uma reta. Ou seja, toda sua regressão não tem grande
validade em termos de explicar a dinâmica da variável dependente em estudo.
b) a variação explicada, fonte de variação devido à regressão, apresenta um valor igual a 80.
c) Dividindo a variação residual pela variação total, obtemos o coeficiente de determinação (R²).
Resolução:
Perceba que e são as estimativas de e para uma dada amostra de dados da população.
Algo intuitivo, mas que é importante destacar é que b mede a alteração em y para uma dada
variação em x, mantido tudo mais constante, ou como os economistas chamam coeteris
paribus.
Agora, a pergunta é: será que, na média, estes estimadores se aproximam do valor real do
parâmetro? Pronto, agora você vai entender o que é viés de um estimador.
Isto quer dizer, a “esperança do estimador é igual ao seu correspondente parâmetro populacional”.
Só para lembrá-los das aulas de Estatística, quando você falar em esperança de uma variável, tire
a sua média e pronto! Vocês não precisam saber mais do que isso para sua prova.
Bom, falamos um monte para chegarmos à seguinte pergunta: quais as condições necessárias para
que o estimador de MQO seja não viesado? A resposta para esta pergunta depende de uma
demonstração matemática que se utiliza do operador esperança.
Quem pensou assim é um verdadeiro concurseiro, com meio caminho andado para sua aprovação.
Você tem que ser objetivo e focar em resultados e não em perfumarias. Se você gostar muito de
Estatística e quiser aprender isso, passe no concurso e vá fazer um Mestrado ou Doutorado depois,
agora, pense no concurso. Mas, quem quiser dar uma olhada na demonstração, dê uma olhada no
livro do meu orientador de doutorado, Rodolfo Hoffmann, “Análise de Regressão: uma
introdução à Econometria”.
Se isso ocorrer, você concorda que a variância será função do valor da variável explicativa e,
portanto, não constante? Se isso ocorrer, surgirão problemas na análise de regressão, conforme
será discutido mais adiante. Quando a variância dos erros não é constante, chamamos a este
problema de heterocedasticidade.
Quanto à 5ª hipótese, espera-se que os erros do período presente não guardem relação com os
erros do período passado. Com efeito, os erros observados nas estimativas MQO no período t não
podem influenciar os erros de estimativa no período t+1. Para entender melhor, substitua t por um
determinado ano, 2010, por exemplo, e pense sobre isso. Caso isso não ocorra, dizemos que o
modelo possui autocorrelação.
Vocês lembram de que eu disse que, por enquanto, estamos trabalhando com dados em cortes
transversais, ou seja, com observações para diferentes unidades no mesmo período de tempo
(como no caso dos gastos com propaganda, que avaliamos diferentes empresas em um único ponto
do tempo, um ano, por exemplo)? Então, a hipótese 5ª, na maior parte dos casos, só é violada
quando estamos trabalhando com séries de tempo, ou seja, observações para uma mesma
unidade em diferentes períodos do tempo (seria o equivalente a avaliar a questão dos gastos com
propaganda em uma única empresa, mas ao longo do tempo).
Então, se estas hipóteses estiverem valendo, você pode dizer que sua Regressão Linear Simples
é BLUE.
Ufa! Falamos para burro ao longo deste curso, portanto chega de conversa e vamos fazer
exercícios.
Ou seja, que a regressão passe por estes pontos médios. Diminua a primeira equação da segunda:
Multiplicando o numerador e o denominador por � , o que deixa o total inalterado, e somando esta
expressão para todas as unidades seccionais:
Que é o próprio estimador de MQO. Ou seja, o ponto médio é compatível com esta fórmula.Ou seja,
a regressão irá passar pelo ponto � y .
Alternativa correta.
RESOLUÇÃO:
a) O último decil corresponde ao 9º decil, é a observação que divide os dados de forma que 90%
dos dados sejam menores que ele e 10% sejam maiores. Vamos acrescentar a coluna da frequência
acumulada na tabela a fim de verificar a que classe o 9º decil pertence:
Intervalo Frequência
Frequências
de Classe Acumulada
0 |-- 10 47 47
10 |-- 20 29 76
20 |-- 30 13 89
30 |-- 40 7 96
40 |-- 50 3 99
Mais de
50 1 100
Ao observar a tabela acima, verificamos que há um total de 100 observações, portanto o 9º decil se
encontra na classe em que a observação 90 (pois 90% de 100 observações = 90) se encontra. Da
tabela, temos que até a terceira classe estão acumuladas 89 das observações, portanto a
observação 90 (9º decil) pertence à classe seguinte (30 |-- 40), que é a antepenúltima classe, e não
a penúltima. Portanto a alternativa A está incorreta.
c) Como os dados estão organizados em classes, a fim de calcular a média precisamos calcular o
ponto médio de cada um dos intervalos. Assim, temos:
Ponto Médio
Frequências
Intervalo
5 47
15 29
25 13
35 7
45 3
55 1
A média é dada pela soma dos pontos médios dos intervalos multiplicados pelas respectivas
frequências, dividida pela frequência total (soma das frequências). Assim:
Méd�a
Méd�a
Logo, a média pertence à 2ª classe, e não à 3ª, pois 14,3 é um valor entre 10 e 20. Assim,
concluímos que a alternativa C também está incorreta.
d) Sabemos que a classe modal (classe de maior frequência) é a 1ª classe, entretanto isso não nos
permite afirmar que a moda exata pertença a essa classe, só a análise dos dados brutos (não
organizados em classes) nos permitiria verificar qual a moda exata e a que classe ela pertence.
Logo, a alternativa D está incorreta.
Resposta: B
15 - FGV – MPE/BA – 2017) Em uma amostra desconfia-se de que três valores sejam, na verdade,
“outliers” e que deveriam ser descartados. Para tal avaliação o estatístico dispõe apenas dos
valores dos 1º e 3º quartil da distribuição. Os números são os seguintes:
RESOLUÇÃO:
Com os valores dos 1º e 3º quartil fornecidos pelo enunciado devemos calcular os limites
inferior e superior, e compará-los com X1, X2 e X3. Valores menores que o limite inferior ou maiores
que o limite superior são outliers, já valores maiores ou iguais ao limite inferior e menores ou iguais
ao limite superior não são outliers.
b) 0,003 é o mais baixo nível de significância ao qual a hipótese nula pode ser rejeitada.
e) se no teste de hipóteses individual para 2 se rejeitar a hipótese nula (H0), então tem-se fortes
razões para acreditar que x2 não explica Y.
Resolução:
Alternativa b
P(Z < 0,4) = 0,655; P(Z < 0,67) = 0,75; P(Z < 1,4) = 0,919; P(Z < 1,6) = 0,945;
P(Z < 1,64) = 0,95; P(Z < 1,75) = 0,96; P(Z < 2) = 0,977; P(Z < 2,05) = 0,98
A porcentagem do orçamento gasto com educação nos municípios de certo estado é uma
variável aleatória X com distribuição normal com média (%) e variância 4(%)².
Um gasto em educação superior a 10% tem probabilidade de 4%. Nessas condições, o valor
de é igual a
a) 5,50%
b) 6,20%
c) 7,35%
d) 6,50%
e) 7,85%
RESOLUÇÃO:
é a variância da variável aleatória X, o enunciado nos diz que é 4(%)², que é o mesmo que 4/100²
= 4/10000 = 0,0004. Logo, o desvio padrão é dado por . Assim, temos que:
P X P X P Z
Se P(Z < 1,75) = 0,96 (dado pelo enunciado), P(Z > 1,75) = 1 – 0,96 = 0,04. Logo, chegamos
a:
Resposta: D
a) 49/76;
b) 9/15;
c) 2/9;
d) 27/76;
e) 6/15.
RESOLUÇÃO:
A questão nos diz que temos 2 turmas de desembargadores (logo cada uma pode ser sorteada
com a mesma probabilidade), e que na turma menor (7 juízes) há 4 juízes contra a redução da
maioridade penal, logo 7 – 4 = 3 juízes dessa turma são a favor da redução. Há ainda a informação
de que na turma maior (9 juízes) há 2 juízes contra a redução da maioridade penal, assim 9 – 2 =
7 juízes dessa turma são a favor da redução. Portanto, temos que:
Resolução:
B – Correto. Devido ao fato de o modelo ser dado por , não há intercepto, portanto,
quando , será igual à zero também.
C – Errado, estamos estudando o caso em que só há uma reta que minimiza a soma dos quadrados
dos erros.
E – O coeficiente angular tem o mesmo sinal da associação entre as variáveis, então, no presente
caso, o mesmo é positivo. Olhe no gráfico!
Pessoal, uma das propriedades da regressão linear é que ela passa pelo ponto composto pelos
valores médios de X e Y, no caso de uma regressão de Y contra X. Ou seja, essa é uma propriedade
verdadeira, o que torna a alternativa correta! Mas, a banca não considerou!
Alternativa b
Supondo que a decisão será tomada com base na esperança matemática da pena, o criminoso
deve:
RESOLUÇÃO:
E(X) = 12p
2) Se o criminoso recorre ao instituto da colaboração premiada (resolve delatar), E(X) é dada por:
Ao igualar a E(X) caso o criminoso delate e caso não delate chegamos ao seguinte valor
para p:
12p = 8,4
p = 8,4/12 = 0,7
Portanto, para p = 0,7, tomando como base na esperança matemática da pena, é indiferente
para o criminoso delatar ou não, pois em ambos os casos a média de anos de reclusão esperada
é a mesma (8,4 anos). Para valores de p menores que 0,7 o criminoso não deve recorrer ao instituto
da colaboração premiada, pois a média de anos de reclusão caso não delate será menor que 8,4
anos (média esperada caso resolva delatar). Já para valores de p maiores que 0,7, o criminoso
Resposta: D
Resolução:
ã
é
A média nós já temos, portanto temos que calcular a variância com base na seguinte fórmula:
� é é
b) II.
c) III.
d) I e IV.
e) IV.
Resolução
I.O conceito está incorreto, o conceito de coeficiente de variação é uma medida de dispersão
relativa, que decorre da divisão do desvio padrão pela média e não o contrário.
II.Essa utilização gráfica não é adequada para encontrar correlação linear, há vários métodos,
conforme descritos na aula de correlação e regressão.
III.O coeficiente de variação permite uma comparação mais adequada entre as dispersões de duas
variáveis diferentes, essa é sua principal utilidade!
IV.Definição perfeita.
Alternativa (e).
a) 80,0.
b) 76,8.
c) 78,0.
d) 72,0.
e) 84,0.
Resolução:
Vamos inverter um raciocínio que já fizemos a fim de encontrar o R²! Veja a fórmula que já usamos:
Alternativa (e).
O indivíduo preso temporariamente pode, findo o prazo, ter sua prisão convertida em preventiva
com probabilidade de 40%.
a) supondo ele já cumpriu todo o período de prisão temporária, a probabilidade de que permaneça
preso por mais 3 semanas é de 0,12;
b) a probabilidade de que ele fique preso menos do que 2 semanas é 1 - (0,6). e-0,02 ;
c) a probabilidade que ele fique detido por mais do que 100 semanas é igual a (0,6) . e -1;
d) se ele passar à prisão preventiva, a probabilidade de ficar preso por mais 10 semanas é igual a
1 - e-0,2;
RESOLUÇÃO:
E T
Resposta: E
Sem usar o ajuste de continuidade, a probabilidade de que mais de 24 decisões sejam reformadas
é:
a) 13%;
b) 10%;
c) 8%;
d) 5%;
e) 2%.
RESOLUÇÃO:
Para calcular a probabilidade de que em um total de 100 recursos, mais de 24 sejam reformados,
queremos calcular a probabilidade de
p , ou seja, a probabilidade de mais de 24% dos recursos serem reformados.
P p
Resposta: A
19; 25; 39; 20; 16; 27; 40; 38; 28; 32; 30.
(A) 27
(B) 28
(C) 29
(D) 30
(E) 31
Resolução:
Ordene:
16;19;20;25;27;28;30;32;38;39;40
Dado que há um número ímpar de elementos, a mediana será o elemento que coincide com o
seguinte:
Alternativa (b).
(A) 0,3085.
(B) 0,3587.
(C) 0,6915.
(D) 0,8413.
(E) 0,9772.
Resolução:
Procure “1,00” na tabela da banca. Este é o z que faz com 84,13% das observações sejam menores
do que este valor z. Como a distribuição normal é simétrica, esta também é a probabilidade de que
os valore encontrados na amostra sejam maiores do que -1, ou seja, 10.
Alternativa (d).
(A) 0,36.
(B) 0,48.
(C) 0,50.
(D) 0,61.
(E) 0,69.
Para resolver esta questão precisamos encontrar a estimativa para o parâmetro do modelo de
regressão. Isso será feito por:
Alternativa (d).
I . X é uma variável aleatória com distribuição binomial com média 2p e variância (2p-2p2).
II . Y é uma variável aleatória com distribuição binomial com média 5p e variância (5p-5p2).
a) 3/1024
b) 1/64
c) 5/512
d) 15/1024
e) 7/512
Resolução
Eu optei pela resolução mais fácil e rápida desta questão, já que dá para ser mais formal, mas não
é o que um concurseiro precisa! Vamos começar com a variável X, nós sabemos que a esperança
e a variância de uma distribuição binomial são dadas por:
Então:
Portanto:
Alternativa (b).
Resolução:
O p-valor é o menor nível de significância ao qual a hipótese nula pode ser rejeitada.
Vejamos, se você obtém um valor de 0,04 para seu p-valor, isso significa que a hipótese nula pode
ser rejeitada a 4% de significância. Mas, se você escolheu 5% como seu nível de significância, ou
seja, você definiu que 5% é muita coincidência, você deve rejeitar a hipótese nula.
Qual é a hipótese nula que estamos testando com os coeficientes? Que o mesmo é igual a zero!
Vamos pensar.
Alternativa (c).
a) 158
b) 128,4
c) 121
d) 102,5
e) 84
4 - FCC - ANALISTA BACEN 2005) Uma empresa com a finalidade de determinar a relação entre
os gastos anuais com propaganda (X), em R$ 1000,00, e o lucro bruto anual (Y), em 1000,00, optou
por utilizar o modelo linear simples Y(i) = a + bX(i) + e(i), em que Y(i) é o valor do lucro bruto auferido
no ano (i), X(i) é o valor do gasto com propaganda no ano (i) e e(i) o erro aleatório com as
respectivas hipóteses consideradas para a regressão linear simples.
b) a variação explicada, fonte de variação devido à regressão, apresenta um valor igual a 80.
c) Dividindo a variação residual pela variação total, obtemos o coeficiente de determinação (R²).
b) 0,003 é o mais baixo nível de significância ao qual a hipótese nula pode ser rejeitada.
e) se no teste de hipóteses individual para 2 se rejeitar a hipótese nula (H0), então tem-se fortes
razões para acreditar que x2 não explica Y.
P(Z < 0,4) = 0,655; P(Z < 0,67) = 0,75; P(Z < 1,4) = 0,919; P(Z < 1,6) = 0,945;
P(Z < 1,64) = 0,95; P(Z < 1,75) = 0,96; P(Z < 2) = 0,977; P(Z < 2,05) = 0,98
A porcentagem do orçamento gasto com educação nos municípios de certo estado é uma
variável aleatória X com distribuição normal com média (%) e variância 4(%)².
Um gasto em educação superior a 10% tem probabilidade de 4%. Nessas condições, o valor
de é igual a
a) 5,50%
b) 6,20%
c) 7,35%
d) 6,50%
e) 7,85%
24 - FGV – MPE/BA – 2017) Um criminoso está avaliando se vale a pena ou não recorrer ao instituto
da colaboração premiada. Caso não recorra, a sua probabilidade de ser condenado é igual a p,
com 12 anos de reclusão. Se resolver delatar, pode pegar 6 anos de prisão, com probabilidade de
0,4, ou 10 anos, com a probabilidade complementar.
Supondo que a decisão será tomada com base na esperança matemática da pena, o criminoso
deve:
II. Um dispositivo útil quando se deseja verificar se existe correlação linear entre duas
variáveis é o gráfico de colunas justapostas.
III. O desvio padrão é mais apropriado do que o coeficiente de variação quando se deseja
comparar a variabilidade de duas variáveis.
a) I.
b) II.
c) III.
d) I e IV.
e) IV.
30 - TRT 12ª – FCC\2013) Um modelo de regressão linear múltipla, com intercepto, consiste de
uma variável dependente, 3 variáveis explicativas e com base em 12 observações. As estimativas
dos parâmetros do modelo foram obtidas pelo método dos mínimos quadrados e o valor encontrado
da estatística F (F calculado) utilizado para testar a existência da regressão foi igual a 14. O
coeficiente de explicação (R2), definido como sendo o resultado da divisão da variação explicada
pela variação total, é, em %, igual a
a) 80,0.
b) 76,8.
c) 78,0.
d) 72,0.
e) 84,0.
O indivíduo preso temporariamente pode, findo o prazo, ter sua prisão convertida em preventiva
com probabilidade de 40%.
a) supondo ele já cumpriu todo o período de prisão temporária, a probabilidade de que permaneça
preso por mais 3 semanas é de 0,12;
b) a probabilidade de que ele fique preso menos do que 2 semanas é 1 - (0,6). e-0,02 ;
c) a probabilidade que ele fique detido por mais do que 100 semanas é igual a (0,6) . e -1;
d) se ele passar à prisão preventiva, a probabilidade de ficar preso por mais 10 semanas é igual a
1 - e-0,2;
32 - FGV – MPE/BA – 2017) A probabilidade de que uma decisão de 1ª instância da Justiça Federal
do Paraná seja reformada pelo Tribunal Superior da 4ª Região é de 0,20. No momento 100 recursos
aguardam por uma decisão dos Srs. Desembargadores daquele Tribunal.
a) 13%;
b) 10%;
c) 8%;
d) 5%;
e) 2%.
19; 25; 39; 20; 16; 27; 40; 38; 28; 32; 30.
(A) 27
(B) 28
(C) 29
(D) 30
(E) 31
(A) 0,3085.
(B) 0,3587.
(C) 0,6915.
(D) 0,8413.
(E) 0,9772.