SUMÁRIO PÁGINA
Conceitos Básicos 5
Variáveis 7
Tabela de frequência e representação gráfica 10
Diagrama de Ramos e Folhas 22
Lista de Exercícios resolvidos em aula 35
Gabarito 41
Olá pessoal! Estão prontos para embarcarmos juntos nesta difícil jornada que leva à
aprovação em um concurso público? Então vamos lá! Bom pessoal, primeiro que
gostaria de bater um papinho com vocês.
Boa pergunta! Meu nome é Jeronymo Marcondes Pinto e já tenho uma grande
bagagem no que se refere a concursos públicos. Sou Economista, Mestre e Doutor
em Economia Aplicada pela Universidade de São Paulo (USP) e, atualmente, sou
Auditor Fiscal do Trabalho (AFT), atuando na área de planejamento e análise
estatística da Secretaria de Inspeção do Trabalho (SIT - MTE sede). Já fiz muitos
concursos, tendo sido aprovado em vários, como Auditor Fiscal do Tesouro
Estadual (SEFAZ\RS), Analista de Planejamento, Orçamento e Finanças Públicas
(SEFAZ SP), Economista do MPU, Economista da Câmara Municipal de São Paulo,
dentre muitos outros. Porém, já fui reprovado em concurso também!
- "Professor, por que você está nos contando de reprovações, isso não te diminui?”
Muito pelo contrário! Posso dizer que a maior parte da minha experiência deriva do
não sucesso! Aprendi muita coisa ao não ser aprovado, coisas que fizeram com que
eu me tornasse um verdadeiro concurseiro! Ao longo do curso estarei dando "dicas
de concurseiro” para vocês, o que os ajudará nos seus planejamentos, estratégias,
etc.
DICAS DE UM CONCURSEIRO
Gente, o “perdedor” não é aquele que não vence, mas aquele que
não tenta por ter medo de perder! Não tenha medo de não ser
aprovado, faça o seu melhor! O medo fará com que você desperdice
chances que podem mudar a sua vida, além de fazer com que você
se esforce menos... o que é, de longe, o principal para ser aprovado!
Em minha opinião, sim! Veja, a carreira na Receita é uma das mais poderosas do
Brasil no sentido de que ela “controla o cofre”. Assim, no longo prazo, as carreiras
que teriam maior capacidade de garantir benefícios e excelentes condições de
trabalho seriam as da Receita. Além disso, há outras questões que considero
maravilhosas na receita:
-“Que maravilha”!
Pois é, mas você não é a única pessoa que percebeu isso. O concurso da receita é,
também, um dos mais difíceis do Brasil. Os concurseiros desta área se preparam
com muita antecedência e estão entre os melhores do Brasil.
Claro que consegue! O que a minha experiência me ensinou é que quem passa em
concurso é aquele que realmente sabe o que quer e corre atrás! Não desanime de
jeito nenhum e estude com todas as suas forças, pois você vai conseguir. Por
enquanto, não temos edital, mas aí é que está a questão, pois você deve ir se
preparando com antecedência para um concurso deste calibre.
Pragmatismo porque costumo tentar ser o mais objetivo possível, sempre com foco
em editais de concurso público. Assim, o meu curso não terá um viés acadêmico,
sendo que o mesmo é feito para quem quer passar em concurso público, ponto.
Informalidade porque o presente curso não é um livro texto. Afinal, quem quiser um
livro texto bem formal basta ir à livraria e comprar, não acha? O nosso diferencial no
Estratégia Concursos é ensinar da forma mais didática possível, evitando
formalismos desnecessários, como a demonstração de um teorema, por exemplo. O
meu objetivo é que qualquer pessoa seja capaz de fazer uma prova de
Estatística tendo meu curso como base.
O que vocês vão estudar comigo é a parte de estatística do edital atual (7 de Março
de 2014).
Introdução à Análise
Aula 2 07/07/2014
Combinatória
Aula 2 - parte 2 Probabilidade 07/07/2014
Distribuição de Probabilidade
Aula 5 08/09/2014
Conjunta
Aula 6 Inferência e Estimação 08/09/2014
Neste novo curso de Estatística para AFRFB teremos mais exercícios (resolveremos
a última prova de auditor e outras da ESAF), um simulado mais amplo e focado na
ESAF e um aprofundamento de alguns conteúdos, tal como amostragem.
Tendo isso em mente, chega de blá, blá e blá. Vamos ao que interessa!
1. Conceitos básicos
Veja uma pesquisa eleitoral, por exemplo. O ideal seria que todos os eleitores de
uma determinada sociedade fossem consultados, mas isso é impossível, seja por
custos da pesquisa, seja pelo tempo que seria necessário para isso.
Essa parte fica para a estatística inferencial! Assim, com base em uma amostra, a
estatística inferencial irá apresentar, analisar e interpretar os dados coletados.
2. Variáveis
Poxa, você vai cansar de ouvir "esta variável”, "aquela variável”, etc. Mas, afinal de
contas, o que é uma variável?
É claro que isso foi uma brincadeira, mas com um fundo de verdade. Veja uma
definição mais formal:
atenção
Variável é toda a realização de uma característica que
pode assumir diferentes valores a cada experimento.
Ora, vamos imaginar o território do estado de São Paulo nos últimos 5 (cinco) anos,
provavelmente o valor da área do estaíclo não mudou neste período (se mudou, por
favor me avisem...rsrsrs). Este é um exemplo de uma constante. Ou seja,
independentemente da quantidade de vezes que seja realizado o experimento
(leia-se pesquisa), o tamanho do território será o mesmo (leia-se característica
constante).
Por exemplo, caso um pesquisador realize uma pesquisa com diversos indivíduos a
fim de determinar a proporção de indivíduos que são casados na sociedade, a
resposta será uma variável qualitativa: casado ou solteiro.
Primeira pergunta que você vai fazer ao avaliar uma variável é: quantas vezes uma
determinada característica aparece?
Por exemplo, vamos analisar um exemplo hipotético de uma pesquisa sobre ensino
em um bairro do Rio de Janeiro:
Esta é uma forma de representação dos dados chamada, por alguns autores, de
agrupamento simples.
Pelo fato de esta medida não levar em conta o quanto cada valor assumido pelas
variáveis representa do total, que é o caso da frequência relativa ou proporção.
Vamos continuar no nosso exemplo:
Entenderam? Nós podemos nos utilizar desta tabela para confeccionar um gráfico
desta variável qualitativa a fim de que possamos visualizá-la melhor.
Ensi no Superi or
Ensi no Médi o
Ensi no Fundament al
Olha pessoal, em termos práticos, não há diferença entre usar um gráfico em barra
ou em coluna. Portanto, quando eu falar de gráficos em barra, entenda que o
mesmo vale para os gráficos em colunas, ok?
Esta parte é tranquila, não é pessoal? Vai dar uma volta e tomar uma água,
porque agora iremos estudar a representação das variáveis quantitativas, o
que complica um pouco. Vamos começar com o caso mais fácil: variáveis
quantitativas discretas!
Quantidade de filhos
70
60
50
40
30
20
10
0
1 2 3
60 ♦
50
40
30 ♦
20
10 ♦
0
0 0,5 1 1,5 2 2,5 3 3,5
Neste exemplo, cada ponto está relacionando a frequência em que ocorre uma
determinada quantidade de filhos com esta variável.
O gráfico de dispersão pode ser modificado de forma que não seja necessário
incluirmos o eixo vertical, tal como:
♦ 60
♦ 30
♦ 10
Neste caso, não seria possível fazer uma tabela como a acima descrita, pois haveria
a necessidade de infinitas linhas, ou seja, todo nosso objetivo de resumo de dados
se perde.
No nosso exemplo:
Frequência
Salários Frequência relativa
(número de empregados)
De 700,00 a 999,99 30 15%
De 1000,00 a 1999,99 140 70%
Mais de 2000,00 30 15%
Total 200 100%
Veja que a tabela trabalha com intervalos, ou range. Ou seja, nesta empresa há 30
empregados cujo salário fica entre R$ 700,00 e R$ 999,99, o que representa 15%
do total de empregados da empresa. Cada um destes intervalos é chamado de
classe.
700.00 hH 999,99
700.00 h 999,99
Neste caso, o intervalo conteria o valor 700,00, mas não 999,99. Este é um caso de
intervalo fechado à esquerda e aberto à direita. Agora fica fácil, não é pessoal?
Retornando!
Ao analisar a tabela de salários você percebe que cada classe tem uma amplitude.
Essa amplitude é dada pela diferença entre o limite superior e inferior de cada
classe.
INDO
^Jrmais fundo
Para uma distribuição com classes de mesma amplitude (h) há uma
“formulazinha” para encontra-las:
Vamos a um exemplo.
Exercício 1
Classes Frequência
45 h 55 10
55 h 65 7
65 h 75 8
75 h 85 15
85 h 95 3
Resolução
Retornando!
Aqueles tipos de gráficos que já mostramos podem ser utilizados para tanto.
Normalmente, os gráficos são feitos de forma que o número expresso no gráfico
corresponda ao ponto médio de cada classe. Tudo bem, vou explicar melhor!
Pessoal, todo mundo sabe o que é média, certo? Nós vamos estudar tudo isso com
mais profundidade em aulas posteriores, mas vamos simplificar para fins de
entendimento: para encontrar o ponto médio de um intervalo some o limite
Bom, agora você pode representar esta tabela graficamente. Olha só!
Mas, esta representação faz com que você perca muitas informações, pois o ponto
médio quase nunca corresponde a todos os dados da classe. O que fazer?
Outra, mais comum, é que a altura de cada retângulo seja dada pela frequência
absoluta ou relativa do intervalo de dados em questão. No nosso exemplo, com
altura dada frequência absoluta:
14
12
10
0
0-45 45-55 55-65 65-75 75-85 85-95
Beleza pessoal? O histograma é simples, basta traçar barras cuja altura seja
equivalente à frequência (absoluta ou relativa) de cada classe e a sua base
correspondente ao intervalo de cada classe.
Se nós passarmos uma linha unindo todos os pontos médios das laterais superiores
dos retângulos dos histogramas encontraremos o famoso polígono de
frequências.
Ora, é isso que temos nos nossos gráficos! Esta é dada pela correspondência dos
valores encontrados com sua respectiva frequência, indicando a forma como estes
valores se distribuem ao longo da série total de dados.
1 0
2 3 4 5 6
3 1 7
4 12 21
Veja, este diagrama está nos dizendo que temos uma série de dados composta
pelos seguintes números:
( 10,23,24,25,26,31,37,412,421)
Rol: 10; 23; 24; 25; 26; 31; 37; 412; 421
Algumas vezes o ramo é dividido das folhas por uma linha vertical, mas isso nem
sempre é feito em provas de concurso público, assim, acostume-se!
FIQUE
atento!
-- ----------- Muitas vezes o diagrama de ramos e folhas é feito de
forma diferente pelas bancas, o que pode causar uma confusão no candidato.
Por exemplo:
1 0
2 3 4 5
2 6
3 1
3 7
4 12 21
HORA DE
praticar!
Exercício 2
Resolução
Alternativa (d).
9 1 1
9 9
10 0 0 2 2 3 4
10 5 7 7 7 8
11 0 1 3
11 6 6
12 0 0 0 1 2
12 5 5 8
13 0 0 4
13 5 5 5
14 0
14 5
a) 110
b) 120
c) 116
d) 113
e) 111
Resolução
Rol: 91,91,99, 100,100,102, 102,103,104, 105, 107,107, 107, 108,110,111, 113,116,116, 120,120,
120, 121,122, 125,125,128, 130,130,134, 135,135,135, 140,145
Mas, você não precisa saber disso para constatar que, como temos 35
observações, a observação n° 18 será aquela que dividirá a série em duas partes
iguais, a saber, o número 116.
Alternativa (c).
Exercício 4
3 4
3 8
4 2 2
4 5 7
5 1 2 4
5 7 8 8 9
6 0 1 3
6 5 5 6 7 8 9 9
7 0 1 1 2 3 3 4
7 5 5 6 6 7 9
8 1 1 2 3 3 4 4
8 5 7
9 0 1 3
9 7
Resolução
Rol, gente:
Alternativa (b).
Exercício 5
Exercício 6
a) Histograma
b) Gráfico em setores
c) Gráfico de dispersão
d) Diagrama de caixas
Resolução
Vamos lá:
a) Esse é para variáveis quantitativas contínuas
b) Perfeito! Este está ótimo.
c) Esse é para variáveis quantitativas.
d) Nós ainda vamos estudar este aqui, mas você sabe que não é este!
Resolução
Deem uma olhada lá em cima! Eu já te expliquei, se você fizer uma pesquisa com
todos os indivíduos de uma população, você estará realizando um censo.
Alternativa (c).
Exercício 8
(Elaborada pelo autor) Qual das alternativas abaixo não se refere a uma forma
de apresentação de dados estatísticos:
a) Rol
b) Agrupamento em classes
c) Agrupamento simples
d) Diagrama de Ramos e Folhas
e) Censo
Alternativa (e).
Exercício 9
a) Idade
b) Altura
c) Sexo
d) Peso
Resolução
Hora da nossa regrinha! Pergunte para a variável: a única que vai te dar uma
"palavra” como resposta é a variável "sexo”.
Alternativa (c).
Resolução
Exercício 11
Pessoal, vamos rearranjar a tabela, o que vai facilitar a resolução das questões a
seguir.
Viram? Some os 4 primeiros intervalos (do salário de R$ 3.000 até R$ 6.999) que
você encontrará 63,16%. Portanto, a alternativa é correta!
Exercício 12
Resolução
Exercício 13
Resolução
Ora pessoal, trata-se da variável "salários”. Você não tem como "contar” o salário,
portanto é uma variável quantitativa contínua.Verdadeiro.
Exercício 14
Resolução
Exercício 15
Resolução
Exercício 16
Resolução
Como nós podemos resumir uma série de dados contínuos por meio da
representação de uma série? A partir da distribuição de frequências da mesma.
Alternativa (a)
Exercício 2
Exercício 3
9 1 1
9 9
10 0 0 2 2 3 4
10 5 7 7 7 8
11 0 1 3
11 6 6
12 0 0 0 1 2
12 5 5 8
13 0 0 4
13 5 5 5
14 0
14 5
Exercício 4
3 4
3 8
4 2 2
4 5 7
5 1 2 4
5 7 8 8 9
6 0 1 3
6 5 5 6 7 8 9 9
7 0 1 1 2 3 3 4
7 5 5 6 6 7 9
8 1 1 2 3 3 4 4
8 5 7
9 0 1 3
9 7
Exercício 5
Exercício 6
a) Histograma
b) Gráfico em setores
c) Gráfico de dispersão
d) Diagrama de caixas
Exercício 7
Exercício 8
(Elaborada pelo autor) Qual das alternativas abaixo não se refere a uma forma
de apresentação de dados estatísticos:
a) Rol
b) Agrupamento em classes
c) Agrupamento simples
d) Diagrama de Ramos e Folhas
e) Censo
Exercício 9
a) Idade
b) Altura
c) Sexo
d) Peso
Exercício 11
Exercício 12
Exercício 14
Exercício 15
Exercício 16
Gabarito
2- d
3- c
4- b
5- b
6- b
7- c
8- e
9- c
10- F
11- V
12- F
13- V
14- V
15- F
16- a
jeronymo@estrategiaconcursos.com.br
SUMÁRIO PÁGINA
Medidas de Posição Central 2
Medidas de Dispersão 10
Medidas Separatrizes e Simetria 17
Tabelas de Frequências e medidas de posição e dispersão 27
Lista de Exercícios resolvidos em aula 70
Gabarito 86
Dica de um concurseiro
Na última aula nós estudamos como resumir dados por meio de tabelas, gráficos e
diagramas. Porém, muitas vezes, pode ser útil resumir todas as informações que
temos em um número.
Uma forma utilizada para tanto, são as famosas medidas de posição! No nosso
caso, vamos estudar as medidas de tendência central.
Olha, as medidas de tendência central vão te dar uma ideia dos valores
aproximados em torno do qual as observações se agrupam. Há diversos tipos de
medidas de tendência central, tais como a mediana, a moda, a média aritmética, a
média geométrica e a média harmônica.
Para estudarmos estas medidas, vamos nos basear no seguinte rol exemplificativo:
Pessoal, todo mundo já deve ter ouvido falar na média aritmética, sendo que a
maior parte das pessoas refere-se a mesma como, simplesmente, média. Isso não é
à toa, pois essa é a forma mais comum de expressar uma média.
No nosso exemplo:
10 + 15 + 24 + 24 + 24 + 29 + 29 + 36 + 36 + 45 + 65
M édia = = 30, 63
11
Viram como é fácil? Outra forma de apresentar esta mesma média é por meio da
atribuição de pesos às observações, ou melhor, levando-se em conta suas
respectivas frequências.
Como? Bom, para começar vamos colocar nosso rol em forma de uma tabela de
frequências.
Observação Frequência
10 1
15 1
24 3
29 2
36 2
45 1
65 1
Dá para ver que dá na mesma? Clarp que dá, ao invés de somarmos todas as
observações, só estamos multiplicando cada uma delas pelo total de vezes que ela
aparece na série, o que é a mesma coisa!
2Xj
M édia Aritmética =
n
Vou deixar a cargo de vocês encontrarem a fórmula para o caso em que estivermos
usando frequências relativas.
Percebe? Você vai tirar uma raiz n-ésima do produto de uma série de n elementos.
Isso é média geométrica.
10 + 15 + 24 + 24 + 24 + 29 + 29 + 36 + 36 + 45 + 65
Média Harmônica =
Xi X2 Xft
Uma das coisas mais cobradas com relação aos tipos de médias é a relação entre
elas no que se refere à magnitude de cada resultado.
Calcule cada uma das médias para o nosso exemplo, você perceberá que isso é
verdade.
^ \2 p a te n to !
------ A moda é definida como a realização mais frequente do
conjunto de valores observados.
Voltemos ao nosso exemplo. Perceba que a observação que tem valor igual à 24 é
a que aparece a maior quantidade de vezes ao longo da série. Essa é a moda!
Uma forma que facilita enxergar a moda é com base em tabelas de frequência, tal
como construímos acima. Isso porque, basta verificar qual é a observação que mais
ocorre.
Beleza? E a mediana?
Não precisa pensar muito para saber que deve ser a sexta observação, pois neste
caso, haverá cinco observações antes e depois da mesma. No exemplo, a mediana
será a primeira observação de número igual à 29.
Neste caso fica fácil, mas vamos tornar o procedimento mais analítico.
Boa pergunta! Se o número de observações for par, não há observação que divide a
série em duas partes iguais! Neste caso, você vai tirar uma média aritmética das
duas que dividem!
Não entendeu? Vamos lá, suponha que nosso rol contenha mais uma observação:
Neste caso, temos 12 observações, portanto não há uma única variável que divida o
rol em duas partes iguais. Assim, para encontrar a observação:
n+ 1
2
No nosso exemplo:
12 + 1
Existe sim! Trata-se do ponto médio entre a sexta e a sétima observação! No nosso
caso, a sexta e a sétima observação tem valor igual à 29, assim:
29 + 29
= 29
2
2Xj
Mé dia Aritmética = X =
n
Mé dia(X) = 30, 63
Vamos somar 10 em cada uma das observações, de forma que o novo rol seja:
Rol: 20,25,34,34,34,39,39,46,46,55,75
Tire a média:
M édia = 40, 63
Ora, este é o mesmo resultado anterior mais 10! Essa é a propriedade. Isso vale
para uma subtração também.
M édia(a + X) = X + a
Teste!
Qual é a média?
M édia = 6 1, 27
Média(a ■X) = X ■a
2. Medidas de Dispersão
Rol: 9; 10; 50
Rol: 22; 24
Suponha que você não consiga visualizar o rol, mas só o resultado da média. Você
acha que esta medida resumo explica bem como os dados estão dispostos?
Claro que não! Isso porque há uma intensa variabilidade dentro do conjunto de
dados no primeiro rol, o que não ocorre no segundo.
Um exemplo bem fácil pode ser detido da análise de um caso de tiro ao alvo!
Suponha que você dê dois tiros, se você acertar ambos no alvo, na média, você
acertou no alvo. Agora, se você der dois tiros e um deles ficar 50 metros acima do
alvo, enquanto o segundo ficar 50 metros abaixo, na média, você acertou no alvo.
Qual o problema do argumento? Você não levou em conta a variabilidade!
-"Bom, então eu devo encontrar uma medida que mostra o quanto as observações
estão desviando da média”.
Essa é a ideia! Você pode pensar que uma "média dos desvios de cada observação
com relação à média” pode nos ajudar a identificar quando há uma intensa
variabilidade nos dados.
Porém, isso não é possível. Pois, a soma dos desvios de uma série com relação
à média sempre é igual à zero!
Rol: 9; 10; 50
Desvio Médio = - ■
n
Este "traço” vertical que fica em volta do desvio é chamado de módulo. Qualquer
número em módulo retorna um valor positivo. Ou seja, aqueles desvios negativos no
exemplo serão somados como se fossem positivos, assim:
2 (x j —x ) 2
Variância =
n
Você pode perceber que esta medida também "resolve” o problema do somatório
ser igual à zero, pois os valores serão elevados ao quadrado. Veja:
2 ( x ; - x ) 2 (9 - 2 3 ) 2 + ( 1 0 - 2 3) 2 + (5 0 - 2 3 ) 2 19 6 + 1 69 + 7 2 9
Vari ância = - = = = 3 64,6 6
n 3 3
2 (x j - x ) 2
Desvio Padrão = i
n
No nosso caso:
2(Xj - x ) 2
Desvio Padrão = I 19, 06
n
Perceba que o valor fica mais próximo do desvio médio, permitindo uma
comparação mais acurada.
-“Não entendí”!
Bom, vamos ao nosso famoso exemplo. Primeira coisa, vamos fazer uma tabela
com as observações e seus valores ao quadrado:
Observações Quadrados
9 81
10 100
50 2500
Média 23 893,66
Vari ãncia = média dos quadrados —quadrado da média = 893,66 —529 = 364,66
Ora, mas esta não é a variância? Exatamente! Dá na mesma, mas, vai por mim,
isso vai te ajudar demais na resolução de provas. Portanto, decore!
Pessoal, tal como eu fiz no caso da média, não vou ficar derivando as propriedades
da variância e do desvio padrão, apenas decorem!
Rol: 9; 10; 50
Rol: 6; 7; 47
I ( X j - x ) 2 (6 - 2 0) 2 + (7 - 2 0) 2 + (47 - 2 0) 2 1 9 6 + 1 69 + 72 9
Variância = = = = 3 64, 66
n 3 3
Ora, deu na mesma! O mesmo pode-se dizer do desvio padrão, pois se trata de
raiz quadrada do mesmo número. Isso também vale sempre!
Var(a + X) = Var(X)
DP(a + X ) = DP(X)
Olha, um jeito legal de pensar é que "variância lembra quadrados”, enquanto que o
desvio padrão é a raiz da mesma, portanto o resultado será com a variável em nível,
isso é sem estar elevada a nada.
Ora, divida este valor por 22 = 4 que você vai encontrar a variância original.
Perceba que este valor é igual ao resultado original 19,09 multiplicado por 2.
Var(a • X) = a2 • Var{X)
DP{a- X) = a- DP( X)
Conceito simples e que sempre cai em prova. Pessoal, o desvio padrão é muito
afetado pelo valor absoluto dos dados analisados, o que dificulta a comparação de
duas séries com valores muito diferentes. Assim, costuma-se utilizar o conceito de
coeficiente de variação (cv):
DP(X)
H
Entenderam? Divida o desvio padrão calculado de cada série pela sua respectiva
média aritmética. Este conceito permite comparações entre os desvios padrões de
séries com valores muito diferentes.
Beleza pessoal? Vão tomar uma água e voltem logo para continuarmos com
as medidas separatrizes.
Nós já estudamos uma medida deste tipo: a mediana. Ela divide o conjunto de
dados em duas partes iguais, tal que metade das observações possuirá valores
menores do que ela e metade terá valores maiores. Na verdade, ela é um percentil
de ordem 50.
Os quartis separam uma série de dados em quatro partes iguais, de forma que o
primeiro quartil é o valor que não é superado por 25% das observações. Na mesma
linha, o segundo quartil coincide com a mediana, possuindo valor que não é
superado por 50% das observações, enquanto que o terceiro quartil tem valor
superior a 75% das observações.
Outro exemplo: os decis. Estes dividem a série de dados em 10 partes iguais! Por
exemplo, o 1° decil possui valor que não é superado por 10% das observações. E
por, aí vai.
Veja quais são as observações que dividem a série em quatro partes iguais:
1° quartil: 6
2° quartil: 10
3° quartil: 18
Rol: 2; 3; ponto médio ( 3 e 8); 8; 9; ponto médio ( 9 e 13); 13; 15; ponto médio ( 15 e 2 1); 2 1; 23
Gente, se cair na prova, o que não é comum, encontre a mediana geral! Após
encontrar a mediana, encontre as medianas para cada parcela da mediana
geral. Por que isso? Porque a mediana da metade dos dados corresponde ao
1° e 3° quartil. Como fazer isso? Tal como fizemos neste exemplo aqui em
cima!
Para que isso fique claro precisamos estudar o conceito de distância interquartil
ou amplitude interquartil.
dq — Ç3 Çl
Esta medida nos dá uma ideia do grau de dispersão de uma série, pois quanto
maior este resultado menor é a concentração dos valores da série ao redor da
mediana.
Simples. O que nós queremos dizer com distribuição simétrica é que o que ocorre
com os valores à direita da mediana deve ser “semelhante” ao que ocorre com
os valores à sua esquerda.
Olha só, divida o gráfico em duas partes iguais. Como? Encontre o valor da
mediana.
Frequência
Percebam que estou usando o sinal de igual nas expressões acima, mas o
correto é “aproximadamente igual”, só estou tentando facilitar para vocês na
notação, ok?
Não! Isso não costuma cair em prova. Eu apenas desejo que vocês entendam a
ideia de distribuição simétrica. Olhem para as condições e vejam que a distribuição
normal tende a se encaixar no conceito. Pensem de forma abstrata, pois iremos
estudar mais da distribuição normal em aulas futuras.
Se quiser decorar uma propriedade, guarde a número (2), pois, na maior parte
dos casos, esta é resolve o seu problema!
Média < Mediana < Moda Moda < Mediana < Média
Vamos pensar de forma intuitiva a fim de que não tenhamos que ficar decorando
sem pensar!
Pessoal, a moda é o mais fácil, pois ela ocorre no ponto de maior frequencia, ou
seja, no topo da curva!
32 quartil
Mediana
12 quartil
Veja, no eixo vertical dispomos os valp res da série de dados e nos utilizamos da
caixa para que possamos saber o posicionamento da mediana e dos quartis de uma
determinada sequência de dados. Assim, este gráfico nos ajuda a verificar a
simetria da distribuição de dados em estudo.
Limite superior = q3 + 1, 5 • dq
Limite inferior = q1 —1,5 • dq
Ora, o que isso está dizendo é que qualquer observação que esteja em um intervalo
de 1,5 vezes a distância interquartil, contada a partir do 1° ou 3° quartil, é
considerada "dentro do normal”.
l,5IDq
3S quartil — —
Mediana
IS quartil
1,5 Dq
Se você ainda não entendeu, calma, nós vamos resolver alguns exercícios no fim da
aula que vão te ajudar, ok?
Primeira coisa que vocês tem que aprender é o conceito de frequência acumulada,
pois isso está em quase todas as questões de concurso.
Perceba que para o grupo que vai de 1,5 m até 1,6 m há 10 indivíduos, assim,
sabendo-se que há 10 indivíduos com altura entre 1,6 m e 1,7 m, uma classe que
agrupe todos os indivíduos com altura entre 1,5 m até 1,7 m terá 20 indivíduos.
Percebe como funciona o conceito de “acumulado”? Assim, como há 30
indivíduos pesquisados no total, a frequência acumulada na última classe coincide
com o tamanho da amostra!
Muitas vezes a banca vai te dar as frequências acumuladas e, a partir daí, será
necessário você calcular as frequências absolutas ou relativas.
j = 30
k = 30 - 2 5 = 5
E a da penúltima?
Z = 25 - 20 = 5
Bom, a média é um dos casos mais fáceis. Você vai ter que dar um "chute” para o
valor representativo de cada classe.
li T ls
ponto médio =
Assim, calculamos:
Você percebe que isso é um "chute”? Claro que sim, pois pode ser que nenhuma
das observações da classe coincida com seu ponto médio. Para o cálculo iremos
nos utilizar das frequências absolutas ou relativas.
Esta é a metodologia mais comum para calcular a média de uma série agrupada em
classes. Portanto, agora temos uma tabela de frequências simples, o que torna o
cálculo bem simples:
l [ f i • |Xj - x|]
Desvio M édio = - -
n
Entendeu? Você deve encontrar o ponto médio de cada classe, calcular a média e
calcular as medidas de dispersão como se os pontos médios fossem as próprias
observações da série. Tal como no caso da média, isso é um "chute”.
Vamos modificar nosso exemplo a fim de que tenhamos uma classe modal:
Altura Frequência
(metros) Absoluta
1,5 h 1,6 10
1,6 h 1,7 20
1,7 h 1,8 5
1,8 h 1,9 5
Total 40
Exatamente! Classe modal é aquela que "aparece mais vezes”, tal como o conceito
de moda no caso de observações não agrupadas em classe.
Então, uma primeira forma simples de se encontrar a moda é por meio da moda
bruta.
Altura Frequência
(metros) Absoluta
1,5 5 10
1,6 5 20
1,7 5 5
1,8 5 5
Total 40
Alguns de vocês já devem estar achando que tudo é igual: "é só ficar chutando”.
Mas, esta não é a única forma, nem a mais comumente cobrada em prova.
Sendo:
É isso aí, não tem jeito, você tem que decorar esta fórmula!
Algumas vezes a banca fornece a fórmula para você, mas não conte com isso.
Exercício 1
Frequência
Salário Absoluta
(R$) Simples
10 0 0 h 2 0 0 0 2
20 00 h 30 00 8
3 0 0 0 h 40 0 0 16
40 0 0 h 5 0 0 0 10
5 0 0 0 h 60 0 0 4
a) 3201,00
b) 3307,00
c) 3404,00
d) 3483,00
e) 3571,00
Resolução
Pessoal, vou deixar para vocês comprovarem que esta fórmula é exatamente igual à
que eu ensinei.
16 - 8
Moda = 3000 + 1000• s 3571
2 -1 6 - ( 8 + 10)
Continuando.
Beleza, mas este ainda não é o único jeito de calcular a moda! Tem mais 2
jeitos, mas que não caem muito. Entretanto, por via das dúvidas, é bom saber.
fclasse post
Moda King = li + h-
fcla sse post 3" fclasse
Como eu disse, as que caem mesmo são as modas de Czuber e a bruta, mas
não custa dar uma olhada nestas.
Este é o assunto mais importante da aula! Para encontrar tais valores iremos nos
utilizar de interpolação linear.
O que eu quero que vocês entendam é o seguinte: qual é a observação que não é
superada por 50% da amostra?
1,7! Olhe, até 1,7 acumularam-se 50% das observações existentes na série,
portanto, este é nossa mediana, pois este número não é superado por 50% dos
valores.
Mas, neste exercício a coisa está muito fácil e não é isso que geralmente cai na sua
prova. No caso, eu modifiquei o exercício para que a mediana e o terceiro quartil
fossem facilmente visualizáveis e não fossem necessários cálculos para encontra-
los, apesar de estarmos tratando com frequências absolutas. Entretanto, nem
sempre é tão fácil!
Quer ter uma noção? Vamos mudar a pergunta, qual a observação que corresponde
ao 1° decil, ou seja, que não é superada por 10% da série?
Veja que isso não pode ser respondido diretamente, pois a primeira classe já
acumula 20 observações, que coincide com 20% da série. A única coisa que você
sabe é que o 1° decil deve estar naquela classe, pois o valor que não é
superado por 10% dos valores deve estar alí!
Há toda uma teoria que explica como encontrar este valor por meio da metodologia
de interpolação da ogiva. Mas, não vou ficar enchendo a cabeça de vocês com
teoria, vamos ao que interessa!
Calma! O que você deve fazer é utilizar aquela famosa "regra de três” que você
aprendeu na escola. Veja, no nosso exemplo, 20% das observações, ou o segundo
decil, corresponde a uma amplitude de 10 cm (1, 6 - 1,5), aí fica a pergunta: qual a
amplitude após o limite inferior corresponde ao acúmulo de 10% das observações?
Para isso, uma regra de três:
1Qdecil = 0, 1 • 0, 5 + 1, 5 = 1, 55
Este é o primeiro decil. Entendeu como funciona? Você identifica a classe em que
está a observação que você deseja e faz uma regra de três de forma que você
relacione a amplitude da classe dividida pela sua frequência com o percentual
acumulado que você deseja.
Vamos fazer mais um exemplo, mas, agora, com base na tabela acima, encontre o
valor correspondente ao 6° decil! O que estamos procurando é a observação que
não é superada por 60% da série.
Com certeza, esta observação está na 3â classe, pois a segunda só acumula 50%
das observações, enquanto que a terceira acumula 75%. Portanto, estamos
procurando a observação que corresponde a 10% do total da série na terceira
classe, pois esta observação acumularia os 50% das classes anteriores mais os
10% desta, resultando em 60% acumulado.
Neste caso, a regra de três que temos de realizar é a seguinte: a terceira classe tem
amplitude de 0,1 cm para uma frequência relativa de 25%, tal como uma amplitude
de ( 6Qdecil - 1, 7) está para 10%. Assim:
10%
0, 1'25% = 6Qdecü ~ 1’7
+ 1, 7 = 6Qdecil
6 Qdecil = 1,74
Bom pessoal, o que eu quero é que vocês tenham entendido a ideia. Por isso
vamos fazer muitos exercícios, assim vocês poderão treinar!
Exercício 2
Resolução
Hora de forçar a memória! Se a média é o valor mais elevado, isso significa que há
pontos extremos de altos valores (à direita), o que corresponde a uma assimetria à
direita (a ESAF chamou de "frequências desviadas à direita”). Além disso, se a
moda é o menor valor, isso significa que o pico está mais à esquerda.
Alternativa (b).
Exercício 3
Resolução
Vamos analisar:
Alternativa (c).
Exercício 4
Resolução
Alternativa (b).
Exercício 5
Resolução
Perceba que tanto as alternativas (b) e (c) acabam por falar a mesma coisa. Assim,
a questão deveria ter sido anulada.
Exercício 6
Resolução
Quanto à mediana, é fácil ver que ela deve estar na segunda classe, pois, como a
frequência total é de 200 observações, estamos procurando a 100â observação.
Alternativa (e).
Exercício 7
a) 0,3; 0,9.
b) 0,0; 0,3.
c) 0,3; 0,3.
d) k; 3k.
e) 0,3k; 0,9k.
Resolução
Portanto:
3 K + K + 6K = 10K = 1
K = 0,1
( ( - 1) • 0, 3) + ( 0 • 0, 1) + ( 1 • 0, 6)
M edia = = 0,3
( ( - 1)2 • 0, 3) + ( 02 • 0, 1) + ( 12 • 0, 6)
Media dos quadrados = = 0 ,9
Portanto:
Vari ãncia = 0,9 —0,32 = 0,9 —0,09 = 0,81
Alternativa (a).
Exercício 8
Resolução
Alternativa (d).
Exercício 9
a) 0,935
b) 0,903
c) 0,839
d) 0,887
e) 0,871
Resolução
Não falei que isso cai? A questão até te disse para usar interpolação da ogiva.
Uma coisa interessante sobre esta questão é que ela está falando da "estimativa da
função de distribuição de X no ponto 29”. O que ela quer é a frequência relativa
acumulada desta observação.
Neste caso, a observação que estamos procurando está na 5â classe. Assim, por
meio da interpolação linear iremos fazer a seguinte correspondência: a amplitude da
5â classe (30 - 27 = 3) está para sua frequência ( 3), assim, como a amplitude
desejada (29 - 27) está para sua frequência, de modo que:
30 - 27 29 - 27
28
Frequência Relativa Acumulada = Função de Distribui ção2g = — 0,9 03
Alternativa (b).
Exercício 10
a) 179,5
b) 189,5
c) 183,9
d) 184,5
e) 174,5
Resolução
Mais uma para treinar! Como o total acumulado é igual a 100 os cálculos são mais
fáceis. Vamos colocar a tabela com as frequências simples:
Veja, o 8° decil corresponde a observação que não tem valor superado por 80% das
observações. Este valor está na sexta classe, pois a mesma abrange todas as
observações que vão de 72 até 90!
x = 183,9
Alternativa (c).
Exercício 11
Resolução
Para resolver esta questão precisamos encontrar qual a frequência acumulada até a
observação em questão! Bom, para isso iremos nos utilizar da interpolação da ogiva
novamente.
A observação de valor igual à 164 está na quarta classe, assim, sabendo-se que
esta classe tem frequência de 20, podemos realizar a seguinte associação:
10 _ 4,5
20 x
x= 9
9 + 26 = 35
Alternativa (d).
Exercício 12
a) 110%
b) 112,2%
c) 114,2%
d) 122%
e) 130%
Resolução
Mé dia(a ■X) = X ■a
DP(a-X) = D P ( X ) - a
Assim:
Alternativa (a).
Exercício 13
* T
10 35 60 68 75 85 100
a) O menor valor
b) 1,5 ■(Qs - Ri)
c) Qi - 1,5 ■(q3 - Qi)
d) (Q3 - R i )
e) Um outlier
Resolução
Essa questão é muito fácil pessoal. Perceba que o asterisco está além do alcance
das “peminhas”, portanto trata-se de um ponto extremo que não tem
comportamento dentro do padrão, leia-se outlier.
Exercício 14
Box-Plot
12
10
----------------------------------------------- 6
■5
Qual a probabilidade de uma pessoa deste município ter renda superior à 6 mil
reais?
a) 0,15
b) 0,20
c) 0,25
d) 0,50
e) 0,75
Resolução
Viram como são as questões de box-plots? Veja o gráfico e você perceberá que o
salário de 6 mil reais corresponde à primeira "linha horizontal” do box-plot, ou seja,
corresponde ao 1° quartil!
Alternativa (e).
Exercício 15
a) 5 reais
b) 8 reais
c) 50 reais
d) 80 reais
e) 25 reais
Resolução
Assim:
Mas, cuidado, o exercício está dizendo que os valores na tabela estão em 10 reais,
portanto, a média não é 5, mas 50!
Alternativa (c).
a) desvio padrão
b) mediana
c) média aritmética
d) média geométrica
e) moda
Resolução
Tomara que esta questão cai, hein? Muito fácil, afinal, qual é a única medida de
dispersão na listagem? Desvio Padrão!
Alternativa (a).
Exercício 17
a)
b)
c)
d)
e)
Resolução
Assim:
Var(x ) = 9 —( 2) 2 = 5
Alternativa (a).
Exercício 18
Resolução
Aí fica fácil:
11 + 10 + 9 + 8 + 12
média A = - = 10
5+8+6+6+S
média B = - =6
4+4+5+6+6
média C = =5
Exercício 19
(STN - ESAF/2013) Suponha que X seja uma variável aleatória com valor
esperado 10 e variância 25. Para que a variável Y dada por Y = p - q x, com p e
q positivos, tenha valor esperado 0 e variância 625, é necessário que p + q
seja igual a:
a) 50
b) 250
c) 55
d) 100
e) 350
Resolução
Isso decorre do fato de que se você tirar a variância de uma constante essa é igual
à zero, portanto, a variância da parte constante nem conta, portanto, pode
descartar. Assim:
Assim:
q= S
p —10q = 0 ^ p —10 5 = 0 ^ p = 50
Portanto:
p + q = 55
Alternativa (c).
Exercício 20
X f'
-2 6a
1! la
2 3a
Resolução
Primeira coisa que temos de fazer é determinar o valor de “a”. Ora, o que nós
sabemos de frequência relativa? A soma de todas deve ser igual a 1. Portanto:
6a + la + 3a = l ^ a = 0 ,1
Calcular a média:
E a variância? Vamos encontrar a média dos quadrados, porque fica mais fácil:
Assim:
Variância = media dos quadrados —quadrado da media = 3,7 —(—0, 5)2 = 3,45
Alternativa (a).
Exercício 21
Resolução
Nota Frequência
10 1
8 13
6 6
5 4
1 10
0 6
A moda é o mais fácil: nota 8, pois basta ver qual é a observação que mais ocorre.
10 -1 + 8-1 3 + 6- 6 + 5- 4 + 1-1 0 - 0 - 6
M édia = = 4,5
40
Alternativa (e).
Exercício 22
Sabe-se que a mediana dos salários desses funcionários calculada por meio
dessa tabela pelo método da interpolação linear é igual a 8,8 SM. Nessas
condições, o salário médio desses 400 funcionários, em número de salários
mínimos, considerando que todos os valores incluídos em um intervalo de
classe são coincidentes com o ponto médio do intervalo, é igual a
a) 8,93
b) 8,72
c) 8,54
d) 8,83
e) 8,62
Resolução
Veja, você tem informação sobre qual o valor da mediana pelo método de
interpolação, mas, agora, o raciocínio é inverso, o exercício pede que você encontre
o tamanho do intervalo.
Ora, o que você tem de fazer é encontrar os valores de x e y e, a partir daí, calcular
a média com os pontos médios de cada classe. Então, vamos lá.
Se a mediana é 8,8 SM, isso significa que, até 8,8, ficaram acumuladas 50% das
observações, ou seja, 200. Então, como até a classe anterior já tinham sido
acumuladas 148 observações, isso significa que, na classe x, foram necessárias 52
observações para encontrar a mediana. Então:
range da classe = 10 —8 = 2 0, 8
x _ 200 - 148 = 52
Assim:
0, 8x = 104 ^ x = 130
48 + 100 + 13 0 + y + 40 = 4 00 ^ y = 82
Agora, vamos calcular a média com base nos pontos médios. Bom, os pontos
médios são fáceis de achar, certo?
P o n to M é d io F req u ê n c ia A b s o lu ta
5 48
7 100
9 130
11 82
14 40
Assim:
5 x 48 + 7 x 100 + 9 x 13 0 + 11 x 82 + 14 x 40 3572
Média = 8,9 3
400 400
Alternativa (a).
Exercício 23
Resultado
600 1000
Alternativa (d).
Exercício 24
Resolução
Esse exercício exige que você monte um sistema de equações, afinal há duas
informações (quantidade total de dias e média ponderada) e duas variáveis (m e n).
Veja, você sabe que:
6 + 10 + m + 20 + n + 4 = 80 ^ m + n = 40
6 x 0 + 10 x 1 + m x 2 + 2 0 x 3 + n x 4 + 4 x 5
Média ponderada = = 2,5
80
Então:
0 + 10 + 2m + 60 + 4n + 20
= 2,5 ^ 10 + 2m + 60 + 4n + 20 = 200
2m + 4n = 110
m = 40 —n
Substituindo na última:
2( 40 —n )+ 4 n = 11 0 ^ 8 0 —2n + 4n = 11 0
2n = 30 ^ n = 15
Assim:
m = 4 0 - 1 5 = 25
Fica fácil perceber que a moda é 2, pois esta classe é a que tem a maior frequência
(25).
A mediana também está nesta classe, pois é nela que esta concentrada a
observação número 40. Assim, a moda mais mediana:
Moda + Medana = 2 + 2 = 4
Alternativa (e).
Exercício 25
Resolução
x f
5 22
15 13
25 10
35 3
45 2
5 x 22 + 15 x 13 + 25 x 10 + 35 x 3 + 45 x 2
Média = 15
22 + 13 + 10 + 3 + 2
Alternativa (b).
Exercício 26
Resolução
x f f acumulada
o- io 22 22
10-20 13 35
20-30 10 45
30-40 3 48
40-50 2 50
Por esta tabela, podemos perceber que a mediana está entre 10 e 20, pois, nesta
classe, acumulam-se 25 das 50 observações.
Assim:
10( 10 a 20) x
— = 3 ^ 1 3x = 30 ^ x = 2,3
10 + 2,3 = 12,3
Alternativa (d).
Exercício 1
Frequência
Salário Absoluta
(R$) Simples
10 0 0 h 2 0 0 0 2
20 00 h 30 00 8
3 0 0 0 h 40 0 0 16
40 0 0 h 5 0 0 0 10
5 0 0 0 h 60 0 0 4
a) 3201,00
b) 3307,00
c) 3404,00
d) 3483,00
e) 3571,00
Exercício 2
Exercício 3
Exercício 4
Exercício 5
Exercício 6
Exercício 7
a) 0,3; 0,9.
b) 0,0; 0,3.
c) 0,3; 0,3.
d) k; 3k.
e) 0,3k; 0,9k.
Exercício 8
Exercício 9
a) 0,935
b) 0,903
c) 0,839
d) 0,887
e) 0,871
Exercício 10
Assinale a opção que corresponde ao 8° decil.
a) 179,5
b) 189,5
c) 183,9
d) 184,5
e) 174,5
Exercício 11
Assinale a opção que corresponde à estimativa, via interpolação da ogiva, do
número de observações menores ou iguais ao valor 164.
a) 46
b) 26
c) 72
d) 35
e) 20
Exercício 12
a) 110%
b) 112,2%
c) 114,2%
d) 122%
e) 130%
Exercício 13
10 35 60 68 75 85 100
O asterisco “ *” indica:
a) O menor valor
b) 1, 5 ■(q3 - Qi)
c) qi - 1, 5 ■(q3 - q1)
d) (Qs - Qi)
e) Um outlier
Exercício 14
B o x -P lo t
12
----------------------------------------------------6
- 5
Qual a probabilidade de uma pessoa deste município ter renda superior à 6 mil
reais?
a) 0,15
b) 0,20
c) 0,25
d) 0,50
e) 0,75
Exercício 15
a) 5 reais
b) 8 reais
c) 50 reais
d) 80 reais
e) 25 reais
Exercício 16
a) desvio padrão
b) mediana
c) média aritmética
d) média geométrica
e) moda
Exercício 17
a)
b)
c)
d)
e)
Exercício 18
a) 19.
b) 20.
c) 21.
d) 22.
e) 23.
Exercício 19
(STN - ESAF/2013) Suponha que X seja uma variável aleatória com valor
esperado 10 e variância 25. Para que a variável Y dada por Y = p - q x, com p e
q positivos, tenha valor esperado 0 e variância 625, é necessário que p + q
seja igual a:
a) 50
b) 250
c) 55
d) 100
e) 350
Exercício 20
X f'
-2 6a
1 1a
2 3a
Exercício 21
Exercício 22
Sabe-se que a mediana dos salários desses funcionários calculada por meio
dessa tabela pelo método da interpolação linear é igual a 8,8 SM. Nessas
condições, o salário médio desses 400 funcionários, em número de salários
mínimos, considerando que todos os valores incluídos em um intervalo de
classe são coincidentes com o ponto médio do intervalo, é igual a
a) 8,93
b) 8,72
c) 8,54
d) 8,83
e) 8,62
Exercício 23
Exercício 24
Exercício 26
Gabarito
1- e
2- b
3- c
4- b
5- anulada
6- e
7- a
8- d
9- b
10- c
11- d
12- a
13- e
14- e
15- c
16- a
17- a
18- c
19- c
20- a
21- e
22- a
23- d
24- e
25- b
26- d
SUMÁRIO PÁGINA
Conceitos Básicos 2
Arranjo 4
Combinação 7
Permutação 10
Lista de Exercícios resolvidos em aula 22
Gabarito 27
Não! O que acontece é que esta matéria não faz parte do conteúdo de estatística e
não necessita muito aprofundamento.
Porque tais conhecimentos serão úteis em outras partes de estatística, tal como no
estudo de probabilidades.
1. Conceitos básicos
Pessoal, toda a ideia desta aula se concentra na pergunta: dado 1 (hum) ou mais
conjuntos, quantas combinações são possíveis de serem feitas a partir deles?
Quer um exemplo? Suponha que você queira formar casais de gatos, dada uma
amostra de 4 fêmeas e 4 machos. Quantos casais diferentes são possíveis?
Perceba que cada uma das fêmeas pode ser combinada com cada um dos 4
machos de forma que há 4 combinações possíveis para cada fêmea.
4 -4 = 16
m 1 • m 2 • m 3 ■...m n
m 1 - m2 = 4 ■4 = 1 6
Isso é bem fácil não? Saiba que você pode resolver a maior parte dos exercícios
somente raciocinando sobre tal conceito! Mas, a fim de darmos uma abordagem
mais didática iremos abordar as peculiaridades do uso do princípio fundamental da
contagem em alguns casos específicos, o que permite o uso de fórmulas!
2. Arranjo
Está bem, vamos complicar um pouco. No caso do exemplo anterior tudo ficou
muito fácil porque estávamos lidando com dois conjuntos distintos. Ou seja, fica
fácil visualizar o resultado porque basta combinar dois grupos distintos, no caso,
machos e fêmeas.
Entretanto, se você tiver que fazer combinações dentro de um mesmo grupo a coisa
complica.
Veja um exemplo: suponha que você tenha um conjunto de 5 gatos e você queira
escolher 2 deste bichanos, um para vacina e outro para tomar banho. Quantas
formas diferentes há de se fazer isso, sabendo-se que o gato que toma vacina não
toma banho?
Ora, primeiro eu quero que vocês tentem resolver este problema usando lógica!
Suponha que nossos gatos sejam chamados de "A”, "B”, "C”, "D” e "E”, neste caso
nós sabemos que há 5 possibilidades para a escolha de quem vai tomar a
vacina:
Vacina Banho
5 possibilidades
Vacina Banho
5 possibilidades 4 possibilidades
5 -4 = 20
Não entendeu? Veja, quando que digo que não há reposição dos elementos é
porque, escolhido um elemento, ele não volta a ser considerado para a próxima
etapa. Fizemos isso quando eu disse que o gato que toma vacina não toma banho,
ou seja, o bichano infeliz de levar uma picada tem a tortura do banho adiada.
Por outro lado, quando eu digo que a ordem deve ser importante é porque cada
escolha diferente gera um resultado diferente. Perceba que se o gato "A” é o
primeiro escolhido e "B” o segundo, "A” toma vacina e "B” toma banho, o que é
totalmente diferente de "B” ter sido escolhido antes de "A”. Sumariamente, em
termos de realização:
(A, B) * ( B,A)
Ífr" INDO
mais fundo Fatorial de um determinado número x qualquer é
equivalente à:
x\ = x - ( x ~ l ) - ( x ~ 2 ) ... ■( 3) • ( 2) ■( 1)
4! = 4 • 3 • 2 • 1 = 24
5! 5-4-3-2-1
4! 4-3-2-1
Agora é só cancelar:
5! 5-1
= 5
4! 1
Dica de um concurseiro
Pessoal, muitas vezes decorar fórmulas pode ser uma ótima
estratégia? Por que? Porque você tem de fazer uma prova em
muito pouco tempo. Portanto, fórmula podem te ajudar a ir mais
rápido!
5! 5!
An'v (n -p )! (5 - 2 ) ! 3!
Ora, é o mesmo resultado! Claro, pois esta é a fórmula que simplifica aquele
raciocínio.
3. Combinação
Agora a coisa mudou. Perceba que a ordem de escolha dos gatos não irá afetar o
resultado final, pois ambos os gatos tomarão vacina, independentemente da ordem
em que foram selecionados. A título de ilustração, suponha que tenhamos escolhido
os gatos "A” e "B”, assim, em termos de realização:
(A, B) = ( B,A)
Vacina Vacina
5 possibilidades 4 possibilidades
Precisamos dividir o resultado total obtido por meio de um arranjo pela quantidade
total de "casos repetidos”. O cálculo da quantidade de casos repetidos pode ser
detido da análise dos conjuntos que estamos formando, que é composto por dois
elementos, a saber:
( 1- escolha = x, 2 - escolha = y)
( 1- escolha = y, 2 - escolha = x)
p!
Neste caso, o número de formas diferentes que podemos combinar os gatos que
vão tomas vacina é:
20
- = 10
n!
^n,p (n —p)!-p!
n! 5! 5! 5-4-3-2-1 5- 4
C = = = = = = 1 0
n’p ( n - p ) i - p ! ( 5 - 2 )!-2! 3! • 2! ( 3 - 2 - 1 ) • (2-1) 2
4. Permutação
n = p
Nós já estudamos isso, certo? Quando nós vimos quantas repetições são
possíveis em um conjunto de um determinado número de elementos. No caso, nós
vimos que este número é dado por p!. Quer a prova?
n! n!
An'p = ( n - p ) ! = (Õ)!
^n,p
3! = 3 ■2 ■1 = 6
Mas, este não é o caso genérico, pois, muitas vezes, precisaremos fazer a
permutação com elementos repetidos. Não entendeu? Suponha a palavra "DADO”,
neste caso tanto faz se colocarmos o 1° "D” no lugar do segundo, pois a palavra
continuará exatamente igual. Assim, para levarmos em conta elementos repetidos,
nos basearemos na fórmula:
Exercício 1
a) 24360
b) 25240
c) 24460
d) 4060
e) 4650
Resolução
Letra (a).
Exercício 2
a) 2180
b) 1180
c) 2350
d) 2250
e) 3280
Resolução
Perceba que os pontos que estão em linha reta não podem ser combinados entre si
de forma a gerarem um triângulo, pois estes só formariam uma reta.
Pensar em quantos triângulos podem ser formados é fácil, pois trata-se de uma
combinação (a ordem de ligação dos pontos não importa, pois formariam o mesmo
triângulo) de 25 elementos em grupos de 3. Entretanto, devemos desconsiderar as
combinações resultantes da ligação dos 10 pontos que estão em linha reta. Assim:
Portanto:
25- 24- 23 10- 9- 8
tri ângulos = C253 - C10,3 = 3 ^ . 1 “ 3 2 . 1 = 2 300 - 120 = 2180
Letra (a)
Exercício 3
Resolução
A melhor forma de resolver este exercício é usando uma tabela e dividindo o mesmo
em etapas:
Gabarito: certo.
Exercício 4
Resolução
A6,3 = § = 6 • 5 • 4 = 120
Gabarito: certo
Exercício 5
Resolução
No caso, agora a ordem não mais afeta o prêmio a ser obtido, tratando-se de um
caso de combinação. Assim, teríamos de fazer uma combinação de 6 elementos em
grupos de 3:
6! 6-5-4
Gabarito: errado.
Exercício 6
Resolução
A questão deve ser analisada por meio de uma permutação, tal como devemos
fazer nos casos de anagramas. Entretanto, atente-se que há duas letras repetidas,
portanto:
Exercício 7
(AFRE-MG - ESAF/2005) Sete modelos, entre elas Ana, Beatriz, Carla e Denise,
vão participar de um desfile de modas. A promotora do desfile determinou que
as modelos não desfilarão sozinhas, mas sempre em filas formadas por
exatamente quatro das modelos. Além disso, a última de cada fila só poderá
ser ou Ana, ou Beatriz, ou Carla ou Denise. Finalmente, Denise não poderá ser
a primeira da fila. Assim, o número de diferentes filas que podem ser formadas
é igual a:
a) 420
b) 480
c) 360
d) 240
e) 60
Resolução
7!
A74 = — = 7- 6 - 5- 4 = 840
6 - 5 -4- 3 = 360
5 - 4 - 3 = 60
Exercício 8
a) 128
b) 495
c) 545
d) 1485
e) 11880
Resolução
Ora, a ordem de ligação dos lados do quadrilátero não altera o formato resultante.
Veja:
Ligar "A” a "B” dá na mesma do que ligar "B” a "A”, sendo a figura resultante a
mesma.
Então:
12! 12 -1 1-1 0 -9
= 495
° 12-4 (8)!-4! 4-3-2-1
Letra (b).
Exercício 9
a) 5040
b) 5050
c) 200
d) 250
e) 210
Resolução
Bom, na combinação de uma quadrilha é fácil perceber que a ordem não importa.
Veja, se você tiver uma quadrilha com João, Maria, Pedro e Juliana esse conjunto
será o mesmo independentemente da ordem de seleção. Assim:
10! 10 ■9 - 8 - 7
= 210
Letra (e).
Exercício 10
a) 20612
b) 26000
c) 27550
d) 30240
e) 32340
Resolução
Essa eu só fiz para vocês treinarem permutação, o que não é comum de ser
cobrado em prova. Perceba que, neste caso, você tem 2 letras que se repetem "o” e
“r”. O que você deve fazer é o seguinte:
p! 9! 9 - 8 - 7 - 6 - 5- 4
= = = 30240
p (o )!x p (r)! 3! x 2! 2 -1
Letra (d).
Exercício 1
a) 24360
b) 25240
c) 24460
d) 4060
e) 4650
Exercício 2
a) 2180
b) 1180
c) 2350
d) 2250
e) 3280
Exercício 3
Exercício 4
Exercício 5
Exercício 6
Exercício 7
(AFRE-MG - ESAF/2005) Sete modelos, entre elas Ana, Beatriz, Carla e Denise,
vão participar de um desfile de modas. A promotora do desfile determinou que
as modelos não desfilarão sozinhas, mas sempre em filas formadas por
exatamente quatro das modelos. Além disso, a última de cada fila só poderá
ser ou Ana, ou Beatriz, ou Carla ou Denise. Finalmente, Denise não poderá ser
a primeira da fila. Assim, o número de diferentes filas que podem ser formadas
é igual a:
a) 420
b) 480
c) 360
d) 240
e) 60
Exercício 8
a) 128
b) 495
c) 545
d) 1485
e) 11880
Exercício 9
a) 5040
b) 5050
c) 200
d) 250
e) 210
Exercício 10
a) 20612
b) 26000
c) 27550
d) 30240
e) 32340
Gabarito
1- a
2- a
3- C
4- C
5- E
6- a
7- a
8- b
9- e
10- d
Essa aula foi muito rápida! Mas, aproveitem o descanso porque a próxima aula cai
em, praticamente, todo concurso.
jeronymo@estrategiaconcursos.com.br
AULA 03 - Probabilidades
SUMÁRIO PÁGINA
Conceitos Básicos 2
Diagrama de Venn e Propriedades 5
Probabilidade Condicional 16
Teorema de Bayes 20
Lista de Exercícios resolvidos em aula 60
Gabarito 72
Dica de um concurseiro
Vamos nessa!
1. Conceitos básicos
Muitas vezes nos deparamos com as seguintes expressões no dia a dia: "a
probabilidade de cair um piano na sua cabeça é pequena”, "a probabilidade de
reeleição é grande”, etc. Mas, o que queremos dizer com isso?
Não é bem assim! Veja, antes de lançar a moeda, a probabilidade de dar "cara” é
de V2 , porém pode ser que isso não ocorra. Suponha a realização de três
15 = coroa
2Q= coroa
3Q= cara
Isso quer dizer que a moeda é viciada? Pode ser, mas só com esse resultado não
há como saber, pois este resultado é possível em uma moeda não viciada. A partir
deste resultado você poderia inferir erroneamente inferir que a probabilidade de dar
"cara” não é de %, mas de:
O = (Cara); (Coroa)
Este conjunto formado por todas as realizações possíveis (que, no caso, chamamos
de O) chama-se espaço amostrai.
Com base neste espaço amostral podemos atribuir uma probabilidade para um
determinado evento, sendo este dado por um subconjunto de (O).
ocorrer. Mas, nossa pergunta abrange 3 (três) daqueles casos, isso é, três daquelas
realizações atendem ao nosso requisito. Portanto, a probabilidade de ocorrência do
subconjunto do espaço amostral composto pelos resultados nos quais ocorrem pelo
menos uma cara é de:
1 1 1 3
P( 1 cara ao menos) = + + =
4 4 4 4
Gente, a primeira coisa e mais óbvia é que toda probabilidade se situa entre 0 e 1.
Não há como um evento ocorrer mais de 100% das vezes ou menos de 0% das
vezes. Essa é a própria ideia da frequência relativa que já estudamos! Portanto,
dado qualquer evento "A”:
Obs. Muitas vezes você irá me ver referir a probabilidades como números entre 0 e
1 ou 0% e 100%. Não é loucura do teacher! Toda probabilidade, com o intuito de
facilitar a visualização, pode ser multiplicada por 100 de forma que obtenhamos o
resultado em percentual. Por exemplo, uma probabilidade de 0,5 é equivalente à
50%.
Retornando!
Então, outros dois casos interessantes, mas diametralmente opostos, são os casos
de eventos certos e eventos impossíveis.
Evento certo é aquele que coincide com o espaço amostral! Por exemplo, no nosso
caso de "cara” e "coroa”, um evento certo seria aquele composto por todos os
resultados nos quais ocorrem, ao menos, uma cara ou uma coroa. Ou seja, todo o
espaço amostral!
Evento impossível é o caso oposto! Este evento seria composto por elementos não
constantes no espaço amostrai, por exemplo, o caso de um lançamento em que não
ocorresse nem cara nem coroa!
P{AC) = 1 - P{A)
Dado um evento “A” qualquer, representado pelo círculo acima, o seu complementar
é toda a parte vermelha da figura!
Qual a probabilidade de uma pessoa escolhida ao acaso a partir desta amostra ter
sido estudante de Economia?
Isso não tem segredo! O total de estudantes, ou seja, nosso espaço amostrai é
composto por 230 pessoas, sabendo-se que, desse total, 90 são economistas,
temos que:
90
P(economista) = = 0, 392
Viram do que estamos falando? Trata-se de um evento que necessita que as duas
condições sejam verdade (ser economista e ter passado em concurso), refere-se à
intersecção entre os dois subconjuntos (parte vermelha).
Ora:
economistas que passaram 30
total da amostra 230
Veja como aumentou a parte vermelha! Se uma ou outra condição for verdadeira,
devemos computá-la! Chamamos a isso de "reunião” entre dois subconjuntos.
90 90 180
PÇeconomista ou passou) = + =
Você percebeu que você está contando o economista que passou duas vezes? Por
exemplo, dos 90 que passaram, 30 já são economistas, podendo ser feito o mesmo
raciocínio inverso. Em termos de Diagrama de Venn, seria o mesmo que somar:
Neste caso, você estará contando duas vezes aquela “partezinha” que é a
intersecção entre ambos:
90 90 30 150
PÇeconomista ou passou) + - = s 0, 652
230 230 230 230 '
{ 1; 2; 3;4; 5; 6}
Assim, somente uma destas realizações é possível, ou seja, o resultado só pode ser
uma das faces do dado.
Ora:
P( 4 u 5 ) = P( 4) + P( 5) - P( 4 n 5)
Vamos começar com o mais fácil, qual é a probabilidade de cair qualquer das faces
de um dado? O dado tem 6 faces no total, de forma que a probabilidade de que
qualquer delas seja o resultado é de:
1
P( 1) = P( 2) = P( 3) = P( 4) = P( 5) = P( 6) = -
Assim:
1 1
P( 4 u 5 )= + - P ( 4 n 5)
6 6
Estes eventos não tem intersecção! Ou seja, quando um ocorre o outro não pode
ocorrer! Assim, neste caso, aquele último componente de nossa fórmula será igual à
zero, de forma que:
Obs. Propriedades
Uma forma de ajudar a decorar tais propriedades é pensando que quando você tira
o complemento de n ou u, o resultado é inverter a “barriguinha” da operação.
Assim, em termos nem um pouco formais, você deve pensar que:
( n )c = u
( u )c = n
Assim, para três conjuntos quaisquer chamados de “A”, “B” e “C”, destacam-se as
seguintes propriedades:
1) {A n B)c = Ac u B c
2) (A U B) c = A c n B c
Beleza? Esta é a menos intuitiva das propriedades, assim, decore! Agora, as outras
são bem mais fáceis de serem entendidas, tais como:
3) A n 0 = 0
Sendo (0) um conjunto vazio, ou seja, sem nenhum elemento. Isso faz todo o
sentido, dado que a intersecção de um conjunto "A” qualquer com outro conjunto
vazio não pode conter nenhum elemento.
4) A n ^ = A
5) 4 u 0 = ^
6) A U ^ ^
7) A u Ac = ®
8) A n A c = 0
9) A n ( B u C ) = ( An B ) u ( An C)
Com base nestes três conjuntos, pode-se desenhar o seguinte Diagrama de Venn:
3. Probabilidade Condicional
Voltemos a nosso exemplo da pesquisa sobre qual a formação superior que mais
aprova em concurso público. Só relembrando a tabela:
Você entende o que estou falando? A forma de avaliação não é a mesma, pois,
neste caso, temos mais informações do que tínhamos anteriormente e, portanto,
devemos nos utilizar dela! Essa é a ideia de probabilidade condicional! A forma
usual de representarmos uma probabilidade condicional de um evento qualquer "A”,
dado outro evento qualquer "B” é:
P{A\B)
E como poderíamos incorporar esta informação, ou seja, de que forma este cálculo
pode ser realizado? Vamos pensar intuitivamente para podermos chegar à fórmula!
Eu te pergunto, dado que ocorreu "B”, qual parte da figura representa a porção de
"A” que pode ocorrer? Exatamente, a intersecção entre os dois conjuntos! Esta parte
laranja representa a parcela do evento "A” que é compatível com a informação a
priori.
Mas, você já sabe que probabilidades são calculadas com base na divisão da
quantidade de elementos "favoráveis” pelo espaço amostral! Qual é o espaço
amostral no nosso exemplo? Boa de novo, o tamanho de "B” !
^ S ^ t ome nota!
P(A n B)
P{A\B) =
PW
Esta fórmula é muito importante, assim vocês devem decorá-la, mas não deixem de
entender de onde ela vem, ok? Nesse caso, P{A) é a probabilidade a priori de "A”, o
que pode ser "atualizado” com as novas informações de "B”, permitindo a obtenção
da probabilidade a posteriori, P(A\B).
Claro, é pra já! Retornando ao exemplo do nosso quadro acima, eu quero saber:
P(economista\passoú) = ?
90
P(passou) = -^ 3 0 = 0, 392
Pronto:
P(economista\passoú) =
Retornando à parte mais teórica, o que você acha que está acontecendo se, para
dois eventos "A” e "B” quaisquer:
P(A\B) = PÇA)
Suponha que você esteja desmanchando sua árvore de natal e que a mesma só
possua bolas vermelha e prata. Sabendo-se que há 10 bolas vermelhas e 10
prateadas, se você fechar os olhos e tirar uma bola, qual a probabilidade de que a
mesma seja vermelha?
Bom, isso é fácil, há 20 bolas no total, sendo que 10 são vermelhas, assim:
10
Pivermelha) = ^ = 0,5
Suponha que você tirou uma bola vermelha! Agora, você decide tirar outra bola com
os olhos vendados, repondo a que você já tirou. Qual a probabilidade de que a
mesma seja vermelha?
4. Teorema de Bayes
À primeira vista você vai pensar que o Teorema de Byes não tem nada demais, pois
ele é tão somente uma decorrência do que estudamos na seção anterior. Porém,
preciso detalhá-lo para você, pois ele cai muito.
Então, a maior parte dos exercícios de concurso você não vai precisar da
fórmula por si só, porém, se estudarmos este tópico de uma maneira um
pouco mais aprofundada, você saberá responder os exercícios de forma mas
rápida!
Uma coisinha básica que eu quero que vocês entendam, suponha dois eventos
quaisquer "A” e “B” e aplique aquela “formulazinha” de probabilidade condicional
que já estudamos de forma a encontrar a probabilidade de “A” dado “B” e a
probabilidade de “B” dado “A”. Você vai chegar nisso:
O que estas duas fórmulas têm em comum? Exatamente, o termo P(A n B)!
Suponha que você queira calcular P(A\B), então faça assim, substitua PÇA nB) de
forma que:
P(B\A)-P(A) = P ( A n B )
O que levará à:
P(B\A)-P{A)
P{A\B) =
P(B\A) ■P(A) + P(B\C) ■P{C)
É isso aí! A ideia deste teorema é que, a partir de informações das probabilidades a
priori de "A” e de "B” e da probabilidade condicional de "B” dado "A” podemos obter
a relação desejada. Muitos exercícios costumam dar estas informações para que
você calcule a probabilidade condicional. Isso chove em concurso público. Mas, dá
para resolver sem a fórmula, basta pensar um pouquinho, ok? Não tem nada
demais mesmo, você só tem que entender o mecanismo de funcionamento do
mesmo para responder alguns exercícios, tal como este:
Exercício 1
Resolução
O raciocínio é assim:
n = l 25 + 35 + 30 + 76 = 266
Isso não resolveu seu problema, pois há mais três alternativas com esta
possibilidade.
Assim:
P(A n B)
P(A\B) =
P(B)
P( AnB) 35 30 7
p (A\R} = = = = ,
P(B) (3 5 + 30) 65 13
Alternativa (c).
, HORA DE
30Í4Ji»spraticar!
' . Boa pessoal! Vamos praticar, porque essa é a maneira
mais fácil de aprender sobre probabilidades!
Exercício 2
Resolução
Primeira coisa que você tem de perceber é que ambas as probabilidades são
mutuamente exclusivas, pois não há como uma pessoa ter idade "x” e "y” ao mesmo
tempo! Neste caso, nós já sabemos que:
Ora, qx (qy) não é a probabilidade de que uma pessoa de idade "x” ("y”) morra?
Então, px = 1 - qx (py = 1 - qy) é a probabilidade de que uma pessoa de idade "x”
("y”) não morra!
Ora, trata-se da probabilidade de, pelo menos, uma das pessoas estar morta!
Alternativa (c).
Exercício 3
Resolução
Esta questão é mais facilmente resolvida só com raciocínio! O que você tem de
fazer é encontrar o quanto as mulheres representam da população total. A
população se divide da seguinte forma:
Homens 40%-16%=24%
Fumante
40% M ulheres 40%*40%=16%
É assim:
Estes são eventos mutuamente exclusivos, assim a soma das mulheres que fumam
mais as que não fumam é o total da população feminina. Portanto:
Alternativa (b).
Exercício 4
a) 65%
b) 63%
c) 60%
d) 58%
e) 55%
Resolução
Perceba que a questão já afirma que estamos tratando de pessoas com mais de 50
kgf, portanto, em termos de frequência relativa:
Alternativa (a).
Exercício 5
a) 0,05
b) 0,06
c) 0,07
d) 0,08
e) 0,09
Resolução
40 • 0, 05 = 2
Existem dois homens míopes! E mulheres? Existem 60 mulheres e 10% delas são
míopes, portanto:
60 • 0, 1 = 6
8
PÇmíope) = 0,08
1ÕÕ
Alternativa (d).
Exercício 6
a) 0,25
b) 0,27
c) 0,30
d) 0,33
e) 0,40
Resolução
PÇhomem n míope)
P(homem\míope) =
P(míope)
PÇhomem n míope) = = 0, 02
Substituindo na fórmula:
Alternativa (a).
Exercício 7
a) 0,5
b) 0,08
c) 0
d) 1
e) 0,6
Resolução
Alternativa (b).
Exercício 8
Resolução
Ficou fácil enxergar, não? Não há intersecção entre os conjuntos, os eventos são
mutuamente exclusivos.
Alternativa (e).
Exercício 9
(BACEN - FCC/2005) Uma pessoa poderá investir seu dinheiro em três setores
(A, B e C) da economia. Sabe-se que a probabilidade de uma empresa
apresentar lucro é de 0,70 sendo empresa do setor A; 0,8 sendo empresa do
setor B e 0,9 sendo empresa do setor C. Tem-se ainda que nesta economia
existem 750 empresas do setor A, 300 do setor B e 150 do setor C. Escolhendo
aleatoriamente uma empresa pertencente a esses 3 setores e detectando-se
que ela não apresenta lucro, a probabilidade dela pertencer ao setor A é de:
a) 30%
b) 40%
c) 50%
d) 75%
e) 80%
Resolução
Agora ficou fácil! No total nós temos (750 + 150 + 300 = 1200) empresas. Deste
total, (225 + 15 + 60 = 300). Portanto, a probabilidade de uma empresa não ter
lucro é de:
300
P(não teve lucro) = 1200
Alternativa (d).
Exercício 10
Resolução
Questão conceituai. Basta nos lembrar daquele “mantra”, assim para dois eventos
"A” e “B” quaisquer:
P(A n B)
P{A) =
P(B)
Multiplicando invertido:
P (A n B ) = PÇA) X P(B)
Alternativa (e).
Exercício 11
Resolução
Com base no que vimos no exercício acima, sabemos que dois eventos
independentes têm a característica de que se um deles ocorrer, a probabilidade de
ocorrência do outro não se altera.
Gabarito (a).
Exercício 12
a) 0,5
b) 0,6
c) 0,7
d) 0,8
e) 0,9
Resolução
Alternativa (c).
Exercício 13
Resolução
„ 6! 6-5-4 ^
Có'3 _ ( 6 - 3 )!3! _ 3 - 2 - 1 _ 20
„ 4! 4 ^
C4'3 _ ( 4 - 3 )!3! _ 1 _ 4
„ 10! 10 - 9 - 8 ^
Cl0'3 _ ( 10 - 3)!3! _ 3 - 2 - 1 _ 120
20 4 24
P ( m e s m o se x o ) = + = = 0,2
v J 120 120 120
Alternativa (d).
Exercício 14
Sexo
Estado Civil Total
M F
Solteiro 300 200 500
Casado 200 100 300
Viúvo 100 100 200
Total 600 400 1.0 00
a) 0,6
b) 0,2
c) 0,4
d) 0,7
e) 0,5
Resolução
Agora fica bem fácil! Dado que nosso espaço amostra é de 1000 indivíduos e que
há 400 mulheres e 200 viúvos:
400
P(mulher) = = 0,4
v 7 1000 '
Alternativa (e).
Exercício 15
a) 55%
b) 50%
c) 40%
d) 45%
e) 35%
Resolução
3 2 6
PÇbranca) = - ■ - = —
Não há como os dois casos ocorrerem ao mesmo tempo, ou seja, os eventos são
mutuamente exclusivos. Assim:
P ibra n ca U p re ta ) = P (b r a n c a ) + P (p r e t a )
,
P ibra n ca
,
n preta ) =
6
+
2
=
8
= 0 , 4 = 40%
20 20 20 ’
Alternativa (c).
Exercício 16
P(A\B) P(A)
P(B\A) ~ P(B)
Resolução
P{AnB)
P{A\B) P ( fi) P(A)
P(B\A) ~ P (A n B ) ~ P(B)
P{A)
Exercício 17
Resolução
Se dois eventos "A” e "B” são mutuamente exclusivos isso significa que a ocorrência
de um implica a não ocorrência do outro! Mas, isso é o oposto de independência,
Exercício 18
Resolução
Alternativa correta.
Exercício 19
Resolução
P(A\B)-P{B)
P{B\A) =
P(Ã)
P(A\B)-P{B) 0, 2 • 0, 8
P{B\A) = 0,4
P(Ã) 0,4
Alternativa correta.
Exercício 20
Resolução
Outra pegadinha! Não necessariamente, pois nem todo evento que tem
probabilidade de ocorrência igual à zero corresponde a um conjunto vazio. Isso é
meio que intuitivo, pense nisso!
Alternativa errada.
Exercício 21
Resolução
A resolução desta questão parece complicada, mas não é! A primeira coisa que
vocês têm de perceber é que os eventos de diferentes associados atrasarem sua
mensalidade são independentes. Portanto, a probabilidade de ocorrência de todos
ao mesmo tempo é igual ao produto das probabilidades. Vamos chamar a
probabilidade do indivíduo “i” atrasar o pagamento de (At), assim:
Portanto:
Alternativa (e).
Exercício 22
Resolução
20! 20 • 19
Agora basta dividir este número pelo total de possibilidades! Isso será dado por
todas as combinações possíveis, ou seja a combinação dos 30 elementos em
conjuntos de três:
30! 30- 29 • 28
= 4060
1900 190 95
P(2menínas, ím enino) = — = — = —
Alternativa (d).
Exercício 23
a) 9/19
b) 185/215
c) 855/875
d) 995/1000
e) 995/1275
Resolução
A primeira coisa que você tem de entender é que temos 2 possibilidades: "o alarme
soou sem temporal” e "o alarme soou com temporal”, dado que o nosso espaço
amostral foi reduzido de forma a considerar que o alarme foi acionado!
É fácil visualizar que o último elemento é igual à zero, pois não há intersecção entre
os eventos. Assim:
P(so a rco m te m p o ra l)A e B = P( "A "so ar) + P( "B "so ar) — P( "A " e "B "soar)
P(so a rsem tem p o ra l)A e B = P( "A "so ar) + P( "B "soar) —P( "A" e "B "soar)
P (s o a r ) = 1,275
Exercício 24
Resolução
Vamos por partes, primeiro iremos determinar a probabilidade de que a soma das
faces seja menor do que 4.
{( 1, 1);( 1, 2) ;( 2, 1)}
Assim:
3 1
P(soma menor que 4) = =
36 12
Beleza! Agora, vamos calcular a probabilidade de que os números dos dados sejam
diferentes!
6 1
P(n Qiguais) = =
36 6
P(n Qdiferentes) = 1 — =
6 6
Exercício 25
Resolução
Primeira coisa é encontrar quantos números entre 1 e 100 são divisíveis por 3 e 8.
Ora, pense comigo, quantos números que são múltiplos de 3 estão entre 1 e 100?
Você precisa encontrar o maior valor possível de um múltiplo de 3 (x ) que seja
menor do que 100, pois, neste caso, você encontrará quantos múltiplos de 3
existem neste intervalo.
x = 33
Pois, 3 x 33 = 99, enquanto que 3 x 34 = 102, o que é maior do que 100. Assim,
existem 33 múltiplos de 3 que estão entre 1 e 100.
x = í2
Pois, 8 x í 2 = 96, enquanto que 8 x í 3 = í 04, o que é maior do que 100. Assim,
existem 12 múltiplos de 8 que estão entre 1 e 100.
Entretanto, existem números repetidos nesta lista, pois há números que são
divisíveis por 3 e 8. Assim, qual é o Mínimo Múltiplo Comum (MMC, lembra do 2°
grau?) entre 3 e 8? Assim, para encontrar os números que são múltiplos de ambos,
precisamos multiplicar um pelo outro, o que nos dá o valor de 24.
x=4
Múltiplos = 33 + í 2 —4 = 4 í
Aí, fica fácil calcular a probabilidade. No caso, temos 100 possibilidades ao todo:
41
PCmultiplos de 3 e 8) = = 41%
r 100
Alternativa (a).
Essa próxima questão vai trazer conteúdo novo, portanto resolvam comigo
primeiro.
Exercício 26
(STN - ESAF/2012) Com relação à teoria da Probabilidade, pode-se afirmar
que:
a) se A e B são eventos independentes, então P(A U B) = P(A) + P(B).
b) se A, B e C são eventos quaisquer com P(C) t 0, então P(A U BjO) = P (AjO)
+ P(BjO).
c) a definição frequentista de probabilidade é fundamentada na ideia de
repetição do experimento.
d) A, B e C são eventos independentes se, e somente se, P(AH B HO) = P(A).
P(B). P(O).
e) P(A) + P(A) = 0.
Resolução
Letra (a).
Letra (b)
P((A U B )n C )
P(AUB\C)
W )
P((A n C ) n ( ^ n 5))
= P(A\C) + P(B\C) -
m
Alternativa errada.
Letra (c).
Letra (d).
Esta é a mais complicada. Para que três eventos sejam independentes, é preciso
que eles sejam independentes conjuntamente e entre si. Portanto, as condições
necessárias e suficientes para que isso ocorra são:
Letra (e).
Exercício 27
Resolução
Bom, a probabilidade de termos um valor ímpar, dado que tiramos coroa é de 0,5,
pois trata-se da metade dos casos do espaço amostral do evento coroa:
coroa = {1 ; 2; 3; 4}
1
7
Alternativa (d).
Exercício 28
Resolução
1 2! 12 x 1 l x l 0
4! 4x3x2
4! 4x3
2 ruins = C42 = = =6
48 + 4 52 13
P(no máximo 1 bom) = = = ■
Alternativa (b).
Exercício 29
Resolução
P {A \ B ) = P (A )
Alternativa (c).
Exercício 30
Resolução
15! 15-14- 13
^15,3 — 12131 = 5 - 7 - 1 3 = 4 55
3~2
5! 5 -4
4!
10 + 4 + 4
P(3 bolas iguais) = = 3,96
Alternativa (e).
Exercício 1
a) 180 e 160/266
b) 250 e 35/75
c) 266 e 7/13
d) 266 e 35/76
e) 266 e 35/266
Exercício 2
Exercício 4
a) 65%
b) 63%
c) 60%
d) 58%
e) 55%
Exercício 5
a) 0,05
b) 0,06
c) 0,07
d) 0,08
e) 0,09
Exercício 6
Exercício 7
a) 0,5
b) 0,08
c) 0
d) 1
e) 0,6
Exercício 9
(BACEN - FCC/2005) Uma pessoa poderá investir seu dinheiro em três setores
(A, B e C) da economia. Sabe-se que a probabilidade de uma empresa
apresentar lucro é de 0,70 sendo empresa do setor A; 0,8 sendo empresa do
setor B e 0,9 sendo empresa do setor C. Tem-se ainda que nesta economia
existem 750 empresas do setor A, 300 do setor B e 150 do setor C. Escolhendo
aleatoriamente uma empresa pertencente a esses 3 setores e detectando-se
que ela não apresenta lucro, a probabilidade dela pertencer ao setor A é de:
a) 30%
b) 40%
c) 50%
d) 75%
e) 80%
Exercício 10
Exercício 11
Exercício 12
a) 0,5
b) 0,6
c) 0,7
00
d)
o
e) 0,9
Exercício 14
Sexo
Estado Civil Total
M F
Solteiro 300 200 500
Casado 200 100 300
Viúvo 100 100 200
Total 600 400 1.000
Exercício 15
a) 55%
b) 50%
c) 40%
d) 45%
e) 35%
Exercício 16
P(A\B) P(A)
P{B\A) ~ P(B)
Exercício 17
Exercício 18
Exercício 19
Exercício 20
Exercício 21
Exercício 22
Exercício 23
a) 9/19
b) 185/215
c) 855/875
d) 995/1000
e) 995/1275
Exercício 24
Exercício 25
difícil!
Exercício 26
(STN - ESAF/2012) Com relação à teoria da Probabilidade, pode-se afirmar
que:
a) se A e B são eventos independentes, então P(A U B) = P(A) + P(B).
b) se A, B e C são eventos quaisquer com P(C) t 0, então P(A U B/C) = P (A/C)
+ P(B/C).
c) a definição frequentista de probabilidade é fundamentada na ideia de
repetição do experimento.
d) A, B e C são eventos independentes se, e somente se, P(AD B OC) = P(A).
P(B). P(C).
e) P(A) + P(A) = 0.
Exercício 27
Exercício 28
Exercício 29
Exercício 30
Gabarito
1- c
2- c
3- b
4- a
5- d
6- a
7- b
8- e
9- d
10 - e
11 - a
12 - c
13 - d
14 - e
15 - c
16 - certo
17 - errado
18 - certo
19 - certo
20 - errado
21 - e
22 - d
23 - e
24 - b
25 - a
26 - c
27 - d
28 - b
29 - c
30 - e
Não desanimem, pois em breve vocês estarão na Receita Federal!
jeronymo@estrategiaconcursos.com.br
SUMÁRIO PÁGINA
Distribuição de Probabilidade 2
Distribuição Uniforme 5
Distribuição Binomial e de Bernoulli 7
Distribuição de Poisson 12
Distribuição Geométrica 14
Distribuição Hipergeométrica 15
Lista de Exercícios resolvidos em aula 41
Gabarito 51
Você quer mesmo passar em concurso? Não é nada fácil, portanto, força na peruca
e vamos a mais essa aula.
DICAS DE UM CONCURSEIRO
1. Distribuição de Probabilidade
Nós já discutimos isso, mas vamos tentar formalizar um pouco mais este conceito:
Face Probabilidade
1 1/6
2 1/6
3 1/6
4 1/6
5 1/6
6 1/6
Viu? O que este gráfico está te mostrando é: qual a probabilidade associada a cada
resultado possível deste experimento. Essa é a distribuição de probabilidade deste
experimento.
Nós já estudamos como chegar a tais probabilidades, o que não deve ser um
problema para você.
Boa pergunta! Vamos ao exemplo de nossa aula 00, a altura dos indivíduos de uma
região com uma população muito grande. Nós já sabemos que este é um caso de
uma variável contínua, pois a mesma deriva de uma mensuração. Assim, eu
pergunto: qual a probabilidade de que uma pessoa tenha exatamente 1,70m,
sabendo que a altura dos indivíduos vai de 1,60m a 1,80m?
Bom, você pode pensar que isso seria fácil, pois bastaria contar a quantidade de
pessoas com 1,70m e dividir pelo total da população. Mas aí é que está o problema:
há infinitas alturas possíveis. Tem uma pessoa que mede 1,701, outra que mede
1,70001, e por aí vai. Neste caso, a probabilidade de encontrar alguém com,
exatamente, 1,70 é de:
Pois, se você dividir qualquer número inteiro por infinito (+ oo), o resultado será zero.
Para qualquer valor pontual, a probabilidade será igual à zero.
Neste caso, a probabilidade de encontrar alguém com altura entre 1,70m e 1,80m é
de:
100
P(h = 1,70 - 1,80) = — = 50%
f(x]
1,7 1,B X
Veja, a área do retângulo referente às alturas que ficam entre 1,70m e 1,80m deve
equivaler à probabilidade de sua ocorrência. No caso, a base do retângulo é de 0,1
(1,8 - 1,7) e sua altura é de 5, sendo este o valor de /(x ), portanto:
2. Distribuição Uniforme
CAIU
na prova!
Distribuição uniforme é aquela em que todos os valores
possíveis para a variável aleatória ocorrem com a mesma probabilidade.
l
P(x = 1; x = 2; x = 3; x = 4; x = 5;x = 6) =
6
E {X )= X 1 - f 1 + X 2 - f 2 ...Xn -fn
Sendo f t a frequência relativa de Xt.
E a variância do processo?
Mas, nós já temos a média, que é a esperança do processo (£(x)). Agora fica fácil
ver que:
6 6 6 6 6 6 6
Portanto:
2 10 5
36
Simples, não? Essa é a distribuição mais fácil. Basta ver quando a probabilidade de
todos os elementos do espaço amostral é igual.
Simples, o nosso experimento pode ter 2 resultados: um resultado que ocorre com
probabilidade (p), que pode ser denominado "sucesso”, e outro com probabilidade
(1 - p), que pode ser chamado de fracasso.
E(x) = p
£(x) = X1 - f 1 + X 2 - f 2 = l- 0 , 5 + 0-0, 5 = 0, 5
V ar(x) = p —p2
Isso porque:
Var(x) = £ (x 2) —[E(x)Y
Veja que esse não é mais um experimento de Bernoulli, pois o estamos realizando
mais de uma vez! Para respondermos esta questão, vamos listar como seria o
espaço amostral deste experimento (ü)?
1
P( 2 caras) = —
1
P(2 coroas) =
4
P(2 sucessos) = p ■p
P(2 fracassos) = ( 1 —p) ■(1 —p)
P( 1 sucesso e 1 fracasso) = 2 - p ■(1 —p)
O número 2 (dois) que multiplica o último membro se refere ao fato de que há duas
possibilidades de obtermos 1 sucesso e 1 fracasso, (cara, coroa) ou (coroa, cara).
ü = (cara, cara, caroa); (cara, coroa, cara); (coroa, cara, cara); (cara, coroa, coroa);
(coroa, cara, coroa); (coroa, coroa, cara); (cara, cara, cara); (coroa, coroa, coroa)
1
P(3 coroas) = ( 1 —p) • ( 1 - p ) - ( 1 —p) =
8
Bom, daí você percebe que a probabilidade de qualquer resultado pode ser
generalizada da seguinte forma:
atento!
“ “ Essa é uma pressuposição da distribuição binomial e de
Bernoulli: os experimentos devem ser independentes.
Ótimo! Mas, ainda falta definir quais são as expressões que definem a média e a
variância em um processo deste tipo.
E(x) = n - p
Var(x) = n - (p —p2)
Muito parecido com os resultados para a distribuição de Bernoulli, decore isso. Não
está acreditando? Vamos calcular a média do processo para o caso de dois
lançamentos, se atribuirmos o valor 1 para 1 sucesso e 2 para 2 sucessos:
2
E(x) = 2 ---- h 1 • + 0 — = 1 = n ■p
4
4. Distribuição de Poisson
Não entendeu? Veja, qual a probabilidade de o telefone da sua casa tocar nos
próximos 300 segundos? Esse é um exemplo em que podemos utilizar a distribuição
de Poisson! Trata-se da análise de um evento em que podemos ter sucesso (tocar o
telefone) ou não, porém, devido ao fato de a probabilidade ser muito baixa e o
número de experimentos ser grande, pode-se aproximar a distribuição binomial pela
seguinte forma:
e np ■(n- p)k
PÇsucessos = k) =
Muitas vezes, os livros textos substituem o operador n • p pela letra grega “lambda”
(1). Assim:
e~x ■(X)k
PÇsucessos = k) = ■
Normalmente, a banca vai te falar. Nós iremos realizar alguns exercícios que vão
facilitar sua vida e você vai pegar o jeito, mas a minha dica é a seguinte:
E(x) = X
Var(x) = n - (p —p2) = n p ( l —p) = n p = X
5. Distribuição Geométrica
Ora, isso é fácil de deduzir. Imagine que queiramos saber a probabilidade de que a
primeira cara ocorra na 3â jogada. Sem olhar a fórmula, como você faria?
(2 M 2 K
Daí você multiplicaria tal resultado pela probabilidade de uma cara, que é de:
1
2
Assim:
1 1_ 1
4X2~8
3-i x 1 _ 1
PÇsucesso na k —ésima jogada) = ( 1 —p)k 1 x
H i)
Simples, não? Essa distribuição não costuma se muito cobrada em prova, mas
vamos prevenir.
ATENÇÃO
lecore!
' Assim, pode-se provar que, para uma variável (X) com
distribuição geométrica:
6. Distribuição Hipergeométrica
CS,k
^ N -s ,n -k
5 .71—K.
p{k sucessos e n —k fracassos) =
^N,n
Esse é outro tópico que não é muito cobrado em concurso, mas que é importante
conhecer. Na seção de exercícios, vamos fazer um exercício que vai fazer com que
vocês entendam direitinho.
E(X) = n p
N —n\
Var{X) = n p ( l - p ) -
HORA DE
praticar!
Exercício 1
(FINEP - CESGRANRIO/2011)
a) Continua
b) Assimétrica
c) Normal
d) Uniforme
e) Multivariada
Resolução
Mas, que distribuição é essa? Uma distribuição uniforme, pois todos os pontos têm
a mesma probabilidade de ocorrência. Alternativa (d).
Resolução
Alternativa (d).
Exercício 3
E (x) = n- p
Assim:
Alternativa falsa.
Exercício 4
Resolução
Veja que agora, nosso "sucesso” é encontrar uma peça sem defeito (perceba que
tanto faz definir quem é sucesso ou fracasso, teste para ver). Assim, vamos utilizar
nossa fórmula para distribuição binomial:
Substituindo os valores:
Exercício 5
Resolução
Substituindo os valores:
5!
PÇsucessos = 3) = C53 • 0, 73 • 0, 32 = .„^ „ | • 0,343 • 0,09 = 0,3 087
. , 5!
PÇsucessos = 4) = C54 • 0, 74 • 0, 31 = • 0, 24 • 0, 3 = 0, 36
^1) \ 4!
PÇsucessos = 5) = C55 • 0, 75 • 0, 30 = 0, 17
Alternativa verdadeira.
Resolução
Exercício 7
Resolução
PÇsucesso = 3) = C33 • p3 = p3
PÇsucesso = 2) = 12 ■PÇsucesso = 3)
3 • p2 • ( 1 —p) = 12 • p 3
3p2 —3p3 = 12 ■p 3
3p2 —15p3 = 0
p2( 3 —15p) = 0
Para que essa expressão seja verdade, ou (p = 0), o que não corresponde à
solução que buscamos, ou ( 3 - 15p = 0). Assim, resolvendo a expressão:
1
3 —15p = 0 ^ p = —= 0,2
Alternativa (d).
a) 10
b) 20
c) 30
d) 40
e) 50
Resolução
Outra questão mais tranquila para relaxar. O que o exercício está te pedindo é a
esperança da quantidade de caras! Isso é fácil, basta:
£(x) = n- p = 100 • 0, 5 = 50
Alternativa (e).
Exercício 9
a) 4e~3
b) 4e~2
c) 3e~3
d) 1 - 4e~3
e) 1 - 3e~3
Resolução
Veja que nós podemos resolver o problema com a distribuição binomial (precisaria
de calculadora), mas como nós já fizemos exercício deste conteúdo, vamos treinar a
aplicação da fórmula da distribuição de Poisson.
O que é pedida é a probabilidade de que não haja mais do que uma peça
defeituosa, ou seja, no máximo uma. Assim, nosso "sucesso” é encontrar uma peça
defeituosa. Vamos encontrar as probabilidades referentes a "0” e "1” peças
defeituosas.
X = n -p = 30-0, 1 = 3
PÇsucesso = k = 1) =
PÇsucesso = 1 ou 0) = 3- e 3 + e 3 = 4 - e 3
Alternativa (a).
Exercício 10
a) 5 ( 0 , 9 5 ) 5
b) 1 - (0,05)5
c) l - ( 0 , 9 5 ) 5
d) (0,95)5
e) 4,75 • (0,95)5
Resolução
Para facilitar a resolução deste exercício, fica mais fácil avaliar a probabilidade de
ninguém pagar a mensalidade com atraso (P{x = 0)) e fazer:
Ou seja, o cálculo fica bem mais fácil, pois só calculamos a probabilidade de que
ninguém pague com atraso.
1 - 0,055
Alternativa (b).
Exercício 11
a) 0,09
b) 0,14
c) 0,18
d) 0,1
e) 0,05
Resolução
e~x -Àk
P{sucesso = k = 0) =
x = ln (2)
Isso significa que:
ex = 2
Assim, sempre que você vir e elevado a ln, o resultado é o número na frente do ln.
Por exemplo:
eln2 = 2
O gabarito original não tinha a resposta correta, mas neste nosso exemplo
modificado, alternativa (d).
Exercício 12
a) 10
b) 8
c) 7,5
d) 6
e) 4
Resolução
Veja a palavrinha chave: "sem reposição”. Trata-se de uma variável com distribuição
hipergeométrica.
20
E{X) = n - p = 20 ■ =8
Alternativa (b).
Exercício 13
Resolução
135
PÇsucesso = 2) = C5j2 ■
16 '6 4 512
Exercício 14
a) 5/27
b) 4/27
c) 2/9
d) 1/3
e) 6/19
Resolução
E(X) = 3
Como esta é uma variável com distribuição geométrica (leia o enunciado e veja se
entendeu):
P (X = 2 |X < 3)
P{X = 2 e X < 3 )
P(X = 2\X < 3 ) =
P(X < 3)
Assim:
P(X = l ) = p = 3
P(.X = 2) = p x ( i - v) = l x^2 = ^
P(X = 3 ) = p x ( l - p ) 2 = 3 x ^ = 2^
Letra (e).
Exercício 15
Resolução
Isso quer dizer que o experimento será realizado, na média, duas vezes e meia taé
"acertarmos”.
Bom, agora pense! Na primeira vez, você terá que desembolsar 500 reais para
realizar o experimento, mas você vai errar. Assim, você terá que desembolsar mais
600 reais (100 reais adicionais mais os 500 necessários para realizar o experimento
de novo) para tentar uma segunda vez. Até aí você já gastou 1100 reais para jogar
duas vezes.
Mas, ainda falta 0,5 vezes para você acertar. Assim, na média, você irá gastar mais:
Alternativa (b).
Exercício 16
Resolução
Veja, vamos supor que nosso "sucesso” seja encontrar alguém que fala alemão.
Assim:
Alternativa (c).
A questão original foi anulada por não possuir a palavra “exatamente”, tal como
coloquei no enunciado. Se essa palavra não constasse, o sucesso seria obtido se 3
ou 4 pessoas falassem alemão, pois, neste caso, pelo menos, três pessoas
estariam falando alemão!
Exercício 17
Resolução
Portanto:
9 1
P(soma < 5 ou soma = 10) = = = 25%
36 4
Alternativa (e).
Exercício 18
Resolução
Vamos pensar quantos números pares e menores do que 500 podem ser formados.
Bom, o primeiro digito deve ser 3 ou 4, pois o número deverá ser menor do que 500.
1 ■3 ■2 = 6 possibilidades
1 ■2 ■1 = 2 possibilidades
E no caso de 4? Bom, o número 8 não pode estar na dezena, pois, caso contrário,
não sobraria um número par para a unidade.
1 ■4 ■1 = 4 possibilidades
6 ■5 ■4 = 120 possibilidades
12
P(< 500 e par) = = 10%
Alternativa (b).
Exercício 19
3 4
b) e*
' 71
. 71 _4
c) e *
d) T e' 2
e) f e" 2
Resolução
e np ■(n- p ) k
P(sucessos = k) = ■
k\
O que nós queremos saber é qual a probabilidade de que a refinaria receba zero,
um, dois ou três petroleiros em dois dias. Portanto, sabemos que nossa média é de
2 petroleiros por dia e a quantidade de vezes que o experimento é realizado é igual
à 2, pois são dois dias. Qual a chance de k = 0; 1; 2; 3?
e~4 ■(4)0
PÇsucessos = 0) = o = e 4
e“ 4 • (4) 1
PÇsucessos = 1) = = 4 ■e- 4
e“ 4 •( 4) 2
PÇsucessos = 2) = = 8 -e - 4
e -4 . (4)3 64 32
P(sucessos = 3) = - = -■ e- 4
T
Agora some!
Alternativa (c).
Exercício 20
Resolução
e~x ■(A)fc
P{sucessos = k) = ------ ■
Exatamente! Você tem que usar a mesma unidade de medida para todas as
informações.
12
A= t =4
Portanto:
Alternativa (c).
Exercício 21
Resolução
4!
PÇsucessos = 2) = C42 • 0, 22 • ( 0, 8 )2 = 3 - 3 x 0,04 x 0,64 = 0, 15 36
4!
PÇsucessos = 3) = C43 • 0, 23 • ( 0, 8 )1 = 1 - 3 x 0,008 x 0,8 = 0,02 56
4!
PÇsucessos = 4) = C44 ■0, 24 • (0,8 )0 = —— x 0,00 16 x 1 = 0,00 16
1 0! 4!
Assim:
Alternativa (c).
Exercício 1
(FINEP - CESGRANRIO/2011)
a) Continua
b) Assimétrica
c) Normal
d) Uniforme
e) Multivariada
Exercício 3
Exercício 4
Exercício 5
Exercício 6
Exercício 7
Exercício 8
a) 10
b) 20
c) 30
d) 40
e) 50
Exercício 9
a) 4e_3
b) 4e_2
c) 3e_3
d) 1 - 4e_3
e) 1 - 3e_3
a) 5 ( 0 , 9 5 ) 5
b) 1 - (0,05)5
c) 1 - (0,95)5
d) (0,95)5
e) 4,75 • (0,95)5
Exercício 11
a) 0,09
b) 0,14
c) 0,18
d) 0,1
e) 0,05
Exercício 12
a) 10
b) 8
c) 7,5
d) 6
e) 4
Exercício 13
Exercício 14
a) 5/27
b) 4/27
c) 2/9
d) 1/3
e) 6/19
Exercício 15
Exercício 16
Exercício 17
Exercício 18
Exercício 19
Exercício 20
Exercício 21
Gabarito
1- d
2- d
3- F
4- F
5- V
6- a
7- d
8- e
9- a
10- b
11- d
12- b
13- anulada
14- e
15- b
16- c
17- e
18- b
19- c
20- c
21- c
Muito bom pessoal! Foco na Receita, pois logo vocês realizarão seu sonho!
jeronymo@estrategiaconcursos.com.br
SUMÁRIO PÁGINA
Distribuições Contínuas 2
Distribuição Uniforme 18
Distribuição Normal 19
Distribuição Exponencial 25
Distribuição de Pareto 27
Lista de Exercícios resolvidos em aula 43
Gabarito 49
DICAS DE UM CONCURSEIRO
1. Distribuições Contínuas
Não entendeu? Veja, o relógio digital tem um número finito de valores que pode
mostrar:
6O x l 2 = 720
Isso sem contar “am” ou “pm”. Agora, quantos valores o relógio analítico pode
assumir em uma volta inteira? Infinitos! Isso deriva do fato que ele não irá dar
“saltos” a cada segundo, mas irá fazer um movimento contínuo ao longo do
mostrador, o que faz com que ele possa assumir qualquer valor neste intervalo, que
são infinitos.
íi*j
1/12
ç i ; 3 i 5 6 1 a <3 io 11;;
E fácil perceber que trata-se de uma soma das probabilidades dos diversos
intervalos, que é igual à —. Essa é a FDA acumulada até 3. E evidente que se
è xl2 = 1
Isso serve bem aos propósitos de análise de uma função linear tal como
analisamos, porém a maior parte das distribuições contínuas não é tão simples de
serem avaliadas. Para isso, precisamos do conceito de cálculo diferencial e integral.
Engenheiros e matemáticos de plantão, sugiro que vocês pulem essa parte, pois
estou explicando estes conceitos de forma bem simples e sem nenhum formalismo,
assim qualquer pessoa de qualquer formação pode entender!
Podemos dar alguns exemplos para ilustrar. Se a derivada de uma função é dada
por:
df(x) = 5 ■x
d f ( 5) = 5-2 = 10
Vamos parar de falar bonito e explicar isso de forma intuitiva. Olhe o gráfico abaixo:
Obs. A linha cinza não é parte do gráfico, ela somente mostra em que ponto as
curvas se interceptam.
Veja o ponto formado pelo par ordenado Y(1) e X(1). Neste ponto, a inclinação é
dada por aquela reta com tracejado mais escuro que passa de forma "reta” sobre o
ponto. Essa é a inclinação da função no ponto! E mais, perceba que, quando a
variação em x for muito pequena, tendendo a zero, essa inclinação irá representar o
quanto Y irá variar em decorrência desta variação em x.
Isso é a derivada! A derivada irá medir esta taxa de variação instantânea, ou,
em termos geométricos, a inclinação da função no ponto.
Simples! Decore! Vou ensinar 4 regras de diferenciação que serão suficientes para
que você faça a prova, apesar de existirem mais.
/( x ) = xk
É:
- "Não entendi” !
/( x ) = x2
d /(x) = 2 ■x2_1 = 2x
/( x ) = x4
Neste caso:
df{x) = 4 ■x 3
E a derivada de:
/( x ) = x
d (/(x )) = 1
E se a função for:
/(x ) = 2- x
É fácil perceber que a derivada de uma constante com relação a uma variável é
sempre igual à zero, pois a constante não irá mudar, independentemente da
variação na variável.
/(x ,y ) = a - x + b - y
Exatamente, zero (0)! Ao variar o x, o único impacto dessa dinâmica é direto, pois o
x não afeta a função de forma indireta via y. Portanto:
/(x ,y ) = a ■x + b ■y
Dado que:
y = 2 ■x
Aí você está vendo uma forma pela qual a derivada de /(x ,y ) com relação x a terá
dois efeitos, um direto (igual a a) e indireto, via y:
tf(x) = g(x) + / ( x )
tf(x) = g(x) ± /( x ) ,
Tem-se que:
Assim, vamos à derivada de uma função In. Assim, dada uma função:
/( x ) = Zn(x)
Temos que:
dum = lJL
/( x ) = ex
df {x) = ex
-"Mas, e a integral”?
/( x ) = 2x
Nós já vimos lá em cima que isso equivale à derivada da função (/(x ) = x2).
Portanto, a integral desta função é:
Entenderam? Para saber a integral de uma função /(x ), basta perguntar: qual é a
função que sendo derivada geraria /(x ). A função que estamos procurando quando
fazemos uma integral é a primitiva de uma função.
A maneira mais formal (e que será útil para vocês) de integrar a função acima é
tirando a constante para fora do operadp r de integração e integrando o valor dentro:
1 Quem prestou atenção percebeu que falta uma coisinha, uma constante! Isso mesmo, porque a derivada de
uma constante é igual à zero. Assim, no caso, a integral deveria resultar em x2 + c, sendo c uma constante de
integração que pode assumir qualquer valor, até mesmo zero. Para fins de análise estatística isso raramente
importa, assim vamos omitir este resultado, fazendo c=0 em todos os casos.
Não entendeu? Vamos fazer mais um exemplo que vai ficar claro.
/( x ) = x2
Qual é a integral desta função? Ora, basta procurarmos a função que, sendo
derivada, geraria esta última. Bom, em primeiro lugar olhe o expoente da função e
perceba que a primitiva deveria ter o número "3” lá em cima, pois a primitiva foi
derivada, o que reduziria o expoente em uma unidade. Vamos fazer um teste:
| * 2* =x
d(x3) = 3x2 ^ x2
Entendeu? Mas, isso é fácil de resolver, basta dividir a primitiva por "3” ! Neste caso:
Não é tão difícil assim. Matute um pouquinho que você vai entender.
/( x ) = ex
Esta função tem a sua derivada igual à ela própria. Portanto, qual é a primitiva desta
função, ou seja, qual é a função que sendo derivada geraria esta última?
f ( x) dx = I exdx = ex
Estas são bem intuitivas. Mas, para que saber tudo isso?
/( x ) = x2
J f (x)dx = l
Ótimo! Entretanto, agora o que nós queremos saber é a chamada "integral definida”,
ou seja, qual é o valor do somatório dos infinitos pontos abaixo desta curva em um
determinado intervalo. No nosso caso:
f ( x) dx = J X2d x = — { l ) - y ( 0 ) = - - - =-
Portanto, a integral vai somar os infinitos pontos que estão embaixo de uma
curva e te dar uma função que seja representativa desta operação. Se você
defini-la em um intervalo, terá a área até o ponto determinado.
O que nós sabemos é que o total da área de um gráfico representado por uma fdp
deve ser igual a 1, pois a probabilidade de ocorrer um de todos os valores possíveis
de um intervalo é 100%. Então, vamos voltar ao nosso exemplo e tratar aquela
função como uma fdp. Suponha que aquela função seja dada por:
Entendeu? O que nós fazíamos antes para encontrar a FDA era somar as
probabilidades correspondentes a cada um dos intervalos, porém, no caso de uma
função contínua não linear, precisamos realizar uma integral, que é como se
somássemos todos os "pedacinhos” embaixo da curva. Só para destacar, a integral
pode ser usada, por aproximação, para o caso linear também.
Neste caso, vamos encontrar o valor de A. O que nós sabemos é que a FDA
acumulada ao longo de todo o intervalo é igual à 1. Assim:
Entendeu? Vamos somar todos os "pontinhos” embaixo da curva até que a soma
das probabilidades seja igual à 1.
Portanto:
A= 1
j 3x2dx = x
x 3, se 0 < x < 1
0, se x < 0
Viu? Com esta função na mão, você consegue calcular a FDA acumulada até o
limite que você quiser. Perceba que esta função atende ao nosso requisito de FDA:
Mas, esta não é a única utilidade da integral para funções contínuas não lineares.
Ír INDO
mais fundo
Você percebe que trata-se de um somatório? Isso não te lembra nada? Exatamente,
vamos integrar!
Então, para uma dada fdp /(x ), sua esperança é dada por:
x ■/(x )d x
Com base no que nós já estudamos, fica fácil encontrar a variância para qualquer
processo contínuo:
Assim, fica bem mais fácil encontrar a variância calculando duas esperanças, a
regular e a do quadrado da variável. Vamos calcular a esperança e a variância para
um dos nossos exemplos:
x5 1 0 3
x4dx = 3 — = 3 ------ = - = 06
X 3 5 3 5 5j 5 °’ 6
Essa é a variância! Nós vamos fazer alguns exercícios para que vocês treinem o
que foi ensinado. Não se preocupem, é esperado que seja um pouco mais difícil
acompanhar tudo isso na primeira vez. Talvez vocês precisem reler esta parte da
aula e fazer todos os exercícios.
A parte boa é que quase nunca vocês precisarão de tal conhecimento, pois, na
maior parte das vezes a banca vai te perguntar características de distribuições
com propriedades bem conhecidas. Portanto, vamos a estas distribuições.
Com o intuito de facilitar sua vida, é importante decorar algumas propriedades
destas distribuições, especialmente, sua média e variância.
2. Distribuição uniforme
Nós já estudamos esta distribuição para o caso discreto, agora vamos trabalhar no
caso contínuo. Trata-se de uma distribuição em que todos os pontos têm a mesma
probabilidade de ocorrência, entretanto, como estamos no caso contínuo, trata-se
de uma distribuição em que todos os intervalos têm a mesma probabilidade de
ocorrência.
Por exemplo, suponha que um ônibus chegue em uma estação entre 9:00 e 9:30 da
manhã e que a sua probabilidade de chegada seja proporcional à amplitude do
intervalo. Neste caso, à probabilidade de chegada do ônibus entre 9:00 e 9:10 é
igual à probabilidade de chegada entre 9:10 e 9:20. Se tratarmos o tempo como
uma variável contínua, o gráfico seria tal que:
fM
9:10 9:20 st
se o horário estiver entre 9:00 e 9:30. Isso porque, se dividirmos todo o intervalo em
intervalos menores, de 1 unidade de amplitude, a probabilidade de cada um será de
1/30. Além disso:
/( x ) = 0
0, caso contrário
Beleza? Pessoal, a média e a variância para este processo é bem fácil de decorar,
então decorem:
a+p
Mé dia(X) = E(X) =
Vari ânciaÇK) =
(P - aY
12
3. Distribuição Normal
l (x-yy
= e 2^2
V2 na2
Essa distribuição é simétrica, de forma que cada metade desta curva tem 50% de
chance de ocorrer:
Porque a normal padrão é mais fácil de ser avaliada e tem uma tabela que permite
que você calcule a probabilidade de ocorrência de um determinado valor.
Não entendeu? Veja, pode-se provar que uma variável (X) com distribuição normal
pode ser transformada em uma normal padronizada por meio da seguinte operação:
Calma, você vai entender agora! A questão é que a normal padrão, que é obtida
pela transformação de uma variável em seu respectivo valor (z), tem uma
“tabelinha mágica” que nos diz a probabilidade de que o valor encontrado (z
calculado) esteja entre 0 (zero) e um determinado valor a ser especificado!
Exercício 1
(Elaborado pelo autor) Dada uma variável com distribuição normal, com p = 3
e a2 = 16, qual a probabilidade de encontrarmos um valor entre 2 e 5?
Resolução
P ( 2 < X < 5)
2 —p X —p 5 —p\
o ~ o ~ o )
f2 - 3 5 -3
<z< ) = P (-0, 25 < z < 0, 5)
0 I 2 3 4 5 6 7 8 9
io
0 ,0 0 ,0 0 0 0 0 ,0 0 4 0 0 ,0 0 8 0 0 ,0 1 2 0 0 ,0 1 6 0 0 ,0 ! 99 0 ,0 2 3 9 0 ,0 2 7 9 0 ,0 3 1 9 0 ,0 3 5 9
0,1 0 .0 3 9 8 0 ,0 4 3 8 0 ,0 4 7 8 0 ,0 5 1 7 0,0 5 5 7 0 ,0 5 9 6 0 ,0 6 3 6 0,0 6 7 5 0 ,0 7 )4 0,0 7 5 3
0 ,2 0 ,0 7 9 3 0 ,0 8 3 2 0,0871 0 ,0 9 1 0 0 ,0 9 4 8 0 ,0 9 8 7 0 ,1 0 2 6 0,1 0 6 4 0,1103 0,1141
0 ,3 0 ,1 1 7 9 0 ,1 2 1 7 0 ,1 2 5 5 0 ,1 2 9 3 0,1331 0 ,1 3 6 8 0 ,1 4 0 6 0,1 4 4 3 0,1480 0,1517
0 ,4 0 ,1 5 5 4 0,1 5 9 1 0 ,1 6 2 8 0 ,1 6 6 4 0 ,1 7 0 0 0 ,1 7 3 6 0,1 7 7 2 0 ,1 8 0 8 0,1 8 4 4 0 ,1 8 7 9
2 ,0 0 ,4 7 7 2 0 ,4 7 7 8 0 ,4 7 8 3 0 ,4 7 8 8 0,4793 0 ,4 7 9 8 0 ,4 8 0 3 0 ,4 8 0 8 0 ,4 8 1 2 0,4817
0,4821 0 ,4 0 2 6 0 ,4 8 3 0 0,4 8 3 4 0 ,4 8 3 8 0 ,4 8 4 2 0 ,4 8 4 6 0 ,4 8 5 0 0,4 8 5 4 0 ,4 8 5 7
2,1
2 ,2 0 .4 8 6 1 0 ,4 8 6 4 0 ,4 8 6 8 0,4871 0 ,4 8 7 5 0 ,4 8 7 8 0,4881 0 ,4 8 8 4 0,4 8 8 7 0 ,4 8 9 0
2.3 0.41193 0 ,4 8 9 6 0 ,4 8 9 8 0,4901 0,4904 0 ,4 9 0 6 0 ,4 9 0 9 0,4911 0 ,4 9 1 3 0 ,4 9 1 6
2 ,4 0 .4 9 1 8 0 ,4 9 2 0 0 ,4 9 2 2 0 ,4 9 2 5 0,4927 0 ,4 9 2 9 0,4931 0 ,4 9 3 2 0,4934 0 ,4 9 3 6
3 ,0 0 ,4 9 8 7 0 ,4 9 8 7 0 ,4 9 8 7 0 ,4 9 8 8 0,4 9 8 8 0 ,4 9 8 9 0 ,4 9 8 9 0 ,4 9 8 9 0 ,4 9 9 0 0 ,4 9 9 0
0 ,4 9 9 0 0,4991 0,4991 0,4991 0 ,4 9 9 2 0 ,4 9 9 2 0 ,4 9 9 2 0,4 9 9 2 0 ,4 9 9 3 0 ,4 9 9 3
3.1
3 ,2 0 .4 9 9 3 0 ,4 9 9 3 0 ,4 9 9 4 0 ,4 9 9 4 0 ,4 9 9 4 0 ,4 9 9 4 0 ,4 9 9 4 0,4 9 9 5 0 ,4 9 9 5 0 ,4 9 9 5
3,3 0 ,4 9 9 5 0 ,4 9 9 5 0 ,4 9 9 5 0 ,4 9 9 6 0 ,4 9 9 6 0 ,4 9 9 6 0 ,4 9 9 6 0 ,4 9 9 6 0 ,4 9 9 6 0,4997
3 ,4 0 ,4 9 9 7 0 ,4 9 9 7 0 ,4 9 9 7 0,4 9 9 7 0 ,4 9 9 7 0 ,4 9 9 7 0 ,4 9 9 7 0,4997 0 ,4 9 9 7 0 ,4 9 9 8
3 ,5 0 ,4 9 9 8 0 ,4 9 9 8 0 ,4 9 9 8 0 ,4 9 9 8 0 ,4 9 9 8 0 ,4 9 9 8 0 ,4 9 9 8 0 ,4 9 9 8 0 ,4 9 9 8 0 ,4 9 9 8
3 ,6 0 ,4 9 9 8 0 ,4 9 9 8 0 ,4 9 9 9 0 ,4 9 9 9 0 ,4 9 9 9 0 ,4 9 9 9 0 ,4 9 9 9 0,4 9 9 9 0 ,4 9 9 9 0 ,4 9 9 9
3 ,7 0 ,4 9 9 9 0 ,4 9 9 9 0 ,4 9 9 9 0 ,4 9 9 9 0 ,4 9 9 9 0 ,4 9 9 9 0 ,4 9 9 9 0,4 9 9 9 0,4 9 9 9 0 ,4 9 9 9
0 ,4 9 9 9 0 ,4 9 9 9 0 ,4 9 9 9 0 ,4 9 9 9 0 ,4 9 9 9 0 ,4 9 9 9 0,4 9 9 9 0 ,4 9 9 9 0 ,4 9 9 9
3 ,8 0 .4 9 9 9
0 ,5 0 0 0 0 ,5 0 0 0 0 ,5 0 0 0 0 ,5 0 0 0 0 ,5 0 0 0 0 ,5 0 0 0 0 ,5 0 0 0 0 ,5 0 0 0 0,5 0 0 0 0 ,5 0 0 0
3 ,9
No nosso caso, temos que dividir o nosso resultado em duas partes, pois a tabela
só nos diz a probabilidade do valor padronizado estar entre 0 e o valor encontrado.
Assim:
Olhem na tabela os valores que encontramos, ou seja, 0,25 e 0,5 (0 sinal negativo
não influencia, ele só significa que estamos olhando a curva da direita para a
esquerda).
Assim, basta somar aqueles dois valores que encontramos, que, na verdade, são as
probabilidades de ocorrência de cada um dos intervalos:
Não é tão complicado. Nós vamos fazer uns exercícios e você vai entender
direitinho. Além disso, iremos falar mais sobre isso na aula de “Intervalo de
Confiança e Testes de Hipóteses”. Então, relaxe!
4. Distribuição Exponencial
Dado um parâmetro p > 0, a distribuição exponencial tem sua fdp dada por:
Esse é um caso de uma variável x que tem distribuição exponencial com parâmetro
p, o que pode ser escrito como:
x ~ Exp(P)
£(x) = p
Var(x) = p 2
Esta distribuição é muito utilizada para avaliar o tempo de vida útil de equipamentos.
Seja X uma variável aleatória contínua com valores positivos e com parâmetros
a > 0 e (3 > 0, a mesma terá distribuição Gama se sua fdp for dada por:
0, se x < 0
TO
T(a) = I e~xxa~1d x , a > 0
o
x ~Gama(a,p')
A distribuição Gama representa o caso de variáveis que são não negativas e que
tendem a concentrar a maior parte de seus valores próximos à origem, o que resulta
em uma distribuição assimétrica. Tal como pode ser visto no gráfico abaixo:
Alguns experimentos demonstraram que esta distribuição explica melhor a vida útil
de equipamentos do que a distribuição exponencial.
£(x) = afi
Var(x) = afí2
Perceba a ligação entre as duas distribuições, pois pode-se provar que as duas
serão iguais se a distribuição Gama tiver a = 1.
5. Distribuição de Pareto
Apenas para fins de curiosidade, vamos passar por mais uma distribuição que pode
ser cobrada em concursos públicos, apesar de isso não ser nem um pouco comum.
Sendo a > 0 e 0 < x < oo. No caso, p é o menor valor possível que x pode assumir.
afí
£(x) =
(a - 1)
afí2
Var(x) =
(a —1)2 (a —2)
F(x) = 1 - P
Pf(X=ü)
Exercício 1
Resolução
Alternativa (e).
Exercício 2
Resolução
Simples também:
(5 - 1)2 42 16 4
Variância(X) = = = =
Alternativa (e).
Exercício 3
Resolução
P(X < 0)
Substituindo:
Isso está nos dizendo que a chance de encontrarmos qualquer valor da média até
zero é de 39%. Graficamente:
Alternativa (a).
Exercício 4
a) 1%
b) 2,5%
c) 5%
d) 10%
e) 20%
Resolução
P(X < 0)
X -p 0-20
Exercício 5
a) 25 e 4/5
b) 16 e 4
c) 16 e 4/5
d) 25 e 3/4
e) 16 e 3/4
Resolução
E (x) = n x p
Var(x) = n x (p —p2)
E(x) = n x p = l 2
Var(x) = n x (p —p2) = 3
np —np2 = l 2 —np2 = 3
Rearranjando:
9
n = pZõ
9 3
nxp= p /
xp = l 2
3
nx = l 2 ^ n = 16
4
Alternativa (e).
Exercício 6
Resolução
,2
+ kx
31
I x+k = 1
o6
Assim, integrando:
31 31 X
x + fc = I x + fc =
I 6 06 12 + ta
Definindo no intervalo:
x2 \(9 \ ( 0 M (9 \
+ kx = (■ + 3 k) —( + 0k) = L + 3 k) = 1
12 [\12 ) V12 )\ V12 )
Alternativa (d).
Exercício 7
Resolução
O item está correto! Tal como nós explicamos, ambas as distribuições estão
intimamente relacionadas.
Exercício 8
(SUSEP - 2002/ESAF) Uma lâmpada tem tempo de vida (X) que se comporta
conforme uma distribuição exponencial com fdp dada por:
Var(x) = P2 = 100O2
Dp(x) = = P = 1000
Alternativa (e).
A próxima questão é bom que vocês resolvam comigo, pois ela traz coisas
novas.
Exercício 9
Dados:
Ln(0,4)= -0,916
Ln(0,5)= -0,693
a) 7328
b) 7120
c) 5830
d) 5544
e) 5250
No caso, o exercício pede a mediana, ou seja, a FDA deve acumular 50% das
probabilidades até este ponto.
Não entendeu? A mediana não divide os dados em duas partes iguais? Então, a
mediana acumula 50% das observações do lado esquerdo e 50% ficam do seu lado
direito.
Assim:
F(x) = 0, 5
Substituindo:
_X
F(x) = 1 - e P = 0, 5
1 - e sooo = 0, 5
X
e sooo = 0, 5
- ^ = ln( 0, 5) = -0 , 69 3
8000 K J
x = 5544
Alternativa (d).
Exercício 10
Resolução
V - a)2 ( 2 - 0) 2 4 1
Var(x) =
12 12 12 3
Alternativa (a).
Exercício 11
Resolução
Este exercício não é difícil se você olhar com calma. Vamos por partes, qual a
probabilidade de que z < 1,96. Isso tem na tabela:
E qual a porcentagem de valores que se acumula até -2,58? Ora, nós sabemos que
a distribuição é simétrica, assim este percentual é o mesmo que se acumula até
2,58:
Assim:
0 1,96
Alternativa (a).
Exercício 12
Resolução
lim ite s u p e r io r
lim ite i n f e r i o r
Assim:
£(x) = I !■ 3x2dx =
Alternativa (b).
Exercício 13
Resolução
P(A\B) = PÇA)
Alternativa (c).
Exercício 1
Exercício 2
Exercício 3
Exercício 4
a) 1%
b) 2,5%
c) 5%
d) 10%
e) 20%
Exercício 5
a) 25 e 4/5
b) 16 e 4
c) 16 e 4/5
d) 25 e 3/4
e) 16 e 3/4
Exercício 6
/<x>=ís* +k,seOSXS3
0 , c a s o c o n t r á r io
Exercício 7
Exercício 8
(SUSEP - 2002/ESAF) Uma lâmpada tem tempo de vida (X) que se comporta
conforme uma distribuição exponencial com fdp dada por:
A próxima questão é bom que vocês resolvam comigo, pois ela traz coisas
novas.
Exercício 9
Dados:
Ln(0,4)= -0,916
Ln(0,5)= -0,693
a) 7328
b) 7120
c) 5830
d) 5544
e) 5250
Exercício 10
Exercício 11
Exercício 12
Exercício 13
Gabarito
1- e
2- e
3- a
4- b
5- e
6- d
7 - Certo
8- e
9- d
10 - a
11 - a
12 - b
13 - c
Pessoal, esta aula foi muito pesada. Apesar de não ser um assunto muito cobrado,
é importante que vocês releiam esta Jkula com muita calma, pois, se cair, é bem
difícil. As distribuições qui-quadrado e t-student serão abordadas na aula de
"Intervalo de Confiança e Teste de Hipóteses”, conjuntamente com um maior
aprofundamento da distribuição normal. Um abraço e bons estudos!
jeronymo@estrategiaconcursos.com.br
SUMÁRIO PÁGINA
Distribuição conjunta de variáveis discretas 2
Esperança e covariância 7
Distribuição conjunta de variáveis contínuas 11
Lista de Exercícios resolvidos em aula 45
Gabarito 59
Esta aula será mais curta, pois não é um assunto muito cobrado e aprofundado em
concursos. Porém, já caiu. Então, tem que saber e pronto! Porém, isso não
significa que a aula será fácil, muito pelo contrário.
DICAS DE UM CONCURSEIRO
Muitas vezes um experimento gera valores para mais de uma variável, ou seja, um
mesmo ponto amostral se refere a valores de mais de uma variável.
A título de ilustração, suponha que você faça uma pesquisa em vários lares que
adotaram até 3 animais, podendo ser gatos ou cachorros. Neste caso, você pode ter
duas variáveis, uma primeira (X) que indicaria a quantidade de gatos adotados em
cada lar, e uma segunda variável binária, que assumiria valor igual a 1 se o primeiro
animal adotado for um gato. Assim:
Resultados X Y
GGG 3 1
GCG 2 1
GGC 2 1
GCC 1 1
CGG 2 0
CGC 1 0
CCG 1 0
CCC | 0 0
__ X
0 1 2 3
V
í
0 1/3 2/8 1/8
Para o entendimento de como “ler” esta tabela, tome o exemplo da primeira célula.
A primeira célula é:
1
P{X, Y ) = P { X = 0 e Y = 0) =
O
Ora, o que está sendo dito é que a probabilidade (X) e (Y) assumirem valores iguais
a zero, isso é, só serem adotados cachorros, é de 1/8.
Por exemplo, você pode obter qual a probabilidade de o primeiro animal adotado ser
um gato, independentemente da quantidade de animais adotados. Assim, o que
você estaria buscando é:
P(Y = 1) = ?
1 2 1 4 1
P(y = 1> = 0 + 8 + 8 + 8 = 8 = 2 = 50%
Você entendeu o que fizemos? Nós apenas somamos todos os elementos ao longo
da linha que especifica Y = 1.
Além disso, nós podemos usar a tabela de dupla entrada para encontrarmos as
probabilidades condicionais. Lembra-se da fórmula? Para dois eventos quaisquer
(A e 5), a probabilidade de ocorrência de A dado que B já ocorreu é dada por:
Então, agora podemos calcular esta probabilidade para valores específicos de cada
evento, sendo que será bem mais fácil.
P(X = 3 e Y = 1)
P(X = 3\Y = 1)
P(Y = 1)
P(.X = 3 e Y = 1 ) = l
P(X = 3 e Y = í) (g)
P(X = 3\Y = 1)
P(Y = 1) 4
\ X
0 1 2 3
y
O que já era meio que óbvio, certo? Pois, como sabíamos que esta variável só pode
assumir dois valores, se P(Y = 1) = 1/ I , então P(Y = 0) = 1/2 .
P(X = 2 e Y = 0) (g) 1
P(X = 2| Y = 0)
P( r = 0) - ( i) 4
P(X\Y) = P(X)
P(Y\X) = P(Y)
P(X = 2 e Y = 0) 1
P(X = 2\Y = 0) =
P(Y = 0) 4
2. Esperança e Covariância
Entendeu? Agora fica fácil encontrar a variância da variável, pois nós já sabemos
que:
1 1 z 1
Var(Y) = E(Y2) - [ E ( Y ) ] 2 = - - { - j = -
Viu? Não tem segredo para encontrar a variância de uma variável! O que nós
precisamos estudar ágora é um conceito ligado à variância conjunta de duas
variáveis: a covariância.
É isso aí! O que nós vamos tentar encontrar é uma medida que expressa o quanto
duas variáveis "flutuam em conjunto”. Isso é feito por meio do valor médio do
produto dos desvios de duas variáveis.
X Y XY
0 0 0
1 0 0
2 0 0
3 0 0
0 1 0
1 1 1
2 1 2
3 1 3
Agora faça assim, veja qual a probabilidade deste produto ocorrer na tabela lá em
cima. Assim, fica fácil. Vamos calcular a esperança dos produtos:
1 2 1 8
E(X ■Y) + 0'■ + 0 ' ■ —
1
8 8 8 8
1 3 3 1 10
E{X) = 0- + 1 -ES 2 ■ + 1 - = = 1 ,2 5
w 8 8 8 8 8 '
O que vamos falar agora é um assunto mais complicado. Portanto, não precisa ficar
desesperado, pois isso quase nunca é cobrado em concurso (a não ser em
concursos mais específicos).
fdc = f{X,Y)
Esta função tem características semelhantes da nossa fdp. Vamos complicar sua
vida um pouquinho (hora de lembrar-se dos conceitos básicos de cálculo):
1 ) fÇX, Y ) > 0
2 ) j j f(X,Y)dXdY = 1
A primeira propriedade tem a ver com o fato de que, tal como uma fdp, a fdc é
ligada ao conceito de probabilidade de ocorrência. Portanto, o menor valor que a
mesma pode assumir é zero, pois não há como a "probabilidade” de ocorrência de
um evento ser negativa.
Exercício 1
p a ra 0 < x < 1 e
0, caso co n trá rh
Determine o valor de “ A” .
Resolução
+ to + to
f(x ,y )d x d y = 1
— TO — TO
Assim, primeiro vamos resolver para x e depois para y. Bom, primeiramente, vamos
definir os intervalos superiores e inferiores para as duas variáveis, o que pelo
enunciado sabemos que são 0 e 1 para ambas as variáveis.
i i
j j f(x ,y )d x d y = 1
o o
i i
j j Axydxdy = 1
0 o
Resolver para x basta integrar a função nesta variável e tirar a outra para fora como
se fosse uma constante (junto com A).
1 i
w xdxdy = 1
o o
Bom, vocês já aprenderam qual a integral de x, certo? Ora, é o valor que derivado
gera x . Assim:
Derive esta função para ver que isso é verdade! Então, vamos resolver a integral
definida lá em cima:
1
dy=l
2
i ,
l M
f A---ydy = J -y d y = l
A
= l
2
A l2 02
- T _ T
A 1
= l
2 2 .
A
l^ A = A
4
Verdade! Não é nada trivial, mas dá para fazer, caso seja necessário.
Veja que a integral deve ser definida dentro do intervalo que se deseja
analisar, portanto se você quiser avaliar outro intervalo, basta mudar o
intervalo em que você está definindo a integral. Vamos ver como isso é feito
nos exercícios.
Bom, vamos continuar com alguns conceitos importantes que já discutimos, mas
aplicados ao caso de variáveis contínuas, tal como a distribuição marginal para
cada variável.
Exercício 2
p a ra 0 < x < 1 e
0, caso co n trá rh
Resolução
Exatamente. Pense comigo, se nós integrarmos a função acima, mas sem definir
um intervalo, nós teremos uma função como resultado de tal operação.
Veja, vamos integrar esta função com relação a x, tratando y como uma constante:
Retornando.
Bom, nós podemos retirar qualquer informação de uma determinada fdc, tal
como variância e covariância. Porém, a maior parte disso não será importante
para o seu concurso. Mas, algumas coisas podem ser importantes, tal como a
esperança de uma variável, bem como o cálculo da probabilidade condicional.
A esperança é fácil, pois nós já vimSs como fazer isso na nossa aula anterior.
Vamos usar nosso exemplo para facilitar. A diferença é que nós vamos nos basear
na já calculada função de distribuição marginal.
Exercício 3
Encontre a esperança de y .
Resolução
Bom, se você quiser a esperança de uma variável, primeira coisa a fazer é calcular
sua função de distribuição marginal. No caso de y, se chamarmos a função de
distribuição marginal de g(y), já temos isso calculado:
g(y) = 2y
i
EÇy) = I y 2ydy
o
iv3! 1 n3 o3i 2
Percebe que no final das contas é a mesma coisa que estudamos na aula
anterior? A única diferença é que você tem que encontrar a distribuição
marginal primeiro.
h l y ~ f(y)
Exercício 4
Resolução
, /(*.y) 4xy ^
h 'y - f ( y ) “ 2y ~ i x
/(x| y) = g {x )
f(y\x ) = g (y )
Exercício 5
(MTUR - ESAF/2014) Dois eventos A e B são tais que: P(A) = 0,25; P(B/A) = 0,5;
P(A/B) = 0,25. Assim, pode-se afirmar que:
a) A e B são eventos dependentes.
b) P(B) = 0,5 e os eventos são mutuamente exclusivos.
c) P(B) = 0,25 e os eventos são independentes.
d) P(B) = 0,5 e os eventos são independentes.
e) P(ADB) = 0 e os eventos são independentes.
Resolução
PC4) = P(A\B) = 0, 2 5
P(fl) = P(B\A) = 0, 5
Alternativa (d).
Exercício 6
Resolução
Vamos definir nosso problema de forma matemática, pois fica mais fácil de
visualizar:
E {x ) = I x ■3 x2dx
o
Vamos resolver:
x 4! 1 _ 3 14 041 _ 3
E {x ) = I 3x 3dx = 3 I x 3dx = 3
4 4 4 4
o
Alternativa (b).
Exercício 7
Resolução
6 1 6 3
8 8 64 32
Alternativa (d).
Exercício 8
Resolução
Pessoal, a melhor forma de fazer este exercício é por meio de um raciocínio inverso,
gerando a tabela que teria dado origem a esta "tabela resumida". Pense e você verá
que ela tem a seguinte forma:
x\y 0 1 2
0 0,2 0,1 0,3
1 0 0,2 0,2
P(x = 0 e y = 2)
P(x = 0|y = 2)
P(y = 2)
P(y = 2 ) = 0, 3 + 0, 2 = 0 ,5
P(x = 0 e y = 2 ) 0, 3
P(x = 0|y = 2 ) 0, 6 = 6 0 %
P(y = 2 ) = Õ5
Alternativa (d).
Exercício 9
Resolução
O que o exercício está pedindo é a probabilidade acumulada até 0,8. Nós já vimos
que isso se faz assim:
Portanto:
0,8 0,8
P(0 < x < 0, 8) = I 2xdx = 2 I xdx = 2
Alternativa (d).
Exercício 10
Resolução
Nós já sabemos que para encontrar o valor esperado precisamos fazer a seguinte
operação:
x ■2xdx
Assim:
Alternativa (e).
X INDO
mais fundo Exercício 11
Resolução
Ora, o segundo membro nós já temos, pois basta elevar o resultado do exercício
anterior ao quadrado.
E o primeiro membro?
E {x 2) = 1 *2 ■2 xdx
i4 0^ _ 2 _ 1
E {x ) = I x 2 ■2 xdx = 2 I x 3 dx = 2 = 2■
4 T ~ T ~4~2
Portanto:
Alternativa (b).
Exercício 12
Resolução
Aprovados = 20 x 80% = 16
Já das mulheres:
Aprovadas = 10 x 90% = 9
Alternativa (c).
Exercício 13
Resolução
Alternativa (a).
Exercício 14
Resolução
Assim:
Alternativa (b).
Exercício 15
Resolução
1
P(sucesso) =
W,3
1 1
P(sucesso) =
35
Alternativa (a).
Exercício 16
Resolução
Alternativa (d).
Exercício 17
Resolução
Alternativa correta.
Exercício 18
Resolução
Alternativa errada.
Exercício 19
Resolução
Esta questão já foi muito discutida no meio dos concursos. Seu gabarito consta
como correta, porém, já foi mais do que mostrado, que ela está errada!
P ( 1 0 n 1 0 0) = P ( 1 0 ) ■ P ( 1 0 0) = 0, 7 • 0,0 5 = 0 ,0 3 5
P ( 1 0 U 1 0 0) = ?
p ( 1 0 n 1 0 0) = P ( 1 0) + P ( 1 0 0) - P ( 1 0 n 1 0 0)
Substituindo os valores:
Ou seja, o item está errado! Porém o gabarito consta como certo. O problema é que,
para chegarmos no resultado do gabarito, precisaríamos considerar os eventos
como dependentes (mutuamente exclusivos, na verdade), o que vai contra o próprio
enunciado.
Exercício 20
Resolução
35 quartil
Mediana
15 quartil
Neste caso, nós temos os quartis, a mediana e os valores extremos. Portanto, das
alternativas, o único parâmetro que não consta é a variância.
Alternativa (e).
Exercício 21
Resolução
Alternativa (d).
T otal 1,00
Exercício 22
Resolução
Bom, nós vamos precisar de 2 equações para encontrarmos estas duas incógnitas.
A primeira é fácil, dado que a soma das frequências relativas deve ser igual a 1:
0, 1 + x + y + 0, 2 + 0, 1 = 1 ^ x + y = 0,6
A segunda equação vem da afirmação II, no que se refere a média aritmética com
os pontos médios das classes. Os pontos médios serão o valor inferior da classe
mais R$ 500,00, pois a amplitude da classe é de R$ 1.000,00. Assim, para
encontrar a média:
x = 0, 6 —y
Substituindo na segunda:
Portanto:
1000y = 250 ^ y = 0, 25
x = 0, 6 — 0, 2 5 = 0, 3 5
Alternativa (c).
Exercício 23
Resolução
0,2 5 0,0 5
w õõ~ —
0,2 5 x = 50 ^ x = 2 0 0
m e d ia n a = 3 000 + 2 00 = 32 00
Alternativa (b).
Exercício 24
Resolução
Pense:
a
X = p±z-
Vn
2 05,52 = p + z - —
yn
24
194,48 = u — z - ■
^ 10
24
2 05, 52 = p + z - ■
24
194,48 + z- =p
I 24 \ 24
205, 52 = (1194,48 + z -— = j + z - —
24
11, 04 = 2-z-
10
z = 2,3
Assim:
24
194,48 + 2,3 - = p = 200
o
2 'z '~^
Ora, você não vai somar e diminuir este valor da média a fim de encontrar o
intervalo de confiança? Então, a amplitude será dada por duas vezes este valor,
pois este valor será acrescentado a este intervalo do lado esquerdo e direito. Assim:
a 24
2 'z ' = 2 ' 2 ,3 ' = 9 ,2
Alternativa (b).
Exercício 25
X f
mais de 0 a 10 22
mais de 10 a 20 13
mais de 20 a 30 10
mais de 30 a 40 3
mais de 40 a 50 2
Resolução
Bom, vamos refazer a tabela com base nos respectivos pontos médios:
x f f(%)
5 22 0,44
15 13 0,26
25 10 0,2
35 3 0,06
45 2 0,04
Alternativa (b).
Exercício 25
Resolução
É fácil verificar que a mediana está na segunda classe, dado que a primeira
acumula 44% das observações e a segunda 26%. Portanto, precisamos de 6% da
segunda classe para completarmos o acumulado de 50% das observações, que é a
própria mediana.
Bom, como sempre, uma simples regra de três, a segunda classe tem 26% das
observações com uma amplitude de 10 observações, tal como 6% das observações
está para x:
26 6
= ^ 2 6x = 60 ^ x = 2, 3
10 x
10 + 2, 3 = 12,3
Alternativa (d).
Exercício 26
Resolução
{fi - a) 2
V a ri â n cia (X ) = —
Alternativa (a).
Exercício 1
Determine o valor de “ A” .
Exercício 2
Exercício 3
Encontre a esperança de .
Exercício 4
Exercício 5
(MTUR - ESAF/2014) Dois eventos A e B são tais que: P(A) = 0,25; P(B/A) = 0,5;
P(A/B) = 0,25. Assim, pode-se afirmar que:
a) A e B são eventos dependentes.
b) P(B) = 0,5 e os eventos são mutuamente exclusivos.
c) P(B) = 0,25 e os eventos são independentes.
d) P(B) = 0,5 e os eventos são independentes.
e) P(ADB) = 0 e os eventos são independentes.
Exercício 6
Exercício 7
Exercício 8
Exercício 9
Exercício 10
ê INDO
Tnais fundo Exercício 11
Exercício 12
Exercício 13
Exercício 14
Exercício 15
Exercício 16
Exercício 17
Exercício 18
Exercício 19
Exercício 20
Exercício 21
3 .0 0 0 ,0 0 I---------- 4 .0 0 0 ,0 0 V
4 .0 0 0 ,0 0 I---------- 5 .0 0 0 ,0 0 0,2 0
5 .0 0 0 ,0 0 I---------- 6 .0 0 0 ,0 0 0,1 0
T otal 1,00
Exercício 22
Exercício 23
Exercício 24
Exercício 25
X f
mais de 0 a 10 22
mais de 10 a 20 13
mais de 20 a 30 10
mais de 30 a 40 3
mais de 40 a 50 2
Exercício 25
Exercício 26
Gabarito
5- d
6- b
7- d
8- d
9- d
10 - e
11 - b
12 - c
13 - a
14 - b
15 - a
16 - d
17 - C
18 - E
19 - C (?)
20 - e
21 - d
22 - c
23 - b
24 - b
25 - b
26 - d
27 - a
jeronymo@estrategiaconcursos.com.br
SUMÁRIO PÁGINA
Introdução à inferência estatística 2
Amostragem e estimador 2
Variância de estimadores 9
Consistência e distribuição amostral 13
Estimador de Máxima Verossimilhança 15
Lista de Exercícios resolvidos em aula 38
Gabarito 47
O que vamos estudar nesta aula é saber se nossa amostra traz evidência de que
uma determinada hipótese seja verdadeira. Complicado? Não é não! Você só vai ter
que se lembrar de alguns conceitos de nossa aula 00 e estudar um pouquinho sobre
inferência primeiro.
Dica de um concurseiro
O exemplo mais clássico é o da cozinheira que prova uma colher do seu preparo a
fim de determinar se o mesmo está muito salgado. Ora, a colher que ela
experimentou é só uma parte de seu cozido, mas, com base nesta amostra, ela irá
inferir como está toda a panela.
Entendeu? Ela não precisa provar a panela toda para tirar suas conclusões, ela irá
se basear somente em parte dela, isso é inferência! Na estatística é a mesma coisa,
muitas vezes não temos dados sobre toda uma população, mas precisamos tirar
conclusões a respeito da mesma, assim necessitaremos de inferência estatística.
Isso é comum no dia a dia de um pesquisador!
Há diversas formas de obter uma amostra com base em uma extração de elementos
de uma população. Tais métodos têm muitas particularidades e formalismos que
vão além do escopo deste curso. Porém, precisamos saber alguns dos métodos
mais conhecidos em amostragem. Vamos a eles!
Agora, vamos tratar de um caso muito parecido com o anterior. Neste caso, a AAS
será aplicada sobre os subgrupos e não mais sobre os indivíduos da
população.
Por exemplo, suponha que há diversos bairros em uma cidade com variabilidade
interna significativa, mas bastante semelhantes entre si. Neste caso, "sortearíamos”
alguns destes bairros como "amostras” da população total. Você está realizando a
amostragem sobre conglomerados, entende? Segue-se, então, uma análise de
todos os indivíduos nos conglomerados escolhidos.
Amostragem Sistemática
Nessa técnica supõe-se que temos uma listagem das unidades populacionais. Para
um valor k fixado, sorteamos um elemento entre os k primeiros da listagem. Depois
observamos, sistematicamente, indivíduos separados por k unidades. Por exemplo,
se k = 10 e sorteamos o oitavo elemento, observamos depois o décimo oitavo, o
vigésimo oitavo, etc.
Neste caso, o pesquisador só realiza amostragem com os casos que ele tem a sua
disposição. Assim, acaba-se por realizar uma pesquisa com somente uma parcela
da população, o que pode, inclusive, gerar vieses em sua conclusão. Não é possível
generalizar os resultados encontrados para a população, contudo este tipo de
amostragem pode ser útil no início de uma pesquisa, testar questionários, por
exemplo.
Amostragem Intencional
Ex-
M édia = 6 = -
n
Porém, raramente isso ocorre, pois quase nunca temos toda a população, mas
somente uma amostra. Nesse caso, a média calculada com base na amostra seria
um estimador do parâmetro populacional. Assim:
2x-
M édia = 0 = -
a
Se eu digo para vocês que um estimador não é viesado, eu estou dizendo que, na
média, ele “acerta”, ou seja, dá o valor “real” do parâmetro. Ou seja:
E(estimador) = parâmetro
INDO
mais fundo
Esperança matemática é um conceito intimamente relacionado com a média
aritmética. No caso, para um dado conjunto de valores (X) que vai de X1 a Xn,
sua esperança é dada por:
E {X )= X 1 - f 1 + X 2 - f 2 ...Xn -fn
Sendo f t a frequência relativa de Xt.
E(0) = 0
Só que agora o buraco é mais embaixo! A estatística que aprendemos para calcular
a variância de uma população é dada por:
_ 2(xj-x)2
Variancia = =
n
E, por consequência:
2 (x j - x ) 2
Desvio Padrão = a = I
n
E(â2) * a 2
E:
£(<r) ^ a
-“Isso quer dizer que aquela fórmula não nos dá uma estatística não viesada
quando aplicada à amostra”?
Precisamente!
Olha pessoal, não vou ficar fazendo demonstração de cada uma destas afirmações
porque isso não é importante para seu concurso! Se vocês quiserem saber como se
faz, a título de curiosidade, eu indico bibliografias para vocês.
Assim, pode-se provar que, para obtermos estimadores não viesados para a
variância e desvio padrão amostrais, devemos nos utilizar das seguintes
estatísticas:
- x) 2
Vari ãncia = S2
n —1
I(Xj - x) 2
Desvio Padrão = S =
n —1
-“A única diferença é que o denominador deixa de ser (n) e passa a ser ( n -
1)”?
Exato!
Apesar de estas não serem as únicas estatísticas que podem ser avaliadas em
termos da comparação parâmetro\estimador, para fins de concurso, estas são as
mais cobradas.
Pense comigo, não basta que um estimador acerte na média, mas também é
desejável que os seus resultados apresentem baixa variância ao redor do valor
populacional que se esta tentando estimar.
Perceba que o segundo gráfico tem alguns valores que praticamente "acertam” o
valor populacional, mas o mesmo apresenta grande variabilidade. Ou seja, o
segundo estimador tem maior variância.
O ideal seria que nosso estimador não viesado tivesse a menor variância dentre
todos os estimadores não viesados. Este é o conceito de estimador
absolutamente eficiente.
Entendeu? Isso é muito importante na hora de decidirmos qual estimador usar. Você
não precisa conhecer a variância de todos os tipos de estimadores possíveis (até
porque são infinitos), mas esta é uma forma importante de avaliarmos o quanto um
estimador é "bom”. Podemos comparar a eficiência de alguns estimadores não
viesados por meio de análise de suas variâncias.
Um ponto importante! Como foi dito, vocês não precisam conhecer as propriedades
de uma infinidade de estimadores, podendo compará-los no caso concreto diante de
vocês. Entretanto, há um estimador importante em termos de prova: o estimador
da média amostrai. Com base neste estimador, vocês vão ver, podemos chegar a
várias conclusões importantes que podem ser estendidas a qualquer distribuição
de probabilidade.
Então, vamos aprofundar nosso estudo sobre o estimador da média amostral. Pode-
se provar que:
,2
Não é possível responder isso a não ser se comparamos a variância deste último
com a variância de todos os estimadores não viesados possíveis da média
populacional. Pode-se demonstrar, entretanto, que, quando a variável para a qual
está sendo calculada a média seguir uma distribuição normal, a média amostral é
um estimador eficiente da média populacional.
É fácil perceber que o nosso estimador 0 é assintoticamente não viesado, pois ele
não é viesado! Entretanto, a recíproca não é verdadeira, pois há vários estimadores
que são viesados e assintoticamente não viesados. Assim:
lim n^ mE{0 ) = 0
Para quem não é da área de exatas, o que esta simbologia está dizendo é que, no
limite, quando a amostra tende ao infinito (n ^ o ), a esperança da média amostral é
igual à média populacional.
lim n^ mE{Ô ) = d
Um teorema importante que trata sobre o nosso caso concreto da média amostral
define que, dada uma variável X, é possível demonstrar que a sua média amostral,
X, assumirá uma distribuição normal conforme a amostra aumenta. Este é o famoso
Teorema do Limite Central (TLC).
decore!
Antes de começarmos, preciso ensinar mais uma coisinha sobre cálculo diferencial.
Bom, o porquê de tudo isso é ensinar a vocês como encontrar o ponto máximo ou
mínimo de uma função, isso é, um ponto extremo.1
Como você encontra um ponto extremo de uma função? Simples! Derive a função
(você já aprendeu) e iguale a zero. Por exemplo, suponha a função:
/(x ) = x 2 + x
1 Para quem entende de matemática, saiba que estamos tratando de pontos extremos locais e não
globais. É só uma introdução mesmo.
d f(x ) = 2x + 1
1
d f(x ) = 0 ^ 2 x + 1 = 0 ^ x = —2
Retornando.
Então, como funciona? Você tem uma amostra de valores obtidos de uma
população que, por hipótese, você conhece a distribuição de probabilidade (ou pelo
menos supõe que seja desta forma). Com base nestas informações, o estimador
MLE irá lhe fornecer os parâmetros desta distribuição de probabilidade que
maximizam a chance de que esta amostra realmente siga esta distribuição!
Fica difícil visualizar sem um exemplo. Vamos supor que uma amostra X (X =
x1,x2 ...xn) siga uma distribuição normal, com média e variância desconhecidas.
Vamos determinar os estimadores MLE para a média e variância desta amostra.
Olha, a média (^) e a variância (<r2) são os parâmetros que compõem a forma
funcional desta distribuição, dada por:
1
L(p,o2;Xi) =
( 2no2) 2
Rearranjando a expressão:
É isso aí! Você tem uma amostra e uma função de distribuição, no nosso
exemplo a Normal. O que nós vamos fazer é, para dados valores de xu vamos
encontrar os valores de média e variância que maximizam a probabilidade que
tal amostra siga esta distribuição! Como se faz isso? Derive em função dos
parâmetros e iguale o resultado a zero! Não se preocupe, você não precisa
saber se o ponto é de máximo ou mínimo, a banca fará a questão de forma a
sempre ser um ponto extremo de máximo local!
E a variância?
Opa! Mas, este não é o estimador de variância amostral já conhecido por vocês da
aula de Estatística. O denominador deve ser n - 1, caso contrário o mesmo será
viesado! Portanto, o estimador MLE para a variância é viesado!
Viram? O estimador MLE nem sempre é não viesado! Mas, o mesmo tem
propriedades úteis, como:
1) É consistente
2) Sua distribuição converge para a normal conforme a amostra tende ao
infinito (assintoticamente normal)
3) O estimador tende a ser eficiente conforme a amostra tende ao infinito
(assintoticamente eficiente)
Ou seja, é a própria proporção deste elemento na amostra como um todo, tal como
no caso da média!
Simples não? É claro que não! Esta aula é muito complexa. Faça um favor a
você, releia o conteúdo mais de uma vez! Vamos aos exercícios.
Exercício 1
Resolução
, 2(Xj - x )2
Vari ancia = S =
n -1
2+3+1+4+5+3 18
M édia = 3
6 ~6~
plicando:
( 2 - 3) 2 + (3 - 3) 2 + ( 1 - 3) 2 + (4 - 3) 2 + (5 - 3) 2 + (3 - 3) 2 _ 10
= 2
5 ~~s
Alternativa (b).
Exercício 2
S=
Resolução
Alternativa (c).
Exercício 3
Resolução
S=
Alternativa (e).
(SEFAZ\RJ - FGV/2010 - alterada) Com base em uma variável (X) que segue
uma distribuição normal de média 15 e desvio padrão (o-) 2, com uma amostra
de 36 elementos, julgue as afirmativas.
Exercício 4
Resolução
Quando uma variável tem distribuição normal, sua média aritmética tem distribuição
exata normal. Alternativa correta.
Exercício 5
Resolução
Exercício 6
Resolução
Variância =
n
Portanto:
a
Desvio Padrão =
yn
Substituindo os valores:
o
a 2 2 1
Desvio Padrão =
Vn V36" 6 3
Alternativa verdadeira.
Exercício 7
Resolução
Alternativa (a).
Exercício 8
a) Eficiente
b) Não viesado
c) Consistente
d) De Mínimos Quadrados
e) De Máxima Verossimilhança
Resolução
Alternativa (b).
Exercício 9
Resolução
Alternativa correta, pois, dado que ambos são não tendenciosos, o que tiver menor
variância será "mais eficiente”.
Exercício 10
Resolução
Alternativa verdadeira.
Exercício 11
Resolução
Como nós vimos na aula, um estimador não viesado é consistente, mas a recíproca
não é verdadeira.
Alternativa falsa.
Exercício 12
Animal Efetivo
Asininos 80
Bovinos 300
Caprinos 120
Equinos 150
Suínos 250
Resolução
550 _ 11
900 _ 18
Aproximadamente 9.
Alternativa (e).
Exercício 13
Resolução
Alternativa (c).
(SEDUC-AM - 2011\CESPE)
Exercício 14
Resolução
Exercício 15
Resolução
Alternativa errada. Como há um número par de elementos em cada uma das turmas
(30 alunos), a mediana será uma média aritmética entre a 15â e 16â nota.
Exercício 16
Resolução
Alternativa errada. Tal como vimos na aula 01, nestes casos é útil usarmos o
conceito de coeficiente de variação, pois a variância é afetada pelos valores
absolutos dos dados analisados. Com base no coeficiente de variação aí sim
poderiamos usar o valor do desvio padrão para afirmar que uma turma tem notas
mais homogêneas do que a outra.
Exercício 17
O erro padrão da média das notas dos alunos da turma A foi superior a 0,40.
Resolução
Bom pessoal, vocês conhecem o estimador do desvio padrão da média amostral (s):
Quando você ouvir “erro padrão”, pense em desvio padrão. A diferença é que
erro padrão” é o caso no qual não temos o valor do desvio padrão
populacional, assim, usamos o desvio padrão amostrai. Assim:
V4 2
Alternativa errada.
INDO
^Jrrnais fundo „ . x .
Bom, vamos pegar mais pesado? Vamos estudar um
pouquinho como se acha a esperança de um determinado estimador, pois aí
poderemos provar se um determinado é ou não viesado. Isso não costuma
cair em provas que não são mais específicas, mas vale a pena saber por cima.
Acompanhem a questão seguinte comigo.
Exercício 18
Resolução
Então, vamos ver a nossa fórmula de média aritmética amostral para estimarmos
uma média populacional (^):
X i + X2 + ■ " + Xn
M édia = X =
X1 + X2 + ■" + Xn
O valor n é constante, portanto sua esperança é igual ao seu próprio valor. Portanto,
vamos tirá-lo do parêntese e aplicar nossa propriedade:
1 1
x= E(X1 + X 2 + - + Xn) = [E(X1) + E ( X 2) + - + E(Xn)]
n n
1 np
X = + ------= p
Exercício 19
Resolução
Alternativa errada. Um estimador é dito não tendencioso, que é a mesma coisa que
"não viesado”, se sua média for igual ao parâmetro populacional.
Exercício 20
Resolução
Alternativa verdadeira. Pois, este pode não apresentar a menor variância possível
na classe de estimadores que está sendo comparado.
Exercício 21
Resolução
Exercício 22
Resolução
Exercício 23
Resolução
Correto. Dado que cada estrato escolhido é uma parte da amostra total, a média da
população deve ser calculada de forma a ser uma média ponderada, levando-se em
conta o "tamanho” de cada parcela desta amostra. Porém, caso a amostragem
seja uniforme, uma média aritmética simples funciona, dado que todas tem o
mesmo tamanho.
Exercício 24
Resolução
Alternativa (e).
Exercício 1
Exercício 2
S=
Exercício 3
(SEFAZ\RJ - FGV/2010 - alterada) Com base em uma variável (X) que segue
uma distribuição normal de média 15 e desvio padrão (o-) 2, com uma amostra
de 36 elementos, julgue as afirmativas.
Exercício 4
Exercício 5
Exercício 6
Exercício 7
Exercício 8
a) Eficiente
b) Não viesado
c) Consistente
d) De Mínimos Quadrados
e) De Máxima Verossimilhança
Exercício 9
Exercício 10
Exercício 11
Exercício 12
Animal Efetivo
Asininos 80
Bovinos 300
Caprinos 120
Equinos 150
Suínos 250
Exercício 13
(SEDUC-AM - 2011\CESPE)
Exercício 14
Exercício 15
Exercício 16
Exercício 17
O erro padrão da média das notas dos alunos da turma A foi superior a 0,40.
Exercício 18
Exercício 19
Exercício 20
Exercício 21
Exercício 22
Exercício 23
Exercício 24
Gabarito
1- b
2- c
3- e
4- V
5- F
6- V
7- a
8- b
9- V
10- V
11 -F
12- e
13- c
14- V
15- F
16- F
17- F
18- F
19- F
20- V
21- V
22- F
23- V
24- e
SUMÁRIO PÁGINA
Testes de Hipóteses e Intervalo de Confiança 1
Teste para a variância 33
Poder de um teste e o p-valor 37
Teste para proporções 41
Lista de Exercícios resolvidos em aula 58
Gabarito 71
Mais uma etapa que vocês devem enfrentar se quiserem trabalhar na Receita
Federal: testes de hipóteses. Última vez, força na peruca!
Suponha que uma pessoa tenha visto sua pesquisa sobre a altura média das
pessoas que vivem em um determinado território e faça a seguinte afirmação:
-"A média de altura dos indivíduos que vivem naquela região é de 1,70m”!
Há como testar se a sua amostra dá Euporte a essa afirmação? Sim, por meio do
teste de hipótese!
A forma de testar quais valores seriam condizentes com a nossa amostra exige
conhecimento da distribuição de probabilidades de nossa amostra!
Assim, é muito provável que a nossa distribuição da variável "média de altura” seja
algo semelhante à:
No nosso caso, podemos dizer com toda certeza que, se a nossa amostra for
suficientemente grande, a variável em estudo tem distribuição normal, isso é feito
com base no Teorema do Limite Central.
Em termos bem sim ples, o Teorema do Limite Central (TLC) afirma que,
para uma dada variável X, com média p e desvio padrão o 2, sua respectiva
média amostral (X) convergirá para uma distribuição normal, com média p
2
e variância —,
n conforme a amostra tende para o infinito, sendo n o tamanho
da amostra.
Entendeu o que isso quer dizer? Para qualquer variável (desde que suas
observações sejam independentes), podemos afirmar que a distribuição de sua
média amostral será gaussiana para amostras suficientemente grandes. Esse
teorema é incrivelmente poderoso, pois podemos nos basear nele para garantir que
a nossa avaliação de médias baseie-se na distribuição normal, que é fácil de ser
analisada.
-“ Por que é fácil analisar uma variável que tenha distribuição normal” ?
Pelo seguinte meu querido aluno, nós podemos padronizar qualquer variável com
distribuição normal de forma que sua média seja sempre igual à zero e seu desvio
padrão igual à 1 por meio da seguinte operação:
X -p
z=
o
X -p
z=
Sendo a variável (z) uma padronização da nossa média amostral (X) por meio da
diminuição da mesma de sua média e divisão pelo seu respectivo desvio padrão.
Essa operação garante que a variável (z) terá uma distribuição normal com média
igual a zero e variância igual a 1.
Calma, você vai entender agora! A questão é que a normal padrão, que é obtida
pela transformação de uma variável em seu respectivo valor (z), tem uma
“ tabelinha mágica” que nos diz a probabilidade de que o valor encontrado (z
calculado) esteja entre 0 (zero) e um p eterminado valor a ser especificado!
Exercício 1
(Elaborado pelo autor) Suponha que a seguinte amostra de alturas tenha sido
retirada da população:
Resolução
O que temos de fazer aqui é bem simples. Vamos calcular o valor (z) para o nosso
exemplo. Para isso precisamos encontrar os valores da média com base em nossa
amostra. Calcule a média que você vai chegar a:
X = Média = 1, 762
Agora, temos de encontrar o valor (z) com vistas a definir a probabilidade de que
esta média calculada esteja no intervalo definido pela normal padrão (pois, pelo
TLC, sabemos que a média amostral converge em distribuição para uma
gaussiana). Assim, fica fácil, pois basta substituir na "fórmula” de padronização:
Portanto:
1,762 - 1,70
(O .)
W 1Õ/
*0 0 i 2 3 4 5 6 7 8 9
0,0 0,0000 0.0040 0,0080 0,0120 0,0160 0,0! 99 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,07)4 0,0753
0.2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0.159I 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0* 1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0.7 0.2500 0,2611 0,2642 0,2673 0,2703 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0.21581 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3338 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1.1 0.3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3388 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997' 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0.4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0.4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0.4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0.4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0.4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,49)6 0,4920 0.4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2.5 0.4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0.4953 0,4955 0,4956 0,4957 0,4959 0.4960 0,4961 0,4962 0,4963 0,4964
2,7 (i,4%5 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4967 0,1977 0,4977 0,4978. 0,4979 0,4979 0,4980 0,4981
2.9 0,1981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3,0 0.49B7 0,4987 0.4987 0,4988 0;4988 0,4989 0,4989 0,4989 0,4990 0,4990
3,1 0,4990 0,4991 0,4991 0,4991 0,4992 0,4992 0,4992 0,4992 0,4993 0,4993
3.2 0,1993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 0,4995 0,4995
3,3 0.4995 0,4995 0,4995 0,4996 0,4996 0,4996 0,4996 0,4996 0.4996 0,4997
3,4 0,4997 0,4997 0,4997 0,4997 0,4997 0.4997 0,4997 0,4997 0,4997 0,4998
3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998
3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,7 0,4999 0,4999 0,4999 0,4999 0,4909 0,4999 0,4999 0,4999 0,4999 0,4999
3,8 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,9 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000
ÍB 0 < 2 3 4 3 * 7 H 9
0.0 0,0000 0,00+0 c.o m 0,0 )2 0 0,0160 0 ,0 í 99 0.0239 0,02)9 0,0219 0,0350
o.l 0.0308 0,0138 0,0+78 0,0517 0.055? 0,0596 0.0636 0,0675 0,0714 c .o f tà
0.2 0,0293 0.0832 0.O&T1 0,0 9 )0 0,09+8 0,0982 0.1026 0,10*4 0,1103 0,1141
0,1 0,1 179 0,171-7 □.1755 0,1293 0,1131 0 , 1366 0.1406 0.1443 0,1+80 0,1317
(M O .fM l 0,1591 0,1638 0,1664 0,1 W 0,1736 0,1772 0.1003 0.1 B+4 0 ,i8 ? 9
□,5 0'.1915 0,1950 0,1985 0.2019 0,2054 0,2066 0.2123 O .Z Ii? 0.2190 0.222+
O.f. 0.2257 0.Í2S1 0.2324 0.2357 0,2380 0,2422 0,2+54 0.2+36 0.2317 0,2549
0,? 0.2580 0.2811 0 ,2 6 1 í 0,2 6 ? ) 0,2703 0,273+ 0.276+ 0.Z794 0.2821 0,2052
0.8 u ,:u a t 0,2910 0,1930 0,2967 0,2905 0,1023 0.3051 0.3073 0.3106 0.1131
0,8 0.1158 0.3188 0.3212 0,3238 0,1264 0,3283 0.3315 0,33+0 0.1165 0.3389
1,0 0,1+13 0.3 )38 0,3461 0.3463 0,3508 0,3531 0,1554 0.3577 0.35D9 0.1621
U O .Jij+ l 0.3865 0,3660 n ,i? o * 0,3729 0,17+9 0,3778 0,3790 0.3010 0,3830
].! 0.3B+9 0J869 0.3868 0.39N? 0,1923 0,394 + 0,3962 0,3980 0,3997 0.40)3
1,1 0.4012 0,4 0(5 0,4060 0,4002 0,1099 0 ,4 1 15 8,4131 0,41+7 0.416? 0,4177
1,4 o,+ m 0.4207 0,4772 0.4236 0,4251 0.4265 0,4279 0,4292 0,4306 0.(1 1 9
0 ,+ líÍ 0.43+5 0,435? 0,4 370 0,4382 0 .0 9 4 0,4406 0,4413 0.1429 0.4441
1J
LO 0.4452 0,4+03 0,447+ 0.4484 0,4495 0.4595 0,4513 0.4523 0.(5 3 5 0.4545
1,7 0,4554 0.+564 0,4 573 0,4582 0,4 591 0.4599 0.4008 0,4 61 $ 0.4625 0,4633
i ,b O.+G+l 0.40+9 0,4656 0,460+ 0,4671 0.4678 0,4086 0,1693 0,1699 0,4)06
m (1,4713 0,4719 0.47J6 0,4 732 0,4738 0,4 )4 4 0,4750 0 .(7 3 * 0,4761 nv+)ET
2,0 0,1?TÍ 0.4 778 0,4 763 0,4 7K0 li,4 793 0,4798 0,4883 0,4803 0,4012 0,4817
5,1 0.4B2! 0.4826 0.4 830 0,4834 0,4818 0,4847 0.1846 0,4850 0,4851 0,4857
2,2 0.+JU3I 0,+3Q1 0,4868 0,4871 0,4875 o ,i m 0.4881 0,(03+ 0.4887 0.4W9Ü
2,3 0,10113 o.+eiK 0,48911 0,4901 0.+W4 0,490* 0,4909 0.(911 0.4913 0.4916
2,4 0.4910 0.4020 O.40JÍ 0,4975 0,4027 0,1979 0,4931 0,1932 0.(934 0,4936
2.5 0,41)30 0,4940 0.49+1 0,49+3 0,4945 0,+9+G 0,19+8 0.4949 0,4951 0,1952
2.8 0.(953 0,4915 0,4958 0,4957 0.4959 0,494» 0,4961 0.4962 0.4963 0,1961
?.) 0.(965 0,4966 0.4967 0,4968 0,4969 0,4970 0,4971 0.4972 0,4971 0.4974
0.(17 74 0,4975 0.4967 0,497? 0,491? 0,4976 0,1979 0.4978 0.4900 0.4981
5.»
2,9 U.+HBt 0.49P2 0.4962 0.4 963 0.1984 0,4984 0.4965 0.4985 0.4006 0.4986
3.0 C.49W 0,4967 0.(957 0,4 968 0;(90& 0,4989 0,(9 0 9 0.(989 0,(9 9 0 0.499o
0 .4 9 M 0,4901 0.4991 0,4901 0.4992 0,4992 0,499? 0.4992 0.4991 0,4993
1,!
3.2 0,4993 0,1993 0.+99I 0,4954 R - 0,4994 0,4994 0.4991 0,(995 0.4995
0,4995 0,4995 0,4995 0,4 S1* 0,4996 0,4996 0,1996 0,4996 0,4996 0.439?
v 0,4997 0,(99? 0.4997 0,499? 0,4997 0,4997 0,4992 0,4997 0,4997 0.4998
0,4958 0,4908 0.+998 0,4999 0,4996 0,4996 Q.I99S 0.1S98 0.1998 0,4998
3,5
3.6 0.+9SB 0,1908 0.4909 0.4 599 0,4999 0,4999 0,4999 0.4999 0.4999 0,4999
3,7 0 ,(3 M 0,(999 0,4999 0,4999 0.4999 0,4999 0.4999 0,4990 0.4999 0.+999
?.B 0,4999 0,1999 0.4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,(999 0,4939
0.1000 0,5000 0,5000 0,5000 0.5000 0.5000 O .lü W 0.1000 0,5000 0.5000
3.9
'i
"T "— í—
Isso mesmo! O que estamos vendo é qual a probabilidade de que o valor calculado
esteja no intervalo amarelo abaixo:
P (l, 70 < m édia am ostrai < 1,762) = P(0 < z < í , 96) = 0,475 = 47,5%
Assim:
P (l, 638 < média am ostrai < 1,762) = P (—l, 96 < z < 1,96)
Como a distribuição normal é simétrica, uma mesma distância com relação à origem
(z = 0) corresponde à mesma probabilidade de ocorrência, seja à esquerda ou
direita. Assim, fica fácil perceber que a probabilidade de ocorrência do evento acima
é igual a 2 (duas) vezes a chance de ocorrência de um dos dois isoladamente!
Analiticamente:
P ( - 1,96 < z < 1,96) = P ( - 1,96 < z < 0 ) + P ( 0 < z < 1,96)
Portanto:
Com base no que sabemos já somos capazes de testar hipóteses. A primeira coisa
que temos de estipular é “o que é muita coincidência”.
Veja, no exemplo anterior encontramos que 95% das vezes em que realizarmos
uma amostragem com base em nossa população, nosso valor de média amostral se
encontrará dentro daquele intervalo (1,638 < m édia amostrai < 1,762).
Mas, o que estes 95% querem dizer? Será que esse intervalo é “muito” ou “pouco”
provável? Ora, você já deve ter percebido onde quero chegar. Existe uma
arbitrariedade envolvida na definição do que é provável ou não!
Veja, no nosso exemplo, 95% das vezes os valores encontrados para a média
amostral estarão dentro daquele intervalo. Aí é que entra a definição de
significância de um teste:
Mas, com base nos nossos cálculos, encontramos que aquele intervalo ocorre
em 95% das vezes, assim aceitaríamos a hipótese de que aquela amostra foi
retirada da população em estudo!
Exercício 2
Resolução
Ora, o exercício já está te dando o valor (z), haja vista a informação de que o nível
de confiança é de 95%! Olhando a tabela você verá que o valor de (0,47 5), que é a
metade de (0,9 5), corresponde ao número 1,96. Colocando na "fórmula”:
—u 23,2 —
^ ± 1,96 - =-
& ) C / 1ÕÕ
Você entende porque estamos lidando com 1,96 em valores positivos e negativos?
Isso porque queremos encontrar um intervalo de confiança para a média
populacional, ou seja, o quanto ela pode variar positivamente ou negativamente, de
forma a observarmos a parte esquerda e direita da curva! Olhem o desenho abaixo
que vocês entenderão:
Assim, precisamos encontrar o valor "máximo” e "mínimo” que são possíveis para a
média populacional, dadas as informações que temos.
Assim:
23,2 —u
1,96 = Õ 5 ^ 2 3 , 2 —^ = 0,98
23,2 —u
-1 9 6 = — ^ 2 3 , 2 - ^ = -0 ,9 8
Este valor (0,98) é chamado de “ margem de erro” . Isso mesmo! É aquele valor
que os jornais costumam falar quando tratam de campanhas eleitorais. Em nosso
exemplo, o que esta margem de erro está nos dizendo é que a média populacional
IC = [22,22;2 4, 18]
Alternativa (a).
Exercício 3
Resolução
Questão bem difícil! Tem que pensar! Veja o raciocínio que você tem de fazer:
A média amostral não é difícil de ser calculada, pois já aprendemos isso em aulas
anteriores:
_ 660 - 600
Zsuperior ~ 200
V iõõ
_ 540 - 600
Zinferior ~ 200
Vioo
600
n = 225
Alternativa (a).
Retornando à aula!
Bom, a primeira coisa que você vai fazer é determinar qual hipótese você está
testando. Por exemplo, se alguém faz afirmações sobre o valor de um determinado
parâmetro 0, é feita a seguinte hipótese nula (H0):
Este é o nosso exemplo da altura dos indivíduos, a hipótese nula afirma que a
média de altura dos mesmos é igual à 1,70m.
Mas, toda hipótese científica tem uma "alternativa”, que é o caso quando o que
estamos afirmando não é verdade. Esta hipótese alternativa (H-J pode assumir as
seguintes formas:
H^. 6 ^ 6 o
Hi'. 0 < 0O
Ou seja, poderiamos concluir que o parâmetro em estudo não é igual ao valor sob
hipótese nula por se tratar de um valor diferente do mesmo, menor, ou maior,
respectivamente!
Assim, a nossa hipótese nula seria sempre uma igualdade e teria como alternativa
um destes casos, sendo que o primeiro necessitaria de uma análise bicaudal,
enquanto que o segundo e terceiro seriam monocaudais.
Com efeito, isso está intimamente relacionado com o que já estudamos sobre
"probabilidades monocaudais” e "bicaudais”. A ideia aqui seria criar um intervalo de
confiança para o valor testado, se o mesmo não estivesse contido neste,
rejeitaríamos a hipótese nula.
Assim, no caso do nosso exemplo de altura dos indivíduos, como nós concluímos
que 1,70m encontra-se dentro do intervalo de confiança calculado a 95% de
confiança, podemos afirmar que a afirmação é verdadeira.
Vamos fazer uns exercícios para entender! Faça este primeiro junto comigo,
ok?
Exercício 4
Seja uma variável aleatória X, com média p e desvio padrão igual à 5. A partir
de uma amostra aleatória de 16 elementos, observou-se uma média amostral
de valor 13. Uma pessoa afirmou que a média populacional dos elementos é
igual a 15, com 5% de significância. Essa afirmação mostrou-se como
verdadeira.
Resolução
Hq-. p = 1 5
Hp. p ^ 15
X -p
õ
Vn
Assim:
X. —p 13 —p
Z=~ ^ = 5
Vn 4
1 3 —u
^ = 1 ,96 ^ 1 3 - ^ = 2,45
4
13 —u
5 = - 1,96 ^ 1 3 - ^ = -2 ,4 5
4
r 1 INDO
mais fundo Outra forma de resolver o exercício é calculando a estatística
de teste como se a hipótese fosse verdadeira e vendo se o z calculado está dentro
do intervalo previsto para a variável padronizada.
X -u 13-1 5
z= ê = 5 = - 1 .6 0
Vn 4
Como seria o intervalo de confiança para os valores padronizados? Este seria dado
pelos valores de z que fazem com que 95% da amostra esteja em seu intervalo, ou
seja:
IC = [ - 1,96; 1,96]
Alternativa correta.
Para que vocês aprendam o uso de testes monocaudais, vamos refazer o exercício
com uma pequena modificação!
Exercício 5
Seja uma variável aleatória X, com média p e desvio padrão igual à 5. A partir
de uma amostra aleatória de 16 elementos, observou-se uma média amostral
de valor 13. Uma pessoa afirmou que a média populacional dos elementos é
de, no mínimo, 15, com 5% de significância. Essa afirmação mostrou-se como
verdadeira.
Resolução
Hq-. p = 1 5
H^. p < 15
Bom, pelas nossas hipóteses, o valor nunca será superior a 15, portanto só
precisamos olhar o lado esquerdo da distribuição normal padronizada. Vamos testar
se a amostra com média igual à 13 é compatível com a afirmação do indivíduo.
Esqueça o lado direito! Vamos só testar se a média é menor do que 15 (ou menor
do que 0 (zero) na versão padronizada)! Neste caso, só faríamos o cálculo para a
cauda superior:
X -l5
- l, 65 ^ X - l 5 = - 2,06
5
4
p = 12,94
/C95o/o = [ l 2,94;+oo]
Ou seja, o limite superior vai até “infinito”, cobrindo todas a possibilidades, havendo,
tão somente, um limite mínimo!
Mais um exercício?
Exercício 6
a) 50%
b) 39%
c) 23%
d) 16%
e) 11%
Resolução
Outra questão que exige um pouco mais de raciocínio! Atente-se que, neste caso,
não estamos testando uma média, mas uma variável com distribuição normal.
Assim, na padronização basta utilizarmos o desvio padrão em nível (sem dividi-lo
pelo tamanho da amostra, como no caso da média).
Vamos encontrar o valor normalizado para o caso de uma situação líquida nula
(X = 0):
Ou seja:
Ora, toda a figura tem probabilidade igual a 1 , certo? Então, como a distribuição é
simétrica, cada "lado do sino” tem probabilidade de ocorrência igual a 0,5! Assim, a
probabilidade da parte vermelha é:
Alternativa (e).
Até agora tratamos do caso em que queremos testar um possível valor de média
populacional, dadas informações sobre uma média calculada com base na amostra
e na variância populacional.
Mas, isso não é estranho? Se você não tem a média populacional, porque teria a
variância? O que nós costumamos ter é a variância amostral.
X -p
“X "
yfn
Desvio Padrão = 5 = 1 -
n -1
-4 -2 0 2 4
Assim, pode-se dizer que a expressão acima segue uma distribuição t de Student
com (n - 1) graus de liberdade. Analiticamente:
X -p
yfã
Olhe pessoal, isso é um pouco mais avançado e desnecessário para seu concurso,
portanto decore que o grau de liberdade associado a uma estatística t de Student é
igual ao tamanho da amostra em questão menos uma unidade. Você precisará
deste valor para consultar a tabela, como vocês podem ver abaixo:
Não se preocupe, a banca vai disponibilizar os valores das tabelas, você só tem que
aprender como usá-las!
Exercício 7
Resolução
to = —1, 75
Confira com o valor da tabela, assim você aprende a usá-la caso seja necessário.
IC = [ - 1, 75;oo]
0,9 - 1 - 0, 1
0, 2 0, 05
VTô
Veja que este valor não está no intervalo de confiança, superando o valor
crítico inferior do intervalo. Portanto rejeitamos a hipótese nula!
Alternativa (b).
Vamos fazer mais alguns exercícios! Agora vamos dar uma generalizada!
Exercício 8
Resolução
Para calcularmos esta estatística devemos nos atentar à palavra "amostra”. Perceba
que, neste caso, a variância deve ser calculada com base na seguinte estatística:
_ 2(Xj - x )2
Vari ancia = =
n —1
Agora é fácil:
2+3+1+4+5+3
Média = =3
6
Então:
Alternativa (b).
Exercício 9
Resolução
Na aula 01 nós já realizamos parte deste exercício, calculando a média, que era de
50 reais. Agora, com base no nosso conhecimento de variância amostral, vamos
calcular esta estatística. A melhor forma é encontrar os pontos médios de cada
classe:
Alternativa (e).
Exercício 10
Resolução
Bom, a primeira coisa a fazer é pensar quais são os resultados cuja soma pode ser
igual a 7, mas a diferença entre o maior e o menor resultado é igual a 1.
( 3;4 );( 4; 3)
Mas existem várias outras possibilidades de que a diferença entre o maior e menor
valor seja igual a 1. Vamos listar de cabeça o espaço amostral (ü):
Assim:
casos favoráveis 2 1
P(soma ser 7) =
casos possíveis 10 5
Alternativa (c).
(TCU - CESPE/2008) Uma instituição afirma que o custo médio para realização
de determinada obra é igual ou inferior a R$ 850,00 m2. Para avaliar esta
afirmação, foi realizado um teste estatístico cujas hipóteses nulas e
alternativas são, respectivamente, H0: p < 850 e H1: p > 850. Considere que a
distribuição de custos por metros quadrados possa ser considerada como
normal com média p e desvio padrão de R$ 300m2. A partir de uma amostra
aleatória de tamanho 25, a estatística de teste para a média foi igual a 2,1. Com
base nestas afirmações, julgue o item a seguir:
Exercício 11
Resolução
X - 850
300
a/25
Calculando o valor de X:
Portanto, o item está correto, pois o valor calculado encontra-se entre 950m2 e
1000m2.
Retornando!
Até agora analisamos hipóteses feitas sobre médias ou variáveis com distribuição
normal, o que podíamos fazer com base na distribuição normal padrão (ou t de
Student, caso não conheçamos a variância). Agora vamos aprender como
determinar intervalos de confiança para variâncias, que sejam derivadas de
distribuições normais (isso é muito imp» rtante).
Sob a hipótese nula, pode-se provar que esta estatística seguirá uma distribuição
qui-quadrado com (n - 1) graus de liberdade. Assim:
S2
( n - 1)- — Xn-l
oz
A distribuição qui-quadrado, em geral, não é simétrica, tal como pode ser observado
abaixo:
2 2
.05 1 x a.10
y2
r
,005 x a
*01 xa .025 xa xa.25 *.50
x a *.75
x a X
*00 *95
xa *.975
xa *99
x
*.905
xa *999
í ,0000 ,0002 ,0010 ,0039 ,0158 ,102 ,456 1,32 2,71 3,84 5.02 6,63 7,88 10 ,8
2 ,0100 ,0201 ,0606 ,103 ,211 ,676 1,39 2,77 4,61 5,99 7,38 9,21 10,6 13,8
3 ,0717 ,115 ,216 ,362 ,584 1,21 2,37 4,11 6,25 7,81 9,35 11,3 12,8 16,3
4 ,207 ,297 ,484 ;7H 1,06 1,92 3,36 5,39 7,78 9,49 11,1 13 / 14,9 18,6
5 ,412 ,554 ,831 1 4 6 1,61 2,67 4,36 6,63 9,24 11,1 12,8 16,1 16,7 20,5
6 ,676 ,872 1,24 1,64 2,20 3,46 5,35 7,84 10,6 12,6 14,4 16,8 18,5 22,5
7 ,989 1,24 1,69 2,17 2,83 4,25 6,35 ' 9,04 12,0 14,1 16,0 18,6 20,3 24,3
8 1,34 1,66 2,18 2,73 3,49 6,07 7,34 10,2 13,4 15,5 17,6 20,1 22,0 26,1
9 1,73 2,09 2,70 3,33 4,17 6,90 8,34 11,4 14,7 16,9 19,0 21,7 23,6 27,9
10 2,16 2,56 3,26 3,94 4,87 6,74 9,34 12,6 16,0 18,3 20,5 23,2 26,2 29,6
11 2,60 3,06 3,82 4,67 5,58 7,58 10,3 13,7 17,3 19,7 21,9 24,7 26,8 31,3
12 3,07 3,57 4,40 5,23 6,30 8,44 11,3 14,8 18,5 21,0 23 / 26,2 28,3 32,9
13 3,57 4,11 6,01 5,89 7,04 9,30 12,3 16,0 19,8 22,4 24,7 27,7 29 / 34,6
14 4,07 4,66 5,63 6,57 7,79 10,2 13,3 17,1 21,1 23,7 26,1 29,1 31,3 36,1
15 4,60 5,23 6,26 7,26 8,65 11,0 14,3 18,2 22,3 25,0 27,6 30,6 32,8 37,7
16 5,14 5,81 6,91 7,96 9,31 11,9 15,3 19,4 23 / 26,3 28,8 32,0 34,3 39 /
17 5,70 6,41 7,66 8,67 10,1 12,8 16,3 20,6 24,8 27,6 30,2 33,4 35,7 40,8
18 6,26 7,01 8,23 9,39 10,9 13,7 17,3 21,6 26,0 28,9 31,5 34,8 37,2 42,3
19 6,84 7,63 8,91 10,1 11,7 14,6 18,3 22,7 27 / 30,1 32,9 36,2 38,6 43,8
20 7,43 8,26 9,69 10,9 12,4 15,5 19,3 23,8 28,4 31,4 34,2 37,6 40,0 45,3
21 8,03 8,90 10,3 11,6 13,2 16,3 20,3 24,9 29,6 32,7 35,6 38,9 41/ 46,8
22 8,64 9,54 11,0 12,3 14,0 17,2 21,3 26,0 30,8 33,9 36,8 40,3 42,8 48,3
23 9,26 10,2 11,7 13,1 14,8 18,1 22,3 27,1 32,0 35,2 38,1 41,6 44,2 49,7
24 9,89 10,9 12,4 13,8 i 6,7 19,0 23,3 28,2 33,2 36,4 39,4 43,0 46,6 51,2
25 10,5 11,6 13,1 14,6 16,5 19,9 24,3 29,3 34,4 37,7 40f6 44,3 46,9 52,6
26 11,2 12,2 13,8 15,4 17,3 20,8 25,3 30,4 36,6 38,9 41,9 45,6 48,3 54,1
27 11,8 12,9 14,6 16,2 18,1 21,7 26,3 31,5 36,7 40; 1 43,2 47,0 49,6 55,5
28 12,5 13,6 16,3 16,9 18,9 22,7 27,8 32,6 37,9 41,3 44,6 48,3 51,0 56,9
29 13,1 14,3 16,0 17,7 19,8 23,6 28,3 33,7 39,1 42,6 46,7 49,6 62,3 58,3
30 13,8 16,0 16,8 18,5 20,6 24,5 29,3 34,8 40.3 43,8 47,0 50,9 63,7 59,7
40 20,7 22,2 24,4 26,5 29,1 33,7 39,3 45/ 51.8 55,8 59.3 63,7 66,8 73,4
60 28,0 29,7 32,4 34,8 37,7 42,9 49,3 56,3 63,2 67,6 71,4 76,2 " 79,5 86,7
60 35,5 37,5 40;5 43,2 46,5 62,8 69,3 67,0 74,4 79,1 83,3 88,4 92,0 99,6
70 43,3 46,4 48,8 51,7 66,3 61,7 69,3 77,6 86,6 90,5 96,0 100 104 112
80 51,2 53,6 67,2 60,4 H 3 Jn 79,3 88,1 96,6 102 107 112 116 126
90 59,2 61,8 65,6 69,1 73,3 80,6 89,3 98,6 108 113 118 124 128 137
100 67,3 70,1 74,2 77,9 82,4 90,1 99,3 109 118 124 130 136 140 149
Exercício 12
Resolução
160
Alternativa (c).
Exercício 13
Resolução
H0-.p = 0, 5
H-^-.p ^ 0, 5
P(2 caras) = 0, 5 • 0, 5 = 0, 25
Com base em nosso nível de significância, isso é possível de ocorrer, pois 10% que
é muita coincidência. E se tirarmos outra cara em um terceiro lançamento?
Perceba que este valor é inferior à significância do teste, portanto isso seria muita
coincidência! Neste caso, rejeitaríamos a hipótese nula de que a moeda é honesta.
Este valor (6,25%) seria o p-valor para este experimento. O p-valor seria o valor
limite entre a aceitação e rejeição da hipótese nula. Em termos mais analíticos,
pode-se definir o p-valor como o menor nível de significância em que a
hipótese nula pode ser rejeitada. No exemplo, como o p-valor (6,25%) é menor do
que o nível de significância adotado, rejeita-se a hipótese nula!
Fique calmo, nós já vamos fazer uns exercícios que vão te ajudar a entender o
conceito!
tome nota!
Não vou mentir, esta é uma possibilidade! Na verdade, esta
probabilidade tem até um nome: "erro tipo 1” . O erro tipo 1 ocorre quando
rejeitamos uma hipótese nula, quando na verdade ela é verdadeira. No caso da
moeda, nosso teste de hipóteses está rejeitando a hipótese nula de uma moeda
honesta, mas isso não é certo, pois, apesar de pouco provável, aquele resultado
pode acontecer.
Isso fica claro quando pensamos: qual a probabilidade de o valor "verdadeiro” não
estar no intervalo de confiança a ser definido por nós? Ora, nos valores que
consideramos "muita coincidência”.
Outro erro possível ocorre quando aceitamos a hipótese nula quando ela é falsa!
Este é o erro tipo 2!
Neste caso, temos um problemão aqui! Pense comigo, este valor nós não temos
acesso, haja vista não conhecermos a distribuição que contem o valor verdadeiro
que estamos procurando. Com base na figura abaixo, pode-se inferir um caso em
que aceitaríamos a hipótese nula apesar de ela ser falsa.
Você percebe o que está ocorrendo? A primeira curva seria relativa aos dados que
estamos testando, enquanto que a segunda seria relativa à verdadeira distribuição
da variável. A parte escura está dentro de nossa região de aceitação, mas ela não
contem o valor verdadeiro.
Este valor nos diz qual a probabilidade de que um determinado teste rejeite a
hipótese nula quando ela é falsa.
Você precisa deixar suas distribuições mais “fininhas”, ou seja, com menor
variância, deste modo diminuímos a probabilidade dos dois erros. Isso só é possível
com amostras maiores. Portanto, uma amostra maior pode ser vista como uma
quantidade maior de “provas” para nossas conclusões, o que aumenta a acurácia de
nossas previsões.
Vamos fazer um exercício juntos para que vocês possam entender bem como
funciona este teste. Perceba que se trata de um caso com uma amostra grande
(1000 elementos). Em geral, quando você vir uma amostra de mais 50
elementos, pode usar a distribuição normal. Além disso, pelo formato do
exercício vocês vão saber quando é um caso ou outro. Você vai ver!
Exercício 14
Resolução
x —p
z =
o
Assim, na média, temos 85% de chance de acertar! Essa é nossa média amostral
(x). Por simplicidade, vamos chamar a este valor de (p).
Sim, pois o percentual de 85% nem seranpre pode bater com o valor encontrado. Por
exemplo, se você extrair uma amostra de 20 indivíduos deste total, isso significa que
você encontrará, exatamente, 17 pessoas que gosta do produto? Não! Pode ser que
você não encontre nenhuma! O que você sabe é que, na média, 85% das pessoas
analisadas preferem o produto, ou seja, se você realizar este experimento infinitas
vezes 85% das pessoas irão gostar.
Qual o parâmetro que estamos comparando com essa média? Nós queremos saber
se, na média e com base no que sabemos da amostra, podemos assumir como
verdadeira a hipótese feita sobre a população, de que a média de preferências que
Var(x) = p • ( 1 —p)
Então, nós temos como saber qual a variância da população se hipótese feita for
verdadeira:
p . ( 1 - p ) = 0,9-0, 1 = 0,09
Var(x) =
n
Portanto, combinando tudo isso que falamos, a nossa fórmula modificada para
testes em proporções seria:
0,09 0, 3
Dp(p) =
1000 V iõ õ õ
p —p 0, 85 —0,9 -0 , 05 • VlÕÕÕ
Dp(p) 0,3 0, 3
VlÕÕÕ
Exercício chato de cálculo! Uma forma de resolver é pensar, mais ou menos, quanto
seria a raiz quadrada de 1000. Pense 202 é 400, 302 é 900 e 402 é 1600, opa, pare
aí mesmo! Deve ser um número entre 30 e 40, só que bem mais próximo de 30,
então deve ser inferior a 35. Se você fizer 312 você chegará à 961. Este é o valor
mais próximo!
-0,05 ■V1000
O que chega mais próximo é a alternativa (a). Esta é a correta! Faça com a
calculadora e confirme o raciocínio.
Agora, podemos testar essa hipótese, fixando a hipótese nula de que p = 0,9 e a
hipótese alternativa de que p < 0,9. Assim:
H0:p = 0,9
H^.p < 0,9
z = [ - 1,28; 1,28]
Entendeu? Não tem segredo! Agora, vamos treinar um pouco para aprender
de verdade. Alguns exercícios podem ter uns macetes que falta ensinar, mas
pode deixar que eu aviso antes para que vocês acompanhem a resolução.
(TCU - CESPE/2008) Uma instituição afirma que o custo médio para realização
de determinada obra é igual ou inferior a R$ 850,00 m2. Para avaliar esta
afirmação, foi realizado um teste estatístico cujas hipóteses nulas e
alternativas são, respectivamente, HH): p < 850 e H1: p > 850. Considere que a
distribuição de custos por metros quadrados possa ser considerada como
normal com média p e desvio padrão de R$ 300m2. A partir de uma amostra
aleatória de tamanho 25, a estatística de teste para a média foi igual a 2,1. Com
base nestas afirmações, julgue o item a seguir:
Exercício 15
Resolução
Exercício 16
Resolução
Alternativa (e).
Exercício 17
Resolução
Alternativa (b).
Exercício 18
Resolução
Alternativa (d).
Exercício 19
Resolução
Olhe, quando o exercício te diz "diferença entre média amostral e p”, ele está
falando de:
X -p = 2
_ X -p _ 2
z_ ^ 1 6 _ TÕÕ
Vn Vn
100 100 2
Vn= 2 -1' 6 ^ n = í 2 ■1 6 )
n = 6400
Alternativa (e).
Exercício 20
Resolução
Alternativa errada.
Exercício 21
Resolução
Assim, para uma mesma estatística de teste, nada garante que, se o valor supera o
valor de (z) monocaudal, o mesmo será superior ao valor bicaudal para um mesmo
nível de significância.
Alternativa errada.
Exercício 22
Resolução
Bom, vamos testar esta moeda que mostra uma probabilidade de obter cara de:
Alternativa (a).
difícil!
Exercício 23
Resolução
p —p
A questão agora é que o que é pedido é o p-valor. Mas, o que é o p-valor? Vamos
lembrar-nos da aula anterior: “ Em termos mais analíticos, pode-se definir o p-
valor como o menor nível de significância em que a hipótese nula pode ser
rejeitada” .
Então, em termos práticos, o que estamos fazendo? Nós vamos calcular, por meio
da estatística de teste, os valores que estão dentro de um intervalo de confiança
definido para a proporção. O p-valor será a probabilidade de obtermos valores
extremos, além do intervalo de confiança definido para a proporção.
190
0,9 5 - 0,9 5
z = = 0
P-(. 1 - P )
n
Veja que nem precisamos calcular o denominador, pois o numerador é igual à zero.
Nós estamos bem no centro da distribuição, o que nos leva à conclusão de que
estamos em um ponto que divide a distribuição em duas partes iguais de 50% de
chance.
p — valor = 1 —0, 5 = 0, 5
Alternativa (a).
Exercício 24
Resolução
O erro tipo II é a probabilidade de aceitarmos a hipótese nula dado que ela é falsa.
O exercício fala que a região crítica é dada pelos valores nos quais a proporção é
maior ou igual a 0,75.
0, 8 • ( 0, 2)
100
1 - P ( Z > -1 ,2 5) = 0, 106
Alternativa (c).
Exercício 25
Resolução
3 minutos = 180
4 minutos = 240
180 - 140 40
Assim:
P( 0,8 < Z < 2) = P{Z < 2 ) - PÇZ < 0,8) = 0,9 77 - 0,788 = 0, 189
Alternativa (d).
Exercício 26
Resolução
Exercício 1
(Elaborado pelo autor) Suponha que a seguinte amostra de alturas tenha sido
retirada da população:
Exercício 2
Exercício 3
Exercício 4
Seja uma variável aleatória X, com média p e desvio padrão igual à 5. A partir
de uma amostra aleatória de 16 elementos, observou-se uma média amostral
de valor 13. Uma pessoa afirmou que a média populacional dos elementos é
igual a 15, com 5% de significância. Essa afirmação mostrou-se como
verdadeira.
Exercício 5
Seja uma variável aleatória X, com média p e desvio padrão igual à 5. A partir
de uma amostra aleatória de 16 elementos, observou-se uma média amostral
de valor 13. Uma pessoa afirmou que a média populacional dos elementos é
de, no mínimo, 15, com 5% de significância. Essa afirmação mostrou-se como
verdadeira.
Exercício 6
a) 50%
b) 39%
c) 23%
d) 16%
e) 11%
Exercício 7
Exercício 8
Exercício 9
Exercício 10
(TCU - CESPE/2008) Uma instituição afirma que o custo médio para realização
de determinada obra é igual ou inferior a R$ 850,00 m2. Para avaliar esta
afirmação, foi realizado um teste estatístico cujas hipóteses nulas e
alternativas são, respectivamente, H0: p < 850 e H1: p > 850. Considere que a
distribuição de custos por metros quadrados possa ser considerada como
normal com média p e desvio padrão de R$ 300m2. A partir de uma amostra
aleatória de tamanho 25, a estatística de teste para a média foi igual a 2,1. Com
base nestas afirmações, julgue o item a seguir:
Exercício 11
Exercício 12
Exercício 13
Exercício 14
a) -5,27
b) -1,96
c) -1,65
d) 1,96
e) 5,27
(TCU - CESPE/2008) Uma instituição afirma que o custo médio para realização
de determinada obra é igual ou inferior a R$ 850,00 m2. Para avaliar esta
afirmação, foi realizado um teste estatístico cujas hipóteses nulas e
alternativas são, respectivamente, H0: p < 850 e H1: p > 850. Considere que a
distribuição de custos por metros quadrados possa ser considerada como
normal com média p e desvio padrão de R$ 300m2. A partir de uma amostra
aleatória de tamanho 25, a estatística de teste para a média foi igual a 2,1. Com
base nestas afirmações, julgue o item a seguir:
Exercício 15
Exercício 16
Exercício 17
Exercício 18
Exercício 19
Exercício 20
Exercício 21
Exercício 22
Exercício 23
Exercício 24
Exercício 25
Exercício 26
Gabarito
2- a
3- a
4- C
5- C
6- e
7- b
8- b
9- e
10 - c
11 - C
12 - c
13 - C
14 - a
15 - E
16 - e
17 - b
18 - d
19 - e
20 - E
21 - E
22 - a
23 - a
24 - c
25 - d
26 - b
O assunto de hoje é muito importante e daremos enfoque a ele em nosso simulado.
Estudem e mandem dúvidas! Vocês conseguirão realizar seus sonhos, basta se
esforçar!
jeronymo@estrategiaconcursos.com.br
SUMÁRIO PÁGINA
Associação entre variáveis 2
Associação entre variáveis qualitativas 4
Associação entre variáveis quantitativas 10
Associação entre variáveis qualitativas e quantitativas 15
Introdução ao método de regressão 17
Estimação com base em amostra e Método dos Mínimos 21
Quadrados Ordinários (MQO)
Tabela ANOVA 28
Teste de hipóteses sobre os coeficientes 35
Eficiência do estimador de Mínimos Quadrados Ordinários (MQO) 38
Lista de Exercícios resolvidos 60
Gabarito 70
Bem vindos à nossa última aula teórica! Nesta aula, temos alguns assuntos
importantes para discutir:
1) Correlação.
2) Regressão Linear.
Dica de um concurseiro
Mas, uma questão que os estatísticos sempre têm que abordar é: como é o
comportamento conjunto de mais de uma variável?
Por exemplo, um pesquisador pode estar interessado em saber como a renda dos
indivíduos de uma determinada região está correlacionada com seus gastos em
consumo. O que deve ser feito é avaliar como a variável "renda” de um determinado
indivíduo se relaciona com a variável "gastos em consumo” do mesmo.
Renda Consumo
Indivíduo (R$) (R$)
1 1000 700
2 1500 800
3 2000 1000
4 2300 1100
5 2700 1200
6 5500 2300
7 6000 2500
8 7300 3000
Olhe o que este gráfico está te mostrando! Conforme a renda cresce, o valor gasto
em consumo também cresce, mas a taxas decrescentes. Veja que, para o primeiro
indivíduo o consumo é 70% de toda sua renda, enquanto que, para o 8° indivíduo, o
consumo é 41%.
Viu que conclusão interessante você tirou a partir da análise desta amostra fictícia?
A lista de possibilidades é infinita! Vocês terão que fazer isso várias vezes no setor
público, pois a análise de muitos projetos necessita este conhecimento estatístico.
Para que vocês entendam direitinho, vamos analisar alguns exemplos do livro
"Estatística Básica” dos professores Bussab e Morettin.
Olhe, cada entrada da tabela representa quantas vezes ocorre cada realização
conjunta. Não entendeu? Veja o primeiro quadradinho da tabela, que tem o valor
de 85:
O que ele está te dizendo é que há 85 homens que cursam economia, ou seja, ele
dá a realização simultânea de (sexo = masculino) e (curso = economia).
Em vez de trabalharmos com frequências absolutas, como é o caso, fica mais fácil
visualizar interações utilizando frequências relativas!
Aí,depende do que você quer avaliar. No nosso caso, vamos fixar o total dos sexos
como 100% e, com base nisso, encontrar quanto cada curso representa de
matriculas por sexo. Veja como ficaria:
Viu o que eu fiz? Eu dividi cada célula pelo total dado pela coluna e multipliquei por
100. Por exemplo, na célula (1,1), realizamos a divisão de 85 por 140, o que dá,
aproximadamente, 0,61.
INDO
^jrrnais fundo Isso não te lembra nada? Exatamente! As
probabilidades condicionais. As duas primeiras colunas referem-se a “frequências
condicionais”, enquanto que a última seria como se fosse uma “frequência
incondicional”. Lembra-se de que, quando os eventos são independentes, a
probabilidade condicional é igual à incondicional? Aplique um raciocínio análogo ao
presente caso, se a frequência condicional é muito próxima à incondicional, a
“condição” parece não ajudar a explicar o fenômeno.
No fundo, o que fizemos foi comparar a proporção marginal de cada curso com
relação às suas respectivas proporções associada a cada sexo. Assim, caso as
variáveis não tivessem nenhuma associação, esperar-se-ia que:
Entendeu? Se as variáveis não forem associadas, espera-se que 60% das pessoas
frequentarão cursos de Física e 40% cursos de Ciências Sociais,
independentemente do sexo. Se isso for verdade, basta aplicar estes
Se compararmos o valor real de cada célula com seu valor esperado, teremos a
seguinte distribuição:
2
( 16)2 _ ( - 16)2 _ ( 16)2 _ ( - 16)2
x = 3,04 + 4, 57 + 7, 11 + 10,67 = 25,4
84 + 56 + 24 + 36
Este é um valor significantemente maior do que zero, portanto, pode-se inferir que
as variáveis estão associadas. Quanto maior este valor, menor é a associação
entre as variáveis.
Sendo que esta expressão está te dizendo para somar, para todas as células (i, í ), o
quadrado das diferenças entre o valor real (ríjí) e o valor esperado em cada célula
(eu), caso as variáveis não fossem associadas, divido pelo seu respectivo valor
esperado.
“Tá bom professor, mas devo comparar este valor com a tabela qui-
quadrado”?
Olha, não precisamos entrar nisso. Esta parte fica um pouco mais complicadinha e
nunca cai em concursos que não sejam específicos para estatísticos. Assim, só
saiba calcular a estatística de teste e o coeficiente de Pearson que já basta.
C o e fic ie n te d e P e a rs o n =
Essa é uma pergunta sem uma única resposta! Isso muda de autor para autor. Mas,
é importante que vocês conheçam uma "regrinha de bolso” para determinação do
valor ideal de uma amostra com base no erro amostrai tolerável (E).
Isso é, para um erro amostral da ordem de 4%, devemos ter uma amostra de, no
mínimo:
No caso de uma análise entre variáveis quantitativas o nosso "arsenal” para análise
é muito maior! Nós podemos tanto utilizar o que estudamos na seção anterior,
quanto outras possibilidades gráficas, como o diagrama de dispersão.
Entendeu? Se você traçar uma reta que "mais ou menos” que une os pontos, você
encontra uma reta inclinada para cima, ou como chamam os matemáticos,
positivamente inclinada. O que isso quer dizer é: quanto maior a renda, maior
será o consumo associado, isso é, trata-se de variáveis positivamente
correlacionadas.
Este é um caso possível de associação entre duas variáveis quantitativas, mas não
o único. As variáveis podem ser negativamente correlacionadas. Neste caso,
quanto maior uma delas, menor será o valor associado na outra.
Quer um exemplo? Suponha que seja feita uma pesquisa que relacione o PIB de 6
economias com a taxa de incidência de leptospirose nas mesmas. É de se esperar
que economias mais ricas tendam a ter melhores condições de saneamento, o que
reduz a taxa de incidência desta doença. Em termos gráficos, seria algo mais ou
menos assim:
Com efeito, os pontos indicam que, quanto maior o PIB, menor a taxa de incidência
da doença. O traçado de uma reta que explicita esta dinâmica mostra uma reta
inclinada para baixo, ou negativamente inclinada. Este é um caso de variáveis
negativamente associadas.
Os dois casos mostram exemplos de correlação linear, ou seja, que podem ser
representados por uma linha reta. Podem existir casos de associação não linear,
entretanto não vamos entrar neste detalhe. Apenas entenda o que é uma
associação entre variáveis, que pode ser positiva (quando uma aumenta a
outra também aumenta, ou quando uma se reduz a outra também reduz) ou
negativa (quando uma aumenta a outra reduz ou quando uma reduz a outra
aumenta). No frigir dos ovos: uma relação positiva significa que a “direção"
em que uma variável se movimenta é a mesma da outra variável, por outro
lado, uma relação negativa implica que as variáveis se “movimentarão" em
sentidos opostos.
Boa pergunta! Neste caso, não conseguiremos tirar uma "tendência” da análise
gráfica. A título de ilustração:
Neste caso, não há uma tendência clara entre as duas variáveis! Este é um exemplo
de variáveis não associadas.
-!< p < !
Covariância (Cov) é uma medida da “variância conjunta” entre duas variáveis. Para
uma amostra de tamanho (n ), a covariância entre duas variáveis quaisquer, x e y, é
dada por:
Cov{x, y)
Pxy dp{x) •dp{y)
Entendeu? Antes de passarmos para o próximo tópico, vocês precisam saber uma
coisa importante demais sobre a covariância!
Este é um caso que não é muito cobrado em concurso, assim vamos tentar ser mais
rápidos aqui.
Vamos nos basear em outro exemplo dos professores Bussab e Morettin. Suponha
que seja feita uma pesquisa de forma a avaliar o comportamento dos salários
(variável quantitativa) dentro de cada categoria de grau de instrução (variável
qualitativa). Os resultados encontrados foram:
Pode-se inferir que, quanto maior o nível educacional, na média, maior será o
salário do indivíduo. Uma forma de confirmar a veracidade dessa afirmação é
percebendo que a variância amostrai para todos os dados é maior do que a
variância para cada subclasse.
-“E se, por exemplo, a variância da subclasse “ensino superior” fosse de 23”?
Neste caso, a subdivisão dos dados em uma classe de nível superior não estaria
"ajudando” na análise, pois a variabilidade seria menor se analisássemos os dados
dos salários como um todo.
Z(Vari ■nt)
Assim, com base na variância total da amostra (Var), podemos definir R2 como:
Isso quer dizer que 41,5% da variabilidade dos salários é explicada pela
variável “grau de instrução”.
y = f(x).
O que quer dizer "y é função de X" ou que as vendas de uma empresa são uma
função da quantidade investida em propaganda. Pode-se afirmar que y depende de
x, portanto, a nomenclatura usual chama y de variável dependente ou explicada e x
de variável independente ou explicativa.
Uma das formas de se expressar tal função é a partir de uma relação linear, tal
como:
y = 2 + 3x.
y = a + 0x. (1)
- "Professor, ótimo, mas por que você está falando tudo isso?”
Porém, perceba que é muito raro que uma variável do mundo real, ainda mais
quando ligada à economia ou a fenômenos sociais, consiga ser representada por
uma reta. Vamos supor que estamos tratando do exemplo (a) acima descrito para o
ano de 2012 e que possuímos dados de todas as vendas de todas as empresas de
um determinado setor e de todos os gastos de propaganda efetuados por estas
empresas.1 Colocando tal relação em um gráfico:
1 Gente, só para chamar a atenção, por enquanto estamos trabalhando com dados coletados em um
único período de tempo, no caso uma única observação por empresa no ano de 2012 (pode ser a soma
de todo o ano, ou de um determinado mês, etc.) Este tipo de disposição de dados é chamado de dados em
cortes transversais ou “cross section".
A reta é representada pela equação (1) e os pontos são os valores que y assume
para cada x.
E aí pessoal, o que vocês estão vendo? Veja que a reta explica bem o
comportamento da variável, se aproximando dos valores reais, mas ainda assim não
explica tudo. Olhe o 3° ponto, nele o valor das vendas aumentou, na média, muito
mais do que o esperado para um determinado investimento em propaganda. Isso
pode ser decorrência de muitos fatores do mundo real, como o fato de que a
empresa talvez fosse muito desconhecida até então, portanto, um pequeno
investimento em propaganda teve resultados muito grandes quando comparado a
empresas que já são relativamente conhecidas. Este tipo de raciocínio pode ser
aplicado para os pontos abaixo da reta também, que apresentam, na média,
retornos abaixo do esperado para um determinado gasto em propaganda.
Assim, se uma versão linear e simples da equação de reta for a mais bem ajustada
à série de dados, pode-se inferir que a equação que representa a real dinâmica do
fenômeno em estudo, no caso, as vendas da empresa é dada por:
yi = a + p X i + Et
Sendo m o termo que representa o "erro”, ou seja, os desvios das observações com
relação à reta (pensem comigo, o erro é a distância da reta até cada um daqueles
pontos no gráfico acima). O subscrito 7 ’ se refere à cada uma das empresas
Vocês concordam comigo que não dá para levar em conta todas as variáveis que
afetam o comportamento das vendas de todas as empresas? Pode ser que um
gerente comercial muito bom de serviço tenha pedido demissão da empresa (4), o
que puxaria suas vendas para baixo, apesar do investimento em propaganda, etc.
Assim, o erro leva em conta estes efeitos impossíveis de se mensurar, mas que
afetam a dinâmica de y.
Bom, apesar do fato de que este erro é algo que nós temos que aprender a viver
com ele, o mesmo possui uma característica interessante que nós temos que levar
em conta:
E (eô = 0
Isto é, a média dos erros é igual a zero. Ou seja, os desvios "para cima da reta”
igualam o valor dos desvios” para baixo da reta” na média.
Ou seja, estes erros são supostamente aleatórios, então a teoria nos permite inferir
que, se o modelo estiver corretamente especificado, o erro será, na média, igual à
zero.
E aí rapaziada, que cara de sono é esta? Vamos acordando, pois um futuro servidor
público não pode dormir em serviço! Você será bem remunerado e com status, mas
com muita responsabilidade.
Vamos ver se vocês estão realmente atentos: lembram-se quando eu disse que a
regressão tinha a ver com todas as empresas, todas as receitas de vendas e todos
os gastos em propaganda?
Atenção, até agora falamos de uma regressão com a população, ou universo, das
variáveis escolhidas. Mas, na maioria dos casos, não possuímos o universo. Por
exemplo, no caso de uma regressão do valor salarial obtido por um trabalhador em
função do nível de escolaridade de cada um destes, é praticamente impossível se
realizar este exercício, pois a base de dados para isto é infinitamente grande.
Assim, na maior parte das vezes, o pesquisador acaba trabalhando com uma
amostra! Ao se avaliar uma regressão para uma amostra estaremos a estimar os
parâmetros de regressão (a e p na equação (1)), ou como nós falamos no dia a
dia, estimar uma regressão.
- “Tá bom Professor, mas, afinal de contas, como se estima uma regressão?”
Ótimo! Tente imaginar um momento: a estimativa dos parâmetros deve ser feita de
forma a garantir o que?
É isso! De forma a minimizar os erros. Isso é feito pelo método dos Mínimos
Quadrados Ordinários (MQO) que nos dá um valor estimado para a e p, que,
chamaremos, a partir daqui, de a e b.
Com base no fato de que a média dos erros é igual a zero, não há como se
minimizar a soma dos erros, dado que o valor sempre será zero. Assim, o objetivo
do método é minimizar a soma dos quadrados dos erros, o que é feito pelo
X x ty t _ C o v ( x ,y )
Xx f V ar(x )
a = y — bx
xi = xi - x
Exercício 1
Só para vocês ficarem contentes em ver uma aplicação prática, vamos fazer
um exemplo. Vamos lá! Dada a seguinte série de dados, estime a regressão
linear Y = f(X), ou costumeiramente chamada de “Y contra X”.
Variáveis X Y
103 160
123 167
145 207
126 173
189 256
211 290
178 237
155 209
141 193
156 219
166 235
179 234
197 273
204 272