Explorar E-books
Categorias
Explorar Audiolivros
Categorias
Explorar Revistas
Categorias
Explorar Documentos
Categorias
Dyodi
Sumário
Introdução .................................................................................................................................... 2
Capítulo 1 - Estatística Descritiva ............................................................................................ 4
1.1. Frequências ..................................................................................................................... 4
1.2. A “chave do sucesso”: saber diferenciar o tipo de exercício ................................... 5
1.3. Medidas de Posição ou Medidas de Tendência Central para dados em rol ......... 7
1.4. Medidas de Dispersão ................................................................................................. 17
1.5. Propriedades das medidas de posição e de dispersão .......................................... 23
1.6. Medidas de Posição ou Medidas de Tendência Central para dados agrupados 28
1.7. Ramo e folhas ............................................................................................................... 39
1.7. Quantis e Box-Plot ........................................................................................................ 41
1.8. Variância Conjunta ....................................................................................................... 46
1.9. Média Conjunta ............................................................................................................. 49
Introdução
Meu nome é Robson Dyodi e terei o prazer de auxiliá-los neste estudo de estatística.
Para quem não me conhece, sou bacharel em Ciências Econômicas formado pela Escola de
Economia de São Paulo (EESP – FGV). Anteriormente, cheguei a cursar 3 anos de engenharia
na Escola Politécnica (POLI – USP), mas decidi abandonar o barco por não me identificar com
a área. A minha trajetória com concursos iniciou-se em meados de 2009, quando decidi largar
o emprego no mercado financeiro para buscar o meu ingresso no setor público. Fui aprovado
neste mesmo ano no concurso para o cargo de Oficial de Justiça (OJ – TJSP) e continuei
estudando para o meu objetivo maior: área fiscal. Graças a Deus, consegui ser aprovado para
os 2 últimos concursos de auditor que ocorreram no Estado de São Paulo: ISS-SP 2012 e
ICMS-SP 2013. Agora, tenho o desejo de ajudar todos aqueles que querem ingressar em
algum fisco do país. Atualmente, estou lecionando no curso Uniequipe em São Paulo.
Como vocês podem perceber, eu não sou formado em estatística! Apesar disso,
sempre tive facilidade com números e, como fui professor particular durante muitos anos,
aprendi a observar as principais dificuldades dos alunos nas matérias de exatas. Quero ser
sincero com vocês: não conheço toda a matéria de estatística e se o seu objetivo exigir
conhecimentos mais profundos da matéria, não sou a pessoa indicada. No entanto, se o seu
objetivo for a área fiscal, pode ter certeza de que estou apto a auxiliá-lo nesta jornada!
Feita a minha apresentação, gostaria de bater um pequeno papo com vocês...Eu sei
que estatística não é a matéria preferida da maioria dos candidatos. Na verdade, diria que é a
matéria mais odiada de todas. Para começar a nossa conversa, vamos aos fatos:
Com a Internet a favor dos candidatos, não é difícil de obter estes dados. Também não
é difícil perceber que as provas de português para a área fiscal são de outro nível. Sabendo
disso, creio que deixar 10-15 pontos de lado é algo muito arriscado a se fazer. Ao invés de
considerar a estatística como uma inimiga, por que não transformá-la em aliada? Assim, se a
prova se mostrar de um jeito diferente do esperado, é bom ter um plano B na manga. Algumas
questões de estatística podem contribuir para que você atinja o mínimo na P1 ou pontue mais
do que a maioria dos concorrentes. Tentarei mostrar que a matéria em questão não é nenhum
bicho de sete cabeças e que, diferentemente do que muitos comentam, as questões são
relativamente rápidas de serem respondidas.
As provas estão cada vez mais difíceis, mas as notas de corte permanecem em nível
elevado. Em outras palavras, os candidatos estão se preparando melhor! Atualmente, temos
vários cursos em .pdf e em vídeo circulando na internet. Material de qualidade é o que não
falta. Assim, cabe a você acompanhar essa evolução. Todos querem passar, mas como dizem
por aí: “passar é exceção”. Além do desejo, devemos ter a atitude de buscar o nosso
merecimento, de modo que a aprovação será uma consequência disso. Creio que o
merecimento engloba estudar todas as matérias, mesmo aquelas das quais não gostamos!
Estatística descritiva
Probabilidade
Inferência Estatística
A inferência estatística consiste em tirar uma conclusão sobre uma população através
dos dados de uma amostra. Muitas vezes é difícil analisar a população inteira, então é colhida
uma amostra e a partir dela conclui-se algo sobre a população.
Suponha que seu chefe lhe entregue as seguintes informações num pedaço de papel e
peça para você analisá-las:
“6 9 10 11 5 7”
Agora a tarefa ficou mais simples. Basta ir até a sala do chefe e dizer: “Chefinho, nos
últimos seis meses, a média de processos analisados foi de 8 processos por mês”.
O estudo da estatística descritiva é muito parecido com o exemplo acima. Dado uma
variável (idade, altura, salário,...) e um conjunto de dados relativos a esta variável, devemos
buscar um meio de resumir todos estes dados, como por exemplo, a média.
Mas este resumo não se limita ao cálculo da média, existem várias outras medidas-
resumo que são cobradas em provas de concurso público. Estudaremos cada uma delas.
1.1. Frequências
Saber o que é frequência e quais são os seus tipos é fundamental para o estudo de
qualquer dos ramos da estatística, pois elas sempre são utilizadas. Dificilmente elas serão
cobradas de forma direta, mas o conhecimento deste assunto é pré-requisito para a resolução
das provas.
1111223
Podemos dizer que o número 1 possui frequência igual a 4, ou seja, aparece quatro
vezes neste conjunto de dados. Do mesmo modo, podemos dizer que o número 2 possui
frequência igual a 2 e o número 3 possui frequência igual a 1.
Salários Nº de funcionários
R$2000 10
R$3000 25
R$4000 15
Total = 50 funcionários
De acordo com a tabela acima, é correto dizer que 10 funcionários recebem o valor de
dois mil reais, 25 funcionários recebem o valor de três mil reais e 15 funcionários recebem o
valor de quatro mil reais.
As frequências são úteis para mostrar a proporção de elementos em cada classe, qual
a classe com mais elementos, etc. As frequências simples são designadas pela letra f e as
frequências acumuladas pela letra F. Observe a seguinte tabela:
R$4000 50/50 =
15 15 15/50 = 30% 50
100% = 1
A frequência acumulada absoluta indica quantos elementos existem até aquela classe.
Assim, no exemplo acima, existem 35 indivíduos que recebem até três mil reais.
Dica1: Sempre que aparecer a palavra relativa, estamos tratando de uma proporção, ou seja,
devemos dividir pelo total. Sempre que aparecer a palavra acumulada, estamos tratando dos
elementos que estão na classe ou abaixo dela, ou seja, devemos somar todos os elementos
até aquela classe.
Dica2: Observe que a soma das frequências relativas sempre será igual a 1. Esta informação
será necessária em alguns tipos de exercício.
Sendo assim, sempre que possível, tentarei mostrar como identificar cada tipo de
exercício. Em questões que cobram estatística descritiva, a chave do sucesso é saber
identificar e diferenciar os dois tipos de dados abaixo:
Note que, se quisermos realizar algum cálculo com os dados da tabela à direita,
devemos fazer algum tipo de suposição, pois não temos os dados exatos. Por outro lado, na
tabela à esquerda, não será necessário fazer suposições. Os dados à esquerda são chamados
de “dados em rol” e os dados à direita são chamados de “dados agrupados”. Para lembrar isso,
note que os dados à direita estão agrupados em intervalos de valores.
É importante saber que os mesmo dados utilizados acima podem ser representados de
maneira gráfica. Observe o caso dos dados em rol, de modo que a tabela e o gráfico significam
a mesma coisa:
Agora, observe o caso dos dados agrupados, de modo que a tabela e o gráfico
representam a mesma coisa:
Perceberam a diferença nos gráficos? Eles são muito parecidos, mas note que, quando
trabalhamos com dados em rol, as colunas possuem um espaçamento entre elas. Por outro
lado, quando trabalhamos com dados agrupados, as colunas não possuem espaçamento.
Tratam-se das medidas que buscam resumir, simplificar, todo o conjunto de dados. As
principais medidas são: média aritmética, moda e mediana.
Imagine que 5 lutadores foram pesados para uma competição e os dados obtidos
foram os seguintes:
Lutador 1: 70 kg
Lutador 2: 80 kg
Lutador 3: 90 kg
Lutador 4: 90 kg
Lutador 5: 100 kg
Repetindo: para calcular a média aritmética, devemos sempre somar todos os valores
do conjunto de dados e dividir pelo tamanho do conjunto de dados.
A moda representa o valor que aparece com mais frequência no conjunto de dados. No
nosso exemplo, temos que o valor da moda é igual a 90 kg (aparece duas vezes).
Observação 1: no exemplo acima, temos apenas um valor da moda. Dizemos então que o
conjunto de dados é unimodal. Se houvessem 2 valores da moda, nosso conjunto de dados
seria bimodal, e assim por diante.
Ex: “1 2 2 3 3 3 4 4 4 5 6”. A moda é representada pelos números 3 e 4 (aparecem três vezes).
Uma observação deve ser feita: no exemplo acima, temos 5 observações, logo a
mediana é representada pelo valor que ocupa a 3ª posição (temos 2 valores à direita e 2
valores à esquerda). No entanto, o que acontece se o número de observações for par? Vamos
analisar o seguinte conjunto de dados:
123456
A mediana não pode ser igual a 3, pois neste caso teríamos dois valores à esquerda e
três valores à direita. Da mesma forma, a mediana não pode ser igual a 4, pois teríamos três
valores à esquerda e dois valores à direita. E agora, o que fazer?
Resumindo:
A média é obtida somando-se todos os valores e dividindo o resultado pelo tamanho do banco
de dados.
Moda é o valor com maior frequência (aquele que mais se repete).
Mediana é o elemento central do banco de dados, quando eles estiverem ordenados.
17, 12, 9, 23, 14, 6, 3, 18, 42, 25, 18, 12, 34, 5, 17, 20, 7, 8, 21, 13, 31, 24, 9.
a) 13,5
b) 14
c) 17
d) 15,5
e) 14,5
Letra C
Resolução:
Como dissemos na explicação teórica, para obtermos a mediana os dados devem estar
ordenados. Assim, teremos o seguinte:
3, 5, 6, 7, 8, 9, 9, 12, 12, 13, 14, 17, 17, 18, 18, 20, 21, 23, 24, 25, 31, 34, 42.
11 elementos 11 elementos
Como temos 23 observações, a mediana é o valor que ocupa a 12ª posição, de modo
que existem 11 elementos à sua esquerda e 11 elementos à sua direita. Portanto, a mediana é
igual a 17.
O exercício não cobra a moda, mas, aproveitando a questão, podemos dizer que o
conjunto de observações é tetramodal, pois apresenta 4 valores para a moda: 9, 12, 17 e 18.
29, 27, 25, 39, 29, 27, 41, 31, 25, 33, 27, 25, 25, 23, 27, 27, 32, 26, 24, 36, 32, 26, 28, 24, 28,
27, 24, 26, 30, 26, 35, 26, 28, 34, 29, 23, 28.
Letra E
Resolução:
Como o cálculo da mediana faz parte da questão, a 1ª coisa a ser feita é ordenar os dados.
Assim:
23, 23, 24, 24, 24, 25, 25, 25, 25, 26, 26, 26, 26, 26, 27, 27, 27, 27, 27, 27, 28, 28, 28, 28, 29,
29, 29, 30, 31, 32, 32, 33, 34, 35, 36, 39, 41.
O valor que aparece com mais frequência é igual a 27 (aparece 6 vezes no conjunto de dados).
Então, a moda também é igual a 27.
Sem precisar fazer mais contas, sabemos que a letra E está correta.
Isso fica como dica para a hora da prova: calcule sempre a moda e a mediana em 1º lugar. A
média só deve ser calculada se não for possível resolver a questão só com as informações da
moda e da mediana.
Se, com relação aos salários desta carreira profissional, Me é a média aritmética, Md a
mediana e Mo a moda correspondentes, tem-se que:
(A) Me = Mo = Md
(B) Me > Md e Mo > Md
(C) Me > Mo e Mo = Md
(D) Me < Md e Mo > Md
(E) Me < Mo e Md = Mo
Letra E
Resolução:
Além disso, vemos que as alternativas tratam de média, moda e mediana. Em outras palavras,
estamos diante de uma questão de estatística descritiva.
Devemos sempre encontrar o valor da moda e mediana em 1º lugar, pois é mais rápido que o
cálculo da média.
Moda: é o valor que mais se repete. Assim sendo, percebemos que a moda é igual a 2500,
pois é o valor com a maior frequência.
Se o número total de elementos é ímpar, você faz o seguinte: pegue o total de elementos (75)
e some 1. Depois, divida por 2. É sempre assim quando trabalhamos com dados em rol e o
total de elementos é impar.
Média: o valor será obtido somando todos os dados e dividindo o resultado pelo total de
elementos, que é igual a 75. Agora, observe o seguinte: ao invés de somar 1500 dez vezes,
não é mais fácil multiplicar 10 por 1500? Ao invés de somar 2000 quinze vezes, não é mais
fácil multiplicar 2000 por 15? Utilizaremos esse método a partir de agora
A moda e a mediana possuem valores iguais a 2500 e a média é menor do que 2500.
Assim, a única alternativa possível é a letra E.
Letra C
Resolução:
Mediana: como o total de elementos é igual a 50 (número par) temos que encontrar os dois
elementos centrais e fazer a média entre eles. Neste caso, basta dividir 50 por 2 para achar o
1º elemento central, ou seja, o elemento na 25ª posição. O 2º elemento central será o próximo,
ou seja, o elemento na 26ª posição.
O elemento na 25ª posição é igual a 2000 e o elemento na 26ª posição é igual a 2500. Assim
sendo, a mediana é igual a 2250.
Média: devemos somar todos os elementos e dividir por 50, que é o número total de elementos.
Vamos ver uma questão que cobra o conhecimento de gráficos? Lembre-se de que não
muda nada, é só uma maneira diferente de organizar os dados.
Letra E
Resolução:
As alternativas falam sobre média, moda e mediana, então sabemos que se trata de estatística
descritiva.
Sabemos também que estamos trabalhando com dados em rol, porque as colunas estão
espaçadas, ou seja, sabemos exatamente quantos recolhimentos de R$500 foram feitos, assim
como quantos recolhimentos de R$1000, etc.
Moda: é igual a 1500, pois é o valor com a frequência mais elevada. Basta observar qual é
coluna com a maior altura.
Mediana: o total de elementos é igual a 200 (número par). Devemos fazer a média entre o
elemento na 100ª e na 101ª posição.
Ambos os elementos são iguais a 1500, então a mediana será igual a 1500.
Sabendo que a moda e a mediana são iguais a 1500, podemos eliminar somente a alternativa
D.
Com relação a este levantamento, a média aritmética (número de processos por dia), a
mediana e a moda são iguais, respectivamente, a
Letra B
Resolução:
Moda é o valor que mais se repete. Basta observar que este valor é aquele representado pela
maior coluna, ou seja, a moda é igual a 4. Assim, ficamos apenas com as alternativas B e E.
Mediana é o elemento central do conjunto de dados. Como estamos trabalhando com dados
em rol, é importante saber se o total de elementos é um número par ou ímpar. O total de
elemento é igual a 250, número par, portanto a mediana será igual à média aritmética entre o
125º e o 126º elemento. Como ambos são iguais a 4, a mediana também será igual a 4.
Para calcularmos a média, devemos somar todos os valores e dividir pelo tamanho do banco
de dados, ou seja, dividir por 250.
Antes de dar prosseguimento na matéria, gostaria de mostrar uma novidade que a FCC
apresentou nas últimas provas. O conteúdo é o mesmo, mas mudaram um pouco a forma de
cobrar a questão.
Em um período de 140 dias foi analisado o número de reclamações registradas por dia em um
guichê de uma repartição pública. Verificou-se que o número de dias ( ) em que ocorreram i
reclamações (0 i 6) pode ser obtido pela fórmula: . A soma dos valores da
média aritmética, da mediana e da moda (número de reclamações por dia), é igual a
(A) 10,4.
(B) 10,9.
(C) 11,4.
(D) 12,0.
(E) 12,6.
Letra B
Resolução:
2
Valor (i) Frequência = +8 +9
0 -0+0+9=9
1 - 1 + 8 + 9 = 16
2 - 4 + 16 + 9 = 21
3 - 9 + 24 + 9 = 24
4 - 16 + 32 + 9 = 25
5 - 25 + 40 + 9 = 24
6 - 36 + 48 + 9 = 21
Mediana: como o número total de elementos é igual a 140 (número par), devemos fazer a
média entre os elementos na 70ª e na 71ª posição.
O elemento na 70ª posição é igual a 3 e o elemento na 71ª posição é igual a 4. Assim, a
mediana é igual a 3,5.
A soma dos 3 valores é aproximadamente igual a 10,97 e a alternativa que melhor se encaixa é
a letra B.
Além da média aritmética, existem outros tipos de média, tais como a harmônica e a
geométrica. Nas provas da FCC, não é comum a cobrança de média harmônica ou de média
geométrica. No entanto, a ESAF costuma cobrar questões teóricas sobre isso em provas. Por
conta disso, devemos ter em mente a seguinte relação:
A relação acima será sempre verdadeira para qualquer conjunto de dados. A única
ocasião em que as 3 médias são iguais ocorre quando os valores de todos os dados são iguais
(por exemplo: 5 5 5 5 5).
Dica: para decorar a relação acima, observe a ordem alfabética (Aritmética, Geométrica e
Harmônica). Note que a relação segue uma ordem alfabética, de modo que a média aritmética
é a maior.
Letra D
Resolução:
Para provas que não são específicas para o cargo de estatístico, garanto que o cálculo
da média harmônica não será objeto de questão. No entanto, a FGV cobrou o cálculo da média
geométrica em seu concurso para o ICMS/RJ em 2011. Como é algo simples de aprender,
creio que vale a pena conhecer a fórmula:
(A) 2,25.
(B) 1,75.
(C) 2.
(D) 2,4.
(E) 2,5.
Letra C
Resolução:
Média geométrica = √ √ √
Observe as posições da moda (Mo), média (Me) e mediana (Md) das distribuições de
frequência abaixo:
Mo = Me = Md Mo Md Me Me Md Mo
Mo < Md < Me Me < Md < Mo
Letra C
Resolução:
Se a curva é assimétrica negativa, a moda deve ter o maior valor e a média o menor valor.
(A) I.
(B) II.
(C) I e II.
(D) I e III.
(E) II e III.
Letra D
Resolução:
Item I: Perfeito, basta lembrar que a distribuição simétrica positiva tem a cauda mais alongada
para a direita.
Item II: Item falso. Nas distribuição simétrica negativa, média < mediana < moda
Item III: Não precisava nem esquentar com a fórmula. Se a média é maior que a moda, temos
uma distribuição simétrica positiva. Item correto.
A média aritmética dos três conjuntos é igual a 5, mas existe uma grande diferença
entre eles. Notamos então que apenas a média, ou qualquer outra medida de posição, não é
suficiente para descrever um conjunto de dados. Devemos também analisar a variabilidade das
informações.
O desvio médio, como o próprio nome diz, calcula a média dos desvios em relação à
média. Tome por exemplo o 3º conjunto de dados. A média aritmética do conjunto é igual a 5 e,
portanto, devemos somar todos os desvios em relação a este valor e dividir pelo número de
elementos. O cálculo do desvio médio fica assim:
( ) ( ) ( ) ( )
∑ ( )
Note que o desvio médio é igual a zero, como acontece no 1º conjunto de dados. Mas
note também que os 2 conjuntos diferem entre si significativamente. Por não ser uma boa
medida de dispersão, pois pode não refletir com transparência as informações, o desvio médio
não é muito cobrado em provas de concurso.
A variância é uma das medidas de dispersão mais utilizadas e seu cálculo se parece
com o cálculo do desvio médio. A diferença é que somamos os quadrados dos desvios ao
invés de somarmos apenas os desvios. Isso faz com que não ocorra o problema acima. Vamos
utilizar novamente o 3º conjunto de dados como exemplo. A variância é calculada da seguinte
maneira:
( ) ( ) ( ) ( )
∑ ( )
Observação 1: Existe uma outra forma de calcular a variância que deve ser decorada! Repito:
deve ser decorada! Muitos exercícios só podem ser resolvidos desta maneira. Esta 2ª
forma é a seguinte:
( )
( )
(∑ )
∑
Dica: Para não perder tempo na hora da prova, é importante que o candidato saiba o que
utilizar na resolução do exercício, assim que “bater o olho no enunciado”. Uma dica que
funciona na grande maioria das vezes é o seguinte: em relação ao cálculo da variância, sempre
que o enunciado informar sobre valores de somatórios, devemos utilizar a 2ª fórmula.
√
Notamos então que, quanto mais próximo de zero for o valor da variância ou do desvio
padrão, mais homogêneo será o conjunto de dados.
Vamos ver uma questão que só pode ser resolvida através da 2ª fórmula?
(A) 0,8.
(B) 1,2.
(C) 1,8.
(D) 2,4.
(E) 3,0.
Letra C
Resolução:
;∑ ·;
O 1º passo é encontrar a variância. Como o desvio padrão é igual a raiz quadrada da variância,
temos o seguinte:
√ ( )
(∑ )
∑
Então,
(∑ )
(∑ )
→
(∑ ) (∑ ) ∑ √
Calcule a variância dos dois conjuntos de dados acima. Você vai perceber que a
variância dos pesos dos homens adultos é maior do que a variância dos pesos dos bebês.
Mas, vamos parar e raciocinar um pouco. Pegue o elemento central de cada um dos dados e
observe a variação para baixo e para cima. No caso dos bebês, variar 1kg em relação ao
elemento central equivale a 50%. No caso dos homens adultos, variar 10kg em relação ao
elemento central equivale a 10%.
Pela lógica, a variabilidade dos bebês é maior do que a variabilidade dos homens
adultos! No entanto, o cálculo da variância diz o contrário. E agora, qual o critério para dizer
qual conjunto de dados possui maior variabilidade?
Pessoal, a lógica está certa. A variabilidade dos bebês é maior do que a dos homens
adultos. “Pô Dyodi, então pra que serve a variância?!”. A variância serve para muitas coisas,
mas no caso de comparação entre diferentes conjuntos de dados, a melhor medida é o
coeficiente de variação.
Voltando ao exemplo dos bebês e dos homens adultos, teremos os seguintes dados:
√
Bebês:
√
Homens adultos:
√
√
Bebês:
√
Homens adultos:
√
(A) I e II.
(B) I e III.
(C) II e IV.
(D) I.
(E) II e III.
Letra D
Resolução:
(A) a média aritmética não é uma boa medida para representar a performance dos funcionários
em face do elevado nível de dispersão das avaliações.
(B) as avaliações da Qualidade foram mais dispersas do que as avaliações da Tempestividade.
(C) as avaliações da Qualidade foram mais homogêneas do que as da Tempestividade.
(D) os funcionários demoram mais para realizar as tarefas, mas a qualidade das tarefas é
melhor.
(E) nada se pode afirmar
Letra C
Resolução:
Letra D
Resolução:
Como o enunciado cobra o valor do coeficiente de variação, devemos ter mente o que
devemos buscar para encontrar a solução: o valor do desvio padrão e o valor da média.
∑ ∑
Agora, para achar o valor do desvio padrão devemos primeiro encontrar o valor da variância.
Como o exercício fornece o valor de somatórios, devemos aplicar a 2ª fórmula da variância.
(∑ ) ( )
∑
(∑ ) ( )
∑
Assim,
O coeficiente de variação de X é
(A) 0,30
(B) 0,325
(C) 0,35
(D) 0,375
(E) 0,39
Letra D
Resolução:
Sabemos que para calcular o coeficiente de variação, precisamos apenas dos valores da
média e do desvio padrão.
A média é facilmente calculada pela divisão do somatório de todos os valores pelo número total
de elementos:
O desvio padrão é calculado através da raiz quadrada da variância. Assim, resta-nos calcular o
valor da variância. Utilizando a 2ª fórmula da variância:
Então:
(A) I.
(B) II.
(C) III.
(D) I e IV.
(E) IV.
Letra E
Resolução:
Por enquanto, vamos analisar somente os itens que tratam de estatística descritiva. Os outros
itens serão trabalhados no decorrer do curso.
Item III: para comparar a variabilidade entre conjuntos de dados, vimos que o coeficiente de
variação é uma melhor medida.
{3,5,5,7}
{6,8,8,10}
{9,15,15,21}
{3,5,5,7,1000}
IV. (suprimido)
Está correto o que se afirma APENAS em
(A) I e II.
(B) I e III.
(C) II e IV.
(D) I.
(E) II e III.
Letra D
Resolução:
A média é muito afetada por valores discrepantes, ao contrário do que diz a afirmativa. A
mediana e a moda podem ser consideradas medidas robustas, mas não a média. O item III
está errado.
Letra A
Resolução:
Do modo como está escrito no enunciado, o cálculo da média de Q envolveria números muito
grandes. Então, podemos utilizar as propriedades da média para calcular a média do conjunto
Q:
Q’ = {0,5,10,15,20,25}
A média de Q’ é igual a
(A) 5%.
(B) 6%.
(C) 8%.
(D) 9%.
(E) 10%.
Letra D
Resolução:
1º evento: Todos os elementos do conjunto de dados foram multiplicados por 1,08 (cuidado! O
salário aumentou, então não podemos multiplicar por 0,08).
2º evento: A todos os elementos do conjunto de dados, adicionou-se o valor 180.
(A) Concedendo um reajuste de 10% em todos os salários dos empregados de uma empresa,
tem-se também que a respectiva variância fica multiplicada por 1,10.
(B) Definindo coeficiente de variação (CV) como sendo o quociente da divisão do desvio
padrão pela respectiva média aritmética (diferente de zero) de uma seqüência de valores, tem-
se então que CV também poderá ser obtido dividindo a correspondente variância pelo
quadrado da média aritmética.
(C) Subtraindo um valor fixo de cada salário dos funcionários de uma empresa, tem-se que o
respectivo desvio padrão dos novos valores é igual ao valor do desvio padrão dos valores
anteriores.
(D) Dividindo todos os valores de uma seqüência de números estritamente positivos por 4, tem-
se que o respectivo desvio padrão fica dividido por 2.
(E) Em qualquer distribuição de valores em estudo, a diferença entre a mediana e a moda é
sempre diferente de zero.
Letra C
Resolução:
( )
Alternativa D: se dividirmos todos os elementos por 4, o desvio padrão também será dividido
por 4. Item incorreto.
Alternativa E: em outras palavras, o enunciado está dizendo que a moda e a mediana nunca
podem ter valores iguais. Alternativa absurda.
Percebam que mesmo se você ficar em dúvida em algumas alternativas, quem estudou sabe
que a alternativa C está correta. Esta questão poderia ser facilmente resolvida em questão de
segundos! Numa P1 de área fiscal, isso pode fazer toda a diferença...
Letra E
Resolução:
Um reajuste de 20% significa que o salário aumentou em 20%, ou seja, multiplicaremos todos
os salários por 1,2.
Quadro - Resumo
É afetada Multiplicar
Somar a Subtrair de Dividir por
por por
Tipo todos os todos os todos os
valores todos os
elementos elementos elementos
extremos? elementos
O O
Coeficiente
Dispersão denominador denominador Nada Nada
de -
Relativa é acrescido é subtraído fazer fazer
Variação
de de
Quando temos um grande número de observações, pode ser difícil ou, até mesmo,
desnecessário lidar com os números individuais. Nestes casos, o agrupamento dos dados em
classes é uma ferramenta muito útil para se analisar o conjunto de dados. Por exemplo,
suponha que uma cidade possua 1.000 habitantes e que desejamos descobrir a composição
etária desta cidade. Após uma pesquisa com todos os cidadãos, uma parte do resultado foi
divulgada da seguinte forma:
Supondo que existem pessoas com mais de 100 anos de vida, nossa pesquisa teria
mais de 100 classes de dados a serem analisados. Uma forma de facilitar a análise das
informações é agrupar várias classes em uma. Desta maneira, podemos dizer que existem 33
pessoas na cidade que possuem menos de 5 anos de idade. Uma outra classe poderia ser
aquela na qual os indivíduos possuem idade entre 5 e 9 anos, e assim por diante. Observe que
podemos obter a mesma conclusão sobre a composição etária com menos trabalho do que se
tivéssemos trabalhado com todas as 100 classes individualmente, pois assim só trabalhamos
com 12 classes. Observe um possível resultado da pesquisa:
Nº de pessoas
0 5 anos 33
5 10 anos 167
10 15 anos 40
15 20 anos 60
20 30 anos 100
30 40 anos 150
40 50 anos 50
50 60 anos 80
60 70 anos 20
70 80 anos 90
80 90 anos 110
Total = 1000
Pessoal, cada um dos valores do conjunto de dados pertence a somente uma classe!
Um mesmo valor nunca estará presente em duas classes ao mesmo tempo! Então, resta-nos
saber se a pessoa com exatamente 5 anos de vida está na 1ª ou na 2ª classe.
O sinal indica que o valor a sua esquerda pertence a esta classe, ou seja, a pessoa
com exatamente 5 anos de vida pertence à 2ª classe de dados. Da mesma forma, a pessoa
com 10 anos de vida pertence à 3ª classe de dados. A pessoa com 4 anos e 364 dias de vida
pertence à 1ª classe, e assim por diante. Dizemos que os intervalos são fechados à esquerda e
abertos à direita.
100 pessoas com idade entre 20 anos e 30 anos, mas não sabemos quantas possuem 20,
quantas possuem 21, e assim por diante.
Desta forma, saiba que quando os dados estão agrupados, ocorre perda de
informações. Este tipo de conhecimento pode ser cobrado em questões teóricas. Agora,
vamos aos cálculos das medidas de posição!
Do mesmo modo que fizemos para os dados em rol, este método é utilizado quando
trabalhamos com tabelas de frequências por questões de praticidade. Se fôssemos somar um
a uma todos os elementos, teríamos o seguinte:
33x 167x 40x 60x 100x 150x 50x 80x 20x 90x 110x 100x
O método vale tanto para frequências simples absolutas como para frequências
simples relativas.
Em relação à moda, descobrir a classe modal é tarefa simples: basta analisar qual a
classe com maior frequência. No nosso exemplo, a classe modal é aquela na qual os
indivíduos possuem entre 30 e 40 anos. Neste ponto da matéria o aluno deve se perguntar:
mas e se a questão cobrar um valor exato da moda, é possível encontrar este valor? A
resposta é afirmativa. No entanto, este tipo de questão somente costuma ser cobrada em
provas com especialidade em estatística e, mesmo assim, a própria questão fornece a fórmula
necessária para o cálculo (fórmula de Czuber, fórmula de King ou fórmula de Pearson). Desta
maneira, não estudaremos questões sobre o valor exato da moda para dados agrupados.
“Dyodi, não entendi. Qual a diferença? Por que não precisamos encontrar o valor na
501ª posição e fazer a média entre os dois valores?”. Você concorda comigo que, como os
dados estão agrupados, ocorreu perda de informações e estamos trabalhando com um monte
de suposições? Pois então, se não temos os dados exatos e estamos supondo várias coisas,
não faz sentido tentar buscar uma exatidão para o cálculo da mediana. Basta encontrarmos o
valor na 500ª posição e pronto. E como vamos proceder?
Nº de pessoas
0 5 anos 33
5 10 anos 167
20 30 anos 100
30 40 anos 150
40 50 anos 50
50 60 anos 80
60 70 anos 20
70 80 anos 90
80 90 anos 110
Total = 1000
O primeiro passo é encontrar a classe onde a mediana está situada. Como a mediana
ocupa a 500ª posição, percebemos que ela está na classe em que os indivíduos possuem entre
30 e 40 anos de idade. Agora, basta utilizar uma simples regra de três para encontrar o valor
da mediana:
Sejam:
x = média dos salários obtida através da tabela acima, utilizando os pontos médios das
classes como representantes dos valores de sua respectiva classe.
Md = mediana dos salários obtida pela tabela acima pelo método da interpolação linear.
(A) 9,0
(B) 9,15
(C) 9,25
(D) 9,5
(E) 9,75
Letra B
Resolução:
Para o cálculo da média, vamos considerar o valor de cada intervalo como sendo igual ao
ponto médio da classe.
Então, o valor da 1ª classe será igual a 2, o valor da 2ª classe será igual a 4, o valor da 3ª
classe será igual a 6 e o valor da 4ª classe será igual a 8,5.
Como estamos trabalhando com frequências relativas, a soma das frequências será sempre
igual a 1 (=100%). O cálculo da média fica assim:
O 1º passo é descobrir em qual classe está o valor da mediana: como a mediana é o valor que
ocupa a posição central dos dados, 50% das observações devem estar acima e 50% devem
estar abaixo da mediana. Na 1ª classe, já temos 20% das observações. Na 2ª classe, temos
mais 40% das observações. Então, a mediana está na 2ª classe.
Como precisamos de apenas 30% das observações (pois já temos 20% das observações na
classe anterior), devemos utilizar o método da interpolação linear:
Então,
Para resolver às questões, considere a tabela de frequências relativas abaixo, que mostra a
distribuição dos valores arrecadados, em 2008, sobre determinado tributo, referente a um ramo
de atividade escolhido para análise. Sabe-se que:
II. A média aritmética da distribuição, valor arrecadado por recolhimento, é igual a R$ 3.350,00
(valor encontrado considerando que todos os valores incluídos num certo intervalo de classe
são coincidentes com o ponto médio deste intervalo).
(A) 70%
(B) 65%
(C) 55%
(D) 45%
(E) 40%
Letra C
(A) R$ 3.120,00
(B) R$ 3.200,00
(C) R$ 3.400,00
(D) R$ 3.600,00
(E) R$ 3.800,00
Letra B
Resolução:
Como estamos trabalhando com frequências relativas, sabemos que o total das frequências
deve ser igual a 1. Assim, a soma de x e y deve ser igual a 0,6.
A 1ª questão pede a porcentagem de valores maiores ou iguais a três mil reais. Devemos então
somar as frequências das três últimas classes, que será igual a 0,55, ou 55%.
A 2ª questão pede o valor da mediana. Como estamos diante de dados agrupados, basta
encontramos o valor que está na posição 0,5.
Considerando as duas primeiras classes, temos 45% do total dos dados. Percebemos então
que a mediana está na 3ª classe de dados. Utilizando o método da interpolação linear:
x = 200
Assim como os dados em rol, os dados agrupados também podem ser cobrados em
forma de gráfico. Vimos no início do capítulo que isso ocorre quando as colunas estão coladas,
sem nenhum espaçamento entre elas. Este tipo de gráfico é conhecido como histograma.
Mostrarei agora as duas maneiras de se cobrar histograma em provas. Observe que a única
diferença fica por conta dos valores no eixo Y.
Letra B
Resolução:
A 1ª coisa a ser feita é contar o total de observações. Temos 10 observações com preços entre
R$1 e R$2, 15 observações com preços entre R$2 e R$3, e assim por diante.
Letra A existem 10 observações com preços maiores do que R$5, ou seja, 12,5% das
observações. Item incorreto.
Letra B existem 40 observações com preços entre R$2 e R$4, ou seja 50% das
observações. Item correto.
Letra C existem 70 observações com preços superiores a R$2, ou seja 87,5% das
observações. Item incorreto.
Letra D existem 25 observações com preços entre R$1 e R$3, ou seja, 31,25% das
observações. Item incorreto.
Letra E existem 60 observações com preços entre R$2 e R$5, ou seja, 75% das
observações. Item incorreto.
(A) R$ 100,00
(B) R$ 400,00
(C) R$ 800,00
(D) R$ 900,00
(E) R$ 1.000,00
Letra A
Resolução:
Para calcular a mediana, precisamos saber qual é o total de elementos, que é 2000. Então,
precisamos descobrir qual o valor do elemento que está na 1000ª posição.
É possível perceber que este elemento está na 3ª classe de dados, pois já temos 600 nas duas
primeiras classe. Utilizando a técnica da interpolação linear:
x = 800
Por sua vez, o gráfico no lado direito apresenta no eixo Y as densidades de frequência.
Não se preocupe com a definição de densidade de frequência, apenas saiba o seguinte: a
frequência relativa do intervalo é igual à amplitude do intervalo multiplicado pela
densidade. Conhecendo as frequências relativas, a questão pode ser resolvida de acordo com
o conteúdo estudado até agora.
(A) 70%.
(B) 60%.
(C) 55%.
(D) 40%.
(E) 30%.
Letra A
Resolução:
Assim,
Como o exercício pede a frequência relativa quando os preços são superiores a R$3000 e
inferiores a R$8000, temos que somar 30% e 40%. A resposta é igual a 70%.
Considerando que todos os intervalos classe são fechados à esquerda e abertos à direita, a
porcentagem P dos funcionários que ganham no mínimo R$ 2.000,00 e menos que R$
6.000,00 é tal que
(A) P 65%.
(B) 65% < P 70%.
(C) 70% < P 75%.
(D) 75% < P 80%.
(E) P > 80%.
Letra C
Resolução:
A questão pede a porcentagem de funcionários que ganham entre dois mil reais e seis mil
reais, que é igual a 75%. Assim, a única alternativa correta é a letra C.
Observe o exemplo abaixo para entender o que é este gráfico de ramo e folhas:
Peso em Kg
5 112368
6 1289
7 12233345
8 469
9 08
Ramos Folhas
A ideia deste gráfico é apenas organizar os dados de uma outra maneira. Segundo ele,
existem 2 pessoas com 51 kg, 1 pessoa com 52 kg, 1 pessoa com 53 kg, e assim por diante.
Deste modo, podemos observar que existem 23 elementos do conjunto, que a mediana é igual
a 72 kg e que a moda é igual a 73 kg.
(A) 67,0
(B) 66,5
(C) 66,0
(D) 65,5
(E) 65,0
Letra A
Resolução:
Como o número de observações é par, a mediana representa a média aritmética entre o 20º e
o 21º elementos.
(A) 0
(B) 3
(C) 10
(D) 14
(E) 16
Letra D
Resolução:
Assim, a diferença entre moda e mediana é igual a 14. Alternativa correta letra D.
O quantil é uma palavra estranha para algo simples. Vamos voltar um pouco no tempo
e nos lembrar da professora da 1ª série ensinando os alunos a fazer operações de divisão. Se
eu dividir o todo em quatro partes iguais, qual é a parte que cabe a cada integrante de um
grupo de quatro amigos? A resposta seria 1/4, certo? Perfeito. E, para dividir este todo em
quatro partes iguais, quantas linhas divisórias eu tive que fazer? A resposta correta é 3, e
essas linhas divisórias são os chamados quartis.
No caso acima, a 1ª linha divisória, q(0,25), é chamada de 1º quartil. Isso quer dizer
que 25% dos dados estão abaixo deste valor. A 2ª linha divisória, q(0,5), é chamada de 2º
quartil e quer dizer que 50% dos dados estão abaixo deste valor. Por fim, a 3ª linha divisória,
q(0,75), é chamada de 3º quartil e 75% dos dados estão abaixo deste valor.
q(0,25) = 1º quartil =
q(0,5) = 2º quartil = mediana =
q(0,75) = 3º quartil =
q(0,1) = 1º decil
q(0,2) = 2º decil
q(0,3) = 3º decil, etc
Uma das formas que as questões podem cobrar este tema é através da interpolação
linear. Suponha que queiramos analisar o Q.I. de 1100 pessoas de certa cidade e encontramos
o seguinte resultado (normalmente, o valor do Q.I. de uma pessoa considerada normal varia
entre 90 e 110 pontos):
Nº de pessoas
68 70 pontos 5
70 80 pontos 50
80 90 pontos 150
Total = 1100
Suponha que a questão peça para você encontrar o valor de q(0,25). Como resolvê-la?
Primeiramente, devemos saber que estamos atrás do valor no qual 25% dos dados fiquem
abaixo deste valor. Como temos 1100 dados, queremos encontrar o valor da 275ª posição.
Então, o 1º passo é encontrar a classe na qual está tal valor. No nosso exemplo, esta classe
seria de 90 a 100 pontos. Através da interpolação linear, temos o seguinte:
O 1º passo é determinar os valores dos 3 quantis acima num eixo (pode ser horizontal
ou vertical, pois as bancas não dão importância para isso). Estes 3 valores formarão uma caixa
com um risco no meio (não necessariamente na metade da caixa; a posição do risco irá
depender da simetria dos dados). Note que o risco está levemente mais afastado para à
esquerda da caixa, pois q(0,50) está mais próximo de q(0,25) do que de q(0,75):
Limite inferior = ( )–
Limite superior = ( )
O 3º passo é verificar se existem dados que estão fora da caixa, mas que não
ultrapassam os limites encontrados. Se existirem, devemos ligar os extremos da caixa até o
último valor dentro dos limites (isso deve ser feito tanto para os dados inferiores a q(0,25) como
para os dados superiores a q(0,75)).
No nosso exemplo, a linha da esquerda irá até o valor 68, que é o último valor inferior à
q(0,25) e que não ultrapasse o limite. A linha da direita, por sua vez, chegará até o limite
superior e os dados que ultrapassarem o limite não serão ligados (são os chamados outliers,
ou pontos fora da curva).
Letra B
Resolução:
Item I O Box-Plot é um diagrama que fornece dados sobre mediana, variabilidade, mas não
a média. Não é possível obter o valor da média através de um Box-Plot.
Item II Item correto. Numa distribuição simétrica, a mediana ocuparia a posição central da
caixa. Como a mediana está situada na parte esquerda da caixa, isso quer dizer que os valores
acima da mediana estão mais dispersos do que os valores abaixo da mediana. Isso quer dizer
que o grupo A possui uma distribuição assimétrica positiva (à direita).
Item III O Box-Plot é um diagrama que não fornece nenhuma informação sobre o número de
dados observados. Não podemos dizer que a afirmativa é verdadeira.
Letra E
Resolução:
Letra A A distância interquartil é igual à largura da caixa, ou seja, q(0,75) – q(0,25). A
distância interquartil do grupo 1 é aproximadamente igual a (5500 – 3000) = 2500. Por sua vez,
a distância interquartil do grupo 2 é igual a (5000 – 3000) = 2000. Afirmativa falsa.
Letra B Quando o item diz “menor valor”, devemos considerar toda a extensão do Box-Plot,
ou seja, os limites superior e inferior devem estar incluídos na análise. Assim, como o limite
inferior do grupo 2 é menor que o do grupo 1, a afirmativa é falsa.
Letra C O grupo 1 possui uma distribuição assimétrica negativa (à esquerda), uma vez que
os valores abaixo da mediana estão mais dispersos que os valores acima da mediana. A
afirmativa é falsa.
Letra D Como devemos levar em conta os limites inferior e superior, conclui-se facilmente
que a amplitude do grupo 1 é menor que a do grupo 2. Afirmativa falsa.
Para comparar os lucros de dois grupos de empresas, I e II, foram preparados desenhos
esquemáticos com os valores observados dos lucros, em milhões de reais, representados
abaixo.
(A) o menor lucro apresentado pelas empresas do grupo I é 1,0 milhão de reais.
(B) a distribuição dos lucros dos dois grupos de empresas são simétricas.
(C) a distância interquartil do grupo I é superior à distância interquartil do grupo II.
(D) o número de empresas do grupo II é menor que o número de empresas do grupo I.
(E) o valor da mediana do grupo I é superior ao valor da mediana do grupo II.
Letra C
Resolução:
Mais uma vez a banca tentando fazer uma pegadinha sobre box-plot.
Já sabemos que devemos analisar não só a caixa, mas também as retas ligadas na caixa.
Alternativa A: percebe-se claramente que o menor lucro apresentado é menor do que 1 milhão,
pois a reta ligada à caixa do grupo I está abaixo deste nível.
Alternativa D: um gráfico de box-plot não nos diz nada sobre média e nem sobre número de
elementos.
Alternativa E: a mediana é representada pela reta no meio da caixa. Percebe-se que ela é igual
nos dois grupos.
A FCC, de vez em quando, cobra questões sobre variância conjunta (concurso de 2010
para o cargo de APOF, por exemplo). Vamos entender o que é este “troço”, pois é um tipo de
questão que, se cair, você deve matar em 1 minuto no máximo!
Grupo A
Grupo B
Agora, suponha que se deseja unir estes 2 grupos, isto é, todos farão parte do mesmo
grupo, não existindo mais grupos A e B. Qual será a nova variância do grupo? Este é o cálculo
da variância conjunta!
Quando as médias dos 2 grupos forem iguais, basta fazermos um cálculo da média
ponderada das respectivas variâncias:
Se as médias dos 2 grupos não forem iguais, pule o exercício, pois as contas tomarão
um pouco do seu precioso tempo. Além disso, só vi este tipo de questão numa prova do
BACEN em 2006 e que eu nem coloquei no material. Se você estiver muito curioso, mande-me
um email ou me procure pessoalmente que eu explico a resolução. Digo isto porque como a
variância conjunta já não é muito cobrada, então imagine variância conjunta com médias
diferentes?! Vamos ver a questão de APOF mencionada?
(A) 101.840
(B) 102.400
(C) 104.000
(D) 122.500
(E) 125.000
Letra C
Resolução:
Então, utilizando a fórmula da variância conjunta, que nada mais é do que uma média
ponderada das respectivas variâncias, temos que:
(A) 20.000,00
(B) 25.000,00
(C) 32.500,00
(D) 40.000,00
(E) 62.500,00
Letra A
Resolução:
Média nº de elementos
Grupo A
Grupo B
Suponha que queremos unir os dois grupos A e B, de forma que eles se tornem um
único grupo. A média conjunta será a média deste novo grupo.
∑ ∑
(A)1/2
(B)1/3
(C)3/4
(D)3/5
(E)2/3
Letra E
Resolução:
Sabemos que o exercício é de média conjunta porque o enunciado fornece a média dos
salários de toda a repartição e depois fornece informações sobre dois grupos segregados
dessa repartição.
e
e
Vamos chamar a média dos homens de e a média das mulheres de , a partir de agora.
Assim:
É simples: primeiro some o numerador com o denominador, que é igual a 3; depois observe
linha a linha. No caso acima, de cada 3 pessoas, duas são mulheres e uma pessoa é homem.