Você está na página 1de 145

Aula 09 (Prof.

Diego
Carvalho e Emannuelle
Gouveia)
ANAC (Cargo 3 - Especialista em
Regulação de Aviação Civil - Área 3)
Análise de Dados e Informações - 2023
Autor:
(Pós-Edital)
Diego Carvalho, Emannuelle
Gouveia Rolim, Equipe Informática
e TI

24 de Dezembro de 2023
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Índice
1) Análise Exploratória de Dados - Teoria
..............................................................................................................................................................................................3

2) Análise Exploratória de Dados - Resumo


..............................................................................................................................................................................................
33

3) Análise Exploratória de Dados - Questões Comentadas


..............................................................................................................................................................................................
38

4) Análise Exploratória de Dados - Lista de Questões


..............................................................................................................................................................................................
106

2
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

ANÁLISE EXPLORATÓRIA DE DADOS


Conceitos Básicos
INCIDÊNCIA EM PROVA: baixíssima

Diferentes campos da ciência, economia, engenharia e marketing acumulam e armazenam dados


principalmente em bancos de dados eletrônicos. Decisões apropriadas e bem estabelecidas devem
ser tomadas usando os dados coletados. É praticamente impossível entender conjuntos de dados
grandes sem a ajuda de programas de computador. Para ter certeza dos insights que os dados
coletados fornecem e para tomar decisões adicionais, é comum fazer uma mineração dos dados.

A análise exploratória de dados é fundamental e comumente um dos primeiros passos da


mineração de dados. Ela nos permite visualizar os dados para entendê-los, bem como criar
hipóteses para análises posteriores. A análise exploratória gira em torno da criação de uma
síntese de dados ou insights para as próximas etapas em um projeto de mineração de dados. A
AED revela a verdade sobre o conteúdo sem fazer nenhuma suposição subjacente.

Os principais componentes da análise exploratória de dados incluem a síntese dos dados, a


análise estatística e a visualização de dados. John W. Tukey – renomado autor – definiu a análise
exploratória de dados como um "trabalho de detetive de dados”. É principalmente uma filosofia de
análise de dados em que o pesquisador examina os dados sem nenhuma ideia pré-concebida para
descobrir o que os dados podem dizer a ele sobre os fenômenos que estão sendo estudados.

Tendo entendido o que é a análise exploratória de dados e seu significado, vamos entender as várias
etapas envolvidas na análise de dados. Basicamente, envolve quatro etapas diferentes:

ETAPA DESCRIÇÃO
Antes de tentar extrair informações úteis dos dados, é essencial definir o problema de negócios
a ser resolvido. A definição do problema funciona como a força motriz para a execução de um
Definição do plano de análise de dados. As principais tarefas envolvidas na definição do problema são definir
problema o objetivo principal da análise, definir as principais entregas, delinear as principais funções e
responsabilidades, obter o status atual dos dados, definir o cronograma e realizar a análise de
custo/benefício. Com base nessa definição de problema, um plano de execução pode ser criado.
Esta etapa envolve métodos para preparar o conjunto de dados antes da análise real. Nesta
Preparação de
etapa, definimos as fontes de dados, definimos esquemas e tabelas de dados, entendemos as
dados principais características dos dados, limpamos o conjunto de dados, excluímos conjuntos de

3
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

dados não relevantes, transformamos os dados e dividimos os dados em blocos necessários


para análise.

Esta é uma das etapas mais importantes que lida com estatísticas descritivas e análise dos
dados. As principais tarefas envolvem resumir os dados, encontrar a correlação oculta e os
relacionamentos entre os dados, desenvolver modelos preditivos, avaliar os modelos e calcular
Análise de dados
as precisões. Algumas das técnicas usadas para sumarização de dados são tabelas de resumo,
gráficos, estatísticas descritivas, estatísticas inferenciais, estatísticas de correlação, pesquisa,
agrupamento e modelos matemáticos.
Esta etapa envolve a apresentação do conjunto de dados ao público-alvo na forma de gráficos,
Desenvolvimento tabelas de resumo, mapas e diagramas. Essa também é uma etapa essencial, pois o resultado
analisado do conjunto de dados deve ser interpretável pelas partes interessadas do negócio,
e representação que é um dos principais objetivos da AED. A maioria das técnicas de análise gráfica inclui
dos resultados gráficos de dispersão, gráficos de caracteres, histogramas, gráficos de caixa, gráficos de
resíduos, gráficos de média e outros.

(TRF3 – 2007) Data Mining pode ser descrito como:

a) modelagem multidimensional.
b) análise funcional.
c) modelagem temporal.
d) análise de dados exploratória.
e) desnormalização de banco de dados relacional
_______________________
Comentários: conforme vimos em aula, Data Mining pode ser descrito como Análise de Dados Exploratória (Letra D).

A estatística possui um conjunto básico de ferramentas! Se você pensar no processo estatístico


como uma série de estágios pelos quais se passa para ir de uma pergunta a uma resposta, você pode
imaginar que em cada estágio você encontrará um grupo de ferramentas e um conjunto de termos
(ou jargão estatístico) para acompanhá-lo. Saber o que a linguagem estatística realmente
significa fornece uma vantagem para realizar a análise exploratória de dados.

No tópico seguinte, vamos estudar diversas dessas ferramentas básicas de estatística. Fique
tranquilo, vocês já estudaram a maioria delas na escola...

Áreas da Estatística
INCIDÊNCIA EM PROVA: baixíssima

Estatística Descritiva

4
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Uma estatística é um número que resume os dados coletados de uma amostra. As pessoas usam
muitas estatísticas diferentes para resumir dados. Por exemplo, os dados podem ser resumidos
como uma porcentagem (30% das famílias brasileiras da amostra...), uma média (o preço médio de
uma casa nesta amostra é...), uma mediana (o salário médio dos corretores de imóveis nesta
amostra foi...), ou um percentil (o peso de seu bebê está no 90º percentil da amostra este mês).

O tipo de estatística calculada depende do tipo de dados. Por exemplo, porcentagens são usadas
para resumir dados categóricos e médias são usadas para resumir dados numéricos. O preço de uma
casa é uma variável numérica, então você pode calcular sua média ou desvio padrão. No entanto, a
cor de uma casa é uma variável categórica; encontrar o desvio padrão ou mediana da cor não faz
sentido. Nesse caso, as estatísticas importantes são as porcentagens de casas de cada cor.

Estatística Inferencial

A Estatística Inferencial postula um conjunto de técnicas que permitem utilizar dados oriundos
de uma amostra para generalizações sobre a população. Constitui esse conjunto de técnicas: a
determinação do número de observações (tamanho da amostra); o esquema de seleção das
unidades observacionais; o cálculo das medidas estatísticas; a determinação da confiança nas
estimativas; a significância dos testes estatísticos; a precisão das estimativas; dentre outras.

Essa generalização é feita a partir do processo de estimação das medidas estatísticas que podem
ser calculadas, porém não sem antes se antecipar um grau de certeza de que a amostra esteja
fornecendo os dados que seriam de se esperar caso toda a população fosse estudada. Nesse caso,
o ramo da matemática que será utilizado para se avaliar tal grau de certeza é a probabilidade. Com
ela teremos condições de mensurar a fidedignidade de cada inferência feita com base na amostra.

Estatística Probabilística

Estatística probabilística é a área da estatística que estuda a incerteza e as probabilidades


associadas a eventos aleatórios. Esta área da estatística fornece um meio de prever resultados
incertos usando análise matemática e modelos de probabilidade. Aplicações incluem análise de
investimentos, análise de riscos e estatística médica. A estatística probabilística usa técnicas para
estimar parâmetros de distribuições de probabilidade e para testar hipóteses estatísticas.

Dentro do nosso contexto, vamos nos focar mais na estatística descritiva do que na estatística
inferencial ou probabilística. Fechado?

5
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

(CM-SC – 2013) Trata-se da estatística que tem as atribuições de obtenção, organização,


redução e representação de dados estatísticos, bem como a obtenção de algumas
informações que auxiliam na descrição de um fenômeno observado. Esta estatística é
denominada:

a) Coletora.
b) Celetista.
c) Populacional.
d) Amostral.
e) Descritiva
_______________________
Comentários: a estatística que busca obter, organizar, reduzir e representar dados estatísticos que auxiliam na descrição de um
fenômeno observado é a estatística descritiva. A estatística descritiva é um ramo da estatística que é usado para descrever e
organizar dados, usando técnicas como média, mediana, moda, desvio padrão e outras medidas de tendência central e
dispersão. Esta área da estatística tem como objetivo ajudar a compreender os dados e encontrar padrões nos dados (Letra E).

População e Amostra
INCIDÊNCIA EM PROVA: baixa

População

Para praticamente qualquer questão que queira investigar sobre o mundo, você deve centrar sua
atenção em um determinado grupo de indivíduos (por exemplo, um determinado grupo de pessoas,
cidades, animais, tipos de rochas, resultados de exames e assim por diante). Por exemplo: (1) O que
os brasileiros pensam sobre a política externa do país? (2) Qual é a porcentagem de perda de lavoura
de café por geadas no último ano? (3) Qual é a porcentagem de negros na população carcerária?

6
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Em cada um desses exemplos, uma questão é colocada! E em cada caso, você pode identificar um
grupo específico de indivíduos que estão sendo estudados: (1) os brasileiros, (2) lavouras de café,
(3) negros, respectivamente. O grupo de indivíduos que você deseja estudar para responder à sua
pergunta de pesquisa é chamado de população. As populações, no entanto, podem ser difíceis de
definir. Em um bom estudo, os pesquisadores definem a população com muita clareza, enquanto
em um estudo ruim, a população é mal definida.

Vamos pensar na seguinte pergunta: bebês dormem melhor com música? Esse é um bom exemplo
de como pode ser difícil definir uma população. Como exatamente você definiria um bebê? Com
menos de três meses? Menos de um ano? E você quer estudar apenas bebês brasileiros ou todos os
bebês do mundo? Os resultados podem ser diferentes para bebês mais velhos e mais novos, para
bebês brasileiros versus europeus versus africanos e assim por diante.

Muitas vezes, os pesquisadores querem estudar e tirar conclusões sobre uma população ampla, mas
no final – para economizar tempo, dinheiro ou apenas porque não sabem nada melhor – eles
estudam apenas uma população definida de maneira restrita. Esse atalho pode levar a grandes
problemas quando as conclusões são tiradas. Se a população é pequena demais, os resultados
podem não ser bem generalizados.

Amostra

Quando você experimenta uma sopa para ver se está boa de sal, o que você faz? Você mexe a
panela, pega com uma colher, tira um pouco da sopa e prova. Então você tira uma conclusão sobre
toda a panela de sopa sem realmente ter provado tudo. Se sua amostra for coletada de maneira
justa (Ex: você não excluiu propositalmente vegetais que você não gosta), você terá uma boa ideia
de como é o sabor da sopa sem ter que comer tudo. E isso também vale para exame de sangue.

Tirar uma amostra funciona da mesma maneira em estatística. Os pesquisadores querem descobrir
algo sobre uma população, mas não têm tempo ou dinheiro para estudar cada indivíduo da
população. Assim, eles selecionam um subconjunto de indivíduos da população, estudam esses
indivíduos e usam essa informação para tirar conclusões sobre toda a população. Esse subconjunto
da população é chamado de amostra.

Embora a ideia de selecionar uma amostra pareça simples, é tudo menos isso. A forma como uma
amostra é selecionada da população pode significar a diferença entre resultados corretos e justos e
resultados ruins. Alguns dos maiores culpados de deturpação estatística causada por amostragem
ruim são pesquisas feitas na Internet. Você pode encontrar milhares de pesquisas na Internet feitas
por pessoas que se conectam a um determinado site e dão suas opiniões.

Mas mesmo que 50.000 pessoas no Brasil concluíssem uma determinada pesquisa na Internet, isso
não representaria a população de todos os brasileiros. Ele representa apenas as pessoas que têm
acesso à Internet, que se conectaram a esse site específico e que se interessaram o suficiente para

7
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

participar da pesquisa (o que normalmente significa que eles têm opiniões fortes sobre o tópico em
questão).

O resultado de todos esses problemas é o viés (bias), isto é, favoritismo sistemático de certos
indivíduos ou certos resultados do estudo. Como você seleciona uma amostra de forma a evitar viés?
A palavra-chave é aleatoriedade. Uma amostra aleatória é uma amostra selecionada por
oportunidade igual, ou seja, todas as amostras possíveis do mesmo tamanho que a sua tiveram uma
chance igual de serem selecionadas da população.

O que aleatório realmente significa é que nenhum grupo da população é favorecido ou excluído do
processo de seleção. Amostras não aleatórias (ou seja, ruins) são amostras que foram selecionadas
de tal forma que envolveu algum tipo de favoritismo e/ou exclusão automática de parte da
população. Por maior que seja uma amostra, se for baseada em métodos não aleatórios, os
resultados não representarão a população sobre a qual o pesquisador deseja tirar conclusões.

Não se deixe enganar por grandes amostras - primeiro verifique como elas foram selecionadas. Ao
vir pesquisar, procure sempre o termo amostra aleatória. Se você vir esse termo, aprofunde-se nas
letras miúdas para ver como a amostra foi realmente selecionada e use a definição anterior para
verificar se a amostra foi, de fato, selecionada aleatoriamente. Uma pequena amostra aleatória é
melhor do que uma grande não aleatória.

conceitos DESCRIÇÃO
Trata-se de todos os elementos de um grupo de interesse que possuem um caráter
População
comum, e que serão estudados.
Trata-se de uma parte representativa da população, escolhida de forma aleatória para
Amostra
servir de base para as estatísticas.
Trata-se de um levantamento contínuo, ordenado e sistemático da população, onde cada
censo
elemento da população é considerado.

(Prefeitura de Valinhos – 2019) O grupo completo de unidades elementares de pessoas,


objetos ou coisas é denominado, para a estatística, de:

a) amostra.
b) unidades.
c) censo.
d) população.
e) variáveis.
_______________________
Comentários: o grupo completo de unidades elementares de pessoas, objetos ou coisas é denominado, para a estatística, de
população (Letra D).

Classificação de Variáveis
INCIDÊNCIA EM PROVA: média

8
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Antes de falar de variáveis, vamos falar de alguns outros conceitos. Comecemos por dados, que
são valores brutos coletados por meio de um estudo. Ex: perguntei a cinco de meus amigos
quantos animais de estimação eles tinham e recebi os seguintes dados: 0, 2, 1, 4, 18. No entanto,
nem todos dados é número. Se registrássemos o gênero de cada um dos meus amigos, teríamos:
masculino, masculino, feminino, masculino, feminino.

Já um conjunto de dados (também chamado de Data Set) é uma coleção de todos os dados
retirados de sua amostra. Por exemplo, se você mediu os pesos de cinco pacotes e esses pesos
foram 12, 15, 22, 68 e 3 kgs, esses cinco números (12, 15, 22, 68, 3) constituem seu conjunto de
dados. Se você registrar apenas o tamanho geral do pacote (por exemplo, pequeno, médio ou
grande), seu conjunto de dados pode ser algo como: médio, médio, médio, grande, pequeno.

Conforme vimos, as estatísticas são baseadas em dados de amostra, não em dados populacionais.
Se você coletar dados de toda a população, esse processo é chamado de censo. Se você resumir
todas as informações do censo de uma variável em um único número, esse número é um parâmetro,
não uma estatística. Na maioria das vezes, os pesquisadores estão tentando estimar os parâmetros
usando estatísticas.

Por fim, as variáveis – também chamadas de atributo – são as características dos elementos da
amostra que nos interessa averiguar estatisticamente. Em outras palavras, trata-se de uma
unidade de análise que permite ao pesquisador investigar relações entre diferentes elementos. Ao
se fazer um estudo estatístico de um determinado fato ou grupo, temos que considerar o tipo de
variável. Em geral, elas se dividem em variáveis numéricas e categóricas.

Variáveis podem ser classificadas pelo nível de mensuração (o quanto de informação cada variável
apresenta) ou nível de manipulação (como uma variável se relaciona outras).

Quanto ao Nível de Mensuração

nível de
mensuração

NUMÉRICA ou CATEGÓRICA ou
quantitativa qualitativa

DiscretA ContínuA Nominal Ordinal

9
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Numérica

TIPOS DE VARIÁVEL DESCRIÇÃO


Também chamado de atributo quantitativo, é aquele que pode ser medido em uma escala
VARIÁVEL NUMÉRICA quantitativa, ou seja, apresenta valores numéricos que fazem sentido.

Os valores representam um conjunto finito ou enumerável de números, e que resultam


discreto de uma contagem (Ex: número de filhos, número de bactérias por amostra, número de
logins em uma página web, entre outros).
Os valores pertencem a um intervalo de números reais e representam uma mensuração
contínuo (Ex: altura de uma pessoa, peso de uma marmita, salário de um servidor público, entre
outros).

Categórica

TIPOS DE VARIÁVEL DESCRIÇÃO


Também chamado de atributo qualitativo, é aquele que pode assumir valores
VARIÁVEL categóricA categóricos, isto é, representam uma classificação.

São aquelas em que não existe uma ordenação própria entre as categorias (Ex: sexo, cor
Nominal dos olhos, fumante/não fumante, país de origem, profissão, religião, raça, time de
futebol, entre outros).
São aquelas em que existe uma ordenação própria entre as categorias (Ex: Escolaridade
Ordinal (1º, 2º, 3º Graus), Estágio de Doença (Inicial, Intermediário, Terminal), Classe Social
(Classe Baixa, Classe Média, Classe Alta), entre outros)

Galera, um mnemônico para vocês lembrarem:

VARIÁVEL QUANTITATIVA = CONTÍNUA | DISCRETA

Quanto ao Nível de Manipulação

NÍVEL DE MANIPULAÇÃO

DEPENDENTES INDEPENDENTES

A tabela a seguir apresenta as medidas de tendência central que podem ser obtidas com os diversos
tipos de variáveis. Vamos entender a tabela: por meio de variáveis quantitativas discretas, é possível
obter média, mediana e moda; por meio de variáveis quantitativas contínuas, também é possível
obter média, mediana e moda; por meio de variáveis qualitativas ordinais, é possível obter mediana
e moda; e por meio de variáveis qualitativas nominais, é possível obter apenas a moda.

10
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

VARIÁVEL MÉDIA MEDIANA MODA


QUANTITATIVA DISCRETA OK OK OK
QUANTITATIVA CONTÍNUA OK OK OK
QUALITATIVA ORDINAL OK OK
QUALITATIVA NOMINAL OK

Independentes

TIPOS DE VARIÁVEL DESCRIÇÃO


Representa uma grandeza que está sendo manipulada em um experimento – x é, muitas
vezes, a variável usada para representar a variável independente em uma equação.
VARIÁVEL independente Exemplo: você está realizando tarefas para ganhar sua mesada. Para cada tarefa que você
realiza, você ganha R$3. A variável independente é a quantidade de tarefas que você faz,
pois essa é a variável sobre a qual você tem controle.

Dependentes

TIPOS DE VARIÁVEL DESCRIÇÃO


Representa uma grandeza cujo valor depende de como a variável independente é
manipulada – y é, muitas vezes, a variável usada para representar a variável dependente
VARIÁVEL independente em uma equação. Exemplo: você está realizando tarefas para ganhar sua mesada. Para
cada tarefa que você realiza, você ganha $3. A variável dependente é a quantia de dinheiro
que você ganha, pois ela depende de quantas tarefas você realiza.

(TCE/PB – 2018) Na análise exploratória de dados, são examinados conjuntos de dados


cujas principais características serão resumidas, muitas vezes com métodos visuais.
Acerca desse assunto, assinale a opção correta.

a) Uma variável de nível de manipulação nominal identifica as categorias.


b) Uma variável de nível de manipulação contínua pode assumir infinitos valores.
c) Uma variável de nível de mensuração discreta pode assumir apenas alguns valores.
d) Uma variável de nível de mensuração define como uma variável se relaciona com as
outras.
e) Uma variável de nível de manipulação define a quantidade de informação apresentada
por cada variável.
_______________________
Comentários: (a) Errado, variável nominal é de mensuração e, não, manipulação; (b) Errado, variáveis contínuas são de nível de
mensuração e, não, manipulação; (c) Correto, variável de nível de mensuração discreta pode assumir um número finito de
valores; (d) Errado, essas são as variáveis de nível de manipulação e, não, mensuração; (e) Errado, a variável de nível de
manipulação não define a quantidade de informação das variáveis, mas representa a relação entre as variáveis independentes e
dependentes (Letra C).

11
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Medidas Estatísticas
INCIDÊNCIA EM PROVA: Altíssima

Medidas estatísticas resumem ou descrevem o resultado de um conjunto de dados para comparar


diferentes grupos ou para medir a tendência de um conjunto de dados ao longo do tempo. Vejamos:

Medidas de Tendência Central

A medida de tendência central tende a descrever a média ou o valor médio dos conjuntos de
dados que supostamente fornecem um resumo ideal de todo o conjunto de medições. Esse valor
é um número que é de alguma forma central para o conjunto. As medidas mais comuns para analisar
a frequência de distribuição dos dados são a média, a mediana e a moda. Vamos vê-los em detalhes
a seguir...

Média

A média é a estatística mais comum usada para medir o centro, ou meio, de um conjunto de dados
numéricos. A média é a soma de todos os números dividida pelo número total de números. A
média de toda a população é chamada de média populacional, e a média de uma amostra de média
amostral. A média pode não ser uma representação justa dos dados, porque ela é facilmente
influenciada por outliers (valores atípicos – muito pequenos ou grandes no conjunto de dados).

Considera o conjunto de dados x = (2, 2, 3, 4, 5, 6, 8, 9, 12). Logo, a média desse conjunto de dados
seria dada por:

2 + 2 + 3 + 4 + 5 + 6 + 8 + 9 + 12
Média x = = 5,66
9

Mediana

A mediana é outra maneira de medir o centro de um conjunto de dados numéricos – trata-se da


medida que divide um conjunto de dados em dois grupos de tamanho igual. Em um conjunto de
dados numéricos, a mediana é o ponto em que há um número igual de pontos de dados cujos
valores estão acima e abaixo do valor mediano. Assim, a mediana é verdadeiramente o meio do
conjunto de dados.

Na próxima vez que você ouvir falar em média, verifique se falam também da mediana. Se não,
peça! A média e a mediana são duas representações diferentes do meio de um conjunto de dados e
muitas vezes podem fornecer duas histórias muito diferentes sobre os dados, especialmente
quando o conjunto de dados contém outliers (números muito grandes ou pequenos que não são
típicos). No conjunto de dados x, a mediana será 5. Vejam só...

x={ , , , , , , , ,

12
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Moda

Trata-se de um valor que ocorre com maior frequência em um conjunto de valores. Sua aplicação
não depende do nível de mensuração da variável, sendo aplicada tanto a fenômenos qualitativos
quanto a fenômenos quantitativos. Se todos os valores forem diferentes não há moda (amodal);
por outro lado, um conjunto pode ser unimodal (caso do exemplo a seguir), bimodal, trimodal ou
multimodal. No nosso conjunto de dados, o valor que ocorre com maior frequência é o 2.

x={ , , , , , , , ,

Medidas de Dispersão

Vamos falar agora um pouco sobre dispersão! A dispersão é a variabilidade que os dados
apresentam entre si. Se todos os valores forem iguais, não há dispersão; se os dados não são
iguais, existe dispersão entre os dados. A dispersão é pequena quando os valores são próximos
uns dos outros; se os valores são muito diferentes entre si, a dispersão é grande, assim, as medidas
de dispersão apresentam o grau de agregação dos dados.

Variância e Desvio Padrão

Variância e Desvio Padrão são os mecanismos estatísticos mais comuns para medir e descrever
a dispersão de uma distribuição. A variância (s2) é calculada determinando-se o quão distante as
observações dentro de uma distribuição se encontram da média. No entanto, o detalhe é que a
diferença entre cada observação e a média é elevada ao quadrado; a soma de todos esses termos
quadrados é então dividida pelo número de observações.

Como a diferença entre cada termo e a média é elevada ao quadrado, a fórmula para calcular a
variância põe um peso particular em observações que se acham longe da média, ou valores atípicos
ou extremos (conhecidos como outliers). Vamos analisar a tabela seguinte: em notem que temos
nas duas primeiras colunas uma pessoa e sua respectiva altura em centímetros. Nosso primeiro
passo será calcular a média. (185 + 165 + 170 + 173 + 182 + 175)/6 = 1050/6 = 175cm.

GRUPO 1 ALTURA ALTURA – MÉDIA (ALTURA – MÉDIA)²


ALLAN 185 185-175 = 10 10² = 100
BERNADETE 165 165-175 = -10 -10² = 100
CARLA 170 170-175 = -5 -5² = 25
DENISE 173 173-175 = -2 -2² = 4

13
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

ELIAS 182 182-175 = 7 7² = 49


FLÁVIO 175 175-175 = 0 0² = 0

Em seguida, para cada observação, nós subtraímos seu valor da média e elevamos o resultado ao
quadrado. Ao final, para obter a variância, basta somar esses valores e dividir pela quantidade de
observação. Logo, temos que a variância será:

100 + 100 + 25 + 4 + 49 + 0
Variância = = 46,3333
6

E o desvio padrão, professor? Para obter o desvio padrão, basta aplicar a raiz quadrada ao resultado
conforme podemos ver a seguir:

Desvio Padrão = √Variância = ,46,3333 = 6,8068

E porque existem duas medidas sendo que uma é apenas a raiz quadrada da outra? Por conta dos
outliers! Imagine que Allan tenha 225cm em vez de 185cm conforme mostra a tabela seguinte:

pessoas ALTURA ALTURA – MÉDIA (ALTURA – MÉDIA)²


ALLAN 225 225-175 = 50 50² = 2500
BERNADETE 165 165-175 = -10 -10² = 100
CARLA 170 170-175 = -5 -5² = 25
DENISE 173 173-175 = -2 -2² = 4
ELIAS 182 182-175 = 7 7² = 49
FLÁVIO 175 175-175 = 0 0² = 0

Agora vamos recalcular a variância:

2500 + 100 + 25 + 4 + 49 + 0
Variância = = 446,3333
6

E por fim, recalcular o desvio padrão:

Desvio Padrão = √Variância = ,446,3333 = 21,1265

Vocês viram como a variância é extremamente sensível a valores atípicos (outliers)? Quando Allan
estava registrado com 185cm, a variância era de 46,3333 e o desvio padrão era de 6,8068. Quando
registramos apenas altura de Allan (sem alterar a altura de nenhuma outra pessoa) para 225cm, a
variância deu um salto gigantesco de 46,3333 para 446,3333 (quase 10x mais), mas o desvio padrão
não é tão sensível e saiu de 6,8068 para 21,1265 (apenas 3x mais).

14
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Há uma frase de Leonardo Monastério que afirma: “Nunca brigue se o adversário estiver a mais de
dois desvios padrão de você em qualquer dimensão: conhecimento, ideologia, inteligência ou porte
físico”. O que ele quer dizer é que seu adversário está muito fora da curva (para cima ou para baixo),
então não vale a pena brigar. Cada vez mais as pessoas querem relatar o quanto seus resultados são
significativos, e o número de desvios padrão acima ou abaixo da média é uma maneira de fazer isso.

O desvio padrão é uma medida que os estatísticos usam para a quantidade de variabilidade (ou
dispersão) entre os números em um conjunto de dados. Como o termo indica, um desvio padrão
é uma quantidade padrão de desvio/distância da média. Assim, o desvio padrão, em termos
muito grosseiros, é a distância média da média.

A variância é usada para medir a dispersão dos dados em relação à média. O desvio padrão é
usado para medir o quão longe os dados estão em relação à média. Ambos são usados para medir
a dispersão dos dados, mas – em geral – se você quiser medir a variabilidade dos dados, utilize a
variância; se você quiser descrever como os dados se dispersam em relação à média ou comparar
os dados entre si, utilize o desvio padrão.

(MPE-AP – 2012) Ao considerar uma curva de distribuição normal, com uma média como
medida central, temos a variância e o desvio padrão referentes a esta média. Em relação
a estes parâmetros,

a) a variância é uma medida cujo significado é a metade do desvio padrão.


b) a variância é calculada com base no dobro do desvio padrão.
c) o desvio padrão é a raiz quadrada da variância.
d) a média dividida pelo desvio padrão forma a variância.
e) a variância elevada ao quadrado indica qual é o desvio padrão.
_______________________
Comentários: acabamos de ver que o desvio padrão é a raiz quadrada positiva da variância (Letra C).

Coeficiente de Variação

O coeficiente de variação é uma medida de dispersão usada para medir a variabilidade de um


conjunto de dados. É calculado como a razão entre a desvio padrão e a média aritmética, e é
expresso em porcentagem. O coeficiente de variação mostra quanto os dados estão dispersos em
relação à média, logo quanto maior o coeficiente de variação, maior a variabilidade dos dados.
Imaginemos o seguinte conjunto de dados:

-={ , , , ,

Ora, sabemos que a média é:

2+2+3+4+5
Média x = = 3,20
5

15
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Para calcular a variância, podemos fazer:

2 − 3,20 ² + 2 − 3,20 ² + 3 − 3,20 ² + 4 − 3,20 ² + 5 − 3,20 ²


Variância x = = 5,66
5

1,44 + 1,44 + 0,04 + 0,64 + 3,24


Variância x = = 1,36
5

E para calcular o desvio padrão, basta aplicar a raiz quadrada:

Desvio Padrão x = √Variância = ,1,36 = 1,1661

Por fim, para calcular o coeficiente de variação:

Desvio Padrão 1,1661


Coeficiente de Variação x = = = 0,3644 = 36,44%
Média Aritmética 3,20

Em outras palavras, esse resultado do coeficiente de variação significa que os dados estão 36,44%
mais dispersos em relação à média.

Medidas Separatrizes

Medidas separatrizes são valores numéricos ou estatísticos que permitem dividir um conjunto de
dados em grupos menores e distintos. Geralmente, elas são usadas para determinar o limite
superior ou inferior de cada grupo. Inclusive, a mediana é uma medida separatriz ( e também uma
medida de tendência central). Ela é também uma separatriz de ordem 1/2, ou seja, divide a
distribuição em duas partes iguais. Vejamos outras...

Percentil

O percentil é uma medida usada para avaliar a posição de um determinado valor dentro de uma
distribuição de dados. Ele é a porcentagem de valores dentro de um conjunto de dados que são
iguais ou inferiores ao valor em questão. Por exemplo: se sua pontuação foi relatada como no
percentil 90, isso significa que 90% das outras pessoas que fizeram o teste com você tiveram uma
pontuação menor do que você (e 10% tiveram uma pontuação maior do que você).

A mediana está bem no meio de um conjunto de dados, então representa o 50º percentil. Os
percentis são usados de várias maneiras para fins de comparação e para determinar a posição
relativa (ou seja, como um valor de dados individual se compara ao restante do grupo). A fórmula
do percentil é bem simples: é o número de valores menores que o percentil que você deseja calcular
dividido pelo total de observações e tudo isso multiplicado por 100.

16
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Quantidade de valores menores que X


Percentil de X = ∗ 100
Total de observações

Considere nosso conjunto de dados:

x={ , , , , , , , ,

Logo, para calcular o percentil de 9, basta contar quantos números do nosso conjunto de dados são
menores que 9 (2, 2, 3, 4, 5, 6 e 8, logo são 7), dividir pela total (9) e multiplicar por 100.

7
Percentil de 9 = ∗ 100 = 77,77%
9

Quartis

Dado um conjunto de dados classificado em ordem crescente, os quartis são os valores que dividem
o conjunto de dados fornecido em trimestres. Os quartis referem-se aos três pontos de dados que
dividem o conjunto de dados fornecido em quatro partes iguais, de modo que cada divisão
represente 25% do conjunto de dados. Há uma relação entre percentis e quartis! Vocês conseguem
pensar em qual?

Em termos de percentis, o 25º percentil é referido como o primeiro quartil (Q1), o 50º percentil é
como o segundo quartil (Q2) e o 75º percentil como o terceiro quartil (Q3). Vejamos um exemplo:

x = {A , A , AA, , , ,A , ,

Primeiro, vamos colocar o conjunto de valores em ordem crescente:

x={ , , A , A , A , AA, , ,

O primeiro quartil (Q1) é o valor que divide os dados à esquerda da mediana em duas partes iguais.
No entanto, temos um número par, logo não há um número central. Então, usamos a média:

BCDEF
x={ , , A , A , A , AA, , , , logo Q1 = = 66
G

No entanto, podemos utilizar uma aproximação para encontrar a posição do valor que representa
o quartil dentro do conjunto de dados. Para tal, utilizamos a seguinte fórmula:

17
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

I∗J
PQk = ,
K

em que P é a Posição, Q é o quartil, k é 1, 2 ou 3 (1º, 2º ou 3º quartil) e n é a quantidade de valores


no conjunto de dados. Logo, para calcular o primeiro quartil (Q1), temos que fazer:

I∗J L∗C C
PQ1 = K
=
K
= = 2,25
K

Então arredondamos 2,25 para cima (3), logo o Q1 é o valor que se encontra na terceira posição do
conjunto ordenado de dados: 73. O segundo quartil (Q2) é também conhecido como mediana, isto
é, o valor que divide os dados em duas partes iguais. Como temos uma quantidade ímpar de valores,
é fácil: basta pegar o valor central (74). É possível também utilizar a fórmula – chegaremos no
mesmo resultado:

x={ , , A , A , A , AA, , ,

Por fim, o terceiro quartil (Q3) é o valor que divide os dados à direita da mediana em duas partes
iguais. No entanto, temos um número par, logo não há um número central. Então, usamos a média:

MKDMB
x={ , , A , A , A , AA, , , , logo Q3 = = 84,5
G

Utilizando a fórmula do segundo método, podemos fazer:

I∗J F∗C GE
PQ3 = K
=
K
=
K
= 6,75

Então arredondamos 6,75 para cima (7), logo o Q3 é o valor que se encontra na sétima posição do
conjunto ordenado de dados: 84.

x={ , , A , A , A , AA, , ,

Galera, eu mostrei dois métodos para encontrar os quartis, mas existem outros inclusive. Para a
prova, o método que utiliza a fórmula da posição é mais frequente em provas. Mudando de assunto:
com base no quartil, há outra medida chamada intervalo interquartil ou amplitude interquartílica
que também mede a variabilidade no conjunto de dados. Trata-se de uma medida de dispersão
utilizada para medir a variabilidade de um conjunto de dados. É calculado da seguinte forma:

IQR = Q3 − Q1

(BANESE – 2021) A respeito do conjunto de dados {11, 6, 28, 51, 49, 32, 33}, julgue o item
a seguir.

O primeiro quartil do conjunto de dados em tela é igual ou superior a 33.

18
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

_______________________
Comentários: primeiro temos que ordenar os dados: {6, 11, 28, 32, 33, 49, 51}; depois usamos a fórmula (n + 1)/4, em que n é o
número de elementos de um conjunto de dados, para obter a posição do primeiro quartil. Logo, temos Q1 = (n+1)/4 = (7+1)/4 =
8/4 = 2 (2ª posição). Dessa forma, o segundo elemento do conjunto ordenado de dados é o 11, que é menor que 33 (Errado).

(ANPEC – 2021) A diferença entre o terceiro e o primeiro quartil, chamada de intervalo


interquartil, é uma medida de dispersão.
_______________________
Comentários: a diferença entre o Q3 e Q1 realmente é o Intervalo Interquartil (Correto).

Visualização de Dados
INCIDÊNCIA EM PROVA: ALTA

A visualização de dados é a apresentação de informações quantitativas em uma forma gráfica. Em


outras palavras, ela transforma grandes e pequenos conjuntos de dados em visuais que são
mais fáceis para o cérebro humano entender e processar. As visualizações de dados são
surpreendentemente comuns em sua vida cotidiana, mas geralmente aparecem na forma de
tabelas e gráficos conhecidos.

As visualizações de dados podem ser usadas para descobrir fatos e tendências desconhecidos. Você
pode ver visualizações na forma de gráficos de linhas para exibir as alterações ao longo do
tempo. Gráficos de barras e colunas são úteis ao observar relacionamentos e fazer comparações.
Gráficos de pizza são uma ótima maneira de mostrar partes-de-um-todo. E mapas são a melhor
maneira de compartilhar visualmente dados geográficos.

Boas visualizações de dados são criadas quando a comunicação, a ciência de dados e o design
coincidem. As visualizações de dados feitas corretamente oferecem informações importantes
sobre conjuntos de dados complicados de maneiras significativas e intuitivas. O estatístico
americano e professor de Yale Edward Tufte acreditava que excelentes visualizações de dados
consistem em "ideias complexas comunicadas com clareza, precisão e eficiência".

Para criar um boas visualizações de dados, você precisa começar com dados limpos, bem fornecidos
e completos. Quando seus dados estiverem prontos para visualizar, você precisará escolher o
gráfico correto. Isso pode ser complicado por conta da quantidade de opções e pela especificidade
de cada um, mas há muitos recursos disponíveis para ajudá-lo a escolher o tipo certo de gráfico para
seus dados.

Depois de ter decidido qual tipo de gráfico é melhor, você precisa projetar e personalizar sua
visualização ao seu gosto. Lembre-se de que a simplicidade é fundamental. Você não deseja
adicionar elementos que distraiam à atenção sobre os dados. Dito isso, vamos ver agora alguns
tipos de gráficos que comumente fazem parte da Análise Exploratória de Dados. Venham comigo,
pessoal...

19
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Gráfico de Linha

Também conhecido como Gráfico de Segmentos, é utilizado – em geral – para representar o


progresso dos valores de uma variável no transcorrer do tempo. Normalmente, no eixo
horizontal, temos a divisão do tempo em dias, meses ou qualquer unidade de tempo (quando se
está trabalhando com assuntos que envolvam tempo) e no eixo vertical ficam os valores. As linhas
desse gráfico são ideais para representar várias séries.

Em outras palavras, ele é adequado para apresentar observações medidas ao longo do tempo,
enfatizando sua tendência ou periodicidade. Ele exibe informações com uma série de pontos de
dados chamados de marcadores ligados por segmentos de linha reta. É semelhante a um Diagrama
de Dispersão, mas os pontos de medição são ordenados e apresentados juntos com segmentos de
reta que conectam os pontos.

Gráfico de Linha
6
5
4
3
2
1
0
Categoria 1 Categoria 2 Categoria 3 Categoria 4

Série 1 Série 2 Série 3

20
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Gráfico de Barras

Trata-se de um dos tipos de gráfico mais comuns para comparar dados ou expor um
desenvolvimento crescente/decrescente. Ele apresenta barras em tamanhos proporcionais aos
valores que as representam. É utilizado em geral para representar dados de uma tabela de
frequências referentes a uma variável qualitativa. Nesse tipo de gráfico, cada barra retangular
representa a frequência da respectiva opção da variável.

Vocês vão ouvir falar também sobre o Gráfico de Colunas. E qual é a diferença, Diego? Não existe
diferença sob o ponto de vista da construção, já que ambos usam barras (retângulos) proporcionais
ao evento retratado no gráfico de acordo com uma escala previamente estabelecida. A única
diferença é que o termo “Gráfico de Coluna” necessariamente representa retângulos verticais,
enquanto o termo “Gráfico de Barras” pode ser tanto vertical quanto horizontal.

O uso desse tipo de gráfico é indicado no trabalho com rótulos longos ou com o tempo de duração
de alguma experiência. Em suma: o gráfico de barras é um tipo de gráfico que compara duas
variáveis, onde cada barra representa um grupo de dados. Este gráfico é útil para comparar o
desempenho de diferentes categorias de dados. Quando as colunas são horizontais, chamamos de
Gráfico de Barras.

Para construir um gráfico de colunas, representamos os valores da variável no eixo das


abscissas e suas frequências ou porcentagens no eixo das ordenadas. Para cada valor da variável
desenhamos uma barra com altura correspondendo à sua frequência ou porcentagem. Este tipo de
gráfico é interessante para as variáveis qualitativas ordinais ou quantitativas discretas, pois permite
investigar a presença de tendência nos dados.

Gráfico de Coluna
6
5
4
3
2
1
0
Categoria 1 Categoria 2 Categoria 3 Categoria 4

Série 1 Série 2 Série 3

21
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Gráfico de Barras

Categoria 4

Categoria 3

Categoria 2

Categoria 1

0 1 2 3 4 5 6

Série 3 Série 2 Série 1

22
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Gráfico de Pizza

Também chamado de Gráfico de Setores, é utilizado para representar a proporção de cada


parte de um todo, como por exemplo, para mostrar a porcentagem de vendas de cada produto.
Além disso, os gráficos de pizza são úteis para mostrar as diferenças entre as partes relativas de um
todo. As fatias de um gráfico de pizza permitem que os dados sejam facilmente compreendidos
visualmente. Vejam o gráfico a seguir sobre o marketshare das empresas de varejo brasileiras:

Você bate o olho e entende o gráfico! Ele expressa muito bem uma relação de proporcionalidade,
em que todos os dados somados compõem o todo de um dado aspecto da realidade. Para construí-
lo, repartimos um disco em setores circulares correspondentes às porcentagens de cada valor. Este
tipo de gráfico adapta-se bem para variáveis qualitativas nominais. Para o seu funcionamento, é
preciso que haja duas ou mais categorias e um valor correspondente para cada uma delas.

Gráfico de Pizza

1º Tri 2º Tri 3º Tri 4º Tri

23
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Gráfico de Dispersão

Também chamado de Gráfico de Correlação ou Scatter Plot, é adequado para descrever o


comportamento conjunto de duas variáveis quantitativas. Cada ponto do gráfico representa
um par de valores observados. Em outras palavras, ele é um gráfico em que pontos no espaço
cartesiano (x,y) são usados para representar simultaneamente os valores de duas variáveis
quantitativas medidas em cada elemento do conjunto de dados.

Ele é utilizado para representar a relação entre duas variáveis, ou seja, quanto uma variável é
afetada por outra. Frequentemente, essa relação parte de uma variável independente e uma
variável dependente. A variável independente é a causa/razão e a variável dependente é o
efeito/consequência. A correlação pode ser positiva, negativa ou nula: a correlação positiva ocorre
quando há uma concentração de pontos em tendência crescente.

A correlação negativa ocorre quando há uma concentração de pontos em tendência decrescente.


Por fim, a correlação nula ocorre quanto aparentemente não há uma correlação entre as variáveis.
Mais uma coisa: correlação não é causalidade! Não é porque existe uma correlação (positiva ou
negativa) entre duas variáveis que uma necessariamente implica a outra. Vamos ver um
exemplo para entender melhor a correlação...

Em dias de chuva, menos pessoas vão praticar esportes em parques públicos; em dias de sol, isso se
inverte. Logo, se fizéssemos um gráfico de dispersão para analisar a relação entre índice
pluviométrico (chuva) e quantidade de frequentadores de parques públicos, provavelmente
veríamos uma correlação negativa, isto é, quanto mais chuva, menos frequentadores (e quanto
menos chuva, mais frequentadores).

Nesse caso, a variável independente é o índice pluviométrico e a variável dependente é a


quantidade de frequentadores de parques públicos.

Gráfico de Dispersão
5

0
0 1 2 3 4 5 6

24
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Gráfico de Contorno

Esse gráfico é útil quando um atributo contínuo é medido em uma grade espacial, particionando o
plano em regiões de valores similares e usando de linhas de contorno que formam os limites destas
regiões conectam pontos com valores iguais. O exemplo mais comum são os mapas de contorno
de elevação ou curvas de níveis, também podemos utilizar esse tipo de gráfico para indicar
temperatura, precipitação, entre outros.

Gráfico de Contorno
Série 3

Série 2

Série 1
Categoria 1 Categoria 2 Categoria 3 Categoria 4

0-1 1-2 2-3 3-4 4-5

25
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Gráfico de Área

Os gráficos de área são ótimos para destacar oscilações de uma categoria de acordo com
variáveis como o tempo. O componente de área do gráfico representa o volume ou proporção do
todo no espaço entre o eixo e o ponto de dados. Ele exibe uma série como um conjunto de pontos
conectados por uma linha, com toda a área preenchida abaixo da linha. De certa forma, é parecido
com o Gráfico de Linhas, mas evidenciando uma noção de proporção por meio da área.

Em suma: um gráfico de área é ideal para exibir tendências ao longo do tempo ou para comparar
diferentes séries de dados. É útil para mostrar a variação de uma variável em relação a outra ao
longo do tempo ou para destacar o tamanho ou o valor de uma série de dados em relação a outra.
Ele é também utilizado para apontar a relação dos diferentes dados entre si. Vejamos um exemplo
na imagem a seguir...

Gráfico de Área
35

30

25

20

15

10

0
05/01/2002 06/01/2002 07/01/2002 08/01/2002 09/01/2002

Série 1 Série 2

26
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Gráfico de Rede

Um gráfico de rede exibe valores de dados como pontos ligados por algumas linhas, em uma rede
que se lembra uma teia de aranha ou uma tela de radar. Para cada linha dos dados do gráfico, um
eixo radial é mostrado no qual os dados são traçados. Todos os valores dos dados são mostrados
com a mesma escala, de modo que todos os valores de dados devem ter a mesma magnitude. A
condição para um diagrama de rede válido é que ele não contenha quaisquer referências circulares.

Em suma: o gráfico de rede – também chamado de gráfico de radar, teia, polígono ou estrela –
é um método gráfico de apresentar dados multivariáveis na forma de um gráfico bidimensional
de três ou mais variáveis quantitativas representadas em eixos que partem do mesmo ponto.
Esse tipo de gráfico permite que os usuários vejam facilmente quais variáveis são mais importantes
e quais variáveis estão mais relacionadas.

Gráfico de Rede
Série 1 Série 2

05/01/2002
40
30
20
09/01/2002 06/01/2002
10
0

08/01/2002 07/01/2002

27
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Gráfico de Caixa

Também chamado de BoxPlot, trata-se de uma ferramenta gráfica que permite visualizar a
distribuição e valores discrepantes (outliers) dos dados, fornecendo assim um meio complementar
para desenvolver uma perspectiva sobre o caráter dos dados. Além disso, o boxplot também é
uma disposição gráfica comparativa. As medidas de estatísticas descritivas como mínimo,
primeiro quartil, mediana (ou segundo quartil), terceiro quartil e máximo formam o boxplot1.

Esse gráfico cai bastante em prova! Para entendê-lo, você deve olhar a legenda da imagem acima.
Esse gráfico é utilizado para representar a variação de dados observados de uma variável numérica
por meio de quartis. O boxplot tem uma reta que estende–se verticalmente ou horizontalmente a
partir da caixa, indicando a variabilidade fora do quartil superior e do quartil inferior. Os valores
atípicos ou outliers (valores discrepantes) podem ser plotados como pontos individuais.

A diferença entre o valor máximo (considerando outliers) e o valor mínimo (considerando outliers)
é chamada de Amplitude Total. O boxplot pode ter uma reta (também chamado de whisker ou fio
de bigode) que se estende verticalmente ou horizontalmente a partir da caixa, indicando a
variabilidade fora do quartil superior e do quartil inferior. E os valores atípicos ou outliers (valores
discrepantes) podem ser plotados como pontos individuais.

Observem a imagem anterior: 25% dos valores são menores que -7 (Q1); 25% dos valores são
maiores que -7 (Q1) e menores que -2 (Q2); 25% dos valores são maiores que -2 (Q2) e menores que

1
Por essa razão, ele também é conhecido como Esquema dos Cinco Números.

28
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

1 (Q3); e 25% dos valores são maiores que 1 (Q3). Professor, como saber se um determinado valor é
atípico ou não? Qual é o número que define que um valor acima ou abaixo de um determinado limite
será considerado outlier? Existe uma fórmula:

- Limite Inferior LI = Q1−1,5 x AIQ


- Limite Superior LS = Q3+1,5 x AIQ

Na verdade, esse valor de 1,5 pode variar, mas 1,5 é o valor padrão para o cálculo dos limites
inferiores e superiores. Entendido?

29
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Histograma

O histograma – também chamado de distribuição de frequências – consiste em retângulos


contíguos com base nas faixas de valores da variável e com área igual à frequência relativa da
respectiva faixa. Desta forma, a altura de cada retângulo é denominada densidade de frequência
ou simplesmente densidade definida pelo quociente da área pela amplitude da faixa. Alguns
autores utilizam a frequência absoluta ou a porcentagem na construção do histograma.

O histograma é uma espécie de gráfico de colunas usado para mostrar a frequência com que os
dados estão distribuídos dentro de uma faixa de valores. Ele é usado para visualizar como os dados
estão distribuídos ao longo de uma escala de valores, permitindo que você veja facilmente se os
dados tendem a se concentrar em uma área específica, ou se eles estão distribuídos
uniformemente. O histograma é um dos tipos mais comuns de gráficos usados para analisar dados.

Vamos detalhar melhor como funciona o histograma: ele é formado por colunas que são plotadas
em um eixo x (valores) e um eixo y (frequência). O eixo x representa os diferentes valores que os
dados podem assumir, enquanto o eixo y representa a frequência com que esses valores aparecem.
Os dados são agrupados em faixas de valores (ou "barras") e a altura de cada barra representa a
frequência com que os dados estão presentes em cada faixa.

O histograma também mostra o formato geral dos dados, permitindo que você veja se eles tendem
a se concentrar em uma área específica ou se eles estão distribuídos uniformemente. Vejam no
exemplo seguinte que as faixas de valores têm parênteses e colchetes. Um colchete ao lado de um
número significa que o número está incluído e um parêntese ao lado de um número significa
que o número é excluído (Ex: [1,10) significa que 1 está incluído no intervalo e 10 está excluído).

30
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Dashboard

Dashboards são painéis interativos que exibem informações relevantes de forma visual e resumida.
Eles são projetados para fornecer uma visão consolidada e de fácil compreensão dos dados,
permitindo que os usuários monitorem e analisem informações-chave de maneira rápida e
eficiente. Ele geralmente é composto por diferentes elementos visuais, como gráficos, tabelas,
medidores, indicadores de desempenho, mapas e outros componentes interativos.

Esses elementos são organizados de forma intuitiva e personalizável, permitindo que os usuários
escolham as métricas, filtros e detalhes que desejam visualizar. Os dashboards podem ser usados
em várias áreas, como negócios, finanças, marketing, saúde, logística, entre outras. Eles ajudam as
empresas e os profissionais a monitorar o desempenho, identificar tendências, detectar problemas
e tomar decisões informadas com base nos dados apresentados.

31
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Os dashboards podem ser estáticos, exibindo informações pré-definidas, ou dinâmicos,


atualizando-se automaticamente com dados em tempo real. Eles são uma ferramenta poderosa
para comunicar informações complexas de maneira visualmente atraente e compreensível,
permitindo uma análise mais eficaz e uma tomada de decisão mais informada. Na imagem anterior,
temos um painel muito visualizado durante os dias de pandemia:

https://covid.saude.gov.br/

32
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

RESUMO
DEFINIÇÃO DE ANÁLISE EXPLORATÓRIA DE DADOS

ETAPAS DA ANÁLISE EXPLORATÓRIA DE DADOS

ETAPA DESCRIÇÃO
Antes de tentar extrair informações úteis dos dados, é essencial definir o problema de negócios
a ser resolvido. A definição do problema funciona como a força motriz para a execução de um
Definição do plano de análise de dados. As principais tarefas envolvidas na definição do problema são definir
problema o objetivo principal da análise, definir as principais entregas, delinear as principais funções e
responsabilidades, obter o status atual dos dados, definir o cronograma e realizar a análise de
custo/benefício. Com base nessa definição de problema, um plano de execução pode ser criado.
Esta etapa envolve métodos para preparar o conjunto de dados antes da análise real. Nesta
etapa, definimos as fontes de dados, definimos esquemas e tabelas de dados, entendemos as
Preparação de principais características dos dados, limpamos o conjunto de dados, excluímos conjuntos de
dados dados não relevantes, transformamos os dados e dividimos os dados em blocos necessários
para análise.

Esta é uma das etapas mais importantes que lida com estatísticas descritivas e análise dos
dados. As principais tarefas envolvem resumir os dados, encontrar a correlação oculta e os
relacionamentos entre os dados, desenvolver modelos preditivos, avaliar os modelos e calcular
Análise de dados
as precisões. Algumas das técnicas usadas para sumarização de dados são tabelas de resumo,
gráficos, estatísticas descritivas, estatísticas inferenciais, estatísticas de correlação, pesquisa,
agrupamento e modelos matemáticos.
Esta etapa envolve a apresentação do conjunto de dados ao público-alvo na forma de gráficos,
Desenvolvimento tabelas de resumo, mapas e diagramas. Essa também é uma etapa essencial, pois o resultado
analisado do conjunto de dados deve ser interpretável pelas partes interessadas do negócio,
e representação
que é um dos principais objetivos da AED. A maioria das técnicas de análise gráfica inclui
dos resultados gráficos de dispersão, gráficos de caracteres, histogramas, gráficos de caixa, gráficos de
resíduos, gráficos de média e outros.

ÁREAS DE ESTATÍSTICA

33
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

POPULAÇÃO E AMOSTRA

conceitos DESCRIÇÃO
Trata-se de todos os elementos de um grupo de interesse que possuem um caráter
População
comum, e que serão estudados.
Trata-se de uma parte representativa da população, escolhida de forma aleatória para
Amostra
servir de base para as estatísticas.
Trata-se de um levantamento contínuo, ordenado e sistemático da população, onde cada
censo
elemento da população é considerado.

CLASSIFICAÇÃO DE VARIÁVEIS QUANTO AO NÍVEL DE MENSURAÇÃO

nível de
mensuração

NUMÉRICA ou CATEGÓRICA ou
quantitativa qualitativa

DiscretA ContínuA Nominal Ordinal

TIPOS DE VARIÁVEL DESCRIÇÃO


Também chamado de atributo quantitativo, é aquele que pode ser medido em uma escala
VARIÁVEL NUMÉRICA quantitativa, ou seja, apresenta valores numéricos que fazem sentido.

34
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Os valores representam um conjunto finito ou enumerável de números, e que resultam


discreto de uma contagem (Ex: número de filhos, número de bactérias por amostra, número de
logins em uma página web, entre outros).
Os valores pertencem a um intervalo de números reais e representam uma mensuração
contínuo (Ex: altura de uma pessoa, peso de uma marmita, salário de um servidor público, entre
outros).

TIPOS DE VARIÁVEL DESCRIÇÃO


Também chamado de atributo qualitativo, é aquele que pode assumir valores
VARIÁVEL categóricA categóricos, isto é, representam uma classificação.

São aquelas em que não existe uma ordenação própria entre as categorias (Ex: sexo, cor
Nominal dos olhos, fumante/não fumante, país de origem, profissão, religião, raça, time de
futebol, entre outros).
São aquelas em que existe uma ordenação própria entre as categorias (Ex: Escolaridade
Ordinal (1º, 2º, 3º Graus), Estágio de Doença (Inicial, Intermediário, Terminal), Classe Social
(Classe Baixa, Classe Média, Classe Alta), entre outros)

VARIÁVEL QUANTITATIVA = CONTÍNUA | DISCRETA


CLASSIFICAÇÃO DE VARIÁVEIS QUANTO AO NÍVEL DE MANIPULAÇÃO

NÍVEL DE MANIPULAÇÃO

DEPENDENTES INDEPENDENTES

VARIÁVEL MÉDIA MEDIANA MODA


QUANTITATIVA DISCRETA OK OK OK
QUANTITATIVA CONTÍNUA OK OK OK
QUALITATIVA ORDINAL OK OK
QUALITATIVA NOMINAL OK

TIPOS DE VARIÁVEL DESCRIÇÃO


Representa uma grandeza que está sendo manipulada em um experimento – x é, muitas
vezes, a variável usada para representar a variável independente em uma equação.
VARIÁVEL independente Exemplo: você está realizando tarefas para ganhar sua mesada. Para cada tarefa que você
realiza, você ganha R$3. A variável independente é a quantidade de tarefas que você faz,
pois essa é a variável sobre a qual você tem controle.

35
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

TIPOS DE VARIÁVEL DESCRIÇÃO


Representa uma grandeza cujo valor depende de como a variável independente é
manipulada – y é, muitas vezes, a variável usada para representar a variável dependente
VARIÁVEL independente em uma equação. Exemplo: você está realizando tarefas para ganhar sua mesada. Para
cada tarefa que você realiza, você ganha $3. A variável dependente é a quantia de dinheiro
que você ganha, pois ela depende de quantas tarefas você realiza.

MEDIDAS DE TENDÊNCIA CENTRAL

Medidas DESCRIÇÃO
A média é o valor aritmético médio de um conjunto de números. É obtido pela soma dos
Media
valores e dividido pelo número total de elementos.
A mediana é o valor que divide a série em duas partes iguais. É usada para determinar a
Mediana
tendência central de uma série e é também conhecida como segundo quartil (Q2).
A moda é o valor que ocorre com maior frequência em uma série – representa qual é o
moda
valor mais comum entre os elementos.

MEDIDAS DE DISPERSÃO

Medidas DESCRIÇÃO
Variância é uma medida de dispersão que mede a variabilidade dos dados – é calculada
Variância
pela diferença (ou desvio) entre cada dado e a média do conjunto de dados.
O desvio padrão é a raiz quadrada da variância e fornece uma medida da dispersão dos
Desvio padrão
dados em relação à média.
O coeficiente de variação é uma medida da variabilidade relativa de um conjunto de
Coeficiente de variação
dados, calculado como o desvio padrão dividido pela média.

MEDIDAS SEPARATRIZES

Medidas DESCRIÇÃO
Um percentil é uma medida de posição usada para dividir um conjunto de dados
ordenados em 100 partes iguais. O percentil é usado para descrever a distribuição dos
dados, assim como para descrever a posição relativa de um elemento num conjunto de
Percentil
dados. Por exemplo, o percentil 25 é o valor abaixo do qual estão 25% dos elementos, o
percentil 50 é o valor abaixo do qual estão 50% dos elementos e o percentil 75 é o valor
abaixo do qual estão 75% dos elementos.
Um quartil é a medida de posição usada para dividir um conjunto de dados ordenados
em quatro partes iguais. Os três quartis (Q1, Q2 e Q3) são usados para descrever a
posição de um elemento em relação ao conjunto de dados. O primeiro quartil (Q1) é o
quartil
valor abaixo do qual estão 25% dos elementos, o segundo quartil (Q2) é o valor abaixo
do qual estão 50% dos elementos e o terceiro quartil (Q3) é o valor abaixo do qual estão
75% dos elementos.

VISUALIZAÇÃO DE DADOS

36
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Visualização de dados DESCRIÇÃO


Também conhecido como Gráfico de Segmentos, é utilizado – em geral – para
representar o progresso dos valores de uma variável no transcorrer do tempo.
Gráfico de linha

Trata-se de um dos tipos de gráfico mais comuns para comparar dados ou expor um
desenvolvimento crescente/decrescente.
Gráfico de barras

Também chamado de Gráfico de Setores, é utilizado para representar a proporção de


cada parte de um todo, como por exemplo, para mostrar a porcentagem de vendas de
Gráfico de pizza cada produto.

Também chamado de Gráfico de Correlação ou Scatter Plot, é adequado para descrever


o comportamento conjunto de duas variáveis quantitativas. Cada ponto do gráfico
Gráfico de dispersão representa um par de valores observados.

Trata-se de um gráfico é útil quando um atributo contínuo é medido em uma grade


espacial, particionando o plano em regiões de valores similares e usando de linhas de
Gráfico de contorno contorno que formam os limites destas regiões conectam pontos com valores iguais.

Trata-se de um gráfico ideal para exibir tendências ao longo do tempo ou para comparar
diferentes séries de dados. É útil para mostrar a variação de uma variável em relação a
Gráfico de área outra ao longo do tempo ou para destacar o tamanho ou o valor de uma série de dados
em relação a outra.

Também chamado de gráfico de radar, teia, polígono ou estrela – é um método gráfico


de apresentar dados multivariáveis na forma de um gráfico bidimensional de três ou
Gráfico de rede mais variáveis quantitativas representadas em eixos que partem do mesmo ponto.

Trata-se de um gráfico para representar a variação de dados observados de uma variável


numérica por meio de quartis. O boxplot tem uma reta que estende–se verticalmente
Gráfico de Caixa ou horizontalmente a partir da caixa, indicando a variabilidade fora do quartil superior e
do quartil inferior. Os valores atípicos ou outliers (valores discrepantes) podem ser
plotados como pontos individuais.
Também chamado de distribuição de frequências – consiste em retângulos contíguos
com base nas faixas de valores da variável e com área igual à frequência relativa da
histograma respectiva faixa.

37
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

QUESTÕES COMENTADAS - CESPE

COMO NÃO EXISTEM MUITAS QUESTÕES DE ANÁLISE EXPLORATÓRIA DE DADOS APLICADAS EM CONCURSOS DE
TECNOLOGIA DA INFORMAÇÃO, EU COLETEI QUESTÕES DE ESTATÍSTICA APLICADAS A OUTRAS ÁREAS

1. (CESPE / DPE-RO - 2022) Com relação às variáveis apresentadas na tabela abaixo, julgue a
seguir.

I. A variável estado civil é qualitativa nominal.


II. A variável quantidade de filhos é quantitativa discreta.
III. As variáveis salário e estado são quantitativas discretas.
IV. As variáveis idade e quantidade de filhos são qualitativas nominais.

Estão certos apenas:

a) I e II.
b) II e III.
c) III e IV.
d) I, II e IV.
e) I, III e IV.

Comentários:

(I) Correto. É qualitativa, dado que pode assumir valores categóricos e é nominal dado que não
existe uma ordenação própria entre as categorias; (II) Correto. É quantitativa, dado que pode ser
medida em uma escala representada por valores numéricos e é discreta dado que os valores
representam um conjunto finito e enumerável; (III) Errado. Estado não é uma variável quantitativa
e salário não é uma variável discreta; (IV) Errado. Não são variáveis qualitativas e, sim, quantitativas.

Gabarito: Letra A

2. (CESPE / DPE-RO - 2022) O valor de um atributo de um dado objeto é uma medida da


quantidade daquele atributo, a qual pode ser numérica ou categórica. Nesse caso, estado civil e
sexo são classificados como atributo:

38
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

a) binário.
b) nominal.
c) ordinal.
d) ausente.
e) razão.

Comentários:

Ambos são atributos categóricos, dado que podem assumir valores que representam uma
classificação. E são atributos nominais, dado que não existe uma ordenação própria entre as
categorias de estado civil e sexo.

Gabarito: Letra B

3. (CESPE / APEX - 2022) O gráfico por meio do qual é possível representar localização, dispersão,
assimetria, comprimento da cauda e outliers, mediante o mínimo, o primeiro quartil, a mediana,
o terceiro quartil e o máximo, é denominado:

a) gráfico de linha.
b) gráfico de setor.
c) box plot.
d) scatter plot.

Comentários:

O gráfico que permite representar tudo isso é o BoxPlot. Ele mostra a média dos dados, assim como
a variância, bem como os quartis (25%, 50% e 75%), os pontos fora da curva (outliers), localização,
dispersão, assimetria, comprimento de cauda, etc.

Gabarito: Letra C

4. (CESPE / TELEBRAS - 2022) Com respeito ao conjunto de dados {5a, 2a, 2a}, em que a
representa uma constante não nula, julgue o próximo item.

A média amostral desse conjunto de dados é igual a 2a.

Comentários:

5a + 2a + 2a 9a
Média = = = 3a
3 3

Gabarito: Errado

39
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

5. (CESPE / SECONT-ES - 2022) Uma empresa atua em três segmentos de mercado, A, B e C. O


gráfico de setores mostra a distribuição percentual, por segmento, da receita total obtida por
essa empresa em 2018.

Considerando os dados da tabela precedente, relativos aos empenhos do mês de março de 2022 de
determinado órgão público, bem como os conceitos relacionados a noções de estatística, julgue o
item subsequente.

Caso haja necessidade de validar os empenhos a partir da apuração de Q3 (terceiro quartil), os


empenhos a serem verificados serão aqueles a partir de R$ 17.350,00.

Comentários:

Temos 25 valores e sabemos que a mediana (Q2) é o valor da posição que divide o conjunto de dados
em duas partes de tamanhos iguais:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

40
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Note que a mediana está na 13ª posição! Já o Q3 divide o conjunto de dados à direita da medida em
duas partes, mas note que temos uma quantidade par. Logo, temos que pegar a média aritmética:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

O Q3 será a média aritmética entre os valores contidos na 19ª e 20ª posição. Então agora basta
ordenar os dados:

1º - R$900,00
2º - R$1.050,00
3º - R$2.500,00
4º - R$2.800,00
5º - R$4.900,00
6º - R$7.200,00
7º - R$10.500,00
8º - R$11.700,00
9º - R$12.500,00
10º - R$13.580,00
11º - R$13.700,00
12º - R$13.750,00
13º - R$13.800,00
14º - R$13.900,00
15º - R$14.000,00
16º - R$14.800,00
17º - R$14.900,00
18º - R$15.700,00
19º - R$16.800,00
20º - R$17.900,00
21º - R$17.980,00
22º - R$24.900,00
23º - R$28.500,00
24º - R$35.900,00
25º - R$37.200,00

Agora basta fazer a média aritmética: (16.800 + 17.900)/2 = 34.700/2 = 17.350.

Gabarito: Correto

6. (CESPE / PETROBRAS - 2022) Os dados a seguir são uma amostra de pesos aproximados, em
kg, de homens adultos:

67, 55, 102, 77, 88, 89, 100, 78, 69, 65, 65, 101, 98, 65, 68

A mediana desses pesos é:

41
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

a) 76.
b) 77.
c) 77,5.
d) 78.
e) 78,5.

Comentários:

Primeiro ordenamos o conjunto de dados:

55, 65, 65, 65, 67, 68, 69, 77, 78, 88, 89, 98, 100, 101, 102

A mediana divide o conjunto de dados ordenados em duas partes de tamanhos iguais:

55, 65, 65, 65, 67, 68, 69, 77, 78, 88, 89, 98, 100, 101, 102

Gabarito: Letra B

7. (CESPE / PM-SP - 2022) Um levantamento amostral proporcionou as estatísticas precedentes,


referentes a determinada variável quantitativa X.

Considerando essas informações e que a variável X é composta por 1240 observações, julgue o
item subsequente.

O terceiro quartil da variável X foi inferior a 9.

Comentários:

Ora, se a mediana (Q2) é 9, então o Q3 deve ser necessariamente maior que 9.

Gabarito: Errado

8. (CESPE / PETROBRAS - 2022) Considerando que a tabela acima mostra a distribuição de


frequências de uma variável x obtida com base em uma amostra aleatória simples de tamanho
igual a n, julgue o item que se segue.

42
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

A moda de é igual a 2.

Comentários:

A moda representa o valor mais frequente de um conjunto de dados. Na questão, qual é o valor de x
quem tem a maior frequência relativa? 2.

Gabarito: Correto

9. (CESPE / PETROBRAS - 2022) Determinado dado tetraédrico (dado em formato de tetraedro


regular), com vértices numerados de 1 a 4, foi lançado 21 vezes, de modo que o resultado do
lançamento desse dado correspondia ao vértice voltado para cima. A tabela seguinte mostra a
frequência com que se obteve cada resultado:

Com base nessa situação hipotética, julgue o item a seguir.

A mediana e a moda dessa distribuição são iguais.

Comentários:

Vamos escrever o conjunto de dados:

1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 4, 4

Em seguida, vamos achar a mediana (Q2):

1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 4, 4

43
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

E a moda é o valor mais frequente no conjunto de dados, logo é 4. Dito isso, a mediana (3) é
diferente da moda (4).

Gabarito: Errado

10. (CESPE / PETROBRAS - 2022) A mediana e a moda do conjunto de dados {1, 2, 3, 9, 9, 10} são,
correta e respectivamente,

a) 6 e 9.
b) 6 e 10.
c) 3 e 9.
d) 3 e 10.
e) 6 e 8.

Comentários:

O conjunto de dados já está ordenado:

1, 2, 3, 9, 9, 10

Em seguida, vamos achar a mediana (Q2). No entanto, temos um conjunto de dados com uma
quantidade par de valores. Logo, temos que fazer a média aritmética dos dois valores centrais:

1, 2, 3, 9, 9, 10

A média aritmética para descobrir a mediana seria:

(3 + 9) 12
Mediana = = =
2 2

E a moda é o valor mais frequente no conjunto de dados, logo é 9. Dito isso, a mediana (6) é
diferente da moda (9).

Gabarito: Letra A

11. (CESPE / TELEBRAS - 2022) Com respeito ao conjunto de dados {0, 0, 1, 1, 1, 3}, julgue o item
que se segue.

O coeficiente de variação é igual ou superior a 1,2.

Comentários:

0+0+1+1+1+3 6
Média Aritmética = = =1
6 6

44
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

(0 − 1)& + (0 − 1)& + (1 − 1)& + (1 − 1)& + (1 − 1)& + (3 − 1)&


Variância =
6

1+1+0+0+0+4 6
Variância = = =1
6 6

Desvio Padrão √Variância √1 1


CV = = = = =1
Média Aritmética Média Aritmética 1 1

Logo, o coeficiente de variação é menor que 1,2.

Gabarito: Errado

12. (CESPE / TELEBRAS - 2022) No gráfico boxplot anteriormente apresentado, o outlier do


conjunto de dados é representado pelo ponto:

a) A.
b) E.
c) B.
d) C.
e) D.

Comentários:

O outlier é o valor fora da curva, discrepante, destoante! Onde vocês veem um valor bem distante dos
usuais? No ponto E!

45
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Gabarito: Letra B

13. (CESPE / PETROBRAS - 2022) Com relação aos dados que resultaram no diagrama mostrado
na figura precedente, julgue o item a seguir.

A amplitude total dos dados em tela é inferior a 6.

Comentários:

A diferença entre o valor máximo (considerando outliers) e o valor mínimo (considerando outliers)
é chamada de Amplitude Total. Logo, é definitivamente maior que 13-7 = 6.

Gabarito: Errado

14. (CESPE / PETROBRAS - 2022) Com relação aos dados que resultaram no diagrama mostrado
na figura precedente, julgue o item a seguir.

O terceiro quartil é inferior a 11 e superior a 10.

Comentários:

46
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Perfeito! Observe que a linha está entre 10 e 11.

Gabarito: Correto

15. (CESPE / PETROBRAS - 2022) Considerando a figura precedente, que mostra desenhos
esquemáticos das distribuições das quantidades de cargas perdidas nos anos de 2020 e 2021,
segundo o tipo de carga transportada por uma mineradora, julgue o item que se segue.

Na distribuição da quantidade de carga do tipo A perdida em 2020, observa-se que o primeiro


quartil foi superior a 100 kg, enquanto o terceiro quartil foi inferior a 50 kg.

Comentários:

47
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Opa! Observe que Q1 é inferior a 50 e Q3 é superior a 100. A questão inverteu os conceitos!

Gabarito: Errado

16. (CESPE / TELEBRAS - 2022) Com respeito ao conjunto de dados {0, 0, 1, 1, 1, 3}, julgue o item
que se segue.

Se esse conjunto de dados fosse representado por um diagrama de box-plot, então os valores 0
e 3 seriam chamados valores exteriores, ou, ainda, discrepantes, atípicos ou outliers.

Comentários:

O conjunto de dados já está ordenado:

0, 0, 1, 1, 1, 3

Em seguida, vamos achar a mediana (Q2):

0, 0, 1, 1, 1, 3

Para encontrar a mediana, basta pegar a média aritmética dos dois valores centrais – que será 1. Já
para encontrar Q1, basta encontrar o elemento central da metade à esquerda da mediana:

0, 0, 1, 1, 1, 3

E para encontrar o Q3, basta encontrar o elemento central da metade à direita da mediana:

0, 0, 1, 1, 1, 3

Logo, agora podemos calcular os limites:

- Limite Inferior (LI) = Q1−1,5 x AIQ = 0 – 1,5 x (1-0) = -1,5

48
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

- Limite Superior (LS) = Q3+1,5 x AIQ = 1 + 1,5 x (1-0) = 2,5

Dito isso, o valor 3 realmente é um outlier por ser maior que o limite superior (2,5); já o valor zero
não é um outlier por ser maior que o limite inferior (-1,5).

Gabarito: Errado

17. (CESPE / TELEBRAS - 2022) Considerando que o histograma apresentado descreve a


distribuição de uma variável quantitativa X por meio de frequências absolutas, julgue o item que
se segue.

O número de observações que constituem a variável X é igual a 1.000.

Comentários:

Basta somar as frequências: 50 + 200 + 400 + 300 + 150 = 1100.

Gabarito: Errado

18. (CESPE / APEX - 2022) Um indicador de desempenho X permite avaliar a qualidade dos
processos de governança de instituições públicas. A figura mostra, esquematicamente, a sua
distribuição, obtida mediante estudo amostral feito por determinada agência de pesquisa. A
tabela apresenta estatísticas descritivas referentes a essa distribuição.

49
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Com base nessas informações, julgue o item a seguir.

O coeficiente de variação da distribuição de X é inferior a 0,8.

Comentários:

Desvio Padrão 0,70


CV = = = 0,875
Média Aritmética 0,80

Gabarito: Errado

19. (CESPE / TELEBRAS - 2022) Considerando que uma variável quantitativa discreta X se distribui
conforme o diagrama boxplot anterior, julgue o item seguinte.

As observações da variável X que assumem valores iguais a 7, com base nesse diagrama boxplot,
são considerados outliers.

Comentários:

Os valores atípicos seriam possíveis valores acima de 7 (e não há nenhum representado na imagem).

50
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Gabarito: Errado

20. (CESPE / TCE-RJ - 2021) Considerando que uma variável quantitativa discreta X se distribui
conforme o diagrama boxplot anterior, julgue o item seguinte.

O diagrama boxplot indica que o intervalo interquartil (ou interquartílico) da distribuição da


variável X é igual a 3.

Comentários:

Sabemos que o Intervalo Interquartil é:

IQR = Q3 − Q1 = 4 − 1 = 3

Gabarito: Correto

21. (CESPE / SERPRO - 2021) Considerando que o número X de erros registrados em determinado
tipo de código computacional siga uma distribuição binomial com média igual a 4 e variância
igual a 3, julgue o item a seguir.

O coeficiente de variação da distribuição de erros X é igual a 3.

Comentários:

Desvio Padrão √3
CV = = = 0,43
Média Aritmética 4

Gabarito: Errado

22. (CESPE / TCE-RJ - 2021) Considerando que uma variável quantitativa discreta X se distribui
conforme boxplot anterior, julgue o item seguinte.

51
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

A mediana da variável X é igual a 4.

Comentários:

Vamos pegar nossa imagem de referência:

Opa, então a mediana (Q2) é 2.

Gabarito: Errado

23. (CESPE / PGDF - 2021) O quadro apresentado mostra estatísticas descritivas produzidas por um
estudo acerca de despesas públicas (X, em R$ milhões) ocorridos no ano de 2019 em uma
amostra aleatória simples de 100 contratos.

52
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Com base nessas informações, julgue o item que se segue.

A mediana da variável X foi igual a R$ 2 milhões

Comentários:

A mediana é o segundo quartil (Q2), logo é realmente R$ 2 milhões.

Gabarito: Correto

24. (CESPE / BANESE - 2021) Em determinado dia, em uma região atendida por uma unidade do
corpo de bombeiros, ocorreram 16 acidentes, que resultaram em 48 vítimas, socorridas pelos
bombeiros nos próprios locais de acidente. Entre essas vítimas, 4 vieram a óbito no momento
do atendimento, e as demais sobreviveram.

Com base nessa situação hipotética, julgue o item a seguir.

Suponha que as idades das vítimas que vieram a óbito sejam 12, 50, 30 e 20 anos de idade. Nesse
caso, a mediana das idades é maior que 26 anos.

Comentários:

Primeiro ordenamos o conjunto de dados:

12, 20, 30, 50

53
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

A mediana divide o conjunto de dados ordenados em duas partes de tamanhos iguais. Como temos
uma quantidade par de dados, então temos que pegar a média aritmética dos dois valores centrais:

(20 + 30) 50
Mediana = = = 25
2 2

Como 25 < 26, então a questão está incorreta!

Gabarito: Errado

25. (CESPE / BANESE - 2021) A respeito do conjunto de dados {11, 6, 28, 51, 49, 32, 33}, julgue o
item a seguir.

A mediana desse conjunto de dados é igual a 51.

Comentários:

Primeiro ordenamos o conjunto de dados:

6, 11, 28, 32, 33, 49, 51

A mediana divide o conjunto de dados ordenados em duas partes de tamanhos iguais:

6, 11, 28, 32, 33, 49, 51

Como 32 < 33, então a questão está incorreta!

Gabarito: Errado

26. (CESPE / BANESE - 2021) A respeito do conjunto de dados {11, 6, 28, 51, 49, 32, 33}, julgue o
item a seguir.

O primeiro quartil do conjunto de dados em tela é igual ou superior a 33.

Comentários:

Primeiro ordenamos o conjunto de dados:

6, 11, 28, 32, 33, 49, 51

Em seguida, vamos achar a mediana (Q2):

6, 11, 28, 32, 33, 49, 51

54
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Para achar o Q1, basta encontrar o elemento central da metade à esquerda da mediana:

6, 11, 28, 32, 33, 49, 51

Gabarito: Errado

27. (CESPE / CBM-AL - 2021) Em determinado dia, em uma região atendida por uma unidade do
corpo de bombeiros, ocorreram 16 acidentes, que resultaram em 48 vítimas, socorridas pelos
bombeiros nos próprios locais de acidente. Entre essas vítimas, 4 vieram a óbito no momento
do atendimento, e as demais sobreviveram.

Com base nessa situação hipotética, julgue o item a seguir.

Considerando-se que a média de idade de todas as vítimas desse dia seja igual a 50 anos, é
correto concluir que não há crianças entre as vítimas.

Comentários:

Claro que não é possível concluir essa afirmação! Média é uma medida de tendência central
bastante sensível à outliers. Logo, poderíamos ter – por exemplo – 24 vítimas com 10 anos e 24
vítimas com 90 anos. Nesse cenário, temos metade das vítimas crianças e metade das vítimas idosa
– e ainda assim teríamos uma média de idade de 50 anos.

Gabarito: Errado

28. (CESPE / SEDUC-AL - 2021) Com base em estatística, julgue o item a seguir.

Suponha que o histograma a seguir represente a frequência relativa de alunos, distribuída por
faixa etária, que ingressaram no ensino superior no estado de Alagoas em 2020. Com base nas
informações desse gráfico, é correto afirmar que mais de 50% dos novos alunos têm idade
superior a 22 anos.

Comentários:

55
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Vamos tentar ver mais ou menos qual é a frequência relativa para cada faixa:

(18, 20] – cerca de 35 alunos;


(20, 22] – cerca de 24 alunos;
(22, 24] – cerca de 15 alunos;
(24, 26] – cerca de 8 alunos;
(26, 28] – cerca de 18 alunos;

Logo, alunos com idade superior a 22 anos são: 15 + 8 + 18 = 41 de um total de 100 alunos. Logo,
trata-se de 41%, ou seja, inferior a 50%.

Gabarito: Errado

29. (CESPE / TCE-RJ - 2021) No nível de mensuração da análise exploratória de dados, as variáveis
são classificadas como dependentes e independentes.

Comentários:

No nível de mensuração manipulação da análise exploratória de dados, as variáveis são


classificadas como dependentes e independentes.

Gabarito: Errado

30. (CESPE / ME - 2020) Acerca de visualização e análise exploratória de dados, julgue o item
seguinte.

O gráfico apresentado a seguir é denominado caixa de barra.

56
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Comentários:

Opa! Isso é um diagrama de caixa ou boxplot.

Gabarito: Errado

31. (CESPE / TJ-PA - 2020) Considerando que o desenho esquemático ( boxplot ) antecedente se
refere a uma variável quantitativa X, assinale a opção correta.

a) O intervalo interquartil é igual a 65.


b) Metade da distribuição da variável X se encontra entre os valores 20 e 40.
c) Os valores da variável X que se encontram no intervalo [5; 10] representam 5% da distribuição
de X.

57
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

d) A mediana de X é igual a 25.


e) O primeiro quartil da distribuição de X é igual a 10.

Comentários:

(a) Errado, o intervalo interquartil é igual a 40-10 = 30; (b) Errado, trata-se do Q3, logo 25% da
distribuição se encontra entre os valores 20 e 40; (c) Errado, trata-se do Q1, logo 25% dos valores
estão entre [5;10]; (d) Errado, a mediana (Q2) é igual a 20; (e) Correto.

Gabarito: Letra E

32. (CESPE / ME - 2020) Acerca de visualização e análise exploratória de dados, julgue o item
seguinte.

Outlier ou anomalias são padrões nos dados que não estão de acordo com uma noção bem
definida de comportamento normal.

Comentários:

Perfeito! Outliers são valores extremos que se encontram fora da faixa normal de valores da
amostra. Eles são valores atípicos que não seguem a tendência geral da amostra e que podem
distorcer a análise estatística.

Gabarito: Correto

33. (CESPE / ME – 2020) Considerando o histograma e o diagrama boxplot mostrados


anteriormente, julgue o item a seguir.

O primeiro quartil da distribuição de X é inferior a −2.

Comentários:

58
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Opa! Não dá para ver o valor exato, mas o 1Q está em torno de -1,5, logo não é inferior a -2.

Gabarito: Errado

34. (CESPE / ME – 2020) Considerando o histograma e o diagrama boxplot mostrados


anteriormente, julgue o item a seguir.

No diagrama de boxplot, os pontos indicados pelo símbolo representam outliers.

Comentários:

Perfeito! Esse é o símbolo para representação de valores atípicos.

Gabarito: Correto

35. (CESPE / ME – 2020) Considerando o histograma e o diagrama boxplot mostrados


anteriormente, julgue o item a seguir.

59
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

O comprimento da caixa do diagrama de boxplot, representado pela figura ,é


obtido multiplicando-se o desvio padrão de X por 2.

Comentários:

O comprimento da caixa do diagrama é representado pelo intervalo interquartílico, logo é:

IQR = Q3 − Q1

Gabarito: Errado

36. (CESPE / ME – 2020) O boxplot representa os dados em um retângulo construído com o primeiro
e o segundo quartil, fornecendo informação sobre valores médios.

Comentários:

O boxplot representa valores mínimos, valores máximos máximo, primeiro quartil, segundo quartil
ou mediana e o terceiro quartil – ele não fornece informações sobre valores médios.

Gabarito: Errado

37. (CESPE / ME – 2020) Um indicador de desempenho X permite avaliar a qualidade dos processos
de governança de instituições públicas. A figura mostra, esquematicamente, a sua distribuição,
obtida mediante estudo amostral feito por determinada agência de pesquisa. A tabela
apresenta estatísticas descritivas referentes a essa distribuição.

60
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Com base nessas informações, julgue o item a seguir.

O diagrama box-plot mostrado na figura sugere a existência de pelo menos duas observações
atípicas.

Comentários:

Perfeito! São as duas bolinhas apresentadas na parte superior do diagrama.


Gabarito: Correto

38. (CESPE / Prefeitura de São Cristovão - 2019) A tabela seguinte mostra a distribuição das idades
dos 30 alunos da turma A do quinto ano de uma escola de ensino fundamental.

A partir dessa tabela, julgue o item.

A moda dessa distribuição é igual a 11 anos.

Comentários:

A moda será o valor de idade que tem maior quantidade de estudantes, logo é 10.

Gabarito: Errado

39. (CESPE / IPHAN - 2018) Cinco municípios de um estado brasileiro possuem as seguintes
quantidades de patrimônios históricos: {2, 3, 5, 3, 2}.

Admitindo que a média e o desvio-padrão desse conjunto de valores sejam iguais a 3 e 1,2,
respectivamente, julgue o item seguinte.

O coeficiente de variação é superior a 0,3 e inferior a 0,5.

Comentários:

Desvio Padrão 1,2


CV = = = 0,4
Média Aritmética 3

Gabarito: Correto

40. (CESPE / IPHAN - 2018) Define-se estatística descritiva como a etapa inicial da análise utilizada
para descrever e resumir dados. Em relação às medidas descritivas, julgue o item a seguir.

61
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

A mediana é o valor que ocupa a posição central da série de observações de uma variável,
dividindo-se o conjunto de valores ordenados em partes assimétricas desiguais.

Comentários:

A mediana é o valor que ocupa a posição central da série de observações de uma variável, dividindo-
se o conjunto de valores ordenados em partes assimétricas desiguais simétricas iguais.

Gabarito: Errado

41. (CESPE / IPHAN - 2018) Uma pesquisa a respeito das quantidades de teatros em cada uma de
11 cidades brasileiras selecionadas apresentou o seguinte resultado: {1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 4}.

Com referência a esses dados, julgue o item seguinte.

A mediana do conjunto é igual a 3.

Comentários:

O conjunto de dados já está ordenado:

1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 4

Em seguida, vamos achar a mediana (Q2):

1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 4

Gabarito: Correto

42. (CESPE / TCM-BA - 2018) Acerca de visualização e análise exploratória de dados, assinale a
opção correta.

a) As variáveis são características que podem ser observadas ou medidas em cada elemento
pesquisado, sendo classificadas em inteiras, textuais ou imagens.

b) A entrada de dados deve assumir convenções tais como: os dados devem estar no formato de
matriz; cada linha da matriz deve ter pelo menos um atributo identificador; e cada coluna da
matriz deve ter um nome distinto.

c) A informação de uma ou mais variáveis que não estiver disponível (por exemplo, falta de
resposta, rasura etc) deve ser marcada (ou indicada) com zero.

62
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

d) Um arquivo csv (comma separated values), no qual as colunas de um conjunto de dados são
separadas por vírgula, pode ser aberto em qualquer editor de texto ou planilha eletrônica.

e) A eliminação completa (casewise deletion) consiste em eliminar os arquivos que apresentem


mais de um dado perdido.

Comentários:

Com exceção do primeiro item, não sei o que os outros têm de relação com análise exploratória de
dados. De toda forma, vamos comentá-los...

(a) Errado. No contexto de análise exploratória de dados, variáveis são classificadas em qualitativas
(categóricas) ou quantitativas (numéricas). A questão traz o conceito de variáveis dentro do
contexto de sistemas de informações computacionais;

(b) Errado. As convenções de entrada de dados são diretrizes que determinam como os usuários
devem fornecer informações a um sistema. Essas convenções ajudam a garantir que os dados sejam
inseridos corretamente, permitindo que o sistema os interprete e execute as ações necessárias. A
entrada de dados realmente deve assumir convenções, mas elas são: dados em formato de
bidimensional (matriz/tabela); cada linha da corresponde a um elemento da população/amostra; e
cada coluna corresponde a uma variável;

(c) Errado. É importante não preencher automaticamente os valores ausentes com zero, pois isso
pode distorcer os resultados finais. O preenchimento de dados ausentes depende do contexto e do
tipo de análise que se pretende realizar. Muitas vezes, é melhor utilizar um símbolo especial dado
que zero não representa falta de informação e, sim, que a informação é zero. Em qualquer caso, é
importante avaliar cuidadosamente os dados e selecionar a abordagem mais adequada;

(d) Correto. É uma opção bastante prática para armazenar e compartilhar dados em formato de
tabela, pois é facilmente lido por qualquer programa de edição de texto ou planilha eletrônica. É
possível usar os dados desses arquivos para criar gráficos e outras visualizações, tornando os dados
acessíveis a um público mais amplo. Além disso, é fácil exportar e importar os dados de um arquivo
csv para outro programa e ainda pode ser usado para compartilhar dados entre diferentes sistemas;

(e) Errado. A eliminação completa consiste em eliminar todas as observações que possuam pelo
menos um dado perdido.

Gabarito: Letra D

43. (CESPE / IPHAN - 2018) O diagrama de dispersão é adequado para se descrever o


comportamento conjunto de duas variáveis quantitativas. Cada ponto do gráfico representa um
par de valores observados.

Comentários:

63
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Perfeito! O diagrama de dispersão é adequado para descrever o comportamento conjunto de duas


variáveis quantitativas. Ele é útil para mostrar a relação entre duas variáveis, bem como qualquer
tendência linear ou não linear entre eles. O gráfico também oferece uma maneira visual de
identificar outliers (valores extremos) e também é útil para comparar duas variáveis em relação a
um terceiro, não quantitativo, como gênero ou tratamento.

Gabarito: Correto

44. (CESPE / IPHAN - 2018) Uma pesquisa a respeito das quantidades de teatros em cada uma de
11 cidades brasileiras selecionadas apresentou o seguinte resultado: {1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 4}.

Com referência a esses dados, julgue o item seguinte.

O valor do primeiro quartil do conjunto de dados (Q1/4) é igual a 3.

Comentários:

O conjunto de dados já está ordenado:

1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 4

Em seguida, vamos achar a mediana (Q2):

1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 4

Para achar o Q1, basta encontrar o elemento central da metade à esquerda da mediana:

1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 4

Como Q1 = 2, então a questão está incorreta!

Gabarito: Errado

45. (CESPE / IPHAN - 2018) Uma pesquisa a respeito das quantidades de teatros em cada uma de
11 cidades brasileiras selecionadas apresentou o seguinte resultado: {1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 4}.

Com referência a esses dados, julgue o item seguinte.

O valor do terceiro quartil do conjunto de dados (Q3/4) é igual a 4.

Comentários:

O conjunto de dados já está ordenado:

64
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 4

Em seguida, vamos achar a mediana (Q2):

1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 4

Para achar o Q3, basta encontrar o elemento central da metade à direita da mediana:

1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 4

Gabarito: Correto

46.(CESPE / SEDUC AL - 2018) Situação hipotética: Na revisão de um livro, o editor contou 20


páginas que tiveram 0, 1, 2, 3 ou 4 erros; 36 páginas que tiveram 5, 6, 7, 8 ou 9 erros.
Prosseguindo, ele obteve os valores mostrados na tabela a seguir.

Assertiva: Nesse caso, a frequência relativa para os dados da classe modal da tabela é de 40%.

Comentários:

A classe modal é a que tem a maior frequência, logo é de 5 a 9. Ela tem 36 páginas de um total de
20+36+14+12+8 = 90 páginas. Dessa forma, temos que 36/90 = 40%

Gabarito: Correto

47. (CESPE / IPHAN - 2018) O gráfico de barras é adequado para a análise de variáveis qualitativas
ordinais ou quantitativas discretas, pois permite investigar a presença de tendência nos dados.

Comentários:

65
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Perfeito! O gráfico de barras é um dos melhores recursos para visualizar dados qualitativos ordinais
ou quantitativas discretas. Ele facilita a compreensão dos dados e permite que os usuários explorem
tendências, comparações e mudanças nos dados. Além disso, o gráfico de barras é uma ferramenta
útil para compreender a distribuição e a importância relativa de um conjunto de dados.

Gabarito: Correto

48.(CESPE / CBM-AL - 2017) O gráfico de setores a seguir mostra a distribuição das quantidades
de incêndios em determinada região, nos meses de abril a setembro de determinado ano.

Sabendo-se que nesses meses ocorreram 1.548 incêndios nessa região, julgue o item que se
segue.

A frequência relativa à classe “incêndios no mês de setembro” é superior a 30%.

Comentários:

Temos um total de 1548 incêndios que correspondem a 360º no gráfico de setores. Setembro
corresponde a 120º, logo – por regra de três – ele corresponde a (120*1548)/360 = 516. Sabemos
que 516/1548 = 0,3333, logo é realmente superior a 30%.

Gabarito: Correto

49.(CESPE / CBM-AL - 2017) O gráfico de setores a seguir mostra a distribuição das quantidades
de incêndios em determinada região, nos meses de abril a setembro de determinado ano.

66
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Sabendo-se que nesses meses ocorreram 1.548 incêndios nessa região, julgue o item que se segue.

Nos meses de maio e junho ocorreram mais de 400 incêndios nessa região.

Comentários:

- Maio representa 40/360 = 1/9  1/9 * 1548 = 172


- Junho representa 50/360 = 5/36  5/36 * 1548 = 215

172 + 215 = 387, logo menos que 400!

Gabarito: Errado

50. (CESPE / TCE-PA - 2016) A tabela precedente apresenta a distribuição de frequências relativas
da variável X, que representa o número diário de denúncias registradas na ouvidoria de
determinada instituição pública. A partir das informações dessa tabela, julgue o item seguinte.

A variável X é do tipo qualitativo nominal.

67
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Comentários:

X é claramente uma variável do tipo quantitativo discreta.

Gabarito: Errado

51. (CESPE / DEPEN - 2015) O diretor de um sistema penitenciário, com o propósito de estimar o
percentual de detentos que possuem filhos, entregou a um analista um cadastro com os nomes
de 500 detentos da instituição para que esse profissional realizasse entrevistas com os
indivíduos selecionados

A partir dessa situação hipotética e dos múltiplos aspectos a ela relacionados, julgue o item,
referente a técnicas de amostragem.

A diferença entre um censo e uma amostra consiste no fato de esta última exigir a realização de
um número maior de entrevistas.

Comentários:

Opa! Em um censo, todos os membros da população alvo são entrevistados, enquanto em uma
amostra, apenas alguns membros da população alvo são entrevistados para representar a
população inteira.

Gabarito: Errado

52. (CESPE / ANATEL – 2014) O coeficiente de variação é uma medida de dispersão que pode ser
negativa.

Comentários:

É realmente uma medida de dispersão que indica o grau de variabilidade ou dispersão de um


conjunto de dados em relação à média. É calculado como a razão entre a desvio padrão e a média,
e é expressa como uma porcentagem. É importante notar que o desvio padrão não pode ser
negativo, mas a média e o coeficiente de variação podem. Se o CV for negativo, isso indica que os
dados são menos variáveis do que a média, enquanto um CV positivo indica que os dados são mais
variáveis do que a média.

Gabarito: Correto

53. (CESPE / ANATEL – 2014) Em uma distribuição unimodal, se a mediana for igual à média, a
moda também será igual à média.

Comentários:

68
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Uma distribuição unimodal é aquela que possui apenas uma moda. Se a mediana e a média forem
iguais, isso significa que as frequências dos dados ao redor da mediana e da média são iguais, mas
não significa necessariamente que a moda seja igual à mediana e à média.

Gabarito: Errado

54. (CESPE / ANATEL - 2014) Considerando-se a tabela de contingência abaixo apresentada, é


correto afirmar que basta a identificação dos valores A, D, N e n11 para a obtenção dos demais
valores indicados nessa tabela.

Comentários:

- Se soubermos n11 e A, descobriremos n12.


- Se soubermos n12 e D, descobriremos n22.
- Se soubermos N e D, descobriremos C.
- Se soubermos n11 e C, descobriremos n21.
- Se soubermos n21 e n22, descobriremos B.

Gabarito: Correto

55. (CESPE / TRE-ES - 2011) Com base na tabela abaixo, referente às eleições de 2010, que
apresenta a quantidade de candidatos para os cargos de presidente da República, governador
de estado, senador, deputado federal e deputado estadual/distrital, bem como a quantidade de
candidatos considerados aptos pela justiça eleitoral e o total de eleitos para cada cargo
pretendido, julgue o item a seguir.

A variável "cargo" classifica-se como uma variável qualitativa ordinal.

69
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Comentários:

Note que cargo é claramente uma variável qualitativa. No entanto, eu considero que se trata de
uma variável qualitativa nominal, já que não há uma ordem inerente. No entanto, a banca
considerou a questão como correta. Em minha opinião, caberia recurso!

Gabarito: Correto

56. (CESPE / TRE-ES - 2011) A tabela abaixo apresenta uma distribuição hipotética das quantidades
de eleitores que não votaram no segundo turno da eleição para presidente da República bem
como os números de municípios em que essas quantidades ocorreram. Com base nessa tabela,
julgue o item seguinte, relativo à análise exploratória de dados.

A moda da distribuição se encontra no mesmo intervalo de classe que contempla a mediana e a


média.

Comentários:

A moda está no intervalo com maior quantidade de municípios: [4000 a 6000). A mediana é o ponto
central de 5.564, logo 50% x 5.564 = 2782.

Nós temos 364 municípios no [0 a 2000) e 1000 municípios no [2000 a 4000). A mediana está na
posição 2782º, logo não está nessas duas primeiras classes. A próxima classe tem 3000 municípios
e como 364+1000+3000 = 4364, então estão lá municípios da posição 1364 e a posição 4364. Logo,
a mediana está também na classe [4000 a 6000).

Por fim, teríamos que calcular a média. No entanto, você tem que ser esperto da hora da prova. A
média é uma medida de tendência central e podemos ver que as classes são bastante simétricas. À
esquerda da classe [4000 a 6000), temos 364 e 1000; à direita da classe [4000 a 6000), temos 200 e
1000. Logo, é quaaaase simétrico! Assim, a média também estará dentro da classe [4000 a 6000).

Gabarito: Correto

70
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

57. (CESPE / TRE-ES - 2011) A tabela abaixo apresenta uma distribuição hipotética das quantidades
de eleitores que não votaram no segundo turno da eleição para presidente da República bem
como os números de municípios em que essas quantidades ocorreram. Com base nessa tabela,
julgue o item seguinte, relativo à análise exploratória de dados.

Na tabela de frequências, o uso de intervalos de classe permite concluir que a variável em


questão é contínua.

Comentários:

O intervalo de classes trata da quantidade de eleitores! Eleitores são pessoas, logo são
representadas por variáveis numéricas discretas (0, 1, 2, 3, 4, 5, ...). Ora, não existe meio eleitor ou
nem três quartos de eleitor. Dessa forma, a variável em questão é discreta e, não, contínua.

Gabarito: Errado

58. (CESPE / TRE-ES - 2011) A tabela abaixo apresenta uma distribuição hipotética das quantidades
de eleitores que não votaram no segundo turno da eleição para presidente da República bem
como os números de municípios em que essas quantidades ocorreram. Com base nessa tabela,
julgue o item seguinte, relativo à análise exploratória de dados.

71
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Quartis, mínimo e máximo são estatísticas de ordem que podem ser representadas em um
diagrama conhecido como esquema dos cinco números.

Comentários:

As medidas de estatísticas descritivas como mínimo, primeiro quartil, mediana (ou segundo
quartil), terceiro quartil e máximo formam o boxplot. Por essa razão, ele também é conhecido como
Esquema dos Cinco Números.

Gabarito: Correto

72
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

QUESTÕES COMENTADAS - FGV

59. (FGV / MPE-SC - 2022) O Sistema de Informação de Vigilância Epidemiológica da Gripe (Sivep-
Gripe) foi implantado no ano de 2000 para monitoramento do vírus influenza no país. Em 20 de
março de 2020 foi declarada a transmissão comunitária da Doença pelo Coronavírus 2019
(Covid-19) em todo o território nacional. Com isso, a Secretaria de Vigilância em Saúde do
Ministério da Saúde (SVS/MS) realizou a adaptação do Sistema de Vigilância de Síndromes
Respiratórias Agudas, visando orientar o Sistema Nacional de Vigilância em Saúde para a
circulação simultânea do novo coronavírus (Sars-CoV-2), influenza e outros vírus respiratórios
no âmbito da Emergência em Saúde Pública de Importância Nacional (Espin) (Portaria GM nº
188/2020).

A ficha de registro individual levanta diversas informações, dentre elas:

1. Sexo (Feminino ou Masculino);


2. Idade (em anos);
3. Raça/Cor (Branca, Preta, Amarela, Parda, Indígena, Ignorada);
4. Fumante (sim ou não);
5. Possui fatores de risco/comorbidades? (Sim, Não, Ignorado);
6. Escolaridade (Sem escolaridade/analfabeto, Fundamental 1º ciclo [1º ao 5º ano],
Fundamental 2º ciclo [6º ao 9º ano], Médio [1º ao 3º ano], Superior, Não se aplica, Ignorado).
7. Unidade da Federação.

As variáveis 2, 3, 6 e 7 acima são, nesta ordem:

a) quantitativa contínua; qualitativa ordinal; qualitativa nominal; qualitativa ordinal;


b) quantitativa discreta; qualitativa ordinal; qualitativa nominal; qualitativa nominal;
c) quantitativa discreta; qualitativa ordinal; qualitativa ordinal; qualitativa ordinal;
d) quantitativa contínua; qualitativa nominal; qualitativa nominal; qualitativa nominal;
e) quantitativa discreta; qualitativa nominal; qualitativa ordinal; qualitativa nominal.

Comentários:

(2) Idade é uma variável quantitativa discreta; (3) Raça/Cor é uma variável qualitativa nominal; (6)
Escolaridade é uma variável qualitativa ordinal; (7) Unidade da Federação é uma variável qualitativa
nominal.

Gabarito: Letra E

60. (FGV / TCU - 2022) O histograma a seguir mostra a quantidade de refeições para cada faixa de
preço, em uma determinada área do Rio de Janeiro.

73
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

O conjunto de dados consistente com o histograma é:

a) 25, 27, 27, 28, 29, 34, 34, 34, 35, 35, 35, 35, 36, 36, 37;
b) 26, 27, 27, 28, 29, 34, 34, 34, 35, 35, 36, 36, 37;
c) 26, 27, 27, 28, 29, 34, 34, 34, 35, 35, 35, 35, 36, 36, 39;
d) 26, 27, 27, 28, 29, 34, 34, 34, 35, 35, 35, 35, 36, 36, 37;
e) 26, 27, 27, 28, 29, 31, 34, 34, 34, 35, 35, 35, 36, 36, 37.

Comentários:

Primeiro, temos que definir o intervalo de classes. Para tal, fazemos:

(Valor Máximo − Valor Mínimo) (37 − 26) 11


Valor Máximo = = = = 2,75
Quantidade de Classes 4 4

Logo, as classes são:

 26 + 2,75 = 28,75 [26,00 a 28,75]


 28,75 + 2,75 = 31,50 [28,75 a 31,50]
 31,50 + 2,75 = 34,25 [31,50 a 34,25]
 34,25 + 2,75 = 37 [34,25 a 37,00]

Agora notem que o eixo das ordenadas apresenta a quantidade de refeições. Logo, separando a
quantidade de refeições por classe, temos que:

 [26,00 a 28,75] – 4 Obs


 [28,75 a 31,50] – 1 Obs
 [31,50 a 34,25] – 3 Obs
 [34,25 a 37,00] – 7 Obs

Por fim, vamos analisar cada item:

74
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

(a) 25, 27, 27, 28, 29, 34, 34, 34, 35, 35, 35, 35, 36, 36, 37

Errado. Note que 25 não pertence ao intervalo de valores da primeira classe;

(b) 26, 27, 27, 28, 29, 34, 34, 34, 35, 35, 36, 36, 37

Errado. Temos apenas 13 observações e o gráfico apresenta 15 observações (4+1+3+7 = 15);

(c) 26, 27, 27, 28, 29, 34, 34, 34, 35, 35, 35, 35, 36, 36, 39

Errado. Note que 39 não pertence ao intervalo de valores da última classe;

(d) 26, 27, 27, 28, 29, 34, 34, 34, 35, 35, 35, 35, 36, 36, 37

Correto. Está tudo perfeito!

(e) 26, 27, 27, 28, 29, 31, 34, 34, 34, 35, 35, 35, 36, 36, 37

Errado. Note que 29 e 31 estão na segunda classe, mas essa classe tem apenas uma observação.

Gabarito: Letra D

61. (FGV / CBM-AM - 2022) A soma de 11 números inteiros estritamente positivos, não
necessariamente distintos, é 2022. O maior valor que a mediana desses 11 números pode ter é:

a) 335.
b) 336.
c) 337.
d) 338.
e) 339.

Comentários:

Se temos 11 números, a mediana será o número presente sexta posição:

(x1, x2, x3, x4, x5, Mediana, x7, x8, x9, x10, x11)

O enunciado afirma que a soma dos 11 números é 2022. Para saber a maior mediana possível, vamos
considerar o pior cenário. Em outras palavras, vamos considerar que os cinco primeiros números
(anteriores à mediana) são iguais a 1. Por que não zero, professor? Porque o enunciado afirma que os
números são estritamente positivos (e zero não é positivo). Logo, temos que:

(1, 1, 1, 1, 1, Mediana, x7, x8, x9, x10, x11)

75
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Se os cinco primeiros valores são iguais a 1, então os seis valores restantes têm que ser 2022-5 =
2017. Agora ficou fácil: basta dividir 2017 por 6. Logo, temos: 2017/6 = 336,16 – que podemos
arredondar para 336. O conjunto de valores seriam algo como:

(1, 1, 1, 1, 1, 336, 336, 336, 336, 336, 336)


ou
(1, 1, 1, 1, 2, 336, 336, 336, 336, 336, 336)

Gabarito: Letra B

62. (FGV / SEFAZ-ES - 2022) As notas de candidatos num certo foram:

54, 48, 46, 51, 38, 50, 44, 58, 32.

A mediana dessas notas é igual a

a) 44.
b) 46.
c) 48.
d) 50.
e) 51.

Comentários:

Primeiro, temos que ordenar o conjunto de dados:

32, 38, 44, 46, 48, 50, 51, 54, 58

Agora – como temos uma quantidade ímpar de valores – basta pegar o valor central:

32, 38, 44, 46, 48, 50, 51, 54, 58

Gabarito: Letra C

63. (FGV / TCE-TO - 2022) A seguinte amostra de idades foi observada: 30, 24, 26, 25, 24, 28, 26,
29, 30.

A mediana dessas idades é igual a:

a) 25,5;
b) 26,0;
c) 26,5;
d) 28,0;

76
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

e) 28,5.

Comentários:

Primeiro ordenamos o conjunto de dados:

24, 24, 25, 26, 26, 28, 29, 30, 30

A mediana divide o conjunto de dados ordenados em duas partes de tamanhos iguais:

24, 24, 25, 26, 26, 28, 29, 30, 30

Gabarito: Letra B

64.(FGV / PC-AM - 2022) Suponha que um pesquisador tenha as seguintes informações de uma
amostra de dados:

• Média = 5
• Variância = 25
• Soma dos desvios absolutos em relação à média = 10
• Tamanho da amostra = 5

Assim, o coeficiente de variação dessa amostra em termos decimais será igual a

a) 1.
b) 2.
c) √5.
d) 5.
e) 10.

Comentários:

Desvio Padrão √Variância √25 5


CV = = = = =1
Média Aritmética Média Aritmética 5 5

Gabarito: Letra A

65. (FGV / Prefeitura de Manaus - 2022) Um pesquisador, ao analisar uma amostra de dados de
renda de um grupo de funcionários de uma empresa, encontrou um valor nulo para o desvio-
padrão. Logo, pode-se concluir que:

a) a média da renda é nula.

77
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

b) os dados estão incorretos, pois isso implicaria que um ou mais funcionários tem renda
negativa.
c) o coeficiente de variação da amostra é nulo, se a média da renda for diferente de zero.
d) a mediana e a moda da renda são nulas.
e) não é possível calcular a variância da amostra.

Comentários:

Galera, se o desvio-padrão é nulo, as rendas são todas iguais. Logo, não há variabilidade dos dados.
Dito isso, vamos analisar os itens:

(a) Errado, é possível concluir que a renda será igual para todos, mas não que a renda
necessariamente será nula; (b) Errado, não há nada de errado com os dados e não implica que
funcionários tenham renda negativa; (c) Correto. Como o desvio padrão é nulo, a média tem que
ser diferente de zero para que o coeficiente de variação seja nulo; (d) Errado, a mediana e a moda
são iguais, mas não necessariamente nulas; (e) Errado, a variância é o quadrado do desvio padrão,
logo também será nula.

Gabarito: Letra C

66. (FGV / MPE-SC - 2022) Uma sociedade empresária ocupa um prédio de 6 andares e em cada
andar há uma impressora para uso dos funcionários. Cada funcionário tem que acessar apenas
a impressora do andar e não tem acesso às impressoras dos outros andares. Como não havia um
controle no uso das impressoras, foram então coletadas durante 50 dias informações sobre o
número de impressões de cada andar. O boxplot abaixo mostra a distribuição do número de
impressões do segundo andar, onde MIN = 20, Q1 = 130, Q2 = 250, Q3 = 360, MAX = 500.

A distribuição do “número de impressões no segundo andar” possui:

a) amplitude interquartílica 480 e tem valores atípicos;


b) amplitude interquartílica 230 e tem valores atípicos;
c) amplitude interquartílica 230 e não tem valores atípicos;
d) amplitude 230 e tem valores atípicos;
e) amplitude 480 e tem valores atípicos.

Comentários:

78
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Sabemos que o Intervalo Interquartil é:

IQR = Q3 − Q1 = 360 − 130 = 230

E, de fato, na imagem não é apresentado nenhum outlier (valores atípicos). Professor, mas o valor
mínimo é menor que o Q1 (20 < 130) e o valor máximo é maior que o Q3 (360 > 500)? Sim, mas eles não
são valores atípicos – seriam se fossem representados valores menores que 20 ou maiores que 500.

Gabarito: Letra C

67. (FGV / TRT13 - 2022) Os diagramas a seguir são Box-Plots de notas de cinco turmas de alunos
de um mesmo colégio numa prova de matemática:

A maior mediana das notas foi obtida pela turma:

a) 1.
b) 2.
c) 3.
d) 4.
e) 5.

Comentários:

Mediana é o Q2! A maior mediana está representada na Turma 4, dado que ela tem a linha central
mais alta.

Gabarito: Letra D

68. (FGV / TRT13 - 2022) Os diagramas a seguir são Box-Plots de notas de cinco turmas de alunos
de um mesmo colégio numa prova de matemática:

79
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

A turma com notas mais homogêneas nessa prova foi a:

a) 1.
b) 2.
c) 3.
d) 4.
e) 5.

Comentários:

A turma com notas mais homogêneas é aquela em que tem o menor intervalo interquartílico. Logo,
é possível ver pela imagem que a turma representada pela menor caixa é a Turma 3.

Gabarito: Letra C

69. (FGV / COMPESA - 2018) A COMPESA, em uma pesquisa de satisfação dos usuários,
preparou um formulário para traçar os perfis de seus clientes e o grau de satisfação com os
serviços da empresa. Em um formulário, ela solicitou os dados a seguir:

I. Idade.
II. Grau de escolaridade.
III. Faixa de renda familiar.
IV. Nota dada ao serviço.

Assinale a opção que contempla apenas variáveis categóricas:

a) I e II.
b) II e III.
c) III e IV.
d) I, II e III.
e) I, II e IV

Comentários:

80
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

(I) Errado, trata-se de uma variável numérica; (II) Correto, trata-se de uma variável categórica; (III)
Correto, trata-se de uma variável categórica; (IV) Errado, trata-se de uma variável numérica.

Gabarito: Letra B

70. (FGV / CODEBA - 2016) Uma das características principais da mediana é:

a) a invariância à unidade de medida utilizada.


b) a robustez à presença de outliers.
c) a identificação da observação mais frequente.
d) o fato de, em seu cálculo, dar mais peso às observações mais frequentes.
e) a normalização pelos desvios em relação à média.

Comentários:

(a) Errado, ela é totalmente variável em relação à unidade utilizada; (b) Correto, trata-se de uma
medida de tendência central robusta a outliers – diferente da média; (c) Errado, essa seria a moda;
(d) Errado, ela não dá peso algum; (e) Errado, isso não tem nenhuma relação com mediana.

Gabarito: Letra B

81
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

QUESTÕES COMENTADAS - FCC


71. (FCC / PGE-AM - 2022) Uma ginasta executa três vezes uma determinada prova. Suas notas, na
primeira e segunda tentativas foram, respectivamente, metade e dois terços da nota da terceira
tentativa. A média aritmética das notas das três tentativas foi de 32,5 pontos. A nota da primeira
prova foi:

a) 20,5 pontos.
b) 30,0 pontos.
c) 22,5 pontos.
d) 45,0 pontos.
e) 20,0 pontos

Comentários:

A ginasta teve três notas: N1, N2, N3. Além disso, temos que:

N1 = (1/2)*N3
N2 = (2/3)*N3
N3 = ?

Sabemos que a média aritmética das notas das três tentativas foi de 32,5. Logo, temos que:

1 2 N3 N3
N1 + N2 + N3 C D ∗ N3 + C D ∗ N3 + N3 +2∗ + N3
Média = = 2 3 = 2 3 = 32,5
3 3 3

N3 N3
+2∗ + N3 = 32,5 ∗ 3
2 3

N3 N3
+2∗ + N3 = 97,5
2 3

4 ∗ N3 + 3 ∗ N3 + 6 ∗ N3
= 97,5
6

4 ∗ N3 + 3 ∗ N3 + 6 ∗ N3 = 97,5 ∗ 6 = 585

13 ∗ N3 = 585

585
N3 = = 45
13

Se N3 = 45, N1 = (1/2)*N3 = (1/2)*45 = 22,5.

82
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Gabarito: Letra C

72. (FCC / BANRISUL - 2019) Uma população é formada por 4 elementos, ou seja, {4, 5, 5, 8}. O
coeficiente de variação, definido como o resultado da divisão do respectivo desvio padrão pela
média aritmética da população, é igual a:

a) 3/11.
b) 9/22.
c) 3/22.
d) 9/11.
e) 1/5.

Comentários:

4 + 5 + 5 + 8 22 11
Média Aritmética = = = = 5,5
4 4 2

(4 − 5,5)& + (5 − 5,5)& + (5 − 5,5)& + (8 − 5,5)&


Variância =
4

2,25 + 0,25 + 0,25 + 6,25 9


Variância = =
4 4

Desvio Padrão F9 3
3
√Variância 4
CV = = = = 2 =
Média Aritmética Média Aritmética 11 11 11
2 2

Gabarito: Letra A

73. (FCC / Prefeitura de Macapá - 2018) A medida de tendência central que representa o valor com
maior frequência na distribuição normal de uma amostra probabilística é a:

a) média amostral.
b) variância.
c) amplitude total.
d) mediana.
e) moda amostral.

Comentários:

83
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

A medida de tendência central que representa o valor com maior frequência na distribuição normal
de uma amostra probabilística é a moda amostral.

Gabarito: Letra E

74. (FCC / Prefeitura de Macapá - 2018) Para fazer um gráfico de setores que representasse o
número de alunos canhotos, destros e ambidestros na sala de aula, Renato coletou os dados
indicados na tabela abaixo.

Sabendo-se que um círculo pode ser dividido em 360°, quantos graus tem o setor circular
correspondente aos canhotos no gráfico correto feito por Renato?

a) 18°.
b) 25°.
c) 7,5°.
d) 24°.
e) 27°.

Comentários:

Temos um total de 40 alunos que correspondem a 360º no gráfico de setores. Temos 3 canhotos,
logo – por regra de três – ele corresponde a (3*360)/40 = 27º.

Gabarito: Letra E

75. (FCC / DPE-SP - 2010) Sobre estatística aplicada, é correto o que se afirma em:

84
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

a) Parâmetros são medidas características de grupos, determinadas por meio de uma amostra
aleatória.

b) A estatística descritiva é a técnica pela são coletados dados de uma amostra, a partir do que
são tomadas decisões sobre uma determinada população.

c) A caracterização de uma população se dá por meio da observação de todos os seus


componentes que a integram.

d) A estatística inferencial compreende um conjunto de técnicas destinadas à síntese de dados


numéricos.

e) Censo é o processo utilizado para se medir as características de todos os membros de uma


dada população.

Comentários:

(a) Errado, parâmetros são medidas características da população e, não, de grupos; (b) Errado, a
questão trata da estatística inferencial; (c) Errado, a caracterização de uma população se dá por
meio da observação de uma amostra; (d) Errado, a questão trata da estatística descritiva; (e)
Correto. O censo realmente é o processo utilizado para se medir as características de todos os
membros de uma dada população.

Gabarito: Letra E

85
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

QUESTÕES COMENTADAS - MULTIBANCAS


76. (VUNESP / DOCAS-PB - 2022) A média aritmética simples das idades de 4 pessoas é de 24 anos.
Sabendo-se que, com base na idade da pessoa mais nova do grupo, as demais têm 2, 9 e 13 anos
a mais, a pessoa com a maior idade, do grupo, tem:

a) 28 anos.
b) 29 anos.
c) 30 anos.
d) 31 anos.
e) 32 anos.

Comentários:

Temos quatro pessoas com idades a, b, c, d. Vamos supor que a seja a pessoa mais nova. Sabendo-
se que, com base na idade da pessoa mais nova do grupo, as demais têm 2, 9 e 13 anos a mais, temos
que:

b = a+2
c = a+9
d = a+13

E sabendo que a média é 24, temos que:

a+b+c+d a + (a + 2) + (a + 9) + (a + 13) 4a + 24
Média = = = = 24
4 4 4

72
4G + 24 = 24 ∗ 4 = 96 → 4a = 96 − 24 → 4a = 72 → a = = 18
4

Substituindo os valores, temos que:

a = 18
b = 18+2 = 20
c = 18+9 = 27
d = 18+13 = 31

Gabarito: Letra D

77. (VUNESP / PM-SP - 2022) A média aritmética simples das idades dos 27 aprovados em um
concurso para um cargo A foi de 26 anos, enquanto que a média aritmética simples dos 23
aprovados para um cargo B, no mesmo concurso, foi de 31 anos.

86
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Considerando-se apenas esses dois cargos, a média aritmética simples das idades dos
aprovados foi de:

a) 28,0 anos.
b) 27,8 anos.
c) 29,0 anos.
d) 28,3 anos.
e) 27,0 anos.

Comentários:

Para calcular a média, basta fazer:

(Número de Aprovados do Cargo A)*(Média de Idade do Cargo A) + (Número de Aprovados do Cargo B)*(Média de Idade do Cargo B)

(QTD APROVADOS CARGO A ∗ MEDIA IDADE CARGO A) + (QTD APROVADOS CARGO B ∗ MEDIA IDADE CARGO B)
MÉDIA =
QTD TOTAL DE APROVADOS

(27 ∗ 26) + (23 ∗ 31) 702 + 713 1415


MÉDIA = = = = PQ, R
27 + 23 50 50

Gabarito: Letra D

78. (VUNESP / Prefeitura de Piracicaba - 2022) O gráfico mostra o número de alunos do Ensino
Médio que faltaram às aulas, em uma determinada escola, em 5 dias de uma semana.

O número de faltas na sexta-feira superou a média de faltas desses cinco dias em:

a) 1.
b) 2.
c) 3.
d) 4.
e) 5.

Comentários:

87
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Temos o seguinte conjunto de faltas:

Segunda-feira: 3 faltas
Terça-feira: 6 faltas
Quarta-feira: 5 faltas
Quinta-feira: 9 faltas
Sexta-feira: 12 faltas

Logo, temos um total de 3+6+5+9+12 = 35 faltas em 5 dias, logo uma média de 35/5 = 7 faltas por
dia. Dessa forma, o número de faltas na sexta-feira (12) superou a média de faltas desses cinco dias
(7) em 12-7 = 5 dias.

Gabarito: Letra E

79. (VUNESP / PM-SP - 2022) Uma pesquisa foi realizada com um grupo de pessoas cujas idades,
em anos, pertencem ao conjunto {21, 22, 23, 24, 25, 26}. O gráfico registra as frequências
absolutas dos entrevistados com menos de 26 anos.

Sabendo que a mediana das idades do conjunto completo de dados (incluindo as pessoas com
26 anos) é igual a 24 anos, o número máximo de pessoas com 26 anos que participaram da
pesquisa foi:

a) 19.
b) 25.
c) 35.
d) 49.
e) 55.

Comentários:

Questão acima da média de dificuldade! Vamos lá... o gráfico do enunciado nos mostra que há:

- 15 entrevistados com 21 anos;


- 22 entrevistados com 22 anos;

88
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

- 10 entrevistados com 23 anos;


- 25 entrevistados com 24 anos;
- 30 entrevistados com 25 anos;

Só que existem também entrevistados com 26 anos que não estão representados no gráfico. E
quantos são? Não sei, então vou chamar de x! Logo, temos:

- 15 entrevistados com 21 anos;


- 30 entrevistados com 22 anos;
- 10 entrevistados com 23 anos;
- 25 entrevistados com 24 anos;
- 30 entrevistados com 25 anos;
- x entrevistados com 26 anos;

A questão também afirma que a mediana é 24 anos. Logo, temos que:

21, ..., 21, 22, ..., 22, 23, ..., 23, ..., 24, ..., 25, ..., 25, ..., 26, ..., 26

A mediana é o valor que divide o conjunto de dados em duas partes iguais. Nós sabemos que
existem 15 entrevistados com 21 anos, 30 entrevistados com 22 anos, 10 entrevistados com 23 anos
e 25 pessoas com 24 anos. Ocorre que a questão quer saber o máximo de pessoas com 26 anos que
participaram da pesquisa. Ora, a mediana é 24, mas existem 25 entrevistados com 24 anos, então
a mediana pode ser qualquer um desses valores de 24 anos.

Notem que, quanto menos pessoas com 26 anos, mais deslocado à esquerda estará a mediana;
quanto mais pessoas com 26 anos, mais deslocado à direita estará a mediana. Como a questão
deseja saber o máximo de pessoas com 26 anos, a mediana deverá ser o valor 24 mais à direita no
conjunto de dados. Logo, deverá ser algo como:

21, ..., 21, 22, ..., 22, 23, ..., 23, 24, ..., 24, 25, ..., 25, ..., 26, ..., 26

Ora, nós temos 25 entrevistados com 24 anos e o último é a própria mediana, logo temos 25-1 = 24
entrevistados à esquerda da mediana. Agora ficou fácil: a mediana divide um conjunto de dados em
duas partes de mesmo tamanho. À esquerda, nós temos 15+30+10+24 = 79 entrevistados. Logo, à
direita devemos ter também 71 entrevistados. Nós temos 30+x = 79, em que x representada a
quantidade de entrevistados com 26 anos. Logo, x = 79-30 = 49 entrevistados.

Gabarito: Letra D

80.(VUNESP / Prefeitura de Piracicaba - 2022) Os tempos de espera, em minutos, para o


atendimento de 80 consumidores em um centro de atendimento ao consumidor estão
registrados no gráfico a seguir.

89
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

De acordo com o gráfico, é correto afirmar que o tempo de espera de:

a) mais da metade dos consumidores foi superior a 1 hora.


b) 12,5% dos consumidores foi entre 1 h e 35 min e 2 h e 20 min.
c) 65% dos consumidores foi inferior a 1 hora.
d) 24 consumidores foi entre 50 min e 80 min.
e) no mínimo 2 pessoas, foi superior a 2 h e 30 min.

Comentários:

(a) Errado. Temos 24+20 = 44/80 = 55%. Ora, se 55% esperaram no máximo 50 min, então a
alternativa está evidentemente errada; (b) Correto. Temos 3+3+4 = 10/80 = 12,5% de consumidores
esperaram entre 1h35 (95min) e 2h20 (140min); (c) Errado. Isso não pode ser concluído pelo gráfico
– sabemos que 44/80 esperaram até 50 minutos e mais oito pessoas esperaram até 65 minutos, mas
não podemos afirmar nenhuma quantidade para 60 minutos; (d) Errado, temos 8+10 = 18
consumidores com espera entre 50 min e 80 min; (e) Errado, pela mesma razão da alternativa (c),
isso não pode ser afirmado com certeza.

Gabarito: Letra B

81. (VUNESP / Prefeitura de Araçariguama - 2021) O gráfico a seguir apresenta como votaram os
vereadores de uma determinada cidade na votação de um projeto na Câmara Municipal.

Número de votos

Sobre o modo como esses vereadores votaram, é correto afirmar que:

90
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

a) 2/3 dos vereadores votaram a favor do projeto.


b) os votos a favor foram mais do que o dobro dos votos contrários.
c) a maioria dos votos foi contrária a emenda.
d) para cada voto contrário tiveram dois votos a favor.
e) mais de 1/3 dos vereadores votaram contra o projeto.

Comentários:

Note que houve um pouco mais de 30 votos – algo como 32 votos. Dito isso, vamos julgar os itens:
(a) Errado, foi 20/32 = 5/8, que é menor que 2/3; (b) Errado, os votos a favor foram cerca de 20/32,
logo é menos que o dobro; (c) Errado, Errado, a maioria dos votos foi a favor da emenda; (d) Errado,
isso seria uma relação de 2:1, quando tivemos uma relação 8:5; (e) Correto. 12/32 = 3/8 = 0,375, que
é maior que 1/3 = 0,333.

Gabarito: Letra E

82. (VUNESP / EsFCEx - 2021) A tabela apresenta parte da distribuição de frequências das notas de
200 candidatos na primeira fase de um concurso:

Sabendo-se que 48% dos candidatos tiraram notas maiores ou iguais a 7,0, sendo que a quarta
parte deles tiraram notas abaixo de 8,0, é possível afirmar corretamente que, em relação aos
200 candidatos, tiraram notas abaixo de 6,0 ou notas maiores ou iguais a 9,0:

a) 65%
b) 61%
c) 63%
d) 59%
e) 57%

91
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Comentários:

Temos 200 candidatos! Se 48% deles tiraram notas maiores ou iguais a 7,0, então foram 0,48*200
= 96 candidatos. A quarta parte desses candidatos tiraram nota abaixo de 8,0. Logo, 96/4 = 24
candidatos. Além disso, a tabela nos mostra que 5% (0,05) candidatos tiraram nota entre 8,0 e 9,0.
Logo, 200*0,05 = 10 candidatos. Dessa forma, até agora temos:

- Entre [6,0 e 7,0), temos 40 candidatos.


- Entre [7,0 e 8,0), temos 24 candidatos.
- Entre [8,0 e 9,0), temos 10 candidatos.

Ocorre que já sabemos que 96 candidatos tiraram notas maiores ou iguais a 7,0. Logo, 200-96 = 104
candidatos tiraram notas menores que 7,0. No entanto, já sabemos que 40 candidatos tiraram nota
entre 6,0 e 7,0. Dessa forma, logo 104-40 = 64 candidatos tiraram notas menores que 6,0. Dessa
forma, até agora temos:

- Entre [0,0 e 6,0), temos 64 candidatos.


- Entre [6,0 e 7,0), temos 40 candidatos.
- Entre [7,0 e 8,0), temos 24 candidatos.
- Entre [8,0 e 9,0), temos 10 candidatos.

Para fechar, faltam apenas os candidatos que tiraram entre 9,0 e 10,0. Então basta fazer a
subtração: 200 – 64 – 40 – 24 – 10 = 62. Dessa forma, até agora temos:

- Entre [0,0 e 6,0), temos 64 candidatos.


- Entre [6,0 e 7,0), temos 40 candidatos.
- Entre [7,0 e 8,0), temos 24 candidatos.
- Entre [8,0 e 9,0), temos 10 candidatos.
- Entre [9,0 e 10,0), temos 62 candidatos.

Dito isso, qual é o percentual de candidatos que tiraram notas abaixo de 6,0? 64/200 = 32%. E qual é o
percentual de candidatos que tiraram notas abaixo maiores ou iguais a 9,0? 62/200 = 31%. Agora basta
somar: 32+31 = 63%.

Gabarito: Letra C

83. (CESGRANRIO / BB – 2021) Designado para relatar a qualidade das atividades desenvolvidas
em um determinado banco, um funcionário recebeu a seguinte Tabela, com a quantidade de
notas relativas à avaliação dos correntistas sobre o atendimento no caixa, sendo 1 a pior nota, e
5, a melhor nota.

92
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Qual é a moda das notas dessa avaliação?

a) 2
b) 3
c) 3,33
d) 4
e) 5

Comentários:

A moda é o valor que aparece com maior frequência em um conjunto de dados. Na tabela acima,
tivemos 3.000 notas 1; 9.500 notas 2; 12.000 notas 3; 15.000 notas 4; e 8.000 notas 5. Logo, a moda
(valor que aparece com maior frequência) é o 4.

Gabarito: Letra D

84.(CESGRANRIO / Banco do Brasil – 2021) Responsável por entender o comportamento dos


produtos oferecidos por determinado banco onde trabalhava, e preocupado com a quantidade
enorme de dados disponíveis para a análise, um funcionário decidiu extrair um subconjunto
desses dados. Esse subconjunto é conhecido como:

a) parâmetro.
b) população.
c) amostra.
d) variável.
e) censo.

Comentários:

Um subconjunto de dados utilizado para análise é também chamado de amostra. Em uma definição
mais formal, uma amostra é um conjunto de dados coletados e/ou selecionados de uma população
estatística por um procedimento definido.

Gabarito: Letra C

93
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

85. (CESGRANRIO / Banco do Brasil – 2021) Após a coleta de dados em um determinado contexto
(variáveis A, B, C, … X), uma das formas mais simples e iniciais de análise é a geração e a
avaliação de um histograma para uma variável selecionada (ex: X), como por exemplo, em um
estudo climático, em que os dados coletados poderiam incluir a temperatura máxima observada
em toda a Terra ao longo de dez anos.

Nesse caso, o histograma adequado é um gráfico em que são apresentadas as:

a) últimas dez médias móveis da variável X


b) somas das médias dos quadrados de cada valor de uma variável X
c) variações de uma variável X ao longo do tempo
d) médias históricas da variável X nos últimos sete dias
e) frequências de uma variável X em intervalos de valores

Comentários:

Um histograma é um gráfico que mostra a distribuição de frequência de dados, com os dados


organizados em classes ou intervalos e contados em barras verticais. Ele é utilizado para mostrar
como a frequência dos dados se distribui ao longo de um intervalo de valores.

Cada retângulo do histograma representa uma classe, a altura do retângulo representa a frequência
e a largura do retângulo representa a amplitude ou intervalo de valores. Logo, o histograma
adequado é um gráfico em que são apresentadas as frequências de uma variável X em intervalos de
valores.

Gabarito: Letra E

86. (CESGRANRIO / BB – 2021) Um funcionário de um banco foi incumbido de acompanhar o


perfil dos clientes de um determinado produto por meio da Análise de Dados, de forma a
aprimorar as atividades de marketing relativas a esse produto. Para isso, ele utilizou a variável
classe social desses clientes, coletada pelo banco, que tem os valores A, B, C, D e E, sem
referência a valores contínuos.

Sabendo-se que essa é uma escala ordinal, qual é a medida de tendência central adequada para
analisar essa variável?

a) média aritmética
b) média geométrica
c) mediana
d) quartis
e) variância

Comentários:

94
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

VARIÁVEL MÉDIA MEDIANA MODA


QUANTITATIVA DISCRETA OK OK OK
QUANTITATIVA CONTÍNUA OK OK OK
QUALITATIVA ORDINAL OK OK
QUALITATIVA NOMINAL OK

Basta lembrar da nossa tabelinha. Por meio de uma escala ou variável ordinal, é possível avaliar a
mediana ou a moda.

Gabarito: Letra C

87. (CESGRANRIO / BB – 2021) Foi solicitado a um funcionário de um determinado banco que


realizasse uma pesquisa, exclusivamente com variáveis do tipo qualitativa, sobre a satisfação
dos clientes com os serviços oferecidos pela instituição. Para atender a essa demanda utilizando
os meios adequados, sua escolha de escalas de mensuração deve estar limitada às escalas:

a) intervalares e razão
b) nominais e intervalares
c) nominais e ordinais
d) ordinais e intervalares
e) ordinais e razão

Comentários:

nível de
mensuração

NUMÉRICA ou CATEGÓRICA ou
quantitativa qualitativa

DiscretA ContínuA Nominal Ordinal

Deve-se usar exclusivamente com variáveis do tipo qualitativa, logo a escala é nominal e ordinal.

Gabarito: Letra C

88. (CPCC / UFES - 2021) Analise as afirmativas a seguir, sobre análise exploratória de dados.

95
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

I. Numa curva ________ de dados quantitativos, a média e a ______ não são medidas de resumo
adequadas para representar o conjunto de dados.

II. O ________ é conhecido como o esquema dos 5 números e fornece uma ideia sobre a posição,
a dispersão e a simetria dos dados sob análise.

III. Numa curva de frequência assimétrica __________, a mediana tende a ser maior do que a
_______.

Completam CORRETAMENTE os trechos lacunados acima, na ordem sequencial, os termos:

a) bimodal – mediana – histograma – negativa – moda


b) unimodal – moda – boxplot – positiva – média
c) trimodal – mediana – boxplot – positiva – média
d) bimodal – mediana – boxplot – positiva – moda
e) unimodal – mediana – histograma – negativa – moda

Comentários:

(I) Numa curva bimodal de dados quantitativos, a média e a mediana não são medidas de resumo
adequadas para representar o conjunto de dados.

(II) O boxplot é conhecido como o esquema dos 5 números e fornece uma ideia sobre a posição, a
dispersão e a simetria dos dados sob análise.

(III) Numa curva de frequência assimétrica positiva, a mediana tende a ser maior do que a moda.

Gabarito: Letra D

89. (VUNESP / Prefeitura de Campinas - 2019) Uma empresa atua em três segmentos de
mercado, A, B e C. O gráfico de setores mostra a distribuição percentual, por segmento, da
receita total obtida por essa empresa em 2018.

96
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Sabendo-se que a receita obtida no segmento A superou a receita obtida no segmento B em R$


64 milhões, é correto afirmar que a receita obtida no segmento C foi igual a:

a) R$ 98 milhões.
b) R$ 96 milhões.
c) R$ 94 milhões.
d) R$ 88 milhões.
e) R$ 86 milhões

Comentários:

Considere que T é o Valor Total (em milhões). Logo, temos que:

A = 0,48 * T
B = 0,40 * T
C = 0,12 * T

Nós sabemos também que A superou a receita obtida em B em 64 milhões. Logo, temos que:

A = B + 64 (milhões)

Substituindo os valores, temos que:

0,48*T = 0,40*T + 64

Fazendo os cálculos, temos que:

0,48*T – 0,40*T = 64  0,08T = 64  T = 64/0,08 = 800 (milhões)

Se T é 800 milhões, agora ficou fácil:

A = 0,48 * T = 0,48 * 800 = 384 milhões

97
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

B = 0,40 * T = 0,40 * 800 = 320 milhões


C = 0,12 * T = 0,12 * 800 = 96 milhões

Gabarito: Letra B

90.(VUNESP / SEMAE - 2019) As medidas de tendência central, utilizando variáveis quantitativas,


dão o valor do ponto em torno do qual os dados se distribuem. Contudo, para o estudo de
variáveis qualitativas, utiliza-se, como medida de tendência central, a:

a) média aritmética.
b) moda e a média aritmética.
c) mediana e a média aritmética.
d) moda.
e) mediana.

Comentários:

VARIÁVEL MÉDIA MEDIANA MODA


QUANTITATIVA DISCRETA OK OK OK
QUANTITATIVA CONTÍNUA OK OK OK
QUALITATIVA ORDINAL OK OK
QUALITATIVA NOMINAL OK

Como podemos verificar, pode ser utilizado mediana e moda. Como nenhuma alternativa
contempla essa possibilidade, trata-se apenas da moda.

Gabarito: Letra D

91. (VUNESP / UNICAMP - 2019) Assinale dentre os exemplos a seguir, o gráfico de dispersão.

a)

98
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

b)

c)

d)

99
ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 (Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

e)

Comentários:

(a) Errado, trata-se de um Gráfico de Pizza; (b) Correto; (c) Errado, trata-se de um Gráfico de Linhas;
(d) Errado, trata-se de um Gráfico de Barras Vertical (Gráfico de Colunas); (e) Errado, trata-se de um
Gráfico de Barras Horizontal.

Gabarito: Letra B

92. (VUNESP / Prefeitura de Sertãozinho - 2018) Um professor fez uma pesquisa com todos os
seus alunos, sobre a preferência das possíveis atividades na disciplina de educação física. Na
tabela a seguir constam os dados dessa pesquisa.

Em se tratando de algumas medidas centrais em estatística, com as informações apresentadas


na tabela, o professor pode abordar, com os seus alunos,

a) a moda das variáveis, apenas.

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 100
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

b) a moda e a mediana das variáveis, apenas.


c) a moda e a média das variáveis, apenas.
d) a mediana e a média das variáveis, apenas.
e) a moda, a mediana e a média das variáveis

Comentários:

Notem que temos uma variável qualitativa nominal, logo só é possível obter a moda (que no caso é
futebol, porque é o esporte com maior frequência absoluta.

VARIÁVEL MÉDIA MEDIANA MODA


QUANTITATIVA DISCRETA OK OK OK
QUANTITATIVA CONTÍNUA OK OK OK
QUALITATIVA ORDINAL OK OK
QUALITATIVA NOMINAL OK

Gabarito: Letra A

93. (VUNESP / CM São Joaquim Barra - 2018) A estatística descritiva faz uso de variáveis, que são
classificadas como quantitativas ou qualitativas. Assinale correta em relação a essas variáveis.

a) Quantitativas referem-se às variáveis ordinal ou discreta; as qualitativas referem-se às


variáveis nominal ou contínua.

b) Quantitativas referem-se às variáveis ordinal ou contínua; as qualitativas referem-se às


variáveis nominal ou discreta.

c) Quantitativas referem-se às variáveis nominal ou contínua; as qualitativas referem-se às


variáveis discreta ou ordinal.

d) Quantitativas referem-se às variáveis contínua ou discreta; as qualitativas referem-se às


variáveis nominal ou ordinal.

e) Quantitativas referem-se às variáveis nominal ou ordinal; as qualitativas referem-se às


variáveis contínua ou discreta.

Comentários:

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 101
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

nível de
mensuração

NUMÉRICA ou CATEGÓRICA ou
quantitativa qualitativa

DiscretA ContínuA Nominal Ordinal

(a) Quantitativas referem-se às variáveis ordinal ou discreta; as qualitativas referem-se às variáveis


nominal ou contínua.

(b) Quantitativas referem-se às variáveis ordinal ou contínua; as qualitativas referem-se às variáveis


nominal ou discreta.

(c) Quantitativas referem-se às variáveis nominal ou contínua; as qualitativas referem-se às


variáveis discreta ou ordinal.

(d) Correto.

(e) Quantitativas referem-se às variáveis nominal ou ordinal; as qualitativas referem-se às variáveis


contínua ou discreta.

Gabarito: Letra D

94.(AOCP / FUNPAPA - 2018) A utilização correta das técnicas de análise exploratória de dados
depende da natureza de mensuração das variáveis de interesse. Selecione entre as seguintes
técnicas aquela na qual “as variáveis são medidas em classes, mas não é possível estabelecer
ordem”.

a) Intervalar.
b) Nominal.
c) Razão.
d) Discreta.
e) Contínua.

Comentários:

Variáveis medidas em classes são variáveis qualitativas ou categóricas. Variáveis qualitativas em


que não é possível estabelecer uma ordem são variáveis nominais.

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 102
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

nível de
mensuração

NUMÉRICA ou CATEGÓRICA ou
quantitativa qualitativa

DiscretA ContínuA Nominal Ordinal

Gabarito: Letra B

95. (VUNESP / MPE-SP - 2016) Na estatística, são considerados medidas de dispersão:

a) média e moda.
b) percentil e coeficiente de variação.
c) amplitude total e percentil.
d) amplitude total e desvio padrão.
e) variância e média.

Comentários:

(a) Errado, são medidas de tendência central; (b) Errado, percentil é uma medida separatriz; (c)
Errado, percentil é uma medida separatriz; (d) Correto; (e) Errado, média é uma medida de
tendência central.

Gabarito: Letra D

96. (VUNESP / Prefeitura de São Paulo - 2015) Considere o gráfico a seguir, que representa as
respostas à enquete “Você já leu pelo menos dois livros no primeiro semestre desse ano?”,
pergunta essa feita a um grupo de 60 pessoas pesquisadas.

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 103
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Levando-se em conta as medidas centrais média, moda e mediana, assim como a variável
envolvida na estatística dessa enquete, é correto afirmar que pode(m) ser determinada(s),
dentre essas três medidas,

a) a moda e a mediana, apenas.


b) a moda, apenas.
c) a média, apenas.
d) a média e a mediana, apenas.
e) a média, a moda e a mediana.

Comentários:

A variável possui três possíveis valores: (1) Sim; (2) Não; e (3) Não Responderam. Logo, trata-se de
uma variável qualitativa nominal. Dito isso, basta lembrar da nossa tabelinha:

VARIÁVEL MÉDIA MEDIANA MODA


QUANTITATIVA DISCRETA OK OK OK
QUANTITATIVA CONTÍNUA OK OK OK
QUALITATIVA ORDINAL OK OK
QUALITATIVA NOMINAL OK

Note que se trata apenas da moda!

Gabarito: Letra B

97. (VUNESP / Prefeitura de São Paulo - 2015) Analise as afirmações I, II e III:

I. Uma variável de natureza quantitativa pode ser classificada como ordinal ou nominal.
II. Em um estudo de variável com natureza qualitativa, pode-se calcular o desvio padrão.
III. Existe relação que pode ser estabelecida entre variáveis de natureza qualitativa e variáveis de
natureza quantitativa.

As afirmações I, II e III são, respectivamente,

a) verdadeira, falsa e verdadeira.


b) verdadeira, verdadeira e verdadeira.
c) falsa, verdadeira e verdadeira.
d) falsa, verdadeira e falsa.
e) falsa, falsa e verdadeira.

Comentários:

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 104
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

(I) Errado, pode ser classificada como discreta ou contínua; (II) Errado, não é possível calcular desvio
padrão de variáveis qualitativas; (III) Correto, é possível estabelecer relações entre variáveis
qualitativas e quantitativas.

Exemplo: eu posso dizer que pessoas com renda acima de R$50.000,00/mês (variável quantitativa)
são classificadas como “Ricas” (variável qualitativa).

Gabarito: Letra E

98. (COPESE-UFT / Prefeitura de Palmas - 2014) O Box-Plot (gráfico de caixa) é ferramenta útil
na análise exploratória de dados. O propósito do gráfico é fornecer ao analista uma primeira
ideia da distribuição dos dados. Sobre o gráfico em questão, analise as afirmativas.

I. Quando a linha que representa a mediana estiver equidistante dos outros quartis a
distribuição será simétrica.

II. Quando a linha que representa a mediana estiver mais próxima do 1º quartil que do 3º quartil
a distribuição será assimétrica à direita.

III. Quando a linha que representa a mediana estiver mais próxima do 3º quartil que do 1º quartil
a distribuição será assimétrica à esquerda.

Marque a alternativa CORRETA.

a) Apenas a afirmativa I está correta.


b) Apenas as afirmativas I e II estão corretas.
c) Todas as afirmativas estão corretas.
d) Todas as afirmativas estão incorretas.

Comentários:

(I) Correto. Uma distribuição simétrica significa que os dados têm uma simetria em relação à
mediana. Ademais, a quantidade de dados acima da mediana é aproximadamente igual à
quantidade de dados abaixo da mediana; (II) Correto. Uma distribuição assimétrica à direita
significa que a maioria dos dados está concentrada à direita da mediana, ou seja, temos uma maior
concentração de valores altos na distribuição. Isto geralmente indica que a distribuição tem uma
cauda longa à direita, logo existem alguns valores muito elevados que estão muito distantes da
mediana. (III) Correto. Uma distribuição assimétrica à esquerda significa que existe um lado mais
curto da distribuição, que é o lado esquerdo. Isso indica que a maioria dos dados está concentrada
na direita, e que há poucos dados em relação à esquerda.

Gabarito: Letra D

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 105
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

QUESTÕES COMENTADAS - CESPE

COMO NÃO EXISTEM MUITAS QUESTÕES DE ANÁLISE EXPLORATÓRIA DE DADOS APLICADAS EM CONCURSOS DE
TECNOLOGIA DA INFORMAÇÃO, EU COLETEI QUESTÕES DE ESTATÍSTICA APLICADAS A OUTRAS ÁREAS

1. (CESPE / DPE-RO - 2022) Com relação às variáveis apresentadas na tabela abaixo, julgue a
seguir.

I. A variável estado civil é qualitativa nominal.


II. A variável quantidade de filhos é quantitativa discreta.
III. As variáveis salário e estado são quantitativas discretas.
IV. As variáveis idade e quantidade de filhos são qualitativas nominais.

Estão certos apenas:

a) I e II.
b) II e III.
c) III e IV.
d) I, II e IV.
e) I, III e IV.

2. (CESPE / DPE-RO - 2022) O valor de um atributo de um dado objeto é uma medida da


quantidade daquele atributo, a qual pode ser numérica ou categórica. Nesse caso, estado civil e
sexo são classificados como atributo:

a) binário.
b) nominal.
c) ordinal.
d) ausente.
e) razão.

3. (CESPE / APEX - 2022) O gráfico por meio do qual é possível representar localização, dispersão,
assimetria, comprimento da cauda e outliers, mediante o mínimo, o primeiro quartil, a mediana,
o terceiro quartil e o máximo, é denominado:

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 106
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

a) gráfico de linha.
b) gráfico de setor.
c) box plot.
d) scatter plot.

4. (CESPE / TELEBRAS - 2022) Com respeito ao conjunto de dados {5a, 2a, 2a}, em que a
representa uma constante não nula, julgue o próximo item.

A média amostral desse conjunto de dados é igual a 2a.

5. (CESPE / SECONT-ES - 2022) Uma empresa atua em três segmentos de mercado, A, B e C. O


gráfico de setores mostra a distribuição percentual, por segmento, da receita total obtida por
essa empresa em 2018.

Considerando os dados da tabela precedente, relativos aos empenhos do mês de março de 2022 de
determinado órgão público, bem como os conceitos relacionados a noções de estatística, julgue o
item subsequente.

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 107
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Caso haja necessidade de validar os empenhos a partir da apuração de Q3 (terceiro quartil), os


empenhos a serem verificados serão aqueles a partir de R$ 17.350,00.

6. (CESPE / PETROBRAS - 2022) Os dados a seguir são uma amostra de pesos aproximados, em
kg, de homens adultos:

67, 55, 102, 77, 88, 89, 100, 78, 69, 65, 65, 101, 98, 65, 68

A mediana desses pesos é:

a) 76.
b) 77.
c) 77,5.
d) 78.
e) 78,5.

7. (CESPE / PM-SP - 2022) Um levantamento amostral proporcionou as estatísticas precedentes,


referentes a determinada variável quantitativa X.

Considerando essas informações e que a variável X é composta por 1240 observações, julgue o
item subsequente.

O terceiro quartil da variável X foi inferior a 9.

8. (CESPE / PETROBRAS - 2022) Considerando que a tabela acima mostra a distribuição de


frequências de uma variável x obtida com base em uma amostra aleatória simples de tamanho
igual a n, julgue o item que se segue.

A moda de é igual a 2.

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 108
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

9. (CESPE / PETROBRAS - 2022) Determinado dado tetraédrico (dado em formato de tetraedro


regular), com vértices numerados de 1 a 4, foi lançado 21 vezes, de modo que o resultado do
lançamento desse dado correspondia ao vértice voltado para cima. A tabela seguinte mostra a
frequência com que se obteve cada resultado:

Com base nessa situação hipotética, julgue o item a seguir.

A mediana e a moda dessa distribuição são iguais.

10. (CESPE / PETROBRAS - 2022) A mediana e a moda do conjunto de dados {1, 2, 3, 9, 9, 10} são,
correta e respectivamente,

a) 6 e 9.
b) 6 e 10.
c) 3 e 9.
d) 3 e 10.
e) 6 e 8.

11. (CESPE / TELEBRAS - 2022) Com respeito ao conjunto de dados {0, 0, 1, 1, 1, 3}, julgue o item
que se segue.

O coeficiente de variação é igual ou superior a 1,2.

12. (CESPE / TELEBRAS - 2022) No gráfico boxplot anteriormente apresentado, o outlier do


conjunto de dados é representado pelo ponto:

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 109
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

a) A.
b) E.
c) B.
d) C.
e) D.

13. (CESPE / PETROBRAS - 2022) Com relação aos dados que resultaram no diagrama mostrado
na figura precedente, julgue o item a seguir.

A amplitude total dos dados em tela é inferior a 6.

14. (CESPE / PETROBRAS - 2022) Com relação aos dados que resultaram no diagrama mostrado
na figura precedente, julgue o item a seguir.

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 110
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

O terceiro quartil é inferior a 11 e superior a 10.

15. (CESPE / PETROBRAS - 2022) Considerando a figura precedente, que mostra desenhos
esquemáticos das distribuições das quantidades de cargas perdidas nos anos de 2020 e 2021,
segundo o tipo de carga transportada por uma mineradora, julgue o item que se segue.

Na distribuição da quantidade de carga do tipo A perdida em 2020, observa-se que o primeiro


quartil foi superior a 100 kg, enquanto o terceiro quartil foi inferior a 50 kg.

16. (CESPE / TELEBRAS - 2022) Com respeito ao conjunto de dados {0, 0, 1, 1, 1, 3}, julgue o item
que se segue.

Se esse conjunto de dados fosse representado por um diagrama de box-plot, então os valores 0
e 3 seriam chamados valores exteriores, ou, ainda, discrepantes, atípicos ou outliers.

17. (CESPE / TELEBRAS - 2022) Considerando que o histograma apresentado descreve a


distribuição de uma variável quantitativa X por meio de frequências absolutas, julgue o item que
se segue.

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 111
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

O número de observações que constituem a variável X é igual a 1.000.

18. (CESPE / APEX - 2022) Um indicador de desempenho X permite avaliar a qualidade dos
processos de governança de instituições públicas. A figura mostra, esquematicamente, a sua
distribuição, obtida mediante estudo amostral feito por determinada agência de pesquisa. A
tabela apresenta estatísticas descritivas referentes a essa distribuição.

Com base nessas informações, julgue o item a seguir.

O coeficiente de variação da distribuição de X é inferior a 0,8.

19. (CESPE / TELEBRAS - 2022) Considerando que uma variável quantitativa discreta X se distribui
conforme o diagrama boxplot anterior, julgue o item seguinte.

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 112
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

As observações da variável X que assumem valores iguais a 7, com base nesse diagrama boxplot,
são considerados outliers.

20. (CESPE / TCE-RJ - 2021) Considerando que uma variável quantitativa discreta X se distribui
conforme o diagrama boxplot anterior, julgue o item seguinte.

O diagrama boxplot indica que o intervalo interquartil (ou interquartílico) da distribuição da


variável X é igual a 3.

21. (CESPE / SERPRO - 2021) Considerando que o número X de erros registrados em determinado
tipo de código computacional siga uma distribuição binomial com média igual a 4 e variância
igual a 3, julgue o item a seguir.

O coeficiente de variação da distribuição de erros X é igual a 3.

22. (CESPE / TCE-RJ - 2021) Considerando que uma variável quantitativa discreta X se distribui
conforme boxplot anterior, julgue o item seguinte.

A mediana da variável X é igual a 4.

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 113
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

23. (CESPE / PGDF - 2021) O quadro apresentado mostra estatísticas descritivas produzidas por um
estudo acerca de despesas públicas (X, em R$ milhões) ocorridos no ano de 2019 em uma
amostra aleatória simples de 100 contratos.

Com base nessas informações, julgue o item que se segue.

A mediana da variável X foi igual a R$ 2 milhões

24. (CESPE / BANESE - 2021) Em determinado dia, em uma região atendida por uma unidade do
corpo de bombeiros, ocorreram 16 acidentes, que resultaram em 48 vítimas, socorridas pelos
bombeiros nos próprios locais de acidente. Entre essas vítimas, 4 vieram a óbito no momento
do atendimento, e as demais sobreviveram.

Com base nessa situação hipotética, julgue o item a seguir.

Suponha que as idades das vítimas que vieram a óbito sejam 12, 50, 30 e 20 anos de idade. Nesse
caso, a mediana das idades é maior que 26 anos.

25. (CESPE / BANESE - 2021) A respeito do conjunto de dados {11, 6, 28, 51, 49, 32, 33}, julgue o
item a seguir.

A mediana desse conjunto de dados é igual a 51.

26. (CESPE / BANESE - 2021) A respeito do conjunto de dados {11, 6, 28, 51, 49, 32, 33}, julgue o
item a seguir.

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 114
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

O primeiro quartil do conjunto de dados em tela é igual ou superior a 33.

27. (CESPE / CBM-AL - 2021) Em determinado dia, em uma região atendida por uma unidade do
corpo de bombeiros, ocorreram 16 acidentes, que resultaram em 48 vítimas, socorridas pelos
bombeiros nos próprios locais de acidente. Entre essas vítimas, 4 vieram a óbito no momento
do atendimento, e as demais sobreviveram.

Com base nessa situação hipotética, julgue o item a seguir.

Considerando-se que a média de idade de todas as vítimas desse dia seja igual a 50 anos, é
correto concluir que não há crianças entre as vítimas.

28. (CESPE / SEDUC-AL - 2021) Com base em estatística, julgue o item a seguir.

Suponha que o histograma a seguir represente a frequência relativa de alunos, distribuída por
faixa etária, que ingressaram no ensino superior no estado de Alagoas em 2020. Com base nas
informações desse gráfico, é correto afirmar que mais de 50% dos novos alunos têm idade
superior a 22 anos.

29. (CESPE / TCE-RJ - 2021) No nível de mensuração da análise exploratória de dados, as variáveis
são classificadas como dependentes e independentes.

30. (CESPE / ME - 2020) Acerca de visualização e análise exploratória de dados, julgue o item
seguinte.

O gráfico apresentado a seguir é denominado caixa de barra.

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 115
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

31. (CESPE / TJ-PA - 2020) Considerando que o desenho esquemático ( boxplot ) antecedente se
refere a uma variável quantitativa X, assinale a opção correta.

a) O intervalo interquartil é igual a 65.


b) Metade da distribuição da variável X se encontra entre os valores 20 e 40.
c) Os valores da variável X que se encontram no intervalo [5; 10] representam 5% da distribuição
de X.
d) A mediana de X é igual a 25.
e) O primeiro quartil da distribuição de X é igual a 10.

32. (CESPE / ME - 2020) Acerca de visualização e análise exploratória de dados, julgue o item
seguinte.

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 116
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Outlier ou anomalias são padrões nos dados que não estão de acordo com uma noção bem
definida de comportamento normal.

33. (CESPE / ME – 2020) Considerando o histograma e o diagrama boxplot mostrados


anteriormente, julgue o item a seguir.

O primeiro quartil da distribuição de X é inferior a −2.

34. (CESPE / ME – 2020) Considerando o histograma e o diagrama boxplot mostrados


anteriormente, julgue o item a seguir.

No diagrama de boxplot, os pontos indicados pelo símbolo representam outliers.

35. (CESPE / ME – 2020) Considerando o histograma e o diagrama boxplot mostrados


anteriormente, julgue o item a seguir.

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 117
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

O comprimento da caixa do diagrama de boxplot, representado pela figura ,é


obtido multiplicando-se o desvio padrão de X por 2.

36. (CESPE / ME – 2020) O boxplot representa os dados em um retângulo construído com o primeiro
e o segundo quartil, fornecendo informação sobre valores médios.

37. (CESPE / ME – 2020) Um indicador de desempenho X permite avaliar a qualidade dos processos
de governança de instituições públicas. A figura mostra, esquematicamente, a sua distribuição,
obtida mediante estudo amostral feito por determinada agência de pesquisa. A tabela
apresenta estatísticas descritivas referentes a essa distribuição.

Com base nessas informações, julgue o item a seguir.

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 118
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

O diagrama box-plot mostrado na figura sugere a existência de pelo menos duas observações
atípicas.

38. (CESPE / Prefeitura de São Cristovão - 2019) A tabela seguinte mostra a distribuição das idades
dos 30 alunos da turma A do quinto ano de uma escola de ensino fundamental.

A partir dessa tabela, julgue o item.

A moda dessa distribuição é igual a 11 anos.

39. (CESPE / IPHAN - 2018) Cinco municípios de um estado brasileiro possuem as seguintes
quantidades de patrimônios históricos: {2, 3, 5, 3, 2}.

Admitindo que a média e o desvio-padrão desse conjunto de valores sejam iguais a 3 e 1,2,
respectivamente, julgue o item seguinte.

O coeficiente de variação é superior a 0,3 e inferior a 0,5.

40. (CESPE / IPHAN - 2018) Define-se estatística descritiva como a etapa inicial da análise utilizada
para descrever e resumir dados. Em relação às medidas descritivas, julgue o item a seguir.

A mediana é o valor que ocupa a posição central da série de observações de uma variável,
dividindo-se o conjunto de valores ordenados em partes assimétricas desiguais.

41. (CESPE / IPHAN - 2018) Uma pesquisa a respeito das quantidades de teatros em cada uma de
11 cidades brasileiras selecionadas apresentou o seguinte resultado: {1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 4}.

Com referência a esses dados, julgue o item seguinte.

A mediana do conjunto é igual a 3.

42. (CESPE / TCM-BA - 2018) Acerca de visualização e análise exploratória de dados, assinale a
opção correta.

a) As variáveis são características que podem ser observadas ou medidas em cada elemento
pesquisado, sendo classificadas em inteiras, textuais ou imagens.

b) A entrada de dados deve assumir convenções tais como: os dados devem estar no formato de
matriz; cada linha da matriz deve ter pelo menos um atributo identificador; e cada coluna da
matriz deve ter um nome distinto.

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 119
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

c) A informação de uma ou mais variáveis que não estiver disponível (por exemplo, falta de
resposta, rasura etc) deve ser marcada (ou indicada) com zero.

d) Um arquivo csv (comma separated values), no qual as colunas de um conjunto de dados são
separadas por vírgula, pode ser aberto em qualquer editor de texto ou planilha eletrônica.

e) A eliminação completa (casewise deletion) consiste em eliminar os arquivos que apresentem


mais de um dado perdido.

43. (CESPE / IPHAN - 2018) O diagrama de dispersão é adequado para se descrever o


comportamento conjunto de duas variáveis quantitativas. Cada ponto do gráfico representa um
par de valores observados.

44. (CESPE / IPHAN - 2018) Uma pesquisa a respeito das quantidades de teatros em cada uma de
11 cidades brasileiras selecionadas apresentou o seguinte resultado: {1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 4}.

Com referência a esses dados, julgue o item seguinte.

O valor do primeiro quartil do conjunto de dados (Q1/4) é igual a 3.

45. (CESPE / IPHAN - 2018) Uma pesquisa a respeito das quantidades de teatros em cada uma de
11 cidades brasileiras selecionadas apresentou o seguinte resultado: {1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 4}.

Com referência a esses dados, julgue o item seguinte.

O valor do terceiro quartil do conjunto de dados (Q3/4) é igual a 4.

46.(CESPE / SEDUC AL - 2018) Situação hipotética: Na revisão de um livro, o editor contou 20


páginas que tiveram 0, 1, 2, 3 ou 4 erros; 36 páginas que tiveram 5, 6, 7, 8 ou 9 erros.
Prosseguindo, ele obteve os valores mostrados na tabela a seguir.

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 120
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Assertiva: Nesse caso, a frequência relativa para os dados da classe modal da tabela é de 40%.

47. (CESPE / IPHAN - 2018) O gráfico de barras é adequado para a análise de variáveis qualitativas
ordinais ou quantitativas discretas, pois permite investigar a presença de tendência nos dados.

48.(CESPE / CBM-AL - 2017) O gráfico de setores a seguir mostra a distribuição das quantidades
de incêndios em determinada região, nos meses de abril a setembro de determinado ano.

Sabendo-se que nesses meses ocorreram 1.548 incêndios nessa região, julgue o item que se
segue.

A frequência relativa à classe “incêndios no mês de setembro” é superior a 30%.

49.(CESPE / CBM-AL - 2017) O gráfico de setores a seguir mostra a distribuição das quantidades
de incêndios em determinada região, nos meses de abril a setembro de determinado ano.

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 121
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Sabendo-se que nesses meses ocorreram 1.548 incêndios nessa região, julgue o item que se segue.

Nos meses de maio e junho ocorreram mais de 400 incêndios nessa região.

50. (CESPE / TCE-PA - 2016) A tabela precedente apresenta a distribuição de frequências relativas
da variável X, que representa o número diário de denúncias registradas na ouvidoria de
determinada instituição pública. A partir das informações dessa tabela, julgue o item seguinte.

A variável X é do tipo qualitativo nominal.

51. (CESPE / DEPEN - 2015) O diretor de um sistema penitenciário, com o propósito de estimar o
percentual de detentos que possuem filhos, entregou a um analista um cadastro com os nomes
de 500 detentos da instituição para que esse profissional realizasse entrevistas com os
indivíduos selecionados

A partir dessa situação hipotética e dos múltiplos aspectos a ela relacionados, julgue o item,
referente a técnicas de amostragem.

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 122
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

A diferença entre um censo e uma amostra consiste no fato de esta última exigir a realização de
um número maior de entrevistas.

52. (CESPE / ANATEL – 2014) O coeficiente de variação é uma medida de dispersão que pode ser
negativa.

53. (CESPE / ANATEL – 2014) Em uma distribuição unimodal, se a mediana for igual à média, a
moda também será igual à média.

54. (CESPE / ANATEL - 2014) Considerando-se a tabela de contingência abaixo apresentada, é


correto afirmar que basta a identificação dos valores A, D, N e n11 para a obtenção dos demais
valores indicados nessa tabela.

55. (CESPE / TRE-ES - 2011) Com base na tabela abaixo, referente às eleições de 2010, que
apresenta a quantidade de candidatos para os cargos de presidente da República, governador
de estado, senador, deputado federal e deputado estadual/distrital, bem como a quantidade de
candidatos considerados aptos pela justiça eleitoral e o total de eleitos para cada cargo
pretendido, julgue o item a seguir.

A variável "cargo" classifica-se como uma variável qualitativa ordinal.

56. (CESPE / TRE-ES - 2011) A tabela abaixo apresenta uma distribuição hipotética das quantidades
de eleitores que não votaram no segundo turno da eleição para presidente da República bem
como os números de municípios em que essas quantidades ocorreram. Com base nessa tabela,
julgue o item seguinte, relativo à análise exploratória de dados.

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 123
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

A moda da distribuição se encontra no mesmo intervalo de classe que contempla a mediana e a


média.

57. (CESPE / TRE-ES - 2011) A tabela abaixo apresenta uma distribuição hipotética das quantidades
de eleitores que não votaram no segundo turno da eleição para presidente da República bem
como os números de municípios em que essas quantidades ocorreram. Com base nessa tabela,
julgue o item seguinte, relativo à análise exploratória de dados.

Na tabela de frequências, o uso de intervalos de classe permite concluir que a variável em


questão é contínua.

58. (CESPE / TRE-ES - 2011) A tabela abaixo apresenta uma distribuição hipotética das quantidades
de eleitores que não votaram no segundo turno da eleição para presidente da República bem
como os números de municípios em que essas quantidades ocorreram. Com base nessa tabela,
julgue o item seguinte, relativo à análise exploratória de dados.

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 124
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Quartis, mínimo e máximo são estatísticas de ordem que podem ser representadas em um
diagrama conhecido como esquema dos cinco números.

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 125
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

QUESTÕES COMENTADAS - FGV

59. (FGV / MPE-SC - 2022) O Sistema de Informação de Vigilância Epidemiológica da Gripe (Sivep-
Gripe) foi implantado no ano de 2000 para monitoramento do vírus influenza no país. Em 20 de
março de 2020 foi declarada a transmissão comunitária da Doença pelo Coronavírus 2019
(Covid-19) em todo o território nacional. Com isso, a Secretaria de Vigilância em Saúde do
Ministério da Saúde (SVS/MS) realizou a adaptação do Sistema de Vigilância de Síndromes
Respiratórias Agudas, visando orientar o Sistema Nacional de Vigilância em Saúde para a
circulação simultânea do novo coronavírus (Sars-CoV-2), influenza e outros vírus respiratórios
no âmbito da Emergência em Saúde Pública de Importância Nacional (Espin) (Portaria GM nº
188/2020).

A ficha de registro individual levanta diversas informações, dentre elas:

1. Sexo (Feminino ou Masculino);


2. Idade (em anos);
3. Raça/Cor (Branca, Preta, Amarela, Parda, Indígena, Ignorada);
4. Fumante (sim ou não);
5. Possui fatores de risco/comorbidades? (Sim, Não, Ignorado);
6. Escolaridade (Sem escolaridade/analfabeto, Fundamental 1º ciclo [1º ao 5º ano],
Fundamental 2º ciclo [6º ao 9º ano], Médio [1º ao 3º ano], Superior, Não se aplica, Ignorado).
7. Unidade da Federação.

As variáveis 2, 3, 6 e 7 acima são, nesta ordem:

a) quantitativa contínua; qualitativa ordinal; qualitativa nominal; qualitativa ordinal;


b) quantitativa discreta; qualitativa ordinal; qualitativa nominal; qualitativa nominal;
c) quantitativa discreta; qualitativa ordinal; qualitativa ordinal; qualitativa ordinal;
d) quantitativa contínua; qualitativa nominal; qualitativa nominal; qualitativa nominal;
e) quantitativa discreta; qualitativa nominal; qualitativa ordinal; qualitativa nominal.

60. (FGV / TCU - 2022) O histograma a seguir mostra a quantidade de refeições para cada faixa de
preço, em uma determinada área do Rio de Janeiro.

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 126
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

O conjunto de dados consistente com o histograma é:

a) 25, 27, 27, 28, 29, 34, 34, 34, 35, 35, 35, 35, 36, 36, 37;
b) 26, 27, 27, 28, 29, 34, 34, 34, 35, 35, 36, 36, 37;
c) 26, 27, 27, 28, 29, 34, 34, 34, 35, 35, 35, 35, 36, 36, 39;
d) 26, 27, 27, 28, 29, 34, 34, 34, 35, 35, 35, 35, 36, 36, 37;
e) 26, 27, 27, 28, 29, 31, 34, 34, 34, 35, 35, 35, 36, 36, 37.

61. (FGV / CBM-AM - 2022) A soma de 11 números inteiros estritamente positivos, não
necessariamente distintos, é 2022. O maior valor que a mediana desses 11 números pode ter é:

a) 335.
b) 336.
c) 337.
d) 338.
e) 339.

62. (FGV / SEFAZ-ES - 2022) As notas de candidatos num certo foram:

54, 48, 46, 51, 38, 50, 44, 58, 32.

A mediana dessas notas é igual a

a) 44.
b) 46.
c) 48.
d) 50.
e) 51.

63. (FGV / TCE-TO - 2022) A seguinte amostra de idades foi observada: 30, 24, 26, 25, 24, 28, 26,
29, 30.

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 127
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

A mediana dessas idades é igual a:

a) 25,5;
b) 26,0;
c) 26,5;
d) 28,0;
e) 28,5.

64.(FGV / PC-AM - 2022) Suponha que um pesquisador tenha as seguintes informações de uma
amostra de dados:

• Média = 5
• Variância = 25
• Soma dos desvios absolutos em relação à média = 10
• Tamanho da amostra = 5

Assim, o coeficiente de variação dessa amostra em termos decimais será igual a

a) 1.
b) 2.
c) √5.
d) 5.
e) 10.

65. (FGV / Prefeitura de Manaus - 2022) Um pesquisador, ao analisar uma amostra de dados de
renda de um grupo de funcionários de uma empresa, encontrou um valor nulo para o desvio-
padrão. Logo, pode-se concluir que:

a) a média da renda é nula.


b) os dados estão incorretos, pois isso implicaria que um ou mais funcionários tem renda
negativa.
c) o coeficiente de variação da amostra é nulo, se a média da renda for diferente de zero.
d) a mediana e a moda da renda são nulas.
e) não é possível calcular a variância da amostra.

66. (FGV / MPE-SC - 2022) Uma sociedade empresária ocupa um prédio de 6 andares e em cada
andar há uma impressora para uso dos funcionários. Cada funcionário tem que acessar apenas
a impressora do andar e não tem acesso às impressoras dos outros andares. Como não havia um
controle no uso das impressoras, foram então coletadas durante 50 dias informações sobre o
número de impressões de cada andar. O boxplot abaixo mostra a distribuição do número de
impressões do segundo andar, onde MIN = 20, Q1 = 130, Q2 = 250, Q3 = 360, MAX = 500.

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 128
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

A distribuição do “número de impressões no segundo andar” possui:

a) amplitude interquartílica 480 e tem valores atípicos;


b) amplitude interquartílica 230 e tem valores atípicos;
c) amplitude interquartílica 230 e não tem valores atípicos;
d) amplitude 230 e tem valores atípicos;
e) amplitude 480 e tem valores atípicos.

67. (FGV / TRT13 - 2022) Os diagramas a seguir são Box-Plots de notas de cinco turmas de alunos
de um mesmo colégio numa prova de matemática:

A maior mediana das notas foi obtida pela turma:

a) 1.
b) 2.
c) 3.
d) 4.
e) 5.

68. (FGV / TRT13 - 2022) Os diagramas a seguir são Box-Plots de notas de cinco turmas de alunos
de um mesmo colégio numa prova de matemática:

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 129
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

A turma com notas mais homogêneas nessa prova foi a:

a) 1.
b) 2.
c) 3.
d) 4.
e) 5.

69. (FGV / COMPESA - 2018) A COMPESA, em uma pesquisa de satisfação dos usuários,
preparou um formulário para traçar os perfis de seus clientes e o grau de satisfação com os
serviços da empresa. Em um formulário, ela solicitou os dados a seguir:

I. Idade.
II. Grau de escolaridade.
III. Faixa de renda familiar.
IV. Nota dada ao serviço.

Assinale a opção que contempla apenas variáveis categóricas:

a) I e II.
b) II e III.
c) III e IV.
d) I, II e III.
e) I, II e IV

70. (FGV / CODEBA - 2016) Uma das características principais da mediana é:

a) a invariância à unidade de medida utilizada.


b) a robustez à presença de outliers.
c) a identificação da observação mais frequente.
d) o fato de, em seu cálculo, dar mais peso às observações mais frequentes.
e) a normalização pelos desvios em relação à média.

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 130
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

QUESTÕES COMENTADAS - FCC


71. (FCC / PGE-AM - 2022) Uma ginasta executa três vezes uma determinada prova. Suas notas, na
primeira e segunda tentativas foram, respectivamente, metade e dois terços da nota da terceira
tentativa. A média aritmética das notas das três tentativas foi de 32,5 pontos. A nota da primeira
prova foi:

a) 20,5 pontos.
b) 30,0 pontos.
c) 22,5 pontos.
d) 45,0 pontos.
e) 20,0 pontos

72. (FCC / BANRISUL - 2019) Uma população é formada por 4 elementos, ou seja, {4, 5, 5, 8}. O
coeficiente de variação, definido como o resultado da divisão do respectivo desvio padrão pela
média aritmética da população, é igual a:

a) 3/11.
b) 9/22.
c) 3/22.
d) 9/11.
e) 1/5.

73. (FCC / Prefeitura de Macapá - 2018) A medida de tendência central que representa o valor com
maior frequência na distribuição normal de uma amostra probabilística é a:

a) média amostral.
b) variância.
c) amplitude total.
d) mediana.
e) moda amostral.

74. (FCC / Prefeitura de Macapá - 2018) Para fazer um gráfico de setores que representasse o
número de alunos canhotos, destros e ambidestros na sala de aula, Renato coletou os dados
indicados na tabela abaixo.

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 131
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Sabendo-se que um círculo pode ser dividido em 360°, quantos graus tem o setor circular
correspondente aos canhotos no gráfico correto feito por Renato?

a) 18°.
b) 25°.
c) 7,5°.
d) 24°.
e) 27°.

75. (FCC / DPE-SP - 2010) Sobre estatística aplicada, é correto o que se afirma em:

a) Parâmetros são medidas características de grupos, determinadas por meio de uma amostra
aleatória.

b) A estatística descritiva é a técnica pela são coletados dados de uma amostra, a partir do que
são tomadas decisões sobre uma determinada população.

c) A caracterização de uma população se dá por meio da observação de todos os seus


componentes que a integram.

d) A estatística inferencial compreende um conjunto de técnicas destinadas à síntese de dados


numéricos.

e) Censo é o processo utilizado para se medir as características de todos os membros de uma


dada população.

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 132
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

QUESTÕES COMENTADAS - MULTIBANCAS


76. (VUNESP / DOCAS-PB - 2022) A média aritmética simples das idades de 4 pessoas é de 24 anos.
Sabendo-se que, com base na idade da pessoa mais nova do grupo, as demais têm 2, 9 e 13 anos
a mais, a pessoa com a maior idade, do grupo, tem:

a) 28 anos.
b) 29 anos.
c) 30 anos.
d) 31 anos.
e) 32 anos.

77. (VUNESP / PM-SP - 2022) A média aritmética simples das idades dos 27 aprovados em um
concurso para um cargo A foi de 26 anos, enquanto que a média aritmética simples dos 23
aprovados para um cargo B, no mesmo concurso, foi de 31 anos.

Considerando-se apenas esses dois cargos, a média aritmética simples das idades dos
aprovados foi de:

a) 28,0 anos.
b) 27,8 anos.
c) 29,0 anos.
d) 28,3 anos.
e) 27,0 anos.

78. (VUNESP / Prefeitura de Piracicaba - 2022) O gráfico mostra o número de alunos do Ensino
Médio que faltaram às aulas, em uma determinada escola, em 5 dias de uma semana.

O número de faltas na sexta-feira superou a média de faltas desses cinco dias em:

a) 1.
b) 2.
c) 3.

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 133
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

d) 4.
e) 5.

79. (VUNESP / PM-SP - 2022) Uma pesquisa foi realizada com um grupo de pessoas cujas idades,
em anos, pertencem ao conjunto {21, 22, 23, 24, 25, 26}. O gráfico registra as frequências
absolutas dos entrevistados com menos de 26 anos.

Sabendo que a mediana das idades do conjunto completo de dados (incluindo as pessoas com
26 anos) é igual a 24 anos, o número máximo de pessoas com 26 anos que participaram da
pesquisa foi:

a) 19.
b) 25.
c) 35.
d) 49.
e) 55.

80.(VUNESP / Prefeitura de Piracicaba - 2022) Os tempos de espera, em minutos, para o


atendimento de 80 consumidores em um centro de atendimento ao consumidor estão
registrados no gráfico a seguir.

De acordo com o gráfico, é correto afirmar que o tempo de espera de:

a) mais da metade dos consumidores foi superior a 1 hora.


b) 12,5% dos consumidores foi entre 1 h e 35 min e 2 h e 20 min.

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 134
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

c) 65% dos consumidores foi inferior a 1 hora.


d) 24 consumidores foi entre 50 min e 80 min.
e) no mínimo 2 pessoas, foi superior a 2 h e 30 min.

81. (VUNESP / Prefeitura de Araçariguama - 2021) O gráfico a seguir apresenta como votaram os
vereadores de uma determinada cidade na votação de um projeto na Câmara Municipal.

Número de votos

Sobre o modo como esses vereadores votaram, é correto afirmar que:

a) 2/3 dos vereadores votaram a favor do projeto.


b) os votos a favor foram mais do que o dobro dos votos contrários.
c) a maioria dos votos foi contrária a emenda.
d) para cada voto contrário tiveram dois votos a favor.
e) mais de 1/3 dos vereadores votaram contra o projeto.

82. (VUNESP / EsFCEx - 2021) A tabela apresenta parte da distribuição de frequências das notas de
200 candidatos na primeira fase de um concurso:

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 135
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Sabendo-se que 48% dos candidatos tiraram notas maiores ou iguais a 7,0, sendo que a quarta
parte deles tiraram notas abaixo de 8,0, é possível afirmar corretamente que, em relação aos
200 candidatos, tiraram notas abaixo de 6,0 ou notas maiores ou iguais a 9,0:

a) 65%
b) 61%
c) 63%
d) 59%
e) 57%

83. (CESGRANRIO / BB – 2021) Designado para relatar a qualidade das atividades desenvolvidas
em um determinado banco, um funcionário recebeu a seguinte Tabela, com a quantidade de
notas relativas à avaliação dos correntistas sobre o atendimento no caixa, sendo 1 a pior nota, e
5, a melhor nota.

Qual é a moda das notas dessa avaliação?

a) 2
b) 3
c) 3,33
d) 4
e) 5

84.(CESGRANRIO / Banco do Brasil – 2021) Responsável por entender o comportamento dos


produtos oferecidos por determinado banco onde trabalhava, e preocupado com a quantidade
enorme de dados disponíveis para a análise, um funcionário decidiu extrair um subconjunto
desses dados. Esse subconjunto é conhecido como:

a) parâmetro.
b) população.
c) amostra.
d) variável.
e) censo.

85. (CESGRANRIO / Banco do Brasil – 2021) Após a coleta de dados em um determinado contexto
(variáveis A, B, C, … X), uma das formas mais simples e iniciais de análise é a geração e a

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 136
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

avaliação de um histograma para uma variável selecionada (ex: X), como por exemplo, em um
estudo climático, em que os dados coletados poderiam incluir a temperatura máxima observada
em toda a Terra ao longo de dez anos.

Nesse caso, o histograma adequado é um gráfico em que são apresentadas as:

a) últimas dez médias móveis da variável X


b) somas das médias dos quadrados de cada valor de uma variável X
c) variações de uma variável X ao longo do tempo
d) médias históricas da variável X nos últimos sete dias
e) frequências de uma variável X em intervalos de valores

86. (CESGRANRIO / BB – 2021) Um funcionário de um banco foi incumbido de acompanhar o


perfil dos clientes de um determinado produto por meio da Análise de Dados, de forma a
aprimorar as atividades de marketing relativas a esse produto. Para isso, ele utilizou a variável
classe social desses clientes, coletada pelo banco, que tem os valores A, B, C, D e E, sem
referência a valores contínuos.

Sabendo-se que essa é uma escala ordinal, qual é a medida de tendência central adequada para
analisar essa variável?

a) média aritmética
b) média geométrica
c) mediana
d) quartis
e) variância

87. (CESGRANRIO / BB – 2021) Foi solicitado a um funcionário de um determinado banco que


realizasse uma pesquisa, exclusivamente com variáveis do tipo qualitativa, sobre a satisfação
dos clientes com os serviços oferecidos pela instituição. Para atender a essa demanda utilizando
os meios adequados, sua escolha de escalas de mensuração deve estar limitada às escalas:

a) intervalares e razão
b) nominais e intervalares
c) nominais e ordinais
d) ordinais e intervalares
e) ordinais e razão

88. (CPCC / UFES - 2021) Analise as afirmativas a seguir, sobre análise exploratória de dados.

I. Numa curva ________ de dados quantitativos, a média e a ______ não são medidas de resumo
adequadas para representar o conjunto de dados.

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 137
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

II. O ________ é conhecido como o esquema dos 5 números e fornece uma ideia sobre a posição,
a dispersão e a simetria dos dados sob análise.

III. Numa curva de frequência assimétrica __________, a mediana tende a ser maior do que a
_______.

Completam CORRETAMENTE os trechos lacunados acima, na ordem sequencial, os termos:

a) bimodal – mediana – histograma – negativa – moda


b) unimodal – moda – boxplot – positiva – média
c) trimodal – mediana – boxplot – positiva – média
d) bimodal – mediana – boxplot – positiva – moda
e) unimodal – mediana – histograma – negativa – moda

89. (VUNESP / Prefeitura de Campinas - 2019) Uma empresa atua em três segmentos de
mercado, A, B e C. O gráfico de setores mostra a distribuição percentual, por segmento, da
receita total obtida por essa empresa em 2018.

Sabendo-se que a receita obtida no segmento A superou a receita obtida no segmento B em R$


64 milhões, é correto afirmar que a receita obtida no segmento C foi igual a:

a) R$ 98 milhões.
b) R$ 96 milhões.
c) R$ 94 milhões.
d) R$ 88 milhões.
e) R$ 86 milhões

90.(VUNESP / SEMAE - 2019) As medidas de tendência central, utilizando variáveis quantitativas,


dão o valor do ponto em torno do qual os dados se distribuem. Contudo, para o estudo de
variáveis qualitativas, utiliza-se, como medida de tendência central, a:

a) média aritmética.

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 138
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

b) moda e a média aritmética.


c) mediana e a média aritmética.
d) moda.
e) mediana.

91. (VUNESP / UNICAMP - 2019) Assinale dentre os exemplos a seguir, o gráfico de dispersão.

a)

b)

c)

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 139
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

d)

e)

92. (VUNESP / Prefeitura de Sertãozinho - 2018) Um professor fez uma pesquisa com todos os
seus alunos, sobre a preferência das possíveis atividades na disciplina de educação física. Na
tabela a seguir constam os dados dessa pesquisa.

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 140
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

Em se tratando de algumas medidas centrais em estatística, com as informações apresentadas


na tabela, o professor pode abordar, com os seus alunos,

a) a moda das variáveis, apenas.


b) a moda e a mediana das variáveis, apenas.
c) a moda e a média das variáveis, apenas.
d) a mediana e a média das variáveis, apenas.
e) a moda, a mediana e a média das variáveis

93. (VUNESP / CM São Joaquim Barra - 2018) A estatística descritiva faz uso de variáveis, que são
classificadas como quantitativas ou qualitativas. Assinale correta em relação a essas variáveis.

a) Quantitativas referem-se às variáveis ordinal ou discreta; as qualitativas referem-se às


variáveis nominal ou contínua.

b) Quantitativas referem-se às variáveis ordinal ou contínua; as qualitativas referem-se às


variáveis nominal ou discreta.

c) Quantitativas referem-se às variáveis nominal ou contínua; as qualitativas referem-se às


variáveis discreta ou ordinal.

d) Quantitativas referem-se às variáveis contínua ou discreta; as qualitativas referem-se às


variáveis nominal ou ordinal.

e) Quantitativas referem-se às variáveis nominal ou ordinal; as qualitativas referem-se às


variáveis contínua ou discreta.

94.(AOCP / FUNPAPA - 2018) A utilização correta das técnicas de análise exploratória de dados
depende da natureza de mensuração das variáveis de interesse. Selecione entre as seguintes

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 141
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

técnicas aquela na qual “as variáveis são medidas em classes, mas não é possível estabelecer
ordem”.

a) Intervalar.
b) Nominal.
c) Razão.
d) Discreta.
e) Contínua.

95. (VUNESP / MPE-SP - 2016) Na estatística, são considerados medidas de dispersão:

a) média e moda.
b) percentil e coeficiente de variação.
c) amplitude total e percentil.
d) amplitude total e desvio padrão.
e) variância e média.

96. (VUNESP / Prefeitura de São Paulo - 2015) Considere o gráfico a seguir, que representa as
respostas à enquete “Você já leu pelo menos dois livros no primeiro semestre desse ano?”,
pergunta essa feita a um grupo de 60 pessoas pesquisadas.

Levando-se em conta as medidas centrais média, moda e mediana, assim como a variável
envolvida na estatística dessa enquete, é correto afirmar que pode(m) ser determinada(s),
dentre essas três medidas,

a) a moda e a mediana, apenas.


b) a moda, apenas.
c) a média, apenas.
d) a média e a mediana, apenas.
e) a média, a moda e a mediana.

97. (VUNESP / Prefeitura de São Paulo - 2015) Analise as afirmações I, II e III:

I. Uma variável de natureza quantitativa pode ser classificada como ordinal ou nominal.
II. Em um estudo de variável com natureza qualitativa, pode-se calcular o desvio padrão.

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 142
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

III. Existe relação que pode ser estabelecida entre variáveis de natureza qualitativa e variáveis de
natureza quantitativa.

As afirmações I, II e III são, respectivamente,

a) verdadeira, falsa e verdadeira.


b) verdadeira, verdadeira e verdadeira.
c) falsa, verdadeira e verdadeira.
d) falsa, verdadeira e falsa.
e) falsa, falsa e verdadeira.

98. (COPESE-UFT / Prefeitura de Palmas - 2014) O Box-Plot (gráfico de caixa) é ferramenta útil
na análise exploratória de dados. O propósito do gráfico é fornecer ao analista uma primeira
ideia da distribuição dos dados. Sobre o gráfico em questão, analise as afirmativas.

I. Quando a linha que representa a mediana estiver equidistante dos outros quartis a
distribuição será simétrica.

II. Quando a linha que representa a mediana estiver mais próxima do 1º quartil que do 3º quartil
a distribuição será assimétrica à direita.

III. Quando a linha que representa a mediana estiver mais próxima do 3º quartil que do 1º quartil
a distribuição será assimétrica à esquerda.

Marque a alternativa CORRETA.

a) Apenas a afirmativa I está correta.


b) Apenas as afirmativas I e II estão corretas.
c) Todas as afirmativas estão corretas.
d) Todas as afirmativas estão incorretas.

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 143
(Pós-Edital)
www.estrategiaconcursos.com.br 145
Diego Carvalho, Emannuelle Gouveia Rolim, Equipe Informática e TI
Aula 09 (Prof. Diego Carvalho e Emannuelle Gouveia)

GABARITO
33. ERRADO 66. LETRA C
1. LETRA A 34. CORRETO 67. LETRA D
2. LETRA B 35. ERRADO 68. LETRA C
3. LETRA C 36. ERRADO 69. LETRA B
4. ERRADO 37. CORRETO 70. LETRA B
5. CORRETO 38. ERRADO 71. LETRA C
6. LETRA B 39. CORRETO 72. LETRA A
7. ERRADO 40. ERRADO 73. LETRA E
8. CORRETO 41. CORRETO 74. LETRA E
9. ERRADO 42. LETRA D 75. LETRA E
10. LETRA A 43. CORRETO 76. LETRA D
11. ERRADO 44. ERRADO 77. LETRA D
12. LETRA B 45. CORRETO 78. LETRA E
13. ERRADO 46. CORRETO 79. LETRA D
14. CORRETO 47. CORRETO 80. LETRA B
15. ERRADO 48. CORRETO 81. LETRA E
16. ERRADO 49. ERRADO 82. LETRA C
17. ERRADO 50. ERRADO 83. LETRA D
18. ERRADO 51. ERRADO 84. LETRA C
19. ERRADO 52. CORRETO 85. LETRA E
20. CORRETO 53. ERRADO 86. LETRA C
21. ERRADO 54. CORRETO 87. LETRA C
22. ERRADO 55. CORRETO 88. LETRA D
23. CORRETO 56. CORRETO 89. LETRA B
24. ERRADO 57. ERRADO 90. LETRA D
25. ERRADO 58. CORRETO 91. LETRA B
26. ERRADO 59. LETRA E 92. LETRA A
27. ERRADO 60. LETRA D 93. LETRA D
28. ERRADO 61. LETRA B 94. LETRA B
29. ERRADO 62. LETRA C 95. LETRA D
30. ERRADO 63. LETRA B 96. LETRA B
31. LETRA E 64. LETRA A 97. LETRA E
32. CORRETO 65. LETRA C 98. LETRA D

ANAC (Cargo 3 - Especialista em Regulação de Aviação Civil - Área 3) Análise de Dados e Informações - 2023 144
(Pós-Edital)
www.estrategiaconcursos.com.br 145

Você também pode gostar