Você está na página 1de 32

Estatística Descritiva

Prof. Tiago Dias

Medidas de Posição
Retomando a análise
Os dados foram apresentados em Quais outros recursos podemos
formato de tabela usar para descrever os dados
Tabela 1 – Distribuição de frequências de Gênero – IFMG 2022 que agregariam a análise de
Classes
Freq.
Freq. Relativa
Freq. dados?
Absoluta Acumulada
18-20 28 37% 28
21-23 33 43% 61
24-26 9 12% 70
27-29 3 4% 73
30-32 1 1% 74
33-35 1 1% 75
39-41 1 1% 76
Total Geral 76 100%
Fonte: base de dados do professor
Medidas estatísticas
Expressam alguma característica de um conjunto de dados
através de um (ou poucos) números.
• Exemplos
– Medidas de posição (centro e relativas);
– Medidas de dispersão;
– Valores atípicos (outliers).
MEDIDAS DE POSIÇÃO
Centro
Média Aritmética
Somatório dos números dados divido pela quantidade de números somados.

𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛
𝑚é𝑑𝑖𝑎 =
𝑛

Σ𝑥𝑖
𝑥ҧ = média amostral (estatística)
𝑛
Σ𝑥𝑖
𝜇= média da população (parâmetro)
𝑁

Obs.: a média só deve ser calculada para variáveis quantitativas.


Média Aritmética para dados brutos
Tabela 2 - Taxas de pulsação (batimentos por minuto) de Mulheres – Ano 2000
76 72 88 60 72
68 80 64 68 68
Σ𝑥 76 + 72 + ⋯ + 76 3052
80 76 68 72 96 𝑥ҧ = = = = 76,3
𝑛 40 40
72 68 72 64 80
64 80 76 76 80
104 88 60 76 72 Para arredondamento use uma casa decimal a
72 80 88 60 72 mais em relação aos dados originais.
88 88 124 64 76
Fonte: Departamento de Saúde e serviços humanos dos EUA.
Características da Média
• Médias de amostras selecionadas de uma mesma população
tendem a variar menos do que outras medidas de centro;
• A média de um conjunto de dados leva em conta todos os
valores dos dados;
• Uma desvantagem da média é que apenas um valor atípico
(outlier) pode afetá-la de maneira considerável, por isso,
dizemos que a média não é uma medida resistente de centro.
Certo ou errado?
(IFMG 2019-1) Um corredor de 100 metros rasos faz treinos diários para
melhorar seu desempenho. Em um dia, ele fez 10 corridas na pista e obteve
uma média de tempo de exatos 11 segundos. No dia seguinte, ele fez apenas
5 corridas e obteve os seguintes tempos: 11 segundos; 10,5 segundos; 11,2
segundos; 10,4 segundos e 10,4 segundos. A média de todos os tempos
obtidos pelo corredor nesses dois dias, em segundos, foi de:
A) 10,70 B) 10,75 C) 10,85 D) 10,90

11 + 11 + 10,5 + 11,2 + 10,4 + 10,4


𝑥ҧ = = 10,75
6
Errado, pois foram 15 corridas no total.
Resposta correta
(IFMG 2019-1) Um corredor de 100 metros rasos faz treinos diários
para melhorar seu desempenho. Em um dia, ele fez 10 corridas na
pista e obteve uma média de tempo de exatos 11 segundos. No dia
seguinte, ele fez apenas 5 corridas e obteve os seguintes tempos: 11
segundos; 10,5 segundos; 11,2 segundos; 10,4 segundos e 10,4
segundos. A média de todos os tempos obtidos pelo corredor nesses
dois dias, em segundos, foi de:
A) 10,70 B) 10,75 C) 10,85 D) 10,90

11 ∙ 10 + 11 + 10,5 + 11,2 + 10,4 + 10,4


𝑥ҧ = = 10,90
15
Quem tem a altura mediana?
Mediana (𝑥)

• Valor que divide o rol em dois conjuntos com a mesma quantidade
de elementos.
• É calculada de uma das duas maneiras:
– Amostra de tamanho ímpar: elemento central do rol;
– Amostra de tamanho par: média entre os dois elementos centrais do rol.
• Para determinar a posição 𝑖 da mediana (no rol) fazemos:
𝑛+1
𝑖𝑥෤ =
2
Obs.: a mediana pode ser determinada para variáveis qualitativas
ordinais também.
Mediana obtida pelo Rol
Tabela 3 – Rol das Taxas de pulsação (batimentos por minuto) de Mulheres– Ano 2000
60 60 60 64 64 64 64 68 68 68
68 68 72 72 72 72 72 72 72 72
76 76 76 76 76 76 80 80 80 80
80 80 88 88 88 88 88 96 104 124
Fonte: Departamento de Saúde e serviços humanos dos EUA.

40 + 1
𝑖= = 20,5 Entre a posição 20 e 21
2
𝑥20 + 𝑥21 72 + 76 148
𝑥෤ = = = = 74,0
2 2 2
Moda
Valor(es) com maior frequência nos dados.
Tabela 4 – Rol das Taxas de pulsação (batimentos por minuto) de Mulheres – Ano 2000

60 60 60 64 64 64 64 68 68 68
68 68 72 72 72 72 72 72 72 72
76 76 76 76 76 76 80 80 80 80
80 80 88 88 88 88 88 96 104 124
Fonte: Departamento de Saúde e serviços humanos dos EUA.

𝑀𝑜 = 72

Obs.: a moda pode ser determinada para todos os tipos de variável.


Moda
Em relação a moda, um conjunto pode ser classificado da
seguinte forma:
• Bimodal: dois valores ocorrem com a mesma maior frequência.
• Multimodal: mais de dois valores ocorrem com a mesma maior
frequência.
• Amodal: nenhum valor se repete.
Medidas de centro
• Média, mediana e moda são chamadas medidas de centro ou
de tendência central;
• Média e mediana devem ser arredondadas para uma casa
decimal a mais que os valores nos dados originais (nem mais e
nem menos);
• Moda deve ser igual a um valor específico do dados.
Exemplo 1
A seguir, estão listadas as receitas brutas (em milhões de dólares) de bilheteria do
filme Harry Potter e o Enigma do Príncipe. O filme estreou nos Estados Unidos em
uma quarta-feira, e as quantias estão listadas em ordem para os 14 primeiros dias
de apresentação do filme.

58 22 27 29 21 10 10 8 7 9 11 9 4 4
a) Calcule as medidas de centro.
b) Qual característica importante dos dados não é revelada pelas diferentes
medidas de centro?
c) Qual é a explicação para o fato de que as três quantias mais altas são a
primeira, a terceira e a quarta listadas?
Exemplo 1
58 22 27 29 21 10 10 8 7 9 11 9 4 4
a) xത = 16,4 milhões de dólares
𝑥෤ = 10,0 𝑚𝑖𝑙ℎõ𝑒𝑠 𝑑𝑒 𝑑ó𝑙𝑎𝑟𝑒𝑠
𝑀𝑜 = 4, 9 𝑒 10 𝑚𝑖𝑙ℎõ𝑒𝑠 𝑑𝑒 𝑑ó𝑙𝑎𝑟𝑒𝑠
b) Qual característica importante dos dados não é revelada pelas
diferentes medidas de centro? Variação ao longo do tempo.
c) Qual é a explicação para o fato de que as três quantias mais
altas são a primeira, a terceira e a quarta listadas? Estreia,
sexta e sábado.
Exemplo 2
A seguir, estão listadas as durações de tempo (em anos) para que
uma amostra aleatória de estudantes de faculdade obtivessem seus
graus de bacharéis (com base em dados do National Center for
Education Statistics – Centro Nacional para Estatísticas de Educação).

4 4 4 4 4 4 4,5 4,5 4,5 4,5 4,5 4,5 6 6 8 9 9 13 13 15

Obtenha as medidas de centro e, com base nesses resultados,


justifique se parece ser comum a obtenção de um grau de bacharel
em 4 anos. Quais as melhores medidas para se avaliar essa questão?
Exemplo 2
Com base nesses resultados, parece ser comum a obtenção de
um grau de bacharel em 4 anos?
4 4 4 4 4 4 4,5 4,5 4,5 4,5 4,5 4,5 6 6 8 9 9 13 13 15

• 𝑥ҧ = 6,50 (muito influenciada pelos valores extremos)


• 𝑥෤ = 4,50
• 𝑀𝑜 = 4 𝑒 4,5 (𝑏𝑖𝑚𝑜𝑑𝑎𝑙)
É comum obter o grau em 4 anos (moda) mas um estudante
mediano precisa de mais um semestre (mediana).
MEDIDAS DE POSIÇÃO
Relativas
Pra que servem?
• As medidas de posição relativa trarão informações sobre outros
pontos do conjunto de dados que não somente o centro;
• Permitem análises mais aprofundadas;
• Possibilitam a comparação de grupos diferentes dentro da mesma
amostra (ou população).

Toda medida de posição relativa deve ser obtida através do ROL.


.
Quartil
Divide o rol de dados em quatro partes com a mesma quantidade de elementos:
1/4 1/2 3/4
25% 25% 25% 25%

𝑄1
1º Quartil (Q1): ¼ ou 25% 25% 75%

𝑄2

2º Quartil (Q2 ou mediana): ½ ou 50% 50% 50%

𝑄3
3º Quartil (Q3): ¾ ou 75% 75% 25%
Obtendo os Quartis
Há diversos métodos para tal, aqui será apresentado o chamado
método exclusivo (disponível no Excel, por exemplo).
A posição 𝑖 dos quartis (no rol) é obtida por:
𝑛+1
– Q1 : 𝑖 =
4
3(𝑛+1)
– Q3: 𝑖 =
4
• Caso o valor de 𝑖 seja inteiro o quartil será o elemento na posição 𝑖.
• Caso contrário, é feita a média dos elementos nas posições
anterior e posterior ao valor de 𝑖.
Quartis
Tabela 5 – Rol das Taxas de pulsação (batimentos por minuto) de Mulheres – Ano 2000
60 60 60 64 64 64 64 68 68 68
68 68 72 72 72 72 72 72 72 72
76 76 76 76 76 76 80 80 80 80
80 80 88 88 88 88 88 96 104 124
Fonte: Departamento de Saúde e serviços humanos dos EUA.

40 + 1 3(40 + 1)
𝑖𝑄1 = = 10,25 → 𝑒𝑛𝑡𝑟𝑒 10ª 𝑒 11ª 𝑝𝑜𝑠𝑖çã𝑜 𝑖𝑄3 = = 30,75 → 𝑒𝑛𝑡𝑟𝑒 30ª 𝑒 31ª 𝑝𝑜𝑠𝑖çã𝑜
4 4

𝑥10 + 𝑥11 68 + 68 𝑥30 + 𝑥31 80 + 80


𝑄1 = = = 68,0 𝑄3 = = = 80,0
2 2 2 2
Decis e percentis
Da mesma forma que os quartis, podemos definir separadores
para o rol com outras quantidades de subdivisões:
• Decis: dividem os dados em 10 partes com a mesma
quantidade de elementos em cada uma delas.
10% 10% 10% 10% 10% 10% 10% 10% 10% 10%
D1 D2 D3 D4 D5 D6 D7 D8 D9

• Percentis: dividem os dados em 100 partes com a mesma


quantidade de elementos em cada uma delas.
Aplicações do decil
Gráfico 1 - Rendimento médio por agrupamento de decis - 2022
7,464
6,917
6,424

Calculadora da
desigualdade OXFAM
1,445 1,312 1,322
Internacional
278 195 239

40% mais pobres 50% intermediário 10% superiores


4º trim / 2019 4º trim / 2020 4º trim / 2021

Fonte: observatório das metrópoles - INCT


Aplicações do percentil e decil

Calculadora de renda por percentil


BBC News Brasil

Classificação de revistas
científicas (Qualis)
Outliers
Um valor pertencente ao conjunto de dados é considerado
atípico (outlier) ao se enquadrar em uma das seguintes
situações:
– Menor que 𝑄1 − 1,5 ∙ 𝐴𝐼𝑄
– Maior que 𝑄3 + 1,5 ∙ 𝐴𝐼𝑄

Sendo AIQ a amplitude interquartil e obtida por

𝐴𝐼𝑄 = 𝑄3 − 𝑄1
Outliers
Tabela 6 – Rol das Taxas de pulsação (batimentos por minuto) de Mulheres – Ano 2000
60 60 60 64 64 64 64 68 68 68
68 68 72 72 72 72 72 72 72 72
76 76 76 76 76 76 80 80 80 80
80 80 88 88 88 88 88 96 104 124
Fonte: Departamento de Saúde e serviços humanos dos EUA.

𝑄1 = 68 𝑄1 − 1,5 ∙ 𝐴𝐼𝑄 = 68 − 1,5 ∙ 12 = 50


𝑄3 = 80 𝑄3 + 1,5 ∙ 𝐴𝐼𝑄 = 80 + 1,5 ∙ 12 = 98
𝐴𝐼𝑄 = 80 − 68 = 12 Outliers: 104 e 124
Retomando a média
Tabela 1 - Taxas de pulsação (batimentos por minuto) de Mulheres – Ano 2000

76 72 88 60 72 Σ𝑥 76 + 72 + ⋯ + 76 3052
68 80 64 68 68
𝑥ҧ = = = = 76,3
𝑛 40 40
80 76 68 72 96
72 68 72 64 80 Se retirarmos os valores 104 e 124
64 80 76 76 80 da amostra, obtemos a seguinte
104 88 60 76 72 média:
72 80 88 60 72
Σ𝑥 76 + 72 + ⋯ + 76 2824
88 88 124 64 76 𝑥ҧ = = = = 74,3
𝑛 38 38
Fonte: Departamento de Saúde e serviços humanos dos EUA.
Esta é chamada média aparada.
Colocando em prática
• Durante o ERE no segundo semestre de 2021 a disciplina ESB
foi ofertada para a turma da Licenciatura em Matemática e 21
estudantes se matricularam.
• Destes, 10 foram reprovados por frequência por não terem
entregue nenhuma atividade.
• Os demais obtiveram as seguintes notas finais:
30,0 54,0 33,0 60,0 65,0 31,5 64,5 62,0 70,0 31,5 12,0
Colocando em prática
a) Obtenha todas as medidas de centro para a amostra.
b) Determine os quartis pelo método exclusivo.
c) Verifique se existem outliers na amostra. Em caso afirmativo, se
posicione em relação a como tratá-los.
d) Faça uma análise do rendimento da turma usando as estatísticas
geradas. Use as medidas de centro e os quartis.
e) Refaça o cálculo da média e da mediana incluindo os 10
estudantes matriculados mas que não participaram das aulas,
analise o impacto dessa alteração e qual seu posicionamento
sobre a inclusão destes estudantes na análise.

Você também pode gostar