Você está na página 1de 65

Introdução à Estatística Descritiva

Prof: Alan da Silva Assunção

2 de outubro de 2023

Universidade Federal do Piauí


Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Sumário

Introdução

Gráficos

Medidas de posição e dispersão

Quantis empíricos

1 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Técnicas gráficas

• Os gráficos facilitam a leitura e compreensão das informações contidas nas tabelas, bem como auxiliam na
formulação das hipóteses [Giolo, 2017].

2 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Técnicas gráficas

• Os gráficos facilitam a leitura e compreensão das informações contidas nas tabelas, bem como auxiliam na
formulação das hipóteses [Giolo, 2017].
• Devem ser utilizados com o intuíto de facilitar a leitura e a compreensão das informações registradas no
estudo.

2 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Técnicas gráficas

• Os gráficos facilitam a leitura e compreensão das informações contidas nas tabelas, bem como auxiliam na
formulação das hipóteses [Giolo, 2017].
• Devem ser utilizados com o intuíto de facilitar a leitura e a compreensão das informações registradas no
estudo.
• Os gráficos possuem a vantagem de apresentar, rápida e concisamente a variabilidade da distribuição de
uma variável.Também possibilita avaliar a forma da distribuição da variável, quando estas são quantitativas.

2 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Gráficos para variáveis qualitativas

• Os gráficos de barras e de pizza são os dois tipos mais comuns para representar variáveis qualitativas, mas
não são os únicos.

3 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Gráficos para variáveis qualitativas

• Os gráficos de barras e de pizza são os dois tipos mais comuns para representar variáveis qualitativas, mas
não são os únicos.
• O gráfico de barras é formado pelas categorias no eixo X, e pela frequência no eixo Y. A frequência
utilizada pode ser tanto a absoluta quanto a relativa, conforme for o caso.

3 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Gráficos para variáveis qualitativas

• Os gráficos de barras e de pizza são os dois tipos mais comuns para representar variáveis qualitativas, mas
não são os únicos.
• O gráfico de barras é formado pelas categorias no eixo X, e pela frequência no eixo Y. A frequência
utilizada pode ser tanto a absoluta quanto a relativa, conforme for o caso.
• O gráfico de pizza destina-se a representar a composição, usualmente em porcentagem, de partes de um
todo.

3 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Gráficos para variáveis qualitativas

Gráfico de setores (ou pizza) Gráfico em barras

20
15
Expostos e
doentes = 38.1%

Frequência
Expostos e

10
sadios = 22.8%

Não expostos e Não expostos e


doentes = 10.7% sadios = 28.4%

5
0
Fundamental Médio Superior

Figura 1: Gráfico para variáveis qualitativas: gráfico em barras (ou colunas) e gráfico de setores ou “pizza”

4 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Gráficos para variáveis quantitativas

• Para as variáveis quantitativas há uma variedade maior de representações gráficas.


• Considere a variável Nº de filhos de 20 funcionários de uma dada companhia (hipotética). Sua distribuição
de frequências encontra-se abaixo

Nº de filhos Frequência ni Porcentagem 100 fi Fi


0 4 20 20
1 5 25 45
2 7 35 80
3 3 15 95
5 1 5 100
Total 20 100 –

Fonte: [Morettin & Bussab, 2015]

5 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Gráficos para variáveis quantitativas


10
8
6
Frequência

4
2
0

0 1 2 3 5

Nº de filhos

Figura 2: Gráfico de barras para a variável quantitativa discreta Nº de filhos. [Morettin & Bussab, 2015]

6 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Gráficos para variáveis quantitativas

Figura 3: Gráfico de dispersão unidimensional para a variável quantitativa discreta Nº de filhos. [Morettin & Bussab, 2015]

7 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Gráficos para variáveis quantitativas

• Podemos usar um artíficio para adaptar uma variável quantitativa contínua e representá-la de forma similar
a que foi feita para uma variável discreta.
• Uma possibilidade seria supor que todos os valores em determinado intervalo de classe são iguais ao
ponto médio daquela classe.
• Considere a variável salário de 36 funcionários de uma dada companhia (hipotética).

Classe de salários Ponto médio ni Frequência ni Porcentagem 100 fi Fi


4,00 ⊢ 8, 00 6,00 10 27,78 27,78
8,00 ⊢ 12, 00 10,00 12 33,33 61,11
12,00 ⊢ 16, 00 14,00 8 22,22 83,33
16,00 ⊢ 20, 00 18,00 5 13,89 97,22
20,00 ⊢ 24, 00 22,00 1 2,78 100,00
Total – 36 100 –

Fonte: [Morettin & Bussab, 2015]

8 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Gráficos para variáveis quantitativas


12
10
8
Frequência

6
4
2
0

6 10 14 18 22

Salário

Figura 4: Gráfico de barras para a variável quantitativa contínua Salário. [Morettin & Bussab, 2015]

9 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Gráficos para variáveis quantitativas

• O artifício usado anteriormente para representar uma variável contínua faz com que se perca muita das
informações nela contidas.
• Uma forma alternativa de representar este tipo de variável é o histograma.
• O histograma é um gráfico de barras contíguas, com bases proporcionais aos intervalos de classe e a área
de cada retângulo proporcional à respectiva frequência.
• Pode-se usar tanto a frequência absoluta, ni , quanto a frequência relativa fi . Para que a área do retângulo
respectivo seja proporcional a fi , sua altura deve ser proporcional a fi /δi (ou ni /δi ), a chamada densidade
de frequência da i-ésima classe. δi é a amplitudo do i-ésimo intervalo.

10 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Gráficos para variáveis quantitativas


0.10

33%
0.08

28%
Densidade de Frequência

0.06

22%
0.04

14%
0.02

3%
0.00

0 4 8 12 16 20 24

Salário

Figura 5: Histograma para a variável quantitativa contínua Salário. [Morettin & Bussab, 2015]

11 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Gráficos para variáveis quantitativas

• Outro gráfico que nos permite visualizar a forma da distribuição da variável é o ramo-e-folhas.
• Uma vantagem deste gráfico em relação ao histograma é que perdemos pouca informação informação
sobre os dados.
• A ideia básica deste gráfico é dividir os dados em duas partes: a primeira (ramo) é colocada à esquerda de
uma linha vertical, a segunda (a folha) é colocada à direita
• Um ramo com muitas folhas significa maior incidência daquele ramo

12 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Gráficos para variáveis quantitativas

Considere os dados da variável salário apresentada anteriormente.

4.00 4.56 5.25 5.73 6.26 6.66


6.86 7.39 7.59 7.44 8.12 8.46
8.74 8.95 9.13 9.35 9.77 9.80
10.53 10.76 11.06 11.59 12.00 12.79
13.23 13.60 13.85 14.69 14.71 15.99
16.22 16.61 17.26 18.75 19.40 23.30

Fonte: [Morettin & Bussab, 2015]

13 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Gráficos para variáveis quantitativas

Ramo-e-folhas para a variável salário

4 | 00 56
5 | 25 73
6 | 26 66 86
7 | 39 44 59
8 | 12 46 74 95
9 | 13 35 77 80
10 | 53 76
11 | 06 59
12 | 00 79
13 | 23 60 85
14 | 69 71
15 | 99
16 | 22 61
17 | 26
18 | 75
19 | 40
20 |
21 |
22 |
23 | 30 14 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Atividade

Faça os gráficos histograma e ramo-e-folhas para os seguintes dados:

Tabela 1: Notas de 100 alunos do curso de Economia da FEA-USP, em prova da disciplina Introdução à Probabilidade e à
Estatística, 1999.

3,5 4,0 5,5 6,0 5,0 5,5 5,0 5,5 4,0 10,0
6,5 9,5 4,0 7,0 7,5 3,0 4,5 5,0 2,5 6,0
5,0 6,5 3,5 4,5 8,5 4,0 8,0 7,0 6,0 7,5
8,5 6,0 9,0 6,0 6,5 7,5 5,5 6,5 8,0 8,5
4,5 7,5 8,0 3,0 4,0 8,0 4,5 5,5 6,0 6,0
7,5 3,5 3,0 7,0 1,5 4,5 10,0 5,5 2,5 10,0
4,0 6,5 7,5 5,5 7,0 7,5 6,0 6,5 6,5 5,5
6,5 5,0 5,5 7,5 8,0 6,5 5,0 7,0 6,0 5,5
3,0 5,0 3,5 6,0 6,5 6,0 8,0 5,5 7,5 6,0
2,5 7,5 9,0 6,0 6,5 3,5 4,5 7,0 5,0 5,0
Fonte: [Morettin & Bussab, 2015].

15 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Gráficos para variáveis quantitativas

• Da mesma forma como foi possível adpatar uma representação gráfica de uma variável discreta para uma
variável contínua, podemos usar um artifício para construir um histograma para uma variável discreta. Veja
como ficaria o histograma para a variável número de filhos apresentada anteriormente
8

35%
6
Densidade de Frequência

25%

20%
4

15%
2

5%

0%
0

0 1 2 3 4 5 6

Número de Filhos

16 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Gráfico para variáveis quantitativas

• Os gráfico devem ser escolhidos de acordo com o tipo de dados que se tem em mãos.

17 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Gráfico para variáveis quantitativas

• Os gráfico devem ser escolhidos de acordo com o tipo de dados que se tem em mãos.
• Também deve-se levar em consideração que aspecto dos dados que se deseja investigar, para então
buscar a(s) melhores alternativas de gráficos para poder investigar tais características.
Dados de temperatura de São Paulo Dados de temperatura de São Paulo

40
20

27%

30
18
Temperatura

Frequência
18%

20
15%
16

12%
12%

8%

10
14

5%

2%
1%

0
12

0 20 40 60 80 100 120 12 14 16 18 20

meses Temperatura

Figura 6: Gráfico de linha (série temporal) e histograma dos dados de temperatura de São Paulo . [Morettin & Bussab, 2015]

17 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Medidas de posição

• Os gráfico e as tabelas de frequências conseguem fornecer muito mais informações sobre o


comportamento de uma variável que a tabela de dados original dos dados.
• No entanto, as vezes tem-se o interesse em resumir ainda mais estes dados em valores que sejam
representativos da série toda.
• Convém observar que, quando usamos um único valor por outro lado, obtemos uma redução drástica dos
dados.

18 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Medidas de posição

Medidas de posição (as mais comuns...)

• Média aritmética: soma das observações (X1 , X2 , . . . , Xn ) dividida pela quantidade total delas.
Pn
X1 +X2 +...+Xn i=1 Xi
x̄ = n
=
n

• Moda: Valor mais frequente em um conjunto de valores. E esta é a única medida descritiva que dispomos
para variáveis qualitativas nominais.
• Para as variáveis qualitativas ordinais, além da moda, a mediana também pode ser aplicada.
• Mediana: é a realização que ocupa a posição central de um conjunto de observações quando estas estão
ordenadas em ordem crescente (rol).

19 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Medidas de posição

Seja o seguinte conjunto de dados: X : 2, 4, 5, 2, 2. Então:

• Moda: mo(X) = 2
• Média:
2+4+5+2+2
X̄ = =3
5
• Mediana:

Ordena (rol) : x(1) = 2, x(2) = 2, x(3) = 2, x(4) = 4, x(5) = 5




 x n+1  , se n ímpar
2


md(X ) =
 x +x
 ( n2 ) ( n2 +1) ,


2
se n par
md(X ) = x(3) = 2

• Observação: os valores ordenados (x(1) , x(2) , x(3) , x(4) , x(5) ), como no exemplo acima, são chamadas de
estatísticas de ordem

20 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Medidas de posição

Considere novamente a variável Nº de filhos de 20 funcionários de uma dada companhia (hipotética). Calcule a
média, moda e mediana para essa variável.

Nº de filhos Frequência ni Porcentagem 100 fi Fi


0 4 20 20
1 5 25 45
2 7 35 80
3 3 15 95
5 1 5 100
Total 20 100 –

Fonte: [Morettin & Bussab, 2015]

21 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Medidas de posição

• Exemplo: considere os seguintes dados: 1, 2, 3, 4, 3, 3, 5. Então, temos:

X̄ = (1 + 2 + 3 + 4 + 3 + 3 + 5)/7 = 3
md(X ) = x(4) = 3
mo(X ) = 3

• Neste exemplo, as três medidas tem valores próximos e qualquer uma delas poderia ser utilizada como
representativa da série toda

22 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Medidas de posição

• Exemplo: considere os seguintes dados: 1, 2, 3, 4, 3, 3, 5. Então, temos:

X̄ = (1 + 2 + 3 + 4 + 3 + 3 + 5)/7 = 3
md(X ) = x(4) = 3
mo(X ) = 3

• Neste exemplo, as três medidas tem valores próximos e qualquer uma delas poderia ser utilizada como
representativa da série toda
• Mas, o que ocorreria se adicionasse os valores 15 e 20 ao conjunto de dados original e recalculasse as
medidas descritivas, haveria uma mudança significativa?

22 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Medidas de posição

• A média em muitos casos pode ser influenciada por fatores extremos, em que dados podem influenciar
para mais ou para menos, devido a discrepância que pode haver entre eles. Estes dados extremos são
conhecidos por outliers.
• Neste caso, nós dizemos que a média não é robusta à outliers.
• A mediana é uma medida descritiva mais robusta à outliers.
• No entano, há outras medidas de posição que também podem ser consideradas robustas à outliers, a título
de exemplo, podemos citar a média aparada. Veja Morettin & Bussab, 2015

23 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Medidas de posição

• Para calcular as medidas de posição através de sua tabela de frequências para uma variável contínua,
exige-se aproximações, pois perdemos informações de valores das observações
• Uma aproximação razoável, à semelhança do que foi feito quando adaptamos uma variável contínua para
representá-la graficamente como uma discreta, é supor que todos os valores dentro do intervalo de classe
são iguais ao ponto médio da classe.
• Este procedimento nos deixa no mesmo caso discreto. Os resultados, porém, seriam valores aproximados
ao invés de exatos.

24 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Medidas de dispersão

Medidas de dispersão (as mais comuns...)

• Desvio absoluto médio (dm): é a média aritmética dos desvios absolutos de cada observação em torno
de sua média.
Pn
i=1 |Xi − X̄ |
dm(X ) = .
n

• Variânica: é a média aritmética dos desvios ao quadrado de cada observação em torno de sua média.
Pn
i=1 (Xi − X̄ )2
Var(X ) = .
n

• Desvio padrão (dp): É a raiz quadrada da variância.


• Coeficiente de Variação: O coeficiente de variação de uma variável X é a razão entre o desvio padrão de
X e sua média multiplicado por 100. Ou seja:

dp(X )
cv(X ) = 100%

25 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Medidas de dispersão

• Calcule a variância, o desvio médio e o desvio padrão para os seguintes conjuntos de dados
X: 3 4 5 7 7
Y: 1 3 5 20 9
Z: 5 5 5 5 5

26 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Medidas de dispersão

• Calcule a variância, o desvio médio e o desvio padrão para os seguintes conjuntos de dados
X: 3 4 5 7 7
Y: 1 3 5 20 9
Z: 5 5 5 5 5

• Ambas as medidas (dm e dp) indicam, em média, qual será o “erro” (desvio) cometido ao tentar substituir
cada observação pela medida descritiva do conjunto de dados (no caso, a média).

26 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Exemplo: uso de medidas de dispersão

As medidas de posição servem como uma forma de representar uma série de dados, enquanto as medidas de
dispersão fornecem uma noção da variabilidade dos mesmos. Vejamos um exemplo:

Valores Média DP CV
dados 1 5 6 7 8 9 10 7.5 1.87 24.94%
dados 2 4 5 7 8 10 11 7.5 2.73 36.51%
dados 3 2 4 5 10 11 13 7.5 4.41 58.87%

Para os três conjuntos de dados, o valor da média é igual a 7.5, mas possuem variabilidades diferentes, como
mostra a coluna dos desvios-padrões

27 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Exemplo: medidas de posição em conjunto com medidas de dispersão

-8 -7 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8
-6

-7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8

Figura 7: conjuntos de dados com a mesma média (X̄ = 0), porém com variabilidades diferentes. dp - desvio padrão.

28 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Exemplo: interpretação das estatísticas descritivas

Uma empresa com 22 funcionários (dados fictícios) anuncia que a média salarial de seus funcionários é de R$
5763. O que esse número representa?

29 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Exemplo: interpretação das estatísticas descritivas

Uma empresa com 22 funcionários (dados fictícios) anuncia que a média salarial de seus funcionários é de R$
5763. O que esse número representa?
A conclusão mudaria após analisar a seguinte tabela ?

Mínimo. Média Mediana Moda Máximo. DP


R$ 2000 R$ 5763 R$ 2.500 R$ 2000 R$ 45000 R$ 9311

Fonte: adaptado de Huff, 2001

29 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Quantis empíricos

Tanto a média quanto o desvio padrão podem não ser medidas tão adequadas para representar um conjunto de
dados, pois:

1. são afetados por valores extremos;


2. apenas com estas duas medidas não temos ideia da simetria ou assimetria dos dados.

Para superar estes desafios, outras medidas precisam ser consideradas.

30 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Quantis empíricos

• A mediana é a medida que deixa metade dos dados abaixo dela e metdade acima.
• Outras medidas poderiam ser criadas usando o mesmo fundamento. De modo geral, podemos definir uma
medida, chamada quantil de ordem p ou p-quantil, denotada por q(p), em que p é uma proporção qualquer,
0 < p < 1, tal que 100p% das observações são menores do que q(p)

31 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Quantis empíricos

Abaixo, indicamos alguns quantis e seus nomes particulares:

q(0, 25) = q1 : 1º quartil = 25º Percentil


q(0, 50) = q2 : Mediana = 2º Quartil = 50º Percentil
q(0, 75) = q3 : 3º quartil = 75º Percentil
q(0, 40) : 4º Decil
q(0, 95) : 95º Percentil

32 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Exemplo

Suponha que temos os seguintes valores observados da variável X :

15, 5, 3, 8, 10, 2, 7, 11, 12.

33 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Exemplo

Suponha que temos os seguintes valores observados da variável X :

15, 5, 3, 8, 10, 2, 7, 11, 12.

Obtendo as estatísticas de ordem (ou seja, ordenando os dados), temos:

x(1) = 2, x(2) = 3, x(3) = 5, . . . , x(9) = 15,


ou,
2 < 3 < 5 < 7 < 8 < 10 < 11 < 12 < 15 .

33 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Exemplo

Suponha que temos os seguintes valores observados da variável X :

15, 5, 3, 8, 10, 2, 7, 11, 12.

Obtendo as estatísticas de ordem (ou seja, ordenando os dados), temos:

x(1) = 2, x(2) = 3, x(3) = 5, . . . , x(9) = 15,


ou,
2 < 3 < 5 < 7 < 8 < 10 < 11 < 12 < 15 .

A mediana deixa metade dos dados abaixo dela, dividindo-os em duas partes. Calculando a mediana pela
definição de q(p), temos md = q(0, 5) = 8, ou seja:

2 3 5 7 (8) 10 11 12 15

33 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Exemplo

Uma possibilidade razoável para calcular os quartis q1 e q3 , seria dividir os dados em quatro partes. A partir do
cálculo da mediana, que divide os dados em duas partes, calculamos a mediana dos primeiros quatro valores
para obter q1 :

3+5
q1 = = 4, (1)
2

e obter a mediana dos últimos quatro valores para obter q3 :

11 + 12
q3 = = 11, 5. (2)
2
Então, temos o seguinte resultado

2 3 (4) 5 7 (8) 10 11 (11, 5) 12 15

Adicione o valor 60 aos dados e calcule X̄ , moda, mediana, q(0, 25) = q1 e q(0, 75) = q3 .

34 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Quantis empíricos

• O que ocorreria, se desejássemos calcular q(0, 2), ou seja aquele valor que deixa 20% dos dados abaixo
dele? Como faríamos?

35 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Quantis empíricos

• O que ocorreria, se desejássemos calcular q(0, 2), ou seja aquele valor que deixa 20% dos dados abaixo
dele? Como faríamos?
• Para o exemplo trabalhado antes, 20% dos dados equivale a 1,8 observações. Escolheríamos o valor
x(2) = 3? Ou o x(3) = 5? Ou a média de x(2) e x(3) ?

35 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Quantis empíricos

• O que ocorreria, se desejássemos calcular q(0, 2), ou seja aquele valor que deixa 20% dos dados abaixo
dele? Como faríamos?
• Para o exemplo trabalhado antes, 20% dos dados equivale a 1,8 observações. Escolheríamos o valor
x(2) = 3? Ou o x(3) = 5? Ou a média de x(2) e x(3) ?
• Se a última opção for adotada, então q(0, 20) = q(0, 25) = q1 .
• Esta situação ilustra o fato de que para alguns valores de p, nem sempre é fácil calcular o valor do
p−quantil

35 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Quantis empíricos

• Se os dados estiverem agrupados em classes, podemos obter os quantis usando propriedades


geométricas do histograma.
• Sabemos que, por exemplo, para obter a mediana, o valor no eixo da abscissa deve corresponder ao valor
que divide a área do histograma em duas partes (50% por cento para cada lado).
• Da mesma forma, utilizando este princípio, conseguiríamos calcular qualquer quantil q(p).

36 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Calculando os quantis por meio do histograma

Retornando novamente ao exemplo da variável Salário...


0.10

33%
0.08

28%
Densidade de Frequência

0.06

22%
0.04

14%
0.02

3%
0.00

0 4 8 12 16 20 24

Salário

Figura 8: Histograma da variável salário [Morettin & Bussab, 2015]. 37 / 51


Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Calculando os quantis por meio do histograma

• Para calcular md = q(0, 5), devemos localizar o ponto das abscissas que divide a área do histograma ao
meio.
• Pelo histograma a área dos dois primeiros retângulos dá 61%. Logo, a mediana (md) está em algum lugar
no segundo retângulo, cuja área do retângulo de base 8, 00 ⊢ md é a mesma altura que o retângulo de
base 8, 00 ⊢ 12, 00, perfazendo uma área de 22%.
• Assim, com 28% do primeiro retângulo unido à área de 22% desse retângulo, temos 50%

38 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Calculando os quantis por meio do histograma

22%

md

Figura 9: Histograma da variável Salário [Morettin & Bussab, 2015].


39 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Calculando os quantis por meio do histograma

Sejam δ1 = 12, 00 − 8, 00, δ2 = md − 8, 00, A1 = 33% e A2 = 22%, temos, pela proporcionalidade entre a área
e base do retângulo:

δ1 δ2
=⇒ =
A1 A2
12, 00 − 8, 00 md − 8, 00
=
33% 22%
22%
md − 8, 00 = 4, 00
33%
md = 8, 00 + 2, 67 = 10, 67 (3)

40 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Quantis empíricos

• Para o exemplo anterior da variável Salário, calcule q(0, 25) = q1 e q(0, 75) = q3

41 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Quantis empíricos

• Para o exemplo anterior da variável Salário, calcule q(0, 25) = q1 e q(0, 75) = q3
• Os quartis q(0, 25) = q1 , q(0, 50) = q2 e q(0, 75) = q3 são medidas de localização resistentes (robustas)
de uma distribuição
• Uma medida de dispersão alternativa ao desvio padrão é a distância interquartil

dq = q3 − q1

• Os cinco valores x(1) (valor mínimo em um conjunto de dados), q1 , q2 , q3 e


x(n) (valor máximo em um conjunto de dados) são importantes para se ter uma boa ideia da assimetria dos
dados

41 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Esquema dos cinco números

As cinco estatísticas x(1) , q1 , q2 , q3 e x(n) podem ser apresentadas esquematicamente como na figura abaixo

Figura 10: Esquema dos cinco números. n- número de observações; md - mediana; q- quartis; E - valores extremos.

42 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Simetria dos dados

Para uma distribuição de dados aproximadamente simétrica, teríamos que ter:

• q2 − x(1) ≈ x(n) − q2
• q2 − q1 ≈ q3 − q2
• q1 − x(1) ≈ x(n) − q3

As diferenças q2 − x(1) e x(n) − q2 são chamadas, respectivamente, de dispersão inferior e dispersão superior.
Para uma distribuição simétrica, as duas dispersões devem ser aproximadamente iguais.

43 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Exemplo: distribuição gaussiana

44 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Simetria dos dados

• Se um conjunto de observações for perfeitamente simétrico, devemos ter:

q(0, 5) − x(i) = x(n+1−i) − q(0, 5), (4)

em que i = 1, 2, . . . , n/2, se n for par e i = 1, 2, . . . , (n + 1)/2, se n for ímpar


• Se os quantis da direita estão mais afastados da mediana, do que os da esquerda, os dados são
assimétricos à direita. Se o inverso ocorrer, os dados são assimétricos à esquerda.

45 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Formas de distribuições assimétricas

Figura 12: Formas de assimetria em distribuições.


Fonte:<https://cursos.alura.com.br/forum/topico-probabilidade-em-distribuicoes-assimetricas-147810>

46 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Box plots

As informações contida no esquema dos cinco números podem ser traduzidas graficamente em um diagrama,
chamado box plot ou “caixa-de-bigodes”.

47 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Box plots

• O box plot dá uma ideia sobre a posição, dispersão, assimetria, caudas e dados discrepantes.
• A posição central é dada pela mediana e a dispersão por dq .
• As posições relativas de q1 , q2 e q3 dão uma ideia sobre a assimetria da distribuição.
• Os comprimentos das caudas são representados pelas linhas que vão do retângulo aos valores remotos e
pelos valores atípicos.

48 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Box plots

Figura 13: Box-plot comparado com a distribuição normal. Fonte: <https://livro.abj.org.br/04-visualizacao.html>

49 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Exemplo
20
15
Salário
10
5

ensino fundamental ensino médio superior

Figura 14: Box-plot da variável Salário segundo o grau de instrução

50 / 51
Introdução Gráficos Medidas de posição e dispersão Quantis empíricos Bibliografia

Referências bibliográficas i

aaaa.

Giolo, Suely Ruiz. 2017. Introdução à análise de dados categóricos com aplicações.
São Paulo: Editora Blucher.
Huff, Darre. 2001.
Como mentir com Estatística.
Rio de Janeiro: Ediouro.
Morettin, Pedro A, & Bussab, Wilton O. 2015.
Estatística básica.
Saraiva Educação SA.

51 / 51

Você também pode gostar