Você está na página 1de 153

Estatística Descritiva

Apresentação da Unidade Didática

Prof. Walmes M. Zeviani

Departamento de Estatística
Universidade Federal do Paraná

Prof. Walmes M. Zeviani Estatística Descritiva 1


O papel da Estatística Descritiva

População
Estatística
Descritiva

Amostra
Amostragem

Estatísticas:
ȳ, S 2 , θ̂, r,
Parâmetros: Freq(Y ≤ y), etc.
µ, σ 2 , θ, ρ, Inferência
P(Y ≤ y), etc. Estatística

Figura 1. Representação esquemática do funcionamento da estatística descritiva e estatística inferencial.

Prof. Walmes M. Zeviani Estatística Descritiva 2


Dashboards · Painéis de controle com Estatística Descritiva

Figura 2. Dashboard de Covid-19. Fonte: https://user-images.githubusercontent.com/44356224/82365851-


21ed5e00-99c6-11ea-87b3-d190c2e0dba7.JPG.
Prof. Walmes M. Zeviani Estatística Descritiva 3
Dashboards · dados em tempo real

Figura 3. Exemplo de visualização de dados. Fonte:


https://www.bizsoft.co.za/wp-content/uploads/2018/08/mobile-data-analytics.png.

Prof. Walmes M. Zeviani Estatística Descritiva 4


Processos de análise de dados

Figura 4. O CRISP-DM (Cross Industry Standard Process for Data Mining) estabelece etapas para a análise de
dados. As caixas em azul são as etapas que envolvem análise exploratória de dados.

Prof. Walmes M. Zeviani Estatística Descritiva 5


Medidas descritivas

Figura 5. Medidas de posição usadas em análise descritiva de dados.

Prof. Walmes M. Zeviani Estatística Descritiva 6


Medidas descritivas

Figura 6. Medidas de dispersão e forma usadas em análise descritiva de dados.

Prof. Walmes M. Zeviani Estatística Descritiva 7


Comunicação de resultados

Figura 7. Exemplos de medidas descritivas: Retirado


de https://www.pluralsight.com/guides/exploring-
data-set-r. Figura 8. Foto de fauxels no Pexels. Fonte:
https://rb.gy/lksjxt.

Prof. Walmes M. Zeviani Estatística Descritiva 8


Gráficos para comunicação estatística

Prof. Walmes M. Zeviani Estatística Descritiva 9


Conteúdo

I Motivação e utilidade
Os números têm uma importante história para
da Estatística
contar. Eles dependem de você dar-lhes uma
Descritiva.
clara e convincente voz.
I Tipos de variáveis e – StephenFew
formas de análise.
I Distribuição de
frequências.
I Medidas descritivas
numéricas.

Prof. Walmes M. Zeviani Estatística Descritiva 10


Motivação e Importância da Estatística Descritiva

Prof. Walmes M. Zeviani

Departamento de Estatística
Universidade Federal do Paraná

Prof. Walmes M. Zeviani Motivação e Importância da Estatística Descritiva 1


Conceitos fundamentais

Prof. Walmes M. Zeviani Motivação e Importância da Estatística Descritiva 2


Estatística Descritiva vs Inferencial

População
Estatística
Descritiva

Amostra
Amostragem

Estatísticas:
ȳ, S 2 , θ̂, r,
Parâmetros: Freq(Y ≤ y), etc.
µ, σ 2 , θ, ρ, Inferência
P(Y ≤ y), etc. Estatística

Figura 1. Representação esquemática do funcionamento da estatística descritiva e estatística inferencial.

Prof. Walmes M. Zeviani Motivação e Importância da Estatística Descritiva 3


Estatística Descritiva
A estatística descritiva emprega métodos numéricos e gráficos para investigar padrões
em um conjunto de dados, resumir as informações reveladas e apresentá-las de uma
forma apropriada.

Estatística Inferencial
A Estatística Inferencial utiliza dados de uma amostra para fazer estimativas, previsões,
decisões ou outras generalizações sobre um grande conjunto de dados (a população).
I Diagnóstica ou confirmatória.
I Preditiva.
I Prescritiva.

Prof. Walmes M. Zeviani Motivação e Importância da Estatística Descritiva 4


População
Uma população é um conjunto de
unidades amostrais (e.g. pessoas, objetos,
transações ou eventos) que estamos
interessados em estudar.

Amostra
Uma amostra é um subconjunto das
unidades amostrais de uma população.
Figura 2. População e amostra.

Prof. Walmes M. Zeviani Motivação e Importância da Estatística Descritiva 5


Unidade amostral (ou experimental)
Uma unidade amostral é um objeto
(e.g. pessoa, coisa, transação ou evento)
sobre o qual coletamos dados.

Variável ou característica
Uma variável é uma característica ou
propriedade de uma unidade amostral
individual.
Figura 3. Medidas no corpo humano que
apresentam a razão áurea. Fonte:
https://rb.gy/8tv7yp.

Prof. Walmes M. Zeviani Motivação e Importância da Estatística Descritiva 6


Motivação e importância da Estatística
Descritiva

Prof. Walmes M. Zeviani Motivação e Importância da Estatística Descritiva 7


Qual o comportamento destes dados?
Tabela 1. Os 4 pares de variáveis do quarteto de Ancombe.

x1 y1 x2 y2 x3 y3 x4 y4
10 8.04 10 9.14 10 7.46 8 6.58
8 6.95 8 8.14 8 6.77 8 5.76
13 7.58 13 8.74 13 12.74 8 7.71
9 8.81 9 8.77 9 7.11 8 8.84
11 8.33 11 9.26 11 7.81 8 8.47
14 9.96 14 8.10 14 8.84 8 7.04
6 7.24 6 6.13 6 6.08 8 5.25
4 4.26 4 3.10 4 5.39 19 12.50
12 10.84 12 9.13 12 8.15 8 5.56
7 4.82 7 7.26 7 6.42 8 7.91
5 5.68 5 4.74 5 5.73 8 6.89

Prof. Walmes M. Zeviani Motivação e Importância da Estatística Descritiva 8


A visualização de dados
1 2 3 4

12.5

10.0
Valores de y

7.5

5.0

5 10 15 5 10 15 5 10 15 5 10 15
Valores de x

Figura 4. O quarteto de Anscombe em um diagrama de dispersão.

Prof. Walmes M. Zeviani Motivação e Importância da Estatística Descritiva 9


Resumos numéricos

Expressão da equação da reta ajustada

ŷ = β̂0 + β̂1 x.

A notação será trabalhada nos próximos vídeos.


Tabela 2. Resumo do ajuste da regressão linear simples com cada par de variáveis do quarteto de Anscombe.

x y correl. β̂0 β̂1 R2 Valor p


1 9.0 7.5 0.82 3.00 0.50 0.67 0.0022
2 9.0 7.5 0.82 3.00 0.50 0.67 0.0022
3 9.0 7.5 0.82 3.00 0.50 0.67 0.0022
4 9.0 7.5 0.82 3.00 0.50 0.67 0.0022

Prof. Walmes M. Zeviani Motivação e Importância da Estatística Descritiva 10


Por que saber métodos de análise descritiva?

I Porque “correr” o olho sobre a planilha de dados é impraticável.


I Porque abordagens subjetivas não são escaláveis.
I Para dispor de formas apropriadas de síntese.
I Para não fazer julgamentos ocasionados por problemas nos dados.
I Para interpretar corretamente a informação contida nos dados.
I Para tomar decisões seguras.
I Para fazer inferência estatística de forma qualificada.

Prof. Walmes M. Zeviani Motivação e Importância da Estatística Descritiva 11


O que vamos aprender?

I Com que tipo de informação estamos lidando?


I Como sintetizar números que representem as tendências, variabilidade, a relação
entre variáveis e demais propriedades?
I Como verificar existência de anomalias ou inconsistências?
I Como apresentar adequadamente a informação contida nos dados?

Prof. Walmes M. Zeviani Motivação e Importância da Estatística Descritiva 12


Procedimento para a análise de dados

Prof. Walmes M. Zeviani Motivação e Importância da Estatística Descritiva 13


O que é feito e pra que serve?

O que é feito?
I Análise de dados históricos.
I O que aconteceu/está acontecendo?
I Explorar e descrever os dados brutos.
I Ter impressões preliminares.

Qual a utilidade?
I Recursos para comunicação: data storytelling.
I Auxilia no pré-processamento e curadoria de dados.
I Determinante para o processo de inferência estatística.

Prof. Walmes M. Zeviani Motivação e Importância da Estatística Descritiva 14


Aspectos da qualidade dos dados

I Validade: grau de conformidade com I Completude: a quantidade de valores


o mundo real. preenchidos frente ao esperado.
I Fora de escala: pessoa com 180 m de I Valores ausentes, suas razões e
altura. implicações.
I Fora do conjunto: tipo sanguíneo = I Uniformidade: dados expressos com
vermelho. os mesmos padrões.
I Fora de lógica: data de alta médica I Pressão em psi, bar ou atm?
antes da internação.
I Data no formato dd/mm/yyyy ou
I Acurácia: valores próximos dos valores yyyy-mm-dd?
verdadeiros. I Unicidade: se não existem registros
I Dados de sensores, avaliações duplicados.
sensoriais.
Fonte: https://rb.gy/7caksz.

Prof. Walmes M. Zeviani Motivação e Importância da Estatística Descritiva 15


Processos de análise de dados

Figura 5. O CRISP-DM (Cross Industry Standard Process for Data Mining) estabelece etapas para a análise de
dados. As caixas em azul são as etapas que envolvem análise exploratória de dados.

Prof. Walmes M. Zeviani Motivação e Importância da Estatística Descritiva 16


Considerações finais

Prof. Walmes M. Zeviani Motivação e Importância da Estatística Descritiva 17


Considerações finais

Revisão
I Importância da Os números têm uma importante história para
Estatística Descritiva. contar. Eles dependem de você dar-lhes uma
I Para que serve. clara e convincente voz.
– StephenFew
I Aspectos da qualidade
dos dados.

Prof. Walmes M. Zeviani Motivação e Importância da Estatística Descritiva 18


Tipos de variáveis e formas de análise

Prof. Walmes M. Zeviani

Departamento de Estatística
Universidade Federal do Paraná

Prof. Walmes M. Zeviani Tipos de variáveis e formas de análise 1


Tipos de variáveis

Prof. Walmes M. Zeviani Tipos de variáveis e formas de análise 2


Tipos de variáveis

Figura 1. Principais tipos de variáveis. Fonte: Os autores.

Prof. Walmes M. Zeviani Tipos de variáveis e formas de análise 3


Outros tipos de variáveis
O processamento e análise desses dados é
particular de alguma forma. I Dados censurados:
I Conteúdo de alumínio abaixo do
I Dados circulares: limite de detecção: < 0.5 cmolc /dm3 .
I Direção do vento. I Corrente elétrica acima da escala do
I Hora de acesso ao Moodle. voltímetro: > 3 A.
I A eclosão do inseto aconteceu entre
I Dados composicionais:
6h e 18h.
I Argila + Silte + Areia = 1.
I Dados difusos (fuzzy data):
I Natação + Ciclismo + Corrida =
tempo total do Triathlon. I “frio”, “bem frio”, “uma friaca”, etc.
I “está doendo”, “doendo muito”, “dor
I Dados de classificação:
insuportável”, etc.
I 2º colocado, 71º colocado, etc.
I Não estruturado:
I Meu filme número 1, 2 e 3.
I Texto, imagem, áudio, vídeo, etc.

Prof. Walmes M. Zeviani Tipos de variáveis e formas de análise 4


Formas de análise descritiva

Prof. Walmes M. Zeviani Tipos de variáveis e formas de análise 5


Formas para descrição dos dados
Os tipos de variáveis são importantes para
dar o tratamento estatístico mais apropri-
ado.

Quanto à forma de apresentação, podem


ser:
I Numérica.
I Tabelas de frequência.
I Medidas resumo (média, mediana,
variância, amplitude, etc).
I Gráfica ou visual.
I Gráficos de uma variável.
Figura 2. Foto de PhotoMIX Company no Pexels.
I Duas ou mais variáveis. Fonte: https://rb.gy/nt9l73.

Prof. Walmes M. Zeviani Tipos de variáveis e formas de análise 6


Objetivos com a descrição dos dados

1. Investigar o comportamento de uma


variável.
2. Examinar a relação entre variáveis.
3. Enfatizar a ordenação/classificação de
elementos/categorias.
4. Compreender a estrutura organização
dos elementos/categorias.
5. Explorar a evolução cronológica de
uma variável.
6. Revelar padrões espaciais nos dados.
7. Descrever a conexão entre
Figura 3. Foto de fauxels no Pexels. Fonte:
elementos/categorias. https://rb.gy/lksjxt.

Prof. Walmes M. Zeviani Tipos de variáveis e formas de análise 7


As 7 funções gráficas

Prof. Walmes M. Zeviani Tipos de variáveis e formas de análise 8


As medidas descritivas

I Variáveis qualitativas.
I Tabelas de frequência (uma variável).
I Tabelas de frequências cruzadas
(mais de uma variável).
I Variáveis quantitativas.
I Medidas de posição ou tendência
central.
I Medidas de dispersão ou
variabilidade.
I Separatrizes.
Figura 4. Exemplos de medidas descritivas: Retirado
I Medidas de associação. de https://www.pluralsight.com/guides/exploring-
I Coeficientes/índices específicos. data-set-r.

Prof. Walmes M. Zeviani Tipos de variáveis e formas de análise 9


Considerações finais

Prof. Walmes M. Zeviani Tipos de variáveis e formas de análise 10


Considerações finais

Revisão
I Aspectos da análise descritiva de
dados.
I Tipos de variáveis.
I Formas de descrição dos dados.
I Objetivos da descrição de dados.
I As principais medidas descritivas.
I As principais funções gráficas.

Figura 5. Foto de fauxels no Pexels. Fonte:


https://rb.gy/lksjxt.

Prof. Walmes M. Zeviani Tipos de variáveis e formas de análise 11


Distribuição de frequências para variáveis qualitativas

Prof. Walmes M. Zeviani

Departamento de Estatística
Universidade Federal do Paraná

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis qualitativas 1


Conteúdo

I Tabelas de frequência.
I Tipos de frequência.
I Cálculo de frequência.
I Tabelas de frequência cruzada.
I Gráficos para distribuição de
frequência.

Figura 1. Photo by nappy from Pexels. Fonte


https://rb.gy/nigarg.

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis qualitativas 2


Tabelas de frequência para uma
variável qualitativa

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis qualitativas 3


Definições

Classe Frequência relativa de classe


Uma classe é uma das categorias nas Frequência relativa de classe é a
quais uma variável qualitativa pode ser frequência de classe dividida pelo
classificada. número total de observações no
conjunto de dados.

Frequência da classe
Frequência da classe é o número de Percentual da classe
observações no conjunto de dados que Percentual da classe é a frequência
pertence a uma particular classe. relativa de classe multiplicada por 100.

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis qualitativas 4


Uma tabela de dados
Tabela 1. Um recorte aleatório de 10 observações da tabela de dados resultante da pesquisa feita no Moodle
com alunos matriculados em Estatística que já responderam à enquete. Total de registros: 977 respondentes.

Área Email Adequação Idade CH


Sociais outros Não sei opi. 22 120
Biolog hotmail Não sei opi. 48 8
Humanas gmail Adeq. 24 210
Eng hotmail Tot. adeq. 20 300
Eng gmail Tot. adeq. 20 300
Sociais gmail Tot. adeq. 33 120
Exatas hotmail Não sei opi. 23 0
Biolog outros Adeq. 25 150
Eng hotmail Adeq. 25 420
Exatas outros Tot. adeq. 23 200

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis qualitativas 5


A variável ordenada
Tabela 2. Tabela anterior com registros ordenados alfabeticamente pelos rótulos da variável Área.

Área Email Adequação Idade CH


Biolog hotmail Não sei opi. 48 8
Biolog outros Adeq. 25 150
Eng hotmail Tot. adeq. 20 300
Eng gmail Tot. adeq. 20 300
Eng hotmail Adeq. 25 420
Exatas hotmail Não sei opi. 23 0
Exatas outros Tot. adeq. 23 200
Humanas gmail Adeq. 24 210
Sociais outros Não sei opi. 22 120
Sociais gmail Tot. adeq. 33 120

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis qualitativas 6


A tabela de frequência do recorte

Tabela 3. Tabela de frequência considerando apenas os registros do recorte de 10 observações para


exemplificar os cálculos.

Área Frequência Freq. relativa


Eng 3 0.30
Biolog 2 0.20
Exatas 2 0.20
Sociais 2 0.20
Humanas 1 0.10
Total 10 1.00

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis qualitativas 7


A tabela de frequência de todos os respondentes

Tabela 4. Tabela de frequência para todos respondentes da disciplina.

Área Frequência Freq. relativa


Eng 241 0.25
Saúde 212 0.22
Biolog 177 0.18
Exatas 175 0.18
Humanas 122 0.12
Sociais 50 0.05
Total 977 1.00

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis qualitativas 8


Expressões

I Frequência (absoluta, fa ) de classe:

fa = número de observações da classe.

I Frequência relativa (fr ) de classe:

número de observações da classe


fr = .
total de observações

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis qualitativas 9


Gráficos para frequência de uma
variável qualitativa

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis qualitativas 10


Gráfico de barras verticais
250

Frequência 200

150

100

50

0
Biolog Eng Exatas Humanas Saúde Sociais
Área

Figura 2. Gráfico de barras com a frequência absoluta para as classes da variável Área.

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis qualitativas 11


Gráfico de barras horizontais

Sociais Sociais

Saúde Saúde

Humanas Humanas
Área

Área
Exatas Exatas

Eng Eng

Biolog Biolog

0 50 100 150 200 250 0.00 0.05 0.10 0.15 0.20 0.25
Frequência Frequência relativa

Figura 3. Gráfico de barras com a frequência absoluta (esq.) e relativa (dir.) para as classes da variável Área.

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis qualitativas 12


Gráfico de barras empilhadas

Biolog Exatas Saúde


Área
Eng Humanas Sociais

0.00 0.25 0.50 0.75 1.00


Frequência

Figura 4. Gráfico de barras empilhadas com a frequência relativa para as classes da variável Área.

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis qualitativas 13


Gráfico de setores
0.00/1.00

Área
Biolog
Eng

0.75 0.25 Exatas


Humanas
Saúde
Sociais

0.50

Figura 5. Gráfico de setores com a frequência relativa para as classes da variável Área.

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis qualitativas 14


Gráfico de rosca
0.00/1.00

Área
Biolog
Eng

0.75 0.25 Exatas


Humanas
Saúde
Sociais

0.50

Figura 6. Gráfico de rosca com a frequência relativa para as classes da variável Área.

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis qualitativas 15


Cuidados com a apresentação em tabelas e gráficos

I Variáveis nominais.
I Não há ordenação natural das classes.
I Não há ordem para exibição das frequências das classes.
I Ordem alfabética auxilia procurar pela classe quando existem muitas.
I A ordenação pela frequência auxilia identificar as classes predominantes e minoritárias.
I Variáveis ordinais.
I Há ordenação natural das classes.
I Procurar manter a ordem das classes para uma exibição coerente.
I Quando for o caso, pode-se ordenar pela frequência.

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis qualitativas 16


Tabelas de frequência para duas
variáveis qualitativas

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis qualitativas 17


Tabela de frequência cruzada

Freq. da combinação Freq. marginal

f11 f12 f13 f1.


I Considera as combinações de duas
f21 f22 f23 f2.
variáveis simultaneamente.
f31 f32 f33 f3.
I Cada combinação de classes é f41 f42 f43 f4.
chamada cédula. f.1 f.2 f.3 f..

I Agora tem-se: Freq. marginal Freq. total


I As frequências das cédulas.
I As frequências marginais. Figura 7. Esquema de disposição das frequências
em uma tabela para duas variáveis. Fonte: os
autores.

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis qualitativas 18


A tabela de dados
Tabela 5. Tabela com registros ordenados alfabeticamente pelas classes da variável Email seguida da
variável Área.

Área Email Adequação Idade CH


Eng gmail Tot. adeq. 20 300
Humanas gmail Adeq. 24 210
Sociais gmail Tot. adeq. 33 120
Biolog hotmail Não sei opi. 48 8
Eng hotmail Tot. adeq. 20 300
Eng hotmail Adeq. 25 420
Exatas hotmail Não sei opi. 23 0
Biolog outros Adeq. 25 150
Exatas outros Tot. adeq. 23 200
Sociais outros Não sei opi. 22 120

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis qualitativas 19


Tabela de frequência cruzada para o recorte

Tabela 6. Tabela de frequência (absoluta) cruzada para as variáveis Email e Área considerando as
observações do recorte aleatório.

Área gmail hotmail outros Sum


Biolog 0 1 1 2
Eng 1 2 0 3
Exatas 0 1 1 2
Humanas 1 0 0 1
Sociais 1 0 1 2
Sum 3 4 3 10

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis qualitativas 20


Tabela de frequência relativa cruzada para o recorte

Tabela 7. Tabela de frequência relativa cruzada para as variáveis Email e Área considerando as observações
do recorte aleatório.

Área gmail hotmail outros


Biolog 0.00 0.10 0.10
Eng 0.10 0.20 0.00
Exatas 0.00 0.10 0.10
Humanas 0.10 0.00 0.00
Sociais 0.10 0.00 0.10

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis qualitativas 21


Tabela de frequência cruzada de todos os respondentes

Tabela 8. Tabela de frequência (absoluta) cruzada para as variáveis Email e Área para todos os respondentes.

Área gmail hotmail outros ufpr Sum


Biolog 109 39 11 18 177
Eng 124 74 24 19 241
Exatas 98 49 22 6 175
Humanas 76 31 12 3 122
Saúde 121 70 15 6 212
Sociais 25 14 8 3 50
Sum 553 277 92 55 977

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis qualitativas 22


Tabela de frequência relativa cruzada de todos os respondentes

Tabela 9. Tabela de frequência relativa cruzada, em percentual, para as variáveis Email e Área para todos os
respondentes.

Área gmail hotmail outros ufpr Sum


Biolog 11.16 3.99 1.13 1.84 18.12
Eng 12.69 7.57 2.46 1.94 24.67
Exatas 10.03 5.02 2.25 0.61 17.91
Humanas 7.78 3.17 1.23 0.31 12.49
Saúde 12.38 7.16 1.54 0.61 21.70
Sociais 2.56 1.43 0.82 0.31 5.12
Sum 56.60 28.35 9.42 5.63 100.00

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis qualitativas 23


Expressões

I Frequência relativa de cédula ou combinação:

fa = número observado da combinação de classes.

I Frequência relativa de cédula ou combinação:

número observado da combinação de classes


fr = .
número total de observações

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis qualitativas 24


Utilidade da tabela cruzada

Freq. da combinação Freq. marginal

f11 f12 f13 f1.


I Considera duas ou mais variáveis f21 f22 f23 f2.
simultaneamente. f31 f32 f33 f3.
f41 f42 f43 f4.
I Permite investigar relação de f.1 f.2 f.3 f..
associação entre as variáveis.
Freq. marginal Freq. total
I As margens contém as distribuições
de frequência de cada variável.
Figura 8. Esquema de disposição das
frequências em uma tabela para duas variáveis.
Fonte: os autores.

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis qualitativas 25


Gráficos para frequência de duas
variáveis qualitativas

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis qualitativas 26


Gráficos de barras empilhadas
250

200
Email
Frequência

150 gmail
hotmail
100 outros
ufpr
50

0
Sociais Humanas Exatas Biolog Saúde Eng
Área

Figura 9. Gráfico de barras empilhadas com a frequência absoluta para as combinações das variáveis Email
e Área.

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis qualitativas 27


Gráficos de barras lado a lado
120

Email
80
Frequência

gmail
hotmail
outros
40
ufpr

0
Sociais Humanas Exatas Biolog Saúde Eng
Área

Figura 10. Gráfico de barras lado a lado com a frequência absoluta para as combinações das variáveis Email
e Área.

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis qualitativas 28


Gráficos de barras empilhadas relativo
1.00

0.75 Email
Frequência

gmail

0.50 hotmail
outros
ufpr
0.25

0.00
Sociais Humanas Exatas Biolog Saúde Eng
Área

Figura 11. Gráfico de barras empilhadas relativo com a frequência relativa para as combinações das variáveis
Email e Área.

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis qualitativas 29


Gráfico de mosaico

ufpr
ufpr

outros
outros

hotmail
hotmail Email
gmail
Email

hotmail
outros
gmail

gmail ufpr

Biolog Eng Exatas Humanas Saúde Sociais


Biolog Eng Exatas Humanas Saúde Sociais
Área

Figura 12. Gráfico de mosaico com a frequência relativa para as combinações das variáveis Email e Curso.

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis qualitativas 30


Quando usar cada tipo

I Barras empilhadas. I Barras empilhadas relativas.


I Comparar as frequências marginais I Para comparar a composição da
da variável primária. variável secundária dentro das
I Comparar a composição da variável classes da variável primária.
secundária dentro das classes da I Mosaico.
primária. I Comparar as frequências relativas
I Barras lado a lado. marginais da variável primária.
I Comparar as frequências da variável I Comparar a composição da variável
secundária dentro de uma classe da secundária dentro das classes da
primária. variável primária.
I Comparar entre combinações das I Comparar as frequências relativas
variáveis. entre combinações.
I Verificar independência entre
variáveis qualitativas.

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis qualitativas 31


Considerações finais

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis qualitativas 32


Considerações finais
Revisão
I Análise descritiva para variáveis
qualitativas.
I Tabelas de frequência: simples e
cruzada.
I Gráficos de frequência: barras,
setores, mosaico.
I Função da análise.
I Uma variável: descrever o
comportamento → distribuição de
frequências.
I Duas ou mais: investigar relações. Figura 13. Photo by nappy from Pexels. Fonte
https://rb.gy/nigarg.

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis qualitativas 33


Distribuição de frequências para variáveis quantitativas

Prof. Walmes M. Zeviani

Departamento de Estatística
Universidade Federal do Paraná

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis quantitativas 1


Conteúdo

I Tabelas de frequência.
I Agrupar valores em classes.
I Tipos de frequência.
I Cálculo de frequência e densidade.
I Gráficos para a distribuição de
variáveis quantitativas.

Figura 1. Photo by nappy from Pexels. Fonte


https://rb.gy/nigarg.

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis quantitativas 2


Tabelas de frequência

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis quantitativas 3


Definições
Amplitude de classe
Amplitude de classe é o comprimento de cada classe resultante do agrupamento ou
compartimentalização de variáveis quantitativas.

Amplitude amostral
Notação
y a<y≤b (a, b] a⟝b
y0 y1 y2 y3 y4 y5 y6 y7 a≤y<b [a, b) a⟞b
Amplitude de classe Limite de classe

Amplitude de classes total

Figura 2. Intervalo particionado em classes. Nesta ilustração yk (k = 1, . . . , 7) representa um limite de classe


e não o k-ésimo valor observado da variável y. Fonte: os autores.

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis quantitativas 4


Definições

Frequência acumulada
Frequência acumulada é a frequência absoluta (ou relativa) acumulada conforme
disposição das i) classes de uma variável ordinal ou ii) das classes de uma variável
quantitativa que foi agrupada em classes.

Densidade
A densidade de uma classe é o quociente da frequência relativa (fr ) da classe pela
amplitude da classe (a). Em gráficos que exibem a densidade no eixo y, a área abaixo da
curva ou a soma dos retângulos é igual a 1.

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis quantitativas 5


Uma tabela de dados
Tabela 1. Um recorte aleatório de 10 observações da tabela de dados resultante da pesquisa feita no Moodle
com alunos matriculados em Estatística que já responderam à enquete. Total de registros: 977 respondentes.

Área Email Adequação Residentes CH


Saúde gmail Tot. adeq. (2,5] 240
Exatas hotmail Tot. adeq. (2,5] 200
Biolog outros Tot. adeq. (5,15] 270
Eng gmail Tot. inadeq. (2,5] 480
Exatas gmail Adeq. (2,5] 240
Eng outros Adeq. (2,5] 300
Saúde gmail Adeq. (2,5] 500
Exatas hotmail Adeq. (2,5] 180
Saúde gmail Adeq. (2,5] 150
Biolog gmail Tot. adeq. (2,5] 225

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis quantitativas 6


A variável ordenada
Tabela 2. Tabela anterior com registros ordenados pelos valores da variável CH.

Área Email Adequação Residentes CH


Saúde gmail Adeq. (2,5] 150
Exatas hotmail Adeq. (2,5] 180
Exatas hotmail Tot. adeq. (2,5] 200
Biolog gmail Tot. adeq. (2,5] 225
Saúde gmail Tot. adeq. (2,5] 240
Exatas gmail Adeq. (2,5] 240
Biolog outros Tot. adeq. (5,15] 270
Eng outros Adeq. (2,5] 300
Eng gmail Tot. inadeq. (2,5] 480
Saúde gmail Adeq. (2,5] 500

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis quantitativas 7


Vetor de dados ordenado

Valores ordenados
150 180 200 225 240 240 270 300 480 500
Informações
I Número de dados: 10.
I Menor valor: 150.
I Maior valor: 500.
I Amplitude: 350.
I Amplitude de classe: 43.75?

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis quantitativas 8


Tabela de frequência do recorte

Tabela 3. Tabela de frequência considerando o agrupamento da CH em classes usando apenas os registros


do recorte de 10 observações para exemplificar o procedimento.

CH Frequência Freq. relativa


(120,180] 2 0.20
(180,240] 4 0.40
(240,300] 2 0.20
(420,480] 1 0.10
(480,540] 1 0.10
Total 10 1.00

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis quantitativas 9


A tabela de frequência de todos os respondentes
Tabela 4. Tabela de frequência para as classes de idade para todos respondentes.

CH Frequência Freq. relativa


[0,60] 74 0.084
(60,120] 97 0.111
(120,180] 137 0.156
(180,240] 136 0.155
(240,300] 142 0.162
(300,360] 105 0.120
(360,420] 88 0.100
(420,480] 67 0.076
(480,540] 31 0.035
Total 877 1.000

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis quantitativas 10


A frequência acumulada
Tabela 5. Tabela de frequência para as classes de idade para todos respondentes.

CH Frequência Freq. relativa Freq. acumulada Freq. rel. acum.


[0,60] 74 0.084 74 0.084
(60,120] 97 0.111 171 0.195
(120,180] 137 0.156 308 0.351
(180,240] 136 0.155 444 0.506
(240,300] 142 0.162 586 0.668
(300,360] 105 0.120 691 0.788
(360,420] 88 0.100 779 0.888
(420,480] 67 0.076 846 0.965
(480,540] 31 0.035 877 1.000
Total 877 1.000

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis quantitativas 11


Formas de agrupar em classes

I Classes definidas com a mesma amplitude.


I É o procedimento mais usual.
I A frequência é definida em função do agrupamento em classes.
I Evitar número de classes que gerem limites de classe complicados.
I Classes definidas com frequências aproximadamente iguais.
I Os limites de classe são definidos em função da frequência.
I Tentar obter frequências aproximadamente iguais.
I Quando valores se repetem na amostra, quase sempre não é possível igualar
frequências.
I Tem relação com o conceito de separatrizes que ainda será visto.

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis quantitativas 12


Formas de agrupar em classes

Tabela 6. Frequência com classes de mesmo Tabela 7. Frequências com classes de amplitude
amplitude. para valores próximos de frequência.

CH Frequência Freq. relativa CH Frequência Freq. relativa


[0,100] 89 0.091 [0,150] 201 0.206
(100,200] 236 0.242 (150,210] 154 0.158
(200,300] 261 0.267 (210,300] 231 0.236
(300,400] 144 0.147 (300,379] 115 0.118
(400,500] 147 0.150 (379,500] 176 0.180
NA 100 0.102 NA 100 0.102

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis quantitativas 13


Gráficos para frequência

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis quantitativas 14


Histograma da frequência absoluta

100
Frequência

50

0
0 200 400
CH

Figura 3. Histograma de frequência da variável CH.

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis quantitativas 15


O efeito do número de classes
100

Frequência

Frequência
75 100
50
50
25
0 0
0 200 400 0 200 400
CH CH
100
200
Frequência

Frequência
75
150
100 50

50 25
0 0
0 200 400 600 0 100 200 300 400 500
CH CH

Figura 4. O efeito do número de classes na frequência e o resultado gráfico.

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis quantitativas 16


Histograma com amplitude de classe variável

400 400
Frequência

Frequência
200 200

0 0
[0,1] (1,2] (2,5] (5,15] 0 5 10 15
Residentes Residentes

Figura 5. Frequências para a variável Residentes.

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis quantitativas 17


Histograma da densidade

0.002
Densidade

0.001

0.000
0 200 400
CH

Figura 6. Histograma de densidade da variável CH.

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis quantitativas 18


A densidade

A densidade (d) é
fr
d=
, logo fr = a · d,
a
em que fr é a frequência relativa e a é a amplitude de classe.

Tabela 8. Exemplo de cálculo da densidade. Apenas as primeiras linhas da tabela são exibidas.

Residentes Frequência Freq. relativa Amplitude Densidade


(2,5] 569 0.591 3.000 0.197
(5,15] 26 0.027 10.000 0.003

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis quantitativas 19


Histograma da densidade para amplitude de classe variável
0.25

0.20
Densidade

0.15

0.10

0.05

0.00
0 5 10 15
Residentes

Figura 7. Histograma de densidade da variável Residentes.

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis quantitativas 20


A simetria da distribuição
Assimetria à esquerda Simétrica Assimetria à direita

750
Frequência

500

250

0
0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00
Valores da variável

Figura 8. Histogramas exibindo assimetria à esquerda, simetria e assimetria à direita para uma variável
contínua hipotética.

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis quantitativas 21


Gráfico de frequências acumuladas
I O comprimento 1.00
vertical dos degraus é
a fr .

Frequência relativa
0.75
I O comprimento
horizontal é a
0.50
distância entre valores
consecutivos da
variável. 0.25

I Quando os valores não


se repetem, fr = 1/n. 0.00

I Quando valores se 0 100 200 300 400 500


CH
repetem, fr (y) = #y/n.
I A imagem do gráfico Figura 9. Gráfico de frequências acumuladas para a variável CH.
Segmentos dentro do gráfico indicam como interpretar o gráfico.
∈ [0, 1].
Prof. Walmes M. Zeviani Distribuição de frequências para variáveis quantitativas 22
Gráfico de densidade empírica

I Computacionalmente
intensivo.
I Depende de escolher:
0.002
I A função kernel.

Densidade
I Largura de banda
ou tamanho de
vizinhança. 0.001
I A área abaixo da
curva (em azul) é 1.
I Veja aplicação web: 0.000
http://shiny.leg.ufpr. 0 100 200 300 400 500
br/walmes/density/. CH

Figura 10. Gráfico de densidade empírica da variável CH.

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis quantitativas 23


Quando usar cada gráfico

I Histograma de frequência.
I Para examinar a simetria da distribuição.
I Para classes de mesma amplitude.
I Histograma de densidade.
I Para examinar a simetria da distribuição.
I Para classes de amplitude variável.
I Frequência acumulada.
I Para examinar frequências relativas e separatrizes.
I Densidade.
I Para examinar a simetria da distribuição.
I Para determinar as modas da distribuição.

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis quantitativas 24


Alguns cuidados

I Histograma.
I Escolha apropriada do número de classes agrupamento dos dados contínuos em
classes.
I Não usar barras separadas (como os feitos para variáveis qualitativas).
I O histograma é um gráfico de barras mas que enfatiza a continuidade por não
apresentar espaço entre barras.
I Use densidade quando as classes são de amplitude variável.
I Densidade.
I Escolha apropriadamente a função kernel e principalmente a largura de banda.
I Esteja ciente dos valores ausentes.

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis quantitativas 25


Considerações finais

Prof. Walmes M. Zeviani Distribuição de frequências para variáveis quantitativas 26


Considerações finais
Revisão
I Análise descritiva para variáveis
quantitativas.
I Agrupar valores em classe.
I Tabelas de frequência.
I Gráficos de frequência.
I Histograma.
I Frequência acumulada.
I Densidade.

I Função da análise:
I Uma variável: descrever o Figura 11. Photo by nappy from Pexels. Fonte
comportamento → distribuição de https://rb.gy/nigarg.
frequências.
I Duas ou mais: investigar relações →
será visto em outro vídeo.
Prof. Walmes M. Zeviani Distribuição de frequências para variáveis quantitativas 27
Medidas de posição

Prof. Walmes M. Zeviani

Departamento de Estatística
Universidade Federal do Paraná

Prof. Walmes M. Zeviani Medidas de posição 1


Conteúdo

Figura 1. Medidas de posição usadas em análise descritiva de dados.

Prof. Walmes M. Zeviani Medidas de posição 2


Medidas de posição

Prof. Walmes M. Zeviani Medidas de posição 3


Média aritmética

I A média aritmética é soma de todos os valores dividida pela quantidade de valores.


I Tem interpretação física de centro de gravidade.
I A média é Pn
i=1 yi y1 + y2 + · · · + yn
y= = .
n n
I µ = y é valor que minimiza a soma do quadrado dos desvios

X
n
SQD(µ) = (yi − µ)2 .
i=1

I É uma medida influenciada por valores extremos (outliers).

Prof. Walmes M. Zeviani Medidas de posição 4


Cálculo e representação gráfica

Considere a seguinte amostra de dados


11.65
4 9 10 12 15
7 10 11 12 15
8 10 11 13 18
8 10 12 14 24

e determine a média.
5 10 15 20 25
Fazendo os cálculos: Valores

P20 Figura 2. Gráfico de pontos empilhados de uma


i=1 yi = 233.
I
variável cujos valores estão na tabela ao lado.
I y = 233/20 = 11.65.

Prof. Walmes M. Zeviani Medidas de posição 5


Média aritmética ponderada (dados agrupados)
I Quando os dados estão agrupados, ou seja, quando se possuem as frequências
relativas (fr ) de valores individuais (que se repetem) ou de classes, obtém-se a
média considerando a ponderação pela frequência.
I A média ponderada é
Pk
i=1 fi · yi
y= Pk ,
i=1 fi

em que fi é a frequência da classe i (absoluta ou relativa) e k é o número de classes


(k ≤ n).
I No caso em que os valores foram agrupados em classe, usa-se como yi o ponto
médio da classe. Exemplo: na classe [10, 15] o ponto médio é 12,5.
I Note que, para o caso de dados individuais, fi = 1/n para todos os valores da
variável y, e retorna-se à primeira expressão apresentada.

Prof. Walmes M. Zeviani Medidas de posição 6


Outros tipos de média · média geométrica
I Definida como a n-ésima raíz do produto de n números, ou seja
!1/n
Y
n

mg = yi = n y y ···y .
1 2 n
i=1

I Tem relação com logaritmo.


I Usada para remover o efeito de escalas para comparar valores médios entre grupos.
I Muito usada para cálculo de retorno médio de juros compostos.
I Exemplo: um fundo de investimento apresentou as seguintes taxas de juros mensais:
0.643%, 0.487%, 0.797%, 0.327%, 0.487%. Qual é a taxa de juros média do período?

mg = (0.00643 · 0.00487 · 0.00797 · 0.00327 · 0.00487)1/5 = 0.00525.

Prof. Walmes M. Zeviani Medidas de posição 7


Outros tipos de média · média harmônica

I A média harmônica é a recíproca da média aritmética dos recíprocos, definida por


Pn
n wi
mh = Pn 1 , sendo a versão ponderada mh = Pi=1 n wi .
i=1 yi i=1 yi

I Ela é usada para calcular médias sobre valores que são taxas ou tem relação
divisiva.
I Exemplo: 3 amigos dirigem 100 km cada um mantendo a velocidade de 50, 65 e 75
km/h em cada trecho. Qual é a velocidade média da viagem?

100 + 100 + 100


mh = 100 100 100
= 60.
50 + 65 + 75

Prof. Walmes M. Zeviani Medidas de posição 8


Outros tipos de média · média aparada

I A média aparada é usada para evitar o m. aritmética: 11.650


efeito dos valores extremos. m. aparada: 11.389
I Uma média 10% aparada é obtida ao
se descartar 5% dos valores em cada
extremidade.
I Se a amostra é de tamanho 100,
significa descartar os 5 menores e os 5
5 10 15 20 25
maiores valores e com os 90 restantes, Valores
calcular a média.
Figura 3. Gráfico de pontos empilhados
I A média aparada considera, portanto, indicando as observações usadas para o cálculo
o conceito de medidas de posição da média 10% aparada e comparação com a
média aritmética.
relativa.

Prof. Walmes M. Zeviani Medidas de posição 9


Mediana
I A mediana é o número que ocupa a posição intermediária quando os valores são
ordenados.
I Separa o conjunto de valores em duas partes de mesmo tamanho. Assim, se todos
os valores na amostra forem distintos, metade dos valores é menor que a mediana
e metade é maior que ela.
I Indica-se que a amostra está ordenada usando a notação de parênteses no índice

y(1) ≤ y(2) ≤ · · · ≤ y(n−1) ≤ y(n) .

I O valor de y na k-ésima posição, y(k) , é chamado de k-ésima estatística de ordem.


I A mediana é calculada por
(
y((n+1)/2) , se n for ímpar
md =
(y(n/2) + y(n/2+1) )/2, se n for par.

Prof. Walmes M. Zeviani Medidas de posição 10


Mediana
n ímpar mediana
y((n+1)/2) = y(6)

y(1) y(2) y(3) y(4) y(5) y(6) y(7) y(8) y(9) y(10) y(11)

1ª metade 2ª metade

n par mediana
(y(n/2) + y(n/2+1))/2 = (y(6) + y(7) )/2

y(1) y(2) y(3) y(4) y(5) y(6) y(7) y(8) y(9) y(10) y(11) y(12)

1ª metade 2ª metade

Figura 4. Cálculo da mediana para as 2 situações possíveis conforme o tamanho da amostra.

Prof. Walmes M. Zeviani Medidas de posição 11


Cálculo e interpretação gráfica
Considere a seguinte amostra de dados
1.00

4 9 10 12 15

Frequência relativa
7 10 12 15
0.75
11
8 10 11 13 18 0.50
8 10 12 14 24
0.25

e determine a mediana. 11
0.00
5 10 15 20 25
Fazendo os cálculos: Valores

I n = 20 é par. Figura 5. Gráfico de frequência relativa


acumulada da variável cujos valores estão na
I md = (y(10) + y(11) )/2 = (11 + 11)/2 = 11. tabela ao lado.

Prof. Walmes M. Zeviani Medidas de posição 12


Moda
I Moda é o valor ou classe que ocorre 10

com maior frequência (ou densidade)


na amostra.
5 10 15 20 25
I A moda representa o valor mais típico, Valores
ou seja, o que mais se repete. 0.12

Densidade
I Para variáveis onde todos os valores 0.08
0.04
são distintos, a moda fica indefinida já 0.00
10.61

que a frequência é 1/n para todos os 5 10 15 20 25


Valores
valores de y.
Figura 6. Gráfico de pontos empilhados da
I Pode-se agrupar os dados em classe e
variável e gráfico de densidade empírica. Ambos
reportar a classe modal. indicam o valor da moda para a mesma amostra.
I Mas pode-se determinar a moda como
sendo o valor que corresponde ao
máximo da densidade empírica.
Prof. Walmes M. Zeviani Medidas de posição 13
Média, moda e mediana em relação à assimetria
I Assimetria à direita:

moda < mediana < média. Medida


0.15 Média: 5.16
Mediana: 4.86
Assimetria à esquerda:

Densidade
I
0.10 Moda: 4.55

média < mediana < moda.


0.05

I Para memorizar. 0.00


I A moda está na região de maior 0 4 8 12 16
Valores
densidade.
I Como a média é “puxada” pelos Figura 7. Histograma de frequência da variável e
valores extremos, encontra-se para o o ordenamento nos valores das medidas de
lado da cauda longa. posição média, mediana e moda.
I A mediana está entre a moda e a
média.
Prof. Walmes M. Zeviani Medidas de posição 14
Quando usar cada medida de posição

Medidas
Candidato: Quanto ganha um funcionário Média: 6.33

da empresa? Mediana: 5.00

Entrevistador: Você quer saber o que exta- Moda: 4.00

mente?

I O salário médio?
5 10 15 20
I O salário intermediário? Salário
I Ou o salário típico? Figura 8. Salários dos funcionários de uma
empresa. n = 15.

Prof. Walmes M. Zeviani Medidas de posição 15


Quando usar cada medida de posição
I Média: distribuição unimodal 0.4
Medida

simétrica e sem valores extremos.


Média: 1.65
0.3 Mediana: 0.99

Densidade
Mediana: distribuição assimétrica ou
Moda: 0.53
I 0.2

com presença de valores extremos. 0.1

Moda: quando valores se repetem,


0.0
I 0 5 10 15
Valores
estão agrupados em classe ou é
variável qualitativa.
0.06 Medida Média: 165.02 Mediana: 163.40 Moda: 179.68

As três medidas:

Densidade
0.04
I
I Perdem significado em distribuições 0.02

multimodais.
0.00
I Aproximam-se em distribuições 140 160
Valores
180

unimodais simétricas.
Figura 9. Média, mediana e moda para
I Sempre faça gráficos! distribuição assimétrica (topo) e distribuição
bimodal (base).
Prof. Walmes M. Zeviani Medidas de posição 16
Medidas de posição relativa
(separatrizes)

Prof. Walmes M. Zeviani Medidas de posição 17


Medidas de posição relativa (separatrizes)

I Descrevem posição relativa, em termos de frequência, de um particular valor na


amostra.
I Por isso, as separatrizes também são chamadas de medidas de posição relativa.
I São de importância prática 3 tipos de separatrizes.
I Os quartis: dividem a amostra em 4 partes com frequência 1/4.
I Os decis: dividem a amostra em 10 partes com frequência 1/10.
I Os percentis: dividem a amostra em 100 partes com frequência 1/100.

Prof. Walmes M. Zeviani Medidas de posição 18


Quartis

I Um quartil qº (q ∈ {1, 2, 3}) de um


conjunto de n valores (distintos),
5 10 15 20 25

Freq. relativa
1.00
ordenados em ordem crescente, é um 0.75

número tal que (100q/4)% se localizam


0.50
0.25

abaixo dele. 0.00


5 10 15 20 25

I Dessa forma, tem-se 1º, 2º e 3º quartis.


I O 2º quartil é a mediana. 5 10 15 20 25
y
I O gráfico de caixas e bigodes é uma
representação gráfica baseada nos Figura 10. Gráfico de pontos empilhados (topo),
gráfico de frequências relativas (meio) e gráfico
quartis.
de caixas e bigodes (base). Linhas verticais
indicam os quartis e valores extremos.

Prof. Walmes M. Zeviani Medidas de posição 19


Cálculo dos quartis
I Pode-se calcular os quartis 1 e 3 repetindo-se o 25
24.0
procedimento de cálculo da mediana, mas aplicado
a cada uma das metades da amostra. 20
I Cálculo do 1º quartil é a mediana da primeira
porção
4, 7, 8, 8, 9, 10, 10, 10, 10, 11. Logo, q1 = 9.5.

Valores
15

13.5
I Cálculo do 3º quartil é a mediana da segunda
11.0
porção 10
9.5
11, 12, 12, 12, 13, 14, 15, 15, 18, 24. Logo, q3 = 13.5.
I Apesar de simples, essa forma de calcular não é a 5

única. 4.0

I Existem pelo menos 9 formas diferentes de calcular.


Figura 11. Gráfico de caixas com
I O importante é que a diferença entre elas se torna
anotações dos valores das
irrelevante à medida que a amostra é maior. separações e diagrama de
pontos incluído.

Prof. Walmes M. Zeviani Medidas de posição 20


Ilustração do cálculo dos quartis
q1 q2 q3
n múltiplo de 4
y(1) y(2) y(3) y(4) y(5) y(6) y(7) y(8) y(9) y(10) y(11) y(12)

1ª metade 2ª metade

q1 q2 q3
n + 1 múltiplo de 4
y(1) y(2) y(3) y(4) y(5) y(6) y(7) y(8) y(9) y(10) y(11)

1ª metade 2ª metade

q1 q2 q3
n múltiplo de 2
y(1) y(2) y(3) y(4) y(5) y(6) y(7) y(8) y(9) y(10)
Figura 12. Cálculo dos quartis
1ª metade 2ª metade
para as 4 situações possíveis
q1 q2 q3 conforme o tamanho da amostra
n + 1 múltiplo de 2
pelo método dos 5 números de
y(1) y(2) y(3) y(4) y(5) y(6) y(7) y(8) y(9) Tukey (Tukey’s hinge method).
1ª metade 2ª metade

Prof. Walmes M. Zeviani Medidas de posição 21


Amplitude interquartílica
25
24.00
I A amplitude interquartílica é a distância entre o q1 e
q3 , ou seja 20

AIQ = q3 − q1 . 18.50

A partir da AIQ e dos quartis q1 e q3 são delimitados

Valores
15
I
valores limites, além dos quais as observações são 13.25

representadas isoladamente. Esses valores são 10


11.00
9.75

q1 − k · AIQ e q3 + k · AIQ,
5
4.50
em que k é uma constante amplamente utilizada
4.00

com o valor 1,5. Figura 13. Linhas limítrofes para


I No gráfico ao lado foi usada outra forma de destaque de pontos individuais.
Caixas feitas com outro método
determinar os quartis q1 e q3 . de determinação de quartis.

Prof. Walmes M. Zeviani Medidas de posição 22


Percentis e decis

I Um conjunto de n valores, organizados 1.00

de forma crescente, o P-ésimo


percentil é um número tal que P% dos 0.75

valores estejam à sua esquerda e (100

Freq. relativa
- P)% à sua direita. 0.50
0.55

I Os decis nada mais são que os


percentis múltiplos de 10. 0.25

11.45
I Da mesma forma que os quartis são
0.00
percentis múltiplos de 25.
5 10 15 20 25
I As separatrizes podem ser obtidas por
meio do gráfico de frequências Figura 14. Gráfico de probabilidades acumulada
indicando o uso para determinação de percentis.
acumuladas.

Prof. Walmes M. Zeviani Medidas de posição 23


Considerações finais

Prof. Walmes M. Zeviani Medidas de posição 24


Considerações finais
Revisão

Figura 15. Medidas de posição usadas em análise descritiva de dados.

Prof. Walmes M. Zeviani Medidas de posição 25


Medidas de dispersão, forma e associação

Prof. Walmes M. Zeviani

Departamento de Estatística
Universidade Federal do Paraná

Prof. Walmes M. Zeviani Medidas de dispersão, forma e associação 1


Conteúdo

Figura 1. Medidas de dispersão e forma usadas em análise descritiva de dados.

Prof. Walmes M. Zeviani Medidas de dispersão, forma e associação 2


Medidas de dispersão

Prof. Walmes M. Zeviani Medidas de dispersão, forma e associação 3


A importância de quantificar a dispersão

I O resumo de variável observada Antes do treinamento


apenas por uma medida de posição, 60
ignora a informação sobre a sua 40 20.09
20
variabilidade.

Frequência
0
I Não é seguro analisar um conjunto de Após treinamento
dados somente pelo emprego de 60
medidas de tendência central. 40 20.01
20
I Por isso, precisamos de medidas que 0
caracterizem a dispersão ou 15.0 17.5 20.0 22.5 25.0
Profundidade da cova
variabilidade dos dados em relação a
um valor central. Figura 2. Histogramas exibindo a profundidade das
covas para transplante de mudas antes e após ser
dado treinamento sobre cultivo.

Prof. Walmes M. Zeviani Medidas de dispersão, forma e associação 4


Amplitude total

I A amplitude é a diferença entre o maior e o menor valor da variável:

A = max(y) − min(y) = y(n) − y(1) .

I A notação y(k) refere-se a estatística de ordem, ou seja a observação que está na


k-ésima posição na amostra com valores ordenados de forma crescente.
I A amplitude está expressa na mesma unidade de medida da variável.
I Apenas usar máximo e mínimo torna sensível a valores extremos.
I Melhor medida de variabilidade: considerar todos os dados disponíveis
I Desvio de cada valor em relação à uma medida de posição central (média ou mediana).

Prof. Walmes M. Zeviani Medidas de dispersão, forma e associação 5


Desvio médio e mediano
Desvio absoluto médio da mediana (desvio da mediana)
I Usa a mediana como medida de posição central. É definido por

1X
n
desvio mediano = abs(yi − md),
n
i=1

em que abs(.) é a função que retorna o valor absoluto ou módulo. Assim, abs(y) é o
mesmo que |y|.
Desvio absoluto médio da média (desvio da média)
I Usa a média como medida de posição central. É defido por

1X
n
desvio médio = abs(yi − y).
n
i=1

Prof. Walmes M. Zeviani Medidas de dispersão, forma e associação 6


A variância
I Uma alternativa melhor é usar a soma dos quadrados dos desvios, que dá origem à
variância de um conjunto de dados.
I A variância é definida por

1 X
n
2
s = Var(y) = (yi − y)2
n−1
i=1
Pn !
1 Xn
( y ) 2
i=1 i
= y2i −
n−1 n
i=1

I A unidade de medida do valor da variância é a unidade de medida da variável ao


quadrado. Ou seja, se a variável y é a altura em cm dos estudantes, então a
variância será cm2 .
I A segunda expressão é considerada mais eficiente em termos de operações
algébricas. Ela não requer calcular a média.
Prof. Walmes M. Zeviani Medidas de dispersão, forma e associação 7
Variância amostral e variância populacional

I A explicação para o denominador n − 1 será dada na parte de estimação. A variância


calculada assim é chamada de variância amostral (s2 ).
I A variância quando usa apenas n no demominador é chamada de variância
populacional (σ 2 ) e é aplicada quando se observam todos os elementos da
população.
I Sempre considere o cálculo da variância amostral a menos que seja expressamente
dito para calcular a variância populacional.
I É fácil converter de um para o outro, pois
 n 
s2 = σ 2 .
n−1

I Importante: A variância é sempre positiva.

Prof. Walmes M. Zeviani Medidas de dispersão, forma e associação 8


O cálculo da variância
Considere os seguintes valores

4 8 9 10 10 11 12 13 15 18
7 8 10 10 11 12 12 14 15 24

e calcule a variância amostral sabendo que y = 11.65.


Aplicando a fórmula, obtém-se

1 h i
s2 = (4 − 11.65)2 + (7 − 11.65)2 + · · · + (24 − 11.65)2
19
1
= [58.5225 + 21.6225 + · · · + 152.5225]
19
= 18.34.

Prof. Walmes M. Zeviani Medidas de dispersão, forma e associação 9


O desvio-padrão

I Para ter uma medida de dispersão com a mesma unidade de medida dos dados
originais, definiu-se o desvio-padrão como
p
s = s2 .

Prof. Walmes M. Zeviani Medidas de dispersão, forma e associação 10


A Lei de Chebyshev

I A Lei Chebyshev estabelece a proporção mínima dos valores contidos em intervalos


simétricos em relação à média.
I Tais resultados valem seja qual for a forma da distribuição.
I Pelo menos 3/4 (75%) dos valores estão no intervalo (y − 2s, y + 2s).
I Pelo menos 8/9 (89%) dos valores estão no intervalo (y − 3s, y + 3s).
I Formula geral: pelos menos (1 − 1/k 2 ) dos dados estará no intervalo (y − ks, y + ks).

Prof. Walmes M. Zeviani Medidas de dispersão, forma e associação 11


O coeficiente de variação

I O coeficiente de variação é uma medida de variabilidade relativa à média.


I É definido pelo quociente do desvio-padrão pela média, ou seja,
s
CV = 100 · .
y

I É uma medida adimensional, e geralmente apresentada na forma de porcentagem,


como indica a expressão.

Prof. Walmes M. Zeviani Medidas de dispersão, forma e associação 12


Cálculo do desvio-padrão e coeficiente de variação

O desvio-padrão para os dados já apresentados em slides anteriores é



s = 18.34 = 4.283.

O coeficiente de variação é

4.283
CV = 100 · = 36.765%.
11.65

Prof. Walmes M. Zeviani Medidas de dispersão, forma e associação 13


Quando usar cada medida de dispersão
I Amplitude:
I Fácil de calcular.
I Influenciado por valores extremos.
I Desvios absolutos:
I São medidas robustas, ou seja, mais resilientes a out-liers.
I Dá ideia do tamanho médio dos desvios.
I Variância ou desvio-padrão:
I Influenciados por valores extremos.
I Ainda assim, a Lei de Chebyshev é útil para determinar proporções dentro de intervalos
simétricos.
I Têm boas propriedades e significado que serão vistas na parte de Estimação e
Inferência.
I Coeficiente de variação.
I Comparar a variabilidade de variáveis de diferentes naturezas.
Prof. Walmes M. Zeviani Medidas de dispersão, forma e associação 14
Medidas de dispersão para variáveis qualitativas
I Existem várias métricas ou índices para representar a dispersão em variáveis
qualitativas.
I Os índices são funções das frequências das classes.
I A entropia (de Shannon) é definida por

X
k X
k X
k
H= pi log(1/pi ) = pi (− log pi ) = − pi log(pi ),
i=1 i=1 i=1

em que pi = fri é a frequência relativa da classe i (i = 1, . . . , k).


I Quanto mais próximo H estiver de 0, mais concentrada é a distribuição de
frequências.
I Para mais sobre o assunto, procure sobre índices de diversidade.
I São usados em ecologia para caracterizar a biodiversidade.

Prof. Walmes M. Zeviani Medidas de dispersão, forma e associação 15


Medidas de forma

Prof. Walmes M. Zeviani Medidas de dispersão, forma e associação 16


Medidas de forma

I Servem para descrever características adicionais da distribuição.


I Coeficiente de assimetria.
I Coeficiente de curtose.
I Calculados com a variável padronizada pela média e desvio-padrão
yi − y
z= , que resulta em z = 0 e sz = 1.
s

I São baseados em momentos de ordem k superior a 2


 k
1X
n
yi − y
mk = .
n s
i=1

Prof. Walmes M. Zeviani Medidas de dispersão, forma e associação 17


Coeficiente de assimetria

I Indica um 3º aspecto da forma da Assimetria à esquerda Simétrica Assimetria à direita


1200
distribuição: a assimetria.
I É a média do cubo dos desvios, ou seja 900

n 
X 3
1 yi − y

Frequência
b1 = . 600
n s
i=1
300
b1 = − 0.626 b1 = − 0.001 b1 = 0.612
I Assimetria à esquerda quando b1 < 0
e assimetria à direita quando b1 > 0. 0
0.00 0.25 0.50 0.75 1.000.00 0.25 0.50 0.75 1.000.00 0.25 0.50 0.75 1.00
Valores da variável

Figura 3. Histogramas com distribuições de


diferentes assimetrias indicando o valor do
coeficiente de assimetria.

Prof. Walmes M. Zeviani Medidas de dispersão, forma e associação 18


Coeficiente de curtose
I Indica um 4º aspecto da forma da Platicúrtica

distribuição: a curtose. 0.10 b2 = − 1.248


0.05
I É definido por 0.00

n   Mesocúrtica

1 X yi − y 4

Densidade
b2 = 0.306
b2 = − 3,
0.10

n s 0.05
i=1 0.00
Leptocúrtica

em que a subtração por 3 serve para 0.10 b2 = 2.978


usar a distribuição normal como 0.05
0.00
referência. 40 50 60 70
Valores da variável
I Platicúrtica quando b2 < 0,
mesocúrtica quando b2 = 0 e Figura 4. Histogramas com distribuições de
diferentes curtoses indicando o valor do coeficiente
leptocúrtica quando b2 > 0. de curtose comparada com a distribuição normal
representada pela linha contínua.

Prof. Walmes M. Zeviani Medidas de dispersão, forma e associação 19


Correlação de Pearson

Prof. Walmes M. Zeviani Medidas de dispersão, forma e associação 20


Exemplos de grau de correlação
I É usado para determinar se existe relação linear entre v.a. quantitativas.
I A correlação r assume valores entre −1 e 1.
I Quando r > 0, então existe uma associação (linear) positiva.
I Quando r < 0, então existe uma associação (linear) negativa.
I Quando r = 0, então não existe uma associação (linear).

r = − 0.9 r = − 0.75 r = − 0.3 r =0 r = 0.3 r = 0.75 r = 0.9


Correlação

0.5
y2

0.0

−0.5
y1

Figura 5. Correlação entre duas variáveis quantitativas.

Prof. Walmes M. Zeviani Medidas de dispersão, forma e associação 21


Covariância e correlação

I A covariância amostral entre duas variáveis Y1 e Y2 é

1 X
n
Cov(y1 , y2 ) = (y1i − y1 ) · (y2i − y2 ).
n−1
i=1

I A correlação amostral entre duas variáveis Y1 e Y2 é


Pn
(y1i − y1 ) · (y2i − y2 ) Cov(y1 , y2 )
r = qP i=1 qP =p .
n
(y − y ) 2· n
(y − y ) V(y 1 ) · V(y 2 )
i=1 1i 1 i=1 2i 2

Prof. Walmes M. Zeviani Medidas de dispersão, forma e associação 22


Interpretação gráfica

y1 < ȳ1 & y2 > ȳ2 y1 > ȳ1 & y2 > ȳ2

O coeficiente de correlação é
Pn
(y1i − y1 ) · (y2i − y2 )
r = qP i=1 qP .
n n
y¯2 (y
i=1 1i − y1 ) 2· (y
i=1 2i − y2 )
y2

Figura 6. A interpretação do coeficiente de


y¯1 correlação de Pearson.
y1 < ȳ1 & y2 < ȳ2 y1 > ȳ1 & y2 < ȳ2

y1

Prof. Walmes M. Zeviani Medidas de dispersão, forma e associação 23


Exemplo: comprimento radicular e produtividade

Tabela 1. Valores de produtividade e comprimento de raízes de 0.90

plantas de milho.
0.85

Produção da planta
Comp. Prod. Comp. Prod. Comp. Prod. 0.80

2.85 0.74 3.08 0.84 2.12 0.65


0.75
3.13 0.93 3.85 0.86 3.13 0.88
3.86 0.91 2.05 0.72 3.55 0.79 0.70

2.40 0.76 2.81 0.83 2.88 0.82 0.65


2.74 0.72 2.83 0.70 3.49 0.92 2.0 2.5 3.0 3.5
Comprimento de raízes da planta
3.25 0.92 2.58 0.67 3.39 0.91
Figura 7. Diagrama de dispersão
entre comprimento de raízes (y1 )
e produção (y2 ).
Cov(y1 , y2 ) = 0.0369, s21 = 0.2731, s22 = 0.0087.

Prof. Walmes M. Zeviani Medidas de dispersão, forma e associação 24


Solução

A correlação é obtida por

0.0369
r=√ = 0.7555,
0.2731 · 0.0087

que indica uma associação positiva entre as variáveis.

Prof. Walmes M. Zeviani Medidas de dispersão, forma e associação 25


Outros tipos de correlação
1 2

I A correlação de Pearson descreve o


grau de associação linear entre
variáveis.
I Associações diferentes da linear são
descritas impropriamente pelo

y2
3 4

coeficiente de correlação de Pearson.


I Existem outros tipos de correlação.
I Correlação de Spearman.
I Correlação de Kendall.
I Teste de hipótese para a correlação y1

será visto na parte de Inferência


Figura 8. Tipos de associação não lineares entre
Estatística.
variáveis.

Prof. Walmes M. Zeviani Medidas de dispersão, forma e associação 26


Mais medidas de associação

Tipo das variáveis e medida de associação

1. Numérica × numérica → Coeficiente de correlação de Pearson.


2. Numérica × ordinal → Coeficiente de correlação de Kendall.
3. Numérica × nominal → Coeficiente de correlação ponto-bisserial.
4. Ordinal × ordinal → Coeficiente de correlação de Kendall.
5. Ordinal × nominal → Coeficiente de correlação rank-bisserial.
6. Nominal × nominal → Coeficiente φ.
https://journals.sagepub.com/doi/pdf/10.1177/8756479308317006

Prof. Walmes M. Zeviani Medidas de dispersão, forma e associação 27


Considerações finais

Prof. Walmes M. Zeviani Medidas de dispersão, forma e associação 28


Considerações finais
Revisão

Figura 9. Medidas de dispersão e forma usadas em análise descritiva de dados.

Prof. Walmes M. Zeviani Medidas de dispersão, forma e associação 29

Você também pode gostar