Você está na página 1de 19

Organização de dados

Coletar dados podem envolver diversas atividades tais como


experimentos em laboratório, observações de campo,
pesquisa de opinião, exame de registros históricos,...

A quantidade de dados em geral é grande e torna-se difícil,


por simples inspeção, obter informações sobre aspectos
importantes do dados.

É importante obter uma Estatística Descritiva dos dados:


resumos em forma de tabelas, gráficos e indicadores
numéricos de centro e variabilidade.

Métodos de Estatística descritiva são aplicáveis a situações


em que temos amostras ou um censo da população.

Para um censo (toda a população), a estatística descritiva


destes dados podem ser apresentados em relatórios que
podem ser apresentados ao público, podem ser partes de
dados para ações governamentais, etc...

Para dados amostrais, a estatística descritiva serve como


ponto de partida para estudos posteriores, tal que inferências
sobre a população possam ser feitas.

2
Principais aspectos ao descrever um conjunto de dados

(a) resumo e descrição do padrão geral dos dados por:

(a.1) Apresentação de tabelas e gráficos

(a.2) Observação das características importantes nas formas dos


gráficos, tais como simetria ou assimetria.

(a.3) explorar nos gráficos a presença de observações não usuais, ou


seja, observações que parecem estar distantes dos valores onde
ocorrem a maior parte dos dados

(b) Calculo de medidas numéricas de:

(b.1) um valor indicando o centro dos dados (média, mediana, moda,…)

(b.2) uma medida da variação nos dados.


3

Tabelas e Gráficos

Alguns tipos de tabelas e gráficos:

Tabelas de frequência
Gráfico de Barras e Gráfico de Pizza
Diagrama de Pareto
Diagrama de pontos
Diagrama de Ramos-e-Folhas
Distribuições de Frequência, Histogramas e Polígonos
Distribuições Acumuladas
Tabelas de Contingência
Gráfico de Dispersão e de Séries Temporais

4
Definições:

n: número total de observações

Frequência absoluta (f): é o número de vezes que um dado


valor foi observado .

Frequência relativa (fr ): é o quociente entre a frequência


absoluta e o número total de observações.
f
fr  fr %  fr .100 em porcentagem
n
Exemplo: Considere os valores: 1, 2, 5, 2, 5 , 8, 9, 10, 5, 5, 5, 3, 5, 2
Temos: n=14
Para o resultado 5 temos: f= 6 fr=6/14 = 0,4285
em porcetagem: fr% =42,85
5

Note que:
n
A soma de todas as frequências = n f
i 1
i n
n
A soma de todas as freq. relativas = 1 f
i 1
ri 1
n
A soma de todas as freq. relat. em % = 100%   f %  100%
i 1
r i

6
Tabelas e Gráficos para Dados Categóricos

Dados Categóricos

Dados em Tabelas Dados em Gráfico

Tabela Gráfico de Gráfico de Diagrama


Resumo Barras Pizza de Pareto

Tabela Resumo: tabela apresentado os resultados


(frequências) em cada categoria.
Exemplo: Carteira de Investimentos
Valor Total Porcentagem
Tipo (em milhares $) %

Ações 46,5 42,27


títulos 32,0 29,09
Renda Fixa 15,5 14,09
Poupança 16,0 14,55
Variáveis
Categóricas Total 110,0 100,0

%=valor de uma categoria/total


8
Exemplo: Gráfico de Barras

Carteira de Investimentos
A altura da barra representa a
Tipo Valor Total % frequência ou a porcentagem
de cada categoria.
Ações 46,5 42,27
títulos 32,0 29,09 Carteira de Investimentos
Renda Fixa 15,5 14,09
Poupança 16,0 14,55
Poupança
Total 110,0 100,0
Renda Fixa
Bonds
Ações

0 10 20 30 40 50
Valor Total
Podemos apresentar as barras verticalmente
9

Gráfico de Pizza (ou de setores)


A “fatia” da pizza representa a frequência ou a porcentagem de
cada categoria.
O ângulo de cada " fatia" é obtido
usando regra de três : 360 ....... n (ou 100%)
x ....... f ( ou fr % )
Ações 42%

Exemplo: Carteira de Investimentos Bonds 29%


15%
Poup. 15%
Tipo Valor Total
% 14% 42% RF 14%
Ações 46,5 42,27
títulos 32,0 29,09
29%
Renda Fixa 15,5 14,09
Poupança 16,0 14,55
Total 110,0 100,0 As porcentagens foram arredondadas para o
inteiro mais próximo
10
Na construção de um gráfico circular deve-se ter em conta que:

• a amplitude de cada sector é proporcional à frequência que


representa;

• a legenda pode ser dispensada, inscrevendo-se os valores da


variável e as suas frequências nos respectivos sectores circulares;

• podem-se usar cores diferentes para os diferentes sectores;

• o gráfico deve ter um título adequado.

11

Não é aconselhável construir um gráfico circular:

• para variáveis que tenham mais de cinco ou seis modalidades;

• para situações em que os sectores resultam aproximadamente


com a mesma amplitude;

• para setores com amplitudes muito pequenas.

Não é muito adequado apresentar gráficos com formas


distorcidas (elipse, setores separados) pois podem dar origem a
distorções de interpretação.

12
Diagrama de Pareto
 Utilizado para representar dados categóricos

 As categorias são representadas em um gráfico de barras,


pela ordem decrescente de frequência

 Um polígono cumulativo (soma das frequencias até uma


dada categoria) é frequentemente representado no
gráfico

13

Exemplo: Diagrama de Pareto

Carteira de Investimentos
45% 100%

40% 90%

80%
35%
% investida em cada categoria

70%
investimentos (polígono)

30%
(gráfico de barras)

60%
% acumulada de

25%

50%

20%
40%

15%
30%

10%
20%

5% 10%

0% 0%

Ações títulos Poupança Renda fixa


14
Tabelas e Gráficos para Dados Numéricos

Dados Numéricos

Distribuições de Frequência e
Diagrama de
pontos Distribuições Acumuladas

Disposição
Ramo-e-Folha Histograma Polígono Frequência
acumulada

15

A Disposição Ordenada

Sequência de dados em uma ordem de classificação:


 Em ordem crescente, do menor valor para o maior valor
 fornece alguns sinais de variação dentro do intervalo
 Pode ajudar a identificar pontos extremos (distantes da
maioria)
 Se o conjunto de dados é muito grande, a disposição
ordenada é pouco utilizada

16
Exemplo de disposição ordenada

 Dados em sua forma bruta (como coletados):

24, 26, 24, 21, 27, 27, 30, 24, 27, 32, 38, 27

 Dados em disposição ordenada, do menor para o


maior:

21, 24, 24, 24, 26, 27, 27, 27, 27, 30, 32, 38

17

Diagrama de pontos: uma reta contendo a escala de valores


dos dados com pontos representando os valores obtidos. O
número de pontos sobre um dado valor representa representa
a frequência deste.

Exemplo: 21, 24, 24, 24, 26, 27, 27, 27, 27, 30, 32, 38

20 22 24 26 28 30 32 34 36 38 40

Útil para um conjunto pequeno de dados


18
Gráfico ramos e folhas

É maneira simples de verificar os detalhes da distribuição


de um conjunto pequeno de dados

É obtido dividindo-se cada valor dos dados em duas partes,


o ramo e a folha

Por exemplo, se os todos dados contém dois dígitos, tal como


36, podemos escolher a dezenas como ramo e a unidade
como folha:
ramo folha
3 | 6

19

Exemplo: 21, 24, 24, 24, 26, 27, 27, 27, 27, 30, 32, 38

ramo folha
2 144467777
3 028

Os ramos devem ser escolhidos de modo que o gráfico ramos e


folhas resultante seja informativo sobre a distribuição dos
dados.

Exemplo: o mesmo com mais detalhes. 2 1444


2 677777
vamos dividir cada ramo em dois ramos: 3 02
um contendo folhas de digitos ≤5 e outro 3 8
com digitos >5.
20
Distribuições de Frequência: Uma distribuição de
frequência é uma lista ou uma tabela contendo a
frequência com que cada dado está dentro de uma
determinada categoria, ou de um determinado valor, ou de
um intervalo de valores.

Definições:
Frequência acumulada (fA): é a soma de todas as frequências
menores ou iguais ao valor analisado.

Frequência acumulada relativa (fAr): é a soma de todas as


frequências relativas até o valor analisado.

fAr%: frequência acumulada relativa em porcentagem


21

Tabela de frequência contendo frequências acumuladas

Exemplo
considere as idades de um grupo de dez alunos de uma
escola: 18,18,17, 20, 18, 17, 20, 20, 18, 19

Vamos ordenar: 17, 17, 18, 18, 18, 18, 19, 20, 20, 20

17 anos: f = 2, fr = 2/10 = 0,20 , fr% = 20%

18 anos: f = 4, fr = 4/10 = 0,40 , fr% = 40%

19 anos: f = 1, fr = 1/10 = 0,10 , fr% = 10%

20 anos: f = 3, fr = 3/10 = 0,30 , fr% = 30%

22
Idade f fr% fA fA%
17 2 20 2 20
18 4 40 2+4=6 20+40=60
19 1 10 2+4+1=7 20+60+10= 70
20 3 30 2+4+1+3=10 20+40+10+30=100
total 10 10

Por exemplo:

a frequência acumulada 2+4+1= 7 (ou 70%) representa o


número (ou a %) de pessoas com idades menores ou
iguais a 19 anos ( ≤ 19)
23

Organização dos dados em intervalos de classes

Muitas vezes, devido a grande dispersão dos dados, é


interessante agrupar os dados em classes.

classe: intervalo no qual é agrupado um conjunto de


valores dos dados.

Amplitude dos dados = maior valor – menor valor

24
25

É possível escolher os limites de uma classe de várias maneiras.

Vamos escolher as classes de frequências com intervalos


do tipo fechado a esquerda e aberto a direita:

[a,b) = { a ≤ x < b } , representado também como: a | b

a: limite inferior da classe


b: limite superior da classe

intervalo de classe = b – a
ab
ponto médio da classe : pm 
2

26
Construindo uma distribuição de frequências:

(a) Encontre a amplitude dos dados

(b) Escolha o número de classes:

número de classes  1  3,32 log(n) (fórmula de Sturges)


aproxime para o inteiro mais próximo .

n : é o número elementos ddo conjunto de dados

27

(c) Determine a amplitude de cada intervalo por:

Amplitude
Amplitude do intervalo 
Número de classe desejados

(d) Determine a frequência de classe: número de observações


em cada classe.

(e) A frequência relativa de cada classe pode ser obtida de:

Frequência de classe
Frequência relativa de classe 
n

28
Exemplo
Um fabricante de isolantes térmicos selecionou aleatoriamente
20 dias de inverno e anotou a maior temperatura (em
Fahrenheit) de cada dia:
24, 35, 17, 21, 24, 37, 26, 46, 58, 30,
32, 13, 12, 38, 41, 43, 44, 27, 53, 27
Número de elementos da amostra: n = 20

Dados em ordem crescente:


12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58

Maior valor = 58

Menor valor = 12

29

(a) Amplitude dos dados  58 - 12  46

(b) número de classes : vamos usar a fórmula de sturges


1  3,32 log 20  5,32  5 classes

46
(c) intervalo das classes   9,2
5
e ajustamos par intervalos de classe  10
e escolhemos os limites das classes para facilitar a leitura :
10, 20, 30, 40, 50, 60
pontos médios :15, 25, 25, 45, 55

30
Distribuição de Frequência em classes: agora é só contar as
frequências em cada classe e montar a tabela de frequência

Frequência
Classes Frequência Porcentagem
Relativa
10 e menor que 20 3 0,15 15
20 e menor que 30 6 0,30 30
30 e menor que 40 5 0,25 25
40 e menor que 50 4 0,20 20
50 e menor que 60 2 0,10 10
Total 20 1,00 100

31

Podemos obter também a frequência e a


porcentagem acumulada

Frequência Porcentagem
Classes Frequência Porcentagem Acumulada
Acumulada

10 e menor que 20 3 15 3 15
20 e menor que 30 6 30 9 45
30 e menor que 40 5 25 14 70
40 e menor que 50 4 20 18 90
50 e menor que 60 2 10 20 100
Total 20 100

32
Histograma
 Um gráfico de barras com dados representados por uma
ditribuição de frequência é chamado de histograma

 Os pontos médios das classes são representados no eixo


horizontal

 No eixo vertical pode-se representar a frequência (f), a


frequência relativa (fr) ou a porcentagem (fr%)

 As barras são utilizadas para representar o número de


observações (ou a frequência relativa ou a porcentagem)
dentro de cada classe.
33

Ponto
Classes Médio Frequência

10 e menor que 20 15 3
20 e menor que 30 25 6
30 e menor que 40 35 5
40 e menor que 50 45 4
50 e menor que 60 55 2
Histograma: Temperatuda mais alta
em cada dia
7
6
5
F req u ên cia

4
3
2
(não há espaço entre as barras) 1
0
5 15 25 35 45 55 65
Pontos Médios
34
Ponto
Classes Médio Frequência
Polígono de Frequência:
10 e menor que 20 15 3
20 e menor que 30 25 6
histograma onde as barras verticais
30 e menor que 40 35 5 são substituidas por linhas unindo
40 e menor que 50 45 4 a frequência dos pontos médios
50 e menor que 60 55 2
das classes.

Polígono de Frequência
8

6
Frequência

4
Termina no eixo horizontal 2
nos pontos médios das
duas classes adjacentes a 0
primeira e a ultima classe. 5 15 25 35 45 55 65
Pontos Médios

35

Gráfico de frequência acumulada

Limite fA% gráfico de frequência acumulada


Classes
Inferior
Po rcen tag em Ac umulada

Menor que 10 0 0 100


10 e menor que 20 10 15
80
20 e menor que 30 20 45
30 e menor que 40 30 70 60
40 e menor que 50 40 90 40
50 e menor que 60 50 100
20
0
10 20 30 40 50 60

Poderia ter sido construido usando-se barras verticais para


representar a frequência acumulada.

36
O Mau Uso dos Gráficos e Questões Éticas

Orientações:
 Não distorcer os dados

 Evitar adornos desnecessários

 Utilizar uma escala para cada eixo em gráficos

bi-dimensionais
 A escala do eixo vertical deve começar em zero

 Rotular todos os eixos

 Colocar título no gráfico

 Utilizar o modelo de gráfico mais simples possível

37

Você também pode gostar