Escolar Documentos
Profissional Documentos
Cultura Documentos
Tópicos em Estatística
• Esses slides foram produzidos por meio de
coletânea dos textos indicados na
Estatísticas Descritivas bibliografia.
bibliografia. Não são citadas diretamente
para não poluir o visual dos mesmos.
mesmos.
Profa.: Tânia F Bogutchi • Os textos estão organizados e traduzidos
PUC Minas para minha linguagem didá
didática pessoal.
pessoal.
BIBLIOGRAFIA
R$ 800,00 R$ 800,00
Exemplo: Preferência por determinado dentifrício numa amostra
Ganho semanal mediano
R$ 500,00 R$ 0,00
Homens Mulheres Homens Mulheres
• Porcentagens distorcidas
ESTATÍSTICA DESCRITIVA:
Enfim.. Consistência dos dados
Interpretações iniciais
A Estatística não é…..
População Amostra
INFERÊNCIA ESTATÍSTICA:
Estimação de quantidade desconhecidas
Extrapolação (inferência) dos resultados
Teste de Hipóteses
T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas
7 8
Estatística Descritiva TIPOS DE DADOS
Organização e apresentação dos dados
VARIÁVEL
QUANTITATIVOS QUALITATIVOS
É uma quantificação ou uma categorização da característica de interesse
do estudo.
Numéricos Não Numéricos
A pergunta: Qual a sua idade?
Exemplos: Exemplos:
Altura (cm); Sexo (F/M);
É uma quantificação
Peso (kg); Raça (N, M, B, C);
Tempo (min); Classe social ( A, B, C, D);
Produz uma informação na variável: IDADE Renda (R$); Classificação de um time futebol;
Quantidade de veículos por dia; Estágios de uma tarefa (1, 2, 3....);
No. de filhos; etc...
Gera um dado!
etc...
T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas
9 10
Diferença tem sempre o Diferença Não tem o mesmo Valores fracionários não Valores fracionários são
mesmo significado! significado sempre! são significativos! significativos!
T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas
13 14
Apresentando os dados
Tabelas de distribuições de freqüência
I – Tabelas
Definição : Tabela é um quadro que resume um conjunto de dados
Definição: Uma tabela de distribuição de freqüência é um
numéricos ou não-numéricos.
agrupamento dos dados em classes, exibindo o número e/ou a
Exemplo: TABELA 1 porcentagem de observações em cada classe.
Preferência pelos refrigerantes dos consumidores do mercado XY
T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas
17 18
Pepsi Cola
O tipo do gráfico vai depender do tipo de dados que se quer descrever: 26,0%
Coca Cola
Light
16,0%
T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas
19 20
• Gráfico de barras ou de colunas
Dados qualitativos ou quantitativos discretos
Distr. compras de refrigerantes
40,0%
• Gráfico de setores (“pizza”) – pie chart 35,0%
30,0%
25,0%
20,0%
Distr. compras de refrigerantes 15,0%
10,0%
Sprite
5,0%
10,0% Coca Cola
Fanta 0,0%
38,0%
10,0% Coca Cola Coca Cola Pepsi Cola Fanta Sprite
Light
Distr. compras de refrigerantes
Sprite
Coca Cola
Fonte: Anderson et alli, pág 23; 2007
Fonte: Anderson et alli, pág 23; 2007
0% 5% 10% 15% 20% 25% 30% 35% 40%
T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas
21 22
25 10
20 8
7
Frequencia
15 6 6
6
10
4
4
5
0 2
1 1
0 1 2 3 4 5 6
0
no. de irm ãos 4 7 10 13 16 19 22 25
Salário
T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas
23 24
Número de Freqüência Amplitude Densidade Proporção Densidade
• Histograma de classes desiguais empregados (ni) ∆i ni/∆i fi fi/∆i
0 |-- 10 5 10 0,50 0,02 0,0020
Observe que o gráfico anterior apresenta classes de mesmo tamanho: 3.
10 |-- 20 20 10 2,00 0,08 0,0080
Quando as classes são de tamanhos desiguais alguns cuidados especiais 20 |-- 30 35 10 3,50 0,14 0,0140
30 |-- 40 40 10 4,00 0,16 0,0160
devem ser tomados.
40 |-- 60 50 20 2,50 0,20 0,0100
Exemplo: Número de Frequencia Amplitude Densidade Proporção Densidade
60 |-- 80 30 20 1,50 0,12 0,0060
empregados (ni) ∆i ni/∆i fi fi/∆i
80 |-- 100 20 20 1,00 0,08 0,0040
0 |-- 10 5 10 0,50 0,02 0,0020
100 |-- 140 20 40 0,50 0,08 0,0020
10 |-- 20 20 10 2,00 0,08 0,0080
140 |-- 180 15 40 0,38 0,06 0,0015
20 |-- 30 35 10 3,50 0,14 0,0140
180 |-- 260 15 40 0,38 0,06 0,0015
30 |-- 40 40 10 4,00 0,16 0,0160
Total 250 - - 1,00 -
40 |-- 60 50 20 2,50 0,20 0,0100
60 |-- 80 30 20 1,50 0,12 0,0060 Uma análise superficial pode levar à conclusão que a concentração,
80 |-- 100 20 20 1,00 0,08 0,0040
freqüência das classes, vai aumentando até atingir um máximo na classe
100 |-- 140 20 40 0,50 0,08 0,0020
140 |-- 180 15 40 0,38 0,06 0,0015 40|-- 60.
180 |-- 260 15 40 0,38 0,06 0,0015
Total 250 - - 1,00 -
Um estudo mais detalhado revela que a amplitude da classe 40 |-- 60 é o
Fonte: Bussab-Morettin, 2000
dobro das amplitudes das classes anteriores.
T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas
25 26
60
Freqüência
30
10
0,0140
Densidade relativa
0,0120
Analogamente, a densidade relativa apresenta o mesmo resultado (0,016). Análise correta – 0,0100
classe de maior 0,0080
densidade: 0,0060
Lembrando que a área total do histograma deve ser igual a 1. 30 |-- 40 0,0040
0,0020
0,0000
0 |-- 10 10 |-- 20 20 |-- 30 30 |-- 40 40 |-- 60 60 |-- 80 80 |-- 100 100 |-- 140 |-- 180 |--
Fonte: Bussab-Morettin, 2000 140 180 260
T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas Faixa de nos. de empregados
27 28
Histograma do No. de Empregados
O histograma
0,0180 Permite visualizar a forma da distribuição dos dados.
0,0160 Como se dispersam ou se concentram em torno da sua média.
0,0140
Densidade relativa
0,0120
0,0100
0,0080
0,0060
0,0040
0,0020
0,0000
0 |-- 10 10 |-- 20 20 |-- 30 30 |-- 40 40 |-- 60 60 |-- 80 80 |-- 100 100 |-- 140 |-- 180 |-- Distribuição simétrica Distribuição assimétrica
140 180 260
• Polígono de freqüência
Ligação dos pontos médios das barras de um histograma
20
18
14
12
10
6
para direita.
4
Diz-se inclinação à direita pois sua cauda se estende bem para a direita. 2
0
Nesse exemplo, foram utilizados os preços de moradia em que algumas 1,5 1,96 2,42 2,88 3,34 3,8 4,26 4,2 5,18
T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas
31 32
• Histograma com Percentual Acumulado - Ogiva • Gráfico de Ramo-e-folhas
Exemplo: Uma população de 100 refinarias cuja produção horária de óleo
por máquina (em litros) é dada por:
2 6
3
4 011444578
5 01224444478889
6 001135555566788889
7 0000112233334445557
8 0001112234566689
9 000112456788
10 12457789
11 46
12 3
20
Salário
15
10
T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas
35 36
Exemplo anterior estratificado por grau de instrução: • Gráfico de pontos (Dot plot)
Dotplot of Salário
Boxplot of Salário vs Grau de instrução - Cia MB
25
20
Salário
15
10 6 9 12 15 18 21 24
Salário
T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas
37 38
T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas
39 40
1) Medidas de tendência central
Dispondo os valores medidos num gráfico (diagrama) de pontos a média
• Dados brutos
surge como um ponto de equilíbrio – ou centro – da configuração.
• Média aritmética (simples)
Exemplo: Pesos, em quilos, de 10 produtos
3,3 3,1 2,8 2,7 2,9 3,1 3,2 3,0 3,5 3,4
Definição: n
x + x + ... + xn ∑x i
x= 1 2 = i =1
n n
3,3 + 3,1 + 2,8 + 2,7 + 2,9 + 3,1 + 3,2 + 3,0 + 3,5 + 3,4 31,0
x= = = 3,1
10 10
T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas
41 42
x1 p1 + x2 p2 + ... + xn pn ∑x p
i =1
i i
Recife
Belo Horizonte
25,3
28,6
0,726
0,682
xp = = n Porto Alegre 29,0 0,619
p1 + p2 + ... + pn Salvador 26,0 0,472
∑p i =1
i Fortaleza 25,3 0,444
Curitiba 32,6 0,341
Belém 23,7 0,270
OBS.: A média aritmética simples pode ser encarada como uma média Brasília 25,6 0,257
Fonte: IBGE
T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas
43 44
• Mediana Mediana dos dados dos 10 pesos (kg) dos produtos
• Valor que divide a distribuição ao meio. Deixa 50% dos dados nele ou 3,3 3,1 2,8 2,7 2,9 3,1 3,2 3,0 3,5 3,4
abaixo dele e 50% nele ou acima dele.
Passo 1: Ordenar os dados
• Cálculo:
2,7 2,8 2,9 3,0 3,1 3,1 3,2 3,3 3,4 3,5
1. Ordenar os dados;
Passo 2: n=10 (par)
2. Se n for ímpar: elemento da posição (n+1)/2;
A mediana será a média aritmética entre os elementos que ocupam a
1 2 5 7 8
5a. e a 6a. posição
3,1 + 3,1
3. Se n for par: média dos elementos que ocupam as posições n/2 e med = = 3,1
2
(n+2)/2.
Obs.: A mediana pode ser indicada por med ou
~
x
1 2 5 7 8 9
T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas
45 46
• Moda
No entanto, tal valor não tem nenhum caráter representativo ou
É o valor que apresenta maior freqüência em um conjunto de sintetizador do conjunto de dados!
observações individuais.
No caso de dados não-agrupados, a moda nem sempre tem utilidade A mediana e a moda não são fornecidas pelas calculadoras, e, no caso
como elemento representativo ou sintetizador do conjunto. de um grande número de dados, seu cálculo exato pode ser
extremamente laborioso.
Exemplo: No gráfico de pontos a seguir,
Não há regra fixa para se escolher tal ou qual dessas medidas.
Exemplo:
T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas
49 50
Gráfico de pontos:
Estatísticas Descritivas dos bancos: A (fila única); B (fila múltipla)
Aparece a necessidade de se conhecer mais uma ferramenta que auxilie Por meio desse gráfico é possível identificar alguma informação que auxilie
nessa decisão. uma decisão?
T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas
51 52
2) Medidas de dispersão ou de variabilidade
• Amplitude
Maior valor Menor valor Amplitude
Banco A 7,7 6,5 1,2 = 7,7 - 6,5
Banco B 10,0 4,2 5,8 = 10,0 - 4,2
distâncias ou desvios de cada observação em relação à média entre eles, tantos novos dados quanto o número delas. Precisamos então sintetizá-la
Banco A
i xi ( x i − x) DM é uma medida pouco utilizada devido aos transtornos matemáticos no
6,5 – 7,15 = -0,65
1 6,5
2 6,6 -0,55
seu manuseio para cálculos matemáticos em processos estatísticos mais
3 6,7 -0,45
4 6,8 -0,35 avançados.
5 7,1 -0,05
6 7,3 0,15
7 7,4 0,25 A dificuldade, com os sinais da diferença, pode ser contornado com a
8 7,7 0,55
9
10
7,7
7,7
0,55
0,55
utilização do quadrado das distâncias ou desvios.
A média dos quadrados dos desvios irá nos fornecer uma medida da
Mas, o somatório desses desvios é zero!!
dsipersão conhecida como VARIÂNCIA.
Nesse caso, desconsidera-se o sentido dos desvios, ou seja, calcula-se a
Genericamente, a variância de um conjunto de dados X, var(X) é:
distância em módulo.
n
A média dos módulos dos desvios nos fornece o Desvio Médio (DM). 2
∑ (x − x )
i =1
i
n
Genericamente: var( X ) =
∑ xi − x n −1
i =1
DM =
n
T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas
55 56
Observações.:
Banco A
1. O cálculo da média utilizando o quociente (n-1) é utilizado para
i xi (xi − x) (xi − x) 2
amostras e sua explicação pormenorizada encontra-se em estudo mais
1 6,5 6,5 – 7,15 = -0,65 0,4225
avançado de Inferência Estatística.
2 6,6 -0,55 0,3025
2. As calculadoras e os computadores utilizam essa fórmula.
3 6,7 -0,45 0,2025
3. Em muitos livros a variância é denotada por s2. 4 6,8 -0,35 0,1225
5 7,1 -0,05 0,0025
Voltando ao exemplo do banco A: 6 7,3 0,15 0,0225
7 7,4 0,25 0,0625
8 7,7 0,55 0,3025
2,045 9 7,7 0,55 0,3025
var(banco A) = s A2 = = 0,2272 10 7,7 0,55 0,3025
9
Total 0,0 2,0450
T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas
57 58
T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas
59 60
Estatísticas descritivas para dados agrupados
Síntese numérica para os bancos A e B:
Se os dados estiverem agrupados, as medidas resumo são calculadas
Estatísticas Descritivas dos bancos: A (fila única); B (fila múltipla)
por:
n n
Variável N Média Mediana Desvio-padrão
A (fila única) 10 7,150 7,200 0,477 ∑x f
i =1
i i ∑ (x − x) i
2
fi dp ( X ) = var( X )
B (fila múltipla) 10 7,150 7,200 1,822 x= var( X ) = i =1
n n −1
Em que,
Variável Mínimo Máximo
A (fila única) 6,500 7,700 • xi é o ponto médio da classe (faixa de intervalo) ou o valor observado;
B (fila múltipla) 4,200 10,000
• fi é a frequência da classe ou do valor observado
T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas
63 64
É um valor adimensional pois a média e o desvio-padrão possuem a
Média Desvio-padrão CV
mesma unidade de medida. Usualmente é expresso em porcentagem. Aluno A 63,2 3,1 0,049 (4,9%)
Aluno B 78,5 5,5 0,070 (7,0%)
Exemplo: Suponha que as alturas dos homens americanos sadios seja de 178
Valores Incomuns Valores Usuais Valores Incomuns
cm em média com um desvio-padrão de 7,2 cm. O jogador de basquete
Michael Jordan ganhou reputação de gigante por suas proezas no jogo, mas -3 -2 -1 0 1 2 3
com seus 201,2 cm ele pode ser considerado excepcionalmente alto,
comparado com a população geral dos homens adultos americanos?
T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas
67 68
• Percentis
1. Px , o percentil de ordem x , é o valor que deixa x% dos dados nele e 1. A mediana está na 4ª. Classe (55 a 69)
abaixo dele e (1-x)% dos dados acima dele. A mediana é o P50. 2. n=500 → 50% de 500 = 250 ( posição do elemento).
2. Os percentis de ordem 25, 50 e 75 são chamados de Quartis 1, 2 e 3.
3. Tamanho da classe: 69-55=14
A mediana é o Q2.
4. Freqüência da classe: 147
3. Podem ser estimados por pelos percentuais acumulados:
Simples Acumulada 5. Até a classe anterior tem-se 206 elementos.
Nota
Freq Perc Freq Perc
10 a 24 44 8,8% 44 8,8%
6. x é o valor correspondente ao elemento 250 ⇒ ⇒ x ≅ 4,2
25 a 39 70 14,0% 114 22,8%
40 a 54 92 18,4% 206 41,2%
7. Mediana: 55+4,2 ≅ 59,2
55 a 69 147 29,4% 353 70,6%
70 a 84 115 23,0% 468 93,6%
85 a 99 32 6,4% 500 100,0%
Ou pode ser estimado pela Ogiva (histograma das frequências relativas
Total 500 100,0%
(percentuais) acumulados:
T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas
69 70
80 80
DI = Q3 – Q1
Ou pela formula geral para o percentil de ordem 100p ( 0 ≤ p ≤ 1):
A−B Q3, Q1 representam o terceiro e o primeiro quartil, respectivamente.
P100 p = Li + H
C
Li = limite inferior da classe que contem o percentil desejado;
Exemplo: Medidas de Transaminase-glutâmico-pirúvica sérica (TGP) em
A = np
B = Freqüência acumulada da classe anterior 95 recém-nascidos prematuros de Porto Alegre (fonte: Callegari-
C = freqüência da classe que contem o percentil desejado
H = Tamanho da classe que contem o percentil Jaqques, pág. 37)
T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas
71 72
TGP Conhecidas como “Cinco medidas resumo”
Estatísticas Descritivas
(U/mL) Freq.
0 |-- 10 42 N 95
10 |-- 20 31 Média 20
São utilizadas como resumo de um conjunto de dados:
20 |-- 30 10 Mediana (Quartil 2) 10
30 |-- 40 4 Desvio-padrão 30,6 (Mínimo , 1o. Quartil, Mediana, 3o. Quartil, Máximo)
40 |-- 50 1 Mínimo 3
50 |-- 60 1 Máximo 211 Essas medidas encontram-se representadas graficamente no Box plot.
60 |-- 70 1 Quartil 1 7 Distribuição TGP (U/mL) em 95 recém nascidos
100 ou + 5 Quartil 3 18
45
35
Aspectos das distribuições
30
Frequência
25
20
15
Considerando, agora, as medidas numéricas, uma distribuição de
10
5
frequências será:
0
0 |-- 10 10 |-- 20 20 |-- 30 30 |-- 40 40 |-- 50 50 |-- 60 60 |-- 70 100 ou +
Faixas de TGP (U/m L)
T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas T.F.Bogutchi - Tópicos em Estatística: Estatísticas Descritivas
73 74