Você está na página 1de 45

1

AULAS 04 E 05
Estatsticas Descritivas
Ernesto F. L. Amaral
19 e 28 de agosto de 2010
Metodologia de Pesquisa (DCP 854B)
Fonte:
Triola, Mario F. 2008. Introduo estatstica. 10 ed. Rio de Janeiro: LTC. Captulo 3 (pp.60-109).
2
ESQUEMA DA AULA
Medidas de centro.
Medidas de variao.
Medidas de posio relativa.
Anlise exploratria de dados (AED).
3
ESTATSTICA DESCRITIVA E INFERNCIA ESTATSTICA
Triola afirma que estatstica descritiva e inferncia estatstica
so as duas divises gerais do objeto da estatstica.
King, Keohane e Verba falam em inferncia descritiva e
inferncia causal.
Neste momento, estamos trabalhando com mtodos de
estatstica descritiva, j que objetivo de resumir ou
descrever as caractersticas importantes de um conjunto de
dados.
Posteriormente, usaremos mtodos de inferncia estatstica
(nos termos de Triola), com objetivo de fazer generalizaes
sobre uma populao, utilizando dados amostrais.
Ou seja, a inferncia estatstica visa realizar anlises que
vo alm dos dados conhecidos.
4
MEDIDAS DE CENTRO
5
MEDIDAS DE CENTRO
Medida de centro um valor no centro ou meio do conjunto
de dados.
Desejamos obter um nmero que represente o valor central
de um conjunto de dados.
Os conceitos e mtodos para encontrar mdia e mediana
devem ser bem entendidos.
O valor da mdia pode ser muito afetado pela presena de
um valor discrepante (outlier), mas a mediana no to
sensvel a um outlier.
6
MDIA
Mdia aritmtica calculada pela adio dos valores de
uma varivel e diviso deste total pelo nmero de valores.
Essa medida muito utilizada na descrio de dados.
Estatsticas amostrais so usualmente representadas por
letras do alfabeto latino e minsculas:
Parmetros populacionais so representados por letras
gregas e maisculas:
7
MEDIANA
Mediana o valor do meio quando os dados originais esto
organizados em ordem crescente (ou decrescente) de
magnitude .
Para encontrar a mediana:
1) Ordene os valores de uma varivel.
2) Se o nmero de valores for mpar, a mediana ser o
nmero localizado no meio exato da lista.
ou
2) Se o nmero de valores for par, a mediana ser encontrada
pelo clculo da mdia dos dois nmeros do meio.
A mdia afetada por valores extremos, ao contrrio da
mediana. Por isso, quando temos outliers, mediana pode
ser mais apropriada.
8
MODA
A moda de um conjunto de dados o valor que ocorre com
maior frequncia.
Conjunto de dados bimodal: quando dois valores ocorrem
com maior frequncia, cada um uma moda.
Conjunto de dados multimodal: quando mais de dois
valores ocorrem com maior frequncia.
Quando nenhum valor se repete, no h moda.
Moda no muito usada com dados numricos.
Dentre as medidas de centro consideradas, a nica que
pode ser usada com dados no nvel nominal de mensurao
(nomes, rtulos e categorias).
No faz muito sentido realizar clculos numricos (mdia e
mediana) com dados categricos.
9
PONTO MDIO
Ponto mdio a medida de centro que exatamente o
valor a meio caminho entre o maior valor e o menor valor no
conjunto original de dados.
encontrado pela soma do maior valor e o menor valor dos
dados, dividindo-se a soma por 2:
raramente utilizado, j que muito sensvel a valores
extremos.
Vantagens: (1) fcil de calcular; e (2) evidencia que h
diferentes maneiras de definir centro dos dados.
No deve ser confundido com mediana.
10
REGRA DE ARREDONDAMENTO
Use uma casa decimal a mais do que apresentado no
conjunto original de valores:
A mdia de 80,4 e 80,6 igual a 80,50.
Quando valores originais so nmeros inteiros,
arredondamos para o dcimo mais prximo:
A mdia de 2, 3, 5 igual a 3,3.
Arredonde apenas a resposta final e no os valores
intermedirios que surgirem durante os clculos.
11
MDIA DE UMA DISTRIBUIO DE FREQUNCIA
A mdia de uma populao no necessariamente igual
mdia das mdias de diferentes subconjuntos da populao.
Quando usamos dados resumidos em uma distribuio de
frequncia, devemos considerar o ponto mdio de cada
classe, pois no temos os valores de cada observao.
Por exemplo, o intervalo de classe de 21-30 (anos) assumir
o valor de 25,5 (ponto mdio da classe).
Procedimento:
1) Multiplique cada frequncia pelo ponto mdio da classe e
adicione os produtos: (f * x)
2) Adicione as frequncias: f
3) Divida 1 por 2: (f * x) / f
12
EXEMPLO
Idade da atriz
Frequncia
(f)
Ponto mdio
da classe
(x)
f * x
21-30 28 25,5 714
31-40 30 35,5 1.065
41-50 12 45,5 546
51-60 2 55,5 111
61-70 2 65,5 131
71-80 2 75,5 151
Total 76 --- 2.718
13
MDIA PONDERADA
Mdia ponderada dos valores de x uma mdia calculada
com os diferentes valores, associados a diferentes pesos
(representados por w).
Por exemplo, nesta disciplina, teremos trs exerccios,
valendo 30%, 30% e 40% da nota final.
Suponha que um aluno recebeu as notas: 70, 85, 80.
A nota final ser:
14
RESUMO DE MEDIDAS DE CENTRO
15
ASSIMETRIA
Uma distribuio de dados assimtrica quando se estende
mais para um lado do que para o outro.
A distribuio simtrica se a metade esquerda de seu
histograma praticamente igual sua metade direita.
Distribuies assimtricas direita so mais comuns do que
assimtricas esquerda.
16
MEDIDAS DE VARIAO
17
MEDIDAS DE VARIAO
Tempo mdio de espera igual nestas distribuies (6 min):
18
AMPLITUDE
A amplitude de um conjunto de dados a diferena entre o
maior valor e o menor valor:
amplitude = (valor mximo) (valor mnimo)
Essa uma medida fcil de ser calculada.
Porm, ao usar apenas os valores mximo e mnimo, no
to til quanto as outras medidas de variao que usam
todos valores.
19
DESVIO PADRO AMOSTRAL
O desvio padro de um conjunto de valores amostrais uma
medida de variao dos valores em torno da mdia.
Indica o desvio mdio dos valores em relao mdia.
Frmula do desvio padro amostral:
Frmula que simplifica clculos aritmticos:
20
PROPRIEDADES DO DESVIO PADRO
O desvio padro uma medida da variao de todos valores
a partir da mdia.
O valor do desvio padro (s):
usualmente positivo.
Igual a zero quando todos valores dos dados so iguais.
Nunca negativo.
Maiores valores de s indicam maior variao.
Valor de s pode crescer muito com a incluso de um ou
mais outliers.
As unidades de s so as mesmas unidades dos dados
originais.
21
CALCULANDO O DESVIO PADRO
Calcule a mdia .
Subtraia a mdia de cada valor individual para obter uma
lista de desvios .
Eleve ao quadrado cada uma das diferenas obtidas no
passo anterior .
Some todos quadrados obtidos no passo acima .
Divida o total do passo anterior pelo total de valores
presentes menos uma unidade (n 1).
Calcule a raiz quadrada do passo anterior.
22
DESVIO PADRO POPULACIONAL
O desvio padro da populao () utiliza o tamanho da
populao (N) no denominador:
23
VARINCIA
Varincia de um conjunto de valores uma medida da
variao (disperso) igual ao quadrado do desvio padro.
A varincia amostral (s
2
) o quadrado do desvio padro
amostral (s).
A varincia populacional (
2
) o quadrado do desvio
padro populacional ().
A varincia amostral considerada um estimador no-
viesado da varincia populacional:
Ao realizar vrias vezes amostras aleatrias de uma
populao, os diferentes valores de s
2
tendem a se
concentrar em torno do valor de
2
(sem superestimao
ou subestimao).
Unidades da varincia so diferentes das unidades originais.
24
NOTAO E REGRA DE ARREDONDAMENTO
s = desvio padro amostral
s
2
= varincia amostral
= desvio padro populacional

2
= varincia populacional
SD = DP = desvio padro (standard deviation)
VAR = varincia
Como regra de arredondamento, use uma casa decimal a
mais do que apresentado no conjunto original de dados.
25
REGRA EMPRICA DA AMPLITUDE
Desvio padro mede a variao entre valores:
Valores muito prximos >>> desvios padro pequenos.
Valores mais espalhados >>> desvios padro maiores.
A regra emprica da amplitude indica que para muitos
conjuntos de dados, a grande maioria (95%) dos valores
amostrais se localiza a 2 desvios padres da mdia.
Isso varia com tamanho amostral e natureza da distribuio.
Desvio padro (grosseiro) de dados amostrais:
s amplitude / 4 [(valor mximo) (valor mnimo)] / 4
Valor amostral mnimo (usual) = mdia (2 * desvio padro)
Valor amostral mximo (usual) = mdia + (2 * desvio padro)
26
REGRA EMPRICA PARA DADOS COM FORMA
APROXIMADA DE SINO (DISTRIBUIO NORMAL)
27
TEOREMA DE CHEBYSHEV
A regra emprica anterior se aplica somente a conjuntos de
dados com distribuio em forma de sino.
O teorema de Chebyshev se aplica a quaisquer conjuntos
de dados, mas seus resultados so muito aproximados.
A proporo (frao) de qualquer conjunto de dados que se
situa a K desvios padres da mdia sempre, no mnimo,
11/K
2
, onde K qualquer nmero positivo maior do que 1.
Para K=2: (11/2
2
)=3/4 >>> pelo menos 75% de todos
valores se localizam a 2 desvios padres da mdia.
Para K=3: (11/3
2
)=8/9 >>> pelo menos 89% de todos
valores se localizam a 3 desvios padres da mdia.
Na regra emprica, esses valores so de 95% e 99,7%.
28
POR QUE NO USAR DESVIO MDIO ABSOLUTO?
Poderamos calcular o desvio mdio absoluto (DMA), que
tambm evita que a soma das diferenas seja igual a zero:
Clculo de valores absolutos requer operao no
algbrica (que so: adio, multiplicao, razes, potncias).
Valores absolutos criam dificuldades algbricas nas
inferncias estatsticas (regresso e anlise da varincia).
Vis: desvios mdios absolutos de amostras no tendem ao
valor do desvio mdio absoluto da populao.
Por isso, usamos o desvio padro que transforma variaes
em valores no-negativos pela elevao ao quadrado.
29
POR QUE DIVIDIR POR n 1?
Dividimos o desvio padro amostral por n 1, porque h
apenas n 1 valores independentes.
Ou seja, dada uma mdia, apenas n 1 valores podem ser
associados a qualquer nmero, antes que o ltimo valor seja
determinado.
Alm disso, se s
2
fosse definido como a diviso por n, ele
sistematicamente subestimaria o valor de
2
, o que
compensado pela diminuio do denominador.
Vejam exerccio 38 (pp. 88-89).
30
POR QUE EXTRAIR A RAIZ QUADRADA?
Ao final do clculo do desvio padro, extramos a raiz
quadrada.
Isso realizado para compensar os quadrados que so
estimados anteriormente.
Ao calcular a raiz quadrada, o desvio padro tem as
mesmas unidades de medida dos dados originais.
31
COEFICIENTE DE VARIAO
Por ter as mesmas unidades dos dados originais, o desvio
padro mais fcil de entender do que a varincia.
Porm, com o desvio padro, difcil comparar a disperso
para valores de diferentes variveis (ex.: peso e altura).
Coeficiente de variao (CV) supera essa desvantagem,
por no ter unidade especfica, permitindo comparao das
variaes.
O CV para um conjunto de dados amostrais ou
populacionais no-negativos expresso como um percentual
e descreve o desvio padro em relao mdia:
Amostra:
Populao:
32
MEDIDAS DE POSIO RELATIVA
33
MEDIDAS DE POSIO RELATIVA
As medidas de posio relativa permitem a comparao de
valores de conjuntos de dados diferentes ou de valores
dentro de um mesmo conjunto de dados.
Os escores z permitem a comparao de valores de
diferentes conjuntos de dados.
Os quartis e percentis permitem a comparao de valores
dentro do mesmo conjunto de dados, assim como entre
diferentes conjuntos de dados.
34
ESCORES z
Um escore z obtido pela converso de um valor para uma
escala padronizada.
O escore padronizado o nmero de desvios padres a que
se situa determinado valor de x, acima ou abaixo da mdia:
Amostra:
Populao:
35
ESCORES z E VALORES NO-USUAIS
Valores no-usuais so aqueles com escores z menores do
que 2,00 ou maiores do que +2,00.
Valores comuns: 2 <= escore z <= 2
Valores no-usuais: escore z < 2 ou escore z > 2
Sempre que um valor menor do que a mdia, seu escore z
correspondente negativo.
Escores z so medidas de posio, j que descrevem a
localizao de um valor (em termos de desvios padres) em
relao mdia:
z=2: valor est 2 desvios padres acima da mdia.
z=3: valor est 3 desvios padres abaixo da mdia.
36
QUARTIS
A mediana divide os dados ordenados em 2 partes iguais:
50% dos valores de um conjunto de dados so iguais ou
menores do que a mediana, e 50% so iguais ou maiores.
Os quartis (Q
1
, Q
2
e Q
3
) dividem os valores ordenados em 4
partes iguais:
Q
1
(primeiro quartil): separa os 25% inferiores dos 75%
superiores.
Q
2
(segundo quartil): mesmo que a mediana; separa os
50% inferiores dos 50% superiores.
Q
2
(terceiro quartil): separa os 75% inferiores dos 25%
superiores.
37
PERCENTIS
H 99 percentis (P
1
, P
2
, ..., P
99
) que dividem os dados
ordenados em 100 grupos com cerca de 1% dos valores em
cada um.
Os quartis e percentis so exemplos de quantis, os quais
dividem os dados em grupos com aproximadamente o
mesmo nmero de valores.
Utilize a seguinte frmula, arredondando o resultado para o
nmero inteiro mais prximo:
Note que: Q
1
= P
25
; Q
2
= P
50
; Q
3
= P
75
38
CONVERTENDO PERCENTIS EM VALOR DE DADOS
Sendo:
n: nmero total de valores no
conjunto de dados.
k: percentil em uso (ex.: para o
25 percentil, k=25).
L: localizador que d a posio
de um valor (ex.: para o 12 valor
na lista ordenada, L=12).
P
k
: k-simo percentil (ex.: P
25
o
25 percentil).
39
ESTATSTICAS DEFINIDAS POR QUARTIS E PERCENTIS
Intervalo interquartil (IIQ) = Q
3
Q
1
Intervalo semi-interquartil = (Q
3
Q
1
) / 2
Ponto mdio dos quartis = (Q
3
+ Q
1
) / 2
Intervalo percentlico 1090 = P
90
P
10
40
ANLISE EXPLORATRIA DE DADOS (AED)
41
ANLISE EXPLORATRIA DE DADOS (AED)
Anlise exploratria de dados o processo de uso das
ferramentas estatsticas (grficos, medidas de centro,
medidas de variao...) para investigao de conjuntos de
dados com objetivo de se compreenderem suas
caractersticas importantes.
Podemos explorar caractersticas dos dados: centro (mdia,
mediana); variao (desvio padro, amplitude), distribuio
(histogramas); outliers; mudana no tempo.
Aqui sero discutidos os valores discrepantes (outliers) e o
diagrama de caixa (boxplot).
42
VALORES DISCREPANTES (OUTLIERS)
Valor outlier (valor extremo) aquele que se localiza muito
afastado de quase todos os demais valores.
Estes valores podem ter efeito dramtico sobre:
A mdia.
O desvio padro.
A escala do histograma, de modo que a verdadeira
natureza da distribuio pode ser totalmente obscurecida.
Outliers podem ser erros: devem ser corrigidos ou ignorados
Outliers podem ser corretos: devemos estudar seus efeitos,
construindo grficos e calculando estatsticas, com e sem
outliers, buscando revelar importantes informaes.
43
Para um conjunto de dados, o resumo dos cinco nmeros
consiste no valor mnimo, primeiro quartil (Q
1
), mediana (Q
2
),
terceiro quartil (Q
3
) e no valor mximo.
Diagrama de caixa (diagrama de caixa e bigode) um
grfico de um conjunto de dados que consiste em: (1) uma
linha que se estende do valor mnimo ao valor mximo; (2)
uma caixa com linhas traadas no primeiro quartil (Q
1
), na
mediana (Q
2
) e no terceiro quartil (Q
3
).
Os diagramas de caixa so teis para revelar centro,
disperso, distribuio e outliers.
DIAGRAMAS DE CAIXA (BOXPLOTS)
44
Diagramas de caixa no apresentam informao to
detalhada como histogramas e digramas de ramo e folhas.
Porm, so teis na comparao de dois ou mais conjuntos
de dados, quando desenhados na mesma escala.
Boxplots para idades dos melhores atores e atrizes:
UTILIDADE DOS DIAGRAMAS DE CAIXA
Atrizes
Atores
45
Diagramas de caixa modificados representam outliers com
smbolos especiais (asteriscos).
Lembrando que IIQ=Q
3
Q
1
, um valor outlier se est:
Acima de Q
3
por uma quantidade maior do que 1,5 x IIQ.
ou
Abaixo de Q
1
por uma quantidade maior do que 1,5 x IIQ.
A linha slida horizontal se estende apenas at o menor
valor dos dados que no so outliers e at o maior valor dos
dados que no so outliers.
DIAGRAMAS DE CAIXA MODIFICADOS

Você também pode gostar