Escolar Documentos
Profissional Documentos
Cultura Documentos
Medidas resumo
0
Medidas resumo (valores de estatísticas)
Caracterizam e descrevem uma amostra. São representadas por letras do alfabeto romano.
o Absolutas:
Distância: amplitude, amplitude interquartis
Comparação: desvio médio absoluto, variância, desvio padrão
o Relativas: coeficiente de variação
1
Uma "boa" medida (segundo Yale)
1. Ser definida de forma objetiva
3
Moda: valor mais frequente da variável estatística. No caso da variável ser contínua,
define-se classe modal como a classe onde a frequência média por unidade de amplitude
é mais elevada. Satisfaz as condições 1, 3 e 4 de Yule. Presta-se mal ao cálculo algébrico
e é mais sensível do que a mediana às flutuações da amostragem. A existência de mais
do que uma moda (máximos locais da curva de frequência) indicam, geralmente, que a
população observada é heterogénea (bimodal, multimodal).
4
Métodos alternativos para estimar a moda:
5
Mediana: valor que divide o conjunto de dados, ordenados por ordem crescente, em duas
partes iguais. Satisfaz as condições 1, 3, 4 e 5 de Yule. Visto não ser sensível a valores
extremos é adequada quando os dados são assimétricos. O seu maior defeito é prestar-se
mal ao cálculo algébrico.
x~ x ( k ) n 1
Se n ímpar, , sendo k
2
x ( k ) x ( k 1) n
Se n par, x~ , sendo k
2 2
6
No caso de variáveis agrupadas recorre-se à curva de frequências acumuladas para
F b F a ba
estimar o valor da mediana no interior do intervalo mediano:
0.5 F a Med a
7
Medidas de ordem
Mediana
Divide ao meio a série ordenada
Quartis Designam-se
Dividem em quatro a série ordenada
genericamente por
Decis
Dividem em dez a série ordenada quantis
Percentis
Dividem em cem a série ordenada
8
Quantil de ordem 𝛼, 0 1 ( q ): tem como caso particular a mediana ( q1 2 ). Para
variáveis contínuas trata-se do valor da variável estatística para a qual se tem F q .
Quando o conjunto de dados ordenados é dividido em 4 partes iguais, os pontos de
divisão são chamados de quartis. Podemos ainda calcular os decis, percentis.
Exemplo: quantil 0.5 = 2º quartil = percentil 50 = mediana
X np 1, se np não é inteiro
Qp
1
X np X np 1 , se np é inteiro
2
p
1 p
Média geométrica: G xini
n
ou log G ni log xi
i 1 n i 1
n
Média harmónica: H p
1
ni xi
i 1
10
Medidas de dispersão
Amplitude ( x ): é a diferença entre o maior e o menor dos valores observados. As suas
vantagens são ter um significado simples e ser de cálculo extremamente rápido. Muito
sensível a valores extremos. É uma medida de dispersão muito imperfeita.
11
1 p
Desvio médio absoluto: d x ni xi x . Satisfaz bem as 3 primeiras condições de
n i 1
Yule. A sua principal desvantagem é prestar-se mal ao cálculo algébrico.
1 p
Variância ( s x2 ): s x2 ni xi x 2 . As unidades da variância são o quadrado das unidades
n i 1
da variável o que torna a sua interpretação difícil. Por isso recorre-se à sua raiz quadrada
a que se dá o nome de desvio padrão ( s x ): s x s x2 (o parâmetro populacional representa-
se pela letra grega 𝜎). Tal como a média, o desvio padrão satisfaz bem as condições de
Yule. Sendo uma média quadrática, não tem um significado muito concreto
isoladamente, ainda que seja exprimido nas mesmas unidades que a variável estatística.
O seu significado torna-se mais claro quando se comparam duas distribuições. A sua
maior vantagem é prestar-se ao cálculo algébrico (o parâmetro populacional representa-
se pela letra grega 𝜎 2 ).
Cálculo prático da variância: s x2 x 2 x 2 .
12
sx
Coeficiente de dispersão (de variação se em percentagem): cv . Trata-se duma
x
medida de dispersão relativa representada frequentemente em percentagem. Mede a
homogeneidade da distribuição. Como não tem dimensão permite a comparação de
dispersões de duas ou mais distribuições em que as unidades da variável estatística são
diferentes ou em que a ordem de grandeza das médias são distintas. Somente se emprega
quando a variável toma valores de um só sinal.
Exemplo: para uma média de 50 e desvio padrão de 10, tem-se um coeficiente de variação
de 20%.
Nota: Existem diferentes causas para a variabilidade dos dados. No planeamento duma
experiência pretende-se eliminar toda a variabilidade que não esteja relacionada com o
objetivo da mesma.
13
Parâmetros versus Estatísticas
14
Parâmetro (população)
x Estatística (amostra)
15
16
Medidas de Forma
Por vezes, o padrão global de um grande número de observações é tão
regular que podemos descrevê-lo por uma curva suave, simétrica, em
forma de sino, denominada distribuição normal ou de Laplace-Gauss
300
200
100
0
1,19 1,31 1,44 1,56 1,69 1,81 1,94 2,06 2,19
1,25 1,38 1,50 1,63 1,75 1,88 2,00 2,13
Altura do aluno
17
18
Esta distribuição é caracterizada pelos parâmetros média e variância 2 (ou
desvio-padrão )
19
Aos intervalos , , 2 , 2 e 3 , 3 correspondem
respetivamente a 68.27%, 95.45% e 99.73% da área total sob a curva de Gauss:
P X 0.6827
P 2 X 2 0.9545 Regra 70-95-100
P 3 X 3 0.9973
20
Uma variável aleatória contínua X diz-se que tem distribuição normal, se X é o resultado
de um grande número de causas independentes de efeitos aditivos, tendo cada uma
destas causas um efeito negligenciável quando comparado com o efeito global. É
também utilizada como aproximação de outras distribuições.
21
Propriedades da curva normal ou de Gauss
A reta y 0 é uma assimptota horizontal. A curva de Gauss tem dois pontos de inflexão
de abcissas e .
22
Comparação gráfica:
Distribuições normais com desvios padrões iguais mas com médias diferentes (média
como fator de translação):
Distribuições normais com médias iguais mas com desvios padrões diferentes (desvio
padrão como fator de escala):
23
Distribuições normais com médias e desvios padrões diferentes:
24
Assimetria
Posição relativa da moda, mediana e média
25
Diferenças entre os quartis. Distribuições simétricas q0.75 Med Med q0.25
𝜇−𝑀𝑜
Coeficiente de assimetria de Pearson:
𝜎
o Distribuições simétricas 𝛾1 = 0.
26
Achatamento ou curtose
27
Coeficientes de achatamento
Coeficiente de curtose
𝑸𝟏 = 𝟏º 𝒒𝒖𝒂𝒓𝒕𝒊𝒍
𝑸𝟑 −𝑸𝟏 𝑸𝟑 = 𝟑º 𝒒𝒖𝒂𝒓𝒕𝒊𝒍
𝑲= {
𝟐(𝑷𝟗𝟎 −𝑷𝟏𝟎 ) 𝑷𝟏𝟎 = 𝟏𝟎º 𝒑𝒆𝒓𝒄𝒆𝒏𝒕𝒊𝒍
𝑷𝟗𝟎 = 𝟗𝟎º 𝒑𝒆𝒓𝒄𝒆𝒏𝒕𝒊𝒍
28
Coeficiente de curtose baseado em momentos 𝛾2
29
Outliers
São observações anormais relativamente às restantes, pouco frequentes. Podem resultar de erros
na introdução dos dados.
Não há regras fixas para os identificar. Depende do investigador a decisão de os incluir ou não na
análise. Só deverão ser excluídos se o investigador considerar que não são membros válidos da
população.
31
Sem representação de outliers:
32
Caixas de bigodes paralelos (forma de representar a distribuição duma variável contínua segundo
uma variável categórica, discreta ou contínua agrupada em classes)
50
47
40
36
30
Score
20
10
1 2
Anxiety
33
A dispersão em distribuições normais
A distribuição normal é uma distribuição simétrica que fica totalmente caracterizada pela sua
média e desvio padrão. Aproximadamente 68% dos valores centrais estão a uma distância da
média de um desvio padrão. Aproximadamente 95% dos valores centrais estão a uma distância
da média de dois desvios padrões.
Relação entre desvio padrão, amplitude interquartis e outliers em dados aproximadamente
normais:
34
Simetria e boxplots
Assimétrica negativa Simétrica Assimétrica positiva
Neste exemplo x s, x s Neste exemplo x s, x s Neste exemplo x s, x s
contém 78% das observações. contém 66% das observações. contém 78% das observações.
35
Curtose e boxplots
36
Mesocúrtica. Neste exemplo x s, x s contém 68% das observações.
37
Leptocúrtica. Neste exemplo x s, x s contém 82% das observações.
38