Escolar Documentos
Profissional Documentos
Cultura Documentos
AMOSTRAGEM,
&
ESTATÍSTICA DESCRITIVA
Estatística
Descritiva
tabelas, gráficos
medidas
Inferência :
Exemplo:
População: os estudantes inscritos em EE(M1022) em 2020/21.
Se o estudo incidir sobre a altura e o distrito de residência, então a População
pode ser encarada como o conjunto dos pares (altura, distrito) dos estudantes
inscritos
Exemplos de amostras
1. 1000 alunos, de nacionalidade Portuguesa, que
completaram o Ensino Secundário (em Portugal) no ano
lectivo de 2019/2020
variável de unidade
amostra
interesse observacional
150 bebés
nascidos num peso à nascença um bebé
certo hospital
colónias de
bactérias em 6 nº de colónias uma placa de petri
placas de petri
20 sismos
ocorridos na magnitude um sismo
Europa
Variável
qualitativa representa uma qualidade, cate-
goria ou característica não men-
surável
qualitativos quantitativos
Dados Qualitativos
frequência absoluta
frequência relativa=
nº total de observações
7 0.35
6 0.3
5 0.25
4 0.2
3 0.15
2 0.1
1 0.05
0 0
l ja l j a r de
az
u le h
o
n r de osa n co az
u le h
o
n osa n co
r a ve r ra r a ve r ra
r m la b r m la b
v e ve
1, 1, 2, 1, 0, 0, 4, 2, 3, 1, 0, 2, 1, 1, 0, 1, 1, 0, 3, 2, 0, 1, 0, 1, 2
nº de nº de nº de nº de
f.a. f.a.a. f.r. f.r.a.
crianças crianças crianças crianças
0 7 0 7 0 0.28 0 0.28
1 10 1 17 1 0.4 1 0.68
2 5 2 22 2 0.2 2 0.88
3 2 3 24 3 0.08 3 0.96
4 1 4 25 4 0.04 4 1
∑ = 25 ∑= 1
2020/2021 Estatística Aplicada M2026 68
A representação gráfica mais usual para dados discretos é
o diagrama de barras (como para dados qualitativos). De
notar que neste caso o diagrama é relativo a uma variável
numérica e portanto existe uma ordem e escala para essa
variável que deve ser tomada em conta na posição das
barras (no caso de variáveis categóricas a posição das bar-
ras e o espaço entre elas é arbitrário).
15, 9, 15, 5, 10, 16, 28, 7, 12, 9, 23, 15, 21, 16, 17,
13, 20, 18, 28, 3, 11, 12, 2, 22,15, 14, 10, 6, 19, 14
Neste caso, muitos valores distintos e poucas repetições. Vamos usar classes
nº de ausentes f.a. 15
0-7 5
10
8-15 14
16-23 9 5
24-31 2 0
>31 0 0-7 8-15 16-23 24-31
104, 111, 112, 113, 115, 117, 118, 120, 121,122, 124, 125, 127, 130,
131, 133, 133, 134, 134, 135, 136, 137, 137, 140, 143, 145, 145, 146,
148, 148, 149, 150, 150, 151, 153, 156, 156, 158, 159, 160, 162, 163,
165, 170, 172, 174, 177, 182, 184, 187
manusear.
h = 5 cm h = 2.5 cm
nc = 7 nc = 14
h = 2.5? 4? 5?
104, 111, 112, 113, 115, 117, 118, 120, 121,122, 124, 125, 127, 130,
131, 133, 133, 134, 134, 135, 136, 137, 137, 140, 143, 145, 145, 146,
148, 148, 149, 150, 150, 151, 153, 156, 156, 158, 159, 160, 162, 163,
165, 170, 172, 174, 177, 182, 184, 187
) ≈ 1 + 3.322log01 50 ≈ 6.6
187 − 104
Para k=7 a amplitude de cada classe é ≈ 12
7
frequência relativa
densidade =
amplitude das classes
2020/2021 Estatística Aplicada M2026 83
Exemplo (histogramas)
0.2
0.16
0.12
0.08
0.04
área =1
de densidades
2020/2021 Estatística Aplicada M2026 84
Observações
1. O histograma de frequências (absolutas) depende muito da
quantidade de dados e da amplitude das classes. Não é
adequado quando queremos fazer comparações.
Total = 5
Quando as classes não têm todas a mesma amplitude, qual a escala a utilizar no
eixo dos yy?
Os histogramas, não sendo os mesmos, mantêm uma certa forma que se acentua
Com o aumento da dimensão da amostra e a diminuição da amplitude das classes.
Porquê?
2020/2021 Estatística Aplicada M2026 90
Forma
Alguns histogramas apresentam formas que, por serem
bastante usuais, merecem referência especial. Assim, as
formas mais comuns são:
Distribuições simétricas
[retirado de www.alea.pt]
A distribuição das frequências é exatamente ou aproximada-
mente simétrica, relativamente a uma classe média.
Shapes of Distributions
A When
forma da distribuição
discussing a set of data, wede
wantum conjunto
to describe decenter,
the shape, observações
and spread of the
distribution. In this section we concentrate on the shapes of frequency distributions
deanduma variável
illustrate some of contínua pode
the diversity of ser indicada
distributions encounteredatravés de
in the life sciences.
uma
The curva
shape of suave aproximando
a distribution can be indicatedobyhistograma.
a smooth curve that approximates the
histogram, as shown in Figure 2.2.13.
3
on of a
a smooth
Some distributional shapes are shown in Figure 2.2.14. A common shape for
biological data is unimodal (has one mode) and is somewhat skewed to the right, as
in (c). Approximately bell-shaped distributions, as in (a), also occur. Sometimes a
distribution is symmetric but differs from a bell in having long tails; an exaggerated
version is shown in (b). Left-skewed (d) and exponential (e) shapes are less com-
mon. Bimodality (two modes), as in (f), can indicate the existence of two distinct
subgroups of observational Estatística
2020/2021
units. Aplicada M2026 93
Notice that the shape characteristics we are emphasizing, such as number of
36 Chapter 2 Description of Samples and Populations
bimodal
exponencial
(fragmentação)
unidades: 20 | 0 = 200
unidades: 10|0=100 cm
Fragmentação
(neste caso:
cada caule é
dividido em
dois)
Ønº dígitos = 3
2 dígitos nos caules
1 dígito nas folhas
Ønº caules = 7
de localização ou de dispersão
1 n
x = ∑ xi
n i=1
A média é única, fácil de calcular e bastante influenciada
por valores extremos.
Exemplo
A média dos valores 75, 77, 80, 80, 278, é "=118
̅
No entanto, quase todos os valores se situam entre 75 e
80.
x
enviesada à direita enviesada à esquerda
x x
2020/2021 Estatística Aplicada M2026 105
Mediana
Mediana M da Amostra
mediana=2.1
Exemplo 2
2.1+ 2.2
mediana = = 2.15
2
2020/2021 Estatística Aplicada M2026 108
Média & Mediana – posição relativa distribuições simétricas
valores discordantes
Nota. Uma estatística diz-se robusta se o seu valor for pouco afetado por
alterações (mesmo que dramáticas) num pequeno grupo dos dados.
0,1,1,2,3,3,4,16,51
média: 9
mediana: 3
"($) &"(')
Mediana=Q2= = 33
(
k
Seja i o índice: i= n
100
⎧ x +x
⎪⎪ (i ) (i+1) se i inteiro
Pk = ⎨ 2
⎪ x ⎢i⎥+1 se i não inteiro
⎪⎩ (⎣ ⎦ )
Percentil 10
10
!= ×10 = 1 123 =4(,) = 28
100
Percentil 85:
85 167 =4(8) = 50
!= ×10 = 8.5
100
vm Q1 Mediana Q3 vM
vm Q1 Q3 vM
Med
2020/2021 Estatística Aplicada M2026 123
Diagrama Caixa-de-Bigodes (modified boxplot)
BI BS BES
BEI
BI=Q1-1.5AIQ
BS=Q3+1.5AIQ
AIQ=Q3-Q1
10.2 14.1 14.4 14.4 14.4 14.5 14.5 14.6 14.7 14.7
14.7 14.9 15.1 15.9 16.4
14.1Q Q 15.1
13.65 1 3
Med 15.65
35
30 outliers
O crescimento é muito menor,
25
mas mais consistente, com
condições de luz total. Ao que
Growth (mm)
O que fazer perante um "outlier" que após análise cuidada não foi
considerado um "erro" ?
amplitude amostral
amplitude interquartil
variância amostral
coeficiente de variação
Amplitude Interquartil
n
2
(x
∑ i − x )
s2 = i=1
n −1
⎛ n 2⎞
⎜ ∑ xi ⎟ − nx 2
Mostra-se que: ⎝ ⎠
s 2 = i=1
n −1
X Z
TF = 1.8 TC + 32
Suponha que dispõe de um conjunto de 100 observações
de temperaturas em graus Célsius, cuja média é "̅# = 27º
e cujo desvio padrão é '# = 4º.
Qual a média e o desvio padrão das observações
expressas em graus Fahrenheit?
X e Y categóricas:
Neste caso usa-se uma tabela (de dupla entrada) de frequ-
ências para registar as observações. A tabela de frequências
absolutas fornece informação concisa das observações, no-
meadamente ficamos a saber qual o tamanho das amostras.
Mas se quisermos fazer comparações teremos que analisar
as frequências relativas.
categorias.
strength of this evidence and answer this question in Chapters 7 and 11. !
20
15
10
200
190
envergadura
180
170
160
altura
1 n ∑ x y − nx y
i i
qx, y = ∑ (xi − x )( yi − y) = i=1
n −1 i=1 n −1
1 n n
∑
n −1 i=1
(xi − x )( yi − y) ∑ xi yi − nx y
r= = i=1
sx s y (n −1)sx s y
180
r=0.9084516
170
160
altura
50
50
45
45
45
40
40
40
35
35
35
14 16 18 20 22 24 26 14 16 18 20 22 24 26 15 20 25
50
45
45
45
40
40
40
35
35
35
30
30
30
12 14 16 18 20 22 24 26 15 20 25 14 16 18 20 22 24 26
6
45
5
4
40
3
2
35
1
30
0
15 20 25 -2 -1 0 1 2
90
80
70
60
50
40
https://tylervigen.com 30
20
10
0
0 100 200 300 400 500 600 700
[https://www.mathsisfun.com/data/correlation.html]