Escolar Documentos
Profissional Documentos
Cultura Documentos
Cap1 Manual
Cap1 Manual
NDICE
1. ESTATSTICA DESCRITIVA .................................................................................................. 1
1.1. INTRODUO ............................................................................................................................ 1
1.2. DEFINIES ............................................................................................................................... 1
1.3. CLASSIFICAO DOS DADOS ..................................................................................................... 2
1.4 CARACTERIZAO DOS DADOS ................................................................................................. 3
1.5 ESTATSTICAS AMOSTRAIS ........................................................................................................ 10
1.5.1. Medidas de localizao ............................................................................................................................... 10
1.5.2. Medidas de disperso................................................................................................................................... 16
1.6. DADOS BIVARIADOS ................................................................................................................ 22
1.6.1.Regresso linear simples .............................................................................................................................. 23
1.6.2. Correlao. Coeficiente de determinao.................................................................................................. 24
1.6.3. Mtodo dos mnimos quadrados................................................................................................................ 25
ii
E S T A T S T I C A
D E S C R I T I V A
Captulo
1
1. Estatstica Descritiva
1.1. Introduo
A estatstica uma disciplina cujo objecto principal a recolha, a compilao, a
anlise e a interpretao de dados. No sentido de clarificar o que se entende por
anlise e interpretao dos dados vamos desde j estabelecer uma distino entre
estatstica descritiva e inferncia estatstica.
No mbito da estatstica descritiva procura-se sintetizar e representar de uma
forma compreensvel a informao contida num conjunto de dado. Esta tarefa,
que adquire importncia quando o volume de dados for significativo,
materializa-se na construo de tabelas, de grficos ou no clculo de medidas que
representem convenientemente a informao contida nos dados.
O objectivo da inferncia estatstica mais ambicioso do que o da estatstica
descritiva e, naturalmente, os mtodos e tcnicas utilizados so mais sofisticados.
Com base na anlise de um conjunto limitado de dados (uma amostra),
pretende-se caracterizar o todo a partir do qual tais dados foram obtidos (a
populao).
Neste captulo vamos rever alguns conceitos e tcnicas utilizadas na estatstica
descritiva (nomeadamente o clculo das medidas mais importantes).
1.2. Definies
Populao: Conjunto de todos os elementos que contm uma certa caracterstica
que estamos interessados em estudar. Sendo comum a todos os elementos, esta
caracterstica varia em quantidade ou qualidade. Uma populao pode ter
dimenso finita ou infinita.
Amostra: Subconjunto de dados que pertencem populao. As amostras
aleatrias so escolhidas atravs de processos (tcnicas de amostragem) que nos
garantem que o subconjunto obtido representativo da populao.
Algumas das razes que nos levam a estudar a amostra em vez de estudarmos a
populao so as seguintes:
E S T A T S T I C A
D E S C R I T I V A
1. Populao infinita.
2. Custo em termos de tempo ou de dinheiro que um estudo a toda a
populao implicaria.
3. Recolha de informao atravs de testes destrutivos.
4. Impossibilidade de aceder a todos os elementos da populao.
Fases do Mtodo de Anlise Estatstica
No mbito da Estatstica, o mtodo de abordagem dos problemas pode ser
decomposto nas cinco fases que seguidamente se enunciam:
1. Estabelecimento do objectivo da anlise a efectuar (isto , das questes que
se colocam e que se pretendem ver resolvidas) e definio da(s)
populao(es) correspondente(s).
2. Concepo de um procedimento adequado para a seleco de uma ou
mais amostras (escolha das tcnicas de amostragem a utilizar).
3. Recolha de dados.
4. Anlise dos dados (Estatstica Descritiva).
5. Estabelecimento de inferncias acerca da populao (Inferncia Estatstica).
E S T A T S T I C A
D E S C R I T I V A
E S T A T S T I C A
D E S C R I T I V A
n = ni
(1)
i =1
ni
n
(2)
Frequncia absoluta
Frequncia relativa
Sem defeito
100
83.3%
Recuperveis
15
12.5%
Irrecuperveis
4.2%
TOTAL
120
100%
E S T A T S T I C A
D E S C R I T I V A
Diagrama circular
4%
13%
Sem defeito
Recuperveis
Irrecuperveis
83%
Frequncia
absoluta
(ni)
Frequncia
relativa
(fi)
x1
n1
f1 =
x2
n2
f2 =
xn
nn
fn =
TOTAL
Frequncia absoluta
acumulada
(Ni)
Frequncia relativa
acumulada
(Fi)
n1
n
N1 = n1
F1 = f1
n2
n
N 2 = n1 + n2
F2 = f1 + f 2
N n = n1 + ... + nn = n
Fn = f1 + ... + f n = 1
nn
n
E S T A T S T I C A
D E S C R I T I V A
Exemplo 1.6:
No mbito de um estudo realizado com o objectivo de caracterizar o
comportamento dos clientes de um hipermercado, analisou-se o nmero de
ocupantes por veculo para 1000 veculos que entraram no parque automvel do
referido hipermercado, num Sbado. Os resultados encontram-se resumidos na
tabela seguinte:
Nmero de
ocupantes por
veculo
Frequncia
absoluta
Frequncia
relativa
Frequncia
absoluta
acumulada
Frequncia
relativa
acumulada
103
10.3%
103
10.3%
147
14.7%
250
25.0%
248
24.8%
498
49.8%
197
19.7%
695
69.5%
152
15.2%
847
84.7%
100
10.0%
947
94.7%
53
5.3%
1000
100%
TOTAL
1000
100%
ni
DIAGRAMA DE BARRAS
300
250
200
150
100
50
0
1
3
4
5
N ocupantes/veculo
E S T A T S T I C A
D E S C R I T I V A
Exemplo 1.7:
Consideremos o conjunto de dados seguinte que representa o peso, expresso em
gramas, do contedo de uma srie de 100 garrafas que, no decurso de um teste
saram de uma linha de enchimento automtico:
302.25, 299.20, 300.24, 297.22, 298.35, 303.76, 298.65, 299.38, 300.36, 299.16, 300.86,
299.83, 302.52, 300.12, 301.81,297.99, 299.23, 298.73, 303.07, 299.07, 297.83, ... , 300.80
A primeira caracterstica que podemos observar neste conjunto de dados que
no existe praticamente repetio de valores. Isto leva a que no temos vantagem
em utilizar os dados agrupados numa tabela de frequncias, dado que iramos ter
uma tabela praticamente com tantas linhas quanto o nmero de dados. No
entanto, podemos construir uma tabela de frequncias se agruparmos os dados
por classes:
Classes
Frequncia
absoluta
Frequncia
relativa (%)
Frequncia
absoluta
acumulada
Frequncia
relativa
acumulada(%)
[297.00 , 298.00[
8%
8%
[298.00 , 299.00[
21
21%
29
29%
[299.00 , 300.00[
28
28%
57
57%
[300.00 , 301.00[
15
15%
72
72%
[301.00 , 302.00[
11
11%
83
83%
[302.00 , 303.00[
10
10%
93
93%
[303.00 , 304.00[
5%
98
98%
[304.00 , 305.00[
1%
99
99%
[305.00 , 306.00[
1%
100
100%
TOTAL
100
100%
HISTOGRAMA
fi
0.3
0.25
0.2
0.15
0.1
0.05
0
[297.00 , 298.00[
[298.00 , 299.00[
[299.00 , 300.00[
[300.00 , 301.00[
[301.00 , 302.00[
[302.00 , 303.00[
[303.00 , 304.00[
[304.00 , 305.00[
[305.00 , 306.00[
peso ( gr amas)
E S T A T S T I C A
D E S C R I T I V A
Exemplo 1.8:
Suponhamos que as notas de uma turma de Matemtica do 12 ano com 36
alunos foram as seguintes:
84
68
53
49
60
67
61
67
75
40
72
61
83
73
70
67
70
81
45
57
76
66
63
79
70
70
75
69
78
76
80
52
58
58
67
31
3 3 4 4 5 5 6 6 7 7 8
2. Escrever as folhas:
3
3
4
4
5
5
6
6
7
7
8
3
3
4
4
5
5
6
6
7
7
8
3
3
4
4
5
5
6
6
7
7
8
1
0
9
2
8
1
7
0
8
4
5
3
7
0
6
2
6
3
8
3
9
3
9
0
1
8 7 7 7
0 0 0
5 6 6
1
3
3
4
4
5
5
6
6
7
7
8
9 0
E S T A T S T I C A
D E S C R I T I V A
1
1
2
4
6
9
13
(7)
16
10
4
Caule Folhas
3
3
4
4
5
5
6
6
7
7
8
1
0
5
2
7
0
6
0
5
0
9
3
8
1
7
0
5
1
8
1
7
0
6
3
3
7 7 8 9
0 2 3
6 8 9
4
Distribuies simtricas
A distribuio das frequncias faz-se de forma aproximadamente
simtrica, relativamente a uma classe mdia.
Distribuies enviesadas
A distribuio das frequncias faz-se de forma acentuadamente
assimtrica, apresentando valores substancialmente mais pequenos
num dos lados, relativamente ao outro.
E S T A T S T I C A
D E S C R I T I V A
x=
i =1
(dados no agrupados)
(3)
Existem outras mdias para alm da aritmtica, por exemplo, mdia geomtrica, mdia harmnica,
mdia quadrtica, etc.
1
10
E S T A T S T I C A
D E S C R I T I V A
2, 1, 3, 3, 2, 3, 7, 5, 5, 2, 1, 3, 1, 1, 1, 4, 5, 6, 4, 5,...,3, 1, 2, 2, 3 (n = 1000)
A mdia amostral dada por
2 + 1 + ... + 2 + 3
= 3.66 ocupantes por veculo.
1000
x=
Para dados agrupados numa tabela de frequncias a mdia amostral dada por
k
n x
i i
x=
i =1
(dados agrupados)
(4)
n x
i i
x=
i =1
11
E S T A T S T I C A
2.13
3.44
D E S C R I T I V A
2.78
4.35
1.51
2.8
2.47
3.73
172
n mpar
x*n+1
M e = x* + x*
n
n+1
2
2
(6)
n par
Me =
*
*
x500
+ x501
2
Temos de saber quais so os dados que ocupam as posies 500 e 501 quando
estiverem ordenados por ordem crescente. Atravs da observao da tabela de
*
frequncia (observando as frequncia absolutas acumuladas) temos que x500
=4 e
4+4
*
x501
= 4 . Logo a mediana M e =
= 4 ocupantes/viatura.
2
n
N i 1
0,5 Fi 1,
M e = li + 2
* ai = li +
* ai
ni
fi
12
(7)
E S T A T S T I C A
D E S C R I T I V A
M e = 299.00 +
50 29
1.00 = 299.75 g
28
Mdia vs Mediana
Para ilustrar a diferena entre estas duas medidas vejamos o seguinte
exemplo. Consideremos as notas obtidas por um aluno no 1 ano do curso:
10
13
11
15
18
16
14
15
14
= 14
mediana: n = 9 M e = x*9+1 = x5* = 14
9
2
A mdia e mediana das notas desse aluno foram de 14 valores. Suponhamos
que esse aluno fez melhoria da nota mais baixa, passando de 10 a 14 valores.
Embora a mediana se mantenha, o valor da mdia sofreu um aumento,
passou para 14.4 valores. Temos ento que a mdia, ao contrrio da mediana,
uma medida muito pouco resistente, isto , ela muito influenciada por
valores muito grandes ou muito pequenos, chamados outliers2, mesmo que
estes valores surjam em pequeno nmero na amostra. Estes valores so os
responsveis pela m utilizao da mdia em muitas situaes em que teria
mais significado utilizar a mediana. Como medida de localizao, a mediana
media: x =
i =1
13
E S T A T S T I C A
D E S C R I T I V A
mais resistente do que a mdia, pois no to sensvel aos dados. Ento qual
das duas devemos utilizar?
a) Quando a distribuio simtrica, a mdia e a mediana coincidem.
b) A mediana no to sensvel, como a mdia, s observaes que so
muito maiores ou muito menores do que as restantes (outliers). Por
outro lado a mdia reflecte o valor de todas as observaes.
Representando as distribuies dos dados na forma de uma mancha (vlido
para o digrama de barras ou histograma), de um modo geral temos:
14
E S T A T S T I C A
D E S C R I T I V A
7
1.00 = 299.35 g
7 + 13
x*[np]+1
se np no inteiro
Qp = 1
(9)
*
*
se np inteiro
xnp + x np+1
2
e no caso contnuo, determina-se de forma idntica mediana.
Os quantis podem ser:
15
E S T A T S T I C A
D E S C R I T I V A
No exemplo 1.8,
n = 36
*
x1* = 31 e x36
= 84
58 + 60
= 59
2
n 36
=
=9
4 4
Q1 =
n 36
=
= 18
2 2
Q2 = Me =
67 + 68
= 67.5
2
3n 108
75 + 75
=
= 27 Q3 =
= 75
4
4
2
(10)
R = max( xi ) min( xi ) = 84 31 = 53
16
E S T A T S T I C A
D E S C R I T I V A
1.5.2.2. Varincia
A varincia amostral uma medida adequada para descrever a disperso de uma
amostra (ou de uma populao, se se dispuser de todos os dados que a
compem). A disperso de uma amostra pode ser medida pela varincia
amostral ( s 2 ) dada pelas seguintes expresses:
n
( xi X )
i =1
s =
(dados no agrupados)
k
k
2
n ni xi ni xi
ni ( xi X )
i=!
s 2 = i=1
= i=1
n
n2
k
(11)
(dados agrupados)
(12)
s '2 =
2
( xi X )
i =1
n 1
k
s '2 =
s '2 =
2
ni ( xi X )
i =1
n 1
(dados no agrupados)
k
k
2
n ni xi ni xi
i =!
= i=1
n(n 1)
( 13)
(dados agrupados)
n 2
s
n 1
(14)
(15)
No exemplo 1.8,
2
n
n
x
(
x
x
)
xi
i
i =1
2
i =1 143.73
i =1
s =
=
n
n2
n
2
i
n
n
x
(
x
x
)
xi
i
i =1
i =1 147.84
2
i =1
s' =
=
n 1
n (n 1)
n
2
i
17
E S T A T S T I C A
D E S C R I T I V A
s = s2
(16)
Q = Q3 Q1
( 17)
Q = Q3 Q1 = 75 59 = 16
Amplitude inter-quartil vs desvio padro
Do mesmo modo que a questo foi posta relativamente s duas medidas de
localizao mais utilizadas (mdia e mediana), tambm aqui se pode por o
problema de comparar as duas ltimas medidas de disperso. A amplitude interquartil mais robusta, relativamente presena de outliers, do que o desvio
padro, que mais sensvel aos dados.
18
E S T A T S T I C A
D E S C R I T I V A
Q 1,5 Q; Q1 + 1,5 Q ]
Quando existem valores fora deste intervalo, [ 1
, diz-se que
existem outliers ou valores discordantes. Para averiguar o grau dos mesmos
[Q 3 Q; Q1 + 3 Q ] . Caso essas
devem ser calculadas as barreiras exteriores: 1
observaes se encontrem neste ltimo intervalo designam-se por outliers
moderados, caso contrrio dizem-se outliers severos.
19
E S T A T S T I C A
D E S C R I T I V A
Q = Q3 Q1 = 75 59 = 16
bi = Q1 1,5 Q = 58 1,5 16 = 34
bs = Q3 + 1,5 Q = 75 + 1,5 16 = 99
3. Ser que existem outliers?
20
E S T A T S T I C A
D E S C R I T I V A
Bi = Q1 3 Q = 58 3 16 = 11
Bs = Q3 + 3 Q = 75 + 3 16 = 123
Como esta observao se encontra dentro das barreiras exteriores, isto
x [11: 23] , um outlier moderado.
4. Representao grfica do boxplot:
CV =
100
(18)
11.98
100 18.2%
65.86
21
E S T A T S T I C A
D E S C R I T I V A
100
225
250
275
400
425
450
98
97
96.8 96.7
125
150
175
200
300
325
350
375
Grfico de disperso
99.5
Calor
99
98.5
98
97.5
97
96.5
0
200
400
600
Temperatura
22
500
E S T A T S T I C A
D E S C R I T I V A
(19)
0
0
x
23
E S T A T S T I C A
D E S C R I T I V A
s xy
rxy =
(20)
sxx s yy
onde
n
sxy = xi x
i =1
n
sxx = xi x
i =1
n
)(
2
i
(21)
i =1
) =x
nx
(22)
i =1
s yy = yi y
i =1
yi y = xi yi nx y ,
= yi2 n y
(23)
i =1
xy
(24)
sx s y
onde xy a covarincia de X e Y e 1 r 1 .
(
i =1
yi y , que pode
y^ y + y y^
y
y
=
i
i
i
14243
i =1
i =1
i =1
14243
14243
n
VT
VE
VR
24
(25)
E S T A T S T I C A
D E S C R I T I V A
VE VR
+
=1
VT VT
(26)
VE
,
VT
o coeficiente de determinao, R 2 , que a proporo da variabilidade total que
explicada pelo modelo de regresso,
R2 =
( y y)
yi y
i =1
n
sxy2
s
= xx =
s yy
xi yi nx y
i =1
xi2 nx
y
i =1
ny
i =1
xi yi nx y
i =1
n
2
i
i =1
2
i
ny
(27)
i =1
rxy = R 2
(28)
25
E S T A T S T I C A
D E S C R I T I V A
y i = + xi + i
(29)
obtida de tal modo que a soma dos quadrados dos desvios ou resduos
^
( i = yi y ) seja mnima,
2
^
2
min = min yi yi = min ( yi ( + xi ) )
i =1
i =1
i =1
n
2
i
(30)
n
2
( yi xi ) = 0
i =1
n
( yi xi ) 2 = 0
i =1
(31)
= y x
(32)
e
n
x y nx y
i
i =1
n
2
i
=
nx
sxy
(33)
s xx
i =1
26
E S T A T S T I C A
D E S C R I T I V A
Voltando ao exemplo 1.9, uma vez que se observa no grfico de disperso uma
relao linear entre as variveis, vamos confirmar esta relao atravs do
coeficiente de correlao,
y
xy
y2
x2
99,1
10000
9820,81
9910
98,8
15625
9761,44
12350
98,5
22500
9702,25
14775
98,5
30625
9702,25 17237,5
98,5
40000
9702,25
19700
98,2
50625
9643,24
22095
98
62500
9604
24500
97,8
75625
9564,84
26895
97,8
90000
9564,84
29340
97,8
105625 9564,84
31785
97,6
122500 9525,76
34160
97,5
140625 9506,25 36562,5
97,3
160000 9467,29
38920
97
180625
9409
41225
96,8
202500 9370,24
43560
96,7
250000 9350,89
48350
1565,9 1559375 153260,19 451365
x
100
125
150
175
200
225
250
275
300
325
350
375
400
425
450
500
4625
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
rxy =
x y nx y
i
sxy
sxx s yy
i =1
2
i
nx
i =1
= 0.99
2
i
ny
i =1
sxy
s
2
x
i =1
i =1
i =1
n xi yi xi yi
=
n
n
n xi2 xi
i =1
i =1
^
= yx =
16 451365-4625 1565,9
= 0, 0057
16 1559375-(4625)2
1656, 9
4625
(0, 0057)
= 99,529
16
16
y = + x = 99,529 0, 0057 x
27
E S T A T S T I C A
D E S C R I T I V A
Grfico de disperso
99.5
y = -0.0057x + 99.529
R2 = 0.977
Calor
99
98.5
98
97.5
97
96.5
0
200
400
600
Temperatura
Atravs da recta de regresso estimada possvel prever taxas de calor com base
na temperatura do fuel gs. Por exemplo, para uma temperatura do fuel gs de
405 graus Fahrenheit prev-se uma taxa de calor de
^
28