Escolar Documentos
Profissional Documentos
Cultura Documentos
=
+
(6)
No exemplo 1.6, temos um conjunto de 1000 dados ( 1000 par n n = ). A
mediana ento dada por
2
*
501
*
500
x x
M
e
+
=
Temos de saber quais so os dados que ocupam as posies 500 e 501 quando
estiverem ordenados por ordem crescente. Atravs da observao da tabela de
frequncia (observando as frequncia absolutas acumuladas) temos que 4
*
500
= x e
4
*
501
= x . Logo a mediana
4 4
4
2
e
M
+
= = ocupantes/viatura.
No caso contnuo, utilizando a definio s podemos calcular a classe
mediana. Depois de identificada essa classe podemos calcular um valor
aproximado para a mediana atravs da frmula:
i
i
i
i i
i
i
i e
a
f
F
l a
n
N
n
l M *
5 , 0
*
2
, 1
1
+ =
+ =
(7)
E S T A T S T I C A D E S C R I T I V A
13 13 13 13
onde
1 i
N
mediana:
* *
9 1 5
2
9 14
e
n M x x
+
= = = =
A mdia e mediana das notas desse aluno foram de 14 valores. Suponhamos
que esse aluno fez melhoria da nota mais baixa, passando de 10 a 14 valores.
Embora a mediana se mantenha, o valor da mdia sofreu um aumento,
passou para 14.4 valores. Temos ento que a mdia, ao contrrio da mediana,
uma medida muito pouco resistente, isto , ela muito influenciada por
valores muito grandes ou muito pequenos, chamados outliers
2
, mesmo que
estes valores surjam em pequeno nmero na amostra. Estes valores so os
responsveis pela m utilizao da mdia em muitas situaes em que teria
mais significado utilizar a mediana. Como medida de localizao, a mediana
2
Sero definidos mais adiante.
E S T A T S T I C A D E S C R I T I V A
14 14 14 14
mais resistente do que a mdia, pois no to sensvel aos dados. Ento qual
das duas devemos utilizar?
a) Quando a distribuio simtrica, a mdia e a mediana coincidem.
b) A mediana no to sensvel, como a mdia, s observaes que so
muito maiores ou muito menores do que as restantes (outliers). Por
outro lado a mdia reflecte o valor de todas as observaes.
Representando as distribuies dos dados na forma de uma mancha (vlido
para o digrama de barras ou histograma), de um modo geral temos:
Assim, no se pode dizer em termos absolutos qual destas medidas de
localizao prefervel, dependendo do contexto em que esto a ser
utilizadas.
1.5.1.3. Moda
A ltima medida de localizao que ser estudada a moda (
o
M ). Trata-se da
medida que indica o valor ou a gama de valores nos quais a concentrao dos
dados amostrais mxima. Quando os dados forem realizaes de uma
varivel discreta, a moda o valor dos dados que ocorre com maior
frequncia; e o intervalo de classe com maior frequncia se a varivel
contnua. Assim, da representao grfica dos dados, obtm-se
imediatamente o valor que representa a moda ou a classe modal.
Esta medida especialmente til para reduzir a informao de um conjunto
de dados qualitativos, apresentados sob a forma de nomes ou categorias, para
os quais no se pode calcular a mdia e por vezes a mediana (se no forem
susceptveis de ordenao).
E S T A T S T I C A D E S C R I T I V A
15 15 15 15
No exemplo 1.6, a moda o valor com maior frequncia absoluta, ou seja,
viatura ocupantes/ 3 =
o
M .
Quando os dados provm de uma varivel contnua existem algumas
diferenas no clculo da moda. Tal como na mediana comeamos por calcular
a classe modal. Depois de identificada a classe modal podemos calcular um
valor aproximado para a moda atravs das frmulas:
1
1 2
o i i
M l a
= +
+
(8)
onde
i
a a amplitude da classe modal,
i
l o limite inferior da classe modal, n a
dimenso da amostra,
1
a diferena de frequncias absolutas entre a classe
modal e a classe anterior modal e
2
a diferena de frequncias absolutas
entre a classe modal e a classe posterior classe modal.
No exemplo 1.7, a classe com maior frequncia absoluta [ [ 00 . 300 , 00 . 299 logo a
classe modal. Atravs de (8) temos:
7
299.00 1.00 299.35 g
7 13
o
M = + =
+
1.5.1.4. Extremos e Quartis
Os extremos so os valores mnimo,
*
1
min( )
i
x x = , e mximo,
*
max( )
n i
x x = , da
amostra.
Como vimos anteriormente, a mediana a medida de localizao que divide a
amostra. Generalizando esta noo, o quantil de ordem p ( 0 1 p < < ), Qp , tal
que 100p% dos elementos da amostra so menores ou iguais a Qp e os
restantes 100 (1-p)% dos elementos da amostra so maiores ou iguais a Qp. A
designao de quantil encontra-se associada ideia de que os quantis
dividem a distribuio de frequncia em quantidades iguais, isto , com igual
nmero de observaes. De uma maneira geral, o clculo de um quantil, no
caso discreto,
[ ]
( )
1
1
*
* *
se np no inteiro
1
se np inteiro
2
np
np np
p
x
Q
x x
+
+
=
+
(9)
e no caso contnuo, determina-se de forma idntica mediana.
Os quantis podem ser:
Quartis dividem a distribuio de frequncia em 4 partes iguais;
Decis dividem a distribuio de frequncia em 10 partes iguais;
E S T A T S T I C A D E S C R I T I V A
16 16 16 16
Percentis dividem a distribuio de frequncia em 100 partes iguais.
A importncia dos quartis deve-se ao facto de algumas representaes
grficas utilizarem estas medidas:
1
Q - 1 quartil: divide as observaes tal que 25% so menores ou
iguais e 75% so maiores ou iguais.
2
Q - 2 quartil ou mediana: divide as observaes ao meio, tal que 50%
so so menores ou iguais e 50% so maiores ou iguais.
3
Q - 3 quartil: divide as observaes tal que 75% so menores ou
iguais e 25% so maiores ou iguais.
No exemplo 1.8,
36 n =
*
1
31 x = e
*
36
84 x =
1
36 58 60
9 59
4 4 2
n
Q
+
= = = =
2
36 67 68
18 67.5
2 2 2
n
Q Me
+
= = = = =
3
3 108 75 75
27 75
4 4 2
n
Q
+
= = = =
1.5.2. Medidas de disperso
1.5.2.1. Intervalo de variao
Uma medida de disperso que se utiliza por vezes, o intervalo de variao ou
amplitude amostral,
R
, definida como sendo a diferena entre a maior e a menor
das observaes:
* *
1
max( ) min( )
i i n
R x x x x = = (10)
onde representamos por
*
1
x e
*
n
x , respectivamente o menor e o maior valor da
amostra
) ,..., , (
2 1 n
x x x
, de acordo com a notao introduzida anteriormente, para
a amostra ordenada.
No exemplo 1.8,
max( ) min( ) 84 31 53
i i
R x x = = =
E S T A T S T I C A D E S C R I T I V A
17 17 17 17
1.5.2.2. Varincia
A varincia amostral uma medida adequada para descrever a disperso de uma
amostra (ou de uma populao, se se dispuser de todos os dados que a
compem). A disperso de uma amostra pode ser medida pela varincia
amostral (
2
s ) dada pelas seguintes expresses:
n
X x
s
n
i
i
2
1 2
) (
=
=
(dados no agrupados) (11)
2
2
! 1
2
2
1 2
) (
n
x n x n n
n
X x n
s
k
i
i i
k
i
i i
k
i
i i
|
\
|
|
\
|
=
=
= = =
(dados agrupados) (12)
No entanto, se pretendemos inferir acerca da variabilidade de uma populao de
grandes dimenses a partir de uma amostra, ento, por razes que neste
momento no iremos estudar, prefervel recorrer varincia amostral corrigida.
Nesta estatstica, representada por
2
' s , a soma dos erros quadrticos dividida
por 1 n e no por n .
1
) (
'
2
1 2
=
=
n
X x
s
n
i
i
(dados no agrupados) ( 13)
) 1 ( 1
) (
'
2
! 1
2
2
1 2
\
|
|
\
|
=
= = =
n n
x n x n n
n
X x n
s
k
i
i i
k
i
i i
k
i
i i
(dados agrupados) (14)
2 2
1
' s
n
n
s
=
(15)
No exemplo 1.8,
2
2 2
1 1 2 1
2
( )
143.73
n n n
i i i
i i i
n x x x x
s
n n
= = =
| |
|
\
= =
2
2 2
1 1 2 1
( )
' 147.84
1 ( 1)
n n n
i i i
i i i
n x x x x
s
n n n
= = =
| |
|
\
= =
1.5.2.3. Desvio padro
Uma vez que a varincia envolve a soma de quadrados, a unidade em que se
exprime no a mesma que a dos dados. Assim, para obter uma medida da
E S T A T S T I C A D E S C R I T I V A
18 18 18 18
variabilidade ou disperso com as mesmas unidades que os dados, tomamos a
raiz quadrada da varincia e obtemos o desvio padro:
2
s s =
(16)
O desvio padro uma medida que s pode assumir valores no negativos e
quanto maior for, maior ser a disperso dos dados.
Algumas propriedades do desvio padro, que resultam imediatamente da
definio, so:
o desvio padro sempre no negativo e ser tanto maior, quanta mais
variabilidade houver entre os dados;
se s=0, ento no existe variabilidade, isto , os dados so todos iguais.
No exemplo 1.8,
2
11.99 s s = e
2
' ' 12.16 s s = .
1.5.2.4. Amplitude inter quartil
A medida anterior tem a grande desvantagem de ser muito sensvel existncia,
na amostra, de uma observao muito grande ou muito pequena. Assim, define-
se uma outra medida, a amplitude inter-quartil, que , em certa medida, uma
soluo de compromisso, pois no afectada, de um modo geral, pela existncia
de um nmero pequeno de observaes demasiado grandes ou demasiado
pequenas. Esta medida definida como sendo a diferena entre o 3 e 1 quartis,
3 1
Q Q Q =
( 17)
Do modo como se define a amplitude inter-quartil, conclumos que 50% dos
elementos do meio da amostra esto contidos num intervalo com aquela
amplitude. Esta medida no negativa e ser tanto maior quanto maior for a
variabilidade nos dados.
Nota: Ao contrrio do que acontece com o desvio padro, uma amplitude inter-
quartil nula, no significa necessariamente, que os dados no apresentem
variabilidade.
No exemplo 1.8,
3 1
75 59 16 Q Q Q = = =
Amplitude inter-quartil vs desvio padro
Do mesmo modo que a questo foi posta relativamente s duas medidas de
localizao mais utilizadas (mdia e mediana), tambm aqui se pode por o
problema de comparar as duas ltimas medidas de disperso. A amplitude inter-
quartil mais robusta, relativamente presena de outliers, do que o desvio
padro, que mais sensvel aos dados.
E S T A T S T I C A D E S C R I T I V A
19 19 19 19
1.5.2.5. Boxplot (caixa de bigodes)
O boxplot ou caixa de bigodes um tipo de representao grfica onde se
realam algumas caractersticas da amostra, nomeadamente a existncia de
outliers (valores que se distinguem dos restantes, dando a ideia de no
pertencerem ao mesmo conjunto de dados). O conjunto dos valores da amostra
compreendidos entre o 1 e o 3 quartil representado por um rectngulo (caixa)
com a mediana indicada por uma barra. Considera-se seguidamente duas linhas
que unem os lados dos rectngulos com as barreiras interiores (eventualmente os
extremos).
A barreira inferior interior o menor valor da amostra (eventualmente o
mnimo), que maior do que
1
1, 5 Q Q
. A barreira superior interior o maior
valor da amostra (eventualmente o mximo), que maior do que
1
1, 5 Q Q +
.
Quando existem valores fora deste intervalo,
[ ]
1 1
1, 5 ; 1, 5 Q Q Q Q +
, diz-se que
existem outliers ou valores discordantes. Para averiguar o grau dos mesmos
devem ser calculadas as barreiras exteriores:
[ ]
1 1
3 ; 3 Q Q Q Q +
. Caso essas
observaes se encontrem neste ltimo intervalo designam-se por outliers
moderados, caso contrrio dizem-se outliers severos.
Nota: Quando no existem outliers e nas extremidades da linha se representam os
extremos da amostra, mnimo (
*
1
x ) e mximo (
*
n
x ), esta representao coincide
com o diagrama de extremos e quartis. Este tipo de representao reala
E S T A T S T I C A D E S C R I T I V A
20 20 20 20
caractersticas importantes sobre os dados, como sejam o centro da amostra
(mediana), variabilidade, simetria. Repare-se que da forma como o diagrama se
constri (distncia entre a linha indicadora da mediana e os lados do rectngulo;
comprimento das linhas que saem dos lados dos rectngulos; comprimento da
caixa), se pode retirar imediatamente a seguinte informao:
Aqui podemos ver alguns exemplos, correspondentes a tipos diferentes de
distribuio de dados.
Voltado ao exemplo 1.8, na representao boxplot temos os seguintes passos:
1. Clculo dos quartis:
36 n =
1
36 58 60
9 59
4 4 2
n
Q
+
= = = =
2
36 67 68
18 67, 5
2 2 2
n
Q Me
+
= = = = =
3
3 108 75 75
27 75
4 4 2
n
Q
+
= = = =
2. Clculo das barreiras interiores:
3 1
75 59 16 Q Q Q = = =
1
1, 5 58 1, 5 16 34
i
b Q Q = = =
3
1, 5 75 1, 5 16 99
s
b Q Q = + = + =
3. Ser que existem outliers?
E S T A T S T I C A D E S C R I T I V A
21 21 21 21
As barreiras interiores so [ ] 34;99 , logo, como existe um valor fora deste
intervalo estamos na presena de um outlier.
As barreiras exteriores ficam:
1
3 58 3 16 11
i
B Q Q = = =
3
3 75 3 16 123
s
B Q Q = + = + =
Como esta observao se encontra dentro das barreiras exteriores, isto
[ ] 11: 23 x , um outlier moderado.
4. Representao grfica do boxplot:
1.5.2.5. Coeficiente de variao
O coeficiente de variao expressa o desvio padro como percentagem da mdia,
portanto uma medida relativa da disperso da varivel,
CV 100
s
x
= (18)
Nota: preciso ter em conta que se a mdia perto de zero, o coeficiente de
variao ter um valor elevado mesmo se os desvios relativamente mdia so
pequenos. Por isso, deixa de ser til quando a mdia prxima de zero.
No exemplo 1.8,
11.98
100 18.2%
65.86
CV =
E S T A T S T I C A D E S C R I T I V A
22 22 22 22
1.6. Dados bivariados
Muitas vezes o estudo descritivo no se resume ao estudo de apenas uma
varivel, por vezes necessrio a observao de duas (ou mais) varveis para se
ter uma viso global do problema em estudo. Nesse caso deixamos de ter uma
amostra 1
( , ..., ) , 1, ...,
n
x x i n
e passamos a ter dados bivariados ( , ) , 1,...,
i i
x y i n =
(observaes de uma varivel aleatria bidimensional, que ser definida no
captulo 3). Por exemplo, a presso atmosfrica est relacionada com a altitude
e/ou com a temperatura; a altura de uma criana est relacionada com a alutura
do pai e/ou me.
Uma das coisas que se pretende estudar a relao existente entre as varveis
deste par. Para ter uma ideia de como as duas varveis se relacionam comum
representar graficamente esta relao atravs de um grfico de disperso. Esta
representao consiste na marcao num sistema de eixos cartesianos as
observaes, ficando com uma nuvem de pontos que correspondem aos pares
ordenados ( , )
i i
x y .
Exemplo 9:
Consideremos os dados da temperatura do fuel gs (graus Fahrenheit) e a taxa de
calor (Kilowatt-hora) para uma turbina de combusto para ser usada na
refrigerao.
x 100 125 150 175 200 225 250 275 300 325 350 375 400 425 450 500
y 99.1 98.8 98.5 98.5 98.5 98.2 98 97.8 97.8 97.8 97.6 97.5 97.3 97 96.8 96.7
Grfico de disperso
96.5
97
97.5
98
98.5
99
99.5
0 200 400 600
Temperatura
C
a
l
o
r
Este diagrama mostra a relao entra as variveis em estudo, donde se pode
extrair que talvez exista uma correlao linear entre elas. Esta relao pode ser
traduzida atravs de uma recta.
E S T A T S T I C A D E S C R I T I V A
23 23 23 23
1.6.1.Regresso linear simples
Quando a relao existente entre duas variveis linear, pode ser traduzida
atravs de uma recta. Sendo assim, temos o seguinte modelo determinstico:
Y X = + (19)
em que a ordenada na origem e o declive da recta.
No modelo de regresso linear simples pretende-se explicar o efeito que uma
varivel x , varivel independente ou explicativa, sobre uma varivel y ,
varivel dependente ou explicada.
Correlao Linear Positiva (forte)
0
0
x
Correlao Linear Negativa (forte)
0
0
x
Correlao Linear Fraca
0
0
x
Esta visualizao permite, atravs da simples observao do diagrama de
disperso, averiguar a possvel existncia ou no de correlao linear entre
duas variveis.
E S T A T S T I C A D E S C R I T I V A
24 24 24 24
1.6.2. Correlao. Coeficiente de determinao
O coeficiente de correlao linear,
xy
r , mede o grau de associao linear entre
dados bivariados, e calcula-se da seguinte forma:
xy
xy
xx yy
s
r
s s
= (20)
onde
( )( )
1 1
n n
xy i i i i
i i
s x x y y x y nx y
= =
= =
, (21)
( )
2
2
2
1 1
n n
xx i i
i i
s x x x nx
= =
= =
(22)
e
( )
2
2
2
1 1
n n
yy i i
i i
s y y y ny
= =
= =
(23)
Deste modo podemos reescrever o coeficiente de correlao linear como
xy
xy
x y
r
s s
=
(24)
onde
xy
a covarincia de X e Y e 1 1 r .
A variao total da varivel dependente (VT) dada por
( )
2
1
n
i
i
y y
=
, que pode
ser decomposta da seguinte forma:
( )
2 2 2
^ ^
1 1 1
VT VE VR
n n n
i i i
i i i
y y y y y y
= = =
| | | |
= +
| |
\ \
14243 14243 14243
(25)
E S T A T S T I C A D E S C R I T I V A
25 25 25 25
em que VE a variao explicada pela regresso e VR a variao residual.
Ficamos ento com
VE VR
VT VE VR 1
VT VT
= + + = (26)
em que a razo entre a variao explicada pela regresso e a variao total,
VE
VT
,
o coeficiente de determinao,
2
R , que a proporo da variabilidade total que
explicada pelo modelo de regresso,
( )
( )
2
1
2
2
2
2
1 2 1 1
2
2 2
2 2
1 1 1
n
i i
i
n n n
xy
i i i i
i i xx i
n n n
yy
i i i
i i i
x y nxy
s
x y nx y y y x nx
s
R
s
y y y ny y ny
=
= = =
= = =
| |
|
\
| |
|
\
= = = =
(27)
O coeficiente de determinao varia entre zero e um,
2
0 1 R . Quando este
coeficiente toma o valor 1 significa que a recta de regresso explica totalmente a
variabilidade da varivel dependente. O valor nulo de
2
R corresponde situao
em que a recta de regresso no explica nada da variabilidade da varivel
dependente.
O coeficiente de correlao pode ser calculado atravs do coeficiente de
determinao,
2
xy
r R = (28)
em que o sinal depende do declive da recta de regresso, sendo +(-) se esse
declive positivo (negativo).
1.6.3. Mtodo dos mnimos quadrados
Quando se verifica, quer atravs do grfico de disperso quer do coeficiente
de correlao linear, uma correlao forte entre duas variveis, podemos
descrever a relao entre essas variveis atravs de uma recta de regresso (a
recta que melhor se ajusta aos dados). Essa recta serve de modelo matemtico
para expressar a relao linear entre duas variveis. Considera-se, em geral,
X a varivel independente ou explicativa e Y a varivel dependente ou
explicada. Um dos mtodos mais utilizados para ajustar uma recta a um
conjunto de dados o Mtodo dos Mnimos Quadrados (MMQ), que consiste
em determinar a recta que minimiza a soma dos quadrados dos desvios (os
E S T A T S T I C A D E S C R I T I V A
26 26 26 26
chamados erros ou resduos) entre os verdadeiros valores, y , e os valores
estimados a partir da recta de regresso que se pretende ajustar,
^
y .
O modelo de regresso linear a recta de regresso
^
i i i
y x = + + (29)
obtida de tal modo que a soma dos quadrados dos desvios ou resduos
(
^
i i
y y = ) seja mnima,
( )
2
^
2
2
1 1 1
min min min ( )
n n n
i i i i i
i i i
y y y x
= = =
| |
= = +
|
\
(30)
Como tal, para estimar os parmetros do modelo, necessrio que as
primeiras derivadas, em ordem a e a
, sejam nulas e as segundas sejam
maiores ou iguais a zero,
2
1
2
1
( ) 0
( ) 0
n
i i
i
n
i i
i
y x
y x
=
=
=
(31)
As estimativas dos mnimos quadrados para os parmetros e a
so
^ ^
y x = (32)
e
^
1
2
2
1
n
i i
xy
i
n
xx
i
i
x y nx y
s
s
x nx
=
=
= =
(33)
E S T A T S T I C A D E S C R I T I V A
27 27 27 27
Voltando ao exemplo 1.9, uma vez que se observa no grfico de disperso uma
relao linear entre as variveis, vamos confirmar esta relao atravs do
coeficiente de correlao,
i x
y
2
x
2
y
xy
1 100 99,1 10000 9820,81 9910
2 125 98,8 15625 9761,44 12350
3 150 98,5 22500 9702,25 14775
4 175 98,5 30625 9702,25 17237,5
5 200 98,5 40000 9702,25 19700
6 225 98,2 50625 9643,24 22095
7 250 98 62500 9604 24500
8 275 97,8 75625 9564,84 26895
9 300 97,8 90000 9564,84 29340
10 325 97,8 105625 9564,84 31785
11 350 97,6 122500 9525,76 34160
12 375 97,5 140625 9506,25 36562,5
13 400 97,3 160000 9467,29 38920
14 425 97 180625 9409 41225
15 450 96,8 202500 9370,24 43560
16 500 96,7 250000 9350,89 48350
4625 1565,9 1559375 153260,19 451365
1
2 2
2 2
1 1
0.99
n
i i
xy
i
xy
n n
xx yy
i i
i i
x y nx y
s
r
s s
x nx y ny
=
= =
= = =
O valor da correlao 0.99 r = e o coeficiente de determinao
2
0.977 R =
indiciam uma forte correlao linear entre a temperatura de fuel gs e a taxa de
calor. Vamos agora estimar, atravs do MMQ, os parmetros e e traar a
recta de regresso:
^
1 1 1
2 2 2
2
1 1
16 451365-4625 1565,9
0, 0057
16 1559375-(4625)
n n n
i i i i
xy
i i i
n n
x
i i
i i
n x y x y
s
s
n x x
= = =
= =
= = = =
| |
|
\
^
1656, 9 4625
( 0, 0057) 99, 529
16 16
y x = = =
Sendo assim, a recta de regresso calculada pelos mtodos dos mnimos
quadrados dada por,
^ ^ ^
99, 529 0, 0057 y x x = + =
E S T A T S T I C A D E S C R I T I V A
28 28 28 28
cujo grfico de disperso com a respectiva recta de regresso o seguinte:
Grfico de disperso
y = -0.0057x + 99.529
R
2
= 0.977
96.5
97
97.5
98
98.5
99
99.5
0 200 400 600
Temperatura
C
a
l
o
r
Atravs da recta de regresso estimada possvel prever taxas de calor com base
na temperatura do fuel gs. Por exemplo, para uma temperatura do fuel gs de
405 graus Fahrenheit prev-se uma taxa de calor de
^
0.0057 405 99.529 97.2205 y = + = Kilowatt-hora.