Você está na página 1de 24

Captulo II- Estatstica Descritiva

Objectivos da Estatstica Descritiva:

condensar os dados observados sob a forma de tabelas;


fazer a representao grfica;
calcular indicadores de localizao e de disperso

Conceitos basicos
em estatstica:

populacao

ou universo

unidades estatsticas.

variavel

caracterstica de interesse

conjunto de todas as observaes da


caracterstica em estudo, efectivamente recolhidas .
amostra

Manuela Neves - ISA - 05/06 p. 1/24


Estatstica descritiva a uma dimensao

As observaes que constituem a amostra chamam-se dados.


Os dados podem ser de natureza qualitativa nominal ou ordinal
ou de natureza quantitativa discreta ou contnua
Exemplo 1.

Num estudo para analisar a taxa de germinao de um certo tipo de


cereal foram semeadas cinco sementes em cada um de 50 vasos
iguais que contm o mesmo tipo de solo.
O nmero de sementes germinadas em cada vaso est registado a
seguir:
1 0 1 2 1 3 2 0 0 1 4 0 2 1 0
2 4 1 2 0 3 5 3 0 2 1 3 3 0 4
0 2 5 3 0 2 5 1 1 0 4 4 1 2 1
0 5 0 2 3
Manuela Neves - ISA - 05/06 p. 2/24

dos dados por tabelas e graficos

Descricao

Tabela de frequencias
Caso de dados de natureza discreta, com um numero

pequeno de valores distintos

xi

ni

fi

Fi

12

0.24

0.24

12

0.24

0.48

10

0.20

0.68

0.14

0.82

0.10

0.92

0.08

xi n o de sementes germinadas; ni frequncia absoluta


fi frequncia relativa; Fi frequncia relativa acumulada
Manuela Neves - ISA - 05/06 p. 3/24

dos dados por tabelas e graficos

Descricao

Exemplo 2.

Um dos principais indicadores da poluio atmosfrica nas


grandes cidades a concentrao de ozono na atmosfera. Num
dado vero registou-se 78 valores dessa concentrao, numa
dada cidade:
3.5

6.2

3.0

3.1

5.1

6.0

7.6

7.4

3.7

2.8

3.4

3.5

1.4

5.7

1.7

4.4

6.2

4.4

3.8

5.5

4.4

2.5

11.7

4.1

6.8

9.4

1.1

6.6

3.1

4.7

4.5

5.8

4.7

3.7

6.6

6.7

2.4

6.8

7.5

5.4

5.8

5.6

4.2

5.9

3.0

3.3

4.1

3.9

6.8

6.6

5.8

5.6

4.7

6.0

5.4

1.6

6.0

9.4

6.6

6.1

5.5

2.5

3.4

5.3

5.7

5.8

6.5

1.4

1.4

5.3

3.7

8.1

2.0

6.2

5.6

4.0

7.6

4.7

So dados de natureza contnua


Manuela Neves - ISA - 05/06 p. 4/24

dos dados por tabelas e graficos

Descricao

Neste caso, ou para dados de natureza discreta quando o


nmero de observaes distintas elevado, elabora-se a tabela

de frequencias
procedendo assim:
Determina-se max(xi ) e min(xi ),
max(xi ) min(xi ) amplitude total.
Escolhe-se um nmero de subintervalos classes

Para cada classe calcula-se a frequencia


absoluta, ni

e a frequencia
relativa, que designaremos por fi :
Exemplo de uma regra para escolha do numero

de classes:

toma-se como nmero de classes


log n

o inteiro m mais proximo


de 1 + (log2 n) = 1 + log10 2
regra de Sturges

10

Manuela Neves - ISA - 05/06 p. 5/24

dos dados por tabelas e graficos

Descricao

min(xi ) = 1.1
max(xi ) = 11.7
Pela regra de Sturges m 7.285 considere-se m = 7
amplitude das classes h = 1.51 considere-se h = 1.5
Voltemos ao exemplo:

Tabela de frequencias
dados de natureza contnua ou dados de natureza discreta com um numero

elevado de valores
distintos

ci

xi

ni

fi

Fi

]0.0, 1.5]

0.75

0.051

0.051

]1.5, 3.0]

2.25

0.115

0.167

]3.0, 4.5]

3.75

20

0.256

0.423

]4.5, 6.0]

5.25

24

0.308

0.731

]6.0, 7.5]

6.75

15

0.192

0.923

]7.5, 9.0]

8.25

0.038

0.962

]9.0, 10.5]

9.75

0.026

0.974

]10.5, 12.0]

11.25

0.013

Manuela Neves - ISA - 05/06 p. 6/24

Metodos
graficos
e indicadores

Mtodos grficos usados para representar um conjunto de


dados dois dos principais so: o diagrama de barras e o
histograma.
Usar o R para obter o diagrama de barras e o histograma para os
exemplos 1 e 2 respectivamente

Indicadores de localizao
Considere-se uma amostra com n observaes, x1 , x2 , ...xn .

Chama-se media
aritmetica
, media
emprica ou

simplesmente media
e representa-se por x a
1 Pn
x = n i=1 xi

Definicao

Manuela Neves - ISA - 05/06 p. 7/24


Propriedades da media

1. Dadas as observaes x1 , x2 , ..., xn com mdia x, se yi = a + bxi ,


i = 1, ..., n.
As novas observaes tm como mdia y = a + bx.
2. Seja x1 , ..., xn uma srie de n observaes de mdia x e
y1 , ..., ym outra srie de m observaes de mdia y. A mdia do
conjunto das n + m observaes dada por
nx+my
.
n+m

em c (c < n) classes,

x1 , x2 , ..., xc os pontos mdios de cada uma das classes e


n1 , n2 , ..., nc as frequncias absolutas de cada classe,
Pc

i=1 ni xi

Media
agrupada =
n

observacoes
agrupadas

Manuela Neves - ISA - 05/06 p. 8/24

A mediana e os quantis

Uma outra medida de localizao a mediana


Tendo n observaes x1 , ..., xn , sejam x(1) ... x(n) as observaes
ordenadas
8
A mediana definida como

x
=

>
>
< x( n+1
)
2

x
+ x(n/2+1)
>
>
: (n/2)
2

n mpar

n par

Dado um nmero 0 1, define-se quantil de ordem , Q ,


Extensao:

como o valor contido no intervalo de variao das observaes tal


que, pelo menos 100% das observaes so inferiores ou iguais a
esse valor e pelo menos (1 ) 100% das observaes so maiores
ou iguais a esse valor. Uma frmula de clculo pode ser
8 x
< (n ) + x(n +1)
2
Q =
:
x([n ]+1)
onde [n ] designa o maior inteiro contido em n .

n inteiro
n no inteiro
Manuela Neves - ISA - 05/06 p. 9/24

A mediana, os quantis e a moda

Chama-se barreira inferior BI


BI = Q1 1.5(Q3 Q1 )

Definicao

barreira superior

BS

BS = Q3 + 1.5(Q3 Q1 )

Um valor xi um candidato a outlier se


xi < BI
ou
xi > BS

Um outro indicador de localizao a moda , mo,:


no caso discreto valor que ocorre com mais frequncia
no caso contnuo valor do intervalo de classe com maior
frequncia.
Resoluo do exerccio 5. das folhas de prticas de
Estatstica Descritiva
Exerccio

Manuela Neves - ISA - 05/06 p. 10/24


Indicadores numericos
(cont.)

Caso de dados agrupados

clculo da mediana ou de um quantil

de ordem :
Identifica-se a primeira classe cuja frequncia relativa acumulada
seja superior ou igual a seja k essa classe e Fk a
frequncia relativa acumulada correspondente.
O quantil de ordem assim calculado:
Q xmin
+h
k

Fk1
fk

Fk1 frequncia relativa acumulada da classe anterior


classe k
limite inferior da classe k.
xmin
k
Manuela Neves - ISA - 05/06 p. 11/24


Indicadores numericos
(cont.)

A moda amostral para dados agrupados:


determina-se a classe modal classe com maior frequncia
existem vrias frmulas empricas para calcular a moda, vamos
considerar:
fk+1
+
h
mo xmin
k
fk1 + fk+1
onde fk1 e fk+1 designam, respectivamente, a frequncia da
classe anterior e posterior classe modal.
Indicadores de disperso
Amplitude Total

Atot = max(xi ) min(xi )

Amplitude inter-quartil

Variancia

s2x

=s =

Q = Q3 Q1 .
Pn

i=1 (xi x)

n1

2
Manuela Neves - ISA - 05/06 p. 12/24


Propriedades
Variancia
e desvio padrao.

Outra formula
de cP
alculo
da P
variancia:

s2 =

desvio padrao

x2i ( xi )2
n(n 1)

sx ou s

Propriedades da variancia

1. s2x 0
2. Sejam x1 , ..., xn , n observaes com varincia s2x e
yi = a + bxi ,
i = 1, ..., n.
Tem-se ento como varincia das novas observaes,
s2y = b2 s2x .
tem-se
Para o desvio padrao
sy = |b|sx .
Manuela Neves - ISA - 05/06 p. 13/24

O diagrama de extremos e quartis

Um modo grfico que permite facilmente interpretar a


localizao e a disperso de um conjunto de dados, efectuando
em simultneo a sua sntese o diagrama de extremos e quartis
ou caixa de bigodes
Quando h outliers devem marcar-se:
o valor adjacente inferior o menor valor do conjunto dos dados
(podendo ser o mnimo) maior ou igual
barreira inferior;
o valor adjacente superior o maior valor do conjunto dos dados

(podendo ser o maximo


) menor ou igual barreira superior.
Para os exemplos 1. e 2. desenhe, usando o R, os
diagramas de extremos e quartis.
Exerccio:

Manuela Neves - ISA - 05/06 p. 14/24


Estatstica descritiva a duas dimensoes

Consideremos o seguinte exemplo retirado de Estatstica, Teoria e

Metodos
. Pierre Dagnielie, 1ovolume (1973)
Foram registados os pesos das folhas e o peso das razes
de 1000 ps de Cichorium intybus, sendo alguns dos valores obtidos os
seguintes
Exemplo

Folhas

Razes

Folhas

Razes

71

56

76

51

108

174

658

253

111

59

662

174

679

290

741

230

Uma distribuio de frequncias destes dados, consistiu em agrupar


os valores dos pesos das folhas em classes de 80 g e os pesos das
razes em classes de 40 g, tendo-se:
Manuela Neves - ISA - 05/06 p. 15/24

Exemplo (cont.)

Razes

40

80

120

160

200

240

280

320

Folhas

79

119

159

199

239

279

319

359

0 a 79

80 a 159

49

46

102

160 a 239

86

137

46

11

280

240 a 319

27

153

89

25

301

320 a 399

45

91

40

187

400 a 479

10

33

21

16

480 a 559

11

10

560 a 639
640 a 719

720 a 799
Totais

82
29
1

392

270

112

42

10
6

1
169

Totais

1
11

1000

Manuela Neves - ISA - 05/06 p. 16/24

Objectivos da Estatstica Descritiva a duas

dimensoes

Estudo em simultneo de duas sries de observaes,


pondo em evidncia relaes existentes entre elas.
Objectivos

No so relaes determinsticas que interessam Estatstica,


mas o comportamento em mdia (relao estatstica) das
duas caractersticas.
Se duas variveis esto ligadas por uma relao estatstica
entre elas.
diz-se haver correlacao
Correlao positiva se as duas caractersticas variam no mesmo
sentido e negativa caso contrrio.
Analise a tabela do exemplo e tea algumas consideraes
Manuela Neves - ISA - 05/06 p. 17/24

Tabelas de frequencia
e representacao

grafica

Aspectos a considerar no estudo das relaes existentes entre


duas sries de observaes recolhidas aos pares:
elaborao de tabelas de frequncias;
representao grfica das observaes;
clculo de parmetros que permitam caracterizar numericamente
as relaes entre as variveis.

grafica

Tabelas de frequencia
e representacao

Sejam (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ) observaes feitas em n


indivduos relativas a duas caractersticas
Se n grande til considerar um quadro de dupla entrada ou

uma tabela de contingencia


Manuela Neves - ISA - 05/06 p. 18/24

Tabelas de frequencia
e representacao

grafica

y1

y2

...

yq

x1

n11

n12

...

n1q

n1.

x2

n21

n22

...

n2q

n2.

xp

np1

np2

...

npq

np.

n.1

n.2

...

n.q

nij nmero de indivduos para os quais foi observado o par


(xi , yj ).
Pq
Pp

ni. = j=1 nij e n.j = i=1 nij so as frequencias


marginais de x
e y, respectivamente.
Manuela Neves - ISA - 05/06 p. 19/24

Nuvens de pontos

Se n no for muito elevado, as observaes podem


ou nuvem
representar-se graficamente num diagrama de dispersao
de pontos marca-se num sistema de eixos cartesianos cada par
observado (xi , yi ).
Exemplo Pretende-se estudar o efeito da aplicao de diferentes

quantidades de um dado fertilizante (x) na produo de relva (y).


Para isso a relva semeada uniformemente numa dada rea na qual
so marcados ao acaso 10 talhes de 1 m2 . A cada um aplicada
uma certa quantidade de fertilizante. Dois meses depois a relva
cuidadosamente cortada, seca e pesada. Os dados obtidos so os
seguintes:
x (g/m2 )

25

50

75

100

125

150

175

200

225

250

y (g/m2 )

84

80

90

154

148

169

206

244

212

248

Faamos a nuvem de pontos associada a este exemplo

Manuela Neves - ISA - 05/06 p. 20/24

Indicadores para dados bidimensionais

de x e y, respectivamente
Pn
xi
i=1 yi
x=
y
=
n
n
(x, y) centro de gravidade da nuvem de pontos.

Medias
marginais
P

n
i=1

Dispersoes
marginais

s2x

Pn

de x e y, respectivamente
P

i=1 (xi x)

n1

s2y

n
2
i=1 (yi y)

n1

Mas... h uma medida que d informao sobre as duas


variveis em simultneo

Definicao

Exerccio:

Dadas as variveis
x e y, chama-se covariancia
de x e y a
Pn
(xi x)(yi y)
cov(x, y) = i=1 n1

Mostre que

cov(x, y) =

Pn

i=1

Pn

xi yi i=1 xi
n(n1)

Pn

i=1

yi

Manuela Neves - ISA - 05/06 p. 21/24

Indicadores para dados bidimensionais

Propriedades da covariancia

1. Seja (xi , yi ) uma srie de n observaes e seja

xi = a + bxi
yi = c + dyi . Tem-se ento

cov(x , y ) = bd cov(x, y).


2.

|cov(x, y)| sx sy

Da demonstrao desta propriedade (consultar


apontamentos das tericas) tem-se que a igualdade,
|cov(x, y)| = sx sy , s se verifica se i, b(xi x) (yi y) = 0,
condio esta que significa que todos os pontos observados se
encontram sobre uma recta da forma
y y = b(x x)
Nota

Manuela Neves - ISA - 05/06 p. 22/24

Indicadores para dados bidimensionais

Importncia da covarincia interpretao:


cov(x, y) > 0 h correlao positiva;
cov(x, y) < 0 h correlao negativa.
Desvantagem da covarincia fortemente afectada por
mudanas de escala nas observaes.
definido como
O coeficiente de correlacao

r = rxy =

cov(x, y)
sx sy

com sx 6= 0 e sy 6= 0

no afectado, em valor absoluto, por transformaes lineares.

Manuela Neves - ISA - 05/06 p. 23/24

Indicadores para dados bidimensionais

Propriedades do coeficiente de correlacao

1. r tem sempre o mesmo sinal da covarincia;


2. 1 r 1
3. Considere-se n pares de observaes (xi , yi ) com
coeficiente de correlao rxy

Se xi = a xi + b
e
yi = c yi + d (ac > 0), tem-se
rx y = rxy se (ac > 0)
rx y = rxy se (ac < 0)
4. |rxy | = 1 se todos os valores observados se encontram
sobre uma recta.
Manuela Neves - ISA - 05/06 p. 24/24

Você também pode gostar