Você está na página 1de 69

ESTATSTICA I

Ana Cristina Costa


ccosta@isegi.unl.pt

Licenciatura em Gesto de Informao

Fevereiro 2007

Programa
1. Introduo
2. Estatstica Descritiva

Organizao da informao

Distribuies de frequncias

Medidas descritivas

3. Teoria das Probabilidades

Introduo

Axiomtica das probabilidades

Variveis aleatrias e funes de distribuio

Esperana matemtica e momentos

Distribuies univariadas especficas

Distribuies conjuntas
Cristina Costa

Bibliografia

Reis, E. (1996). Estatstica Descritiva. 3 Edio, Edies Slabo, Lisboa.

Murteira, B. (1993). Anlise Exploratria de Dados Estatstica Descritiva.


Editora McGraw-Hill de Portugal.

Pedrosa, A. C. e Gama, S. M. A. (2004). Introduo Computacional


Probabilidade e Estatstica. Porto Editora, 2004.

Paulino, C. D. e Branco, J. A. (2005). Exerccios de Probabilidade e


Estatstica. Escolar Editora, 2005.

Fonseca, Jaime (2001). Estatstica Matemtica. Vol. 1, Edies Slabo.

Fonseca, J. e Torres, D. (2000). Exerccios de Estatstica. Edies Slabo.

Murteira, B., Ribeiro, C. S., Silva, J. A. e Pimenta, C. (2002). Introduo


Estatstica, McGraw Hill.

Cristina Costa

Outline
Introduo

Distribuies de frequncias

Conceitos
Estatstica descritiva vs inferencial
Etapas do mtodo estatstico

Variveis discretas
Variveis contnuas

Organizao da informao

Medidas descritivas

Tipos de dados e classificao das


variveis
Quadros
Grficos

Localizao
Disperso
Associao
Anlise de outliers

Introduo Teoria das Probabilidades

Cristina Costa

Introduo

Conceitos
Estatstica descritiva versus inferencial
Etapas do mtodo estatstico

Introduo

Estatstica: disciplina cujo objecto principal a recolha,


compilao, anlise e interpretao de dados

A Estatstica ajuda os centros de deciso a criar ordem e


simplicidade a partir da complexidade e do caos de grandes
massas de dados, numa poca em que a quantidade de informao
aumenta to rapidamente

Cristina Costa

Introduo

Populao ou Universo
Conjunto de indivduos ou objectos que apresentam uma ou
mais caractersticas em comum
Exemplo: populao portuguesa, conjunto dos funcionrios da
administrao pblica, conjunto dos automveis em circulao,
conjunto das PME portuguesas

Unidade Estatstica
Elemento individual da populao

Cristina Costa

Introduo

Varivel estatstica
Cada Unidade Estatstica pode ter uma ou mais caractersticas
ou atributos
Cada atributo corresponde a uma varivel estatstica
Os valores que um atributo pode assumir so os valores que a
varivel pode tomar

Amostra
Subconjunto de uma populao para a qual so estudadas
certas caractersticas ou atributos

Cristina Costa

Introduo
ESTAT
STICA
ESTAT
ESTATSTICA

Descritiva
Descritiva

Inferencial
Inferencial

Consiste na recolha,
apresentao, anlise e
interpretao de dados
atravs da criao de
instrumentos adequados:
quadros, grficos e
indicadores numricos

Permite retirar concluses


sobre uma determinada
populao (ou universo)
a partir da informao
recolhida para uma
amostra

Cristina Costa

Introduo

INFERNCIA ESTATSTICA
POPULAO

Amostra

Quadros, grficos,
indicadores numricos

ESTATSTICA DESCRITIVA

Cristina Costa

10

Introduo

O processo de inferncia estatstica

Parmetro um n que descreve a populao

INFERNCIA
POPULAO
Mdia:

Mdia amostral : X

Amostra

Estat
Estatstica um n que descreve a amostra
11

Cristina Costa

Introduo

Etapas do mtodo estatstico


Identificao
Identificaodo
doproblema
problema
Recolha
Recolhade
dedados
dados
Crtica
Crticados
dosdados
dados
Anlise
Anliseeeinterpretao
interpretao
Apresentao
Apresentaoda
da
informao
informao
Cristina Costa

12

Introduo

Etapas do mtodo estatstico > Identificao do problema


Identificar clara e correctamente o fenmeno que se pretende
estudar
Formular o problema de modo adequado ao seu tratamento
estatstico
Identificar a populao alvo
Identificar o tipo de informao que se dever recolher

Cristina Costa

13

Introduo

Etapas do mtodo estatstico > Recolha de dados


Mtodos de recolha

Entrevistas pessoais e telefnicas

Questionrios postais

Dados provenientes de outras fontes (ex: INE)

Alguns cuidados a ter

Identificao da populao a inquirir

Definio precisa do tipo de informao

Definio das unidades de medida

Cristina Costa

14

Introduo

Etapas do mtodo estatstico > Crtica dos dados


Validar dados
Exemplos: verificar cruzamento de respostas, unidades de medida, ...

Suprimir valores estranhos


Eliminar erros que possam provocar futuros enganos de
apresentao e anlise ou mesmo enviesar as concluses

Cristina Costa

15

Introduo

Etapas do mtodo estatstico > Anlise e interpretao


Escolher a(s) tcnica(s) estatstica(s) adequada(s)
Extrair concluses (inferncias)
Avaliar a qualidade dos resultados quantificar o grau de erro
das concluses
Esta etapa estar tanto mais facilitada quanto mais correctas
forem as etapas anteriores (ex: escolha dos instrumentos mais
apropriados)

Cristina Costa

16

Introduo

Etapas do mtodo estatstico > Apresentao da informao


Organizar os dados e resultados da anlise
Apresentar a informao de forma clara, sinttica, prtica e
racional para um melhor entendimento do fenmeno em estudo

17

Cristina Costa

Organizao da informao

Tipos de dados e classificao das variveis


Quadros
Grficos

Organizao da informao

Tipos de dados e classificao das variveis

TIPOS
TIPOSDE
DEDADOS
DADOS

QUALITATIVOS
QUALITATIVOS

Nominais
Nominais

Ordinais
Ordinais

QUANTITATIVOS
QUANTITATIVOS

Discretos
Discretos

Contnuos
Contnuos

Cristina Costa

19

Organizao da informao

Dados qualitativos nominais


Quando so apenas identificados por um nome (ou cdigo) que
designa uma classe ou modalidade. As classes no so
ordenveis

Exemplos: classificao das pessoas pelo sexo (feminino,


masculino); classificao de regies (urbana, suburbana e rural)

Dados qualitativos ordinais


Distinguem-se dos nominais pela possibilidade de se estabelecer
uma ordenao das classes

Exemplos: classificaes obtidas num exame (insuficiente, suficiente


e bom); classificao de trabalhadores (no especializado,
especializado, muito especializado)

Cristina Costa

20

Organizao da informao

Dados quantitativos discretos


Quando tomam apenas um nmero finito ou infinito numervel de
valores

Exemplos: nmero de acidentes por hora, nmero de trabalhadores


de uma empresa, nmero de filhos

Dados quantitativos contnuos


Quando podem tomar um nmero infinito no numervel de
valores

Exemplos: peso, altura, tempo

Cristina Costa

21

Organizao da informao

Varivel
Representa determinadas caractersticas ou atributos de uma
populao
A notao utilizada para as variveis corresponde habitualmente
s letras X, Y e Z
Uma varivel pode ser discreta

Dados qualitativos
Dados quantitativos discretos

ou continua

Dados quantitativos contnuos

Cristina Costa

22

Organizao da informao

Representao da informao
A informao estatstica antes de ser organizada e analisada
designada como informao bruta para significar que ainda no
foi processada pelos mtodos estatsticos.
O sucesso na utilizao de dados estatsticos depende do modo
como estes so apresentados. Os mtodos de apresentao e
descrio dos dados so fundamentais para que os utilizadores
da informao estatstica a possam compreender de forma fcil e
rpida

Cristina Costa

23

Organizao da informao

Construo de quadros
Quadro simples: quadro que representa informao referente a
apenas um nico atributo

Cristina Costa

24

Organizao da informao

Quadro simples
Quadro 1 Emprego civil em Portugal em 1990, segundo o sector de
actividade
Sector de actividade

N de Efectivos (em milhares)

Sector Primrio

845.1

Sector Secundrio

1624.5

Sector Tercirio

2225.4

TOTAL

4695

Fonte: INE; Inqurito ao Emprego, citado em INE, Portugal Social, p. 41

25

Cristina Costa

Organizao da informao

Quadro simples
Quadro 2 Emprego civil em Portugal em 1990, segundo o sexo
Sexo

N de Efectivos (em milhares)

Homens

2699.6

Mulheres

1995.4

TOTAL

4695

Fonte: INE; Inqurito ao Emprego

Cristina Costa

26

Organizao da informao

Construo de quadros
Os dois quadros dos exemplos anteriores no permitem
responder a questes referentes aos dois atributos
simultaneamente

Quantos homens trabalham no sector secundrio?

Quadro de dupla entrada: quadro que representa informao


referente a dois atributos

27

Cristina Costa

Organizao da informao

Quadro de dupla entrada


Quadro 3 Emprego civil em Portugal em 1990, por sector de actividade
e sexo (n de efectivos em milhares)
Sector de actividade

Homens

Mulheres

TOTAL

Sector Primrio

427.2

417.9

845.1

Sector Secundrio

1108.0

516.5

1624.5

Sector Tercirio

1164.4

1061.0

2225.4

TOTAL

2699.6

1995.4

4695

Fonte: INE; Inqurito ao Emprego

Cristina Costa

28

Organizao da informao

Princpios da construo de quadros


Ttulo indicando de modo preciso e sinttico o tema da
informao
Unidade de medida e o perodo a que respeita a informao
Designao para as linhas e as colunas
Fonte da informao para permitir ao leitor

controlar a fiabilidade da informao

obter informao adicional

Cristina Costa

29

Organizao da informao

Construo de grficos
So utilizados para ilustrar de modo simples e intuitivo a
distribuio da informao
Grficos mais frequentemente utilizados

Disperso

Linhas

Sectores

Barras

Pictogramas

Estes tipos de grficos esto vocacionados para situaes


diferentes!
Cristina Costa

30

Organizao da informao

Construo de grficos
Para permitir a comparao dos diversos tipos de grficos,
vamos ilustr-los sempre com os dados do seguinte quadro
Quadro 4 Populao activa em Portugal no perodo 1987-1991
Populao activa

1987

1988

1989

1990

1991

Emprego

4191

4299

4395

4496

4631

Desemprego

320

263

233

220

199

TOTAL

4511

4562

4628

4716

4830

(em milhares)

Fonte: INE; Inqurito ao Emprego

Cristina Costa

31

Organizao da informao

Grfico de disperso
Grfico em que os valores da varivel so representados por
pontos (ou outro smbolo) e no esto unidos por linhas

Grfico de linhas
Grfico em que os valores da varivel representada esto unidos
por linhas
S deve ser utilizado para representar dados contnuos

muito utilizado para representar a evoluo de uma varivel ao


longo do tempo (srie temporal ou cronolgica)

Cristina Costa

32

Organizao da informao

Grfico de linhas
Grfico 1 Evoluo do emprego e desemprego em Portugal (1987-1991)

(em milhares)

5000
4000
3000
2000
1000
0
1986

1987

1988

1989

Emprego

1990

1991

1992

Desemprego

Cristina Costa

33

Organizao da informao

Grfico de linhas
Neste exemplo, no aconselhvel incluir ambas as variveis
(emprego e desemprego) no mesmo grfico

Os valores do desemprego so muito inferiores aos do emprego

Ambas as variveis tm taxas de variao relativa muito baixas, pelo


que no so bem visveis as variaes ao longo do tempo

Cristina Costa

34

Organizao da informao

Grfico de barras
Grfico em que os valores da varivel so representados por
barras cuja altura ou comprimento representa a quantidade
Nem a rea nem a largura das barras so importantes (no tm
qualquer relao com os valores da varivel)
Para no induzir em erro e/ou dificultar a leitura do grfico,
usual as barras terem todas a mesma largura
Adequado para representar variveis discretas

Cristina Costa

35

Organizao da informao

Variantes do grfico de barras


Grfico de barras simples: representa apenas uma varivel e a
cada barra est associado um valor
Grfico de barras mltiplas ou sobrepostas: utilizado para
representar os valores de diferentes variveis na mesma
categoria/perodo
Grfico de barras com componentes: mostra a decomposio de
um agregado nas suas componentes
Grfico de barras com componentes em percentagem: coloca a
nfase na alterao da estrutura do agregado e no nos valores
absolutos das componentes
Cristina Costa

36

Organizao da informao

Grfico de barras simples


Grfico 2 Evoluo da populao activa em Portugal (1987-1991)
4900

(em milhares)

4800
4700
4600
4500
4400
4300

1987

1988

1989

1990

1991

37

Cristina Costa

Organizao da informao
Grfico de barras mltiplas ou sobrepostas
Grfico 3 Evoluo da populao activa em Portugal (1987-1991)
5000
4000
(em milhares)

3000
2000
1000
0

1987

1988
Emprego

Cristina Costa

1989

1990

1991

Desemprego

38

Organizao da informao

Grfico de barras com componentes


Grfico 4 Evoluo da populao activa em Portugal (1987-1991)
5000

(em milhares)

4800
4600
4400
4200
4000
3800

1987

1988
Emprego

1989

1990

1991

Desemprego

39

Cristina Costa

Organizao da informao

Grfico de barras com componentes em percentagem


Grfico 5 Evoluo da populao activa em Portugal (1987-1991)
100%
80%
60%
40%
20%
0%

1987

1988
Emprego

Cristina Costa

1989

1990

1991

Desemprego

40

Organizao da informao

Grfico de sectores
Grfico circular no qual o crculo representa o valor total do
agregado e cada seco representa uma componente
Deve ser utilizado para representar variveis discretas

Especialmente apropriado para representar dados qualitativos


nominais

No adequado para representar variveis contnuas

No apropriado para representar sries temporais

Cristina Costa

41

Organizao da informao

Grfico de sectores
Grfico 6 Evoluo da populao activa em Portugal (1987-1991)

Cristina Costa

42

Organizao da informao

Princpios da construo de grficos


Ttulo indicando de modo preciso e sinttico o tema da
informao
Unidade de medida e o perodo a que respeita a informao
Designao para os eixos
Legenda quando se apresentam dados de mais do que uma
varivel
Fonte da informao para permitir ao leitor

controlar a fiabilidade da informao

obter informao adicional

Cristina Costa

43

Organizao da informao

Pictogramas

Grficos que representam figuras sugestivas relacionadas com a


informao ilustrada

Variantes dos pictogramas


1. Cada figura est associada a um valor numrico; as figuras so

repetidas para representar valores superiores


2. A altura das figuras proporcional ao valor que representam

Cristina Costa

44

Organizao da informao

Pictogramas > Variante 1


Exemplo: Suponhamos que o consumo de vinho no pas A foi de 1
milho de litros, em 1990. No ano seguinte, devido alterao
de hbitos de consumo e iniciativas de marketing, o consumo
passou para 2 milhes de litros.

1990

1991
45

Cristina Costa

Organizao da informao

Pictogramas > Variante 2

1990
Cristina Costa

1991
46

Organizao da informao

Pictogramas
A variante 1 fcil de adoptar
Na variante 2, a alterao da altura acarreta alteraes mais que
proporcionais da rea dentro do smbolo, o que poder gerar
situaes enganadoras

Cristina Costa

47

Organizao da informao

O abuso dos grficos


Utilizao de grficos com o objectivo de distorcer a informao,
gerando impresses enganadoras

Cristina Costa

48

Organizao da informao

Grficos tendenciosos
Suponhamos que um certo Presidente de Cmara pretende ser
reeleito. O investimento camarrio no seu mandato de 4 anos
passou de 80 mil euros, no 1 ano, para 100 mil euros no final do
mandato (aumento de 25%). Mas, nesse perodo de 4 anos, o
crescimento mdio anual foi aproximadamente igual a 6%.

49

Cristina Costa

Organizao da informao

Grficos tendenciosos (continuao)

100
25

100
90
80
70
60
50
40
30
20
10
0

20
95
15
90
10
85
5
80
0
0

Investimento

Representao incorrecta

Cristina Costa

Investimento

Representao correcta

50

Organizao da informao

A apresentao de informao estatstica deve ser clara e


precisa
No caso dos grficos
A origem dever iniciar-se sempre que possvel no zero
Se no for necessrio, nem prtico, apresentar todos os valores
a partir de zero, deve-se

fazer um corte em ziguezague para mostrar que o eixo foi cortado

ou, explicitar o valor em que o eixo do X intercepta o eixo do Y

A comparao directa entre grficos s pode ser feita desde que


a escala seja a mesma

Cristina Costa

51

Organizao da informao

Sugestes
Silva, A. A. (200?). Dossi IX Representaes Grficas.
Projecto ALEA, I.N.E, Porto, 35 pp.
http://alea-estp.ine.pt/html/statofic/html/dossier/doc/Dossier9.PDF

Livro: Ana Alexandrino da Silva (2006). Grficos e Mapas


representao de informao estatstica. Lidel Edies Tcnicas.

Cristina Costa

52

Distribuies de frequncias

Variveis discretas
Variveis contnuas

Distribuies de frequncias: caso discreto

Distribuio de frequncias
Conjunto de todos os valores, ou modalidades, de uma varivel
[discreta] e do nmero de ocorrncias correspondentes

Cristina Costa

54

Distribuies de frequncias: caso discreto

Notao
x1, x2, , xk valores que a varivel X pode assumir
n nmero total de elementos da coleco de dados
ni frequncia absoluta (simples) nmero de
ocorrncias de xi
fi = ni / n frequncia relativa (simples) percentagem de
ocorrncias de xi

Cristina Costa

55

Distribuies de frequncias: caso discreto

Notao
Apenas dados qualitativos ordinais ou quantitativos (discretos e
contnuos)

Ni = n1 + ... + ni frequncia absoluta acumulada soma dos


nmeros de ocorrncias observadas para
valores iguais ou inferiores a xi

Fi = f1 + ... + fi frequncia relativa acumulada soma das


percentagens de ocorrncias observadas para
valores iguais ou inferiores a xi

Cristina Costa

56

Distribuies de frequncias: caso discreto

Quadro de frequncias

Frequncias simples

Frequncias acumuladas

Absolutas (ni)

Relativas (fi)

Absolutas (Ni)

Relativas (Fi)

x1

n1

f1

N1

F1

xk

nk

fk

Nk = n

Fk = 1

57

Cristina Costa

Distribuies de frequncias: caso discreto

Exemplo 1
O quadro seguinte apresenta dados relativos ao nmero de
reclamaes apresentadas por dia, em Abril, numa determinada
repartio
1

Cristina Costa

58

Distribuies de frequncias: caso discreto

Exemplo 1
Distribuio do nmero de reclamaes apresentadas por dia em
Abril
N de
reclama
reclamaes

Nmero
de dias

Percentagem
de dias

Frequncia
absoluta
acumulada

Frequncia
relativa
acumulada

xi

ni

fi

Ni

Fi

13

0.43

13

0.43

11

0.37

24

0.80

0.10

27

0.90

0.07

29

0.97

0.03

30

Total

30

Cristina Costa

59

Distribuies de frequncias: caso discreto

Diagrama de barras
Grfico em que no eixo do X so indicados os valores da varivel
e, no eixo do Y, so indicadas as respectivas frequncias
[absolutas ou relativas] simples
Os valores das frequncias so representados por pontos e
unidos por linhas ao eixo do X

Cristina Costa

60

Distribuies de frequncias: caso discreto

Exemplo 1
Grfico de frequncias absolutas simples

N dias

Distribuio do nmero de reclamaes


apresentadas em Abril
14
12
10
8
6
4
2
0
0

N reclamaes

Cristina Costa

61

Distribuies de frequncias: caso discreto

Diagrama de escada
Grfico em forma de escada que representa a distribuio de
frequncias (absoluta ou relativa) acumuladas

Cristina Costa

62

Distribuies de frequncias: caso discreto

Exemplo 1
Grfico de frequncias relativas acumuladas

1.20
1.00
0.80
0.60
0.40
0.20
0.00
0

Frequncias relativas acumuladas

Cristina Costa

63

Distribuies de frequncias: caso contnuo

Variveis contnuas
Por poderem tomar um nmero infinito no numervel de
valores, obrigam-nos criao de classes que passam a ser as
modalidades da caracterstica em estudo
No h uma regra cientificamente fundamentada e
universalmente aceite para a construo das classes!

Cristina Costa

64

Distribuies de frequncias: caso contnuo

Determinao do n de classes (sugestes)


No devero ser nem em nmero muito grande, nem em nmero
muito pequeno (em geral, devero ser entre 4 e 14).
Nenhuma classe dever ter frequncia nula
Exemplo: o nmero de classes, k, pode ser assim determinado:

para n < 25
k = 5

k n para n 25

65

Cristina Costa

Distribuies de frequncias: caso contnuo

Amplitude das classes


Sempre que possvel, devero ter amplitudes iguais.
A amplitude das classes, a, pode ser assim determinada:

Xmax valor mximo da varivel

Xmin valor mnimo da varivel

a=

X max X min
k

Ponto mdio ou Centro da classe

Linf limite inferior da classe

Lsup limite superior da classe

Cristina Costa

C=

Linf + L sup
2

66

Distribuies de frequncias: caso contnuo

Quadro de frequncias
Para cada classe so definidas as frequncias absolutas e
relativas, simples e acumuladas, da mesma forma que para as
variveis discretas

67

Cristina Costa

Distribuies de frequncias: caso contnuo

Exemplo 2
O quadro seguinte apresenta a durao mdia de processos (em
anos) relacionados com um determinado tipo de crime

2.25

0.63

2.10

2.37

0.80

3.44

8.55

2.07

3.22

2.48

0.54

4.19

7.40

4.60

3.45

6.20

1.88

0.82

1.91

0.10

6.31

9.56

2.10

2.77

1.57

4.21

5.14

5.42

0.65

4.30

Cristina Costa

68

Distribuies de frequncias: caso contnuo

Exemplo 2
Construo das classes

n = 30
k = 30 5
X max = 9.56
a=

X min = 0.1

9.56 0.1
2
5

69

Cristina Costa

Distribuies de frequncias: caso contnuo

Exemplo 2
Distribuio da durao mdia de processos (em anos)
Dura
Durao
(em anos)

N de
Percentagem
processos de processos

Frequncia
absoluta
acumulada

Frequncia
relativa
acumulada

Classes

ni

fi

Ni

Fi

[0, 2]

0.30

0.30

]2, 4]

10

0.33

19

0.63

]4, 6]

0.20

25

0.83

]6, 8]

0.10

28

0.93

]8, 10]

0.07

30

1.00

Total

30

Cristina Costa

70

Distribuies de frequncias: caso contnuo

Histograma de frequncias
Grfico formado por uma sucesso de rectngulos adjacentes
Cada rectngulo tem por base o intervalo da classe e por altura a
respectiva frequncia (absoluta ou relativa) dividida pela amplitude do
intervalo de classe
Deste modo, a rea do rectngulo de cada classe igual respectiva
frequncia e a soma das reas igual a N ou 1 caso se trate de freq.
absolutas ou freq. relativas, respectivamente
No caso das distribuies com classes de amplitude constante no h
inconveniente em que a altura seja igual frequncia

Cristina Costa

71

Distribuies de frequncias: caso contnuo

Polgono de frequncias
Grfico que resulta de unir sucessivamente, por segmentos de
recta, os pontos mdios dos lados superiores dos rectngulos
do histograma
Como se deseja fechar o polgono em relao ao eixo horizontal,
identificam-se classes adjacentes (com a mesma amplitude) no
incio e no fim do histograma

Como estas classes no pertencem distribuio inicial tm


naturalmente uma frequncia nula

Cristina Costa

72

Distribuies de frequncias: caso contnuo

Exemplo 2
Histograma e polgono de frequncias relativas (simples)

Distribuio da durao mdia de processos


(em anos)
0,35

% de processos

0,3
0,25
0,2
0,15
0,1
0,05
0

-1

5
Histograma

Polgono

11
Anos

Cristina Costa

73

Distribuies de frequncias: caso contnuo

Curva de frequncias
Pode definir-se como um polgono de frequncias alisado
Se o n de classes aumentar indefinidamente, quando a
amplitude das classes tende para zero, aceita-se facilmente que
o polgono tende, no limite, para uma curva

Cristina Costa

74

Distribuies de frequncias: caso contnuo

Exemplo 2
Curva de frequncias relativas (simples)

Distribuio da durao mdia de processos


(em anos)
0,35

% de processos

0,3
0,25
0,2
0,15
0,1
0,05
0

-1

5
Histograma

Polgono

11
Anos

Cristina Costa

75

Distribuies de frequncias: caso contnuo

Funo de frequncias acumuladas


Grfico que resulta de unir sucessivamente, por segmentos de
recta, os lados superiores direitos dos rectngulos do
"histograma" de frequncias acumuladas

Cristina Costa

76

Distribuies de frequncias: caso contnuo


Exemplo 2
Funo de frequncias relativas acumuladas

1.20
1.00
Freq. relativas

0.80
0.60
0.40
0.20
0.00
1

Anos

77

Cristina Costa

Medidas descritivas

Localizao
Disperso
Simetria e curtose
Associao
Anlise de outliers

Medidas descritivas

Permitem sintetizar caractersticas importantes da informao


atravs de um nico nmero
Estas medidas classificam-se em
Localizao
Disperso
Simetria
Curtose
Associao

Cristina Costa

79

Medidas descritivas

Medidas de localizao
Localizam os valores observados da varivel no eixo do X

A localizao central da curva B est mais direita que a curva A

Cristina Costa

80

Medidas descritivas

Medidas de disperso
Medem a disperso da informao em relao ao valor central
da distribuio

As curvas A e B tm a mesma localizao, mas a curva B representa


uma distribuio com maior disperso que a curva A

Cristina Costa

81

Medidas descritivas

Medidas de assimetria
Distinguem as distribuies segundo a forma como se distribui a
informao nos dois lados. Podem ser simtricas e assimtricas.

A curva A simtrica. Se traarmos uma linha vertical do pico at


ao eixo horizontal, a curva fica dividida em duas partes iguais. A
curva C assimtrica positiva e a curva B assimtrica negativa

Cristina Costa

82

Medidas descritivas

Medidas de curtose
Diferenciam as distribuies segundo o achatamento

Na curva B o grau de curtose maior

Cristina Costa

83

Medidas descritivas

Medidas de associao
Medem o grau de associao [linear] entre duas variveis

Cristina Costa

84

Medidas descritivas

Medidas de associao

85

Cristina Costa

Medidas descritivas

Algumas medidas de localizao

Medidas de tendncia central

Medidas de tendncia no central

Mdia aritmtica

Quartis

Mediana

Decis

Moda

Percentis

Cristina Costa

86

Medidas descritivas

Mdia aritmtica
Dados desagregados (casos discreto e contnuo)

X=

1
n

Xi
i =1

Dados agregados (caso discreto)


k

X=

fi Xi
i =1

Dados agregados em classes (caso contnuo)


k

X=

fiCi
i =1

87

Cristina Costa

Medidas descritivas

Exemplo 1
Distribuio do nmero de reclamaes apresentadas em Abril
xi

ni

fi

fixi

13

0.43

0.00

11

0.37

0.37

0.10

0.20

0.07

0.20

0.03

0.13

Total

30

0.90

X = 0.90

Cristina Costa

88

Medidas descritivas

Exemplo 2
Distribuio da durao mdia de processos (em anos)
Classes

ni

fi

Ci

fiCi

[0, 2]

0.30

0.30

]2, 4]

10

0.33

1.00

]4, 6]

0.20

1.00

]6, 8]

0.10

0.70

]8, 10]

0.07

0.60

Total

30

3.60

X 3.6
Cristina Costa

89

Medidas descritivas

Exemplo 2
Neste caso, usando os dados agregados em classes, o valor da
mdia (3.6) corresponde ao valor aproximado da verdadeira
mdia que 3.37
Obtemos um valor aproximado porque substitumos os valores
individuais exactos de cada classe pelo respectivo centro de
classe

Diferentes divises de classes diferentes centros de classes


diferentes aproximaes para a mdia

Cristina Costa

90

Medidas descritivas

Mediana
Valor central da sucesso ordenada das observaes

50% das observaes so inferiores mediana, e 50% so


superiores

91

Cristina Costa

Medidas descritivas

Mediana caso discreto


Exemplo

n = 9 (mpar)

Mediana = 1
xi

ni

Fi

0.44

0.56

0.78

0.89

Total

Cristina Costa

92

Medidas descritivas

Mediana caso discreto


Exemplo

n = 10 (par)

xi

ni

Fi

0.4

0.5

0.7

0.8

Total

10

Mediana = (1+2)/2 = 1.5

93

Cristina Costa

Medidas descritivas

Mediana caso contnuo (dados agregados em classes)


Classe Mediana classe onde se encontra o valor 0.5 (50%)
para as frequncias relativas acumuladas

Exemplo 2
Classes

ni

fi

Fi

[0, 2]

0.30

0.30

]2, 4]

10

0.33

0.63

]4, 6]

0.20

0.83

]6, 8]

0.10

0.93

]8, 10]

0.07

1.00

Total

30

Cristina Costa

94

Medidas descritivas

Mediana caso contnuo (dados agregados em classes)


Exemplo 2

Quanto falta
para 0.5

x 0 .2
2 0.33
amplitude
da classe
mediana

X=

fi da classe
mediana

2 0.2
= 1.21
0.33

Mediana = 2 + 1.21
Mediana = 3.21
95

Cristina Costa

Medidas descritivas

Mediana caso contnuo (dados agregados em classes)

n F(M1)
Mediana = LInfM + aM 2
nM
LInfM

limite inferior da classe mediana

aM

amplitude da classe mediana

F(M-1)

frequncia absoluta acumulada da classe anterior classe mediana

nM

frequncia absoluta da classe mediana

Exemplo 2: Mediana = 2 + 2

Cristina Costa

30 9
2
= 3.2
10

96

Medidas descritivas

Moda caso discreto


Observao que tem maior frequncia

Exemplo

Moda = 0

97

Cristina Costa

Medidas descritivas

Moda caso contnuo


Classe Modal classe com maior frequncia

Moda = L inf +

f **
ai
f *+ f **

Linf

limite inferior da classe modal

ai

amplitude da classe modal

f*

frequncia relativa (simples) da classe anterior classe modal

f**

frequncia relativa (simples) da classe seguinte classe modal

Cristina Costa

98

Medidas descritivas

Moda caso contnuo


Exemplo 2

Classe Modal = ]2, 4]

Classes

ni

fi

[0, 2]

0.30

]2, 4]

10

0.33

]4, 6]

0.20

]6, 8]

0.10

]8, 10]

0.07

Total

30

Moda = 2 +

0. 2
2
0.3 + 0.2

Moda = 2.8

Cristina Costa

99

Medidas descritivas

Medidas de tendncia central


Comparao entre a mdia, a mediana e a moda

Cristina Costa

100

Medidas descritivas

Medidas de tendncia no central


Quartis dividem o conjunto ordenado das observaes em 4 partes
iguais
50%

50%
Q2
mediana

Q1

Xmin
25%

Q3

Xmax

75%
75%

25%

Decis dividem o conjunto ordenado das observaes em 10 partes


iguais
Percentis dividem o conjunto ordenado das observaes em 100
partes iguais
101

Cristina Costa

Medidas descritivas

Medidas de disperso

Algumas medidas de disperso


Intervalo de variao

Varincia e desvio padro

Intervalo interquartis

Coeficiente de variao

Desvio absoluto mdio

Cristina Costa

102

Medidas descritivas

Intervalo de variao
Diferena entre o maior e o menor valor da varivel
R = Xmax Xmin

Intervalo interquartis
Diferena entre o 3 quartil e o 1 quartil (engloba 50% das
observaes centrais)
IQ = Q3 Q1

Cristina Costa

103

Medidas descritivas

Desvio absoluto mdio


Dados desagregados (casos discreto e contnuo)
n
1
Xi X
n

i =1

Dados agregados (caso discreto)

Mede o grau de
disperso dos
valores da
varivel em
torno da mdia

fi X i X
i =1

Dados agregados em classes (caso contnuo)


k

fi C i X
i =1

Cristina Costa

104

Medidas descritivas

Varincia
Dados desagregados (casos discreto e contnuo)
2
1 n
Xi X
n i=1

Dados agregados (caso discreto)

Mede o grau de
disperso dos
valores da
varivel em
torno da mdia

f (X X)
k

i =1

Dados agregados em classes (caso contnuo)

f (C X)
k

i =1

105

Cristina Costa

Medidas descritivas

Varincia frmulas alternativas


Dados desagregados (casos discreto e contnuo)
1
n

2
i

X2

i=1

Dados agregados (caso discreto)


k

f X
i

2
i

X2

i=1

Dados agregados em classes (caso contnuo)


k

fC
i

2
i

X2

i=1

Cristina Costa

106

Medidas descritivas

Desvio padro
igual raiz quadrada da varincia

A varincia apresenta a desvantagem de se traduzir no quadrado


das unidades em que est definida a varivel X
O desvio padro definido nas mesmas unidades que a varivel

107

Cristina Costa

Medidas descritivas

Coeficiente de variao
Medida de disperso relativa (independente das unidades de
medida das variveis)
Permite comparar o grau de disperso, em torno da mdia, de
distribuies de frequncias distintas

CV =

Cristina Costa

desvio padro
100
X

108

Medidas descritivas

Exemplo 2
Distribuio da durao mdia de processos (em anos)
Classes

ni

fi

Ci

fiCi

Ci X

fi Ci X

fiCi2

[0, 2]

0.30

0.30

2.60

0.78

0.30

]2, 4]

10

0.33

1.00

0.60

0.20

3.00

]4, 6]

0.20

1.00

1.40

0.28

5.00

]6, 8]

0.10

0.70

3.40

0.34

4.90

]8, 10]

0.07

0.60

5.40

0.36

5.40

Total

30

1.96

18.6

3.60

Cristina Costa

109

Medidas descritivas

Exemplo 2
Distribuio da durao mdia de processos (em anos)

Intervalo de variao = 9.56 0.1 = 9.46

Desvio absoluto mdio 1.96

Q1 = Q25% = 1.67

Q3 = Q75% = 5.2

Intervalo interquartis = Q3 Q1 = 3.53

Varincia 5.64

Desvio padro 2.37

Coeficiente de variao 65.97%

Cristina Costa

110

Medidas descritivas

Observaes
Diferentes divises de classes

diferentes centros de classes

diferentes distribuies de frequncia

diferentes aproximaes para a mdia, varincia,

Exemplos interactivos
http://www.stat.sc.edu/~west/javahtml/Histogram.html
http://simon.cs.vt.edu/SoSci/converted/MMM/

111

Cristina Costa

Medidas descritivas

Medidas de associao

Algumas medidas de associao

Coeficiente de correlao de Pearson


Coeficiente de correlao de Spearman

Cristina Costa

112

Medidas descritivas

Coeficiente de correlao de Pearson


Medida da intensidade da associao linear entre duas variveis
cont
contnuas X e Y
n

r=

( xi x )( yi y )
i=1

i=1

i=1

( x i x )2 ( y i y )2

Cristina Costa

113

Medidas descritivas

Coeficiente de correlao de Pearson


No depende das unidades em que as variveis so medidas
Quando as variveis so independentes, o coeficiente de
correlao nulo (o inverso no verdadeiro, em geral)
O valor deste coeficiente varia entre 1 e 1

Sinal positivo ambas as variveis tendem a variar na mesma


direco, i.e. aumentar ou diminuir conjuntamente

Sinal negativo as variveis tendem a variar em direces


opostas, i.e. uma tende a aumentar quando a outra diminui

http://noppa5.pc.helsinki.fi/koe/corr/cor7.html

Cristina Costa

114

Medidas descritivas

Coeficiente de correlao de Spearman


Medida da intensidade da associao entre duas variveis
discretas (dados no nominais) ou contnuas X e Y

Ordenar, separadamente, os n valores de cada uma das variveis

Associar o respectivo rank (posio na sequncia ordenada) a cada


valor das variveis

Calcular a diferena (di) entre cada rank correspondente aos valores


xi e yi
n

r' = 1

6 di
i=1
2

n n 1

Cristina Costa

115

Medidas descritivas

Coeficiente de correlao de Spearman


No depende das unidades em que as variveis so medidas
Quando as variveis so independentes, o coeficiente de
correlao nulo (o inverso no verdadeiro, em geral)
O valor deste coeficiente varia entre 1 e 1

Sinal positivo ambas as variveis tendem a variar na mesma


direco, i.e. aumentar ou diminuir conjuntamente

Sinal negativo as variveis tendem a variar em direces


opostas, i.e. uma tende a aumentar quando a outra diminui

Calculadora: http://www.wessa.net/rankcorr.wasp
(Para lidar com dados com valores empatados de forma idntica ao exemplo seguinte,
considerar o resultado de "Correlation (not corrected)")

Cristina Costa

116

Medidas descritivas

Coeficiente de correlao de Spearman


Exemplo
Uma forma simples de lidar com valores empatados (repetidos) na
coleco de dados atribuir-lhes a mdia dos ranks que teriam se
fossem valores sequenciais distintos

xi

Rank
de xi

yi

Rank
de yi

di2

550

80

(2 5)2

620

60

(5 4)2

580

3.5

10

(3.5 1)2

580

3.5

20

(3.5 2)2

540

30

(1 3)2

Soma =

22.5

r' = 1

6(22.5)

) = 0.125

5 52 1

Cristina Costa

117

Medidas descritivas

Sugestes
Cunha, L. M. (2000). Dossi IV Estatstica com Excel. Projecto
ALEA, I.N.E, Porto, 34 pp.
http://alea-estp.ine.pt/html/statofic/html/dossier/doc/Dossier4.PDF

http://stat2.med.up.pt
http://www.psychstat.missouristate.edu/introbook/sbk00.htm
http://home.okstate.edu/homepages.nsf/toc/onlinetutorialsstatistics

Cristina Costa

118

Medidas descritivas

Anlise de outliers
Outlier: observao discordante ou extrema

Explicaes possveis para a ocorrncia de outliers

Erros humanos ao medir ou ao registar os dados

Corrigir ou, eventualmente, eliminar os outliers do estudo

Natureza do fenmeno em estudo

Alguns autores no consideram como outliers

Cristina Costa

119

Medidas descritivas

Identificao de outliers
Por comparao, atravs da anlise do posicionamento das
observaes extremas com medidas de localizao e de
disperso resistentes da distribuio emprica

Mediana (Me)

1 Quartil (Q1)

3 Quartil (Q3)

Mximo (Xmax)

Mnimo (Xmin)

Intervalo Interquartis (IQ)

Cristina Costa

120

Medidas descritivas

Diagrama de caixa-de-bigodes (Boxplot)

121

Cristina Costa

Medidas descritivas

Boxplot com barreiras de outliers

v1 valor adjacente inferior a Q1

Outlier moderado

v2 valor adjacente superior a Q3

Outlier severo

Cristina Costa

122

Medidas descritivas

Barreiras interior e exterior


Barreira Interior Inferior (BII):

Q1 1,5 IQ

Barreira Interior Superior (BIS):

Q3 + 1,5 IQ

Barreira Exterior Inferior (BEI):

Q1 3 IQ

Barreira Exterior Superior (BES): Q3 + 3 IQ

123

Cristina Costa

Medidas descritivas

Regras de identificao de outliers


Outliers moderados
BEI < Xi < BII

ou

BIS < Xi < BES

ou

Xi > BES

Outliers severos
Xi < BEI

Cristina Costa

124

Medidas descritivas

Tratamento de outliers
A eliminao pura e simples de um potencial outlier deve fazerse com prudncia e o mais aconselhvel proceder anlise
com e sem a presena da respectiva observao. Se as
concluses so discordantes deve pelo menos ter-se a
conscincia de que o outlier afecta significativamente as
concluses e no h como relatar esse facto, deixando a
terceiros a possibilidade de escolher o seu prprio caminho.
(Murteira 1993, p. 100)

125

Cristina Costa

Medidas descritivas

Tratamento de outliers
A eliminao de um potencial outlier imprpria quando a
varivel observada tem uma distribuio com caudas pesadas,
no quadro da qual os outliers so naturais. Para alguns autores,
a identificao quase certa de outliers s em geral possvel
para amostras com 500 ou mais observaes; assim, quando se
trabalha com amostras pequenas, a poltica mais prudente
isolar alguns valores para lhes prestar ou pedir para que lhes
seja prestada ateno especial.

Cristina Costa

(Murteira 1993, p. 100)

126

Medidas descritivas

Exemplo 3
Tempo (em minutos) de circulao extracorporal (CEC) em 94
doentes submetidos a interveno ao corao, entre Maio de
1980 e Dezembro de 1988, no Hospital de Santa Cruz
118

162

145

150

195

77

86

70

85

120

180

150

300

172

85

120

52

402

110

143

80

210

251

207

120

95

80

99

58

188

90

30

87

115

160

150

98

90

190

86

147

118

110

85

97

172

177

222

80

85

210

142

120

113

117

155

117

180

50

145

97

403

117

119

145

237

153

168

102

166

225

124

93

207

114

157

100

155

120

155

295

120

65

69

53

164

115

145

230

140

98

180

37

218

Fonte: Murteira (1993, p. 9798)


127

Cristina Costa

Medidas descritivas

Exemplo 3
Mdia = 139.72
Min = 30
Q1 = 95
Mediana = Q2 = 120
Q3 = 168

Neste caso, as barreiras


inferiores, interna (BII) e externa
(BEI), so irrelevantes porque
so menores que zero e a
varivel positiva.

Max = 403
IQ = 73
BIS = 168 + 1.5x73 = 277.5
BES = 168 + 3x73 = 387
Cristina Costa

128

Medidas descritivas

Exemplo 3

129

Cristina Costa

Medidas descritivas

Exemplo 3

OUTLIERS
Moderados

295 minutos
300 minutos
Severos

402 minutos
403 minutos

Cristina Costa

130

Teoria das Probabilidades

Introduo

Teoria das Probabilidades: Introduo

Exemplo 4
Distribuio do peso de 500 cigarros SG Filtro
Peso (em mgrs)

N de cigarros

% de cigarros

760 780

0.008

780 800

43

0.086

800 820

118

0.236

820 840

168

0.336

840 860

117

0.234

860 880

39

0.078

880 900

11

0.022

Total

500

Fonte: Murteira (1993, p. 34)

Cristina Costa

132

Teoria das Probabilidades: Introduo

Exemplo 4
Distribuio do peso de 500 cigarros SG Filtro

Mdia Moda Mediana 830 mgrs

Desvio-padro 23.63 mgrs


0.4
0.35

% cigarros

0.3
0.25
0.2
0.15
0.1
0.05
0
770

790

810

830

850

870

890
peso (mgrs)

Histograma

Curva de frequncias

Cristina Costa

133

Teoria das Probabilidades: Introduo

Exemplo 4
Distribuio do peso de 500 cigarros SG Filtro

Nenhum cigarro da amostra pesa menos de 760 mgrs

O peso mdio dos cigarros da amostra de 830,48 mgrs

Podemos concluir?
?

Nenhum cigarro SG Filtro, venda no mercado, pesa menos de


760 mgrs

Caso fosse retirada outra amostra de 500 cigarros, o peso mdio de


cada cigarro seria ainda, exactamente, 830.48 mgrs

Cristina Costa

134

Teoria das Probabilidades: Introduo

Soluo: obter um modelo da distribuio de frequncias


uma expresso algbrica que descreve a frequncia relativa
(altura da curva de frequncias) para todos os valores possveis
da varivel
Designa-se por modelo probabilstico ou distribui
distribuio de
probabilidade

135

Cristina Costa

Teoria das Probabilidades: Introduo

Exemplo 4
Se assumirmos que o peso mdio de cada cigarro =830 mgrs
e que o desvio padro =24 mgrs, ento podemos formular o
seguinte modelo probabilstico
Funo de probabilidade

1
24 2

770

790

810

830

850

870

1 x 830

e 2 24

890
peso (mgrs)

Curva de frequncias

Cristina Costa

136

Teoria das Probabilidades: Introduo

Exemplo 4
Este modelo probabilstico designa-se Distribuio Normal de
parmetros =830 e =24

Se alterarmos os valores dos parmetros de uma distribuio, o


aspecto da curva altera-se

Permitem, ento, que a mesma distribuio seja utilizada para


descrever um vasto conjunto de fenmenos reais

23.4% dos cigarros da amostra pesam entre 840 e 860 mgrs


A probabilidade de um cigarro SG Filtro, venda no mercado,
pesar entre 840 e 860 mgrs igual a 23.16%

Cristina Costa

137

Teoria das Probabilidades: Introduo

A distribuio de frequncias um conceito emprico que, na


maior parte dos casos, diz respeito a uma amostra

A distribuio de probabilidade um conceito terico ligado


populao e deve olhar-se como um modelo matemtico da
distribuio observada
A probabilidade de um acontecimento pode ser entendida como
a frequncia relativa terica desse acontecimento num modelo
da populao

Cristina Costa

138