Você está na página 1de 47

Estatstica Descritiva e Anlise Exploratria de Dados

Iola Maria Silvrio Pinto


ipinto@deetc.isel.ipl.pt

Ano Lectivo 2010/2011

Estatstica Descritiva e Anlise Exploratria de Dados

1.Conceitos e definies

A Estatstica Descritiva tem como objectivo


descrever e manipular a informao que nos fornecida, caracterizando assim o conjunto de

dados de que se dispe.

Estatstica Descritiva e Anlise Exploratria de Dados

1.Conceitos e definies
Populao um conjunto vasto de elementos cujas caractersticas se pretendem estudar;
populao finita Ex: n total de alunos do ISEL .

Pode ser estudada pelo censo ou sondagem


populao infinita Ex: populaes de determinadas espcies que se estudam em Biologia Marinha. Tem de ser estudadas atravs de
Estatstica Descritiva e Anlise Exploratria de Dados 3

amostras

1.Conceitos e definies
Amostra um subconjunto finito da populao, que deve ser o mais representativo possvel da

populao.
Para obter a amostra utilizam-se as

Tcnicas de Amostragem
Estatstica Descritiva e Anlise Exploratria de Dados 4

1.Conceitos e definies
Estatstica Indutiva tem como objectivo a aprendizagem de tcnicas, que a partir da

informao contida na amostra, permitem tirar


concluses cerca da populao.

Estatstica Descritiva e Anlise Exploratria de Dados

1.Conceitos e definies
Exemplos de reas onde se utiliza a estatstica:
Na rea do controle de qualidade, principalmente quando os riscos so grandes: Indstria farmacutica; Construo e manuteno de avies; Centrais termonucleares; Na rea econmica e de gesto: Bancos e seguradoras ( gesto de carteiras de risco mdioalto); Administrao estatal;
Estatstica Descritiva e Anlise Exploratria de Dados 6

1.Conceitos e definies
Exemplos de reas onde se utiliza a estatstica:
reas de Biologia e Bio-medicina: controle estatstico de experincias; rea da epidemiologia: estudos sobre a prevalncia de certas doenas contagiosas como por exemplo a SIDA; reas da Engenharia: estudo do desempenho de tecnologias de redes de comunicaes mveis;

Estatstica Descritiva e Anlise Exploratria de Dados

1.Conceitos e definies
Fases do mtodo estatstico:
- definio do problema; - planificao; - recolha de dados; - organizao dos dados; - anlise e interpretao dos dados.

Estatstica Descritiva e Anlise Exploratria de Dados

2. Os Dados Estatsticos
Varivel uma caracterstica ou um atributo da populao que se apresenta em vrias modalidades. A cada modalidade corresponde um valor assumido pela varivel. Dado estatstico o resultado da observao de um atributo da populao.

Estatstica Descritiva e Anlise Exploratria de Dados

2. Os Dados Estatsticos
As variveis podem ser de natureza Qualitativa Quantitativa DADOS QUALITATIVOS As variveis qualitativas so utilizadas para o estudo de caractersticas no numricas da populao. Em geral, so estudadas por contagens ou frequncias absolutas, ou percentagens ou frequncias relativas das classes ou categorias.
Estatstica Descritiva e Anlise Exploratria de Dados 10

2.Os Dados Qualitativos


Escalas utilizadas em dados qualitativos

Escala nominal
Os dados esto expressos numa escala nominal quando so identificados pela atribuio de um nome que designa uma classe.

As classes devem ser:


Exaustivas (qualquer dado pertence a uma das classes);

Estatstica Descritiva e Anlise Exploratria de Dados

11

2.Os Dados Qualitativos


mutuamente exclusivas (cada dado pertence a uma s classe); no ordenveis (no existem critrios que definam preferncias por qualquer classe em relao s restantes).
Exemplo 1: Classificao de pessoas pela cor do Cabelo; Exemplo 2: Classificao dos consumidores de bens de primeira necessidade pelos escales etrios.

Estatstica Descritiva e Anlise Exploratria de Dados

12

2. Os Dados Qualitativos
Escala ordinal Os dados esto expressos numa escala ordinal quando so identificados pela atribuio de um nome que designa uma classe, no entanto existe a possibilidade de estabelecer uma ordenao

das classes, segundo um critrio relevante.


Estatstica Descritiva e Anlise Exploratria de Dados 13

2.Os Dados Qualitativos


Exemplo 3: Classificaes obtidas pelos alunos num teste de Estatstica: mau, medocre, suficiente, bom e muito bom.

Exemplo 4:Classificao dos clientes segundo o volume de encomendas que colocam: clientes muito importantes (A), clientes importantes (B) ou clientes menos

importantes (C).
Estatstica Descritiva e Anlise Exploratria de Dados 14

3.Tratamento de dados Qualitativos


Exerccio 1: No DEETC existem 4 impressoras que se encontram disponveis no servidor Safira. Com o intuito de conhecer as preferncias dos utilizadores quanto impressora que usualmente seleccionam, realizou-se um estudo com 50 utilizadores, tendo-se obtido os

resultados que constam do quadro seguinte:


Estatstica Descritiva e Anlise Exploratria de Dados 15

3.Tratamento de dados Qualitativos


Exerccio 1

Impressora seleccionada
1 - Oki C9200 2 - HP Color Laserjet 4700 dtn 3 - HP Laserjet 4200 dtn 4 - HP Laserjet 4500 dtn

N de utilizadores
4 23 16 7

Frequncia relativa %
8% 46% 32% 14%

Varivel em estudo: impressora seleccionada com 4 categorias;

Estatstica Descritiva e Anlise Exploratria de Dados

16

3.Tratamento de dados Qualitativos


Distribuio de frequncias:
A partir dum conjunto de dados, identifica-se a varivel a estudar, bem como o conjunto de valores que a varivel pode assumir. A frequncia absoluta Fi, permite conhecer o nmero de vezes que cada um dos valores da varivel foi observado.

A frequncia relativa, fi ,obtm-se a partir da frequncia absoluta, dividindo cada frequncia absoluta pelo n total de observaes, N.
Estatstica Descritiva e Anlise Exploratria de Dados 17

4. Representao grfica dos dados Qualitativos


Grfico de Barras Grfico circular

Estatstica Descritiva e Anlise Exploratria de Dados

18

4. Representao grfica dos dados Qualitativos


Grfico de Barras
uma representao dos dados em que se usam barras separadas de igual largura, cuja altura proporcional frequncia ( absoluta ou relativa) que corresponde a cada valor ou categoria que a varivel assume.

Grfico Circular
Representa os dados num crculo dividido em sectores circulares cuja rea ( e o ngulo ao centro correspondente) proporcional frequncia da Categoria/ classe que representam.
Estatstica Descritiva e Anlise Exploratria de Dados 19

5. Dados Quantitativos
Dados Quantitativos: so dados que se conseguem medir, ou
seja, descrevem caractersticas numricas da populao. Utilizamse para estes dados as escalas intervalares ou de razo.

Discretos: Assumem um n finito de observaes ou infinito

numervel;
Contnuos: Assumem valores num intervalo ou sub-intervalo real,

tomando uma infinidade de valores;


Estatstica Descritiva e Anlise Exploratria de Dados 20

5. Dados Quantitativos
Escalas
Escala intervalar Os valores assumidos pela varivel em estudo esto ordenados

estabelecendo-se ainda uma distncia entre os pontos da escala, baseada na


existncia de uma unidade de medida. A origem da escala arbitrria. Ex: temperatura, altitude; Escala absoluta Nesta escala encontramos as mesmas caractersticas que na escala intervalar, no entanto a origem fixa e o zero significa ausncia ou nada. Ex: altura, % de concentrao de um gs.
Estatstica Descritiva e Anlise Exploratria de Dados 21

5. Dados Quantitativos
Exerccio 2: Dados Quantitativos Discretos
Foram inquiridos 48 alunos de um curso do DEETC do perodo diurno, relativamente sua idade, tendo-se obtido os seguintes resultados:

Idades N alunos

18 15

19 15

20 7

21 4

22 3

23 4

Varivel em estudo: idade dos alunos inquiridos;


Estatstica Descritiva e Anlise Exploratria de Dados 22

5.Dados Quantitativos
Tabela de frequncias dados agrupados
Idades Fi Fi cum fi fi cum

18 19
20 21 22 23

15 15
7 4 3 4

15 30
37 41 44 48

15/48 15/48
7/48 4/48 3/48 4/48

0,3125

0,625

1
23

Estatstica Descritiva e Anlise Exploratria de Dados

5.Dados Quantitativos
Exemplo A: Suponhamos que foi retirado da produo de uma
fbrica um conjunto de 30 lmpadas de 60 Watts. Foi realizado um teste durabilidade (em horas) das lmpadas e os resultados obtidos esto registados no quadro seguinte:
963,4 1175,9 1001,7 1198,2 1078,3 1065,4 1124,8 1083,8 1092,7 1143,8 1087,3 1114,1 1089,5 1133,5 1072,8 1003,4 922,0 1121,8 1142,0 950,1 988,8 1021,7 1052,1 987,2 1074,1 1109,8 1108,4

1099,3 1075,6 901,3

Varivel em estudo: nmero de horas que a lmpada funciona at se fundir;


Estatstica Descritiva e Anlise Exploratria de Dados 24

5.Dados Quantitativos
Para proceder ao agrupamento destes dados torna-se mais

adequado a construo de classes, dado que se utilizssemos as


observaes e construssemos uma tabela de frequncias iramos obter demasiados casos diferentes, cujas frequncias relativas iriam ser muito baixas. As distribuies de frequncias para dados quantitativos podem ser: - De valores agrupados: mais indicado para variveis discretas, ou para um baixo nmero de observaes;
Estatstica Descritiva e Anlise Exploratria de Dados 25

5.Dados Quantitativos
De valores agrupados em intervalos de classe:
mais indicado para variveis contnuas, quando o nmero de valores assumidos pela varivel grande; No existem normas muito rgidas para construir os intervalos, no entanto podemos dar algumas indicaes:

Nenhuma classe deve ter frequncia nula;


Os limites das classes devem ser definidos de forma a que cada observao seja includa num s intervalo e que todos os elementos da amostra estejam includos em algum intervalo;
Estatstica Descritiva e Anlise Exploratria de Dados 26

Tabela de frequncias dados agrupados em intervalos de classe: exemplo A


Ponto mdio do intervalo ]a,b] (a+b)/2 Para determinar nmero de classes, k:
Frmula de Sturges classes Ponto mdio Fi fi

]900,950] ]950, 1000] ]1000,1050]

925 975 1025

2 4 3

1/15 2/15 1/10

k=Int[1+3,22.log10(N)]
Regra emprica

]1050, 1100]
]1100, 1150]

1075
1125 1175

11
8 2

11/30
4/15 1/15

Se N< 25

vem

K=5

]1150, 1200]

Se N 25N 25, k N vem k

N
27

Estatstica Descritiva e Anlise Exploratria de Dados

5. Representao grfica dos dados quantitativos contnuos


Histograma

(dados quantitativos contnuos)


uma representao dos dados em que se marcam as classes no eixo horizontal e as frequncias no eixo vertical (pode-se utilizar qualquer frequncia). Desenham-se barras de rea proporcional

frequncia de cada classe. As barras so contguas.

Estatstica Descritiva e Anlise Exploratria de Dados

28

5. Representao grfica dos dados quantitativos contnuos


Exemplo A

Estatstica Descritiva e Anlise Exploratria de Dados

29

5. Representao grfica dos dados quantitativos contnuos


Cada um dos rectngulos do histograma tem rea dada por (h x fi) onde h representa a amplitude de cada um dos intervalos de classe e fi representa a frequncia relativa da classe i. Quando os intervalos de classe no tm todos a mesma amplitude, a constante de proporcionalidade entre as reas dos rectngulos e as respectivas frequncias deixa de ser idntica para todos os intervalos. Neste caso, o histograma deve ser construdo utilizando para cada rectngulo a altura fi/hi.
Estatstica Descritiva e Anlise Exploratria de Dados 30

5. Representao grfica dos dados quantitativos contnuos


Polgono de frequncias ordinrias (dados quantitativos contnuos) uma representao dos dados em que se une por segmentos de recta todos os pontos cuja abcissa o centro duma classe e a ordenada a frequncia dessa classe. Em cada extremo coloca-se, habitualmente, uma classe

adicional de frequncia nula.


Estatstica Descritiva e Anlise Exploratria de Dados 31

5. Representao grfica dos dados contnuos


Polgono de frequncias acumuladas ou Ogiva

(dados quantitativos contnuos)


uma representao dos dados em que se une por segmentos de recta todos os pontos cujas abcissas so os limites superiores das classes e as ordenadas as correspondentes frequncias acumuladas. esquerda comea-se a unir no limite inferior da primeira classe que tem ordenada zero.
Estatstica Descritiva e Anlise Exploratria de Dados 32

6. Medidas Descritivas: localizao central


Mdia, Mediana e Moda Com x1, x2,,xN , uma amostra com N observaes Mdia - Dados no agrupados - Dados agrupados

x
i 1

N
i i

F .x
i

N
33

Estatstica Descritiva e Anlise Exploratria de Dados

6. Medidas Descritivas: localizao central


Mediana o valor da varivel que divide as observaes

em duas partes iguais. Considerando os k valores das


observaes ordenados por ordem crescente:
x1 x 2 ... x k
Se k=2m+1 (mpar),

Me x m1
x m x m1 Me 2

Se K=2m (par),

Estatstica Descritiva e Anlise Exploratria de Dados

34

6. Medidas Descritivas: localizao central


Moda o valor da varivel a que corresponde

a mais elevada frequncia absoluta ou relativa


ordinria.

Estatstica Descritiva e Anlise Exploratria de Dados

35

6. Medidas Descritivas: localizao central


A relao entre a mdia a mediana e a moda caracteriza a Distribuio quanto assimetria.
1. Distribuio Simtrica Mdia = Mediana = Moda 2. Distribuio Assimtrica positiva ou enviesada esquerda Moda < Mediana < Mdia 3. Distribuio Assimtrica negativa ou enviesada direita Mdia < Mediana < Moda
Estatstica Descritiva e Anlise Exploratria de Dados 36

7. Medidas Descritivas: posio no central


Quartis, Decis e Percentis
Existem 3 quartis: .

Q1 obtm-se determinando a mediana do conjunto de


valores observados que fica esquerda da mediana; Q2 corresponde mediana; Q3 obtm-se calculando a mediana do conjunto de valores que

fica direita da mediana;

Estatstica Descritiva e Anlise Exploratria de Dados

37

7. Medidas Descritivas: posio no central


Diagrama de Extremos e Quartis: Exerccio 2

Estatstica Descritiva e Anlise Exploratria de Dados

38

8. Medidas Descritivas: disperso


Varincia e Desvio padro
A Varincia uma medida da variabilidade dos valores das observaes relativamente ao valor mdio. A varincia vem expressa em unidades ao quadrado, sendo por isso utilizado a raiz quadrada do seu valor, o Desvio Padro.

s
2

Fx
i

2 i

F
i i i 2

x
2

d F
2 i i

F
i i

s
2

d F
2 i i

F 1
i i i 2

d x x
i

d x x
i

s s

s s
Estatstica Descritiva e Anlise Exploratria de Dados

39

8. Medidas Descritivas: disperso


Coeficiente de variao
Utiliza-se frequentemente quando o objectivo proceder a um estudo comparativo das disperses de dois conjuntos de

observaes expressas em diferentes unidades de medida.

s cv x
Estatstica Descritiva e Anlise Exploratria de Dados 40

9. Medidas Descritivas: Assimetria e Kurtosis


Medidas de Assimetria Coeficiente de assimetria: mede o desvio que a distribuio de
frequncias apresenta relativamente recta vertical que passa pela
abcissa correspondente ao valor da mdia aritmtica.

Medidas de Achatamento ou Kurtosis Coeficiente de achatamento: mede o grau de achatamento


duma curva simtrica, tendo como padro a curva da distribuio normal, cujo valor de achatamento 3.
Estatstica Descritiva e Anlise Exploratria de Dados 41

9. Medidas Descritivas: Assimetria


A assimetria a falta de simetria do histograma, ou da curva de frequncias, em relao recta vertical que passa pela abcissa correspondente mdia aritmtica.

As medidas de assimetria sintetizam o enviesamento, a deformao ou a assimetria de uma distribuio.


Estatstica Descritiva e Anlise Exploratria de Dados 42

9. Medidas Descritivas: Assimetria


O coeficiente de assimetria permite medir o grau de assimetria, que tanto mais acentuado quanto mais elevados so os valores absolutos do coeficiente de assimetria.
m3 Ca 3 , com m3 s Fdi 3 i
i

F
i

Estatstica Descritiva e Anlise Exploratria de Dados

43

9. Medidas Descritivas: Assimetria


Ca< 0 : distribuio assimtrica negativa Ca= 0 : distribuio simtrica Ca> 0 : distribuio assimtrica positiva

Estatstica Descritiva e Anlise Exploratria de Dados

44

10. Medidas Descritivas: Achatamento


O achatamento de uma distribuio refere-se intensidade das frequncias nos valores vizinhos dos valores centrais.

As medidas de achatamento ou curtose medem o grau de afunilamento, ou de achatamento de uma curva simtrica, em relao curva normal ( simtrica em relao recta vertical que passa pelo ponto mdio).

Estatstica Descritiva e Anlise Exploratria de Dados

45

10. Medidas Descritivas: Achatamento


O coeficiente de curtose uma medida de achatamento relativa:

m4 Ccr 4 , com m4 s

Fdi 4 i
i

F
i

Estatstica Descritiva e Anlise Exploratria de Dados

46

10. Medidas Descritivas: Achatamento


Ccr< 3 : curva platicrtica (mais achatada que a curva da distribuio normal)

Ccr=3 : curva mesocrtica (o achatamento igual ao da curva da distribuio normal)

Ccr > 3 : curva leptocrtica (menos achatada do que a curva da distribuio normal)
Estatstica Descritiva e Anlise Exploratria de Dados 47