Você está na página 1de 60

AULA1-AULA5

Estatstica Descritiva

Prof. Victor Hugo Lachos Davila

oO que a estatstica ?
Para muitos, a estatstica no passa de conjuntos de tabelas de dados numricos. Os estatsticos so pessoas que coletam esses dados. A estatstica originou-se com a coleta e construo de tabelas de dados para os governos A situao evoluiu e esta coleta de dados representa somente um dos aspectos da estatstica.

Definio de Estatstica

A estatstica um conjunto de tcnicas que permite, de forma sistemtica, organizar, descrever, analisar e interpretar dados oriundos de estudos ou experimentos, realizados em qualquer rea do conhecimento.

reas da Estatstica

1.- Estatstica Descritiva 2.- Probabilidade 3.- Inferncia estatstica

ESTATSTICA DESCRITIVA
A estatstica descritiva a etapa inicial da anlise utilizada para descrever e resumir os dados. A disponibilidade de uma grande quantidade de dados e de mtodos computacionais muito eficientes revigorou est rea da estatstica.

PROBABILIDADE A teoria de probabilidades nos permite descrever os fenmenos aleatrios, ou seja, aqueles em que est presente a incerteza.

INFERENCIA ESTATISTICA E o estudo de tcnicas que possibilitam a extrapolao, a um grande conjunto de dados, das informaes e concluses obtidas a partir da amostra.

Etapas da Analise Estatstica

AMOSTRAGEM
Uma rea importante em muitas aplicaes Estatsticas a da Tecnologia de Amostragem. Exemplos de Aplicao: Pesquisa de mercado, Pesquisa de opinio, Avaliao do processo de produo, Praticamente em todo experimento.

Amostragem Aleatria
Cada elemento da populao tem a mesma chance de ser escolhido.

Amostragem Estratificada
Classificar a populao em, ao menos dois estratos e extrair uma amostra de cada um.

Amostragem Sistemtica
Escolher cada elemento de ordem k.
10

Amostragem por Conglomerados


Dividir em sees a rea populacional, selecionar aleatoriamente algumas dessas sees e tomar todos os elementos das mesmas.

Amostragem de Convenincia
Utilizar resultados de fcil acesso.

11

Exemplo 1
Numa pesquisa eleitoral, um instituto de pesquisa procura, com base nos resultados de um levantamento aplicado a uma amostra da populao, prever o resultado da eleio.

12

Na eleio Presidencial Os Institutos de Pesquisa de opinio colhem periodicamente amostras de eleitores para obter as estimativas de inteno de voto da populao. As estimativas so fornecidas com um valor e uma margem de erro. O quadro do Instituto Toledo & Associados, a seguir refere-se inteno de voto no 1 turno das eleies para o governo em 2002.
13

Inteno de voto para presidente do Brasil-2002 Voto estimulado,em % do total de votos.A ultima pesquisa ouviu 2.202 eleitores- Margem de erro de 2,09%

4 6 ,3 % 3 4 ,9 % 4 0 ,5 % 3 4 ,3 %

L u la (P T )

3 3 ,6 % 2 2 ,8 % 2 3 ,3 % 1 7 ,6 % 1 3 ,8 % 1 2 ,1 % 9 ,0 % 1 0 ,5 % Ju n i o Ju l /A g o 1 4 ,8 % 1 1 ,3 % S e t/O u t

S e rr a ( P S D B ) C iro (P P S ) G a ro tin h o (P S B ) 1 2 ,6 %
M aio 1 3 ,8 %

Fonte:Pesquisa toledo& Associados.


14

Confronto no segundo turno.

Grfico de setores ou em forma de pizza

15

Tabela 1.1 Informao do estado civil, grau de instruo, nmero de filhos, idade e procedncia de 36 funcionrios sorteados ao acaso da empresa MB.(Bussab e Morettin)
No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 Estado Civil Solteiro Casado Casado Solteiro Solteiro Casado Solteiro Solteiro Casado Solteiro Casado Solteiro Solteiro Casado Casado Solteiro Casado Casado Solteiro Solteiro Casado Solteiro Solteiro Casado Casado Casado Solteiro Casado Casado Casado Solteiro Casado Casado Solteiro Casado Casado Grau de Instruo 1 0 grau 1 0 grau 1 0 grau 2 0 grau 1 0 grau 1 0 grau 1 0 grau 1 0 grau 2 0 grau 2 0 grau 2 0 grau 1 0 grau 2 0 grau 1 0 grau 2 0 grau 2 0 grau 2 0 grau 1 0 grau Superior 2 0 grau 2 0 grau 2 0 grau 1 0 grau Superior 2 0 grau 2 0 grau 1 0 grau 2 0 grau 2 0 grau 2 0 grau Superior 2 0 grau Superior Superior 2 0 grau Superior No de filhos 1 2 0 1 2 3 0 1 2 1 0 2 2 0 5 2 1 3 2 3 Salrio (X Sal. M in) 4,00 4,56 5,25 5,73 6,26 6,66 6,86 7,39 7,59 7,44 8,12 8,46 8,74 8,95 9,13 9,35 9,77 9,80 10,53 10,76 11,06 11,59 12,00 12,79 13,23 13,60 13,85 14,69 14,71 15,99 16,22 16,61 17,26 18,75 19,40 23,30 Idade Regio de anos m eses procedncia 26 03 Interior 32 10 Capital 36 05 Capital 20 10 Outro 40 07 Outro 28 00 Interior 41 00 Interior 43 04 Capital 34 10 Capital 23 06 Outro 33 06 Interior 27 11 Capital 37 05 Outro 44 02 Outro 30 05 Interior 38 08 Outro 31 07 Capital 39 07 Outro 25 08 Interior 37 04 Interior 30 09 Outro 34 02 Capital 41 00 Outro 26 01 Outro 32 05 Interior 35 00 Outro 46 07 Outro 29 08 Interior 40 06 Interior 35 10 Capital 31 05 Outro 36 04 Interior 43 07 Capital 33 07 Capital 48 11 Capital 42 02 Interior

16

17

Varivel
Qualquer caracterstica associada a uma populao Classificao de variveis

Qualitativa Quantitativa

{ {

Nominal Ordinal Contnua

sexo, cor dos olhos

Classe social, grau de instruo Peso, altura,salario

Discreta

Nmero de filhos, numero de carros

18

Medidas Resumo Variveis Quantitativas


MEDIDAS DE POSIO: Moda, Mdia, Mediana, Percents, Quartis.

MEDIDAS DE DISPERSO: Amplitude, Intervalo-Interquartil, Varincia, Desvio Padro, Coeficiente de Variao.

19

Medidas de Posio Moda(mo): o valor (ou atributo) que ocorre com maior freqncia.Moda Ex: 4,5,4,6,5,8,4,4 Mo = 4
Variavel qualitativa

20

Mdia
x =

x
n

+ ... +

x
i=1

Ex:2,5,3,7,8 Mdia = [(2+5+3+7+8)/5]=5


21

A mediana o valor da varivel que ocupa a posio central de um conjunto de n dados ordenados. Posio da mediana: (n+1)/2 Ex: 2,5,3,7,8 Dados ordenados: 2,3,5,7,8 => (5+1)/2=3 => Md = 5

Mediana

Ex: 3,5,2,1,8,6 Dados ordenados:1,2,3,5,6,8 => (6+1)/2=3,5 => Md=(3+5)/2=4


22

Percentis
O percentil de ordem px100 (0<p<1), em um conjunto de dados de tamanho n, o valor da varivel que ocupa a posio px(n+1) do conjunto de dados ordenados. O percentil de ordem p (ou p-quantil) deixa px100% das observaes abaixo dele na amostra ordenada. Casos Particulares:

Percentil 50=mediana, segundo quartil(md,Q2,q(0,5))

Percentil 25= primeiro quartil (Q1), q(0,25) Percentil 75= terceiro quartil (Q3) , q(0,75)

23

O p-quantil, 0<p<1, pode ser calculado como:

i 0 .5 x (i) , se p = p i = , i = 1,..., n n q ( p ) = (1 - f i ) q ( p i ) + f i q ( p i + 1 ), se p i < p < p i + 1 x (1) , se p < p 1 x


Onde:
(n),

se p > p

p pi i 0.5 f i= , pi = p i+1 p i n

Estatisticas de ordem

x ( 1 ) x ( 2 ) x ( 3 ) ......

x (n)
24

Exemplos
Ex(1): 15,5,3,8,10,2,7,11,12 =>n=9 => ordenamos: 2<3<5<7<8<10<11<12<15 P1=1/18; p2=3/18; p3=5/18; p4=7/18; p5=1/2; p6=11/18; p7=13/18; p8=15/18; p9=17/18
Posio Md : q(0.5)=8 Posio de Q1: q(0.25)=4,5 Posio de Q3: q(0.75)=11,25

25

Exemplo 2: Considere as notas de um teste de 3 grupos de alunos: Grupo 1: 3, 4, 5, 6, 7; Grupo 2: 1, 3, 5, 7,9; e Grupo 3: 5,5,5,5,5.

G1 G2

0 0

10 10

G3

0
5

10

Temos : x 1 = x 3 = x 3 = 5

Md 1 = Md 3 = Md 3 = 5
26

Medidas de Disperso
Finalidade: encontrar um valor que resuma a variabilidade de um conjunto de dados Amplitude (A): A=mx-min Para os grupos anteriores, temos: Grupo 1, A=4 Grupo 2, A=8 Grupo 3, A=0
27

Intervalo-Interquartil (d)
a diferena entre o terceiro quartil e o primeiro quartil, ou seja, d= Q3-Q1

Ex(1): 15,5,3,8,10,2,7,11,12 Q1=4,5 e Q3=11,25 d =Q3-Q1=4,9-2,05=2,85


Max,Min,Q1,Q3,Q2: importantes para se ter uma boa ideia da forma dos dados (simetrica ou assimetrica) e construir box-plots
28

Varincia
S
2

(x1x) + (x2x) + ...+ (xnx) = =


2 2 2

(xi x)2
i=1

n 1

n 1

Desvio padro S

Desvio Padro : S = Varincia

29

Clculo da varincia para o grupo 1:

G1:3, 4, 5, 6, 7: Vimos que:


(35)2 +(45)2 +(55)2 +(65)2 +(75)2 10 = =2,5 S2 = 51 4

x =5

Desvio padro

S=

2,5 = 1,58

G1 : S G2 :S G3 :S

2 2 2

= 2 ,5 = 10 =0

S = 1,58 S = 3,16 S =0
30

Coeficiente de Variao (CV)


uma medida de disperso relativa; Elimina o efeito da magnitude dos dados; Exprime a variabilidade em relao a mdia til Comparar duas ou mais variveis

S CV = 100 % X

31

Exemplo 4: Altura e peso de alunos


Mdia Altura Peso 1,143m 50Kg Desvio padro 0,063m 6kg Coeficiente de variao 5,5% 12%

Concluso: Com relao as mdias, os alunos so, aproximadamente, duas vezes mais dispersos quanto ao peso do que quanto a altura

32

ORGANIZAO E REPRESENTAO DOS DADOS


Uma das formas de organizar e resumir a informao contida em dados observados por meio de tabela de freqncias e grficos.

Tabela de freqncia: relaciona categorias (ou classes) de valores,

juntamente com contagem (ou freqncias) do nmero de valores que se enquadram em cada categoria ou classe.

1. Variveis qualitativas: Podemos construir tabela de freqncia que os quantificam por categoria de classificao e sua representao grfica mediante grfico de barras, grfico setorial ou em forma de pizza.

33

Exemplo 1: Considere ao varivel grau de Instruo dos dados da tabela 1.(Varivel qualitativa) Grau de instruo 1o Grau 2o Grau Superior total

Tabela de freqncia
Contagem

fi
12 18 6 n=36

f ri
0,3333 0,5000 0,1667 1,0000

f ri %
33,3% 50 % 16.7% 100%

fi
f ri

:Frequncia absoluta da categoria i (nmero de indivduos que pertencem categoria i fi = : Frequncia relativa da categoria i n

f ri % = f ri *100% : Frequncia relativa percentual da categoria i


34

Representao grfica de variveis qualitativas


Grfico de Barras Diagrama circular, de sectores ou em forma de pizza
Diagrama de barras para a varivel grau de instruo
60,00% 50,00% 50,00% 40,00% 33,33% 30,00% 20,00% 10,00% 0,00% 1o Grau 2o Grau Superior 16,70%

35

Diagrama circular para a variavel grau de instruo

1oG (33 ) rau .3%

Diagrama circular para a varivel grau de instruo


Superior 17%

1o Grau 33%

2oG (50 ) rau .0%

S e r (1 .7% up rio 6 )

2o Grau 50%

36

2. Organizao e representao de variveis quantitativas 2.1 Quantitativas discretos: Organizam-se mediante tabelas de frequncias e a representao grfica mediante grfico de barras Exemplo: Considere a varivel nmero de filhos dos dados da tabela 1. Tabela 2.1:Distribuio de freqncias de funcionrios da empresa, segundo o nmero de filhos
i Nmero de filhos (Xi ) 0 1 2 3 5 total Nmero de funcionrios (fi ) 4 5 7 3 1 20 % de funcionrios (fri) 20% 25% 35% 15% 5% 100%
37

1 2 3 4 5

Observao 1: A partir da tabela 2.1 podemos recuperar as 20 observao da tabela 1.1, ou seja, aqui no temos perda de informao dos dados originais. Representao grfica : Diagrama de Barras

35

35%

Mo=2

%de funcionrios

25 20%

25%

15% 15 5% 5 0 1 2 3 4 5

Nmero de filhos
38

Determinao das medidas de posio e medidas de disperso para variveis quantitativas discretas agrupados em tabela de freqncias:

Mdia:

X 1 f1 + X 2 f 2 + L + X k f k X = = n

X
i =1

fi

Exemplo: Considere a tabela 2.1 e determine a mdia de filhos dos funcionrios.

X =

0 4 + 1 5 + 2 7 + 3 3 + 5 1 33 = = 1,65 20 20

Mediana: Dados ordenados: 0 0 0 0 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 5 => (20+1)/2=10,5

=> Md = (2+2) /2=2

39

Varincia:

( X 1 X ) 2 f1 + ( X 2 X ) 2 f 2 + L + ( X k X ) 2 f k 2 S = = n 1
Clculo da varincia para os dados da tabela 2.1

i =1

(X i X )2 fi n 1

4(0 1,65) 2 + 5(1 1,65) 2 + 7 ( 2 1,65) 2 + 3(3 1,65) 2 + (5 1,65) 2 S2 = 19 16,3125 = = 0,858553 19
Desvio padro:

S=

S 2 = 0,858553 = 0,927

40

2.2 Quantitativas continuas: Os seus valores podem ser qualquer nmero real e ainda geralmente existe um grande nmero de valores diferentes. Como proceder a construir uma tabela de frequncia nestes casos?

A alternativa consiste em construir classes ou faixas de valores e contar o nmero de ocorrncias em cada faixa

No caso da variavel salario podemos considerar as seguintes faixas de valores: [4,0; 7,0); [7,0;10,0);...... NOTAO: 4,0|----7,0

41

2.2 Procedimento de construo de tabelas de freqncia para variveis contnuas: 1. Escolha o nmero de intervalos de classe (k) 2. Identifique o menor valor (MIN) e o valor mximo (MAX) dos dados. 3. Calcule a amplitude dos dados (A): A=MAX MIN 4. Calcule o comprimento de cada intervalo de classe (h): h = A k 5. Arredonde o valor de h de forma que seja obtido um nmero conveniente. 6. Obtenha os limites de cada intervalo de classe.
PRIMEIRO Limite Limite INTERVALO : LI
1

: + h

inferior superior

= MIN
1

: LS

= LI

42

SEGUNDO Limite Limite inferior

INTERVALO : LI
2

:
1 2

= LS
2

superior

: LS

= LI

+ h :

k - SIMO Limite Limite

INTERVALO : LI
k

inferior superior

= LS
k

k 1 k

: LS

= LI

+ h

7. Construa uma tabela de freqncias, constituda pelas seguintes colunas: Nmero de ordem de cada intervalo (i) Limites de cada intervalo. Os intervalos so fechados esquerda e aberta direita: NOTAO:|----

43

Ponto mdio (ou marca de classe) de cada intervalo de classe:

LSi + LI i = 2

Contagem dos dados pertencentes a cada intervalo. Freqncias absolutas de cada intervalo de classe. Freqncias relativas de cada intervalo de classe. Freqncias acumuladas absolutas de cada intervalo de classe.

Fi = f1 + f 2 + L + f i =

j =1

Freqncias acumuladas relativa de cada intervalo de classe.

Fri = f r1 + f r2 + L+ f ri =

j =1

Fi f rj ; ou Fri = n
44

Exemplo: Considere a varivel salrio da empresa comercializadora de produtos de informtica. Procedimento: 1. Considere k=5. 2. MIN=4; MAX=23,30. 3. A=MAX-MIN=23,30-4=19,30 4. h=19,3/5=3,86 5. h3,9 6. Clculo dos limites de cada intervalo:
PRIMEIRO LI 1 = 4 LS
1

INTERVALO

= 4 + 3 ,9 = 7 ,9 INTERVALO

SEGUNDO LI 2 = 7 , 9 LS
2

= 7 , 9 + 3 , 9 = 11 , 8

Os demais limites dos procedimento anterior.

intervalos

foram

gerados

seguindo

o
45

Ponto mdio:X

(4 + 7,9) = 5,95; =
2

(7,9 + 11,8) = 9,85..... =


2

De forma similar obtm-se os outros pontos mdios. Tabela 2.2: Distribuio de freqncias da varivel salrio.
i Intervalos de classe 4,0 |-- 7,9 7,9 |-- 11,8 11,8 |-- 15,7 15,7 |-- 19,6 19,6 |-- 23,5 Total Ponto mdio Freqncia Freqncia Absoluta (fi) Relativa ( f ri ) (Xi)
5,95 9,85 13,75 17,65 21,55

Freqncia Acumulada Absoluta (Fi) 10 22 29 35 36

Freqncia Acumulada Relativa ( Fri )


0,277778 0,611111 0,805556 0,972222 1

1 2 3 4 5

10 12 7 6 1 36

0,277778 0,333333 0,194444 0,166667 0,027778 1,000000

Nesta organizao de dados, temos perda de informao dos dados originais

46

Representao grfica: Histograma de freqncias relativas (em %) para a varivel salrio

33,33% 30 27,78%

%de funcionrios

20

19.44% 16,67%

10 2,7% 0 4.0 7.9 11.8 15.7 19.6 23.5

Salrio

47

til para encontrar os percentis: Exemplo Q2 ou Md

11 ,8 7 ,9 Md 7 ,9 = Md = 10 ,5 33 ,33 % 22 , 22
22.22%
33,33% 30 27,78%

Assimtrica a direita
19.44% 16,67%

%de funcionrios

20

10 2,7% 0 4.0 7.9

Md

11.8

15.7

19.6

23.5

Salrio

48

. Histograma usando densidade de frequncia (mais comum!)

rea=1

7,1%*3,9=27,6

49

Histograma de freqncia acumulada relativa (em %) 61% dos empregados tem salrio inferior a 12 salarios mnimos
Frequncia acumulada percentual (%)
100 80,56% 61,11% 50 27,78% 97,22% 100%

0 4.0 7.9 11.8 15.7 19.6 23.5

19% possuim salrio superior a 16 salrios mnimos

Salario

50

Grfico de Ramo e Folhas: Varivel salrio


4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 30 00 56 25 73 26 66 86 39 44 59 12 46 74 95 13 35 77 80 53 76 06 59 00 79 23 60 85 69 71 99 22 61 26 75 40

Valores

concentrados entre 4 e 19

Leve assimetria na direo dos valores grandes( assimtrica direita) Destaque do valor 23.30

51

Medidas de posio e medidas de disperso para variveis contnuas agrupadas em tabela de freqncias. Mdia:
X = X f1 + X
1 2

f2 + L X n

fk

X i f i n

i =1

Exemplo: Considere a tabela 2.2


X = 5 , 95 10 + 9 ,85 12 + 13 , 75 7 + 17 , 65 6 + 21 , 55 1 36 401,4 = = 11,15 35

Se calculamos a mdia para dados no agrupados apresentadas anteriormente resulta:


X = X1 + X
2

+L + X 36

36

4 + 4 , 36 + L + 23 , 30 = 11,122 36

Este resultado difere do valor obtido anteriormente. Porque?


52

Moda (mo):

d1 mo = LIi + d + d h 2 1

i : Classe modal ( aquela classe que tem maior frequncia absoluta (f i )) LI i : o limite inferior da classe modal. d 1 = f i f i 1 d 2 = f i f i +1 h : comprimento do intervalo de classe.
Exemplo: Considere a tabela 2.2. J que, f 2 = 12 > f j j 2 TDF

i =2, a classe modal

d1 12 10 h = 7,9 + mo = LI 2 + (12 10) + (12 7) 3,9 = 9,014 d +d 2 1

53

Mediana (Md)

0,5n Fi 1 h Md = LI i + fi

i : a classe mdiana ( o intervalo de classe onde a coluna dos Fi na TDF superou o 50% dos dados) LI i : Limite inferior da classe mediana. Fi-1 : a frequncia acumulada absoluta da classe anterior a classe mediana f i : frequncia absoluta da classe mediana. h : compriment o do intervalo de classe.
Exemplo: Considere a tabela 2.2 J que,

F 2 = 22 > n / 2

i =2, a classe mediana

0,5n F1 18 10 h = 7,9 + Md = LI 2 + 3,9 = 8,55 f1 12


54

Varincia:

S2 =

f (X
k i i =1

n 1

Exemplo: Considere a tabela 2.2. Vimos que


i 1 2 3 4 5 Intervalos de classe 4,0 |-- 7,9 7,9 |-- 11,8 11,8 |-- 15,7 15,7 |-- 19,6 19,6 |-- 23,5 Total Xi
5,95 9,85 13,75 17,65 21,55

X = 11 ,15
f i X i X
270,40 20,28 47,32 253,50 108,16 699,66

fi 10 12 7 6 1 36

S2 =

f (X
5 i i =1

36 1

699,66 = 19,99029 35

S = 4,47105 (Desvio Padro)

55

Esquema dos cinco nmeros

x(1)

Q1

Q2 n

Q3

x(n)

Total Observaes Mediana Quartis Extremos Q1 x(1)

Q2 Q3 x(n)

56

Boxplot O BOXPLOT representa os dados atravs de um retngulo construdo com os quartis e fornece informao sobre valores extremos. (veja o esquema embaixo)

57

Exemplo de construo de um Boxplot. Com a finalidade de aumentar o peso (em Kg) um regime alimentar foi aplicado em 12 pessoas. Os resultados (ordenados) foram: -0,7 2,5 3,0 3,6 4,6 5,3 5,9 6,0 6,2 6,3 7,8 11,2. Calculando as medidas temos: Mediana (md ou Q2) = 5,6kg 1.quartil (Q1) = 3,3kg 3.quartil (Q3) = 6,25kg d=intervalo interquartil = Q3-Q1 =2,95kg Logo as linhas auxiliares correspondem aos pontos: Q1-1,5d = -1,25kg Q3+1,5d = 10,675kg

58

11.2 Observao exterior (discrepante ou atipica)

Exemplo: Considere os dados da tabela 1.1, o boxplot para varivel salrio por educao e regio de procedncia dos funcionrios da empresa.

59

Boxplot de Salrio por educao


25

Boxplot de Salrio por educao

Salario

15

Grau Instrucao
1 2 3

Grau de Instrucao

15

25

Salario

B o x p lo t d e S a l r i o p o r r e g i o d e p r o c e d n c i a

Regio de Procedncia

O u t ro

C a p i ta l

I n t e ri o r

15

25

S a la r io

60