Você está na página 1de 75

ESTATSTICA BSICA

Halley Castro

Estatstica

Estatstica
a parte da matemtica aplicada que fornece mtodos para a coleta, organizao, descrio, anlise e interpretao de dados e para a utilizao dos mesmos na tomada de decises.

Estatstica descritiva
Organizao, sumarizao e descrio de conjunto de dados(tabelas,grficos,medidas,...) um

Estatstica indutiva ou inferencial


Partindo de uma amostra, estabelece hipteses, tira concluses sobre a populao de origem e formula previses fundamentando-se na teoria da probabilidades.

Estatstica

Engenharia

Variveis
o conjunto de resultados possveis de um fenmeno. Nominal Qualitativa
Ordinal

Quantitativa

Discreta
Contnua

Populao
um conjunto de elementos portadores de, pelo menos, uma caracterstica comum.

Amostra
um subconjunto finito de uma populao.

Censo
uma coleo de dados relativos a todos os elementos da populao.

Um Parmetro
uma medida numrica que descreve uma caracterstica da populao.

Uma Estatstica
uma medida numrica que descreve uma caracterstica de uma amostra.

Etapas da Anlise Estatstica

Populao

Estatstica descritiva

Amostra

Inferncia Estatstica

Amostragem
o mtodo de seleo de elementos de uma populao de modo a se obter uma amostra representativa .

Mtodos de Amostragem
NoProbabilstica :
Por julgamento ( intencional) Por cotas (extratos) Por convenincia (acidental) Probabilstica : Aleatria simples , Sistemtica , Estratificada ( proporcional e tima ) e Por conglomerado.

Tipos de Amostragem:
Amostragem no probabilstica Baseado na escolha deliberada e exclui qualquer processo aleatrio. Amostragem probabilstica ( Aleatria simples, sistemtica, estratificada e por conglomerado ) Amostragem aleatria : Cada elemento da populao tem a mesma chance de figurar na amostra. Amostragem sistemtica: Escolhemos um ponto de partida, e selecionamos cada K simo elemento. Amostragem estratificada : Subdividimos a populao em sub-populaes que compartilham das mesmas caractersticas.

Amostragem por conglomerado : Comeamos a dividir a rea da populao em sees, em seguida escolhemos algumas dessas sees e, finalmente, tomamos todos os elementos das sees escolhidas.

Grficos Estatsticos
uma forma de representao dos dados, cujo objetivo produzir, no investigador ou no pblico em geral, uma impresso mais rpida do fenmeno estudado

Tipos de Grficos
Grfico de Linha Grfico em Colunas

Grfico em Barras
Grfico em Colunas ou Barras mltiplas

Grfico em Setores ( Pizza )


Grfico Polar ( Radar ) Cartograma e Pictograma BoxPlot

Grfico de Linha

Grfico de Colunas
Consumo de Energia
240 220 200 180 160 140 120 100 80 60 40 20

kWh

Jan Fev Mar Abr Mai Jun

Jul

Ago Set Out Nov Dez

ms

Grfico de Barras
Saneamento de Domicilios Particulares Permanentes Censo 2000
So Romo Vrzea da Palma Jequita Buritizeiro Pirapora 0 2000 4000 6000 8000 10000 12000 14000 Numero de Domiclios

No tinham banheiro Coleta de lixo Agua encanada

Fonte: Agncia IBGE Pirapora agosto de 2002.

Grfico de Colunas Mltiplas


ndice de crimes violentos (ICV) de Pirapora - 2005/2006

100 90
Nmero de casos

90 70 76

86

80 70 60 50 40 30 20 10 0

57 49
29 33 25 25 28 33

2005 2006

Jan

Fev

Mar
Meses

Abr

Mai

Jun

Grfico de Setores ( Pizza)


Bebidas Preferidas
C ategory gua C erv eja Outras Refrigerante Suco

18,0%

36,0% 7,0%

12,0%

27,0%

Grfico Polar ( Radar )


Precipitao Pluviomrica
Jan
1 9 8 ,3

Dez

2006 5 ,7 1 150

Fev
1 0 6 ,6

Nov 1 7 5 ,1

100 50

Mar

7 1 ,6 3 4 ,7

14 Out 7 ,8 7 2 ,2 3 6 ,8

Abr

Set Ago
1 9 8 ,3

1 0 2 ,7

1 8 4 ,9 Mai

Jun Jul

Pictograma

Meio de transporte utilizado pelos alunos


49% 44% 39% 34% 29% 24% 19% 14% 9% 4% onibus bicicletas m oto carro a p 11% 8% 8% 30% 43%

onibus

bicicletas

moto

carro

a p

Pictograma

Cartograma

Cartograma

Pirmide

BoxPlot

Peso dos Estudantes Turmas


SEXO= Masculino
100 90 80 70 60 50
N= 5 8

turma A

turma B

Turma do Estudante

Medidas de Tendncia Central


As medidas de locao mostram o valor representativo em torno do qual os dados tendem a agrupar-se, com maior ou menor freqncia. So utilizadas para sintetizar em um nico nmero o conjunto de dados observados.

Mdias
Aritmtica simples. Aritmtica ponderada. Geomtrica. Harmnica. Aparada.

Ateno: em alguns casos a mdia no representativa.

Distribuio de freqncia
Varivel Discreta: Tabela Primitiva:

80 82 110 70

70 90 120 90

82 70 110 70
Rol

80 120 80 120

120 80 82 80

70 80 82 110

Ordenao crescente dos dados 70 70 70 80 80 80 82 90 90 120 120 120

80 82 110 120

Distribuio de freqncia
Computao das freqncias:

QI (Xi) 70 80 82 90 110 120 Total

Frequncia (fi) 4 5 3 2 2 4 20

Ateno: As variveis discretas apresentam restries quando a quantidade de valores da pesquisa for muito grande.

Distribuio de freqncia
Varivel Contnua: Tabela Primitiva:

Rol

15 18 19 20 21 22 22 23 24 24 26 26 26 26 27 28 28 29 29 29 30 32 33 33 34 34 35 35 38 39

Distribuio de freqncia

Histograma

Distribuio de freqncia
Idades de 50 funcionrios (colocadas em ordem crescente)

18 20 20 21 22 24 25 25 26 27 29 29 30 30 31 31 32 33 34 35 36 36 37 37 37 37 38 38 38 40 41 43 44 44 45 45 45 46 47 48 49 50 51 53 54 54 56 58 62 65.
1 Passo: Construir o rol ( dados em ordem crescente) 2 Passo: Determinar a amplitude amostral AA = maior menor AA = 65 18 = 47 ;

3 Passo: Determinar o nmero de classes (i)

i 1 3,3. log n

i 1 3,33 . log 50
AA i 47 7

i 6,657

4 Passo: Amplitude de um intervalo de classes (h)

h 6,71

h 7

Distribuio de freqncia
5 Passo: Freqncias simples ou absoluta ( fi)

fi
fi fi .100

6 Passo: Freqncias relativas ( fir%)


Classes 1 2 3 7 Somas Intervalos das classes + h( 7 ) 18 25 25 32 32 39 60 67 fi 6 10 13 2 50 fir% 12 20 26 4 100

f ri %

Fa 6 16 29 50

Far% 12 32 58 100

xi 21,50 28,50 35,50 63,50

7 Passo: Ponto mdio da classe (xi)

xi

i 2

Li

Histograma
Idades de 50 funcionrios
14 12
Frequncias absolutas

10 8 6 4 2 0 18

25

32 39 46 53 Idades ( intervalo das classes)

60

66

Halley Castro

Exerccios
Presso sistlica(mmHg) de 60 estudantes do sexo masculino

94 112 118 128 132

98 114 120 128 134

100 114 120 128 136

102 116 120 128 138

104 116 120 128 138

108 116 120 130 140

108 116 122 130 140

108 118 122 130 140

110 118 124 130 142

110 118 124 130 142

110 118 124 132 146

110 118 128 132 150

Resoluo:
AA = 150 94 = 56

i 1 3,33. log 60 i 6,921 i 7


fi 60

AA i

56 8 7

f ri

fi fi

3 60

0,05

Resoluo:

xi 98 106 114

xi

i 2

Li

94 102 2

98

fi

60

x2

102 110 106 2

x3 106 8(h) 114

Anlise Exploratria dos Dados Histograma

Anlise Exploratria dos Dados


Polgono de Freqncia

Anlise Exploratria dos Dados


Ogiva (polgono de freqncia acumulada)

BoxPlot (grfico em caixas)


Intervalo Interquartlico( IQ)
IQ Q3 Q1

Valores discrepantes Outliers

* *

min

Q1 Md

Q3

max

1 Quartil

3 Quartil

Mediana

Separatrizes
Mediana ; Quartil e Percentil Mediana de dados no-agrupados.

Separatrizes
Quartil

1 quartil (Q1) : Valor situado de tal modo na srie que uma quarta parte(25%) dos dados menor que ele e as trs quartas partes restantes(75%) so maiores. 2 quartil (Q2) = Md

3 quartil (Q3) : Valor situado de tal modo na srie que as trs quartas partes (75%) dos dados menor que ele e uma quarta parte restante (25%) maior.

Separatrizes
Percentil

So os noventa e nove valores que separam uma srie em 100 partes iguais. P50 = Q2 = Md P25 = Q1. P75 = Q3

Mediana
Ordem crescente 1 2 3 10 10 12 4 12 5 14
Posio

6 15

7 18

8 20

Para n ( par ) Para n ( mpar ) Md 8 8 e 2 2 1 12

Posio

n n e 1 2 2 n 1 2

4 o e 5 o termos 14 2 Md 13

Logo; Md

Em algumas circunstncias, a mediana representa melhor a tendncia dos dados.

Quartil
Ordem crescente 1 2 3 10 10 12 4 12 5 14 6 15 7 18 8 20

Posio do 10 quartil ( Q1 ):
Q1 n 1 4 8 1 4 2,25

Q1 = 2 dado+ ( 3dado - 2 dado). Parte decimal Q1= 10 + ( 12-10 ). 0,25 Q1 = 10.50

Posio do 30 quartil ( Q3 ): Q3= 6 dado+ ( 7dado - 6 dado). Parte decimal

Q3

3n 1 4

38 1 4

6,75 ( entre o 60 e70 dado)

Percentil
Ordem crescente 1 2 3 10 10 12 4 12 5 14 6 15 7 18 8 20

Q3= 15 + ( 18 -15 ). 0,75

Q3 = 17.25

Posio do 820 percentil( P82 ):

P 82

82 n 1 100

82 8 1 100
P82 = 18,76

7,38

P82= 18 + ( 20 -18 ). 0,38

Exerccio-1
a) Determine: tempo mdio, 1 e 3 quartil e mediana dos dados. 6,5 ; 6,6; 6,7; 6,8; 7,1; 7,3; 7,4; 7,7; 7,7 e 8,0. b) Faa uma anlise dos conjuntos de dados abaixo:

1,1; 8,3; 8,8; 9,3; 9,5; 10,3; 10,5;10,9;11; 11,3; 11,9


12; 12,3; 12,9; 13; 13; 13,2; 13,9; 13,9; 14; 14,5; 14,8 15,8; 15,9; 16,2; 17; 17,2; 18,3; 18,8; 19; 19; 21; 29

Grfico : Box Plot

Resoluo -1
Exer 1- Apostila
7,3 7,2

Q1= 6,575
7,1 7,0
Valores

Md= 6,75 Q3= 7,15 IQ = 0,575

6,9 6,8 6,7 6,6 6,5 6,4

Halley Castro

Resoluo -1
Boxplot of Valores vs Amostras
30 25 20
Valores

15 10 5 0 A1 A2 Amostras A3

Resoluo -1
Boxplot of Valores vs Amostras
30

Q1= 12,9
25 20
Valores

Q1= 8,8 Md=10,3 Q3= 11

Md=13,2 Q3= 14

29 (outlier)

IQ = 1,1
Q3 Q1= 16,2 Md=18,3

IQ = 2,2
15 10 5 0 A1

Md Q1 1,1(outlier)
A2 Amostras

Q3= 19 IQ = 2,8
A3

Medidas de disperso ou de variabilidade.


As medidas de disperso mostram o grau de afastamento dos valores observados em relao a um valor representativo.

Amplitude. ( R ) Varincia. ( s2 ) Desvio padro. ( s )

Coeficiente de variao. (c.v )

Medidas de Disperso

Desvio com relao mdia

Desvio Mdio

Varincia (v)- Mdia dos quadrados dos desvios

Varincia (v)- Mdia dos quadrados dos desvios

Desvio Padro (s) - Raiz quadrada da varincia

Desvio Padro (s) - Raiz quadrada da varincia

Desvio Padro (s) - Exemplo

Coeficiente de Variao (CV)


Quando precisamos comparar duas ou mais distribuies, utilizamos o coeficiente de variao, que razo entre o desvio padro e a mdia.

CV

s x

Coeficiente de Variao (CV)

Aplicao do Desvio Padro- Curva Normal


Entre as distribuies tericas de varivel aleatria contnua, uma das mais empregadas a distribuio normal.

-3 Probabilidades 0.00135

-2 0.02135 0.1360

-1 0.3413

T 0.3413

1 0.1360

2 0.02135

3 0.00135

Correlao
Medida da fora da relao entre y e x: r = -1: representa correlao perfeita e negativa. Quando uma varivel aumenta a outra diminui; r = 0: ausncia de correlao. No h influncia entre x e y; r = 1: correlao perfeita e positiva. Quando uma varivel aumenta a outra tambm aumenta.

r=0 r = -1 r = -0.85 r = 0.85 r=1

r=0

Correlao

Diagrama de Disperso

Coeficiente de Correlao

Regresso Linear
A regresso consiste em determinar uma funo que melhor se ajusta aos pontos do diagrama de disperso. A regresso linear simples consiste em determinar os valores dos coeficientes linear a e angular b da equao da reta y = ax + b.

Varivel dependente y Equao ajustada

Valor observado Valor ajustado

Resduo b

a 0

k+1

Varivel independente (x)

Regresso Linear
Anos de escolaridade com a quantidade de livros na biblioteca.

Escolaridade 5 8 10 12 15 50

livros 10 30 45 50 75 210

x2 25 64 100 144 225 558

y2 100 900 2025 2500 5625 11150

x.y 50 240 450 600 1125 2465

Grfico de Disperso
Escolaridade vs livros
15,0

12,5
Escolaridade

10,0

7,5

5,0 10 20 30 40 livros 50 60 70 80

Grfico de Disperso - Regresso


Escolaridade x Livros
S R-Sq R-Sq(adj) 3,31749 98,6% 98,1%

livros = - 20,93 + 6,293 Escolaridade 80 70 60 50 40 30 20 10 5,0 7,5 10,0 Escolaridade 12,5

livros

15,0

Regresso Linear
Teor de carbono nos aos(%) e resistncia trao (N/mm2)
% de Carbono (xi) Resist. Trao (yi) xi.yi 0,2 422 84,4 0,24 451 108,24 0,22 441 97,02 0,23 431 99,13 0,25 441 110,25 0,28 471 131,88 0,22 422 92,84 0,27 461 124,47 0,24 431 103,44 0,23 441 101,43 2,38 4412 1053,1 xi2 yi2 0,04 178084 0,0576 203401 0,0484 194481 0,0529 185761 0,0625 194481 0,0784 221841 0,0484 178084 0,0729 212521 0,0576 185761 0,0529 194481 0,5716 1948896

Grfico de Disperso
Scatterplot of Resist. Trao (yi) vs % de Carbono (xi)
470

460
Resist. Trao (yi)

450

440

430

420 0,19 0,20 0,21 0,22 0,23 0,24 0,25 % de Carbono (xi) 0,26 0,27 0,28

Grfico de Disperso - Regresso


% de Carbono nos Aos x Resistncia trao
Resist. Trao (yi) = 300,8 + 589,9 % de Carbono (xi) 470 460
Resist. Trao (yi)
S R-Sq R-Sq(adj) 8,10768 77,3% 74,5%

450 440 430 420 0,19 0,20 0,21 0,22 0,23 0,24 0,25 % de Carbono (xi) 0,26 0,27 0,28