Você está na página 1de 135

Estatstica Descritiva

Prof. Wecsley O. Prates


Universidade Federal da Bahia
Instituto de Matemtica
Departamento de Estatstica
MAT020 Estatstica I A
2015.1

Por que estudar Estatstica?


Para

saber como apresentar


informaes de forma apropriada;

descrever

Para saber como tirar concluses a partir de

grandes populaes, com base somente na


informao obtida a partir de amostras;
Para saber como melhorar os processos;
Para saber como obter previses confiveis;
Mtodos estatsticos so essenciais no estudo de

situaes em que os fatores


apresentam grande variabilidade.

de

interesse
2

Estatstica
uma cincia baseada na Teoria das Probabilidades, cujo
objetivo principal nos auxiliar a tomar decises ou obter
concluses em situao de incerteza, a partir de informaes
numricas.
Grandes reas da Estatstica

Estatstica Descritiva = coleta de dados, organizao,


apresentao e sintetizao dos dados.
Estatstica Inferencial = consiste em inferir (deduzir ou tirar
concluses a respeito das) propriedades de um universo a partir
de uma amostra.
3

Fases do trabalho estatstico


1. Definio do Problema: formulao completa do problema a

ser estudado. Levantamento de outros trabalhos realizados no


mesmo campo e anlogos, pois parte da informao de que se
necessita pode ser encontrada.
2. Planejamento: determinao do procedimento necessrio para

resolver o problema e, em especial, como levantar informaes


sobre o assunto objeto de estudo.
. formulao correta das perguntas
. escolher o tipo de levantamento a ser utilizado (censitrio
ou amostragem).
. tipo do estudo;
. cronograma das atividades;
4

Fases do trabalho estatstico

3.

os custos envolvidos;
exame das informaes disponveis;
o delineamento da amostra (se necessria);
a forma como sero escolhidos os dados;
elaborao do questionrio.

Coleta de dados: refere-se obteno, reunio e registro


sistemtico de dados, com um objetivo determinado. Alm
dos registros feitos pelo prprio pesquisador, pode-se recorrer
a fontes externas de dados.

Fases do trabalho estatstico


Crtica dos questionrios: leitura dos questionrios, observao
de respostas incompletas, erradas. Supresso de valores
estranhos ao levantamento.
4.

Apurao dos dados: consiste em resumir os dados, atravs de


sua contagem e agrupamento. Nos dias atuais esta apurao
tornou-se sinnimo de organizao de base de dados, que
realizada em computadores.

5.

Apresentao dos dados: h duas formas de apresentao,


tabular e grfica.

Fases do trabalho estatstico


6. Anlise e interpretao dos dados: O interesse maior consiste

em tirar concluses que auxiliem o pesquisador a resolver seu


problema. A anlise dos dados estatsticos est ligada
essencialmente ao clculo de medidas, cuja finalidade
principal descrever o fenmeno. Assim, o conjunto de dados
a ser analisado pode ser expresso por nmeros-resumos, as
estatsticas, que evidenciam caractersticas particulares desse
conjunto.

Populao e Amostra
Populao:
Conjunto de todos os indivduos, objetos ou informaes que
apresentam pelo menos uma caracterstica (observvel)
comum cujo comportamento interessa-nos analisar.
Quanto ao nmero de elementos, a populao pode ser finita
ou infinita.
Exemplo: Deseja-se estudar os salrios mensais pagos no setor
industrial baiano no ano de 2013.
8

Populao: conjunto de todos os trabalhadores alocados nas


indstrias localizadas no Estado da Bahia em 2013.
Caracterstica de interesse: salrios pagos a esses trabalhadores.

Censo uma coleo de dados relativos a todos os elementos


de uma populao.

Amostra:
Qualquer subconjunto finito de elementos extrados da
populao, em geral com dimenso sensivelmente menor, sobre
o qual se faz as observaes.
9

Qualquer amostra fornece informaes, porm no qualquer


uma que permite estender os resultados para a populao da
qual ela foi retirada.
10

Parmetro e Estatstica
A qualquer medida estatstica calculada com os dados da
populao d-se o nome de parmetro. A medida estatstica
calculada com as informaes obtidas a partir da amostra
chamada estatstica.
Exemplo: Deseja-se estudar os salrios mensais pagos no setor
industrial baiano no ano de 2013.
Populao: conjunto de todos os trabalhadores alocados nas
indstrias localizadas no Estado da Bahia em 2013.
Caracterstica de interesse: salrios pagos a esses trabalhadores.
11

Parmetro e Estatstica
Exemplo: Deseja-se estudar os salrios mensais pagos no setor
industrial baiano no ano de 2013.
Parmetro: salrio mdio dos trabalhadores alocados nas
indstrias localizadas no Estado da Bahia em 2013.
Estatstica: salrio mdio da amostra de trabalhadores.

12

Noes gerais de
Amostragem

13

Classificao de Variveis
As caractersticas da populao so comumente chamadas de
variveis. Estas, quanto sua natureza, so classificadas como
qualitativas e quantitativas.

14

Variveis qualitativas

Se os resultados das observaes sero expressos atravs de


categorias, que se distinguem por alguma caracterstica nonumrica.
Exemplo: Sexo, grau de escolaridade, cor da pele, estado civil,

Variveis quantitativas

Se os resultados das observaes sero expressos sempre atravs


de nmeros, que representam contagens ou medidas.
Exemplo: Idade, altura, peso, nmero de filhos, salrio,
15

As variveis qualitativas podem ser classificadas em:

Nominal

Caracteriza-se por dados que consistem apenas em nomes,


rtulos ou categorias. Os dados no podem ser dispostos
segundo uma ordem.
Exemplo: Sexo, cor da pele, (sim ou no), estado civil,

Ordinal

Envolve dados que podem ser dispostos em alguma ordem.


Exemplo: Grau de escolaridade, grau de satisfao, classe social,
16

Em relao s variveis quantitativas, estas podem ser


classificadas em:

Discreta

Quando os resultados possveis da observao formam um


conjunto finito ou infinito enumervel de nmeros e que
resultam, frequentemente de uma contagem.
Exemplo: Nmero de filhos, idade (em anos completos),

Contnua

Pode assumir qualquer valor pertencente a um determinado


intervalo do conjunto dos nmeros reais e que resultam,
normalmente, de uma mensurao (medio).
Exemplo: Salrio mensal, altura, peso, comprimento,

17

Outra maneira de classificar dados usando as escalas de


mensurao.

Escala nominal

Escala ordinal

Escala intervalar

como o nvel ordinal, mas as diferenas so significativas, no


existe ponto inicial natural e as razes no tm sentido.
Exemplo: a medio da temperatura, o calendrio, a distncia
entre duas cidades,
18

Escala de razo

o nvel intervalar com a propriedade adicional de que h um


ponto inicial, zero natural. Para valores nessa escala, as
diferenas e razes, so ambas, significativas.
Exemplo: peso, preo, durao em minutos de um filme,

19

Coleta e Armazenamento de dados

Os dados estatsticos podem ser obtidos de vrias maneiras:

Fonte publicada;

Pesquisa;

Estudo controlado (experimento);

Estudo observacional;

Simulao.

Sobre o mtodo de coleta de dados empregado, provavelmente


os dados sero uma amostra de uma populao.
20

Coleta e Armazenamento de dados

As coletas de dados, geralmente, so feitas atravs do


preenchimento de fichas pelo pesquisador e/ou atravs de
resposta a questionrios.
Alguns dados so coletados atravs de medies e avaliaes.
Depois de coletados, os dados devem ser armazenados e
sistematizados numa planilha de dados (banco de dados
dados brutos). Exemplo
21

Apresentao dos dados

Sries Estatsticas

o resultado de um levantamento de dados sobre um


fenmeno ou varivel e so classificadas de acordo com a
variao de trs elementos: tempo, local e o fato. So elas:

Srie Histrica O elemento que serve como base de


classificao a frao do tempo, como o dia, o ms, o ano, o
sculo, etc.

22

Srie Geogrfica Apresenta como elemento varivel


somente o local.

Srie Especfica Apresenta como elemento ou carter


varivel o fato (ou espcie).

23

Srie Mista Combinaes dos tipos de sries citados


anteriormente.

24

Apresentao Tabular das Sries Estatsticas

Dispe os dados de uma forma ordenada e resumida,


facilitando a compreenso das concluses da anlise
apresentadas ao leitor.
Uma tabela constituda dos seguintes elementos:

Ttulo (O qu? Quando? Onde?)

Corpo da tabela

Cabealho

Coluna indicadora

Fonte
25

26

Elementos complementares:

Nota

Informaes gerais para esclarecer o contedo das tabelas.

Chamadas

Esclarecer minncias em relao s clulas, colunas ou linhas da


tabela.

As tabelas podem ser simples e de dupla entrada (srie mista).

27

ALERTA!!!!

Nenhuma clula deve ficar em branco, utilizar os sinais


convencionais representao grfica que substitui o dado
numrico.
A tabela no deve ser delineada direita e esquerda, por
traos verticais.
Numerar as tabelas quando em quantidade.

Totais e subtotais destacados.

Uniformidade com o nmero de casas decimais.

28

Distribuies de Frequncias

Neste tipo de srie o tempo, o local e o fenmeno permanecem


fixos.
O fenmeno considerado uma varivel qualitativa ou
quantitativa e seus valores observados so descritos
considerando o nmero de vezes que ocorreram na srie
(frequncia).

29

Algumas definies:

Frequncia simples absoluta ( fi )

o nmero de ocorrncias ou repeties de um valor individual


ou um intervalo de valores.

Frequncia simples relativa ( fri )

a razo entre a frequncia simples absoluta e o nmero total


de dados.

Frequncia acumulada

abaixo de - a soma da frequncia da classe e de todas as


classes que a antecedem.
acima de - a soma da frequncia da classe e de todas as
classes que a sucedem.
30

TIPOS DE FREQUNCIAS

31

Distribuies de frequncia de acordo com o tipo de varivel:

Varivel Qualitativa Nominal

32

Varivel Qualitativa Ordinal

33

Varivel Quantitativa Discreta

34

Varivel Quantitativa Discreta

35

Varivel Quantitativa Contnua

Slide 43

36

Construo da tabela de distribuio de frequncias de uma


varivel qualitativa.

Exemplo: A seguir, apresentado um conjunto de dados que


indica as causas da morte para 100 crianas entre as idades de
cinco e nove anos vtimas fatais de leses nos Estados Unidos no
perodo de 1980 a 1985. Os dados so nominais: 1 representa
acidente por veculo motorizado, 2 afogamento, 3 incndio no
lar, 4 homicdio e 5 designa outras causas,
inclusive
sufocamento, quedas e envenenamento.

37

Depois de fornecidos esses dados, que podemos concluir com


relao s mortes infantis por leso?
38

Construo da tabela de distribuio de frequncias de uma


varivel quantitativa.
Algumas definies:

Dados brutos o conjunto dos dados numricos obtidos


aps a coleta dos dados.
Rol o arranjo dos dados brutos em uma determinada
ordem crescente ou decrescente.
Amplitude Total (AT) a diferena entre o maior valor e o
menor valor observado.
AT x
x
max

min

39

Nmero de classes (k) Representa o total de classes da


varivel.
Amplitude da classe (h) a diviso inteira entre a
amplitude total e o nmero de classes,
AT
.
h
k
Ponto mdio da classe (mi) Corresponde ao valor que se
encontra no centro do intervalo de classe,

mi linf

1
hi ; i 1, 2 , k
2
40

Determinao do nmero de classes


No existe uma frmula exata para o clculo. Seja n o
tamanho da amostra selecionada. Existem alternativas:

Para n 25, k = 5 e para n > 25, k n ;

Frmula de Sturges ou regra do logaritmo:


. k = 1 + 3,3 log10 n

Exemplo: Os dados a seguir representam o preo de fechamento


de 40 aes ordinrias. A empresa decidiu construir uma tabela
de frequncia para obter um resumo do conjunto de dados.
41

Dados brutos

Rol dos dados

Passos
1.
Fazer o rol dos dados, identificando o menor e o maior valor
do conjunto. Verificar o tamanho da amostra e calcular a
amplitude total;
2.
Obteno do nmero de classes;
3.
Calcular a amplitude das classes;
4.
Montar a tabela de distribuio de frequncias.
42

Tabela de Mltipla Entrada

43

Apresentao Grfica

uma forma de apresentao dos dados com o objetivo de


produzir uma impresso mais rpida e viva do fenmeno em
estudo.
Os grficos devem obedecer a certos requisitos fundamentais:

Simplicidade;

Clareza;

Veracidade.

44

Algumas caractersticas indispensveis nos grficos:

Deve ter ttulo e escala, para ser interpretados sem


necessidade de esclarecimentos adicionais no texto;
O ttulo do grfico pode ser escrito em cima ou abaixo do
grfico, em trabalhos cientficos comum estar abaixo da
figura;
No eixo das abscissas, a escala cresce da esquerda para
direita e escrita embaixo do eixo;
No eixo das ordenadas, a escala cresce de baixo para cima e
escrita esquerda do eixo;
A escala deve ser iniciada em zero, caso a escala seja muito
elevada pode ser feita uma interrupo no eixo;
45

Algumas caractersticas indispensveis nos grficos:

Escolher adequadamente as escalas dos eixos para no


distorcer a informao que se pretende transmitir. Se o
objetivo for comparar as informaes de dois os mais grficos,
use a mesma escala;
As variveis representadas em cada eixo devem ser
identificadas (incluir unidade de medida);
O sistema de eixos e linhas auxiliares devem ser grafados com
trao mais claro;
Exibir no rodap a fonte que forneceu os dados.
46

Existem vrios tipos de grficos, dependendo do tipo de varivel a


ser representada e da srie estatstica.
Tipo de Srie

Fator
Variante

Grfico mais indicado

Histrica

Tempo

Linhas, colunas

Especfica

Fenmeno

Barras, colunas ou setores

Geogrfica

Local

Cartogramas, colunas, barras ou setores

Distribuio
Intensidade
de frequncias do fenmeno

Histograma (contnua); colunas


(discreta); barras, colunas ou setores
(qualitativas)

47

Grfico de Setores

- Adequado quando o objetivo for a anlise da participao de


cada categoria em relao ao total.
- As frequncias devem somar 100%.
48

Grfico de Setores

- No serve para fazer comparaes ou evolues temporais.

49

Grfico de Barras (Colunas)

- Compara a distribuio de frequncias de uma mesma


varivel em vrios grupos de maneira rpida.
- A ordem dos grupos pode ser qualquer, ou a mais adequada.
- Economia de espao na apresentao.
50

Grfico de Colunas

51

Grfico em Linhas

Geralmente utilizado quando:


- Uma das variveis o tempo;
- Existem flutuaes intensas na srie;
52

Histograma

- um grfico de barras verticais, porm construdo


com as barras unidas devido ao carter contnuo dos
valores da varivel.
-

Representa a distribuio da frequncia de um


conjunto de dados, em que cada barra tem uma rea
proporcional frequncia correspondente.

- Dispe as informaes de modo que seja possvel a


visualizao da forma da distribuio de um conjunto
de dados e tambm a percepo da localizao do
valor central e da disperso dos dados em torno deste53

Histograma

54

Histograma

55

Histograma (Classes Desiguais)

56

Alguns tipos de histogramas

Simtrico

Ilhas Isoladas

Assimtrico
esquerda

Assimtrico
direita

Bimodal (com dois picos)

57

Cuidados na Representao Grfica

58

59

60

O grfico de evoluo, na parte


superior esquerda, ficaria mais
claro com o uso de grfico de
tendncia.

...uso das ondas sonoras da buzina


para mostrar quais os locais so os
grandes responsveis pelos
chamados de barulho.

O problema que h uma distoro


da parte grfica para o que
realmente so os dados.

Estado de So Paulo, 20/06/2010, Caderno C-3.

61

Tufte batizou isto de Lie Factor (fator de


mentira) do grfico, onde a forma no
representa o valor e podemos ser induzidos a
concluir algo que os dados no dizem.

Estado de So Paulo, 20/06/2010, Caderno C-3.

62

Grfico interessante

Variando apenas uma dimenso (altura), grfico bonito,


claro e principalmente rpido para comunicar a informao,
mostra o limite de dano sade e que a vuvuzela realmente
tem um som infernal.
Revista Veja, 23/06/2010.

63

...curvas de magnitudes bem distantes


sob a mesma escala, a visualizao da
variao fica bastante prejudicada.

A dica neste caso fazer as duas curvas


em grficos separados tomando um
cuidado especial com a escolha das
escalas.

Folha de So Paulo, 06/11/2010.

64

Mesmo que fique chata ou sem graa a


barra comprida e sem o efeito 3D, num
grfico de barras no h necessidade da
terceira dimenso e nunca devemos comear
escalas pela metade, sem excees.

O Brasil a preo de ouro, Revista Veja, 27/10/2010.

65

Manchete e o Grfico, um fala uma


coisa, o outro desmente e vice-versa.
um erro de classificao de
duas das barras
no dispor as barras numa
ordem decrescente
...no se encontra no grfico o aumento
no faturamento de 43% de 2008 para
2010, e sim 33% (de 0,9 para 1,2).
...declarar que o cinema chins conquista
o mercado sendo que o grfico
posiciona a China l embaixo, em
penltimo lugar, com destaque enorme
para Japo, Reino Unido e Frana.
Folha de So Paulo, 22/05/2010.

66

Medidas estatsticas de
sumarizao ou resumo
Valores que resumem um conjunto de dados podem ser
classificados em:

Medidas de posio ou localizao;

Medidas de disperso ou variabilidade;

Medidas de assimetria e curtose.

67

Medidas de posio
ou localizao
q

Mdia

Mediana

Moda

Separatrizes

Se as medidas forem calculadas para os


dados de uma amostra, elas so
chamadas de estatsticas da amostra.
Se as medidas forem calculadas para os
dados de uma populao, elas so
chamadas de parmetros populacionais.
68

Mdia Aritmtica Simples

um valor que respresenta um ponto de equilbrio. a


somatria de valores dividido pelo nmero de valores.

n
i 1 xi

Mdia Amostral

n
Mdia Populacional

iN1 xi

N
69

Exemplo: O departamento de atendimento ao consumidor de


uma concessionria de veculos recebe, por telefone, as
reclamaes dos clientes. O nmero de chamadas dos ltimos 10
dias foram:
3

Calcule o nmero mdio de chamadas por dia.

70

Mdia Aritmtica Ponderada

a soma dos produtos de cada valor observado pelo seu


respectivo peso, dividida pela soma dos pesos.

in1 xi . pi
n
i 1

pi

Exemplo: Um estudante obteve na 1 unidade a nota 7,0, na 2


nota 9,0 e na 3 nota 8,0. A nota final do semestre uma
mdia ponderada, em que as trs unidades tm pesos 3, 3 e 4,
respectivamente. Logo, qual ser a nota final deste aluno?
71

Quando os dados esto agrupados por frequncias os


ponderadores sero as frequncias.

k
i 1 xi . f i
ik1 f i

Dados agrupados em classes.

ik1 mi . f i
ik1 f i
72

Exemplo: Deseja-se estudar o nmero de erros de impresso em


um livro. Para isso escolhe-se uma amostra de 50 pginas deste
livro encontrando-se o seguinte nmero de erros por pgina:
Erros
0
1
2
3
4
Total

fi
25
10
5
6
4
50

Encontre o nmero mdio de erros.


73

Exemplo: Foram monitoradas eletronicamente 25 residncias,


para determinar o nmero de horas em que a televiso da
famlia permanecia ligada em um perodo de 24 horas. O
resultado encontra-se a seguir na forma de distribuio de
frequncia.
Nmero de horas

Frequncia

0 |-- 5
5 |-- 10
10 |-- 15
15 |-- 20
20 |-- 25
Total

6
5
8
4
2
25

Em mdia, quantas horas uma famlia passa com a televiso


ligada?
74

Algumas propriedades da mdia aritmtica

Somando-se (ou subtraindo-se) um valor constante e


arbitrrio a cada um dos elementos de um conjunto de
nmeros, a mdia fica somada (ou subtrada) por essa
constante.

Multiplicando-se (ou dividindo-se) cada elemento de um


conjunto de nmeros por um valor constante e arbitrrio, a
mdia fica multiplicada (ou dividida) por essa constante.
75

Comentrios

A mdia um valor tpico (caracterstico) do conjunto de


dados.

a principal medida de tendncia central.

Leva em considerao todas as observaes efetuadas.

Calcula-se com facilidade.

76

Desvantagem

Muito sensvel a valores extremos, isto , a valores


excessivamente pequenos ou grandes, em relao s demais
observaes do conjunto de dados.

Exemplo: Salrio mdio mensal de cinco empregados de uma


certa empresa.
Dados em reais: 123 145 210 225 2.500

77

Mediana

o valor central em uma distribuio, quando o conjunto de


dados est ordenado.
-

Divide a distribuio em duas partes iguais, de modo que 50%


dos valores observados so iguais ou inferiores ao valor
mediano e 50% iguais ou superiores a esse valor.
Se o total de observaes for MPAR, a mediana, o valor que
est localizado exatamente ao meio dos dados ordenados.
Se o total de observaes for PAR, a mediana a mdia dos
dois valores centrais.
78

Exemplo: Calcule a mediana dos conjuntos a seguir.


Conjunto 1 = {10, 29, 26, 28, 15}
Conjunto 2 = {500, 600, 800, 50.000, 1.000, 500}

79

Mdia x Mediana
A mediana uma medida de posio resistente, pois pouco
afetada por mudanas de pequena poro dos dados, ao
contrrio da mdia que sensvel a valores atpicos
(discrepantes).
Exemplo: Calcule a mdia e a mediana.
Conjunto 1 = {200, 250, 250, 300, 450, 460, 510}
Conjunto 2 = {200, 250, 250, 300, 450, 460, 2.300}

O clculo da mediana torna-se trabalhoso quando o nmero de


80
observaes grande, devido a necessidade de ordenar os dados.

Moda

A moda o valor que ocorre com maior frequncia na


distribuio.
Exemplo:
X = {2, 3, 3, 5, 5, 5, 6, 7}
Y = {10, 12, 17, 21, 32}
Z = {2, 2, 5, 5, 7, 7}
W = {10, 12, 12, 12, 13, 13, 15, 18, 18, 18, 21}
A moda a menos empregada. No entanto, adequada para
caracterizar situaes onde estejam em causa os casos ou
valores mais usuais. Por exemplo:
Em estudos de mercado, o empresrio pode estar interessado
nos produtos que mais se vendem.

81

Exemplo: Estudo sobre qual o animal escolhido para bicho de


estimao .
Animal de
Estimao
Cachorro
Gato
Pssaro
Outros
Total

Frequncia
(%)
40
30
20
10
100

Qual a moda?

82

Separatrizes

Permitem calcular valores da varivel que dividem a


distribuio em partes iguais. Existem quatro tipos de
separatrizes, tambm chamada de quantis.
-

Mediana

Quartis

Decis

Centis ou Percentis

83

Enquanto a mediana separa a distribuio em duas partes


iguais, a caracterstica principal das outras separatrizes :
-

Quartis (Qi): dividem a distribuio em quatro partes iguais;

Decis (Di): dividem em dez partes iguais;

Centis ou Percentis (Pi): dividem em cem partes iguais.


Relao entre as separatrizes:

Os quartis Q1, Q2 e Q3 so os percentis P25, P50 e P75.

Os decis D1, D2, e D9 so os percentis P10, P20, e P90.

~
x = Q2 = D5 = P50.
84

Clculo do percentil de ordem i :


1.

Ordenar os dados de forma crescente;

2.

Calcular a posio (P) do percentil i

i
P
n,
100
3.

P um nmero inteiro?

SIM - O percentil i ser calculado como a mdia aritmtica dos


elementos que ocupam a posio P e a posio P+1.
NO - O percentil i o elemento que ocupa a posio P, sendo
que P ser arredondado para o maior inteiro mais prximo.
85

Exemplo: (Werkema, vol. 2) Os dados a seguir representam o


rendimento em porcentagem de uma reao para fabricao
de uma substncia qumica, em 80 bateladas produzidas por
uma indstria.
70,7 71,8 73,9 74,4 75,9 76,0 76,6 76,7 77,4 78,0 78,1 78,1
78,2 78,4 78,4 78,4 78,5 78,5 78,5 78,9 79,0 79,1 79,3 79,3
79,5 79,5 79,7 79,8 79,9 79,9 80,1 80,2 80,4 80,4 80,5 80,7
80,7 80,7 80,9 81,3 81,4 81,6 81,8 81,9 82,0 82,0 82,1 82,3
82,5 82,7 82,9 83,0 83,0 83,2 83,4 83,5 83,6 83,6 83,7 83,8
84,3 84,5 84,5 84,5 84,6 85,2 85,5 85,5 85,7 86,4 86,5 86,8
86,8 86,8 87,1 87,1 87,1 87,3 88,5 90,0

Calcule todos os quartis e os percentis 50 e 82. Interprete os


resultados.
86

Medidas de disperso
ou variabilidade
Absolutas
q

Amplitude total

Amplitude semi-interquartlica ou desvio quartil

Desvio mdio

Varincia

Desvio padro

Expressas na mesma unidade de medida


da varivel em estudo.
87

Medidas de disperso
ou variabilidade
Relativas
q

Desvio quartil reduzido

Coeficiente de variao de Pearson

Varivel padronizada
Independem da unidade de medida da varivel
observada. Servem para estudar
comparativamente a variabilidade de duas ou
mais distribuies.
88

Motivao
Produo diria da pea Z de trs empregados de uma
indstria no perodo de 15 19 de abril de 2000.
Dia
Empregado
Carlos
Daniel
Eduardo

Mdia
Diria

82
60
53

70
78
72

65
68
75

60
62
75

73
82
75

70
70
70

Supondo-se que interessa ao administrador da empresa que os


empregados apresentem produo elevada e a mais homognea
possvel. Qual dos trs empregados apresentou melhor
desempenho no trabalho no perodo observado?
89

Motivao
Considerando agora apenas dois empregados com produo
mdia diria diferente.
Produo diria da pea Z de dois empregados de uma
indstria no perodo de 15 19 de abril de 2000.
Dia
Empregado
Antnio
Benedito

Mdia
Diria

70
60

71
80

69
70

70
62

70
83

70
71

Quem apresentou melhor desempenho no trabalho no perodo


observado, Antnio ou Benedito?
90

Amplitude total

A amplitude de um conjunto de dados a diferena entre os


valores extremos do conjunto.

R xmax xmin
Exemplo: Calcule a amplitude total da produo da pea Z
para cada empregado da indstria e identifique qual
empregado apresentou a menor disperso e qual apresentou a
maior disperso na produo diria.
Seriam idnticas as produes dirias observadas de Daniel e
Eduardo?
91

Observaes

a medida mais simples de disperso.


Possui desvantagem, pois leva em conta apenas os valores
extremos do conjunto, no indicando qualquer variao no
interior do conjunto de dados.
Tambm sofre influncia de um valor atpico na distribuio.

92

Varincia

uma medida de variabilidade que utiliza todos os dados,


baseada na diferena entre o valor de cada observao (xi) e a

mdia ( x para amostra e para populao).

i 1

( xi )

Varincia Populacional

i 1

( xi x ) 2

n 1

Varincia Amostral

93

A varincia apresenta a unidade de medida elevada ao


quadrado.

Exemplo: Calcule o varincia da produo da pea Z para cada


empregado da indstria.

94

Desvio padro

a medida de disperso mais usada e mais importante. Assim


como a varincia, mede a concentrao dos dados em torno da
mdia. Porm, tem a unidade de medida igual a unidade de
medida original da varivel.

N
i 1

( xi )

Desvio padro Populacional

s s2

n
i 1

( xi x ) 2

n 1

Desvio padro Amostral

Exemplo: Calcule o desvio padro da produo da pea Z para


cada empregado da indstria.
95

Interpretao do desvio padro (anloga da varincia)


O devio padro mede a variao entre valores. Assim:

Se os valores estiverem prximos uns dos outros, ento o


desvio padro ser pequeno, e consequentemente os dados
sero mais homogneos.
Se os valores estiverem distantes uns dos outros, ento o
desvio padro ser grande, e consequentemente os dados
sero heterogneos.

96

Algumas propriedades do desvio padro e da varincia

Somando-se (ou subtraindo-se) um valor constante e


arbitrrio a cada um dos elementos de um conjunto de
nmeros, o devio padro e a varincia no se alteram.

Multiplicando-se (ou dividindo-se) cada elemento de um


conjunto de nmeros por um valor constante e arbitrrio, o
desvio padro fica multiplicado (ou dividido) por essa
constante e a varincia fica multiplicado (ou dividido) pelo
quadrado dessa constante.
97

Amplitude semi-interquartlica ou desvio quartil

O intervalo interquartlico igual a (Q1; Q3). Neste intervalo


encontram-se 50% das observaes centrais do conjunto de
dados.
A amplitude interquartlica corresponde diferena entre os
d Q3 Q1.
quartis de ordem 3 e de ordem 1.

O desvio quartil a metade da amplitude interquartlica.

amplitude interquartlica Q3 Q1
DQ

2
2
98

Observaes

facilmente calculado e interpretado.

No afetado por valores extremos.

Quando a medida de tendncia central utilizada for a


mediana deve-se trabalhar com o desvio quartil como
medida de disperso.
Possui desvantagem, pois duas distribuies diferentes podem
apresentar o mesmo valor para o desvio quartil e, no entanto,
as disperses para os conjuntos observados serem muito
desiguais.

99

Coeficiente de Variao de Pearson

Trata-se de uma medida relativa de disperso, til para


comparar a variabilidade de duas ou mais distribuies, mesmo
quando essas se referem a diferentes fenmenos e sejam
expressas em unidades de medida distintas.

S
CV
X

Como o CV uma medida que exprime a variabilidade relativa


mdia, usualmente expresso em porcentagem.

100

Regras empricas para interpretaes do CV:

Se CV < 15% -> tem-se baixa disperso

Se 15% CV < 30% -> tem-se mdia disperso

Se CV 30% -> tem-se elevada disperso

Exemplo: Ache o coeficiente de variao para alturas (m) e


pesos (kg) de 40 homens.
Altura: X 1,74

S 0,08

Peso: X 78,2

S 11,9
101

Medidas de assimetria
As medidas de assimetria so utilizadas para avaliar o grau de
assimetria da distribuio de frequncias, sendo que assimetria
pode ser definida como o grau de deformao de uma curva de
frequncias.

102

Relao entre mdia, mediana e moda

Uma primeira verificao da assimetria pode ser feita atravs


da comparao entre os valores observados para a mdia,
mediana e moda.

~
a) X X distribuio
Mo,
simtrica

103

~
Mo,
b) X X distribuio
assimtrica positiva ou direita

~
Mo,
c) X X distribuio
assimtrica negativa ou esquerda

104

Medidas de curtose
As medidas de curtose indicam at que ponto a curva de
frequncias de uma distribuio se apresenta mais afilada ou
mais achatada em relao a uma curva tomada como padro,
denominada curva normal.
A curva normal simtrica em relao media aritmtica e
tem a forma semelhante a de um sino.

105

Pode-se classificar a curtose de uma distribuio em trs tipos:

Curva ou Distribuio Mesocrtica

106

Curva ou Distribuio Platicrtica

107

Curva ou Distribuio Leptocrtica

108

Diagramas em Caixas
Box-plot

um mtodo alternativo ao histograma para representar os


dados.
So convenientes para revelar tendncias centrais, disperso,
distribuio dos dados e a presena de outliers (valores
extremos).
Utiliza: valor mnimo, ~, Q1, Q3 e o valor mximo do conjunto
x
de dados.
til para comparar dois ou mais conjuntos de dados.
O box-plot pode ser desenhado na posio vertical (mais
comum) ou horizontal.
109

110

Exemplo: O teor de nicotina, em miligramas, em 40 cigarros de


certa marca foi registrado como segue
1,09
0,85
1,86
1,82
1,40

1,92
1,24
1,90
1,79
1,64

2,31
1,58
1,68
2,46
2,09

1,79
2,03
1,51
1,88
1,75

2,28
1,70
1,64
2,08
1,63

1,74
2,17
0,72
1,67
2,37

1,47
2,60
1,69
1,37
1,75

1,97
2,11
1,85
1,93
1,69

Construa um boxplot para a varivel teor de nicotina.

111

ROL
0,72 1,40 1,64 1,69

1,79

1,88 2,03 2,28

0,85 1,47

1,64 1,70 1,79 1,90 2,08 2,31

1,09

1,51

1,67

1,74

1,82

1,92 2,09 2,37

1,24

1,58

1,68

1,75

1,85

1,93

2,11 2,46

1,37

1,63 1,69

1,75

1,86

1,97

2,17 2,60

Q1 =
1,635

Q2 = 1,77

LI = 1,635 - (1,5*0,365) 1,09

Q3 = 2,00

d = 0,365

LS = 2,00 + (1,5*0,365) 2,55


112

113

Interpretao do grfico box-plot

A mediana o trao no centro do retngulo.


A disperso representada pela altura do retngulo (Q3 - Q1),
amplitude interquartil.
Assimetria: a proximidade da linha da mediana em relao a
Q1 e Q3 informa sobre a assimetria.
- Se a mediana est no centro do retngulo Simetria
- Se a mediana prxima de Q1 Assimetria positiva
- Se a mediana prxima de Q3 Assimetria negativa

Os pontos que esto fora do intervalo dado pela amplitude


interquartlica so considerados valores atpicos ou
discrepantes (outliers), ou seja, valores muito grandes ou muito
pequenos em relao aos demais. Geralmente so
114
representados pelos smbolos * ou .

O que fazer se so detectados


outliers em um conjunto de dados?
Abandonar a observao quando houver uma justificativa

convincente: observao incorreta ou erro na execuo do


experimento. A anlise deve ser refeita sem o outlier.
Conservar quando nenhuma explicao pode ser dada

observao atpica. Neste caso preciso um tratamento especial


na anlise desses dados.

115

Box-Plot e Assimetria

116

Anlise Bivariada

Muitas vezes queremos realizar uma anlise descritiva de duas


variveis simultneamente, ou seja, verificar se h uma relao
entre duas variveis.
Queremos conhecer o grau de dependncia entre as variveis
para prever melhor o resultado de uma delas quando
conhecermos a realizao da outra.
117

O tempo de servio na Empresa tem relao


com o salrio do empregado?

Bom desempenho em ingls implica em


um bom desempenho em portugus?

A opinio sobre o aborto independe


da renda familiar?
118

Para anlise deste comportamento conjunto, medidas de associao


so utilizadas dependendo do tipo das variveis envolvidas no
estudo.
Possibilidades
Qualitativa x Qualitativa
Quantitativa x Quantitativa
Qualitativa x Quantitativa

119

Variveis Qualitativas

Podemos construir tabelas de frequncia com dupla entrada.


Essas tabelas de dados cruzados so conhecidas por tabelas de
contingncia, e so utilizadas para estudar a relao entre duas
variveis categricas.
Tabelas Bidimensionais (2x2)
Varivel 1

Varivel 2

Total

Categoria 1

Categoria 2

Categoria 1

a+b

Categoria 2

c+d

Total

a+c

b+d

A ideia verificar a associao atravs das porcentagens


segundo as colunas ou as linhas.
120

Exemplo 1: H indcios de associao entre o sexo e o hbito de


fumar?

Sexo

Hbito de Fumar

Total

Fuma

No-Fuma

Masculino

20

37

57

Feminino

27

35

Total

28

64

92

121

Exemplo 2: Existe ou no associao entre o sexo e a carreira


escolhida por 200 alunos de Contbeis e ADM?

Curso

Sexo

Total

Masculino

Feminino

Contbeis

100

20

120

ADM

40

40

80

140

60

200

Total

122

Existindo associao entre as variveis, torna-se interessante


quantificar essa associao.
De modo geral, a quantificao do grau de associao entre
duas variveis feita pelos chamados coeficientes de associao
ou correlao.
Usualmente variam entre 0 e 1, ou entre -1 e +1, indicando falta
de associao a proximidade do zero.
Existem muitas dessas medidas, veremos a seguir o Coeficiente
de Yule.

123

Coeficiente de YULE

Permite verificar a existncia de associao entre duas variveis


qualitativas. Cada varivel com apenas duas categorias.
Varivel 1

Varivel 2

Total

Categoria 1

Categoria 2

Categoria 1

a+b

Categoria 2

c+d

Total

a+c

b+d

ad bc
Y
ad bc
O valor de Y est compreendido no intervalo fechado de -1 at 1.
Y = 0 corresponde a independncia.
Y 0 corresponde a associao entre as variveis.

124

Variveis Quantitativas

A investigao da relao de duas variveis deste tipo


usualmente comea com uma anlise grfica dos dados,
atravs do grfico de disperso.
Com este grfico, possvel verificar se existe alguma relao
entre as variveis e se essa relao pode ser tratada como
aproximadamente linear.

125

Exemplo: Morettin e Bussab, Estatstica Bsica, pgina 81.


Nmero de anos de servio por nmero
de clientes de agentes de uma
companhia de seguros.
Agente

Anos de
Servio (X)

Nmero de
clientes (Y)

48

50

56

52

43

60

62

58

64

10

72

Fonte: Dados Hipotticos.

Parece haver uma associao entre as


variveis, porque no conjunto, medida que
aumenta o tempo de servio, aumenta o
nmero de clientes.
126

Exemplo: Taxa de analfabetismo x Expectativa de vida.

Conforme aumenta a taxa de analfabetismo (X), a expectativa


de vida (Y) tende a diminuir.
Tendncia linear decrescente.

127

Aps est verificao, pode-se medir o grau em que as variveis


esto relacionadas. A esta medida chamaremos de coeficiente
de correlao de Pearson, , que rdefinido pela seguinte
frmula:
n

x y
i

nx y

i 1

n
n

2
2
2
2
xi nx
yi ny

i 1

i 1

O coeficiente de correlao, r , mede a fora da associao


linear entre as duas variveis avaliadas, sendo uma medida
vlida se as duas variveis esto relacionadas linearmente, ou
seja, se a relao visualizada no grfico de disperso lembrar o
desenho de uma reta.
128

Interpretao do Coeficiente de Correlao de Pearson


Y

0 r 1

Correlao linear
positiva
Y

1 r 0

r 1

Correlao linear
perfeita positiva
Y

r0

r 1
X

Correlao nula

Correlao linear
negativa

Correlao linear
perfeita negativa

129

Um cuidado que deve ser tomado ao se interpretar correlao


associar um diagrama de disperso ao conjunto de dados.
Conjunto 1
X
Y
10
8,04
8
6,95
13
7,58
9
8,81
11
8,33
14
9,96
6
7,24
4
4,26
12
10,84
7
4,82
5
5,68

Conjunto 2
X
Y
10
9,14
8
8,14
13
8,74
9
8,77
11
9,26
14
8,1
6
6,13
4
3,1
12
9,13
7
7,26
5
4,74

Conjunto 3
X
Y
10
7,46
8
6,77
13
12,74
9
7,11
11
7,81
14
8,84
6
6,08
4
5,39
12
8,15
7
6,42
5
5,73

Conjunto 4
X
Y
8
6,58
8
5,76
8
7,71
8
8,84
8
8,47
8
7,04
8
5,25
19
12,5
8
5,56
8
7,91
8
6,89

Para cada um deles, temos: r = 0,816. Porm, estes conjuntos de


dados apresentam disposies completamente diferentes no
130
diagrama.

131

Variveis Quantitativas e Qualitativas

Essa situao a mais fcil de analisar haja visto que se trata de


uma anlise comparativa, ou seja, utiliza-se as medidas de
sumarizao estudadas at agora e realiza-se uma anlise
comparativa dessas medidas em cada categoria da varivel
qualitativa.
Graficamente: Atravs da construo de um box-plot
comparativo representando o comportamento quantitativo nas
diferentes categorias da varivel qualitativa.
Numericamente: Atravs do clculo das medidas sumrias
como mdia, desvio padro e percentis da varivel
quantitativa nas diferentes categorias da varivel qualitativa.
132

Altura de crianas conforme o sexo.

133

Descrevendo a pulsao em repouso segundo o sexo

(1-Masculino e 2- Feminino)

134

Box-plot da varivel pulsao em repouso segundo o sexo.

135