Análise Exploratóriade Dados

Captulo 1
An
alise Explorat
oria de Dados
1.1
Introduc
ao
A Estatstica lida com situacoes nas quais a ocorrencia de algum evento nao
pode ser prevista com exatidao. Essas situacoes envolvem fenomenos ou experimentos que, quando repetidos sob as mesmas condicoes, apresentam variacoes
em seus resultados. No mundo real, a maioria dos problemas a serem estudados
sao desse tipo e, ainda assim, temos interesse em compreender os fatores que os
governam e, a`s vezes, criar modelos capazes de descrever seus desenvolvimentos
e fazer previsoes para resultados futuros. Uma das maneiras de abordar essas
questoes e coletar dados sobre caractersticas relevantes ao problema em estudo,
dados esses que precisam ser analisados de forma adequada, para que possamos
extrair as informacoes que levem a um conhecimento, pelo menos parcial, de tal
problema.
No passado, tratar um grande n
umero de dados era uma tarefa custosa
e cansativa, que exigia horas de trabalho. Hoje, uma grande quantidade de informacoes pode ser analisada rapidamente com o uso de um computador pessoal
e programas adequados. Dessa forma, o computador contribui, positivamente,
na difusao e uso de metodos estatsticos. Por outro lado, o computador possibilita uma automacao que pode levar um indivduo sem preparo especfico a utilizar
tecnicas inadequadas para resolver um dado problema. Assim e necessario a compreensao dos conceitos basicos da Estatstica, bem como as suposicoes necessarias
1
para o seu uso de forma criteriosa.

A Estatstica e muito mais do que a simples construcao de graficos e o
calculo de medias. As informacoes numericas sao obtidas com a finalidade de acumular informacao para a tomada de decisao. Entao, a estatstica pode ser vista
como um conjunto de tecnicas que permite, de forma sistematica, organizar, resumir, descrever, analisar e interpretar dados oriundos de estudos ou experimentos,
e deles extrair conclusoes.
De modo geral podemos dividir a Estatstica em tres areas Estatstica Descritiva, Probabilidade e Inferencia Estatstica.
Estatstica Descritiva: e o estudo dos procedimentos que, em geral, constituem a etapa inicial da analise e tem por finalidade resumir a informacao
embutida nos dados, empregando para isso a elaboracao de graficos e tabelas, a determinacao de medidas estatsticas, entre outros. Em outras
palavras, a estatstica descritiva pode ser definida como um conjunto de
tecnicas destinadas a descrever e resumir os dados a fim de que possamos
tirar conclusoes a respeito de caractersticas de interesse, isto e, obter informacoes que indiquem possveis modelos a serem utilizados numa fase
final que seria a chamada inferencia estatstica.
Probabilidade: compreende o estudo da teoria matematica utilizada para
abordar a incerteza oriunda de fenomenos de carater aleatorio.
Infer
encia Estatstica: e o estudo de tecnicas que permitem a utilizacao
de dados oriundos de uma amostra para generalizacoes sobre a populacao.
Tem como objetivo a coleta, reducao, analise e modelagem dos dados, a
partir do que, finalmente, faz-se a inferencia para uma populacao da qual
os dados (a amostra) foram obtidos. Um aspecto importante da modelagem
dos dados e fazer previsoes, a partir das quais se podem tomar decisoes.
Deve ser notado que, se tivessemos acesso a todos os elementos que desejamos
estudar, nao seria necessario uso das tecnicas de inferencia estatstica. Entretanto, elas sao indispensaveis quando existe a impossibilidade de acesso a todo o
2
conjunto de dados, por razoes de natureza economica, etica ou fsica.
Na terminologia estatstica,
o grande conjunto de dados que contem
caracterstica de interesse recebe o nome de POPULAC

AO
Definic
ao 1.1 (Popula
c
ao(N)), e o conjunto de todos os elementos relativos
a um determinado fenomeno que possuem pelo menos uma caracterstica em comum. Por exemplo, a populacao pode estar associada a todos os habitantes da
cidade de Manaus, a todas as lampadas produzidas por uma fabrica em certo
perodo de tempo, ou todo o sangue no corpo de uma pessoa, etc...
Algumas vezes podemos ter acesso a toda a populacao para estudarmos
caractersticas de interesse, mas em muitas situacoes tal procedimento nao pode
ser realizado, por razoes economicas, sociais ou fsicas, como por exemplo, na
analise do sangue de uma pessoa ou em um experimento para determinar o tempo
de vida (funcionamento) das lampadas produzidas por uma ind
ustria, nao podemos observar toda a populacao de interesse. Tendo em vista as dificuldades de
varias naturezas para se observar todos os elementos da populacao, tomamos alguns deles para formar um grupo a ser estudado. Este subconjunto da populacao
e denominado AMOSTRA.
Definic
ao 1.2 (Amostra(n)), pode ser definida como um subconjunto da
populacao e devera ser considerada finita. Deve ser representativa, de modo que
represente todas as caractersticas da populacao.
Algumas definicoes:
Par
ametro: e uma medida numerica que descreve uma caracterstica de
uma populacao. Sao valores fixos, geralmente desconhecidos e usualmente
representados por caracteres gregos. Por exemplo, (media populacional),
p (proporcao populacional), (desvio-padrao populacional), 2 (variancia
populacional).
3
uma caracterstica numerica determinada na amostra.

Estatstica: E
Exemplos de estimadores: x (media amostral), p (proRepresentada por .
porcao amostral), S 2 (variancia amostral).
A selecao da amostra pode ser feita de varias maneiras, dependendo, entre outros fatores, do grau de conhecimento que temos da populacao, da quantidade de
recursos disponveis e assim por diante. Em princpio, a selecao da amostra tenta
fornecer um subconjunto de valores o mais parecido possvel com a populacao
que lhe da origem. A amostragem mais usada e a Amostragem Aleatoria Simples,
em que selecionamos ao acaso, com ou sem reposicao, os itens da populacao que
farao parte da amostra. Na Amostragem Estratificada, classifica-se a populacao
em, ao menos dois estratos e extrai-se uma amostra de cada um, no caso de existir uma relacao numerada dos itens da populacao podemos fazer a Amostragem
Sistematica, em que selecionamos os indivduos de forma pre-determinada, por
exemplo de 3 em 3, ou de 10 em 10, entre outros metodos, quanto mais complexa
for a amostragem, maiores cuidados deverao ser tomados nas analises estatsticas
utilizadas.
Toda analise estatstica e antecedida pela necessidade de conhecimento, como

por exemplo, conhecer se o consumo de cigarro pode causar cancer, e o objetivo final de uma analise estatstica e colocar uma hipotese a prova, levantando
evidencias para aceita-la ou rejeita-la.
Definic
ao 1.3 Hipoteses sao afirmacoes que necessitam de comprovacao para
serem consideradas verdadeiras.
Exemplo 1.1 (Fumo e C
ancer) Hoje em dia e natural associar o habito de
fumar à cancer de pulmao (e muitos outros males). Mas isso nem sempre foi verdade. De fato, foram necessarios muitos estudos para chegar a aceitar a hipotese
(o habito de fumar aumenta o risco de cancer).
Para testar hipoteses, coletamos dados de um experimento. Por exemplo,
para conhecer o perfil socioeconomico dos empregados de uma empresa, podemos
4
perguntar seu sexo, salario, idade, se sao casados, se tem filhos, etc. Todas estas
informacoes obtidas sao dados, que podem levantar evidencias sobre diferentes
hipoteses.
Antes de serem observadas, cada uma das informacoes e denominada variavel.

Voltando ao nosso exemplo acima, as variaveis seriam sexo, salario, idade, estado
convencao utilizar letras mai
civil, n
umero de filhos, etc. E
usculas para representar uma variavel. Podemos entao dizer que X e a variavel sexo, Y a variavel idade
e assim por diante. O dado (ou seja, o valor observado da variavel) e expresso
pela mesma letra da variavel correspondente, so que min
uscula.
Exemplo 1.2 Suponha que estamos interessados em fazer um levantamento sobre alguns aspectos socioeconomicos dos empregados da secao de orcamentos da
Companhia MB. Com essa finalidade, usando informacoes obtidas do departamento pessoal, para cada empregado, foram coletadas as seguintes variaveis: sexo;
estado civil; grau de instrucao; n
umero de filhos; salario (em SM); idade; regi
ao
de procedencia. Com essas informacoes a Tabela 1.1 foi elaborada
O conjunto de informacoes disponveis, apos a tabulacao do questionario e
denominado tabela de dados brutos e contem os dados da maneira que foram
coletados inicialmente. Cada uma das caractersticas observadas e denominada
VARIAVEL.
Definic
ao 1.4 Se o valor de uma variavel nao pode ser predito com absoluta
certeza, esta variavel e denominada aleatoria.
As variaveis tem naturezas diferentes e sao classificadas de acordo com os
valores que podem assumir. Podem ser consideradoas em dois grandes grupos:
numericas e nao numericas. As variaveis que assumem valores numericos sao
denominadas de quantitativas e as nao numericas de qualitativas.
As variaveis quantitativas podem ser subdivididas em discretas e contnuas.

As quantitativas discretas sao aquelas cujos valores possveis formam um conjunto finito ou enumeravel, em geral, sao oriundas de contagens. Exemplos de
5
Tabela 1.1: Informacoes sobre estado civil, grau de instrucao, numero de filhos, salario, idade
e procedencia de 36 empregados da secao de orcamentos da Companhia MB.
N.
Estado
Grau de
N. de
Salario
Idade
Regiao de
Civil
Instruc
ao
filhos
Mnimo
(Anos)
(Meses)
Solteiro
Ensino fundamental
4,00
26
03
Interior
Casado
Ensino fundamental
4,56
32
10
Capital
Casado
Ensino fundamental
5,25
36
05
Capital
Solteiro
Ensino medio
5,73
20
10
Outra
Solteiro
Ensino fundamental
6,26
40
07
Outra
Casado
Ensino fundamental
6,66
28
00
Interior
Solteiro
Ensino fundamental
6,86
41
00
Interior
Solteiro
Ensino fundamental
7,39
43
04
Capital
Casado
Ensino medio
7,59
34
10
Capital
10
Solteiro
Ensino medio
7,44
23
06
Outra
11
Casado
Ensino medio
8,12
33
06
Interior
12
Solteiro
Ensino fundamental
8,46
27
11
Capital
13
Solteiro
Ensino medio
8,74
37
05
Outra
14
Casado
Ensino fundamental
8,95
44
02
Outra
15
Casado
Ensino medio
9,13
30
05
Interior
16
Solteiro
Ensino medio
9,35
38
08
Outra
17
Casado
Ensino medio
9,77
31
07
Capital
18
Casado
Ensino fundamental
9,80
39
07
Outra
19
Solteiro
Ensino superior
10,53
25
08
Interior
20
Solteiro
Ensino medio
10,76
37
04
Interior
21
Casado
Ensino medio
11,06
30
09
Outra
22
Solteiro
Ensino medio
11,59
34
02
Capital
23
Solteiro
Ensino fundamental
12,00
41
00
Outra
24
Casado
Ensino superior
12,79
26
01
Outra
25
Casado
Ensino medio
13,23
32
05
Interior
26
Casado
Ensino medio
13,60
35
00
Outra
27
Solteiro
Ensino fundamental
13,85
46
07
Outra
28
Casado
Ensino medio
14,69
29
08
Interior
29
Casado
Ensino medio
14,71
40
06
Interior
30
Casado
Ensino medio
15,99
35
10
Capital
31
Solteiro
Ensino superior
16,22
31
05
Outra
32
Casado
Ensino medio
16,61
36
04
Interior
33
Casado
Ensino superior
17,26
43
07
Capital
34
Solteiro
Ensino superior
6 18,75
33
07
Capital
35
Casado
Ensino medio
19,40
48
11
Capital
36
Casado
Ensino superior
23,30
42
02
Interior
Procedencia
tais variaveis sao: n

umero de filhos em uma famlia; n
umero de pecas defeituosas
em uma linha de producao. A variavel e dita quantitativa contnua se assume valores em um intervalo de n
umeros reais, em geral, sao resultantes de mensuracoes.
Como exemplos desse tipo de variavel temos peso de pessoas, alturas de arvores,
tempo de realizacao de operacoes industriais, diametro de pecas que saem de uma
linha de producao.
Para as variaveis qualitativas, que sao de natureza nao numerica, as respostas sao qualidades (atributos) ou categorias. Essas variaveis sao ditas qualitativas ordinais se suas possveis respostas apresentam uma ordenacao natural.
Como exemplos temos: nvel de instrucao (fundamental, medio, superior); grau
de satisfacao com um dado servico (insatisfeito, pouco satisfeito, muito satisfeito); complexidade de um projeto industrial (baixa, media, alta). Quando nao
e possvel estabelecer uma ordenacao natural das respostas da variavel qualitativa,
essas sao denominadas qualitativas nominais. Exemplos: sexo do indivduo (feminino, masculino); estado civil (solteiro, casado, desquitado/divorciado, vi
uvo);
situacao trabalhista (registrado, nao registrado).
O tipo da variavel define quais os procedimentos adequados a serem empregados na analise estatstica dos dados obtidos para a mesma.
Definic
ao 1.5 Considere uma variavel X que pode assumir qualquer valor no
conjunto A. Uma colecao X1 , . . . , Xn de elementos A e denominada amostra de
X.
Definic
ao 1.6 O n
umero de elementos de uma amostra e denominado tamanho
da amostra.
A tabela de dados brutos pode nao ser adequada para obtermos as informacoes
de interesse. Devem ser construdas outras tabelas e graficos que apresentem, de
forma resumida, as informacoes contidas nos dados.
1.2
Distribuic
ao de Frequ
encias
Quando se estuda uma variavel, o maior interesse do pesquisador e conhecer o comportamento dessa variavel, analisando a ocorrencia de suas possveis
realizacoes. Uma maneira de dispor um conjunto de realizacoes para se tuma
ideia global, e atraves de uma tabela de distribui
c
ao de frequ
encia. Sao
tabelas resumidas que apresentam os valores da variaveis com as suas respectivas contagens de ocorrencias, sao ordenadas em grupos de classes ou categorias,
numericamente ordenadas e podem ser sem perda de informacoes (limita-se a
juntar valores repetidos e indicar quantas vezes eles ocorrem) a ou com perda de
informacoes (acumula dados em intervalos especficos).
Exemplo 1.3 A Tabela 1.2 apresenta a distribuicao de frequencias da variavel
grau de instrucao, usando os dados da Tabela 1.1
Tabela 1.2:
Frequencias e porcentagens dos 36 empregados da secao de
orcamentos da Companhia MB segundo o grau de instrucao.

Grau de Instruc
ao
Freq. absoluta
(ni )
Freq. relativa
(fi =
ni
n)
Porcetagem
Freq. acumulada
100fi
(fac )
fundamental
12
0,333
33,33
12
medio
18
0,5
50,00
30
superior
P
0,166
16,50
36
36
100,00
Usamos a notacao ni para indicar a frequencia absoluta de cada classe, ou

categoria, da variavel, a notacao fi = ni /n para indicar a proporcao (ou frequencia
relativa) de cada classe, sendo n o n
umero total de observacoes e a notacao fac
indicando a frequencia acumulada. As proporcoes sao muito u
teis quando se
quer comparar resultados de duas pesquisas distintas. Suponha que se queira
comparar a variavel grau de instrucao para empregados da secao de orcamentos
com a mesma variavel para todos os empregados da companhia MB. Digamos
que a empresa tenha 2.000 empregados e que a distribuicao de frequencias seja a
da Tabela1.3.
8
Tabela 1.3: Frequencias e porcentagens dos 2.000 empregados da secao de

orcamentos da Companhia MB segundo o grau de instrucao.
Grau de Instrucao
Freq. absoluta
Porcetagem
(ni )
(100fi )
650
32,50
1.020
51,00
330
16,50
2.000
100,00
fundamental
medio
superior
P
Nao podemos comparar diretamente as colunas das frequencias das Tabelas

1.2 e1.3, pois os totais de empregados sao diferentes nos dois casos. Mas as
colunas das porcetagens sao comparaveis, pois reduzimos as frequencias a um
mesmo total.
A construcao de tabelas de frequencias para variaveis contnuas necessita de
certo cuidado. Por exemplo, a construcao da tabela de frequencias para a variavel
salario, nao resumira as 36 observacoes num grupo menor, pois nao existem observacoes iguais. A solucao empregada e agrupar os dados por faixas de salario.
Tabela 1.4:
orcamentos da Companhia MB por faixa de salario.

Classe de sal
arios
Freq. absoluta
(ni )
Freq. relativa
(fi =
ni
n)
Freq. acumulada
(fac )
4, 00 ` 8, 00
10
0,277
10
8, 00 ` 12, 00
12
0,333
22
12, 00 ` 16, 00
0,222
30
16, 00 ` 20, 00
0,1388
35
20, 00 ` 24, 00
P
0,0277
36
36
Observe que desse modo, ao resumir os dados referentes a uma variavel contnua,
perde-se alguma informacao. Por exemplo, nao sabemos ao certo quais sao os 10
salarios da classe de 4 a 8, a nao ser que olhemos a tabela original. A notacao
a ` b indica o intervalo de n
umeros contendo o extremo a mas nao contendo o
9
extremo b, podemos tambem usar a notacao [a `, b) para designar o mesmo intervalo a ` b. A escolha dos intervalos e arbitrario e a familiaridade do pesquisador
com os dados e que lhe indicara quantas e quais classes (intervalos) devem ser
importante observar que com um pequeno n
usadas. E
umero de classes, perde-se
informacao, e com um grande n
umero de classes, o objetivo de resumir os dados
fica prejudicado.
1.2.1
Procedimentos para a representac

ao das distribuico
es
de frequ
encias
1. Dados:
Sao as informacoes inerentes a`s variaveis que caracterizam os elementos que constituem a populacao ou a amostra em estudo. Os dados obtidos em pesquisas
devem ser analisados e interpretados com o auxlio de metodos estatsticos. Na
primeira etapa deve-se fazer uma analise descritiva que consiste na organizacao e
descricao dos dados, na identificacao de valores que representem o elemento tpico
e, na quantificacao da variabilidade presente nos dados.
2. DADOS BRUTOS
Qualquer pesquisa e baseada em levantamento ou coleta de dados. Os dados sao
obtidos diretamente da pesquisa, sem terem passados por nenhum processo de
sntese ou analise. Por exemplo, os 50 valores, em decibeis, de nvel de rudo de
trafego em certo cruzamento estao apresentados a seguir:
58, 0 62, 5 65, 0 67, 0 68, 3 65, 0 66, 4 58, 0 67, 0 67, 0
62, 5 62, 5 66, 4 66, 4 65, 0 65, 0 60, 2 60, 2 60, 2 60, 2
59, 5 59, 5 59, 5 65, 0 66, 4 66, 4 66, 4 60, 2 62, 5 67, 0
67, 0 67, 0 70, 1 70, 1 71, 9 70, 1 67, 0 66, 4 66, 4 68, 3
68, 3 68, 3 65, 0 65, 0 62, 5 62, 5 65, 0 65, 0 68, 3 71, 9
nota-se uma grande variacao nos resultados. Assim, os metodos estatsticos sao
fundamentais para o estudo de situacoes em que a variabilidade e inerente. A Estatstica Descritiva ajuda na percepcao, avaliacao e quantificacao da variabilidade
10
em tabelas e graficos obtidos a partir de um conjunto de dados que sintetizem os

valores, com o objetivo de se ter uma visao global e clara da variacao existente
nas variaveis.
3. ROL
A mao, ou com auxlio de computador, pode-se classificar os dados x1 , x2 , ..., xn
em ordem crescente. Pode-se, pelo rol, verificar de maneira mais clara e rapida
a composicao do conjunto, identificando o maior e o menor valor alem de alguns
elementos que podem se repetir varias vezes, mostrando assim o comportamento
dos dados. Assim, o Rol dos 50 valores do nvel de rudo de trafego em certo
cruzamento, fica:
58, 0 58, 0 59, 5 59, 5 59, 5 60, 2 60, 2 60, 2 60, 2 60, 2
62, 5 62, 5 62, 5 62, 5 62, 5 62, 5 65, 0 65, 0 65, 0 65, 0
65, 0 65, 0 65, 0 65, 0 65, 0 66, 4 66, 4 66, 4 66, 4 66, 4
66, 4 66, 4 66, 4 67, 0 67, 0 67, 0 67, 0 67, 0 67, 0 67, 0
68, 3 68, 3 68, 3 68, 3 68, 3 70, 1 70, 1 70, 1 71, 9 71, 9
4. Amplitude ou Range (At ):
a diferenca entre o maior e o menor elemento do conjunto de dados.
E
At = xmax xmin
5. Frequ
encia absoluta (ni ):
o n
E
umero de vezes que o elemento aparece na amostra, ou n
umero de elementos
pertencentes a uma classe.
6.Frequ
encia relativa (fi ):
Proporcao de cada classe.
fi =
7. Frequ
encia acumulada (fac ):
11
ni
n
a soma das frequencias de uma classe e de todas as classes que a antecedem.

E
8. N
umero de classes (K):
Nao ha uma formula exata para o n
umero de classes, podemos usar a Formula
de Sturges, k = 1 + 3, 3 log (n), mas deve-se saber que existem outros metodos de
determinacao do n
umero de classes em uma tabela de freq
uencia, ha quem prefira
k = n. O que se deseja fazer e apenas comprimir um conjunto de dados em uma

tabela, para facilitar a visualizacao e interpretacao dos mesmos. Entretanto, a
verdade e que essas formulas nao nos levam a uma decisao final; esta vai depender
na realidade de um julgamento pessoal, que devera estar ligado a natureza dos
dados, procurando, sempre que possvel, evitar classes com freq
uencias nulas ou
freq
uencias relativas exageradamente grandes.
9. Amplitude das classes (Ac ):
Ac = At /k
10. Limite das classes Os extremos de uma classe sao denominados limite
inferior e limite superior. ex: a ` b
11. Ponto m
edio das classes
pm = (LI + LS )/2
A apresentacao dos dados pode ser de duas formas: Apresentac

ao Tabular e
apresentac
ao Gr
afica.
TABULAR:
REPRESENTAC
AO
Apresentacao tabular numerica de dados e a representacao das informacoes por

intermedio de uma tabela. Uma tabela e uma maneira bastante eficiente de mos12
trar os dados levantados e que facilita a compreensao e interpretacao dos dados.

Para organizar uma serie estatstica ou uma distribuicao de frequencias, existem
algumas normas nacionais ditadas pela Associacao Brasileira de Normas Tecnicas
(ABNT) as quais devem ser respeitadas. Assim, toda tabela estatstica de conter:
Elementos essenciais
Ttulo: indica a natureza do fato estudado (o que?), as variaveis escolhidas na analise do fato (como?), o local (onde?) e a epoca (quando?).
Corpo: e o conjunto de linhas e colunas que contem, respectivamente,
as series horizontais e verticais de informacoes.
Cabecalho: designa a natureza do conte
udo de cada coluna.
Coluna indicadora: mostra a natureza do conte
udo de cada linha.
Elementos complementares (se necessario)
Fonte: e o indicativo, no rodape da tabela, da entidade responsavel
pela sua organizacao ou fornecedora dos dados primarios.
Notas: sao colocadas no rodape da tabela para esclarecimentos de
ordem geral.
Sinais convencionais
(hfen), quando o valor numerico e nulo;
. . . (reticencia), quando nao se dispoe de dado;
? (ponto de interrogacao), quando ha d
uvidas quanto a` exatidao do
valor numerico;
0; 0, 0; 0, 00 (zero), quando o valor numerico e muito pequeno para
ser expresso pela unidade utilizada, respeitando o n
umero de casas
decimais adotado;
X (letra x), quando o dado for omitido.
Numerar as tabelas quando houver mais de uma.
13
As tabelas devem ser fechadas acima e abaixo por linha horizontal, nao
facultativo o
sendo fechadas à direita e a` esquerda por linhas verticais. E
emprego de tracos verticais para separacao de colunas no corpo da tabela.
Os totais e subtotais devem ser destacados.
Manter a uniformidade do n
umero de casas decimais.
GRAFICA:
REPRESENTAC
AO
A representacao grafica da distribuicao de uma variavel tem a vantagem de,

rapida e concisamente, informar sobre sua variabilidade. Os graficos devem ser
auto-explicativos e de facil compreensao. Devem sempre ter um ttulo, onde se
destaca o fato, o local e o tempo. Vamos definir, inicialmente, tres tipos basicos
de graficos: graficos em barras, em setores e histograma. O grafico em barras
utiliza o plano cartesiano com os valores da variavel no eixo das abcissas e as
frequencias ou porcetagens no eixo das ordenadas. Note que para cada valor
da variavel desenha-se uma barra com altura correspondendo sua frequencia
ou porcetagem. Esse tipo de grafico se adapta melhor às variaveis discretas ou
quantitativas ordinais.
10
5
0
Frequncia
15
20
Grau de Instruo dos funcionrios da Companhia MB
Fundamental
Mdio
Grau de Instruo
14
Superior
Ja o grafico de composicao em setores, sendo em forma de pizza o mais

conhecido, destina-se a representar a composicao, usualmente em porcetagem de
partes de um todo. Consiste num crculo de raio arbitrario, representando o todo,
dividido em setores, que correspondem a`s partes de maneira proporcional. O
Grau de instruo dos funcionrios da companhia MB
16.7%
33.3%
50%
Fundamental
Mdio
Superior
histograma consiste em retangulos contguos de base dada pelas faixas de valores

da variavel e area igual à frequencia relativa da respectiva faixa. A altura de cada
retangulo e denominada densidade de frequencia ou simplesmente densidade e e
definida pelo quociente da area pela amplitude da faixa. Note que, pelo uso das
frequencias relativas, a soma das areas de todos os retangulos em um histograma
e igual a 1.
Tanto o histograma como os graficos em barras dao uma ideia da forma da
distribuicao da variavel sob consideracao. Por exemplo, saber que a renda per
capita de um pas e de tantos dolares pode ser um dado interessante, mas saber
como esta renda se distribui e mais importante. Um procedimento alternativo
para resumir um conjunto de valores, com o objetivo de se obter uma ideia da
forma de sua distribuicao, e o ramo-e-folhas. Uma vantagem deste diagrama
15
4
0
Frequncia
Histograma da varivel S: salrio
10
15
20
25
30
Salrio
sobre o histograma e que nao perdemos (ou perdemos pouca) informacao sobre
os dados em si. O diagrama ramo e folhas e uma tecnica flexvel e eficaz
para comecarmos a olhar um conjunto ou uma amostra de dados. Esta tecnica
basica, mas versatil, e intensamente usada, principalmente para comparar grupos
e examinar cada caracterstica, tais como:
quanto o grupo esta proxima da assimetria;
como estao distribudos os valores;
se alguns valores estao distanciados dos demais;
se existe concentracao de dados;
se existe lacunas nos dados.
Nao existe uma regra fixa para construir o ramo e folhas, mas a ideia basica e
dividir cada observacao em duas partes: a primeira (o ramo) e colocada a` esquerda
de uma linha vertical, a segunda(a folha) e colocada a` direita.
Algumas informacoes que se obtem do ramo-e-folhas apresentado na Tabela
1.2.1 sao:
Para os salarios 4, 00 e 4, 56 (o 4 e o ramo e 00 e 56 sao as folhas)
16
Ramo
Folha
Frequencia
58
0 0
59
5 5
60
2 2
62
5 5
65
0 0
66
4 4
67
0 0
68
3 3
70
1 1
71
9 9
3
5
6
0
9
8
7
5
3
2
Um ramo com muitas folhas significa maior incidencia daquele ramo (realizacao)
Ha um destaque grande para o valor 23, 30
Os demais valores estao razoavelmente concentrados entre 4, 00 e 19, 40.
Ha uma leve assimetria em direcao aos valores grandes; a suposicao de que
estes dados possam ser considerados como amostra de uma populacao com
distribuicao simetrica (a chamada distribuicao normal), pode ser questionada.
17
Tabela 1.5: Ramo e folhas dos salarios de 36 empregados da secao de orcamentos

da Companhia MB.
4
00
56
25
73
26
66
86
39
44
59
12
46
74
95
13
35
77
80
10
53
76
11
06
59
12
00
79
13
23
60
14
69
71
15
99
16
22
17
26
18
75
19
40
85
61
20
21
22
23
30
1.3
Medidas Resumo
1.3.1
Medidas de Posic
ao
Vimos que o resumo de dados por meio de tabelas de frequencias fornece muito
mais informacoes sobre o comportamento de uma variavel do que a propria tabela original dos dados. Podemos resumir ainda mais esses dados em valores que
sejam representativos da serie toda. Usualmente, emprega-se uma das seguintes
medidas de posicao (ou localizacao) central: media, mediana e moda.
A moda e definida como a realizacao mais frequente do conjunto de valores

observados. Por exemplo, considere a distribuicao da variavel Z, n
umero de filhos
18
dos empregados casados da secao de orcamentos da companhia MB (Tabela 1.1).

Na Tabela 1.6 temos as frequencias e porcentagens. A moda e 2, correspondente
a` realizacao com maior frequencia, 7. Em alguns casos, pode haver mais de uma
moda.
Tabela 1.6:
orcamentos da Companhia MB segundo o n

umero de filhos.
N. filhos
Freq. absoluta
Freq. relativa
(fi =
ni
n)
Porcetagem
zi
(ni )
100fi
0,2
20
0,25
25
0,35
35
0,15
15
5
P
0,05
20
100,00
A mediana e a realizacao que ocupa a posicao central da serie de observacoes,

quando estao ordenadas em ordem crescente. Assim, e as cinco observacoes de
uma variavel forem 3, 4, 7, 8, e 8, a mediana e o valor 7, correspondendo a` terceira observacao. Quando o n
umero de observacoes for par, usa-se como mediana
a media aritmetica das duas observacoes centrais. Acrescentando-se o valor 9 a`
serie acima, a mediana sera (7 + 8)/2 = 7, 5
A media aritmetica e a soma das observacoes dividida pelo n

umero delas.
Assim, a media das observacoes acima seria (3+4+7+8+8)/5=6.
Exemplo 1.4 Usando os dados da Tabela 1.6, ja encontramos que a moda da

variavel Z e 2. Para a mediana, constatamos que esta tambem e 2, a media
aritmetica entre a decima e a decima primeira observacoes. A media aritmetica
sera
40+51+72+33+51
33
=
= 1, 65
20
20
19
As tres medidas no exemplo acima tem valores proximos e qualquer uma delas
pode ser usada como representantiva da serie toda.
Formalizando os conceitos temos, se x1 , . . . , xn sao os n valores da variavel X,
a media aritmetica, ou simplesmente media, de X pode ser escrita como
n
1X
x1 + . . . + xn
=
xi
x=
n
n i=1
(1.1)
Se tivermos n observacoes da variavel X, das quais n1 sao iguais a x1 , n2 sao

iguais a x2 etc., nk iguais a xk , entao a media de X pode ser escrita como
k
n1 x1 + n2 x2 + . . . + nk xk
1X
x=
=
n i xi
n
n i=1
(1.2)
Se fi = ni /n representar a frequencia relativa da observacao xi , entao (1.2)

P
pode ser escrita como x = ki=1 fi xi .
Consideremos as observacoes ordenadas em ordem crescente, e denotamos a
menor observacao por x(1) , a segunda por x(2) , e assim por diante, obtemos as
chamadas estatsticas de ordem
x(1) x(2) . . . x(n1) x(n)
(1.3)
Por exemplo, se x1 = 3, x2 = 2, x3 = 6, x4 = 1, x5 = 3, entao 2 1 3

3 6, de modo que x(1) = 2, x(2) = 1, x(3) = 3, x(4) = 3, x(5) = 6.
Com esta notacao, a mediana da variavel X pode ser definida como
x n+1
, se n mpar
( 2 )
md(X) =
x( n ) +x( n +1 )
2
2
, se n par
2
1.3.2
(1.4)
Medidas de Dispers
ao
O resumo de um conjunto de dados por uma u

nica medida representativa de
posicao central esconde toda a informacao sobre a variabilidade do conjunto de
observacoes. Por exemplo, suponhamos que cinco grupos de alunos submeteramse a um teste, obtendo-se as seguintes notas:
Grupo A (Variavel X): 3,4,5,6,7

20
Grupo B (Variavel Y): 1,3,5,7,9

Grupo C (Variavel Z): 5,5,5,5,5
Grupo D (Variavel W): 3,5,5,7
Grupo E (Variavel V): 3,5,5,6,7
Podemos ver que x = y = z = w = v = 5, 0. A identificacao de cada uma
destas series por sua media nada informa sobre suas diferentes variabilidades. Da
a conveniencia de serem usadas medidas que sumarizem a variabilidade de um
conjunto de observacoes e que permita comparar conjuntos diferentes de valores.
Um criterio frequentemente usado para tal fim e aquele que mede a dispersao dos
dados em torno da media, e duas medidas sao as mais usadas: desvio padrao e
variancia. O princpio basico e analisar os desvios das observacoes em relacao à
media dessas observacoes.
Para o grupo A acima os desvios xi x sao: -2,-1,0,1,2. Podemos observar
que para qualquer conjunto de dados, a soma dos desvios e igual a zero. Nestas
P
condicoes a soma dos desvios 5i=1 (xi x) nao e uma boa medida de dispersao
para o conjunto A. Duas opcoes sao: (a) considerar o total dos desvios em valor
absoluto; (b) considerar o total dos quadrados dos desvios. Para o grupo A
teramos, respectivamente
5
X
|xi x| = 2 + 1 + 0 + 1 + 2 = 6
i=1
5
X
(xi x)2 = 4 + 1 + 0 + 1 + 4 = 10
i=1
O uso desses totais pode causar dificuldades quando comparamos conjuntos de

dados com n
umeros diferentes de observacoes, como os conjuntos A e D acima.
Desse modo, e mais conveniente exprimir as medidas como media, isto e, o desvio
medio e a variancia
Pn
|xi x|
n
Pn
(xi x)2
V ar(X) = i=1
n
dm(X) =
i=1
21
(1.5)
(1.6)
Respectivamente para o grupo A temos dm(X) = 1, 2; var(X) = 2, 0 enquanto para o grupo D temos dm(W ) = 1, 0; var(W ) = 2, 0
Podemos dizer, entao, que segundo o desvio medio, o grupo D e mais homogeneo que A, enquanto ambos sao igualmente homogeneos, segundo a variancia.
Sendo a variancia uma medida de dimensao igual ao quadrado da dimensao dos
dados, pode causar problemas de interpretacao. Costumamos usar entao o desvio
padrao que e definido como a raiz quadrada positiva da variancia. Para o grupo
A o desvio padrao e
dp(X) =
V ar(X) = 2 = 1, 41
Ambas as medidas de dispersao (dm e dp) indicam em media qual sera o

erro(desvio) cometido ao tentar substituir cada observacao pela media do conjunto de dados.
Exemplo 1.5 Vamos calcular as medidas de dispersao acima para a variavel
Z=n
umero de filhos, resumida na Tabela 1.6. Temos z = 1, 65, os desvio s
ao
zi z : 1, 65; 0, 65; 0, 35; 1, 35; 3, 35. Segue-se que
dm(Z) =
4 (1, 65) + 5 (0, 65) + 7 (0, 35) + 3 (1, 35) + 1 (3, 35)
= 0, 98
20
4(1, 65)2 + 5(0, 65)2 + 7(0, 35)2 + 3(1, 35)2 + 1(3, 35)2
= 1, 528
20
O desvio padrao de Z e dp(Z) = 1, 528 = 1, 24

var(z) =
Suponha que observemos n1 vezes os valores x1 etc., nk vezes o valor xk da

variavel X. Entao
Pk
dm(X) =
Pk
var(X) =
i=1
i=1
ni |xi x| X
=
fi |xi x|
n
i=1
k
ni (xi x)2 X
=
fi (xi x)2
n
i=1
dp(X) =
(1.7)
p
V ar(X)
(1.8)
(1.9)
A variancia da amostra sera calculada usando-se o denominador n 1, em vez

de n, a justificativa sera dada mais adiante. Assim como a media, a variancia (ou
22
o desvio padrao) e uma boa medida se a distribuicao dos dados for aproximadamente normal.
1.3.3
Quantis
Tanto a media como o desvio padrao podem nao ser medidas adequadas para
representar um conjunto de dados, pois: (a) sao afetados por valores extremos, (b)
apenas com estes valores nao temos ideia da simetria ou assimetria da distribuicao
dos dados. Para contornar esses fatos podemos definir uma medida chamada
quantil.
Se um conjunto de dados e organizado em ordem de grandeza, o valor central
(ou media aritmetica dos dois valores centrais) que divide o conjunto em duas
partes iguais e a mediana. Por extensao desse conceito, pode-se pensar nos valores
que dividem o conjunto em quatro partes iguais. Esses valores, representados por
Q1 , Q2 e Q3 denominam-se primeiro, segundo e terceiro quartis, respectivamente,
sendo o valor Q2 e igual à mediana.
Os valores que dividem os dados em dez partes iguais denominam-se decis e
sao representados por D1 , D2 , . . . , D9 enquanto os valores que dividem os dados
em 100 partes iguais chamam-se percentis e sao representados por P1 , P2 , . . . , P99 .
O quinto decil e o quinquagesimo percentil correspondem a` mediana. O 25o e o
75o percentis correspondem ao 1o e 3o quartis, respectivamente.
De maneira geral, os quartis, decis e percentis sao denominados quantis de
ordem p ou p-quantil, indicada por q(p), onde p e uma proporcao qualquer, O <
p < 1, tal que 100p% das observacoes sejam menores do que p. Indicamos, abaixo,
alguns quantis e seus nomes particulares.
q(0, 25) : 1o Quartil= 25o Percentil;
q(0, 50) : Mediana= 5o Decil = 50o Percentil;
q(0, 75) : 3o Quartil= 75o Percentil;
q(0, 40) : 4o Decil;
q(0, 95) : 95o Percentil;
23
Os quartis q(0, 25) = Q1 , q(0, 50) = Q2 e q(0, 75) = Q3 sao medidas de

localizacao resistentes de uma distribuicao.
Dizemos que uma medida de localizacao ou dispersao e resistente quando for
pouco afetada por mudancas de uma pequena porcao dos dados. A mediana e
uma medida resistente, ao passo que a media nao e.
Uma medida de dispersao alternativa para o desvio padrao e a distancia Interquartil, definida como a diferenca entre o terceiro e o primeiro quartis, ou
seja,
dq = q(0, 75) q(0, 25)
Os cinco valores, x(1) , q1 , q2 , q3 , x(n) , sao importantes para se ter uma boa ideia
da assimetria da distribuicao dos dados. Para uma distribuicao simetrica ou
aproximadamente simetrica deveramos ter:
(a) q2 x(1) ' x(n) q2 ;
(b) q2 q1 ' q3 q2 ;
(c) q1 x(1) ' x(n) q3 ;
(d) distancias entre mediana e q1 , q3 menores do que distancias entre os extremos
e q1 , q3 ;
A diferenca q2 x(1) e chamada dispersao inferior e x(n) q2 e a dispersao
superior. A condicao (a) nos diz que essas duas dispersoes devem ser aproximadamente iguais para uma distribuicao aproximadamente simetrica.
Alguns aplicativos como o SPlus, o Minitab, softwares como o R Console, assim como a planilha Excel, possuem ferramentas que geram as principais medidas
descritivas. Por exemplo, o comando Summary() do R Console, usado para as
populacoes dos municpios brasileiros do conjunto de dados CD-Municpios em
anexo, no livro Bussab & Morettin produz a sada abaixo:
summary(popula
c~
ao)
Min. 1st Qu.
46.30
64.48
Median
84.30
Mean 3rd Qu.

145.40
134.30
24
Max.
988.80
Figura 1.1: Distribuicao simetrica: normal ou gaussiana.
50% das obs.
x_1
q_1
q_2
q_3
x_n
ou usando os comandos obtemos

max(popula
c~
ao)=988.8; max(popula
c~
ao)=988.8; mean(popula
c~
ao)=145.4233;
median(popula
c~
ao)=84.3; sd(popula
c~
ao)=186.5946; var(popula
c~
ao)=34817.55;
sum(popula
c~
ao)=4362.7; length(popula
c~
ao)=30
quantile(popula
c~
ao)
0%
25%
46.300
64.475
50%
75%
100%
84.300 134.300 988.800
Aqui, temos N=30 dados, a media e 145,4, a media 84,3, o desvio padrao
186,6, o menor valor 46,3, o maior valor 988,8, o primeiro quartil 63,5 e o terceiro
quartil 139,7.
1.3.4
Box Plot
O box plot da uma ideia da posicao, dispersao, assimetria, caudas e dados discrepantes. A posicao central e dada pela mediana e a dispersao por dq . As
posicoes relativas de q1 , q2 , q3 dao uma nocao da assimetria da distribuicao. Os
25
comprimentos das caudas sao dadas pelas linhas que vao do retangulo aos valores
remotos e pelos valores atpicos.
Para construir este diagrama, consideremos um retangulo onde estao representados a mediana e os quantis. A partir do retangulo, para cima ate o ponto
mais remoto que nao exceda LS = q3 + (1, 5)dq , chamado limite superior. De
modo similar, da parte inferior do retangulo, para baixo, segue uma linha ate o
ponto mais remoto que nao seja menor do que LI = q1 (1, 5)dq chamado limite
inferior. Os valores compreendidos entre esses dois limites sao chamados valores
adjacentes. As observacoes que estiverem acima do limite superior ou abaixo do
limite inferior estabelecidos serao chamados pontos exteriores e representados por
asteriscos. Essas sao observacoes destoantes das demais e podem ou nao ser o
que chamamos de outliers ou valores atpicos.
Como ilustracao temos na Figura 1.3.4 o box plot do salario dos 36 funcionarios da Companhia MB.
Figura 1.2: Box plot segundo o salario dos funcionario da companhia MB.
15
20
Limite superior
3 Quartil
10
Mediana
1 Quartil
limite inferior
e a sada do R
26
summary(S)
Min. 1st Qu.
4.000
7.552
Median
10.160
Mean 3rd Qu.

11.120
14.060
Max.
23.300
onde temos N=30, media=11,120, mediana=10,160, Q1 = q(0, 25)=7,552,

Q3 = q(0, 75)=14,060, logo intervalo interquartil sera dq = q(0, 75) q(0, 25) =
6, 506
1.3.5
Anexos
Arredondamento de dados
O resultado do arredondamento de um n
umero como 72, 8 para o inteiro mais
proximo e 73, posto que 72,8 esta mais proximo de 73 do que de 72. Semelhantemente, 72, 8146 arredondado para o centesimo mais proximo, ou com duas
decimais, e 72, 81, porque 72, 8146 esta mais proximo de 72, 81 do que de 72, 82.
Ao arredondar 72, 465 para o centesimo mais proximo, entretanto, deparamosnos com um dilema pois 72, 465 dista igualmente de 72, 46 e de 72, 47. Usase, na pratica, em tais casos, aproximar para o n
umero par que procede o
5.
Assim, 72, 465 e arredondado para 72, 46,
183, 575 e arredondado para
183, 58 e 116.500.000, arredondado para as unidades de milhoes mais proximas,

e 116.000.000. Esta pratica e especialmente valiosa para reduzir ao mnimo os
erros acumulados por arredondamento, quando tratar-se de grande n
umero de
operacoes.
Notac
ao cientfica
Ao escrever n
umeros, especialmente que comportem muitos zeros, antes ou depois
da vrgula, e conveniente empregar a notacao cientfica que utiliza as potencias
de 10.
Exemplo 1: 101 = 10; 102 = 10 10 = 100; 105 = 10 10 10 10 10 =
100.000; 108 = 100.000.000
27
Exemplo 2: 100 = 1; 101 = 0, 1; 102 = 0, 01; 105 = 0, 00001

Exemplo 3: 864.000.000 = 8, 64 108 ; 0, 00003416 = 3, 416 105
Note que, multiplicando-se um n
umero por 108 , por exemplo, tem-se o mesmo
resultado que deslocar a vrgula, para a direita, 8 casas. Multiplicando-se um
n
umero por 106 tem-se o mesmo resultado que deslocar a vrgula, para a esquerda, 6 casas.
28

Análise Exploratóriade Dados

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Análise Exploratóriade Dados

Enviado por

Direitos autorais:

Formatos disponíveis

Captulo 1

para o seu uso de forma criteriosa.

conjunto de dados, por razoes de natureza economica, etica ou fsica.

o grande conjunto de dados que contem

caracterstica de interesse recebe o nome de POPULAC

uma caracterstica numerica determinada na amostra.

Toda analise estatstica e antecedida pela necessidade de conhecimento, como

Antes de serem observadas, cada uma das informacoes e denominada variavel.

As variaveis quantitativas podem ser subdivididas em discretas e contnuas.

tais variaveis sao: n

Frequencias e porcentagens dos 36 empregados da secao de

orcamentos da Companhia MB segundo o grau de instrucao.

Usamos a notacao ni para indicar a frequencia absoluta de cada classe, ou

Tabela 1.3: Frequencias e porcentagens dos 2.000 empregados da secao de

Nao podemos comparar diretamente as colunas das frequencias das Tabelas

Frequencias e porcentagens dos 36 empregados da secao de

orcamentos da Companhia MB por faixa de salario.

Procedimentos para a representac

em tabelas e graficos obtidos a partir de um conjunto de dados que sintetizem os

a soma das frequencias de uma classe e de todas as classes que a antecedem.

k = n. O que se deseja fazer e apenas comprimir um conjunto de dados em uma

9. Amplitude das classes (Ac ):

A apresentacao dos dados pode ser de duas formas: Apresentac

Apresentacao tabular numerica de dados e a representacao das informacoes por

trar os dados levantados e que facilita a compreensao e interpretacao dos dados.

A representacao grafica da distribuicao de uma variavel tem a vantagem de,

Grau de Instruo dos funcionrios da Companhia MB

Ja o grafico de composicao em setores, sendo em forma de pizza o mais

histograma consiste em retangulos contguos de base dada pelas faixas de valores

Histograma da varivel S: salrio

Tabela 1.5: Ramo e folhas dos salarios de 36 empregados da secao de orcamentos

A moda e definida como a realizacao mais frequente do conjunto de valores

dos empregados casados da secao de orcamentos da companhia MB (Tabela 1.1).

Frequencias e porcentagens dos 36 empregados da secao de

orcamentos da Companhia MB segundo o n

A mediana e a realizacao que ocupa a posicao central da serie de observacoes,

A media aritmetica e a soma das observacoes dividida pelo n

Exemplo 1.4 Usando os dados da Tabela 1.6, ja encontramos que a moda da

Se tivermos n observacoes da variavel X, das quais n1 sao iguais a x1 , n2 sao

Se fi = ni /n representar a frequencia relativa da observacao xi , entao (1.2)

Por exemplo, se x1 = 3, x2 = 2, x3 = 6, x4 = 1, x5 = 3, entao 2 1 3

O resumo de um conjunto de dados por uma u

Grupo A (Variavel X): 3,4,5,6,7

Grupo B (Variavel Y): 1,3,5,7,9

O uso desses totais pode causar dificuldades quando comparamos conjuntos de

Ambas as medidas de dispersao (dm e dp) indicam em media qual sera o

O desvio padrao de Z e dp(Z) = 1, 528 = 1, 24

Suponha que observemos n1 vezes os valores x1 etc., nk vezes o valor xk da

A variancia da amostra sera calculada usando-se o denominador n 1, em vez

Os quartis q(0, 25) = Q1 , q(0, 50) = Q2 e q(0, 75) = Q3 sao medidas de

Mean 3rd Qu.

Figura 1.1: Distribuicao simetrica: normal ou gaussiana.

50% das obs.

ou usando os comandos obtemos

84.300 134.300 988.800

Mean 3rd Qu.

onde temos N=30, media=11,120, mediana=10,160, Q1 = q(0, 25)=7,552,

Assim, 72, 465 e arredondado para 72, 46,

183, 575 e arredondado para

183, 58 e 116.500.000, arredondado para as unidades de milhoes mais proximas,

Exemplo 2: 100 = 1; 101 = 0, 1; 102 = 0, 01; 105 = 0, 00001

Você também pode gostar