P. 1
oficina1teoria

oficina1teoria

|Views: 219|Likes:
Publicado porfrancisco

More info:

Published by: francisco on Jun 27, 2010
Direitos Autorais:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

02/16/2014

pdf

text

original

Oficina I - Análise Exploratória de Dados

1
1. Análise Exploratória de Dados

1.1 De Que Trata a Estatística?

Estatística é a ciência que se ocupa da obtenção de informação
(amostragem, planeamento de experiências), do seu tratamento inicial
(ordenação, cálculo de características amostrais, agrupamento em classes,
representações gráficas – em suma, estatística descritiva e análise
exploratória de dados), com a finalidade de, através de resultados
probabilistas adequados, inferir de uma amostra para a população
(decisão sobre hipóteses, estimação de parâmetros populacionais a partir
das características amostrais relevantes, comparação de populações,
relacionamento de uma variável resposta com variáveis controladas), e
eventualmente prever a evolução futura de um fenómeno (previsão). Por
outras palavras, é um instrumento de leitura da informação, e da sua
transformação em Conhecimento.


“A Estatística é a Ciência que nos guia na tomada de DECISÕES em
SITUAÇÃO DE INCERTEZA”

Dinis Pestana (1998)


Os objectos da Estatística são os dados estatísticos, e o objectivo da
Estatística é obter dados (por observação ou produzindo-os
intencionalmente), descrevê-los, sumariá-los, agrupá-los, organizá-los,
analisá-los e interpretar os resultados dessa análise.

Os dados estatísticos são observações individuais de um ou mais atributos
seleccionadas de uma população:
Oficina I - Análise Exploratória de Dados
2
DEFINIÇÃO: População é o conjunto (o universo) de todos os elementos
cujas características (atributos) são objecto de determinado estudo.

Os elementos da população são, em geral, designados por unidades
estatísticas – facto ou entidade elementar que é objecto de observação.

Para se conhecer de forma completa uma população têm que se analisar
todos os seus elementos, ou seja, realizar um censo ou recenseamento.

Os censos mais conhecidos são os demográficos, os últimos foram
realizados em 1991 e 2001, no nosso país. Mas, a obtenção de um censo
pode ser muito dispendiosa e demorada se a população for numerosa, pelo
que nem sempre é uma solução viável.

Na maior parte das vezes o estudo das características de uma população
tem que ser feito sobre um seu subconjunto finito (extraído com uma
metodologia estatística apropriada) que se designa por amostra.

A forma de selecção de uma amostra a partir da população é determinante e
é designada por processo de Amostragem.

Se intervém apenas o acaso e todos os elementos da população têm igual
probabilidade de serem incluídos a amostragem diz-se casual ou aleatória.

Uma amostra aleatória garante, em certo sentido, a representatividade.
Uma amostra é viciada ou enviesada, caso contrário.

Uma amostra mal recolhida (viciada ou enviesada) levará naturalmente a
conclusões e previsões distorcidas.
Oficina I - Análise Exploratória de Dados
3
DEFINIÇÃO: Um método de amostragem diz-se enviesado (em inglês
Bias) se os resultados por ele produzidos diferem sistematicamente do que
é observado na população.

EXEMPLO: Nas eleições americanas de 1936, ficou famoso o caso da
previsão feita pela Literary Digest, com base numa sondagem efectuada a
mais de 2 milhões de eleitores (a maior sondagem conduzida até à altura), e
que antevia uma maioria de 57% dos votos para o candidato A. Landon,
que afinal veio a perder contra F. D: Roosevelt (38% vs 62% ,
correspondendo a 16,7 e 27,8 milhões de votos, respectivamente).
A base de dados para a sondagem, que era constituída por listas de telefone
e de proprietários de automóveis, foi enviada por correio a 10 milhões de
eleitores, tendo havido 2,3 milhões de respostas. Note-se que a base de
dados era enviesada a favor dos que tinham telefone ou carro (nessa época
nos EUA apenas uma em cada quatro casas tinha telefone), provavelmente
mais abastados e com maior tendência para votar nos republicanos, e que a
sondagem se baseou em respostas voluntárias (naturalmente os mais
descontentes com a anterior presidência de FDR estariam mais motivados
para responder). A Literary Digest, faliu pouco depois deste episódio.
Na mesma ocasião tinha sido feita uma sondagem muito mais modesta
(apenas 3 mil inquiridos), por G. Gallup, que previa a vitória de FDR, mas
que foi quase ignorada, até serem conhecidos os resultados da eleição…

Existem vários processos de amostragem, iremos referir as técnicas de
amostragem aleatória mais utilizadas.

DEFINIÇÃO: Quando qualquer elemento da população tem igual
probabilidade de ser escolhido estamos na presença da amostragem
aleatória simples.
Oficina I - Análise Exploratória de Dados
4
Na prática para se obter uma amostra por esta técnica utiliza-se um
software que gere números pseudo - aleatórios aos quais corresponde um e
um só elemento da população, Caso não se disponha de software adequado
existem tabelas de números pseudo – aleatórios.

A amostragem aleatória simples é o tipo de amostragem mais utilizado
pelo seu rigor científico, uma vez que é suportado pela teoria das
probabilidades.

DEFINIÇÃO: Na amostragem estratificada supomos que a população
está dividida em estratos homogéneos tendo em atenção as características
que se achar importantes para o estudo. A amostra é obtida respeitando a
proporção de cada estrato na população, e dentro de cada estrato é feita
uma amostragem aleatória simples.

EXEMPLO: Se pretendermos obter um estudo demográfico a nível
nacional, e se acharmos que o sexo dos elementos da amostra é relevante,
podemos proceder a uma amostragem aleatória estratificada por sexo.
Segundo o INE, Estatísticas Demográficas, 2001, em Portugal 48.3% da
população residente é do sexo masculino e os restantes 51.7% do sexo
feminino. Assim, após a escolha do número de elementos da amostra que
pretendemos, deveremos respeitar as proporções por sexos, e dentro de
cada grupo (por sexo) a recolha dos elementos da amostra é feita por
amostragem aleatória simples.

DEFINIÇÃO: A amostragem por grupos ou clusters utiliza-se quando
não nos é possível obter uma lista completa dos elementos da população,
mas temos acesso a grupos dessa população que são heterogéneos em
relação à característica em análise, isto é, assume-se que cada grupo
Oficina I - Análise Exploratória de Dados
5
espelha o comportamento da população. Neste tipo de amostragem
escolhem-se aleatoriamente os grupos e todos os seus elementos
pertencerão à amostra.

DEFINIÇÃO: Numa amostragem por voluntariado as unidades que
compõem a amostra escolheram fazer parte dessa amostra.

DEFINIÇÃO: Uma amostragem por conveniência consiste em retirar
uma amostra constituída por unidades da população que estão facilmente
acessíveis.

NOTA: Amostragens por conveniência e voluntariado são em geral
enviesadas.

Existem outros processos de amostragem aleatórios e outros não
probabilísticos que não iremos referir neste texto.

Questão: Um determinado programa de televisão resolve fazer a seguinte
sondagem:

Será que as pessoas deveriam poder ter armas de fogo com maior
facilidade?

Se SIM ligue para o 707888000, se NÃO ligue para 707888001. O custo da
chamada é 0,60 cêntimos + IVA.

Será que poderemos considerar os resultados desta sondagem fiáveis?
Explique.

Oficina I - Análise Exploratória de Dados
6
Planeamento de Experiências

O planeamento de experiências foi introduzido por Fisher em 1926. O
cerne do planeamento de experiências é delinear uma forma de produzir os
dados mais informativos a mais baixo preço, e a metodologia estatística
apropriada para analisar os dados assim produzidos.

É fundamental decidir o que se vai medir (a variável resposta), quais as
condições (tratamentos) a considerar, e quais as unidades experimentais
que vão ser usadas, e identificar cuidadosamente as fontes de variabilidade.

Desejamos analisar a variabilidade decorrente do nosso planeamento da
experiência (procuramos a variabilidade da variável resposta, como função
das alterações das condições que artificialmente criámos para cada um dos
subgrupos experimentais), mas sabemos que existe também variabilidade
não planeada. Deve-se controlar tudo o que é possível; o que não é possível
controlar, aleatoriza-se.

EXEMPLO: uma experiência sobre o controlo de fogos florestais pode ter
sido excelentemente planeada, mas durante a sua realização o estado do
tempo pode variar, e diferenças significativas que se encontrem tanto
podem dever-se aos “tratamentos” como à variabilidade indesejada da
humidade, ou mesmo da pluviosidade.

O objectivo da estatística é buscar o conhecimento na variabilidade, e o
propósito não é eliminar a variabilidade. O que queremos é eliminar a
variabilidade espúria ou sistemática, por vezes causada por variáveis de
“confounding” (do inglês confounding), que confundem a análise estatística
Oficina I - Análise Exploratória de Dados
7
e a sua interpretação. Há sempre a tentativa de eliminar essas variáveis de
“confounding”, mas por vezes os desastres “espreitam”.

EXEMPLO: Na Indústria Farmacêutica, de um modo geral administram-se
diversos tratamentos (por ex diversas dosagens de um medicamento, ou
diversas combinações de diversas dosagens de medicamentos, ou níveis
diferentes de quimioterapia e radioterapia, etc) a diferentes grupos de
doentes, havendo em geral um grupo de controlo ou grupo testemunha a
que é administrado um placebo (um tratamento quimicamente neutro,
administrado só para o doente julgar que está a ser tratado e não haver
efeitos psico-somáticos que alterem posteriormente o sentido da
experiência).

Os diversos grupos são cuidadosamente seleccionados para serem
homogéneos - a situação ideal seria dispor de gémeos, se possível. Mas
como tal é em geral impossível, e não podemos fugir a esta fonte
indesejada de variabilidade, aleatoriamente a constituição dos grupos (o
mecanismo de distribuição dos doentes pelos grupos é controlado pelo
acaso), de forma a torná-la tanto possível irrelevante, por agir
homogeneamente nos diversos grupos.

Variáveis estatísticas

O valor de um atributo de uma população pode variar de elemento para
elemento. Ao observar os valores que essas características assumem (seja
na amostra, seja em toda a população), definem-se em geral variáveis, uma
para cada característica.

Oficina I - Análise Exploratória de Dados
8
Variável aleatória (x) é a característica (numérica ou não) que interessa
estudar na população. Os seus valores surgem “por acaso”, de forma
aleatória.
Perante uma amostra de dimensão n (número de elementos da amostra), e
representando-se uma variável por x, tem-se

1
x ,
2
x , …,
n
x
em que
i
x , (i=1,2,…,n) é o valor da característica observada na i-ésima
unidade estatística.

É muito importante reconhecer a “escala” dos dados, pois condiciona o tipo
de análise que é conveniente, ou possível, fazer:

TIPOS DE VARIÁVEIS

1. Quantitativas: São variáveis que tomam valores numéricos.

1.1 Discretas: Tomam valores inteiros, e associam-se a processos
de contagem.
Nº de filhos por família
Nº de casos novos de SIDA por mês em determinada área
Nº de sementes germinadas (em 100) numa parcela
Nº de colónias bacterianas/cm2
1.2 Contínuas: Podem tomar infinitos valores dentro de um
intervalo.
Idade dum paciente
Albumina (gr/100ml), linfócitos (%), glicose (mg/dl) (variáveis
bioquímicas e analíticas)
Níveis de monóxido de carbono/m3 de ar, temperatura (meio
ambiente)
Oficina I - Análise Exploratória de Dados
9
Peso, altura dum indivíduo.
2. Qualitativas: São variáveis que não se podem medir
numericamente, apresentando uma série de k níveis de resposta.

2.1 Nominais: São de carácter e não ordenáveis.
Sexo: “Mulher”, “Homem”
Grupo sanguíneo: “A”, “B”, “AB”, “O”.
Diabético: “Sim”, “Não”
2.2 Ordinais: Os K níveis admitem uma ordem (são também
categorias).
Nível de estudos: “analfabeto”, ”escolaridade obrigatória”, “ensino
secundário”, “ensino superior”
Classe social: “baixa”. “média”, “alta”
Grau de uma lesão: “leve”, “moderada, “grave”

3. Categóricas: São variáveis quantitativas que se categorizam em k
níveis.
Idade: “jovem”, “meia idade”, “idoso”
Níveis de glicose: “<70”, “normais = (70-115)”, “(115-138)”,
“>138”

Chamamos parâmetro a uma característica numérica de uma população,
i.e. característica numérica que interessa conhecer numa variável aleatória.

Exemplos: Valor médio (u ), mínimo (
(1)
x ), máximo (
(n)
x ), amplitude,
variância (
2
σ ), desvio padrão ( σ), …

Pretende-se que uma amostra seja representativa da população da qual é
subconjunto, para que ao calcularmos características amostrais estas
Oficina I - Análise Exploratória de Dados
10
Obtenção dos dados

AMOSTRAGEM

PLANEAMENTO
DE
EXPERIÊNCIAS
Descrição dos dados

ESTATÍSTICA
DESCRITIVA

ANÁLISE
EXPLORATÓRIA
propiciem uma avaliação dos parâmetros a que correspondem na
população.

Neste contexto,

DEFINIÇÃO: Chamamos estatística a toda a função da amostra, isto é,
uma função que depende apenas dos elementos da amostra (e não dos
parâmetros da população), devendo propiciar uma avaliação dos
parâmetros a que correspondem.

Exemplos: Média aritmética de uma amostra ( x ), dada por
n
i
i 1
1
x x
n
=
=

,
mediana (Me), moda (Mo), variância (
2
s ), desvio padrão (s ), …

O conhecimento estatístico começa com a recolha de dados. A
metodologia apropriada para a obtenção de dados deve garantir a
representatividade, e a variabilidade presente na amostra deve reflectir a
variabilidade da população.


















Oficina I - Análise Exploratória de Dados
11

Modelação

TEORIA DA
PROBABILIDADE

Indução

INFERÊNCIA
ESTATÍSTICA

Prescrutação do futuro


PREVISÃO























Em suma, a Estatística é entendida, num sentido lato, como sendo “a
ciência que tem por objecto obter, organizar e analisar dados, determinar as
correlações que apresentem e tirar delas as suas consequências para
descrição e explicação do que passado, prever e organizar o futuro”, como
refere o dicionário da Língua Portuguesa da Porto Editora.

O último propósito da análise estatística, enquadrado na inferência
estatística, é inferir a partir de uma amostra (pequena parte), as
características de uma população (o todo) ou comparar populações e, caso
seja possível, predizer (no sentido mais restrito de atribuir uma
probabilidade) acontecimentos futuros. O acto de predizer ou inferir é
suportado por modelos probabilísticos, isto é, recorrendo à teoria das
probabilidades.

Questão: Considere o seguinte estudo em que se pretende determinar o
número de elementos que vivem numa casa portuguesa. Um total de 1000
Oficina I - Análise Exploratória de Dados
12
pessoas foi seleccionado aleatoriamente da população e foi-lhes
questionado sobre o número de pessoas com quem viviam.
A média das respostas foi de 4.6.

• Qual a população em estudo?
• Qual a variável em estudo?
• Qual o parâmetro de interesse?
• Uma média calculada desta forma conduz geralmente a valores mais
elevados que o valor real do número de indivíduos em cada casa
portuguesa. Será que me poderá dizer porquê?
• Para obter um estimador melhor para o parâmetro em estudo, qual a
unidade amostral que se deveria escolher?

EXEMPLO:

Faça uma leitura breve dos dados apresentados na tabela projectada.

Algum sucesso?

Os dados foram obtidos por um investigador interessado em estudar a
diabetes.
O biólogo apurou duas linhagens etiquetadas por A e B, de ratos híbridos
no que se refere a diabetes, ou seja, ratos saudáveis, mas podendo
transmitir a doença aos seus descendentes.
Em seguida, “apadrinhou” cruzamentos entre as duas linhagens, e isolou na
progénie os descendentes diabéticos C.



Oficina I - Análise Exploratória de Dados
13
Questão?

Porquê a distinção entre as duas linhagens?

Relativamente a cada rato registaram-se as seguintes variáveis:

• Peso do corpo (g)
• Peso do coração (mg)
• Peso do fígado (mg)
• Peso dos rins (mg)
• Tipo de rato (A, B ou C)

Em resumo, temos 135 observações de ratos de linhagem A, 84 de ratos de
linhagem B e 42 ratos da progénie diabética C.

Diz-se que os diabéticos morrem de fome, no sentido em que têm um
apetite que dificilmente controlam.

Questões?

O que poderemos então esperar neste estudo?
Qual será a hipótese que queremos testar?
Qual a finalidade das variáveis registadas?

EXEMPLO

História de um Sr Reitor…

[…] que porra […]
Oficina I - Análise Exploratória de Dados
14
[…] para que porra […]

Também podemos cometer erros com o registo dos nossos dados. Vejamos
novamente o peso dos rins dos ratos de linhagem C.

Questão?

Consegue ver algum problema nestes dados?

A concretização do método experimental obriga à recolha de grandes
quantidades de dados. Não chega coleccionar dados; é fundamental
organizá-los, proceder ao seu tratamento, armazenamento e apresentação.
São estes os objectivos da Estatística Descritiva e da Análise
Exploratória de Dados. (uma visão mais recente, difundida pelo notável
“Exploratory Data Analysis “ de John Tukey (1977), uma disciplina
geralmente referida pela sigla EDA).

Nesta área consideraremos três estratégias interligadas:

• Ordenação dos dados;
• Resumo dos dados através de algumas características amostrais
(nomeadamente de localização e escala);
• Classificação dos dados (agrupamento em classes), e decorrente
representação gráfica, reveladora da forma da distribuição da
população.

Para isso vamos utilizar a Microsoft Excel para implementar as estratégias
anteriores. A opção deste software, que não é direccionado para a
Oficina I - Análise Exploratória de Dados
15
Estatística, deve-se ao facto de ser uma ferramenta de fácil acesso, o que já
não acontece com outros softwares.

O EXCEL possui muitas funções para uma análise descritiva de dados.

É possível que não esteja activo “Análise de Dados”. Esta janela NÃO se
instala por defeito.

Activa-se desde Ferramentas\ Suplementos\ Analysis ToolPack

O suplemento Ferramentas para análise contém as técnicas clássicas de
análise estatística.

O Excel é capaz de importar dados de ficheiros de texto da web...
Dispõe de facilidades para editar e agregar dados.

Sites de interesse:

• http://www.ine.pt
• http://www.math.uah.edu/psol/
• http://www.math.uah.edu/stat/
• http://alea-estp.ine.pt
• http://www.peterwebb.co.uk/probability.htm

CUIDADO! Não está contemplada análise de dados agrupados. Esta deve
ser programada adequadamente.



Oficina I - Análise Exploratória de Dados
16
Inspecção e Limpeza dos Dados

Antes de qualquer tratamento numérico dos dados e da sua análise deve-se
proceder a uma inspecção dos dados. Aqui, entendemos por inspecção dos
dados à análise que tem por objectivos a detecção de erros ou enganos.

É mais difícil questionar os números que a linguagem corrente. De facto,
numa frase se nos enganarmos na digitação de um caracter facilmente esse
erro é detectado pelo contexto da frase. Quando estamos com números tal
detecção revela-se bem mais difícil e por vezes impossível.

Uma inspecção aos dados é bastante importante para que a análise posterior
não seja “enganada” por dados incorrectos. Existem erros que podem ser
detectados antes da análise estatística.

Um exemplo simples é quando estamos a analisar proporções, isto é,
valores que devem variar entre 0% e 100% e temos observações fora deste
intervalo. Quando tal acontece devemos procurar saber a razão de tal erro e
se possível corrigi-lo.
É evidente que a inspecção dos dados e possíveis correcções devem ser
feitas com os limites do bom senso, sem cairmos em excessos.

Conselho: GUARDE SEMPRE os registos ORIGINAIS para o caso de no
registo informático surgirem dúvidas, e documente sempre
apropriadamente o que está a fazer aos dados.

Outro procedimento que em muitas situações nos ajuda é a ordenação dos
dados. No nosso contexto, apenas estamos interessados na ordenação
Oficina I - Análise Exploratória de Dados
17
ascendente ou descendente, não tendo muita relevância outras permutações
dos dados.

A ordenação dos dados pode ajudar à clarificação de padrões e aspectos de
regularidade que de outra maneira não seria possível. Ordenar os dados
torna-os em geral mais facilmente apreensíveis e salienta algumas
características relevantes.

No entanto, deve-se ter em atenção que por vezes os dados em análise têm
uma estrutura sequencial e, se forem ordenados, tal estrutura pode ser
perdida. São exemplos de dados cronológicos: as temperaturas diárias de
uma dada cidade ao longo do ano, etc.

Comecemos por analisar o caso em que os valores de determinada
característica podem ser descritos por uma variável discreta.

Se considerarmos a amostra original
( )
1 2 3
, , , , = …

n
x x x x x , a amostra
ordenada de forma ascendente denota-se por


( )
1: 2: :
, , , …
n n n n
x x x ou
( ) ( ) ( )
( )
1 2
, , , …
n
x x x .

Chamamos k-ésima estatística ordinal (ascendente) ao elemento
( ) k
x
sendo k a ordem ou rank (ascendente, se nada se disser). Daqui resulta que
o elemento
( ) 1
x é o menor valor da amostra, o qual se designa por mínimo,
e que o elemento
( ) n
x é o maior valor, o qual evidentemente designamos
por máximo.

Oficina I - Análise Exploratória de Dados
18
Nas situações em que seja mais útil a ordenação descendente é usual na
literatura a indicação de que o rank indicado é descendente pelas notações
( )

k
x ou
( )
*
k
x .

EXEMPLO:
Se considerarmos a amostra
( )
~
5.3, 2.7, 1.2, 2.1, 4.1 = − x
A correspondente amostra ordenada com os respectivos ranks é
5:5 4:5 3:5 2:5 1:5
1:5 2:5 3:5 4:5 5:5
1.2 2.1 2.7 4.1 5.3
′ ′ ′ ′ ′

x x x x x
x x x x x

sendo a sua 2ª estatística ordinal (ascendente) o elemento
( )
2:5 4:5 2
2.1 ′ = = = x x x .

Convenção: Quando falarmos de “ordenar uma amostra” estamos a
referir ordenação ascendente, excepto se explicitamente referirmos
ordenação decrescente.

Hoje em dia os softwares permitem de uma forma rápida e eficaz a
ordenação dos dados.

NO EXCEL: A ordenação é feita seleccionando os registos que se
pretendem ordenar utilizando o comando Ordenar do menu Dados.

EXERCÍCIO: Por simplicidade, vamos considerar os dados
correspondentes ao peso dos 42 ratos diabéticos, progénie do cruzamento
de ratos das linhagens A e B. Considere a variável “Peso do corpo dos ratos
de linhagem C”. Ordene esta amostra.
Oficina I - Análise Exploratória de Dados
19
Para o peso dos ratos temos:


( ) 1
x =
( ) n
x =
( ) 42
x =

DISTRIBUIÇÕES DE FREQUÊNCIAS

Na maioria das vezes as amostras têm dimensões elevadas e existem muitos
elementos repetidos. Escrever por extenso todos os elementos de uma
amostra deste tipo seria bastante fastidioso e desnecessário.

Considerando a amostra já ordenada


( )
2,3,3,3, 6, 6, 6, 6, 6, 7, 7,8,8,9

constatamos que apenas temos 6 elementos diferentes mas que surgem
várias vezes. Seria mais simples e mais eficaz dizermos que a amostra é
constituída por 1 observação 2, e 3 observações 3 e assim sucessivamente.

Ao número de vezes que uma observação ocorre numa amostra chama-se
frequência absoluta. De uma forma mais formal: a frequência absoluta da
observação
i
x denota-se por
i
n .

Assim podemos “escrever” a amostra anterior num quadro bem mais fácil
de interpretar:



Oficina I - Análise Exploratória de Dados
20
I
i
x
i
n
1 2 1
2 3 3
3 6 5
4 7 2
5 8 2
6 9 1

A amostra tem apenas 6 observações distintas tendo dimensão 14.

Pensando de uma forma mais geral, se uma amostra de dimensão n tiver k
observações distintas, facilmente se verifica que
1 =
=

k
i
i
n n .
Por exemplo, no quadro anterior obtém-se facilmente que a frequência
absoluta da observação 6 é 5. Só com esta informação podemos afirmar que
esta observação é muito frequente na amostra? Para responder a esta
pergunta teremos de comparar a frequência absoluta com a dimensão da
amostra. Para tal necessidade surge a noção de frequência relativa
(proporção de valores iguais a
i
x na amostra).

Define-se frequência relativa da observação
i
x , com 1,..., = i k ao
quociente
=
i
i
n
f
n

sendo muito usual apresentar-se em forma de percentagem
100% = ×
i
i
n
f
n
.
Oficina I - Análise Exploratória de Dados
21

Assim, a frequência relativa da observação 6 é
5
100% 35.71%
14
× = .

A frequência relativa dá uma informação quanto à proporção das
ocorrências de uma observação em relação ao total das observações.

Das frequências absolutas/relativas às frequências absolutas/relativas
acumuladas é um pequeno passo; define-se frequência absoluta
acumulada de
i
x por



=
∑ i j
j i
N n com , 1,..., = i j k
e analogamente, frequência relativa acumulada da observação
i
x por



=
∑ i j
j i
F f , com , 1,..., = i j k .
A interpretação da frequência absoluta acumulada é intuitiva:
i
N é o n.º de
observações inferiores ou iguais à observação
i
x , sendo que a frequência
relativa acumulada
i
F , é a percentagem das observações da amostra que
são inferiores ou iguais à observação
i
x .

Podemos agora completar o quadro anterior com as frequências relativas e
acumuladas.



Oficina I - Análise Exploratória de Dados
22
i
i
x
i
n
i
N
i
f (%)
i
F (%)
1 2 1 1 7.14 7.14
2 3 3 4 21.43 28.57
3 6 5 9 35.71 64.29
4 7 2 11 14.29 78.57
5 8 2 13 14.29 92.86
6 9 1
k
N =n =14 7.14
k
F =100

Todo o procedimento anterior conduz a uma representação tabular da
distribuição de frequências a que chamamos tabela de frequências.

De uma forma genérica, se tivermos uma amostra chamamos tabela de
frequências a tabela que assume a forma

I
i
x
i
n
i
N
i
f (%)
i
F (%)
1
1
x
1
n
1
N
1
f
1
F
. . . . . .
. . . . . .
K
k
x
k
n =
k
N n
k
f
k
F =1(100%)
Totais n 1 (100%)

DEFINIÇÃO: A distribuição de uma variável é o conjunto de possíveis
valores que essa variável toma e qual a frequência com que esses valores
ocorrem. A distribuição de uma variável evidência a variabilidade existente
nessa variável.


Oficina I - Análise Exploratória de Dados
23
EXEMPLO: Ao longo de 30 dias registou-se o número de paragens por
dia nos computadores de um centro de cálculo:

1 2 0 3 2 1 1 0 6 1
0 4 0 0 3 1 1 3 0 2
1 1 1 2 1 2 4 0 0 0


Tem-se:
• dimensão da amostra: n=
• menor observação (mínimo):
( ) 1
x =
• maior observação (máximo):
( ) 30
x =
Construindo a tabela de frequências, tem-se:

NO EXCEL: Utilização da função Frequência

FREQUÊNCIA (matriz_dados;matriz_bin)

Calcula a frequência com que os valores ocorrem num intervalo de valores
e devolve uma matriz vertical de números.

{=Frequência(DADOS!B2:B61,DADOS!G3:G9)}

Utilização da função Contar. Se

{=contar.se(B2:B61,”CHN”)}

EXEMPLO: Considerando novamente a variável “Peso do corpo” no nosso
exemplo dos ratos, construa a tabela de frequências.
Oficina I - Análise Exploratória de Dados
24
Agrupamento dos Dados e Representações Gráficas

Existem diversas formas de visualização gráfica das observações mediante
a natureza destas e os objectivos a atingir.

“Um bom gráfico vale mil palavras. Um mau gráfico vale muito mais,
provavelmente, se mau significar deliberadamente enganador, e
estivermos a falar de publicidade…”
Dinis Pestana

Diagrama de barras

O gráfico mais simples que se pode obter a partir de uma amostra é o
diagrama de barras. No diagrama de barras visualizam-se através de
barras verticais as frequências absolutas ou relativas das observações da
amostra, facilitando a comparação dos respectivos valores. Também, mas
menos usual, podem-se construir diagramas de barras com as frequências
acumuladas.

O diagrama de barras apenas é indicado para variáveis discretas ou
categóricas, uma vez que na sua construção apenas são utilizadas as
frequências das observações.

O gráfico de barras é um gráfico utilizado para representar dados discretos
(nº de filhos, …) ou categóricos (estatuto socio-económico, …).

Se tivermos uma amostra das alturas em cm de 100 cidadãos, o diagrama
de barras não é indicado, uma vez que a característica altura tem uma
Oficina I - Análise Exploratória de Dados
25
natureza contínua o que levaria a que surgissem muitas alturas exactamente
iguais.

O diagrama de barras é constituído por um sistema de eixos ortogonais em
que no eixo das abcissas coloca-se as observações e a cada observação
corresponde uma barra vertical de altura proporcional à frequência
absoluta.

Consideremos a tabela de frequências do EXEMPLO do número de
paragens por dia nos computadores de um centro de cálculo. Os gráficos de
barras para as frequências absolutas e relativas são os seguintes:

Diagrama de Barras
0
2
4
6
8
10
12
0 1 2 3 4 5 6
xi
F
r
e
q
u
ê
n
c
i
a
s

A
b
s
o
l
u
t
a
s


Diagrama de Barras
0%
5%
10%
15%
20%
25%
30%
35%
0 1 2 3 4 5 6
xi
F
r
e
q
u
ê
n
c
i
a
s

R
e
l
a
t
i
v
a
s


Oficina I - Análise Exploratória de Dados
26
A diferença entre os dois gráficos anteriores é a escala no eixo das
ordenadas, pelo que bastará construir um deles.

NOTA: Também podem ser construídos diagramas de barras horizontais,
mas neste caso as observações são colocadas no eixo das ordenadas.

NO EXCEL: A construção deste tipo de gráfico é bastante fácil utilizando
o EXCEL. Utilizando o assistente de gráficos e seleccionando o tipo de
gráfico de colunas (barras verticais) obtêm-se os gráficos anteriores, ou,

Inserir->Gráfico->Colunas….

O gráfico de barras de frequências relativas acumuladas é o que se segue.

Gráfico de Barras
0%
20%
40%
60%
80%
100%
0 1 2 3 4 5 6
xi
F
r
e
q
.

R
e
l
a
t
i
v
a
s

A
c
u
m
u
l
a
d
a
s


EXEMPLO: Considerando novamente a variável “Peso do corpo” no nosso
exemplo dos ratos, construa o respectivo diagrama de barras recorrendo ao
EXCEL.

Agrupamento dos dados em classes

Quando a variável x é de tipo contínuo, o processo é um pouco mais
elaborado, uma vez que não faz muito sentido falar em frequências
Oficina I - Análise Exploratória de Dados
27
absolutas (e, nem portanto, de relativas) de valores isolados. Neste caso, é
necessário proceder à definição de classes de valores, à contagem das
frequências absolutas e ao cálculo das frequências relativas para cada
classe.

NOTA: Este procedimento é típico no caso de variáveis contínuas, mas
também pode ser aplicado ao caso de variáveis discretas quando estas
assumem um grande número de valores.

NO EXCEL não está contemplada a análise de dados agrupados. Esta
deve ser programada adequadamente.

À medida que o número de observações aumenta, é necessário condensar
ainda mais os dados. Assim, precisamos de organizar os dados em classes.

As regras na construção das classes são muito diversificadas. Em termos
desta unidade curricular, seguir-se-ão as seguintes regras, salvo indicação
em contrário:

• As classes não têm pontos em comum.
• O número de classes é calculado usando a Regra de Sturges:

2
º (log ) 1 N n de classes I n = = +
onde a função I(x) representa a parte inteira do número x (relembre
que
2
log
log
log2
x
x = ).
• Sempre que possível as classes devem ter igual amplitude
(amplitude de uma classe é a diferença entre o seu limite superior e
o seu limite inferior), definida por:
Oficina I - Análise Exploratória de Dados
28

( ) (1)
º
n
x x
h amplitude da classe
n de classes

= =
• Os intervalos são abertos à esquerda e fechados à direita. No entanto,
se necessário, considerar o primeiro intervalo fechado à esquerda e à
direita.

No caso de ser necessário aproximar o valor de h, esta aproximação deve
ser sempre feita por excesso. Este excesso deve ser redistribuído
uniformemente por todas as classes. Assim, teremos que realizar os
seguintes passos:

1.
( ) (1)
* ( )
n
excesso N h x x ε = = − − .
2. A primeira classe deverá começar em
(1)
2
x
ε
− .
3. A última classe deverá terminar em
( )
2
n
x
ε
+ .

Cada classe tem um ponto muito importante: o seu ponto médio. O ponto
médio de uma classe
i
x

é a média aritmética dos limites inferior e superior
da classe. Atendendo a que se espera que as observações se distribuam
uniformemente dentro de cada classe, podemos dizer que o ponto médio
i
x

é o representante lógico da classe i.

Uma vez definidas as classes, as noções anteriores sobre distribuições de
frequências adaptam-se de uma forma directa.

EXEMPLO: De regresso aos ratos:

Oficina I - Análise Exploratória de Dados
29
• n = 42
• N = nº de classes = 6
• h = amplitude das classes =
52 38
2.33 2.4
6

=
• 6 2.4 14 0.4 Excesso ε = = × − =

Podemos assim construir a seguinte tabela de frequências:


Os procedimentos expostos até aqui foram no sentido de que se tivermos
uma amostra de grande dimensão então devemos agrupar os dados.

Através da tabela de frequências anterior podemos obter representações
gráficas a que chamamos histogramas.

O histograma é a representação gráfica mais utilizada na presença de dados
agrupados. Consiste num gráfico formado por rectângulos justapostos (um
Classe i
Intervalo:
1
( , ]
i i
x x
+

Ponto
Médio:
i
x

i
n
i
N
i
f
i
F
1
2
3
4
5
6
(37.8;40.2]
(40.2;42.6]
(42.6;45.0]
(45.0;47.4]
(47.4:49.8]
(49.8;52.2]


1
42
k
i
i
n
=
=


1
1
k
i
i
f
=
=


Oficina I - Análise Exploratória de Dados
30
para cada classe), em que a base é igual à amplitude da classe e altura
proporcional à frequência absoluta.

Por vezes também é representado o polígono de frequências, unindo os
pontos médios do topo dos rectângulos e, “fechando” a linha poligonal
assim obtida assentando-a em pontos do eixo Ox a uma distância igual a
metade da amplitude da classe adjacente.

A ogiva ou polígono de frequências acumuladas é um gráfico mais
global em que figura as frequências relativas acumuladas.

EXEMPLO: Novamente o exemplo dos ratos…


Com a tabela anterior obtemos facilmente o histograma das frequências
relativas, o polígono de frequências e a ogiva, como se segue.

Classe i
Intervalo:
1
( , ]
i i
x x
+

Ponto
Médio:
i
x

i
n
i
N
i
f
i
F
1
2
3
4
5
6
(37.8;40.2]
(40.2;42.6]
(42.6;45.0]
(45.0;47.4]
(47.4:49.8]
(49.8;52.2]
39
41.4
43.8
46.2
48.6
51
12
8
8
4
6
4
12
20
28
32
38
42
12
42

8
42

8
42

4
42

6
42

4
42

12
42
20
42
28
42
32
42
38
42
1

1
42
k
i
i
n
=
=


1
1
k
i
i
f
=
=


Oficina I - Análise Exploratória de Dados
31
Procedimento a seguir no Excel:

Ferramentas>análise de dados…->histograma

NOTA: Assim obtém-se um histograma recorrendo a Análise de Dados, do
Excel. Esta ferramenta permite obter um histograma com base apenas nas
observações, mas também caso o utilizador prefira, pode introduzir os
limites das classes a construir. Esta ferramenta apenas pode ser utilizada
quando temos todos os elementos da amostra.

Histograma/Polígono de Frequências/Ogiva
0
5
10
15
20
25
30
35
40
45
50
]37,8;40,2] ]40,2;42,6] ]42,6;45,0] ]45,0;47,4] ]47,4;49,8] ]49,8;52,2]
F
r
e
q
u
ê
n
c
i
a


Medidas de localização e de dispersão

Sempre que temos um conjunto de dados e os pretendemos analisar para
tirar algumas conclusões resumimos a informação neles contida através de
algumas características amostrais. Estas características são numéricas
possibilitando fazer comparações, traçar padrões, etc.

O objectivo das características amostrais é obter estimativas para os
respectivos parâmetros da população. Procuramos fazer analogias entre as
Oficina I - Análise Exploratória de Dados
32
características amostrais com os parâmetros da população que geralmente
são desconhecidos.

A necessidade de parâmetros é evidente nos nossos dias: a análise
económica de um país ou região é quase na sua totalidade feita com base
em parâmetros observados ou estimados.

A característica amostral de localização mais usada e de mais fácil
interpretação é certamente a média amostral.

Se considerarmos uma amostra de dimensão n,
( )
1 2 3
, , , , = …

n
x x x x x ,
define-se a média amostral por
1
1
n
i
i
x x
n
=
=


e pode ser entendida como um ponto de equilíbrio das observações, e por
isso é a medida de localização por excelência. A média serve como
indicador privilegiado, pois resume num único valor todos os dados.

A média amostral pode ser calculada no Excel através da função MÉDIA.

EXEMPLO: Uma empresa pretende saber qual o salário médio dos seus
empregados. Obteve-se uma lista dos vencimentos em unidades monetárias
(u.m.) pagos no mês anterior

80, 121, 75, 85, 90, 80, 110.

Assim o vencimento médio de um emprego é dado por

Oficina I - Análise Exploratória de Dados
33
80 121 75 85 90 80 110
91.57
7
+ + + + + +
= =
médio
vencimento u.m.

Se num certo contexto, apenas estamos interessados na média, é porque
supomos que as observações oscilam pouco em torno de um certo valor.

Isto quer dizer que entendemos as observações como perturbações em
torno da média e que essas perturbações são pequenas.

Estas suposições formalizam-se da seguinte forma
= +
i i
x x r
onde
i
r é o resíduo (ou perturbação) da observação i.

Também é evidente que várias amostras podem ter a mesma média embora
tenham estruturas subjacentes diversas.

EXEMPLO: Vejamos as três amostras

x ,

y e

z que têm a mesma média,
10 = = = x y z (verifique).

( )
3,9, 7,15,12,19, 4,11 =

x
( )
10,11,8,10,11,12,9,9 =

y
( )
10,10,10,10,10,10,10,10 =

z

mas no entanto, podemos facilmente constatar que as observações da
amostra

y estão menos dispersas que na amostra

x , e a amostra

z é
constante.

Oficina I - Análise Exploratória de Dados
34
NOTA: Principal Desvantagem da MÉDIA é a GRANDE sensibilidade
a valores extremos. Dizemos que a média é uma medida POUCO
RESISTENTE.

Com este exemplo muito simples sentimos a necessidade de obter um
indicador da dispersão das observações. Uma ideia natural é definirmos um
desvio global da amostra em relação a um valor central, por exemplo a
média. Este desvio global podia ser calculado por
( )
1 =


n
i
i
x x
mas
( )
1 1 1
1
1 1
1
0
= = =
=
= =
− = −
= −
= − =
∑ ∑ ∑

∑ ∑
n n n
i i
i i i
n
i
i
n n
i i
i i
x x x x
x nx
x n x
n


o que não releva interesse. Assim, uma solução será somarmos não os
desvios mas sim os seus quadrados,

( )
2
1 =


n
i
i
x x .

Desta forma surge uma característica amostral de dispersão (ou escala) a
que chamamos variância amostral.

Oficina I - Análise Exploratória de Dados
35
( ) ( )
2
2
1
1
var
1
=
= = −

n
x i
i
x s x x
n
.

Caso não estejamos na presença de uma amostra, mas com a totalidade dos
elementos da população a variância da população é obtida por

( )
2
1
1
var
=
= −

n
População i
i
x x
n
.

A variância amostral pode ser calculada no Excel através da função VAR

Calculemos as variâncias amostrais das amostras

( )
3,9, 7,15,12,19, 4,11 =

x ,
( )
10,11,8,10,11,12,9,9 =

y e
( )
10,10,10,10,10,10,10,10 =

z

Utilizando uma folha de cálculo ou uma calculadora obtemos a
confirmação numérica de que as observações da amostra
~
x estão mais
dispersas do que as observações da amostra

y uma vez que temos

2
29.429 =

x
s e
2
1.714 =

y
s .
Obviamente que
2
0
z
s =

.

Outra medida de dispersão possível, mas menos utilizada é o desvio
absoluto médio dado por
1
1
n
i
i
x x
n
=


.
Oficina I - Análise Exploratória de Dados
36
Se estivermos a analisar o preço de um certo produto de vários
fornecedores expressos em euros, €, a média e os desvios são expressos na
mesma unidade. No entanto, como a variância é uma média dos quadrados
dos desvios vem expressa em euros ao quadrado, €
2
. Este facto não facilita
uma boa leitura dos resultados. Para voltarmos às unidades originais
teremos de aplicar uma raiz quadrada. À raiz quadrada da variância
amostral chamamos desvio padrão amostral.

( ) ( )
2
1
1
var
1
=
= = −

n
x i
i
s x x x
n
.

O desvio padrão amostral pode ser calculado no Excel através da função
DESVPAD.

De forma análoga obtemos o desvio padrão da população.

Assim, já faz sentido em falar em + x s e − x s , visto terem a mesma
unidade, que como veremos são grandezas com interesse. Por vezes temos
conveniência em trabalhar com observações padronizadas ou
estandardizadas.

Para tal, consideramos a seguinte transformação:

i
i
x
x x
z
s

=

QUESTÃO: Qual o efeito da transformação na amostra dos
i
z ?

Oficina I - Análise Exploratória de Dados
37
NOTA: Através da padronização é possível comparar variáveis
originalmente em escalas díspares.

O cálculo da variância pela fórmula anterior pode ser bastante enfadonho,
mas se procedermos a alguns cálculos algébricos obtemos uma expressão
bem mais fácil de manejar.

De facto, atendendo a que
( )
2
2 2
2 − = − +
i i i
x x x xx x e usando a
linearidade dos somatórios mostra-se facilmente que
2 2
2
1
1
=

=


n
i
i
x nx
s
n
.
Repare que a expressão anterior é mais prática de utilizar uma vez que
basta calcular os somatórios
∑ i
x e
2
∑ i
x para a obtenção do resultado.

Até aqui estudámos a média e a variância amostrais, a primeira como
medida de localização central das observações e a segunda como indicador
da dispersão dos mesmos; no entanto, existem muitas mais características
amostrais com interesse.

Uma outra medida de localização que rivaliza ou complementa a média é a
mediana que denotamos por
e
M ou Med .

No conceito de mediana está suposto que a amostra está ordenada, e que o
valor da mediana é o valor central dessa amostra ordenada.

Desta forma, usando a notação das estatísticas ordinais podemos definir a
mediana da seguinte forma
Oficina I - Análise Exploratória de Dados
38
1
2
1
2 2
2
+ | |
|
\ .
| | | |
+
| |
\ . \ .
¦
¦
¦
=
´ +
¦
¦
¹
se n é ímpar
se n é par
n
n n
x
Med
x x
.

A mediana sendo um valor central da amostra garante que 50% das
observações são-lhe inferiores ou iguais, restando os outros 50% que lhe
são superiores ou iguais.

A mediana amostral pode ser calculada no Excel através da função MED.

Com vista à determinação do valor de uma contribuição social a atribuir
por filho, pretende-se saber qual é o número mediano de filhos de cada
agregado familiar com base numa amostra obtida num país africano. A
amostra obtida é

3, 6, 4, 2, 8, 7, 6, 4, 5, 8, 6.

Para a determinação da mediana da amostra devemos em primeiro lugar
ordenar a amostra (de forma ascendente)

2, 3, 4, 4, 5, 6 , 6, 6, 7, 8, 8
Med


agora como a dimensão da amostra é ímpar, 11 = n , a mediana é a
estatística ordinal
( ) 6
x

( ) 11 1 6
2
6
+ | |
|
\ .
= = = Med x x .
Oficina I - Análise Exploratória de Dados
39
Imaginemos que nos tínhamos esquecido de colocar um dado, uma família
com 3 filhos. A nova amostra ordenada com mais esta observação é

2, 3, 4, 4, 5, 6, 6, 6, 7, 8, 8 3,

tendo agora dimensão 12 (par). A mediana neste caso é a média aritmética
das duas observações centrais,
( ) 6
x e
( ) 7
x

5.5
2, 3, 4, 4, 5, 6, 6, 6, 7, 8, 8
+
=
5 6
2
3,

isto é,
( ) ( ) 6 7
5.5
2
+
= =
x x
Med

A média e a mediana diferem no que respeita à sensibilidade, isto é, a
média amostral é mais sensível à variação dos elementos da amostra do que
a mediana. Por isso, diz-se que a mediana é mais resistente que a média
amostral.

Uma outra medida de localização utilizada é a moda. Numa amostra, à
observação mais frequente chamamos moda e denotamos por
0
M ou
Mod .

A moda amostral pode ser calculada no Excel através da função MODA

As medidas de localização e de dispersão já referidas por vezes não
satisfazem as necessidades de certos problemas que se nos põem. Se
pensarmos que se pretende construir um muro junto a um rio, estamos
Oficina I - Análise Exploratória de Dados
40
interessados em saber a altura máxima que o rio atinge e não tanto a altura
média. Neste contexto, estamos mais interessados no conceito de
localização extremal do que localização central.

Na situação anterior estaríamos interessados no máximo da amostra, isto é
na estatística ordinal
( ) n
x , noutras situações podemos preferir o mínimo
( ) 1
x .

Estas duas grandezas são entendidas como medidas de localização
extremal, pois indicam os extremos do fenómeno em estudo.

O máximo e o mínimo amostrais podem ser calculados no Excel através
das funções MÁXIMO e MÍNIMO, respectivamente.

À diferença entre o máximo e o mínimo chamamos amplitude amostral R

( ) ( ) 1
= −
n
R x x .

No seguimento do significado da mediana podemos definir outros
conceitos que nos permitiriam afirmar que uma certa percentagem de
observações são inferiores a um certo valor. Daqui surge a noção de
quantil.

Definimos quantil de probabilidade α da seguinte forma

( )
| | ( )
1
α
α
α
α
α
+
¦
¦
=
´
¦
¹
se inteiro
se não inteiro
n
n
x n
Q
x n

Oficina I - Análise Exploratória de Dados
41

Nota:
| |
x é a característica de x, isto é, o maior inteiro que lhe é inferior
ou igual.

Os quantis são características amostrais de localização, pois % α dos
elementos da amostra são menores ou iguais a Q
α
.

São casos particulares dos quantis os quartis, decis e os percentis.

O 1º quartil tem à sua esquerda 25% dos elementos da amostra enquanto
que o 3º quartil tem 75% da amostra. A mediana é considerada geralmente
o 2º quartil embora possa haver alguma diferença pouco significativa com a
definição já dada.

Os quartis amostrais podem ser calculados no EXCEL através da função
QUARTIL (e dividem a distribuição de frequências em quatro partes
iguais).

Os decis amostrais podem ser calculados no EXCEL através da função
QUARTIL (e dividem a distribuição de frequências em dez partes
iguais).

Os percentis amostrais podem ser calculados no EXCEL através da
função PERCENTIL (e dividem a distribuição de frequências em cem
partes iguais).

Coeficientes de variação, assimetria e de achatamento.

Oficina I - Análise Exploratória de Dados
42
Se quisermos comparar a dispersão de 2 amostras, uma com as cotações na
bolsa de uma empresa e outra com o número de títulos transaccionados,
não bastará a comparação numérica das variâncias ou dos desvios padrão
uma vez que as quantidades em estudo têm grandezas diferentes.

Para de alguma forma solucionar o problema anterior surge o conceito de
coeficiente de variação amostral dado por

100%
s
CV
x
= ×

O CV relativiza o desvio padrão amostral em termos da média. O
coeficiente de variação tem a vantagem de ser uma grandeza adimensional,
o que possibilita a comparação da dispersão entre amostras com diferentes
grandezas.

• O CV permite comparação entre duas ou mais distribuições.

• O CV é interpretado como a fracção da dispersão (desvio padrão)
por que a localização (média) é responsável.

São úteis as noções: momento empírico de ordem k e momento empírico
centrado de ordem k.

O momento empírico de ordem k é dado por
1
1
n
k
k i
i
m x
n
=
′ =


enquanto que o momento empírico centrado de ordem k é dado por
Oficina I - Análise Exploratória de Dados
43
( )
1
1
n
k
k i
i
m x x
n
=
= −

.

Facilmente verificamos as igualdades

1
m x ′ = e
2
2
1 n
m s
n

= .

É com base no conceito de momento empírico que definimos dois
coeficientes que medem a assimetria e o achatamento de uma amostra.
O coeficiente de assimetria amostral (skewness) é dado por
( )( )
2
3
1
3
2
1 2
m n
g
n n
m
=
− −
.
Repare que para grandes amostras, isto é n elevado, temos que
3
1
3
m
g
s
≈ .

É de esperar que, se o modelo subjacente à amostra for simétrico,
1
g seja
nulo. Quanto ao coeficiente de assimetria podemos dizer que se


1
0 g > a amostra tem uma distribuição assimétrica positiva ou
enviesada à esquerda (na representação gráfica das frequências haverá
tendência a um acumular de frequências para o lado esquerdo do
gráfico).

1
0 g = a amostra tem uma distribuição simétrica

1
0 g < a amostra tem uma distribuição assimétrica negativa ou
enviesada à direita (na representação gráfica das frequências haverá
tendência a um acumular de frequências para o lado direito do
gráfico).
Oficina I - Análise Exploratória de Dados
44
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0,16
0,18
0 5 10 15 20
0
1
> g 0
1
= g 0
1
< g

Quando estamos na presença de uma distribuição dos dados simétrica a
média, mediana e moda têm valores muito próximos: x =Med =Mod
Fazendo a comparação destes valores pode-se fazer uma primeira análise
da assimetria da amostra, isto é, a assimetria pode ser classificada mediante
o estudo relativo da média, moda e mediana:

Assim:


1
0 g > a amostra tem uma distribuição assimétrica positiva, então
Mod <Med < x

1
0 g < a amostra tem uma distribuição assimétrica negativa, então
x <Med <Mod

O coeficiente de assimetria amostral pode ser calculado no Excel através da
função DISTORÇÃO

O coeficiente de Pearson é outro coeficiente para estimar o grau de
simetria de uma distribuição, neste caso é dado por
0
x M
g
s

= . A leitura
deste coeficiente é análoga a
1
g .

O coeficiente de achatamento amostral (ou curtose amostral) é dado por
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0,16
0,18
0 5 10 15 20
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
-4 -3 -2 -1 0 1 2 3 4
Oficina I - Análise Exploratória de Dados
45

( )
( )( )( )
( )
( )( )
2
2
4
2
2
2
1 1
3
1 2 3 2 3
n n n
m
g
n n n m n n
+ −
= ⋅ − ⋅
− − − − −
.

De uma forma geral, e para grandes amostras, o valor de
2
g é muito
próximo de

4
2
2
2
3
m
g
m
= −
sendo esta a expressão mais utilizada na prática.

O coeficiente de achatamento tem como objectivo quantificar o
achatamento da distribuição dos dados, ou melhor, a intensidade das
observações em torno dos valores centrais. Para se fazer esta análise temos
de ter algo para fazer comparações, isto é, saber se é muito ou pouco
achatada. Para termo de comparação utiliza-se uma curva, que como
veremos é muito utilizada em Estatística, chamada de curva Normal.

A análise do coeficiente de achatamento tem importância quando se
concluiu através do coeficiente de assimetria que os dados apresentam uma
distribuição de frequências simétrica, caso contrário a análise não deve ser
feita, pois a curva que serve para comparação (a curva Normal) é simétrica.

A função do Excel que dá um valor para curtose amostral é CURTOSE.




Oficina I - Análise Exploratória de Dados
46
Se

2
0 g > a distribuição é leptocúrtica (os dados estão
concentrados no centro, pelo que a distribuição apresenta um forte pico no
centro).

2
0 g < a distribuição é platocúrtica (os dados estão dispersos,
pelo que a distribuição é mais achatada no centro e caudas pesadas).

2
0 g = a distribuição é mesocúrtica (para o caso da distribuição
Normal).

Tabelas de frequências e redefinições de algumas
características amostrais

Por vezes os dados são fornecidos já na forma de tabelas de frequências,
sendo portanto importante vermos como podemos reescrever as
características amostrais através das frequências dadas.
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
-4 -2 0 2 4
Mesocúrtica
Leptocúrtica
Platocúrtica
Oficina I - Análise Exploratória de Dados
47
O quadro seguinte resume as principais características amostrais
escritas recorrendo a uma tabela de frequências.

Características
Amostrais
Expressão
x
1 1
1
k k
i i i i
i i
x x n x f
n
= =
= =
∑ ∑

2
s
( ) ( )
2 2
1 1
1
1 1
k k
i i i i
i i
n
x x n f x x
n n
= =
− = −
− −
∑ ∑

p
m
( ) ( )
1 1
1
k k
p p
i i i i
i i
x x n x x f
n
= =
− = −
∑ ∑


Com a tabela de frequências podemos calcular facilmente as
principais características amostrais com recurso ao Excel.




Características amostrais em dados agrupados

Por vezes os dados já nos são fornecidos agrupados, não sendo portanto
possível aceder aos dados originais. Nesta situação, dada uma tabela de
Oficina I - Análise Exploratória de Dados
48
frequências como poderemos obter as características amostrais, tais como,
por exemplo a média, variância, etc.?

A obtenção de parâmetros amostrais em dados agrupados baseia-se no
pressuposto de que as observações distribuem-se uniformemente dentro de
cada classe.

Assim, o ponto médio de cada classe vai representar cada uma das
observações da respectiva classe.

Dado isto, temos de rescrever as características amostrais mais relevantes
em função dos pontos médios
i
x′ e não das observações (desconhecidas)
i
x .

Na tabela seguinte apresentam-se algumas características amostrais para
dados agrupados, supondo que temos L classes e uma amostra com n
observações.

Características
Amostrais
Agrupadas
Expressão
x
1 1
1
L L
i i i i
i i
x n x f
n
= =
′ ′ =
∑ ∑

2
s
( ) ( )
2 2
1 1
1
1 1
L L
i i i i
i i
n
x x n f x x
n n
= =
′ ′ − = −
− −
∑ ∑
p
m
( ) ( )
1 1
1
L L
p p
i i i i
i i
x x n x x f
n
= =
′ ′ − = −
∑ ∑


Oficina I - Análise Exploratória de Dados
49
Chamamos classe modal à classe com maior frequência absoluta/relativa e
classe mediana à classe que contenha a mediana da amostra.

A obtenção da classe modal é fácil, basta uma constatação na tabela de
frequências. Para a classe mediana temos de atender às frequências
relativas acumuladas, sendo a classe mediana a primeira classe com
50%
i
F ≥ .

Existem métodos para a obtenção de valores numéricos tanto para a moda
como para a mediana em dados agrupados.

EXEMPLO DOS RATOS: A classe modal é
| |
37.8, 40.2 , visto ser
aquela que tem uma maior frequência. A determinação da classe mediana
implica a observação das frequências relativas acumuladas: a classe
| |
42.6, 45.0 tem
1
66.66% F = , sendo este valor superior a 50%: é esta a
classe mediana.

Supondo que apenas nos era dada a tabela de frequências, podemos
calcular algumas características amostrais a partir dos dados agrupados.

Numa folha de cálculo a tarefa do cálculo das medidas amostrais com os
dados agrupados torna-se bem mais fácil.

Oficina I - Análise Exploratória de Dados
50


Apresentam-se as fórmulas que se utilizaram nos cálculos, embora estes
possam ser efectuados, porventura de outras formas. No entanto, este modo
parece-nos mais fácil e evidencia a forma como cada parâmetro é
calculado.

Neste caso, uma vez que possuímos os dados reais poderíamos fazer
comparações entre os parâmetros calculados com todos os dados e os
obtidos através dos dados agrupados, fazendo desta forma uma análise
sobre a qualidade do agrupamento.

Parece evidente que se um dado agrupamento dos dados for bom, produz
parâmetros amostrais muito próximos dos parâmetros que se obteriam com
os dados originais. Estando os dados disponíveis, dever-se-á fazer uma
comparação dos parâmetros de forma a validar as classes construídas.






Oficina I - Análise Exploratória de Dados
51
Diagrama de caule - e - folhas

Quando precisamos de ordenar números sem apoio computacional, usamos
em geral o algoritmo de construção do diagrama de caule-e-folhas
(steam-and-leaf).

NOTA: O estatístico que inventou este tipo de diagramas foi Tuckey.

O diagrama de caule-e-folhas para além de organizar a amostra contribui
para revelar a forma da distribuição subjacente à amostra. Os dados são
dispostos ordenadamente por linhas, em número compatível com a
dimensão da amostra, dando-nos uma boa visualização da maneira como os
dados se distribuem.

Comparar amostras, esperando que dêem indicações sobre a população de
que foram extraídas, é uma das tarefas mais usuais em Estatística.

Os diagramas de caule-e-folhas paralelos dão uma intuição visual da
localização, escala e forma da distribuição subjacente aos nossos dados,
pelo que, são um instrumento apropriado para uma exploração inicial dos
dados, embora com algumas limitações.

EXEMPLO DOS RATOS: Ordena-se o peso dos ratos. Divide-se cada
observação em duas partes, um “caule” uma “folha”- o primeiro valor, 40,
é dividido como 4 | 0.

O primeiro passo é ir ordenando os caules, e pendurar em cada caule as
diversas folhas que lhe pertencem. Na ordenação dos pesos dos corpos dos
ratos, neste primeiro passo:
Oficina I - Análise Exploratória de Dados
52
4 | 065637
e nesta fase torna-se necessário considerar o caule 5 para prosseguir:

4 065637
5 2
e logo em seguida torna-se necessário considerar o caule 3
para acomodar o valor 39:

3 9
4 065637
5 2
.
Prosseguindo até ao fim da amostra, obtém-se a ordenação parcial

3 98988888
4 065637522401215892890628480415
5 2112
.
Basta agora, no segundo passo, ordenar as folhas de cada caule:

3 88888899
4 000011122222344455556667888899
5 1122
.

É habitual completar a informação do gráfico acima, denominado diagrama
de caule-e-folhas, indicando por cima a dimensão da amostra (neste caso
n=42) e a potência de 10 por que deve ser multiplicado o caule para refazer
a observação da amostra (neste caso,
1
10 , indicando por exemplo que o
primeiro valor 3 | 8 representa 3 x
1
10 + 8 x
0
10 =38). Assim, neste caso
teríamos
Oficina I - Análise Exploratória de Dados
53

1
42; 10
3 88888899
4 000011122222344455556667888899
5 1122


A ordenação das folhas dentro de cada caule foi trabalhosa, porque havia
muitas associadas ao caule 4. Por isso poderíamos ter optado, após simples
inspecção dos dados, por considerar “semicaules” de amplitude
1
1
10
2
× , e
pendurar as folhas 0,1,2,3,4 no primeiro, e as folhas 5,6,7,8,9 no segundo.
Para guiar a vista, é bom usar o diacrítico
" " ∗
para assinalar o segundo
semicaule.
Neste caso o primeiro passo levaria a

1
1
42; 10
2
3 98988888
4 0322401212024041
65675589896885
4
2112
5


×

E o segundo passo levaria a

1
1
42; 10
2
3 88888899
4 0000111222223444
55556667888899
4
1122
5


×

Oficina I - Análise Exploratória de Dados
54
NOTA: Repare que as classes (caules) 3 e 5

não estão representadas no
diagrama de caule e folhas. Como não contêm elementos, estas são as
únicas classes que podem ser eliminadas. NUNCA elimine classes vazias
no meio do diagrama.

Poderíamos ter ido mais longe, e dividido cada caule em 5 subcaules (desta
vez de amplitude
1
1
10
5
× ), correspondendo às folhas 0 e 1, 2 e 3, 4 e 5, 6 e
7, e 8 e 9 respectivamente.

Os diacríticos usados para estes subcaules são “o” para o que suporta 0 e 1,
“t” para o que suporta 2 e 3 (two and three), “f” para o que suporta 4 e 5
(four and five), “s” para o que suporta 6 e 7 (six and seven), e
" " ∗
para o
último, suportando as folhas 8 e 9. No nosso exemplo o primeiro passo
levaria a


1
º
º
1
42; 10
5
3 98988888
4 0011001
4 322222
4 5545445
4 6676
898988
4
11
5
22
5
t
f
s
t


×


e o segundo passo leva a
Oficina I - Análise Exploratória de Dados
55

1
º
º
1
42; 10
5
3 98888889
4 0000111
4 222223
4 4445555
4 6667
888899
4
11
5
22
5
t
f
s
t


×


Desta vez deu muito menos trabalho ordenar as folhas – mas em
compensação foi mais moroso arrumar os caules.

Há que conseguir um equilíbrio entre o trabalho da primeira e o da segunda
fase. Por outro lado, se bem que a intenção fosse ordenar os dados,
obtivemos também como subproduto uma representação gráfica, que se
espera que seja reveladora da forma da distribuição da população de que foi
retirada a amostra – e também por isso a escolha do número de classes não
é irrelevante: não devem ser demais nem de menos. Podemos recorrer à
regra de Sturges para termos um conselho sobre qual um número aceitável.

EXEMPLO: Considere agora o peso dos rins dos ratos diabéticos.
Construa o respectivo diagrama de caule-e-folhas.
A amostra ordenada é:

Oficina I - Análise Exploratória de Dados
56
885 895 900 900 910 915 925
925 925 930 965 990 995 1000
1000 1010 1010 1020 1020 1040 1060
1070 1070 1085 1110 1110 1130 1140
1140 1145 1160 1160 1200 1200 1210
1210 1215 1220 1250 1250 1275 1325


Depois de ordenada amostra, torna-se evidente se um elemento está mais “à
superfície”, perto dos extremos – o mínimo e o máximo ou mais “em
profundidade”, na zona central da amostra ordenada. Isto leva-nos a definir
a profundidade de cada observação:

Definição: Profundidade de um elemento é o número de elementos, na
amostra ordenada, desde esse (incluído) ao extremo de que está mais
próximo (também incluído).

Definição: Profundidade de uma linha de um diagrama de caule-e-folhas é
a profundidade máxima atingida nessa linha.

Assim, no exemplo anterior, a profundidade de 965 é 11, a profundidade de
895 é 2, a profundidade de 1220 é 5; o mínimo e o máximo têm sempre
profundidade 1. A profundidade de 1250 – se for o “maior” dos 1250 (note
que os valores registados são aproximações, discretizações de variáveis
conceptualmente contínuas) é 3, se for o menor é 4; caso não saiba, o
melhor é atribuir a ambos a “profundidade média” 3,5.

A profundidade máxima que se pode atingir numa amostra de dimensão n
é
1
2
n +
.
Oficina I - Análise Exploratória de Dados
57
O elemento de profundidade máxima é chamado mediana, e denotado por
M. A mediana M é então o elemento que está a meio da amostra ordenada,
há tantos elementos entre o mínimo e a mediana quantos entre a mediana e
o máximo. Por outras palavras, 50% dos elementos são M ≤ , e 50% dos
elementos são M ≥ .

EXEMPLO: Dada a amostra já ordenada
( )
2.3, 4.5, 6.7, 6.8, 7.3,9.4,11.6
7 n = e
7 1
( ) 4
2
prof M
+
= = , assim a mediana é 6.8.

EXEMPLO: Dada a amostra já ordenada
( )
5.4, 6.2, 6.6, 6.8, 7.2,9.5
6 n = e
6 1
( ) 3,5
2
prof M
+
= = .

Neste caso interpretamos a fracção 0,5 numa indicação que devemos fazer
interpolação de peso 0,5 entre os dois elementos de profundidade 3, os dois
elementos mais profundos daquela amostra. Assim,
6, 6 6,8
0,5 6, 6 0,5 6,8 6, 7
2
M
+
= × + × = = ,
a média aritmética dos dois elementos centrais que existem numa amostra
de dimensão par.

Nota: Se a profundidade de um elemento não for um número inteiro, então
fazemos a interpolação de peso 0,5 entre os dois elementos da amostra mais
próximos desta profundidade.

Oficina I - Análise Exploratória de Dados
58
Nota: A soma dos 3 valores centrais (profundidade das linhas acima e
abaixo da linha em que se situa a mediana mais o número de elementos na
classe da mediana) num diagrama de caule-e-folhas é igual à dimensão n
da amostra.

Nota: A profundidade das linhas acima da linha onde está a mediana é feita
de cima para baixo e da esquerda para a direita. O inverso para as linhas
abaixo da mediana.

No exemplo do peso dos rins dos ratos, 42 n = donde ( ) 21,5 prof M = .
Então, como os dois elementos de profundidade 21 são 1060 e 1070, vem
1060 1070
1065
2
M
+
= = .

Como a pesquisa da profundidade dos elementos de uma amostra é um
elemento importante de informação e é frequentemente necessária, é usual
escrever a profundidade das linhas do diagrama de caule-e-folhas à
esquerda de cada linha. No caso da linha mediana isso não tem interesse,
pois já se sabe que nessa linha a profundidade que se atinge é
1
2
n +
. Por
isso se regista, entre parênteses, é o número de elementos nessa linha. No
exemplo do peso dos rins dos ratos:

Oficina I - Análise Exploratória de Dados
59
2
1
42; 10
2
2 8 89
10 9 00112223
699 13 9
0011224 20 10
(4) 10 6778
18 11 113444
12 11 66
10 12 001112
4 12 557
2 1 13





×


(e note que 20 4 18 42 n + + = = , pois é a soma do número de elementos
anteriores aos da linha da mediana com o número de elementos posteriores
aos da linha da mediana). Observe que na atribuição de profundidades,
antes da linha da mediana se conta da esquerda para a direita e de cima para
baixo, e depois da linha da mediana se conta da direita para a esquerda e de
baixo para cima.

Se não temos acesso à amostra original, mas apenas temos informação de
como esta se distribui por classes (tabela de frequências, histograma)
podemos, a partir da profundidade de um elemento, calcular o seu valor
aproximado.




Oficina I - Análise Exploratória de Dados
60
Amostra ordenada e letras-resumo

Dividindo cada uma das metades da amostra ordenada ao meio
encontramos os quartos, ou quartais, que são habitualmente denominados
por
L
F e
U
F (do inglês “Lower Fourth” e “Upper Fourth”), e dividindo
depois ao meio cada uma das caudas de aproximadamente 25%, das
subamostras extremas que ficam assim definidas, obtemos os oitavos ou
octais, denotados por
L
E e
U
E (do inglês “Lower Eighth” e “Upper
Eighth”).

Depois, continuando o processo, obtemos os hexadecais
L
D e
U
D , e
depois
L
C e
U
C , …, e se for necessário “enrolamos” o alfabeto e temos
L
Z e
U
Z ,
L
Y e
U
Y , etc.

Por serem marcadas com letras, estas “estatísticas ordinais” que vão
avançando nas caudas das amostras, apontando para os valores a uma
profundidade da ordem
1
2
k
são denominadas letras-resumo.

O máximo e o mínimo são representados pelo número 1 e não por uma
letra.

Definição: Sabemos que a
1
( )
2
n
prof M
+
= . Podemos definir a
profundidade de uma letra-resumo por:

Oficina I - Análise Exploratória de Dados
61
( ) ( )
1
( )
2
I prof letra resumo anterior
prof letra resumo
− +
− =
onde
( )
I x representa a parte inteira de x .

EXEMPLO: Calcule as letras-resumo para o peso dos rins dos ratos da
linhagem C.

Temos 42 n = , e portanto
42 1
( ) 21,5
2
prof M
+
= = , ( ) 11 prof F = ,
( ) 6 prof E = , ( ) 3,5 prof D = , ( ) 2 prof C = , ( ) 1,5 prof B = e
( ) 1 prof A = (muitos autores preferem a etiqueta “1” a uma letra para os
extremos da amostra).

As letras-resumo dispõem-se então numa caixa rectangular, chamada,
naturalmente, caixa de letras-resumo, em que também se indicam a
dimensão da amostra e a profundidade das letras em cada linha.

Neste exemplo podemos dispor esta informação na caixa:

42 1065 21,5
965 1160 11
915 1215 6
900 1250 3.5
895 1275 2
890 1300 1.5
1 885 1325 1
Caixa com L R
M
F
E
D
C
B

Oficina I - Análise Exploratória de Dados
62
Por vezes registam-se também as “letras-médias” em coluna, por baixo da
mediana:

42 1065 21,5
965 1062.5 1160 11
915 1065 1215 6
900 1075 1250 3.5
895 1085 1275 2
890 1095 1300 1.5
1 885 1105 1325 1
Caixa com L R
M
F
E
D
C
B

que neste caso revelam um resvalar para a direita, que a amostra tem uma
cauda direita mais comprida do que a esquerda, e ficamos assim a suspeitar
que o modelo adequado deve ter assimetria direita.

As letras-médias de uma amostra proveniente de uma população simétrica
devem ser simples perturbações amostrais da mediana, enquanto se a
população tiver assimetria direita é de esperar um padrão consistente de
letras-médias cada vez maiores, e se tiver assimetria à esquerda é de
esperar um padrão de letras-médias decrescentes.

Uma caixa com 5 letras resumo, mediana, quartos e extremos, é quase
sempre suficiente para uma primeira ideia, naturalmente vaga, sobre a
forma da população de que foi extraída.

Oficina I - Análise Exploratória de Dados
63
5
(1) ( )
( )
( )
1 1
Caixa com L R
L U
n
n M M prof M
F F F prof F
x x

F
d =…
Barreiras:…;…

Definição: A
F U L
d F F = − dá-se o nome de dispersão quartal, definida
também por
0,75 0,25 F
d Q Q = − . A dispersão quartal fornece a amplitude
da metade central da amostra.

De notar que o intervalo
| |
1.5 , 1.5
L F U F
F d F d − × + × tem uma
amplitude de 4
F
d × , por isso esperamos que, em populações ditas
“normais”, este intervalo contenha todos os elementos da amostra.

Se algum elemento estiver fora destas barreiras consideramo-lo suspeito,
“discordante”, “discrepante”, “saliente”, e suspeitamos que é um outlier, ou
seja, um elemento que se afasta do padrão dos dados.

Os valores da amostra que se situam aquém de 3
L F
F d − × ou para além
de 3
L F
F d + × são considerados outliers severos.

A caixa com 5 letras-resumo correspondente à amostra dos pesos dos rins
dos ratos diabéticos é
Oficina I - Análise Exploratória de Dados
64
42 1065 21.5
965 1160 11
1 885 1325 1
M
F

195
F
d =
Barreiras: 672.5; 1452.5

E consequentemente nesta amostra não há outliers. Note que a caixa com 5
letras-resumo indica-nos a amplitude da amostra, a amplitude dos 50%
valores centrais, o intervalo em que se situam os primeiros 25% e os
últimos 25%, dá-nos uma primeira ideia sobre a simetria, sobre se a
amostra está mais concentrada no centro ou se é muito dispersa, etc.

Definição: Os valores 1.5
L F
F d − × e 1.5
L F
F d + × são as barreiras
periféricas.

Definição: Os valores 3
L F
F d − × e 3
L F
F d + × são as barreiras
exteriores.

Os outliers são elementos a que devemos dar atenção especial, porque
podem estragar uma análise estatística.

Por isso, na presença de outliers devemos:

(i) verificar se não houve erros de registo;

(ii) se não houve erros de registo, deve-se fazer a análise estatística
com e sem eles, e avaliar a influência que eles têm na análise e na
Oficina I - Análise Exploratória de Dados
65
interpretação dos resultados. Se a importância for diminuta,
ficamos descansados; mas se houver diferenças apreciáveis entre
as análises estatísticas com e sem outliers vai ser necessário
despender muito mais esforço, eventualmente mesmo recolher
mais dados e recomeçar a análise.

Nota: No diagrama de caule-e-folhas representam-se os outliers
colocando-os entre parênteses, e deixando um espaço de separação.

EXEMPLO: Considere a amostra:

( )
7.2,8.4,8.7,8.9,8.9,9.1,9.2,9.5,9.6,9.7,9.9,11.7,15.9 x =

Construa a caixa com 5 letras-resumo e o diagrama de caule-e-folhas para
representar esta amostra.

Caixa-com-Bigodes ou Boxplot

Uma forma de representar graficamente as medidas que acabámos de
definir é a caixa-com-bigodes (ou diagrama de extremos-e-quartis) ou
boxplot.

Uma caixa-com-bigodes ou boxplot é um gráfico em que, à escala, se
representam o menor valor que não seja outlier, o quartal inferior, a
mediana, o quartal superior, e o maior valor que não seja outlier. Os
outliers e os outliers severos são marcados com os símbolos e ∗,
respectivamente.

Oficina I - Análise Exploratória de Dados
66
0 100 200 300 400 500 600 700 800 900 1000 1100


Outras representações de dados categorizados

Podemos estar na presença de dados agrupados ou categorizados pela sua
própria natureza: a população dos alunos de uma determinada universidade
pode ser categorizada em:

• alunos ordinários (O)
• trabalhadores estudantes (T)
• militares (M)
• dirigentes associativos (D)
• atletas de alta competição (A).

Assumindo que existem apenas estas categorias, o conjunto de todas elas é
o universo dos alunos, sendo portanto 100% da população.

A cada categoria está associada a respectiva frequência, sendo portanto útil
a sua representação. A representação gráfica de variáveis qualitativas ou
Oficina I - Análise Exploratória de Dados
67
quantitativas de dados agrupados é muitas vezes feita através dos
diagramas circulares.

Os diagramas circulares assumem que os 100% são um círculo, em que
cada categoria é representada através de um sector circular a que
corresponde um ângulo de 2
i
f π em radianos.












Segundo o INE (Instituto Nacional de Estatística), as principais causas de
morte nos homens portugueses no ano de 1998 estão representadas na
tabela seguinte.

Causas Percentagem
Tumores malignos 21.9%
Aparelho circulatório 34.9%
Aparelho respiratório 9.7%
Suicídios 0.3%
Outros 32.8%

Oficina I - Análise Exploratória de Dados
68
Se pretendêssemos construir o diagrama circular manualmente teríamos de
ir calcular os ângulos correspondentes a cada categoria. Embora com o
Excel este procedimento não seja necessário iremos exemplificar estes
cálculos.

Causas Percentagem
i
f
i
f 2π
(radianos)
i
f 360
(graus)
Tumores
malignos
21.9% 1.376 78.84
Aparelho
circulatório
34.9% 2.193 125.64
Aparelho
respiratório
9.7% 0.609 34.92
Suicídios 0.7% 0.044 2.52
Outros 32.8% 2.061 118.08

Com os valores anteriores podemos obter um diagrama circular.
Com recurso ao Excel, podemos obter vários tipos de diagramas circulares
como se exemplifica de seguida.
Causas de morte dos homens em Portugal em 1998
Aparelho
circulatório
35%
Aparelho
respiratório
10%
Suicídio
0%
Outros
33%
Tumores
malignos
22%


Outra representação pode ser através de um gráfico de barras.
Oficina I - Análise Exploratória de Dados
69

Causas de morte dos homens em Portugal em 1998
0%
5%
10%
15%
20%
25%
30%
35%
40%
Tumores
malignos
Aparelho
circulatório
Aparelho
respiratório
Suicídio Outros

ou ainda também
0%
5%
10%
15%
20%
25%
30%
35%
Tumores
malignos
Aparelho
circulatório
Aparelho
respiratório
Suicídio Outros


You're Reading a Free Preview

Descarregar
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->