Você está na página 1de 69

Oficina I - Análise Exploratória de Dados

1. Análise Exploratória de Dados


1.1 De Que Trata a Estatística?

Estatística é a ciência que se ocupa da obtenção de informação


(amostragem, planeamento de experiências), do seu tratamento inicial
(ordenação, cálculo de características amostrais, agrupamento em classes,
representações gráficas – em suma, estatística descritiva e análise
exploratória de dados), com a finalidade de, através de resultados
probabilistas adequados, inferir de uma amostra para a população
(decisão sobre hipóteses, estimação de parâmetros populacionais a partir
das características amostrais relevantes, comparação de populações,
relacionamento de uma variável resposta com variáveis controladas), e
eventualmente prever a evolução futura de um fenómeno (previsão). Por
outras palavras, é um instrumento de leitura da informação, e da sua
transformação em Conhecimento.

“A Estatística é a Ciência que nos guia na tomada de DECISÕES em


SITUAÇÃO DE INCERTEZA”

Dinis Pestana (1998)

Os objectos da Estatística são os dados estatísticos, e o objectivo da


Estatística é obter dados (por observação ou produzindo-os
intencionalmente), descrevê-los, sumariá-los, agrupá-los, organizá-los,
analisá-los e interpretar os resultados dessa análise.

Os dados estatísticos são observações individuais de um ou mais atributos


seleccionadas de uma população:

1
Oficina I - Análise Exploratória de Dados

DEFINIÇÃO: População é o conjunto (o universo) de todos os elementos


cujas características (atributos) são objecto de determinado estudo.

Os elementos da população são, em geral, designados por unidades


estatísticas – facto ou entidade elementar que é objecto de observação.

Para se conhecer de forma completa uma população têm que se analisar


todos os seus elementos, ou seja, realizar um censo ou recenseamento.

Os censos mais conhecidos são os demográficos, os últimos foram


realizados em 1991 e 2001, no nosso país. Mas, a obtenção de um censo
pode ser muito dispendiosa e demorada se a população for numerosa, pelo
que nem sempre é uma solução viável.

Na maior parte das vezes o estudo das características de uma população


tem que ser feito sobre um seu subconjunto finito (extraído com uma
metodologia estatística apropriada) que se designa por amostra.

A forma de selecção de uma amostra a partir da população é determinante e


é designada por processo de Amostragem.

Se intervém apenas o acaso e todos os elementos da população têm igual


probabilidade de serem incluídos a amostragem diz-se casual ou aleatória.

Uma amostra aleatória garante, em certo sentido, a representatividade.


Uma amostra é viciada ou enviesada, caso contrário.

Uma amostra mal recolhida (viciada ou enviesada) levará naturalmente a


conclusões e previsões distorcidas.

2
Oficina I - Análise Exploratória de Dados

DEFINIÇÃO: Um método de amostragem diz-se enviesado (em inglês


Bias) se os resultados por ele produzidos diferem sistematicamente do que
é observado na população.

EXEMPLO: Nas eleições americanas de 1936, ficou famoso o caso da


previsão feita pela Literary Digest, com base numa sondagem efectuada a
mais de 2 milhões de eleitores (a maior sondagem conduzida até à altura), e
que antevia uma maioria de 57% dos votos para o candidato A. Landon,
que afinal veio a perder contra F. D: Roosevelt (38% vs 62% ,
correspondendo a 16,7 e 27,8 milhões de votos, respectivamente).
A base de dados para a sondagem, que era constituída por listas de telefone
e de proprietários de automóveis, foi enviada por correio a 10 milhões de
eleitores, tendo havido 2,3 milhões de respostas. Note-se que a base de
dados era enviesada a favor dos que tinham telefone ou carro (nessa época
nos EUA apenas uma em cada quatro casas tinha telefone), provavelmente
mais abastados e com maior tendência para votar nos republicanos, e que a
sondagem se baseou em respostas voluntárias (naturalmente os mais
descontentes com a anterior presidência de FDR estariam mais motivados
para responder). A Literary Digest, faliu pouco depois deste episódio.
Na mesma ocasião tinha sido feita uma sondagem muito mais modesta
(apenas 3 mil inquiridos), por G. Gallup, que previa a vitória de FDR, mas
que foi quase ignorada, até serem conhecidos os resultados da eleição…

Existem vários processos de amostragem, iremos referir as técnicas de


amostragem aleatória mais utilizadas.

DEFINIÇÃO: Quando qualquer elemento da população tem igual


probabilidade de ser escolhido estamos na presença da amostragem
aleatória simples.

3
Oficina I - Análise Exploratória de Dados

Na prática para se obter uma amostra por esta técnica utiliza-se um


software que gere números pseudo - aleatórios aos quais corresponde um e
um só elemento da população, Caso não se disponha de software adequado
existem tabelas de números pseudo – aleatórios.

A amostragem aleatória simples é o tipo de amostragem mais utilizado


pelo seu rigor científico, uma vez que é suportado pela teoria das
probabilidades.

DEFINIÇÃO: Na amostragem estratificada supomos que a população


está dividida em estratos homogéneos tendo em atenção as características
que se achar importantes para o estudo. A amostra é obtida respeitando a
proporção de cada estrato na população, e dentro de cada estrato é feita
uma amostragem aleatória simples.

EXEMPLO: Se pretendermos obter um estudo demográfico a nível


nacional, e se acharmos que o sexo dos elementos da amostra é relevante,
podemos proceder a uma amostragem aleatória estratificada por sexo.
Segundo o INE, Estatísticas Demográficas, 2001, em Portugal 48.3% da
população residente é do sexo masculino e os restantes 51.7% do sexo
feminino. Assim, após a escolha do número de elementos da amostra que
pretendemos, deveremos respeitar as proporções por sexos, e dentro de
cada grupo (por sexo) a recolha dos elementos da amostra é feita por
amostragem aleatória simples.

DEFINIÇÃO: A amostragem por grupos ou clusters utiliza-se quando


não nos é possível obter uma lista completa dos elementos da população,
mas temos acesso a grupos dessa população que são heterogéneos em
relação à característica em análise, isto é, assume-se que cada grupo

4
Oficina I - Análise Exploratória de Dados

espelha o comportamento da população. Neste tipo de amostragem


escolhem-se aleatoriamente os grupos e todos os seus elementos
pertencerão à amostra.

DEFINIÇÃO: Numa amostragem por voluntariado as unidades que


compõem a amostra escolheram fazer parte dessa amostra.

DEFINIÇÃO: Uma amostragem por conveniência consiste em retirar


uma amostra constituída por unidades da população que estão facilmente
acessíveis.

NOTA: Amostragens por conveniência e voluntariado são em geral


enviesadas.

Existem outros processos de amostragem aleatórios e outros não


probabilísticos que não iremos referir neste texto.

Questão: Um determinado programa de televisão resolve fazer a seguinte


sondagem:

Será que as pessoas deveriam poder ter armas de fogo com maior
facilidade?

Se SIM ligue para o 707888000, se NÃO ligue para 707888001. O custo da


chamada é 0,60 cêntimos + IVA.

Será que poderemos considerar os resultados desta sondagem fiáveis?


Explique.

5
Oficina I - Análise Exploratória de Dados

Planeamento de Experiências

O planeamento de experiências foi introduzido por Fisher em 1926. O


cerne do planeamento de experiências é delinear uma forma de produzir os
dados mais informativos a mais baixo preço, e a metodologia estatística
apropriada para analisar os dados assim produzidos.

É fundamental decidir o que se vai medir (a variável resposta), quais as


condições (tratamentos) a considerar, e quais as unidades experimentais
que vão ser usadas, e identificar cuidadosamente as fontes de variabilidade.

Desejamos analisar a variabilidade decorrente do nosso planeamento da


experiência (procuramos a variabilidade da variável resposta, como função
das alterações das condições que artificialmente criámos para cada um dos
subgrupos experimentais), mas sabemos que existe também variabilidade
não planeada. Deve-se controlar tudo o que é possível; o que não é possível
controlar, aleatoriza-se.

EXEMPLO: uma experiência sobre o controlo de fogos florestais pode ter


sido excelentemente planeada, mas durante a sua realização o estado do
tempo pode variar, e diferenças significativas que se encontrem tanto
podem dever-se aos “tratamentos” como à variabilidade indesejada da
humidade, ou mesmo da pluviosidade.

O objectivo da estatística é buscar o conhecimento na variabilidade, e o


propósito não é eliminar a variabilidade. O que queremos é eliminar a
variabilidade espúria ou sistemática, por vezes causada por variáveis de
“confounding” (do inglês confounding), que confundem a análise estatística

6
Oficina I - Análise Exploratória de Dados

e a sua interpretação. Há sempre a tentativa de eliminar essas variáveis de


“confounding”, mas por vezes os desastres “espreitam”.

EXEMPLO: Na Indústria Farmacêutica, de um modo geral administram-se


diversos tratamentos (por ex diversas dosagens de um medicamento, ou
diversas combinações de diversas dosagens de medicamentos, ou níveis
diferentes de quimioterapia e radioterapia, etc) a diferentes grupos de
doentes, havendo em geral um grupo de controlo ou grupo testemunha a
que é administrado um placebo (um tratamento quimicamente neutro,
administrado só para o doente julgar que está a ser tratado e não haver
efeitos psico-somáticos que alterem posteriormente o sentido da
experiência).

Os diversos grupos são cuidadosamente seleccionados para serem


homogéneos - a situação ideal seria dispor de gémeos, se possível. Mas
como tal é em geral impossível, e não podemos fugir a esta fonte
indesejada de variabilidade, aleatoriamente a constituição dos grupos (o
mecanismo de distribuição dos doentes pelos grupos é controlado pelo
acaso), de forma a torná-la tanto possível irrelevante, por agir
homogeneamente nos diversos grupos.

Variáveis estatísticas

O valor de um atributo de uma população pode variar de elemento para


elemento. Ao observar os valores que essas características assumem (seja
na amostra, seja em toda a população), definem-se em geral variáveis, uma
para cada característica.

7
Oficina I - Análise Exploratória de Dados

Variável aleatória (x) é a característica (numérica ou não) que interessa


estudar na população. Os seus valores surgem “por acaso”, de forma
aleatória.
Perante uma amostra de dimensão n (número de elementos da amostra), e
representando-se uma variável por x, tem-se
x1 , x 2 , …, xn
em que xi , (i=1,2,…,n) é o valor da característica observada na i-ésima
unidade estatística.

É muito importante reconhecer a “escala” dos dados, pois condiciona o tipo


de análise que é conveniente, ou possível, fazer:

TIPOS DE VARIÁVEIS

1. Quantitativas: São variáveis que tomam valores numéricos.

1.1 Discretas: Tomam valores inteiros, e associam-se a processos


de contagem.
Nº de filhos por família
Nº de casos novos de SIDA por mês em determinada área
Nº de sementes germinadas (em 100) numa parcela
Nº de colónias bacterianas/cm2
1.2 Contínuas: Podem tomar infinitos valores dentro de um
intervalo.
Idade dum paciente
Albumina (gr/100ml), linfócitos (%), glicose (mg/dl) (variáveis
bioquímicas e analíticas)
Níveis de monóxido de carbono/m3 de ar, temperatura (meio
ambiente)

8
Oficina I - Análise Exploratória de Dados

Peso, altura dum indivíduo.


2. Qualitativas: São variáveis que não se podem medir
numericamente, apresentando uma série de k níveis de resposta.

2.1 Nominais: São de carácter e não ordenáveis.


Sexo: “Mulher”, “Homem”
Grupo sanguíneo: “A”, “B”, “AB”, “O”.
Diabético: “Sim”, “Não”
2.2 Ordinais: Os K níveis admitem uma ordem (são também
categorias).
Nível de estudos: “analfabeto”, ”escolaridade obrigatória”, “ensino
secundário”, “ensino superior”
Classe social: “baixa”. “média”, “alta”
Grau de uma lesão: “leve”, “moderada, “grave”

3. Categóricas: São variáveis quantitativas que se categorizam em k


níveis.
Idade: “jovem”, “meia idade”, “idoso”
Níveis de glicose: “<70”, “normais = (70-115)”, “(115-138)”,
“>138”

Chamamos parâmetro a uma característica numérica de uma população,


i.e. característica numérica que interessa conhecer numa variável aleatória.

Exemplos: Valor médio ( µ ), mínimo ( x(1) ), máximo ( x(n) ), amplitude,

variância ( σ 2 ), desvio padrão ( σ ), …

Pretende-se que uma amostra seja representativa da população da qual é


subconjunto, para que ao calcularmos características amostrais estas

9
Oficina I - Análise Exploratória de Dados

propiciem uma avaliação dos parâmetros a que correspondem na


população.

Neste contexto,

DEFINIÇÃO: Chamamos estatística a toda a função da amostra, isto é,


uma função que depende apenas dos elementos da amostra (e não dos
parâmetros da população), devendo propiciar uma avaliação dos
parâmetros a que correspondem.

1 n
Exemplos: Média aritmética de uma amostra ( x ), dada por x = ∑x ,
n i =1 i

mediana (Me), moda (Mo), variância ( s 2 ), desvio padrão ( s ), …

O conhecimento estatístico começa com a recolha de dados. A


metodologia apropriada para a obtenção de dados deve garantir a
representatividade, e a variabilidade presente na amostra deve reflectir a
variabilidade da população.

Obtenção dos dados

AMOSTRAGEM

PLANEAMENTO
DE
EXPERIÊNCIAS

Descrição dos dados

ESTATÍSTICA
DESCRITIVA

ANÁLISE
EXPLORATÓRIA

10
Oficina I - Análise Exploratória de Dados

Modelação

TEORIA DA
PROBABILIDADE

Indução Prescrutação do futuro

INFERÊNCIA
ESTATÍSTICA PREVISÃO

Em suma, a Estatística é entendida, num sentido lato, como sendo “a


ciência que tem por objecto obter, organizar e analisar dados, determinar as
correlações que apresentem e tirar delas as suas consequências para
descrição e explicação do que passado, prever e organizar o futuro”, como
refere o dicionário da Língua Portuguesa da Porto Editora.

O último propósito da análise estatística, enquadrado na inferência


estatística, é inferir a partir de uma amostra (pequena parte), as
características de uma população (o todo) ou comparar populações e, caso
seja possível, predizer (no sentido mais restrito de atribuir uma
probabilidade) acontecimentos futuros. O acto de predizer ou inferir é
suportado por modelos probabilísticos, isto é, recorrendo à teoria das
probabilidades.

Questão: Considere o seguinte estudo em que se pretende determinar o


número de elementos que vivem numa casa portuguesa. Um total de 1000

11
Oficina I - Análise Exploratória de Dados

pessoas foi seleccionado aleatoriamente da população e foi-lhes


questionado sobre o número de pessoas com quem viviam.
A média das respostas foi de 4.6.

• Qual a população em estudo?


• Qual a variável em estudo?
• Qual o parâmetro de interesse?
• Uma média calculada desta forma conduz geralmente a valores mais
elevados que o valor real do número de indivíduos em cada casa
portuguesa. Será que me poderá dizer porquê?
• Para obter um estimador melhor para o parâmetro em estudo, qual a
unidade amostral que se deveria escolher?

EXEMPLO:

Faça uma leitura breve dos dados apresentados na tabela projectada.

Algum sucesso?

Os dados foram obtidos por um investigador interessado em estudar a


diabetes.
O biólogo apurou duas linhagens etiquetadas por A e B, de ratos híbridos
no que se refere a diabetes, ou seja, ratos saudáveis, mas podendo
transmitir a doença aos seus descendentes.
Em seguida, “apadrinhou” cruzamentos entre as duas linhagens, e isolou na
progénie os descendentes diabéticos C.

12
Oficina I - Análise Exploratória de Dados

Questão?

Porquê a distinção entre as duas linhagens?

Relativamente a cada rato registaram-se as seguintes variáveis:

• Peso do corpo (g)


• Peso do coração (mg)
• Peso do fígado (mg)
• Peso dos rins (mg)
• Tipo de rato (A, B ou C)

Em resumo, temos 135 observações de ratos de linhagem A, 84 de ratos de


linhagem B e 42 ratos da progénie diabética C.

Diz-se que os diabéticos morrem de fome, no sentido em que têm um


apetite que dificilmente controlam.

Questões?

O que poderemos então esperar neste estudo?


Qual será a hipótese que queremos testar?
Qual a finalidade das variáveis registadas?

EXEMPLO

História de um Sr Reitor…

[…] que porra […]

13
Oficina I - Análise Exploratória de Dados

[…] para que porra […]

Também podemos cometer erros com o registo dos nossos dados. Vejamos
novamente o peso dos rins dos ratos de linhagem C.

Questão?

Consegue ver algum problema nestes dados?

A concretização do método experimental obriga à recolha de grandes


quantidades de dados. Não chega coleccionar dados; é fundamental
organizá-los, proceder ao seu tratamento, armazenamento e apresentação.
São estes os objectivos da Estatística Descritiva e da Análise
Exploratória de Dados. (uma visão mais recente, difundida pelo notável
“Exploratory Data Analysis “ de John Tukey (1977), uma disciplina
geralmente referida pela sigla EDA).

Nesta área consideraremos três estratégias interligadas:

• Ordenação dos dados;


• Resumo dos dados através de algumas características amostrais
(nomeadamente de localização e escala);
• Classificação dos dados (agrupamento em classes), e decorrente
representação gráfica, reveladora da forma da distribuição da
população.

Para isso vamos utilizar a Microsoft Excel para implementar as estratégias


anteriores. A opção deste software, que não é direccionado para a

14
Oficina I - Análise Exploratória de Dados

Estatística, deve-se ao facto de ser uma ferramenta de fácil acesso, o que já


não acontece com outros softwares.

O EXCEL possui muitas funções para uma análise descritiva de dados.

É possível que não esteja activo “Análise de Dados”. Esta janela NÃO se
instala por defeito.

Activa-se desde Ferramentas\ Suplementos\ Analysis ToolPack

O suplemento Ferramentas para análise contém as técnicas clássicas de


análise estatística.

O Excel é capaz de importar dados de ficheiros de texto da web...


Dispõe de facilidades para editar e agregar dados.

Sites de interesse:

• http://www.ine.pt
• http://www.math.uah.edu/psol/
• http://www.math.uah.edu/stat/
• http://alea-estp.ine.pt
• http://www.peterwebb.co.uk/probability.htm

CUIDADO! Não está contemplada análise de dados agrupados. Esta deve


ser programada adequadamente.

15
Oficina I - Análise Exploratória de Dados

Inspecção e Limpeza dos Dados

Antes de qualquer tratamento numérico dos dados e da sua análise deve-se


proceder a uma inspecção dos dados. Aqui, entendemos por inspecção dos
dados à análise que tem por objectivos a detecção de erros ou enganos.

É mais difícil questionar os números que a linguagem corrente. De facto,


numa frase se nos enganarmos na digitação de um caracter facilmente esse
erro é detectado pelo contexto da frase. Quando estamos com números tal
detecção revela-se bem mais difícil e por vezes impossível.

Uma inspecção aos dados é bastante importante para que a análise posterior
não seja “enganada” por dados incorrectos. Existem erros que podem ser
detectados antes da análise estatística.

Um exemplo simples é quando estamos a analisar proporções, isto é,


valores que devem variar entre 0% e 100% e temos observações fora deste
intervalo. Quando tal acontece devemos procurar saber a razão de tal erro e
se possível corrigi-lo.
É evidente que a inspecção dos dados e possíveis correcções devem ser
feitas com os limites do bom senso, sem cairmos em excessos.

Conselho: GUARDE SEMPRE os registos ORIGINAIS para o caso de no


registo informático surgirem dúvidas, e documente sempre
apropriadamente o que está a fazer aos dados.

Outro procedimento que em muitas situações nos ajuda é a ordenação dos


dados. No nosso contexto, apenas estamos interessados na ordenação

16
Oficina I - Análise Exploratória de Dados

ascendente ou descendente, não tendo muita relevância outras permutações


dos dados.

A ordenação dos dados pode ajudar à clarificação de padrões e aspectos de


regularidade que de outra maneira não seria possível. Ordenar os dados
torna-os em geral mais facilmente apreensíveis e salienta algumas
características relevantes.

No entanto, deve-se ter em atenção que por vezes os dados em análise têm
uma estrutura sequencial e, se forem ordenados, tal estrutura pode ser
perdida. São exemplos de dados cronológicos: as temperaturas diárias de
uma dada cidade ao longo do ano, etc.

Comecemos por analisar o caso em que os valores de determinada


característica podem ser descritos por uma variável discreta.

Se considerarmos a amostra original x = ( x1 , x2 , x3 ,…, xn ) , a amostra

ordenada de forma ascendente denota-se por

( x1:n , x2:n ,…, xn:n ) ou ( x(1) , x( 2) ,…, x( n) ) .

Chamamos k-ésima estatística ordinal (ascendente) ao elemento x( k )

sendo k a ordem ou rank (ascendente, se nada se disser). Daqui resulta que


o elemento x(1) é o menor valor da amostra, o qual se designa por mínimo,

e que o elemento x( n ) é o maior valor, o qual evidentemente designamos

por máximo.

17
Oficina I - Análise Exploratória de Dados

Nas situações em que seja mais útil a ordenação descendente é usual na


literatura a indicação de que o rank indicado é descendente pelas notações

x(′k ) ou x(*k ) .

EXEMPLO:
Se considerarmos a amostra x = ( 5.3, 2.7, − 1.2, 2.1, 4.1)
~

A correspondente amostra ordenada com os respectivos ranks é



x5:5 ′
x4:5 ′
x3:5 ′
x2:5 ′
x1:5
−1.2 2.1 2.7 4.1 5.3
x1:5 x2:5 x3:5 x4:5 x5:5
sendo a sua 2ª estatística ordinal (ascendente) o elemento
′ = 2.1 .
x( 2 ) = x2:5 = x4:5

Convenção: Quando falarmos de “ordenar uma amostra” estamos a


referir ordenação ascendente, excepto se explicitamente referirmos
ordenação decrescente.

Hoje em dia os softwares permitem de uma forma rápida e eficaz a


ordenação dos dados.

NO EXCEL: A ordenação é feita seleccionando os registos que se


pretendem ordenar utilizando o comando Ordenar do menu Dados.

EXERCÍCIO: Por simplicidade, vamos considerar os dados


correspondentes ao peso dos 42 ratos diabéticos, progénie do cruzamento
de ratos das linhagens A e B. Considere a variável “Peso do corpo dos ratos
de linhagem C”. Ordene esta amostra.

18
Oficina I - Análise Exploratória de Dados

Para o peso dos ratos temos:

x(1) = x( n ) = x( 42 ) =

DISTRIBUIÇÕES DE FREQUÊNCIAS

Na maioria das vezes as amostras têm dimensões elevadas e existem muitos


elementos repetidos. Escrever por extenso todos os elementos de uma
amostra deste tipo seria bastante fastidioso e desnecessário.

Considerando a amostra já ordenada

( 2,3,3,3,6,6,6,6,6,7,7,8,8,9 )

constatamos que apenas temos 6 elementos diferentes mas que surgem


várias vezes. Seria mais simples e mais eficaz dizermos que a amostra é
constituída por 1 observação 2, e 3 observações 3 e assim sucessivamente.

Ao número de vezes que uma observação ocorre numa amostra chama-se


frequência absoluta. De uma forma mais formal: a frequência absoluta da
observação xi denota-se por ni .

Assim podemos “escrever” a amostra anterior num quadro bem mais fácil
de interpretar:

19
Oficina I - Análise Exploratória de Dados

I xi ni
1 2 1
2 3 3
3 6 5
4 7 2
5 8 2
6 9 1

A amostra tem apenas 6 observações distintas tendo dimensão 14.

Pensando de uma forma mais geral, se uma amostra de dimensão n tiver k


observações distintas, facilmente se verifica que
k
n = ∑ ni .
i =1

Por exemplo, no quadro anterior obtém-se facilmente que a frequência


absoluta da observação 6 é 5. Só com esta informação podemos afirmar que
esta observação é muito frequente na amostra? Para responder a esta
pergunta teremos de comparar a frequência absoluta com a dimensão da
amostra. Para tal necessidade surge a noção de frequência relativa
(proporção de valores iguais a xi na amostra).

Define-se frequência relativa da observação xi , com i = 1,..., k ao

quociente
ni
fi =
n
sendo muito usual apresentar-se em forma de percentagem
ni
fi = × 100% .
n

20
Oficina I - Análise Exploratória de Dados

5
Assim, a frequência relativa da observação 6 é × 100% = 35.71% .
14

A frequência relativa dá uma informação quanto à proporção das


ocorrências de uma observação em relação ao total das observações.

Das frequências absolutas/relativas às frequências absolutas/relativas


acumuladas é um pequeno passo; define-se frequência absoluta
acumulada de xi por

N i = ∑ n j com i , j = 1,..., k
j ≤i

e analogamente, frequência relativa acumulada da observação xi por

Fi = ∑ f j , com i , j = 1,..., k .
j ≤i

A interpretação da frequência absoluta acumulada é intuitiva: N i é o n.º de

observações inferiores ou iguais à observação xi , sendo que a frequência

relativa acumulada Fi , é a percentagem das observações da amostra que

são inferiores ou iguais à observação xi .

Podemos agora completar o quadro anterior com as frequências relativas e


acumuladas.

21
Oficina I - Análise Exploratória de Dados

i xi ni N i f i (%) Fi (%)
1 2 1 1 7.14 7.14
2 3 3 4 21.43 28.57
3 6 5 9 35.71 64.29
4 7 2 11 14.29 78.57
5 8 2 13 14.29 92.86
6 9 1 N k = n =14 7.14 Fk =100

Todo o procedimento anterior conduz a uma representação tabular da


distribuição de frequências a que chamamos tabela de frequências.

De uma forma genérica, se tivermos uma amostra chamamos tabela de


frequências a tabela que assume a forma

I xi ni Ni f i (%) Fi (%)
1 x1 n1 N1 f1 F1
. . . . . .
. . . . . .
K xk nk N k = n fk Fk =1(100%)
Totais n 1 (100%)

DEFINIÇÃO: A distribuição de uma variável é o conjunto de possíveis


valores que essa variável toma e qual a frequência com que esses valores
ocorrem. A distribuição de uma variável evidência a variabilidade existente
nessa variável.

22
Oficina I - Análise Exploratória de Dados

EXEMPLO: Ao longo de 30 dias registou-se o número de paragens por


dia nos computadores de um centro de cálculo:

1 2 0 3 2 1 1 0 6 1
0 4 0 0 3 1 1 3 0 2
1 1 1 2 1 2 4 0 0 0

Tem-se:
• dimensão da amostra: n=
• menor observação (mínimo): x(1) =

• maior observação (máximo): x( 30 ) =

Construindo a tabela de frequências, tem-se:

NO EXCEL: Utilização da função Frequência

FREQUÊNCIA (matriz_dados;matriz_bin)

Calcula a frequência com que os valores ocorrem num intervalo de valores


e devolve uma matriz vertical de números.

{=Frequência(DADOS!B2:B61,DADOS!G3:G9)}

Utilização da função Contar. Se

{=contar.se(B2:B61,”CHN”)}

EXEMPLO: Considerando novamente a variável “Peso do corpo” no nosso

exemplo dos ratos, construa a tabela de frequências.

23
Oficina I - Análise Exploratória de Dados

Agrupamento dos Dados e Representações Gráficas

Existem diversas formas de visualização gráfica das observações mediante


a natureza destas e os objectivos a atingir.

“Um bom gráfico vale mil palavras. Um mau gráfico vale muito mais,
provavelmente, se mau significar deliberadamente enganador, e
estivermos a falar de publicidade…”
Dinis Pestana

Diagrama de barras

O gráfico mais simples que se pode obter a partir de uma amostra é o


diagrama de barras. No diagrama de barras visualizam-se através de
barras verticais as frequências absolutas ou relativas das observações da
amostra, facilitando a comparação dos respectivos valores. Também, mas
menos usual, podem-se construir diagramas de barras com as frequências
acumuladas.

O diagrama de barras apenas é indicado para variáveis discretas ou


categóricas, uma vez que na sua construção apenas são utilizadas as
frequências das observações.

O gráfico de barras é um gráfico utilizado para representar dados discretos


(nº de filhos, …) ou categóricos (estatuto socio-económico, …).

Se tivermos uma amostra das alturas em cm de 100 cidadãos, o diagrama


de barras não é indicado, uma vez que a característica altura tem uma

24
Oficina I - Análise Exploratória de Dados

natureza contínua o que levaria a que surgissem muitas alturas exactamente


iguais.

O diagrama de barras é constituído por um sistema de eixos ortogonais em


que no eixo das abcissas coloca-se as observações e a cada observação
corresponde uma barra vertical de altura proporcional à frequência
absoluta.

Consideremos a tabela de frequências do EXEMPLO do número de


paragens por dia nos computadores de um centro de cálculo. Os gráficos de
barras para as frequências absolutas e relativas são os seguintes:

Diagrama de Barras
12
Frequências Absolutas

10

0
0 1 2 3 4 5 6
xi

Diagrama de Barras
35%

30%
Frequências Relativas

25%

20%

15%

10%

5%

0%
0 1 2 3 4 5 6
xi

25
Oficina I - Análise Exploratória de Dados

A diferença entre os dois gráficos anteriores é a escala no eixo das


ordenadas, pelo que bastará construir um deles.

NOTA: Também podem ser construídos diagramas de barras horizontais,


mas neste caso as observações são colocadas no eixo das ordenadas.

NO EXCEL: A construção deste tipo de gráfico é bastante fácil utilizando

o EXCEL. Utilizando o assistente de gráficos e seleccionando o tipo de


gráfico de colunas (barras verticais) obtêm-se os gráficos anteriores, ou,

Inserir->Gráfico->Colunas….

O gráfico de barras de frequências relativas acumuladas é o que se segue.

Gráfico de Barras
100%
Freq. Relativas

80%
Acumuladas

60%
40%
20%
0%
0 1 2 3 4 5 6
xi

EXEMPLO: Considerando novamente a variável “Peso do corpo” no nosso

exemplo dos ratos, construa o respectivo diagrama de barras recorrendo ao


EXCEL.

Agrupamento dos dados em classes

Quando a variável x é de tipo contínuo, o processo é um pouco mais


elaborado, uma vez que não faz muito sentido falar em frequências

26
Oficina I - Análise Exploratória de Dados

absolutas (e, nem portanto, de relativas) de valores isolados. Neste caso, é


necessário proceder à definição de classes de valores, à contagem das
frequências absolutas e ao cálculo das frequências relativas para cada
classe.

NOTA: Este procedimento é típico no caso de variáveis contínuas, mas


também pode ser aplicado ao caso de variáveis discretas quando estas
assumem um grande número de valores.

NO EXCEL não está contemplada a análise de dados agrupados. Esta


deve ser programada adequadamente.

À medida que o número de observações aumenta, é necessário condensar


ainda mais os dados. Assim, precisamos de organizar os dados em classes.

As regras na construção das classes são muito diversificadas. Em termos


desta unidade curricular, seguir-se-ão as seguintes regras, salvo indicação
em contrário:

• As classes não têm pontos em comum.


• O número de classes é calculado usando a Regra de Sturges:
N = nº de classes = I (log 2 n) + 1
onde a função I(x) representa a parte inteira do número x (relembre
log x
que log 2 x = ).
log 2
• Sempre que possível as classes devem ter igual amplitude
(amplitude de uma classe é a diferença entre o seu limite superior e
o seu limite inferior), definida por:

27
Oficina I - Análise Exploratória de Dados

x( n ) − x(1)
h = amplitude da classe =
nº de classes
• Os intervalos são abertos à esquerda e fechados à direita. No entanto,
se necessário, considerar o primeiro intervalo fechado à esquerda e à
direita.

No caso de ser necessário aproximar o valor de h , esta aproximação deve


ser sempre feita por excesso. Este excesso deve ser redistribuído
uniformemente por todas as classes. Assim, teremos que realizar os
seguintes passos:

1. ε = excesso = N * h − ( x( n ) − x(1) ) .
ε
2. A primeira classe deverá começar em x(1) − .
2
ε
3. A última classe deverá terminar em x( n ) + .
2

Cada classe tem um ponto muito importante: o seu ponto médio. O ponto

médio de uma classe xi é a média aritmética dos limites inferior e superior
da classe. Atendendo a que se espera que as observações se distribuam
uniformemente dentro de cada classe, podemos dizer que o ponto médio

xi∗ é o representante lógico da classe i.

Uma vez definidas as classes, as noções anteriores sobre distribuições de


frequências adaptam-se de uma forma directa.

EXEMPLO: De regresso aos ratos:

28
Oficina I - Análise Exploratória de Dados

• n = 42
• N = nº de classes = 6
52 − 38
• h = amplitude das classes = = 2.33 2.4
6
• ε = Excesso = 6 × 2.4 − 14 = 0.4

Podemos assim construir a seguinte tabela de frequências:

Intervalo: Ponto
Classe i ∗
ni Ni fi Fi
( xi , xi +1 ] Médio: xi

1 (37.8;40.2]
2 (40.2;42.6]
3 (42.6;45.0]
4 (45.0;47.4]
5 (47.4:49.8]
6 (49.8;52.2]
k k

∑n
i =1
i = 42 ∑f
i =1
i =1

Os procedimentos expostos até aqui foram no sentido de que se tivermos


uma amostra de grande dimensão então devemos agrupar os dados.

Através da tabela de frequências anterior podemos obter representações


gráficas a que chamamos histogramas.

O histograma é a representação gráfica mais utilizada na presença de dados


agrupados. Consiste num gráfico formado por rectângulos justapostos (um

29
Oficina I - Análise Exploratória de Dados

para cada classe), em que a base é igual à amplitude da classe e altura


proporcional à frequência absoluta.

Por vezes também é representado o polígono de frequências, unindo os


pontos médios do topo dos rectângulos e, “fechando” a linha poligonal
assim obtida assentando-a em pontos do eixo Ox a uma distância igual a
metade da amplitude da classe adjacente.

A ogiva ou polígono de frequências acumuladas é um gráfico mais


global em que figura as frequências relativas acumuladas.

EXEMPLO: Novamente o exemplo dos ratos…

Intervalo: Ponto
Classe i ∗
ni Ni fi Fi
( xi , xi +1 ] Médio: xi
12
12
1 (37.8;40.2] 39 12 12 42
42
8
2 (40.2;42.6] 41.4 8 20 42
20
42
8
3 (42.6;45.0] 43.8 8 28 28
42
42
4 (45.0;47.4] 46.2 4 32 4
32
42
42
5 (47.4:49.8] 48.6 6 38 6
38
42
6 (49.8;52.2] 51 4 42 42
4
42
1
k k

∑n
i =1
i = 42 ∑f
i =1
i =1

Com a tabela anterior obtemos facilmente o histograma das frequências


relativas, o polígono de frequências e a ogiva, como se segue.

30
Oficina I - Análise Exploratória de Dados

Procedimento a seguir no Excel:

Ferramentas>análise de dados…->histograma

NOTA: Assim obtém-se um histograma recorrendo a Análise de Dados, do


Excel. Esta ferramenta permite obter um histograma com base apenas nas
observações, mas também caso o utilizador prefira, pode introduzir os
limites das classes a construir. Esta ferramenta apenas pode ser utilizada
quando temos todos os elementos da amostra.

Histograma/Polígono de Frequências/Ogiva

50
45
40
35
Frequência

30
25
20
15
10
5
0
]37,8;40,2] ]40,2;42,6] ]42,6;45,0] ]45,0;47,4] ]47,4;49,8] ]49,8;52,2]

Medidas de localização e de dispersão

Sempre que temos um conjunto de dados e os pretendemos analisar para


tirar algumas conclusões resumimos a informação neles contida através de
algumas características amostrais. Estas características são numéricas
possibilitando fazer comparações, traçar padrões, etc.

O objectivo das características amostrais é obter estimativas para os


respectivos parâmetros da população. Procuramos fazer analogias entre as

31
Oficina I - Análise Exploratória de Dados

características amostrais com os parâmetros da população que geralmente


são desconhecidos.

A necessidade de parâmetros é evidente nos nossos dias: a análise


económica de um país ou região é quase na sua totalidade feita com base
em parâmetros observados ou estimados.

A característica amostral de localização mais usada e de mais fácil


interpretação é certamente a média amostral.

Se considerarmos uma amostra de dimensão n, x = ( x1 , x2 , x3 ,…, xn ) ,

define-se a média amostral por


1 n
x = ∑ xi
n i =1
e pode ser entendida como um ponto de equilíbrio das observações, e por
isso é a medida de localização por excelência. A média serve como
indicador privilegiado, pois resume num único valor todos os dados.

A média amostral pode ser calculada no Excel através da função MÉDIA.

EXEMPLO: Uma empresa pretende saber qual o salário médio dos seus
empregados. Obteve-se uma lista dos vencimentos em unidades monetárias
(u.m.) pagos no mês anterior

80, 121, 75, 85, 90, 80, 110.

Assim o vencimento médio de um emprego é dado por

32
Oficina I - Análise Exploratória de Dados

80 + 121 + 75 + 85 + 90 + 80 + 110
vencimentomédio = = 91.57 u.m.
7

Se num certo contexto, apenas estamos interessados na média, é porque


supomos que as observações oscilam pouco em torno de um certo valor.

Isto quer dizer que entendemos as observações como perturbações em


torno da média e que essas perturbações são pequenas.

Estas suposições formalizam-se da seguinte forma


xi = x + ri
onde ri é o resíduo (ou perturbação) da observação i.

Também é evidente que várias amostras podem ter a mesma média embora
tenham estruturas subjacentes diversas.

EXEMPLO: Vejamos as três amostras x , y e z que têm a mesma média,

x = y = z = 10 (verifique).

x = ( 3,9,7,15,12,19,4,11)
y = (10,11,8,10,11,12,9,9 )

z = (10,10,10,10,10,10,10,10 )

mas no entanto, podemos facilmente constatar que as observações da


amostra y estão menos dispersas que na amostra x , e a amostra z é

constante.

33
Oficina I - Análise Exploratória de Dados

NOTA: Principal Desvantagem da MÉDIA é a GRANDE sensibilidade


a valores extremos. Dizemos que a média é uma medida POUCO
RESISTENTE.

Com este exemplo muito simples sentimos a necessidade de obter um


indicador da dispersão das observações. Uma ideia natural é definirmos um
desvio global da amostra em relação a um valor central, por exemplo a
média. Este desvio global podia ser calculado por
n

∑( x − x )
i =1
i

mas
n n n

∑( x − x ) = ∑ x − ∑ x
i =1
i
i =1
i
i =1
n
= ∑ xi − nx
i =1
n
1 n
= ∑ xi − n ∑ xi = 0
i =1 n i=1

o que não releva interesse. Assim, uma solução será somarmos não os
desvios mas sim os seus quadrados,

∑( x − x )
2
i .
i =1

Desta forma surge uma característica amostral de dispersão (ou escala) a


que chamamos variância amostral.

34
Oficina I - Análise Exploratória de Dados

1 n
var ( x ) = s = ∑ i ( )
2
2
x x − x .
n − 1 i =1

Caso não estejamos na presença de uma amostra, mas com a totalidade dos
elementos da população a variância da população é obtida por

1 n
= ∑ ( xi − x ) .
2
varPopulação
n i =1

A variância amostral pode ser calculada no Excel através da função VAR

Calculemos as variâncias amostrais das amostras

x = ( 3,9,7,15,12,19,4,11) , y = (10,11,8,10,11,12,9,9 ) e

z = (10,10,10,10,10,10,10,10 )

Utilizando uma folha de cálculo ou uma calculadora obtemos a


confirmação numérica de que as observações da amostra x estão mais
~

dispersas do que as observações da amostra y uma vez que temos

sx2 = 29.429 e s y2 = 1.714 .

Obviamente que s z = 0 .
2

Outra medida de dispersão possível, mas menos utilizada é o desvio


1 n
absoluto médio dado por ∑ xi − x .
n i =1

35
Oficina I - Análise Exploratória de Dados

Se estivermos a analisar o preço de um certo produto de vários


fornecedores expressos em euros, €, a média e os desvios são expressos na
mesma unidade. No entanto, como a variância é uma média dos quadrados
dos desvios vem expressa em euros ao quadrado, € 2 . Este facto não facilita
uma boa leitura dos resultados. Para voltarmos às unidades originais
teremos de aplicar uma raiz quadrada. À raiz quadrada da variância
amostral chamamos desvio padrão amostral.

1 n
sx = var ( x ) = ∑ i ( )
2
x − x .
n − 1 i =1

O desvio padrão amostral pode ser calculado no Excel através da função


DESVPAD.

De forma análoga obtemos o desvio padrão da população.

Assim, já faz sentido em falar em x + s e x − s , visto terem a mesma


unidade, que como veremos são grandezas com interesse. Por vezes temos
conveniência em trabalhar com observações padronizadas ou
estandardizadas.

Para tal, consideramos a seguinte transformação:

xi − x
zi =
sx
QUESTÃO: Qual o efeito da transformação na amostra dos zi ?

36
Oficina I - Análise Exploratória de Dados

NOTA: Através da padronização é possível comparar variáveis


originalmente em escalas díspares.

O cálculo da variância pela fórmula anterior pode ser bastante enfadonho,


mas se procedermos a alguns cálculos algébricos obtemos uma expressão
bem mais fácil de manejar.

( xi − x )
2
De facto, atendendo a que = xi2 − 2 xxi + x 2 e usando a
linearidade dos somatórios mostra-se facilmente que
n

∑x 2
i − nx 2
s2 = i =1
.
n −1
Repare que a expressão anterior é mais prática de utilizar uma vez que

basta calcular os somatórios ∑x e ∑xi


2
i para a obtenção do resultado.

Até aqui estudámos a média e a variância amostrais, a primeira como


medida de localização central das observações e a segunda como indicador
da dispersão dos mesmos; no entanto, existem muitas mais características
amostrais com interesse.

Uma outra medida de localização que rivaliza ou complementa a média é a


mediana que denotamos por M e ou Med .

No conceito de mediana está suposto que a amostra está ordenada, e que o


valor da mediana é o valor central dessa amostra ordenada.

Desta forma, usando a notação das estatísticas ordinais podemos definir a


mediana da seguinte forma

37
Oficina I - Análise Exploratória de Dados

 x n+1  se n é ímpar
  2 

Med =  x n + x n .
   
  2   +1
2 
 se n é par
2

A mediana sendo um valor central da amostra garante que 50% das


observações são-lhe inferiores ou iguais, restando os outros 50% que lhe
são superiores ou iguais.

A mediana amostral pode ser calculada no Excel através da função MED.

Com vista à determinação do valor de uma contribuição social a atribuir


por filho, pretende-se saber qual é o número mediano de filhos de cada
agregado familiar com base numa amostra obtida num país africano. A
amostra obtida é

3, 6, 4, 2, 8, 7, 6, 4, 5, 8, 6.

Para a determinação da mediana da amostra devemos em primeiro lugar


ordenar a amostra (de forma ascendente)

2, 3, 4, 4, 5, 6 , 6, 6, 7, 8, 8
Med

agora como a dimensão da amostra é ímpar, n = 11 , a mediana é a


estatística ordinal x( 6 )

Med = x 11+1  = x( 6) = 6 .
 
 2 

38
Oficina I - Análise Exploratória de Dados

Imaginemos que nos tínhamos esquecido de colocar um dado, uma família


com 3 filhos. A nova amostra ordenada com mais esta observação é

2, 3, 3, 4, 4, 5, 6, 6, 6, 7, 8, 8

tendo agora dimensão 12 (par). A mediana neste caso é a média aritmética


das duas observações centrais, x( 6 ) e x( 7 )

2, 3, 3, 4, 4, 5, 6, 6, 6, 7, 8, 8
5+6
=5.5
2

x( 6) + x( 7 )
isto é, Med = = 5.5
2

A média e a mediana diferem no que respeita à sensibilidade, isto é, a


média amostral é mais sensível à variação dos elementos da amostra do que
a mediana. Por isso, diz-se que a mediana é mais resistente que a média
amostral.

Uma outra medida de localização utilizada é a moda. Numa amostra, à


observação mais frequente chamamos moda e denotamos por M 0 ou

Mod .

A moda amostral pode ser calculada no Excel através da função MODA

As medidas de localização e de dispersão já referidas por vezes não


satisfazem as necessidades de certos problemas que se nos põem. Se
pensarmos que se pretende construir um muro junto a um rio, estamos

39
Oficina I - Análise Exploratória de Dados

interessados em saber a altura máxima que o rio atinge e não tanto a altura
média. Neste contexto, estamos mais interessados no conceito de
localização extremal do que localização central.

Na situação anterior estaríamos interessados no máximo da amostra, isto é


na estatística ordinal x( n ) , noutras situações podemos preferir o mínimo

x(1) .

Estas duas grandezas são entendidas como medidas de localização


extremal, pois indicam os extremos do fenómeno em estudo.

O máximo e o mínimo amostrais podem ser calculados no Excel através


das funções MÁXIMO e MÍNIMO, respectivamente.

À diferença entre o máximo e o mínimo chamamos amplitude amostral R

R = x( n ) − x(1) .

No seguimento do significado da mediana podemos definir outros


conceitos que nos permitiriam afirmar que uma certa percentagem de
observações são inferiores a um certo valor. Daqui surge a noção de
quantil.

Definimos quantil de probabilidade α da seguinte forma

 x(α n ) se α n inteiro
Qα = 
 x([α n]+1) se α n não inteiro

40
Oficina I - Análise Exploratória de Dados

Nota: [ x ] é a característica de x, isto é, o maior inteiro que lhe é inferior

ou igual.

Os quantis são características amostrais de localização, pois α % dos


elementos da amostra são menores ou iguais a Qα .

São casos particulares dos quantis os quartis, decis e os percentis.

O 1º quartil tem à sua esquerda 25% dos elementos da amostra enquanto


que o 3º quartil tem 75% da amostra. A mediana é considerada geralmente
o 2º quartil embora possa haver alguma diferença pouco significativa com a
definição já dada.

Os quartis amostrais podem ser calculados no EXCEL através da função


QUARTIL (e dividem a distribuição de frequências em quatro partes
iguais).

Os decis amostrais podem ser calculados no EXCEL através da função


QUARTIL (e dividem a distribuição de frequências em dez partes
iguais).

Os percentis amostrais podem ser calculados no EXCEL através da


função PERCENTIL (e dividem a distribuição de frequências em cem
partes iguais).

Coeficientes de variação, assimetria e de achatamento.

41
Oficina I - Análise Exploratória de Dados

Se quisermos comparar a dispersão de 2 amostras, uma com as cotações na


bolsa de uma empresa e outra com o número de títulos transaccionados,
não bastará a comparação numérica das variâncias ou dos desvios padrão
uma vez que as quantidades em estudo têm grandezas diferentes.

Para de alguma forma solucionar o problema anterior surge o conceito de


coeficiente de variação amostral dado por

s
CV = × 100%
x

O CV relativiza o desvio padrão amostral em termos da média. O


coeficiente de variação tem a vantagem de ser uma grandeza adimensional,
o que possibilita a comparação da dispersão entre amostras com diferentes
grandezas.

• O CV permite comparação entre duas ou mais distribuições.

• O CV é interpretado como a fracção da dispersão (desvio padrão)


por que a localização (média) é responsável.

São úteis as noções: momento empírico de ordem k e momento empírico


centrado de ordem k.

O momento empírico de ordem k é dado por


1 n k
mk′ = ∑ xi
n i =1
enquanto que o momento empírico centrado de ordem k é dado por

42
Oficina I - Análise Exploratória de Dados

1 n
mk = ∑ ( xi − x ) .
k

n i =1

Facilmente verificamos as igualdades


n −1 2
m1′ = x e m2 = s .
n

É com base no conceito de momento empírico que definimos dois


coeficientes que medem a assimetria e o achatamento de uma amostra.
O coeficiente de assimetria amostral (skewness) é dado por

n2 m3
g1 = .
( )(
n − 1 n − 2 ) m2 3

m3
Repare que para grandes amostras, isto é n elevado, temos que g1 ≈ 3
.
s

É de esperar que, se o modelo subjacente à amostra for simétrico, g1 seja

nulo. Quanto ao coeficiente de assimetria podemos dizer que se

• g1 > 0 a amostra tem uma distribuição assimétrica positiva ou


enviesada à esquerda (na representação gráfica das frequências haverá
tendência a um acumular de frequências para o lado esquerdo do
gráfico).
• g1 = 0 a amostra tem uma distribuição simétrica
• g1 < 0 a amostra tem uma distribuição assimétrica negativa ou
enviesada à direita (na representação gráfica das frequências haverá
tendência a um acumular de frequências para o lado direito do
gráfico).

43
Oficina I - Análise Exploratória de Dados

0,18 0,18
0,16 0,16
0,45
0,14 0,14
0,4
0,12 0,12
0,35
0,1 0,3 0,1
0,08 0,25 0,08
0,06 0,2
0,06
0,15
0,04 0,04
0,1
0,02 0,02
0,05
0 0 0
0 5 10 15 20 -4 -3 -2 -1 0 1 2 3 4 0 5 10 15 20

g1 > 0 g1 = 0 g1 < 0

Quando estamos na presença de uma distribuição dos dados simétrica a


média, mediana e moda têm valores muito próximos: x = Med = Mod
Fazendo a comparação destes valores pode-se fazer uma primeira análise
da assimetria da amostra, isto é, a assimetria pode ser classificada mediante
o estudo relativo da média, moda e mediana:

Assim:

• g1 > 0 a amostra tem uma distribuição assimétrica positiva, então


Mod < Med < x
• g1 < 0 a amostra tem uma distribuição assimétrica negativa, então
x < Med < Mod

O coeficiente de assimetria amostral pode ser calculado no Excel através da


função DISTORÇÃO

O coeficiente de Pearson é outro coeficiente para estimar o grau de


x − M0
simetria de uma distribuição, neste caso é dado por g = . A leitura
s
deste coeficiente é análoga a g1 .

O coeficiente de achatamento amostral (ou curtose amostral) é dado por

44
Oficina I - Análise Exploratória de Dados

n 2 ( n + 1) ( n − 1) .
2
m
g2 = ⋅ 42 − 3 ⋅
( n − 1)( n − 2 )( n − 3) m2 ( n − 2 )( n − 3)

De uma forma geral, e para grandes amostras, o valor de g 2 é muito

próximo de

m4
g2 = −3
m2 2
sendo esta a expressão mais utilizada na prática.

O coeficiente de achatamento tem como objectivo quantificar o


achatamento da distribuição dos dados, ou melhor, a intensidade das
observações em torno dos valores centrais. Para se fazer esta análise temos
de ter algo para fazer comparações, isto é, saber se é muito ou pouco
achatada. Para termo de comparação utiliza-se uma curva, que como
veremos é muito utilizada em Estatística, chamada de curva Normal.

A análise do coeficiente de achatamento tem importância quando se


concluiu através do coeficiente de assimetria que os dados apresentam uma
distribuição de frequências simétrica, caso contrário a análise não deve ser
feita, pois a curva que serve para comparação (a curva Normal) é simétrica.

A função do Excel que dá um valor para curtose amostral é CURTOSE.

45
Oficina I - Análise Exploratória de Dados

Se
• g 2 > 0 a distribuição é leptocúrtica (os dados estão
concentrados no centro, pelo que a distribuição apresenta um forte pico no
centro).
• g 2 < 0 a distribuição é platocúrtica (os dados estão dispersos,
pelo que a distribuição é mais achatada no centro e caudas pesadas).
• g 2 = 0 a distribuição é mesocúrtica (para o caso da distribuição
Normal).

0,9

0,8

0,7

0,6

0,5 Mesocúrtica
Leptocúrtica
0,4 Platocúrtica

0,3

0,2

0,1

0
-4 -2 0 2 4

Tabelas de frequências e redefinições de algumas


características amostrais

Por vezes os dados são fornecidos já na forma de tabelas de frequências,


sendo portanto importante vermos como podemos reescrever as
características amostrais através das frequências dadas.

46
Oficina I - Análise Exploratória de Dados

O quadro seguinte resume as principais características amostrais


escritas recorrendo a uma tabela de frequências.

Características
Expressão
Amostrais
1 k k
x x = ∑ xi ni = ∑ xi fi
n i =1 i =1

1 k n k
∑ ( xi − x ) ni = ∑ fi ( xi − x )
2 2
2
s
n − 1 i =1 n − 1 i=1
1 k k

∑ ( xi − x ) ni = ∑ ( xi − x ) fi
p p
mp
n i =1 i =1

Com a tabela de frequências podemos calcular facilmente as


principais características amostrais com recurso ao Excel.

Características amostrais em dados agrupados

Por vezes os dados já nos são fornecidos agrupados, não sendo portanto
possível aceder aos dados originais. Nesta situação, dada uma tabela de

47
Oficina I - Análise Exploratória de Dados

frequências como poderemos obter as características amostrais, tais como,


por exemplo a média, variância, etc.?

A obtenção de parâmetros amostrais em dados agrupados baseia-se no


pressuposto de que as observações distribuem-se uniformemente dentro de
cada classe.

Assim, o ponto médio de cada classe vai representar cada uma das
observações da respectiva classe.

Dado isto, temos de rescrever as características amostrais mais relevantes


em função dos pontos médios xi′ e não das observações (desconhecidas)

xi .

Na tabela seguinte apresentam-se algumas características amostrais para


dados agrupados, supondo que temos L classes e uma amostra com n
observações.

Características
Amostrais Expressão
Agrupadas
1 L L
x ∑
n i =1
xi ni = ∑ xi′ fi

i =1

1 L n L
∑ ( xi′ − x ) ni = ∑ fi ( xi′ − x )
2 2
2
s
n − 1 i =1 n − 1 i =1
1 L L
∑ i ( ) ∑ i ( )
p p
mp x ′ − x ni = x ′ − x fi
n i =1 i =1

48
Oficina I - Análise Exploratória de Dados

Chamamos classe modal à classe com maior frequência absoluta/relativa e


classe mediana à classe que contenha a mediana da amostra.

A obtenção da classe modal é fácil, basta uma constatação na tabela de


frequências. Para a classe mediana temos de atender às frequências
relativas acumuladas, sendo a classe mediana a primeira classe com
Fi ≥ 50% .

Existem métodos para a obtenção de valores numéricos tanto para a moda


como para a mediana em dados agrupados.

EXEMPLO DOS RATOS: A classe modal é ]37.8, 40.2] , visto ser

aquela que tem uma maior frequência. A determinação da classe mediana


implica a observação das frequências relativas acumuladas: a classe

]42.6, 45.0] tem F1 = 66.66% , sendo este valor superior a 50%: é esta a
classe mediana.

Supondo que apenas nos era dada a tabela de frequências, podemos


calcular algumas características amostrais a partir dos dados agrupados.

Numa folha de cálculo a tarefa do cálculo das medidas amostrais com os


dados agrupados torna-se bem mais fácil.

49
Oficina I - Análise Exploratória de Dados

Apresentam-se as fórmulas que se utilizaram nos cálculos, embora estes


possam ser efectuados, porventura de outras formas. No entanto, este modo
parece-nos mais fácil e evidencia a forma como cada parâmetro é
calculado.

Neste caso, uma vez que possuímos os dados reais poderíamos fazer
comparações entre os parâmetros calculados com todos os dados e os
obtidos através dos dados agrupados, fazendo desta forma uma análise
sobre a qualidade do agrupamento.

Parece evidente que se um dado agrupamento dos dados for bom, produz
parâmetros amostrais muito próximos dos parâmetros que se obteriam com
os dados originais. Estando os dados disponíveis, dever-se-á fazer uma
comparação dos parâmetros de forma a validar as classes construídas.

50
Oficina I - Análise Exploratória de Dados

Diagrama de caule - e - folhas

Quando precisamos de ordenar números sem apoio computacional, usamos


em geral o algoritmo de construção do diagrama de caule-e-folhas
(steam-and-leaf).

NOTA: O estatístico que inventou este tipo de diagramas foi Tuckey.

O diagrama de caule-e-folhas para além de organizar a amostra contribui


para revelar a forma da distribuição subjacente à amostra. Os dados são
dispostos ordenadamente por linhas, em número compatível com a
dimensão da amostra, dando-nos uma boa visualização da maneira como os
dados se distribuem.

Comparar amostras, esperando que dêem indicações sobre a população de


que foram extraídas, é uma das tarefas mais usuais em Estatística.

Os diagramas de caule-e-folhas paralelos dão uma intuição visual da


localização, escala e forma da distribuição subjacente aos nossos dados,
pelo que, são um instrumento apropriado para uma exploração inicial dos
dados, embora com algumas limitações.

EXEMPLO DOS RATOS: Ordena-se o peso dos ratos. Divide-se cada


observação em duas partes, um “caule” uma “folha”- o primeiro valor, 40,
é dividido como 4 | 0.

O primeiro passo é ir ordenando os caules, e pendurar em cada caule as


diversas folhas que lhe pertencem. Na ordenação dos pesos dos corpos dos
ratos, neste primeiro passo:

51
Oficina I - Análise Exploratória de Dados

4 | 065637
e nesta fase torna-se necessário considerar o caule 5 para prosseguir:

4 065637
e logo em seguida torna-se necessário considerar o caule 3
5 2
para acomodar o valor 39:

3 9
4 065637 .
5 2
Prosseguindo até ao fim da amostra, obtém-se a ordenação parcial

3 98988888
4 065637522401215892890628480415 .
5 2112
Basta agora, no segundo passo, ordenar as folhas de cada caule:

3 88888899
4 000011122222344455556667888899 .
5 1122

É habitual completar a informação do gráfico acima, denominado diagrama


de caule-e-folhas, indicando por cima a dimensão da amostra (neste caso
n=42) e a potência de 10 por que deve ser multiplicado o caule para refazer
1
a observação da amostra (neste caso, 10 , indicando por exemplo que o
1 0
primeiro valor 3 | 8 representa 3 x 10 + 8 x 10 =38). Assim, neste caso
teríamos

52
Oficina I - Análise Exploratória de Dados

42; 101
3 88888899
4 000011122222344455556667888899
5 1122

A ordenação das folhas dentro de cada caule foi trabalhosa, porque havia
muitas associadas ao caule 4. Por isso poderíamos ter optado, após simples
1
inspecção dos dados, por considerar “semicaules” de amplitude × 101 , e
2
pendurar as folhas 0,1,2,3,4 no primeiro, e as folhas 5,6,7,8,9 no segundo.
"∗"
Para guiar a vista, é bom usar o diacrítico para assinalar o segundo
semicaule.
Neste caso o primeiro passo levaria a
1
42; × 101
2
3∗ 98988888
4 0322401212024041
4∗ 65675589896885
5 2112
E o segundo passo levaria a
1
42; × 101
2
3∗ 88888899
4 0000111222223444
4∗ 55556667888899
5 1122

53
Oficina I - Análise Exploratória de Dados


NOTA: Repare que as classes (caules) 3 e 5 não estão representadas no
diagrama de caule e folhas. Como não contêm elementos, estas são as
únicas classes que podem ser eliminadas. NUNCA elimine classes vazias
no meio do diagrama.

Poderíamos ter ido mais longe, e dividido cada caule em 5 subcaules (desta
1
vez de amplitude × 101 ), correspondendo às folhas 0 e 1, 2 e 3, 4 e 5, 6 e
5
7, e 8 e 9 respectivamente.

Os diacríticos usados para estes subcaules são “o” para o que suporta 0 e 1,
“t” para o que suporta 2 e 3 (two and three), “f” para o que suporta 4 e 5
"∗"
(four and five), “s” para o que suporta 6 e 7 (six and seven), e para o
último, suportando as folhas 8 e 9. No nosso exemplo o primeiro passo
levaria a

1
42; × 101
5
3∗ 98988888
4º 0011001
4t 322222
4 f 5545445
4 s 6676
4∗ 898988
5º 11
5t 22

e o segundo passo leva a

54
Oficina I - Análise Exploratória de Dados

1
42; × 101
5
3∗ 98888889
4º 0000111
4t 222223
4 f 4445555
4 s 6667
4∗ 888899
5º 11
5t 22

Desta vez deu muito menos trabalho ordenar as folhas – mas em


compensação foi mais moroso arrumar os caules.

Há que conseguir um equilíbrio entre o trabalho da primeira e o da segunda


fase. Por outro lado, se bem que a intenção fosse ordenar os dados,
obtivemos também como subproduto uma representação gráfica, que se
espera que seja reveladora da forma da distribuição da população de que foi
retirada a amostra – e também por isso a escolha do número de classes não
é irrelevante: não devem ser demais nem de menos. Podemos recorrer à
regra de Sturges para termos um conselho sobre qual um número aceitável.

EXEMPLO: Considere agora o peso dos rins dos ratos diabéticos.


Construa o respectivo diagrama de caule-e-folhas.
A amostra ordenada é:

55
Oficina I - Análise Exploratória de Dados

885 895 900 900 910 915 925


925 925 930 965 990 995 1000
1000 1010 1010 1020 1020 1040 1060
1070 1070 1085 1110 1110 1130 1140
1140 1145 1160 1160 1200 1200 1210
1210 1215 1220 1250 1250 1275 1325

Depois de ordenada amostra, torna-se evidente se um elemento está mais “à


superfície”, perto dos extremos – o mínimo e o máximo ou mais “em
profundidade”, na zona central da amostra ordenada. Isto leva-nos a definir
a profundidade de cada observação:

Definição: Profundidade de um elemento é o número de elementos, na


amostra ordenada, desde esse (incluído) ao extremo de que está mais
próximo (também incluído).

Definição: Profundidade de uma linha de um diagrama de caule-e-folhas é


a profundidade máxima atingida nessa linha.

Assim, no exemplo anterior, a profundidade de 965 é 11, a profundidade de


895 é 2, a profundidade de 1220 é 5; o mínimo e o máximo têm sempre
profundidade 1. A profundidade de 1250 – se for o “maior” dos 1250 (note
que os valores registados são aproximações, discretizações de variáveis
conceptualmente contínuas) é 3, se for o menor é 4; caso não saiba, o
melhor é atribuir a ambos a “profundidade média” 3,5.

A profundidade máxima que se pode atingir numa amostra de dimensão n


n +1
é .
2

56
Oficina I - Análise Exploratória de Dados

O elemento de profundidade máxima é chamado mediana, e denotado por


M. A mediana M é então o elemento que está a meio da amostra ordenada,
há tantos elementos entre o mínimo e a mediana quantos entre a mediana e
o máximo. Por outras palavras, 50% dos elementos são ≤ M , e 50% dos
elementos são ≥ M .

EXEMPLO: Dada a amostra já ordenada

( 2.3, 4.5,6.7,6.8,7.3,9.4,11.6 )
7 +1
n = 7 e prof ( M ) = = 4 , assim a mediana é 6.8.
2

EXEMPLO: Dada a amostra já ordenada

( 5.4,6.2,6.6,6.8,7.2,9.5)
6 +1
n = 6 e prof ( M ) = = 3,5 .
2

Neste caso interpretamos a fracção 0,5 numa indicação que devemos fazer
interpolação de peso 0,5 entre os dois elementos de profundidade 3, os dois
elementos mais profundos daquela amostra. Assim,
6,6 + 6,8
M = 0,5 × 6,6 + 0,5 × 6,8 = = 6,7 ,
2
a média aritmética dos dois elementos centrais que existem numa amostra
de dimensão par.

Nota: Se a profundidade de um elemento não for um número inteiro, então


fazemos a interpolação de peso 0,5 entre os dois elementos da amostra mais
próximos desta profundidade.

57
Oficina I - Análise Exploratória de Dados

Nota: A soma dos 3 valores centrais (profundidade das linhas acima e


abaixo da linha em que se situa a mediana mais o número de elementos na
classe da mediana) num diagrama de caule-e-folhas é igual à dimensão n
da amostra.

Nota: A profundidade das linhas acima da linha onde está a mediana é feita
de cima para baixo e da esquerda para a direita. O inverso para as linhas
abaixo da mediana.

No exemplo do peso dos rins dos ratos, n = 42 donde prof ( M ) = 21,5 .


Então, como os dois elementos de profundidade 21 são 1060 e 1070, vem
1060 + 1070
M= = 1065 .
2

Como a pesquisa da profundidade dos elementos de uma amostra é um


elemento importante de informação e é frequentemente necessária, é usual
escrever a profundidade das linhas do diagrama de caule-e-folhas à
esquerda de cada linha. No caso da linha mediana isso não tem interesse,
n +1
pois já se sabe que nessa linha a profundidade que se atinge é . Por
2
isso se regista, entre parênteses, é o número de elementos nessa linha. No
exemplo do peso dos rins dos ratos:

58
Oficina I - Análise Exploratória de Dados

1
42; × 102
2
2 8∗ 89
10 9 00112223
13 9∗ 699
20 10 0011224
(4) 10∗ 6778
18 11 113444
12 11∗ 66
10 12 001112
4 12∗ 557
1 13 2

(e note que 20 + 4 + 18 = 42 = n , pois é a soma do número de elementos


anteriores aos da linha da mediana com o número de elementos posteriores
aos da linha da mediana). Observe que na atribuição de profundidades,
antes da linha da mediana se conta da esquerda para a direita e de cima para
baixo, e depois da linha da mediana se conta da direita para a esquerda e de
baixo para cima.

Se não temos acesso à amostra original, mas apenas temos informação de


como esta se distribui por classes (tabela de frequências, histograma)
podemos, a partir da profundidade de um elemento, calcular o seu valor
aproximado.

59
Oficina I - Análise Exploratória de Dados

Amostra ordenada e letras-resumo

Dividindo cada uma das metades da amostra ordenada ao meio


encontramos os quartos, ou quartais, que são habitualmente denominados
por FL e FU (do inglês “Lower Fourth” e “Upper Fourth”), e dividindo

depois ao meio cada uma das caudas de aproximadamente 25%, das


subamostras extremas que ficam assim definidas, obtemos os oitavos ou
octais, denotados por EL e EU (do inglês “Lower Eighth” e “Upper

Eighth”).

Depois, continuando o processo, obtemos os hexadecais DL e DU , e

depois CL e CU , …, e se for necessário “enrolamos” o alfabeto e temos

Z L e ZU , YL e YU , etc.

Por serem marcadas com letras, estas “estatísticas ordinais” que vão
avançando nas caudas das amostras, apontando para os valores a uma
1
profundidade da ordem são denominadas letras-resumo.
2k

O máximo e o mínimo são representados pelo número 1 e não por uma


letra.

n +1
Definição: Sabemos que a prof ( M ) = . Podemos definir a
2
profundidade de uma letra-resumo por:

60
Oficina I - Análise Exploratória de Dados

I ( prof ( letra − resumo anterior ) ) + 1


prof (letra − resumo) =
2
onde I ( x ) representa a parte inteira de x .

EXEMPLO: Calcule as letras-resumo para o peso dos rins dos ratos da


linhagem C.

42 + 1
Temos n = 42 , e portanto prof ( M ) = = 21,5 , prof ( F ) = 11,
2
prof ( E ) = 6 , prof ( D) = 3,5 , prof (C ) = 2 , prof ( B ) = 1,5 e

prof ( A) = 1 (muitos autores preferem a etiqueta “1” a uma letra para os


extremos da amostra).

As letras-resumo dispõem-se então numa caixa rectangular, chamada,


naturalmente, caixa de letras-resumo, em que também se indicam a
dimensão da amostra e a profundidade das letras em cada linha.

Neste exemplo podemos dispor esta informação na caixa:

Caixa com L − R

42 M 1065 21,5
F 965 1160 11
E 915 1215 6
D 900 1250 3.5
C 895 1275 2
B 890 1300 1.5
1 885 1325 1

61
Oficina I - Análise Exploratória de Dados

Por vezes registam-se também as “letras-médias” em coluna, por baixo da


mediana:

Caixa com L − R

42 M 1065 21,5
F 965 1062.5 1160 11
E 915 1065 1215 6
D 900 1075 1250 3.5
C 895 1085 1275 2
B 890 1095 1300 1.5
1 885 1105 1325 1

que neste caso revelam um resvalar para a direita, que a amostra tem uma
cauda direita mais comprida do que a esquerda, e ficamos assim a suspeitar
que o modelo adequado deve ter assimetria direita.

As letras-médias de uma amostra proveniente de uma população simétrica


devem ser simples perturbações amostrais da mediana, enquanto se a
população tiver assimetria direita é de esperar um padrão consistente de
letras-médias cada vez maiores, e se tiver assimetria à esquerda é de
esperar um padrão de letras-médias decrescentes.

Uma caixa com 5 letras resumo, mediana, quartos e extremos, é quase


sempre suficiente para uma primeira ideia, naturalmente vaga, sobre a
forma da população de que foi extraída.

62
Oficina I - Análise Exploratória de Dados

Caixa com 5 L − R

n M M prof ( M )
F FL FU prof ( F )
1 x(1) x( n ) 1
dF = …
Barreiras:…;…

Definição: A d F = FU − FL dá-se o nome de dispersão quartal, definida

também por d F = Q0,75 − Q0,25 . A dispersão quartal fornece a amplitude

da metade central da amostra.

De notar que o intervalo [ FL − 1.5 × d F , FU + 1.5 × d F ] tem uma

amplitude de 4 × d F , por isso esperamos que, em populações ditas

“normais”, este intervalo contenha todos os elementos da amostra.

Se algum elemento estiver fora destas barreiras consideramo-lo suspeito,


“discordante”, “discrepante”, “saliente”, e suspeitamos que é um outlier, ou
seja, um elemento que se afasta do padrão dos dados.

Os valores da amostra que se situam aquém de FL − 3 × d F ou para além

de FL + 3 × d F são considerados outliers severos.

A caixa com 5 letras-resumo correspondente à amostra dos pesos dos rins


dos ratos diabéticos é

63
Oficina I - Análise Exploratória de Dados

42 M 1065 21.5
F 965 1160 11
1 885 1325 1
d F = 195
Barreiras: 672.5; 1452.5

E consequentemente nesta amostra não há outliers. Note que a caixa com 5


letras-resumo indica-nos a amplitude da amostra, a amplitude dos 50%
valores centrais, o intervalo em que se situam os primeiros 25% e os
últimos 25%, dá-nos uma primeira ideia sobre a simetria, sobre se a
amostra está mais concentrada no centro ou se é muito dispersa, etc.

Definição: Os valores FL − 1.5 × d F e FL + 1.5 × d F são as barreiras


periféricas.

Definição: Os valores FL − 3 × d F e FL + 3 × d F são as barreiras

exteriores.

Os outliers são elementos a que devemos dar atenção especial, porque


podem estragar uma análise estatística.

Por isso, na presença de outliers devemos:

(i) verificar se não houve erros de registo;

(ii) se não houve erros de registo, deve-se fazer a análise estatística


com e sem eles, e avaliar a influência que eles têm na análise e na

64
Oficina I - Análise Exploratória de Dados

interpretação dos resultados. Se a importância for diminuta,


ficamos descansados; mas se houver diferenças apreciáveis entre
as análises estatísticas com e sem outliers vai ser necessário
despender muito mais esforço, eventualmente mesmo recolher
mais dados e recomeçar a análise.

Nota: No diagrama de caule-e-folhas representam-se os outliers


colocando-os entre parênteses, e deixando um espaço de separação.

EXEMPLO: Considere a amostra:

x = ( 7.2,8.4,8.7,8.9,8.9,9.1,9.2,9.5,9.6,9.7,9.9,11.7,15.9 )

Construa a caixa com 5 letras-resumo e o diagrama de caule-e-folhas para


representar esta amostra.

Caixa-com-Bigodes ou Boxplot

Uma forma de representar graficamente as medidas que acabámos de


definir é a caixa-com-bigodes (ou diagrama de extremos-e-quartis) ou
boxplot.

Uma caixa-com-bigodes ou boxplot é um gráfico em que, à escala, se


representam o menor valor que não seja outlier, o quartal inferior, a
mediana, o quartal superior, e o maior valor que não seja outlier. Os
outliers e os outliers severos são marcados com os símbolos e ∗,
respectivamente.

65
Oficina I - Análise Exploratória de Dados

0 100 200 300 400 500 600 700 800 900 1000 1100

Outras representações de dados categorizados

Podemos estar na presença de dados agrupados ou categorizados pela sua


própria natureza: a população dos alunos de uma determinada universidade
pode ser categorizada em:

• alunos ordinários (O)


• trabalhadores estudantes (T)
• militares (M)
• dirigentes associativos (D)
• atletas de alta competição (A).

Assumindo que existem apenas estas categorias, o conjunto de todas elas é


o universo dos alunos, sendo portanto 100% da população.

A cada categoria está associada a respectiva frequência, sendo portanto útil


a sua representação. A representação gráfica de variáveis qualitativas ou

66
Oficina I - Análise Exploratória de Dados

quantitativas de dados agrupados é muitas vezes feita através dos


diagramas circulares.

Os diagramas circulares assumem que os 100% são um círculo, em que


cada categoria é representada através de um sector circular a que
corresponde um ângulo de 2π fi em radianos.

Segundo o INE (Instituto Nacional de Estatística), as principais causas de


morte nos homens portugueses no ano de 1998 estão representadas na
tabela seguinte.

Causas Percentagem
Tumores malignos 21.9%
Aparelho circulatório 34.9%
Aparelho respiratório 9.7%
Suicídios 0.3%
Outros 32.8%

67
Oficina I - Análise Exploratória de Dados

Se pretendêssemos construir o diagrama circular manualmente teríamos de


ir calcular os ângulos correspondentes a cada categoria. Embora com o
Excel este procedimento não seja necessário iremos exemplificar estes
cálculos.

Causas Percentagem 2π f i 360 f i

fi (radianos) (graus)
Tumores
21.9% 1.376 78.84
malignos
Aparelho
34.9% 2.193 125.64
circulatório
Aparelho
9.7% 0.609 34.92
respiratório
Suicídios 0.7% 0.044 2.52
Outros 32.8% 2.061 118.08

Com os valores anteriores podemos obter um diagrama circular.


Com recurso ao Excel, podemos obter vários tipos de diagramas circulares
como se exemplifica de seguida.

Causas de morte dos homens em Portugal em 1998

Tumores
malignos
Outros
22%
33%

Suicídio
0%
Aparelho Aparelho
respiratório circulatório
10% 35%

Outra representação pode ser através de um gráfico de barras.

68
Oficina I - Análise Exploratória de Dados

Causas de morte dos homens em Portugal em 1998

40%
35%
30%
25%
20%
15%
10%
5%
0%
Tumores Aparelho Aparelho Suicídio Outros
malignos circulatório respiratório

ou ainda também

35%
30%
25%
20%
15%
10%
5%
0%
Tumores Aparelho Aparelho Suicídio Outros
malignos circulatório respiratório

69

Você também pode gostar