Oficina 1 Teoria

Oficina I - Análise Exploratória de Dados
1. Análise Exploratória de Dados

1.1 De Que Trata a Estatística?
Estatística é a ciência que se ocupa da obtenção de informação

(amostragem, planeamento de experiências), do seu tratamento inicial
(ordenação, cálculo de características amostrais, agrupamento em classes,
representações gráficas – em suma, estatística descritiva e análise
exploratória de dados), com a finalidade de, através de resultados
probabilistas adequados, inferir de uma amostra para a população
(decisão sobre hipóteses, estimação de parâmetros populacionais a partir
das características amostrais relevantes, comparação de populações,
relacionamento de uma variável resposta com variáveis controladas), e
eventualmente prever a evolução futura de um fenómeno (previsão). Por
outras palavras, é um instrumento de leitura da informação, e da sua
transformação em Conhecimento.
“A Estatística é a Ciência que nos guia na tomada de DECISÕES em

SITUAÇÃO DE INCERTEZA”
Dinis Pestana (1998)
Os objectos da Estatística são os dados estatísticos, e o objectivo da

Estatística é obter dados (por observação ou produzindo-os
intencionalmente), descrevê-los, sumariá-los, agrupá-los, organizá-los,
analisá-los e interpretar os resultados dessa análise.
Os dados estatísticos são observações individuais de um ou mais atributos

seleccionadas de uma população:
1
DEFINIÇÃO: População é o conjunto (o universo) de todos os elementos

cujas características (atributos) são objecto de determinado estudo.
Os elementos da população são, em geral, designados por unidades

estatísticas – facto ou entidade elementar que é objecto de observação.
Para se conhecer de forma completa uma população têm que se analisar

todos os seus elementos, ou seja, realizar um censo ou recenseamento.
Os censos mais conhecidos são os demográficos, os últimos foram

realizados em 1991 e 2001, no nosso país. Mas, a obtenção de um censo
pode ser muito dispendiosa e demorada se a população for numerosa, pelo
que nem sempre é uma solução viável.
Na maior parte das vezes o estudo das características de uma população

tem que ser feito sobre um seu subconjunto finito (extraído com uma
metodologia estatística apropriada) que se designa por amostra.
A forma de selecção de uma amostra a partir da população é determinante e

é designada por processo de Amostragem.
Se intervém apenas o acaso e todos os elementos da população têm igual

probabilidade de serem incluídos a amostragem diz-se casual ou aleatória.
Uma amostra aleatória garante, em certo sentido, a representatividade.

Uma amostra é viciada ou enviesada, caso contrário.
Uma amostra mal recolhida (viciada ou enviesada) levará naturalmente a

conclusões e previsões distorcidas.
2
DEFINIÇÃO: Um método de amostragem diz-se enviesado (em inglês

Bias) se os resultados por ele produzidos diferem sistematicamente do que
é observado na população.
EXEMPLO: Nas eleições americanas de 1936, ficou famoso o caso da

previsão feita pela Literary Digest, com base numa sondagem efectuada a
mais de 2 milhões de eleitores (a maior sondagem conduzida até à altura), e
que antevia uma maioria de 57% dos votos para o candidato A. Landon,
que afinal veio a perder contra F. D: Roosevelt (38% vs 62% ,
correspondendo a 16,7 e 27,8 milhões de votos, respectivamente).
A base de dados para a sondagem, que era constituída por listas de telefone
e de proprietários de automóveis, foi enviada por correio a 10 milhões de
eleitores, tendo havido 2,3 milhões de respostas. Note-se que a base de
dados era enviesada a favor dos que tinham telefone ou carro (nessa época
nos EUA apenas uma em cada quatro casas tinha telefone), provavelmente
mais abastados e com maior tendência para votar nos republicanos, e que a
sondagem se baseou em respostas voluntárias (naturalmente os mais
descontentes com a anterior presidência de FDR estariam mais motivados
para responder). A Literary Digest, faliu pouco depois deste episódio.
Na mesma ocasião tinha sido feita uma sondagem muito mais modesta
(apenas 3 mil inquiridos), por G. Gallup, que previa a vitória de FDR, mas
que foi quase ignorada, até serem conhecidos os resultados da eleição…
Existem vários processos de amostragem, iremos referir as técnicas de

amostragem aleatória mais utilizadas.
DEFINIÇÃO: Quando qualquer elemento da população tem igual

probabilidade de ser escolhido estamos na presença da amostragem
aleatória simples.
3
Na prática para se obter uma amostra por esta técnica utiliza-se um

software que gere números pseudo - aleatórios aos quais corresponde um e
um só elemento da população, Caso não se disponha de software adequado
existem tabelas de números pseudo – aleatórios.
A amostragem aleatória simples é o tipo de amostragem mais utilizado

pelo seu rigor científico, uma vez que é suportado pela teoria das
probabilidades.
DEFINIÇÃO: Na amostragem estratificada supomos que a população

está dividida em estratos homogéneos tendo em atenção as características
que se achar importantes para o estudo. A amostra é obtida respeitando a
proporção de cada estrato na população, e dentro de cada estrato é feita
uma amostragem aleatória simples.
EXEMPLO: Se pretendermos obter um estudo demográfico a nível

nacional, e se acharmos que o sexo dos elementos da amostra é relevante,
podemos proceder a uma amostragem aleatória estratificada por sexo.
Segundo o INE, Estatísticas Demográficas, 2001, em Portugal 48.3% da
população residente é do sexo masculino e os restantes 51.7% do sexo
feminino. Assim, após a escolha do número de elementos da amostra que
pretendemos, deveremos respeitar as proporções por sexos, e dentro de
cada grupo (por sexo) a recolha dos elementos da amostra é feita por
amostragem aleatória simples.
DEFINIÇÃO: A amostragem por grupos ou clusters utiliza-se quando

não nos é possível obter uma lista completa dos elementos da população,
mas temos acesso a grupos dessa população que são heterogéneos em
relação à característica em análise, isto é, assume-se que cada grupo
4
espelha o comportamento da população. Neste tipo de amostragem

escolhem-se aleatoriamente os grupos e todos os seus elementos
pertencerão à amostra.
DEFINIÇÃO: Numa amostragem por voluntariado as unidades que

compõem a amostra escolheram fazer parte dessa amostra.
DEFINIÇÃO: Uma amostragem por conveniência consiste em retirar

uma amostra constituída por unidades da população que estão facilmente
acessíveis.
NOTA: Amostragens por conveniência e voluntariado são em geral

enviesadas.
Existem outros processos de amostragem aleatórios e outros não

probabilísticos que não iremos referir neste texto.
Questão: Um determinado programa de televisão resolve fazer a seguinte

sondagem:
Será que as pessoas deveriam poder ter armas de fogo com maior
facilidade?
Se SIM ligue para o 707888000, se NÃO ligue para 707888001. O custo da

chamada é 0,60 cêntimos + IVA.
Será que poderemos considerar os resultados desta sondagem fiáveis?

Explique.
5
Planeamento de Experiências
O planeamento de experiências foi introduzido por Fisher em 1926. O

cerne do planeamento de experiências é delinear uma forma de produzir os
dados mais informativos a mais baixo preço, e a metodologia estatística
apropriada para analisar os dados assim produzidos.
É fundamental decidir o que se vai medir (a variável resposta), quais as

condições (tratamentos) a considerar, e quais as unidades experimentais
que vão ser usadas, e identificar cuidadosamente as fontes de variabilidade.
Desejamos analisar a variabilidade decorrente do nosso planeamento da

experiência (procuramos a variabilidade da variável resposta, como função
das alterações das condições que artificialmente criámos para cada um dos
subgrupos experimentais), mas sabemos que existe também variabilidade
não planeada. Deve-se controlar tudo o que é possível; o que não é possível
controlar, aleatoriza-se.
EXEMPLO: uma experiência sobre o controlo de fogos florestais pode ter

sido excelentemente planeada, mas durante a sua realização o estado do
tempo pode variar, e diferenças significativas que se encontrem tanto
podem dever-se aos “tratamentos” como à variabilidade indesejada da
humidade, ou mesmo da pluviosidade.
O objectivo da estatística é buscar o conhecimento na variabilidade, e o

propósito não é eliminar a variabilidade. O que queremos é eliminar a
variabilidade espúria ou sistemática, por vezes causada por variáveis de
“confounding” (do inglês confounding), que confundem a análise estatística
6
e a sua interpretação. Há sempre a tentativa de eliminar essas variáveis de

“confounding”, mas por vezes os desastres “espreitam”.
EXEMPLO: Na Indústria Farmacêutica, de um modo geral administram-se

diversos tratamentos (por ex diversas dosagens de um medicamento, ou
diversas combinações de diversas dosagens de medicamentos, ou níveis
diferentes de quimioterapia e radioterapia, etc) a diferentes grupos de
doentes, havendo em geral um grupo de controlo ou grupo testemunha a
que é administrado um placebo (um tratamento quimicamente neutro,
administrado só para o doente julgar que está a ser tratado e não haver
efeitos psico-somáticos que alterem posteriormente o sentido da
experiência).
Os diversos grupos são cuidadosamente seleccionados para serem

homogéneos - a situação ideal seria dispor de gémeos, se possível. Mas
como tal é em geral impossível, e não podemos fugir a esta fonte
indesejada de variabilidade, aleatoriamente a constituição dos grupos (o
mecanismo de distribuição dos doentes pelos grupos é controlado pelo
acaso), de forma a torná-la tanto possível irrelevante, por agir
homogeneamente nos diversos grupos.
Variáveis estatísticas
O valor de um atributo de uma população pode variar de elemento para

elemento. Ao observar os valores que essas características assumem (seja
na amostra, seja em toda a população), definem-se em geral variáveis, uma
para cada característica.
7
Variável aleatória (x) é a característica (numérica ou não) que interessa

estudar na população. Os seus valores surgem “por acaso”, de forma
aleatória.
Perante uma amostra de dimensão n (número de elementos da amostra), e
representando-se uma variável por x, tem-se
x1 , x 2 , …, xn
em que xi , (i=1,2,…,n) é o valor da característica observada na i-ésima
unidade estatística.
É muito importante reconhecer a “escala” dos dados, pois condiciona o tipo

de análise que é conveniente, ou possível, fazer:
TIPOS DE VARIÁVEIS
1. Quantitativas: São variáveis que tomam valores numéricos.
1.1 Discretas: Tomam valores inteiros, e associam-se a processos

de contagem.
Nº de filhos por família
Nº de casos novos de SIDA por mês em determinada área
Nº de sementes germinadas (em 100) numa parcela
Nº de colónias bacterianas/cm2
1.2 Contínuas: Podem tomar infinitos valores dentro de um
intervalo.
Idade dum paciente
Albumina (gr/100ml), linfócitos (%), glicose (mg/dl) (variáveis
bioquímicas e analíticas)
Níveis de monóxido de carbono/m3 de ar, temperatura (meio
ambiente)
8
Peso, altura dum indivíduo.

2. Qualitativas: São variáveis que não se podem medir
numericamente, apresentando uma série de k níveis de resposta.
2.1 Nominais: São de carácter e não ordenáveis.

Sexo: “Mulher”, “Homem”
Grupo sanguíneo: “A”, “B”, “AB”, “O”.
Diabético: “Sim”, “Não”
2.2 Ordinais: Os K níveis admitem uma ordem (são também
categorias).
Nível de estudos: “analfabeto”, ”escolaridade obrigatória”, “ensino
secundário”, “ensino superior”
Classe social: “baixa”. “média”, “alta”
Grau de uma lesão: “leve”, “moderada, “grave”
3. Categóricas: São variáveis quantitativas que se categorizam em k

níveis.
Idade: “jovem”, “meia idade”, “idoso”
Níveis de glicose: “<70”, “normais = (70-115)”, “(115-138)”,
“>138”
Chamamos parâmetro a uma característica numérica de uma população,

i.e. característica numérica que interessa conhecer numa variável aleatória.
Exemplos: Valor médio ( µ ), mínimo ( x(1) ), máximo ( x(n) ), amplitude,
variância ( σ 2 ), desvio padrão ( σ ), …
Pretende-se que uma amostra seja representativa da população da qual é

subconjunto, para que ao calcularmos características amostrais estas
9
propiciem uma avaliação dos parâmetros a que correspondem na

população.
Neste contexto,
DEFINIÇÃO: Chamamos estatística a toda a função da amostra, isto é,

uma função que depende apenas dos elementos da amostra (e não dos
parâmetros da população), devendo propiciar uma avaliação dos
parâmetros a que correspondem.
1 n
Exemplos: Média aritmética de uma amostra ( x ), dada por x = ∑x ,
n i =1 i
mediana (Me), moda (Mo), variância ( s 2 ), desvio padrão ( s ), …
O conhecimento estatístico começa com a recolha de dados. A

metodologia apropriada para a obtenção de dados deve garantir a
representatividade, e a variabilidade presente na amostra deve reflectir a
variabilidade da população.
Obtenção dos dados
AMOSTRAGEM
PLANEAMENTO
DE
EXPERIÊNCIAS
Descrição dos dados
ESTATÍSTICA
DESCRITIVA
ANÁLISE
EXPLORATÓRIA
10
Modelação
TEORIA DA
PROBABILIDADE
Indução Prescrutação do futuro
INFERÊNCIA
ESTATÍSTICA PREVISÃO
Em suma, a Estatística é entendida, num sentido lato, como sendo “a

ciência que tem por objecto obter, organizar e analisar dados, determinar as
correlações que apresentem e tirar delas as suas consequências para
descrição e explicação do que passado, prever e organizar o futuro”, como
refere o dicionário da Língua Portuguesa da Porto Editora.
O último propósito da análise estatística, enquadrado na inferência

estatística, é inferir a partir de uma amostra (pequena parte), as
características de uma população (o todo) ou comparar populações e, caso
seja possível, predizer (no sentido mais restrito de atribuir uma
probabilidade) acontecimentos futuros. O acto de predizer ou inferir é
suportado por modelos probabilísticos, isto é, recorrendo à teoria das
probabilidades.
Questão: Considere o seguinte estudo em que se pretende determinar o

número de elementos que vivem numa casa portuguesa. Um total de 1000
11
pessoas foi seleccionado aleatoriamente da população e foi-lhes

questionado sobre o número de pessoas com quem viviam.
A média das respostas foi de 4.6.
• Qual a população em estudo?

• Qual a variável em estudo?
• Qual o parâmetro de interesse?
• Uma média calculada desta forma conduz geralmente a valores mais
elevados que o valor real do número de indivíduos em cada casa
portuguesa. Será que me poderá dizer porquê?
• Para obter um estimador melhor para o parâmetro em estudo, qual a
unidade amostral que se deveria escolher?
EXEMPLO:
Faça uma leitura breve dos dados apresentados na tabela projectada.
Algum sucesso?
Os dados foram obtidos por um investigador interessado em estudar a

diabetes.
O biólogo apurou duas linhagens etiquetadas por A e B, de ratos híbridos
no que se refere a diabetes, ou seja, ratos saudáveis, mas podendo
transmitir a doença aos seus descendentes.
Em seguida, “apadrinhou” cruzamentos entre as duas linhagens, e isolou na
progénie os descendentes diabéticos C.
12
Questão?
Porquê a distinção entre as duas linhagens?
Relativamente a cada rato registaram-se as seguintes variáveis:
• Peso do corpo (g)

• Peso do coração (mg)
• Peso do fígado (mg)
• Peso dos rins (mg)
• Tipo de rato (A, B ou C)
Em resumo, temos 135 observações de ratos de linhagem A, 84 de ratos de

linhagem B e 42 ratos da progénie diabética C.
Diz-se que os diabéticos morrem de fome, no sentido em que têm um

apetite que dificilmente controlam.
Questões?
O que poderemos então esperar neste estudo?

Qual será a hipótese que queremos testar?
Qual a finalidade das variáveis registadas?
EXEMPLO
História de um Sr Reitor…
[…] que porra […]
13
[…] para que porra […]
Também podemos cometer erros com o registo dos nossos dados. Vejamos
novamente o peso dos rins dos ratos de linhagem C.
Questão?
Consegue ver algum problema nestes dados?
A concretização do método experimental obriga à recolha de grandes

quantidades de dados. Não chega coleccionar dados; é fundamental
organizá-los, proceder ao seu tratamento, armazenamento e apresentação.
São estes os objectivos da Estatística Descritiva e da Análise
Exploratória de Dados. (uma visão mais recente, difundida pelo notável
“Exploratory Data Analysis “ de John Tukey (1977), uma disciplina
geralmente referida pela sigla EDA).
Nesta área consideraremos três estratégias interligadas:
• Ordenação dos dados;

• Resumo dos dados através de algumas características amostrais
(nomeadamente de localização e escala);
• Classificação dos dados (agrupamento em classes), e decorrente
representação gráfica, reveladora da forma da distribuição da
população.
Para isso vamos utilizar a Microsoft Excel para implementar as estratégias

anteriores. A opção deste software, que não é direccionado para a
14
Estatística, deve-se ao facto de ser uma ferramenta de fácil acesso, o que já

não acontece com outros softwares.
O EXCEL possui muitas funções para uma análise descritiva de dados.
É possível que não esteja activo “Análise de Dados”. Esta janela NÃO se
instala por defeito.
Activa-se desde Ferramentas\ Suplementos\ Analysis ToolPack
O suplemento Ferramentas para análise contém as técnicas clássicas de

análise estatística.
O Excel é capaz de importar dados de ficheiros de texto da web...

Dispõe de facilidades para editar e agregar dados.
Sites de interesse:
• http://www.ine.pt
• http://www.math.uah.edu/psol/
• http://www.math.uah.edu/stat/
• http://alea-estp.ine.pt
• http://www.peterwebb.co.uk/probability.htm
CUIDADO! Não está contemplada análise de dados agrupados. Esta deve

ser programada adequadamente.
15
Inspecção e Limpeza dos Dados
Antes de qualquer tratamento numérico dos dados e da sua análise deve-se

proceder a uma inspecção dos dados. Aqui, entendemos por inspecção dos
dados à análise que tem por objectivos a detecção de erros ou enganos.
É mais difícil questionar os números que a linguagem corrente. De facto,

numa frase se nos enganarmos na digitação de um caracter facilmente esse
erro é detectado pelo contexto da frase. Quando estamos com números tal
detecção revela-se bem mais difícil e por vezes impossível.
Uma inspecção aos dados é bastante importante para que a análise posterior
não seja “enganada” por dados incorrectos. Existem erros que podem ser
detectados antes da análise estatística.
Um exemplo simples é quando estamos a analisar proporções, isto é,

valores que devem variar entre 0% e 100% e temos observações fora deste
intervalo. Quando tal acontece devemos procurar saber a razão de tal erro e
se possível corrigi-lo.
É evidente que a inspecção dos dados e possíveis correcções devem ser
feitas com os limites do bom senso, sem cairmos em excessos.
Conselho: GUARDE SEMPRE os registos ORIGINAIS para o caso de no

registo informático surgirem dúvidas, e documente sempre
apropriadamente o que está a fazer aos dados.
Outro procedimento que em muitas situações nos ajuda é a ordenação dos

dados. No nosso contexto, apenas estamos interessados na ordenação
16
ascendente ou descendente, não tendo muita relevância outras permutações

dos dados.
A ordenação dos dados pode ajudar à clarificação de padrões e aspectos de

regularidade que de outra maneira não seria possível. Ordenar os dados
torna-os em geral mais facilmente apreensíveis e salienta algumas
características relevantes.
No entanto, deve-se ter em atenção que por vezes os dados em análise têm
uma estrutura sequencial e, se forem ordenados, tal estrutura pode ser
perdida. São exemplos de dados cronológicos: as temperaturas diárias de
uma dada cidade ao longo do ano, etc.
Comecemos por analisar o caso em que os valores de determinada

característica podem ser descritos por uma variável discreta.
Se considerarmos a amostra original x = ( x1 , x2 , x3 ,…, xn ) , a amostra
ordenada de forma ascendente denota-se por
( x1:n , x2:n ,…, xn:n ) ou ( x(1) , x( 2) ,…, x( n) ) .
Chamamos k-ésima estatística ordinal (ascendente) ao elemento x( k )
sendo k a ordem ou rank (ascendente, se nada se disser). Daqui resulta que

o elemento x(1) é o menor valor da amostra, o qual se designa por mínimo,
e que o elemento x( n ) é o maior valor, o qual evidentemente designamos
por máximo.
17
Nas situações em que seja mais útil a ordenação descendente é usual na

literatura a indicação de que o rank indicado é descendente pelas notações
x(′k ) ou x(*k ) .
EXEMPLO:
Se considerarmos a amostra x = ( 5.3, 2.7, − 1.2, 2.1, 4.1)
~
A correspondente amostra ordenada com os respectivos ranks é

′
x5:5 ′
x4:5 ′
x3:5 ′
x2:5 ′
x1:5
−1.2 2.1 2.7 4.1 5.3
x1:5 x2:5 x3:5 x4:5 x5:5
sendo a sua 2ª estatística ordinal (ascendente) o elemento
′ = 2.1 .
x( 2 ) = x2:5 = x4:5
Convenção: Quando falarmos de “ordenar uma amostra” estamos a

referir ordenação ascendente, excepto se explicitamente referirmos
ordenação decrescente.
Hoje em dia os softwares permitem de uma forma rápida e eficaz a

ordenação dos dados.
NO EXCEL: A ordenação é feita seleccionando os registos que se

pretendem ordenar utilizando o comando Ordenar do menu Dados.
EXERCÍCIO: Por simplicidade, vamos considerar os dados

correspondentes ao peso dos 42 ratos diabéticos, progénie do cruzamento
de ratos das linhagens A e B. Considere a variável “Peso do corpo dos ratos
de linhagem C”. Ordene esta amostra.
18
Para o peso dos ratos temos:
x(1) = x( n ) = x( 42 ) =
DISTRIBUIÇÕES DE FREQUÊNCIAS
Na maioria das vezes as amostras têm dimensões elevadas e existem muitos

elementos repetidos. Escrever por extenso todos os elementos de uma
amostra deste tipo seria bastante fastidioso e desnecessário.
Considerando a amostra já ordenada
( 2,3,3,3,6,6,6,6,6,7,7,8,8,9 )
constatamos que apenas temos 6 elementos diferentes mas que surgem

várias vezes. Seria mais simples e mais eficaz dizermos que a amostra é
constituída por 1 observação 2, e 3 observações 3 e assim sucessivamente.
Ao número de vezes que uma observação ocorre numa amostra chama-se

frequência absoluta. De uma forma mais formal: a frequência absoluta da
observação xi denota-se por ni .
Assim podemos “escrever” a amostra anterior num quadro bem mais fácil
de interpretar:
19
I xi ni
1 2 1
2 3 3
3 6 5
4 7 2
5 8 2
6 9 1
A amostra tem apenas 6 observações distintas tendo dimensão 14.
Pensando de uma forma mais geral, se uma amostra de dimensão n tiver k

observações distintas, facilmente se verifica que
k
n = ∑ ni .
i =1
Por exemplo, no quadro anterior obtém-se facilmente que a frequência

absoluta da observação 6 é 5. Só com esta informação podemos afirmar que
esta observação é muito frequente na amostra? Para responder a esta
pergunta teremos de comparar a frequência absoluta com a dimensão da
amostra. Para tal necessidade surge a noção de frequência relativa
(proporção de valores iguais a xi na amostra).
Define-se frequência relativa da observação xi , com i = 1,..., k ao
quociente
ni
fi =
n
sendo muito usual apresentar-se em forma de percentagem
ni
fi = × 100% .
n
20
5
Assim, a frequência relativa da observação 6 é × 100% = 35.71% .
14
A frequência relativa dá uma informação quanto à proporção das

ocorrências de uma observação em relação ao total das observações.
Das frequências absolutas/relativas às frequências absolutas/relativas

acumuladas é um pequeno passo; define-se frequência absoluta
acumulada de xi por
N i = ∑ n j com i , j = 1,..., k
j ≤i
e analogamente, frequência relativa acumulada da observação xi por
Fi = ∑ f j , com i , j = 1,..., k .
j ≤i
A interpretação da frequência absoluta acumulada é intuitiva: N i é o n.º de
observações inferiores ou iguais à observação xi , sendo que a frequência
relativa acumulada Fi , é a percentagem das observações da amostra que
são inferiores ou iguais à observação xi .
Podemos agora completar o quadro anterior com as frequências relativas e

acumuladas.
21
i xi ni N i f i (%) Fi (%)
1 2 1 1 7.14 7.14
2 3 3 4 21.43 28.57
3 6 5 9 35.71 64.29
4 7 2 11 14.29 78.57
5 8 2 13 14.29 92.86
6 9 1 N k = n =14 7.14 Fk =100
Todo o procedimento anterior conduz a uma representação tabular da

distribuição de frequências a que chamamos tabela de frequências.
De uma forma genérica, se tivermos uma amostra chamamos tabela de

frequências a tabela que assume a forma
I xi ni Ni f i (%) Fi (%)
1 x1 n1 N1 f1 F1
. . . . . .
. . . . . .
K xk nk N k = n fk Fk =1(100%)
Totais n 1 (100%)
DEFINIÇÃO: A distribuição de uma variável é o conjunto de possíveis

valores que essa variável toma e qual a frequência com que esses valores
ocorrem. A distribuição de uma variável evidência a variabilidade existente
nessa variável.
22
EXEMPLO: Ao longo de 30 dias registou-se o número de paragens por

dia nos computadores de um centro de cálculo:
1 2 0 3 2 1 1 0 6 1
0 4 0 0 3 1 1 3 0 2
1 1 1 2 1 2 4 0 0 0
Tem-se:
• dimensão da amostra: n=
• menor observação (mínimo): x(1) =
• maior observação (máximo): x( 30 ) =
Construindo a tabela de frequências, tem-se:
NO EXCEL: Utilização da função Frequência
FREQUÊNCIA (matriz_dados;matriz_bin)
Calcula a frequência com que os valores ocorrem num intervalo de valores

e devolve uma matriz vertical de números.
{=Frequência(DADOS!B2:B61,DADOS!G3:G9)}
Utilização da função Contar. Se
{=contar.se(B2:B61,”CHN”)}
EXEMPLO: Considerando novamente a variável “Peso do corpo” no nosso
exemplo dos ratos, construa a tabela de frequências.
23
Agrupamento dos Dados e Representações Gráficas
Existem diversas formas de visualização gráfica das observações mediante

a natureza destas e os objectivos a atingir.
“Um bom gráfico vale mil palavras. Um mau gráfico vale muito mais,
provavelmente, se mau significar deliberadamente enganador, e
estivermos a falar de publicidade…”
Dinis Pestana
Diagrama de barras
O gráfico mais simples que se pode obter a partir de uma amostra é o

diagrama de barras. No diagrama de barras visualizam-se através de
barras verticais as frequências absolutas ou relativas das observações da
amostra, facilitando a comparação dos respectivos valores. Também, mas
menos usual, podem-se construir diagramas de barras com as frequências
acumuladas.
O diagrama de barras apenas é indicado para variáveis discretas ou

categóricas, uma vez que na sua construção apenas são utilizadas as
frequências das observações.
O gráfico de barras é um gráfico utilizado para representar dados discretos

(nº de filhos, …) ou categóricos (estatuto socio-económico, …).
Se tivermos uma amostra das alturas em cm de 100 cidadãos, o diagrama

de barras não é indicado, uma vez que a característica altura tem uma
24
natureza contínua o que levaria a que surgissem muitas alturas exactamente

iguais.
O diagrama de barras é constituído por um sistema de eixos ortogonais em

que no eixo das abcissas coloca-se as observações e a cada observação
corresponde uma barra vertical de altura proporcional à frequência
absoluta.
Consideremos a tabela de frequências do EXEMPLO do número de

paragens por dia nos computadores de um centro de cálculo. Os gráficos de
barras para as frequências absolutas e relativas são os seguintes:
Diagrama de Barras
12
Frequências Absolutas
10
0
0 1 2 3 4 5 6
xi
Diagrama de Barras
35%
30%
Frequências Relativas
25%
20%
15%
10%
5%
0%
0 1 2 3 4 5 6
xi
25
A diferença entre os dois gráficos anteriores é a escala no eixo das

ordenadas, pelo que bastará construir um deles.
NOTA: Também podem ser construídos diagramas de barras horizontais,

mas neste caso as observações são colocadas no eixo das ordenadas.
NO EXCEL: A construção deste tipo de gráfico é bastante fácil utilizando
o EXCEL. Utilizando o assistente de gráficos e seleccionando o tipo de

gráfico de colunas (barras verticais) obtêm-se os gráficos anteriores, ou,
Inserir->Gráfico->Colunas….
O gráfico de barras de frequências relativas acumuladas é o que se segue.
Gráfico de Barras
100%
Freq. Relativas
80%
Acumuladas
60%
40%
20%
0%
0 1 2 3 4 5 6
xi
EXEMPLO: Considerando novamente a variável “Peso do corpo” no nosso
exemplo dos ratos, construa o respectivo diagrama de barras recorrendo ao

EXCEL.
Agrupamento dos dados em classes
Quando a variável x é de tipo contínuo, o processo é um pouco mais

elaborado, uma vez que não faz muito sentido falar em frequências
26
absolutas (e, nem portanto, de relativas) de valores isolados. Neste caso, é

necessário proceder à definição de classes de valores, à contagem das
frequências absolutas e ao cálculo das frequências relativas para cada
classe.
NOTA: Este procedimento é típico no caso de variáveis contínuas, mas

também pode ser aplicado ao caso de variáveis discretas quando estas
assumem um grande número de valores.
NO EXCEL não está contemplada a análise de dados agrupados. Esta

deve ser programada adequadamente.
À medida que o número de observações aumenta, é necessário condensar

ainda mais os dados. Assim, precisamos de organizar os dados em classes.
As regras na construção das classes são muito diversificadas. Em termos

desta unidade curricular, seguir-se-ão as seguintes regras, salvo indicação
em contrário:
• As classes não têm pontos em comum.

• O número de classes é calculado usando a Regra de Sturges:
N = nº de classes = I (log 2 n) + 1
onde a função I(x) representa a parte inteira do número x (relembre
log x
que log 2 x = ).
log 2
• Sempre que possível as classes devem ter igual amplitude
(amplitude de uma classe é a diferença entre o seu limite superior e
o seu limite inferior), definida por:
27
x( n ) − x(1)
h = amplitude da classe =
nº de classes
• Os intervalos são abertos à esquerda e fechados à direita. No entanto,
se necessário, considerar o primeiro intervalo fechado à esquerda e à
direita.
No caso de ser necessário aproximar o valor de h , esta aproximação deve

ser sempre feita por excesso. Este excesso deve ser redistribuído
uniformemente por todas as classes. Assim, teremos que realizar os
seguintes passos:
1. ε = excesso = N * h − ( x( n ) − x(1) ) .
ε
2. A primeira classe deverá começar em x(1) − .
2
ε
3. A última classe deverá terminar em x( n ) + .
2
Cada classe tem um ponto muito importante: o seu ponto médio. O ponto
∗
médio de uma classe xi é a média aritmética dos limites inferior e superior
da classe. Atendendo a que se espera que as observações se distribuam
uniformemente dentro de cada classe, podemos dizer que o ponto médio
xi∗ é o representante lógico da classe i.
Uma vez definidas as classes, as noções anteriores sobre distribuições de

frequências adaptam-se de uma forma directa.
EXEMPLO: De regresso aos ratos:
28
• n = 42
• N = nº de classes = 6
52 − 38
• h = amplitude das classes = = 2.33 2.4
6
• ε = Excesso = 6 × 2.4 − 14 = 0.4
Podemos assim construir a seguinte tabela de frequências:
Intervalo: Ponto
Classe i ∗
ni Ni fi Fi
( xi , xi +1 ] Médio: xi
1 (37.8;40.2]
2 (40.2;42.6]
3 (42.6;45.0]
4 (45.0;47.4]
5 (47.4:49.8]
6 (49.8;52.2]
k k
∑n
i =1
i = 42 ∑f
i =1
i =1
Os procedimentos expostos até aqui foram no sentido de que se tivermos

uma amostra de grande dimensão então devemos agrupar os dados.
Através da tabela de frequências anterior podemos obter representações

gráficas a que chamamos histogramas.
O histograma é a representação gráfica mais utilizada na presença de dados

agrupados. Consiste num gráfico formado por rectângulos justapostos (um
29
para cada classe), em que a base é igual à amplitude da classe e altura

proporcional à frequência absoluta.
Por vezes também é representado o polígono de frequências, unindo os

pontos médios do topo dos rectângulos e, “fechando” a linha poligonal
assim obtida assentando-a em pontos do eixo Ox a uma distância igual a
metade da amplitude da classe adjacente.
A ogiva ou polígono de frequências acumuladas é um gráfico mais

global em que figura as frequências relativas acumuladas.
EXEMPLO: Novamente o exemplo dos ratos…
Intervalo: Ponto
Classe i ∗
ni Ni fi Fi
( xi , xi +1 ] Médio: xi
12
12
1 (37.8;40.2] 39 12 12 42
42
8
2 (40.2;42.6] 41.4 8 20 42
20
42
8
3 (42.6;45.0] 43.8 8 28 28
42
42
4 (45.0;47.4] 46.2 4 32 4
32
42
42
5 (47.4:49.8] 48.6 6 38 6
38
42
6 (49.8;52.2] 51 4 42 42
4
42
1
k k
∑n
i =1
i = 42 ∑f
i =1
i =1
Com a tabela anterior obtemos facilmente o histograma das frequências

relativas, o polígono de frequências e a ogiva, como se segue.
30
Procedimento a seguir no Excel:
Ferramentas>análise de dados…->histograma
NOTA: Assim obtém-se um histograma recorrendo a Análise de Dados, do

Excel. Esta ferramenta permite obter um histograma com base apenas nas
observações, mas também caso o utilizador prefira, pode introduzir os
limites das classes a construir. Esta ferramenta apenas pode ser utilizada
quando temos todos os elementos da amostra.
Histograma/Polígono de Frequências/Ogiva
50
45
40
35
Frequência
30
25
20
15
10
5
0
]37,8;40,2] ]40,2;42,6] ]42,6;45,0] ]45,0;47,4] ]47,4;49,8] ]49,8;52,2]
Medidas de localização e de dispersão
Sempre que temos um conjunto de dados e os pretendemos analisar para

tirar algumas conclusões resumimos a informação neles contida através de
algumas características amostrais. Estas características são numéricas
possibilitando fazer comparações, traçar padrões, etc.
O objectivo das características amostrais é obter estimativas para os

respectivos parâmetros da população. Procuramos fazer analogias entre as
31
características amostrais com os parâmetros da população que geralmente

são desconhecidos.
A necessidade de parâmetros é evidente nos nossos dias: a análise

económica de um país ou região é quase na sua totalidade feita com base
em parâmetros observados ou estimados.
A característica amostral de localização mais usada e de mais fácil

interpretação é certamente a média amostral.
Se considerarmos uma amostra de dimensão n, x = ( x1 , x2 , x3 ,…, xn ) ,
define-se a média amostral por

1 n
x = ∑ xi
n i =1
e pode ser entendida como um ponto de equilíbrio das observações, e por
isso é a medida de localização por excelência. A média serve como
indicador privilegiado, pois resume num único valor todos os dados.
A média amostral pode ser calculada no Excel através da função MÉDIA.
EXEMPLO: Uma empresa pretende saber qual o salário médio dos seus
empregados. Obteve-se uma lista dos vencimentos em unidades monetárias
(u.m.) pagos no mês anterior
80, 121, 75, 85, 90, 80, 110.
Assim o vencimento médio de um emprego é dado por
32
80 + 121 + 75 + 85 + 90 + 80 + 110
vencimentomédio = = 91.57 u.m.
7
Se num certo contexto, apenas estamos interessados na média, é porque

supomos que as observações oscilam pouco em torno de um certo valor.
Isto quer dizer que entendemos as observações como perturbações em

torno da média e que essas perturbações são pequenas.
Estas suposições formalizam-se da seguinte forma

xi = x + ri
onde ri é o resíduo (ou perturbação) da observação i.
Também é evidente que várias amostras podem ter a mesma média embora
tenham estruturas subjacentes diversas.
EXEMPLO: Vejamos as três amostras x , y e z que têm a mesma média,
x = y = z = 10 (verifique).
x = ( 3,9,7,15,12,19,4,11)
y = (10,11,8,10,11,12,9,9 )
z = (10,10,10,10,10,10,10,10 )
mas no entanto, podemos facilmente constatar que as observações da

amostra y estão menos dispersas que na amostra x , e a amostra z é
constante.
33
NOTA: Principal Desvantagem da MÉDIA é a GRANDE sensibilidade

a valores extremos. Dizemos que a média é uma medida POUCO
RESISTENTE.
Com este exemplo muito simples sentimos a necessidade de obter um

indicador da dispersão das observações. Uma ideia natural é definirmos um
desvio global da amostra em relação a um valor central, por exemplo a
média. Este desvio global podia ser calculado por
n
∑( x − x )
i =1
i
mas
n n n
∑( x − x ) = ∑ x − ∑ x
i =1
i
i =1
i
i =1
n
= ∑ xi − nx
i =1
n
1 n
= ∑ xi − n ∑ xi = 0
i =1 n i=1
o que não releva interesse. Assim, uma solução será somarmos não os
desvios mas sim os seus quadrados,
∑( x − x )
2
i .
i =1
Desta forma surge uma característica amostral de dispersão (ou escala) a

que chamamos variância amostral.
34
1 n
var ( x ) = s = ∑ i ( )
2
2
x x − x .
n − 1 i =1
Caso não estejamos na presença de uma amostra, mas com a totalidade dos
elementos da população a variância da população é obtida por
1 n
= ∑ ( xi − x ) .
2
varPopulação
n i =1
A variância amostral pode ser calculada no Excel através da função VAR
Calculemos as variâncias amostrais das amostras
x = ( 3,9,7,15,12,19,4,11) , y = (10,11,8,10,11,12,9,9 ) e
z = (10,10,10,10,10,10,10,10 )
Utilizando uma folha de cálculo ou uma calculadora obtemos a

confirmação numérica de que as observações da amostra x estão mais
~
dispersas do que as observações da amostra y uma vez que temos
sx2 = 29.429 e s y2 = 1.714 .
Obviamente que s z = 0 .
2
Outra medida de dispersão possível, mas menos utilizada é o desvio

1 n
absoluto médio dado por ∑ xi − x .
n i =1
35
Se estivermos a analisar o preço de um certo produto de vários

fornecedores expressos em euros, €, a média e os desvios são expressos na
mesma unidade. No entanto, como a variância é uma média dos quadrados
dos desvios vem expressa em euros ao quadrado, € 2 . Este facto não facilita
uma boa leitura dos resultados. Para voltarmos às unidades originais
teremos de aplicar uma raiz quadrada. À raiz quadrada da variância
amostral chamamos desvio padrão amostral.
1 n
sx = var ( x ) = ∑ i ( )
2
x − x .
n − 1 i =1
O desvio padrão amostral pode ser calculado no Excel através da função

DESVPAD.
De forma análoga obtemos o desvio padrão da população.
Assim, já faz sentido em falar em x + s e x − s , visto terem a mesma

unidade, que como veremos são grandezas com interesse. Por vezes temos
conveniência em trabalhar com observações padronizadas ou
estandardizadas.
Para tal, consideramos a seguinte transformação:
xi − x
zi =
sx
QUESTÃO: Qual o efeito da transformação na amostra dos zi ?
36
NOTA: Através da padronização é possível comparar variáveis

originalmente em escalas díspares.
O cálculo da variância pela fórmula anterior pode ser bastante enfadonho,

mas se procedermos a alguns cálculos algébricos obtemos uma expressão
bem mais fácil de manejar.
( xi − x )
2
De facto, atendendo a que = xi2 − 2 xxi + x 2 e usando a
linearidade dos somatórios mostra-se facilmente que
n
∑x 2
i − nx 2
s2 = i =1
.
n −1
Repare que a expressão anterior é mais prática de utilizar uma vez que
basta calcular os somatórios ∑x e ∑xi

2
i para a obtenção do resultado.
Até aqui estudámos a média e a variância amostrais, a primeira como

medida de localização central das observações e a segunda como indicador
da dispersão dos mesmos; no entanto, existem muitas mais características
amostrais com interesse.
Uma outra medida de localização que rivaliza ou complementa a média é a

mediana que denotamos por M e ou Med .
No conceito de mediana está suposto que a amostra está ordenada, e que o

valor da mediana é o valor central dessa amostra ordenada.
Desta forma, usando a notação das estatísticas ordinais podemos definir a

mediana da seguinte forma
37
 x n+1  se n é ímpar
  2 

Med =  x n + x n .
   
  2   +1
2 
 se n é par
2
A mediana sendo um valor central da amostra garante que 50% das

observações são-lhe inferiores ou iguais, restando os outros 50% que lhe
são superiores ou iguais.
A mediana amostral pode ser calculada no Excel através da função MED.
Com vista à determinação do valor de uma contribuição social a atribuir

por filho, pretende-se saber qual é o número mediano de filhos de cada
agregado familiar com base numa amostra obtida num país africano. A
amostra obtida é
3, 6, 4, 2, 8, 7, 6, 4, 5, 8, 6.
Para a determinação da mediana da amostra devemos em primeiro lugar

ordenar a amostra (de forma ascendente)
2, 3, 4, 4, 5, 6 , 6, 6, 7, 8, 8
Med
agora como a dimensão da amostra é ímpar, n = 11 , a mediana é a

estatística ordinal x( 6 )
Med = x 11+1  = x( 6) = 6 .
 
 2 
38
Imaginemos que nos tínhamos esquecido de colocar um dado, uma família

com 3 filhos. A nova amostra ordenada com mais esta observação é
2, 3, 3, 4, 4, 5, 6, 6, 6, 7, 8, 8
tendo agora dimensão 12 (par). A mediana neste caso é a média aritmética

das duas observações centrais, x( 6 ) e x( 7 )
2, 3, 3, 4, 4, 5, 6, 6, 6, 7, 8, 8
5+6
=5.5
2
x( 6) + x( 7 )
isto é, Med = = 5.5
2
A média e a mediana diferem no que respeita à sensibilidade, isto é, a

média amostral é mais sensível à variação dos elementos da amostra do que
a mediana. Por isso, diz-se que a mediana é mais resistente que a média
amostral.
Uma outra medida de localização utilizada é a moda. Numa amostra, à

observação mais frequente chamamos moda e denotamos por M 0 ou
Mod .
A moda amostral pode ser calculada no Excel através da função MODA
As medidas de localização e de dispersão já referidas por vezes não

satisfazem as necessidades de certos problemas que se nos põem. Se
pensarmos que se pretende construir um muro junto a um rio, estamos
39
interessados em saber a altura máxima que o rio atinge e não tanto a altura
média. Neste contexto, estamos mais interessados no conceito de
localização extremal do que localização central.
Na situação anterior estaríamos interessados no máximo da amostra, isto é

na estatística ordinal x( n ) , noutras situações podemos preferir o mínimo
x(1) .
Estas duas grandezas são entendidas como medidas de localização

extremal, pois indicam os extremos do fenómeno em estudo.
O máximo e o mínimo amostrais podem ser calculados no Excel através

das funções MÁXIMO e MÍNIMO, respectivamente.
À diferença entre o máximo e o mínimo chamamos amplitude amostral R
R = x( n ) − x(1) .
No seguimento do significado da mediana podemos definir outros

conceitos que nos permitiriam afirmar que uma certa percentagem de
observações são inferiores a um certo valor. Daqui surge a noção de
quantil.
Definimos quantil de probabilidade α da seguinte forma
 x(α n ) se α n inteiro
Qα = 
 x([α n]+1) se α n não inteiro
40
Nota: [ x ] é a característica de x, isto é, o maior inteiro que lhe é inferior
ou igual.
Os quantis são características amostrais de localização, pois α % dos

elementos da amostra são menores ou iguais a Qα .
São casos particulares dos quantis os quartis, decis e os percentis.
O 1º quartil tem à sua esquerda 25% dos elementos da amostra enquanto

que o 3º quartil tem 75% da amostra. A mediana é considerada geralmente
o 2º quartil embora possa haver alguma diferença pouco significativa com a
definição já dada.
Os quartis amostrais podem ser calculados no EXCEL através da função

QUARTIL (e dividem a distribuição de frequências em quatro partes
iguais).
Os decis amostrais podem ser calculados no EXCEL através da função

QUARTIL (e dividem a distribuição de frequências em dez partes
iguais).
Os percentis amostrais podem ser calculados no EXCEL através da

função PERCENTIL (e dividem a distribuição de frequências em cem
partes iguais).
Coeficientes de variação, assimetria e de achatamento.
41
Se quisermos comparar a dispersão de 2 amostras, uma com as cotações na

bolsa de uma empresa e outra com o número de títulos transaccionados,
não bastará a comparação numérica das variâncias ou dos desvios padrão
uma vez que as quantidades em estudo têm grandezas diferentes.
Para de alguma forma solucionar o problema anterior surge o conceito de

coeficiente de variação amostral dado por
s
CV = × 100%
x
O CV relativiza o desvio padrão amostral em termos da média. O

coeficiente de variação tem a vantagem de ser uma grandeza adimensional,
o que possibilita a comparação da dispersão entre amostras com diferentes
grandezas.
• O CV permite comparação entre duas ou mais distribuições.
• O CV é interpretado como a fracção da dispersão (desvio padrão)

por que a localização (média) é responsável.
São úteis as noções: momento empírico de ordem k e momento empírico

centrado de ordem k.
O momento empírico de ordem k é dado por

1 n k
mk′ = ∑ xi
n i =1
enquanto que o momento empírico centrado de ordem k é dado por
42
1 n
mk = ∑ ( xi − x ) .
k
n i =1
Facilmente verificamos as igualdades

n −1 2
m1′ = x e m2 = s .
n
É com base no conceito de momento empírico que definimos dois

coeficientes que medem a assimetria e o achatamento de uma amostra.
O coeficiente de assimetria amostral (skewness) é dado por
n2 m3
g1 = .
( )(
n − 1 n − 2 ) m2 3
m3
Repare que para grandes amostras, isto é n elevado, temos que g1 ≈ 3
.
s
É de esperar que, se o modelo subjacente à amostra for simétrico, g1 seja
nulo. Quanto ao coeficiente de assimetria podemos dizer que se
• g1 > 0 a amostra tem uma distribuição assimétrica positiva ou

enviesada à esquerda (na representação gráfica das frequências haverá
tendência a um acumular de frequências para o lado esquerdo do
gráfico).
• g1 = 0 a amostra tem uma distribuição simétrica
• g1 < 0 a amostra tem uma distribuição assimétrica negativa ou
enviesada à direita (na representação gráfica das frequências haverá
tendência a um acumular de frequências para o lado direito do
gráfico).
43
0,18 0,18
0,16 0,16
0,45
0,14 0,14
0,4
0,12 0,12
0,35
0,1 0,3 0,1
0,08 0,25 0,08
0,06 0,2
0,06
0,15
0,04 0,04
0,1
0,02 0,02
0,05
0 0 0
0 5 10 15 20 -4 -3 -2 -1 0 1 2 3 4 0 5 10 15 20
g1 > 0 g1 = 0 g1 < 0
Quando estamos na presença de uma distribuição dos dados simétrica a

média, mediana e moda têm valores muito próximos: x = Med = Mod
Fazendo a comparação destes valores pode-se fazer uma primeira análise
da assimetria da amostra, isto é, a assimetria pode ser classificada mediante
o estudo relativo da média, moda e mediana:
Assim:
• g1 > 0 a amostra tem uma distribuição assimétrica positiva, então

Mod < Med < x
• g1 < 0 a amostra tem uma distribuição assimétrica negativa, então
x < Med < Mod
O coeficiente de assimetria amostral pode ser calculado no Excel através da

função DISTORÇÃO
O coeficiente de Pearson é outro coeficiente para estimar o grau de

x − M0
simetria de uma distribuição, neste caso é dado por g = . A leitura
s
deste coeficiente é análoga a g1 .
O coeficiente de achatamento amostral (ou curtose amostral) é dado por
44
n 2 ( n + 1) ( n − 1) .
2
m
g2 = ⋅ 42 − 3 ⋅
( n − 1)( n − 2 )( n − 3) m2 ( n − 2 )( n − 3)
De uma forma geral, e para grandes amostras, o valor de g 2 é muito
próximo de
m4
g2 = −3
m2 2
sendo esta a expressão mais utilizada na prática.
O coeficiente de achatamento tem como objectivo quantificar o

achatamento da distribuição dos dados, ou melhor, a intensidade das
observações em torno dos valores centrais. Para se fazer esta análise temos
de ter algo para fazer comparações, isto é, saber se é muito ou pouco
achatada. Para termo de comparação utiliza-se uma curva, que como
veremos é muito utilizada em Estatística, chamada de curva Normal.
A análise do coeficiente de achatamento tem importância quando se

concluiu através do coeficiente de assimetria que os dados apresentam uma
distribuição de frequências simétrica, caso contrário a análise não deve ser
feita, pois a curva que serve para comparação (a curva Normal) é simétrica.
A função do Excel que dá um valor para curtose amostral é CURTOSE.
45
Se
• g 2 > 0 a distribuição é leptocúrtica (os dados estão
concentrados no centro, pelo que a distribuição apresenta um forte pico no
centro).
• g 2 < 0 a distribuição é platocúrtica (os dados estão dispersos,
pelo que a distribuição é mais achatada no centro e caudas pesadas).
• g 2 = 0 a distribuição é mesocúrtica (para o caso da distribuição
Normal).
0,9
0,8
0,7
0,6
0,5 Mesocúrtica
Leptocúrtica
0,4 Platocúrtica
0,3
0,2
0,1
0
-4 -2 0 2 4
Tabelas de frequências e redefinições de algumas

características amostrais
Por vezes os dados são fornecidos já na forma de tabelas de frequências,

sendo portanto importante vermos como podemos reescrever as
características amostrais através das frequências dadas.
46
O quadro seguinte resume as principais características amostrais

escritas recorrendo a uma tabela de frequências.
Características
Expressão
Amostrais
1 k k
x x = ∑ xi ni = ∑ xi fi
n i =1 i =1
1 k n k
∑ ( xi − x ) ni = ∑ fi ( xi − x )
2 2
2
s
n − 1 i =1 n − 1 i=1
1 k k
∑ ( xi − x ) ni = ∑ ( xi − x ) fi
p p
mp
n i =1 i =1
Com a tabela de frequências podemos calcular facilmente as

principais características amostrais com recurso ao Excel.
Características amostrais em dados agrupados
Por vezes os dados já nos são fornecidos agrupados, não sendo portanto
possível aceder aos dados originais. Nesta situação, dada uma tabela de
47
frequências como poderemos obter as características amostrais, tais como,

por exemplo a média, variância, etc.?
A obtenção de parâmetros amostrais em dados agrupados baseia-se no

pressuposto de que as observações distribuem-se uniformemente dentro de
cada classe.
Assim, o ponto médio de cada classe vai representar cada uma das
observações da respectiva classe.
Dado isto, temos de rescrever as características amostrais mais relevantes

em função dos pontos médios xi′ e não das observações (desconhecidas)
xi .
Na tabela seguinte apresentam-se algumas características amostrais para

dados agrupados, supondo que temos L classes e uma amostra com n
observações.
Características
Amostrais Expressão
Agrupadas
1 L L
x ∑
n i =1
xi ni = ∑ xi′ fi
′
i =1
1 L n L
∑ ( xi′ − x ) ni = ∑ fi ( xi′ − x )
2 2
2
s
n − 1 i =1 n − 1 i =1
1 L L
∑ i ( ) ∑ i ( )
p p
mp x ′ − x ni = x ′ − x fi
n i =1 i =1
48
Chamamos classe modal à classe com maior frequência absoluta/relativa e

classe mediana à classe que contenha a mediana da amostra.
A obtenção da classe modal é fácil, basta uma constatação na tabela de

frequências. Para a classe mediana temos de atender às frequências
relativas acumuladas, sendo a classe mediana a primeira classe com
Fi ≥ 50% .
Existem métodos para a obtenção de valores numéricos tanto para a moda

como para a mediana em dados agrupados.
EXEMPLO DOS RATOS: A classe modal é ]37.8, 40.2] , visto ser
aquela que tem uma maior frequência. A determinação da classe mediana

implica a observação das frequências relativas acumuladas: a classe
]42.6, 45.0] tem F1 = 66.66% , sendo este valor superior a 50%: é esta a
classe mediana.
Supondo que apenas nos era dada a tabela de frequências, podemos

calcular algumas características amostrais a partir dos dados agrupados.
Numa folha de cálculo a tarefa do cálculo das medidas amostrais com os

dados agrupados torna-se bem mais fácil.
49
Apresentam-se as fórmulas que se utilizaram nos cálculos, embora estes

possam ser efectuados, porventura de outras formas. No entanto, este modo
parece-nos mais fácil e evidencia a forma como cada parâmetro é
calculado.
Neste caso, uma vez que possuímos os dados reais poderíamos fazer
comparações entre os parâmetros calculados com todos os dados e os
obtidos através dos dados agrupados, fazendo desta forma uma análise
sobre a qualidade do agrupamento.
Parece evidente que se um dado agrupamento dos dados for bom, produz
parâmetros amostrais muito próximos dos parâmetros que se obteriam com
os dados originais. Estando os dados disponíveis, dever-se-á fazer uma
comparação dos parâmetros de forma a validar as classes construídas.
50
Diagrama de caule - e - folhas
Quando precisamos de ordenar números sem apoio computacional, usamos

em geral o algoritmo de construção do diagrama de caule-e-folhas
(steam-and-leaf).
NOTA: O estatístico que inventou este tipo de diagramas foi Tuckey.
O diagrama de caule-e-folhas para além de organizar a amostra contribui

para revelar a forma da distribuição subjacente à amostra. Os dados são
dispostos ordenadamente por linhas, em número compatível com a
dimensão da amostra, dando-nos uma boa visualização da maneira como os
dados se distribuem.
Comparar amostras, esperando que dêem indicações sobre a população de

que foram extraídas, é uma das tarefas mais usuais em Estatística.
Os diagramas de caule-e-folhas paralelos dão uma intuição visual da

localização, escala e forma da distribuição subjacente aos nossos dados,
pelo que, são um instrumento apropriado para uma exploração inicial dos
dados, embora com algumas limitações.
EXEMPLO DOS RATOS: Ordena-se o peso dos ratos. Divide-se cada

observação em duas partes, um “caule” uma “folha”- o primeiro valor, 40,
é dividido como 4 | 0.
O primeiro passo é ir ordenando os caules, e pendurar em cada caule as

diversas folhas que lhe pertencem. Na ordenação dos pesos dos corpos dos
ratos, neste primeiro passo:
51
4 | 065637
e nesta fase torna-se necessário considerar o caule 5 para prosseguir:
4 065637
e logo em seguida torna-se necessário considerar o caule 3
5 2
para acomodar o valor 39:
3 9
4 065637 .
5 2
Prosseguindo até ao fim da amostra, obtém-se a ordenação parcial
3 98988888
4 065637522401215892890628480415 .
5 2112
Basta agora, no segundo passo, ordenar as folhas de cada caule:
3 88888899
4 000011122222344455556667888899 .
5 1122
É habitual completar a informação do gráfico acima, denominado diagrama

de caule-e-folhas, indicando por cima a dimensão da amostra (neste caso
n=42) e a potência de 10 por que deve ser multiplicado o caule para refazer
1
a observação da amostra (neste caso, 10 , indicando por exemplo que o
1 0
primeiro valor 3 | 8 representa 3 x 10 + 8 x 10 =38). Assim, neste caso
teríamos
52
42; 101
3 88888899
4 000011122222344455556667888899
5 1122
A ordenação das folhas dentro de cada caule foi trabalhosa, porque havia
muitas associadas ao caule 4. Por isso poderíamos ter optado, após simples
1
inspecção dos dados, por considerar “semicaules” de amplitude × 101 , e
2
pendurar as folhas 0,1,2,3,4 no primeiro, e as folhas 5,6,7,8,9 no segundo.
"∗"
Para guiar a vista, é bom usar o diacrítico para assinalar o segundo
semicaule.
Neste caso o primeiro passo levaria a
1
42; × 101
2
3∗ 98988888
4 0322401212024041
4∗ 65675589896885
5 2112
E o segundo passo levaria a
1
42; × 101
2
3∗ 88888899
4 0000111222223444
4∗ 55556667888899
5 1122
53
∗
NOTA: Repare que as classes (caules) 3 e 5 não estão representadas no
diagrama de caule e folhas. Como não contêm elementos, estas são as
únicas classes que podem ser eliminadas. NUNCA elimine classes vazias
no meio do diagrama.
Poderíamos ter ido mais longe, e dividido cada caule em 5 subcaules (desta
1
vez de amplitude × 101 ), correspondendo às folhas 0 e 1, 2 e 3, 4 e 5, 6 e
5
7, e 8 e 9 respectivamente.
Os diacríticos usados para estes subcaules são “o” para o que suporta 0 e 1,
“t” para o que suporta 2 e 3 (two and three), “f” para o que suporta 4 e 5
"∗"
(four and five), “s” para o que suporta 6 e 7 (six and seven), e para o
último, suportando as folhas 8 e 9. No nosso exemplo o primeiro passo
levaria a
1
42; × 101
5
3∗ 98988888
4º 0011001
4t 322222
4 f 5545445
4 s 6676
4∗ 898988
5º 11
5t 22
e o segundo passo leva a
54
1
42; × 101
5
3∗ 98888889
4º 0000111
4t 222223
4 f 4445555
4 s 6667
4∗ 888899
5º 11
5t 22
Desta vez deu muito menos trabalho ordenar as folhas – mas em

compensação foi mais moroso arrumar os caules.
Há que conseguir um equilíbrio entre o trabalho da primeira e o da segunda

fase. Por outro lado, se bem que a intenção fosse ordenar os dados,
obtivemos também como subproduto uma representação gráfica, que se
espera que seja reveladora da forma da distribuição da população de que foi
retirada a amostra – e também por isso a escolha do número de classes não
é irrelevante: não devem ser demais nem de menos. Podemos recorrer à
regra de Sturges para termos um conselho sobre qual um número aceitável.
EXEMPLO: Considere agora o peso dos rins dos ratos diabéticos.

Construa o respectivo diagrama de caule-e-folhas.
A amostra ordenada é:
55
885 895 900 900 910 915 925

925 925 930 965 990 995 1000
1000 1010 1010 1020 1020 1040 1060
1070 1070 1085 1110 1110 1130 1140
1140 1145 1160 1160 1200 1200 1210
1210 1215 1220 1250 1250 1275 1325
Depois de ordenada amostra, torna-se evidente se um elemento está mais “à

superfície”, perto dos extremos – o mínimo e o máximo ou mais “em
profundidade”, na zona central da amostra ordenada. Isto leva-nos a definir
a profundidade de cada observação:
Definição: Profundidade de um elemento é o número de elementos, na

amostra ordenada, desde esse (incluído) ao extremo de que está mais
próximo (também incluído).
Definição: Profundidade de uma linha de um diagrama de caule-e-folhas é

a profundidade máxima atingida nessa linha.
Assim, no exemplo anterior, a profundidade de 965 é 11, a profundidade de

895 é 2, a profundidade de 1220 é 5; o mínimo e o máximo têm sempre
profundidade 1. A profundidade de 1250 – se for o “maior” dos 1250 (note
que os valores registados são aproximações, discretizações de variáveis
conceptualmente contínuas) é 3, se for o menor é 4; caso não saiba, o
melhor é atribuir a ambos a “profundidade média” 3,5.
A profundidade máxima que se pode atingir numa amostra de dimensão n

n +1
é .
2
56
O elemento de profundidade máxima é chamado mediana, e denotado por

M. A mediana M é então o elemento que está a meio da amostra ordenada,
há tantos elementos entre o mínimo e a mediana quantos entre a mediana e
o máximo. Por outras palavras, 50% dos elementos são ≤ M , e 50% dos
elementos são ≥ M .
EXEMPLO: Dada a amostra já ordenada
( 2.3, 4.5,6.7,6.8,7.3,9.4,11.6 )
7 +1
n = 7 e prof ( M ) = = 4 , assim a mediana é 6.8.
2
EXEMPLO: Dada a amostra já ordenada
( 5.4,6.2,6.6,6.8,7.2,9.5)
6 +1
n = 6 e prof ( M ) = = 3,5 .
2
Neste caso interpretamos a fracção 0,5 numa indicação que devemos fazer
interpolação de peso 0,5 entre os dois elementos de profundidade 3, os dois
elementos mais profundos daquela amostra. Assim,
6,6 + 6,8
M = 0,5 × 6,6 + 0,5 × 6,8 = = 6,7 ,
2
a média aritmética dos dois elementos centrais que existem numa amostra
de dimensão par.
Nota: Se a profundidade de um elemento não for um número inteiro, então

fazemos a interpolação de peso 0,5 entre os dois elementos da amostra mais
próximos desta profundidade.
57
Nota: A soma dos 3 valores centrais (profundidade das linhas acima e

abaixo da linha em que se situa a mediana mais o número de elementos na
classe da mediana) num diagrama de caule-e-folhas é igual à dimensão n
da amostra.
Nota: A profundidade das linhas acima da linha onde está a mediana é feita
de cima para baixo e da esquerda para a direita. O inverso para as linhas
abaixo da mediana.
No exemplo do peso dos rins dos ratos, n = 42 donde prof ( M ) = 21,5 .

Então, como os dois elementos de profundidade 21 são 1060 e 1070, vem
1060 + 1070
M= = 1065 .
2
Como a pesquisa da profundidade dos elementos de uma amostra é um

elemento importante de informação e é frequentemente necessária, é usual
escrever a profundidade das linhas do diagrama de caule-e-folhas à
esquerda de cada linha. No caso da linha mediana isso não tem interesse,
n +1
pois já se sabe que nessa linha a profundidade que se atinge é . Por
2
isso se regista, entre parênteses, é o número de elementos nessa linha. No
exemplo do peso dos rins dos ratos:
58
1
42; × 102
2
2 8∗ 89
10 9 00112223
13 9∗ 699
20 10 0011224
(4) 10∗ 6778
18 11 113444
12 11∗ 66
10 12 001112
4 12∗ 557
1 13 2
(e note que 20 + 4 + 18 = 42 = n , pois é a soma do número de elementos

anteriores aos da linha da mediana com o número de elementos posteriores
aos da linha da mediana). Observe que na atribuição de profundidades,
antes da linha da mediana se conta da esquerda para a direita e de cima para
baixo, e depois da linha da mediana se conta da direita para a esquerda e de
baixo para cima.
Se não temos acesso à amostra original, mas apenas temos informação de

como esta se distribui por classes (tabela de frequências, histograma)
podemos, a partir da profundidade de um elemento, calcular o seu valor
aproximado.
59
Amostra ordenada e letras-resumo
Dividindo cada uma das metades da amostra ordenada ao meio

encontramos os quartos, ou quartais, que são habitualmente denominados
por FL e FU (do inglês “Lower Fourth” e “Upper Fourth”), e dividindo
depois ao meio cada uma das caudas de aproximadamente 25%, das

subamostras extremas que ficam assim definidas, obtemos os oitavos ou
octais, denotados por EL e EU (do inglês “Lower Eighth” e “Upper
Eighth”).
Depois, continuando o processo, obtemos os hexadecais DL e DU , e
depois CL e CU , …, e se for necessário “enrolamos” o alfabeto e temos
Z L e ZU , YL e YU , etc.
Por serem marcadas com letras, estas “estatísticas ordinais” que vão
avançando nas caudas das amostras, apontando para os valores a uma
1
profundidade da ordem são denominadas letras-resumo.
2k
O máximo e o mínimo são representados pelo número 1 e não por uma

letra.
n +1
Definição: Sabemos que a prof ( M ) = . Podemos definir a
2
profundidade de uma letra-resumo por:
60
I ( prof ( letra − resumo anterior ) ) + 1

prof (letra − resumo) =
2
onde I ( x ) representa a parte inteira de x .
EXEMPLO: Calcule as letras-resumo para o peso dos rins dos ratos da

linhagem C.
42 + 1
Temos n = 42 , e portanto prof ( M ) = = 21,5 , prof ( F ) = 11,
2
prof ( E ) = 6 , prof ( D) = 3,5 , prof (C ) = 2 , prof ( B ) = 1,5 e
prof ( A) = 1 (muitos autores preferem a etiqueta “1” a uma letra para os

extremos da amostra).
As letras-resumo dispõem-se então numa caixa rectangular, chamada,

naturalmente, caixa de letras-resumo, em que também se indicam a
dimensão da amostra e a profundidade das letras em cada linha.
Neste exemplo podemos dispor esta informação na caixa:
Caixa com L − R
42 M 1065 21,5
F 965 1160 11
E 915 1215 6
D 900 1250 3.5
C 895 1275 2
B 890 1300 1.5
1 885 1325 1
61
Por vezes registam-se também as “letras-médias” em coluna, por baixo da

mediana:
Caixa com L − R
42 M 1065 21,5
F 965 1062.5 1160 11
E 915 1065 1215 6
D 900 1075 1250 3.5
C 895 1085 1275 2
B 890 1095 1300 1.5
1 885 1105 1325 1
que neste caso revelam um resvalar para a direita, que a amostra tem uma
cauda direita mais comprida do que a esquerda, e ficamos assim a suspeitar
que o modelo adequado deve ter assimetria direita.
As letras-médias de uma amostra proveniente de uma população simétrica

devem ser simples perturbações amostrais da mediana, enquanto se a
população tiver assimetria direita é de esperar um padrão consistente de
letras-médias cada vez maiores, e se tiver assimetria à esquerda é de
esperar um padrão de letras-médias decrescentes.
Uma caixa com 5 letras resumo, mediana, quartos e extremos, é quase

sempre suficiente para uma primeira ideia, naturalmente vaga, sobre a
forma da população de que foi extraída.
62
Caixa com 5 L − R
n M M prof ( M )
F FL FU prof ( F )
1 x(1) x( n ) 1
dF = …
Barreiras:…;…
Definição: A d F = FU − FL dá-se o nome de dispersão quartal, definida
também por d F = Q0,75 − Q0,25 . A dispersão quartal fornece a amplitude
da metade central da amostra.
De notar que o intervalo [ FL − 1.5 × d F , FU + 1.5 × d F ] tem uma
amplitude de 4 × d F , por isso esperamos que, em populações ditas
“normais”, este intervalo contenha todos os elementos da amostra.
Se algum elemento estiver fora destas barreiras consideramo-lo suspeito,

“discordante”, “discrepante”, “saliente”, e suspeitamos que é um outlier, ou
seja, um elemento que se afasta do padrão dos dados.
Os valores da amostra que se situam aquém de FL − 3 × d F ou para além
de FL + 3 × d F são considerados outliers severos.
A caixa com 5 letras-resumo correspondente à amostra dos pesos dos rins

dos ratos diabéticos é
63
42 M 1065 21.5
F 965 1160 11
1 885 1325 1
d F = 195
Barreiras: 672.5; 1452.5
E consequentemente nesta amostra não há outliers. Note que a caixa com 5

letras-resumo indica-nos a amplitude da amostra, a amplitude dos 50%
valores centrais, o intervalo em que se situam os primeiros 25% e os
últimos 25%, dá-nos uma primeira ideia sobre a simetria, sobre se a
amostra está mais concentrada no centro ou se é muito dispersa, etc.
Definição: Os valores FL − 1.5 × d F e FL + 1.5 × d F são as barreiras

periféricas.
Definição: Os valores FL − 3 × d F e FL + 3 × d F são as barreiras
exteriores.
Os outliers são elementos a que devemos dar atenção especial, porque

podem estragar uma análise estatística.
Por isso, na presença de outliers devemos:
(i) verificar se não houve erros de registo;
(ii) se não houve erros de registo, deve-se fazer a análise estatística

com e sem eles, e avaliar a influência que eles têm na análise e na
64
interpretação dos resultados. Se a importância for diminuta,

ficamos descansados; mas se houver diferenças apreciáveis entre
as análises estatísticas com e sem outliers vai ser necessário
despender muito mais esforço, eventualmente mesmo recolher
mais dados e recomeçar a análise.
Nota: No diagrama de caule-e-folhas representam-se os outliers

colocando-os entre parênteses, e deixando um espaço de separação.
EXEMPLO: Considere a amostra:
x = ( 7.2,8.4,8.7,8.9,8.9,9.1,9.2,9.5,9.6,9.7,9.9,11.7,15.9 )
Construa a caixa com 5 letras-resumo e o diagrama de caule-e-folhas para

representar esta amostra.
Caixa-com-Bigodes ou Boxplot
Uma forma de representar graficamente as medidas que acabámos de

definir é a caixa-com-bigodes (ou diagrama de extremos-e-quartis) ou
boxplot.
Uma caixa-com-bigodes ou boxplot é um gráfico em que, à escala, se

representam o menor valor que não seja outlier, o quartal inferior, a
mediana, o quartal superior, e o maior valor que não seja outlier. Os
outliers e os outliers severos são marcados com os símbolos e ∗,
respectivamente.
65
0 100 200 300 400 500 600 700 800 900 1000 1100
Outras representações de dados categorizados
Podemos estar na presença de dados agrupados ou categorizados pela sua

própria natureza: a população dos alunos de uma determinada universidade
pode ser categorizada em:
• alunos ordinários (O)

• trabalhadores estudantes (T)
• militares (M)
• dirigentes associativos (D)
• atletas de alta competição (A).
Assumindo que existem apenas estas categorias, o conjunto de todas elas é

o universo dos alunos, sendo portanto 100% da população.
A cada categoria está associada a respectiva frequência, sendo portanto útil

a sua representação. A representação gráfica de variáveis qualitativas ou
66
quantitativas de dados agrupados é muitas vezes feita através dos

diagramas circulares.
Os diagramas circulares assumem que os 100% são um círculo, em que

cada categoria é representada através de um sector circular a que
corresponde um ângulo de 2π fi em radianos.
Segundo o INE (Instituto Nacional de Estatística), as principais causas de

morte nos homens portugueses no ano de 1998 estão representadas na
tabela seguinte.
Causas Percentagem
Tumores malignos 21.9%
Aparelho circulatório 34.9%
Aparelho respiratório 9.7%
Suicídios 0.3%
Outros 32.8%
67
Se pretendêssemos construir o diagrama circular manualmente teríamos de

ir calcular os ângulos correspondentes a cada categoria. Embora com o
Excel este procedimento não seja necessário iremos exemplificar estes
cálculos.
Causas Percentagem 2π f i 360 f i
fi (radianos) (graus)
Tumores
21.9% 1.376 78.84
malignos
Aparelho
34.9% 2.193 125.64
circulatório
Aparelho
9.7% 0.609 34.92
respiratório
Suicídios 0.7% 0.044 2.52
Outros 32.8% 2.061 118.08
Com os valores anteriores podemos obter um diagrama circular.

Com recurso ao Excel, podemos obter vários tipos de diagramas circulares
como se exemplifica de seguida.
Causas de morte dos homens em Portugal em 1998
Tumores
malignos
Outros
22%
33%
Suicídio
0%
Aparelho Aparelho
respiratório circulatório
10% 35%
Outra representação pode ser através de um gráfico de barras.
68
Causas de morte dos homens em Portugal em 1998
40%
35%
30%
25%
20%
15%
10%
5%
0%
Tumores Aparelho Aparelho Suicídio Outros
malignos circulatório respiratório
ou ainda também
35%
30%
25%
20%
15%
10%
5%
0%
Tumores Aparelho Aparelho Suicídio Outros
malignos circulatório respiratório
69

Oficina 1 Teoria

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Oficina 1 Teoria

Enviado por

Direitos autorais:

Formatos disponíveis

Oficina I - Análise Exploratória de Dados

1. Análise Exploratória de Dados

Estatística é a ciência que se ocupa da obtenção de informação

“A Estatística é a Ciência que nos guia na tomada de DECISÕES em

Dinis Pestana (1998)

Os objectos da Estatística são os dados estatísticos, e o objectivo da

Os dados estatísticos são observações individuais de um ou mais atributos

DEFINIÇÃO: População é o conjunto (o universo) de todos os elementos

Os elementos da população são, em geral, designados por unidades

Para se conhecer de forma completa uma população têm que se analisar

Os censos mais conhecidos são os demográficos, os últimos foram

Na maior parte das vezes o estudo das características de uma população

A forma de selecção de uma amostra a partir da população é determinante e

Se intervém apenas o acaso e todos os elementos da população têm igual

Uma amostra aleatória garante, em certo sentido, a representatividade.

Uma amostra mal recolhida (viciada ou enviesada) levará naturalmente a

DEFINIÇÃO: Um método de amostragem diz-se enviesado (em inglês

EXEMPLO: Nas eleições americanas de 1936, ficou famoso o caso da

Existem vários processos de amostragem, iremos referir as técnicas de

DEFINIÇÃO: Quando qualquer elemento da população tem igual

Na prática para se obter uma amostra por esta técnica utiliza-se um

A amostragem aleatória simples é o tipo de amostragem mais utilizado

DEFINIÇÃO: Na amostragem estratificada supomos que a população

EXEMPLO: Se pretendermos obter um estudo demográfico a nível

DEFINIÇÃO: A amostragem por grupos ou clusters utiliza-se quando

espelha o comportamento da população. Neste tipo de amostragem

DEFINIÇÃO: Numa amostragem por voluntariado as unidades que

DEFINIÇÃO: Uma amostragem por conveniência consiste em retirar

NOTA: Amostragens por conveniência e voluntariado são em geral

Existem outros processos de amostragem aleatórios e outros não

Questão: Um determinado programa de televisão resolve fazer a seguinte

Se SIM ligue para o 707888000, se NÃO ligue para 707888001. O custo da

Será que poderemos considerar os resultados desta sondagem fiáveis?

O planeamento de experiências foi introduzido por Fisher em 1926. O

É fundamental decidir o que se vai medir (a variável resposta), quais as

Desejamos analisar a variabilidade decorrente do nosso planeamento da

EXEMPLO: uma experiência sobre o controlo de fogos florestais pode ter

O objectivo da estatística é buscar o conhecimento na variabilidade, e o

e a sua interpretação. Há sempre a tentativa de eliminar essas variáveis de

EXEMPLO: Na Indústria Farmacêutica, de um modo geral administram-se

Os diversos grupos são cuidadosamente seleccionados para serem

O valor de um atributo de uma população pode variar de elemento para

Variável aleatória (x) é a característica (numérica ou não) que interessa

É muito importante reconhecer a “escala” dos dados, pois condiciona o tipo

1. Quantitativas: São variáveis que tomam valores numéricos.

1.1 Discretas: Tomam valores inteiros, e associam-se a processos

Peso, altura dum indivíduo.

2.1 Nominais: São de carácter e não ordenáveis.

3. Categóricas: São variáveis quantitativas que se categorizam em k

Chamamos parâmetro a uma característica numérica de uma população,

Exemplos: Valor médio ( µ ), mínimo ( x(1) ), máximo ( x(n) ), amplitude,

variância ( σ 2 ), desvio padrão ( σ ), …

Pretende-se que uma amostra seja representativa da população da qual é

propiciem uma avaliação dos parâmetros a que correspondem na

DEFINIÇÃO: Chamamos estatística a toda a função da amostra, isto é,

mediana (Me), moda (Mo), variância ( s 2 ), desvio padrão ( s ), …

O conhecimento estatístico começa com a recolha de dados. A

Obtenção dos dados

Descrição dos dados

Indução Prescrutação do futuro

Em suma, a Estatística é entendida, num sentido lato, como sendo “a

O último propósito da análise estatística, enquadrado na inferência

Questão: Considere o seguinte estudo em que se pretende determinar o