Estatística Descritiva 23-24

Estatística Descritiva
1 – ESTATÍSTICA: GENERALIDADES
1.1 - Objetivo da estatística

1.2 – População
1.3 – Amostra
1.4 – Estatística Indutiva
1.5 - Variáveis estatísticas
1.1 – OBJETIVO DA ESTATÍSTICA
ESTATÍSTICA
Estatística Estatística
Descritiva Indutiva
Inferir resultados (fazer

Recolher, analisar, representar, previsões) e tomar decisões
sintetizar e interpretar a sobre o geral (população), a
informação contida num partir do estudo do particular
conjunto de dados observados. (amostra), ao mesmo tempo
que se quantifica o erro
cometido com a ajuda da
probabilidade
1.2 – POPULAÇÃO
• População ou Universo Estatístico é o conjunto de todos os elementos que

representam uma ou mais características em comum e que se pretende
analisar.
• Unidade estatística ou indivíduo é cada um dos elementos da população.
• Dimensão da População é o número da totalidade de elementos da população
e representa-se com N (maiúsculo).
• Recenseamento ou censo é um estudo estatístico que abrange todos os
elementos de uma população sobre a qual se pretende obter informação.
Exemplo
Num estudo sobre as características do cavalo garrano português, a população é
o conjunto de todos os cavalos garranos de Portugal e cada um dos cavalos
garranos é uma unidade estatística. Sendo que existem 1836 garranos em
Portugal (dados de 2022) então N=1836.
1.3 – AMOSTRA
• Amostra é um subconjunto finito, , representativo da

população.
• Dimensão da Amostra é o número de elementos da amostra e representa-se
por (minúsculo).
• Observação ou dado estatístico representa a informação
associada à variável estatística
• Modalidades da amostra ou Conjunto dos valores da amostra é o conjunto
formado pelos k valores distintos da amostra, .
• Amostra ordenada onde ou
1.3 – AMOSTRA
Exemplo:
Se considerarmos a variável “número de descendentes do cavalo”, podemos
recolher uma amostra com 6 cavalos onde:
, ou seja, o cavalo 1 tem 1 descendente;
, ou seja, o cavalo 2 tem 0 descendentes; …
A dimensão da amostra é
Existem 4 modalidades ( ): 0, 1, 2 ou 5.
Se considerarmos a variável “serra onde vive o cavalo”, podemos recolher a

amostra (Gerês, Gerês, Gerês, Peneda, Peneda, Amarela). As modalidades desta
variável são 3 ( ): Gerês, Peneda e Amarela.
Nota: ao recolher informações sobre diferentes variáveis referentes à mesma unidade estatística, é importante que
elas tenham a mesma ordem na sequência. Podemos desta forma afirmar que o cavalo que vive na Serra Amarela
tem cinco descendentes.
1.3 – AMOSTRA
A amostra deve ser:

• Ampla: conter um número alargado de elementos da população;
• Estratificada: estar dividida em estratos (proporcionais à população);
• Aleatória: elementos escolhidos ao acaso;
• Representativa: conter elementos de todos os estratos da população.
Sondagem é um estudo estatístico realizado a partir de uma certa amostra da

população e que tem como objetivo generalizar as conclusões para essa
mesma população.
1.4 – ESTATÍSTICA INDUTIVA
Em geral, não é possível ou é impraticável utilizar a totalidade dos

elementos de uma população e, neste caso, em vez de um censo realiza-se
uma sondagem.
A escolha de uma amostra representativa é muito importante para ser

possível generalizar os resultados do estudo à população.
Ao conjunto de técnicas que permitem generalizar resultados provenientes

de uma amostra a toda a população chamamos estatística indutiva ou
inferência estatística.
1.4 - Exemplo
Uma estação televisiva pretende dar a conhecer a posição dos portugueses face à
sua intenção de fazer férias dentro ou fora de Portugal.
 Não é viável fazer um censo: demoraria muito tempo e teria custos muito
elevados;
 A maioria dos resultados sobre estes temas são feitos com base em sondagens.
Por exemplo, realiza-se uma entrevista telefónica a 550 pessoas;
• A população é toda a população portuguesa;
• N=10,33 milhões (2021);
• A unidade estatística é cada um dos portugueses;
• A amostra é constituída pelas pessoas entrevistadas e escolhidas
aleatoriamente;
• n=550;
1.5 – VARIÁVEIS ESTATÍSTICAS
VARIÁVEL
Característica da população que se pretende
estudar (objeto de estudo).
QUANTITATIVA QUALITATIVA
A característica pode ser medida ou A característica diz respeito a uma
contada qualidade
DISCRETA CONTÍNUA NOMINAL ORDINAL

Pode tomar Pode tomar É possível
As modalidades
apenas um qualquer valor associar uma
que pode
número finito num intervalo ordem às
assumir não
ou uma real modalidades
podem ser
infinidade
hierarquizadas
numerável de
ou ordenadas
valores.
1.5 – VARIÁVEIS ESTATÍSTICAS (Exemplos)
O “comprimento da cabeça” e a “idade” de um cavalo são variáveis

quantitativas ou numéricas, enquanto a “cor da pelagem” ou o “tipo de
alimentos” são variáveis qualitativas.
A “cor da pelagem” ou o “tipo de alimentos” são variáveis qualitativas

nominais. Se considerarmos a variável “temperamento”, que pode tomar os
valores “pouco dócil”, “dócil” ou “muito dócil”, estamos perante uma
variável qualitativa ordinal.
As variáveis “comprimento da cauda” ou “idade” são variáveis quantitativas

contínuas, enquanto as variáveis “número de descendentes” ou “número de
manchas” são variáveis quantitativas discretas.
2 – ORGANIZAÇÃO E REPRESENTAÇÃO DE DADOS - Conceitos fundamentais
2.1 – Frequência absoluta

2.2 – Frequência relativa
2.3 – Tabela de frequências (caso contínuo)
2.4 – Representação gráfica
2.5 – Medidas de localização
2.6 – Medidas de dispersão
2.7 – Propriedades da média e da variância
2.8 – Outliers
2 – ORGANIZAÇÃO E REPRESENTAÇÃO DE DADOS - Conceitos fundamentais
Nota: No que se segue, vamos considerar apenas variáveis numéricas.
Consideremos, a variável estatística “número de descendentes do cavalo

garrano” e a amostra .
A amostra tem:
• dimensão 20 ( )
• 5 modalidades ( ): 0, 1, 2, 3 e 4
Os conceitos introduzidos de seguida permitem-nos apresentar a informação

contida numa amostra como esta, de uma forma mais organizada tornando-se
muito mais simples a leitura da informação.
2.1 – FREQUÊNCIA ABSOLUTA (simples e acumulada)
Frequência absoluta de xi , é o número de vezes que este valor aparece na

amostra recolhida e representa-se por fa.
Frequência absoluta acumulada é a soma de todas as frequências absolutas até ao

valor e representa-se por Fa.
Exemplo: Cálculo com somatórios

Na amostra a soma dos seus primeiros quatro valores pode ser
representada por , ou seja,
Na nossa amostra registamos

que:
• existem quatro cavalos que têm três descendentes

• a frequência absoluta acumulada de 1 é 12, ou seja, existem 12 cavalos que
têm no máximo um descendente.
Se organizarmos os dados numa tabela, a leitura dos dados torna-se mais

simples.
Nº descendentes Podemos ver rapidamente que

fa Fa
nesta amostra
0 6 6
1 6 12 • existem quatro cavalos que têm
Modalidades
três descendentes: .
2 2 14
3 4 18
• existem 14 cavalos que têm no
4 2 20 máximo 2 descendentes (ou
Total n=20 menos de 3 descendentes):
.
2.2 – FREQUÊNCIA RELATIVA (simples e acumulada)
Frequência relativa de xi , é o quociente entre a frequência absoluta e a

dimensão da amostra e representa-se por fr = .
Frequência relativa acumulada é a soma de todas as frequências relativas até

ao valor da modalidade e representa-se por r .
Nº descendentes fa Fa fr(%) Fr (%)
0 6 6 30 30
1 6 12 30 60
2 2 14 10 70
3 4 18 20 90
4 2 20 10 100
Total 20 ----- 1 100 -----

n
Podemos utilizar o
conceito de frequência
relativa (simples) para
Nº construir um gráfico
fr(%) Fr (%)
descendentes circular.
0 30 30
1 30 60
2 10 70 Podemos ver rapidamente que nesta amostra
3 20 90
4 10 100 • 20% dos cavalos que têm exatamente três
Totais 100 descendentes: . <𝟑
≤𝟐
• 70% dos cavalos que têm no máximo 2 (ou menos de 3)

descendentes : .
2.3 – TABELA DE FREQUÊNCIAS VARIÁVEL CONTÍNUA
Quando trabalhamos com uma variável contínua (ou com uma variável discreta que adquire
muitos valores distintos) podemos agrupar as diferentes modalidades em classes para
representar os valores de uma forma muito mais simples.
Se considerarmos a variável estatística “altura, em metros, do cavalo” e a amostra

(1,32; 1,35; 1,25; 1,17; 1,05; 1,14; 0,9; 1,16; 1,09; 1,11; 1,22), podemos apresentar os dados
através da seguinte tabela:
Altura Nº de cavalos Apesar de a leitura ficar mais simples, devemos ter a

0,9; 1 1 noção que, ao agrupar os dados em classes, parte da
informação perde-se na representação dos dados.
1; 1,1 2
Com esta tabela não somos capazes de distinguir os
1,1; 1,2 4 valores que pertencem a cada classe. Por esse motivo
1,2; 1,3 2 consideramos o valor médio da classe, designado de marca
1,3; 1,4 2 e representado por x´, como o valor representativo da
classe.
COMO DECIDIR QUANTAS DEVEM SER E COM QUE AMPLITUDE, h?

AS CLASSES, k
Muitas vezes esta opção é tomada com

base no “bom senso”. Se estivermos a
(arredondado por excesso)
falar em “ano de nascimento” fará
sentido separarmos os dados por
décadas.
Altura marca (x´) fa fr Fa Fr
[0,9 - 1[ 0,95 1 0,09 1 0,09

Regra se Sturges:
[1 - 1,1[ 1,05 2 0,18 3 0,27
[1,1- 1,2[ 1,15 4 0,36 7 0,64
[1,2- 1,3[ 1,25 2 0,18 9 0,82
classes [1,3- 1,4[ 1,35 2 0,18 11 1
Totais 11 1
COMO DECIDIR QUANTAS DEVEM SER E COM QUE AMPLITUDE, h?

AS CLASSES, k
Regra empírica: Toma-se para valor Altura marca (x´) fa fr Fa Fr

de k o menor inteiro que satisfaz a
[0,9 – 1,02[ 0,96 1 0,09 1 0,09
condição , onde n é a dimensão [1,02 - 1,14[ 1,08 3 0,27 4 0,36
da amostra. [1,14- 1,26[ 1,2 5 0,46 9 0,82
[1,26- 1,38[ 1,32 2 0,18 11 1
Pretendemos encontrar o valor de k Totais 11 1
tal que (por tentativas).
Se k=3 Portanto
Se k=4
2.4 – REPRESENTAÇÃO GRÁFICA
Gráfico de barras:
Utiliza-se quando a variável é qualitativa ou quantitativa discreta agrupada em modalidades.
• Os valores da variável estatística colocam-se
num dos eixos e as respetivas frequências no
outro eixo.
• A altura das barras mostra a frequência.
• As barras podem ser verticais ou horizontais.
• Existe um espaço vazio entre as barras.
• Permite estabelecer facilmente comparações
entre duas ou mais variáveis.
• Tem forte impacto visual.
• Só pode ser usado para transmitir informações
simples.
Histograma:
Utiliza-se quando a variável é quantitativa contínua ou quantitativa discreta agrupada em classes
• A altura das barras é proporcional à

frequência.
• Não há um espaço entre as barras.
• Dá uma ideia de como estão distribuídos os
dados obtidos.
• De difícil construção quando a amplitude das
classes é diferente.
(vamos usar barras com a mesma largura.)

Polígono de frequências simples
Permite comparar vários histogramas

usando apenas os respetivos polígonos
de frequência no mesmo quadro.
É um gráfico de linha que se obtém

unindo os pontos médio da base
superior dos retângulos do
histograma.
Polígono de frequências acumuladas
É um gráfico de linha que se obtém

marcando-se as frequências
acumuladas sobre perpendiculares,
ao eixo horizontal, levantadas nos
pontos correspondentes aos limites
superiores dos intervalos de cada
classe.
Permite comparar histogramas

usando apenas os respetivos
polígonos de frequência no mesmo
quadro.
Diagrama de caule e folhas

• É uma tabela usada para organizar dados
numéricos.
• A “folha” fica do lado direito e contém o
algarismo mais à direita do número.
• O “caule” fica do lado esquerdo e é o
conjunto dos restantes algarismo sem a
“folha”.
• É útil para visualizar a distribuição dos
dados.
• Tem a vantagem, relativamente ao
histograma simples, de não se perder a
informação individual de cada classe.
Diagrama de extremos e quartis
É formado por um retângulo e por dois

segmentos de reta. Cerca de 50% dos dados
estão dentro do retângulo, 25% para a
esquerda e 25% para a direita.
Dá uma ideia de como se distribuem os

elementos da amostra.
Para a sua construção é necessário conhecer o

mínimo, o máximo e os três quartis.
2.5 – MEDIDAS DE LOCALIZAÇÃO (de dados quantitativos)
• Resumem a informação da amostra indicando o valor mais capaz de

substituir ou representar todos os outros;
• indicam quer o centro da distribuição dos dados, média e mediana,

quer outros pontos importantes da distribuição como por exemplo os
quartis ou a moda.
• Por si só, dão informações insuficientes havendo necessidade de as

acoplar a uma medida de variabilidade.
2.5 – MEDIDAS DE LOCALIZAÇÃO (de dados quantitativos)
• O conhecimento dos valores da média, mediana e moda permite

estabelecer uma relação entre as três medidas e analisar a simetria da
distribuição.
Simetria da distribuição
𝑥̅ < 𝑥 < 𝑀𝑜 𝑥̅ = 𝑥 = 𝑀𝑜 𝑥̅ > 𝑥 > 𝑀𝑜
Assimétrica negativa Simétrica Assimétrica positiva
Enviesada à esquerda Dados simétricos Enviesada à direita
2.5.1 – MEDIDAS DE LOCALIZAÇÃO
Mediana (Me, me,
• valor da amostra (ordenada) que a divide em duas partes com igual número
de observações.
• valor central da sequência ordenada dos dados.
• valor da amostra onde a frequência relativa acumulada atinge os 50%.
• Valor que permite afirmar, ao comparar dois ou mais grupos, qual deles
apresenta resultados mais (ou menos) elevados.
Cálculo da Mediana (Me, me, :

1. Ordenar a amostra por ordem crescente (ou decrescente)
2. Localizar a mediana e observar o seu valor.
variável “número de descendentes”
Amostra ordenada
n=20 (par), a mediana obtém-se através da expressão:
Moda (Mo, mo):

• valor da amostra que se repete mais vezes, isto é, que tem maior
frequência simples (absoluta ou relativa).
• Só pode ser usada como medida de tendência central quando existe
apenas um valor com maior frequência.
Número de fa
Neste caso quer a modalidade 0 como a modalidade 1 descendentes
têm a mesma frequência absoluta simples (igual a 6) 0 6
logo existem duas modas, Mo=0 e Mo=1. 1 6

2 2
3 4
A amostra diz-se BIMODAL. 4 2
Média ( :
• Representa o “centro de gravidade” da amostra, i.é., o ponto da

distribuição em torno do qual se equilibram as discrepâncias positivas e
negativas.
• Situa-se entre os valores mínimo e máximo da amostra.
• É um valor que pretende ser o resumo de todos os valores da amostra
(pode ser um valor não presente nas diferentes modalidades da
amostra).
• Permite constatar, na comparação de dois ou mais grupos, qual o que
tem valores mais elevados.
Cálculo da Média (aritmética):

• Dados não agrupados: Somam-se todos os valores da amostra e divide-se
pelo número de observações
• Dados agrupados: Somam-se todos os produtos entre cada uma das

modalidades da amostra e a respetiva frequência absoluta (fa) e divide-se
esse resultado pela dimensão da amostra
onde k é o número de modalidades (valores distintos) na amostra.

Cálculo da Média (aritmética):
• Dados não agrupados:
Número de fa
descendentes
0 6
1 6
• Dados agrupados:
2 2
× × × × × 3 4
4 2
Quando trabalhamos com a variável “altura”, os dados são agrupados em classes,

perdendo assim alguma informação. Desta forma, utilizando os dados agrupados, não é
possível calcular o valor exato da média.
Nestas situações devemos, sempre que seja possível, utilizar os dados não agrupados no
cálculo da média.
Se tal não for possível, podemos calcular uma aproximação para o valor da média,
utilizando a marca , , de cada classe k como valor de na fórmula da média para
dados agrupados:
Percentil de ordem p (Pp):
O valor de pode ser interpretado como
• a percentagem de valores da amostra inferiores ou iguais a é pelo menos p
• é o valor acima do qual estão, quando muito, (100 – p)% dos elementos da
amostra.
𝑛𝑝
𝑥 ( ) 𝑘= não é inteiro
100
𝑃 =
𝑥 +𝑥 𝑛𝑝
𝑘= é inteiro
2 100
Amostra ordenada da v.e. “número de descendentes”
𝑛𝑝
100
𝑃 =
𝑥 +𝑥 𝑛𝑝
𝑘= é inteiro
2 100
×
que não é um número inteiro,
( , ) , .
Pelo menos 11% dos cavalos têm 0 descendentes e, no máximo, 89% dos cavalos têm mais
do que 0 descendentes.
Amostra ordenada da v.e. “número de descendentes”
𝑛𝑝
100
×
𝟎 que é um número inteiro, 𝑃 =
𝑥 +𝑥 𝑛𝑝
𝑘= é inteiro
2 100
.
Pelo menos 40% dos cavalos têm até um descendente e, no máximo, 60% dos cavalos têm
dois ou mais descendentes.
Nº Fr
Com a coluna da frequência relativa acumulada facilmente se descendentes (%)
0 30
identificam os percentis: 1 60
2 70
a modalidade 0 contém os percentis 0 a 30 3 90
a modalidade 1 contém os percentis 31 a 60 4 100
… Totais
Quartis (Q1, Q2 e Q3 )
Os quartis são casos particulares de percentis. Como o

próprio nome sugere, os quartis dividem a amostra em
4 partes com igual número de observações, ou seja,
cada uma dessas partes contém 25% dos dados da
amostra.
Primeiro quartil: Q1= P25

Segundo quartil: Q2= P50 (também é a mediana)
Terceiro quartil: Q3=P75
Considerando novamente a variável “número de descendentes” de uma amostra

ordenada , temos que
Q1= P25 , Q2= P50 e Q3=P75 .
2.5 - OBSERVAÇÃO
As medidas de localização devem ser utilizadas para, de uma forma muito sucinta,
transmitir informação sobre a amostra em causa. Devemos no entanto ser cuidadosos na
sua interpretação e conhecer as suas limitações.
Num exemplo anterior, verificamos que, no que diz respeito ao número de descendentes,
.
Não podemos, no entanto, afirmar que a percentagem de cavalos com um ou menos

descendentes é 50%. Tal como explicado anteriormente, o valor deste percentil permite-
nos afirmar que a percentagem de cavalos com um ou menos descendentes é pelo menos
50%.
Repare que a percentagem exata de cavalos da amostra com um ou menos descendentes é

60%.
MEDIDAS DE LOCALIZAÇÃO Tendência Central
Estatísticas Vantagens Desvantagens

• É uma medida conhecida. • Não representa bem conjuntos com
• Facilmente calculada. tendências extremas.
Média • Boa para comparar grupos semelhantes. • Muito influenciada por valores atípicos.
• Só pode ser calculada para dados
quantitativos.
• Não recomendável em dados discretos
• Não depende de todos os valores do conjunto de • Menos conhecida do que a média.
Mediana dados • Não é tão simples de interpretar
• Mais resistente a valores grandes e a valores quando existem valores repetidos.
atípicos.
• Pouco afetada por distribuições assimétricas.
• Pode ser obtida para variáveis qualitativas
ordinais.
• Não depende de todos os valores observados • Só pode ser usada como medida de
Moda nem da sua ordenação tendência central se a amostra for
• Não é influenciada por valores grandes nem por unimodal.
valores atípicos.
• Pode ser apresentada para qualquer tipo de
variável.
2.6 - MEDIDAS DE DISPERSÃO
Existem outras medidas estatísticas, denominadas medidas de dispersão, que nos fornecem
informações quanto ao grau de variabilidade dos elementos da amostra.
Amplitude total (A= ) - diferença entre os valores máximo e mínimo da amostra
Amplitude interquartil (AIQ= Q3-Q1) - diferença entre o terceiro e o primeiro quartil.

Sabemos que 50% dos dados da amostra estão entre o
primeiro e o terceiro quartil
A variância e o desvio-padrão são as medidas estatísticas que mais se utilizam para

caracterizar a dispersão dos valores da amostra em relação à média.
Variância (corrigida)
∑ ̅
Dados não agrupados:
∑ ̅
Dados agrupados:
Obs. Se n>30 então a variância calcula-se dividindo por n e não por n-1.
Desvio-padrão, s, é igual à raiz quadrada da variância.
NOTA: A média e o desvio-padrão têm a mesma unidade de medida da variável, mas o mesmo não acontece com a variância.
O coeficiente de variação (CV) é uma medida que expressa a variação dos dados em
relação à média.
• é a razão entre o desvio padrão e a média: ̅
• é um número adimensional, ou seja, não depende da unidade de medida usada na
recolha dos dados.
• Usa-se (em vez do desvio-padrão) para fazer comparação entre conjuntos de dados
com diferentes unidades ou médias muito diferentes.
Dependendo do valor do CV, a dispersão diz-se:

• Fraca se CV 15% ;
• Média se 15% < CV 30%;
• Forte se CV 30%.
(Pestana, M.H., Gageiro, J.N., Análise de Dados para Ciências Sociais, 2008)
2.7 – PROPRIEDADES DA MÉDIA E DA VARIÂNCIA
Considere uma amostra que originou uma média e a variância 2 .
• Se a todos os dados da amostra for adicionado o mesmo valor constante a, passamos

a ter uma nova amostra , onde:
 a média desta nova amostra é

 e a variância é 𝟐
𝒚
𝟐 .
𝒙
• Se todas observações da amostra forem multiplicadas pelo mesmo valor constante a,

passamos a ter uma nova amostra ), onde:
 a média desta mesma amostra é

 e a variância é 𝟐 𝒛 𝟐 𝟐 .
𝒙
2.8 - OUTLIERS
• Os outliers são dados da amostra que estão longe da generalidade dos restantes
dados. Por outras palavras, são valores atípicos num conjunto de dados e são
problemáticos para muitas análises estatísticas, pois podem fazer com que os testes
percam resultados significativos ou distorçam resultados reais.
• Infelizmente, não existem regras estatísticas rigorosas para identificar definitivamente

os outliers.
• A descoberta de outliers depende do conhecimento da área do assunto e da

compreensão do processo de recolha de dados. Embora não exista uma definição
matemática sólida, existem orientações e testes estatísticos que podem ser usados
para encontrar candidatos mais distantes.
2.8 - OUTLIERS
Para demonstrar o quanto um único outlier pode afetar os resultados, vamos examinar
as propriedades de um conjunto de dados referentes, por exemplo, a medições de
altura de 15 alunos com idades entre os 13 e os 20 anos. Um desses valores é um
outlier. A tabela abaixo mostra a altura média com e sem o outlier.
Com Outlier Sem Outlier Diferença

2.4m 1.8m 0.6m
0.5m 1.6m 1.1m
2.8 - OUTLIERS
• Uma das métricas mais utilizadas em estatística para identificação de outliers é o quartil.
• Na figura seguinte temos um diagrama de

extremos e quartis (gráfico de caixa de bigodes
ou boxplot), que mostra os dados da perspetiva
dos quartis.
• A caixa representa os quartis, a linha verde a

mediana, acima vê-se o limite superior e abaixo
o limite inferior.
• Calculando a Amplitude interquartil (AIQ), é

bastante provável que o ponto no topo do gráfico seja um outlier neste conjunto de
dados.
2.8 - OUTLIERS
A distribuição seguinte mostra as classificações obtidas

no exame de condução por 19 pessoas.
Quantos outliers se observam?
Algumas pessoas poderiam dizer que há 5 outliers, mas outras pessoas poderiam discordar
dizendo que há 3 ou 4 outliers.
Uma regra comum diz que um dado é um outlier se estiver mais de 1,5.AIQ acima do terceiro
quartil ou abaixo do primeiro quartil.
Ou seja,
Os outliers inferiores estão abaixo de Q1−1,5 AIQ
Os outliers superiores estão acima de Q3+1,5 AIQ
2.8 - OUTLIERS
Classificações ordenadas: 5, 7, 10, 15, 19, 21, 21, 22, 22, 23, 23, 23, 23, 23, 24, 24, 24, 24, 25
1º Passo: determinar os quartis

Q1= P25= 19
Q2 = Mediana= P50= 23
Q3= P75= 24
2º Passo: calcular a Amplitude Interquartis AIQ = Q3-Q1= 24-19=5

3º Passo: Calcular o produto 1,5xAIQ = 7,5
4º Passo: Conclusão
Q1−1,5 AIQ = 19-7,5=11,5 ------> 3 outliers inferiores: 5, 7 e 10
Q3+1,5 AIQ = 24+7,5=31,5 ------> Não há outliers superiores.

2.8 - OUTLIERS
Os diagramas de extremos e quartis representam, frequentemente, os outliers como pontos

que estão separados do restante diagrama.
• Aqui está um diagrama de extremos e quartis para

a distribuição anterior que não representa os outliers.
• Aqui está um diagrama de extremos e quartis para

a distribuição anterior que representa os outliers.
Obs: Os outliers são apresentados como pontos e o diagrama teve de mudar. O diagrama
prolonga-se até ao ponto do conjunto de dados que não é um outlier, que é 15.

Estatística Descritiva 23-24

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Estatística Descritiva 23-24

Enviado por

Direitos autorais:

Formatos disponíveis

Estatística Descritiva

1.1 - Objetivo da estatística

Inferir resultados (fazer

• População ou Universo Estatístico é o conjunto de todos os elementos que

• Amostra é um subconjunto finito, , representativo da

Se considerarmos a variável “serra onde vive o cavalo”, podemos recolher a

A amostra deve ser:

Sondagem é um estudo estatístico realizado a partir de uma certa amostra da

Em geral, não é possível ou é impraticável utilizar a totalidade dos

A escolha de uma amostra representativa é muito importante para ser

Ao conjunto de técnicas que permitem generalizar resultados provenientes

DISCRETA CONTÍNUA NOMINAL ORDINAL

O “comprimento da cabeça” e a “idade” de um cavalo são variáveis

A “cor da pelagem” ou o “tipo de alimentos” são variáveis qualitativas

As variáveis “comprimento da cauda” ou “idade” são variáveis quantitativas

2.1 – Frequência absoluta

Consideremos, a variável estatística “número de descendentes do cavalo

Os conceitos introduzidos de seguida permitem-nos apresentar a informação

Frequência absoluta de xi , é o número de vezes que este valor aparece na

Frequência absoluta acumulada é a soma de todas as frequências absolutas até ao

Exemplo: Cálculo com somatórios

Na nossa amostra registamos

• existem quatro cavalos que têm três descendentes

Se organizarmos os dados numa tabela, a leitura dos dados torna-se mais

Nº descendentes Podemos ver rapidamente que

Frequência relativa de xi , é o quociente entre a frequência absoluta e a

Frequência relativa acumulada é a soma de todas as frequências relativas até

Nº descendentes fa Fa fr(%) Fr (%)

Total 20 ----- 1 100 -----

• 70% dos cavalos que têm no máximo 2 (ou menos de 3)

Se considerarmos a variável estatística “altura, em metros, do cavalo” e a amostra

Altura Nº de cavalos Apesar de a leitura ficar mais simples, devemos ter a

COMO DECIDIR QUANTAS DEVEM SER E COM QUE AMPLITUDE, h?

Muitas vezes esta opção é tomada com

[0,9 - 1[ 0,95 1 0,09 1 0,09

COMO DECIDIR QUANTAS DEVEM SER E COM QUE AMPLITUDE, h?

Regra empírica: Toma-se para valor Altura marca (x´) fa fr Fa Fr

tal que (por tentativas).

• A altura das barras é proporcional à

(vamos usar barras com a mesma largura.)

Polígono de frequências simples

Permite comparar vários histogramas

É um gráfico de linha que se obtém

Polígono de frequências acumuladas

É um gráfico de linha que se obtém

Permite comparar histogramas

Diagrama de caule e folhas

Diagrama de extremos e quartis

É formado por um retângulo e por dois

Dá uma ideia de como se distribuem os

Para a sua construção é necessário conhecer o

• Resumem a informação da amostra indicando o valor mais capaz de

• indicam quer o centro da distribuição dos dados, média e mediana,

• Por si só, dão informações insuficientes havendo necessidade de as

• O conhecimento dos valores da média, mediana e moda permite

Mediana (Me, me,

• valor central da sequência ordenada dos dados.

• valor da amostra onde a frequência relativa acumulada atinge os 50%.

Cálculo da Mediana (Me, me, :

variável “número de descendentes”

Moda (Mo, mo):

logo existem duas modas, Mo=0 e Mo=1. 1 6

• Representa o “centro de gravidade” da amostra, i.é., o ponto da

Cálculo da Média (aritmética):