Você está na página 1de 53

Estatística Descritiva

1 – ESTATÍSTICA: GENERALIDADES

1.1 - Objetivo da estatística


1.2 – População
1.3 – Amostra
1.4 – Estatística Indutiva
1.5 - Variáveis estatísticas
1.1 – OBJETIVO DA ESTATÍSTICA

ESTATÍSTICA

Estatística Estatística
Descritiva Indutiva

Inferir resultados (fazer


Recolher, analisar, representar, previsões) e tomar decisões
sintetizar e interpretar a sobre o geral (população), a
informação contida num partir do estudo do particular
conjunto de dados observados. (amostra), ao mesmo tempo
que se quantifica o erro
cometido com a ajuda da
probabilidade
1.2 – POPULAÇÃO

• População ou Universo Estatístico é o conjunto de todos os elementos que


representam uma ou mais características em comum e que se pretende
analisar.
• Unidade estatística ou indivíduo é cada um dos elementos da população.
• Dimensão da População é o número da totalidade de elementos da população
e representa-se com N (maiúsculo).
• Recenseamento ou censo é um estudo estatístico que abrange todos os
elementos de uma população sobre a qual se pretende obter informação.
Exemplo
Num estudo sobre as características do cavalo garrano português, a população é
o conjunto de todos os cavalos garranos de Portugal e cada um dos cavalos
garranos é uma unidade estatística. Sendo que existem 1836 garranos em
Portugal (dados de 2022) então N=1836.
1.3 – AMOSTRA

• Amostra é um subconjunto finito, , representativo da


população.
• Dimensão da Amostra é o número de elementos da amostra e representa-se
por (minúsculo).
• Observação ou dado estatístico representa a informação
associada à variável estatística
• Modalidades da amostra ou Conjunto dos valores da amostra é o conjunto
formado pelos k valores distintos da amostra, .
• Amostra ordenada onde ou
1.3 – AMOSTRA

Exemplo:
Se considerarmos a variável “número de descendentes do cavalo”, podemos
recolher uma amostra com 6 cavalos onde:
, ou seja, o cavalo 1 tem 1 descendente;
, ou seja, o cavalo 2 tem 0 descendentes; …
A dimensão da amostra é
Existem 4 modalidades ( ): 0, 1, 2 ou 5.

Se considerarmos a variável “serra onde vive o cavalo”, podemos recolher a


amostra (Gerês, Gerês, Gerês, Peneda, Peneda, Amarela). As modalidades desta
variável são 3 ( ): Gerês, Peneda e Amarela.
Nota: ao recolher informações sobre diferentes variáveis referentes à mesma unidade estatística, é importante que
elas tenham a mesma ordem na sequência. Podemos desta forma afirmar que o cavalo que vive na Serra Amarela
tem cinco descendentes.
1.3 – AMOSTRA

A amostra deve ser:


• Ampla: conter um número alargado de elementos da população;
• Estratificada: estar dividida em estratos (proporcionais à população);
• Aleatória: elementos escolhidos ao acaso;
• Representativa: conter elementos de todos os estratos da população.

Sondagem é um estudo estatístico realizado a partir de uma certa amostra da


população e que tem como objetivo generalizar as conclusões para essa
mesma população.
1.4 – ESTATÍSTICA INDUTIVA

Em geral, não é possível ou é impraticável utilizar a totalidade dos


elementos de uma população e, neste caso, em vez de um censo realiza-se
uma sondagem.

A escolha de uma amostra representativa é muito importante para ser


possível generalizar os resultados do estudo à população.

Ao conjunto de técnicas que permitem generalizar resultados provenientes


de uma amostra a toda a população chamamos estatística indutiva ou
inferência estatística.
1.4 - Exemplo

Uma estação televisiva pretende dar a conhecer a posição dos portugueses face à
sua intenção de fazer férias dentro ou fora de Portugal.

 Não é viável fazer um censo: demoraria muito tempo e teria custos muito
elevados;
 A maioria dos resultados sobre estes temas são feitos com base em sondagens.
Por exemplo, realiza-se uma entrevista telefónica a 550 pessoas;
• A população é toda a população portuguesa;
• N=10,33 milhões (2021);
• A unidade estatística é cada um dos portugueses;
• A amostra é constituída pelas pessoas entrevistadas e escolhidas
aleatoriamente;
• n=550;
1.5 – VARIÁVEIS ESTATÍSTICAS

VARIÁVEL
Característica da população que se pretende
estudar (objeto de estudo).

QUANTITATIVA QUALITATIVA
A característica pode ser medida ou A característica diz respeito a uma
contada qualidade

DISCRETA CONTÍNUA NOMINAL ORDINAL


Pode tomar Pode tomar É possível
As modalidades
apenas um qualquer valor associar uma
que pode
número finito num intervalo ordem às
assumir não
ou uma real modalidades
podem ser
infinidade
hierarquizadas
numerável de
ou ordenadas
valores.
1.5 – VARIÁVEIS ESTATÍSTICAS (Exemplos)

O “comprimento da cabeça” e a “idade” de um cavalo são variáveis


quantitativas ou numéricas, enquanto a “cor da pelagem” ou o “tipo de
alimentos” são variáveis qualitativas.

A “cor da pelagem” ou o “tipo de alimentos” são variáveis qualitativas


nominais. Se considerarmos a variável “temperamento”, que pode tomar os
valores “pouco dócil”, “dócil” ou “muito dócil”, estamos perante uma
variável qualitativa ordinal.

As variáveis “comprimento da cauda” ou “idade” são variáveis quantitativas


contínuas, enquanto as variáveis “número de descendentes” ou “número de
manchas” são variáveis quantitativas discretas.
2 – ORGANIZAÇÃO E REPRESENTAÇÃO DE DADOS - Conceitos fundamentais

2.1 – Frequência absoluta


2.2 – Frequência relativa
2.3 – Tabela de frequências (caso contínuo)
2.4 – Representação gráfica
2.5 – Medidas de localização
2.6 – Medidas de dispersão
2.7 – Propriedades da média e da variância
2.8 – Outliers
2 – ORGANIZAÇÃO E REPRESENTAÇÃO DE DADOS - Conceitos fundamentais
Nota: No que se segue, vamos considerar apenas variáveis numéricas.

Consideremos, a variável estatística “número de descendentes do cavalo


garrano” e a amostra .
A amostra tem:
• dimensão 20 ( )
• 5 modalidades ( ): 0, 1, 2, 3 e 4

Os conceitos introduzidos de seguida permitem-nos apresentar a informação


contida numa amostra como esta, de uma forma mais organizada tornando-se
muito mais simples a leitura da informação.
2.1 – FREQUÊNCIA ABSOLUTA (simples e acumulada)

Frequência absoluta de xi , é o número de vezes que este valor aparece na


amostra recolhida e representa-se por fa.

Frequência absoluta acumulada é a soma de todas as frequências absolutas até ao


valor e representa-se por Fa.

Exemplo: Cálculo com somatórios


Na amostra a soma dos seus primeiros quatro valores pode ser
representada por , ou seja,
2.1 – FREQUÊNCIA ABSOLUTA (simples e acumulada)

Na nossa amostra registamos


que:

• existem quatro cavalos que têm três descendentes


• a frequência absoluta acumulada de 1 é 12, ou seja, existem 12 cavalos que
têm no máximo um descendente.

Se organizarmos os dados numa tabela, a leitura dos dados torna-se mais


simples.
2.1 – FREQUÊNCIA ABSOLUTA (simples e acumulada)

Nº descendentes Podemos ver rapidamente que


fa Fa
nesta amostra
0 6 6
1 6 12 • existem quatro cavalos que têm
Modalidades
três descendentes: .
2 2 14
3 4 18
• existem 14 cavalos que têm no
4 2 20 máximo 2 descendentes (ou
Total n=20 menos de 3 descendentes):
.
2.2 – FREQUÊNCIA RELATIVA (simples e acumulada)

Frequência relativa de xi , é o quociente entre a frequência absoluta e a


dimensão da amostra e representa-se por fr = .

Frequência relativa acumulada é a soma de todas as frequências relativas até


ao valor da modalidade e representa-se por r .
2.2 – FREQUÊNCIA RELATIVA (simples e acumulada)

Nº descendentes fa Fa fr(%) Fr (%)

0 6 6 30 30

1 6 12 30 60

2 2 14 10 70

3 4 18 20 90

4 2 20 10 100

Total 20 ----- 1 100 -----


n
2.2 – FREQUÊNCIA RELATIVA (simples e acumulada)

Podemos utilizar o
conceito de frequência
relativa (simples) para
Nº construir um gráfico
fr(%) Fr (%)
descendentes circular.
0 30 30
1 30 60
2 10 70 Podemos ver rapidamente que nesta amostra
3 20 90
4 10 100 • 20% dos cavalos que têm exatamente três
Totais 100 descendentes: . <𝟑
≤𝟐

• 70% dos cavalos que têm no máximo 2 (ou menos de 3)


descendentes : .
2.3 – TABELA DE FREQUÊNCIAS VARIÁVEL CONTÍNUA

Quando trabalhamos com uma variável contínua (ou com uma variável discreta que adquire
muitos valores distintos) podemos agrupar as diferentes modalidades em classes para
representar os valores de uma forma muito mais simples.

Se considerarmos a variável estatística “altura, em metros, do cavalo” e a amostra


(1,32; 1,35; 1,25; 1,17; 1,05; 1,14; 0,9; 1,16; 1,09; 1,11; 1,22), podemos apresentar os dados
através da seguinte tabela:

Altura Nº de cavalos Apesar de a leitura ficar mais simples, devemos ter a


0,9; 1 1 noção que, ao agrupar os dados em classes, parte da
informação perde-se na representação dos dados.
1; 1,1 2
Com esta tabela não somos capazes de distinguir os
1,1; 1,2 4 valores que pertencem a cada classe. Por esse motivo
1,2; 1,3 2 consideramos o valor médio da classe, designado de marca
1,3; 1,4 2 e representado por x´, como o valor representativo da
classe.
2.3 – TABELA DE FREQUÊNCIAS VARIÁVEL CONTÍNUA

COMO DECIDIR QUANTAS DEVEM SER E COM QUE AMPLITUDE, h?


AS CLASSES, k

Muitas vezes esta opção é tomada com


base no “bom senso”. Se estivermos a
(arredondado por excesso)
falar em “ano de nascimento” fará
sentido separarmos os dados por
décadas.
Altura marca (x´) fa fr Fa Fr

[0,9 - 1[ 0,95 1 0,09 1 0,09


Regra se Sturges:
[1 - 1,1[ 1,05 2 0,18 3 0,27
[1,1- 1,2[ 1,15 4 0,36 7 0,64
[1,2- 1,3[ 1,25 2 0,18 9 0,82
classes [1,3- 1,4[ 1,35 2 0,18 11 1
Totais 11 1
2.3 – TABELA DE FREQUÊNCIAS VARIÁVEL CONTÍNUA

COMO DECIDIR QUANTAS DEVEM SER E COM QUE AMPLITUDE, h?


AS CLASSES, k

Regra empírica: Toma-se para valor Altura marca (x´) fa fr Fa Fr


de k o menor inteiro que satisfaz a
[0,9 – 1,02[ 0,96 1 0,09 1 0,09
condição , onde n é a dimensão [1,02 - 1,14[ 1,08 3 0,27 4 0,36
da amostra. [1,14- 1,26[ 1,2 5 0,46 9 0,82
[1,26- 1,38[ 1,32 2 0,18 11 1
Pretendemos encontrar o valor de k Totais 11 1

tal que (por tentativas).

Se k=3 Portanto
Se k=4
2.4 – REPRESENTAÇÃO GRÁFICA

Gráfico de barras:
Utiliza-se quando a variável é qualitativa ou quantitativa discreta agrupada em modalidades.
• Os valores da variável estatística colocam-se
num dos eixos e as respetivas frequências no
outro eixo.
• A altura das barras mostra a frequência.
• As barras podem ser verticais ou horizontais.
• Existe um espaço vazio entre as barras.
• Permite estabelecer facilmente comparações
entre duas ou mais variáveis.
• Tem forte impacto visual.
• Só pode ser usado para transmitir informações
simples.
2.4 – REPRESENTAÇÃO GRÁFICA

Histograma:
Utiliza-se quando a variável é quantitativa contínua ou quantitativa discreta agrupada em classes

• A altura das barras é proporcional à


frequência.
• Não há um espaço entre as barras.
• Dá uma ideia de como estão distribuídos os
dados obtidos.
• De difícil construção quando a amplitude das
classes é diferente.

(vamos usar barras com a mesma largura.)


2.4 – REPRESENTAÇÃO GRÁFICA

Polígono de frequências simples

Permite comparar vários histogramas


usando apenas os respetivos polígonos
de frequência no mesmo quadro.

É um gráfico de linha que se obtém


unindo os pontos médio da base
superior dos retângulos do
histograma.
2.4 – REPRESENTAÇÃO GRÁFICA

Polígono de frequências acumuladas

É um gráfico de linha que se obtém


marcando-se as frequências
acumuladas sobre perpendiculares,
ao eixo horizontal, levantadas nos
pontos correspondentes aos limites
superiores dos intervalos de cada
classe.

Permite comparar histogramas


usando apenas os respetivos
polígonos de frequência no mesmo
quadro.
2.4 – REPRESENTAÇÃO GRÁFICA

Diagrama de caule e folhas


• É uma tabela usada para organizar dados
numéricos.
• A “folha” fica do lado direito e contém o
algarismo mais à direita do número.
• O “caule” fica do lado esquerdo e é o
conjunto dos restantes algarismo sem a
“folha”.
• É útil para visualizar a distribuição dos
dados.
• Tem a vantagem, relativamente ao
histograma simples, de não se perder a
informação individual de cada classe.
2.4 – REPRESENTAÇÃO GRÁFICA

Diagrama de extremos e quartis

É formado por um retângulo e por dois


segmentos de reta. Cerca de 50% dos dados
estão dentro do retângulo, 25% para a
esquerda e 25% para a direita.

Dá uma ideia de como se distribuem os


elementos da amostra.

Para a sua construção é necessário conhecer o


mínimo, o máximo e os três quartis.
2.5 – MEDIDAS DE LOCALIZAÇÃO (de dados quantitativos)

• Resumem a informação da amostra indicando o valor mais capaz de


substituir ou representar todos os outros;

• indicam quer o centro da distribuição dos dados, média e mediana,


quer outros pontos importantes da distribuição como por exemplo os
quartis ou a moda.

• Por si só, dão informações insuficientes havendo necessidade de as


acoplar a uma medida de variabilidade.
2.5 – MEDIDAS DE LOCALIZAÇÃO (de dados quantitativos)

• O conhecimento dos valores da média, mediana e moda permite


estabelecer uma relação entre as três medidas e analisar a simetria da
distribuição.
Simetria da distribuição
𝑥̅ < 𝑥 < 𝑀𝑜 𝑥̅ = 𝑥 = 𝑀𝑜 𝑥̅ > 𝑥 > 𝑀𝑜
Assimétrica negativa Simétrica Assimétrica positiva
Enviesada à esquerda Dados simétricos Enviesada à direita
2.5.1 – MEDIDAS DE LOCALIZAÇÃO

Mediana (Me, me,

• valor da amostra (ordenada) que a divide em duas partes com igual número
de observações.

• valor central da sequência ordenada dos dados.

• valor da amostra onde a frequência relativa acumulada atinge os 50%.

• Valor que permite afirmar, ao comparar dois ou mais grupos, qual deles
apresenta resultados mais (ou menos) elevados.
2.5.1 – MEDIDAS DE LOCALIZAÇÃO

Cálculo da Mediana (Me, me, :


1. Ordenar a amostra por ordem crescente (ou decrescente)
2. Localizar a mediana e observar o seu valor.

variável “número de descendentes”

Amostra ordenada
n=20 (par), a mediana obtém-se através da expressão:
2.5.1 – MEDIDAS DE LOCALIZAÇÃO

Moda (Mo, mo):


• valor da amostra que se repete mais vezes, isto é, que tem maior
frequência simples (absoluta ou relativa).
• Só pode ser usada como medida de tendência central quando existe
apenas um valor com maior frequência.
Número de fa
Neste caso quer a modalidade 0 como a modalidade 1 descendentes
têm a mesma frequência absoluta simples (igual a 6) 0 6

logo existem duas modas, Mo=0 e Mo=1. 1 6


2 2
3 4
A amostra diz-se BIMODAL. 4 2
2.5.1 – MEDIDAS DE LOCALIZAÇÃO

Média ( :

• Representa o “centro de gravidade” da amostra, i.é., o ponto da


distribuição em torno do qual se equilibram as discrepâncias positivas e
negativas.
• Situa-se entre os valores mínimo e máximo da amostra.
• É um valor que pretende ser o resumo de todos os valores da amostra
(pode ser um valor não presente nas diferentes modalidades da
amostra).
• Permite constatar, na comparação de dois ou mais grupos, qual o que
tem valores mais elevados.
2.5.1 – MEDIDAS DE LOCALIZAÇÃO

Cálculo da Média (aritmética):


• Dados não agrupados: Somam-se todos os valores da amostra e divide-se
pelo número de observações

• Dados agrupados: Somam-se todos os produtos entre cada uma das


modalidades da amostra e a respetiva frequência absoluta (fa) e divide-se
esse resultado pela dimensão da amostra

onde k é o número de modalidades (valores distintos) na amostra.


2.5.1 – MEDIDAS DE LOCALIZAÇÃO

Cálculo da Média (aritmética):

• Dados não agrupados:

Número de fa
descendentes
0 6
1 6
• Dados agrupados:
2 2

× × × × × 3 4
4 2
2.5.1 – MEDIDAS DE LOCALIZAÇÃO

Quando trabalhamos com a variável “altura”, os dados são agrupados em classes,


perdendo assim alguma informação. Desta forma, utilizando os dados agrupados, não é
possível calcular o valor exato da média.

Nestas situações devemos, sempre que seja possível, utilizar os dados não agrupados no
cálculo da média.

Se tal não for possível, podemos calcular uma aproximação para o valor da média,
utilizando a marca , , de cada classe k como valor de na fórmula da média para
dados agrupados:
2.5.2 – MEDIDAS DE LOCALIZAÇÃO

Percentil de ordem p (Pp):

O valor de pode ser interpretado como

• a percentagem de valores da amostra inferiores ou iguais a é pelo menos p

• é o valor acima do qual estão, quando muito, (100 – p)% dos elementos da
amostra.

𝑛𝑝
𝑥 ( ) 𝑘= não é inteiro
100
𝑃 =
𝑥 +𝑥 𝑛𝑝
𝑘= é inteiro
2 100
2.5.2 – MEDIDAS DE LOCALIZAÇÃO
Amostra ordenada da v.e. “número de descendentes”

𝑛𝑝
𝑥 ( ) 𝑘= não é inteiro
100
𝑃 =
𝑥 +𝑥 𝑛𝑝
𝑘= é inteiro
2 100

×
que não é um número inteiro,
( , ) , .

Pelo menos 11% dos cavalos têm 0 descendentes e, no máximo, 89% dos cavalos têm mais
do que 0 descendentes.
2.5.2 – MEDIDAS DE LOCALIZAÇÃO
Amostra ordenada da v.e. “número de descendentes”
𝑛𝑝
𝑥 ( ) 𝑘= não é inteiro
100
×
𝟎 que é um número inteiro, 𝑃 =
𝑥 +𝑥 𝑛𝑝
𝑘= é inteiro
2 100
.

Pelo menos 40% dos cavalos têm até um descendente e, no máximo, 60% dos cavalos têm
dois ou mais descendentes.
Nº Fr
Com a coluna da frequência relativa acumulada facilmente se descendentes (%)
0 30
identificam os percentis: 1 60
2 70
a modalidade 0 contém os percentis 0 a 30 3 90
a modalidade 1 contém os percentis 31 a 60 4 100
… Totais
2.5.2 – MEDIDAS DE LOCALIZAÇÃO

Quartis (Q1, Q2 e Q3 )

Os quartis são casos particulares de percentis. Como o


próprio nome sugere, os quartis dividem a amostra em
4 partes com igual número de observações, ou seja,
cada uma dessas partes contém 25% dos dados da
amostra.

Primeiro quartil: Q1= P25


Segundo quartil: Q2= P50 (também é a mediana)
Terceiro quartil: Q3=P75

Considerando novamente a variável “número de descendentes” de uma amostra


ordenada , temos que
Q1= P25 , Q2= P50 e Q3=P75 .
2.5 - OBSERVAÇÃO

As medidas de localização devem ser utilizadas para, de uma forma muito sucinta,
transmitir informação sobre a amostra em causa. Devemos no entanto ser cuidadosos na
sua interpretação e conhecer as suas limitações.

Num exemplo anterior, verificamos que, no que diz respeito ao número de descendentes,
.

Não podemos, no entanto, afirmar que a percentagem de cavalos com um ou menos


descendentes é 50%. Tal como explicado anteriormente, o valor deste percentil permite-
nos afirmar que a percentagem de cavalos com um ou menos descendentes é pelo menos
50%.

Repare que a percentagem exata de cavalos da amostra com um ou menos descendentes é


60%.
MEDIDAS DE LOCALIZAÇÃO Tendência Central

Estatísticas Vantagens Desvantagens


• É uma medida conhecida. • Não representa bem conjuntos com
• Facilmente calculada. tendências extremas.
Média • Boa para comparar grupos semelhantes. • Muito influenciada por valores atípicos.
• Só pode ser calculada para dados
quantitativos.
• Não recomendável em dados discretos
• Não depende de todos os valores do conjunto de • Menos conhecida do que a média.
Mediana dados • Não é tão simples de interpretar
• Mais resistente a valores grandes e a valores quando existem valores repetidos.
atípicos.
• Pouco afetada por distribuições assimétricas.
• Pode ser obtida para variáveis qualitativas
ordinais.
• Não depende de todos os valores observados • Só pode ser usada como medida de
Moda nem da sua ordenação tendência central se a amostra for
• Não é influenciada por valores grandes nem por unimodal.
valores atípicos.
• Pode ser apresentada para qualquer tipo de
variável.
2.6 - MEDIDAS DE DISPERSÃO

Existem outras medidas estatísticas, denominadas medidas de dispersão, que nos fornecem
informações quanto ao grau de variabilidade dos elementos da amostra.

Amplitude total (A= ) - diferença entre os valores máximo e mínimo da amostra

Amplitude interquartil (AIQ= Q3-Q1) - diferença entre o terceiro e o primeiro quartil.


Sabemos que 50% dos dados da amostra estão entre o
primeiro e o terceiro quartil
2.6 - MEDIDAS DE DISPERSÃO

A variância e o desvio-padrão são as medidas estatísticas que mais se utilizam para


caracterizar a dispersão dos valores da amostra em relação à média.

Variância (corrigida)
∑ ̅
Dados não agrupados:
∑ ̅
Dados agrupados:

Obs. Se n>30 então a variância calcula-se dividindo por n e não por n-1.

Desvio-padrão, s, é igual à raiz quadrada da variância.

NOTA: A média e o desvio-padrão têm a mesma unidade de medida da variável, mas o mesmo não acontece com a variância.
2.6 - MEDIDAS DE DISPERSÃO

O coeficiente de variação (CV) é uma medida que expressa a variação dos dados em
relação à média.
• é a razão entre o desvio padrão e a média: ̅
• é um número adimensional, ou seja, não depende da unidade de medida usada na
recolha dos dados.
• Usa-se (em vez do desvio-padrão) para fazer comparação entre conjuntos de dados
com diferentes unidades ou médias muito diferentes.

Dependendo do valor do CV, a dispersão diz-se:


• Fraca se CV 15% ;
• Média se 15% < CV 30%;
• Forte se CV 30%.
(Pestana, M.H., Gageiro, J.N., Análise de Dados para Ciências Sociais, 2008)
2.7 – PROPRIEDADES DA MÉDIA E DA VARIÂNCIA

Considere uma amostra que originou uma média e a variância 2 .

• Se a todos os dados da amostra for adicionado o mesmo valor constante a, passamos


a ter uma nova amostra , onde:

 a média desta nova amostra é


 e a variância é 𝟐
𝒚
𝟐 .
𝒙

• Se todas observações da amostra forem multiplicadas pelo mesmo valor constante a,


passamos a ter uma nova amostra ), onde:

 a média desta mesma amostra é


 e a variância é 𝟐 𝒛 𝟐 𝟐 .
𝒙
2.8 - OUTLIERS

• Os outliers são dados da amostra que estão longe da generalidade dos restantes
dados. Por outras palavras, são valores atípicos num conjunto de dados e são
problemáticos para muitas análises estatísticas, pois podem fazer com que os testes
percam resultados significativos ou distorçam resultados reais.

• Infelizmente, não existem regras estatísticas rigorosas para identificar definitivamente


os outliers.

• A descoberta de outliers depende do conhecimento da área do assunto e da


compreensão do processo de recolha de dados. Embora não exista uma definição
matemática sólida, existem orientações e testes estatísticos que podem ser usados
para encontrar candidatos mais distantes.
2.8 - OUTLIERS

Para demonstrar o quanto um único outlier pode afetar os resultados, vamos examinar
as propriedades de um conjunto de dados referentes, por exemplo, a medições de
altura de 15 alunos com idades entre os 13 e os 20 anos. Um desses valores é um
outlier. A tabela abaixo mostra a altura média com e sem o outlier.

Com Outlier Sem Outlier Diferença


2.4m 1.8m 0.6m
0.5m 1.6m 1.1m
2.8 - OUTLIERS

• Uma das métricas mais utilizadas em estatística para identificação de outliers é o quartil.

• Na figura seguinte temos um diagrama de


extremos e quartis (gráfico de caixa de bigodes
ou boxplot), que mostra os dados da perspetiva
dos quartis.

• A caixa representa os quartis, a linha verde a


mediana, acima vê-se o limite superior e abaixo
o limite inferior.

• Calculando a Amplitude interquartil (AIQ), é


bastante provável que o ponto no topo do gráfico seja um outlier neste conjunto de
dados.
2.8 - OUTLIERS

A distribuição seguinte mostra as classificações obtidas


no exame de condução por 19 pessoas.
Quantos outliers se observam?

Algumas pessoas poderiam dizer que há 5 outliers, mas outras pessoas poderiam discordar
dizendo que há 3 ou 4 outliers.

Uma regra comum diz que um dado é um outlier se estiver mais de 1,5.AIQ acima do terceiro
quartil ou abaixo do primeiro quartil.

Ou seja,
Os outliers inferiores estão abaixo de Q1−1,5 AIQ
Os outliers superiores estão acima de Q3+1,5 AIQ
2.8 - OUTLIERS

Classificações ordenadas: 5, 7, 10, 15, 19, 21, 21, 22, 22, 23, 23, 23, 23, 23, 24, 24, 24, 24, 25

1º Passo: determinar os quartis


Q1= P25= 19
Q2 = Mediana= P50= 23
Q3= P75= 24

2º Passo: calcular a Amplitude Interquartis AIQ = Q3-Q1= 24-19=5


3º Passo: Calcular o produto 1,5xAIQ = 7,5

4º Passo: Conclusão
Q1−1,5 AIQ = 19-7,5=11,5 ------> 3 outliers inferiores: 5, 7 e 10

Q3+1,5 AIQ = 24+7,5=31,5 ------> Não há outliers superiores.


2.8 - OUTLIERS

Os diagramas de extremos e quartis representam, frequentemente, os outliers como pontos


que estão separados do restante diagrama.

• Aqui está um diagrama de extremos e quartis para


a distribuição anterior que não representa os outliers.

• Aqui está um diagrama de extremos e quartis para


a distribuição anterior que representa os outliers.

Obs: Os outliers são apresentados como pontos e o diagrama teve de mudar. O diagrama
prolonga-se até ao ponto do conjunto de dados que não é um outlier, que é 15.

Você também pode gostar