Estatística Descritiva e A D - Medidas de Assimétria e de Concentração

1
Unidade II - Estatística descritiva e análise exploratória de dados.
2.1. Generalidades
A Estatística é uma ferramenta imprescindível a qualquer pesquisador ou pessoa

que necessite tomar decisões. O seu estudo não representa uma tarefa muito
fácil, principalmente no início, quando são apresentados muitos conceitos novos
que exigem um tipo especial de raciocínio.
Diariamente, torna-se cada vez mais necessário tomar decisões rápidas e bem
fundamentadas. As probabilidades e estatística podem ser pensadas como a
ciência de aprendizagem a partir de dados, fornecendo métodos que auxiliam o
processo de tomada de tais decisões através da análise dos dados disponíveis.
Mahaluça (2016), destaca que as primeiras aplicações da Estatística estavam

voltadas para as necessidades de Estado, na formulação de políticas públicas,
fornecendo dados demográficos e económicos à administração pública. A
abrangência da estatística aumentou no começo do século XIX para incluir a
acumulação e análise de dados de maneira geral. Hoje, a estatística é largamente
aplicada nas ciências naturais, sociais, na administração pública e privada e
outros.
Tendo seus fundamentos Matemáticos postos por Pascal e Fermat, no século

XVII com o desenvolvimento da teoria das probabilidades, que surgiu com o
estudo dos jogos de azar; por Carl Friedrich Gauss em volta de 1794, ao
descrever o método dos mínimos quadrados pela primeira vez.
O termo estatística deriva do neolatim statisticum collegium (conselho de Estado)

e do Italiano statista (estadista ou político). O alemão Statistik, introduzido pela
primeira vez por Gottfried Achenwall (1749), designava originalmente a análise de
dados sobre o Estado, significando a "ciência do Estado", então chamada
aritmética política, com o propósito de fornecer os dados a serem usados pelo
governo e outras organizações. A palavra adquiriu o significado de colecta e
classificação de dados em geral através de Sir John Sinclair.
Por Agnaldo Bongo/2023

2
A Estatística é geralmente tida não como um ramo da Matemática, mas como

uma área distinta, ainda que intimamente relacionada. Por outras palavras, é uma
ciência que fornece os princípios e técnicas para colecta, organização ou
selecção, descrição, analise e interpretação de dados experimentais.
2.1.1. População e Amostra
Muitas vezes não é desejável nem viável inquirir todos os elementos da

população que se pretende estudar, especialmente quando o número de
elementos da população é muito elevado. Daí que se seleciona um subgrupo que
seja representativo da população, ou seja, recolhe-se uma amostra.
Durante o processo de selecção é necessário ter em consideração os seguintes

conceitos:
• População: grupo de todos os elementos que se pretende estudar e que
possuem uma característica (ou mais) em comum. A população pode ser

classificada como finita e infinita.
População finita: nesses casos o número de elementos de um grupo não é muito

grande, a entrevista e a análise das informações devem abordar a todos do grupo.
Por exemplo: As condições das escolas particulares na cidade de Kuito. Se
observarmos o grupo chegaremos à conclusão de que o número de escolas
particulares no Kuito é considerado finito.
População infinita: o número de elementos nesse caso é muito elevado, sendo

considerado infinito. Por exemplo: A população da cidade de Luanda.
• Parâmetros: são as medidas relativas a uma população, usualmente, são

desconhecidos (mas fixos) e que, portanto, pretendem-se conhecer.
• Amostra: subgrupo da população selecionado para análise.
A amostra deve ser representativa da população, isto é, deve conter todas as

características, já que por meio dessa amostra serão tiradas as conclusões para
toda a população.

3
As razões que levam os pesquisadores a trabalhar com amostras e não com toda
a população são poucas, mas absolutamente relevantes: Custo e demora dos
censos; Populações muito grandes; Impossibilidade física de examinar toda a
população; Comprovado valor científico das informações colectadas por meio de
amostras.
• Medidas estatísticas: são medidas relativas à amostra. O valor destas
estatísticas varia de amostra para amostra (logo é uma variável aleatória v. a.).
A tabela abaixo apresenta as principais medidas estatísticas de interesse e a

respectiva notação estatística.
Medida População Amostra (valor Amostra

estatística (parâmetro) observado) (estatística - v. a.)
Dimensão 𝑁 𝑛 --
Média 𝜇 𝑥̅ 𝑋̅
Proporção 𝑝 𝑝̅ 𝑃̅
Variância 𝜎2 𝑠2 𝑆2
Desvio padrão 𝜎 𝑠 𝑆
Coeficiente de 𝜌 𝑟 R
correlação
• Amostragem, denomina-se como sendo, o processo utilizado para selecionar
uma amostra a partir de uma população. Esta selecção pode ser realizada
recorrendo a dois tipos de métodos:
▪ Probabilísticos, aleatório ou casual: cada um dos elementos da população
tem hipóteses de ser incluído na amostra, sendo possível medir com rigor qual a
probabilidade de tal suceder, através do cálculo de probabilidades. E pode ser :
o Amostragem aleatória simples: com reposição e sem reposição;

o Amostragem Sistemática;

4
o Amostragem estratificada;
o Amostragem por grupos, e outras.
▪ Não probabilísticos também designados por amostragem dirigida: não
permitem definir com rigor ou calcular as probabilidades de inclusão dos diferentes

elementos da população na amostra. Estes processos são de um modo geral mais
económicos e expeditos. E podem ser:
o Amostragem por conveniência;

o Amostragem subjetiva;
o Por julgamento (intencional) ;
o Por quotas ;
o “Bola de neve” , entre outras.
As etapas que compreendem a selecção da amostra, de forma a garantir que os

objectivos são atingidos, são:
1. Definição dos objectivos do estudo.
2. Definição da população alvo: grupo de todos os indivíduos sobre os quais se

pretendem tirar conclusões.
3. Decisão sobre os dados a observar.
4. Escolher a técnica de amostragem a utilizar para recolher a amostra e o método

de recolha de dados (questionário, entrevista, …).
5. Calcular a dimensão da amostra.
6. Amostrar, ou seja, recolher a amostra.
2.1.2. Estatística Descritiva e Inferência Estatística
A estatística divide-se em duas áreas:
❖ Estatística descritiva: conjunto de técnicas apropriadas para recolher,

organizar, reduzir e apresentar dados estatísticos.
❖ Inferência estatística: conjunto de técnicas que, com base na informação
amostral, permite caracterizar uma certa população, requerendo o

5
conhecimento das probabilidades. Recorrendo a duas principais técnicas

como:
• Estimação: visa determinar o valor dos parâmetros desconhecidos.
• Testes de hipóteses: visa testar suposições acerca das características de
uma certa população.
Actividades
Em grupo, fazer uma abordagem sobre:
- Métodos robustos e Resistentes.
- Relevância da análise de dados.
2.2. Análise, Representação e Redução de Dados.
2.2.1. Dados qualitativos e quantitativos. Variáveis discretas e contínuas.
Você já aprendeu que os estatísticos colectam informações. Essas informações

podem ser sobre peso de pessoas, eficiência dum serviço, incidência de doenças,
causas de acidentes, quantidade de carros acidentados, etc. Veremos como essas
informações são organizadas para facilitar a leitura. Mas antes é necessário
aprender o que são dados e o que são variáveis.
Variável é uma condição ou característica das unidades da população; a variável

pode assumir valores diferentes em diferentes unidades. Por exemplo (1), a idade
das pessoas residentes em Cabinda é uma variável. Dados são os valores da
variável em estudo, obtidos por meio de uma amostra, ou seja, o resultado da
observação, que pode ser de tipo qualitativo ou quantitativo, das unidades
estatísticas que compõem um determinado conjunto.
As características qualitativas revestem diferentes modalidades ou categorias.

Enquanto que As características quantitativas revestem diferentes intensidades
ou valores.

6
Exemplo 2- O dono de um supermercado quer saber a opinião de seus clientes

sobre a qualidade dos serviços que presta. O que é variável e o que são dados
nesse problema?
Solução:
A variável de interesse é a opinião dos clientes. Os dados serão obtidos somente

quando o dono do supermercado começar a pedir aos clientes que dêem uma
nota a cada serviço. Então, se for pedido que o cliente dê uma nota de zero e 5 a
cada serviço que utiliza os dados colectados poderão ser, por exemplo, 4, 3, 2, 4,
1etc., por serviço.
Designa-se por unidade estatística, ou elemento, qualquer indivíduo, objeto ou

facto que é objeto da observação ou das conclusões.
Classificação dos dados/variáveis segundo a sua natureza
Segundo Mahaluça (2016, p. 15), os dados são do mesmo tipo que o das variáveis
. Por exemplo, uma variável discreta produz dados discretos.Tal como figura o
organigrama abaixo:
Variáveis
Qualitativas Quantitativas
(categorizadas) (numéricas)
Nominais ordinais Discretas Contínuas
Já Anabela e Nunes (2019), classificam os dados de modo similar a Mahaluça:

𝐸𝑠𝑐𝑎𝑙𝑎 𝑛𝑜𝑚𝑖𝑛𝑎𝑙
𝑄𝑢𝑎𝑙𝑖𝑡𝑎𝑡𝑖𝑣𝑜𝑠 {
Dados Estaistícos { 𝐸𝑠𝑐𝑎𝑙𝑎 𝑜𝑟𝑑𝑖𝑛𝑎𝑙
𝐷𝑖𝑠𝑐𝑟𝑒𝑡𝑜𝑠
𝑄𝑢𝑎𝑛𝑡𝑖𝑡𝑎𝑡𝑖𝑣𝑜𝑠 {
𝐶𝑜𝑛𝑡í𝑛𝑢𝑜𝑠
❖ Uma variável é qualitativa ou categorizada quando os dados são distribuídos

em categorias mutuamente exclusivas. São exemplos de variáveis qualitativas:
marca de automóvel (Toyota, Mazda, etc.); sexo (Masculino ou Feminino); Cor
dos olhos; etc

7
▪ A variável é nominal quando os dados são distribuídos em categorias

mutuamente exclusivas, mas são indicadas em qualquer ordem. São variáveis
nominais: cor de cabelos (loiro, castanho, preto, ruivo), tipo de sangue (O, A, B,
AB), género (masculino, feminino), etc.
▪ A variável é ordinal quando os dados são distribuídos em categorias
mutuamente exclusivas que têm ordenação natural. São variáveis ordinais:
Escolaridade (primeiro grau, segundo grau, terceiro grau), Classe social (A, B,
C, D, E), Gravidade de uma doença (leve, moderada, severa) etc.
❖ Uma variável é quantitativa ou numérica quando é expressa por números.
São exemplos de variáveis quantitativas: idade, altura, número de crianças
numa escola, número de lápis numa caixa.
▪ A variável discreta só pode assumir alguns valores em um dado intervalo.
São variáveis discretas: Número de filhos (0, 1, 2, 3, 4 etc.), Quantidade de
moedas num bolso (zero, 1, 2, 3 etc.), Número de pessoas numa sala.
▪ A variável contínua assume qualquer valor num dado intervalo. São variáveis
contínuas: peso, tempo de espera, quantidade de chuva etc.
Fases do método estatístico
1- Definição do problema: A primeira faze consiste na definição e formulação

correcta do problema a ser estudado;
2- Planificação: Definido o problema, é preciso determinar um processo para o
resolver e, em especial, como obter informações sobre a variável em estudo. é
nesta fase que se decide pela observação de toda a população ou de uma
amostra.
3- Recolha de dados: por Questionários, Observação, Experimentação,
Pesquisa Bibliográfica etc.
4- Organização de dados: há duas formas de apresentação que não excluem
mutuamente: Apresentação por tabelas e Apresentação por gráficos.
5- Análise e interpretação de dados: calculam-se novos números com base nos
dados estatísticos. Estes novos números permitem fazer uma descrição do
fenómeno evidenciando algumas das suas características.

8
Actividades:
1. Para a realização de um estudo sobre o hábito de fumar dos jovens

Huílanos do ensino superior.
Problema: Porque que os jovens huilanos fazem o consumo do tabaco?
a) Identifique:
i. A população. R: Jovens Huilano que frequentam o ensino superior.
ii. Uma amostra. R: Estudantes do ensino de três Instituições publico-privadas.
iii. As unidades estatísticas/indivíduos.R: Estudantes dos 18 aos 60 anos.
iv. Os dados estatísticos. R: Dados quantitativos: Idade, tempo de consumo,

quantos cigarros fuma por dia, nivel de escolaridade…
Dados qualitativos: Estatura, genero, Marca mais consumida, qualidade de vida

dos estudantes, rendimento acadêmico…
b) Na elaboração do questionário como é que formularia a questão sobre o

consumo de tabaco, de forma a obter uma variável medida numa escala:
i. Nominal? R: Estatura, cor dos olhos, situação estomatológica,
ii. Ordinal? R: Nivel de escolaridade, rendimento academico ( muito bom, bom ,

razoavel, nediucre, mau , muito mau. Classe socil ( baixo, média, alta)
iii. Quantitativa?
c) Resumidamente, diga como exploraria/descreveria a informação que obteria em

cada uma das situações apresentadas em b), por aplicação do questionário.
2.2.2. Tabulação e representação gráfica
2.2.2.1. Apresentação de dados em tabelas
Uma forma de resumir um conjunto de dados, composto por 𝑛 observações, é

através de uma tabela de frequências. Esta tabela disponibiliza um acesso
rápido ao número, à percentagem ou proporção de elementos observados com

9
uma determinada característica ou valor ou intervalo de valores (as chamadas

classes de valores).
Obs.: Uma tabela de frequências relaciona as categorias ou classes de valores

com o número de ocorrências (frequências absolutas) e com a proporção
(frequência relativa) de observações que pertencem a cada categoria ou classe.
• Frequências absolutas: é o número de vezes que o valor foi observado.
• Frequências relativas: é o quociente entre a frequência absoluta da variável e o

número total de observações.
As distribuições de frequências podem-se classificar:
• Ordinárias: a cada valor ou classe de valores da variável corresponde a sua

frequência.
• Acumulada: a cada valor ou classe de valores da variável corresponde a sua

frequência mais a de todos os valores, ou classes de valores a nteriores (ou
posteriores).
As categorias ou classes de valores devem ser:
1. Mutuamente exclusivas, ou seja, cada valor observado só poderá pertencer a

uma das categorias ou classes.
2. Exaustivas, ou seja, as categorias ou classes devem compreender todos os

valores observados.
A notação utilizada nas tabelas de frequências é: 𝐾- número de categorias/valores

distintos/classes de valores que os dados assumem;
𝑛𝑖 - frequência absoluta da categoria/valor/classe de valores 𝑖, 𝑖 = 1, … ,𝐾;
𝑛 =∑𝑘𝑖=1. 𝑛𝑖 - dimensão do conjunto de dados, ou seja, número total de

observações;
𝑛𝑖
𝑓𝑖 = - frequência relativa da categoria/valor/classe de valores 𝑖;
𝑛

10
𝑁𝑖 = ∑𝑖𝑘=1. 𝑛𝑘 - frequência absoluta acumulada da categoria/valor/classe de

valores 𝑖 ;
𝑁𝑖
𝐹𝑖 = = ∑𝑖𝑘=1. 𝑓𝑘 - frequência relativa acumulada da categoria/valor/classe de
𝑛
valores 𝑖.
2.2.2.1.1. Dados qualitativos ou quantitativos discretos (dados agrupados).
A sua disposição prática é designada por quadro de frequências.
Exemplo: Foram examinados 100 lotes de 50 peças produzidas por uma máquina,
para verificação do número de peças defeituosas por lote. Os resultados
apresentam-se no seguinte quadro:
Nº de peças defeituosas Nº de lotes

por lote
0 3
1 11
2 21
3 30
4 23
5 7
6 5
Total 100
Represente os dados em frequências absolutas e relativa:
Frequências Absolutas Frequências Relativas

Valor da variável Ordinárias(𝑛𝑖 ) Acumuladas(𝑁𝑖) Ordinárias (𝑓𝑖 ) Acumuladas (𝐹𝑖)
0 3 3 0.03 0.03
1 11 14 0.11 0.14
2 21 35 0.21 0.35
3 30 65 0.30 0.65
4 23 88 0.23 0.88
5 7 95 0.07 0.95
6 5 100 0.05 1.00
Total 100 :::::::::::: 1.00 ::::::::::
Actividade:
Num estudo para analisar a ocorrência de acidentes de trabalho num determinado

hospital, em 397 profissionais de saúde verificou-se que 16 não sofreram qualquer

11
acidente, 32 tiveram 1 acidente, 89 reportaram 2 acidentes, 137 sofreram 3

acidentes, 98 sofreram 4 acidentes e 25 profissionais reportaram 5 acidentes.
Constroi a tabela de frequências relativa ao número de acidentes por profissional.
2.2.2.1.2. Dados quantitativos contínuos (dados agrupados em intervalo de

classe)
Quando os dados são do tipo quantitativo contínuo então é necessário definir 𝐾

classes de valores, que constituem as categorias dos dados em estudo. A forma
como se definem as classes condiciona os resultados que apenas são válidos
para a classificação efectuada. Seja qual for o método utilizado é aconselhável
não obter um número muito elevado nem muito reduzido de classes
(habitualmente 5 ≤ 𝐾 ≤ 20).
Para tal devemos ter em conta o seguinte:
1º Determinar o número 𝐾 de classes a construir, com base nas 𝑛 observações,

ln(n)
fazendo (regra de Sturges): 𝐾 = [ln(2) ] + 1.
0nde [número] representa a parte inteira do número obtido (por ex: [7,1] = 7 e [4,9]
= 4).
2º Determinar a amplitude 𝑎 do conjunto de dados fazendo: 𝑎 = máximo − mínimo.

𝑎
3º Determinar a amplitude 𝑎𝑐 de cada uma das classes fazendo: 𝑎𝑐 = 𝐾 .
4º Construir as classes 𝑐𝑖 da seguinte forma:
𝐶1 = [mínimo; mínimo + 𝑎𝑐[
𝐶2 = [mínimo + 𝑎𝑐; mínimo + 2 × 𝑎𝑐[
𝐶𝐾 = [mínimo + (𝐾 − 1) × 𝑎𝑐; mínimo + 𝐾 × 𝑎𝑐].
Exemplo: O Sr. Nambalo decidiu dedicar-se à criação de leitões, que vende

quando atingem os dois meses de idade e pesam mais de 9kg. Pretendendo fazer

12
um estudo sobre os lucros obtidos com essa atividade, resolveu pesar 60 leitões
com dois meses de idade, tendo obtido os seguintes resultados:
4,1 5,8 5,8 6 ,1 6,7 7,0 7,0 7,5 7,5 7,5
7,7 8,2 8,3 8,5 8,7 8,8 9,0 9,0 9,1 9,1
9,1 9,2 9,2 9,2 9,2 9,4 9,4 9,4 9,5 9,5
9,7 9,8 10,0 10,0 10,2 10,2 10,3 10,6 10,6 10,8
10,9 10,9 11,0 11,1 11,1 11,6 11,7 11,8 11,8 11,8
12,0 12,2 12,2 12,3 12,5 12,6 12,7 14,0 14,2 14,8
Constroi a tabela de frequência relativa aos pesos dos leitões.
Solução:
N.º de observações: 𝑛 = 60 K= [ 𝑙𝑛(60)/ 𝑙𝑛(2) ] + 1 = [5,9] + 1 = 5 + 1 = 6
10,7
𝑎 = 14,8 − 4,1 = 10,7 𝑎𝑐 = 6
≈ 1,8
Classes: 𝑐1 = [4,1; 5,9[; 𝑐2 = [5,9; 7,7[; 𝑐3 = [7,7; 9,5[; 𝑐4 = [9,5; 11,3[; 𝑐5 = [11,3;
13,1[; 𝑐6 = [13,1; 14,9]
LIi + LSi
Sendo 𝑥𝑖 , o ponto médio ou centro das classes 𝑐𝑖 : 𝑥𝑖 , = .
2
Daí, tem-se:
Pesos em kg 𝑥𝑖 , 𝑛𝑖 𝑁𝑖 𝑓𝑖 𝐹𝑖
(𝑐𝑖 )
[4,1; 5,9[ 5 3 3 0,0500 0,0500

[5,9; 7,7[ 6,8 7 10 0,1167 0,1667
[7,7; 9,5[ 8,6 18 28 0,3000 0,4667
[9,5; 11,3[ 10,4 17 45 0,2833 0,7500
[11,3; 13,1[ 12,2 12 57 0,2000 0,9500
[13,1; 14,9] 14 3 60 0,0500 1,0000
Total 60 1,0000

13
Actividade:
Os dados a seguir, referem-se á percentagem de algodão, no material usado para

confeccionar camisas de homem:
34.2 33.6 33.8 34.7 37.8 32.6
33.1 34.7 34.2 33.6 36.6 33.1
34.5 35.0 33.4 32.5 35.4 34.6
35.6 35.4 34.7 34.1 34.6 35.9
36.3 36.2 34.6 35.1 33.8 34.7
Organiza os dados em tabela de frequências de dados agrupados em intervalos

de classe.
2.2.2.2 Apresentação de dados em gráficos
Os gráficos mais utilizados para representar os dados são:
▪ Gráfico circular – dados qualitativos;

▪ Gráfico de barras – dados qualitativos ou quantitativos discretos;
▪ Gráfico de frequências acumuladas – dados qualitativos na escala ordinal ou
quantitativos discretos;
▪ Histograma – dados quantitativos contínuos;
▪ Polígono de frequências – dados quantitativos;
▪ Polígono de frequências acumuladas – dados quantitativos contínuos;
▪ Caixa-de-bigodes – dados não agrupados quantitativos.
2.2.2.2.1. Gráfico circular
Um gráfico circular (sector, pizza) é constituído por um círculo dividido em tantas

fatias quantas as categorias da variável. O tamanho das fatias é determinado pelo
número ou percentagem de observações nas categorias (𝑖) e pelas frequências

14
absolutas (𝑛𝑖) ou pelas relativas (𝑓𝑖), em que 1% no gráfico circular equivale a

3,6𝑜 .
Exemplo genérico de um gráfico circular:
Situação
9% Categoria A
10%
Categoria B
23% 58% Categoria C
Categoria D
Exemplo 2: A tabela a seguir, consiste no número de assentos alocados para cada

partido, além de uma percentagem do grupo total que eles compõem. Baseado no
resultado preliminar das Eleições Parlamentares Europeias em 2004.
Grupo Assentos
EUL 39
PES 200
EFA 42
EDD 15
ELDR 67
EPP 276
UEN 27
Outros 66
Total 732
Faça a reprepresentação circular.
2.2.2.2.2. Gráfico de barras
Um gráfico de barras é um diagrama de barras, usualmente verticais, sendo cada

barra associada a cada uma das categorias da variável. A altura das barras é
determinada pelas frequências absolutas, 𝑛𝑖 ou as relativas 𝑓𝑖 .
Exemplo genérico de um gráfico de barras:

15
Frequência absoluta/Relativa Título do Gráfico
5
4
3
2
1
0
Categoria 1 Categoria 2 Categoria 3 Categoria 4
Título do Eixo
ni / fi
Exemplo 2: Baseando-se nos resultados da tabela anterior construa o gráfico de

barras.
2.2.2.2.3. Gráfico de frequências acumuladas
Um gráfico de frequências acumuladas, ou diagrama integral, é um gráfico de

linhas onde são representadas as frequências absolutas, 𝑁𝑖 , ou relativas, 𝐹𝑖 ,
acumuladas. Este gráfico apresenta a frequência acumulada de cada uma das
categorias/valores, notando que até à primeira categoria/valor a frequência
acumulada é nula. Para categorias/valores superiores à última, a frequência
acumulada toma o valor 𝑛, se forem representadas as frequências 𝑁𝑖 , ou 1, se
forem representadas as frequências 𝐹𝑖 .
Exemplo 1- gráfico de barras com frequências acumuladas:

16
Exemplo 2: Baseando-se nos resultados da tabela anterior, construa o gráfico de

barras com frequências acumuladas.
2.2.2.2.4. Histograma
Um histograma é um gráfico de barras verticais adjacentes, com uma barra

associada a cada uma das classes da variável. A base de cada barra é
proporcional à amplitude da respectiva classe e a área proporcional às frequências
absolutas, 𝑛𝑖 ou relativas, 𝑓𝑖.
Exemplo genérico de um histograma:
Exemplo 2: A tabela a seguir representa o salário mensal em Kwanzas (kz) de

funcionários de uma fábrica de tijolos:
Salário 𝑛𝑖
[2000---4000[ 10
[4000---6000 [ 14
[6000---8000 [ 11
[8000---10000 [ 18
[10000---12000 [ 12
[12000---14000 [ 15
Total 80

17
Esboce o histograma correspondente.
Obs.: Quando as classes têm amplitudes diferentes é necessário transformar as

frequências absolutas ou relativas, para que se verifique a proporcionalidade entre
a altura das barras e a sua base e se garanta que a área é igual a 𝑛 ou a 1 (com
base nas frequências absolutas e relativas, respetivamente. Assim as frequências
absolutas e relativas a representar são:
𝑛𝑖 𝑓𝑖
𝑛𝑖 = 𝑎𝑖 e 𝑓𝑖 = 𝑎𝑖
onde 𝑎𝑖 é a amplitude da classe 𝑖.
2.2.2.2.5. Polígono de frequências
Um polígono de frequências é um gráfico de linhas onde são representadas as

frequências absolutas, 𝑛𝑖, ou relativas, 𝑓𝑖, nos pontos médios das classes. Para
fechar o polígono é necessário criar uma classe adicional em cada um dos
extremos, com amplitude igual à classe adjacente e com frequência nula.
Os polígonos de frequência para dados agrupados, constroem-se a partir da

marca de classe que coincide com o ponto médio de cada coluna do histograma.
No mesmo, o ponto que tiver mais altura num polígono de frequência representa a
maior frequência, ao passo que a área abaixo da curva inclui a totalidade dos
dados existentes.
Exemplo 1 – polígono genérico de frequências:

18
Obs.: A área sob o polígono deverá ser igual à área do histograma, pelo que
quando as classes têm amplitudes diferentes é necessário transformar as
frequências absolutas ou relativas conforme já foi referido anteriormente.
Exemplo 2 - Esboce o polígono de frequências correspondente á tabela que

representa o salário mensal em Kwanzas (kz) de funcionários de uma fábrica de
tijolos.
2.2.2.2.6. Polígono de frequências acumuladas
Um polígono de frequências acumuladas, ou polígono integral, é um gráfico de

linhas onde são representadas frequências absolutas, 𝑁𝑖 , ou relativas, 𝐹𝑖 ,
acumuladas. A frequência acumulada para valores inferiores ao limite inferior da
primeira classe é nula e a frequência acumulada para valores superiores ao limite
superior da última classe é 𝑛.
Exemplo 1- Polígono de frequências acumuladas:
Exemplo 2 - Baseando-se nos resultados da tabela anterior Esboce o polígono de

frequências acumuladas correspondente.
2.2.2.2.7. Caixa-de-bigodes
Uma caixa de bigodes é um gráfico que contém por um retângulo, dividido em

duas partes, que situa os quartis. Os bigodes da caixa situam os pontos
adjacentes inferior e superior, ou seja, o menor e maior valores observados que
ainda não são considerados observações atípicas. Os asteriscos identificam os
valores atípicos, ou seja, os valores observados muito pequenos e muito grandes

19
(com ordens de grandeza que implicam que sejam classificados como valores
anómalos).
Da caixa de bigodes (ou diagrama de caixa ou boxplot) podem-se extrair as

seguintes características de um conjunto de dados:
▪ Localização;
▪ Dispersão;
▪ Assimetria;
▪ Valores atípicos (ou anómalos ou outliers).
Exemplo genérico de uma caixa de bigodes:
Onde:
➢ 𝐴𝐼 – Menor valor não atípico (ponto adjacente inferior)

➢ 𝑄1 – 1º quartil
➢ 𝑥̃ – Mediana
➢ 𝑄3 – 3º quartil
➢ 𝐴𝑆 – Maior valor não atípico (ponto adjacente superior)
➢ o – Valores atípicos moderados
➢  – Valores atípicos severos
Exemplos genéricos de assimetria na caixa de bigodes.

20
Obs.: Trataremos de exemplos práticos após vermos as medidas de localização.
2.2.3. Medidas de Localização
São medidas descritivas que localizam os valores observados na distribuição.

Podem ser:
▪ Tendência central: média, mediana e moda;

▪ Tendência não central: quantis (percentis, decis e quartis).
2.2.3.1. Medidas de Tendência central
As medidas de tendência central indicam os pontos em torno dos quais se

encontram os valores da variável estatística, ou seja, localizam a distribuição. As
principais medidas de localização são:
❖ Média aritmética
A média aritmética ou, abreviadamente, média, 𝑥̅ , é a medida de localização mais

correntemente utilizada. subdivide-se em dois tipos: simples e ponderada.
• A média aritmética simples da variável estatística 𝒙 define-se por:
Exemplo 1: Média aritmética simples (dados não agrupados)
A tabela abaixo mostra as notas de matemática de um aluno em um determinado

ano:
1° Trimestre 3,5 12
2° Trimestre 7,5 8,25
3° Trimestre 9,0 16,75
Determine a nota média trimestral.

21
∑ 𝑥𝑖 𝑥1 + 𝑥2 + 𝑥3 8,25 + 12 + 16,75 37
𝑥̅ = = = = = 12,3
𝑛 3 3 3
Interpretação: Ter média 12,3 significa dizer que, apesar de ter obtido notas mais
altas ou mais baixas em outros Trimestres, a soma das notas (37) é a mesma que
ele alcançaria se tivesse obtido nota 12,3 em todos os Trimestres.
Exemplo 2: Média aritmética simples (dados agrupados)
Os salários semanais dos funcionários de uma empresa estão distribuídos na

tabela abaixo:
Salário (em Kz) Nº de

funcionários
40.000,00 5
90.000,00 2
150.000,00 2
500.000,00 1
Determine o salário médio semanal dos funcionários.
Recorrendo a tabela, vem:
𝑥𝑖 𝑛𝑖 𝑥𝑖 ∗ 𝑛𝑖
40.000 5 200.000
90.000 2 180.000
150.000 2 300.000
500.000 1 500.000
∑ 𝑥𝑖 ∗ 𝑓𝑖 10 1.180.000
∑ 𝑥𝑖 ∗𝑛𝑖 1180000
𝑥̅ = = = 118.000
𝑛 10
Interpretação: Em média cada funcionário recebe semanalmente 118.000,00 Kz.
Exemplo 3: Média aritmética (dados agrupados em intervalos de classe)
A tabela a seguir representa o salário mensal em Kwanzas de funcionários de uma

fábrica de tijolos:

22
Salário 𝑛𝑖
[2000; 4000[ 10
[4000; 6000 [ 14
[6000; 8000 [ 11
[8000; 10000 [ 18
[10000;12000 [ 12
[12000; 14000 [ 15
Total 80
Determine o salário médio mensal dos funcionários desta fábrica.
Recorrendo a tabela temos:
Classes 𝑥𝑖 𝑛𝑖 𝑥𝑖 ∗ 𝑛𝑖
[2000; 4000[ 3000 10 30000
[4000; 6000 [ 5000 14 70000
[6000; 8000 [ 7000 11 77000
[8000; 10000 [ 9000 18 162000
[10000;12000 [ 11000 12 132000
[12000; 14000 [ 13000 15 195000
Total ::::::::::::::: 80 666000
∑ 𝑥𝑖 ∗ 𝑛𝑖 666000
𝑥̅ = = = 8.325
𝑛 80
Interpretação: O salário médio mensal dos funcionários desta fábrica é de 8325

Kwanzas.
• Média aritmética ponderada
A média ponderada considera “pesos” para cada item, ou seja, em um conjunto de

dados, cada item recebe uma importância. Supondo que tem-se um conjunto com
𝑛 dados (𝑥1 , 𝑥2 , 𝑥3 , 𝑥4 , … , 𝑥𝑛 ) , onde cada dado receberá um peso, respectivamente
(𝑝1 , 𝑝2 , 𝑝3 , 𝑝4 , … , 𝑝𝑛 ). Cada item será multiplicado pelo seu peso. A média será dada
pela divisão entre esta soma e a soma dos pesos considerados, assim, a média
entre esses dados será dada por:

23
𝑥1 ∗ 𝑝1 + 𝑥2 ∗ 𝑝2 + 𝑥3 ∗ 𝑝3 + 𝑥4 ∗ 𝑝4 + ⋯ + 𝑥𝑛 ∗ 𝑝𝑛
𝑥̅ =
𝑝1 + 𝑝2 + 𝑝3 + 𝑝4 + ⋯ + 𝑝𝑛
Exemplo 4: Uma aluna fez uma prova e obteve nota 19,1 e um trabalho, com nota
8,7. A média considera que a prova tenha peso 6 e o trabalho peso 4. Determine a
média dessa aluna.
19,1 ∗ 6 + 8,7 ∗ 4
𝑥̅ = = 14,94
6+4
Interpretação: A média ponderada da aluna é de 14,94 valores.
❖ Mediana
É o valor que separa a metade maior e a metade menor de uma amostra, uma
população ou uma distribuição de probabilidade. Em termos mais simples,
mediana pode ser o valor do meio de um conjunto de dados.
A vantagem da mediana em relação à média é que a mediana pode dar uma ideia
melhor de um valor típico porque não é tão distorcida por valores extremamente
altos ou baixos. Em estudos estatísticos sobre renda familiar ou outros activos
voláteis, a média pode ser distorcida por um pequeno número de valores
extremamente altos ou baixos.
Para dados brutos ou agrupados, supondo as observações dos valores da variável

estatística ordenados sob forma crescente 𝑥1 ≤ 𝑥2 ≤ 𝑥3 ≤ 𝑥4 ≤ ⋯ ≤ 𝑥𝑛 , há a
considerar duas hipóteses:
• n = 2k + 1 (impar), neste caso 𝑥̃ = 𝑥𝑘+1 (observação central).

𝑥𝑘 +𝑥𝑘+1
• n = 2k (par), neste caso 𝑥̃ = (observação central).
2
Exemplo 5: Mediana (dados não agrupados e agrupados)
Considere os dados em Rol: 3, 4, 4, 5, 6, 8, 8, 8, 10. Determine a mediana.
Soluçao:
n = 9, isto é, n = 2k + 1 e k = 4. Então, 𝑥̃ = 𝑥𝑘+1 = 𝑥5 = 6

24
Pelo agrupamento dos dados, tem-se:
𝑥𝑖 𝑛𝑖 𝑁𝑖
3 1 1
4 2 3
5 1 4
6 1 5
8 3 8
10 1 9
Total 9 ::::::::::
9+1
Sendo n = 9 e = 5, então 𝑥̃ = 𝑥5 = 6 .
2
Actividade 1:
Considere os dados em
Rol: 2, 3, 4, 4, 5, 6, 8, 8, 8, 10. Determine a mediana.
Para dados agrupados em intervalo de classe, a mediana é o valor tal que a

ordenada levantada no ponto do eixo das abcissas divide a área do histograma
em duas partes iguais, isto é, a mediana será o valor da abcissa a que
𝑛
corresponde a frequência absoluta (relativa) acumulada , e a fórmula será dada
2
por:
𝟏
∗𝒏 − 𝑵𝒊−𝟏
𝟐
̃ = 𝒍𝒊𝒎𝒊𝒏𝒇 +
𝒙 ∗ 𝒂𝒊 , onde:
𝒏𝒊
• liminf − limite inferior da classe mediana;

• n - tamanho da amostra
• Ni−1 - frequência absoluta acumulada anterior a classe mediana
• ni - frequência absoluta simples da classe mediana
• ai - amplitude da classe mediana
Exemplo7: A tabela a seguir, representa o salário mensal em kwanzas, de


25
Salário 𝑛𝑖
[2000; 4000[ 10
[4000; 6000 [ 14
[6000; 8000 [ 11
[8000; 10000 [ 18
[10000;12000 [ 12
[12000; 14000 [ 15
Total 80
Determine o salário mediano dos funcionários desta fábrica.
❖ Moda
A moda amostral de um conjunto de dados trata do valor que ocorre com maior
frequência ou o valor mais comum em um conjunto de dados. A moda é
especialmente útil quando os valores (observações) não são numéricos, casos em
que a média e a mediana não podem ser definidas.
Uma amostra pode ser unimodal (uma moda), bimodal (duas modas), multimodal
(várias modas) e amodal (nenhuma moda).
Para dados brutos ou agrupados, a moda será aquele que apresentar maior
frequência.
Exemplo 8: Considere os dados em Rol: 3, 4, 4, 5, 6, 8, 8, 8, 10. Determine a

moda.
Solução: 𝑥̂ = 8.
Considerando os dados apresentados na tabela abaixo, vem:
𝑥𝑖 𝑛𝑖
3 1
4 2
5 1
6 1
8 3
10 1
Total 9

26
𝑥̂ = 8 , porque apresenta a maior frequência.
Para dados agrupados em intervalo de classe, a moda será dada por:

𝒏𝒊𝒙̂ − 𝒏𝒙̂𝒊−𝟏
̂ = 𝒍𝒊𝒎𝒊𝒏𝒇 +
𝒙 ∗ 𝒂𝒊 , (Moda do Czuber)
𝟐∗ 𝒏 ̂ −( 𝒏𝒙
𝒊𝒙 ̂𝒊−𝟏 + 𝒏𝒙
̂𝒊+𝟏 )
𝒏𝒙̂𝒊−𝟏
̂ = 𝒍𝒊𝒎𝒊𝒏𝒇 +
𝒙 ∗ 𝒂𝒊 , (Moda do King)
(𝒏 ̂𝒊−𝟏 + 𝒏𝒙
𝒙 ̂𝒊+𝟏 )
̂= 𝟑∗𝒙
𝒙 ̃−𝟐∗𝒙
̅ , (Moda do Pearson), onde:
• 𝑛𝑖𝑥̂ – frequência modal

• 𝑛𝑥̂𝑖−1 – frequência anterior a modal
• 𝑛𝑥̂𝑖+1 – frequência posterior a modal
• ai - amplitude da classe modal
Moda de King considera as classes adjacentes à classe modal, enquanto que,

Moda de Czuber considera as classes adjacentes à classe modal e à própria
classe modal.
Actividade 2 - A tabela a seguir representa o salário mensal em kwanzas, de

Salário 𝑛𝑖
[2000; 4000[ 10
[4000; 6000 [ 14
[6000; 8000 [ 11
[8000; 10000 [ 18
[10000;12000 [ 12
[12000; 14000 [ 15
Total 80
Determine o salário modal dos funcionários desta fábrica.

27
2.2.3.2. Medidas de Tendência não central
Estas medidas descritivas permitem localizar a posição de um valor dentro de um

conjunto de dados, é calculada para as variáveis qualitativas ordinais e
quantitativa (discreta e contínua). Pode ser calculado quando os valores
observados são expressos nas mesmas unidades de dados em estudo.
Far-se-á agora uma abordagem de suas princípais medidas.
❖ Quartil
É uma medida que divide um conjunto de dados em 4 partes iguais. Existem três
quartis nomeadamente (𝑸𝟏 , 𝑸𝟐 𝑒 𝑸𝟑 ), no qual determina-se da seguinte maneira:
• 𝑸𝟏 − Obtém-se, determinando a mediana do conjunto de valores observados

que ficam á esquerda da mediana (o 1º quartil será um valor da variável tal que o
número de observações para valores inferiores será 25%);
• 𝑸𝟐 − Corresponde a mediana (o 2º quartil terá a metade das observações, á

sua direita e outra metade á sua esquerda);
• 𝑸𝟑 − Obtém-se, determinando a mediana do conjunto de valores observados

que fica á direita da mediana (o 3º quartil será um valor tal que á sua esquerda
concentrar-se-ão 75% das observações).
Exemplo 9 - Considere o conjunto de valores observados: 3, 4, 4, 4, 5, 6, 8, 8, 8,

8, 10. Determine os valores de Quartis.
Solução:
Começa-se por determinar a mediana (𝑸𝟐 ) que é igual ao 2º quartil. O conjunto de

valores tem um número impar de termos, logo 𝑥̃ = 𝑄2 = 6 . A partir da mediana o
conjunto fica dividido em dois subconjuntos: 3, 4, 4, 4, 5 e 8, 8, 8, 8, 10.
As medianas desses subconjuntos são respectivamente iguais a 4 e 8, pelo que

𝑄1 = 4 e 𝑄3 = 8.

28
De outro modo, localizando as posições da medida Quartílica pela fórmula, vem:

𝑖
Para 𝒏 impar: 𝑝 = 4 ∗ (𝑛 + 1), sendo 𝑝 a posição de cada dado (𝑥𝑝 )
1
Para 𝒏 par: 𝑝 = 4 ∗ (𝑖𝑛 + 2)
1
Daí, tem-se: 𝑄1 → 𝑝 = 4 ∗ (11 + 1) = 3, logo 𝑄1 = 𝑥3 = 4
3
e 𝑄3 → 𝑝 = 4 ∗ (11 + 1) = 9, , logo 𝑄3 = 𝑥9 = 8
Tratando-se de dados agrupados em intervalos de classe, a fórmula para obter

os quartis é idêntica á da mediana:
𝒊
∗𝒏 − 𝑵𝒊−𝟏
𝐐𝒊 = 𝒍𝒊𝒎𝒊𝒏𝒇 + 𝟒 ∗ 𝒂𝒊 , onde 𝒊 = 𝟏, 𝟐, 𝟑, …
𝒏𝒊
Actividade 3: A tabela a seguir, representa o salário mensal em kwanzas de

Salário 𝑛𝑖
[2000---4000[ 10
[4000---6000 [ 14
[6000---8000 [ 11
[8000---10000 [ 18
[10000---12000 [ 12
[12000---14000 [ 15
Total 80
Determine os quartis 1, 2 e 3.
❖ Decil
Decil é qualquer um dos nove valores que dividem os dados ordenados de uma
variável em dez partes iguais, de modo que cada parte representa 1/10 da
amostra ou população. Assim:
• O 1º decil é o ponto de corte para 10% dos dados mais baixos, isto é, o
percentil 10;
• O 5º decil é o ponto de corte para 50% dos dados, isto é, o percentil 50, 2º
quartil, ou mediana;

29
• O 9º decil é o limite para 90% dos dados mais baixos, isto é, o percentil 90.
Tratar-se de dados não agrupados ou agrupados por frequências procede-se de

forma idêntica aos quartis, assim como também, para dados agrupados em
intervalos de classe a expressão que dá os decis é análoga á dos quartis:
𝒊
∗𝒏 − 𝑵𝒊−𝟏
𝟏𝟎
𝐃𝒊 = 𝒍𝒊𝒎𝒊𝒏𝒇 + ∗ 𝒂𝒊 , onde 𝒊 = 𝟏, 𝟐, 𝟑, … 𝟗
𝒏𝒊
❖ Percentil
Percentil é uma medida que divide a amostra ordenada (por ordem crescente dos
dados) em 100 partes, cada uma com uma percentagem de dados
aproximadamente igual. Portanto:
• 1º percentil determina o 1% menor dos dados;

• O 98º percentil determina os 98% menores dos dados.
• O 25º percentil é o primeiro quartil;
• O 50º percentil é a mediana;
• O 10º percentil é o primeiro decil;
• O 80º percentil é o oitavo decil.
A definição de Mendenhall e Sincich para o i-ésimo percentil de n valores

ordenados é correspondente ao valor que ocupa a posição
𝐢
𝐩 = 𝟏𝟎𝟎 ∗ (𝐧 + 𝟏), arredondada para o inteiro mais próximo. A fórmula generalizada
para o cálculo de percentil, para dados não agrupados ou agrupados em

frequências será dada por:
Pi = xm + (p − m) ∗ (xm+1 − xm ), onde:
• Pi - é a medida percentil a ser utilizada ;

• xm+1 e xm - são as posições dos dados no rol;
• p - é a posição da medida percentil adoptada;
• m - é a parte inteira de p

30
Exemplo 10: Percentis (dados não agrupados ou agrupados em frequências)

Considere o conjunto de valores observados: 3, 4, 4, 4, 5, 6, 8, 8, 8, 8, 10.
Determine P60 e P90 .
Cálculo do P60 :
i 60
p = 100 ∗ (n + 1) = 100 × (11 + 1) = 7,2 → m = 7
P60 = x7 + (7,2 − 7) ∗ (x8 − x7 )

P60 = 8 + (7,2 + 7) ∗ (8 − 8) = 8
Cálculo do P90 :…
Para dados agrupados em intervalos de classe, a expressão que dá os
percentis é análoga á dos quartis e decis:
𝒊
∗𝒏 − 𝑵𝒊−𝟏
𝟏𝟎𝟎
𝐏𝒊 = 𝒍𝒊𝒎𝒊𝒏𝒇 + ∗ 𝒂𝒊 , onde 𝑖 = 1,2,3, … 99
𝒏𝒊
2.2.4. Medidas de Dispersão ou Variabilidade
São medidas descritivas que visam a medição do grau de dispersão dos dados em
torno de um valor médio. Podem ser:
▪ Absoluta: amplitude total, amplitude interquartil, desvio padrão e variância;

▪ Relativa: coeficiente de variação e coeficiente de dispersão.
❖ Amplitude total
É a diferença entre os valores extremos assumidos pela variável estatística.
xmax − xmin , para dados não agrupados ou agrupados em frenquências

𝐀𝐭 = {
lk+1 − l1 , para dados agrupados em intervalos de classes.
❖ Amplitude (intervalo) interquartil
A amplitude interquartil, 𝑨𝑰𝑸, é a diferença entre o 3º quartil e o 1º quartil.

Corresponde a um intervalo que engloba 50% das observações centrais:
𝐴𝐼𝑄 = 𝑄3 − 𝑄1

31
❖ Desvio padrão
O desvio padrão amostral, 𝒔, é a medida de dispersão mais utilizada. O valor

desta medida é obtido fazendo √𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎.
Observações:
➢ Esta medida só assume valores não negativos e quanto maior o seu valor
maior a dispersão.
➢ Para calcular o desvio padrão populacional, σ, basta substituir no
denominador do desvio padrão amostral 𝑛 − 1 por 𝑛.
➢ Propriedades para dados com distribuição aproximadamente normal:
- Aproximadamente 68% dos dados estão no intervalo [𝑥 − 𝑠; 𝑥 + 𝑠];
- Aproximadamente 95% dos dados estão no intervalo [𝑥 − 2𝑠; 𝑥 + 2𝑠];
- Aproximadamente 100% dos dados estão no intervalo [𝑥 − 3𝑠; 𝑥 + 3𝑠].
❖ Variância
A variância amostral, 𝑠 2 , é a média dos quadrados dos desvios entre os valores

observados e a média.
Observações:

32
➢ Esta medida só assume valores não negativos e quanto maior o seu valor
maior a dispersão.
➢ Para calcular a variância populacional, 𝜎2, basta substituir no
denominador da variância amostral 𝑛 − 1 por 𝑛.
➢ A variância tem como desvantagem o facto de ser expressa em unidades
ao quadrado, o que torna difícil a sua interpretação, razão pela qual se
utiliza o desvio padrão.
❖ Coeficiente de variação
O coeficiente de variação, 𝑪𝑽, mede o grau de concentração em torno da média,

em valor percentual:
𝐬
𝐂𝐕 = × 𝟏𝟎𝟎.
𝑥̅
❖ Coeficiente de dispersão
coeficiente de dispersão, 𝑪𝑫, mede o grau de concentração em torno da média. É

dado pelo quociente entre o desvio padrão e a média:
𝑠
𝐶𝐷 = 𝑥̅ .
Observações:
➢ Estes coeficientes só podem ser calculados quando a variável toma valores

de um só sinal, isto é, todos os valores são todos positivos ou são todos
negativos.
➢ Para valores inferiores a 50% do coeficiente de variação (ou 0,5 do
coeficiente de dispersão) a média será tanto mais representativa quanto
menor o valor deste coeficiente. Consequentemente, valores superiores a
50% do coeficiente de variação (ou 0,5 do coeficiente de dispersão)
indicam uma pequena representatividade da média.
❖ Momentos Centrais
São as médias aritméticas da 1ª, 2ª, 3ª, 4ª,… potências dos desvios em relação á
média aritmética. A fórmula para o cálculo dos momentos é:

33
Observações:
➢ Os momentos teóricos representam-se por 𝜇 em vez de 𝑚 e

correspondem ao caso em que se conhece toda a população.
➢ Designa-se por momento central de ordem 𝒓, ou 𝑟 − é𝑠𝑖𝑚𝑜 momento
central ou momento de ordem 𝒓 em relação à média, 𝑚𝑟 , quando 𝑉 = 𝑥
e verifica-se que:
- O 1º momento central é sempre nulo e 𝑚1 = 0;
- O 2º momento central está relacionado com a variância amostral:
𝑛−1
𝑚2 = × 𝑆2;
𝑛
- Na população, o 2º momento central, 𝜇2, é igual à variância

populacional e
𝜇2 = 𝜎 2
- Numa distribuição simétrica, todos os momentos centrais de ordem
ímpar são nulos.
➢ Designa-se por momento de ordem 𝒓 em relação à origem, ou 𝒓 -
ésimo momento ou momento de ordem 𝒓, 𝒎𝒓 ′ , quando 𝑉 = 0. Para
este caso particular verifica-se que:
- O 1º momento em relação à origem é igual à média e 𝑚1 ′ = 𝑥.
Os momentos são muito importantes em Estatística para caracterizar as

distribuições de uma variável ou probabilidade. Por exemplo, a distribuição
normal é caracterizada apenas pelo primeiro e pelo segundo momento. O
primeiro, segundo, terceiro e quarto 48 Filipe Mahaluça momento caracterizam
a tendência central, dispersão, assimetria e curtose, respectivamente, de uma
distribuição. Os momentos mais importantes são os quatro primeiros, que são
muito utilizados para caracterizar as distribuições de uma variável ou

34
probabilidade. Entretanto, é quase sempre possível calcular momentos de alta

ordem.
Actividade 4: Estabeleça a relação entre os momentos em relação à média e

os momentos em relação a um valor arbitrário V.
Actividade 5: Desvio padrão (dados não agrupados)
A tabela abaixo mostra as notas de Matemática de um aluno em um

determinado ano:
1° Trimestre 12
2° Trimestre 8,25
3° Trimestre 16,75
Determine o desvio padrão.
Actividade 6: A tabela a seguir, representa o salário mensal em kwanzas de

Salário 𝑛𝑖
[2000---4000[ 10
[4000---6000 [ 14
[6000---8000 [ 11
[8000---10000 [ 18
[10000---12000 [ 12
[12000---14000 [ 15
Total 80
Determine o desvio padrão do salário dos funcionários desta fábrica.
Actividade 7: Coeficiente de Variação.
Um empresário pode investir em dois possíveis produtos A e B, cujos preços

variam. Os dados observados permitiram calcular as seguintes medidas:
𝑥̅𝐴 =70 e 𝑥̅𝐵 =150
SA = 30 e SB = 40
Qual dos produtos apresenta maior homogeneidade nos seus preços?

35
2.2.5. Medidas de Assimtria
São medidas descritivas que visam a medição do grau de afastamento da simetria

da distribuição. Quando no conjunto de dados predominam os valores menores
diz-se que a distribuição é assimétrica positiva (𝑥̂ < 𝑥̃ < 𝑥̅), quando no conjunto de
dados predominam os valores maiores, diz-se que a distribuição é assimétrica
negativa (𝑥̅ < 𝑥̃ < 𝑥̂ ) e tem uma “cauda” à direita (esquerda). Caso contrário a
distribuição é simétrica (𝑥̅ = 𝑥̂ = 𝑥̃). As assimetrias podem ser de três tipos:
Estas medidas sintetizam até que ponto uma distribuição de frequência é

enviesada, deformada ou assimétrica. Estas medidas utilizam-se para classificar
distribuições unimodais e elucidam sobre a forma geral da distribuição, isto é, se é
simétrica ou, em caso contrário, se afasta muito ou pouco da simetria. Quando a
distribuição é simétrica, o coeficiente de assimetria é nulo. Quando não é nulo, a
distribuição é assimétrica, sendo o grau de assimetria tanto maior quanto maior for
o valor absoluto do coeficiente.
▪ Grau de assimetria de Pearson
𝑥̅ −𝑥̂
O grau de assimetria de Pearson, 𝒈𝑷, é dado por: 𝑔𝑃 = , onde −3 < 𝑔𝑃 < 3.
𝑆
Para 𝑔𝑃 ≈ 0 a distribuição é simétrica; para 𝑔𝑃 ≈ 3 a distribuição é assimétrica

positiva; para 𝑔𝑃 ≈ −3 a distribuição é assimétrica negativa.
Observação: O grau de assimetria de Pearson só pode ser utilizado quando a

distribuição é unimodal, ou seja, só tem uma moda.
▪ Grau de assimetria de Bowley
(Q3 − 𝑥̃) −( 𝑥̃− Q1 )

O grau de assimetria de Bowley, 𝒈𝑩, é dado por: 𝑔𝐵 = , −1 <
𝑄3 −𝑄1
gB < 1.

36
Para 𝑔𝐵 ≈ 0 a distribuição é simétrica; para 𝑔𝐵 ≈ 1 a distribuição é assimétrica

positiva; para 𝑔𝐵 ≈ −1 a distribuição é assimétrica negativa.
Observação: O grau de assimetria de Bowley deve ser utilizado quando se

desconhece a média e o desvio padrão.
▪ Coeficiente de assimetria de Fisher

μ3
O grau de assimetria de Fisher, 𝜸𝟏 , é dado por: 𝛾1 = .
𝛿2
onde μ3 representa o 3º momento teórico. O sinal de 𝛾1 é o sinal da assimetria.
Observação: O coeficiente de Fisher é o coeficiente de assimetria teórico, que representa o

verdadeiro valor da assimetria da distribuição, e que só deve ser usado quando se conhece toda a
população. Os coeficientes de Pearson e de Bowley são empíricos e têm como principal vantagem
a sua facilidade de cálculo, hoje em dia ultrapassada pela utilização frequente de programas de
estatística.
▪ Coeficiente de assimetria amostral
O coeficiente de assimetria amostral utilizado por vários softwares, como sejam

𝑛2 .𝑚
3
SPSS, Excel e SAS e 𝑔𝑎 , é dado por: 𝑔𝑎 = (𝑛−1)(𝑛−2)𝑆 3
O sinal de 𝑔𝑎 é o sinal da assimetria.
Actividade 8:
Durante certo período de tempo as taxas de juros para dez acções foram as
abaixo registadas:
Acção 1 2 3 4 5 6 7 8 9 10
Taxa(%) 2.59 2.64 2.60 2.62 2.55 2.61 2.50 2.63 2.64 2.69
Calcule:
a) A taxa média
b) A taxa mediana
c) A taxa modal
d) O desvio padrão das taxas

37
e) O coeficiente de variação das taxas
f) O coeficiente de assimetria.
Actividade 9: Abaixo são mostrados os saldos médios de 48 contas de clientes do

BPC (dados brutos em Kwanzas).
450 500 150 1000 250 275 550 500
225 475 150 450 950 300 800 275
600 750 375 650 150 500 1000 700
475 900 800 275 600 750 375 650
150 500 225 250 150 120 250 360
230 500 350 375 470 600 1030 270
a) Calcule as medidas de tendência central. Interprete.

b) Encontre as medidas de variabilidade.
c) Calcule o coeficiente de assimetria.
2.2.6. Medidas de Concentração
Definem-se pelas frequências acumuladas:
∑𝐢𝐣=𝟏 𝐧𝐣 𝐍𝐢 ∑𝐢𝐣=𝟏 𝐧𝐣 .𝐱 , 𝐣 ∑𝐢𝐣=𝟏 𝐘𝐣

𝐩𝐢 = = = 𝐅𝐢 e 𝐪𝐢 = ∑𝐢 ,
= ∑𝐢 i = 1,2,3,4, … , K
𝐧 𝐧 𝐣=𝟏 𝐧𝐣 .𝐱 𝐣 𝐣=𝟏 𝐘𝐣
Onde:
- 𝐩𝐢 , representa a proporção de indivíduos que possuem a característica com uma

intensidade inferior ao limite superior da 𝑖-ésima classe, 𝐿𝑆𝑖 ;
- 𝐪𝐢 , representa a proporção da totalidade da característica possuída pelos

indivíduos que possuem a característica com uma intensidade inferior ao limite
superior da 𝑖-ésima classe, 𝐿𝑆𝑖 .
- Os valores pi e q i , 𝑖 = 1, 2, … ,𝐾, satisfazem as relações: 𝐩𝐢 ≥ 𝐪𝐢 ; 0 ≤ 𝐩𝐢 ≤ 1; 0 ≤

𝐪𝐢 ≤ 1.

38
Considere-se a tabela de frequências, onde 𝑦𝑖 é o total da característica

correspondente aos indivíduos ou elementos da 𝑖-ésima classe.
Sendo tabela de frequências, da seguinte forma:
Estas medidas podem ser de dois tipos: Curva de Lorenz e Índice de

concentração de Gini.
2.2.6.1. Curva de Lorenz
A curva de Lorenz obtém-se representando os pontos (𝑝𝑖 , 𝑞𝑖 ), 𝑖 = 1, 2, … ,𝐾, num

sistema de eixos cartesianos e unindo os mesmos por meio de segmentos de
recta.
Se houver igual distribuição, os valores 𝑝𝑖 e 𝑞𝑖 são iguais e a curva de Lorenz

degenera na diagonal que se designa por recta de igual distribuição. A área
compreendida entre a recta de igual distribuição e a curva de Lorenz é designada
por área de concentração. Quanto maior for esta área mais elevada será a
concentração. Na Figura apresenta-se o aspecto genérico da curva de Lorenz:

39
2.2.6.2. Índice de concentração de Gini
O índice de concentração de Gini, 𝑰𝑮, mede a concentração de uma determinada

característica numa população. É dado por:
∑k−1
i=1 (pi − q i ) ∑k−1
i=1 q i
𝑰𝑮 = = 1−
∑k−1
i=1 pi ∑k−1
i=1 pi
Características:
• 𝐼𝐺 = 0 quando há igual distribuição, 𝑝𝑖 = 𝑞𝑖 ;

• 𝐼𝐺 = 1 quando a concentração for máxima, 𝑞𝑖 = 0;
• Cresce com o aumento de concentração da característica em estudo.
Actividade 11: Trabalho em grupo.

- Resistência e Sensibilidade das Medidas
- Comparação e Transformação de Dados

40
UNIDADE III - REGRESSÃO E CORRELAÇÃO SIMPLES
3.1. Diagrama de Dispersão; Correlação e Regressão
3.2. Rectas de regressão Minimos Quadrados
3.3. Funções Linearizáveis
3.4. Qualidade do Ajustamento: Coeficiente e Índice de Correlação

Estatística Descritiva e A D - Medidas de Assimétria e de Concentração

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Estatística Descritiva e A D - Medidas de Assimétria e de Concentração

Enviado por

Direitos autorais:

Formatos disponíveis

1

Unidade II - Estatística descritiva e análise exploratória de dados.

A Estatística é uma ferramenta imprescindível a qualquer pesquisador ou pessoa

Mahaluça (2016), destaca que as primeiras aplicações da Estatística estavam

Tendo seus fundamentos Matemáticos postos por Pascal e Fermat, no século

O termo estatística deriva do neolatim statisticum collegium (conselho de Estado)

Por Agnaldo Bongo/2023

A Estatística é geralmente tida não como um ramo da Matemática, mas como

2.1.1. População e Amostra

Muitas vezes não é desejável nem viável inquirir todos os elementos da

Durante o processo de selecção é necessário ter em consideração os seguintes

• População: grupo de todos os elementos que se pretende estudar e que

possuem uma característica (ou mais) em comum. A população pode ser

População finita: nesses casos o número de elementos de um grupo não é muito

População infinita: o número de elementos nesse caso é muito elevado, sendo

• Parâmetros: são as medidas relativas a uma população, usualmente, são

A amostra deve ser representativa da população, isto é, deve conter todas as

Por Agnaldo Bongo/2023

• Medidas estatísticas: são medidas relativas à amostra. O valor destas

A tabela abaixo apresenta as principais medidas estatísticas de interesse e a

Medida População Amostra (valor Amostra

• Amostragem, denomina-se como sendo, o processo utilizado para selecionar

▪ Probabilísticos, aleatório ou casual: cada um dos elementos da população

o Amostragem aleatória simples: com reposição e sem reposição;

Por Agnaldo Bongo/2023

permitem definir com rigor ou calcular as probabilidades de inclusão dos diferentes

o Amostragem por conveniência;

As etapas que compreendem a selecção da amostra, de forma a garantir que os

1. Definição dos objectivos do estudo.

2. Definição da população alvo: grupo de todos os indivíduos sobre os quais se

3. Decisão sobre os dados a observar.

4. Escolher a técnica de amostragem a utilizar para recolher a amostra e o método

5. Calcular a dimensão da amostra.

6. Amostrar, ou seja, recolher a amostra.

2.1.2. Estatística Descritiva e Inferência Estatística

A estatística divide-se em duas áreas:

❖ Estatística descritiva: conjunto de técnicas apropriadas para recolher,

Por Agnaldo Bongo/2023

conhecimento das probabilidades. Recorrendo a duas principais técnicas

Em grupo, fazer uma abordagem sobre:

- Métodos robustos e Resistentes.

- Relevância da análise de dados.

2.2. Análise, Representação e Redução de Dados.

2.2.1. Dados qualitativos e quantitativos. Variáveis discretas e contínuas.

Você já aprendeu que os estatísticos colectam informações. Essas informações

Variável é uma condição ou característica das unidades da população; a variável

As características qualitativas revestem diferentes modalidades ou categorias.

Por Agnaldo Bongo/2023

Exemplo 2- O dono de um supermercado quer saber a opinião de seus clientes

A variável de interesse é a opinião dos clientes. Os dados serão obtidos somente

Designa-se por unidade estatística, ou elemento, qualquer indivíduo, objeto ou

Classificação dos dados/variáveis segundo a sua natureza

Nominais ordinais Discretas Contínuas

Já Anabela e Nunes (2019), classificam os dados de modo similar a Mahaluça:

❖ Uma variável é qualitativa ou categorizada quando os dados são distribuídos

Por Agnaldo Bongo/2023

▪ A variável é nominal quando os dados são distribuídos em categorias

Fases do método estatístico

1- Definição do problema: A primeira faze consiste na definição e formulação

Por Agnaldo Bongo/2023

1. Para a realização de um estudo sobre o hábito de fumar dos jovens

Problema: Porque que os jovens huilanos fazem o consumo do tabaco?

i. A população. R: Jovens Huilano que frequentam o ensino superior.