Você está na página 1de 40

1

Unidade II - Estatística descritiva e análise exploratória de dados.

2.1. Generalidades

A Estatística é uma ferramenta imprescindível a qualquer pesquisador ou pessoa


que necessite tomar decisões. O seu estudo não representa uma tarefa muito
fácil, principalmente no início, quando são apresentados muitos conceitos novos
que exigem um tipo especial de raciocínio.

Diariamente, torna-se cada vez mais necessário tomar decisões rápidas e bem
fundamentadas. As probabilidades e estatística podem ser pensadas como a
ciência de aprendizagem a partir de dados, fornecendo métodos que auxiliam o
processo de tomada de tais decisões através da análise dos dados disponíveis.

Mahaluça (2016), destaca que as primeiras aplicações da Estatística estavam


voltadas para as necessidades de Estado, na formulação de políticas públicas,
fornecendo dados demográficos e económicos à administração pública. A
abrangência da estatística aumentou no começo do século XIX para incluir a
acumulação e análise de dados de maneira geral. Hoje, a estatística é largamente
aplicada nas ciências naturais, sociais, na administração pública e privada e
outros.

Tendo seus fundamentos Matemáticos postos por Pascal e Fermat, no século


XVII com o desenvolvimento da teoria das probabilidades, que surgiu com o
estudo dos jogos de azar; por Carl Friedrich Gauss em volta de 1794, ao
descrever o método dos mínimos quadrados pela primeira vez.

O termo estatística deriva do neolatim statisticum collegium (conselho de Estado)


e do Italiano statista (estadista ou político). O alemão Statistik, introduzido pela
primeira vez por Gottfried Achenwall (1749), designava originalmente a análise de
dados sobre o Estado, significando a "ciência do Estado", então chamada
aritmética política, com o propósito de fornecer os dados a serem usados pelo
governo e outras organizações. A palavra adquiriu o significado de colecta e
classificação de dados em geral através de Sir John Sinclair.

Por Agnaldo Bongo/2023


2

A Estatística é geralmente tida não como um ramo da Matemática, mas como


uma área distinta, ainda que intimamente relacionada. Por outras palavras, é uma
ciência que fornece os princípios e técnicas para colecta, organização ou
selecção, descrição, analise e interpretação de dados experimentais.

2.1.1. População e Amostra

Muitas vezes não é desejável nem viável inquirir todos os elementos da


população que se pretende estudar, especialmente quando o número de
elementos da população é muito elevado. Daí que se seleciona um subgrupo que
seja representativo da população, ou seja, recolhe-se uma amostra.

Durante o processo de selecção é necessário ter em consideração os seguintes


conceitos:

• População: grupo de todos os elementos que se pretende estudar e que

possuem uma característica (ou mais) em comum. A população pode ser


classificada como finita e infinita.

População finita: nesses casos o número de elementos de um grupo não é muito


grande, a entrevista e a análise das informações devem abordar a todos do grupo.
Por exemplo: As condições das escolas particulares na cidade de Kuito. Se
observarmos o grupo chegaremos à conclusão de que o número de escolas
particulares no Kuito é considerado finito.

População infinita: o número de elementos nesse caso é muito elevado, sendo


considerado infinito. Por exemplo: A população da cidade de Luanda.

• Parâmetros: são as medidas relativas a uma população, usualmente, são


desconhecidos (mas fixos) e que, portanto, pretendem-se conhecer.
• Amostra: subgrupo da população selecionado para análise.

A amostra deve ser representativa da população, isto é, deve conter todas as


características, já que por meio dessa amostra serão tiradas as conclusões para
toda a população.

Por Agnaldo Bongo/2023


3

As razões que levam os pesquisadores a trabalhar com amostras e não com toda
a população são poucas, mas absolutamente relevantes: Custo e demora dos
censos; Populações muito grandes; Impossibilidade física de examinar toda a
população; Comprovado valor científico das informações colectadas por meio de
amostras.

• Medidas estatísticas: são medidas relativas à amostra. O valor destas

estatísticas varia de amostra para amostra (logo é uma variável aleatória v. a.).

A tabela abaixo apresenta as principais medidas estatísticas de interesse e a


respectiva notação estatística.

Medida População Amostra (valor Amostra


estatística (parâmetro) observado) (estatística - v. a.)
Dimensão 𝑁 𝑛 --
Média 𝜇 𝑥̅ 𝑋̅
Proporção 𝑝 𝑝̅ 𝑃̅
Variância 𝜎2 𝑠2 𝑆2
Desvio padrão 𝜎 𝑠 𝑆
Coeficiente de 𝜌 𝑟 R
correlação

• Amostragem, denomina-se como sendo, o processo utilizado para selecionar

uma amostra a partir de uma população. Esta selecção pode ser realizada
recorrendo a dois tipos de métodos:

▪ Probabilísticos, aleatório ou casual: cada um dos elementos da população

tem hipóteses de ser incluído na amostra, sendo possível medir com rigor qual a
probabilidade de tal suceder, através do cálculo de probabilidades. E pode ser :

o Amostragem aleatória simples: com reposição e sem reposição;


o Amostragem Sistemática;

Por Agnaldo Bongo/2023


4

o Amostragem estratificada;
o Amostragem por grupos, e outras.
▪ Não probabilísticos também designados por amostragem dirigida: não

permitem definir com rigor ou calcular as probabilidades de inclusão dos diferentes


elementos da população na amostra. Estes processos são de um modo geral mais
económicos e expeditos. E podem ser:

o Amostragem por conveniência;


o Amostragem subjetiva;
o Por julgamento (intencional) ;
o Por quotas ;
o “Bola de neve” , entre outras.

As etapas que compreendem a selecção da amostra, de forma a garantir que os


objectivos são atingidos, são:

1. Definição dos objectivos do estudo.

2. Definição da população alvo: grupo de todos os indivíduos sobre os quais se


pretendem tirar conclusões.

3. Decisão sobre os dados a observar.

4. Escolher a técnica de amostragem a utilizar para recolher a amostra e o método


de recolha de dados (questionário, entrevista, …).

5. Calcular a dimensão da amostra.

6. Amostrar, ou seja, recolher a amostra.

2.1.2. Estatística Descritiva e Inferência Estatística

A estatística divide-se em duas áreas:

❖ Estatística descritiva: conjunto de técnicas apropriadas para recolher,


organizar, reduzir e apresentar dados estatísticos.
❖ Inferência estatística: conjunto de técnicas que, com base na informação
amostral, permite caracterizar uma certa população, requerendo o

Por Agnaldo Bongo/2023


5

conhecimento das probabilidades. Recorrendo a duas principais técnicas


como:
• Estimação: visa determinar o valor dos parâmetros desconhecidos.
• Testes de hipóteses: visa testar suposições acerca das características de
uma certa população.

Actividades

Em grupo, fazer uma abordagem sobre:

- Métodos robustos e Resistentes.

- Relevância da análise de dados.

2.2. Análise, Representação e Redução de Dados.

2.2.1. Dados qualitativos e quantitativos. Variáveis discretas e contínuas.

Você já aprendeu que os estatísticos colectam informações. Essas informações


podem ser sobre peso de pessoas, eficiência dum serviço, incidência de doenças,
causas de acidentes, quantidade de carros acidentados, etc. Veremos como essas
informações são organizadas para facilitar a leitura. Mas antes é necessário
aprender o que são dados e o que são variáveis.

Variável é uma condição ou característica das unidades da população; a variável


pode assumir valores diferentes em diferentes unidades. Por exemplo (1), a idade
das pessoas residentes em Cabinda é uma variável. Dados são os valores da
variável em estudo, obtidos por meio de uma amostra, ou seja, o resultado da
observação, que pode ser de tipo qualitativo ou quantitativo, das unidades
estatísticas que compõem um determinado conjunto.

As características qualitativas revestem diferentes modalidades ou categorias.


Enquanto que As características quantitativas revestem diferentes intensidades
ou valores.

Por Agnaldo Bongo/2023


6

Exemplo 2- O dono de um supermercado quer saber a opinião de seus clientes


sobre a qualidade dos serviços que presta. O que é variável e o que são dados
nesse problema?

Solução:

A variável de interesse é a opinião dos clientes. Os dados serão obtidos somente


quando o dono do supermercado começar a pedir aos clientes que dêem uma
nota a cada serviço. Então, se for pedido que o cliente dê uma nota de zero e 5 a
cada serviço que utiliza os dados colectados poderão ser, por exemplo, 4, 3, 2, 4,
1etc., por serviço.

Designa-se por unidade estatística, ou elemento, qualquer indivíduo, objeto ou


facto que é objeto da observação ou das conclusões.

Classificação dos dados/variáveis segundo a sua natureza

Segundo Mahaluça (2016, p. 15), os dados são do mesmo tipo que o das variáveis
. Por exemplo, uma variável discreta produz dados discretos.Tal como figura o
organigrama abaixo:

Variáveis
Qualitativas Quantitativas
(categorizadas) (numéricas)

Nominais ordinais Discretas Contínuas

Já Anabela e Nunes (2019), classificam os dados de modo similar a Mahaluça:


𝐸𝑠𝑐𝑎𝑙𝑎 𝑛𝑜𝑚𝑖𝑛𝑎𝑙
𝑄𝑢𝑎𝑙𝑖𝑡𝑎𝑡𝑖𝑣𝑜𝑠 {
Dados Estaistícos { 𝐸𝑠𝑐𝑎𝑙𝑎 𝑜𝑟𝑑𝑖𝑛𝑎𝑙
𝐷𝑖𝑠𝑐𝑟𝑒𝑡𝑜𝑠
𝑄𝑢𝑎𝑛𝑡𝑖𝑡𝑎𝑡𝑖𝑣𝑜𝑠 {
𝐶𝑜𝑛𝑡í𝑛𝑢𝑜𝑠

❖ Uma variável é qualitativa ou categorizada quando os dados são distribuídos


em categorias mutuamente exclusivas. São exemplos de variáveis qualitativas:
marca de automóvel (Toyota, Mazda, etc.); sexo (Masculino ou Feminino); Cor
dos olhos; etc

Por Agnaldo Bongo/2023


7

▪ A variável é nominal quando os dados são distribuídos em categorias


mutuamente exclusivas, mas são indicadas em qualquer ordem. São variáveis
nominais: cor de cabelos (loiro, castanho, preto, ruivo), tipo de sangue (O, A, B,
AB), género (masculino, feminino), etc.
▪ A variável é ordinal quando os dados são distribuídos em categorias
mutuamente exclusivas que têm ordenação natural. São variáveis ordinais:
Escolaridade (primeiro grau, segundo grau, terceiro grau), Classe social (A, B,
C, D, E), Gravidade de uma doença (leve, moderada, severa) etc.
❖ Uma variável é quantitativa ou numérica quando é expressa por números.
São exemplos de variáveis quantitativas: idade, altura, número de crianças
numa escola, número de lápis numa caixa.
▪ A variável discreta só pode assumir alguns valores em um dado intervalo.
São variáveis discretas: Número de filhos (0, 1, 2, 3, 4 etc.), Quantidade de
moedas num bolso (zero, 1, 2, 3 etc.), Número de pessoas numa sala.
▪ A variável contínua assume qualquer valor num dado intervalo. São variáveis
contínuas: peso, tempo de espera, quantidade de chuva etc.

Fases do método estatístico

1- Definição do problema: A primeira faze consiste na definição e formulação


correcta do problema a ser estudado;
2- Planificação: Definido o problema, é preciso determinar um processo para o
resolver e, em especial, como obter informações sobre a variável em estudo. é
nesta fase que se decide pela observação de toda a população ou de uma
amostra.
3- Recolha de dados: por Questionários, Observação, Experimentação,
Pesquisa Bibliográfica etc.
4- Organização de dados: há duas formas de apresentação que não excluem
mutuamente: Apresentação por tabelas e Apresentação por gráficos.
5- Análise e interpretação de dados: calculam-se novos números com base nos
dados estatísticos. Estes novos números permitem fazer uma descrição do
fenómeno evidenciando algumas das suas características.

Por Agnaldo Bongo/2023


8

Actividades:

1. Para a realização de um estudo sobre o hábito de fumar dos jovens


Huílanos do ensino superior.

Problema: Porque que os jovens huilanos fazem o consumo do tabaco?

a) Identifique:

i. A população. R: Jovens Huilano que frequentam o ensino superior.

ii. Uma amostra. R: Estudantes do ensino de três Instituições publico-privadas.

iii. As unidades estatísticas/indivíduos.R: Estudantes dos 18 aos 60 anos.

iv. Os dados estatísticos. R: Dados quantitativos: Idade, tempo de consumo,


quantos cigarros fuma por dia, nivel de escolaridade…

Dados qualitativos: Estatura, genero, Marca mais consumida, qualidade de vida


dos estudantes, rendimento acadêmico…

b) Na elaboração do questionário como é que formularia a questão sobre o


consumo de tabaco, de forma a obter uma variável medida numa escala:

i. Nominal? R: Estatura, cor dos olhos, situação estomatológica,

ii. Ordinal? R: Nivel de escolaridade, rendimento academico ( muito bom, bom ,


razoavel, nediucre, mau , muito mau. Classe socil ( baixo, média, alta)

iii. Quantitativa?

c) Resumidamente, diga como exploraria/descreveria a informação que obteria em


cada uma das situações apresentadas em b), por aplicação do questionário.

2.2.2. Tabulação e representação gráfica

2.2.2.1. Apresentação de dados em tabelas

Uma forma de resumir um conjunto de dados, composto por 𝑛 observações, é


através de uma tabela de frequências. Esta tabela disponibiliza um acesso
rápido ao número, à percentagem ou proporção de elementos observados com

Por Agnaldo Bongo/2023


9

uma determinada característica ou valor ou intervalo de valores (as chamadas


classes de valores).

Obs.: Uma tabela de frequências relaciona as categorias ou classes de valores


com o número de ocorrências (frequências absolutas) e com a proporção
(frequência relativa) de observações que pertencem a cada categoria ou classe.

• Frequências absolutas: é o número de vezes que o valor foi observado.

• Frequências relativas: é o quociente entre a frequência absoluta da variável e o


número total de observações.

As distribuições de frequências podem-se classificar:

• Ordinárias: a cada valor ou classe de valores da variável corresponde a sua


frequência.

• Acumulada: a cada valor ou classe de valores da variável corresponde a sua


frequência mais a de todos os valores, ou classes de valores a nteriores (ou
posteriores).

As categorias ou classes de valores devem ser:

1. Mutuamente exclusivas, ou seja, cada valor observado só poderá pertencer a


uma das categorias ou classes.

2. Exaustivas, ou seja, as categorias ou classes devem compreender todos os


valores observados.

A notação utilizada nas tabelas de frequências é: 𝐾- número de categorias/valores


distintos/classes de valores que os dados assumem;

𝑛𝑖 - frequência absoluta da categoria/valor/classe de valores 𝑖, 𝑖 = 1, … ,𝐾;

𝑛 =∑𝑘𝑖=1. 𝑛𝑖 - dimensão do conjunto de dados, ou seja, número total de


observações;
𝑛𝑖
𝑓𝑖 = - frequência relativa da categoria/valor/classe de valores 𝑖;
𝑛

Por Agnaldo Bongo/2023


10

𝑁𝑖 = ∑𝑖𝑘=1. 𝑛𝑘 - frequência absoluta acumulada da categoria/valor/classe de


valores 𝑖 ;

𝑁𝑖
𝐹𝑖 = = ∑𝑖𝑘=1. 𝑓𝑘 - frequência relativa acumulada da categoria/valor/classe de
𝑛

valores 𝑖.

2.2.2.1.1. Dados qualitativos ou quantitativos discretos (dados agrupados).

A sua disposição prática é designada por quadro de frequências.

Exemplo: Foram examinados 100 lotes de 50 peças produzidas por uma máquina,
para verificação do número de peças defeituosas por lote. Os resultados
apresentam-se no seguinte quadro:

Nº de peças defeituosas Nº de lotes


por lote
0 3
1 11
2 21
3 30
4 23
5 7
6 5
Total 100

Represente os dados em frequências absolutas e relativa:

Frequências Absolutas Frequências Relativas


Valor da variável Ordinárias(𝑛𝑖 ) Acumuladas(𝑁𝑖) Ordinárias (𝑓𝑖 ) Acumuladas (𝐹𝑖)
0 3 3 0.03 0.03
1 11 14 0.11 0.14
2 21 35 0.21 0.35
3 30 65 0.30 0.65
4 23 88 0.23 0.88
5 7 95 0.07 0.95
6 5 100 0.05 1.00
Total 100 :::::::::::: 1.00 ::::::::::

Actividade:

Num estudo para analisar a ocorrência de acidentes de trabalho num determinado


hospital, em 397 profissionais de saúde verificou-se que 16 não sofreram qualquer

Por Agnaldo Bongo/2023


11

acidente, 32 tiveram 1 acidente, 89 reportaram 2 acidentes, 137 sofreram 3


acidentes, 98 sofreram 4 acidentes e 25 profissionais reportaram 5 acidentes.

Constroi a tabela de frequências relativa ao número de acidentes por profissional.

2.2.2.1.2. Dados quantitativos contínuos (dados agrupados em intervalo de


classe)

Quando os dados são do tipo quantitativo contínuo então é necessário definir 𝐾


classes de valores, que constituem as categorias dos dados em estudo. A forma
como se definem as classes condiciona os resultados que apenas são válidos
para a classificação efectuada. Seja qual for o método utilizado é aconselhável
não obter um número muito elevado nem muito reduzido de classes
(habitualmente 5 ≤ 𝐾 ≤ 20).

Para tal devemos ter em conta o seguinte:

1º Determinar o número 𝐾 de classes a construir, com base nas 𝑛 observações,


ln(n)
fazendo (regra de Sturges): 𝐾 = [ln(2) ] + 1.

0nde [número] representa a parte inteira do número obtido (por ex: [7,1] = 7 e [4,9]
= 4).

2º Determinar a amplitude 𝑎 do conjunto de dados fazendo: 𝑎 = máximo − mínimo.


𝑎
3º Determinar a amplitude 𝑎𝑐 de cada uma das classes fazendo: 𝑎𝑐 = 𝐾 .

4º Construir as classes 𝑐𝑖 da seguinte forma:

𝐶1 = [mínimo; mínimo + 𝑎𝑐[

𝐶2 = [mínimo + 𝑎𝑐; mínimo + 2 × 𝑎𝑐[

𝐶𝐾 = [mínimo + (𝐾 − 1) × 𝑎𝑐; mínimo + 𝐾 × 𝑎𝑐].

Exemplo: O Sr. Nambalo decidiu dedicar-se à criação de leitões, que vende


quando atingem os dois meses de idade e pesam mais de 9kg. Pretendendo fazer

Por Agnaldo Bongo/2023


12

um estudo sobre os lucros obtidos com essa atividade, resolveu pesar 60 leitões
com dois meses de idade, tendo obtido os seguintes resultados:

4,1 5,8 5,8 6 ,1 6,7 7,0 7,0 7,5 7,5 7,5

7,7 8,2 8,3 8,5 8,7 8,8 9,0 9,0 9,1 9,1

9,1 9,2 9,2 9,2 9,2 9,4 9,4 9,4 9,5 9,5

9,7 9,8 10,0 10,0 10,2 10,2 10,3 10,6 10,6 10,8

10,9 10,9 11,0 11,1 11,1 11,6 11,7 11,8 11,8 11,8

12,0 12,2 12,2 12,3 12,5 12,6 12,7 14,0 14,2 14,8

Constroi a tabela de frequência relativa aos pesos dos leitões.

Solução:

N.º de observações: 𝑛 = 60 K= [ 𝑙𝑛(60)/ 𝑙𝑛(2) ] + 1 = [5,9] + 1 = 5 + 1 = 6

10,7
𝑎 = 14,8 − 4,1 = 10,7 𝑎𝑐 = 6
≈ 1,8

Classes: 𝑐1 = [4,1; 5,9[; 𝑐2 = [5,9; 7,7[; 𝑐3 = [7,7; 9,5[; 𝑐4 = [9,5; 11,3[; 𝑐5 = [11,3;
13,1[; 𝑐6 = [13,1; 14,9]

LIi + LSi
Sendo 𝑥𝑖 , o ponto médio ou centro das classes 𝑐𝑖 : 𝑥𝑖 , = .
2

Daí, tem-se:

Pesos em kg 𝑥𝑖 , 𝑛𝑖 𝑁𝑖 𝑓𝑖 𝐹𝑖
(𝑐𝑖 )

[4,1; 5,9[ 5 3 3 0,0500 0,0500


[5,9; 7,7[ 6,8 7 10 0,1167 0,1667
[7,7; 9,5[ 8,6 18 28 0,3000 0,4667
[9,5; 11,3[ 10,4 17 45 0,2833 0,7500
[11,3; 13,1[ 12,2 12 57 0,2000 0,9500
[13,1; 14,9] 14 3 60 0,0500 1,0000

Total 60 1,0000

Por Agnaldo Bongo/2023


13

Actividade:

Os dados a seguir, referem-se á percentagem de algodão, no material usado para


confeccionar camisas de homem:

34.2 33.6 33.8 34.7 37.8 32.6

33.1 34.7 34.2 33.6 36.6 33.1

34.5 35.0 33.4 32.5 35.4 34.6

35.6 35.4 34.7 34.1 34.6 35.9

36.3 36.2 34.6 35.1 33.8 34.7

Organiza os dados em tabela de frequências de dados agrupados em intervalos


de classe.

2.2.2.2 Apresentação de dados em gráficos

Os gráficos mais utilizados para representar os dados são:

▪ Gráfico circular – dados qualitativos;


▪ Gráfico de barras – dados qualitativos ou quantitativos discretos;
▪ Gráfico de frequências acumuladas – dados qualitativos na escala ordinal ou
quantitativos discretos;
▪ Histograma – dados quantitativos contínuos;
▪ Polígono de frequências – dados quantitativos;
▪ Polígono de frequências acumuladas – dados quantitativos contínuos;
▪ Caixa-de-bigodes – dados não agrupados quantitativos.

2.2.2.2.1. Gráfico circular

Um gráfico circular (sector, pizza) é constituído por um círculo dividido em tantas


fatias quantas as categorias da variável. O tamanho das fatias é determinado pelo
número ou percentagem de observações nas categorias (𝑖) e pelas frequências

Por Agnaldo Bongo/2023


14

absolutas (𝑛𝑖) ou pelas relativas (𝑓𝑖), em que 1% no gráfico circular equivale a


3,6𝑜 .

Exemplo genérico de um gráfico circular:

Situação

9% Categoria A
10%
Categoria B
23% 58% Categoria C
Categoria D

Exemplo 2: A tabela a seguir, consiste no número de assentos alocados para cada


partido, além de uma percentagem do grupo total que eles compõem. Baseado no
resultado preliminar das Eleições Parlamentares Europeias em 2004.

Grupo Assentos
EUL 39
PES 200
EFA 42
EDD 15
ELDR 67
EPP 276
UEN 27
Outros 66
Total 732

Faça a reprepresentação circular.

2.2.2.2.2. Gráfico de barras

Um gráfico de barras é um diagrama de barras, usualmente verticais, sendo cada


barra associada a cada uma das categorias da variável. A altura das barras é
determinada pelas frequências absolutas, 𝑛𝑖 ou as relativas 𝑓𝑖 .

Exemplo genérico de um gráfico de barras:

Por Agnaldo Bongo/2023


15

Frequência absoluta/Relativa Título do Gráfico

5
4
3
2
1
0
Categoria 1 Categoria 2 Categoria 3 Categoria 4
Título do Eixo
ni / fi

Exemplo 2: Baseando-se nos resultados da tabela anterior construa o gráfico de


barras.

2.2.2.2.3. Gráfico de frequências acumuladas

Um gráfico de frequências acumuladas, ou diagrama integral, é um gráfico de


linhas onde são representadas as frequências absolutas, 𝑁𝑖 , ou relativas, 𝐹𝑖 ,
acumuladas. Este gráfico apresenta a frequência acumulada de cada uma das
categorias/valores, notando que até à primeira categoria/valor a frequência
acumulada é nula. Para categorias/valores superiores à última, a frequência
acumulada toma o valor 𝑛, se forem representadas as frequências 𝑁𝑖 , ou 1, se
forem representadas as frequências 𝐹𝑖 .

Exemplo 1- gráfico de barras com frequências acumuladas:

Por Agnaldo Bongo/2023


16

Exemplo 2: Baseando-se nos resultados da tabela anterior, construa o gráfico de


barras com frequências acumuladas.

2.2.2.2.4. Histograma

Um histograma é um gráfico de barras verticais adjacentes, com uma barra


associada a cada uma das classes da variável. A base de cada barra é
proporcional à amplitude da respectiva classe e a área proporcional às frequências
absolutas, 𝑛𝑖 ou relativas, 𝑓𝑖.

Exemplo genérico de um histograma:

Exemplo 2: A tabela a seguir representa o salário mensal em Kwanzas (kz) de


funcionários de uma fábrica de tijolos:

Salário 𝑛𝑖

[2000---4000[ 10

[4000---6000 [ 14

[6000---8000 [ 11

[8000---10000 [ 18

[10000---12000 [ 12

[12000---14000 [ 15

Total 80

Por Agnaldo Bongo/2023


17

Esboce o histograma correspondente.

Obs.: Quando as classes têm amplitudes diferentes é necessário transformar as


frequências absolutas ou relativas, para que se verifique a proporcionalidade entre
a altura das barras e a sua base e se garanta que a área é igual a 𝑛 ou a 1 (com
base nas frequências absolutas e relativas, respetivamente. Assim as frequências
absolutas e relativas a representar são:

𝑛𝑖 𝑓𝑖
𝑛𝑖 = 𝑎𝑖 e 𝑓𝑖 = 𝑎𝑖

onde 𝑎𝑖 é a amplitude da classe 𝑖.

2.2.2.2.5. Polígono de frequências

Um polígono de frequências é um gráfico de linhas onde são representadas as


frequências absolutas, 𝑛𝑖, ou relativas, 𝑓𝑖, nos pontos médios das classes. Para
fechar o polígono é necessário criar uma classe adicional em cada um dos
extremos, com amplitude igual à classe adjacente e com frequência nula.

Os polígonos de frequência para dados agrupados, constroem-se a partir da


marca de classe que coincide com o ponto médio de cada coluna do histograma.
No mesmo, o ponto que tiver mais altura num polígono de frequência representa a
maior frequência, ao passo que a área abaixo da curva inclui a totalidade dos
dados existentes.

Exemplo 1 – polígono genérico de frequências:

Por Agnaldo Bongo/2023


18

Obs.: A área sob o polígono deverá ser igual à área do histograma, pelo que
quando as classes têm amplitudes diferentes é necessário transformar as
frequências absolutas ou relativas conforme já foi referido anteriormente.

Exemplo 2 - Esboce o polígono de frequências correspondente á tabela que


representa o salário mensal em Kwanzas (kz) de funcionários de uma fábrica de
tijolos.

2.2.2.2.6. Polígono de frequências acumuladas

Um polígono de frequências acumuladas, ou polígono integral, é um gráfico de


linhas onde são representadas frequências absolutas, 𝑁𝑖 , ou relativas, 𝐹𝑖 ,
acumuladas. A frequência acumulada para valores inferiores ao limite inferior da
primeira classe é nula e a frequência acumulada para valores superiores ao limite
superior da última classe é 𝑛.

Exemplo 1- Polígono de frequências acumuladas:

Exemplo 2 - Baseando-se nos resultados da tabela anterior Esboce o polígono de


frequências acumuladas correspondente.

2.2.2.2.7. Caixa-de-bigodes

Uma caixa de bigodes é um gráfico que contém por um retângulo, dividido em


duas partes, que situa os quartis. Os bigodes da caixa situam os pontos
adjacentes inferior e superior, ou seja, o menor e maior valores observados que
ainda não são considerados observações atípicas. Os asteriscos identificam os
valores atípicos, ou seja, os valores observados muito pequenos e muito grandes

Por Agnaldo Bongo/2023


19

(com ordens de grandeza que implicam que sejam classificados como valores
anómalos).

Da caixa de bigodes (ou diagrama de caixa ou boxplot) podem-se extrair as


seguintes características de um conjunto de dados:

▪ Localização;

▪ Dispersão;

▪ Assimetria;

▪ Valores atípicos (ou anómalos ou outliers).

Exemplo genérico de uma caixa de bigodes:

Onde:

➢ 𝐴𝐼 – Menor valor não atípico (ponto adjacente inferior)


➢ 𝑄1 – 1º quartil
➢ 𝑥̃ – Mediana
➢ 𝑄3 – 3º quartil
➢ 𝐴𝑆 – Maior valor não atípico (ponto adjacente superior)
➢ o – Valores atípicos moderados
➢  – Valores atípicos severos

Exemplos genéricos de assimetria na caixa de bigodes.

Por Agnaldo Bongo/2023


20

Obs.: Trataremos de exemplos práticos após vermos as medidas de localização.

2.2.3. Medidas de Localização

São medidas descritivas que localizam os valores observados na distribuição.


Podem ser:

▪ Tendência central: média, mediana e moda;


▪ Tendência não central: quantis (percentis, decis e quartis).

2.2.3.1. Medidas de Tendência central

As medidas de tendência central indicam os pontos em torno dos quais se


encontram os valores da variável estatística, ou seja, localizam a distribuição. As
principais medidas de localização são:

❖ Média aritmética

A média aritmética ou, abreviadamente, média, 𝑥̅ , é a medida de localização mais


correntemente utilizada. subdivide-se em dois tipos: simples e ponderada.

• A média aritmética simples da variável estatística 𝒙 define-se por:

Exemplo 1: Média aritmética simples (dados não agrupados)

A tabela abaixo mostra as notas de matemática de um aluno em um determinado


ano:

1° Trimestre 3,5 12
2° Trimestre 7,5 8,25
3° Trimestre 9,0 16,75
Determine a nota média trimestral.

Por Agnaldo Bongo/2023


21

∑ 𝑥𝑖 𝑥1 + 𝑥2 + 𝑥3 8,25 + 12 + 16,75 37
𝑥̅ = = = = = 12,3
𝑛 3 3 3

Interpretação: Ter média 12,3 significa dizer que, apesar de ter obtido notas mais
altas ou mais baixas em outros Trimestres, a soma das notas (37) é a mesma que
ele alcançaria se tivesse obtido nota 12,3 em todos os Trimestres.

Exemplo 2: Média aritmética simples (dados agrupados)

Os salários semanais dos funcionários de uma empresa estão distribuídos na


tabela abaixo:

Salário (em Kz) Nº de


funcionários
40.000,00 5
90.000,00 2
150.000,00 2
500.000,00 1
Determine o salário médio semanal dos funcionários.

Recorrendo a tabela, vem:

𝑥𝑖 𝑛𝑖 𝑥𝑖 ∗ 𝑛𝑖
40.000 5 200.000
90.000 2 180.000
150.000 2 300.000
500.000 1 500.000
∑ 𝑥𝑖 ∗ 𝑓𝑖 10 1.180.000

∑ 𝑥𝑖 ∗𝑛𝑖 1180000
𝑥̅ = = = 118.000
𝑛 10

Interpretação: Em média cada funcionário recebe semanalmente 118.000,00 Kz.

Exemplo 3: Média aritmética (dados agrupados em intervalos de classe)

A tabela a seguir representa o salário mensal em Kwanzas de funcionários de uma


fábrica de tijolos:

Por Agnaldo Bongo/2023


22

Salário 𝑛𝑖
[2000; 4000[ 10
[4000; 6000 [ 14
[6000; 8000 [ 11
[8000; 10000 [ 18
[10000;12000 [ 12
[12000; 14000 [ 15
Total 80

Determine o salário médio mensal dos funcionários desta fábrica.

Recorrendo a tabela temos:

Classes 𝑥𝑖 𝑛𝑖 𝑥𝑖 ∗ 𝑛𝑖
[2000; 4000[ 3000 10 30000
[4000; 6000 [ 5000 14 70000
[6000; 8000 [ 7000 11 77000
[8000; 10000 [ 9000 18 162000
[10000;12000 [ 11000 12 132000
[12000; 14000 [ 13000 15 195000
Total ::::::::::::::: 80 666000

∑ 𝑥𝑖 ∗ 𝑛𝑖 666000
𝑥̅ = = = 8.325
𝑛 80

Interpretação: O salário médio mensal dos funcionários desta fábrica é de 8325


Kwanzas.

• Média aritmética ponderada

A média ponderada considera “pesos” para cada item, ou seja, em um conjunto de


dados, cada item recebe uma importância. Supondo que tem-se um conjunto com
𝑛 dados (𝑥1 , 𝑥2 , 𝑥3 , 𝑥4 , … , 𝑥𝑛 ) , onde cada dado receberá um peso, respectivamente
(𝑝1 , 𝑝2 , 𝑝3 , 𝑝4 , … , 𝑝𝑛 ). Cada item será multiplicado pelo seu peso. A média será dada
pela divisão entre esta soma e a soma dos pesos considerados, assim, a média
entre esses dados será dada por:

Por Agnaldo Bongo/2023


23

𝑥1 ∗ 𝑝1 + 𝑥2 ∗ 𝑝2 + 𝑥3 ∗ 𝑝3 + 𝑥4 ∗ 𝑝4 + ⋯ + 𝑥𝑛 ∗ 𝑝𝑛
𝑥̅ =
𝑝1 + 𝑝2 + 𝑝3 + 𝑝4 + ⋯ + 𝑝𝑛

Exemplo 4: Uma aluna fez uma prova e obteve nota 19,1 e um trabalho, com nota
8,7. A média considera que a prova tenha peso 6 e o trabalho peso 4. Determine a
média dessa aluna.

19,1 ∗ 6 + 8,7 ∗ 4
𝑥̅ = = 14,94
6+4

Interpretação: A média ponderada da aluna é de 14,94 valores.

❖ Mediana

É o valor que separa a metade maior e a metade menor de uma amostra, uma
população ou uma distribuição de probabilidade. Em termos mais simples,
mediana pode ser o valor do meio de um conjunto de dados.

A vantagem da mediana em relação à média é que a mediana pode dar uma ideia
melhor de um valor típico porque não é tão distorcida por valores extremamente
altos ou baixos. Em estudos estatísticos sobre renda familiar ou outros activos
voláteis, a média pode ser distorcida por um pequeno número de valores
extremamente altos ou baixos.

Para dados brutos ou agrupados, supondo as observações dos valores da variável


estatística ordenados sob forma crescente 𝑥1 ≤ 𝑥2 ≤ 𝑥3 ≤ 𝑥4 ≤ ⋯ ≤ 𝑥𝑛 , há a
considerar duas hipóteses:

• n = 2k + 1 (impar), neste caso 𝑥̃ = 𝑥𝑘+1 (observação central).


𝑥𝑘 +𝑥𝑘+1
• n = 2k (par), neste caso 𝑥̃ = (observação central).
2

Exemplo 5: Mediana (dados não agrupados e agrupados)

Considere os dados em Rol: 3, 4, 4, 5, 6, 8, 8, 8, 10. Determine a mediana.

Soluçao:

n = 9, isto é, n = 2k + 1 e k = 4. Então, 𝑥̃ = 𝑥𝑘+1 = 𝑥5 = 6

Por Agnaldo Bongo/2023


24

Pelo agrupamento dos dados, tem-se:

𝑥𝑖 𝑛𝑖 𝑁𝑖
3 1 1
4 2 3
5 1 4
6 1 5
8 3 8
10 1 9
Total 9 ::::::::::
9+1
Sendo n = 9 e = 5, então 𝑥̃ = 𝑥5 = 6 .
2

Actividade 1:
Considere os dados em
Rol: 2, 3, 4, 4, 5, 6, 8, 8, 8, 10. Determine a mediana.

Para dados agrupados em intervalo de classe, a mediana é o valor tal que a


ordenada levantada no ponto do eixo das abcissas divide a área do histograma
em duas partes iguais, isto é, a mediana será o valor da abcissa a que
𝑛
corresponde a frequência absoluta (relativa) acumulada , e a fórmula será dada
2

por:
𝟏
∗𝒏 − 𝑵𝒊−𝟏
𝟐
̃ = 𝒍𝒊𝒎𝒊𝒏𝒇 +
𝒙 ∗ 𝒂𝒊 , onde:
𝒏𝒊

• liminf − limite inferior da classe mediana;


• n - tamanho da amostra
• Ni−1 - frequência absoluta acumulada anterior a classe mediana
• ni - frequência absoluta simples da classe mediana
• ai - amplitude da classe mediana

Exemplo7: A tabela a seguir, representa o salário mensal em kwanzas, de


funcionários de uma fábrica de tijolos:

Por Agnaldo Bongo/2023


25

Salário 𝑛𝑖
[2000; 4000[ 10
[4000; 6000 [ 14
[6000; 8000 [ 11
[8000; 10000 [ 18
[10000;12000 [ 12
[12000; 14000 [ 15
Total 80

Determine o salário mediano dos funcionários desta fábrica.

❖ Moda

A moda amostral de um conjunto de dados trata do valor que ocorre com maior
frequência ou o valor mais comum em um conjunto de dados. A moda é
especialmente útil quando os valores (observações) não são numéricos, casos em
que a média e a mediana não podem ser definidas.

Uma amostra pode ser unimodal (uma moda), bimodal (duas modas), multimodal
(várias modas) e amodal (nenhuma moda).

Para dados brutos ou agrupados, a moda será aquele que apresentar maior
frequência.

Exemplo 8: Considere os dados em Rol: 3, 4, 4, 5, 6, 8, 8, 8, 10. Determine a


moda.

Solução: 𝑥̂ = 8.

Considerando os dados apresentados na tabela abaixo, vem:

𝑥𝑖 𝑛𝑖
3 1
4 2
5 1
6 1
8 3
10 1
Total 9

Por Agnaldo Bongo/2023


26

𝑥̂ = 8 , porque apresenta a maior frequência.

Para dados agrupados em intervalo de classe, a moda será dada por:


𝒏𝒊𝒙̂ − 𝒏𝒙̂𝒊−𝟏
̂ = 𝒍𝒊𝒎𝒊𝒏𝒇 +
𝒙 ∗ 𝒂𝒊 , (Moda do Czuber)
𝟐∗ 𝒏 ̂ −( 𝒏𝒙
𝒊𝒙 ̂𝒊−𝟏 + 𝒏𝒙
̂𝒊+𝟏 )

𝒏𝒙̂𝒊−𝟏
̂ = 𝒍𝒊𝒎𝒊𝒏𝒇 +
𝒙 ∗ 𝒂𝒊 , (Moda do King)
(𝒏 ̂𝒊−𝟏 + 𝒏𝒙
𝒙 ̂𝒊+𝟏 )

̂= 𝟑∗𝒙
𝒙 ̃−𝟐∗𝒙
̅ , (Moda do Pearson), onde:

• 𝑛𝑖𝑥̂ – frequência modal


• 𝑛𝑥̂𝑖−1 – frequência anterior a modal
• 𝑛𝑥̂𝑖+1 – frequência posterior a modal
• ai - amplitude da classe modal

Moda de King considera as classes adjacentes à classe modal, enquanto que,


Moda de Czuber considera as classes adjacentes à classe modal e à própria
classe modal.

Actividade 2 - A tabela a seguir representa o salário mensal em kwanzas, de


funcionários de uma fábrica de tijolos:

Salário 𝑛𝑖
[2000; 4000[ 10
[4000; 6000 [ 14
[6000; 8000 [ 11
[8000; 10000 [ 18
[10000;12000 [ 12
[12000; 14000 [ 15
Total 80

Determine o salário modal dos funcionários desta fábrica.

Por Agnaldo Bongo/2023


27

2.2.3.2. Medidas de Tendência não central

Estas medidas descritivas permitem localizar a posição de um valor dentro de um


conjunto de dados, é calculada para as variáveis qualitativas ordinais e
quantitativa (discreta e contínua). Pode ser calculado quando os valores
observados são expressos nas mesmas unidades de dados em estudo.

Far-se-á agora uma abordagem de suas princípais medidas.

❖ Quartil

É uma medida que divide um conjunto de dados em 4 partes iguais. Existem três
quartis nomeadamente (𝑸𝟏 , 𝑸𝟐 𝑒 𝑸𝟑 ), no qual determina-se da seguinte maneira:

• 𝑸𝟏 − Obtém-se, determinando a mediana do conjunto de valores observados


que ficam á esquerda da mediana (o 1º quartil será um valor da variável tal que o
número de observações para valores inferiores será 25%);

• 𝑸𝟐 − Corresponde a mediana (o 2º quartil terá a metade das observações, á


sua direita e outra metade á sua esquerda);

• 𝑸𝟑 − Obtém-se, determinando a mediana do conjunto de valores observados


que fica á direita da mediana (o 3º quartil será um valor tal que á sua esquerda
concentrar-se-ão 75% das observações).

Exemplo 9 - Considere o conjunto de valores observados: 3, 4, 4, 4, 5, 6, 8, 8, 8,


8, 10. Determine os valores de Quartis.

Solução:

Começa-se por determinar a mediana (𝑸𝟐 ) que é igual ao 2º quartil. O conjunto de


valores tem um número impar de termos, logo 𝑥̃ = 𝑄2 = 6 . A partir da mediana o
conjunto fica dividido em dois subconjuntos: 3, 4, 4, 4, 5 e 8, 8, 8, 8, 10.

As medianas desses subconjuntos são respectivamente iguais a 4 e 8, pelo que


𝑄1 = 4 e 𝑄3 = 8.

Por Agnaldo Bongo/2023


28

De outro modo, localizando as posições da medida Quartílica pela fórmula, vem:


𝑖
Para 𝒏 impar: 𝑝 = 4 ∗ (𝑛 + 1), sendo 𝑝 a posição de cada dado (𝑥𝑝 )

1
Para 𝒏 par: 𝑝 = 4 ∗ (𝑖𝑛 + 2)

1
Daí, tem-se: 𝑄1 → 𝑝 = 4 ∗ (11 + 1) = 3, logo 𝑄1 = 𝑥3 = 4

3
e 𝑄3 → 𝑝 = 4 ∗ (11 + 1) = 9, , logo 𝑄3 = 𝑥9 = 8

Tratando-se de dados agrupados em intervalos de classe, a fórmula para obter


os quartis é idêntica á da mediana:

𝒊
∗𝒏 − 𝑵𝒊−𝟏
𝐐𝒊 = 𝒍𝒊𝒎𝒊𝒏𝒇 + 𝟒 ∗ 𝒂𝒊 , onde 𝒊 = 𝟏, 𝟐, 𝟑, …
𝒏𝒊

Actividade 3: A tabela a seguir, representa o salário mensal em kwanzas de


funcionários de uma fábrica de tijolos:

Salário 𝑛𝑖
[2000---4000[ 10
[4000---6000 [ 14
[6000---8000 [ 11
[8000---10000 [ 18
[10000---12000 [ 12
[12000---14000 [ 15
Total 80

Determine os quartis 1, 2 e 3.

❖ Decil

Decil é qualquer um dos nove valores que dividem os dados ordenados de uma
variável em dez partes iguais, de modo que cada parte representa 1/10 da
amostra ou população. Assim:

• O 1º decil é o ponto de corte para 10% dos dados mais baixos, isto é, o
percentil 10;
• O 5º decil é o ponto de corte para 50% dos dados, isto é, o percentil 50, 2º
quartil, ou mediana;

Por Agnaldo Bongo/2023


29

• O 9º decil é o limite para 90% dos dados mais baixos, isto é, o percentil 90.

Tratar-se de dados não agrupados ou agrupados por frequências procede-se de


forma idêntica aos quartis, assim como também, para dados agrupados em
intervalos de classe a expressão que dá os decis é análoga á dos quartis:

𝒊
∗𝒏 − 𝑵𝒊−𝟏
𝟏𝟎
𝐃𝒊 = 𝒍𝒊𝒎𝒊𝒏𝒇 + ∗ 𝒂𝒊 , onde 𝒊 = 𝟏, 𝟐, 𝟑, … 𝟗
𝒏𝒊

❖ Percentil

Percentil é uma medida que divide a amostra ordenada (por ordem crescente dos
dados) em 100 partes, cada uma com uma percentagem de dados
aproximadamente igual. Portanto:

• 1º percentil determina o 1% menor dos dados;


• O 98º percentil determina os 98% menores dos dados.
• O 25º percentil é o primeiro quartil;
• O 50º percentil é a mediana;
• O 10º percentil é o primeiro decil;
• O 80º percentil é o oitavo decil.

A definição de Mendenhall e Sincich para o i-ésimo percentil de n valores


ordenados é correspondente ao valor que ocupa a posição
𝐢
𝐩 = 𝟏𝟎𝟎 ∗ (𝐧 + 𝟏), arredondada para o inteiro mais próximo. A fórmula generalizada

para o cálculo de percentil, para dados não agrupados ou agrupados em


frequências será dada por:

Pi = xm + (p − m) ∗ (xm+1 − xm ), onde:

• Pi - é a medida percentil a ser utilizada ;


• xm+1 e xm - são as posições dos dados no rol;
• p - é a posição da medida percentil adoptada;
• m - é a parte inteira de p

Por Agnaldo Bongo/2023


30

Exemplo 10: Percentis (dados não agrupados ou agrupados em frequências)


Considere o conjunto de valores observados: 3, 4, 4, 4, 5, 6, 8, 8, 8, 8, 10.
Determine P60 e P90 .
Cálculo do P60 :
i 60
p = 100 ∗ (n + 1) = 100 × (11 + 1) = 7,2 → m = 7

P60 = x7 + (7,2 − 7) ∗ (x8 − x7 )


P60 = 8 + (7,2 + 7) ∗ (8 − 8) = 8
Cálculo do P90 :…
Para dados agrupados em intervalos de classe, a expressão que dá os
percentis é análoga á dos quartis e decis:
𝒊
∗𝒏 − 𝑵𝒊−𝟏
𝟏𝟎𝟎
𝐏𝒊 = 𝒍𝒊𝒎𝒊𝒏𝒇 + ∗ 𝒂𝒊 , onde 𝑖 = 1,2,3, … 99
𝒏𝒊

2.2.4. Medidas de Dispersão ou Variabilidade

São medidas descritivas que visam a medição do grau de dispersão dos dados em
torno de um valor médio. Podem ser:

▪ Absoluta: amplitude total, amplitude interquartil, desvio padrão e variância;


▪ Relativa: coeficiente de variação e coeficiente de dispersão.
❖ Amplitude total

É a diferença entre os valores extremos assumidos pela variável estatística.

xmax − xmin , para dados não agrupados ou agrupados em frenquências


𝐀𝐭 = {
lk+1 − l1 , para dados agrupados em intervalos de classes.

❖ Amplitude (intervalo) interquartil

A amplitude interquartil, 𝑨𝑰𝑸, é a diferença entre o 3º quartil e o 1º quartil.


Corresponde a um intervalo que engloba 50% das observações centrais:

𝐴𝐼𝑄 = 𝑄3 − 𝑄1

Por Agnaldo Bongo/2023


31

❖ Desvio padrão

O desvio padrão amostral, 𝒔, é a medida de dispersão mais utilizada. O valor


desta medida é obtido fazendo √𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎.

Observações:

➢ Esta medida só assume valores não negativos e quanto maior o seu valor
maior a dispersão.
➢ Para calcular o desvio padrão populacional, σ, basta substituir no
denominador do desvio padrão amostral 𝑛 − 1 por 𝑛.
➢ Propriedades para dados com distribuição aproximadamente normal:
- Aproximadamente 68% dos dados estão no intervalo [𝑥 − 𝑠; 𝑥 + 𝑠];
- Aproximadamente 95% dos dados estão no intervalo [𝑥 − 2𝑠; 𝑥 + 2𝑠];
- Aproximadamente 100% dos dados estão no intervalo [𝑥 − 3𝑠; 𝑥 + 3𝑠].
❖ Variância

A variância amostral, 𝑠 2 , é a média dos quadrados dos desvios entre os valores


observados e a média.

Observações:

Por Agnaldo Bongo/2023


32

➢ Esta medida só assume valores não negativos e quanto maior o seu valor
maior a dispersão.
➢ Para calcular a variância populacional, 𝜎2, basta substituir no
denominador da variância amostral 𝑛 − 1 por 𝑛.
➢ A variância tem como desvantagem o facto de ser expressa em unidades
ao quadrado, o que torna difícil a sua interpretação, razão pela qual se
utiliza o desvio padrão.
❖ Coeficiente de variação

O coeficiente de variação, 𝑪𝑽, mede o grau de concentração em torno da média,


em valor percentual:
𝐬
𝐂𝐕 = × 𝟏𝟎𝟎.
𝑥̅

❖ Coeficiente de dispersão

coeficiente de dispersão, 𝑪𝑫, mede o grau de concentração em torno da média. É


dado pelo quociente entre o desvio padrão e a média:
𝑠
𝐶𝐷 = 𝑥̅ .

Observações:

➢ Estes coeficientes só podem ser calculados quando a variável toma valores


de um só sinal, isto é, todos os valores são todos positivos ou são todos
negativos.
➢ Para valores inferiores a 50% do coeficiente de variação (ou 0,5 do
coeficiente de dispersão) a média será tanto mais representativa quanto
menor o valor deste coeficiente. Consequentemente, valores superiores a
50% do coeficiente de variação (ou 0,5 do coeficiente de dispersão)
indicam uma pequena representatividade da média.
❖ Momentos Centrais

São as médias aritméticas da 1ª, 2ª, 3ª, 4ª,… potências dos desvios em relação á
média aritmética. A fórmula para o cálculo dos momentos é:

Por Agnaldo Bongo/2023


33

Observações:

➢ Os momentos teóricos representam-se por 𝜇 em vez de 𝑚 e


correspondem ao caso em que se conhece toda a população.
➢ Designa-se por momento central de ordem 𝒓, ou 𝑟 − é𝑠𝑖𝑚𝑜 momento
central ou momento de ordem 𝒓 em relação à média, 𝑚𝑟 , quando 𝑉 = 𝑥
e verifica-se que:
- O 1º momento central é sempre nulo e 𝑚1 = 0;
- O 2º momento central está relacionado com a variância amostral:
𝑛−1
𝑚2 = × 𝑆2;
𝑛

- Na população, o 2º momento central, 𝜇2, é igual à variância


populacional e
𝜇2 = 𝜎 2
- Numa distribuição simétrica, todos os momentos centrais de ordem
ímpar são nulos.
➢ Designa-se por momento de ordem 𝒓 em relação à origem, ou 𝒓 -
ésimo momento ou momento de ordem 𝒓, 𝒎𝒓 ′ , quando 𝑉 = 0. Para
este caso particular verifica-se que:
- O 1º momento em relação à origem é igual à média e 𝑚1 ′ = 𝑥.

Os momentos são muito importantes em Estatística para caracterizar as


distribuições de uma variável ou probabilidade. Por exemplo, a distribuição
normal é caracterizada apenas pelo primeiro e pelo segundo momento. O
primeiro, segundo, terceiro e quarto 48 Filipe Mahaluça momento caracterizam
a tendência central, dispersão, assimetria e curtose, respectivamente, de uma
distribuição. Os momentos mais importantes são os quatro primeiros, que são
muito utilizados para caracterizar as distribuições de uma variável ou

Por Agnaldo Bongo/2023


34

probabilidade. Entretanto, é quase sempre possível calcular momentos de alta


ordem.

Actividade 4: Estabeleça a relação entre os momentos em relação à média e


os momentos em relação a um valor arbitrário V.

Actividade 5: Desvio padrão (dados não agrupados)

A tabela abaixo mostra as notas de Matemática de um aluno em um


determinado ano:

1° Trimestre 12
2° Trimestre 8,25
3° Trimestre 16,75
Determine o desvio padrão.

Actividade 6: A tabela a seguir, representa o salário mensal em kwanzas de


funcionários de uma fábrica de tijolos:

Salário 𝑛𝑖
[2000---4000[ 10
[4000---6000 [ 14
[6000---8000 [ 11
[8000---10000 [ 18
[10000---12000 [ 12
[12000---14000 [ 15
Total 80

Determine o desvio padrão do salário dos funcionários desta fábrica.

Actividade 7: Coeficiente de Variação.

Um empresário pode investir em dois possíveis produtos A e B, cujos preços


variam. Os dados observados permitiram calcular as seguintes medidas:

𝑥̅𝐴 =70 e 𝑥̅𝐵 =150

SA = 30 e SB = 40

Qual dos produtos apresenta maior homogeneidade nos seus preços?

Por Agnaldo Bongo/2023


35

2.2.5. Medidas de Assimtria

São medidas descritivas que visam a medição do grau de afastamento da simetria


da distribuição. Quando no conjunto de dados predominam os valores menores
diz-se que a distribuição é assimétrica positiva (𝑥̂ < 𝑥̃ < 𝑥̅), quando no conjunto de
dados predominam os valores maiores, diz-se que a distribuição é assimétrica
negativa (𝑥̅ < 𝑥̃ < 𝑥̂ ) e tem uma “cauda” à direita (esquerda). Caso contrário a
distribuição é simétrica (𝑥̅ = 𝑥̂ = 𝑥̃). As assimetrias podem ser de três tipos:

Estas medidas sintetizam até que ponto uma distribuição de frequência é


enviesada, deformada ou assimétrica. Estas medidas utilizam-se para classificar
distribuições unimodais e elucidam sobre a forma geral da distribuição, isto é, se é
simétrica ou, em caso contrário, se afasta muito ou pouco da simetria. Quando a
distribuição é simétrica, o coeficiente de assimetria é nulo. Quando não é nulo, a
distribuição é assimétrica, sendo o grau de assimetria tanto maior quanto maior for
o valor absoluto do coeficiente.

▪ Grau de assimetria de Pearson

𝑥̅ −𝑥̂
O grau de assimetria de Pearson, 𝒈𝑷, é dado por: 𝑔𝑃 = , onde −3 < 𝑔𝑃 < 3.
𝑆

Para 𝑔𝑃 ≈ 0 a distribuição é simétrica; para 𝑔𝑃 ≈ 3 a distribuição é assimétrica


positiva; para 𝑔𝑃 ≈ −3 a distribuição é assimétrica negativa.

Observação: O grau de assimetria de Pearson só pode ser utilizado quando a


distribuição é unimodal, ou seja, só tem uma moda.

▪ Grau de assimetria de Bowley

(Q3 − 𝑥̃) −( 𝑥̃− Q1 )


O grau de assimetria de Bowley, 𝒈𝑩, é dado por: 𝑔𝐵 = , −1 <
𝑄3 −𝑄1

gB < 1.

Por Agnaldo Bongo/2023


36

Para 𝑔𝐵 ≈ 0 a distribuição é simétrica; para 𝑔𝐵 ≈ 1 a distribuição é assimétrica


positiva; para 𝑔𝐵 ≈ −1 a distribuição é assimétrica negativa.

Observação: O grau de assimetria de Bowley deve ser utilizado quando se


desconhece a média e o desvio padrão.

▪ Coeficiente de assimetria de Fisher


μ3
O grau de assimetria de Fisher, 𝜸𝟏 , é dado por: 𝛾1 = .
𝛿2

onde μ3 representa o 3º momento teórico. O sinal de 𝛾1 é o sinal da assimetria.

Observação: O coeficiente de Fisher é o coeficiente de assimetria teórico, que representa o


verdadeiro valor da assimetria da distribuição, e que só deve ser usado quando se conhece toda a
população. Os coeficientes de Pearson e de Bowley são empíricos e têm como principal vantagem
a sua facilidade de cálculo, hoje em dia ultrapassada pela utilização frequente de programas de
estatística.

▪ Coeficiente de assimetria amostral

O coeficiente de assimetria amostral utilizado por vários softwares, como sejam


𝑛2 .𝑚
3
SPSS, Excel e SAS e 𝑔𝑎 , é dado por: 𝑔𝑎 = (𝑛−1)(𝑛−2)𝑆 3

O sinal de 𝑔𝑎 é o sinal da assimetria.

Actividade 8:
Durante certo período de tempo as taxas de juros para dez acções foram as
abaixo registadas:

Acção 1 2 3 4 5 6 7 8 9 10

Taxa(%) 2.59 2.64 2.60 2.62 2.55 2.61 2.50 2.63 2.64 2.69

Calcule:

a) A taxa média

b) A taxa mediana

c) A taxa modal

d) O desvio padrão das taxas

Por Agnaldo Bongo/2023


37

e) O coeficiente de variação das taxas

f) O coeficiente de assimetria.

Actividade 9: Abaixo são mostrados os saldos médios de 48 contas de clientes do


BPC (dados brutos em Kwanzas).

450 500 150 1000 250 275 550 500

225 475 150 450 950 300 800 275

600 750 375 650 150 500 1000 700

475 900 800 275 600 750 375 650

150 500 225 250 150 120 250 360

230 500 350 375 470 600 1030 270

a) Calcule as medidas de tendência central. Interprete.


b) Encontre as medidas de variabilidade.
c) Calcule o coeficiente de assimetria.

2.2.6. Medidas de Concentração

Definem-se pelas frequências acumuladas:

∑𝐢𝐣=𝟏 𝐧𝐣 𝐍𝐢 ∑𝐢𝐣=𝟏 𝐧𝐣 .𝐱 , 𝐣 ∑𝐢𝐣=𝟏 𝐘𝐣


𝐩𝐢 = = = 𝐅𝐢 e 𝐪𝐢 = ∑𝐢 ,
= ∑𝐢 i = 1,2,3,4, … , K
𝐧 𝐧 𝐣=𝟏 𝐧𝐣 .𝐱 𝐣 𝐣=𝟏 𝐘𝐣

Onde:

- 𝐩𝐢 , representa a proporção de indivíduos que possuem a característica com uma


intensidade inferior ao limite superior da 𝑖-ésima classe, 𝐿𝑆𝑖 ;

- 𝐪𝐢 , representa a proporção da totalidade da característica possuída pelos


indivíduos que possuem a característica com uma intensidade inferior ao limite
superior da 𝑖-ésima classe, 𝐿𝑆𝑖 .

- Os valores pi e q i , 𝑖 = 1, 2, … ,𝐾, satisfazem as relações: 𝐩𝐢 ≥ 𝐪𝐢 ; 0 ≤ 𝐩𝐢 ≤ 1; 0 ≤


𝐪𝐢 ≤ 1.

Por Agnaldo Bongo/2023


38

Considere-se a tabela de frequências, onde 𝑦𝑖 é o total da característica


correspondente aos indivíduos ou elementos da 𝑖-ésima classe.

Sendo tabela de frequências, da seguinte forma:

Estas medidas podem ser de dois tipos: Curva de Lorenz e Índice de


concentração de Gini.

2.2.6.1. Curva de Lorenz

A curva de Lorenz obtém-se representando os pontos (𝑝𝑖 , 𝑞𝑖 ), 𝑖 = 1, 2, … ,𝐾, num


sistema de eixos cartesianos e unindo os mesmos por meio de segmentos de
recta.

Se houver igual distribuição, os valores 𝑝𝑖 e 𝑞𝑖 são iguais e a curva de Lorenz


degenera na diagonal que se designa por recta de igual distribuição. A área
compreendida entre a recta de igual distribuição e a curva de Lorenz é designada
por área de concentração. Quanto maior for esta área mais elevada será a
concentração. Na Figura apresenta-se o aspecto genérico da curva de Lorenz:

Por Agnaldo Bongo/2023


39

2.2.6.2. Índice de concentração de Gini

O índice de concentração de Gini, 𝑰𝑮, mede a concentração de uma determinada


característica numa população. É dado por:

∑k−1
i=1 (pi − q i ) ∑k−1
i=1 q i
𝑰𝑮 = = 1−
∑k−1
i=1 pi ∑k−1
i=1 pi

Características:

• 𝐼𝐺 = 0 quando há igual distribuição, 𝑝𝑖 = 𝑞𝑖 ;


• 𝐼𝐺 = 1 quando a concentração for máxima, 𝑞𝑖 = 0;
• Cresce com o aumento de concentração da característica em estudo.

Actividade 11: Trabalho em grupo.


- Resistência e Sensibilidade das Medidas
- Comparação e Transformação de Dados

Por Agnaldo Bongo/2023


40

UNIDADE III - REGRESSÃO E CORRELAÇÃO SIMPLES

3.1. Diagrama de Dispersão; Correlação e Regressão

3.2. Rectas de regressão Minimos Quadrados

3.3. Funções Linearizáveis

3.4. Qualidade do Ajustamento: Coeficiente e Índice de Correlação

Por Agnaldo Bongo/2023

Você também pode gostar