Explorar E-books
Categorias
Explorar Audiolivros
Categorias
Explorar Revistas
Categorias
Explorar Documentos
Categorias
Docentes:
Huambo/2021 - 2022
Apresentação
tos, tem como nalidade munir o estudante de conhecimentos iniciais sobre a Estatística
Mais do que simplesmente ensinar, pretende-se que os estudantes possam: (i) despertar e
estimular o interesse pelo método estatístico; (ii) utilizar uma linguagem simples e aces-
economia, como são os casos de, Econometria, Estatística II, Teoria Económica, Investi-
mia, entre outras. Para melhor compreensão, o estudante deve ter uma adequada destreza
em manejar operações matemáticas básicas, por isso tem como precedência as cadeiras
Estas notas servirão como texto de apoio da cadeira no presente ano lectivo. A sua
elaboração obedeceu um aceitável nível de rigor que esta área de conhecimento exige e
maior parte dos dados utilizados, tiveram como fonte os dados ociais do INE-Instituto
por isso se aconselha que cada estudante resolva o maior número possível de exercícios.
Pelo DEIMQ
Professor Auxiliar
2
Conteúdo
1 A Estatística 1
1.1 Conceitos Fundamentais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.4.3 Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2 Técnicas de Amostragem 15
2.1 Importância da Amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . 15
i
Notas - Estatística I FEC - UJES/2021-2022
3.2.1 Diagramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4 Distribuição de Frequências 36
4.1 Conceitos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
em Intervalos de Classe. . . . . . . . . . . . . . . . . . . . . . . . . 39
Intervalos de Classe. . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.4.1 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
6.1.2 Cálculo dos Quartis para Dados agrupados sem Intervalo de Classe 72
6.1.3 Cálculo dos Quartis para Dados Agrupados com Intervalo de Classe 74
6.2 Decis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6.3 Percentis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
buição de Frequência . . . . . . . . . . . . . . . . . . . . . . . . . . 81
2
7.2 Variância (σ ) e Desvio- padrão (σ ) . . . . . . . . . . . . . . . . . . . . . . 81
Colectados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
7.5 Curtose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
9 Probabilidades 110
9.1 Teoria de Probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
Independentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
keting digital . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
vendas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
de crédito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
vi
Notas - Estatística I FEC - UJES/2021-2022
viii
Notas - Estatística I FEC - UJES/2021-2022
A Estatística
dados que consideravam importante, tais como as informações sobre suas populações e
suas riquezas, tendo como objectivo ns militares ou tributários. Os governantes investi-
períodos:
1. Período da preparação dos factos: abrange a idade antiga, idade média e parte
pios bíblicos fez o levantamento do povo judaico, para ns de guerra, nessa época
Na idade média, destacam-se os árabes, no ano 721, coma coleta numérica das ci-
seus produtos, para o controlo das conquistas territoriais. Na parte idade moderna,
da divisão do solo da Inglaterra das várias classes sociais existentes, para ns de
arrecadação de impostos.
1
Notas - Estatística I FEC - UJES/2021-2022
fenómenos sociais; Edmond Halley, que constrói o cálculo actuarial e esboça a pri-
meira tábua de mortalidade; Blaise Pascal e Pierre Fermat que no século XV II
gases.
pectos e problemas em todas as áreas do conhecimento. Para se ter uma ideia sobre a
• A análise de qualquer uma destas denições revela que na base da estatística está
um conjunto de dados sendo esta constituída pelos métodos que são utilizados
obtê-las, que fazer com elas? A estatística trabalha com essas informações, associando os
(ou prossional ou cientista) a obter conclusões a partir dessas informações, de tal forma
o agrónomo e muitos outros prossionais a realizarem o seu trabalho com mais eciência.
ou formulação de soluções.
trabalho que devem ser desenvolvidas para se chegar aos resultados nais de um estudo
objectivos e a utilização dos meios estatísticos. A coleta de dados vai obter informações
sobre a realidade a ser estudada. A pós a coleta dos dados, é necessário classicá-los; isso
outros levantamentos realizados no mesmo campo e que sejam análogos, uma vez
que parte da informação de que se necessita pode, muitas vezes, ser encontrada
nesses últimos.
que se pretende atingir. É nessa fase que será escolhido o tipo de levantamento a
ser utilizado. Sob esse aspecto, pode haver dois tipos de levantamento:
todo o universo;
Outros elementos importantes que devem ser tratados nesta mesma fase são:
várias fases;
• Custos envolvidos;
(a) Dados primários quando são publicados ou coletados pelo próprio pesqui-
sador ou organização que os escolheu;
(b) Dados secundários quando são publicados ou coletados por outra organi-
zação.
sectores industriais, os dados são secundários para quem desejar utilizar-se deles
empresa que realiza uma pesquisa para saber a preferência dos consumidores
(b) Coleta Indirecta quando é inferida a partir dos elementos conseguidos pela
coleta direta, ou através do conhecimento de outros fenómenos que, de algum
é conveniente que lhes seja dado algum tratamento prévio, a m de torná-los mais
5. Apresentação dos Dados: Por mais diversa que seja a nalidade, os dados devem
ser apresentados sob forma adequada, tornando mais fácil o exame do fenómeno que
facilitar a análise numérica de dados, não permite ao analista obter uma visão
tão rápida, fácil e clara do fenómeno e sua variação como aquela conseguida
através de um gráco.
fenómeno. Assim, o conjunto de dados a ser analisado pode ser expresso por núme-
signicado exato de cada um dos valores obtidos através do cálculo das várias me-
didas estatísticas disponíveis deve ser bem interpretado. É possível mesmo, nesta
riormente, algum grau de incerteza, porque não se pode estar seguro de que o que
para a população.
6. Agrupamento de dados.
isolados:
3. Probabilidade.
estatística descritiva.
Nota 1.4.1 (Estatística Descritiva) . É a parte mais conhecida. Por exemplo, ao ver
o noticiário, na televisão ou nos jornais, sabe-se quão frequente é o uso de médias, índices
e grácos nas notícias.
A Inferência Estatística é constituída pelo conjunto dos métodos que permitem generalizar
Nota 1.4.2 A tomada de decisões sobre a população, com base em estudos feitos sobre
os dados da amostra, constitui o problema central da inferência estatística.
1.4.3 Probabilidade
A teoria de probabilidades nos permite descrever os fenómenos aleatórios, ou seja, aqueles
situação.
coleta e a análise de dados estatísticos. A coleta de dados é, pois, a fase inicial de qualquer
Exemplo 1.5.1 (Renda média per capita em diversas regiões do país) Toma-se um
conjunto de indivíduos em cada região, escolhidos ao acaso, e sobre esse grupo são feitos
os estudos. Os indivíduos assim escolhidos constituem a amostra e os resultados nela
observados serão estendidos à população.
Classicação da População
de Economia ou ISP-Caála;
Nota 1.5.3 Vários motivos levam a necessidade de se observar apenas uma parte da
população, como, por exemplo: a falta de tempo, recursos nanceiros e/ou humanos. A
amostra deve ser obtida através de técnicas de amostragem, as quais tem como objectivo
principal garantir a representatividade da população, ou seja, fazer com que a amostra
seja um retrato el da população.
• Estatística: é uma medida numérica que descreve uma característica de uma amos-
tra;
1. Variáveis Qualitativas: quando os valores que elas podem receber são referentes à
óptima qualidade.
qualidade.
2. Variáveis Quantitativas: quando os valores que ela pode assumir são numéricos,
junto enumerável, ou seja, pode assumir apenas valores inteiros. Por exemplo:
valores num intervalo dos números reais. Assumem inúmeros valores numéricos
entre dois limites, ou seja, podem assumir valores decimais. Exemplo: tempo
Observação 1.6.1 . O facto de uma variável ser expressa por números não signica
que ela seja necessariamente quantitativa, por que a classicação da variável depende de
como foi medida, e não do modo como se manifesta. Por exemplo, para a variável peso de
um lutador de boxe, se for anotado o peso marcado na balança, a variável é quantitativa
contínua; por outro lado, se esse peso for classicado segundo as categorias do boxe, a
variável é qualitativa ordinal.
0, 1, 2, 3 ou 4,
1. Quando o primeiro algarismo a ser abandonado no arredondamento é
Exemplo:
procedimentos:
de0, aos algarismo que antecede o 5 será acrescentada uma unidade, se for
Total −→ 100%
Parcela −→ X% (1.7.1)
Técnicas de Amostragem
Existem técnicas adequadas para recolher amostras, de forma a garantir (tanto quanto
possível) o sucesso da pesquisa e dos resultados. Nem sempre é possível fazer uma pesquisa
envolvendo a população para obter os dados de estudo. Por exemplo para vericar a
para análise. Outro exemplo : nem todas as declarações entregues a AGT têm vericação
detalhada, a escolha dos contribuintes que participam da chamada malha na é feita
por amostragem.
população de interesse. Temos usualmente que trabalhar com uma amostra da população.
sões obtidas da amostra para a população. Mas, para as inferências serem corretas, é
necessário garantir que a amostra seja representativa da população, isto é, a amostra deve
pesquisado.
É uma utopia pensar que, caso tivéssemos acesso a todos os elementos da população,
seríamos mais precisos. Os erros de coleta e manuseio de um grande número de dados são
maiores do que as imprecisões a que estamos sujeitos quando generalizamos, via inferência,
central é que ela seja representativa. É preciso que a amostra, ou as amostras que vão ser
usadas sejam obtidas por processos adequados. Assim obter informações através de um
15
Notas - Estatística I FEC - UJES/2021-2022
Nota 2.1.1 Dados coletados de forma descuidada podem ser tão inúteis que nenhum
processamento estatístico consegue salvá-los.
e operacionalidade:
• O levantamento de dados sobre uma parte das população é mais económico que o
• O levantamento de dados sobre uma parte da população é mais rápido que o levan-
elementos;
população deve ter a mesma chance de ser escolhido para garantir à amostra o carácter
para compor a amostra. O tamanho da amostra não segue nenhuma regra xa, sendo
Exemplo 2.3.1 Numa empresa de 200 funcionários deve ser selecionado um mínimo de
20 funcionários (10 % 200) para compor uma amostra.
Nota 2.3.1 Para fazer inferências válidas sobre a população a partir de uma amostra, é
preciso que essa seja representativa. Uma das formas de se conseguir representatividade
é fazer com que o processo de escolha da amostra seja, de alguma forma, aleatório. Além
disso, a aleatoriedade permite o cálculo de estimativas dos erros envolvidos no processo
de inferência. Quanto à extracção dos elementos, as amostras podem ser:
tuída a amostra dos dados e quais as características ou variáveis a serem estudadas. Neste
Amostragem Casual ou
sentido, as técnicas fundamentais para determinação da são :
zada sem reposição, que é o caso mais comum, existem ( N,n) possíveis amostras, todas
igualmente prováveis. As amostras aleatórias podem ser escolhidas por diversos métodos,
Nota 2.4.1 A leitura da tabela pode ser feita horizontalmente (da direita para a esquerda
ou vice-versa), verticalmente (de cima para baixo ou vice- versa), diagonalmente (no
sentido ascendente ou descendente). A opção, porém, deve ser feita antes de iniciado o
processo e de computadores para gerar números aleatórios. Na prática, a amostra aleatória
simples é escolhida unidade por unidade. As unidades da população são numeradas de 1
a N.
Neste tipo de amostragem, todos os elementos da população estão disponíveis para serem
avaliados na amostra. Essa técnica deve garantir que qualquer elemento da população
tenha a mesma probabilidade de ser selecionado. Para tanto, a seleção deve ocorrer por
meio de sorteio.
1A TNA (Tabela de Números Aleatórios) consiste em tabelas que apresentam sequências dos dígitos
de 0 a 9 distribuídos aleatoriamente nas linhas( horizontais) e colunas (verticais). Para obter os elementos
da amostra usando a TNA, sorte-a-se uma linha e uma coluna qualquer para começar a leitura.
Nota 2.4.2 Para retirar amostras em populações com mais de 10 itens é necessário ler
as colunas quantos dígitos compõe o número total de itens da população. Exemplo: para
retirar 5 amostras de uma população com 300 itens, temos que ler três colunas para con-
seguirmos valores entre 001 e 300. Se o número sorteado superar o número de elementos
rotulados, abandona-se o número sorteado, prosseguindo-se o processo. Considerando a
9a linha e 5a coluna temos como resposta : 124, 056, 094, 143, 014.
comuns entre seus elementos. Nesse processo, a variável em estudo apresenta comporta-
mento diferente em cada estrato. Por exemplo, se a característica for sexo, a população
• No primeiro tipo, sorteia-se igual número de elementos em cada estrato. Esse pro-
mesmo.
Na na n
= −→ na = Na (2.4.1)
N n N
Exemplo 2.4.2 Uma empresa de marketing digital do Huambo conta com 480 funcio-
nários, dos quais 288 são do sexo feminino e os 192 restantes do sexo masculino. Con-
siderando a variável "sexo"para estraticar essa população, foi selecionada uma amostra
proporcional estraticada de 50 funcionários. Calcule a proporção de funcionários de cada
sexo contida na amostra.
Tabela 2.1: Amostragem proporcional estraticada por sexo de uma empresa de marketing
digital
Exemplo 2.4.3 Com objectivo de levantar o estilo de comunicação ideal preferido pelos
trabalhadores da Fábrica Cuca do Huambo, realiza-se o levantamento por amostragem. A
população é composta por 200 chefes de secção, 4 400 operários especializados e 1 200
operários não especializados. Obtenha uma amostra com 5 % dos operários da indústria,
mantendo as mesmas relações de proporcionalidade em cada estrato.
lidade, pois se selecciona a mesma quantidade de elementos de cada estrato. Deve ser
usado se o maior interesse for comparar os estratos ou obter estimativas separadas para
cada estrato.
Exemplo 2.4.4 Considerando o Exemplo 2.4.2, em que uma empresa de marketing digi-
tal conta com 480 funcionários, dos quais 288 são do sexo feminino e os 192 restantes do
sexo masculino. Considerando a variável "sexo"para estraticar essa população, vamos
obter uma amostra estraticada uniforme de 50 funcionários. Supondo que haja homoge-
neidade dentro de cada categoria, pode-se obter uma amostra estraticada uniforme de 50
funcionários com a selecção de 25 elementos de cada estrato.
se construir o sistema de referência. Nesses casos, a seleção dos elementos que consti-
tuirão a amostra pode ser por um sistema imposto pelo pesquisador. Este método é um
se acham ordenados. Exemplos que podem ser citados: as casas e prédios de uma rua,
tamanho N , K deve ser menor ou igual a N/n. Não é possível determinar K , precisamente,
quando o tamanho da população é desconhecido, mas pode-se supor um valor de k de
tal modo que seja possível obter uma amostra de tamanho n. Em vez da amostragem
• A amostragem sistemática é mais fácil de se executar e, por isso, está menos sujeita
Método para seleção dos elementos de uma amostra sistemática de uma po-
pulação.
• Consideramos uma população com N elementos e que se deseja extrair uma amostra
sistemática de n elementos:
N
I= , (n < N ) (2.4.2)
n
onde I é o intervalo de seleção, N= tamanho da população, n= tamanho da
amostra.
elemento sorteado.
oitavo elemento.
da lista).
∗ E assim sucessivamente.
m + (n − 1)I (2.4.3)
a). Supondo que o primeiro cliente (obtido por sorteio) seja o de número 21, determine
os números dos próximos cinco clientes seleccionados.
• Intervalo de seleção: I = N
n
= 2.185
70
= 31, 21 ≈ 31
a). Posição do primeiro elemento da amostra m = 21. Os números dos próximos cinco
clientes selecionados para amostra são:
milares, portanto, o fato de novas medidas serem tomadas num conglomerado não
Como regra geral, o número de elementos num conglomerado deverá ser pequeno
zoavelmente grande.
O estudo desta temática exige de nós o estudo do conceito de tabela. As tabelas são
e comparação dos dados. As tabelas permitem uma visão geral dos valores assumidos
Indicadores 2020
Saldo Orçamental ( % do PIB) - 1.7
Dívida Pública (% do PIB) 134, 2
Saldo Externo ( % do PIB) 16,6
Taxa de Crescimento do PIB (%) - 6,8
Taxa de Desemprego (%) 30,6
Taxa de Inação Anual (%) 25,1
Preço do Barril de Petróleo (USD) 42,8
24
Notas - Estatística I FEC - UJES/2021-2022
uma mesma ordem de classicação: quantitativa. No sentido mais amplo, série é uma
tatísticos, a série será chamada de série estatística. Em sentido mais restrito, pode-se
dizer que uma série estatística é uma sucessão de dados estatísticos referidos a caracte-
res qualitativos, ao passo que uma sucessão de dados estatísticos referidos a caracteres
Denição 13 . É chamada séria estatística toda tabela que apresenta um conjunto de da-
dos estatísticos distribuídos em função da época ,local ou de espécie. Elas são classicadas
em : Temporais; Geográcas; Especícas e Distribuição de Frequências.
temporal, série histórica, série evolutiva ou marcha, identica-se pelo caráter variável do
factor cronológico. Assim, deve-se ter: Elemento variável: Época ou Tempo; Elementos
Fixos: Local e Fenómeno ou Facto.
• Local: Angola; Tempo: Janeiro, Fevereiro, Março, Abril, Maio, Junho, Julho,
factor geográco como elemento variável. Nessa série, o local varia enquanto o tempo e o
Nota 3.1.1 (Série Geográca) Também chamada de série territorial, série espacial ou
série de localização, identica-se pelo caráter variável do factor geográco. Assim, deve-se
ter: Elemento variável: Local Elementos Fixos: Época e Fenómeno.
Fonte: Elaborado pelos Autores a partir dos dados do INE, 2015 - 2020.
• Local : Cabinda, Luanda, Huíla, Huambo, Luanda Sul ,e Moxico. Tempo : Ano
local e o tempo permanecem constantes enquanto o facto varia. A série especica também
é chamada de categórica.
Nota 3.1.2 (Série Especíca) Também chamada de série categórica ou série por ca-
tegoria, identica-se pelo carácter variável de factor especicativo. Assim, deve-se ter:
Elemento variável: Fenómeno; Elementos Fixos: Local e Época
Tabela 3.4: Número de trabalhadores (sector público e privado) das várias classes de
salários em Angola 2018 - 2020
única tabela, mais do que uma série. Quando as séries aparecem conjugadas, tem-se
uma tabela de dupla entrada. Em uma tabela desse tipo são criadas duas ordens de
Observação 3.1.1 . Nem sempre uma tabela representa uma série estatística. Por ve-
zes, os dados reunidos não revelam uniformidade, sendo meramente um aglomerado de
informações gerais sobre determinado assunto, as quais, embora úteis, não apresentam a
consistência necessária para se congurar uma série estatística.
• Clareza o gráco deve possibilitar uma correcta interpretação dos valores repre-
• Sempre que possível, a escala vertical há de ser escolhida de modo a aparecer a linha
0 (zero);
• A escala horizontal deve ser lida da esquerda para a direita, e a vertical de baixo
para cima;
• Os títulos e marcações do gráco devem ser dispostos de maneira que sejam facil-
mente lidos, partindo da margem horizontal inferior ou da margem esquerda.
Denição 14 Os grácos são desenhos que envolvem formas e cores cuja construção
utiliza técnicas de desenho. Eles processam as mesmas informações das tabelas, porém
produzem comunicação visual mais rápida, permitindo melhor compreensão das principais
características dos dados. Além disso, fazem correspondências entre elementos de uma
série estatística e uma gura geométrica, de tal modo que haja proporcionalidade nessa
representação.
3.2.1 Diagramas
Os diagramas são grácos de representação geométrica num universo de duas dimensões.
Nos grácos em colunas ou em barras, são feitas correspondências entre elementos de uma
série estatística e a gura geométrica de um retângulo, de tal modo que haja proporcio-
Nota 3.2.2 . Podemos construir o gráco em colunas ou em barras. O Excel nos per-
mite a elaboração do gráco com diferentes visuais. Para construir o gráco em barras,
considera-se o comprimento do retângulo, associação ao número populacional e a largura
associada ao ano correspondente (exemplo 3.2.2).
É a representação simultânea de dois ou mais fenómenos num mesmo gráco. Essa simul-
taneidade tem por objectivo permitir a comparação entre os fenómenos estudados. Esse
Grácos em Sectores
• O gráco de sectores não deve ser empregado se houver mais de sete dados.
• A representação da área de cada sector é obtida por uma regra de três simples. O
Subconjunto −→ X o
Nota 3.2.3 Se o gráco for feito manualmente, sua construção deve ser proporcional aos
valores especicados na tabela 3.5. Por exemplo para o indicador taxa de emprego, temos:
193, 3 −→ 360o
61, 7 −→ X o
X = 115o
115o graus no circulo corresponde a 32 % da área do círculo, que por outro lado signica
que a população empregada representa 32 % da população economicamente activa. O
cálculo e análise são análogos para os demais indicadores.
temporais em que é possível comparar os valores da série com o valor de sua média arit-
mética. A média aritmética é representada por círculo ; por outro lado, cada ponto da
série poderá estar dentro ou fora do círculo. O visual do gráco polar facilita a compara-
variação da
ção de cada valor com a média aritmética. Alguns exemplos dessas séries :
Exemplo 3.2.5 (Gráco Polar ou Radar) . O valor médio é representado pelo cír-
culo de raio r = 15 constituído no gráco, dessa forma, os valores mensais da série podem
ser comparados ao valor médio.
Distribuição de Frequências
uma população. Essa determinação afectará não somente os métodos utilizados, mas
também as conclusões, pois se estamos trabalhando com uma amostra os resultados en-
Nem sempre é possível compreender o signicado contido numa amostragem por simples
inspeção visual dos dados numéricos coletados. Entretanto, entendemos que o sucesso
gráca de uma série de dados, matéria prima das distribuições de frequências e dos
seus grácos.
Denition 4.1.2 (Rol) . É a ordenação dos valores obtidos (dados brutos) em ordem
crescente ou decrescente de grandeza numérica ou qualitativa. São os dados brutos, orga-
nizados em ordem crescente ou decrescente.
36
Notas - Estatística I FEC - UJES/2021-2022
f ri % = f ri × 100 (4.1.2)
i
X
F raci = f r1 + f r2 + f r3 + · · · + f rn −→ F raci = f ri (4.1.4)
1
ou
F aci
F raci = (4.1.5)
n
que uma das colunas descrimina as classe e a outra coluna corresponde à frequência.
Ademais cada uma classe corresponde a uma categoria e a frequência absoluta indica o
Exemplo 4.2.1 Uma empresa de publicidade realizou uma pesquisa sobre o estado civil
dos compradores de alimentos congelados de um determinado supermercado, assumindo
as categorias : solteiro, casado, viúvo e separado. Foram encontradas as respostas
constantes na tabela abaixo.
de dados quantitativos é feita após a realização de uma pesquisa. Portanto a mesma é re-
classe;
forma, cada valor numérico isolado representa uma categoria; sendo assim, a obtenção da
Exemplo 4.3.1 Uma pesquisa realizada numa fábrica revela o número de peças com de-
feitos por caixa:
• As categorias que constam na pesquisa são: 0,1,2 peças com defeitos por caixa.
ferente das demais frequências, pelo facto de que cada classe não representa um valor
A vantagem de fazermos com que cada classe represente um conjunto da valores dentro
O número de classe que irá compor a tabela pode ser estabelecido pelo estatístico que
classes. Para tornar o processo mais uniforme, existem algumas sugestões para estabelecer
√
k= n n ≤ 50 (4.3.2)
A amplitude amostral é a diferença entre o maior e o menor valor observado nos valores
colectados
Uma vez que se saiba com quantas classes vamos construir a tabela de distribuição de
AA
h= (4.3.4)
k
O valor da amplitude de classe (h) deve ser arredondado para valores convenientes e
coerentes com os dados colectados. Por exemplo, se todos os dados colectados forem
múltiplos de cinco, a amplitude do intervalo de classe deverá ser arredondada para o
múltiplo de cinco imediatamente superior ao valor obtido, Entretanto, cada caso deverá
ser analisado de acordo com a coerência dos dados colectados.
Os valores do conjunto que compõem o intervalo de classe estão limitados entre dois
li ` Li (4.3.5)
Isso corresponde à diferença entre o limite superior do último intervalo de classe e o limite
! !
Limite superior do Limite inferior do
AT = − (4.3.6)
último intervalo de classe primeiro intervalo de classe
A frequência simples ou absoluta para dados agrupados com intervalo de classe é obtida
para cada classe, pela contagem do número de dados colectados dentro do intervalo de
n = f1 + f2 + f3 + · · · + fk (4.3.7)
k
X k
X
n = f1 + f2 + f3 + · · · + fk = fi −→ fi = n (4.3.8)
i=1 i=1
Ponto médio de um intervalo de classe (xi ) é o ponto que por situar-se numa posição
iguais:
li + Li
xi = (4.3.9)
2
√
• Número de classe: k = 50 ≈ 7
• Amplitude amostral: AA = 97 − 33 = 64
diferentes:
• Histograma;
• Polígono de Frequência;
4.4.1 Histograma
O Histograma, é uma representação estatística do gráco da distribuição da frequência.
É também considerado como um diagrama de colunas em que cada retângulo está rela-
retângulos justapostos, cujas bases se localizam sobre o eixo horizontal, de tal modo que
seus pontos médios coincidem com os pontos médios dos intervalos de classe.
• As larguras dos retângulos são iguais às amplitudes dos intervalos de classe, isto
hi = Li − li (4.4.1)
• As alturas dos retângulos devem ser proporcionais às frequências das classes, sendo
classe correspondente.
A=1 (4.4.2)
distribuições.
frequência, calcula-se o ponto médio de cada intervalo de classe, e marca-se esse ponto no
é obtida pela união desses pontos médios. O eixo das abscissas corresponde ao eixo dos
pontos médios dos intervalos de classe, e o eixo das ordenadas representa o eixo das
frequências.
• No eixo das abscissas, são marcados os intervalos de classe. A marcação dos pontos
• No eixo das ordenadas são marcados os valores das frequências acumuladas para
bre perpendiculares ao eixo horizontal, levantadas nos pontos correspondentes aos limites
um diagrama onde cada valor da variável é representado por um segmento de reta vertical
A análise dos dados colectados pode ser feita sob diferentes aspectos, em que cada foco
meno em exame. Isso está de acordo com a estatística, pois um dos seus objectivos é
que são:
• Medidas de posição;
• Medidas de assimetria;
• Medidas de curtose.
As medidas de posição mais importantes são as medidas de tendência central, que desta-
ção ocorre porque os dados observados tendem a agrupar- se em torno dos valores centrais
da distribuição. Outros promédios menos utilizados são a média geometria, media har-
mónica, media quadrática, media cubica etc. Há dois tipos de média aritmética: Média
aritmética simples; Média aritmética ponderada;
50
Notas - Estatística I FEC - UJES/2021-2022
média aritmética é uma medida de posição de tendência central, mesmo que ela não
Para o cálculo da média aritmética (x) devemos levar em conta o agrupamento ou não dos
dados: Dados não agrupados; Dados agrupados (em intervalos de classe e sem intervalos
de classe)
Nota 5.1.1 Notação de média aritmética: x (lê-se: "X traço"ou "X barra")
os valores que compõem a série estatística tendem a ser homogéneos. Isso signica que
Denition 5.1.1 A Média aritmética simples (x): é calculada por meio da divisão entre
a soma dos valores da série pelo total de valores. É o quociente da divisão da soma dos
valores da variável pelo número deles. A média (aritmética) é, de modo geral, a mais
importante de todas as medidas descritivas.
Pn Pn
x1 + x2 + x3 + · · · + xn i=1 xi i=1 xi
x= = −→ x = (5.1.1)
n n n
Exemplo 5.1.1 Uma empresa de seguros do Huambo vende apólices de seguro de vida.
O número de a apólices vendidas mensalmente no ano de 2020 estão registados na tabela
abaixo:
Pn P12
i=1 xi i=1 xi
x= =
n 12
16 + 12 + 26 + 29 + 20 + 24 + 13 + 32 + 24 + 15 + 25 + 16
=
12
252
= = 21.
12
médio.
d i = xi − x (5.1.2)
n
X
di = 0 (5.1.3)
i=1
di = xi − 21. (5.1.4)
colectado na série tem uma participação proporcional ao seu peso, isto é, proporcional à
pelos seus pesos (pi ), dividida pela soma dos pesos de cada variável.
x 1 p 1 + x2 p 2 + x2 p 2 + · · · + xn p n
x= (5.1.5)
p1 + p2 + p3 + · · · + pn
Exemplo 5.1.2 Numa empresa, temos 15 trabalhadores com salário de 800,00 USD, 25
com salário de 1 200,00 USD, 12 com salário de 1 600,00 USD e 4 com salário de 1
800,00 USD.
Nota 5.1.2 (Diferenças entre os dois tipos de média aritmética.) • Média arit-
mética simples: Todas as variáveis têm a mesma importância, ou seja, o mesmo
peso;
A média aritmética é obtida pelo quociente entre o somatório dos produtos de cada variável
Pn Pn
i=1 xi fi i=1 xi f i
x= P ou x= (5.1.6)
fi n
variável).
Exemplo 5.1.3 A seguradora Nossa Seguro, verica em determinado produto quais são
os segurados que estão com parcelas atrasadas. O contrato estabelece a cobrança de multa
para os pagamentos em atraso. A gura 5.1, registra o número de clientes versus o número
de meses em atraso.
por meio do cálculo da média aritmética ponderada.A ponderação será dada pela
A média aritmética para dados agrupados com intervalo de classe é obtida pelo somatório
dos produtos médios de cada intervalo de classes pelas respectivas frequências (peso)
Pn Pn
i=1 xi fi i=1 xi f i
x= P ou x= (5.1.7)
fi n
Sendo
• fi = frequência da classe.
Observação 5.1.1 Tal como abordado anteriormente, o ponto médio de uma classe (xI )
é o ponto que por situar-se numa posição média da distribuição de uma classe de valores
do intervalo de classe, divide o intervalo em duas partes iguais:
li + Li
xi = (5.1.8)
2
" n # n1
√ 1
Y
Mg = n
x1 .x2 .x3 . · · · .xn = (x1 , x2 , x3 , · · · , xn ) =
n xi (5.2.1)
i=1
n
1X
lnMg = lnxi (5.2.2)
n i=1
m
1X
lnMg = nj lnxj (5.2.5)
n j=1
Exemplo 5.2.1 Uma das situações em que se recorre à média geométrica é a deter-
minação da taxa de crescimento média de uma variável num determinado período.
Admita-se, por exemplo, que o Produto Interno Bruto (PIB) de um país cresceu no período
de 5 anos às seguintes taxas decrescimento anuais: 1%, 1, 5%, 2, 5%, 1, 2% e 0, 8%.
• De facto, considere-se o caso geral em que uma variável x tem às taxas, respec-
tivamente, r1 , r2 , · · · , rn . Então nos anos seguintes ao ano 0 têm-se os seguintes
valores:
x1 = x0 + r1 x0 = (1 + r1 )x0 (5.2.6)
xn = (1 + r)n x0 (5.2.7)
• Assim, a taxa de crescimento anual média do PIB naqueles 5 anos é r, dada por:
p
5
(1 + r) = 1, 01 × 1, 015 × 1, 025 × 1, 012 × 1, 008 = 1, 014
(1 + r) = 1, 014 −→ r = 0, 014(1, 4%).
1 n
Mh = 1
Pn 1 = Pn 1 (5.2.10)
n i=1 xi i=1 xi
• Dados Agrupados:
1 n
Mh = 1
Pm nj = Pm nj (5.2.11)
n j=1 xj j=1 xj
Exemplo 5.2.2 Admite-se que uma família tem um orçamento mensal xo para adquirir
durante n meses um dado produto. Sejam q1 , q2 , · · · , qn as quantidades e p1 , p2 , · · · , pn os
respectivos preços. Para determinar o preço médio do produto utiliza-se a média harmónica
e não a média aritmética dos preços porque as quantidades são diferentes.
Esta é conhecida por fórmula geral das médias e como se pode vericar facilmente dá
a média aritmética para q=1 e a média harmónica para q = −1. Com efeito, com q=1
tem-se:
n
1X
M (1) = xi = x (5.2.14)
n i=1
e com q = −1
1
M (−1) = 1
Pn 1 = Mh (5.2.15)
n i=1 xi
dos valores. Então quando q = 0, tem-se uma indeterminação na última equação da forma
0
que pode ser levantada recorrendo ao teorema de L'Hopital e encontra-se:
0
1
Pn q n
n 1=1 xi ln xi 1X
ln M (0) = lim 1
P n q = ln xi = ln Mg (5.2.16)
q→0
n i=1 xi n i=1
Nota 5.3.1 A série pode ser classicada em função da quantidade de valores modais:
valor com maior número de ocorrência, ou seja, é o valor que ocorre com maior frequência
Denição de Moda
A moda é o valor da variável que corresponde à classe de maior frequência (classe modal).
Para a determinação da moda, numa tabela de distribuição de frequência com todos dados
• Primeiro passo: localizar a classe modal. Classe modal é a classe que contém o
maior valor de frequência;
Exemplo 5.3.2 Foi realizada uma pesquisa para determinar o tipo de electrodoméstico
mais vendido pela OK IMOBILIÁRIO do Huambo, entre geladeiras, freezers, fogões, ma-
quinas de lavar e secadoras). Os dados coletados pelo período de uma semana estão
registrados na tabela
• A 2a classe é a classe modal, pois é a classe que contém o maior valor de frequência;
Exemplo 5.3.3 A tabela 5.4 registra o número diário de carros alugados por uma Renta
Car do Huambo, durante um período de 100 dias.
• O valor modal é o 40 carros diários alugados, pois esse valor caracteriza o maior
número de ocorrências (f4 = 36) durante o período em estudo, M0 = 40.
A moda é agora um valor pertencente à classe com maior frequência, a classe modal. A
forma mais simples de obtenção da moda, neste caso, é tomar como moda o ponto médio
da classe modal. Tal como foi feito para os dados agrupados sem intervalo de classe,
• Primeiro Passo: localizar a classe modal, ou seja, a classe que contém o maior
valor de frequência;
modal. Para o cálculo da moda têm sido proposto muitos métodos, um destes
mesma amplitude h:
fM0 post
M0 = lM0 + × hM0 (5.3.1)
fM0 ant + fM0 post
onde M0 , hM0 representa o limite inferior da classe modal, amplitude da classe modal
e fM0 ant, fM0 post representam, respectivamente, as frequências das classes anterior
• Uma outra fórmula de cálculo que também tem sido proposta baseia-se na hipó-
tese de que a moda se deve encontrar dentro da classe modal mais para o lado da
classe que tem maior frequência. Com esta hipótese, pode-se admitir-se a seguinte
proporcionalidade:
fM0 − fM0 post fM0 − fM0 ant
= (5.3.2)
LM0 − M0 M0 − lM0
onde f M0 e LM0 representam, respectivamente, a frequência e o limite superior da
pode apresentar-se numa forma análoga à da fórmula de King. Para tal basta
eliminar o limite superior da classe modal por substituição de LM0 − lM0 (amplitude
Sendo que:
Nota 5.3.2 (Moda Bruta) . É o valor do ponto médio da classe modal, No exemplo
(5.1.4), os extremos da classe modal são 171 e 178, o ponto médio é de 171+178
2
= 174, 5,
portanto a moda bruta é 174,5.
forma como os dados se apresentam, isto é, se os mesmos estão agrupados ou se não estão
agrupados.
A mediana é uma medida de posição, é uma separatriz, pois divide o conjunto de dados
coletados em duas partes iguais, com o mesmo número de elementos. O valor da medi-
ana se encontra no centro da série estatística, organizada de tal forma que o número de
elementos situados antes desse valor (mediana) é igual ao número de elementos que se
A mediana é conveniente para séries estatísticas onde existem valores extremos, em que
valores grandes e pequenos coexistem dentro da mesma série, ou ainda nos casos em que
a série seja aberta nos extremos. Para esses casos, a mediana caracteriza o promédio mais
conável.
29, 23, 14, 25, 31, 26, 18, 17, 22, 13, 27
13, 14, 17, 18, 22, 23, 25, 26, 27, 29, 31
O valor da mediana separa a série em dois conjuntos com a mesma quantidade de ele-
mentos, de tal forma que 50% dos valores coletados sejam menores do que a mediana e
outros 50% superior a ela.
par, a mediana é geralmente tomada como a média dos dois valores mais centrais, embora
possa ser qualquer um destes valores ou mesmo qualquer valor do intervalo denido pelos
dois valores mais centrais. Assim, para um conjunto de n>1 dados não agrupados
Para uma série com número ímpar de termos: a mediana corresponde ao valor central,
esse valor apresenta o mesmo número de termos localizados a sua esquerda e a sua direita.
(n + 1)
(5.4.1)
2
41, 32, 66, 49, 35, 57, 39, 54, 44, 48, 51, 56, 59, 36, 63
32, 35, 36, 39, 41, 44, 48, 49, 51, 54, 56, 57, 59, 63, 66
• n = 15
32, 35, 36, 39, 41, 44, 48, 49 51, 54, 56, 57, 59, 63, 66
←−−−−−− −−−−−−→
50% 50%
Para uma série com número par de termos, não há termo central único, e sim dois termos
centrais. Convencionamos que a mediana seja a média aritmética entre os dois termos
centrais, nesse caso, a mediana é um valor que não pertence à série e está localizado entre
n
• Primeiro termo central:
2
.
n
• Segundo termo central :
2
+1
48, 60, 33, 42, 36, 40, 53, 43, 46, 52, 55, 45, 58, 65
33, 36, 40, 42, 43, 45, 46, 48, 52, 53, 55, 58, 60, 65
• n = 14
• Isso signica que os dois termos centrais estão localizados na sétima e na oitava
posição.
33, 36, 40, 42, 43, 45, 44, 48 52, 53, 55, 58, 60, 65
←−−−−−− −−−−−−→
50% 50%
46 + 48
Md = = 47 −→ Md = 47.
2
Observação 5.4.1 Observe que o valor de 47 não pertence ao grupo de valores que cons-
tituem a série. Na verdade, o valor resultante do cálculo da mediana não precisa, neces-
sariamente, pertencer à série coletada.
mediana com dados agrupados sem intervalo de classe, devem-se executar os passos a
seguir:
tribuição, calcula-se:
n
Posmed = (5.4.2)
2
2. Localizar a classe mediana: Uma vez determinada a posição da mediana, observa-
Exemplo 5.4.4 Foi feita uma pesquisa para especicar as necessidades das famílias em
relação ao número de quartos de uma residência. Para tal, foram consultadas 220 famílias.
Os dados coletados encontra se na tabela 5.5
• Na coluna da F aci , a posição do centésimo décimo (110o ) valor da série esta loca-
lizada entre o 47o e o 127o , ou seja, na 2a classe.
Observação 5.4.2 Quando a posição da mediana coincide com uma frequência acumu-
lada: caso aconteça de n2 coincidir com uma frequência acumulada, a sugestão é que se
faça o cálculo da mediana por meio da média aritmética entre o valor da variável cor-
respondente à frequência acumulada e o valor da variável correspondente a uma ordem
acima
(xi ) + (xi + 1) xi + xi + 1
Md = = (5.4.3)
2 2
tribuição, calcula-se:
n
Posmed = (5.4.4)
2
2. Localizar a classe mediana: Uma vez determinada a posição da mediana, observa-
ponto, dentro do intervalo dessa classe, que corresponde à mediana. Isto pode ser
n
− F acant
2
Md = lM d + × hM d (5.4.5)
fM d
Sendo:
Exemplo 5.4.5 A tabela abaixo, corresponde ao tempo (em minutos) que 50 assinantes
da Internet da TV Cabo gastaram durante sua conexão mais recente.
• Posmed = n
2
= 213
2
= 106, 5o valor da série.
• Mediana:
106, 5 − 101
Md = 35 + × 10 = 36, 15 minutos
48
São valores que ocupam determinados lugares, abrangendo intervalos iguais, de um con-
classicadas em:
Nota 6.0.1 A mediana, além de ser uma medida de posição de tendência central, é tam-
bém uma medida separatriz. A mediana já foi estudada anteriormente assim, passaremos
ao estudo dos quartis, decis e percentis.
6.1 Quartis
Nos quartis, a série é dividida em quatro partes iguais, com o mesmo número de elementos,
de tal forma que cada intervalo do quartil contenha 25% dos elementos coletados. Os
70
Notas - Estatística I FEC - UJES/2021-2022
• O segundo quartil (Q2 ) separa os primeiros 50% (25%+25%) dos elementos da série.
Observação 6.1.1 O segundo quartil (Q2 ) sempre será igual a mediana (Md ) da
série.
• O terceiro quartil (Q3 ) separa os primeiros 75% (25% + 25% + 25%) dos elementos
da série.
Nota 6.1.1 Para o cálculo dos quartis, utilizam-se técnicas semelhantes àquelas do cál-
culo da mediana.
4, 5, 6, 7, 9 12, 13, 16
←−−−− −−−−→
50% Q2 50%
Q1 = 5+6
2
= 5, 5: mediana da primeira metade dos elementos da série.
Q3 = 13+15
2
= 14: mediana da segunda metade da série.
• Assim: Q1 = 5, 5; Q2 = 9 e Q3 = 14.
cas semelhantes àquelas do cálculo da mediana. Isso signica que a localização da posição
Denition 6.1.1 Quartil Qk é o valor da variável que corresponde à classe desse quartil
considerado. Sendo que k indica a posição do quartil (k = 1, 2, 3).
k×n
P osQk = (6.1.1)
4
1×n 1 × 25
Q1 = = = 6, 25 −→ Posicionando na 2a classe
4 4
Total 25
2×n 2 × 25
Q2 = = = 12, 5 −→ Posicionando na 4a classe
4 4
3×n 3 × 25
Q3 = = = 18, 75 −→ Posicionando na 6a classe
4 4
• Interpretação:
Q1 : 25% dos estudantes tiveram uma nota inferior ou igual a 12 valores e
75% tiveram uma nota maior ou igual a 12 valores
Q2 : 50% dos estudantes tiveram uma nota inferior ou igual a 14 valores e
50% tiveram uma nota maior ou igual a 14 valores.
Q3 : 75% dos estudantes tiveram uma nota inferior ou igual a 16 valores e
25% tiveram uma nota maior ou igual a 16 valores.
técnicas semelhantes àquelas do cálculo dos quartis para dados agrupados sem intervalo
de classe.
quartil considerado.
k×n
P osQk = (6.1.2)
4
• Obtida a posição de Qk , localiza-se o valor da mesma na frequência acumulada, para
conhecer qual é a classe que corresponde a essa posição, a qual damos o nome de
da seguinte fórmula:
" #
k×n
4
− F acant
Qk = lQk + × hQk (6.1.3)
fQk
Onde:
k = Quartil considerado.
lQk = limite inferior do intervalo de classe do quartil considerado.
F acant = Frequência acumulada da classe anterior à classe do quartil conside-
rado.
Exemplo 6.1.3 Numa empresa do Huambo, o salário dos funcionários do sector de ven-
das incide as comissões sobre as vendas realizadas. Tomando como base os salários, a
empresa divide os funcionários em quatro categorias:
Tabela 6.2: Distribuição salarial(em centenas de Kzs) dos funcionários do sector de vendas
• Cálculo do Q1 . Posição
1 × 54
P osQ1 = = 13, 50
4
A classe do quartil Q1 é a segunda classe, assim
13, 50 − 3
Q1 = 2.000 + × 1.000 = 2.750, 00 −→ Q1 = 275.000 (2.750 × 100).
14
• Cálculo do Q2 . Posição
2 × 54
P osQ2 = = 27
4
A classe do quartil Q2 é a terceira classe, assim
27 − 17
Q2 = 3.000 + × 1.000 = 3.555, 56. −→ Q2 = 355.556 (3.555, 56 × 100)
18
• Cálculo do Q3 . Posição
3 × 54
P osQ3 = = 40, 50
4
A classe do quartil Q1 é a segunda classe, assim
40, 50 − 35
Q3 = 4.000 + × 1.000 = 4.550, 00 −→ Q2 = 455.000 (4.550 × 100).
10
• Categoria C (os 25% menos produtivos): salários entre 100.000 ,00 e 275.000,00;
• Categoria Especial (os 25% restantes): salários entre 455.000 ,00 e 700.000.
6.2 Decis
Nos decis, a série é dividida em dez partes iguais, com o mesmo número de elementos,
de tal forma que cada intervalo do decil contenha 10 % dos elementos coletados. Os
• O segundo decil (D1 ) separa os primeiros 20% (10%+10%) dos elementos da série;
Denition 6.2.1 Dk é o valor da variável que corresponde à classe desse decil conside-
rado. Sendo que k indica a posição do decil (k = 1, 2, · · · 9).
seguinte:
k×n
P osDk = (6.2.1)
10
• Para dados agrupados sem intervalos de classe, após obter a posição de Dk ,
localiza-se o valor da mesma frequência acumulada, para conhecer qual é a classe
" #
k×n
10
− F acant
Dk = lDk + × hDk (6.2.2)
fDk
Onde:
k = Decil considerado.
lDk = limite inferior do intervalo de classe do decil considerado.
1 × 54
P osD1 = = 5, 4
10
7 × 54
P osD7 = = 37, 8
10
6.3 Percentis
Nos percentis, a série é dividida em cem (100) partes iguais, de tal forma que cada intervalo
série.
• O nonagésimo nono percentil (P99 ) separa os primeiros 99% dos elementos da série.
Denition 6.3.1 Pk é o valor da variável que corresponde à classe desse percentil con-
siderado. Sendo que k indica a posição do percentil (k = 1, 2, · · · , 99).
seguinte:
k×n
P osP k = (6.3.1)
100
• Para dados agrupados sem intervalos de classe, após obter a posição de Pk ,
localiza-se o valor da mesma frequência acumulada, para conhecer qual é a classe
" #
k×n
100
− F acant
Pk = lP k + × hP k (6.3.2)
fP k
Onde:
k = Percentil considerado.
lP k = limite inferior do intervalo de classe do percentil considerado.
F acant = Frequência acumulada da classe anterior à classe do percentil consi-
derado.
Exemplo 6.3.1 Considerando o exemplo 6.1.3, podemos calcular os percentis P10 e P70 .
10 × 54
P osP10 = = 5, 4
100
70 × 54
P osP70 = = 37, 8
100
Medidas de Dispersão ou de
Variabilidade
além das medidas de posição. O estudo das médias, medianas, moda, quartis, decis
e percentis são válidos, mas não sucientes para estudos comparativos ou conclusões
da variação existente entre seus elementos. Quanto maior a variação dos dados, menor
são úteis para qualicar a média. Quanto menor a dispersão, maior a homogeneidade na
As
concentração entre os elementos do conjunto de valores, e mais conável é a média.
• Amplitude Total;
• Variância e Desvio-padrão;
• Coeciente de Variação.
80
Notas - Estatística I FEC - UJES/2021-2022
Nota 7.1.1 A amplitude total é útil em casos como a medida de temperatura de uma
localidade, em que pode-se estabelecer a amplitude da temperatura em um dia, semana,
mês ou ano. Para a programação de um evento, é importante e signicativo conhecer a
amplitude da temperatura da região durante os últimos dias, semanas, meses ou anos.
conjunto de dados, por ter grande precisão. O desvio-padrão determina a dispersão dos
• Valores da série próximos uns dos outros originam um desvio-padrão menor. Isso
signica que, quanto menor for o valor do desvio-padrão, menor será a dispersão
dos valores da série, ou seja, trata-se de uma série de valores com menor variação
• Valores da série muito afastados uns dos outros originam um desvio-padrão maior.
Isso signica que, quanto maior for o valor do desvio-padrão, maior será a dispersão
dos valores da série, ou seja, trata-se de uma série de valores com maior variação
quadrado do desvio-padrão.
√
Variância = (σ)2 Desvio-padrão = σ2 = σ (7.2.1)
coleta dos dados, população e amostra. As fórmulas são diferentes para cada caso, uma
vez que deve haver um ajuste para o cálculo dessas grandezas quando os dados coletados
referem-se a amostras.
rP rP
√ (x i − x)2 d2i
σ= σ2 = = (7.2.3)
n n
Conforme citado anteriormente, o cálculo da variância para uma amostra deve apresentar
uma correção e, relação ao mesmo cálculo para a população. Nestes casos, a variância
representa uma descrição da amostra e não da população (este tipo de ocorrência é mais
comum na estatística), o denominador passa a ser "n − 1"ao invés de "n". A modicação
(xi − x)2
P P 2
2 di
σ = = (7.2.4)
n−1 n−1
• Da mesma forma que para a variância, caso o desvio-padrão represente uma descri-
sP
√
rP
(xi − x)2 d2i
σ= σ2 = = (7.2.5)
n−1 n−1
Nota 7.2.1 O valor médio em algumas séries resulta números decimais, consequente-
mente, o cálculo da variância e do desvio-padrão pode-se estender num somatório do
quadrado de números decimais. Com objectivo de simplicar os cálculos matemáticos,
utiliza-se uma fórmula alternativa para o cálculo da variância e do desvio padrão.
( xi ) 2
P
2
( xi ) 2
P P 2 P
2 (x i − x) n xi
σ = = = − (7.2.6)
" n n # n n2
1 X 2 ( xi )2
P
= xi −
n n
• Desvio padrão:
v "
u
u1 X P 2#
( xi )
σ=t x2i − (7.2.7)
n n
• Variância: " P 2#
1 X ( xi )
σ2 = x2i − (7.2.8)
n−1 n
• Desvio-padrão:
v
u " P 2#
u 1 X ( xi )
σ=t x2i − (7.2.9)
n−1 n
• Variância:
(xi − x)2 · fi
P
2
σ = (7.2.10)
n
• Desvio-padrão:
rP
(xi − x)2 · fi
σ= (7.2.11)
n
• Variância:
(xi − x)2 · fi
P
2
σ = (7.2.12)
n−1
• Desvio-padrão:
rP
(xi − x)2 · fi
σ= (7.2.13)
n−1
• Variância: " #
P 2
1 X ( x f
i i )
σ2 = x2i · fi − (7.2.14)
n n
• Desvio-padrão:
v " #
2
u P
u1 X ( x i · f i )
σ=t x2i fi − (7.2.15)
n n
• Variância: " #
P 2
1 X ( x i · f i )
σ2 = x2i fi − (7.2.16)
n−1 n
• Desvio-padrão:
v " #
2
u P
u 1 X ( x i · f i )
σ=t x2i fi − (7.2.17)
n−1 n
Exemplo 7.2.1 ((Dados não Agrupados)) Durante determinada semana, os nove ven-
dedores de uma agência de automóveis do Huambo(população), venderam as seguintes
quantidades de carros: 20, 25, 28, 31, 37, 42, 45, 49, 53. A distribuição da venda de carros
por nove vendedores é descrita na tabela abaixo:
x2i = 13.138
P P
xi = 330
• Sendo: x = 330
9
= 36, 67. −→ x = 37 carros
Variância:
(20 − 36, 67)2 + (25 − 36, 67)2 + · · · + (53 − 36, 67)2 1038
σ2 = = = 115, 33.
9 9
q
Desvio-padrão: σ = 1038
9
= 10, 74. −→ σ = 11 carros.
Variância:
(330)2
1 2
σ = 13.138 − = 115, 33.
9 9
r h i
Desvio-padrão: σ = 9 13.138 − 9 = 10, 74 −→ σ = 11 carros.
1 (330)2
Exemplo 7.2.2 (Dados Agrupados sem Intervalo de Classe) Uma empresa nan-
ceira vericou que algumas propostas apara a realização de nanciamentos não observaram
todos as exigências necessárias à concessão dos respectivos créditos. Visando uma análise
do problema, a empresa agrupou as propostas com base no número de exigências descum-
pridas. A distribuição de exigências descumpridas em cada proposta para concessão de
crédito e descrita na tabela abaixo:
• Média aritmética:
P
x i fi 126
x= = = 3, 14 −→ x = 3 exigências descumpridas
n 37
h i
(126)2
• Variância: σ 2 = 1
37
548 − 37
= 3.2041.
r h i
(126)2
• Desvio -padrão: σ = 1
37
548 − 37
= 1, 79.
• Média aritmética: P
xi f i 18.060, 00
x= = = 175, 43
n 103
• Variância:
(18.060)2
2 1
σ = 3.551.600 − = 3.738, 10
103 103
• Desvio-padrão:
s
1 (18.060)2
σ= 3.551.600 − = 61, 14.
103 103
forem diferentes. Para inviabilizar este problema usam-se medidas de dispersão relativas
dispersão absoluta
dispersão relativa = (7.3.1)
média
da média para duas ou mais séries distintas. O coeciente de variação pode ser expresso
σ
CV = −→ valor decimal (7.3.2)
x
ou
σ
CV = × 100 −→ valor percentual (7.3.3)
x
Uma outra medida de dispersão relativa, que é insensível aos valores extremos e, portanto,
adequada para distribuição em que existem valores muito diferentes da grande maioria de
Exemplo 7.3.1 Para duas emissões de acções ordinárias de uma uma indústria de te-
lecomunicações, o preço médio diário, no fechamento dos negócios, durante um mês, foi
de 150, 00 USD para as acções A, com um desvio-padrão de 5, 00 USD. Para as acções
B , o preço médio foi de 50, 00 USD com um desvio-padrão de 3, 00 USD. Comparando a
viabilidade das acções A e B , tem -se:
CVA = 5
150
× 100 = 3, 30%
CVB = 3
50
× 100 = 6, 0%
CVA é menor que CVB , então A apresenta menor dispersão relativa que B .
Neste caso B , é mais variável que A, pois o coeciente de variação da acção
B é quase duas vezes maior que o da ação A.
Uma curva plana é simétrica se for possível dividi-la por uma recta (chamada eixo de
simetria), de forma que as duas metades da curva assim obtidas possam ser sobrepostas
normal, caso particular de uma curva simétrica. A curva normal é também conhecida
O eixo de simetria contém o valor modal. A partir desse eixo de simetria, observa-se
que cada metade da curva prolonga-se indenidamente tanto para o lado direito como
para o lado esquerdo, porém, sem tocar o eixo horizontal. Uma distribuição de frequência
Nas distribuições de frequência simétrica, a média, mediana e moda são iguais. Na curva
inferiores à Moda.
aritmética da distribuição.
comparar duas ou mais distribuições diferentes e avaliar qual das distribuições é mais
trica é a curva.
são:
• 1o Coeciente de Pearson:
3(x − Md )
AS = (7.4.3)
σ
• 2o Coeciente de Pearson:
Q1 + Q3 − 2Md
AS = (7.4.4)
Q3 − Q1
Nota 7.4.1 O coeciente de Pearson pode ser nulo, positivo ou negativo. Se o coeciente
de for:
7.5 Curtose
Curtose é o grau de achatamento (ou alamento) de uma distribuição em comparação
com uma distribuição padrão (chamada curva normal). De acordo com o grau de curtose,
normal.
2. Platicúrtica: é uma curva mais achatada (ou mais aberta) que a curva normal.
3. Leptocúrtica: é uma curva mais alada (menos aberta) que a curva normal.
Q3 − Q1
C= (7.5.1)
2(P90 − P10
Sendo:
• Q3 = o terceiro quartil;
• Q1 = o primeiro quartil;
curtose aos valores de uma distribuição simétrica normal. Tomando-se esse valor como
medidas de dispersão.
média, é função do número de desvios-padrão que aquele ponto dista da média. Estudos
Classes fi
10 ` 14 10
14 ` 18 20
18 ` 22 30
22 ` 26 20
26 ` 30 10
• Sendo:
mais simples se cada uma destas for representada por um número. Número este que poderá
ser uma das tendências centrais, facilitando a observação dentre outros acontecimentos, o
Para isso, entretanto é preciso observar a existência de termos de uma espécie nas várias
séries consideradas, sem o que, não se pode chegar a uma conclusão concisa das oscilações
reinantes.
2015 2021
A 2,00 1,00
B 6,00 6,00
C 1,00 2,00
Total 9,00 9,00
98
Notas - Estatística I FEC - UJES/2021-2022
como base e atribui-se o valor 100 para cada termo da época, e para ou outros de outra
época, valores proporcionais aos existentes em cada espécie da série origem e na nova
série. Neste caso, diz-se que a base é xa e apresenta a vantagem de se poder observar em
série mista que contém várias épocas, os valores das espécies de cada época for referido
A nova série construída é constituída então, por números obtidos em relação à época
cujos valores forma considerados iguais a 100. Os números que constituem a nova série
relação a outra ou de local a outro, denomina-se: número índice. Os números índices são
Exemplo 8.1.2 Transformar a série de preços da tabela 8.1 em outra de números relac-
tivos tomando como base o ano de 2015. Considerando como 100 o valor de cada espécie
para o ano base 2015 obtém-se os respectivos valores para o ano 2021, mediante a regra
de três simples directa.
(
2−1
• Espécie A : 1×100
100 − a3 ∴ a3 = 2
= 50
2020 2021
A 100 50
B 100 100
C 100 200
Total 300 350
onadas com eles (Tabela 8.1) ou se também com quantidades (Tabela 8.2). Quantidades
que, sendo conhecidas, podem expressar grandezas e valores absolutos, e que, se desco-
nhecidas, obriga em alguns casos a ponderar os preços das espécies de acordo com o valor
destas em ralação ao das outras. É o caso do conjunto da variação do custo de vida onde
de forma diferente.
Quando as espécies estão apenas relacionadas com os preços, os números índices calculados
são denominados números índices simples e, se ainda, além dos preços são atribuídos
quantidades às espécies, os índices tomam o nome de números índices ponderados.
Preço Unit. (p0 ) Quantidades (q0 ) Preço Unit. (pi ) Quantidades (qi )
A 2,00 3 1,00 5
B 6,00 4 6,00 6
C 1,00 8 2,00 7
simples.Por exemplo para o ano de 2015 da série dada na tabela 8.2 tem-se:
350
Ia = = 116, 67 (8.1.1)
3
mética ponderada. Para calcular o seu valor referente a 2021 deve-se primeiramente
transformar a série dada pela tabela 8.3 na série de números relactivos exposta na
tabela 8.4. Calculado-se o índice referente a 2021, uma vez que o referente a 2015 é
Ip = 125 (8.1.2)
geométrica simples. Para a série exposta na tabela 8.2, tem-se para o ano de 2021:
Ig = 100 (8.1.3)
e conclui-se que não houve aumento nos preços das mercadorias consideradas em
conjunto.
presenta um aumento deles considerados uma vez que o número índice geométrico
1. Número índice harmónico simples : Seu valor identica-se com o da média har-
pela tabela 8.2 mediante os valores de 100 para 2015 e para 2021 de,
Ih = 85, 7 (8.1.5)
ponderada. Para a série de preços fornecida pela tabela 8.4 conrma-se o aumento
de preços, pois que, para 2015 seu valor é 100, e para 2021 tem-se:
3+1
P = =2 e Im = 100 (8.1.7)
2
com o da mediana. Desta forma, verica-se que não houve variação de preços da
as somas dos produtos dos preços pelas quantidades de uma época dada, sobre a soma
100 dos referidos produtos da época básica. Dessa forma, considerando que as épocas
Fórmula de Laspeyres
as épocas:
X X
p0 q0 − pi q i
100 −→ I
onde P
pi qi
I = 100 P
p0 q0
e sendo qi = q0 tem-se: P
p i q0
I = 100 · P (8.1.11)
p0 q 0
Exemplo 8.1.3 Para a série considerada na tabela 8.3 verica-se a oscilação ascendente
de preços, no conjunto de mercadorias, traçando mais duas colunas onde são calculados
respectivamente os produtos p0 q0 e pi qi cujas somas p0 q0 = 38, pi q0 = 43. valores
P P
43
I = 100 · × = 113, 2 (8.1.12)
38
Exemplo 8.1.4 Para série dada pela tabela 8.3 deve-se traçar mais colunas, a m de se
determinar o número índice desejado, sendo que em uma delas calculam-se as somas das
quantidades para cada espécie (q0 + qi ) e nas outras calculam-se os produtos das somas
das quantidades de cada espécie pelos respectivos preços. Obtendo-se respectivamente:
X
(q0 + qi )pi = 98
X
(q0 + qi )p0 = 91
98
I = 100 · = 107, 6 (8.1.14)
91
que demonstra o aumento havido nos preços das mercadorias consideradas em conjunto.
Fórmula de Paasche
Exemplo 8.1.5 Para a série exposta na tabela 8.3 usa-se a disposição indicada na fór-
mula de Laspeyres, considerando na última coluna referente ao ano de 2015 os produtos de
sues preços pelas quantidades de 2021. Obtidas as somas e empregando a fórmula tem-se:
55
I = 100 · = 103, 7 (8.1.16)
53
Fórmula de Ficher
Das fórmulas citadas, a que mais satisfaz às diversas provas, quanto à sua exatidão é a de
Mediante o emprego dessa fórmula na série exposta pela tabela 8.3, verica-se oscilação
r
43 55
I = 100 · · = 108, 4 (8.1.18)
38 53
• Segunda Época:
100 −→ I2
I1 −→ I20
sendo
I1 I2
I20 = (8.1.19)
100
• Terceira Época:
100 −→ I3
I20 −→ I30
sendo
I20 I3
I30 = (8.1.20)
100
• n Época:
100 −→ In
0
In−1 −→ In0
sendo
0
In−1 In
In0 = (8.1.21)
100
evolução de um povo é feito pela Demograa. Adolpho Quetelet (1796 - 1874), procurou
estabelecer uma espécie de Física social, empregando trabalhos de seus antecessores, nos
fenómenos demográcos e procurando estabelecer as leis das relações sociais. Porém, foi
relações entre os diversos grupos podem ser obtidas pelas densidades demográ-
cas que são:
povo. Esta evolução pode ser observada através dos nascimentos, casamentos, óbi-
positivo (aumenta), negativo (diminui) e nulo (estacionário). Esse crescimento pode ser
observado através das taxas: Taxa de crescimento absoluto; Taxa de crescimento médio;
No caso de o crescimento ser positivo ou negativo admite-se para prazos curtos cresci-
mento aritmético (os valores crescem em progressão aritmética) e crescimento geo-
métrico (os valores crescem em progressão geométrica) e para prazo longo ( os valores
Denição 25 (Taxa de crescimento médio anual (t)) . É a rezão por quociente en-
tre a taxa de aumento absoluto e o número de anos decorridos no intervalo de tempo ob-
servado. No crescimento aritmético esta taxa se identica com a razão de uma progressão
aritmética. Assim considerando
P −p
P = p + nt =⇒ t = (8.2.1)
n
P −p
P = p + ptr n ⇒ tr = (8.2.3)
pn
• Crescimento geométrico: Para prazos curtos é mais signicativo supor que para
efectivos cada vez maiores o acréscimo não seja constante, e sim que os valores
genérico será
P = pq n (8.2.4)
s
n
P
q= (8.2.5)
q
Probabilidades
serão seus valores senão depois de observá-los. A probabilidade é uma forma de expressar
Não se pode falar da história da Estatística, sem falar em probabilidades. Estas tiveram
sua origem no estudo dos jogos de azar., já conhecido pelos Egípcios 3500 a.C. Mas só no
século XVI se assiste à primeira tentativa de desenvolver uma teoria de probabilidades.
medicina. Tendo sido, um dos primeiros a tentar descrever um método de cálculo das
probabilidade, bem como, as suas leis básicas. Com o seu livro "The book on games of
chance ", Cardano, não só explica as leis da probabilidade como analisa os jogos de azar
bora podendo ser descritos no seu conjunto, não são determináveis à priori, antes de
110
Notas - Estatística I FEC - UJES/2021-2022
Espaço de Resultados
e representa-se por Ω.
Acontecimentos
Não se deve confundir acontecimento com resultado. Enquanto que o primeiro signica
algo que a experiência aleatória pode produzir, mas não se realiza necessariamente, um re-
sultado indica algo que a experiência aleatória produziu. Ou seja, o conceito de resultado
experiência aleatória.
de uma experiência aleatória. Esta denição sugere que podemos utilizar todos os ins-
se denem sobre estes. Por exemplo, o diagrama de Venn revela-se de extrema utilidade
a Ω. Do mesmo modo, o diagrama de Venn pode ser usado para representar de forma
A ∪ B = {ω : ω ∈ A ∨ ω ∈ B} (9.1.1)
tos. Dada uma sucessão innita de acontecimentos A1 , A2 , ..., An , ... dene-se a sua união
S∞
i=1 Ai como sendo o acontecimento que ocorrerá se e somente se ocorrer pelo menos um
dos acontecimentos Ai .
A ∩ B = {ω : ω ∈ A ∧ ω ∈ B∧} (9.1.2)
De modo análogo, essa operação também pode ser generalizada a um conjunto, nito ou
innito, de acontecimentos.
Dada uma sucessão innita de acontecimentos A1 , A2 , A3 , ..., An , ... dene-se a sua inter-
T∞
secção i=1 Ai como sendo o acontecimento que se realiza se, e só se, ocorrem todos os
acontecimentos Ai .
Quando determinados acontecimentos que não podem ocorrer simultaneamente, a sua in-
no diagrama de Venn é:
A − B = A \ B = {ω : ω ∈ A ∧ ω ∈
/ B} (9.1.3)
Ω − B = B = {ω : ω ∈ Ω ∧ ω ∈
/ B} (9.1.4)
largamente utilizados. Por exemplo, quando o ministro das nanças de Angola arma
que a inação no corrente ano não ultrapassará 4% ou quando se arma que a diversi-
são, quando existe incerteza sobre a evolução futura e sobre os efeitos práticos das suas
futuro, devido à inuência do acaso, sendo no entanto possível prever as linhas de evolu-
se baseiam nas características intrínsecas dos acontecimentos são denidas segundo o con-
ceito clássico; aquelas que se baseiam numa quantidade razoável de evidência objectiva
• A probabilidade de A será:
n(A) 3 1
P (A) = P (A) = = =
N 6 2