Você está na página 1de 67

I-INTRODUÇÃO

I.1- Nota histórica


Biblicamente sabe-se que:
 Deus ordenara Moisés a realizar um levantamento sobre os homens
israelitas aptos para guerra, isto aconteceu 3000 anos antes do
nascimento de Cristo, facto que podemos encontrar no quarto livro do
antigo testamento;
 No período do imperador César Augusto foi ordenada a realização de
um censo populacional em todo o território do império romano, 60 anos
antes do nascimento do Cristo;
 O rei Heródes tendo se apercebido do nascimento de um salvador
(Jesus Cristo), com a preocupação de salvaguardar o seu reinado
ordenou o registo de todas as crianças do sexo masculino.
As situações acima expostas constituem exemplos bíblicos do uso da
estatística.
Socialmente, quando as comunidades primitivas se iam organizando sentiram a
necessidade de uma certa providência na tomada de decisões. Isto requer uma
visão numérica (quantitativa) e qualitativa, dos recursos disponíveis bem como
dos habitantes das áreas de jurisdição.
Os primeiros levantamentos estatísticos foram realizados com a finalidade de
os governantes das grandes civilizações antigas tomarem conhecimento sobre
os recursos existentes nas suas respectivas áreas, podendo com esses dados
prever as receitas do estado em períodos definidos e planificar a forma da
distribuição das mesmas (receitas) à população existente (claro que
paralelamente à estatística das riquezas era feita também a estatística
demográfica).
O primeiro levantamento estatístico foi realizado por heródicos em 3050 A.C,
quando realizaram um estudo das riquezas e da população do Egipto com o
objectivo da averiguação dos recursos humanos e económicos disponíveis à
construção das pirâmides.
No ano 2238 A.C o imperador chinês Yao efectuou uma estatística com fins
industriais e comerciais.

Elaborado por Maquiesse Pembele 1


No ano 1400 A.C, Ramsés II ordenou a realização de um levantamento
estatístico das terras do Egipto, preocupado com a agricultura, criação de gado
e construção.
Desde a queda do império romano a estatística sofreu uma estagnação e
ganhou novo impulso com os trabalhos de Pipino em 758 (nossa era) e de
Carlos Magno em 762 (nossa era), que realizaram estatísticas das terras a
cargo da igreja.
Desde os tempos remotos, vários estados ordenavam estudos para permitir o
conhecimento da variedade das características da população, para facilitar a
determinação dos impostos ou tributos e saber o número de homens
preparados para os combates quer da conquista de novas terras como da
defesa dos seus respectivos territórios. Esta foi a primeira fase do que
actualmente se chama estatística.
A segunda fase da estatística começou na Inglaterra no século XVII. Nesta fase
já se analisavam grupos de observações sobre a saúde pública, a taxa de
natalidade, a taxa de mortalidade e comércio. Destacaram-se John Graunt
(1620-1674) e William Petty (1623-1687), que preocupados com as leis
quantitativas para traduzir fenómenos sociais e políticos, investigaram pela
primeira vez a questão referente à mortalidade.
O século XVII marca o início do desenvolvimento do cálculo das
probabilidades, que decisivamente apoia o desenvolvimento da estatística.
Com o apoio do cálculo das probabilidades a estatística ganhou uma nova
dimensão, marcando assim a terceira fase da sua história. Nesta fase já se
fazia inferências estatísticas. O destaque nesta época vai para Fermat (1601-
1665), Pascal (1623-1662) e Huygens (1629-1695).
A denominação “estatística” foi introduzida no século XVIII, sugerida pelo
alemão Gottfried Achemmel (1719-1772), tendo se baseado no termo latino
“statu” que significa estado, isto porque a primeira visão que ele tinha é de que
“ a estatística é um ramo de exclusivo interesse dos estados”.
O recenseamento geral de uma população como o censo populacional em
Angola em 2014, é uma prática que remonta à antiga Roma e Egipto. O seu
objectivo principal era obter informação para a colheita de impostos, chamada
para o serviço militar e outros assuntos governamentais.

Elaborado por Maquiesse Pembele 2


Durante a Idade Média, registaram-se alguns dados sobre epidemias e
terramotos que podem ser considerados como uma espécie de levantamento
estatístico.
Foi já no século XVIII que surgiu o primeiro levantamento de dados a nível
nacional.
Foi também no século XVIII que surgiu o termo “Staatenkunde” traduzido para
português como Estatística - pelo professor Achenwall, como “ciência das
coisas do estado” visto que era o Estado que organizava e produzia esses
estudos.
Começou-se assim a fazer tratamentos estatísticos de fenómenos sociais e
demográficos.
No século XVIII, Bayes foi o primeiro matemático a aplicar a teoria das
probabilidades na previsão de fenómenos, baseado em levantamentos
estatísticos.
Na sua origem a estatística estava ligada ao Estado. Hoje, não só se mantém
esta ligação, porque todos os estados e a sociedade em geral dependem cada
vez mais dela, tornando-se assim indispensável ao cidadão do século XXI.

A última fase do desenvolvimento da estatística começou no século XIX,


marcada pelo alargamento e interligação dos conhecimentos das três fases
anteriores, e pelo alargamento do campo de aplicação da estatística. Os
trabalhos desta fase demonstram que os diferentes ramos do saber dependem
relativamente da estatística.
Destacaram-se nesta fase Ronald Fischer (1890-1962) e Karl Pearson (1857-
1936).
Actualmente a estatística não se limita ao estudo da demografia e da
economia. Alargou-se imensamente o seu campo de aplicação, tendo nele se
incluído questões de análise de dados em Biologia, em Medicina, em Física,
em Psicologia, na indústria, no comércio, na meteorologia, na educação, etc,
até nos domínios aparentemente separados dela, tais como estrutura de
linguagem, estudo de formas literárias, etc.
Na sua génese, a estatística estava exclusivamente ligada aos estados, mas
actualmente tornou evidente de que todas as esferas sociais dependem cada

Elaborado por Maquiesse Pembele 3


vez mais dela, pois que não existe nenhuma actividade humana em que a
estatística não esteja presente.
A estatística tem evoluído muito nos últimos anos, mas desde sempre que o
homem tem sentido necessidade de recolher informação.
O recenseamento geral de uma população como o censo populacional
realizado em Angola em 2014, é uma prática que remonta à antiga Roma e
Egipto. O seu objectivo principal era obter informação para a colheita de
impostos, chamada para o serviço militar e outros assuntos governamentais.

i.2- Importância da estatística


A estatística é um dos ramos da matemática aplicada. O seu estudo e o seu
desenvolvimento têm crescido com o progresso social, prova disso é que hoje
a estatística tem influência sobre todas as actividades humanas.
A estatística aparece como resposta aos problemas complexos não
solucionáveis através de um modelo único, ou que não admitem respostas
exactas e que pressupõem utilização de um conjunto de instrumentos e
técnicas que conjuntamente dão respostas aproximadas, com níveis de erros
controlados.
A importância da estatística consiste em três aspectos seguintes:
a) Utilidade – o homem como parte integrante da sociedade necessita de
conhecimentos estatísticos, explícita ou implicitamente, directa ou
indirectamente, mesmo sem bases científicas. Pois diariamente:
 Recebe informações que precisam ser analisadas, interpretadas e
talvez transmitidas;
 Precisa tomar decisões sobre determinadas questões familiares ou
laborais;
 Precisa planificar e prever os gastos;
 Precisa comparar o comportamento dos filhos, dos amigos, etc;
 Precisa prever a hora de saída de casa para o serviço, para o mercado,
para escola ou para outros locais e vice-versa, evitando o atraso.
b) Estudos futuros - a estatística permite o homem fazer o acompanhamento
de algum assunto (do seu evoluir). O desenvolvimento de todos os ramos da
ciência depende muito da estatística, visto que todos eles passam pelo

Elaborado por Maquiesse Pembele 4


processo de acumulação de factos, e consegue-se (através dos conhecimentos
da estatística) comparar as fases da evolução de cada um deles desde o seu
surgimento, o seu desenvolvimento, até a sua autonomia, descrevendo as
características relevantes de cada uma das suas etapas do desenvolvimento,
perspectivando o seu aperfeiçoamento, e concepção de métodos que facilitem
a sua transmissão e a sua aprendizagem.
c) Estética – justifica-se pelo facto da utilização de modelos específicos para a
apresentação sintetizada das informações. Num único gráfico ou numa única
tabela, por exemplo, podemos com um bom domínio da estatística, ilustrar e
comparar fácil e agradavelmente informações muito extensas.

i.3- Objecto de estudo da estatística


Numa sociedade baseada na tecnologia e na comunicação, recolher, organizar,
descrever, exibir e interpretar dados, tomar decisões ou fazer previsões com
base nessa informação tem cada vez mais importância.
O estudo da estatística realça a importância de questionar, conjecturar e
procurar relações quando se formulam e resolvem problemas do mundo real.
O estudo estatístico incide fundamentalmente sobre situações que, por estarem
sujeitas a múltiplas influências raramente se podem representar por uma lei
matemática simples ou por um modelo determinado.
A estatística aparece no mundo actual como resposta à complexidade de
problemas que não permitem uma solução através de um único modelo com
uma resposta exacta. Para resolver estes problemas utiliza-se um conjunto de
técnicas e instrumentos que conjuntamente dão respostas aproximadas, com
níveis de erro controlados.
A estatística é o ramo da matemática que:
 estuda uma ou várias características ou propriedades de uma
população, e que permite estabelecer previsões que facilitem a tomada
de decisões assim como interpretar e explicar a realidade.
 estuda e elabora os métodos científicos adequados à colecta,
apuramento, organização, sintetização, apresentação e análise de
dados, bem como os métodos apropriados à formulação de conclusões
válidas, tomada de decisões e generalização dos resultados.

Elaborado por Maquiesse Pembele 5


De uma maneira resumida, podemos dizer que a estatística é o ramo da
matemática aplicada cujo objecto fundamental é a recolha, a compilação, a
análise e a interpretação de dados.
Atendendo a sua complexidade, a estatística é subdividida em duas partes
seguintes:
a) Estatística descritiva;
b) Estatística indutiva.
Para fazer o estudo estatístico de uma população consideram-se normalmente
duas fases distintas.
Uma primeira fase que consiste em recolher os dados, organizá-los e
apresenta-los em tabelas ou gráficos e condensar a informação em valores que
traduzam satisfatoriamente as características da totalidade dos dados. Nesta
fase utiliza-se a Estatística Descritiva, cuja finalidade é descrever certas
propriedades de um conjunto de dados. A estatística descritiva pode ser
aplicada tanto à amostra como à população.
Conhecidos os resultados de uma amostra, entra-se numa segunda fase, onde
se procura tirar conclusões sobre a totalidade da população, generalizando os
resultados obtidos através da amostra. Entra-se então no campo da Estatística
Indutiva.
A Estatística Indutiva é um método de investigação muito importante, pois
facilita a tomada de decisões, permitindo prever a evolução de determinados
conhecimentos.
Exemplos de situações nas quais se utiliza a Estatística Descritiva:
 Consumo de leite na população angolana
 Volume das exportações angolanas nos últimos anos
 Acidentes de viação nas estradas nacionais de Angola
Exemplos de situações em que se utiliza a Estatística Indutiva:
 Previsão de resultados eleitorais
 Previsão do crescimento económico
 Previsões demográficas
Podemos ainda analisar os dados obtidos e procurar estabelecer relações
entre os fenómenos em estudo. Este processo designa-se por Estatística
Analítica.

Elaborado por Maquiesse Pembele 6


A utilização da Estatística como um método científico ao serviço dos diferentes
ramos do saber, constitui o que se chama Estatística Aplicada.
Em suma:
a) A estatística descritiva é a parte da estatística vocacionada aos métodos
para a colecta de dados, apuramento, organização, sintetização, apresentação
e interpretação dos mesmos (ou, de uma maneira resumida, é a parte de
estatística encarregue a representar de forma compreensível a informação
contida em dados estatísticos);
b) A estatística indutiva (ou inferência estatística) é a parte da estatística
vocacionada aos métodos para a análise de dados, formulação de conclusões,
generalização dos resultados, tomada de decisões e realização de previsões

Cálculo de somatórios
Para simbolizar a soma ou o total de um conjunto de valores usa-se a letra

grega  (sigma). Assim, admitindo que uma variável X tenha assumido


x1 , x 2 , x 3 ,..., x n a soma de todos os valores
sucessivamente os valores
assumidos por esta variável será simbolicamente representada por
n

x  x1  x 2  x3  ...  x n x i  x1  x 2  x3  ...  x n
i
ou i 1 , notação que
representando a soma dos valores assumidos pela variável X, desde o primeiro
valor assumido até o último.

Nota: O símbolo  só se utiliza para representar total (não parcial), isto é


soma de todos os valores. Em caso de soma de alguns valores sem cobrir a
totalidade dos valores assumidos por esta variável utiliza-se a limitação através
da ordem em que os valores sucederam. Por exemplo:
 Para indicar a soma dos valores de X desde o segundo até o quinto

x i  x 2  x3  x 4  x5
temos i 2 ;
 Para indicar a soma dos valores de X desde o primeiro até o terceiro

x i  x1  x 2  x3
temos i 1 ;

Elaborado por Maquiesse Pembele 7


A soma dos quadrados de todos os valores da variável X representa-se
simbolicamente por
n

x 2 2 2 2 2
 x1  x 2  x3  ...  x n
 xi  x1  x2  x3  ...  xn
2 2 2 2 2
ou i 1
i

O quadrado da soma de todos os valores de X representa-se simbolicamente


por
2
 n 
  xi    x1  x 2  x3  ...  x n 
2

 x    x
i
2
1  x 2  x3  ...  x n 
2
ou  i 1 

Observação1: A diferença entre a soma dos quadrados e o quadrado da soma


é clara visto que para calcular a soma dos quadrados primeiro calculam-se os
quadrados dos valores e depois a soma destes quadrados enquanto que no
cálculo do quadrado da soma primeiro calcula-se a soma dos valores e depois
o quadrado desta. Estes conceitos e procedimentos de cálculo servirão de
apoio para o cálculo da variância e do desvio padrão, parâmetros estatísticos
que veremos nos capítulos a seguir no decorrer do programa.
Exemplo: Admitindo que em 5 observações consecutivas de uma variável X,
tenha esta assumido os valores 3, 6, 8, 5 e 2 respectivamente, calcular:
2 5 4 2

 xi  xi  xi x 2

a)  xi b) i 1 c) i 3 d) i 2 e) i 1
i

2 2
5
 2   5 
x 2
  xi    xi 
f) i 3
i
g)  x i
2

h)  i 1 
 x
i)  i
2

j)  i 3 
Resolução:

Dos valores acima temos: x1  3, x 2  6, x3  8, x 4  5, x5  2

a) x i  x1  x 2  x3  x 4  x5  3  6  8  5  2  24

x i  x1  x 2  3  6  9
b) i 1

x i  x3  x 4  x5  8  5  2  15
c) i 3

x i  x 2  x3  x 4  x5  6  8  5  2  21
d) i2

Elaborado por Maquiesse Pembele 8


2

x 2 2 2
i  x1  x 2  3 2  6 2  9  36  45
e) i 1

x 2 2 2 2
i  x3  x4  x5  8 2  5 2  2 2  64  25  4  93
f) i 3

x
2 2 2 2 2 2
i  x1  x 2  x3  x 4  x5  3 2  6 2  8 2  5 2  2 2 
g)  9  36  64  25  4  138
2
 2 
  xi    x1  x 2    3  6   9 2  81
2 2

h)  i 1 

i)
 x    x i
2
1  x 2  x3  x 4  x5    3  6  8  5  2  24 2  576
2 2

2
 5 
  xi    x3  x 4  x5    3  6  8  17 2  289
2 2

j)  i 3 
Em determinadas situações, sobretudo no estudo da relação entre duas
variáveis estatísticas é necessário recorrer a conceitos soma dos produtos e
produto das somas. Suponhamos que tenham sido observadas duas variáveis
X e Y, e que durante n observações tenham assumido sucessivamente os

X   x1 , x 2 , x3 ,..., x n e
valores que definem os conjuntos

Y   y1 , y 2 , y 3 ,..., y n  . Para este caso:


 o produto das somas dos valores das duas variáveis representa-se
genericamente por
 x    y    x
i i 1  x 2  ...  x n    y1  y 2  ...  y n 

Assim, calculam-se primeiro as duas somas e depois o produto das mesmas.


 A soma dos produtos parciais dos valores das duas variáveis
representa-se por

 x i  y i   x1 y1  x 2 y 2  ...  x n y n

Calculam-se primeiro os produtos parciais dos valores das duas variáveis da


mesma ordem e depois calcula-se a soma de todos eles.
Exemplo: Considerando duas variáveis X e Y que assumiram em cinco

observações consecutivas os valores dos conjuntos X   2, 5, 4, 3, 6 e


Y   5, 6, 3, 1, 2 e calcular:

a) O produto das somas dos seus valores;

Elaborado por Maquiesse Pembele 9


b) A soma dos produtos parciais dos seus valores da mesma ordem.
Resolução:

a)
 x    y    x
i i 1  x 2  ...  x5    y1  y 2  ...  y5  

 2  5  4  3  6   5  6  3  1  2  20  17  340

b)  x i  y i   2  5  5  6  4  3  3  1  6  2  10  30  12  3  12  67

Nota: Para minimizar o risco de cometer erros durante cálculos é possível realizar os
cálculos intermediários através de uma tabela aproveitando depois nela os resultados
parciais, como apresentamos a seguir:
xi yi xi  y i
2 5 10
5 6 30
4 3 12
3 1 3
6 2 12
x i  20 y i  17  x i  y i   67

a)
  x     y   20  17  340
i i

b)  x i  y i   67

CAPÍTULO I
ALGUNS CONCEITOS BÁSICOS DA ESTATÍSTICA

Elaborado por Maquiesse Pembele 10


1.1- População e amostra
Para facilitar a compreensão e a distinção entre esses dois conceitos
consideremos a seguinte situação: “O proprietário de um aviário optou por
comercial os ovos ali produzidos somente nos fins de semanas. Tencionando
testar a qualidade de ovos produzidos ao longo de uma semana, deve
naturalmente destruir alguns dos ovos produzidos e nunca na sua totalidade. É
provável que se por exemplo forem produzidos 300 ovos, testar “destruir”
apenas 10 e generalizar depois os resultados dos 10 ensaios aleatórios feitos
dentre 300”. A totalidade da produção semanal constitui a população em
estudo e o conjunto de ovos testados (parte da produção) constitui a amostra,
sendo N  300 , o volume da população e n  10 , o volume da amostra
utilizada.
- População (ou universo): é o conjunto de todos os seres que possuem uma
característica comum, que se pretende estudar.
- Amostra: é uma parte limitada da população suposta ser representativa e
significativa, através da qual incide o estudo, para uma posterior generalização
dos resultados.
A população pode classificar-se em:
a) População real;
Exemplo: a idade dos alunos que estudaram a 10ª classe no ano de 1978/79.
b) População hipotética;
Exemplo: Os resultados de sucessivos lançamentos de um dado ou de uma
moeda.
c) População infinita;
Exemplo: O conjunto das pressões ou das temperaturas atmosféricas em
diversos pontos de um país num dado instante.
d) População finita
Exemplo: o número de eleitores, o número de alunos de uma escola.
Cada integrante de uma população denomina-se indivíduo ou unidade
estatística
1.1.1- Razões do uso de amostras
Em certos estudos realiza-se uma investigação total. Isto é, examina-se cada
integrante da população em relação à característica de interesse do estudo.

Elaborado por Maquiesse Pembele 11


Mas essa prática é de rara aplicação, visto que se o conjunto a estudar possuir
um grande número de integrantes (e por outros motivos) fica difícil realizar uma
investigação total. Em casos deste tipo escolhe-se (em geral aleatoriamente)
uma parte dos integrantes da população constituindo a amostra. Realiza-se o
estudo sobre a amostra constituída e generaliza-se depois os resultados,
considerando-os válidos para toda a população.
Importa realçar que nem sempre é necessário utilizar amostra. Normalmente, o
uso de amostras em qualquer estudo estatístico deve ser justificado. Entre
vários motivos que nos podem levar ao uso de amostras em estudos
estatísticos temos:
 A infinidade da população ou população muito numerosa;
 A economia dos recursos ou redução de gastos;
 A economia do tempo ou rapidez na obtenção dos resultados;
 A comodidade ou redução da complexidade estudo;
 Os testes destrutivos.
Um estudo estatístico realizado através de uma amostra denomina-se
sondagem enquanto que a investigação total se denomina censo.
Em geral, todo o estudo estatístico baseado numa amostra transporta sempre
um erro que em determinadas situações pode ser desprezável.

1.1.2- Cuidados a ter na selecção de amostras


De modo geral, na selecção das amostras devemos ter em conta alguns
aspectos que nos podem possibilitar que elas sejam bem constituídas. Citamos
assim três aspectos fundamentais seguintes:
 A imparcialidade – todos os indivíduos devem ter a mesma
oportunidade (ou a mesma probabilidade) de fazer parte da amostra (ou
de serem seleccionados). Quer dizer que o fazer parte de uma amostra
não deve ser visto como um privilégio, não deve existir privacidade.
 Representatividade – Numa amostra devem estar presentes, em
proporção todas as características (qualitativas ou quantitativas) da
população, antecipadamente identificadas. Quer dizer, a amostra deve
representar a população duma maneira resumida.
 Significância – O volume ou tamanho da amostra deve ser significativo
em relação ao volume da população. Uma das formas de minimizar o

Elaborado por Maquiesse Pembele 12


erro dos resultados de um estudo baseado em amostras é aumentar
consideravelmente o volume da amostra, porque o erro e o volume da
amostra têm uma relação inversa. Quer dizer, quanto menor for o
volume da amostra maior será o erro e vice-versa. O aumento do
volume da amostra provoca o aumento da precisão enquanto a redução
do volume da amostra diminui a precisão.

1.1.3- Métodos de amostragem


Atendendo o critério da extracção de uma amostra numa população, podemos
distinguir dois tipos de amostragem: amostragem sem reposição e amostragem
com reposição.
Amostragem sem reposição é aquela em que o objecto retirado não é
reintegrado na população. O objecto extraído após seu exame não é restituído.
Amostragem com reposição é aquela em que o objecto retirado da
população é reintegrado na população antes da extracção a seguir. Quer dizer,
o objecto extraído é restituído na população após seu exame.
O sucesso de um estudo estatístico baseado na amostra depende muito de
como a amostra foi constituída (bem seleccionada ou mal seleccionada). As
amostras mal seleccionadas conduzem a resultados errados. Para uma
selecção de amostras é preciso técnicas adequadas. Essas técnicas variam de
acordo a especificidade do estudo a realizar. Quer dizer, variam de um tipo de
estudo ao outro.
As técnicas de amostragem resumem-se em dois grupos de métodos de
amostragem: os métodos de amostragem probabilística e os métodos de
amostragem não probabilística. Vamos dedicar uma especial atenção aos
métodos de amostragem probabilística pelo facto desses garantirem a
observância dos três cuidados acima mencionados.
Os métodos de amostragem probabilística subdividem-se em duas categorias:
* Métodos que não exigem desmembramento (subdivisão) da população antes
da aplicação. Neste grupo apenas está enquadrado o método de amostragem
aleatória.
* Métodos que exigem desmembramento da população antes da sua aplicação,
entre eles: o método de amostragem sistemática ou mecânica, o método de
amostragem por série e o método de amostragem estratificada ou típica.

Elaborado por Maquiesse Pembele 13


a) Método de amostragem aleatória
É o método que concede a todos os indivíduos a mesma probabilidade de
serem escolhidos. Garante a imparcialidade. É o método fundamental da
amostragem, e todos os outros se convertem depois neste tipo.
Exemplo de aplicação: Se de 600 alunos se pretender formar uma amostra de
30, define-se antecipadamente os números válidos, por exemplo de 1 até 30.
Depois da definição dos números válidos, cada indivíduo extrairá ao acaso uma
das 600 senhas disponíveis. Depois de todos terem as senhas vão apresentar-
se os que receberam as senhas com números já definidos e que formarão a
amostra desejada.
b) Método de amostragem sistemática ou mecânica
É o método através do qual a amostra é escolhida por meio de uma sequência,
sobre tudo em forma de uma progressão aritmética com uma razão predefinida.
Exemplo de aplicação: Aplicando este método ao exemplo anterior, define-se
por exemplo que entre os 20 primeiros será apurado o aluno que extrair o
número 4. Como nos 20 primeiros será apurado apenas um, a população deve
ser repartida em 30 grupos de 20 cada. Assim, depois de todos extraírem
(aleatoriamente) as senhas num lote de 600 senhas, se chamará o número 4.
Os outros números serão obtidos obedecendo a razão (20), somada
sucessivamente a partir do número 4. No entanto, serão obtidos os números 4,
24, 44, 64, 84, 104, 124, 144, 164, 184, 204, 224, 244, 264, 284, 304, 324, 344,
364, 384, 404, 424, 444, 464, 484, 504, 524, 544, 564 e 584 como integrantes
da amostra pretendida.
c) Método de amostragem por série
É o método através do qual a amostra é escolhida em duas fases, sendo a
primeira escolha entre os grupos e a segunda entre os integrantes dos grupos
escolhidos na primeira.
Exemplo de aplicação: Se aplicarmos este método ao exemplo em análise,
depois da extracção das 600 senhas, forma-se 30 grupos de 20 alunos cada
consoante a ordem da numeração. Indica-se um representante de cada grupo
a fim de participar na escolha por exemplo de 10 grupos entre os 30 iniciais.
Para efeito, volta-se ao método aleatório, define-se por exemplo que farão
parte da segunda escolha os grupos que tirarem os números
5,7,10,12,15,19,23,24,27 e 30. Cria-se 30 senhas que serão aleatoriamente

Elaborado por Maquiesse Pembele 14


extraídas, e dessa extracção serão seleccionados os 10 grupos com números
predefinidos. Como são 10 grupos com direito de participação, então na
segunda fase terá que se escolher 3 alunos em cada grupo para fazer os 30 da
amostra pretendida, o que será feito com a combinação dos métodos
anteriores.
d) Método de amostragem estratificada ou típica
É o método através do qual a amostra é escolhida em estratos ou em grupos
claramente diferenciados. A proporção da totalidade de cada grupo sobre a
população deve ser igual à proporção amostral do mesmo grupo sobre a
amostra total. Se por exemplo um grupo representar 15% da população, a
parte deste grupo na amostra deve representar também 15% do total da
amostra.
Exemplo de aplicação: Se dos 600 alunos do exemplo em análise 290 são da
7ª classe, 207 da 8ª classe e os restantes 103 da 9ª classe, para determinar o
número de integrantes de cada grupo na amostra, tomando N – o volume da
população, n - o volume da amostra, Q- o número total de integrantes de cada
grupo e q - o número dos integrantes de cada grupo na amostra devemos
sucessivamente resolver a proporção
n q

N Q

que resolvida a respeito de q resulta


nQ
q com esta expressão matemática será
N
achado o número de elementos de cada grupo que devem integrar a amostra.
Para esse exemplo obtém-se:
30  290
7ª classe: q   14,5  15 ;
600
30  207
8ª classe: q   10,35  10 ;
600
30  103
9ª classe: q   5,15  5
600
Total = 15 + 10 + 5 = 30

1.2- Carácter, atributo ou variável estatística. Classificação das variáveis


estatísticas

Elaborado por Maquiesse Pembele 15


1.2.1- Definição
Ao realizar um estudo estatístico no seio da população (ou da amostra) cada
indivíduo pode provavelmente apresentar várias características. O inquiridor ou
investigador deve predefinir a(s) característica(s) que lhe interessa(m) na sua
investigação, característica(s) esta(s) que deve(m) ser comum(s) para a
população no seu todo. Num conjunto de alunos por exemplo podemos nos
interessar de investigar o peso, a cor dos olhos, a altura, a idade, o sexo, a
distância casa - escola, os gastos diários em transporte, o número de irmãos
que cada um tem, etc.
Definição: Chama-se carácter ou variável estatística ( x ) a todo o fenómeno,
propriedade ou assunto de interesse para determinado estudo estatístico.
Exemplos:
1) Para avaliar o rendimento escolar analisa-se o aproveitamento
através das notas obtidas pelos alunos;
2) O enfermeiro para afirmar que o paciente tem febre ou não controla a
temperatura;

1.2.1.1- O valor da variável ( xi )


Definição: Chamam-se valores de uma variável aos diferentes
comportamentos que esta assume durante as observações.
Nota: Vulgarmente, o termo valor associa-se a um certo número, mas
estatisticamente, o valor da variável nem sempre é um valor numérico porque
em caso de variáveis qualitativas ou dicotómicas os valores da variável exprime
qualificações, estados ou uma outra característica não numerável.

1.2.2- Classificação das variáveis estatísticas


a) Quanto à relação entre elas
Quanto à relação entre as variáveis de interesse a um determinado estudo, se
existir uma relação pré identificada podemos classificá-las em:
 Variável independente: É a variável que exerce influência sobre a(s)
outra(s). Variável cuja variação do seu comportamento implica
variação do comportamento da(s) outra(s).

Elaborado por Maquiesse Pembele 16


 Variável dependente: É a variável que sofre influência da(s)
outra(s). Variável cujo comportamento varia sob acção ou influência
da variação do comportamento da(s) outra(s).
b) Quanto à natureza
Uma variável estatística, atendendo a sua natureza pode ser qualitativa,
quantitativa ou dicotómica.
 Variável qualitativa é aquela que não se pode medir, mas pode ser
classificada (exprime qualidade).
Exemplo: O comportamento (bom, mau, razoável, etc) a beleza (bela, feia,
etc), a cor (azul, verde, etc), o estado emocional (triste, alegre, preocupado,
tranquilo, etc), o valor lógico de uma proposição (falsa, verdadeira), etc.
 Variável quantitativa é aquela que se pode medir e pode ser
expresso através de valores numéricos.
Exemplo: A altura, o peso, o Q.I, a velocidade, etc.
 Variável dicotómica é aquela que logicamente tem duas opções
equiprováveis (duas opções com a mesma probabilidade de
ocorrência).
Exemplo: O estado de saúde (saudável ou enfermo), o sexo (masculino ou
feminino), etc.
Os estudos estatísticos incidem essencialmente em variáveis quantitativas
devido à sua propriedade de serem expressos através de números.
As variáveis quantitativas subdividem-se em discretas e contínuas.
Discretas: são as variáveis que só tomam valores inteiros não negativos.
Exemplo: O número de filhos, o número de golos, o número de carros, etc.
Continuas: são as variáveis que podem tomar qualquer valor real não
negativo.
Exemplo: A altura de uma pessoa, as temperaturas observadas num
observatório, o peso dos recém-nascidos numa maternidade, a distância de
casa à escola, a quantidade de chumbo em vários tipos de gasolina.
Ao resultado da observação de uma variável dá-se o nome de dado estatístico.
1.3- Fases do método estatístico
1ª)- Identificação e formulação do problema;
2ª)- Planificação

Elaborado por Maquiesse Pembele 17


3ª)- Recolha e apuramento dos dados;
4ª)- Organização dos dados,
5ª)- Apresentação dos dados,
6ª)- Análise e interpretação dos dados;
a) A identificação do problema (que se traduz na identificação de uma
realidade actual e preocupante) e formulação do tema consiste em
encontrar um problema (assunto a estudar) que carece do conhecimento das
suas causas e/ou de uma solução e com base nele, formular o tema de
investigação.
b) Planificação: depois de definido o problema é preciso definir os objectivos.
Com base nos objectivos a alcançar deve-se adoptar estratégias, determinar as
tarefas a realizar, a metodologia a empregar para obtenção de informação
sobre a (s) variável (eis) a estudar e decidir sobre a necessidade de uma
amostra ou não.
c) Recolha de dados: é a fase que marca o início da aplicação da planificação
(início do estudo estatístico), consistindo na observação e o registo das
informações ou do comportamento da(s) variável(eis) em estudo tendo em
consideração as características indicadas para o estudo.
Como técnicas da recolha de dados se pode utilizar:
- Questionário escrito;
- Observação ou acompanhamento directo;
- Experimentação;
- Pesquisa bibliográfica;
- Entrevista, etc.
Qualquer estudo estatístico tem como ponto de partida a recolha e posterior
classificação dos dados.
Os dados a recolher podem ser de tipos diferentes e ter origens diversas.
Assim, os dados recolhidos directamente a partir da fonte originária
denominam-se dados primários e aqueles que provêm já de uma recolha feita
previamente chamam-se dados secundários, como por exemplo os dados
obtidos através de documentos de outros autores, ou por informação recebida
de alguém.
Quanto à origem, os dados podem ser provenientes de uma fonte interna, se
uma organização coloca dados seus à disposição dos seus órgãos de decisão,

Elaborado por Maquiesse Pembele 18


ou de uma fonte externa, se uma organização disponibiliza dados seus para
outras organizações.
A recolha de dados pode ser feita de forma contínua (como por exemplo a
recolha de dados meteorológicos), periódica (como por exemplo os censos
populacionais) ou ocasional (como por exemplo as sondagens).
Quanto aos métodos usados na recolha de dados, podem ser muito
diversificados, como por exemplo, as entrevistas pelo telefone, o
preenchimento de questionários escritos ou electrónicos, as entrevistas
pessoais, etc..
Na fase de classificação dos dados procede-se à identificação de unidades de
informação com características comuns e posteriormente ao seu agrupamento.
No esquema da página seguinte (figura 3) podemos verificar de forma
resumida o que ficou dito anteriormente quanto à fonte dos dados e ao seu
tipo, bem como quanto à periodicidade, métodos de recolha e classificação dos
dados.
d) Organização dos dados é a fase do método estatístico que consiste em
apurar os dados e sintetizá-los através da contagem e agrupamento,
destacando-se para este agrupamento os valores que permitem distinguir o
comportamento da variável em estudo.
e) Apresentação dos dados é a fase do método estatístico que consiste na
elaboração dos dados na forma ilustrativa, isto é, elaborando tabelas de
distribuição de frequências e/ou gráficos.
Os gráficos e tabelas de distribuição de frequências permitem a sintetização de
grandes quantidades de dados e facilitam a compreensão do comportamento
da variável e a posterior análise.
f) Interpretação dos dados é a fase do método estatístico que consiste no
cálculo de alguns parâmetros amostrais a partir dos dados das tabelas
elaboradas na fase anterior, parâmetros estes que permitirão a descrição do
comportamento da variável em estudo através da sua amostra. Esta descrição
será depois generalizada (para toda a população em estudo).
g) Análise dos resultados é a fase do método estatístico que consiste em
averiguar se os resultados da investigação conduzem ou não à satisfação ou
validade das hipóteses formuladas na planificação. Esta fase permite ao

Elaborado por Maquiesse Pembele 19


inquiridor a identificação das causas ou factores que influenciam o assunto da
investigação.
h) Formulação de conclusões é a fase do método estatístico que consiste na
descrição dos resultados da investigação, com maior ênfase as verdadeiras
causas apuradas na fase anterior.
i) Tomada de decisões é a fase do método estatístico que consiste na busca
de possíveis soluções tendentes à minimização ou banimento do problema em
estudo (ora identificado)
j) Perspectivação é a fase do método estatístico que consiste em apresentar
as sugestões, recomendações, e orientações de critérios a implementar
durante o combate contra as causas influenciadoras do problema investigado.

1.4. Razões, proporções, percentagens e taxas


1.4.1. Razões
1.4.2. Proporções
1.4.3. Percentagens
1.4.4. Taxas

CAPÍTULO II
DISTRIBUIÇÃO DE FREQUÊNCIAS

Elaborado por Maquiesse Pembele 20


Na construção destes quadros Após a recolha e classificação dos dados, torna-
se necessário organizá-los em quadros e tabelas, para que a sua leitura e
interpretação se torne mais fácil.
e tabelas é importante o conhecimento de noções como frequência absoluta,
simples e acumulada e frequência relativa, simples e acumulada.

2.1- Distribuição de frequências para dados não agrupados


2.1.1- Tabelas de distribuição de frequências
No capítulo anterior vimos que a variável estatística é denotado por xi .
O número de vezes que cada valor da variável se repete num conjunto de
observações denomina-se frequência absoluta simples e denotado por f i .
Exemplo: Num conjunto de 20 alunos do clube 1º de Agosto a idade está
distribuída como se segue:
14 18 19 15 15 17 15 15 16 16 15 15 14 17 14 16 16 14 15 16
Temos para este exemplo, um conjunto de 20 dados, representados por 6
valores da variável (14,15,16,17,18 e19). A variável em estudo é a idade dos
alunos enquanto o número de alunos para cada idade é a frequência absoluta
simples.
Observando os dados deste exemplo vê-se que eles estão desordenados. Por
esta razão chamam-se dados brutos. Ordenando-os, obtém-se o rol de dados
seguinte:
14 14 14 14 15 15 15 15 15 15 15 16 16 16 16 16 17 17 18 19
Definição: chama-se rol de dados a um conjunto ordenado de dados.
Definição: chama-se tabela de distribuição de frequências a uma tabela na
qual cada valor da variável está associado à sua respectiva frequência.
Nota: A soma de todas as frequências absolutas simples de uma distribuição é
sempre igual ao número de dados observados (N). Assim, matematicamente,
afirma-se que
n
N   f i  f1  f 2  f 3  ...  f n
i 1

Uma tabela de distribuição de frequências sem título é sem significado. Por


isso toda a tabela de frequência deve possuir um título.

Elaborado por Maquiesse Pembele 21


Os dados do exemplo acima resultam a seguinte tabela de distribuição de
frequências absolutas simples:

Idade dos alunos do clube 1º de Agosto


Idade Contagem ou Nº de alunos
( xi ) tabulação ( fi )
14 IIII 4
15 IIIII II 7
16 IIIII 5
17 II 2
18 I 1
19 I 1
N = 20

2.1.2- Tipos de frequências


simples
descendente
absoluta
acumulada

ascendente
Frequência
simples

relativa
descendente

acumulada

ascendente
a)Frequência absoluta simples ( f i )
A frequência absoluta simples dum determinado valor da variável é o número
de vezes que este valor foi observado ou o número de vezes que o valor se
repetiu durante as observações.
b)Frequência absoluta acumulada descendente ( fai ) ou abaixo de…

Elaborado por Maquiesse Pembele 22


A frequência acumulada descendente até um determinado valor da variável é a
soma da frequência absoluta simples deste valor com as frequências absolutas
simples de todos os valores anteriores a ele. Matematicamente, temos:
( fa1 )  f1 porque não existe valor anterior ao primeiro valor;
( fa 2 )  f 1  f 2

( fa3 )  f 1  f 2  f 3

……………………..
( fa n )  f 1  f 2  f 3  ...  f n  N

c) Frequência absoluta acumulada ascendente ( fa i ) ou acima de…


A frequência acumulada descendente desde um determinado valor da variável
é a soma da frequência absoluta simples deste valor com as frequências
absolutas simples de todos os valores posteriores a ele. Matematicamente,
temos:
( fa1 )  f1  f 2  f 3  ...  f n  N

( fa 2 )  f 2  f 3  f 4  ...  f n

( fa3 )  f 3  f 4  f 5  ...  f n

……………..……………………….
( fa n )  f n porque não existe valor posterior ao último.

d) Frequência relativa simples ( fri )


A frequência relativa simples de um determinado valor da variável é o
quociente entre a frequência absoluta simples ( f i ) deste valor e o número
total de dados observados (N ) . Isto é:
fi
fri 
N
Atendendo a dificuldade de interpretação das frequências relativas é comum a
conversão desta em linguagem de percentagem, resultando assim a frequência
relativa simples percentual fri % , cujo valor numérico se obtém multiplicando
fri por 100%. Quer dizer:

fi
fri %  fri  100% ou fri %   100%
N
Nota: A soma de todas as frequências relativas simples de uma distribuição
(sem erros de arredondamento) é sempre igual a unidade (1).

Elaborado por Maquiesse Pembele 23


Consequentemente, a soma de todas as frequências relativas simples
percentuais é igual a 100.
e) Frequência relativa acumulada descendente ( fra i )
A frequência relativa acumulada descendente até um determinado valor da
variável é o quociente entre a frequência acumulada descendente até este
valor e o número total de observações. Matematicamente:
fai 
frai 
N
fai 
e fra i  %  frai  100% ou frai  %   100%
N
f) Frequência relativa acumulada ascendente ( fra i )
A frequência relativa acumulada ascendente desde um determinado valor da
variável é o quociente entre a frequência acumulada ascendente desde este
valor e o número total de observações. Matematicamente:
fai 
fra i 
N
fai 
e frai  %  frai  100% ou frai  %   100%
N
Exemplo: Construindo uma tabela com todos os tipos de frequências acima
descritos para os dados do exemplo 2.1, obtém-se:

Idade dos alunos do clube 1º de Agosto


Idade fi fa i  fa i  fri fri % fra i  fra i %  fra i  frai % 

( xi )
14 4 4 20 0,20 20 0,20 20 1,00 100
15 7 11 16 0,35 35 0,55 55 0,80 80
16 5 16 9 0,25 25 0,80 80 0,45 45
17 2 18 4 0,10 10 0,90 90 0,20 20
18 1 19 2 0,05 5 0,95 95 0,10 10
19 1 20 1 0,05 5 1,00 100 0,05 5

Elaborado por Maquiesse Pembele 24


N =20

2.1.3- Interpretação de frequências


Interpretar uma frequência quer dizer traduzi-la à linguagem corrente,
descrevendo o seu significado na distribuição que a contém. Esta tarefa é de
grande importância nos estudos estatísticos.
Nota: È importante saber que toda a frequência simples corresponde a um
único valor da variável (ou a uma única classe para dados agrupados que
veremos mais a diante) enquanto a frequência acumulada excepto a primeira é
soma de frequências correspondentes a dois ou mais valores (ou a duas ou
mais classes em dados agrupados).

a)Interpretação de frequências simples


Para facilitar a compreensão vamos utilizar os dados da tabela do exemplo 2.2,
na qual temos por exemplo:
* f1  f ( x  14)  4alunos
Interpretação: Dos 20 alunos do clube 1º de Agosto, 4 têm 14 anos de idade.
* f 3  f ( x  16)  5alunos
Interpretação: Dos 20 alunos do clube 1º de Agosto, 5 têm 16 anos de idade.
* f 4  f ( x  17)  2alunos
Interpretação: Dos 20 alunos do clube 1º de Agosto, 2 têm 17 anos de idade.
* fr1 %  fr %( x  14)  20%
Interpretação: Dos 20 alunos do clube 1º de Agosto, 20% têm 14 anos de
idade.
* fr3  fr ( x  16)  0,25  25%
Interpretação: 25% dos 20 alunos do clube 1º de Agosto, têm 16 anos de
idade.
* fr4  fr ( x  17)  0,10  10%
Interpretação: 10% dos 20 alunos do clube 1º de Agosto, têm 17 anos de
idade.
b)Interpretação de frequências acumuladas
Para facilitar a compreensão vamos utilizar os dados da tabela do exemplo 2.2,
na qual temos por exemplo:

Elaborado por Maquiesse Pembele 25


* fa1  f ( x  14)  4alunos
Interpretação: Dos 20 alunos do clube 1º de Agosto, 4 têm 14 anos de idade.
* fa1  f ( x  14)  20alunos
Interpretação: Os 20 alunos do clube 1º de Agosto, têm idade mínima de14
anos (têm no mínimo 14 anos de idade, têm idade não inferior a 14 anos).
* fa3  f (14  x  16)  16alunos
Interpretação: Dos 20 alunos do clube 1º de Agosto, 16 têm de 14 até16 anos
de idade.( ou têm no máximo 16 anos de idade, ou têm até 16 anos de idade,
ou têm a idade máxima de 16 anos)
* fa3  f (16  x  19)  f ( x  16)  9alunos
Interpretação: Dos 20 alunos do clube 1º de Agosto, 9 têm de 16 até19 anos
de idade.( ou… têm no mínimo 16 anos de idade, ou… têm como idade mínima
16 anos , ou… têm idade não inferior a 16 anos).
* fa 4  f (14  x  17)  18alunos
Interpretação: Dos 20 alunos do clube 1º de Agosto, 18 têm de 14 até 17 anos
de idade.( …no máximo 17 anos, ou …até 17 anos, ou …idade máxima de 17
anos)
* fa 4  f (17  x  19)  4alunos
Interpretação: Dos 20 alunos do clube 1º de Agosto, 4 têm de 17 até 19 anos
de idade.( …no mínimo 17 anos de idade, ou …não menos do que 17 anos de
idade, ou …idade mínima de 17 anos)

2.1.4-Gráficos de dados não agrupados em classes


Para o nosso estudo, em casos de dados não agrupados, nos limitaremos
apenas ao uso de três tipos de gráficos seguintes:
a) Gráfico de colunas;
b) Gráfico de linhas;
c) Gráfico circular (sectograma ou gráfico de sectores)
Nota: Um gráfico ou uma tabela só tem significado com a presença do
respectivo título. Por isso, qualquer gráfico ou tabela de distribuição de
frequências que construirmos deverá ter um título, que será definido de acordo
a variável e o tipo de estudo realizado sobre esta mesma variável.

Elaborado por Maquiesse Pembele 26


a) Gráfico de colunas
É um conjunto de rectângulos separados com bases (larguras) e espaçamento
uniformizados cuja altura é proporcional à respectiva frequência.
Para construir um gráfico de colunas traçamos um sistema de dois eixos
perpendiculares (sendo um horizontal enquanto o outro vertical) e escalonamos
os valores da variável no eixo horizontal (eixo das abcissas) e os valores da
frequência no eixo vertical (eixo das ordenadas).
Para o exemplo da tabela anterior temos:
1) Gráfico de colunas da frequência absoluta simples

Idade dos alunos do clube 1º de Agosto


Idade ( xi ) fi
14 4
15 7
16 5
17 2
18 1
19 1

2) Gráfico de colunas da frequência relativa simples (percentual)

Idade dos alunos do clube 1º de Agosto


Idade ( xi ) fri %
14 20
15 35
16 25
17 10
18 5
19 5
3) Gráfico de colunas da frequência absoluta acumula descendente
Idade dos alunos do clube 1º de Agosto
Idade ( xi ) fa i 
14 4
15 11

Elaborado por Maquiesse Pembele 27


16 16
17 18
18 19
19 20

4) Gráfico de colunas da frequência absoluta acumulada ascendente

Idade dos alunos do clube 1º de Agosto


Idade ( xi ) fai 
14 20
15 16
16 9
17 4
18 2
19 1

5) Gráfico de colunas da frequência relativa acumulada descendente


(percentual)
Idade dos alunos do clube 1º de Agosto
Idade ( xi ) fra i % 
14 20
15 55
16 80
17 90
18 95
19 100

6) Gráfico de colunas da frequência relativa acumulada ascendente


(percentual)
Idade dos alunos do clube 1º de Agosto
Idade ( xi ) frai % 
14 100
15 80
16 45
17 20
18 10
19 5

Os gráficos de colunas aqui vistos são todos simples, visto estar neles
representada apenas uma variável. Mas, além dos gráficos de colunas simples
existem os gráficos de colunas compostos ou de colunas por blocos. Estes

Elaborado por Maquiesse Pembele 28


últimos são utilizados quando se quer apresentar dados de múltiplas variáveis.
Consideremos por exemplo a tabela

Aproveitamento da escola 604 no ano lectivo de 1998/99


Classe Número de alunos
Matriculados Avaliados Desistidos Aptos Não aptos
1ª 60 55 5 40 15
2ª 65 55 10 45 10
3ª 60 58 2 50 8
4ª 75 65 10 50 15
Total 260 233 27 185 48

Desta distribuição, podemos construir o gráfico de colunas compostas, de


frequência absoluta simples a seguir:

Aproveitamento da escola 604 no ano lectivo de 1998/99

b) Gráfico de linhas
É uma linha quebrada constituída por segmentos de recta definidos por pontos
consecutivos da forma ( xi ; f i ).
Para construir um gráfico de linhas basta representar geometricamente os
pontos ( xi ; f i ) e uni-los conforme a sucessão dos mesmos.
Utilizando as tabelas usadas em gráficos de colunas temos:
1) Gráfico de linhas da frequência absoluta simples
Idade dos alunos do clube 1º de Agosto
Idade ( xi ) fi
14 4
15 7
16 5
17 2
18 1
19 1

Elaborado por Maquiesse Pembele 29


2) Gráfico de linhas da frequência relativa simples (percentual)
Idade dos alunos do clube 1º de Agosto
Idade ( xi ) fri %
14 20
15 35
16 25
17 10
18 5
19 5

3) Gráfico de linhas da frequência absoluta acumula descendente


Idade dos alunos do clube 1º de Agosto
Idade ( xi ) fai 
14 4
15 11
16 16
17 18
18 19
19 20
4) Gráfico de linhas da frequência absoluta acumulada ascendente
Idade dos alunos do clube 1º de Agosto
Idade ( xi ) fai 
14 20
15 16
16 9
17 4
18 2
19 1

5) Gráfico de linhas da frequência relativa acumulada descendente


(percentual)
Idade dos alunos do clube 1º de Agosto
Idade ( xi ) fra i % 
14 20
15 55

Elaborado por Maquiesse Pembele 30


16 80
17 90
18 95
19 100

6) Gráfico de linhas da frequência relativa acumulada ascendente


(percentual)
Idade dos alunos do clube 1º de Agosto
Idade ( xi ) fra i % 
14 100
15 80
16 45
17 20
18 10
19 5
Um gráfico de linhas na qual são representadas simultaneamente as
frequências acumuladas ascendente e descendente (quer sejam absolutas,
quer relativas), denomina-se Ogiva de Galton.
Assim, para a distribuição anterior teremos a seguinte Ogiva de Galton.
c) Gráfico de sectores (gráfico circular ou sectograma)
É o tipo de gráfico composto por sectores circulares cujas amplitudes dos
ângulos centrais são proporcionais às frequências simples de cada valor de
variável (em caso de distribuições univariadas) ou de cada variável (em caso
de distribuições multivariadas).
Este tipo de gráfico permite comparar directamente os valores de uma série
estatística com a soma total.
NOTA: Os gráficos de sectores Sá são utilizados para a representação de
frequências simples. Eles não são adequados para a representação de
frequências acumuladas, pelo facto de uma das frequências acumuladas ser
sempre igual ao total de observações realizadas.
Como já vimos que os gráficos circulares são compostos por sectores
circulares cuja unidade de medida é o grau. Implica dizer que as unidades de
frequências devem necessariamente ser convertidas às unidades de arcos.
Atendendo o exposto no parágrafo imediatamente anterior, a construção de
gráficos de sectores, requerer o cumprimento dos seguintes passos
sequenciais:
1º passo: Converter as frequências em graus, através da relação

Elaborado por Maquiesse Pembele 31


f i  360º
i   fri  360º
N
onde  i é a denotação das amplitudes dos ângulos ao centro.
2º passo: Traçar um círculo e construir nele os sectores circulares
correspondentes aos ângulos ao centro encontrados em 1º);
3º passo: Elaborar uma legenda caso seja necessário.

3.2- Distribuição de frequências para dados agrupados em classes


Em estudos estatísticos quando a variável assume muitos valores, resulta uma
tabela de distribuição de frequências grande e consequentemente um gráfico
complexo. Convista a reduzir o tamanho e a complexidade das tabelas e
gráficos respectivamente, foi introduzido o agrupamento de dados em classes.
A técnica de agrupamento de dados em classes foi introduzido para facilitar o
tratamento de dados quando o volume de amostra é grande ou quando a
variável manifesta-se com vários valores. Torna mais simples:
- a interpretação;
- as tabelas de distribuição de frequências e consequentemente os gráficos.
Temos como exemplos concretos do agrupamento de dados em classes:
- A classificação do aproveitamento escolar em Mau, Medíocre, suficiente, Bom
e Muito bom;
- A periodização das idades em psicologia do desenvolvimento;
- Os períodos históricos;
- A divisão do ensino em níveis; etc.
Para realizar o agrupamento de dados em classes é preciso obedecer certos
critérios e conhecer certos conceitos, que abaixo indicaremos.

3.2.1- Agrupamento de dados em classes


Para o agrupamento de dados estatísticos em classes devem cumprir-se
sucessivamente os seguintes passos:
1º) Determinar a quantidade de classes, denotada por K
Para a determinação da quantidade de classes existem vários critérios. Mas
para uniformização do nosso trabalho vamos utilizar o critério definido por
STURGES, segundo o qual:
a) Se n  25 , então a quantidade de classes será K  n ;

Elaborado por Maquiesse Pembele 32


b) Se n  25 , então a quantidade de classes será K  1  3,3  log n
2º) Determinar a amplitude total da distribuição denotado por At
Definição: Chama-se amplitude total de uma distribuição a diferença entre o
valor máximo ( Vmáx ) e o valor mínimo ( Vmín ) dos dados observados.
Atendendo a definição At  Vmáx  Vmín
Nota: Se os dados estiverem já agrupados numa tabela de distribuição de
frequências a amplitude total da distribuição será a diferença entre o limite
superior da última classe e o limite inferior da primeira classe 1.
3º) Determinar a amplitude dos intervalos das classes ( h, I ou Ai )
Definição: Chama-se amplitude dos intervalos das classes o quociente ou
razão da amplitude total ( At ) pela quantidade de classes ( K ). Isto é:
At
h
K
Nota: Se os dados estiverem já agrupados numa tabela de distribuição de
frequências a amplitude dos intervalos das classes será a diferença entre o
limite superior de cada classe e o limite inferior da mesma classe.
4º) Determinar os limites das classes
Definição: Chamam-se limites de classes os dois valores que limitam cada
intervalo de classe.
Em cada classe encontramos dois limites:
- O limite inferior ( l i ) que é o valor do extremo esquerdo da classe;
- O limite superior ( Li ) que é o valor do extremo direito da classe;
Para a determinação dos limites temos que atender duas situações seguintes:

1ª situação: Caso de dados contínuos


Lembremo-nos antes que os dados contínuos são aqueles que podem assumir
qualquer valor real. Deste modo para dados contínuos:
- O limite inferior da primeira classe ( l1 ) é igual ao valor mínimo ( Vmín ), quer
dizer l1  Vmín ;
- O limite superior da primeira classe ( L1 ) é a soma do l1 com h , isto é
L1  l1  h ;

1
Os conceitos limite superior e limite inferior estão apresentados no 4º passo

Elaborado por Maquiesse Pembele 33


- O limite inferior da segunda classe ( l 2 ) é igual ao L1 . Quer dizer l 2  L1 ou
ainda l 2  l1  h ;
- O limite superior da segunda classe ( L2 ) é a soma do l 2 com h , isto é
L2  l 2  h ou ainda L2  L1  h ;

- O limite inferior da terceira classe ( l 3 ) é igual ao L2 . Quer dizer l 3  L2 ou


ainda l3  l 2  h ;
- O limite superior da terceira classe ( L3 ) é a soma do l 3 com h , isto é
L3  l 3  h ou ainda L3  L2  h , e assim sucessivamente.

Como este tipo de dados admitem números reais as classes serão


representadas por intervalos de números reais da forma li  Li ou  l i ; Li  aos
quais pertencem os limites inferiores mas não os limites superiores.

2ª situação: Caso de dados discretos


Lembremo-nos que os dados discretos só assumem valores inteiros. Para esta
situação h determina a quantidade de valores inteiros pertencentes a cada
classe. Deste modo os limites das classes serão determinados de seguinte
forma:
- O limite inferior da primeira classe ( l1 ) é igual ao valor mínimo ( Vmín ), quer
dizer l1  Vmín ;
- O limite superior da primeira classe ( L1 ) é a soma do l1 com h reduzida uma
unidade, isto é L1  l1  h  1 ;
- O limite inferior da segunda classe ( l 2 ) é a soma L1 com 1. Quer dizer
l 2  L1  1 ;

- O limite superior da segunda classe ( L2 ) é a soma do l 2 com h reduzida


uma unidade, isto é L2  l 2  h  1 ;
- O limite inferior da terceira classe ( l 3 ) é a soma de L2 com h . Quer dizer
l 3  L2  1 ;

- O limite superior da terceira classe ( L3 ) é a soma do l 3 com h reduzida uma


unidade, isto é L3  l 3  h  1 , e assim sucessivamente.

Elaborado por Maquiesse Pembele 34


Como este tipo de dados admitem apenas números inteiros, as classes serão

representadas por intervalos de números inteiros da forma li  Li ou  l i ; Li 


aos quais pertencem quer os limites inferiores quer os limites superiores.
5º) Construir a tabela de distribuição de frequências
Para a construção da tabela de distribuição de frequências, após determinação
dos limites das classes é necessário saber que em dados agrupados em
classes podemos numa mesma classe encontrar vários valores da variável.
Deste modo:
- A frequência absoluta simples de cada classe é a soma das frequências
absolutas simples de todos os valores a ele pertencentes;
- A frequência relativa simples de cada classe é a razão da frequência absoluta
simples desta pelo volume da amostra ( n ) ou da população (N), conforme o
caso;
- A frequência absoluta acumulada descendente até cada classe é a soma da
frequência absoluta simples desta com as frequências absolutas simples de
todas as classes anteriores a ela;
- A frequência absoluta acumulada ascendente desde cada classe é a soma da
frequência absoluta
simples desta com as frequências absolutas simples de todas as classes
posteriores a ela;

Exemplo: Tendo se medido a altura dos caçadores do grupo “LÍDER”, registaram-se


os seguintes resultados, em metros:
1,65 1,78 1,89 1,78 1,78 1,90 1,81 1,79 1,94 1,66
1,76 1,92 1,88 1,67 1,79 1,89 1,91 1,75 1,90 1,76
1,86 1,85 1,67 1,72 1,86 1,75 1,60 1,76 1,85 1,72
1,87 1,77 1,87 1,82 1,68 1,65 1,65 1,85 1,77 1,74
1,64 1,76 1,78 1,86 1,84 1,87 1,63 1,92 1,67 1,84

a) Utilizando a relação de Sturges, e tomando estes dados como contínuos,


construa a tabela de distribuição, contendo todos os tipos de frequências
estudados, incluindo os pontos médios;
b) Interprete as respectivas frequências;
c) Construa os histogramas correspondentes;
d) Quantos caçadores têm altura inferior a 1,84 m?

Elaborado por Maquiesse Pembele 35


e) Quantos caçadores têm altura superior a 1,70 m?
f) Quantos caçadores têm altura inferior a 1,82m?
g) Quantos caçadores têm altura entre 1,64 m e 1,81 m?
h) Quantos caçadores têm altura de 1,64 m à 1,81m?
i) Calcule a percentagem dos caçadores com altura não superior a 1,80 m;
j) Calcule a percentagem dos caçadores com altura superior a 1,80 m;
k) Calcule a percentagem dos caçadores com altura inferior a 1,80 m.
a)
*Como n  50  25 , então K  1  3,3  log 50  6,61  7
*O valor máximo destes dados é 1,94 e o mínimo é 1,60. Assim, como
At  Vmáx  Vmín , então At  1,94  1,60  0,34

At 0,34
*h    0,05
K 7

ALTURA DOS CAÇADORES DO GRUPO “LÍDER”, EM METROS


Altura em m fi fri fri % fa i  frai  frai  % fa i  fra i  fra i  % PM i
1,60;1,65 3 0,06 6 3 0,06 6 50 1,00 100 1,625
1,65;1,70 8 0,16 16 11 0,22 22 47 0,94 94 1,675
1,70;1,75 3 0,06 6 14 0,28 28 39 0,78 78 1,725
1,75;1,80 14 0,28 28 28 0,56 56 36 0,72 72 1,775
1,80;185 4 0,08 8 32 0,64 64 22 0,44 44 1,825
1,85;1,90 12 0,24 24 44 0,88 88 18 0,36 36 1,875
1,90;1,95 6 0,12 12 50 1,00 100 6 0,12 12 1,925

b) Interpretação:
f1  f (1,60  x  1,65)  3 caçadores

*Três dos 50 caçadores do grupo “LÍDER” têm altura de 1,60 até quase 1,65 m
f 2  f (1,65  x  1,70)  8 caçadores

*Oito dos 50 caçadores do grupo “LÍDER” têm altura de 1,65 até quase 1,70 m
f 3  f (1,70  x  1,75)  3 caçadores

*Tês dos 50 caçadores do grupo “LÍDER” têm altura de 1,70 até quase 1,75 m

Elaborado por Maquiesse Pembele 36


f 4  f (1,75  x  1,80)  14 caçadores

*Catorze dos 50 caçadores do grupo “LÍDER” têm altura de 1,75 m até quase
1,80 m
f 5  f (1,80  x  1,85)  5 caçadores

*Quatro dos 50 caçadores do grupo “LÍDER” têm altura de 1,80 até quase 1,85
m
f 6  f (1,85  x  1,90)  12 caçadores

*Doze dos 50 caçadores do grupo “LÍDER” têm altura de 1,85 até quase 1,90 m
f 7  f (1,90  x  1,95)  6 caçadores

*Seis dos 50 caçadores do grupo “LÍDER” têm altura de 1,90 até quase 1,95 m
fr1  fr (1,60  x  1,65)  0,06  6% dos caçadores

*6% dos 50 caçadores do grupo “LÍDER” têm altura de 1,60 até quase 1,65 m
fr2  fr (1,65  x  1,70)  0,16  16% dos caçadores

*16% dos 50 caçadores do grupo “LÍDER” têm altura de 1,65 até quase 1,70 m
fr3  fr (1,70  x  1,75)  0,06  6% dos caçadores

*6% dos 50 caçadores do grupo “LÍDER” têm altura de 1,70 até quase 1,75 m
fr4  fr (1,75  x  1,80)  0,28  28% dos caçadores

*28% dos 50 caçadores do grupo “LÍDER” têm altura de 1,75 até quase 1,80 m
fr5  fr (1,80  x  1,85)  0,1  10% dos caçadores

*10% dos 50 caçadores do grupo “LÍDER” têm altura de 1,80 até quase 1,85 m
fr6  fr (1,85  x  1,90)  0,24  24% dos caçadores

*24% dos 50 caçadores do grupo “LÍDER” têm altura de 1,5 até quase 1,90 m
fr7  fr (1,90  x  1,95)  0,12  12% dos caçadores

*12% dos 50 caçadores do grupo “LÍDER” têm altura de 1,90 até quase 1,95 m

Exemplo: Convertendo os dados do exemplo anterior em cm e tomando-os


como discretos, teremos:
a)
*Como n  50  25 , então K  1  3,3  log 50  6,61  7
*O valor máximo destes dados é 194 e o mínimo é 160. Assim, como
At  Vmáx  Vmín , então At  194  160  34

Elaborado por Maquiesse Pembele 37


At 34
*h   5
K 7
Tal como nos dados contínuos, conforme já foi exposto na teoria, nos dados
discretos também o limite inferior da primeira classe é igual ao valor mínimo.
Para construir os intervalos da tabela que se pretende como os dados são
discretos devem ser obedecidas as relações:
l1  Vmín , Li  l i  h  1 e li  li 1  1
Para evitar lapsos de cálculo aconselha-se calcular primeiramente h  1 .
Assim, para este exemplo tem-se h  1  5  1  4

ALTURA DOS CAÇADORES DO GRUPO “LÍDER”, EM CENTÍMETROS


Altura em cm fi fri fri % fa i  fra i  fra i  % fa i  fra i  fra i  % PM i
160;164 3 0,06 6 3 0,06 6 50 1,00 100 162
165;169 8 0,16 16 11 0,22 22 47 0,94 94 167
170;174 3 0,06 6 14 0,28 28 39 0,78 78 172
175;179 14 0,28 28 28 0,56 56 36 0,72 72 177
180;184 4 0,08 8 32 0,64 64 22 0,44 44 182
185;189 12 0,24 24 44 0,88 88 18 0,36 36 187
190;194 6 0,12 12 50 1,00 100 6 0,12 12 192

c) Interpretação:
f 1  f (160  x  164)  3 caçadores

*Três dos 50 caçadores do grupo “LÍDER” têm altura de 160 cm até 164cm
f 2  f (165  x  169)  8 caçadores

*Oito dos 50 caçadores do grupo “LÍDER” têm altura de 165 cm até 170 cm
f 3  f (170  x  174)  3 caçadores

*Tês dos 50 caçadores do grupo “LÍDER” têm altura de 170 cm até 174 cm
f 4  f (175  x  179)  14 caçadores

*Catorze dos 50 caçadores do grupo “LÍDER” têm altura de 175 cm até 179 cm
f 5  f (180  x  184)  5 caçadores

*Quatro dos 50 caçadores do grupo “LÍDER” têm altura de 180 cm até 184 cm

Elaborado por Maquiesse Pembele 38


f 6  f (185  x  189)  12 caçadores

*Doze dos 50 caçadores do grupo “LÍDER” têm altura de 185 cm até 189 cm
f 7  f (190  x  194)  6 caçadores

*Seis dos 50 caçadores do grupo “LÍDER” têm altura de 190 cm até 194 cm
fr1  fr (160  x  164)  0,06  6% dos caçadores

*6% dos 50 caçadores do grupo “LÍDER” têm altura de 160 cm até 164 cm
fr2  fr (165  x  174)  0,16  16% dos caçadores

*16% dos 50 caçadores do grupo “LÍDER” têm altura de 165 cm até 169 cm
fr3  fr (170  x  174)  0,06  6% dos caçadores

*6% dos 50 caçadores do grupo “LÍDER” têm altura de 170 cm até 174 cm
fr4  fr (175  x  179)  0,28  28% dos caçadores

*28% dos 50 caçadores do grupo “LÍDER” têm altura de 175 cm até 179 cm
fr5  fr (180  x  184)  0,1  10% dos caçadores

*10% dos 50 caçadores do grupo “LÍDER” têm altura de 180 cm até 184 cm
fr6  fr (185  x  189)  0,24  24% dos caçadores

*24% dos 50 caçadores do grupo “LÍDER” têm altura de 185 cm até 189 cm
fr7  fr (190  x  194)  0,12  12% dos caçadores

*12% dos 50 caçadores do grupo “LÍDER” têm altura de 190 cm até 194 cm

Observação: Na prática o agrupamento de dados em classes pode tornar


simples desde que se defina a amplitude de classes, conforme a necessidade
ou conforme exigências dos objectivos da pesquisa. Quando se procede desta
forma o procedimento de agrupamento dos dados em classes fica reduzido
para dois passos seguintes:
1º) Determinar os limites de classes a partir do valor mínimo;
2º) Construir a tabela de distribuição de frequências.
Exemplo: Para os dados do exemplo anterior convertidos em centímetros
(dados discretos) se por exemplo se decidir trabalhar com uma amplitude dos
intervalos de classes h  10cm , resultará a tabela a seguir:

ALTURA DOS CAÇADORES DO GRUPO “LÌDER” EMCENTÍMETROS


Altura em cm fi fri fri % fa i  fra i  frai  % fa i  fra i  fra i  % PM i
160;169 11 0,22 22 11 0,22 22 50 1,00 100 164,5

Elaborado por Maquiesse Pembele 39


170;179 17 0,34 34 28 0,56 56 39 0,78 78 174,5
180;189 16 0,32 32 44 0,88 88 22 0,44 44 184,5
190;199 6 0,12 12 50 1,00 100 6 0,12 12 194,5

Na prática o agrupamento de dados em classes pode tornar simples desde que


se defina a amplitude de classes, conforme a necessidade ou conforme
exigências dos objectivos da pesquisa. Quando se procede desta forma o
procedimento de agrupamento dos dados em classes fica reduzido para dois
passos seguintes:
1º) Determinar os limites de classes a partir do valor mínimo;
2º) Construir a tabela de distribuição de frequências.

3.2.3- Gráficos de dados agrupados em classes


3.2.3.1- Histograma de frequências
3.2.3.2- Polígono de frequências
3.2.3.3- Gráfico circular

Elaborado por Maquiesse Pembele 40


CAPÍTULO IV
MEDIDAS DE TENDÊNCIA CENTRAL OU DE LOCALIZAÇÃO

Os conhecimentos adquiridos até agora apenas nos permitem construir tabelas


de distribuição de frequências e gráficos correspondentes, bem como a
interpretação dos dados neles contidos. Mas, não nos fornece bases que
permitam realizar uma apreciação global da distribuição. Para que se tenha
uma apreciação global de uma distribuição de frequências dada em tabela ou
em gráfico requer cálculo de alguns parâmetros estatísticos. Assim, as medidas
de tendência central constituem o primeiro grupo de medidas que permitem
fazer uma apreciação global sobre uma determinada distribuição de
frequências. Quer dizer:
As medidas de tendência central são valores da variável, utilizados para
caracterizar a população em estudo, através dos seus valores centrais, entre
os quais: a média, a mediana e a moda.
Assim, as medidas de tendência central são:
 Médias;
 Mediana;
 Moda.
Entre as médias podemos distinguir:
o Média aritmética;
o Média geométrica;
o Média harmónica
Atendendo a especificidade do campo de aplicação dos conteúdos que
abordamos nesta brochura, que se justifica pela pouca aplicabilidade das

Elaborado por Maquiesse Pembele 41


médias geométrica e harmónica em problemas da educação, no tocante as
médias apenas falaremos da média aritmética.

4.1- Média aritmética ( X )


Importa antes realçar que a quantidade de dados duma distribuição de
frequências nem sempre é igual à quantidade de valores que a variável em
estudo assume durante a totalidade das observações, (pois casos há em que o
número de dados é exactamente igual à quantidade de valores distintos que a
variável manifesta ao longo das observações e há também casos em que o
número de dados é maior que a quantidade de valores distintos assumidos
pela variável).
*Quando o número de dados é exactamente igual à quantidade de valores
distintos assumidos pela variável em estudo durante as observações, resulta
obter um conjunto de dados isolados (quer dizer não existe nenhum valor
repetido). Isto é, resultado de uma amostragem sem reposição.
Exemplo: 2,4,6,7,8,9,15,20,13,17,16,14,12
*Quando o número de dados é maior que a quantidade de valores distintos
assumidos pela variável em estudo durante as observações, resulta um
conjunto de dados ponderados (quer dizer alguns valores são repetidos). Isto
é, resultado de uma amostragem com reposição.
Exemplo: 12,14,16,17,15,9,15,12,13,17,16,14,12, 13, 15, 13, 12, 17, 15, 9
Neste último caso estão também inclusos os dados agrupados em classes.
Desta constatação resulta que a média aritmética possa ser simples,
ponderada ou classificada.

4.1.1-Definição da média aritmética


Definição: Sejam x1 , x 2 , x 3 ,..., x n os distintos valores assumidos pela variável
x em n observações, chama-se média aritmética da variável x (ou valor médio
de x) o quociente da soma de todos estes valores por n, e denota-se por X .
Em outras palavras, podemos dizer que a média aritmética de um conjunto de
valores é o valor real igual à soma destes valores dividida pela quantidade de
valores que formam tal conjunto.

4.1.2- Fórmula de cálculo da média aritmética

Elaborado por Maquiesse Pembele 42


Quando se quer calcular a média aritmética deve ter-se em conta se os dados
são isolados, se são ponderados ou se são agrupados em classes. Deste
modo distinguem-se três situações seguintes:
1ª situação: Os dados são isolados
Se os dados dos quais se pretende calcular a média aritmética (ou valor médio)
são isolados, o cálculo é feito através da definição. Assim, em virtude da
definição da média aritmética apresentada em 4.1.1.1, temos que para calcular
a média aritmética de dados isolados:
n
1º) Somar todos os valores. Isto é, x1  x 2  x3  ...  x n   xi
i 1

2º) Dividir a soma por n. Isto é, x1  x 2  x3  ...  xn x i


 i 1

n n
Daqui obtemos a fórmula de cálculo da média aritmética para dados isolados
que é:
n

x  x  x  ...  xn 
xi
X 1 2 3  i1
n n
A média aritmética obtida de dados isolados denomina-se média simples.

EXEMPLOS DE APLICAÇÃO DE CÁLCULO E INTERPRETAÇÃO (INSERIR)

2ª situação: Os dados são ponderados


Exemplo: Para calcular a média aritmética dos dados apresentados no
exemplo de dados ponderados da página anterior, tratando-os como se fossem
isolados, pela definição da média aritmética temos:
12  14  16  17  15  9  15  12  13  17  16  14  12  13  15  13  12
X  
20

17  15  9

20
Claramente observamos existência de valores repetidos nesta expressão. Este
facto permite-nos reduzir a extensão desta expressão, basta aplicarmos em
simultâneo, as propriedades comutativa e associativa da adição e em seguida
transformar as somas de parcelas iguais em produtos. Aplicando o raciocínio
aqui descrito obtemos:

Elaborado por Maquiesse Pembele 43


(12  12  12  12)  (14  14)  (16  16)  (17  17  17)  (15  15  15  15)
X  
20

(9  9)  (13  13  13)

20
4  12  2  14  2  16  3  17  4  15  2  9  3  13
X 
20
Desta última expressão temos 20 dados distribuídos em sete valores ( xi ): 12,

14, 16, 17, 15, 9 e 13 com frequências ( f i ) : 4, 2, 2, 3, 4, 2 e 3


respectivamente. Deste modo, utilizando a notação simbólica temos:
k

 f i  xi 
f1  x1  f 2  x2  ...  f k  x k
X i 1

n n
k
f i  xi f1  x1  f 2  x 2  ...  f k  x k
Ou X    Fórmula do cálculo da média
i 1 n n
aritmética para dados ponderados.
A média aritmética dos dados ponderados denomina-se média ponderada.
Nota: Quando os dados são numerosos e as vezes mesmo sendo poucos, o
desenvolvimento dos somatórios pela substituição dos valores e suas
respectivas frequências pode aumentar os riscos de cometer erros no processo
de cálculo. Por esta razão, achamos que realizar os cálculos auxiliares na
tabela de distribuição de frequências pode minimizar este risco, procedendo de
seguinte maneira:
1º) Construir a tabela de distribuição de frequência absoluta simples,
observando todos os cuidados mencionados no capítulo anterior sobre o
assunto;
2º) Calcular o valor de n pela soma das frequências absolutas simples e

verificar o cumprimento da igualdade n   f i ;


3º) Abrir na tabela uma coluna onde serão colocados os produtos parciais de
cada valor ( xi ) da variável pela respectiva frequência ( Erro! Não é possível criar
objectos a partir de códigos de campo de edição.). Quer dizer, produtos da forma (
f i  xi );

4º) Calcular a soma dos produtos obtidos no 3º passo. Quer dizer achar

Elaborado por Maquiesse Pembele 44


 f i  xi  ;

5º) Dividir  f i  xi  por n.


A ilustração do procedimento acima descrito aplicado ao exemplo anterior
resulta a tabela seguinte:
xi fi f i  xi
9 2 18
12 4 48
13 3 39
14 2 28
15 4 60
16 2 32
17 3 51
n   f i  20  f i  xi   276

E, finalmente temos X   f i  xi 

276
 13,8
n 20

3ª Situação: Os dados são agrupados em classes


É fácil notar que em dados isolados bem como em dados ponderados cada
valor é representante de si próprio. Mas em dados agrupados em classes
podemos observar claramente que cada classe é um conjunto de vários valores
pertencentes ao intervalo real que a limita. Assim, atendendo a diversidade de
valores possíveis numa classe, cada uma delas será representado pelo valor
chamado ponto médio da classe, que é o valor característico, centro, ou
marca da classe, denotado por PM i , cujo valor numérico é a média aritmética

li  Li
dos respectivos limites PM i  2
. Seguidamente, a tabela inicial (de
2
dados agrupados em classes) será reduzida à tabela de dados ponderados na

li  Li
qual se tomará xi  PM i  . E finalmente, utilizando a fórmula da média
2
ponderada e substituindo nela xi por PM i obtém-se a fórmula da média
aritmética para os dados agrupados em classes que é

X 
f i  PM i
ou X   f i  PM i 
n n

2
Ver agrupamento de dados em classes

Elaborado por Maquiesse Pembele 45


Observando a expressão final da fórmula do cálculo da média aritmética para
dados agrupados em classes podemos afirmar que a média aritmética dos
dados agrupados em classes é igual a média ponderada dos pontos médios
das classes.
A média aritmética obtida de dados agrupados em classes denomina-se média
classificada.
Exemplo: Calcule e interprete a média aritmética dos dados da tabela a seguir:
SALÁRIO DOS TRABALHADORES DA FIRMA KR, EM USD
Salário em intervalos Número de trabalhadores
li  Li fi
280  320 8
320  360 7
360  400 6
400  440 7
440  480 9
480  520 3
Resolução:
SALÁRIO DOS TRABALHADORES DA FIRMA KR, EM USD
li  Li fi PM i f i  PM i
280  320 8 300 2400
320  360 7 340 2380
360  400 6 380 2280
400  440 7 420 2940
440  480 9 460 4140
480  520 3 500 1500
n  40 ( f i  PM i )  15640

X 
 f i  PM i 

15640
 391USD
n 40
Interpretação: Cada trabalhador da firma KR aufere em média mensal um
salário de 391 USD (ou, o salário médio mensal dos trabalhadores da firma KR
é de 391 USD caca).
A avaliação pela média aritmética geral não é usual visto que a média
aritmética é bastante influenciada pelos valores extremos. Por isso é que a
avaliação é baseada em médias por disciplina. Para evidenciar este facto
vamos supor que um aluno com 8 disciplinas curriculares tenha obtido as
seguintes médias finais por disciplina: 7, 14, 6, 5, 16, 17, 17, 5. A média geral
destas classificações será

Elaborado por Maquiesse Pembele 46


7  14  6  5  16  17  17  5 87
X    10,88
8 8
Podemos para esta situação verificar que a média geral satisfaz a condição de
aprovação porque representa 54,4% da média geral máxima. Mas apesar disso
o número de negativas obtidas em relação ao número de cadeiras é
acentuado.
4.2- Mediana (Mdn)
Definição: Chama-se mediana ao valor da variável que ocupa a posição
central no rol (ou o valor da variável que divide o rol em duas partes iguais).
Se o rol possuir um número par de valores a definição da mediana pode ser
adaptada como média aritmética dos dois valores centrais.
Percentualmente, a mediana representa 50% do rol ou da distribuição. Mas
como este ocupa a posição central o seu valor (valor mediano) representa o
valor máximo dos 50% a sua esquerda e valor mínimo dos outros 50% a sua
direita.
4.2.1- Fórmula de cálculo da mediana
4.2.1.1- Cálculo da mediana para dados não agrupados em classes
Para o cálculo da mediana de dados não agrupados em classes podemos
distinguir duas situações seguintes:
1ª Situação: O valor de n é ímpar;
2ª Situação: O valor de n é par.
Para a situação em que o valor de n é ímpar utiliza-se o procedimento
seguinte:
1º) Ordenar os dados (caso não estejam);
2º) Determinar a posição central (posição da mediana no rol ou na distribuição),

n 1
através da relação i  ;
2
n 1
3º) Identificar o valor que ocupa a posição i  no rol ou na distribuição,
2

x
através das fa i  , isto é n21 ;

Mdn  x n 1
4º) Determinar o valor da mediana sabendo que 2

Se o valor de n é par o valor da mediana obtém-se aplicando sucessivamente


os seguintes passos:

Elaborado por Maquiesse Pembele 47


1º) Ordenar os dados (caso não estejam);
n
2º) Determinar as duas posições centrais definidas respectivamente por i1 
2

n2
e i2  , visto existirem para esta situação dois valores centrais;
2
n n2
3º) Identificar os valores que ocupam as posições i1  e i2  no rol ou
2 2

x x
na distribuição, através das fai  , isto é n2 e n 2 2 ;

x n  x n2
4º) Determinar o valor da mediana sabendo que Mdn  2 2 , é a média
2
aritmética dos dois valores centrais.
Exemplo: Calcule e interprete a mediana dos dados das tabelas a seguir:
a)
LUCRO DOS AUTOMÓVEIS VENDIDOS PELA FIRMA GAMA
DURANTE O ANO DE 2007,EM USD
Lucro unitário Quantidade fa i  Ordem
1234 11 11 1-11
1245 12 23 12-23
1320 9 32 24-32
1857 10 42 33-42
2358 15 57 42-57
2850 20 77 58-77
3450 12 89 78-89

Como n é ímpar, a distribuição tem um único valor central ocupando a posição

n  1 89  1 90
i    45
2 2 2
Mdn  x n 1  x 45  2358USD
2

Interpretação: O lucro máximo (ou mínimo) do volume de vendas da firma


Gama em 2007 foi de 2358 USD
b) Resultados da 1º prova parcelar de informática da 10ª RX
xi fi fa i  Ordem
9 2 2 1-2
12 4 6 3-6
13 3 9 7-9
14 2 11 10-11

Elaborado por Maquiesse Pembele 48


15 4 15 12-15
16 8 23 16-23
17 3 26 24-26
n   f i  26

Como n é par, a distribuição tem dois valores centrais ocupando

n 26 n  2 28
respectivamente as posições: i1    13 e i2    14 .
2 2 2 2
Pela tabela extraímos os valores x13  15 e x14  14 .
x n  x n 2
Finalmente, temos Mdn  x13  x14 15  15
2 2
   15
2 2 2
Interpretação: 50% dos alunos da 10ª RX obtiveram no máximo 15 valores na
1ª prova parcelar de Informática.

4.2.1.2- Cálculo da mediana para dados agrupados em classes


Para calcular a mediana de dados agrupados em classes:
n
1º) Determinar a posição da mediana, utilizando a relação i  , n ;
2
2º) Identificar a classe mediana (localizar a mediana na tabela de distribuição)
através da fai  ;
3º) Calcular o valor da mediana pela fórmula
n
 fa  ant
Mdn  li  2 h
fi

Na qual:
l i - é o limite inferior da classe mediana;

n
- é a posição da Mediana na distribuição;
2
fa  ant é a frequência absoluta acumulada descendente da classe
anterior à classe mediana;
f i é a frequência absoluta simples da classe mediana;

h é a amplitude do intervalo da classe mediana.


Denomina-se classe mediana a classe da distribuição a que pertence o valor
da mediana.

Elaborado por Maquiesse Pembele 49


Nota: Após o cálculo da mediana deve sempre verificar se o valor encontrado
pertence ao intervalo correspondente à classe mediana.
Exemplo: Calcule e interprete a mediana dos dados da seguinte tabela:

SALÁRIO DOS TRABALHADORES DA FIRMA KR, EM USD


li  Li fi
280  320 8
320  360 7
360  400 6
400  440 7
440  480 9
480  520 3
n  40

Resolução:
li  Li fi fa i  Ordem
280  320 8 8 1-8
320  360 7 15 9-15
360  400 6 21 16-21
400  440 7 28 22-28
440  480 9 37 29-37
480  520 3 40 38-40
n  40
n 40
i   20
2 2
Pela ordem definida através das frequências acumuladas na tabela, podemos
observar que a mediana pertence à 3ª classe da distribuição. Daqui,
implementando a fórmula
n
 fa  ant
Mdn  li  2 h
fi
n
Com l i  360;  20; fa  ant  15; f i  6 e h  40 , temos:
2
20  15 5  40
Mdn  360   40  360   393,3 USD
6 6
Interpretação: 50% dos trabalhadores da firma RK, auferem no máximo 393,3
USD mensais.
Observação 2: Na avaliação global quando se utiliza a mediana quanto maior
for o valor da mediana em relação ao rendimento máximo, melhor será o nível
de rendimento alcançado. Isto leva-nos a crer que se o valor da mediana

Elaborado por Maquiesse Pembele 50


representar a metade do rendimento máximo então estamos em situação de
equilíbrio entre o negativismo e o positivismo. Como a tendência da gestão em
todas as esferas é optimização, então estaríamos em melhores condições de
rendimento quando o valor da mediana fosse superior que a metade do
rendimento máximo.

4.3- Moda ( Mo )
Definição: Chama-se moda o valor da variável predominante, mais frequente,
ou mais observado num conjunto de dados. Ainda podemos definir a moda
como valor da variável que corresponde à maior frequência absoluta simples.
Uma distribuição estatística, quanto à quantidade de modas pode ser:
 Amodal: Uma distribuição que não tem moda. Quer dizer, as
frequências absolutas simples são todas iguais;
 Unimodal: Uma distribuição que tem apenas uma moda. Quer dizer, a
maior frequência absoluta simples está associada a um único valor da
variável ou a uma única classe em caso de dados agrupados em
classes;
 Bimodal: Uma distribuição que tem duas modas. Quer dizer, a maior
frequência absoluta simples está associada a dois valores distintos da
variável ou a duas classes distintas;
 Multimodal ou plurimodal: Uma distribuição que tem mais do que duas
modas.

4.3.1- Cálculo da moda


Para dados não agrupados em classes a moda não se calcula, determina-se
por definição, basta identificar o valor associado à maior frequência absoluta
simples.
Exemplo: Num convívio de 20 amigos a quantidade de canecas de fino consumido por
cada é
4 5 9 7 6 8 9 8 6 4
5 4 6 7 8 6 8 6 8 8
Determine e interprete a moda destes dados.
Resolução:

Elaborado por Maquiesse Pembele 51


Destes dados resulta a tabela de distribuição a seguir:

Quantidade de canecas de fino consumidos por 20 amigos


Qde de canecas de fino Nº de consumidores/Qde
4 3
5 2
6 5
7 2
8 6
9 2
 Pela observação da tabela, vimos que a maior frequência é 6 e está
associada ao valor 8. Lodo, a moda é igual a 8 canecas de fino.
 Interpretação: O consumo predominante entre os vinte amigos no
convívio é de 8 canecas de fino.
Para dados agrupados em classes distinguem-se quatro tipos de modas que
diferem um dos outros pelas designações, pelas fórmulas de cálculo e pelos
valores numéricos, geralmente. Assim nomeadamente temos:
a) Moda Bruta ( Mo B )
A moda bruta é o ponto médio da classe que apresenta maior frequência
absoluta simples. Assim, para o seu cálculo após identificação da classe de
maior frequência absoluta simples utiliza-se a fórmula
l i  Li
Mo B 
2
Onde l i , Li são respectivamente os limites inferior e superior da classe modal.
Denomina-se classe modal a classe a que pertence a maior frequência
absoluta simples, que é a classe que contém o valor modal (valor
predominante, valor mais frequente).
A maior frequência absoluta simples denomina-se frequência máxima ( f máx );
A frequência absoluta simples imediatamente anterior à f máx denomina-se

frequência anterior ( f ant );


A frequência imediatamente a seguir da f máx denomina-se frequência posterior
f post .
b) Moda de King ( Mo K )
Segundo King, a moda após identificação da classe modal pode ser calculada
pela fórmula:

Elaborado por Maquiesse Pembele 52


f post
Mo K  li  h
f post  f ant

Onde:
- l i é o limite inferior da classe modal;
- f post é a frequência absoluta simples da classe imediatamente a seguir
da classe modal;
- f ant é a frequência absoluta simples da classe imediatamente anterior
à classe modal;
- h é a amplitude do intervalo da classe modal.

c) Moda de Czuber ( MoC )


Segundo Czuber, a moda após identificação da classe modal pode ser
calculada pela fórmula:
1
MoC  li  h
1   2

Onde:
- l i é o limite inferior da classe modal;
- 1  f máx  f ant é a diferença entre a frequência absoluta simples da
classe modal e a frequência absoluta simples da classe imediatamente
anterior a ela;
-  2  f máx  f post é a diferença entre a frequência absoluta simples da
classe modal e a frequência absoluta simples da classe imediatamente a
seguir dela;
- h é a amplitude do intervalo da classe modal.

d) Moda de Pearson ( Mo P )
Segundo Pearson, conhecidos os valores da mediana e da média aritmética, a
moda pode ser calculada pela fórmula:
Mo P  3  Mdn  2  X

Exemplo: Calcule e interprete as quatro modas dos dados da seguinte tabela:

Elaborado por Maquiesse Pembele 53


SALÁRIO DOS TRABALHADORES DA FIRMA KR, EM USD
li  Li fi
280  8
320
320  7
360
360  6
400
400  7
440
440  9
480
480  3
520
Resolução: A maior frequência absoluta simples é 9, e pertence à 5ª classe.
Logo, a classe modal é a 5ª.
li  Li 440  480 920
* MoB     460 USD
2 2 2
Interpretação: O salário mensal predominante dos trabalhadores da firma Rk é
de 460 USD
f post 3
* Mo K  l i   h  440   40  452 USD
f post  f ant 3 7

Interpretação: O salário mensal predominante dos trabalhadores da firma Rk é


de 452 USD
1 97 2
* MoC  l i   h  440   40  440   40  450
1   2 (9  7)  (9  3) 26

Interpretação: O salário predominante dos trabalhadores da firma Rk é de 450


USD mensais
* Mo P  3  Mdn  2  X  3  393,3  2  391  397,9
Interpretação: O salário predominante dos trabalhadores da firma Rk é de
497,5 USD mensais

CAPÍTULO VI
MEDIDAS DE DISPERSÃO OU DE VARIABILIDADE

Elaborado por Maquiesse Pembele 54


As vezes surgem-nos situações em que pretendemos apurar o aluno mais
regular. É certo que quase estamos sempre preocupados com o melhor aluno
que para nós é aquele que apresenta notas altas. Mas esta classe de alunos
de vez enquanto apresentam-se bem em algumas disciplinas curriculares e mal
nas outras. Na questão da boa média no capítulo IV destacamos a insuficiência
da média geral no sistema de avaliação. O conceito mais regular ou menos
disperso pode melhor aclarar esta situação, visto que aqui é considerado mais
regular aquele aluno cujo intervalo entre as notas de todas as disciplinas é
muito pequeno.
Também há momentos que comparando duas turmas em termos de
aproveitamento escolar podemos concluir que existe a mesma percentagem de
aproveitamento, mas apesar disso é possível verificar qual delas é mais regular
que a outra. E, mesmo entre dois alunos que apresentam a mesma geral ainda
é possível apurar o mais regular. Este apuramento só se torna possível
utilizando medidas de dispersão adequadas.
As medidas de dispersão subdividem-se em dois grupos, nomeadamente:
 Medidas de dispersão absoluta;
 Medidas de dispersão relativa.
4.1- Medidas de dispersão absoluta
É o grupo das medidas de dispersão utilizadas para averiguar a questão da
regularidade entre duas ou mais variáveis quando estas apresentam médias
iguais. Entre as medidas de dispersão absoluta temos:
- A amplitude total ( At ) ;
- O desvio médio absoluto (DMA) ;
- A variância ( 2 ) ;
- O desvio padrão ( ) .
4.1.1- A amplitude total ( At )
É a diferença entre o valor máximo e o valor mínimo dos dados observados.
Isto é:
At  Vmáx  Vmín 3

4.1.2- O desvio médio absoluto (DMA)

3
Ver o 2º passo do agrupamento de dados em classes

Elaborado por Maquiesse Pembele 55


Definição: Chama-se desvio (D ) em relação à média aritmética a diferença
entre cada valor observado ( xi ) e a média aritmética das observações (X ) .

D  xi  X

É importante lembrar aqui que xi  X  X  xi excepto casos em que a variável


assume um único valor ao longo das observações.
Nota: Se os dados são agrupados em classes o desvio (D ) é a diferença
entre cada ponto médio ( PM i ) e a média aritmética da distribuição. Isto é:
D  PM i  X

Definição: Chama-se desvio absoluto ( DA ) o valor absoluto da diferença


entre cada valor observado ( xi ) e a média aritmética das observações (X ) .

Em outras palavras, o desvio absoluto é o valor absoluto do desvio. Isto é:


DA  xi  X para dados não agrupados em classes
ou DA  PM i  X para dados agrupados em classes
Definição: Chama-se desvio médio absoluto (DMA) o valor médio ou a média
aritmética dos desvios absolutos.
Deste modo, atendendo a definição da média aritmética, o valor do desvio
médio absoluto será calculado pela fórmula:

DMA 
x i X
, para dados isolados;
n

DMA 
 f i  xi  X , para dados ponderados;
n

DMA 
 f i  PM i  X , para dados agrupados em classes.
n

4.1.2.1-Passos a marcar para o cálculo do desvio médio absoluto para:


a) Dados isolados

1º) Calcular a média aritmética X  x i


;
n
2º) Calcular os desvios D  xi  X ;
3º) Determinar os valores absolutos dos desvios, isto é DA  xi  X ;

Elaborado por Maquiesse Pembele 56


4º) Calcular a soma dos desvios absolutos  xi  X ;
5º) Dividir a soma dos desvios absolutos pelo volume de observações. Isto é

DMA 
x i X
.
n
b) Dados ponderados

1º) Calcular a média aritmética X  ( f i  xi )


;
n
2º) Calcular os desvios D  xi  X ;
3º) Determinar os valores absolutos dos desvios, isto é DA  xi  X ;
4º) Calcular os produtos dos desvios absolutos por frequências absolutas
simples correspondentes. Isto é, produtos da forma f i  xi  X ;
5º) Calcular a soma dos produtos encontrados no 4º passo. Isto é

 f i  xi  X ;

DMA 
 f i  xi  X 
6º) Dividir a soma encontrada no 5º passo por n. Isto é n .
d) Dados agrupados em classes

1º) Calcular a média aritmética X  ( f i  PM i )


;
n
2º) Calcular os desvios D  PM i  X ;
3º) Determinar os valores absolutos dos desvios, isto é DA  PM i  X ;
4º) Calcular os produtos dos desvios absolutos por frequências absolutas
simples correspondentes. Isto é, produtos da forma f i  PM i  X ;
5º) Calcular a soma dos produtos encontrados no 4º passo. Isto é:

 f i  PM i  X ;

DMA 
 f i  PM i  X 
6º) Dividir a soma encontrada no 5º passo por n. Isto é n .

4.1.3- A variância (  )
2

Definição: Chama-se desvio quadrático o quadrado de um desvio. Isto é:


Dq  ( xi  X ) 2 para dados não agrupados em classes

E Dq  ( PM i  X ) 2 para dados agrupados em classes.

Elaborado por Maquiesse Pembele 57


Definição: Chama-se variância o valor médio ou média aritmética dos desvios
quadráticos de uma distribuição.
Atendendo a definição da média aritmética, o valor da variância será calculado
pela fórmula:

2 
 (x i  X )2
, para dados isolados;
n

 2

 f i  ( xi  X ) 2  , para dados ponderados;
n

 2

 f i  ( PM i  X ) 2  , para dados agrupados em classes.
n
4.1.3.1- Passos a marcar para o cálculo da variância para:
a) Dados isolados

1º) Calcular a média aritmética X  x i


;
n
2º) Calcular os desvios D  xi  X ;
3º) Calcular os desvios quadráticos. Isto é Dq  ( xi  X ) ;
2

4º) Calcular a soma dos desvios quadráticos  (x i  X )2 ;

5º) Dividir a soma dos desvios quadráticos pelo volume de observações. Isto é

 2

 (x i  X )2
.
n
b) Dados ponderados

1º) Calcular a média aritmética X  ( f i  xi )


;
n
2º) Calcular os desvios D  xi  X ;
3º) Calcular os desvios quadráticos. Isto é Dq  ( xi  X ) 2 ;
4º) Calcular os produtos dos desvios quadráticos com frequências absolutas

simples correspondentes. Isto é, produtos da forma f i  ( xi  X ) 2 ;


5º) Calcular a soma dos produtos encontrados no 4º passo. Isto é

 f  x  X ;
2
i i

6º) Dividir a soma encontrada no 5º passo por n. Isto é  2   f i  ( xi  X ) 2 .


n
C) Dados agrupados em classes

Elaborado por Maquiesse Pembele 58


1º) Calcular a média aritmética X  ( f i  PM i )
;
n
2º) Calcular os desvios D  PM i  X ;
3º) Calcular os desvios quadráticos. Isto é Dq  ( PM i  X ) 2 ;
4º) Calcular os produtos dos desvios quadráticos com frequências absolutas

simples correspondentes. Isto é, produtos da forma f i  ( PM i  X ) 2 ;


5º) Calcular a soma dos produtos encontrados no 4º passo. Isto é

  f   PM  X ;
2
i i

6º) Dividir a soma encontrada no 5º passo por n. Isto é  2   f i  ( PM i  X ) 2 .


n

4.1.3.2- Outra fórmula do cálculo do valor da variância


O valor da variância pode também calcular-se com o emprego da fórmula
 2  X 2 X 
2

Onde:
2
* X é a média quadrática ou valor médio dos quadrados dos valores (ou dos
quadrados dos pontos médios em caso de dados agrupados em classes), cujo
valor numérico se obtém através da fórmula:

x
2
i
X 2
 , para dados isolados;
n

( f
2
i  xi )
X 2
 , para dados ponderados;
n

 ( f PM
2
)
 ( f i  PM i ) X 2 
2 i i
X2  n para dados agrupados em classes.
n

*  X  é o quadrado do valor médio dos valores (ou dos pontos médios


2

em caso de dados agrupados em classes), cujo valor numérico é igual ao


quadrado da média aritmética4.

Nota: lembremo-nos que em geral X   X    X   X


2 2 2 2

4.1.4- O desvio padrão (  )


4
Ver cálculo da média aritmética em 2.1.2

Elaborado por Maquiesse Pembele 59


Definição: Chama-se desvio padrão a raiz quadrada positiva da variância, ou a
raiz quadrada positiva da média aritmética dos desvios quadráticos.
O cálculo do valor do desvio padrão passa necessariamente pelo cálculo da
variância. Por isso, para calcular o valor do desvio padrão de uma determinada
distribuição basta calcular o valor da respectiva variância e em virtude da
definição do desvio calcular no fim a raiz quadrada positiva desta.
  2

4.2- Medidas de dispersão relativa


É o grupo das medidas de dispersão utilizadas para averiguar a questão da
regularidade entre duas ou mais variáveis quando estas apresentam médias
diferentes.
Coeficiente de variação de Pearson CVP - é a razão entre o desvio padrão e a
média aritmética de uma distribuição. Quer dizer

CVP 
X
Cuja conversão percentual se obtém através da relação

CVP %   100
X
O coeficiente de variação permite expressar a variabilidade dos dados sem
influência da ordem de grandezas das variáveis em estudo.
No contexto geral um conjunto de dados é considerado razoavelmente
homogéneo quando CV P  0,25  CV P %  25% . Assim, quanto menor for o
valor do coeficiente de variação maior homogeneidade terá o conjunto de
dados.
Exemplo: Para cada tabela a seguir qual das variáveis é mais regular?

1º) Resultados finais do André e da Madalena


L.Port. Mat. Geog. Hist. C.Nat.
André 13 12 14 12 14
Madalena 10 11 15 16 13
Resolução:
*Cálculo das médias:
13  2  12  2  14 65 10  11  15  16  14 65
X André    13 e X Madalena    13
5 5 5 5
*Comparação das médias: X André  X Madalena

Elaborado por Maquiesse Pembele 60


Como as médias são iguais, para a averiguação da questão utilizamos medidas
de dispersão absoluta, começando pela mais fácil em termos de cálculos.
*Cálculo das amplitudes totais: At ( André )  14  12  2 e At ( Mad .)  16  10  6
Comparando as amplitudes totais observamos que At ( André )  At ( Mad .) . Logo o
André é mais regular que a Madalena. Quer dizer a distribuição dos resultados
do André é mais homogéneo que a dos resultados da Madalena.
2º) Gastos semanais Miguel e António na cantina cantina escolar de 23 à 27 de Junho,
em Usd
Dia23 Dia24 Dia 25 Dia 26 Dia 27
Miguel 14 10 14 13 14
António 11 11 15 13 15

Resolução:
*Cálculo das médias:
3  14  10  13 65 2  11  2  15  13 65
X Miguel    13 e X António    13
5 5 5 5
*Comparação das médias: X Miguel  X António

Como as médias são iguais, para a averiguação da questão utilizamos medidas


de dispersão absoluta, começando pela mais fácil em termos de cálculos.
*Cálculo das amplitudes totais: At ( Mig .)  14  10  4 e At ( António)  15  11  4
Comparando as amplitudes totais observamos que At ( Mig .)  At ( Ant .)
Como através das amplitudes totais não conseguimos apurar a diferença,
vamos sucessivamente mudar de medidas de dispersão absoluta até encontrar
a diferença entre as duas distribuições. Vamos assim calcular os DMA.
Miguel
xi fi xi  X xi  X f i  xi  X

10 1 -3 3 3
13 1 0 0 0
14 3 1 1 3
f i n5 ( f i  xi  X )  6

DMAMig . 
 f i  xi  X   6  1,2
n 5
António
xi fi xi  X xi  X f i  xi  X

11 2 -2 2 4

Elaborado por Maquiesse Pembele 61


13 1 0 0 0
15 2 2 2 4
f i n5 ( f i  x i  X )  8

DMAAnt . 
 f i  xi  X   8  1,6
n 5
Comparando temos DMAMig .  DMAAnt . . Logo, O Miguel foi o mais regular que o
António em termos de gastos, nos dias indicados.

3) Gastos mensais em combustível do Hamilton e do Dino, por semana, no mês de


Fevereiro de 2007, em Usd
1ª semana 2ª semana 3ª semana 4ª semana
Hamilto 30 25 20 25
n
Dino 35 40 25 20

Resolução:
*Cálculo das médias:
30  2  25  20 100 35  40  25  20 120
X Ham.    25 e X Dino    30
4 4 4 4
*Comparação das médias: X Ham.  X Dino
Como as médias são diferentes, para a averiguação da questão utilizamos o
coeficiente de variação.
Para o Hamilton os dados são ponderados. Deste modo usamos as fórmulas

 f x  X 
2
 2 e i i
CV P   2

X X n
Hamilton
xi fi xi  X ( xi  X ) 2 f i  ( xi  X ) 2
20 1 -5 25 25
25 2 0 0 0
30 1 5 25 25
n4  
f i  ( xi  X ) 2  50

 f  x  X   50  12,5
2
i i
 2
Ham. 
n 4

Elaborado por Maquiesse Pembele 62


 2 am 12,5
CV am    0,141
X am. 25

Para o Dino os dados são isolados. Deste modo usamos as fórmulas

x  X
2
 2 e 2  i
CV P  
X X n
Dino
xi xi  X ( xi  X ) 2
20 -10 100
25 -5 25
35 5 25
40 10 100
 (x i  X ) 2  250

x  X
2
i 250
 2
Dino    62,5
n 4

 2 Dino 62,5
CVDino    0,264
X Dino 30
Pelos resultados dos coeficientes de variação podemos concluir que o Hamilton
foi o mais regular que o Dino, em gastos de combustível.
Nota: Utilizando a segunda fórmula da variância para o exemplo anterior
temos:

Para o Hamilton usamos as fórmulas  2  X 2 X  ,


2
X 
( f i  xi )
e
n

( f
2
i  xi )
X 2
 , porque os dados são ponderados. Deste modo, temos:
n
xi fi f i  xi xi
2
f i  xi
2

20 1 20 400 400
25 2 50 625 1250
30 1 30 900 900
n4 ( f i  xi )  100 ( f i  xi )  2550

X 
( f i  xi )

100
 25 ; X 2 
( f i
2
 xi )

2550
 637,5
n 4 n 4
 2  X 2   X   637,5  25 2  637,5  625  12,5
2

Elaborado por Maquiesse Pembele 63


x x
2

X  , X 
2 i i
No caso do Dino usamos as fórmulas   X 2 2
e X 2
 .
n n
Deste modo, temos:
xi xi
2

20 400
25 625
35 1225
40 1600
x i  120
 xi 2  3850
x x
2
i 100 i 3850
X    25 ; X 2    962,5
n 4 n 4
 2  X 2   X   962,5  30 2  962,5  900  62,5
2

Elaborado por Maquiesse Pembele 64


CAPÍTULO VII
TEORIA DE CORRELAÇÃO E REGRESSÃO

7.1- Teoria de correlação


A teoria de correlação utiliza-se para determinar o grau de associação entre
duas variáveis ou o grau de influência que uma determinada variável exerce
sobre a outra ou que sofre da outra (caso exista alguma relação de
dependência entre elas). Se realmente existir alguma dependência de uma à
outra, a variável que exerce influência sobre a outra denomina-se variável
independente enquanto a que sofre influência da outra, variável dependente.
Para determinar o grau de associação entre duas variáveis utiliza-se o
parâmetro estatístico denominado coeficiente de correlação de Pearson
denotado por rP que assume valores no intervalo   1;1 e que se calculam
através da fórmula:

n ( xi  yi )    xi     yi 
rP 
n  x i
2 2

   xi   n yi    yi  
2 2

Numa classificação global distinguem-se três tipos de correlação seguintes:
a) Correlação positiva
b) Correlação negativa
c) Correlação nula
Entre duas variáveis existe uma correlação positiva quando rP  0 . Isto
acontece quando os comportamentos das duas variáveis alteram no mesmo
sentido ( ou ambos crescem, ou ambos decrescem)
Entre duas variáveis existe uma correlação negativa quando rP  0 . Isto
acontece quando os comportamentos das duas variáveis alteram em sentidos
contrários (Uma delas cresce enquanto a outra decresce e vice-versa)
A classificação pormenorizada da correlação depende do valor obtido do
coeficiente. Assim, se:

Elaborado por Maquiesse Pembele 65


 rP  1 , não por aproximação, então existe uma correlação positiva

perfeita;
 0,5  rP  1 , então existe uma correlação positiva forte;

 0  rP  0,5 , então existe uma correlação positiva fraca;

 rP  0 , não por aproximação, então existe uma correlação nula. Quer

dizer ausência de relação;


  0,5  rP  0 , então existe uma correlação negativa fraca;

  1  rP  0,5 , então existe uma correlação negativa forte;

 rP  1 , não por aproximação, então existe uma correlação negativa

perfeita;

7.2- Teoria de regressão


A teoria de regressão utiliza-se na realização de previsões sobre o
comportamento de uma variável dependente, desde que seja conhecido o
comportamento de uma variável(independente) com a qual está claramente
relacionada.
O modelo de regressão linear está associado a uma equação da forma:
y  mx  b  f

, na qual y é a variável dependente, m é o declive da recta de regressão, x é


a variável independente, b é a ordenada do ponto de intersecção da recta com
o eixo Oy e f , o conjunto de todos os factores imprevisíveis.
Como não é possível determinar os factores imprevisíveis na sua totalidade, na
prática, os estudos são realizados desprezando estes factores, o que faz com
que o modelo de regressão linear se reduza á equação:
y  mx  b

cujo gráfico passa pelos pontos (0, b) e X, Y .


Para obter a equação da recta de regressão, basta calcular o valor de m e de
b , e substituí-los na equação:
y  mx  b

O valor de m obtém-se pela fórmula:

n    xi  yi    xi   yi
m
n   xi    xi 
2 2

Elaborado por Maquiesse Pembele 66


E, de b pela fórmula:
b  y m x

Elaborado por Maquiesse Pembele 67

Você também pode gostar