Escolar Documentos
Profissional Documentos
Cultura Documentos
Estatística Descritiva
Introdução
Geralmente quando se faz um estudo ou se recolhe uma informação, ela aparece
duma maneira desorganizada e portanto, sem nenhum significado. Para atribuir
significado a esta informação é necessário organizá-la e resumí-la. Este é o grande
propósito desta Unidade. Construir tabelas, gráficos e calcular medidas
estatísticas como a média, mediana e outras.
Estatística
Etimologicamente, a palavra estatística vem do latim STATUS, que significa
ESTADO, uma vez que na antiguidade, tal como hoje, o Estado fazia levantamentos
para obter informações sobre a população disponível para pagar impostos, a idade
dos jovens para irem para a guerra, etc. Hoje a Estatística serve não só ao Estado,
mas a todas as áreas. O político pode recorrer à estatística para avaliar a
possibilidade de vencer a eleição que se avizinha. O economista usa informação
sobre a procura e a oferta de produtos, taxas de desemprego e outras, para
calcular ou prever a inflação. Na saúde, dados sobre o estado de saúde de cidadãos
são continuamente recolhidos e analisados e a partir deles são evitados
alastramentos de epidemias. No campo da técnica vários componentes (por exemplo
lâmpadas, transístores) são fabricados e testados para determinar o seu tempo de
vida e definir planos de garantia aos consumidores.
População
Para conhecer de forma completa uma população é necessário analisar todos os seus
elementos, isto é, realizar um censo. Exceptuando casos em que a população tem
dimensão modesta e é acessível, raramente é possível analisar todos os elementos
da população por não se dispor de orçamento, de tempo, e até algumas vezes por a
observação ser destrutiva. Neste caso o estudo das características da população é
feito sobre um subconjunto da população que se chama Amostra. Os resultados da
amostra são depois usados para fazer estimativas sobre as características da
população. Este processo é chamado de inferência estatística.
A inferência estatística, ou estatística indutiva trata de técnicas que permitem
tirar conclusões ou tomar decisões sobre uma população a partir de evidências
apresentadas pelos dados numéricos relativos à população, ou a uma amostra dela
extraída.
O sucesso do estudo baseado na amostra depende grandemente da escolha desta.
Uma amostra mal escolhida pode conduzir a conclusões erradas. De um modo geral,
na escolha de uma amostra deve-se ter em conta os seguintes aspectos:
− Imparcialidade: Todos os elementos da população têm a mesma oportunidade de
fazer parte da amostra;
− Representatividade: A amostra deve conter qualitativamente todas as
características que a população possui.
− Tamanho: Deve ser suficientemente larga de modo que as características da
amostra se aproximem das características da população.
Em muitos estudos estatísticos usam-se amostras aleatórias.
Variável
Num estudo, parte-se de um conjunto a que se denomina população. Cada elemento
desse conjunto (unidade estatística) tem provavelmente muitas características.
Dependendo do objectivo do estudo, centra-se numa ou em mais características
deste. A essas características chamam-se variáveis do estudo.
Por exemplo no conjunto dos alunos de uma turma podem-se observar muitas
variáveis como: altura, cor dos olhos, última nota a matemática, distância de casa à
escola, nível social do aluno, número de irmãos, sexo, etc.
3
Bioestatística _ Manuel João Castigo
As variáveis observadas podem ser qualitativas (atributos ou nomes) ou
quantitativas (que indicam quantidade de alguma coisa). Por exemplo, das variáveis
acima, são qualitativas; o sexo, a cor dos olhos, e o nível social do aluno. São
quantitativas, a altura, a idade, a última nota a Matemática, a distância casa-escola
e o número de irmãos.
As variáveis qualitativas podem estar numa escala nominal (se não é possível
ordenar as diversas modalidades) ou ordinal (se há uma possibilidade de
ordenamento das diversas modalidades que a variável toma). Das variáveis
consideradas no exemplo 2, são qualitativas nominais, o sexo e a cor dos olhos. O
social é um exemplo de uma variável qualitativa ordinal.
Dependendo dos valores que as variáveis quantitativas tomam, estas classificam-
se em contínuas (quando podem assumir qualquer valor dentro de um intervalo
considerado) ou discretas (quando só assumem alguns valores dentro de um
intervalo considerado). A idade e o número de irmãos são exemplos de variáveis
discretas enquanto a distância casa - escola é uma variável contínua.
É hora de descontrair-se um pouco mudando de actividade. Pense agora num
conjunto de variáveis relacionadas com o seu dia a dia e resolva a tarefa seguinte.
Reflexão
Indique duas variáveis que sejam:
a) Quantitativas
b) Qualitativas
c) Discretas
d) Contínuas
e) Nominais
f) Ordinais
EXERCICIOS
c) Para um resumo dos dados para esta questão, faria mais sentido usar as
médias ou as percentagens?
Tabelas e gráficos
Introdução
Tabela de frequência
Já foi referido anteriormente que a estatística descritiva recorre à tabelas para
fazer sumários de dados. Um tipo de tabela comum é a chamada de tabela de
distribuição de frequências ou simplesmente tabela de frequência. Ilustra-se, por
meio de um exemplo, como construir uma tabela de frequência de dados simples
(não agrupados em classes).
5
Bioestatística _ Manuel João Castigo
Os seguintes dados representam o número de irmãos que cada estudante da turma
de AGE 1° ano da Universidade Pedagógica-delegação de Manica tem: 6, 3, 9, 4, 5,
6, 3, 2, 4, 10, 6, 2, 3, 4, 5, 8, 2, 1, 3, 6, 5, 5, 5, 8, 4, 6, 2, 4, 7, 5, 3.
Frequência absoluta
Pouco ou nada se pode dizer em relação ao numero de irmãos de cada estudante da
turma com
os dados dispostos desta maneira. Coloque os dados numa tabela em que
consideramos por um lado o valor observado ( 𝑥𝑖 ) e por outro, o número de vezes
que cada valor aparece repetido, também designado por frequência absoluta
simbolizada por fi .
Frequência relativa
𝑓𝑖 - frequência absoluta
𝑓𝑟 -Frequência relativa
n -Tamanho da amostra
𝑥𝑖 (n° de 𝑓𝑖 𝐹𝑖 𝑓𝑟 (%) 𝐹𝑟
irmãos)
1 1 1 3.22580645 3.22580645
2 4 5 12.9032258 16,1290322
3 5 10 16.1290323 32,2580645
4 5 15 16.1290323 48,3870968
5 6 21 19.3548387 67,7419355
6 5 26 16.1290323 83,8709678
7 1 27 3.22580645 87,0967743
8 2 29 6.4516129 93,54833872
9 1 30 3.22580645 96,7741936
10 1 31 3.22580645 100
Total (n) 31 - 100 -
Tabela frequências.
𝑓𝑖 - Frequência absoluta
𝐹𝑖 - Frequência absoluta acumulada
𝐹𝑟 - Frequência relativa acumulada
𝑓𝑟 -Frequência relativa
n -Tamanho da amostra
7
Bioestatística _ Manuel João Castigo
Gráfico de barras
O gráfico de barras constrói-se colocando no eixo horizontal (eixo das abcissas) os
valores observados e no eixo vertical (eixo das ordenadas) a frequência absoluta ou
relativa correspondente. Note que quanto maior for a frequência de uma
observação, maior será também a altura da barra correspondente.
fi
25
20
15
10
0
1 2 3 4 5 6 7 8 9 10
Xi
8
Bioestatística _ Manuel João Castigo
fr(%)
25
20
15
10
0
1 2 3 4 5 6 7 8 9 10 Xi
Gráfico circular
Como construir um gráfico circular usando os dados da tabela?
Dica
Sabes qual é o ângulo que uma circunferência representa e qual a medida desse
ângulo? O que tem a fazer é determinar que parte do círculo representa cada uma
das frequências de idade.
Para o caso de 2 irmãos a frequência é 4.
Usando a regra três simples segue:
31 (total) ― 360º (total)
4 ―x
360°x4
Donde se conclui que 𝑥 = 31 = 46,5°
Com ajuda dum compasso, trace uma circunferência de raio à sua escolha (Por
exemplo 5 cm). Una em seguida o centro da circunferência à curva, obtendo deste
modo o raio. Partindo deste raio meça 46,5º, com a ajuda de um transferidor.
Separe esta porção por meio de um raio. Esta é a parte do gráfico que representa
os estudantes com 4 irmãos. De maneira semelhante, determine a medida da parte
9
Bioestatística _ Manuel João Castigo
correspondente aos estudantes com 1 irmão, e, represente-os no círculo, de tal
forma que as duas porções sejam adjacentes. Continue desta forma até completar o
gráfico.
Exemplo:
O gráfico circular abaixo mostra as áreas correspondentes ao número de
estudantes do curso de AGE 1° ano com um certo número de irmãos. Os números
que estão no círculo representam o número de irmãos e a área por onde está cada
numero temos a quantidade de estudantes.
9 10 1
8 2
7
6 3
5 4
Para o nosso estudo, vamos trabalhar com a variável (altura) do estudantes dum
curso da UNIPÚNGUÈ, em que o número total de estudantes inquiridos n é 31>25.
Portanto, 𝑘 ≈ √31 ≈ 6 .
Portanto,
A=Xmax – Xmín (Amplitude Total=Valor Máximo – Valor Mínimo
A=1,87-1,5=0,37.
𝐴 0,37
𝑎= = = 0,06166 ≈ 0,062
6 6
Histograma
Considere mais uma classe adicional a esquerda [-25; 0[ e a direita [175; 200[
ambas com frequência zero e assinale nesta também o seu ponto médio. Una os
pontos médios das barras. O polígono obtido chama-se polígono de frequências.
Observe uma simulação do resultado final que obterá:
12
Bioestatística _ Manuel João Castigo
EXERCICIOS
Média aritmética ( 𝑥 ̅)
Para a aprendizagem deste tópico, siga o exemplo seguinte:
Exemplo 3
Suponha que durante a quadra festiva (última semana do ano e primeira semana do
novo ano), uma loja de prendas tenha registado os seguintes valores (em mil
meticais) na venda dos seus produtos:
9,5 8 7 10,5 8 5 8,5 10 8 11 9 6
Qual é neste caso o valor médio (média aritmética) das vendas da loja no referido
período?
Quando os dados são dispostos por ordem, torna-se possível localizar a mediana,
que é o ponto central da distribuição. Por isso, a mediana é encarada como uma
medida de tendência central que separa o conjunto de dados em duas partes
aproximadamente iguais, com aproximadamente 50% dos dados.
Suponha que durante a quadra festiva (última semana do ano e primeira semana do
novo ano), uma loja de prendas tenha registado os seguintes valores (em mil
meticais) na venda dos seus produtos:
No centro da distribuição dos dados das vendas aparecem dois valores. Isto está
acontecer porque o tamanho da amostra (12) é par. Portanto a mediana quando n é
par, será a média dos dois valores centrais:
8 + 8,5
𝑥̃ = = 8,25
2
Observe que neste caso, em que temos 12 observações a mediana resulta da soma
dos dados nas posições 6 e 7.
Exemplo:
Determine a mediana do seguinte conjunto de dados:
14 12 7 9 12 10 15 9 11
15
Bioestatística _ Manuel João Castigo
Conclui-se portanto, para casos em que n é par que a mediana é obtida
colocando os dados em ordem crescente e achando a média dos dados
𝒏 𝒏
centrais; cujas posições são 𝒆 + 𝟏.
𝟐 𝟐
No caso em que n é impar a mediana é o valor central depois de ordenar os
𝒏
dados. Neste caso a posição da mediana é 𝟐 + 𝟏
3. Moda
A moda é o valor mais frequente, mais típico ou mais comum numa distribuição. Por
exemplo, ao afirmarmos que há mais pessoas do sexo feminino em Moçambique do
que as do sexo masculino, referimo-nos ao género feminino como moda.
Determine a moda para o problema apresentado no início desta lição.
A moda é o valor mais frequente.
A moda corresponde ao valor com maior frequência e não à frequência deste valor.
Casos há em que não há moda ou há mais que um valor da moda.
Das medidas de localização discutidas anteriormente, a média é a medida mais
utilizada, embora, em certos casos, a utilização da mediana ou da moda seja
preferível.
A mediana só pode ser obtida para dados quantitativos ou ordinais, mas não
para dados nominais. Não se pode por exemplo, calcular a mediana do país de
origem ou da filiação religiosa.
na Tabela 1.
em
que uma boa parte dos funcionários chega ao trabalho.
b) Calcule a mediana.
Cidade: 16,2 16,7 15,9 14,4 13,2 15,3 16,8 16,0 16,1 15,3 15,2 15,3 16,2
Campo: 19,4 20,6 18,3 18,6 19,2 17,4 17,2 18,6 19,0 21,1 19,4 18,5 18,7
e no campo.
turma a Estatística:
MEDIDAS DE DISPERSÃO
Suponha ainda que pretende levar um doente para uma intervenção cirúrgica que
necessite de transfusão de sangue. Que hospital pode preferir? Justifique.
Á partida é de preferir o hospital com média maior pois significa isso que este
dispõe de maior quantidade de sangue diário em termos globais do que aquele. Como
se pode observar, a quantidade média de sangue semanal para os dois hospitais é a
mesma:
20
Bioestatística _ Manuel João Castigo
350
Hospita A: 𝑥̅ = = 50 𝑙
7
350
Hospital B: 𝑦̅ = = 50 𝑙
7
VARIÂNCIA (𝝈𝟐 )
Para o cálculo da variância deve-se elevar os desvios ao quadrado.
DESVIO PADRÃO
Esta medida tem uma grande utilidade quando se pretende comparar a dispersão
entre distribuições de variáveis que se expressam em unidades diferentes, ou de
variáveis expressas nas mesmas unidades mas com médias diferentes. A dispersão
será mais acentuada na distribuição que apresentar maior coeficiente de variação.
EXERCICIO
Coeficiente de Correlação
Até aqui usamos medidas descritivas para sintetizar dados para uma variável de
cada vez. Frequentemente, para tomar uma decisão precisa-se analisar o
comportamento de duas ou mais variáveis simultaneamente é usado o coeficiente de
correlação. Por exemplo, o gerente de uma loja está interessado em analisar a
relação entre o número de anúncios mostrados durante o fim de semana na televisão
local e as vendas na loja durante a semana seguinte. Para isso ele recolhe os
seguintes dados:
O foco nesta lição é verificar a existência de alguma relação entre duas vaiáveis e
medir a sua intensidade através do coeficiente de correlação.
23
Bioestatística _ Manuel João Castigo
No nosso caso, vamos tomar como exemplo a relação entre as duas variáveis:
Número de anúncios (𝑥𝑖 ) e volume de vendas (𝑦𝑖 ).
Um dos primeiros passos que pode ser dado na análise da relação entre duas
variáveis é a construção do diagrama de dispersão. O diagrama de dispersão é um
gráfico de pontos. Constrói-se fazendo corresponder através de pontos o número
de anúncios (𝑥𝑖 ) ao valor correspondente do volume de vendas (𝑦𝑖 ).
Com base no diagrama acima, que tipo de relação existe entre o número de anúncios
e o volume de vendas?
A relação pode ser positiva ou negativa, dependendo da tendência dos pontos que
pode ser crescente ou decrescente. Para confirmar este facto calculamos a
covariância,
medida descritiva de associação linear entre as variáveis
24
Bioestatística _ Manuel João Castigo
O valor positivo da covariância indica que existe uma relação positiva entre as
variáveis e o valor negativo indica uma relação negativa. No entanto o seu valor
numérico depende das unidades de medida de x e y. Por exemplo, suponhamos que
estamos interessados na relação entre a altura x e o peso y para os indivíduos.
Obviamente, a intensidade da relação deverá ser a mesma medindo a altura em
centímetros ou em metros. Quando a altura é medida em centímetros, teremos
valores numéricos maiores do que em metros.
Assim, para a altura medida em centímetros, teremos uma maior covariância, quando
de facto não há diferença na relação. Uma medida de relação entre variáveis que
evita essa dificuldade é o coeficiente de correlação.
EXERCICIOS
1. Que tipo de correlação (positiva/negativa) espera encontrar
entre:
a) Nota a Física e Nota a Matemática.
25
Bioestatística _ Manuel João Castigo
b) Nota a estatística e altura do estudante.
c) Nível económico da mulher e taxa de divórcios.
d) Nível de consumo e salário.
e) Altura e peso.
f) Preço do produto e nível de consumo do mesmo.
O foco nesta lição foi verificar a existência de alguma relação entre as duas
vaiáveis, e medir a sua intensidade através do coeficiente de correlação.
O que significa que apenas 86 % da variação das vendas é explicada pela variação do
número de anúncios. Os restantes 14% podem ser explicados por outras variáveis
ligadas às vendas, como por exemplo a renda.
EXERCÍCIOS
30
Bioestatística _ Manuel João Castigo
31
Bioestatística _ Manuel João Castigo