Você está na página 1de 31

1

Bioestatística _ Manuel João Castigo


CURSO DE BIOLOGIA 3° ANO

CAPÍTULO I: CONCEITOS BÁSICOS DA ESTATÍSTICA DESCRITIVA

Estatística Descritiva
Introdução
Geralmente quando se faz um estudo ou se recolhe uma informação, ela aparece
duma maneira desorganizada e portanto, sem nenhum significado. Para atribuir
significado a esta informação é necessário organizá-la e resumí-la. Este é o grande
propósito desta Unidade. Construir tabelas, gráficos e calcular medidas
estatísticas como a média, mediana e outras.

Estatística
Etimologicamente, a palavra estatística vem do latim STATUS, que significa
ESTADO, uma vez que na antiguidade, tal como hoje, o Estado fazia levantamentos
para obter informações sobre a população disponível para pagar impostos, a idade
dos jovens para irem para a guerra, etc. Hoje a Estatística serve não só ao Estado,
mas a todas as áreas. O político pode recorrer à estatística para avaliar a
possibilidade de vencer a eleição que se avizinha. O economista usa informação
sobre a procura e a oferta de produtos, taxas de desemprego e outras, para
calcular ou prever a inflação. Na saúde, dados sobre o estado de saúde de cidadãos
são continuamente recolhidos e analisados e a partir deles são evitados
alastramentos de epidemias. No campo da técnica vários componentes (por exemplo
lâmpadas, transístores) são fabricados e testados para determinar o seu tempo de
vida e definir planos de garantia aos consumidores.

A estatística é uma ciência ou método que se ocupa da recolha, organização e


análise de dados.

Distinguem-se as seguintes fases do método estatístico:


1. Identificação do problema e da população correspondente;
2. Recolha de dados.
3. Análise de dados e apresentação de resultados.

População

Em estatística, chama-se população ao conjunto de elementos (indivíduos) com


alguma característica comum e com interesse para o estudo.
2
Bioestatística _ Manuel João Castigo
Exemplo 1
É população, o conjunto dos eleitores no nosso país, as contas bancárias de um
banco, os carros que circulam numa determinada cidade, o gado bovino existente na
província de Manica, etc.

Para conhecer de forma completa uma população é necessário analisar todos os seus
elementos, isto é, realizar um censo. Exceptuando casos em que a população tem
dimensão modesta e é acessível, raramente é possível analisar todos os elementos
da população por não se dispor de orçamento, de tempo, e até algumas vezes por a
observação ser destrutiva. Neste caso o estudo das características da população é
feito sobre um subconjunto da população que se chama Amostra. Os resultados da
amostra são depois usados para fazer estimativas sobre as características da
população. Este processo é chamado de inferência estatística.
A inferência estatística, ou estatística indutiva trata de técnicas que permitem
tirar conclusões ou tomar decisões sobre uma população a partir de evidências
apresentadas pelos dados numéricos relativos à população, ou a uma amostra dela
extraída.
O sucesso do estudo baseado na amostra depende grandemente da escolha desta.
Uma amostra mal escolhida pode conduzir a conclusões erradas. De um modo geral,
na escolha de uma amostra deve-se ter em conta os seguintes aspectos:
− Imparcialidade: Todos os elementos da população têm a mesma oportunidade de
fazer parte da amostra;
− Representatividade: A amostra deve conter qualitativamente todas as
características que a população possui.
− Tamanho: Deve ser suficientemente larga de modo que as características da
amostra se aproximem das características da população.
Em muitos estudos estatísticos usam-se amostras aleatórias.

Variável
Num estudo, parte-se de um conjunto a que se denomina população. Cada elemento
desse conjunto (unidade estatística) tem provavelmente muitas características.
Dependendo do objectivo do estudo, centra-se numa ou em mais características
deste. A essas características chamam-se variáveis do estudo.

Por exemplo no conjunto dos alunos de uma turma podem-se observar muitas
variáveis como: altura, cor dos olhos, última nota a matemática, distância de casa à
escola, nível social do aluno, número de irmãos, sexo, etc.
3
Bioestatística _ Manuel João Castigo
As variáveis observadas podem ser qualitativas (atributos ou nomes) ou
quantitativas (que indicam quantidade de alguma coisa). Por exemplo, das variáveis
acima, são qualitativas; o sexo, a cor dos olhos, e o nível social do aluno. São
quantitativas, a altura, a idade, a última nota a Matemática, a distância casa-escola
e o número de irmãos.

As variáveis qualitativas podem estar numa escala nominal (se não é possível
ordenar as diversas modalidades) ou ordinal (se há uma possibilidade de
ordenamento das diversas modalidades que a variável toma). Das variáveis
consideradas no exemplo 2, são qualitativas nominais, o sexo e a cor dos olhos. O
social é um exemplo de uma variável qualitativa ordinal.
Dependendo dos valores que as variáveis quantitativas tomam, estas classificam-
se em contínuas (quando podem assumir qualquer valor dentro de um intervalo
considerado) ou discretas (quando só assumem alguns valores dentro de um
intervalo considerado). A idade e o número de irmãos são exemplos de variáveis
discretas enquanto a distância casa - escola é uma variável contínua.
É hora de descontrair-se um pouco mudando de actividade. Pense agora num
conjunto de variáveis relacionadas com o seu dia a dia e resolva a tarefa seguinte.
Reflexão
Indique duas variáveis que sejam:
a) Quantitativas
b) Qualitativas
c) Discretas
d) Contínuas
e) Nominais
f) Ordinais

EXERCICIOS

1. Diferencie os seguintes conceitos:


A) Estatística descritiva de inferência estatística.
B) População de amostra.
4
Bioestatística _ Manuel João Castigo
2. Um levantamento arguiu 201 estudantes: “Você acha que os estudantes
graduados do curso de Geografia conseguem facilmente emprego?” As
categorias das respostas foram sim, não e indeciso.

a) Qual foi o tamanho da amostra para essa pesquisa?

b) Os dados colectados eram qualitativos ou quantitativos?

c) Para um resumo dos dados para esta questão, faria mais sentido usar as
médias ou as percentagens?

d) Dos que responderam, 28% disseram não. Quantos estudantes forneceram


esta resposta?

3. Classifique cada uma das seguintes variáveis em qualitativa nominal,


qualitativa ordinal, quantitativa discreta e quantitativa contínua:
(a) Idade dos estudantes, (b) Marca dos celulares, (c) classe social, (d)
distância casa-escola, (e) número de vezes que se repete de classe, (f)
línguas faladas por estudantes duma turma de Geografia, (g) altura atingida
por um projéctil, (h) número de casos de sida diagnosticados diariamente.

Tabelas e gráficos
Introdução

Jornais e revistas recorrem frequentemente a tabelas e gráficos para apresentar


diversos tipos de informação. São formas de sumarização simples e com muito
potencial. Tais sumários, que podem ser tabelas, gráficos ou medidas estatísticas
são conhecidos como estatísticas descritivas. Um gráfico ou uma tabela bem
construída podem poupar-nos muitas linhas ou até mesmo páginas de explicação.
Nesta lição apresentamos as tabelas e gráficos mais usados no âmbito da
estatística descritiva.

Tabela de frequência
Já foi referido anteriormente que a estatística descritiva recorre à tabelas para
fazer sumários de dados. Um tipo de tabela comum é a chamada de tabela de
distribuição de frequências ou simplesmente tabela de frequência. Ilustra-se, por
meio de um exemplo, como construir uma tabela de frequência de dados simples
(não agrupados em classes).
5
Bioestatística _ Manuel João Castigo
Os seguintes dados representam o número de irmãos que cada estudante da turma
de AGE 1° ano da Universidade Pedagógica-delegação de Manica tem: 6, 3, 9, 4, 5,
6, 3, 2, 4, 10, 6, 2, 3, 4, 5, 8, 2, 1, 3, 6, 5, 5, 5, 8, 4, 6, 2, 4, 7, 5, 3.

Frequência absoluta
Pouco ou nada se pode dizer em relação ao numero de irmãos de cada estudante da
turma com
os dados dispostos desta maneira. Coloque os dados numa tabela em que
consideramos por um lado o valor observado ( 𝑥𝑖 ) e por outro, o número de vezes
que cada valor aparece repetido, também designado por frequência absoluta
simbolizada por fi .

Frequência relativa

A frequência absoluta só toma um significado mais efectivo se considerar o número


total das observações (tamanho da amostra). Para entender facilmente esta
questão, suponha que um colega lhe informe durante uma conversa que numa certa
turma cinco alunos reprovaram num determinado exame. Parece-lhe por enquanto
uma situação normal. Mas ele depois acrescenta: a turma era de 6 alunos apenas! A
informação toma outro significado e é mais completa. Por essa razão é útil
𝑓𝑖
acrescentar a frequência relativa simbolizada por 𝑓𝑟 . 𝑓𝑟 = 𝑛

𝑥𝑖 (n° de irmãos) 𝑓𝑖 (número de 𝑓𝑟 (%) (percentagem de


estudantes) estudantes)
1 1 3.22580645
2 4 12.9032258
3 5 16.1290323
4 5 16.1290323
5 6 19.3548387
6 5 16.1290323
7 1 3.22580645
8 2 6.4516129
9 1 3.22580645
10 1 3.22580645
Total (n) 31 100
Tabela de frequências.
6
Bioestatística _ Manuel João Castigo

𝑓𝑖 - frequência absoluta
𝑓𝑟 -Frequência relativa
n -Tamanho da amostra

Para além da frequência absoluta e relativa, podem-se apresentar as frequências


absolutas acumuladas (𝐹𝑖 ) e relativas acumuladas ( 𝐹𝑟 ) que são as frequências
considerando valores menores ou iguais ao observado:

𝑥𝑖 (n° de 𝑓𝑖 𝐹𝑖 𝑓𝑟 (%) 𝐹𝑟
irmãos)
1 1 1 3.22580645 3.22580645
2 4 5 12.9032258 16,1290322
3 5 10 16.1290323 32,2580645
4 5 15 16.1290323 48,3870968
5 6 21 19.3548387 67,7419355
6 5 26 16.1290323 83,8709678
7 1 27 3.22580645 87,0967743
8 2 29 6.4516129 93,54833872
9 1 30 3.22580645 96,7741936
10 1 31 3.22580645 100
Total (n) 31 - 100 -
Tabela frequências.

𝑓𝑖 - Frequência absoluta
𝐹𝑖 - Frequência absoluta acumulada
𝐹𝑟 - Frequência relativa acumulada
𝑓𝑟 -Frequência relativa
n -Tamanho da amostra
7
Bioestatística _ Manuel João Castigo

Gráfico de barras
O gráfico de barras constrói-se colocando no eixo horizontal (eixo das abcissas) os
valores observados e no eixo vertical (eixo das ordenadas) a frequência absoluta ou
relativa correspondente. Note que quanto maior for a frequência de uma
observação, maior será também a altura da barra correspondente.

1. Gráfico de barras da frequência absoluta

fi
25

20

15

10

0
1 2 3 4 5 6 7 8 9 10
Xi
8
Bioestatística _ Manuel João Castigo

2. Gráfico de barras da frequência relativa percentual

fr(%)
25

20

15

10

0
1 2 3 4 5 6 7 8 9 10 Xi

Gráfico circular
Como construir um gráfico circular usando os dados da tabela?

Dica
Sabes qual é o ângulo que uma circunferência representa e qual a medida desse
ângulo? O que tem a fazer é determinar que parte do círculo representa cada uma
das frequências de idade.
Para o caso de 2 irmãos a frequência é 4.
Usando a regra três simples segue:
31 (total) ― 360º (total)
4 ―x
360°x4
Donde se conclui que 𝑥 = 31 = 46,5°

Com ajuda dum compasso, trace uma circunferência de raio à sua escolha (Por
exemplo 5 cm). Una em seguida o centro da circunferência à curva, obtendo deste
modo o raio. Partindo deste raio meça 46,5º, com a ajuda de um transferidor.
Separe esta porção por meio de um raio. Esta é a parte do gráfico que representa
os estudantes com 4 irmãos. De maneira semelhante, determine a medida da parte
9
Bioestatística _ Manuel João Castigo
correspondente aos estudantes com 1 irmão, e, represente-os no círculo, de tal
forma que as duas porções sejam adjacentes. Continue desta forma até completar o
gráfico.

Exemplo:
O gráfico circular abaixo mostra as áreas correspondentes ao número de
estudantes do curso de AGE 1° ano com um certo número de irmãos. Os números
que estão no círculo representam o número de irmãos e a área por onde está cada
numero temos a quantidade de estudantes.

Gráfico circular das frequências absolutas

9 10 1
8 2
7

6 3

5 4

Área correspondente ao número ou a percentagem


de estudantes com 5 irmãos.

HISTOGRAMA E POLÍGONO DE FREQUÊNCIA

Em certos casos, quando se dispõe de um conjunto de dados com muitas variações


(geralmente variáveis contínuas) é vantajoso fazer-se a sumarização recorrendo ao
agrupamento dos mesmos em classes de igual amplitude.
10
Bioestatística _ Manuel João Castigo
Em casos em que não aparecem previamente as classes, o primeiro passo na
construção da tabela de frequência com dados agrupados em intervalos de classes é
a determinação do número de classes k. Considera-se k=5 classes, para n ≤ 25 e k
≈ √𝒏 para n > 25 e para determinar a amplitude entre as classes, procede-se da
seguinte maneira:
 Determina a amplitude total (A) subtraindo o valor máximo (Xmáx) do valor
mínimo (Xmin) observado. Em seguida determine a amplitude de classe (a),
dividindo a amplitude total pelo número de classes proposto.

Para o nosso estudo, vamos trabalhar com a variável (altura) do estudantes dum
curso da UNIPÚNGUÈ, em que o número total de estudantes inquiridos n é 31>25.
Portanto, 𝑘 ≈ √31 ≈ 6 .
Portanto,
A=Xmax – Xmín (Amplitude Total=Valor Máximo – Valor Mínimo
A=1,87-1,5=0,37.

A amplitude da Classe será:


𝐴
𝑎=𝑘

𝐴 0,37
𝑎= = = 0,06166 ≈ 0,062
6 6

Representando na tabela teremos:

Tabela: altura dos estudantes dum curso da UNIPÚNGUÈ.


Altura n° de estudantes (𝑓𝑖 )
[1,5; 1,562[ 2
[1,562; 1,624[ 12
[1,624; 1,686[ 9
[1,686; 1,748[ 5
[1,748; 1,81[ 4
[1,81; 1,872[ 1

Nota: Convenciona-se que, por exemplo, o intervalo 0 – 25 = [0; 25[


11
Bioestatística _ Manuel João Castigo

Histograma

O histograma considera, por um lado, os valores observados em classes e por outro,


as frequências absolutas ou relativas de cada classe. A particularidade deste reside
no facto de as barras serem adjacentes, ao contrário do gráfico de barras.

Figura: Histograma dos preços duma agência imobiliária.


.Polígono de frequência
Acompanhe a actividade seguinte, que lhe ajudará a construir um polígono de
frequência.
Assinale no histograma acima, os pontos médios das barras. Veja o exemplo abaixo:

Considere mais uma classe adicional a esquerda [-25; 0[ e a direita [175; 200[
ambas com frequência zero e assinale nesta também o seu ponto médio. Una os
pontos médios das barras. O polígono obtido chama-se polígono de frequências.
Observe uma simulação do resultado final que obterá:
12
Bioestatística _ Manuel João Castigo

EXERCICIOS

1. Realizou-se uma experiência com eucaliptos para determinar a altura máxima


por eles atingida, e obtiveram-se os seguintes resultados:
4,3 6,8 9,2 7,2 8,7 8,6 6,6 5,2 8,1 8,7 7,4 4,6 4,2 7,6
6,8 7,7 8,4 7,5 8,6 6,0 7,7 8,1 7,0 8,2 8,3 8,8 6,7 8,1 9,4
7,7 6,3 7,7 9,1 7,8 7,9 7,9 9,4 8,2 6,7 8,2

a) Construa uma tabela de frequência absoluta, agrupando os dados em seis classes.


(sugestão: Determine a amplitude total (A) subtraindo o valor mínimo observado
(Xmin) do máximo (Xmáx) , em seguida determine a amplitude de classe (a),
dividindo a amplitude total pelo número de classes propostas).
b) Represente graficamente os dados (histograma e polígonos de frequências),
tomando por base a tabela construída na alínea a).

MEDIDAS DE TENDÊNCIA CENTRAL


Introdução

Nas duas lições anteriores discutimos os conceitos básicos da Estatística e a


construção de tabelas e gráficos. Nestas próximas vamos discutir a determinação
de medidas estatísticas como outra forma de sumarizar dados. Esteja atento aos
aspectos mais importantes.
Uma maneira conveniente de descrever um grupo como um todo é achar um número
único que represente o que é médio, ou típico daquele conjunto de dados. Esse valor
é chamado medida de tendência central, porque em geral, ele está localizado mais
13
Bioestatística _ Manuel João Castigo
para o meio ou centro de uma distribuição, onde a maior parte dos valores tende a
concentrar-se.
Aborda-se em seguida as três medidas de tendência central mais usadas: média
aritmética, mediana e moda.

Média aritmética ( 𝑥 ̅)
Para a aprendizagem deste tópico, siga o exemplo seguinte:
Exemplo 3
Suponha que durante a quadra festiva (última semana do ano e primeira semana do
novo ano), uma loja de prendas tenha registado os seguintes valores (em mil
meticais) na venda dos seus produtos:
9,5 8 7 10,5 8 5 8,5 10 8 11 9 6
Qual é neste caso o valor médio (média aritmética) das vendas da loja no referido
período?

Como facilmente pode concluir, a média aritmética determina-se somando todos os


valores observados e dividindo esta soma pelo número total de observações:
∑ 𝑥𝑖 ∑ 𝑓𝑖 × 𝑥𝑖
𝑥̅ = 𝑜𝑢 𝑥̅ =
𝑛 𝑛
uma vez que, por exemplo, no caso da observação 8, 8 + 8 + 8 = 8× 3 , onde 3 é a sua
frequência absoluta.
9,5 + 7 + 10,5 + 3 × 8 + 5 + 8,5 + 10 + 11 + 9 + 6
𝑥̅ = = 8,375
12
Quando os dados se apresentam agrupados em classes de igual amplitude, a
determinação da média aritmética passa primeiro pela determinação de um valor
que possa caracterizar cada uma das classes - O ponto médio da classe (𝑥𝑖 ).
Complete a seguinte tabela:

Determine a média dividindo o total de 𝑥𝑖 𝑓𝑖 por 26


14
Bioestatística _ Manuel João Castigo
2. Mediana (𝒙
̃)

Quando os dados são dispostos por ordem, torna-se possível localizar a mediana,
que é o ponto central da distribuição. Por isso, a mediana é encarada como uma
medida de tendência central que separa o conjunto de dados em duas partes
aproximadamente iguais, com aproximadamente 50% dos dados.

Suponha que durante a quadra festiva (última semana do ano e primeira semana do
novo ano), uma loja de prendas tenha registado os seguintes valores (em mil
meticais) na venda dos seus produtos:

9,5 8 7 10,5 8 5 8,5 10 8 11 9 6

Dispondo os dados em ordem crescente segue:

5 6 7 8 8 8 8,5 9 9,5 10 10,5 11

No centro da distribuição dos dados das vendas aparecem dois valores. Isto está
acontecer porque o tamanho da amostra (12) é par. Portanto a mediana quando n é
par, será a média dos dois valores centrais:

8 + 8,5
𝑥̃ = = 8,25
2

5 6 7 8 8 8 8,25 8,5 9 9,5 10 10,5 11


50% dos dados Mediana 50% dos dados

Observe que neste caso, em que temos 12 observações a mediana resulta da soma
dos dados nas posições 6 e 7.

O que acontece na determinação da mediana, quando o tamanho da amostra n é


impar?
R: No caso em que n é impar a mediana é o valor central depois de ordenar os dados.

Exemplo:
Determine a mediana do seguinte conjunto de dados:
14 12 7 9 12 10 15 9 11
15
Bioestatística _ Manuel João Castigo
Conclui-se portanto, para casos em que n é par que a mediana é obtida
colocando os dados em ordem crescente e achando a média dos dados
𝒏 𝒏
centrais; cujas posições são 𝒆 + 𝟏.
𝟐 𝟐
No caso em que n é impar a mediana é o valor central depois de ordenar os
𝒏
dados. Neste caso a posição da mediana é 𝟐 + 𝟏

3. Moda
A moda é o valor mais frequente, mais típico ou mais comum numa distribuição. Por
exemplo, ao afirmarmos que há mais pessoas do sexo feminino em Moçambique do
que as do sexo masculino, referimo-nos ao género feminino como moda.
Determine a moda para o problema apresentado no início desta lição.
A moda é o valor mais frequente.
A moda corresponde ao valor com maior frequência e não à frequência deste valor.
Casos há em que não há moda ou há mais que um valor da moda.
Das medidas de localização discutidas anteriormente, a média é a medida mais
utilizada, embora, em certos casos, a utilização da mediana ou da moda seja
preferível.

 A média é muito sensível a valores extremos, isto é, valores excessivamente


maiores ou menores provocam variações consideráveis ao serem incluídos ou
excluídos do conjunto de dados. Outro aspecto é que o cálculo da média em
dados nominais ou ordinais fornece-nos um resultado desprovido de sentido,
em que em geral não indica nenhuma tendência central.
É o caso por exemplo da média de uma distribuição de províncias de um país
ou da cor dos olhos.

 A mediana só pode ser obtida para dados quantitativos ou ordinais, mas não
para dados nominais. Não se pode por exemplo, calcular a mediana do país de
origem ou da filiação religiosa.

 A moda revela a sua importância perante estudo de variáveis nominais, já que


tanto a média como a mediana não se podem aplicar, mas esta pode ser
aplicada a qualquer conjunto de dados pois exige apenas uma contagem de
frequências.
16
Bioestatística _ Manuel João Castigo
EXERCICIOS DE APROFUNDAMENTO
Utilize o software SPSS/MANUALMENTE para resolver os exercicios abaixo

1. Considere os dados sobre a hora de chegada dos

funcionários de uma agência de viagens apresentados

na Tabela 1.

a) Apresente a sumarização dos dados da

Tabela num gráfico de barras usando um

Software estatístico. (graphs – legacy dialogs

Bar- simple – difine – N of cases – category

Axis (var. hora)) - ok

b) Em poucas palavras, faça a descrição sobre a


Hora de chegada dos funcionários da agência.

R: Pode-se ver, por exemplo que a hora de chegada dos


funcionários varia entre 7 a 9 horas, sendo 8:30 a hora
17
Bioestatística _ Manuel João Castigo

em
que uma boa parte dos funcionários chega ao trabalho.

2. Com base nos dados da Tabela 2, construa o gráfico circular


No SPSS.

3. Seguidamente apresentam-se algumas estimativas para a velocidade da luz,

determinadas por Michelson em 1882 (Statistics and Data Analysis, Siegel):

299,96 299,88 299,90 299,94 299,88

299,96 299,85 299,94 299,80 299,84

Determine as três medidas de tendência central.

R: – statistics – mean, median, mode.


18
Bioestatística _ Manuel João Castigo
4. A uma amostra de 8 estudantes vivendo em residências universitárias pediu-

se que classificasse, numa escala de 1 (um) a 7 (excelente) a qualidade das

refeições servidas na residência.

Foram obtidos os seguintes resultados: 2, 4, 2, 3, 5, 4, 3, 2.

a) Encontre a classificação média dada pela amostra.

b) Calcule a mediana.

5. Num teste de automobilismo de distância e de consumo de gasolina, 13

automóveis foram testados por 300 quilómetros em estrada, nas mesmas

condições de direcção na cidade e no campo. Foram registados os seguintes

dados para o desempenho em milhas por galão.

Cidade: 16,2 16,7 15,9 14,4 13,2 15,3 16,8 16,0 16,1 15,3 15,2 15,3 16,2

Campo: 19,4 20,6 18,3 18,6 19,2 17,4 17,2 18,6 19,0 21,1 19,4 18,5 18,7

Use a média, mediana e a moda para comparar o desempenho na condução na cidade

e no campo.

6. A tabela abaixo apresenta as notas dos 35 estudantes de uma determinada

turma a Estatística:

Determine a nota média.

7. Os 40 docentes de uma faculdade publicam em média 0,5 artigos por ano,

enquanto os 10 docentes de outra faculdade publicam, em média, 3 artigos

por ano. Quantos artigos publicam em média os 50 docentes?


19
Bioestatística _ Manuel João Castigo

MEDIDAS DE DISPERSÃO

Suponha que a quantidade de sangue (em litros) disponível em dois hospitais


distritais, numa dada semana, distribui-se como se segue:

Suponha ainda que pretende levar um doente para uma intervenção cirúrgica que
necessite de transfusão de sangue. Que hospital pode preferir? Justifique.

Á partida é de preferir o hospital com média maior pois significa isso que este
dispõe de maior quantidade de sangue diário em termos globais do que aquele. Como
se pode observar, a quantidade média de sangue semanal para os dois hospitais é a
mesma:
20
Bioestatística _ Manuel João Castigo
350
Hospita A: 𝑥̅ = = 50 𝑙
7
350
Hospital B: 𝑦̅ = = 50 𝑙
7

Uma vez que a quantidade média de sangue disponível semanalmente é a mesma


(50 𝑙), há que recorrer a outras ferramentas para escolher de entre os dois aquele
que mais lhe assegure confiança em termos de disponibilidade de sangue.
Portanto, no nosso caso concreto vê-se que não bastam as medidas de tendência
central para analisar uma distribuição. Há que ter em conta a dispersão ou a
variabilidade dos dados.
Nesta lição discutem-se as medidas de variabilidade comummente usadas.

AMPLITUDE TOTAL (A)


Uma das medidas mais simples de dispersão é a amplitude total. A amplitude total é
a diferença dos valores máximo e mínimo observados:
𝐴 = 𝑋𝑚𝑎𝑥 − 𝑋𝑚𝑖𝑛

DESVIO MÉDIO (DM)


O desvio médio usa todos os dados. Para a sua determinação é necessário calcular
primeiro o que se chama desvio: a diferença entre cada valor observado e o valor
médio.

VARIÂNCIA (𝝈𝟐 )
Para o cálculo da variância deve-se elevar os desvios ao quadrado.

As unidades associadas com a variância frequentemente causam confusão porque os


valores que estão sendo somados no cálculo são elevados ao quadrado, as unidades
associadas são também elevadas ao quadrado, o que torna difícil um entendimento e
21
Bioestatística _ Manuel João Castigo
uma interpretação intuitivos do valor numérico da variância. Recomenda-se o uso de
desvio padrão, que é a raiz quadrada da variância, pois é expressa nas mesmas
unidades da variável, o que facilita a sua interpretação.

DESVIO PADRÃO

Em algumas situações podemos estar interessados em medir o tamanho do desvio


padrão em relação à média. Essa medida é chamada de coeficiente de variação.

Esta medida tem uma grande utilidade quando se pretende comparar a dispersão
entre distribuições de variáveis que se expressam em unidades diferentes, ou de
variáveis expressas nas mesmas unidades mas com médias diferentes. A dispersão
será mais acentuada na distribuição que apresentar maior coeficiente de variação.

EXERCICIO

1. Considere as quatro populações seguintes:


A. -6, -3, 0, 3, 6, 9, 12, 15;
B. 1, 1, 1, 1, 8, 8, 8, 8;
C. 1, 1, 4, 4, 5, 5, 8, 8;
D. 1, 2, 3, 4, 5, 6, 7, 8.
Nos quatro casos a média é igual (4,5). Sem fazer cálculos, ordene as populações de
acordo com as magnitudes das suas variâncias, da menor para a maior. Confirme o
seu ordenamento, calculando as variâncias.

2. Os 40 estudantes de uma determinada turma obtiveram, numa escala de 1 a


5, a seguinte classificação a um dos seus professores:
22
Bioestatística _ Manuel João Castigo

a) Calcule a classificação média, mediana e moda.


b) Calcule a variância e o desvio padrão.

3. Para os seguintes dados relativos à notas (0 a 10) dos alunos de um curso de


GRH.

Use o coeficiente de variação para comparar a dispersão nas três turmas.

CAPÍTULO II: CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

Coeficiente de Correlação

Até aqui usamos medidas descritivas para sintetizar dados para uma variável de
cada vez. Frequentemente, para tomar uma decisão precisa-se analisar o
comportamento de duas ou mais variáveis simultaneamente é usado o coeficiente de
correlação. Por exemplo, o gerente de uma loja está interessado em analisar a
relação entre o número de anúncios mostrados durante o fim de semana na televisão
local e as vendas na loja durante a semana seguinte. Para isso ele recolhe os
seguintes dados:

O foco nesta lição é verificar a existência de alguma relação entre duas vaiáveis e
medir a sua intensidade através do coeficiente de correlação.
23
Bioestatística _ Manuel João Castigo
No nosso caso, vamos tomar como exemplo a relação entre as duas variáveis:
Número de anúncios (𝑥𝑖 ) e volume de vendas (𝑦𝑖 ).

Um dos primeiros passos que pode ser dado na análise da relação entre duas
variáveis é a construção do diagrama de dispersão. O diagrama de dispersão é um
gráfico de pontos. Constrói-se fazendo corresponder através de pontos o número
de anúncios (𝑥𝑖 ) ao valor correspondente do volume de vendas (𝑦𝑖 ).

Complete o diagrama de dispersão seguinte, marcando pontos em falta de acordo


com a tabela.

O diagrama de dispersão permite ver se existe alguma relação entre as variáveis,


identificando a equação que a descreve adequadamente.
A relação entre as variáveis pode ser positiva (a um aumento dos valores de uma
variável corresponde também um aumento nos valores da outra variável) ou negativa
(um aumento dos valores de uma variável corresponde a uma diminuição dos valores
da outra).

Com base no diagrama acima, que tipo de relação existe entre o número de anúncios
e o volume de vendas?

A relação pode ser positiva ou negativa, dependendo da tendência dos pontos que
pode ser crescente ou decrescente. Para confirmar este facto calculamos a
covariância,
medida descritiva de associação linear entre as variáveis
24
Bioestatística _ Manuel João Castigo

O valor positivo da covariância indica que existe uma relação positiva entre as
variáveis e o valor negativo indica uma relação negativa. No entanto o seu valor
numérico depende das unidades de medida de x e y. Por exemplo, suponhamos que
estamos interessados na relação entre a altura x e o peso y para os indivíduos.
Obviamente, a intensidade da relação deverá ser a mesma medindo a altura em
centímetros ou em metros. Quando a altura é medida em centímetros, teremos
valores numéricos maiores do que em metros.
Assim, para a altura medida em centímetros, teremos uma maior covariância, quando
de facto não há diferença na relação. Uma medida de relação entre variáveis que
evita essa dificuldade é o coeficiente de correlação.

O coeficiente de correlação calcula-se dividindo a covariância pelo produto dos


desvios padrão de x e y.

O coeficiente de correlação varia entre -1 a 1. Valores próximos dos extremos


indicam uma associação forte entre as variáveis. Alguns autores convencionam que:

EXERCICIOS
1. Que tipo de correlação (positiva/negativa) espera encontrar
entre:
a) Nota a Física e Nota a Matemática.
25
Bioestatística _ Manuel João Castigo
b) Nota a estatística e altura do estudante.
c) Nível económico da mulher e taxa de divórcios.
d) Nível de consumo e salário.
e) Altura e peso.
f) Preço do produto e nível de consumo do mesmo.

2. Cinco observações tomadas para duas variáveis são apresentadas a seguir:

a) Desenvolva um diagrama de dispersão com x no eixo horizontal.


b) O que é que o diagrama indica sobre a relação entre as duas variáveis?
c) Calcule e interprete a covariância da amostra.
d) Calcule e interprete o coeficiente de correlação da amostra

3. Mediu-se a altura de uma amostra de 5 meninos (em polegadas) na idade de 4


anos e novamente na idade de 18 anos. Os resultados obtidos são
apresentados a seguir:

Determine o coeficiente de correlação entre as duas categorias de alturas.

4. Um comerciante de temperos está curioso sobre a grande variação nas


vendas de loja para loja e acha que o volume das vendas está associado ao
espaço nas prateleiras dedicados a sua linha do produto em cada ponto de
venda. Dez lojas foram seleccionadas ao acaso em todo país e duas variáveis
foram medidas: (𝑥) total de espaço em frente (𝑐𝑜𝑚𝑝𝑟𝑖𝑚𝑒𝑛𝑡𝑜 ×
𝑎𝑙𝑡𝑢𝑟𝑎 𝑒𝑚 𝑐𝑚2 ) dedicados a sua linha de produtos e (𝑦) total das vendas dos
produtos em meticais no último mês.
26
Bioestatística _ Manuel João Castigo
Construa um diagrama de dispersão e determine o coeficiente de correlação.

REGRESSÃO LINEAR SIMPLES


Introdução
No estudo do coeficiente de correlação, tivemos como exemplo o problema
seguinte:
O gerente de uma loja está interessado em analisar a relação entre o número de
anúncios mostrados durante o fim de semana na televisão local e as vendas na loja
durante a semana seguinte. Para isso ele recolhe os seguintes dados:

O foco nesta lição foi verificar a existência de alguma relação entre as duas
vaiáveis, e medir a sua intensidade através do coeficiente de correlação.

A pergunta que agora se pode colocar em relação à questão do número de


comerciais e o volume de vendas é a seguinte: De que maneira poderão comportar-
se as vendas, se durante o final de semana passar 6 vezes o anúncio? Há, neste
caso, que encontrar uma relação que possa estimar o volume de vendas com base no
número de comerciais mostrados no final de semana. Esta técnica chama-se análise
da regressão.
Como o diagrama de dispersão em relação aos dados da tabela acima mostra uma
relação aproximadamente linear entre as variáveis, pode-se estimar numa recta
para prever o comportamento de vendas (y) quando o número de anúncios (x) varia.
A equação da recta é dada por y = ax + b . O modelo de regressão linear simples
expressa-se como y = ax + b + e . Onde “e” é a variável residual que descreve os
27
Bioestatística _ Manuel João Castigo
efeitos de y não explicados por x. Como se pode notar, entre os pontos do diagrama
podem ser traçadas várias rectas. A recta traçada pelo método dos mínimos
quadrados é aquela cujas distâncias entre a recta estimada e os valores observados
são mínimos; mais exactamente, fornece valores de a e b que minimizam a soma dos
quadrados dos desvios entre os valores observados e os estimados da variável
dependente, isto é, procura a e b tal que minimizam a soma ∑(𝑦𝑖 − 𝑦̂)2 onde 𝑦̂ é o
valor estimado.

Usando este método, os valores de a e b são:

Usando as fórmulas acima, determine os coeficientes a e b e componha a equação


de regressão, substituindo os valores encontrados na equação y = ax + b . Use os
resultados da tabela abaixo.
28
Bioestatística _ Manuel João Castigo

Para 6 comerciais; 𝑦 = 36,15 + 4,95 × 6 = 65,85


A questão agora é: Qual é a eficácia com que essa equação aproxima os dados? Essa
medida é o coeficiente de determinação:

Para o caso dos dados da nossa tabela:


𝑅 2 = 0.932 = 0.8649

O que significa que apenas 86 % da variação das vendas é explicada pela variação do
número de anúncios. Os restantes 14% podem ser explicados por outras variáveis
ligadas às vendas, como por exemplo a renda.

Hipóteses do modelo de regressão linear

A utilização do modelo de regressão linear simples carece da verificação das


seguintes hipóteses:
1. Linearidade do fenómeno em estudo;
2. Para cada valor fixo da variável independente, a variável dependente
tem uma distribuição normal com média b + ax e variância constante
𝜎 2;
3. As observações de y são independentes umas das outras;
4. Os resíduos têm distribuição normal, com média zero e variância
constante 𝜎 2 ;
5. As variâncias aleatórias residuais referentes a duas observações
diferentes não estão correlacionadas, sendo portanto independentes
entre si. Deste modo a sua covariância é zero.
29
Bioestatística _ Manuel João Castigo

EXERCÍCIOS
30
Bioestatística _ Manuel João Castigo
31
Bioestatística _ Manuel João Castigo

Você também pode gostar