Você está na página 1de 121

NDICE

PREFCIO ..................................................................................................7
Captulo 1 - RECENSEAMENTO E SONDAGEM. POPULAO E AMOSTRA...........11
1.1 - Recenseamento e sondagem ...........................................................11
1.2 - Populao e Amostra ........................................................................15
1.3 - Estatstica Descritiva e Estatstica Indutiva ......................................26
1.4 - Exemplos de aplicao da Estatstica ..............................................29
Captulo 2 - ANLISE, REPRESENTAO E REDUO DE DADOS. TABELAS
E GRFICOS ............................................................................................31
2.1 - Introduo .........................................................................................31
2.2 - Tipos de dados. Frequncia absoluta e relativa ...............................32
2.2.1 - Dados qualitativos .....................................................................32
2.2.2 - Dados quantitativos ...................................................................34
2.3 - Representao grfica de dados ......................................................41
2.3.1 - Variveis discretas. Diagrama de barras ...................................41
2.3.2 - Variveis contnuas. Histograma. Funo cumulativa ...............43
2.3.2.1 - Histograma ...................................................................43
2.3.2.2 - Funo cumulativa .......................................................47
2.3.3 - Outras representaes grficas ................................................50
2.3.3.1 - Diagrama circular .............................................................50
2.3.3.2 - Caule-e-folhas ................................................................51
2.3.3.3 - Diagrama de extremos e quartis ......................................56
Captulo 3 - CARACTERSTICAS AMOSTRAIS. MEDIDAS DE LOCALIZAO
E DISPERSO ..........................................................................................71
3.1 - Introduo .........................................................................................71
3.2 - Medidas de localizao ....................................................................72
3.2.1 - Mdia .........................................................................................73
3.2.2 - Mediana .....................................................................................79
3.2.3 - Quartis .......................................................................................85
3.2.4 - Moda ..........................................................................................87

3.3 - Medidas de disperso .......................................................................91


3.3.1 - Varincia....................................................................................92
3.3.2 - Desvio padro ...........................................................................93
3.3.3 - Amplitude inter-quartil ...............................................................96
Captulo 4 - DADOS BIVARIADOS. CORRELAO E REGRESSO .......................103
4.1 - Introduo .......................................................................................103
4.2 - Coeficiente de correlao linear ...................................................106
4.3 - Recta de regresso.........................................................................108
4.4 - Anlise preliminar dos dados, antes de construir a recta de
regresso 111
Captulo 5 - NOTAS FINAIS ........................................................................................115
5.1 - Introduo .......................................................................................115
5.2 - Sugestes para projectos a desenvolver pelos alunos .................116
5.3 - Sugestes para actividades na sala de aula ..................................117
Bibliografia - 119

PREFCIO

Este guia tem por objectivo apoiar o professor de Matemtica na leccionao da


componente Estatstica do programa do 10 ano. Foi considerado importante que esse
apoio se orientasse em duas dimenses: uma cientfica proporcionando informao
actualizada relativamente a conceitos fundamentais indicados no pro-grama e uma
dimenso

didctica

onde

so

sugeridas actividades que

possam facilitar

aprendizagem dos alunos.

Na componente cientfica houve a preocupao de aprofundar um pouco mais os


assuntos do que o programa sugere, de modo a que, com mais facilidade e
flexibi-lidade,

professor

possa

planificar

desenvolver

as actividades de

aprendizagem.

Na componente a que chamamos "Sugestes didcticas e comentrios" so


apresentadas, a ttulo de exemplo, algumas actividades que podem enriquecer a
aprendizagem dos alunos, na medida em que alertam para possveis erros que
normalmente so cometidos por estes, ou ainda actividades que alargam a dimenso
estritamente tcnica dos clculos. Sugerimos ainda a utilizao de uma calculadora de
modo a que, ao libertar o aluno dos clculos, ele mais fcil e rapidamente compreenda
os conceitos. Em alguns exemplos evidenciamos o modo como uma calculadora grfica
pode ser um instrumento til e necessrio para uma melhor compreenso das diversas
situaes em estudo (qualquer outra calculadora grfica pode ser utilizada, com as
necessrias adaptaes).

Cada vez mais reconhecida a importncia da Estatstica no currculo dos alunos. Ela
tem sido inserida nos programas de Matemtica e encarada como uma rea favorvel
ao desenvolvimento de certas capacidades expressas nos currculos, tais como
interpretar e intervir no real; formular e resolver problemas; comunicar; manifestar rigor
e esprito crtico; e ainda a aquisio de uma atitude positiva face Cincia. Deste
modo, ensinar Estatstica no pode limitar-se ao ensino de tcnicas e frmulas e

aprender Estatstica no pode ser aprender a aplicar rotineiramente procedimentos


desinseridos de contextos, sem ter de interpretar, de analisar e de criticar.

Uma das finalidades da escola preparar os alunos para as necessidades e problemas


do mundo real onde vivemos, necessidades e problemas esses que todos os dias
aparecem nos meios de comunicao social, televiso, rdio e jornais. Alfabetizar
estatisticamente os alunos de modo a perceberem as notcias que ouvem e lem,
desenvolver-lhes o sentido crtico, a capacidade de argumentar sobre elas e
inclusivamente serem capazes de intervir e tomar decises.

Outro aspecto importante no ensino da Estatstica a compreenso da importncia da


cincia e da investigao como um meio de resolver problemas do homem e obter
benefcios para a sociedade. A Estatstica relevante para reas como a Economia, a
Medicina, a Poltica, a Geografia, a Psicologia e muitas outras. A procura do
conhecimento tem sido uma das motivaes das pessoas que se dedicam a investigar e
a Estatstica tem vindo a desempenhar um papel cada vez mais importante na seriedade
dos processos utilizados nessa procura da "verdade". Por exemplo, as questes
relativas aos processos de amostragem devem ser discutidas e bastante trabalhadas
com os alunos, visto depender da amostra e do processo da sua seleco a validade
das concluses que se podem tirar de um estudo.

Ao nvel do 10 ano de escolaridade a Estatstica assume um carcter puramente


descritivo, onde o nfase dado organizao e interpretao de dados qualitativos e
quantitativos. No entanto uma parte do currculo de Matemtica que mais permite o
desenvolvimento das capacidades nele enunciadas, que proporciona o desenvolvimento
de projectos significativos, que permite a ligao da Matemtica realidade e portanto a
outras reas do saber.

Na Educao Estatstica devero seguir-se os seguinte princpios metodolgicos:


1. Os conceitos estatsticos devero ser sempre abordados em contextos
significativos de modo a que a sua anlise e interpretao possa ser feita de modo
inserido. No tem interesse que o aluno se limite apenas a saber calcular um desvio

padro, por exemplo, mas sim que entenda o significado do valor encontrado na
situao proposta.
2. A comunicao dos resultados de actividades prticas e de problemas dever
ser acompanhada de relatrios escritos e de discusso na turma, onde os alunos
expliquem as concluses por palavras suas. Cada vez mais reconhecida na Educao
Matemtica a importncia da comunicao escrita e oral por parte do aluno e da
discusso entre pares na construo e compreenso dos conceitos e dos
procedimentos.
3. O desenvolvimento de projectos de carcter investigativo pelos alunos deve
ser levado a cabo atravs de trabalho de grupo, porque tambm atravs do trabalho
colaborativo que surge a discusso e portanto, muitas vezes a clarificao dos
conceitos.

No consideramos que esta obra seja definitiva. Contamos, assim, com a vossa
colaborao no sentido de nos enviarem crticas e sugestes, que possam contribuir
para o seu melhoramento.
Sabendo que a componente de Estatstica do programa de Matemtica , de um modo
geral, uma das preferidas pelos alunos, esperamos que este guia contribua para o
professor desenvolver na sala de aula actividades e projectos significativos para eles, e
portanto motivantes, contribuindo assim para o sucesso em Mate-mtica.

Os autores

Captulo 1

RECENSEAMENTO E SONDAGEM
POPULAO E AMOSTRA

1.1 - Recenseamento e sondagem


Estes dois termos, que com certeza fazem j parte do vocabulrio do estudante, so
suficientemente interessantes para iniciar o aluno no estudo da Estatstica, e
suficientemente motivadores para o Professor introduzir os conceitos mais gerais de
populao e amostra, fundamentais a qualquer anlise estatstica.
O termo recenseamento est, em regra geral, associado contagem oficial e peridica
dos indivduos de um Pas, ou parte de um Pas. Ele abrange, no entanto, um leque
mais vasto de situaes. Assim pode definir-se recenseamento do seguinte modo:
Recenseamento - Estudo cientfico de um universo de pessoas, instituies
ou objectos fsicos com o propsito de adquirir conhecimentos, observando
todos os seus elementos, e fazer juzos quantitativos acerca de
caractersticas importantes desse universo.
Para a maioria das pessoas a palavra recenseamento

ou censo

encontra-se

associada enumerao dos elementos da populao de um Pas. O recenseamento


geral de uma populao uma prtica que remonta antiga Roma e Egipto, onde j h
conhecimento de recenseamentos da populao, feitos a intervalos regulares, com o
objectivo principal de obter informao para a colecta de impostos, chamada para o
servio militar e outros assuntos governamentais. Apesar disso, a sua prtica corrente,
com carcter peridico, s teve lugar, na maioria dos Pases, a partir do sec XIX. Esses
censos peridicos so feitos em geral de 10 em 10 anos e, em princpio, todos os
Pases so encorajados a cumprir certas normas internacionais ao elaborar um
recenseamento.
Em Portugal a primeira operao que se conhece deste gnero foi levada a cabo por D.
Joo III em 1527 e ficou conhecida pelo "numerando dos vizinhos", tendo permitido
estalelecer uma estimativa da populao portuguesa. Este apuramento estatstico,

10

constitui um motivo de orgulho para os portugueses visto que foi um dos primeiros
estudos deste gnero conhecido na Europa.
O INE, Instituto Nacional de Estatstica, tem a seu cargo fazer recenseamentos da
popu-lao portuguesa, o ltimo dos quais, o XIII Recenseamento Geral da Populao,
foi reali-zado em 1991. Neste recenseamento ficaram a conhecer-se variadas
caracte-rsticas do nosso povo como por exemplo: a situao civil, a habitacional, a
populao emigrante, etc. Os dados relativos aos censos so extremamente importantes
pois tm influncia directa na deciso em assuntos de interesse nacional e local, tal
como seja na educao, emprego, sade, transportes, recursos naturais, etc, etc.
Comparando resultados de recenseamentos sucessivos pode-se extrapolar e predizer
padres futuros da populao. Podemos obter informao sobre, por exemplo, a
estrutura da idade da populao e crescimento populacional, fundamental para o
planeamento na construo de novas escolas, alojamento para idosos, etc.
A realizao de um recenseamento geral da populao, alm de implicar gastos muito
elevados, extremamente difcil de conduzir. H problemas associados com a recolha
adequada da informao, seu armanezamento, tratamento, posterior divulgao, etc.
de referir que esta prtica se pode estender a outras situaes, tais como, s habitaes
(recenseamento da habitao), s indstrias (recenseamento industrial), Agricultura
(recenseamento agrcola), etc. importante que fique claro que a palavra
recensea-mento est associada anlise de todos os elementos da populao em
causa e que tem por objectivo no s a enumerao dos seus elementos, como tambm
o estudo de caractersticas importantes . No contudo vivel nem desejvel,
principalmente quan-do o nmero dos elementos da populao muito elevado, inquirir
todos os elementos da populao sempre que se quer estudar uma ou mais
caractersticas particulares des-sa populao. Assim surge o conceito de sondagem,
que se pode tentar definir como:
Sondagem - Estudo cientfico de uma parte de uma populao com o
objec-tivo de estudar atitudes, hbitos e preferncias da populao
relativamente a acontecimentos, circunstncias e assuntos de interesse
comum.

11

A realizao de sondagens uma actividade da segunda metade do sc XX. Embora


an-tes de 1930 j se tenham realizado sondagens, estas eram feitas de um modo muito
pouco cientfico. Foi necessrio um desenvolvimento adequado de mtodos e tcnicas
estatsticas para que as sondagens pudessem ser realizadas e os resultados analisados
cientificamente.
S em 1973 que, pela 1 vez , apareceu publicado nos orgos de comunicao social
o resultado de uma sondagem realizada em Portugal, nomeadamente, "63% dos
Portugueses nunca votaram" (Paula Vicente et al, 1996). Embora as sondagens se
tenham popularizado devido a questes polticas, elas no so apenas um importante
instrumento poltico; acima de tudo constituem um instrumento de importncia vital em
estudos de natureza, quer econmica, quer social . Assim, se nos meios polticos as
son-dagens so usadas para obter informao acerca das atitudes dos eleitores, de
modo a planear campanhas, etc, elas so importantes tambm em estudos de mercado,
para testar as preferncias dos consumidores, descobrir o que mais os atrai nos
produtos existentes ou a comercializar, tendo como objectivo o de satisfazer os clientes
e aumen-tar as vendas. Tambm na rea das cincias sociais as sondagens so
importantes para, por exemplo, estudar as condies de vida de certas camadas da
populao.
fundamental referir que, contrariamente ao recenseamento, as sondagens inquirem ou
analisam apenas uma parte da populao em estudo, isto , restringem-se a uma
amostra dessa populao, mas com o objectivo de extrapolar para todos os elementos
da populao os resultados observados na amostra.
Uma sondagem realiza-se em vrias fases: escolha da amostra, obteno da
informao, anlise dos dados e relatrio final. Para que os resultados de uma
sondagem sejam vlidos h necessidade de essa amostra ser representativa da
populao. O processo de recolha da amostra, a amostragem, tem de ser efectuada
com os cuidados adequados. Quando so usadas tcnicas apropriadas e a amostra
suficientemente grande, os resultados obtidos encontram-se em geral perto dos
resultados que se obteriam, se fosse estudada toda a populao.
H certos livros de texto do ensino secundrio que identificam amostragem com
sondagem. Isto no correcto. Com efeito, a amostragem diz respeito ao procedimento

12

de recolha de amostras qualquer que seja a natureza do estudo estatstico que se


pretenda fazer. A sondagem, por sua vez, pressupe a existncia de uma amostragem,
isto , a amostragem uma das vrias fases do processo de sondagem. As sondagens
dizem respeito a um estudo estatstico especfico. importante referir que a sondagem
visa estudar caractersticas da populao tal como ela se apresenta. Por exemplo, se
quisermos comparar diversas escolas relativamente ao sucesso escolar na disciplina de
Matemtica, realizamos uma sondagem. Se quisermos averiguar se o mtodo de ensino
A melhor que o mtodo de ensino B na aprendizagem da Matemtica, sendo cada
um dos mtodos atribudo a grupos diferentes de alunos, e averiguando depois o
sucesso em cada grupo, j no temos uma sondagem, pois houve interveno no
estudo da caracterstica.
Embora o termo sondagem esteja essencialmente ligado a inquritos opinio pblica,
no h nada que impea que a mesma tcnica seja til e aplicada para obter informao
de qualquer outro tipo de populaes. Assim podemos definir mais geralmente
sondagem como:
Sondagem - Estudo estatstico de uma populao, feito atravs de uma
amostra, destinado a estudar uma ou mais das suas caractersticas tal como
elas se apresentam nessa populao.

Sugestes didcticas e comentrios


Discuta com os alunos as vantagens dos governos dos pases efectuarem
periodica-mente recenseamentos das suas populaes.
Discuta tambm o tipo de carctersticas que convm conhecer e com que objectivos.
Ser que os objectivos de hoje so os mesmos de antigamente?

13

1.2 - Populao e Amostra


Quer se trate de uma sondagem ou no, a maior parte das situaes em que
necessrio utilizar tcnicas estatsticas envolve a necessidade de tirar concluses
gerais acerca de um grande conjunto de indivduos, baseando-nos num nmero restrito
desses indviduos. Surge assim a necessidade de definir os conceitos de Populao e
Amostra, conceitos estes j utilizados anteriormente.
Populao - coleco de unidades individuais, que podem ser pessoas,
ani-mais, resultados experimentais, com uma ou mais caractersticas em
co-mum, que se pretendem analisar.
Exemplo 1 - Relativamente populao constituda pelos alunos da Escola Secundria
Prof. Herculano de Carvalho, em Lisboa, poderamos estar interessados em estudar as
seguintes caractersticas populacionais:
- altura (em cm) dos alunos;
- notas obtidas na disciplina de Portugus, no 1 perodo;
- nmero de irmos de cada aluno;
- tempo que cada aluno demora a chegar escola;
- idade dos alunos;
- cor dos olhos.
Exemplo 2 - Uma populao que pode ter interesse estudar a constituda pelas
temperaturas (em C) , todos os dias s 9 horas, na praia da Costa de Caparica.
Ao estudar uma populao, normalmente o que se pretende estudar algumas
caractersticas numricas a que chamamos parmetros.
Exemplo 3 - Ao estudar a populao constituda por todos os potenciais eleitores para
as legislativas, dois parmetros que podem ter interesse so:
- idade mdia dos potenciais eleitores que esto decididos a votar;
- percentagem de eleitores que esto decididos a votar.
Para conhecer aqueles parmetros, teria de se perguntar a cada eleitor a sua idade,
assim como a sua inteno no que diz respeito a votar ou no. Esta tarefa seria
impraticvel, nomeadamente por questes de tempo e de dinheiro.

14

Outras razes, alm das apontadas anteriormente, que podem levar a que no se possa
observar exaustivamente todos os elementos de uma populao, prendem-se com o
facto de algumas populaes terem dimenso infinita - populao constituda pelas
temperaturas em todos os pontos de uma cidade, ou a prpria observao levar
destruio da populao! Por exemplo, o departamento de controlo de qualidade de
uma fbrica de baterias de carros, em que o teste para verificar se a bateria est em
perfeitas condies obriga ao desmantelamento da bateria, no pode verificar todas as
baterias, pois destruiria toda a populao!
As consideraes anteriores levam-nos a concluir que, de um modo geral, no
podemos determinar exactamente os parmetros desconhecidos da populao a
estudar. Podemos sim estim-los utilizando estatsticas, que so quantidades calculadas
a partir da observao de uma amostra recolhida da populao.
Amostra - subconjunto da populao, que se observa com o objectivo de
tirar concluses para a populao de onde foi recolhida.
Tendo em considerao o objectivo com que se recolhe a amostra, o de retirar
concluses para a populao, esta fase do processo estatstico, a da recolha da
amostra, muito importante, pois a amostra deve ser to representativa quanto possvel
da populao.
Resumindo, importante chamar a ateno que, em toda a situao estatstica
envolvendo populao e amostra, a caracterstica numrica que se est a estudar
aparece sob duas formas: como caracterstica populacional ou parmetro e como
caracterstica amostral ou estatstica. No caso do exemplo 3, caracterstica
populacional "percentagem de eleitores que esto decididos a votar" corresponde a
caracterstica amostral " percentagem dos 1000 eleitores (entretanto recolheu-se uma
amostra de dimenso 1000), que interrogados disseram estar decididos a votar". Estas
quantidades so conceptualmente distintas, pois enquanto a caracterstica populacional
pode ser considerada um valor exacto, embora desconhecido, a caracterstica amostral
conhecida, embora contendo um certo erro, mas que todavia pode ser considerada
uma estimativa til da caracterstica populacional respectiva, se efectivamente a
amostra utilizada for representativa da populao subjacente.

15

Quando uma amostra no representativa da populao, diz-se que enviesada. A sua


utilizao para estimar caractersticas da populao pode ter consequncias graves, na
medida em que a amostra tem propriedades que no reflectem as propriedades da
populao.
Exemplos de ms amostras ou amostras enviesadas e resultado da sua utilizao:
Amostra 1 - Opinies de alguns leitores de determinada revista tcnica, para
representar as opinies dos portugueses em geral.
Resultado - Diferentes tipos de pessoas lem diferentes tipos de revistas, pelo
que a amostra no representativa da populao. Basta pensar que, de um
modo geral, a populao feminina ainda no adere s revistas tcnicas como a
populao masculina. A amostra daria unicamente indicaes sobre a populao
constituda pelos leitores da tal revista.
Amostra 2 - Utilizar alguns alunos de uma turma, para tirar concluses sobre o
aproveitamento de todos os alunos da escola.
Resultado - Poderamos concluir que o aproveitamento dos alunos pior ou
me-lhor do que na realidade . As turmas de uma escola no so todas
homo-gneas, pelo que a amostra no representativa dos alunos da escola.
Poderia servir para tirar concluses sobre a populao constituda pelos alunos
da turma.
Amostra 3 - Utilizar os jogadores de uma equipa de basquete de uma
determinada escola para estudar as alturas dos alunos dessa escola.
Resultado - O estudo concluiria que os estudantes so mais altos do que na
realidade so.

Como seleccionar uma "boa" amostra?


A seleco de uma amostra representativa da populao a estudar um problema que
nem sempre simples de abordar, mas existe um princpio que deve estar presente que
o da aleatoriedade. Dada uma populao, uma amostra aleatria uma amostra tal
que, qualquer outra amostra possvel, da mesma dimenso, tem igual possibilidade de
ser seleccionada.

16

Este princpio pode ser exemplificado com uma populao de dimenso pequena, como
no exemplo seguinte.
Exemplo 4 - Consideremos a populao constituda pelos 18 alunos de uma turma do
10 ano de uma determinada Escola Secundria, em que a caracterstica de interesse a
estudar a altura mdia desses alunos. Uma maneira possvel de recolher desta
populao uma amostra aleatria, seria escrever cada um dos indicadores dos
elementos da populao num quadrado de papel, inserir todos esses bocados de papel
numa caixa e depois seleccionar tantos quantos a dimenso da amostra desejada.
Este exemplo pode ser aproveitado pelo Professor, que pedir a cada aluno que retire
da caixa 4 papis, registe os nmeros dos alunos seleccionados e os coloque de novo
na caixa, antes do prximo aluno fazer a recolha da sua amostra. Chamar-se- aqui a
ateno que a recolha est a ser feita sem reposio, pois quando se retira um papel
(elemento da populao), ele no reposto enquanto a amostra no estiver completa
(com a dimenso desejada). Qualquer conjunto de nmeros recolhidos desta forma dar
origem a uma amostra aleatria, constituda pelas alturas dos alunos seleccionados.
Ca-da aluno dispor assim de uma amostra de dimenso 4, que lhe vai permitir calcular
uma mdia, que ser uma estimativa do parmetro a estudar - valor mdio da altura dos
alunos da turma. Obter-se-o tantas estimativas, quantas as amostras retiradas.
Chamar-se- ento a ateno para o facto de nesta altura no se poder dizer qual das
estimativas "melhor", isto , qual delas uma melhor aproximao do parmetro a
estimar, j que esse parmetro desconhecido (obviamente que nesta populao to
pequena seria possvel estudar exaustivamente todos os seus elementos, no sendo
necessrio recolher nenhuma amostra - este exemplo s serve para exemplificar uma
situao)!
O processo que acabamos de descrever um processo que nos permite obter amostras
aleatrias simples.
Nesta altura poder-se- explorar a utilizao da calculadora, para obter uma amostra
aleatria.

17

Actividade - PROCESSOS PARA OBTER AMOSTRAS ALEATRIAS SIMPLES


Uma escola tem 123 alunos do 10 ano. Pretende-se fazer um estudo sobre os
seus projectos quanto ao prosseguimento de estudos superiores. Para isso resolveu
fazer-se um inqurito que abranja uma amostra de 25 alunos. Como obter essa
amostra?
Um mtodo elementar consiste em arranjar 123 papis ou cartes iguais,
escrever em cada um o nome de um aluno, meter tudo num saco, misturar bem e extrair
25 papeis, como j foi explicado anteriormente. Este mtodo pouco prtico (d
bastante trabalho escrever os 123 nomes) mas funciona bem desde que se tenha o
cuidado de misturar cuidadosamente os cartes.
Como quase todas as calculadoras, tanto as cientficas simples como as
grficas, possuem uma funo geradora de nmeros aleatrios 1, podemos aproveitar
esse facto para um novo mtodo.
Comeamos por numerar os alunos, de 1 a 123.
A funo rand (ou RND em certas mquinas) gera um nmero aleatrio
pertencente ao intervalo [0 ; 1[, intervalo que tem amplitude 1. Podamos dividir este
in-tervalo em 123 partes iguais, fazendo corresponder a cada aluno uma das partes.
De-pois ver-se-ia em qual das partes calhava cada nmero aleatrio que aparecesse.
Mas isso no era nada cmodo. Ento, o que vamos fazer arranjar maneira de sortear
um nmero aleatrio num intervalo de amplitude 123.

1 Na realidade so nmeros pseudo-aleatrios, pois so gerados a partir de um mecanismo

determinista, que necessita de uma "semente" para desencadear o processo. Se se considerar a


mesma semente obtm-se sempre a mesma sequncia de nmeros. O que se verifica que
normalmente estes mecanismos esto de tal modo afinados, que os nmeros que geram se
comportam como se fossem aleatrios.

18

Para isso, poderamos comear por pedir com rand


um nmero aleatrio entre 0 e 1. Multiplicando-o por 123,
passamos a ter um nmero aleatrio pertencente ao intervalo
[0 ; 123[. Somando uma unidade, o resultado passa a
per-tencer ao intervalo

[1 ; 124[. Se considerarmos s a

parte in-teira do nmero obtido, ele vai corresponder


exactamente ao nmero de um dos alunos. No exemplo da
figura, seria o aluno n 13.
No entanto, podemos fazer isto de forma mais prtica
escrevendo logo a instruo completa

123

rand + 1 ,

passando a obter um nmero aleatrio pertencente ao


intervalo [1 ; 124[ cada vez que carregarmos em ENTER.
Neste exemplo, os primeiros alunos escolhidos para a amostra so os nmeros
32, 100, 33, 39, 123 e 75. Bastava continuar at obter os 25 elementos, tendo o cuidado
de verificar se no surgiam nmeros repetidos.
Em certas mquinas, o processo ainda pode ser
melhorado do ponto de vista prtico com a funo
randInt(1,123) que gera imediatamente um nmero inteiro
aleatrio entre 1 e 123 (inclusive).

Como queremos 25 nmeros aleatrios, isso pode


ser

obtido

de

uma

vez

fazendo

simplesmente

randInt(1,123,25) e guardando os nmeros numa lista.

19

Depois, podemos at ordenar a lista para ser mais


fcil ver quais foram os alunos seleccionados.

Contudo, novamente temos de ter o cuidado de


verifi-car se no h nmeros repetidos (e o mais provvel
que haja). Se isso acontecer, vai ser preciso sortear mais
alguns nmeros.

Nota: Um outro processo relacionado com a recolha de uma amostra, abordado


atra-vs do exemplo seguinte. Embora seja abordada uma noo que no faz parte do
programa, pensamos que importante, porque relata uma situao que surge com
frequncia nas aplicaes.
Exemplo 5 - Suponhamos que numa escola secundria se pretende averiguar, aps o
1 perodo, a percentagem de alunos do 10 ano, com nota negativa a Matemtica.
Sabe-se que as turmas no so todas uniformes no aproveitamento, pois que a sua
constituio obedeceu partida a procedimentos no aleatrios. Assim, para
seleccionar uma amos-tra representativa da populao a estudar, deve-se ter o seguinte
cuidado: comea-se por verificar quantas turmas e quantos alunos de cada turma
constituem a populao.

20

Para fixar ideias, admitamos que a populao a estudar constituda por 3 turmas A, B
e C, com 25, 30 e 18 alunos respectivamente e que se pretende recolher uma amostra
de dimenso 15. Calculando-se a percentagem de alunos de cada turma que compem
a populao, entra-se com esses valores para calcular quantos alunos se deve recolher
em cada turma para constituirem a amostra:
Turma

N elementos

25

25/73 = .34

.34 x 15 5

30

30/73 = .41

.41 x 15 6

18

18/73 = .25

.25 x 15 4

Total

73

% Pop. N el. da amostra

15

No exemplo anterior obtivemos uma amostra estratificada, em que os estratos so as


turmas. No teria sido correcto recolher a informao sobre os alunos de uma nica das
turmas, pois no havendo garantia de homogeneidade entre as turmas, a amostra
recolhida seria enviesada.
Este exemplo simples pode servir ao Professor para chamar a ateno para outros
ca-sos menos simples, mas cuja tcnica anloga. Por exemplo, ao procurar estudar os
rendimentos anuais da populao constituda pelas famlias portuguesas, deve ser feito
um planeamento prvio sobre a estrutura da populao, identificando alguns estratos,
como sejam o meio rural e urbano e eventualmente dentro destes estratos alguns
sub-estratos. Por exemplo na zona de Lisboa e arredores, so facilmente identificadas
algu-mas zonas socialmente mais favorecidas do que outras, constituindo diferentes
estratos.
Outro caso, o que se passa quando se pretende recolher informao sobre a
percen-tagem de potenciais eleitores que votam em determinado partido. Pode-se
chamar a a-teno para o facto de, frequentemente, empresas diferentes apresentarem
resultados bastante diferentes sobre as percentagens de cada partido, em vsperas de
eleies. Esta discrepncia entre os resultados apresentados prende-se, normalmente,
com a falta de cuidado na seleco da amostra, que no representiva da populao.
Outra tcnica de amostragem que por vezes se utiliza, a da amostragem sistemtica,
que pressupe que a populao se apresenta numerada de 1 a N, por alguma ordem.
Para a recolha de uma amostra de dimenso n, tomamos um elemento da populao de

21

entre os k primeiros e depois selecciona-se a partir da todos os que se distanciam dele


k unidades. No caso do exemplo 4, considerando k = 5, se comeassemos por escolher
o elemento 3, os outros elementos escolhidos seriam 8, 13 e 18.

Qual a dimenso que se deve considerar para a amostra?


Outro problema que se levanta com a recolha da amostra o de saber qual a dimenso
desejada para a amostra a recolher.
Este um problema para o qual nesta fase, no possvel avanar nenhuma teoria,
mas sobre o qual o Professor deve tecer algumas consideraes gerais. Pode comear
por dizer que, para se obter uma amostra que permita calcular estimativas
suficientemente precisas dos parmetros a estudar, a sua dimenso depende muito da
variabilidade da populao subjacente. Por exemplo, se relativamente populao
constituda pelos alunos do 10 ano de uma escola secundria, estivermos interessados
em estudar a sua idade mdia, a dimenso da amostra a recolher no necessita de ser
muito grande j que a varivel idade apresenta valores muito semelhantes, numa classe
etria muito restrita. No entanto se a caracterstica a estudar for o tempo mdio que os
alunos levam a chegar de casa escola, j a amostra ter de ter uma dimenso maior,
uma vez que a variabilidade da populao muito maior. Cada aluno pode apresentar
um valor diferente para esse tempo.
Chama-se a ateno para a existncia de tcnicas que permitem obter valores mnimos
para as dimenses das amostras a recolher e que garantem estimativas com uma
determinada preciso exigida partida. Uma vez garantida essa preciso, a opo por
escolher uma amostra de maior dimenso, uma questo a ponderar entre os custos
envolvidos e o ganho com o acrscimo de preciso. Vem a propsito a seguinte frase
(Statistics: a Tool for the Social Sciences, Mendenhall et al., pag. 226):
"Se a dimenso da amostra demasiado grande, desperdia-se tempo e talento; se a
dimenso da amostra demasiado pequena, desperdia-se tempo e talento".
Convm ainda observar que a dimenso da amostra a recolher no directamente
pro-porcional dimenso da populao a estudar, isto , se por exemplo para uma
popula-o de dimenso 1000 uma amostra de dimenso 100 for suficiente para o

22

estudo de de-terminada caracterstica, no se exige necessariamente uma amostra de


dimenso 200 para estudar a mesma caracterstica de uma populao anloga, mas de
dimenso 2000. Finalmente chama-se a ateno para o facto de que se o processo de
amostra-gem originar uma amostra enviesada, aumentar a dimenso no resolve nada,
antes pelo contrrio!

Sugestes didcticas e comentrios


a) Sugerir aos alunos comentrios sobre a identificao da amostra e sua
represen-tatividade, relativamente respectiva populao, em algumas situaes, tais
como:
1. Para investigar as preferncias musicais dos alunos do ensino secundrio
entregou-se um questionrio aos alunos desse nvel de ensino que frequentavam o
Conservatrio.
2. Uma empresa de publicidade pretendia perceber quais os anncios da televiso que
mais facilmente eram recordados pelas pessoas, tendo inquirido uma amostra de
pes-soas sada de um supermercado num determinado dia.
3. O conselho directivo de uma escola secundria do Porto pretendia saber se os alunos
estavam satisfeitos com a alimentao fornecida pela cantina da escola. Inquiriu todos
os alunos com nmero mpar.
Os exemplos apresentados devem ser simples e bastante claros. Pretende-se apenas
que o aluno perceba que, para poder tirar concluses vlidas para uma determinada
populao, a amostra deve ser cuidadosamente seleccionada de modo a evitar
possveis enviesamentos. Por exemplo, no 1 caso apresentado a amostra seria vlida
apenas para tirar concluses sobre as preferncias musicais dos alunos do secundrio
que tambm frequentam o conservatrio. natural que um aluno que frequenta um
Conservatrio tenha uma apetncia musical diferente doutro que no o frequente e
portanto concluses que se tirem de tal amostra no podem ser vlidas para a
populao dos alunos do Ensino Secundrio. No 2 exemplo a amostra no
representativa da populao pois possvel que as pessoas sada do supermercado
se lembrem melhor dos produtos que, ou acabaram de comprar ou que a encontraram,
sendo assim as suas respostas enviesadas. No 3 exemplo a amostra j

23

representativa da populao. um exemplo de amostragem sistemtica. tambm


importante que o aluno reconhea que uma amostra pode ser representativa de uma
populao quando se pretende estudar uma sua caracterstica e o deixe de ser ao
estudar outra caracterstica. Por exemplo, se se pretende estudar a caracterstica "cor
dos olhos" de uma populao, pode-se recolher uma amostra constituda apenas por
mdicos. Esta amostra no servir, no entanto, para estudar a caracterstica
"conhecimentos de biologia", dessa mesma populao j que os mdicos tm
conhecimentos de Biologia diferentes dos da generalidade da populao. Os conceitos
populao, amostra e caracterstica (caractersticas) a estudar no se podem assim
dissociar.
b) Pedir aos alunos que recolham informao nos jornais sobre notcias que envolvam
recenseamentos e sondagens, aproveitando para as comentar. Por exemplo:

Sondagem

10%
no sabem
quem
o Presidente
da Repblica
DEZ por cento dos portugueses no sabem quem
o Presidente da Repblica e 9 por cento
desconhecem a identidade do primeiro-ministro. Uma
sondagem
de
2000
inquiridos
EX-PRESSO/Euroexpanso revela ainda ndices
mais desoladores para o presidente da Assembleia
da Repblica (s identificado por 39 por cento dos
inquiridos),
para
os
lderes
partidrios
(desconhecidos de mais de metade do universo) e
para os chefes dos grupos parlamentares
(igno-rados pela quase totalidade da amostra). Os
dados da sondagem mostram ainda que os
portugueses no distinguem entre Antnio Guterres/
primeiro-ministro e Antnio Guterres/secretrio-geral
do PS: 91 por cento sabem que ele o chefe de
Governo, mas 52 por cento ignoram que ele o lder
dos socialistas (ver pg. 7).

Ficha Tcnica
Sondagem efectuada entre os dias 6 e 31 de
Janei-ro. O universo constitudo pela populao
de Portugal Continental, com idades entre os 18 e
os 74 anos. A amostra de 1964 indivduos,
entrevistados directamente, nas suas residncias,
seleccionados atravs do mtodo de quotas
resultantes da interseco das variveis sexo,
idade e grau de instruo, e distribudos do
seguinte modo: Litoral Norte (474), Grande Porto
(212) , Interior Norte (272), Litoral Centro (298),
Grande Lisboa (449) e Interior Sul (259). Os
resultados foram ponderados com base nas
variveis regio/sexo/idade. A sondagem da
responsabilidade da Euroexpanso e a anlise de
resultados feita pelo EXPRESSO.

(in Expresso 15/03/97)


A ficha tcnica, que deve vir sempre associada ao relatrio dos resultados de uma
sondagem, absolutamente necessria para a identificao da populao, amostra e

24

processo de amostragem e pode ajudar o Professor a, mais uma vez, lembrar a


importncia da representatividade das amostras. O Professor pode aproveitar para
comentar com os alunos o fenmeno, tantas vezes observado, de resultados de
sondagens contraditrios, principalmente quando esto envolvidas questes polticas.

PAREDE
Recenseamento
A Junta de Freguesia da Parede est a
rea-lizar o recenseamento da populao desta
fre-guesia, afim de actualizar o nmero real das
pessoas ali residentes. Estes dados precisos,
quantitativos de populao, s so actualizados de
dez em dez anos, com o recenseamento geral da
populao.
Para o efeito, a Junta elaborou um formulrio
onde constam o nome e a morada, a na-turalidade
dos residentes, a filiao e outros dados pessoais,
o ano em que se fixou na fre-guesia, a profisso e
as habilitaes literrias.
Todo este processo est a ser realizado por
partes, uma vez que a Parede constituda por
vrios aglomerados, abrangendo uma rea
con-sidervel. Assim, foram entregues em casa
de cada paredense, o nmero de formulrios
cor-respondente aos elementos do agregado
fa-miliar. De seguida, com um prazo mximo de
oito dias, feita a recolha dos formulrios, sendo a
responsabilidade da prpria freguesia.
O acesso aos resultados ser possvel daqui
a alguns meses, quando todo este processo tiver
terminado, visto que, a seguir recolha dos dados
proceder-se- ao seu tratamento.
Brbara Brcia

(in Jornal da Regio, 12/03/97)


Que benefcios para a populao podem advir dos resultados de tal recenseamento?
Em que que esses resultados podem ajudar a Junta de Freguesia da Parede na
tomada de decises? Estas so questes que o Professor pode discutir com os alunos
em face de notcias desta natureza.
Seria interessante tambm se o Professor pudesse levar consigo um exemplar do
formulrio relativo ao recenseamento geral da populao entregue pelo INE, de modo a
poder discutir com os alunos possveis implicaes sociais e econmicas que os
resultados do inqurito possam trazer. Exemplos de alguns resultados extrados do
recenseamento de 1991:
- Existiam 1 235 948 famlias (de vrios tipos) com pelo menos uma criana.

25

- Existiam 100 977 famlias monoparentais, com pelo menos uma criana com menos de
15 anos, em que esta ou estas viviam com o pai ou com a me - maioritariamente com a
me: 89% dos casos) e em cerca de metade dos casos sem outros adultos.
- Existiam 18 034 famlias com crianas com menos de 15 anos, vivendo apenas com
um ou os dois avs.
- 8 616 crianas viviam em alojamentos descritos como "barracas", especialmente junto
s grandes cidades.

1.3 - Estatstica Descritiva e Estatstica Indutiva (Inferncia Estatstica)


Uma vez recolhida a amostra procede-se ao seu estudo. Este consiste em resumir a
informao contida na amostra construindo tabelas, grficos e calculando algumas
caractersticas amostrais (estatsticas). Este estudo descritivo dos dados o objectivo
da Estatstica Descritiva. No entanto, ao estudar a amostra tem-se, normalmente, como
objectivo final inferir para a populao as propriedades estudadas na amostra. Assim o
objectivo do estudo estatstico pode ser o de estimar uma quantidade ou testar uma
hiptese, utilizando-se tcnicas estatsticas convenientes, as quais realam toda a
potencialidade da Estatstica, na medida em que vo permitir tirar concluses acerca de
uma populao, baseando-se numa pequena amostra, dando-nos ainda uma medida do
erro cometido. Esta quantificao do erro cometido, ao transportar para a populao as
propriedades verificadas na amostra, feita utilizando a Probabilidade. Efectivamente,
nesta fase do processo estatstico que temos necessidade de entrar com este conceito,
para quantificar a incerteza associada aos procedimentos aqui considerados.

26

Exemplo 6 - O Senhor X, candidato Cmara da cidade do Porto, pretende saber, qual


a percentagem de eleitores que pensam votar nele nas prximas eleies. Havendo
algumas limitaes de tempo e dinheiro, a empresa encarregada de fazer o estudo
pretendido decidiu recolher uma amostra de dimenso 1000, perguntando a cada eleitor
se sim ou no pensava votar no Senhor X. Como resultado da amostragem obteve-se
um conjunto de sim's e no's, cujo aspecto no muito agradvel, pois primeira vista
no conseguimos concluir nada:
Sim

No
Sim

No
Sim

Sim

Procede-se reduo dos dados, resumindo a informao sobre quantos sim's se


obti-veram, chegando-se concluso que nas 1000 respostas, 635 foram afirmativas.
Ento dizemos que a percentagem de eleitores que pensam votar no candidato, de
entre os in-quiridos, de 63.5%. A funo da Estatstica Descritiva acabou aqui! (Se
toda a Popula-o tivesse sido inquirida, este estudo descritivo dar-nos-ia a informao
necessria para o fim em vista).
Poderemos agora inferir que 63.5% dos eleitores da cidade do Porto pensam votar no
Senhor X? A resposta a esta pergunta nem sim, nem no, mas talvez. agora que
temos necessidade de utilizar o conceito de Probabilidade, para quantificar a incerteza
associada inferncia. Assim, existem processos de inferncia estatstica que, do
resultado obtido a partir da amostra, nos permitiro concluir que o intervalo [60.5%,
66.5%] contm o valor exacto para a percentagem de eleitores da cidade que pensam
votar no Senhor X, com uma confiana de 95%.
Nota - A confiana de 95% deve ser entendida no seguinte sentido: se se recolherem
100 amostras, cada uma de dimenso 1000, ento poderemos construir 100 intervalos;
destes 100 intervalos esperamos que 95 contenham o verdadeiro valor da percentagem
(desconhecida) de eleitores da cidade do Porto, que pensam votar no candidato.

27

Nesta altura o Professor poder recordar aos alunos a forma como as previses so
dadas, em noite de eleies, sob a forma de intervalos. Poder referir que por vezes a
guerra de audincias faz com que estas previses tenham pouco sentido, por
apresentarem intervalos com uma to grande amplitude que a sua preciso, como
estimativas das percentagens pretendidas, muito pequena. Esta situao prende-se
com o facto de as amostras utilizadas para a construo dos intervalos terem uma
dimenso muito reduzida, havendo assim muito pouca informao disponvel. No
entanto, medida que a noite vai avanando, os intervalos vo diminuindo de
amplitude, estando esta diminuio da amplitude relacionada com a dimenso da
amostra que entretanto vai aumentando, at finalmente estarem todos os votos
contados. Nesta altura, os intervalos reduzem-se a pontos, que so as percentagens
pretendidas.
Poder-se- tambm chamar a ateno para que a compreenso do processo estatstico
nos permitir compreender melhor notcias que, com muita frequncia, se lem nos
jornais ou ouvem na televiso. Por vezes alguns estudos sobre os mesmos assuntos,
apresentam resultados que chegam a ser contraditrios! Isto acontece nomeadamente
no estudo de certos aspectos do comportamento humano, utilizando testes psicolgicos,
ou no estudo de certas doenas utilizando cobaias. Muitas das inferncias feitas so
imperfeitas, a maior parte das vezes por terem como base dados imperfeitos.

28

O seguinte esquema pretende resumir as diferentes etapas que normalmente so


seguidas num procedimento estatstico:

Populao

Amostra

Caractersticas
populacionais

Estatstica
Indutiva

Estatstica
Descr itiva
Estudo da amostra:
- tabelas
- grficos
- medidas
-

Caractersticas
amostrais

Sugestes didcticas e comentrios


Das situaes a seguir indicadas refira quais constituem exemplos de Estatstica
Descritiva e de Inferncia Estatstica:
1. Um lote de 100 aparelhos de televiso considera-se em bom estado para venda se ao
serem testados 10 eles no apresentarem deficincias.
Temos aqui um exemplo de Inferncia Estatstica. De uma amostra de 10 televisores
infere-se para a populao do lote de 100. Acredita-se, com base na teoria da Inferncia
Estatstica, que se 10 televisores aleatoriamente seleccionados (seleccionados ao
acaso) estiverem todos bons, ento o mesmo deve acontecer aos restantes.
2. Um teste opinio pblica revelou que 65% da populao portuguesa apoiava um
determinado candidato para Presidente da Repblica. Se esse candidato se apresentar
s eleies, de esperar que ele ganhe.
Temos novamente aqui um exemplo de Inferncia Estatstica. Sendo a amostra
representativa da populao de todos os eleitores Portugueses, ento de esperar que
o que se passa na amostra tambm se passe na populao e portanto que mais do que
50% dos Portugueses votem nesse candidato.

29

3. Os 120 empregados de um fabrica ganha em mdia 100 mil escudos por ms.
Aqui temos apenas um problema de Estatstica Descritiva visto que a informao foi
feita com base nos dados relativos ao salrio de todos os empregados da empresa.
4. Baseados numa amostra de 500 trabalhadores de uma empresa de construo civil,
acredita-se que a mdia dos salrios dos trabalhadores de esse ramo de 110 000$00.
Como apenas se estudou o salrio de uma amostra de trabalhadores da empresa,
estamos perante um problema de Inferncia Estatstica.
Nota: Ao discutir cada exemplo, o Professor deve lembrar que h sempre um erro,
medido em termos de probabilidade, associado a qualquer Inferncia Estatstica que se
faa. Esse erro depende, alm de outros factores, da dimenso da amostra. Assim, no
1 exemplo a inferncia que fizermos tanto mais segura quanto mais televisores forem
inspeccionados, sendo certa apenas se inspeccionarmos todos os televisores.
Repare-se que tambm, no exemplo 2, a inferncia ser tanto mais segura quanto mais
eleitores se inquirirem. No entanto, nunca podemos ter uma garantia de 100% que o
Candidato ganhe as eleies pois pode haver sempre alterao de opinio.

1.4 - Exemplos de aplicao da Estatstica


Estudos de mercado - O gerente de uma fbrica de detergentes pretende lanar um
no-vo produto para lavar a loia, pelo que encarrega uma empresa especialista em
estudos de mercado, de "estimar" a percentagem de potenciais compradores desse
produto.
Populao - conjunto de todos os agregados familiares do Pas.
Amostra - conjunto de alguns agregados familiares, inquiridos pela empresa.
Problema - pretende-se a partir da percentagem de respostas afirmativas, de
entre os inquiridos, sobre a compra do novo produto, obter uma estimativa do
nmero de compradores na populao.
Medicina - Pretende-se estudar o efeito de um novo medicamento para curar
determina-da doena. seleccionado um grupo de 20 doentes, administrando-se o
medicamento a 10 desses doentes escolhidos ao acaso, e o medicamento habitual aos
restantes.

30

Populao - conjunto de todos os doentes com a doena que o medicamento a


estudar pretende tratar.
Amostra - conjunto dos 20 doentes seleccionados.
Problema - pretende-se, a partir dos resultados obtidos, realizar um teste de
hipteses para tomar uma deciso sobre qual dos medicamentos melhor.
Controlo de qualidade- O administrador de uma fbrica de parafusos pretende
assegurar-se de que a percentagem de peas defeituosas, no excede um determinado
valor, a partir do qual determinada encomenda poderia ser rejeitada.
Populao - conjunto de todos os parafusos fabricados ou a fabricar pela fbrica.
Amostra - conjunto de alguns parafusos, escolhidos ao acaso, de entre o lote de
produzidos.
Problema - pretende-se, a partir da percentagem de parafusos defeituosos
pre-sentes na amostra, estimar a percentagem de defeituosos em toda a
produo.
Pedagogia - Um conjunto de pedagogos desenvolveu uma tcnica nova para a
aprendizagem da leitura na escola primria, a qual, segundo dizem, encurta o tempo de
aprendizagem relativamente ao mtodo habitual.
Populao - conjunto dos alunos que entram para a escola primria sem saber ler.
Amostra - conjunto de alunos de algumas escolas, seleccionadas para o estudo.
Os alunos foram separados em dois grupos para se aplicarem as duas tcnicas
em confronto.
Problema - a partir dos tempos de aprendizagem obtidos verificar se existe
evidncia significativa para afirmar que os tempos com a nova tcnica so
menores.

31

Captulo 2

ANLISE, REPRESENTAO E REDUO DE DADOS


TABELAS E GRFICOS

2.1 - Introduo
A forma como se organiza e reduz a informao obtida a partir da observao da
amostra utilizando tabelas, grficos e medidas, depende em grande parte do tipo de
dados a estudar. Estes processos de anlise procuram responder a algumas questes,
tais como:
- Sero os dados quase todos iguais?
- Sero muito diferentes uns dos outros?
- De que modo que so diferentes?
- Existe alguma estrutura subjacente ou alguma tendncia?
- Existem alguns agrupamentos especiais?
- Existem alguns dados muito diferentes da maior parte?
Estas questes no podem ser respondidas rapidamente, olhando unicamente para um
conjunto de dados! No entanto, se estiverem organizados sob a forma de tabelas ou
grficos, j a resposta s questes anteriores se torna mais simples.
Seguidamente comearemos por dar uma possvel classificao para os dados e os
processos adequados para a sua representao. Estes processos de reduo dos
dados permitem realar as caractersticas principais e a estrutura subjacente, custa de
alguma informao que se perde, mas que no relevante para o estudo em vista.

32

2.2 - Tipos de dados. Frequncia absoluta e relativa


Como se sabe o objectivo da Estatstica o estudo de Populaes com caractersticas
comuns. A uma caracterstica comum que possa assumir valores ou modalidades
diferentes, de indivduo para indivduo, chamamos varivel. As variveis podem ser de
dois tipos: qualitativas e quantitativas. Para os dados estatsticos - resultado da
observao de uma varivel, tambm se usa a mesma terminologia, conforme resultem
da observao de variveis qualitativas ou quantitativas.
2.2.1 - Dados qualitativos
Dados qualitativos - Representam a informao que identifica alguma
qualidade, categoria ou caracterstica, no susceptvel de medida, mas de
classificao, assumindo vrias modalidades.
Por exemplo, o estado civil de um indivduo um dado qualitativo, assumindo as
categorias : solteiro, casado, divorciado e vivo.
Ao conjunto de dados, resultantes da observao de alguns elementos da Popu-lao
d-se o nome de amostra observada ou simplesmente amostra. Assim, no que se segue
utilizaremos o termo amostra com o significado de conjunto de dados.
Dado um conjunto de dados, estes so organizados na forma de uma tabela de
frequncias, que apresenta o nmero de elementos - frequncia absoluta ( ou s
frequncia) de cada uma das modalidades ou classes, que os dados assumem.
Numa tabela de frequncias, alm das frequncias absolutas, tambm se apresentam as
frequncias relativas, onde
frequncia relativa =

Erro!

entendendo-se por dimenso da amostra o nmero de elementos da amostra.

33

Exemplo 1: Perguntou-se a cada um dos 100 habitantes de uma determinada aldeia,


qual a telenovela preferida, do seguinte conjunto:
CI - Cinzas

PP - Pedra sobre Pedra CA- Corpo e Alma

MP - Mico Preto

BA - Barriga de Aluguer PL - Plumas e Lantejoulas

Obtiveram-se os seguintes resultados (Obviamente que ningum respondeu " No gosto


de nenhuma" ):

Classes
CI
PP
BA
CA
PL
MP
Total

Freq. abs.
11
31
8
21
13
16
100

Freq. rel.
0.11
0.31
0.08
0.21
0.13
0.16
1.00

A reduo dos dados anteriores segundo uma tabela de frequncias permite concluir
imediatamente que:
A novela preferida por mais pessoas a Pedra sobre Pedra
A novela preferida por menos pessoas a Barriga de Aluguer
Estas concluses no seriam to evidentes a partir dos dados inicialmente recolhidos.
Ao fazer a reduo, sob a forma de uma tabela de frequncias, a nica informao que
se perdeu foi a ordenao inicial dos dados.
Quando se constri uma tabela de frequncias, a partir de uma amostra, um processo
de fcil verificao de que as frequncias esto bem calculadas consiste em som-las
para todas as classes consideradas, pois:
- A soma das frequncias absolutas igual dimenso da amostra;
- A soma das frequncias relativas igual a 1.

34

Exemplo 2: A seguinte tabela apresenta a distribuio de pessoal docente (freq.


absolutas), segundo os ramos de ensino, em Portugal Continental, durante os anos de
1985-1986 e 1986-1987 (Fonte: Anurio Estatstico de Portugal - 1992)

Bsico
Primrio Preparat.

1985-1986
1986-1987

41534
41553

Sec. Unific

29189
31742

28675
28751

Secundrio
Sec. comp. 12ano
Liceal

14187
15171

3584
4136

Tcnico

3069
3454

2216
2656

(cont)
Cursos
Profission

Artstico

1281
969

1985-1986
1986-1987

Total

Mdio
Mag.Infantil
Mag.Primrio

629
602

535
414

571
485

125470
129933

Observao: No foram considerados os ensinos pr-escolar e superior por no haver informao disponvel completa.

A utilizao das frequncias relativas prefervel, relativamente s frequncias


absolutas, pois assim possvel fazer a comparao de conjuntos de dados de
dimenses diferentes. o que se passa no caso do exemplo presente, em que as
dimenses dos conjuntos relativamente a 1985-1986 e 1986-1987 so respectivamente
125470 e 129933.

Bsico
Primrio Preparat.

1985-1986
1986-1987

0.331
0.320

Sec. Unific

0.233
0.244

0.229
0.221

Secundrio
Sec. comp. 12ano
Liceal

0.113
0.117

0.029
0.032

Tcnico

0.024
0.027

0.018
0.020

(cont)
Cursos
Profission.

1985-1986
1986-1987

0.010
0.007

Artstico

0.005
0.005

Mdio
Mag.Infantil
Mag.Primrio

0.004
0.003

0.005
0.004

Total

1
1

Da tabela das frequncias relativas, podemos concluir qual a evoluo, em termos


percentuais dos docentes dos diferentes tipos, de um ano para o outro. Repare-se que
embora o n de docentes do ensino Secundrio Unificado tenha aumentado, em termos
percentuais houve uma diminuio.

35

2.2.2 - Dados quantitativos


Dados

quantitativos

Representam

informao

resultante

de

caractersticas susceptveis de serem medidas, apresentando-se com


diferentes intensidades, que podem ser de natureza discreta - dados
discretos, ou contnua - dados contnuos.
Uma varivel discreta se s pode tomar um n finito (ou infinito numervel) de valores
distintos. o caso, por exemplo, do n de acidentes, por dia, num determi-nado
cruzamento.
No caso de uma varivel contnua, esta pode tomar todos os valores numricos,
compreendidos no seu intervalo de variao. o caso, por exemplo, do peso, da altura,
etc.
Nota: Chama-se a ateno para que a classificao de uma varivel em discreta ou
contnua, por vezes susceptvel de algumas dvidas. Por exemplo a varivel idade, ao
contrrio do que possa parecer primeira vista, j que s utilizamos n-meros inteiros
para a representar, uma varivel contnua, pois a diferena de ida-de entre dois
indivduos pode ser to pequena quanto se queira - um ano, um ms, uma hora, um
minuto, . Podemos dizer que a varivel contnua quando, para se passar de um
valor a outro, se tem de passar por todos os pontos intermdios.
Como organizar os dados?
Os dados so organizados na forma de uma tabela de frequncias, do mesmo modo que
os dados qualitativos. No entanto convm fazer distino entre os dados discretos e
contnuos, j que a construo da tabela de frequncias se processa, de um modo geral,
de forma diferente.
Assim, no caso de dados discretos, a construo da tabela anloga que foi feita para
os dados qualitativos, mas em vez das categorias consideram-se os valores distintos
que surgem na amostra, os quais vo constituir as classes.

36

Exemplo 3: Numa turma do 10 ano da Escola Secundria Professor Herculano de


Carvalho, em Lisboa, os alunos registaram o n de irmos, tendo-se obtido o seguinte
conjunto de dados:
1

Classes
0
1
2
3
4
Total

Tabela de frequncias
Freq. abs.
Freq. rel.
4
0.20
8
0.40
4
0.20
3
0.15
1
0.05
20
1.00

Freq.rel.acum
0.20
0.60
0.80
0.95
1.00
-

Introduzimos na tabela de frequncias mais uma coluna, com as frequncias relativas


acumuladas. Pode servir, por exemplo, para calcular a mediana e os quartis, como
veremos um pouco mais tarde.
Podemos no entanto dispor de uma amostra de dados discretos, mas estes assumi-rem
muitos valores distintos, que torne pouco prtico a construo de uma tabela de
frequncias, onde se consideram todos esses valores como classes. Neste caso
procede-se a um agrupamento conveniente para os dados, como se exemplifica a
seguir.

37

Exemplo 4: No Distrito Sanitrio de Chicago, a escolha dos tcnicos feita mediante


um exame. Em 1966, havia 223 candidatos para 15 lugares. O exame teve lugar no dia
12 de Maro e os resultados dos testes (inteiros numa escala de 0 a 100)
apresentam-se a seguir (Freedman et al., 1991 Statistics, pag.51):
26
33
37
42
44
46
49
52
56
58
61
67
74
82
90

27
33
37
42
44
47
49
53
56
59
61
68
74
82
91

27
33
37
42
44
47
49
53
56
59
62
68
74
83
91

27
33
37
42
45
47
49
53
56
59
62
68
75
83
91

27
33
37
43
45
47
50
53
57
59
62
69
75
83
92

29
34
39
43
45
47
50
53
57
60
63
69
76
83
92

30
34
39
43
45
47
51
54
57
60
63
69
76
84
92

30
34
39
43
45
48
51
54
57
60
64
69
78
84
93

30
35
39
43
45
48
51
54
58
60
65
69
80
84
93

30
35
39
43
45
48
51
54
58
60
66
69
80
84
93

31
36
39
43
46
48
51
54
58
60
66
69
80
84
93

31
36
39
43
46
48
52
55
58
61
66
71
80
84
95

31
36
40
44
46
48
52
55
58
61
67
71
81
84
95

32
37
41
44
46
48
52
55
58
61
67
72
81
90

32
37
42
44
46
48
52
56
58
61
67
73
81
90

Neste caso a construo da tabela de frequncias poderia processar-se do mesmo


modo que no exemplo anterior; resultaria, no entanto, uma tabela com demasiadas
classes. Assim, resolvemos tomar como classes uma partio natural, para os dados
considerados, que a seguinte: considerar como classes os intervalos 20 a 29, 30 a 39,
40 a 49, 50 a 59, 60 a 69, 70 a 79, 80 a 89, 90 a 99.
Classes
20 a 29
30 a 39
40 a 49
50 a 59
60 a 69
70 a 79
80 a 89
90 a 99
Total

Tabela de frequncias
Freq. abs.
6
36
52
46
36
12
20
15
223

freq. rel.
0.027
0.161
0.233
0.206
0.161
0.054
0.090
0.067
0.999

38

Definio das classes


Enquanto que no caso dos dados discretos a construo da tabela de frequncias , de
um modo geral, muito simples, no caso de variveis contnuas o processo um pouco
mais elaborado, j que a definio das classes no to imediata. Efectivamente no
tem sentido considerar, para classes, os diferentes valores que surgem na amostra, pois
eventualmente eles so todos diferentes.
De um modo geral, as classes vo ser intervalos fechados esquerda e abertos
direita, todos eles com a mesma amplitude. As classes no se devem sobrepor nem
deixar intervalos entre elas. O valor mnimo da amostra deve pertencer primeira classe
e o mximo deve pertencer ltima.
O nmero total de classes e a amplitude da cada classe esto relacionados entre si: se
a amplitude aumentar, o nmero de classes diminui, e vice-versa.
Normalmente, conveniente que os extremos de cada classe sejam nmeros de fcil
leitura de modo a que, quando se observa uma tabela ou um grfico, se tenha
imediatamente ideia do significado de cada classe.
Em certos casos, no conveniente que as classes tenham todas a mesma amplitude.
Nessa altura preciso no esquecer que as classes so disjuntas duas a duas e que a
sua unio contm todos os elementos da amostra.
Quantas classes se devem considerar no estudo de uma amostra?
No h uma regra definitiva, sendo esta precisamente uma das etapas que pode causar
mais dificuldades na organizao dos dados na forma de uma tabela de frequncias.
Um nmero exagerado de classes no permite sobressair a forma da distribuio
subjacente aos dados, isto no permite ter uma ideia global da situao; por outro lado
um nmero muito pequeno de classes, despreza muita informao e pode esconder
algumas caractersticas interessantes que no so realadas.

39

Existe uma regra emprica que nos d um valor aproximado para o nmero de classes:
Para uma amostra de dimenso n, o nmero de classes k o menor
inteiro tal que 2k n.
Esta regra deve ser encarada como uma ajuda para iniciar o estudo de um conjunto de
dados, quando no h qualquer outra indicao partida que nos ajude a decidir em
quantas classes vamos organizar os dados.
Exemplo 5: Os dados seguintes (que se encontram ordenados) referem-se ao tempo de
vida (em anos) de 50 doentes que nasceram com uma certa doena rara :
0.8
0.9
1.0
1.1
1.1

1.7
1.9
2.0
2.0
2.4

2.5
2.6
2.6
3.2
3.5

4.8
6.3
6.9
7.6
9.0

9.7
13.5
13.5
14.4
15.5

16.2
18.2
18.2
20.7
21.8

23.5
23.6
23.7
27.1
27.6

28.1
29.7
30.9
31.2
31.7

33.2
36.6
36.7
38.0
40.2

45.0
45.1
61.7
66.4
67.4

Dimenso da amostra: 50
De acordo com a regra emprica apresentada anteriormente teramos:
Nmero de classes:
Amplitude de classe

k = 6, pois 26>50, mas 25<50

Erro! Erro! 11.1

Podemos escolher para amplitude de classe h=10 ( mais sugestivo considerar


intervalos com amplitude de 10 anos do que um valor prximo do sugerido).
Por outro lado vamos comear por construir as classes, considerando para limite inferior
da 1 classe o valor 0, j que o mnimo da amostra est prximo desse valor. Com esta
escolha obtemos 7 classes, em vez do valor 6 sugerido pela regra:

Classes
[0, 10[
[10, 20[
[20, 30[
[30, 40[
[40, 50[
[50, 60[
[60, 70[
Total

Tabela de frequncias
Freq. abs.
Freq. rel.
21
0.42
7
0.14
9
0.18
7
0.14
3
0.06
0
0.00
3
0.06
50
1.00

40

Nota 1: Um erro que se comete com muita frequncia considerar a ltima classe
fechada direita. Este procedimento no correcto. Todas as classes devem ser
construdas segundo a mesma metodologia, isto , fechadas esquerda e abertas
direita.
Nota 2: Para definir um conjunto de classes associado a um conjunto de dados,
de-ve-se ter em conta que, de um modo geral, quanto mais elementos tiver a amostra,
maior ser o nmero de classes que se deve considerar (o que est de acordo com a
regra indicada). No entanto, mesmo que a dimenso da amostra seja suficiente-mente
grande, no aconselhvel considerar um nmero de classes superior a 15.
Exemplo 6 - Foram inquiridos 75 agregados familiares de uma determinado zona
residencial, com o objectivo de tomar decises a muito curto prazo sobre as
necessidades da rede escolar. Cada agregado familiar deu indicaes sobre as idades
dos filhos entre os 3 e os 18 anos. Obteve-se uma amostra de dimenso 133, a qual se
organizou na seguinte tabela de frequncias:

Classes
[3, 6[
[6, 10[
[10, 12[
[12, 15[
[15, 19[
Total

Tabela de frequncias
Freq.abs.
Freq.rel.
44
0.33
36
0.27
28
0.21
15
0.11
10
0.08
133
1.00

Qual o critrio utilizado na definio das classes? O que ressalta da tabela quanto
classe etria da populao da dita zona residencial e quanto s necessidades, no que
diz respeito rede escolar?
Comentrio: Na definio das classes anteriores teve-se em conta o objectivo do
estudo sobre as necessidades da rede escolar. Assim, consideraram-se como classes
as classes etrias que correspondem, de uma maneira geral, aos diferentes graus de
ensino. Da anlise da tabela conclui-se que na dita zona residencial a populao
relativamente jovem, havendo predominncia de crianas em idade pr-escolar, pelo
que se deve comear a pensar em criar meios, para daqui a alguns anos, essas
crianas terem acesso escolaridade obrigatria e eventualmente ao secundrio.

41

Sugestes didcticas e comentrios


1. importante que os alunos interpretem a situao dada, a fim de criticarem o critrio
que foi usado para a definio das classes e que tambm sejam solicitados a decidir
qual o nmero de classes e amplitude de classe mais adequada para um determinado
conjunto de dados. Por exemplo, sugira que se discuta o critrio usado em cada uma
das seguintes situaes:
a) Tempo de reaco muscular a um impulso medido em milsimas de segundo (classes
de amplitude .005):
0.206

0.209

0.218

0.226

0.239

0.224

0.207

0.215

0.219

0.222

0.225

0.219

0.218

0.245

0.220

0.237

0.207

0.245

0.207

0.222

b) Pontuaes de um teste de Matemtica numa escala de 0 a 100, onde houve


classificaes entre 24 e 65 (amplitude 3).
c) Idades dos professores de uma escola portuguesa do 1 ciclo, com idades
compreendidas entre 24 e 65 anos (amplitude 3).
Nota: As situaes das alneas b) e c) so propositadamente ambguas, pois no se
sabe qual a dimenso da amostra, nem o que se pretende com os dados a analisar. Por
exemplo, no caso do exemplo b) no indiferente se as pontuaes se referem a uma
turma ou escola toda. No primeiro caso pode no ter qualquer interesse considerar
classes com aquela amplitude, pois correr-se-ia o risco da maior parte das classes
consideradas ter frequncia nula. Por outro lado pareceria muito mais interessante
considerar classes de amplitude 5, j que nos transmite informao de uma forma mais
sugestiva. No caso da alnea c) ser que tem interesse saber quantos professores esto
perto da reforma, para fazer uma programao atempada das necessidades? Se sim,
talvez se justifique considerar classes com aquela amplitude. So estas condicionantes
que devem ser objecto de discusso.
2. A discusso volta dos possveis critrios utilizados nestes exemplos para a
amplitude das classes, permite que os alunos se apercebam que a melhor escolha
depende por vezes dos objectivos do estudo.
Dada um determinado conjunto de dados solicite aos alunos, em trabalho de gru-po, que
escolham as classes que lhes parecem mais apropriadas a uma deter-minada situao.
Pea para irem apresentar a sua soluo, justificando a escolha que fizeram. Confronte
as diferentes solues e promova a discusso na aula.

42

2.3 - Representao grfica de dados


2.3.1 - Variveis discretas. Diagrama de barras.

Vimos que, no caso de dados discretos, a construo da tabela de frequncias se


resume, de um modo geral, a considerar como classes os diferentes valores que surgem
na amostra. Uma representao grfica adequada para estes dados, o diagrama de
barras.
Diagrama de barras - Representao grfica, que consiste em marcar num
sistema de eixos coordenados, no eixo dos xx, o valor das classes e nesses
pontos barras verticais de altura igual frequncia absoluta ou frequncia
relativa.
Algumas consideraes sobre os passos a seguir na construo do diagrama de barras:
1 - Ordenar a amostra e considerar para classes os diferentes valores a conside-rados.
Marcar essas classes no eixo dos xx, num sistema de eixos coordenados.
2 - Nos pontos onde se consideraram as classes, marcar barras de altura igual
fre-quncia absoluta ou relativa, da respectiva classe. De preferncia utilizar as
fre-quncias relativas, pois para comparar diagramas de barras de amostras
diferentes, temos a garantia de que a soma das barras igual a 1.
Exemplo 3 (cont): O diagrama de barras que representa a distribuio das frequn-cias
do n de irmos dos alunos da turma considerada, tem o seguinte aspecto:
Freq.rel.
.40

.20
.15
.05

n irmos

43

Para representar graficamente as frequncias relativas (absolutas) acumuladas,


considera-se um diagrama de barras em que as barras tm comprimento igual s
frequncias acumuladas.
Freq.rel.
acum.
1.00
.95
.80
.60

.20

n irmos

Quer as tabelas, quer os grficos das frequncias acumuladas so teis na


determinao de certas medidas de localizao a que chamamos mediana e quartis.
Exemplo 4 (cont) - A partir da tabela de frequncias, considerando todos os valores
distintos que compem o conjunto de dados, construiu-se o seguinte diagrama de
barras:
8
7
6
5
4
3
2

Da anlise do grfico anterior verifica-se a existncia de uma lacuna, no havendo


classificaes iguais a 85, 86, 87, 88 e 89 e o n de classificaes iguais ou superiores
a 90 ser de 15, precisamente igual ao n de lugares vagos, para os 223 candidatos. No
ter havido batota da parte dos examinadores?
Nota: No se aconselha pedir aos alunos a construo de grficos que envolvam tantas classes
como o exemplo anterior, se eles no dispuserem de meios computacionais.

44

95

92

89

86

83

80

77

74

71

68

65

62

59

56

53

50

47

44

41

38

35

32

26

29

2.3.2 - Variveis contnuas. Histograma. Funo cumulativa.


2.3.2.1 - Histograma
J vimos anteriormente a forma de obter a tabela de frequncias de uma amostra de
dados contnuos. Ao contrrio do caso anterior, agora as classes j no so pon-tos
isolados, mas intervalos. Assim, a representao grfica j no pode ser o dia-grama de
barras, pois no existem pontos isolados, onde colocar as barras! Vejamos como
construir a representao grfica adequada, que se chama histograma.
Histograma - Para a representao grfica de dados contnuos, usa-se um
diagrama de reas ou histograma, formado por uma sucesso de
rectngulos adjacentes, tendo cada um por base um intervalo de classe e
por rea a frequncia relativa (ou a frequncia absoluta). Deste modo, a
rea total coberta pelo histograma igual a 1 (respectivamente igual a n, a
dimenso da amostra).
Para construir o histograma, quais as alturas que se devem considerar para os
rectngulos?
Se se pretende que a rea do rectngulo, correspondente classe de ordem i, seja a
frequncia relativa

fi (ou absoluta ni), ento a altura desse rectngulo dever ser

Erro!, onde hi representa a amplitude da classe i.

fi
hi

fi

hi
Nota 1: Se todas as classes tiverem a mesma amplitude, ento h i = h. Neste caso, por
vezes constroem-se os rectngulos com alturas iguais s frequncias relativas
(absolutas) das respectivas classes, vindo as reas dos rectngulos proporcionais e no

45

iguais s frequncias. A constante de proporcionalidade a amplitude de classe. No


entanto, se se pretender comparar vrias amostras atravs de histogramas, deve-se ter
o cuidado de os construir de forma indicada inicialmente, de modo que a rea total
ocupada por cada um dos histogramas seja 1.
Nota 2: Um erro que se costuma cometer com muita frequncia construir o histograma
com os rectngulos separados! Este procedimento no correcto, pois os rectngulos
so adjacentes, dando no seu conjunto a ideia de uma rea.
Exemplo 5 (cont) - Para tornar mais simples a construo do histograma, inclumos na
tabela de frequncias uma nova coluna em que para cada classe se considerou a
frequncia relativa a dividir pela amplitude de classe:
Tabela de frequncias
Classes
[0, 10[
[10, 20[
[20, 30[
[30, 40[
[40, 50[
[50, 60[
[60, 70[
Total

Freq. abs.
21
7
9
7
3
0
3
50

Freq. rel.
0.42
0.14
0.18
0.14
0.06
0.00
0.06
1.00

Freq.rel.acum
0.42
0.56
0.74
0.88
0.94
0.94
1.00
-

Freq.rel./h
0.042
0.014
0.018
0.014
0.006
0.000
0.006
-

0.05

Freq.rel./10

0.04
0.03
0.02
0.01
0
[0, 1 0[

[10, 20[

[20, 30[

[30, 40[

[40, 50[

[50, 60[

[60, 70[

Tempo

A rea total ocupada pelo histograma igual a 1.

46

Actividade - Construo do HISTOGRAMA utilizando a mquina de calcular.

Podemos obter um histograma com a calculadora grfica. Para isso, comeamos por
inserir os dados numa lista, normalmente em L1.
Depois vamos a STAT PLOT, escolhemos 1:Plot 1 e
seleccionamos as opes indicadas na figura.

Se em ZOOM escolhermos 9:ZoomStat, a mquina traa um histograma com um certo


nmero de classes.
Carregando em WINDOW vemos
que a primeira classe comea em
0.8 e a ltima termina em 76.914,
sendo a amplitude das classes,
indicada

em

Xscl,

de

aproxima-damente 9.514.
Se quisermos escolher a amplitude das classes e o incio da primeira classe, basta
alterar em WINDOW os respectivos valores.
Por exemplo, comeando em 0 com
amplitude de 10, obtemos este
histograma.

Se teclarmos TRACE e deslocarmos o cursor, podemos ver quantos elementos exis-tem


em cada classe. No caso indicado na figura, a classe [20;30[ tem 9 elementos.
Se quisermos classes de ampli-tude
5, basta fazer Xscl=5 e ada-ptar os
valores no eixo dos YY de modo a
obter um histograma com aspecto
aceitvel.
Fazendo TRACE vemos que, por exemplo, a classe [30 ; 35[ tem 4 elementos.

47

Muitas vezes fazemos um estudo de uma certa amostra na calculadora grfica e depois
no nos convm apagar os dados introduzidos porque iremos precisar deles mais tarde.
Temos por isso de guard-los numa lista prpria.
Para isso, teclamos 2nd

L1 e STO> e depois criamos

uma lista com a seguinte sequncia:


2nd

LIST

OPS

B:

L
e escrevemos a seguir o nome que queremos dar a esta lista,
com um mximo de 5 caracteres (escolhemos DOENT).
Teclando ENTER os dados que estavam em L1 ficam guardados na lista LDOENT.
Quando quisermos voltar a usar estes dados basta ir buscar esta lista a LIST.
2.3.2.2 - Funo cumulativa
Para representar graficamente as frequncias acumuladas considera-se a funo
cumulativa cuja construo se exemplifica a seguir:
Freq.acum.

1.00
0.90
0.80
0.70
0.60
0.50
0.40
0.30
0.20
0.10
0

10

20

30

40

50

60

70

Tempo d e v id a

- Antes do limite inferior da 1 classe, isto o ponto 0, a frequncia acumulada nula,


pelo que se traa um segmento sobre o eixo dos xx, at esse ponto.
- No limite inferior da 2 classe,

isto o ponto 10, a frequncia acumulada a

frequncia da classe anterior, ou seja 0.42. Agora, admitindo que a frequncia se


distribui uniformemente sobre o intervalo da classe, unimos o ponto (0, 0) com o ponto
(10, 0.42).

48

- No limite inferior da 3 classe, a frequncia acumulada a soma das frequncias das


duas classes anteriores, sendo portanto 0.56. Ento, unimos o ponto (10, 0.42) com o
ponto (20, 0.56).
- Quando chegarmos ltima classe, temos a garantia que a frequncia acumulada
correspondente ao seu limite superior igual a 1, pelo que nesse ponto marcamos 1 e
continuamos com um segmento de recta paralelo ao eixo dos xx.
Pode-se chamar a ateno para algumas propriedades da funo cumulativa, tal como
foi construda:
- Est definida para todo o x real;
- sempre no decrescente;
- S assume valores no intervalo [0, 1].
A partir da representao grfica anterior possvel, por exemplo, saber qual o valor
aproximado da varivel tempo de vida a que corresponde uma frequncia relativa
acumulada igual a 50%.
Freq.acum.

1.00
0.90
0.80
0.70
0.60
0.50
0.40
0.30
0.20
0.10
0

10

15 .7 1

20

30

40

50

60

70

Tempo d e v id a

Uma vez que se admite que a frequncia se distribui uniformemente sobre a amplitude
de classe, isto , a frequncia 0.14 (=0.56-0.42) distribui-se uniforme-mente sobre o
intervalo de amplitude 10, atravs da resoluo de uma equao de proporcionalidade,
obtm-se o ponto que andvamos procura:

Erro!= Erro!x = Erro!= 5.71


Ento o valor procurado 10 + 5.71 = 15.71.

49

Ao valor obtido anteriormente, a que corresponde uma frequncia acumulada de 50%,


chamamos mediana. A mediana divide a distribuio das frequncias em duas partes
iguais, j que 50% dos dados so menores ou iguais a ela e os restantes 50% so
maiores ou iguais a ela. Recordamos que a tcnica utilizada permitiu-nos obter um valor
aproximado para a mediana, e no o valor exacto da mediana do conjunto de dados
originais, antes de proceder ao agrupamento. Mais frente, quando falarmos de
medidas de localizao, veremos como determinar a mediana a partir dos dados, sem
estarem agrupados.
Nota: Visto que a partir dos dados agrupados s se pode obter um valor aproximado
para a mediana e no o valor exacto, aconselhamos que se pea aos alunos para obter
esse valor unicamente atravs da representao grfica da funo cumulativa, sem ser
necessrio estar a proceder interpolao.
Em vez de pretendermos determinar o valor a que corresponde a percentagem de 50%,
poderamos procurar os valores a que correspondem as percentagens de 25% ou 75%,
a que chamamos quartis, respectivamente 1 quartil e 3 quartil. A tcnica anloga
seguida para a determinao da mediana.
Nota: Embora o histograma seja uma representao grfica essencialmente para dados
contnuos, tambm se pode utilizar para representar dados discretos, quando estes
assumem muitos valores distintos, como fizemos no Exemplo 4.
Exemplo 4 (cont) - Dado o agrupamento proposto, tem-se o seguinte histograma:

0.25

Freq.rel.

0.2
0.15
0.1

[90,100[

[80,90[

[70,80[

[60,70[

[50,60[

[40,50[

[30,40[

[20, 30[

0.05

Na construo dos rectngulos que formam o histograma, utilizmos para altura de cada

50

Classes

rectngulo a frequncia relativa, em vez do quociente entre a frequncia relativa e a


amplitude de classe, j que as classes tinham todas a mesma amplitude. Chama-se no
entanto a ateno para que a rea total ocupada pelo histograma j no 1, mas sim 10
(amplitude de classe).
A representao deste conjunto de dados sob a forma do histograma, embora faa
perder alguma informao, por outro lado faz sobressair a estrutura subjacente, no que
diz respeito forma da distribuio das frequncias. Verifica-se que essa distri-buio
apresenta uma classe, [40, 50[ com maior frequncia, havendo um decrscimo nas
classes anteriores e posteriores, para tornar novamente a ter um "pico" na penltima
classe. Isto sintoma de que se deve investigar um pouco mais atentamente esta
cauda, j que com uma distribuio de classificaes natural esperar algumas classes
centrais com maior frequncia, a qual ir dimi-nuindo medida que as classes se
afastam dessas classes centrais. Algum do deta-lhe perdido diz respeito ao conjunto das
15 classificaes isoladas das restantes, que se observava no diagrama de barras. Por
outro lado o demasiado detalhe apresentado de um modo geral no diagrama de barras,
no permite sobressair to bem como no histograma, a estrutura subjacente
distribuio das classificaes.

2.3.3 - Outras representaes grficas


Alm das representaes grficas anteriormente consideradas, isto , o diagrama de
barras e o histograma, especialmente adequadas, respectivamente para dados discretos
ou contnuos ( embora o histograma tambm se possa utilizar para dados discretos), h
outras representaes, que passamos a descrever.
2.3.3.1 - Diagrama circular
Como o nome sugere esta representao constituda por um crculo, em que se
a-presentam vrios sectores circulares, tantos quantas as classes consideradas na
ta-bela de frequncias da amostra em estudo. Os ngulos dos sectores so
proporcio-nais s frequncias das classes. Por exemplo uma classe com uma frequncia
re-lativa igual a 0.20, ter no diagrama circular um sector com um ngulo igual a
360x0.20=72 graus. uma representao utilizada essencialmente para dados
qualitativos.

51

Exemplo 1 ( cont): O diagrama circular para este caso tem o seguinte aspecto:

CI
11%

MP
16%

Nesta representao, juntamente com a


identificao da categoria, indica-se a
frequncia relativa da respectiva classe.

PL
13%

PP
31%

CA
21%

BA

2.3.3.2 - Caule-e-folhas
um tipo de representao que se pode considerar entre a tabela e o grfico, uma vez
que so apresentados os verdadeiros valores da amostra, mas numa apresentao
sugestiva, que faz lembrar um histograma. Consiste em escrever do lado esquerdo de
uma linha vertical, o dgito (ou dgitos) da classe de maior grandeza, seguidos dos
restantes. Exemplificamos seguidamente a construo de uma representao em
caule-e-folhas.
Exemplo 6 - Num determinado teste realizado a 48 estudantes, obtiveram-se as
seguintes pontuaes:
75
99
76
93

98
66
60
85

42
90
77
70

75
79
49
62

84
80
92
80

87
89
83
74

65
68
71
69

59
57
78
90

63
95
53
62

86
55
81
84

78
79
77
64

37
88
58
73

Para fazer a representao caule-e-folhas, comeamos por traar uma linha verti-cal e
do lado esquerdo os dgitos dominantes, que no nosso caso o das dezenas:
1 passo
3
4
5
6
7
4 3
8
9

2 passo
3
4
5
6
7
8
9

3 passo
3
4
5
6
7

7
2
9
5
5

8
9

4 7 6 0 9 8 3 1 5 0 4
8 9 0 5 2 3 0

9
7 5 3 8
3 6 8 0 2 9 2 4
5 8 9 9 6 7 1 8 7 0

52

No 1 passo limitamo-nos a colocar os dgitos dominantes, que so os caules. Agora


teremos de pendurar em cada caule as folhas respectivas. O 1 nmero do conjunto de
dados o 75, pelo que vamos pendurar o 5 no caule 7 (2 passo). O processo repete-se
at termos esgotados todos os elementos da amostra (passo 3). Finalmente usual
apresentar as folhas de cada caule ordenadas:
3
4
5
6
7
8
9

7
2
3
0
0
0
0

9
5
2
1
0
0

7
2
3
1
2

8
3
4
3
3

9
4
5
4
5

5
5
4
8

6 8 9
6 7 7 8 8 9 9
5 6 7 8 9
9

Esta representao muito til para ordenar amostras, pois basta agora percorrer a
representao de cima para baixo, para recuperar a amostra ordenada.
Exemplo 7: No seguinte quadro, apresenta-se o nmero de concelhos de cada um dos
distritos de Portugal Continental e das Regies Autnomas de Aores e Madeira
(Anurio Estatstico de Portugal, 1992):
Regio
Aveiro
Beja
Bragana
Braga
Cast.Branco
Coimbra
vora
Faro
Guarda
Leiria

N concelhos
19
14
13
12
11
17
14
16
14
16

Regio
Lisboa
Portalegre
Porto
Santarm
Setbal
Viana Cast.
Vila Real
Viseu
Aores
Madeira

N concelhos
15
15
17
21
13
10
14
24
19
11

Uma representao de caule-e-folhas, possvel para o conjunto de dados considerado


a seguinte:
1
1
1
1
1
2
2
2

0
2
4
6
9
1

1
3
4
6
9

1
3
4 4 5 5
7 7

53

Nesta representao utilizamos 5 caules para o nmero 1, pendurando o 0 e o 1 no


primeiro caule, o 2 e o 3 no segundo caule, etc. Procedeu-se de modo anlogo com o 2.
Chama-se a ateno para que, embora o 2 caule correspondente ao 2 no tenha folhas
penduradas, ele deve estar l, precisamente para dar a ideia da existncia de lacunas
naqueles valores. Por exemplo, na representao anterior, sobressai um distrito com um
nmero de concelhos "substancialmente" superior aos restantes, que o distrito de
Viseu com 24 concelhos.
Se no pretendssemos tantos caules, uma alternativa seria considerar 2 caules para
cada dgito dominante, pendurando no primeiro caule as folhas 0, 1, 2, 3 e 4 e no 2
caule as folhas 5, 6, 7, 8 e 9:
1
1
2

0 1 1 2 3 3 4 4 4 4
5 5 6 6 7 7 9 9
1 4

Repare-se que, em qualquer das modalidades apresentadas, cada caule tem sempre a
possibilidade de ter penduradas o mesmo nmero de folhas diferentes: na primeira
representao 2 folhas e na ltima representao 5 folhas.
Nota: A representao em caule-e-folhas muito sugestiva para a representao de
dois conjuntos de dados referentes mesma caracterstica, mas de populaes
diferentes, como se exemplifica a seguir.
Exemplo 8: Utilizaram-se 45 ratos de ambos os sexos, no estado adulto, e mediu-se o
tempo (em segundos) de reaco a determinada droga, sendo os resultados sumariados
no quadro seguinte:
Sexo
M
M
M
M
M
M
F
F
F

Tempo
142
126
134
112
199
97
90
52
53

Sexo
M
M
M
M
M
M
F
F
F

Tempo
142
128
132
107
118
108
58
55
50

Sexo
M
M
M
M
M
F
F
F
F

Tempo
151
141
120
55
123
33
41
68
64

Sexo
M
M
M
M
M
F
F
F
F

Tempo
121
115
99
120
101
37
65
61
71

Sexo
M
M
M
M
M
F
F
F
F

Tempo
152
127
138
130
95
30
102
66
74

54

73 0
1
8 5 3 2 0
8 6 5 4 1
4 1
0
2

3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

5
1
2
0
0
1
1

7
5
5
0
2
2
2

9
7
8
1 3 6 7
4 8
2

Para comparar o tempo de reaco dos ratos de ambos os sexos, construimos o


diagrama de caule-e-folhas, considerando os mesmos caules e dispondo as folhas para
um e outro lado, conforme o sexo. Da representao anterior ressalta imediatamente o
maior tempo de reaco observado, de um modo geral, nos ratos do sexo masculino,
quando comparado com o do sexo feminino.

Sugestes didcticas e comentrios


No se pretende que os alunos se limitem representao grfica de dados, mas
principalmente que os interpretem no contexto onde esto inseridos. Assim,
importante acrescentar ao pedido de elaborao do grfico, questes que possam
ajudar os alunos a fazer essa interpretao, como no exemplos seguintes:
1. Um professor de Estatstica procura o mtodo mais eficiente para ensinar Estats-tica
aos seus alunos. Assim, resolveu pr em prtica dois mtodos diferentes, um em cada
uma das duas turmas que leccionava. Na turma A usava o mtodo expositivo tradicional,
enquanto que na turma B promovia a discusso dos assuntos na aula e resoluo de
alguns problemas em grupo. Os resultados foram:
Turma A:

Turma B:

73

84

76

70

69

69

46

81

92

66

87

81

78

45

67

73

88

79

95

86

79

75

98

81

82

70

60

82

77

81

81

87

88

94

79

92

77

70

74

71

55

Atravs da representao em diagramas de caule-e-folhas procura-se avaliar a situao


das duas turmas, relativamente aos resultados obtidos (Runyon et al., 1996).
2. Para estudar o comportamento da sua turma relativamente aos dois ltimos testes de
Matemtica, o professor pode pedir aos alunos a representao grfica em diagramas
de caule-e-folhas, dos resultados dos dois testes. Para um dos lados consideram-se os
resultados do 1 teste, enquanto que para o outro lado se consideram os resultados do
2 teste. Ser que a turma melhorou, piorou, ou, de um modo geral, no houve
alteraes significativas?
3. Para comparar as idades dos pais e das mes, pode-se pedir aos alunos da turma
que indiquem as idades do pai e da me. Depois representam-se os dois conjuntos de
dados, constitudos pelas idades das mes e pelas idades dos pais, num sistema de
caule-e-folhas, como no exemplo 8. Estes dados podero ser mais tarde utilizados para
verificar a existncia de correlao.

Que caracterstica que se pretende realar, quando se representa um conjunto de


dados, sob a forma de um histograma ou de uma representao de caule-e-folhas?
Dada uma amostra, o aspecto do histograma reflecte a forma da distribuio da
Populao subjacente aos dados observados. Este um dos aspectos da reduo dos
dados, em que se perde alguma informao contida nesses dados, mas em
contrapartida obtemos a estrutura da Populao que eles pretendem representar.
Alguns histogramas apresentam formas que, pela frequncia com que surgem, merecem
referncia especial. Assim, as distribuies mais comuns apresentadas pelos dados
so:
Distribuies simtricas

56

distribuio

das

frequncias

faz-se

de

forma

aproximadamente

simtrica,

relativamente a uma classe mdia:

Caso especial de uma distribuio simtrica


Um caso especial de uma distribuio simtrica aquele que sugere a forma de um
"sino" e que apresentado por amostras provenientes de Populaes Normais ou
Gaussianas:

Distribuies enviesadas
A distribuio das frequncias faz-se de forma acentuadamente assimtrica,
apresentando valores substancialmente mais pequenos num dos lados, relativamente
ao outro:

Cauda direita mais longa

Cauda esquerda mais longa

Distribuies com caudas longas

57

A distribuio das frequncias faz-se de tal forma que existem algumas classes nos
extremos, cujas frequncias so muito pequenas, relativamente s classes centrais,
apresentando algumas classes intermdias com frequncia nula:

Distribuies com vrios "picos" ou modas


A distribuio das frequncias apresenta 2 ou mais "picos" a que chamamos modas,
sugerindo que os dados so constitudos por vrios grupos distintos:

2.3.3.3 - Diagrama de extremos e quartis


um tipo de representao grfica, em que se realam algumas caractersticas da
amostra. O conjunto dos valores da amostra compreendidos entre o 1 e o 3 QUARTIS,
que vamos representar por Q1 e Q3 representado por um rectngulo (caixa) com a
MEDIANA indicada por uma barra. A largura do rectngulo no d qualquer informao,
pelo que pode ser qualquer. Consideram-se seguidamente duas linhas que unem os
meios dos lados do rectngulo com os extremos da amostra. Para obter esta
representao, comea por se recolher da amostra, informao sobre 5 nmeros, que
so: os 2 extremos (mnimo e mximo), a mediana e o 1 e 3 quartis. A representao
do diagrama de extremos e quartis tem o seguinte aspecto:

Extremo
i nferior

1 quarti l mediana

3 quarti l

Extremo
superi or

58

O extremo inferior o mnimo da amostra, enquanto que o extremo superior o mximo


da amostra.

Qual a importncia da representao do diagrama de extremos e quartis?


Reala informao importante sobre os dados, nomeadamente sobre o centro da
amostra (mediana), variabilidade e simetria. Repare-se que da forma como o diagrama
se constri, se pode retirar imediatamente a seguinte informao:
25 % d os men ores
el eme ntos

E xtremo
i nferio r

50 % d os da dos

1 qu arti l med ia na

25 % d os mai ores
el eme ntos

3 qu arti l

E xtremo
su peri or

Como que se pode reconhecer a simetria ou o enviesamento dos dados, a partir desta
representao?
Existem fundamentalmente trs caractersticas da representao extremos e quartis,
que nos do ideia da simetria ou enviesamento dos dados e da sua maior ou menor
concentrao:
- distncia entre a linha indicadora da mediana e os lados do rectngulo;
- comprimento da caixa;
- comprimento das linhas que saem dos lados dos rectngulos.
Apresentamos seguidamente 3 exemplos de diagramas de extremos e quartis,
correspondentes a tipos diferentes de distribuio dos dados.

Dados simtricos

Enviesamento para a esq uerda

Enviesamento para a direita

59

Exemplo 9 - Num inqurito comunidade cientfica sobre a utilizao de meios


in-formticos, realizado pela Fundao para o Desenvolvimento dos Meios Nacionais de
Clculo Cientfico, obtiveram-se os seguintes resultados quanto ao tipo de problemas
tratados:
Ajustamento de dados
Anlise de Fourier
Anl. Estatst. de Dados
Desenv. de Software
Diferenas Finitas
Diferenciao Numrica
Elementos de Fronteira
Elementos Finitos
Eq. Algbricas Lineares
Eq. Algb. no Lineares

337
195
144
116
96
83
75
74
70
59

Eq. Diferenc. Ordinrias


Grfica Computacional
Integrao Numrica
Inteligncia Artificial
Interpolao
Mtodo Monte Carlo
Mtodos Numricos
Simulao
Valores e Vect. Prprios
Outros

54
53
38
30
27
19
19
14
11
141

Uma representao de extremos e quartis para estes dados, tem o seguinte aspecto 2:

Da anlise da representao anterior, verifica-se que os 50% dos dados centrais so um


pouco enviesados para a direita, havendo um grande enviesamento nos 25% dos dados
superiores, provocado pelo valor 337.
Nota: A representao de extremos e quartis muito til para a comparao de vrios
conjuntos de dados, como se exemplifica a seguir.

1 Na seco destinada s caractersticas amostrais indicaremos a maneira de calcular a mediana

e os quartis.

60

Exemplo 10: As tabelas seguintes referem-se populao (em centenas de milhar)


de 10 grandes cidades de 6 pases europeus, reportada no World Almanac de 1967 e
usando o ltimo censo acessvel.
1) Sucia
Estocolmo 7.87
Gotemburgo 4.22
Malmo
2.49
Norrkoping 0.94
Vasteras
0.89
Uppsala
0.87
Orebro
0.81
Halsingborg 0.78
Linkoping
0.71
Boras
0.69
(4) Espanha
Madrid
25.99
Barcelona 16.96
Valencia
5.01
Sevilha
4.74
Saragoa
3.57
Bilbao
3.34
Mlaga
3.12
Murcia
2.64
Crdova
2.14
Palma
1.69

(2) Holanda
Amesterdo 8.68
Roterdo
7.31
Haia
6.02
Utrecht
2.64
Eindhoven 1.75
Haarlem
1.72
Groningen 1.51
Tilburg
1.42
Enschede 1.31
Arnhem
1.29
(5) Inglaterra
Londres
79.86
Birmingham11.02
Liverpool
7.22
Manchester 6.38
Leeds
5.09
Sheffield
4.88
Bristol
4.30
Coventry
3.30
Nottingham 3.10
Kingston
2.99

(3) Frana
Paris
28.11
Marselha
7.83
Lyon
5.35
Toulouse
3.30
Nice
2.94
Bordus
2.54
Nantes
2.46
Estrasburgo 2.33
St. Etienne 2.03
Lille
1.99
(6) Itlia
Roma
23.59
Milo
15.80
Npoles 11.82
Turim
11.14
Gnova
7.84
Palermo
5.90
Florena
4.54
Bolonha
4.44
Catnia
3.61
Veneza
3.36

Para comparar os conjuntos de dados anteriores, utilizamos diagramas de extremos e


quartis paralelos

It li a
Ingl aterra
E spa nha
Fran a
Hol and a
S uc ia
0

80

40

Na representao anterior, as caixas aparecem com um comprimento muito pequeno,


devido ao valor exagerado correspondente cidade de Londres. Quando retiramos a
Inglaterra, j se torna mais simples a comparao dos restantes pases, sendo de

61

realar ainda as cidades de Paris, Madrid e Roma substancialmente mais populosas dos
que as restantes. De notar tambm o enviesamento, com cauda mais longa para a
direita, apresentado por todos os pases:

It li a

E spa nha
Fran a
Hol and a
S uc ia
0

15

30

Nas representaes anteriores apresentam-se os diagramas de extremos e quartis dos


diferentes conjuntos de dados, por ordem crescente da respectiva mediana.
Imediatamente se conclui que existe um enviesamento para a direita, isto , h menor
disperso no grupo das 50% cidades menos populosas, quando comparadas com as
50% cidades mais populosas. Tambm se verifica que (de entre os pases
considerados) a Itlia o pas que tem, de um modo geral, as cidades mais populosas .

Sugestes didcticas e comentrios


1. Sugerir a um grupo de alunos que investigue quais as 20 serras mais altas de
Por-tugal continental e que faam a respectiva representao num diagrama de
extremos e quartis.
2. Pedir a um grupo de alunos que durante 2 semanas tome nota das temperaturas
mximas e mnimas registadas diariamente, em vrias cidades de Portugal continental,
assim como no Funchal e Ponta Delgada. Depois dos dados recolhidos utilizar
diagramas de extremos e quartis paralelos para comparar a distribuio das
temperaturas mximas das diferentes cidades. Repetir para as temperaturas mnimas.
Para cada cidade, comparar a distribuio das temperaturas mximas com a das
mnimas.

62

Nota:

Caixa-dos-bigodes

(Box-plot)

Uma outra representao anloga

anteriormente considerada, mas um pouco mais elaborada a caixa dos bigodes, que
se apresenta a seguir.
Tal como no diagrama de extremos e quartis o conjunto dos valores da amostra
compreendidos entre o 1 e o 3 QUARTIS, representado por um rectngulo (caixa)
com a MEDIANA indicada por uma barra. Consideram-se seguidamente duas linhas que
unem os meios dos lados dos rectngulos com os chamados valores adjacentes, que
definiremos a seguir.

Val or a dj ace nte 1 qu arti l


med ia na
in fe ri or

3 qu arti l

Val or a dj ace nte


sup erio r

Define-se valor adjacente inferior AI, como sendo o menor valor da amostra
(eventualmente o mnimo), que maior ou igual que
Q1 - 1.5 x (Q3 - Q1)
Define-se valor adjacente superior AS, como sendo o maior valor da amostra
(eventualmente o mximo), que menor ou igual que
Q3 + 1.5 x (Q3 - Q1)
Por vezes surgem na amostra valores, que se distinguem dos restantes por serem
muitos grandes ou muito pequenos. A esses valores chamamos outliers. Dizemos que
um valor outlier, quando no est compreendido no intervalo [AI, AS]. Os outliers
representam-se na caixa-dos-bigodes por uma notao que pode ser um trao, um
asterisco ou um ponto.
Tal como a representao extremos e quartis, a caixa-dos-bigodes reala informao
importante sobre os dados, nomeadamente sobre o centro da amostra (mediana),
variabilidade, simetria, dando-nos ainda informao sobre a existncia de outliers
(valores que se distinguem dos restantes, dando a ideia de no pertencerem ao mesmo
conjunto de dados).

63

Repare-se que esta representao coincide com o diagrama de extremos e quartis,


quando no existem outliers.
Exemplo 9 (cont) - Uma representao caixa-dos-bigodes para estes dados, tem o
seguinte aspecto:

Da anlise da representao anterior, verifica-se que os dados so um pouco


enviesados para a direita e existe um outlier correspondente ao valor 337, que diz
respeito utilizao dos meios informticos para o ajustamento de dados.
Sugestes didcticas e comentrios
1 - Considere as seguintes tabelas que apresentam as "Despesas dos agregados
familiares por categoria scio-econmica: principais rubricas", relativamente aos anos
de 1981 e 1990. (Fonte: A situao social em Portugal, 1960 - 1995, Orga-nizao de
Antnio Barreto, Instituto de Cincias Sociais, Universidade de Lisboa)
Ano 1981

Desp.
mdia
anual total
Aliment.
Vesturio
Habitao
Sade
Transporte
Educao e
cultura
Outros

Produtores
agrcolas

Assalaria-d
os agrcolas

100

100

Pessoal
operrio

100

Empresri-o
s no
agrcolas

Pessoal
admi-nistrati
vo

Quadros
tcnicos,
cientficos e
de direco

100

100

100

Profission.
liberais

100

No activos

100

52.7
10.4
16.5
2.7
9.2
1.4

51.9
10.5
17.5
2.6
8.2
1.9

42.9
10.9
18.0
1.9
12.0
3.3

36.6
10.4
15.1
2.4
19.0
3.9

34.2
10.6
18.7
2.5
14.7
4.9

22.6
9.4
19.0
1.9
22.5
6.9

27.9
7.9
15.1
1.7
28.2
5.5

47.3
8.9
18.6
4.2
9.4
2.9

7.2

7.4

11.0

12.6

14.5

17.7

13.8

8.8

Ano 1990

64

Desp.
mdia
anual total
Aliment.
Vesturio
Habitao
Sade
Transporte
Educao e
cultura
Outros

Produtores
agrcolas

Assalaria-d
os agrcolas

100

100

Pessoal
operrio

100

Empresri-o
s no
agrcolas

Pessoal
admi-nistrati
vo

Quadros
tcnicos,
cientficos e
de direco

100

100

100

Profission.
liberais

100

No activos

100

44.3
9.9
17.3
2.1
13.1
2.0

44.4
10.8
17.2
2.1
10.1
3.1

35.7
9.7
19.0
2.4
14.1
3.6

29.8
9.9
19.5
2.4
16.2
3.6

26.9
10.2
18.5
2.5
19.0
4.5

19.9
9.4
19.7
2.6
22.4
6.8

19.0
9.7
21.8
2.5
19.5
3.6

40.7
8.1
20.3
4.8
11.9
2.5

11.3

12.3

15.5

18.6

18.4

19.3

24.0

11.8

a) Fixando-se num dos anos, considere dois grupos scio-econmicos sua escolha.
Faa representaes grficas adequadas para os dados relativos aos grupos que
considerou e compare-os no que diz respeito s despesas nas diferentes rubricas.
b) Considerando o mesmo grupo para os dois anos, estude a evoluo das despesas
nas diferentes rubricas.
2 - Em 1960 e novamente em 1980 foi feito um inqurito s mulheres americanas sobre
o n de filhos. Os resultados obtidos foram os seguintes ( Freedman et al., 1991,
Statistics):
Nmero de
filhos
0
1
2
3
4
5
6
7
8
9

% mulheres
1960
22
17
21
16
10
5
3
2
2
3

% mulheres
1980
29
16
22
15
8
4
2
1
1
1

Construa uma representao grfica adequada para os dados anteriores e tire


concluses, no que diz respeito evoluo da natalidade.

65

3 - A tabela seguinte mostra a distribuio das frequncias relativas do ltimo dgito das
idades dos indivduos adultos. Esta informao foi recolhida relativamente a dois censos
diferentes: o de 1880 e o de 1970 ( Freedman et al., 1991, Statistics)
Dgito
0
1
2
3
4
5
6
7
8
9

1880
16.8
6.7
9.4
8.6
8.8
13.4
9.4
8.5
10.2
8.2

1970
10.6
9.9
10.0
9.6
9.8
10.0
9.9
10.2
10.0
10.1

a) Da consulta da tabela verifica a existncia de algumas anomalias?


b) Construa diagramas de barras relativamente aos dois censos.
c) Em 1880 havia uma ntida preferncia pelos dgitos 0 e 5. Tem alguma explicao
para este facto?
d) Em 1970 essa preferncia quase despercebida. Como explica esse facto?

66

4 - Considere a seguinte tabela de frequncias correspondente aos resultados de uma


prova especfica de Literatura Portuguesa, no ano de 1995.
a) Da consulta da tabela verifica a existncia de algumas anomalias?
b) Faa um agrupamento conveniente para os dados, assim como uma represen-tao
grfica.
Nota

Freq.abs

Nota

Freq.abs

Nota

Freq.abs

Nota

Freq.abs

Nota

Freq.abs

0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

17
2
12
6
10
22
27
26
42
25
59
25
37
33
50
73
43
62
65
56

20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39

115
51
56
73
61
115
64
76
69
59
114
57
83
80
62
118
62
96
94
74

40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59

149
82
98
81
64
104
54
69
64
38
186
74
101
61
63
80
52
48
37
39

60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79

40
38
30
52
38
34
26
22
37
19
27
19
14
34
15
18
14
1
22
13

80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99

11
13
7
7
6
4
8
1
6
1
6
2
2
1
1
4
1
0
1
0

5 - O histograma seguinte representa o rendimento familiar, em milhares de dlares de


famlias americanas (Freedman et al., 1991, Statistics)

6
5
4

3
2

1
0
0

10

15

20

25

50

Cerca de 1% das famlias tm rendimentos entre 0 e 1000 dlares. Estime a


percentagem de famlias com rendimentos:
I) a) Entre 1000 dlares e 2000 dlares

b) Entre 2000 dlares e 3000 dlares

c) Entre 3000 dlares e 4000 dlares d) Entre 4000 dlares e 5000 dlares

67

e) Entre 4000 dlares e 7000 dlares

f) Entre 7000 dlares e 10000 dlares

II) a) Haver mais famlias com rendimentos entre 6000 dlares e 7000 dlares ou
entre 7000 dlares e 8000 dlares ? Ou ser aproximadamente o mesmo?
b) Haver mais famlias com rendimentos entre 10000 dlares e 11000 dlares ou entre
15000 dlares e 16000 dlares ? Ou ser aproximadamente o mesmo?
R:

I) a) 2%

b) 3% c) 4% d) 5% e) 15% f) 15%

II) a) O mesmo b) Mais entre 10000 dlares e 11000 dlares


Comentrio: Chama-se a ateno para que neste histograma, a escala do eixo das ordenadas
tem unicamente como funo permitir o clculo das reas dos rectngulos que formam o
histograma. Assim, a informao relevante dada pela percentagem de 1% de famlias com
rendimentos entre 0 e 1000 dlares, o que significa que a uma rea igual a 1 corresponde uma
frequncia relativa de 1%. Por exemplo a percentagem de famlias com rendimentos entre 15 e 25
ser de 25% (a rea correspondente a esta classe 10x2.5=25).

6 - O histograma seguinte mostra a distribuio das notas finais de Matemtica de uma


determinada turma:

0
4

12

16

20

a) Algum aluno teve nota inferior a 4?


b) 10% dos alunos da turma tiveram nota entre 4 e 8. Qual a % de alunos com nota
entre 8 e 12? (Ver comentrio do exerccio anterior)
c) Qual a percentagem de alunos com nota superior a 12?
R:

a) No b) 20% c) 70%

68

- Seguidamente apresentam-se 4 "manchas" de histogramas, que apresentam os

resultados do estudo, numa pequena cidade, das 4 caractersticas seguintes


(Free-dman et al., 1991, Statistics):
a) Alturas de todos os elementos das famlias em que os pais tinham idade inferior a 24
anos.
b) Alturas dos casais (marido e mulher).
c) Alturas de todos os indivduos da cidade.
d) Alturas de todos os automveis.
Quais dos histogramas podem representar cada uma das variveis anteriores? Explique
porqu.

(1)

(2)

50

125

200

50

125

(altura em c m )

(altura em c m )

(3)

50

(4)

125

200

50

(altura em c m )
R:a) - (2)

200

b) - (3)

125

200

(altura em c m )
c) - (4)

d) - (1)

8 - Num viveiro dos Servios Florestais, est-se a estudar o crescimento, no nosso


clima, de um novo tipo de pinheiro (PN). Passados dois meses sobre o lanamento
terra das sementes, mediu-se a altura atingida pelos pinheiros, tendo-se recolhido uma
amostra de dimenso 100, a partir da qual se construiu o seguinte histograma (a
unidade de medida o mm):
a) Qual a percentagem de pinheiros com tamanho inferior a 44 mm?

69

b) Pensa-se que o pinheiro habitual (PH) tem um crescimento muito mais lento que esta
nova espcie ensaiada, admitindo-se at que a velocidade do crescimento do PH seja
metade da do PN. Por outro lado, pensa-se que se se utilizar um fertilizante adequado,
o PN cresce mais 10 mm do que se no se utilizar o fertilizante. Tendo em considerao
o histograma apresentado pela amostra de PN, esboce histogra-mas que representem
uma amostra de PH e outra amostra de PN com fertilizante. Justifique os esboos
apresentados.

30

Freq . Absolu ta

25

20

15

10

0
[35,38 [

[38,41 [

[41,44 [

[44,47 [

[47,50 [

[50,53 [

[53,56 [

Comentrio: No histograma anterior utilizaram-se como alturas dos rectngulos que


formam o histograma, as frequncias absolutas. Deve-se chamar a ateno para que a
rea total ocupada pelo histograma igual a 300.

70

9 - Um servio de sade registou o n mdio de cigarros fumados por dia por cada
doente (homem) assistido nesse servio. Os dados recolhidos permitiram construir o
seguinte histograma:
Freq.rel
%
h
4
3
2
1
0
0

10

20

40

80

a) A percentagem de fumadores que fuma menos de 10 cigarros por dia


aproximadamente:

1.5%; 15%;

30%;

50%?

b) A percentagem de fumadores que fuma um mao ou mais por dia, mas menos de 2
maos aproximadamente:

1.5%; 15%;

30%;

50%?

c) A percentagem de fumadores que fuma um mao ou mais por dia,


aproximadamente:

1.5%; 15%;

30%;

50%?

d) A percentagem de fumadores que fuma trs maos ou mais por dia,


aproximadamente:

0.25%; 0.5%; 10%?

e) A percentagem de fumadores que fuma 15 cigarros por dia, aproximadamente:


0.3%; 0.5%; 1.5%; 3.5%; 10%?
R: a) 15%

b) 30% c) 50% d) 10% e) 3.5%

71

10 - A seguinte tabela apresenta os ndices gerais de produo industrial, nos


dife-rentes pases da comunidade e noutros pases ( Fonte : Anurio Estatstico de
Portugal - 1992):
Eur12
Alemanha
Blgica
Dinamarca
Espanha
Frana
Grcia
Holanda
Irlanda
Itlia
Luxemb.
Portugal
Reino Uni.
Obs:

1984
95.3
97.6
95.9
98.0
99.8
96.7
96.1
96.7
98.6
93.6
90.2
94.8

Out. pases
ustria
Canad
EUA
Finlndia
Japo
Noruega
Sucia
Suia
Turquia
URSS

1984
95.4
95.0
98.3
96.6
96.5
98.0
97.3
94.2
99.0
95.8

Eur12
Alemanha
Blgica
Dinamarca
Espanha
Frana
Grcia
Holanda
Irlanda
Itlia
Luxemb.
Portugal
Reino Uni.

1990
117.9
118.4
107.8
116.1
113.6
103.3
109.1
143.8
117.8
118.0
135.2
109.3

Out. pases
ustria
Canad
EUA
Finlndia
Japo
Noruega
Sucia
Suia
Turquia
URSS

1990
121.2
107.0
115.7
114.0
125.4
141.1
105.2
118.0
138.8
x

Considerou-se como ndice 100 o ano de 1985.


x - Informao no disponvel

Faa uma representao grfica adequada para os dados e tire concluses.

72

11 - Na tabela seguinte apresenta-se a estrutura etria da populao portuguesa em


1960, 1970, 1981 e 1991 (em percentagem) (Fonte: A situao social em Portugal,
1960-1995,

Organizao

de

Antnio

Barreto,

Instituto

de

Cincias

Sociais,

Universi-dade de Lisboa):
Construa pirmides de idade para Portugal em 1960, 1970, 1981 e 1991 e tire
concluses quanto evoluo da populao. Ser que a populao portuguesa est a
envelhecer? Discuta algumas implicaes sociais.
1960

Grupos etrios
0-4
5-9
10-14
15-19
20-24
25-29
30-34
35-39
40-44
44-49
50-54
55-59
60-64
65-69
70-74
75-79
80 e +
Total

1970

1981

1991

H
5.2
4.9
4.8
4.1
3.8
3.6
3.4
3.2
2.7
2.7
2.5
2.1
1.6
1.3
0.9
0.6
0.4

M
4.9
4.7
4.7
4.3
4.1
3.9
3.7
3.4
2.9
3.0
2.9
2.5
2.1
1.7
1.4
0.9
0.8

HM
10.1
9.6
9.4
8.4
7.9
7.6
7.2
6.7
5.6
5.7
5.4
4.6
3.8
3.0
2.3
1.5
1.2

H
4.7
5.0
4.8
4.1
3.5
2.8
2.9
3.1
3.0
2.8
2.4
2.4
2.1
1.6
1.1
0.6
0.6

M HM
4.5 9.2
4.8 9.9
4.7 9.4
4.4 8.5
3.8 7.3
3.2 6.0
3.3 6.2
3.4 6.5
3.4 6.4
3.1 6.0
2.7 5.2
2.7 5.1
2.6 4.8
2.2 3.8
1.6 2.7
1.0 1.6
1.0 1.6

H
4.1
4.5
4.4
4.4
3.9
3.4
3.1
2.7
2.8
2.8
2.7
2.5
2.0
1.9
1.4
0.8
0.5

M
HM
3.9 8.1
4.3 8.8
4.3 8.7
4.3 8.7
3.9 7.8
3.5 6.9
3.3 6.4
3.0 5.8
3.1 5.8
3.1 6.0
3.1 5.8
2.9 5.4
2.4 4.4
2.3 4.2
2.0 3.4
1.4 2.2
1.2 1.7

H
2.8
3.4
4.0
4.3
3.9
3.6
3.5
3.3
3.1
2.8
2.7
2.7
2.5
2.1
1.5
1.1
0.9

M
HM
2.7 5.5
3.2 6.5
3.9 7.9
4.2 8.6
3.8 7.8
3.7 7.4
3.6 7.0
3.4 6.7
3.3 6.4
3.0 5.8
3.0 5.7
3.0 5.7
2.9 5.4
2.6 4.8
2.0 3.5
1.6 2.7
1.7 2.6

47.9

52.1

100.0

47.5

52.5

48.2

51.8

48.2

51.8

100.0

100.0

100.0

73

Sugesto - para construir uma pirmide de idades considere um eixo vertical em que
marca as classes etrias e construa para um e outro lado desse eixo os histogramas
correspondentes aos homens e s mulheres. A ttulo de exemplo considera-se a
pirmide para 1960:
1960
80 e +

70-74
60-64
50-54
40-44
30-34
20-24
10-14
0-4

Haver mais nascimentos do sexo feminino ou masculino?


Ser razovel afirmar que existem mais vivas do que vivos?

74

Captulo 3

CARACTERSTICAS AMOSTRAIS
MEDIDAS DE LOCALIZAO E DISPERSO

3.1 - Introduo
Vimos anteriormente alguns processos de resumir a informao contida nos dados,
utilizando tabelas e grficos. Veremos agora um outro processo de resumir essa
informao, utilizando determinadas medidas, calculadas a partir dos dados, que se
chamam estatsticas.
Das medidas ou estatsticas que iremos definir para caracterizar os dados, destacam-se
as medidas de localizao, nomeadamente as que localizam o centro da amostra, e as
medidas de disperso, que medem a variabilidade dos dados.
Observemos que, ao resumir na forma de alguns nmeros a informao contida nos
dados, estamos a proceder a uma reduo "drstica" desses dados. Assim, estas
medidas devem ser convenientemente escolhidas, de modo a representarem o melhor
possvel o conjunto de dados que pretendem sumariar. Como veremos, definiremos
vrias medidas possveis, mas no poderemos dizer, de uma forma geral, que uma
melhor do que outra, j que a sua utilizao depende do contexto e da situao em que
necessitam de ser calculadas e de como vo ser utilizadas.
Ser mesmo necessrio utilizar os dois tipos de medidas, isto , de localizao e de
disperso, para caracterizar um conjunto de dados? O exemplo seguinte procura
responder a esta questo.
Exemplo 1 - Dois alunos do 12 ano obtiveram as seguintes notas:
Pedro
Joo

14
15

13
10

13
8

13
13

13
14

13
13

14
16

13
14

13
16

O Pedro e o Joo tiveram a mesma mdia de 13.2, mas o Joo no teve aproveitamento
a todas as disciplinas. Quer dizer que utilizmos uma medida de reduo dos dados, a
mdia, que no suficiente para caracterizar e diferenciar os dois conjuntos de dados.

75

Efectivamente, se representarmos num diagrama de caule-e-folhas os dois conjuntos,


obtemos duas representaes com aspecto diferente, j que na segunda representao
se verifica uma maior variabilidade, isto , os dados esto mais dispersos.
1
1

3333333
44

0
1
1
1
1
1
1
1

8
0
33
44
5
66

Antes de comear a definir as medidas que vo ser utilizadas para resumir a informao
contida nos dados (e lembramos mais uma vez que estamos na fase da anlise
estatstica conhecida por ESTATSTICA DESCRITIVA), vamos introduzir uma notao
conveniente para representar a amostra. Assim, o conjunto de dados ou observaes
que constituem a amostra ser representado por
x1, x2, x3, , xn
onde x1, x2,...., xn, representam, respectivamente, os resultados da 1 observao,d a
2 observao, da n-sima observao, a serem recolhidas para constituir uma amostra
de dimenso n. Esta notao no pressupe uma ordenao.

3.2 - Medidas de localizao


De entre as medidas de localizao, merecem destaque especial as que localizam o
centro de uma amostra.

76

Vimos anteriomente que uma representao grfica adequada para um conjunto de


dados contnuos era, por exemplo, o histograma. Vimos tambm que um histograma
pode ter vrios aspectos, nomeadamente pode apresentar uma forma simtrica ou
enviesada. No caso particular do histograma ser perfeitamente simtrico, no haveria
dvida em dizer qual o centro dessa distribuio:

Centro
No entanto, a situao anterior muito rara, pois devido aleatoriedade presente nos
dados, os histogramas no apresentam aquele aspecto. Por outro lado, quando o
histograma enviesado, a situao ainda se torna mais complicada, pois difcil de
dizer o que o centro. Existem ento vrios processos para definir o centro, cujas
medidas no do normalmente o mesmo resultado. Destas medidas destacamos a
mdia e a mediana, a definir seguidamente.

3.2.1 - Mdia
A mdia amostral ou simplesmente mdia, a medida de localizao do centro da
amostra, mais vulgarmente utilizada. Representa-se por x,- e calcula-se utilizando o
seguinte processo:
- Somam-se todos os elementos da amostra
- Divide-se o resultado da soma pelo nmero de elementos da amostra
Utilizando a notao introduzida anteriormente para representar a amostra, de dimenso
n, a mdia obtm-se a partir da expresso:
x,- =

Erro!

E se os dados se encontram agrupados?

77

Neste caso podem-se verificar duas situaes:


- Os dados so discretos e as diferentes classes so os diferentes valores que surgem
na amostra. Ento ainda se pode calcular a mdia a partir da seguinte expresso
x,- =
onde:

Erro!

k o nmero de classes do agrupamento


ni a frequncia absoluta da classe i, n =

Erro!

yi o valor correspondente classe i


- Os dados so discretos ou contnuos e as classes so intervalos. Ento j no temos
um valor exacto para a mdia, mas sim um valor aproximado, o qual dado pela
expresso
x,-
onde:

Erro!

k o nmero de classes do agrupamento


ni a frequncia absoluta da classe i
yi o ponto mdio da classe i, o qual considerado como elemento
representativo da classe.

Observao importante: Ao calcular a mdia a partir de dados agrupados, em que as


classes so intervalos, no se obtm o verdadeiro valor da mdia, mas sim um valor
aproximado. Para se obter o valor exacto da mdia ter de se considerar os dados
originais, caso estejam disponveis.
Ao contrrio do que o novo programa de Matemtica ( Matemtica - Programas, 10, 11
e 12 anos - Ministrio da Educao, Departamento do Ensino Secundrio, Janeiro
1997) faz crer, para calcular a mdia de dados contnuos, no tem que se proceder a
qualquer agrupamento. Pode acontecer que os dados nos sejam fornecidos j
agrupados e nesse caso no temos outra alternativa seno calcular um valor
aproximado para a mdia.
A mdia ser sempre uma medida representativa dos dados?

78

Ao determinar a mdia dos seguintes dados


12.4

13.5

obteve-se o valor

x,-

13.6

11.2

15.1

10.6

12.4

14.3

113.5

= 24.1.

Embora todos os dados, menos um, estejam no intervalo [10.6, 15.1], o valor obtido para
a mdia est "bem afastado" daquele intervalo! Uma medida que se pretendia
representativa dos dados, no est a conseguir esses objectivos, pois se nos disserem
que um conjunto de dados tem mdia 24.1, imediatamente pensamos em valores que
no se afastem muito daquele valor.
O que acontece que a mdia muito sensvel a valores muito grandes ou muito
pequenos.
No caso do exemplo foi o valor 113.5 que inflacionou a mdia. Alm disso temos alguma
razo para pensar que pode ter havido um erro ao digitar o valor 113.5, digitando um 1
a mais!
E se em vez de 113.5 o valor correcto fosse 13.5, qual o valor da mdia? Neste caso
para a mdia dos seguintes dados
12.4
obteve-se o valor

13.5

13.6
x,-

11.2

15.1

10.6

12.4

14.3

13.5

= 13.0, significativamente diferente do obtido no caso

anterior!
Sendo a mdia uma medida to sensvel aos dados, preciso ter cuidado com a sua
utilizao, pois pode dar uma imagem distorcida dos dados que pretende representar!
Para alm do facto de ser uma medida muito simples de calcular, existir alguma outra
razo que a torne uma medida to "popular"?
Pode-se mostrar (e essa demonstrao faz parte da Inferncia Estatstica) que quando a
distribuio dos dados "normal" (o histograma correspondente tem a forma
aproxi-mada de um sino), ento a melhor medida de localizao do centro a mdia.

79

Ora sendo a Distribuio Normal uma das distribuies mais importantes e que surge
com mais frequncia nas aplicaes, esse facto justifica a grande utilizao da mdia.
A mdia tem uma outra caracterstica, que torna a sua utilizao vantajosa em certas
aplicaes:
Quando o que se pretende representar a quantidade total expressa pelos dados,
utiliza-se a mdia. Na realidade, ao multiplicar a mdia pelo n total de elementos,
obtemos a quantidade pretendida.
Obervao: Chama-se a ateno para que s tem sentido calcular a mdia para
dados de tipo quantitativo.

Sugestes didcticas e comentrios


Actividade 1 - Mdia ( Statistical Tools and Statistical Literacy: the Case of the Average
- Teaching Statistics, vol 17, n. 3, 1995)
Pretende-se que os Professores insistam no s no conhecimento do conceito de
mdia, mas tambm na sua interpretao. O estudo da mdia deve envolver muito mais
do que aprender as propriedades matemticas da mdia (por exemplo a soma dos
desvios igual a zero), ou fazer com que os estudantes calculem a mdia de qualquer
conjunto de dados que lhes aparea, independentemente se isso tem ou no sentido.
Como futuros consumidores da informao estatstica, os estudantes devem ter bem
presente as vrias interpretaes da palavra "mdia". Uma actividade interessante pode
ser a de pedir aos estudantes que procurem nos dicionrios o significado para esta
palavra. Uma quantidade de interpretaes legtimas, a acrescentar " aquilo que se
obtm somando os dados todos e dividindo pelo nmero deles", surpreender-nos-!
Seguidamente pedir-se- aos estudantes que interpretem e comentem algumas frases
onde entra a palavra mdia, como por exemplo:
1 - Um adulto mdio come 5 kg de gelado por ano.
2 - Em mdia, os adultos comem 5 kg de gelado por ano.
3 - Um adulto come uma mdia de 5 kg de gelado por ano.

80

Comentrio: Em 1, a palavra mdio no est empregue com o significado estatstico de


mdia como caracterstica amostral. Pretende significar um adulto "normal", que se
utiliza como referncia. Em 2, pretende-se dizer que ao recolher a informao sobre a
quantidade de gelado comida por ano, por uma amostra de vrios adultos, se concluiu
que a mdia dos valores observados de 5 kg. Obteve-se a mdia dividindo a soma das
quantidades observadas pelo nmero de adultos inquiridos. Finalmente em 3, o que se
observou foi a quantidade de gelado comida, por ano, por um adulto, escolhido ao
acaso, e durante vrios anos. Obteve-se a mdia dividindo a soma das quantidades
obtidas pelo nmero de anos observados.

Os estudantes ao elaborarem um inqurito podem discutir como que os inquiridos


interpretaro frases alternativas para uma questo, tais como:
4 - Em mdia, quanto gelado come por semana?
5 - Qual a quantidade mdia de gelado que come por semana?
6 - Numa semana mdia, quanto gelado come?
Esta actividade pode tambm ajudar os estudantes a aperceberem-se que, para
compreender o significado do termo "mdia" quando usado num sentido estatstico,
necessrio saber muito mais do que somar e dividir! necessrio obter informao, por
exemplo, acerca do contexto e objectivo do estudo.
Actividade 2 - Um pai tinha 5 depsitos a prazo (de montantes diferentes) que pensou
sortear pelos seus 5 filhos. Depois pensou melhor e decidiu que eles tinham que
receber todos a mesma quantia. Ento como que ele deve proceder? Se ele tivesse
comeado por utilizar o primeiro processo, alguns dos irmos teriam de devolver
dinheiro, enquanto que os outros teriam de receber mais. Ser que as quantias
devolvidas chegam para pagar aos que ainda tm de receber?
Concretize a situao anterior admitindo que as quantias (em milhares de contos) em
jogo eram 10 , 11, 14, 15 e 16.

81

1 caso - O pai d uma das quantias a cada filho, tendo o resultado do sorteio sido o
seguinte:
Jos
Joo

- 10 mil contos ; Joana - 11 mil contos; Maria - 14 mil contos;


- 15 mil contos; Lus - 16 mil contos

2 caso - O pai d uma quantia igual a cada um dos filhos


Ento ter que dar a cada um a mdia das quantias, pelo que cada filho recebe

Erro!= 13.2.
Assim
Jos
Joana
Maria
Joo
Lus

tem a receber 3 mil e 200 contos


tem a receber 2 mil e 200 contos
tem a devolver 800 contos
tem a devolver mil e 800 contos
tem a devolver 2 mil e 800 contos

A soma das quantias a receber (3.2 + 2.2) = 5.4, enquanto que a soma das quantias a
devolver (0.8 + 1.8 + 2.8) = 5.4, pelo que efectivamente as quantias devolvidas
chegam para pagar as quantias a receber.
Graficamente temos

15
13 .2
10

qu antia a receb er
qu antia a devo lv er

Jo s Jo ana Maria Jo o Lu s

Propriedade: Dado um conjunto de dados a soma dos desvios de cada um,


relativamente mdia, igual a zero.
Problema: "Todos os jovens levaram bolos para uma festa. Durante a festa todos os
jo-vens comeram a mesma quantidade de bolos, por isso houve alguns que tiveram de
dar bolos e outros que receberam bolos. O nmero total de bolos dados foi igual ao
nmero total de bolos recebidos" Isto verdade? SIM ou NO?" (Leon e Zawojewsk, in
Hawkins, 1992)

82

Actividade 3 - Sendo uma medida importante, a mdia muitas vezes permite que se
fa-am afirmaes menos correctas. Comente com os alunos casos onde a mdia
"mal" utilizada, como por exemplo:
Um jornalista publicou no seu jornal a seguinte notcia relativamente aos atrasos das
camionetas que partiam de Sintra para Lisboa: "As camionetas da empresa VIAJANTE
com destino a Lisboa e partindo de Sintra, tm em mdia meia hora de atraso". O
jornalista baseou-se na seguinte informao: As camionetas com partida s 10h30m
verificaram os seguintes atrasos (em minutos), durante a semana de 24 a 30 de Maro:
2 feira

3 feira

4 feira

5 feira

6 feira

Sbado

Domingo

11

170

sem atraso

10

Nota: Na 4 feira houve uma ameaa de bomba no terminal de camionagem.

Vamos ver de seguida uma outra medida de localizao do centro da amostra,


alternativa mdia e que a mediana.

3.2.2 - Mediana
A mediana uma medida de localizao do centro da distribuio dos dados, definida
do seguinte modo: ordenados os elementos da amostra, a mediana o valor
(pertencente ou no amostra) que a divide ao meio, isto , 50% dos elementos da
amostra so me-nores ou iguais mediana e os outros 50% so maiores ou iguais
mediana.
Para a determinao da mediana, utiliza-se a seguinte regra, depois de ordenada a
amostra de n elementos:
- Se n mpar, a mediana o elemento mdio.
- Se n par, a mediana a semi-soma dos dois elementos mdios.
Uma forma simples de aplicar a regra anterior considerar o quociente

Erro!:

- Se este quociente for um n inteiro, considera-se para mediana o elemento


nessa posio;

83

- Se este quociente terminar em 0.5, considera-se a sua parte inteira e faz-se a


semi-soma do elemento a que corresponde essa ordem, com o seguinte.
Exemplo 2: Considere o seguinte conjunto de notas de um aluno do 10 ano
10

10

10

11

11

11

11

12

A mdia e a mediana deste conjunto de dados so, respectivamente,


x,- = 10.75
e
m = 11
Admitamos que uma das notas de 10 foi substituda por uma de 18. Ento neste caso a
mediana continuaria a ser 11, enquanto que a mdia subiria para 11.75!
Como medida de localizao, a mediana mais resistente do que a mdia, pois no
to sensvel aos dados!
Ento qual destas medidas prefervel? Mdia ou mediana?
- Quando a distribuio simtrica, a mdia e a mediana coincidem.
- A mediana no to sensvel, como a mdia, s observaes que so muito maiores
ou muito menores do que as restantes (outliers). Por outro lado, a mdia reflecte o valor
de todas as observaes.
Assim, no se pode dizer em termos absolutos, qual destas medidas prefervel,
dependendo do contexto em que esto a ser utilizadas.
Quando a distribuio dos dados simtrica ou aproximadamente simtrica, as medidas
de localizao do centro da amostra, mdia e mediana, coincidem ou so muito
semelhantes. O mesmo no se passa quando a distribuio dos dados assimtrica,
facto que se prende com a pouca resistncia da mdia, como j se referiu
anteriormente.
A mdia, ao contrrio da mediana, uma medida muito pouco resistente, isto , muito
influenciada por valores "muito grandes" ou "muito pequenos", mesmo que estes valores
surjam em pequeno nmero na amostra. Estes valores, chamados outliers, so os
responsveis pela m utilizao da mdia em muitas situaes em que teria mais
significado utilizar a mediana.

84

Exemplo 3: Os salrios dos 160 empregados de uma determinada empresa,


distribuem--se de acordo com a seguinte tabela de frequncias:
Salrio
(milhares escudos)

45

60

70

80

120

380

N empregados

23

58

50

20

Calcule a mdia e a mediana e comente os resultados obtidos.


Clculo da mdia:
x,= (23 6 45 +58 660 + +7 6 120 + 2 6380)/ 160
= 71.5
Clculo da mediana:
Como n par, a mediana a semi-soma dos elementos mdios
m = semi-soma dos elementos de ordem 80 e 81
= 60
A mdia muito superior mediana, pois 2 dos valores do conjunto de dados so muito
grandes, quando comparados com os restantes, tendo assim inflacionado a mdia.
Efectivamente, dos 160 empregados, s 29 que tm salrio superior mdia.
A mediana d-nos uma ideia mais correcta do nvel dos salrios, que so de um modo
geral muito baixos. Assim, d-nos a indicao de que 50% dos salrios so menores ou
iguais a 20 mil escudos, enquanto que os restantes so maiores ou iguais quele valor.

Sugestes didcticas e comentrios


Suponhamos que ao pretender digitar, num computador, o seguinte conjunto de dados
5, 2, 10, 6, 9
se digitou
5, 2, 50, 6, 9

85

Estude o comportamento das duas medidas de localizao do centro da amostra,


relativamente ao outlier introduzido (o valor 50):
Resoluo:
Dados originais
(5,2,10,6,9)
6.4
6

Mdia
Mediana

Dados copiados
(5,2,50,6,9)
14.4
6

med ia na
md ia

10
med ia na

20

30

40

20

30

40

md ia

50

10

50

Resumindo, como a mdia influenciada quer por valores muito grandes, quer por
valores muito pequenos, se a distribuio dos dados for enviesada para a direita (alguns
valores grandes como outliers), a mdia tende a ser maior que a mediana; se for
aproximadamente simtrica, a mdia aproxima-se da mediana e se for enviesada para a
esquerda (alguns valores pequenos como outliers), a mdia tende a ser inferior
mediana. Representando as distribuies dos dados ( esta observao vlida para as
representaes grficas na forma de diagrama de barras ou de histograma) na forma de
uma mancha, temos, de um modo geral:

mdia mediana

mdia > mediana

mdia

<

mediana
Deve ser ento chamada a ateno que o simples clculo da mdia e da mediana nos
pode dar informao sobre a forma da distribuio dos dados.

86

Como calcular a mediana a partir de dados agrupados?


Por vezes os dados apresentam-se agrupados, sendo necessrio calcular a mediana a
partir das tabelas ou das representaes grficas correspondentes.
Consideremos de novo o exemplo 5 do captulo 2.
Exemplo 5 (cont) - A partir da tabela de frequncias pretende-se calcular a mediana:
Tabela de frequncias
Classes
[0, 10[
[10, 20[
[20, 30[
[30, 40[
[40, 50[
[50, 60[
[60, 70[
Total
Considerando

Rep. classe
5
15
25
35
45
55
65
a

coluna

Freq. abs.
21
7
9
7
3
0
3
50

correspondente

Freq. rel.
0.42
0.14
0.18
0.14
0.06
0.00
0.06
1.00

Freq.rel.acum
0.42
0.56
0.74
0.88
0.94
0.94
1.00
-

frequncias relativas acumuladas,

verifica-mos que a frequncia de 50% corresponde classe [10, 20[, sendo ento esta a
classe que contm a mediana: classe mediana. Para obter um valor aproximado para a
mediana, partimos do princpio que a frequncia de 14% correspondente a esta classe
se distribui uniformemente sobre o intervalo de amplitude 10. Assim, fazendo uma regra
de trs simples, como j exemplificmos com a funo cumulativa, vamos a esta classe
procurar o valor a que corresponda uma frequncia de 8%:

8%

6%

20

10
?

O valor aproximado para a mediana, obtido por este processo, 15.71.

87

A partir dos dados originais, o valor obtido para a mediana a semi-soma entre os
elementos das posies 25 e 26, ou seja,

Erro!= 15.85

Observao: Como se verifica, existe uma diferena entre o valor aproximado da


mediana, obtido a partir dos dados agrupados e o valor exacto da mediana obtido a
partir dos dados originais. Efectivamente, a hiptese de que, dentro de cada classe, os
dados se distribuem uniformemente , muitas vezes, pouco realista. Repare-se como se
distribuem os 7 elementos da classe [10, 20[:

*
* *

* *

10

*
*
20

Ainda para este exemplo, vamos calcular o valor aproximado para a mdia a partir dos
dados agrupados. Substituimos os elementos de cada classe pelo ponto mdio da
classe, que elegemos como ponto representativo :
x,- 5 6 0.42 + 15 6 0.14 +25 6 0.18 +35 6 0.14 +45 6 0.06+65 6 0.06
x,- 20.02
Por outro lado o valor exacto para a mdia ser:
x,- =

Erro!

= 19.46
Comparando os valores da mediana e da mdia, verifica-se que a mdia superior
mediana. Isto sintoma de que os dados no se distribuem de forma simtrica, mas sim
de forma enviesada para a direita, havendo alguns valores grandes que esto a
inflacionar a mdia. Efectivamente esta caracterstica j havia sido realada pela forma
do histograma.

88

E se a tabela de frequncias tivesse o seguinte aspecto


Tabela de frequncias
Classes
[0, 10[
[10, 20[
[20, 30[
[30, 40[
[40, 50[
[50, 60[
[60, 70[
Total

Freq. abs.
21
4
12
7
3
0
3
50

Freq. rel.
0.42
0.08
0.24
0.14
0.06
0.00
0.06
1.00

Freq.rel.acum
0.42
0.50
0.74
0.88
0.94
0.94
1.00
-

como calcular um valor aproximado para a mediana? Neste caso considervamos o


valor 20, pois o menor valor a que corresponde uma frequncia acumulada de 50%.
Ainda para exemplificar o clculo da mediana para dados agrupados vejamos o seguinte
exemplo correspondente a dados discretos (as classes so pontos):

Classes
0
1
2
3
4
Total

Tabela de frequncias
Freq. abs.
Freq. rel.
4
0.20
6
0.30
5
0.25
3
0.15
2
0.10
20
1

Freq.rel.acum
0.20
0.50
0.75
0.90
1.00
-

O valor 1 satisfaz a condio para ser mediana, mas qualquer valor entre 1 e 2 tambm
satisfaz essas condies! ou no verdade que se escolhessemos para mediana 1.2,
50% dos elementos da amostra so menores ou iguais a 1.2 e os restantes so maiores
ou iguais a 1.2? No entanto, para fixar ideias costuma-se escolher para mediana o ponto
mdio entre 1 e 2, de forma que a mediana seria neste caso 1.5, o que est de acordo
com a metodologia indicada para o clculo da mediana a partir dos dados antes de
agrupados.

Nota: Deve-se chamar a ateno para que, com dados de tipo qualitativo, as nicas
caractersticas amostrais que se podem calcular so a moda, categoria com maior
frequncia, e por vezes a mediana, quando for possvel estabelecer uma hierarquia
entre as diferentes categorias ou modalidades que a varivel em estudo possa assumir.

89

Por exemplo, numa grande empresa em que os trabalhadores podem assumir um de 5


postos possveis, representados pelas letras A, B, C, D e E, em que o posto A o mais
importante e E o menos importante, recolheu-se uma amostra de 15 empregados,
registando-se as respectivas categorias:
A, E, E, E, B, C, E, D, D, E, B, D, D, E, E
Ordenando a amostra anterior, por ordem crescente de importncia do posto de
trabalho, obtm-se:
E, E, E, E, E, E, E, D, D, D, D, C, B, B, A
mediana

Se a amostra anterior no tivesse o elemento A, ento a mediana seria o posto de


trabalho E, pois 50% dos elementos da amostra tm categoria inferior ou igual a E.

3. 2.3 - Quartis
A noo de quartil j foi abordada, quando falamos no diagrama de extremos e quartis.
Assim o quartil de ordem 1 ou 1 quartil (respectivamente ordem 3 ou 3 quartil), Q 1
(Q3), ser o valor tal que 25% (75%) dos elementos da amostra so menores ou iguais a
ele e os restantes so maiores ou iguais.
H vrios processos para a determinao dos quartis, que nem sempre conduzem
aos mesmos resultados. Um dos processos pode ser o de utilizar a mesma metodologia
aplicada para a obteno da mediana, isto , consideram-se os quartis como as
medianas das duas partes em que ficou dividida a amostra inicial pela mediana. A parte
inferior dividida pelo 1 quartil, enquanto que a parte superior dividida pelo 3 quartil.

Exemplo 4: Dada a seguinte amostra


12

10

11

17

18

14

13

10

15

12

15

17

18

pretende-se calcular o 1 quartil e o 3 quartil.

1 - A primeira operao consiste em ordenar a amostra:


10

10

11

12

12

13

14

90

2 - Depois, uma vez que o nmero de elementos 10 (par), a mediana ser a


semi-soma dos elementos de ordem 5 e 6:

1 qua rtil=11

10

10

11

3quartil= 15

12

12

13

14

15

15

18

m e diana = 12.5
3 - Finalmente o 1 quartil (3 quartil) ser a mediana da parte inferior (parte superior)
em que ficou dividida a amostra pela mediana.
Suponhamos que a amostra tinha mais 3 elementos (n mpar de elementos):
1 quartil=12

10

10

11

12

3quartil=18

12

13

14

15

15

18

19

20

20

mediana = 14

Comentrio: Mesmo na utilizao deste processo podem-se levantar algumas dvidas,


quando o nmero de elementos da amostra mpar. Efectivamente pode-se optar por
considerar o elemento da amostra, seleccionado para mediana, como no pertencente a
nenhuma das partes, ao contrrio do que foi feito no exemplo, em que a mediana conta
para as duas partes.
Exemplo 5: Tendo-se decidido registar os pesos dos alunos de uma determinada turma
de Matemtica do 12 ano, obtiveram-se os seguintes valores (em kg):
52

56

62

54

52

51

60

61

56

55

56

54

57

67

61

49

Um aluno com o peso de 62kg, pode ser considerado "normal" , isto nem demasiado
magro, nem demasiado gordo?

91

Ordenando a amostra anterior, cuja dimenso 16, temos

49 51 52 52 54 54 55 56 56 56 57 60 61 61 62 67
1qu artil=53

mediana= 56

3qu artil=60.5

Um aluno com o peso de 62 Kg um bocado forte, pois s 25% dos alunos que tm
um peso superior ou igual a 60.5 Kg.

3.2.4 -Moda
Para um conjunto de dados, define-se moda como sendo o valor que surge com mais
frequncia, se os dados so discretos, ou o intervalo de classe com maior frequncia, se
os dados so contnuos e esto agrupados.
Esta medida merece referncia por ser especialmente til para reduzir a informao de
conjuntos de dados qualitativos, portanto apresentados sob a forma de nomes ou
categorias, para os quais no se pode calcular a mdia e por vezes nem a mediana ( se
no forem susceptveis de ordenao).

Sugestes didcticas e comentrios


a) Com as sugestes apresentadas nos pontos 1 a 5, pretende-se obter uma maior
familiaridade com a noo dos quartis.
1. Considere os dados do exemplo 4. Determine os quartis, utilizando tabelas de
frequncia em que as classes so os diferentes valores que surgem na amostra.
Verifique que os resultados obtidos so idnticos aos obtidos no exemplo, tanto para a
amostra de dimenso 10 como 13.
2. Considere uma amostra de dados discretos de dimenso 15. Verifique que a
determinao dos quartis, pelos dois processos sugeridos (dados originais e dados
agrupados), no conduz aos mesmos resultados. Como curiosidade, adianta-se que os
dois processos s no conduzem aos mesmos resultados quando a dimenso da
amostra um mltiplo de 4 menos 1.

92

Comentrio: Se os dados forem contnuos, ou no caso de serem discretos o


agrupamento em classes foi feito utilizando intervalos, no se espera que os dois
processos conduzam aos mesmos resultados.
3. Pode-se referir aos alunos que os quartis, assim como outras medidas deste gnero a
que chamamos percentis ( os quartis so os percentis 25 e 75) so largamente
utilizadas pelos pediatras. Quando uma me leva o beb ao pediatra, ele pesa e mede a
criana. Depois pergunta me quantos meses tem o filho, consulta umas tabelas e diz
em que percentil que o filho est, relativamente ao peso e altura, tecendo alguns
comentrios sobre a condio fsica da criana. Assim, por exemplo, se o peso estiver
no percentil 60, significa que o beb est muito "bonzinho"! Se estiver perto do percentil
75, combina com a me uma dieta adequada, pois o beb est a ficar um pouco gordo!
4. Falar nas tabelas de pesos, que sobretudo as raparigas gostam de consultar para
saber se esto "na linha"!
5. Falar no processo utilizado para a definio da nota mnima do exame nacional, para
os alunos candidatos Universidade. No ano de 96/97, pela 1 vez funcionaram os
exames nacionais como provas especficas. Como nota mnima, exigiu-se para cada
prova a nota correspondente ao percentil 25. Isto significava que os 75% melhores
alunos dessa prova se poderiam candidatar.
b) 1 - Considere os seguintes conjuntos de nmeros:
1

2 3 4 5

2 3 4 5 6

3 5 7 9 11

Para cada um destes conjuntos calcule a mdia. Identifique qual a relao existente
entre os conjuntos e diga como poderia obter a mdia do ltimo conjunto, a partir da
mdia dos dois primeiros conjuntos.
2 - Considere os seguintes diagramas de barras:

Para cada um deles assinale a posio aproximada da mdia.

93

3 - Faa o mesmo que no exerccio anterior para os seguintes diagramas de barras:

12

10
5

4
0

Suponha que as barras representam midos, em que as frequncias absolutas so os


respectivos pesos, e o eixo horizontal a tbua de um balanc. O que representa o ponto
onde marcou a mdia, relativamente ao balanc, se este estiver em equilbrio?
4 - Considere os seguintes diagramas de barras. Relativamente a cada uma das
representaes:

6
5
4
3
2
1

6
5
4
3
2
1
0

3 4 5 6 7 8 9

10

6
5
4
3
2
1
0

a) Diga quais os dados observados e a frequncia com que foram observados.


b) Assinale a posio da mdia e da mediana. O que conclui?
5 - Numa sala de aulas de 21 alunos, 20 desses alunos tm em mdia a altura de 145
cm. a) Se o outro aluno, que no dia em que se fez as medies das alturas tinha faltado,
tiver de altura 150, qual a altura mdia da turma? b) Qual deve ser a altura do outro
aluno, que no dia em que se fez as medies das alturas tinha faltado, para que a altura
mdia da turma aumente de 1 cm?

94

6 - Num ponto de Matemtica com 5 questes, cada uma valendo 4 valores,


verificaram--se os seguintes resultados:
5% dos alunos tiveram
10%
"
"
"
25%
"
"
"

0
4
8

40% dos alunos tiveram


15%
"
"
"
5%
"
"
"

12
16
20

a) Se o teste foi realizado por 10 alunos, qual a pontuao mdia obtida?


b) Se o teste foi realizado por 20 alunos, qual a pontuao mdia obtida?
c) Ser que pode calcular a mdia sem saber o nmero de alunos? Deduza uma
expresso para o clculo da mdia, quando os dados esto agrupados em classes e
para cada classe dada a respectiva frequncia relativa.
d) Qual o valor da mediana?
7 -Considere os seguintes diagramas caule-e-folhas:

5
0
6

5
4

1
7

7
6
2
2
8

7
6
4
3
9

5
4

7
6
2
4 5
6
0 1 2 3 4
5 6 7 8 9

2 4

6
4

7
6
4

4
5

7 8
90

Para cada um dos conjuntos de nmeros representados anteriormente, calcule a mdia


e a mediana.
Notas: 1) Nas representaes anteriores desenharam-se os traos que separam os
caules das folhas horizontalmente, o que torna a representao em caule-e-folha
semelhante ao histograma. 2) Na ltima representao de caule-e-folha, utilizou-se uma
notao diferente da habitual, pois um dos valores do correspondente conjunto de
dados muito maior do que os outros, optando-se por interromper o trao que separa os
caules das folhas.

95

8 - Pretende-se iniciar uma nova cultura numa certa regio agrcola. Sendo a
pluviosidade um dos factores determinantes, recorreu-se aos valores da precipitao
diria nos ltimos 3 anos e elaborou-se a seguinte tabela:
Pluv.
(mm)
[0,5[
[5,10[
[10,15[
[15,20[
[20,25[
[25,30[
[30,35[
[35,40

N dias
105
148
220
193
184
123
95
27

Suponha que s se deve introduzir a cultura no caso de, em pelo menos 50% dos dias a
pluviosidade ultrapassar os 18 mm. Ser ou no razovel, cultivar nesta regio o
produto em causa?

3.3 - Medidas de disperso


Um aspecto importante no estudo descritivo de um conjunto de dados o da
deter-minao da variabilidade ou disperso desses dados relativamente medida de
locali-zao do centro da amostra. Efectivamente as medidas de localizao que
estudamos no so suficientes para caracterizar completamente um conjunto de dados.
Considerem-se os trs conjuntos de dados:
Conjunto 1

15

15

15

15

15

Conjunto 2

10

13

15

17

20

Conjunto 3

15

23

30

Embora tenham a mesma mdia e mediana, tm um aspecto bem diferente no que diz
respeito variabilidade.
15
10
0

13 15

15

17

20
23

30

96

Como a medida de localizao mais utilizada a mdia, ser relativamente a ela que se
define a principal medida de disperso - o desvio padro, apresentado a seguir.
Comeamos, no entanto, por definir varincia, que serve de base definio de desvio
padro.
3.3.1 - Varincia
Define-se a varincia, e representa-se por s2, como sendo a medida que se obtm
somando os quadrados dos desvios das observaes, relativamente mdia, e
dividindo pelo nmero de observaes:
s2 =

Erro!

Estamos a utilizar a notao j introduzida anteriormente, para representarmos a


amostra.
Quais as razes que nos levam a considerar aquela definio para a varincia?
- Se afinal pretendemos medir a disperso relativamente mdia, porque que no
somamos simplesmente os desvios, em vez de os quadrar?
O que acontece que a soma dos desvios igual a zero, como j vimos no estudo da
mdia
(x1 - x,- ) + (x2 - x,- ) + (x3 - x,- ) + .... +(xn - x ,- ) = 0
Poderamos ter utilizado mdulos, para evitar que a soma dos desvios positivos
cancelasse com a dos desvios negativos, mas pode-se mostrar que, sob o ponto de
vista estatstico, prefervel trabalhar com os quadrados do que com os mdulos!
Nota: Por vezes utiliza-se uma outra frmula, muito semelhante anterior, mas em que
a soma dos quadrados dos desvios aparece a dividir por (n-1):
s*2 =

Erro!

Na realidade, s aparentemente que temos n desvios independentes, isto , se


calcular (n-1) desvios, o restante fica automaticamente calculado, uma vez que a sua
soma igual a zero! Costuma-se referir este facto, dizendo que se perdeu um grau de

97

liberdade. Esta definio, embora prefervel por razes que se prendem com a
Inferncia Estatstica, contudo menos intuitiva, e no objectivo desta anlise
proceder a qualquer tipo de Inferncia Estatstica. Assim, a opo entre as duas
expresses pode ser deixada ao critrio do Professor, que poder por exemplo escolher
a que for utilizada no manual indicado para os alunos. No poder deixar de referir a
existncia das duas expresses, tanto mais que elas coexistem na mquina de calcular.
Tambm referir que a diferena entre as duas expresses muito pequena, sobretudo
se a dimenso da amostra for suficientemente grande.

Uma vez que a varincia envolve a soma de quadrados, a unidade em que se exprime
no a mesma que a dos dados. Por exemplo, ao recolhermos informao sobre a
caracterstica altura, em cm, a varincia vir em cm2, que uma medida de rea,
portanto dificilmente interpretvel como medida de variabiliadde. Assim, para obter uma
medida da variabilidade ou disperso com as mesmas unidades que os dados, e
portanto de mais fcil interpretao, tomamos a raiz quadrada da varincia e obtemos o
desvio padro.

3.3.2 - Desvio padro


Pelas razes apontadas anteriormente, a medida de disperso que se costuma utilizar
o desvio padro, que se representa por s e a raiz quadrada da varincia:

s=

Erro!

s* =

Erro!

ou

O desvio padro uma medida que s pode assumir valores no negativos e quanto
maior for, maior ser a disperso dos dados.

98

Relativamente aos trs conjuntos de dados apresentados no incio do estudo das


medidas de disperso, verificamos que:
- O conjunto 1 apresenta um desvio padro igual a zero, como seria de esperar,
pois se os valores so todos iguais, a disperso nula.
- Os conjuntos 2 e 3 apresentam um desvio padro s igual, respectivamente a
3.4 e 10.8.

Sugestes didcticas e comentrios


O desvio padro (The standard deviation: some drawbacks of an intuitive approach Teaching Statistics, vol 7, n.3, 1985)
O que mede o desvio padro? Que tipo de variabilidade?
A variabilidade apresentada por um conjunto de observaes pode-se interpretar como:
- uma medida da diferena entre as obervaes, umas relativamente s outras;
- uma medida da diferena entre as observaes relativamente a uma medida
padro.
A seguinte experincia d conta de que nem sempre o desvio padro entendido pelos
alunos como uma medida da variabilidade relativamente mdia.
Consideremos dois conjuntos formados cada um por dois blocos: no 1 conjunto os
blocos tm altura 45 e 50 cm. No 2 conjunto as alturas dos blocos so 5 e 10 cm:
Qual dos c onj un to s apres enta mai or
vari abi l id ade ?
A s re spo stas ap re sen ta das p or u m
co nj unto de 1 54 es tu dan te s, foram:
- ma io r vari ab. o A - 1 1%
- ma io r vari ab. o B - 6 9%
- a me sma vari ab. - 2 0%

Apresentou-se seguidamente aos mesmos alunos outros dois conjuntos C e D. No

99

conjunto C os blocos tm alturas 10, 20, 30, 40, 50 e 60 cm; no conjunto D h 3 blocos
de altura 10 cm e outros 3 blocos de altura 60 cm:

Qual dos c onj untos apresenta mai or vari abil i dade?


As respostas apresentadas pel o conj unto de 154
es tudantes, foram:
- maior vari ab. o C - 50%
- maior vari ab. o D - 36%
- a mesma vari ab. - 14%

Comentrio: o resultado da experincia mostra que intuitivamente os estudantes


enten-dem, de um modo garal, a variabiliadde em termos de "mais ou menos iguais uns
rela-tivamente aos outros", independentemente de considerarem um ponto padro como
referncia, nomeadamente a mdia.
Assim para visualizar convenientemente o conceito de variabilidade medida pelo desvio
padro, apresentam-se diagramas de barras. A partir destes grficos os estudantes
podem ver que a variabilidade das alturas pode ser expressa em termos dos desvios
relativamente mdia:

100

Freq.abs.

Freq.abs.

1
10

20

30

40

50

10

60

20

30

A
Freq.abs.

20

30

50

60

40

50

60

Freq.abs.

10

40

40

50

60

10

20

30

Pedindo para calcular o desvio padro das alturas de cada um dos conjuntos os
estudantes facilmente verificam que:
desvio padro de A = desvio padro de B
desvio padro de C < desvio padro de D
Confrontados com os resultados intuitivos, os estudantes concluem que o desvio padro
uma medida muito especfica da variabilidade.

O desvio padro, da mesma forma que a mdia, muito sensvel presena de outliers,
sendo portanto uma medida de disperso pouco resistente. Assim, um valor elevado
para o desvio padro pode ser devido ou a uma grande variabilidade nos dados, ou
ento a uma pequena variabilidade com a existncia de um ou mais outliers.

3.3.3 - Amplitude inter-quartil


A medida mais simples para medir a variabilidade a amplitude, que se representa por
um R (range) e se define como a diferena entre o mximo e o mnimo da amostra:
R = mximo - mnimo

101

A medida anterior tem a grande desvantagem de ser muito sensvel existncia, na


amostra, de uma observao muito grande ou muito pequena. Assim, define-se uma
outra medida, a amplitude inter-quartil, que , em certa medida, uma soluo de
compromisso, pois no afectada, de um modo geral, pela existncia de um nmero
pequeno de observaes demasiado grandes ou demasiado pequenas. Esta medida
definida como sendo a diferena entre os 1 e 3 quartis:
amplitude inter-quartil = 3 quartil - 1 quartil
ou, utilizando a notao que introduzimos quando falamos nos quartis,
amplitude inter-quartil = Q3 - Q1
Do modo como se define a amplitude inter-quartil, concluimos que 50% dos elementos
do meio da amostra esto contidos num intervalo com aquela amplitude. Esta medida j
foi, alis, utilizada na construo da box-plot.
Esta medida no negativa e ser tanto maior quanto maior for a variabilidade nos
dados. Mas, ao contrrio do que acontece com o desvio padro, uma amplitude
inter-quartil nula, no significa necessariamente, que os dados no apresentem
variabilidade.
Por exemplo, o seguinte conjunto de dados
10

20

30

30

30

30

30

30

40

50

tem desvio padro igual a 10.5 e amplitude inter-quartil igual a zero.


Qual das medidas de disperso utilizar? Desvio padro ou amplitude inter-quartil?
Do mesmo modo que a questo foi posta relativamente s duas medidas de localizao
mais utilizadas - mdia e mediana, tambm aqui se pode por o problema de comparar
aquelas duas medidas de disperso.
- A amplitude inter-quartil mais resistente, relativamente presena de outliers, do
que o desvio padro, que mais sensvel aos dados. Por outro lado, a amplitude
inter-quartil no reflecte o conjunto de todos os dados, como o desvio padro.

102

- Se a distribuio enviesada

pode acontecer que o desvio padro seja muito

superior amplitude inter-quartil, sobretudo se se verificar a existncia de "outliers".


Sugestes didcticas e comentrios
1. INFLUNCIA DA ALTERAO DOS VALORES DA VARIVEL NA MDIA E NO
DESVIO PADRO
Os 30 alunos de uma turma tiveram de fazer um trabalho de Histria. O
professor resolveu ver quantas pginas tinha cada trabalho e obteve a seguinte lista:
20

16

22

24

26

30

26

18

23

35

22

42

23

28

20

40

29

26

15

33

27

26

25

14

16

28

19

19

14

Podemos fazer um estudo estatstico sobre esta situao.


A populao constituda pelos 30 trabalhos da turma.
A varivel em estudo o nmero de pginas.

Introduzimos
nu-ma

calculadora

os

dados

grfica

rapida-mente obtemos as medidas


estats-ticas desta distribuio.

A mdia 23.8.
O desvio padro 7.512.
A mediana 23.5.

visualizao

da

distribui-o pode ser feita num


histograma e num diagrama de
extremos e quartis.

O professor achou que os trabalhos precisavam de uns anexos que ocupariam 5


pginas. Que influncia ter este aumento de 5 pginas na mdia e no desvio
padro?

103

Para evitar o trabalho de


escrever na calculadora todos os
novos valores, podemos criar, a
partir da lista L1, uma nova lista L2
em que cada elemento tem mais 5
unidades.
A mdia passou para 23.8 + 5 =
28.8.
O desvio padro manteve-se
7.512.
A mediana passou para 28.5.
A

visualizaoi

da

distribui-o pode ser feita num


histograma e num diagrama de
extremos e quar-tis.

A sobreposio no mesmo ecr dos diagramas de extremos e quartis das duas listas
mostra claramente que os dois diagramas so iguais, tendo havido apenas um
deslocamento de 5 unidades.
Vemos ento que um aumento de 5 em todos os valores fez com que a mdia e
a mediana tambm aumentassem de 5, enquanto que o desvio padro se no alterou.
No caso geral, se todos os valores de uma populao aumentarem de uma
quantidade b, a mdia tambm aumenta b, mas o desvio padro no se altera.

Imaginemos que o professor, em vez de pedir o aumento de 5 pginas, quisesse


que os alunos desenvolvessem mais o trabalho, de modo que cada um deles
ficasse 10% maior. Qual seria agora a influncia sobre a mdia e o desvio padro?
Podemos aproveitar a lista L1 que tem os valores iniciais, apagar a lista L2 e
colocar a os novos valores. Como se sabe, um aumento de 10% de uma certa
quantidade corresponde a multiplicar essa quantidade por 1.1.

104

Basta ento pr em L2 uma


lista

obtida

partir

de

L1,

multipli-cando-a por 1.1.

A mdia agora

23.8 x 1.1 =

26.18.
O desvio padro 7.512 x 1.1
8.263.
A mediana passou para 25.85.
A sobreposio no mesmo ecr

dos diagramas de

extremos e quartis para os dois casos mostra que o segundo


diagrama sofreu um alongamento. Cada novo valor 1.1 vezes
maior que o valor correspondente da primeira distribuio. Como
o diagrama mais alongado, o desvio padro maior.
Assim, neste caso, a mdia aparece multiplicada por 1.1 e o desvio padro
tambm.
No caso geral, se todos os valores de uma populao forem multiplicados por
uma constante a, tambm a mdia e o desvio padro aparecem multiplicados por a.

Que aconteceria se o professor exigisse no s que os trabalhos aumentassem


10% como tambm que se lhes acrescentasse o anexo de 5 pginas?

Vamos criar, a partir da


pimeira lista L1, a lista L2 em que
cada valor se obtm multiplicando o
valor correspondente por 1.1 e
somando 5.

A mdia 23.8 x 1.1 + 5 = 31.18.


O desvio padro 7.512 x 1.1
8.263.
A mediana passou para 25.85.

105

A sobreposio no mesmo ecr dos diagramas de


extremos e quartis para os dois casos mostra que o segundo
diagrama sofreu um alongamento e um deslocamento.

No caso geral, se todos os valores de um conjunto de dados sofrerem uma


transformao do tipo ax+ b, a mdia sofre uma transformao idntica enquanto que o
desvio padro aparece multiplicado por a.

2 - Suponha que adicionou 100, a cada um dos valores de uma amostra. O que
acontece ao:
a) Desvio padro
b) Amplitude inter-quartil
c) Amplitude
d) Mdia
e) Mediana
3 - Suponha que obteve o valor -40.5 para a varincia. O que conclui?
4 - Suponha que a amplitude de uma amostra 105.4 e que ao calcular o desvio padro
obteve o valor 160.6. O que conclui?
5 - Suponha que tem os nmeros 0, 1, 2, 3, , 8, 9, 10. Pretende-se que escolha 4
destes nmeros, sendo permitidas repeties, tal que (Moore, 1995):
a) i) Os 4 nmeros escolhidos tenham o menor desvio padro possvel.
ii) Os 4 nmeros escolhidos tenham o maior desvio padro possvel.
b) Haver mais do que uma escolha possvel em i) e ii)?
6 - O Sr. Malaquias, cujas habilitaes literrias no vo alm do 4 ano de
escola-ridade, respondeu a 2 anncios de ofertas de emprego. As empresas
trabalhavam no mesmo ramo, pelo que o servio que o Sr. Malaquias iria fazer seria
semelhante em qualquer das empresas. Resolveu perguntar alguma coisa sobre os
ordenados processados nos dois stios, tendo obtido a seguinte informao:

Mdia
Mediana
Desvio padro

Empresa A
89 000$00
80 000$00
3 200$00

Empresa B
95 000$00
70 000$00
3 800$00

106

Qual das empresas aconselharia o Sr. Malaquias a escolher, e porqu?


7 - Algumas pessoas preocupam-se com quantas calorias consomem. A revista
Consu-mer Reports, num estudo sobre cachorros quentes, mediu as calorias em 20
tipos de salsichas de carne de vaca, 17 tipos de salsicha de carne de porco e 17 tipos
de salsi-chas de carne de aves. Apresentam-se os "output" das estatsticas descritivas
corres-pondentes a cada uma das variedades estudadas (Moore, 1995):
Carne de vaca:
Mean = 156.8

Standard deviation = 22.64

N = 20

Median = 152.5

Min = 111

Max = 190

Quartiles = 140, 178.5

Carne de porco:
Mean = 158.7

Standard deviation = 25.24

Min = 107

Max = 195

N = 17

Median = 153

Quartiles = 139, 179

Mean = 122.5

Standard deviation = 25.48

Min = 87

N = 17

Median = 129

Quartiles = 102, 143

Carne de aves:
Max = 170

Construa diagramas de extremos-e-quartis paralelos, e faa uma comparao dos trs


tipos de cachorros, quanto s calorias.
8 - Suponha que pretende ter uma ideia da velocidade dos veculos numa autoestrada,
por onde est a seguir. Ajusta a sua velocidade at que o n de veculos que o
ultrapas-sam consiga igualar o n de veculos que ultrapassou. Com este procedimento
obtm um valor aproximado para a velocidade mdia ou velocidade mediana (Moore,
1995)?

107

Captulo 4

DADOS BIVARIADOS
CORRELAO E REGRESSO

4.1 - Introduo
Por vezes o que se pretende estudar da Populao no uma caracterstica isolada,
mas duas ou mais caractersticas que se supe relacionadas entre si. No caso de se
pretender estudar duas caractersticas conjuntamente, os valores observados aparecem
sob a forma de pares de valores, isto , cada indivduo ou resultado experimental
contribui com um conjunto de dois valores. o que acontece, por exemplo, quando se
considera para cada aluno candidato ao Ensino Superior, a classificao interna final e
a nota do exame de uma disciplina. Outros exemplos so a altura e peso de alunos de
uma escola primria; as notas de Fsica e Matemtica dos alunos do 10 de uma dada
escola; as alturas de pais e filhos; o consumo de gasolina e a cilindrada de um carro,
etc. Ento, para estudar duas caractersticas conjuntas, recolhe-se uma amostra de
dados bivariados, a qual po-de ser representada da seguinte forma:
(x1, y1), (x2, y2), , (xi,yi), , (xn,yn)
Para representar e organizar este tipo de informao considera-se uma representao
grfica a que se d o nome de nuvem de pontos ou diagrama de disperso.
Diagrama de disperso - uma representao grfica para os dados
bivariados, em que cada par de dados (xi,yi) representado por um ponto
de coordenadas (xi,yi), num sistema de eixos coordenados.
Este tipo de representao muito til, pois permite realar algumas propriedades entre
os dados, nomeadamente no que diz respeito ao tipo de associao entre as variveis x
e y.
Consideremos alguns exemplos detalhadamente:
Exemplo 1: Com o objectivo de averiguar se a distncia atingida no salto em
com-primento est relacionada com o peso dos estudantes, um Professor de Educao

108

Fsica seleccionou aleatoriamente 11 estudantes do sexo masculino para uma prova,


tendo obtido os seguintes resultados:
Salto
(cm)
Peso
(Kg)

187.5 182.5 214.0 147.0 167.0 157.5 170.0 198.5 145.0 166.5 189.0
59.6

69.2

61.8

67.0

59.6

54.0

42.7

68.0

66.9

65.8

64.5

Que pode ele concluir? Note-se que aqui no estamos interessados no estudo
estats-tico de uma caracterstica da populao isoladamente, mas sim no modo como
uma caracterstica da populao (a distncia do salto em comprimento) est relacionada
com outra caracterstica da mesma populao (o peso).
Para melhor compreendermos estes dados podemos fazer a representao grfica
ade-quada, obtendo uma nuvem de pontos, em que representamos nas ordenadas a
vari-vel de interesse (distncia atingida no salto em comprimento) e em abcissa a

sal to (cm)

varivel explicativa (peso do estudante).

24 0
22 0
20 0
18 0
16 0
14 0
12 0
40

50

60

70

pe so (kg)

Observamos que no h uma relao clara entre estas duas caractersticas. A nuvem de
pontos encontra-se bastante dispersa. Diz-se que ento as duas caractersticas esto
fracamente correlacionadas. No de esperar que o facto de sabermos o peso do aluno
nos indique de algum modo a distncia que ele vai saltar. Pode ser pesado e saltar
bastante, como pode saltar pouco.

Exemplo 2: Um grupo de investigadores est interessado em saber se nas futuras mes


o nvel de uma protena se altera (e no caso afirmativo, de que modo) ao longo da
gravidez. Seleccionou-se para o estudo 19 mulheres saudveis, todas em estado

109

diferente de gravidez (tempo de gestao), e mediu-se o nvel de protena em cada uma


delas, tendo-se obtido os seguintes resultados (Bowman et al. 1987):
nvel de
protena

Gestao
(semanas)

nvel de
protena

Gestao
(semanas)

nvel de
protena

Gestao
(semanas)

nvel de
protena

Gestao
(semanas)

0.38
0.58
0.51
0.38
0.58

11
12
13
15
17

0.67
0.84
0.56
0.78
0.86

18
19
21
22
25

0.65
0.74
0.83
0.99
0.84

27
28
29
30
31

1.04
0.92
1.18
0.92

33
34
35
36

O objectivo desta experincia averiguar como que uma varivel (nvel de protena)
afectada por uma outra varivel (tempo de gestao). Se representarmos estes dados
graficamente atravs da nuvem de pontos vemos claramente que o nvel da protena
aumenta com o tempo de gestao. Podemos traar uma recta no grfico de modo que
os pontos se encontrem prximos da recta e bem distribudos para um lado e outro dela.
Diz-se ento que as variveis esto positivamente correlacionadas. pois de esperar
que se consiga saber, atravs do tempo de gestao, qual o nvel provvel de protena
no sangue.

nvel de p ro te n a

1.2
1
0.8
0.6
0.4
0.2
0
0

10

20

30

40

tempo d e ge sta o (s eman as)

Exemplo 3: Recolheram-se amostras de solo do esturio do rio Tejo a 8 profundidades


distintas e mediram-se os respectivos graus de humidade (gramas de gua/ 100g solo)
obtendo-se os seguintes resultados (Davis, 1973):

Profundidade (cm)
Humidade (gr. gua/
100g
solo)

150

300

450

600

750

900

1050

124

78

54

35

30

21

22

18

110

Humi dad e

Representando os dados graficamente obtm-se:


14 0
12 0
10 0
80
60
40
20
0
0

50 0

10 00

15 00

P ro fu ndi da de

Observamos que quando a profundidade aumenta, a humidade diminui. Diz-se, neste


caso, que as duas variveis, esto negativamente correlacionadas, pois variam em
sen-tidos opostos.

4.2 - Coeficiente de correlao linear


O grau de associao linear entre duas variveis traduzido matemticamente por uma
estatstica a que se d o nome de correlao linear, ou coeficiente de correlao linear,

r . Se representarmos por xi os valores das


obser-vaes correspondentes a uma das variveis e por yi os valores das
observaes cor-respondentes outra varivel, ento o coeficiente r obtm-se
a qual se representa geralmente por

atravs da expresso,
n

(x
n

(x

i1

onde

x )(y i y )

i 1

x) 2

(y

y )2

i 1

x a mdia das observaes xi e y a mdia das observaes yi .

Prova-se que o valor desta estatstica est entre -1 e 1.

xi x , ento tambm
se espera ter, em geral, yi y , e que quando xi x , tambm yi y , o que faz com
que o produto no numerador seja, em geral, positivo. O caso r >0 corresponde assim
Note-se que quando as variveis variam no mesmo sentido, se

situao em que as variveis variam no mesmo sentido, isto , esto positivamente


correlacionadas.

111

Quando as variveis variam em sentido contrrio, ento valores positivos da diferena


entre

xi e x , aparecem associados, em geral, a valores negativos da diferena entre

yi e y e vice-versa, o que faz com que o produto no numerador venha negativo.


Assim, o caso r <0 corresponde situao em que a variao em sentidos opostos,
ou seja as variveis esto negativamente correlacionadas.
O caso

r = 0 corresponde situao em que aquele produto tende a ter valores quer

positivos, quer negativos. Isto acontece quando um valor positivo ou negativo da

xi e x , aparece associado com valores quer positivos quer negativos


da diferena entre yi e y . Diz-se ento que as variveis no esto correlacionadas.
diferena entre

Os valores extremos da correlao,

r =1 ou -1, correspondem situao em que os

valores das variveis se encontram sobre uma recta com declive positivo ou negativo.

Nos exemplos apresentados os valores da estatstica


-

r so:

r = 0.077 para o 1 exemplo traduzindo uma muito fraca associao entre o

peso dos estudantes e a distncia conseguida no salto em comprimento;


-

r = 0.86 para o 2 exemplo, traduzindo uma forte associao positiva entre o

tempo de gestao e o nvel da protena no sangue;


-

r = - 0.891 para o 3 exemplo traduzindo uma forte associao negativa entre

a humidade e a profundidade.
Observao: A expresso do coeficiente de correlao aqui apresentada como mera
informao para os Professores. Os alunos devem obter os valores dos coeficientes de
correlao para vrias situaes atravs da mquina de calcular. O que se pretende
que eles apenas relacionem o valor de

r com o grau e o tipo de associao linear

exis-tente entre as variveis em estudo.


tambm importante frisar que o coeficiente de correlao traduz apenas o grau de
relao linear existente entre duas variveis. O facto de o coeficiente de correlao ser
zero, no implica que as variveis no estejam relacionadas. Com efeito, no exemplo

r = 0 e, no entanto, as variveis x e y esto relacionadas pela


2
2
relao determinstica no linear x y 9
que se segue,

112

x
y

-3

-2

-1

2 2

2 2

y
3
2
1
0
-4

-2

4.3 - Recta de regresso


Quando a correlao entre duas variveis elevada (quer seja positiva, quer seja
ne-gativa), isso significa que se conhecermos o valor de uma das variveis ento
possvel ter uma ideia do valor que a outra varivel ir tomar. Em linguagem estatstica,
diz-se que podemos inferir o valor da outra varivel.
Assim, voltando ao exemplo da protena, consideremos uma senhora grvida com 24
semanas de gestao. Qual ser o valor que o nvel de protena deve apresentar?
Para respondermos a esta questo podemos construir uma recta que "melhor" aproxime
os pontos que constituem a nuvem de pontos. Claro que h muitas rectas possveis. Um
dos critrios mais usados para definir esta recta, o de tornar mnima a soma dos
quadrados dos desvios dos pontos em relao recta 1. Essa recta a chamada recta
de regresso (dos mnimos quadrados). Matematicamente pode-se encontrar essa recta.
Prova-se que ela passa pelo centro de gravidade da distribuio, isto , pelo ponto

(x , y ) e que o declive est relacionado com o coeficiente de correlao e tem o mesmo


sinal.

1 Designamos por desvio no ponto de abcissa

xi

diferena entre o valor observado

yi

eo

valor correspondente sobre a recta.

113

Para o exemplo da protena, a recta de regresso :

y 0.023 x +0.0202.

Construda a recta, podemos responder pergunta formulada. O valor que inferimos


para o nvel da protena correspondente a 24 semanas de gravidez o valor sobre a

nvel de protena

recta correspondente a

xi =24, isto 0.754:

1.2
1.1
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36
tempo d e ges ta o (se mana s)

Sugestes didcticas e comentrios


Haver alguma relao entre o nmero de mdicos e a taxa de mortalidade infantil?
primeira vista, parece que sim. provvel que quanto mais mdicos houver, menos
crianas morram no primeiro ano aps o nascimento. Para investigar se esta hiptese
est correcta, recolheram-se os dados referentes a alguns pases (Anurio Estatstico,
Planeta De Agostini, 1994).
Pas
Blgica
Honduras
Iro
Mxico
Nicargua
Peru
Polnia
Portugal
Qunia
Romnia
Uruguai
Venezuela

Mdicos por
10000
habitantes

Taxa de mortalidade
infantil (por 1000
nados vivos)

15.38
2.65
3.06
6.75
4.65
5.21
14.29
9.01
1.25
11.90
10.99
8.93

8
49
68
36
56
53
15
11
67
27
21
34

114

A representao destes dados num grfico de correlao vai permitir-nos


visualizar a situao. Usando uma calculadora grfica, isso pode ser feito rapidamente.
Introduzimos os dados referentes ao nmero de mdicos por 10000 habitantes
numa lista (L1) e a taxa de mortalidade infantil noutra (L2).
Se quisermos, embora no seja necessrio, podemos ordenar os dados,
relati-vamente ao nmero de mdicos, fazendo:
STAT

3:SortD(...

L1,L2

STAT

1:Edit...

Os dados ficam por ordem decrescente da lista 1. Repare-se que os valores


correspondentes das duas listas continuam associados porque, ao dar a instruo
SortD(L1,L2), a mquina ordenou a lista 1, alterando ao mesmo tempo a lista 2.
Para obter a nuvem de pontos fazemos:
STAT PLOT

V-se

1:Plot1

claramente

Regulamos o grfico

que

existe

uma

ZOOM

9:ZoomStat

correlao

nega-tiva. Os pontos dispem-se de tal modo que,


genericamente, ao aumento de uma varivel corresponde a
diminuio da outra.
Vamos agora procurar a recta de regresso e o coeficiente de correlao r.
STAT

CALC

4:LinReg

L1,L2,Y1

ENTER

115

GRAPH
Ao pedirmos LinReg(ax+b) L1,L2,Y1 a mquina no
s determina a equao da recta de regresso como
tambm a coloca imediatamente no editor de funes.
Assim, se a-gora pedirmos o grfico, vamos ter a nuvem de
pontos e a recta de regresso.
A equao da recta , usando valores aproximados,

y = 4.165x + 69.73.

A correlao relativamente forte. O seu coeficiente r 0.911.


Se nos disserem que num pas h 13 mdicos por 10000 habitantes, qual ser a
sua taxa de mortalidade infantil?
Para encontrar a correlao entre as duas variveis, s usmos os valores
refe-rentes a 12 pases e no sabemos se eles so uma amostra representativa da
popula-o. Se tivermos a certeza que sim, ento podemos usar a recta de regresso
para encontrar um valor aproximado da taxa de mortalidade infantil:
y = 4.165 13 + 69.73 15.6
de prever que a taxa de mortalidade infantil seja prxima de 16.

4.4 - Anlise preliminar dos dados, antes de construir a recta de


regresso
Para avaliar da necessidade de uma anlise cuidada dos dados antes da obteno da
recta de regresso consideremos o seguinte exemplo (Sen et al., 1990, pg 24).
Exemplo: Fez-se um estudo para averiguar a relao existente entre o nmero de
ve-culos roubados por cada mil habitantes e a densidade populacional na cidade de
Chi-cago. Seleccionaram-se, para o efeito, 18 distritos dessa cidade. Registou-se, para
cada distrito, a sua densidade populacional (DP) e o nmero de veculos a roubados
(NVR) por cada mil habitantes, tendo-se obtido os seguintes resultados:

116

DP
3235
24182
20993
15401
19749
19487

NVR
132.8
14.9
16.7
20.0
14.2
13.5

DP
19581
14077
18137
22919
24534
24987

NVR
16.5
22.2
15.8
13.3
15.1
16.2

DP
21675
22315
18402
33445
27345
15358

NVR
12.5
11.8
19.6
10.5
10.1
19.0

O coeficiente de correlao -0.74 e a recta de regresso de mnimos quadrados


NVR = 88.195 - 0.00326 DP
Se fizermos a representao grfica destes dados vemos que h um distrito que tem um
comportamento totalmente diferente dos outros.

N vecul os roub ad os

14 0
12 0
10 0
80
60
40
20
0
0

10 000

20 000

30 000

40 000

Dens id ade p op ul aci on al

O 1 distrito que aparece na tabela tem uma densidade populacional muito baixa, mas
um elevado nmero de veculos roubados. Uma averiguao mais cuidada levou
con-cluso que aquele distrito correspondia ao Centro de Chicago, uma rea
essencialmente de comrcio e de escritrios, e consequentemente uma rea em que a
densidade de veculos no tem a ver com a densidade populacional. Este distrito no
deveria ter sido includo na amostra. Assim, retirando este distrito, podemos construir
uma nova recta de regresso. Obtm-se agora a recta
NVR = 27.36 -0.00056 DP
sendo o coeficiente de correlao -0.79.

117

N vecul os roubados

25
20
15
10
5
0
0

10 000

20 000

30 000

40 000

Dens id ade p op ul aci on al

Repare-se na alterao verificada. As concluses extradas de uma recta e de outra


po-dem ser bem diferentes. Por exemplo, se considerarmos o valor de 15401 para a
densi-dade populacional, que um dos valores tabelados, o valor previsto para o
nmero de carros roubados, utilizando a primeira recta de regresso 38.0, enquanto
que o previs-to pela segunda recta de regresso 18.7, bem mais prximo de 20 (valor
observado).

N vecul os roub ado s

40
35
30
25
20
15
10
5
0
0

10 000

20 000

30 000

40 000

Dens id ade p opu la ci ona l

As consideraes anteriores levam-nos a concluir que a recta de regresso no


resistente, pois muito influenciada por valores estranhos- outliers, da amostra (o facto
da determinao da recta de regresso estar ligada ao ponto

(x , y ) , conduz-nos

imediatamente concluso anterior, pois como sabemos a mdia no uma medida

118

resistente).

Da a necessidade de analisar cuidadosamente os dados, antes de se

proceder a uma anlise de regresso.


Sugestes didcticas e comentrios
A tabela seguinte apresenta 3 conjuntos de dados A, B e C, preparados pelo estatstico
Frank Anscombe, para ilustrar os perigos de calcular medidas sem primeiro representar
os dados. Os conjuntos de dados A, B e C tm a mesma correlao e a mesma recta de
regresso (Moore, 1995):
A
x
y
B
x
y
C
x
y

10
8.04

8
6.95

13
7.58

9
8.81

11
8.33

14
9.96

6
7.24

4
4.26

12
10.8
4

7
4.82

5
5.6

10
9.14

8
8.14

13
8.74

9
8.77

11
9.26

14
8.10

6
6.13

4
3.10

12
9.13

7
7.26

5
4.74

8
6.58

8
5.76

8
7.71

8
8.84

8
8.47

8
7.04

8
5.25

8
5.56

8
7.91

8
6.89

19
12.5
0

a) Calcule o coeficiente de correlao e a recta de regresso para cada um dos


conjuntos de dados e verifique que so iguais.
b) Para cada um dos conjuntos de dados faa o diagrama de pontos e represente a
recta de regresso.
c) Em qual das situaes acha que pode utilizar a recta de regresso para predizer y
para x=13.5? Justifique a resposta.

119

Captulo 5

NOTAS FINAIS

5.1 - Introduo
Sendo objectivo da Estatstica o de retirar informao a partir de dados, gostaramos,
como nota final, de chamar a ateno para o que diz David Moore, em The Basic
Practice of Statistics, " Data are numbers, but they are not "just numbers". Data are
numbers with a context. The number 10.5, for example, carries no information by itself.
But if we hear that a friend's new baby weighed 10.5 pounds at birth, we congratulate her
on the healthy size of the child. The context engages our background knowlwdge and
allows us to make judgments. We know that a baby weighing 10.5 pounds is quite large,
and that it isn't possible for a human baby to weigh 10.5 ounces or 10.5 kilograms. The
context makes the number informative".
Assim, mais uma vez observamos que deve ser incentivado nos alunos o gosto pela
anlise e interpretao, mais do que a simples utilizao dos dados para a manipulao
de grficos e frmulas. Alis, aproveitamos para observar, mais uma vez, que
precisamente neste tema da Estatstica que os alunos devem ser aconselhados a utilizar
a

calculadora

para

no

serem

sobrecarregados

com

clculos

pesados

desnecessrios.
Tambm, tendo em considerao o que dissemos no primeiro pargrafo, a avaliao
deste tema merece uma observao especial. Sempre que possvel, essa avaliao
dever-se- centrar na realizao de pequenos projectos, que se desenvolvero ao longo
das aulas, medida que os conceitos forem introduzidos, evitando, unicamente, os
testes clssicos de uma disciplina de Matemtica. Assim, e meramente a ttulo de
exemplo, damos algumas sugestes de pequenos trabalhos, que podem ser objecto de
trabalhos de grupo.

120

5.2 - Sugestes para projectos a desenvolver pelos alunos


1. Pedir aos alunos da turma que recolham a informao referente altura de cada um
deles e dos respectivos pais. Utilizar esses dados para estudar, por exemplo, as alturas
referentes aos homens e s mulheres, uma eventual relao de dependncial linear
entre as alturas dos maridos e das mulheres, ou entre os pais e os filhos, etc.
2. Recolher informao, junto de alguns alunos da escola, seleccionados ao acaso,
sobre o n de faltas e o dia da semana em que se deu a falta. Ser que os alunos faltam
uniformemente nos diferentes dias da semana, ou haver dias com maior incidncia de
faltas?
3. Recolher informao sobre as notas da disciplina de Matemtica de duas turmas de
alunos do mesmo ano e do mesmo professor. Haver evidncia de que as turmas no
tenham o mesmo aproveitamento?
4. Recolher informao sobre as notas (do 1 perodo) de alguns alunos do 10 ano, nas
disciplinas de Matemtica e Portugus. Haver indcios de que os aproveitamentos
sejam diferentes? Haver tendncia para que os alunos que tm boa nota a Portugus
tambm tenham boa nota a Matemtica?
5. Haver relao entre o nmero de negativas a Portugus e a Matemtica nas vrias
turmas? Recolher os dados relativos ao nmero de negativas nestas duas disciplinas
em todas as turmas da escola e referentes ao perodo anterior. Estudar a possvel
correlao entre as duas variveis. Elaborar um pequeno relatrio.
6. Recolher informao sobre as notas da disciplina de Matemtica de alguns alunos do
12 ano do ano lectivo anterior e as respectivas notas no exame nacional de
Matemtica. Haver indcios que levem a afirmar que os exames nacionais foram
demasiado simples ou demasiado complicados, ou pelo contrrio, ajustavam-se aos
alunos a que se destinavam?
7. Comparar dois autores no que diz respeito frequncia de utilizao de
determinadas palavras ou comprimentos das frases dos seus textos.

121

5.3 - Sugestes para actividades na sala de aula


1. COMPRIMENTO (1)
O professor escolhe um comprimento (por exemplo: a largura do quadro da sala, a
altura da sala, o comprimento da janela). Cada aluno escreve a sua estimativa desse
comprimento, com aproximao ao centmetro.
Faz-se a recolha e a organizao dos dados.
Calculam-se as principais medidas de localizao e disperso.
Fazem-se as representaes grficas adequadas.
Mede-se o verdadeiro valor do comprimento e situamo-lo em relao mdia e
mediana.
V-se quem foi o aluno que fez a melhor estimativa.
2. COMPRIMENTO (2)
Faz-se um estudo semelhante ao anterior para as estimativas de um novo comprimento
indicado. Comparar as medidas de disperso com as do caso anterior. Desta vez a
disperso deve ser bastante menor visto os alunos terem a informao do comprimento
do primeiro estudo.
3. BOLA AO CESTO
Na aula de Educao Fsica, escolhe-se uma certa distncia tabela de basquetebol.
Cada aluno faz 20 lanamentos e regista o nmero de vezes que conseguiu introduzir a
bola no cesto. Os alunos podem estar organizados aos pares: enquanto um lana, o
outro faz os registos.
Organizar os dados em tabelas e grficos.
Determinar as principais medidas de localizao e disperso.
Fazer um relatrio sobre a capacidade de encestar dos alunos da turma.
4. TEMPO
O professor tem um cronmetro, mas os alunos no podem olhar para os seus relgios.
Num determinado momento o professor diz Comeou e passado algum tempo (entre
20 e 60 segundos) diz Fim.
Cada aluno regista a estimativa que faz do tempo decorrido.
Os dados so recolhidos e tratados estatisticamente.
No fim, o verdadeiro valor comparado com os tempos estimados pelos
alunos. A melhor estimativa pode receber um prmio.

122

5. M & Ms
As embalagens de M&Ms traro todas o mesmo nmero de pastilhas?
Cada aluno traz de casa uma embalagem pequena de M&Ms fechada.
As embalagens so abertas na aula e cada aluno conta quantas pastilhas de chocolate
tem a sua embalagem.
Recolhem-se os dados referentes a todas as embalagens.
Faz-se o estudo estatstico do nmero de pastilhas por embalagem.
6. SOBREVIVNCIA DOS M & Ms
Material por cada grupo de 2 alunos:
1 copo de plstico
2 pratos de plstico
40 pastilhas de chocolate M & Ms
Colocam-se as 40 pastilhas no copo e lanam-se para um dos pratos. As
pastilhas que no ficarem com a pequena inscrio M&M virada para cima so
eliminadas e colocadas no 2 prato. As que ficaram com a inscrio virada para cima
so as sobreviventes e voltam a ser colocadas no copo.
Repete-se o processo com as sobreviventes.
Ao fim de 4 lanamentos do copo, a experincia termina e regista-se o nmero
de pastilhas que no foram eliminadas.
Cada grupo de 2 alunos faz esta experincia 10 vezes.
Faz-se a recolha dos resultados de todas as experincias da turma.
Estuda-se estatisticamente o nmero de sobreviventes (medidas de
localizao e de disperso, grficos, etc.).
No fim, cada um come os seus dados estatsticos...
7. MOEDAS
Cada aluno regista o nmero de moedas que tem e a respectiva quantia em
escudos.
Recolher os dados referentes a toda a turma.
Fazer o estudo estatstico referente varivel nmero de moedas.
Fazer o estudo estatstico referente varivel quantia.
Estudar a correlao entre as variveis nmero de moedas e quantia.
(Retirado de Bastos et al., 1997)

123

BIBLIOGRAFIA
BARRETO, A. (1996) - A Situao Social em Portugal, 1960-1995, Instituto de Cincias
Sociais, Universidade de Lisboa.
BASTOS, R.; BERNARDES, A.; LOPES, A. V.; LOUREIRO, C.; VARANDAS, J. M.;
VIANA, J. P. (1997) - Matemtica 10, Edies Contraponto, Porto.
BOWMAN, A. W.; ROBINSON, D. R. (1987) - Introduction to Statistics, Adam Hilgor,
Bristol.
BOWMAN, A. W.; ROBINSON, D. R. (1987) - Regression and Analysis of Variance, Adam
Hilgor, Bristol.
CLEGG, F. (1995) - Estatstica para Todos, Gradiva, Lisboa.
DAVIS, J. C. (1973) - Statistics and Data Analysis in Geology, Wiley.
FREEDMAN, D.; PISANI, R.; PURVES, R.; ADHIKARI, A. (1991) - Statistics, Second Edition,
W.W. Norton & Company, New York.
GAL, I. (1995) - Statistical Tools and Statistical Literacy: The Case of The Average,
Teaching Statistics, Vol. 17, Number 3.
GRAA MARTINS, M. E. (1995) - Introduo s Probabilidades e Estatstica - Edio da
Sociedade Portuguesa de Estatstica, Lisboa.
Grupo Azarquiel, (1993) - Estatstica no 3 Ciclo do Ensino Bsico, Associao de
Professores de Matemtica, Lisboa.
HAWKINS, A.; JOLLIFFE, GLICKMAN, L. (1992) - Teaching Statistical Concepts,
Longman, London.
HOLMES, P. (1994) - Classroom Practicals, Centre for Statistical Education, University
of Sheffield.
HOLMES, P. (1994) - Stem and Leaf, Centre for Statistical Education, University of
Sheffield.
HOLMES, P.; WORSNOP, R. (1993) - Bottles and Things, Centre for Statistical
Education, University of Sheffield.
HOLMES, P.; WORSNOP, R. (1992) - Canteen Choice, Centre for Statistical Education,
University of Sheffield.
HOLMES, P.; WORSNOP, R. (1993) - Growing Up, Centre for Statistical Education,
University of Sheffield.
Instituto Nacional de Estatstica (1991) - Anurio Estatstico de Portugal, INE, Lisboa.

124

LOOSEN, F.; LION, M.; LACANTE, M. (1985) - The Standard Deviation: Some Drawbacks
of an Intuitive Approach, Teaching Statistics, Vol. 7, Number 3.
MENDENHALL, W.; OTT, L.; LARSON, R. (1974) - A Tool for the Social Sciences, Duxbury
Press, Belmont, California.
MOORE, D. (1995) - The Basic Practice of Statistics, W. H. Freeman adn Company, New
York.
ROUNCEFIELD, M. (1994) - Box Plots, Centre for Statistical Education, University of
Sheffield.
RUNYON, R. P.; HABER, A.; PITTENGER, D.; COLEMAN, K. A. (1996) - Fundamen-tals
of Behavioral Statistics, MacGraw-Hill Companies, U.S.A..
SEN, A.; SRIVASTAVA, M. (1990) - Regression Analysis, Springer-Verlag, New York.
VICENTE, P.; REIS, E; FERRO, F. (1996) - A amostragem como factor decisivo de

qualidade, Edies Slabo, Lda, Lisboa.


WEISS, N. A. (1989) - Elementary Statistics, Addison-Wesley Publishing Company
U.S.A..

125