Você está na página 1de 176

DADOS e VARIVEIS

anlise de dados

Biblioteca Nacional Catalogao Nacional


MARTINS, Maria Eugnia Graa, 1947-

, e outros

Anlise de Dados: texto de apoio para os


professores do 1. ciclo/Maria Eugnia Graa
Martins, Lusa Canto e Castro Loura, Maria de
Ftima Mendes
ISBN 978-972-742-261-6
l LOURA, Lusa Canto e Castro, 1954ll MENDES, Maria de Ftima, 1963CDU 371
51

icha Tcnica

Anlise de Dados
Texto de Apoio para os Professores do 1. ciclo
Editor
Ministrio da Educao
Direco-Geral de Inovao e de Desenvolvimento Curricular
Autores
Maria Eugnia Graa Martins, Lusa Canto e Castro Loura,
Maria de Ftima Mendes
Design
Manuela Loureno
Execuo Grfica
Editorial do Ministrio da Educao
Tiragem
7500 Exemplares
Depsito Legal
262 674/07
ISBN
978-972-742-261-6

Nota de Apresentao
No mbito do Programa de Formao Contnua em Matemtica iniciado em 2005 para
os professores do 1. ciclo e que se alargou no ano seguinte aos professores do
2. ciclo, foram identificados aspectos e temas relevantes para a formao em
Matemtica dos professores do Ensino Bsico. Uma das vertentes que se destacou foi
a importncia de ter disponveis documentos cientficos que incidam nas temticas
abordadas nos primeiros anos de escolaridade.
A publicao desta brochura sobre Anlise de Dados concretiza a iniciativa de
organizar publicaes de matemtica focadas nas temticas centrais do currculo do
Ensino Bsico.
A partir de uma proposta da Comisso de Acompanhamento do Programa de
Formao Contnua em Matemtica, o Ministrio da Educao, atravs da Direco-Geral de Inovao e de Desenvolvimento Curricular, convidou Maria Eugnia Graa
Martins, Lusa Canto e Castro Loura e Maria de Ftima Mendes a elaborar uma brochura que apoiasse, do ponto de vista cientfico, os professores do Ensino Bsico no
domnio da organizao, anlise e interpretao de dados.
Esta publicao constitui-se como um importante recurso posto disposio dos
professores numa temtica que assume cada vez maior relevncia no mundo de hoje.
Paralelamente, marca a afirmao da importncia da temtica da Anlise de Dados
desde os primeiros anos de escolaridade apoiando o professor no desenvolvimento do
seu conhecimento matemtico.
Lisboa, 20 de Julho de 2007

O Director da Direco-Geral de Inovao e de Desenvolvimento Curricular

Lus Capucha

Prefcio
Esta brochura foi organizada no mbito do Programa Nacional de Formao Contnua
em Matemtica para professores do 1. ciclo do Ensino Bsico. A sua finalidade
constituir um instrumento de apoio, cientfico e didctico, no domnio da organizao,
anlise e interpretao de dados.
A publicao foi organizada de modo a incluir duas vertentes, a primeira das quais
relacionada com os conhecimentos cientficos associados Estatstica, onde se
procurou transmitir, de forma clara e simples, os conceitos e procedimentos que
consideramos fundamentais serem do conhecimento de um professor do Ensino
Bsico. medida que esses conceitos e procedimentos so desenvolvidos, vo sendo
apresentados exemplos ilustrativos a partir de contextos do dia-a-dia. Para alm dos
exemplos so ainda propostas diversas tarefas, que possibilitam ao professor uma
melhor apropriao dos conceitos envolvidos.
A outra vertente, de mbito mais didctico, pretende constituir um recurso para o
trabalho a ser desenvolvido na sala de aula no mbito da educao estatstica. Assim,
e ao longo de todos os captulos, so apresentadas e exploradas tarefas que podem
ser propostas a alunos do Ensino Bsico. Foi ainda preocupao das autoras, dar
exemplos, para alm dos relacionados com a vida de todos os dias, de contextos
provenientes de outras reas curriculares.
Considerando que hoje em dia o computador faz parte, cada vez mais, do nosso
quotidiano, sugerimos, a propsito da construo de diferentes modos de organizao
de dados, o recurso ao Excel, uma ferramenta informtica de utilizao acessvel e
que facilita muitos dos procedimentos propostos.
A explorao feita ao nvel dos conceitos e processos de organizao, anlise e interpretao de dados, vai um pouco para alm de todo o trabalho a desenvolver na sala
de aula. No entanto, cremos que um professor no deve esgotar o seu conhecimento
no que explora com os seus alunos, necessrio que tenha um conhecimento slido
e mais aprofundado sobre os mesmos assuntos.
Por outro lado fundamental que a actividade na sala de aula, em torno da anlise
de dados, seja realizada de forma integrada no desenvolvimento de projectos que
partam do interesse dos alunos e contribuam para o desenvolvimento das
competncias estatsticas.
Acreditamos que a publicao desta brochura possa contribuir para considerar a
literacia estatstica como uma vertente fundamental para o desenvolvimento de
cidados crticos e intervenientes, apesar de, at agora, no currculo do ensino bsico
dos primeiros anos, o papel que lhe tem sido atribudo ter sido pouco relevante.

As autoras

I ndice
Captulo

Dados e Variveis ........................................................................................

Objectivo
.......................................................................................................................
1.1 Introduo ....................................................................................................................
1.2 Dados e Variveis..........................................................................................................
Na Sala de Aula .................................................................................................................
Tarefa Vamos conhecer a turma!....................................................................................
Tarefa Vamos conhecer os animais I ..............................................................................
Tarefa proposta..................................................................................................................

9
11
13
17
17
19
20

Captulo

Organizao dos dados em tabelas e grficos ...............................

21

Objectivo
.......................................................................................................................
2.1 Introduo ....................................................................................................................
2.2 Tabelas e grficos para dados qualitativos..................................................................
2.2.1 Tabela de frequncias para dados qualitativos ..............................................
2.2.2 Grfico de pontos e grfico de barras para dados qualitativos ....................
2.2.2.1 Grfico de pontos .........................................................................................
2.2.2.2 Grfico de barras ...............................................................................
2.2.3 Pictograma .......................................................................................................
2.2.4 Diagrama circular ............................................................................................
Tarefa Vamos conhecer os animais II .............................................................................
Utilizao do Excel ............................................................................................................
2.3 Tabelas e grficos para dados quantitativos discretos ...............................................
2.3.1 Tabela de frequncias para dados quantitativos discretos ...........................
2.3.2 Grfico de pontos e grfico de barras para dados quantitativos discretos ....
2.3.2.1 Grfico de pontos...............................................................................
2.3.2.2 Grfico de barras ...............................................................................
Tarefa Vamos conhecer os animais III............................................................................
2.3.3 Exemplos de tabelas e grficos para dados quantitativos discretos .............
Utilizao do Excel ............................................................................................................
2.4 Tabelas e grficos para dados quantitativos contnuos .............................................
2.4.1 Tabela de frequncias para dados contnuos.................................................
2.4.2 Histograma .......................................................................................................
2.4.3 Histograma acumulado ....................................................................................
2.4.4 Exemplos de tabelas e grficos para dados quantitativos contnuos............
Utilizao do Excel ............................................................................................................
2.5 Outras representaes grficas ...................................................................................
2.5.1 Diagrama de extremos e quartis .....................................................................
2.5.1.1 Construo do diagrama de extremos e quartis para
dados agrupados............................................................................................
2.5.2 Grfico de caule-e-folhas ................................................................................
Tarefa Quantos segundos se consegue estar sem respirar?...........................................
Utilizao do Excel ............................................................................................................
2.6 Algumas formas bsicas de distribuio de dados ......................................................
2.7 Representaes grficas e tabelas de frequncias para dados bivariados.................
2.7.1 Diagrama de disperso.....................................................................................
2.7.2 Tabela de frequncias para dados bivariados ................................................
2.8 Um grfico vale mais do que mil palavras? ...................................................................
2.8.1 Utilizao de pictogramas ...............................................................................
2.8.2 Utilizao do diagrama circular ......................................................................
2.8.3 Escalas e escalas ..............................................................................................
2.8.4 Outras situaes Exemplo de um grfico pouco elucidativo .....................

21
23
24
24
25
25
26
28
29
30
30
33
33
34
34
35
37
38
43
44
47
48
51
53
55
59
59
61
61
62
65
68
72
72
75
77
77
81
82
84

2.9 Algumas delicadezas no tratamento estatstico dos dados .....................................


Na Sala de Aula..................................................................................................................
Tarefa Vamos conhecer a turma! ................................................................................
Tarefa Vamos conhecer algumas caractersticas dos alunos da escola ........................
Tarefa Vamos comparar a temperatura entre Lisboa e Porto.......................................
Tarefa Quais so os nossos animais domsticos? ...........................................................
Tarefa Qual o desporto favorito? ...................................................................................
Tarefa Vamos pesar laranjas............................................................................................
Tarefa Hbitos alimentares comemos fruta suficiente? .............................................
Tarefas Propostas ..............................................................................................................

Captulo

Caractersticas amostrais. Medidas de localizao e


Disperso ..................................................................................................... 111

Objectivo
.......................................................................................................................
3.1 Introduo ....................................................................................................................
3.2 Medidas de localizao.................................................................................................
3.2.1 Mdia................................................................................................................
3.2.2 Mediana............................................................................................................
3.2.3 Quartis..............................................................................................................
3.2.4 Percentis ..........................................................................................................
3.2.5 Moda ................................................................................................................
Tarefa Vamos pesar laranjas (cont.) ................................................................................
Na Sala de Aula..................................................................................................................
Tarefa O melhor dar a cada um a mdia! ....................................................................
Tarefa Vamos comer queijo, mas no exageremos... ......................................................
Tarefas propostas...............................................................................................................
3.3 Medidas de disperso....................................................................................................
3.3.1 Amplitude.........................................................................................................
3.3.2 Amplitude interquartis ....................................................................................
3.3.3 Desvio-padro...................................................................................................
3.4 Coeficiente de correlao............................................................................................

Captulo

85
87
87
97
99
100
102
104
106
108

111
113
114
114
117
122
123
125
129
131
131
134
136
138
139
139
139
146

Probabilidade ............................................................................................... 153

Objectivo
....................................................................................................................... 153
4.1 Introduo .................................................................................................................... 155
4.2 Clculo de probabilidades numa situao especial................................................... 157
Tarefa Vamos lanar dois dados ..................................................................................... 160
Na Sala de Aula.................................................................................................................. 162
Tarefa O que mais provvel? ........................................................................................ 162
Tarefa Vamos lanar dois dados (cont.) ......................................................................... 163
Tarefa Ser que a moeda equilibrada?......................................................................... 164
Tarefa Quem que ganha o jogo? .................................................................................. 166
Tarefa proposta.................................................................................................................. 170

Referncias Bibliogrficas................................................................................................... 173

DADOS e VARIVEIS

A Estatstica uma Cincia que se aplica em todos os campos do


conhecimento. Costuma-se dizer que a cincia que trata dos
dados. Os dados tm sido, desde h muitos sculos, instrumentos
essenciais compreenso do mundo que nos rodeia. Neste captulo
procedemos classificao dos dados, processo este que
condiciona, de um modo geral, a ferramenta estatstica a utilizar na
sua organizao e no seu tratamento.

1.1

Introduo

O registo e anlise de dados tm sido, desde h muitos sculos, instrumentos


essenciais compreenso do mundo que nos rodeia. Os fsicos, por exemplo,
registavam os dados resultantes das suas experincias e, posteriormente,
analisavam-nos em busca de uma lei que explicasse os resultados obtidos. Com o
avano das tcnicas estatsticas de anlise de dados, possvel encontrar padres e
tendncias em coleces de dados provenientes de muitas outras fontes que no,
somente, as resultantes de experincias fsicas. Na verdade, so poucas as reas do
saber onde no se recorre anlise de dados para confirmar teorias e propor novas
interpretaes para os fenmenos que so o seu objecto de estudo.
Perante uma coleco de dados, h duas formas possveis de abordar a sua anlise
consoante interesse:
apenas explor-los, e encontrar padres na coleco de dados que , por
assim dizer, a populao em estudo.

Para dar dois exemplos da nossa vida corrente, pense-se nos resultados obtidos num
teste que um professor deu sua turma e nos resultados obtidos numa sondagem
boca da urna nas eleies presidenciais. No primeiro caso, a populao a turma e
os dados que se tm referem-se a toda a populao enquanto que, no segundo caso,
os dados referem-se a uma pequena parte da populao de interesse. A grande
maioria das situaes onde necessria a utilizao de metodologias estatsticas,
enquadra-se neste segundo caso.

Amostra subconjunto da populao, que se observa com o objectivo de tirar


concluses para a populao de onde foi retirada.
Dimenso da amostra nmero de elementos da amostra.
Ao longo deste texto iremos incidir, fundamentalmente, nas tcnicas estatsticas
destinadas a descrever, explorar e encontar padres numa coleco de dados. Alis,
mesmo quando o objectivo inferir para uma populao mais vasta, usual iniciar o
estudo de uma coleco de dados com aquilo a que se chama anlise exploratria
ou estatstica descritiva: fase da anlise de dados onde estes so organizados em
tabelas e grficos e onde se calculam algumas caractersticas sumativas como a
moda, a mediana, a mdia, o desvio padro, entre outras. De notar que, quando a
coleco de dados coincide com a populao, o estudo desses dados resume-se
estatstica descritiva.

anlise de dados

Populao coleco de unidades individuais, que podem ser pessoas,


animais, resultados experimentais, com uma ou mais caractersticas em
comum, que se pretendem analisar.

11

DADOS e VARIVEIS

extrapolar para um universo mais vasto os padres encontrados nessa coleco


de dados, a qual parte (ou amostra) desse universo (ou populao).

DADOS e VARIVEIS

anlise de dados

A fase seguinte do estudo de uma coleco de dados (que no ser, aqui, objecto de
estudo) designa-se por anlise inferencial ou inferncia: fase da anlise de dados
onde se propem possveis modelos probabilsticos para a forma como os dados
referentes a toda a populao se distribuem e se interligam. com base nesses
modelos que se infere da amostra para a populao (da parte para o todo).

12

1.2

Dados e Variveis

Os trs primeiros captulos desta brochura tm por objectivo ilustrar as diferentes


etapas por que passa uma anlise descritiva dos dados. A primeira dessas etapas
consiste na identificao do tipo de dados que temos para analisar.
Observe-se a seguinte tabela Dados sobre casas (fictcia):

3
3
3
3
5
2
2
4
2
2
3
3
4
3
3
3
2
2
2
1
2
3
2
3
2
1
3
2
2
2
3
3
2
3
2
2
5
3
1
2

rea (m )
99,0
90,5
109,0
104,8
138,7
87,3
93,7
118,5
88,9
95,6
104,3
126,5
118,5
98,9
100,3
94,7
88,0
92,4
101,1
66,3
96,8
103,8
109,0
119,0
100,8
79,5
114,6
91,1
94,9
98,1
94,9
103,0
104,4
112,9
87,6
76,7
163,3
154,2
75,9
90,2

Estado
0
0
0
0
1
0
0
0
0
0
0
1
0
0
1
0
0
0
0
0
1
0
0
0
0
1
0
0
0
1
0
0
1
1
0
1
0
0
0
0

Garagem

Zona

0
0
0
0
1
0
0
0
1
0
0
0
0
1
1
0
0
1
0
1
0
0
1
1
1
0
0
0
0
1
1
1
0
0
0
1
0
0
0
0

Tabela com algumas caractersticas de 40 casas.

C
B
B
B
A
B
B
B
A
B
C
A
B
B
A
B
C
B
A
A
A
A
A
A
A
A
B
C
A
A
B
B
A
A
C
A
B
A
A
B

Preo (10 )
3

138,50
190,30
179,26
162,74
357,32
157,39
138,34
209,46
169,60
153,56
149,00
299,33
207,66
182,86
236,27
188,17
122,84
149,20
160,13
147,89
202,63
205,92
185,66
210,21
208,88
186,09
183,49
126,80
165,69
290,00
170,18
189,22
255,90
281,25
121,47
210,24
295,98
255,03
135,69
151,26

13

DADOS e VARIVEIS

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40

N. assoalhadas

anlise de dados

Ident.

Trata-se de um registo com informao referente a 40 casas que esto venda,


nomeadamente, nmero de assoalhadas, rea, estado (0-usada, 1-nova), ter ou no
ter garagem (0-no tem, 1-tem), zona (A, B ou C) e preo (em milhares de euros).
Na tabela surge ainda uma coluna com o nmero de identificao de cada casa.
Olhando com um pouco mais de detalhe para as quatro primeiras casas, verificamos
que todas so usadas, tm 3 assoalhadas e no tm garagem. No entanto, diferem
na rea e no preo uma caracterstica dos dados estatsticos a variabilidade. Os
dados variam e essa variabilidade que objecto de estudo da estatstica.

DADOS e VARIVEIS

anlise de dados

Uma varivel qualquer caracterstica de um indivduo ou objecto qual se


possa atribuir um nmero ou uma categoria. O indivduo ou coisa
relativamente ao qual se recolhe a informao designado por unidade
observacional ou caso.
Uma varivel diz-se quantitativa (ou numrica) se se referir a uma
caracterstica que se possa contar ou medir. Por exemplo, o nmero de irmos
de um aluno escolhido ao acaso, na turma, uma varivel quantitativa de
contagem, enquanto que a sua altura uma varivel quantitativa de medio.
Uma varivel diz-se qualitativa (ou categrica) se no for susceptvel de
medio ou contagem, mas unicamente de uma classificao, podendo
assumir vrias modalidades ou categorias. Por exemplo, a cor dos olhos do
aluno referido anteriormente, uma varivel qualitativa. Se s assumir duas
categorias, diz-se binria. o caso da varivel sexo, que assume as
categorias Feminino e Masculino.

14

As variveis quantitativas de contagem, isto , que se referem a


caractersticas que s se podem contar e no se podem medir, designam-se
tambm por variveis quantitativas discretas; por sua vez, as variveis
quantitativas de medio, isto , que se podem medir, tambm se designam
por variveis quantitativas contnuas.
Estas designaes so bastante importantes, pois a ferramenta estatstica a
utilizar, no estudo das variveis, depende do tipo de varivel em estudo.
O resultado da observao da varivel, sobre o indivduo, o dado
estatstico ou simplesmente dado.

Algumas variveis qualitativas apresentam uma ordem subjacente so designadas


por qualitativas ordinais. So exemplos de variveis qualitativas ordinais: o nvel
social (com as categorias baixo, mdio e elevado), o grau de satisfao com um
produto (com as categorias nada satisfeito, pouco satisfeito, satisfeito,
bastante satisfeito e muito satisfeito) e grande parte das variveis utilizadas em
inquritos na rea das cincias sociais onde se avalia o nvel atingido em cada varivel
solicitando ao respondente que coloque uma cruz numa grelha numerada de 1 a 5
(escala de Lickert).

No nosso exemplo, cujos dados esto apresentados na tabela, as unidades


observacionais so as casas e as variveis so cada uma das caractersticas
observadas para cada casa:
Nmero de assoalhadas varivel quantitativa discreta (ou de contagem).
rea varivel quantitativa contnua (ou de medio).
Estado varivel qualitativa binria.
Garagem varivel qualitativa binria.
Zona varivel qualitativa.

anlise de dados

Dissemos anteriormente que o objectivo da Estatstica o estudo de Populaes,


isto , conjuntos de indivduos (no necessariamente pessoas) com caractersticas
comuns, que se pretendam estudar. A uma caracterstica comum, que assume valores
diferentes de indivduo para indivduo, chammos varivel. Sendo ento o nosso
objectivo o estudo de uma (ou mais) caracterstica(s) da Populao, vamos identificar
Populao com a varivel que se est a estudar, dizendo que a Populao constituda por todos os valores que a varivel pode assumir. Por exemplo, relativamente
populao portuguesa, se o objectivo do nosso estudo for a caracterstica altura,
diremos que a populao constituda por todos os valortes possveis para a varivel
altura. Do mesmo modo identificaremos amostra com os valores observados para a
varivel em estudo, sobre alguns elementos da Populao. Assim, na continuao do
exemplo referido, os valores 156 cm, 171 cm, 163 cm, 168 cm, 166 cm, obtidos ao
medir a altura de 5 portugueses, constituem uma amostra da populao a estudar.

15

DADOS e VARIVEIS

De notar que a primeira coluna da tabela no se pode classificar como uma varivel,
uma vez que se trata de um mero identificador no se reportando a qualquer
caracterstica da unidade observacional.

Vamos conhecer a turma!

Conhecermo-nos uns aos outros faz parte do nosso dia a dia de vida em sociedade.
Fazer ressaltar as semelhanas e diferenas do grupo de alunos da turma pode ser
uma boa forma de sensibilizar os alunos para a importncia de organizar e analisar
dados e para os confrontar com os diversos tipos de dados.
Uma vez que interessa considerar e distinguir variveis qualitativas e quantitativas
(discretas e contnuas), eis alguns exemplos:
Qualitativas cor dos olhos, ms em que nasceu, transporte que usa para vir
para a escola, cor de que mais gosta, animal de estimao,...
Quantitativas discretas nmero de irmos, nmero de letras do nome,
nmero de vogais no nome,...
Quantitativas contnuas comprimento do palmo, tempo que demora a ir
de casa para a escola, peso da mochila,...
Destas variveis escolhemos algumas para ilustrar de que modo podero ser
abordados diversos conceitos estatsticos muito simples.
A propsito de se conhecer melhor os alunos da turma, e da forma de organizar as
diferentes caractersticas, o professor pode propor que se preencha uma tabela, como
a que a seguir se apresenta, que rene algumas caractersticas de cada aluno:

Nome

Nmero de letras
no nome

Tempo que demora


de casa
escola

Cor dos
olhos

Comprimento do
palmo

Nmero de
irmos

O professor pode ainda dar alguns esclarecimentos e fazer algumas recomendaes,


tais como:
Se os alunos no souberem muito bem quanto tempo demoram no caminho
entre a sua casa e a escola, basta darem um nmero aproximado.
Os alunos devero, no dia seguinte, ter o cuidado de escrever num papel a
hora a que saem de casa e a hora a que chegam escola.
Para medir o comprimento do palmo, deve ser colocado o polegar da mo
direita junto ao zero da rgua e depois ver at quantos centmetros chega o
dedo mindinho.

17

Eis o exemplo de uma tabela preenchida com as variveis sugeridas anteriormente.

Nome

DADOS e VARIVEIS

anlise de dados

Ana Patrcia Santos


Ana Rita Pereira
Bruno Martins
Ctia Reis
Cludia Rodrigues
David Amaral
Elisabete Soares
Jos Manuel Rocha
Jos Augusto Silva
Liliana Morais
Maria Isabel Antunes
Miguel Correia
Patrcia Mendes
Pedro Mendes
Ricardo Freitas
Rui Eduardo Pires
Snia Gonalves
Susana Alves
Tatiana Medeiros
Vasco Fernandes

18

Nmero
de letras
no nome
17
14
12
9
16
11
15
15
16
13
18
13
14
11
14
15
14
11
15
14

Tempo que
demora de
casa escola
(minutos)
3
32
25
20
17
15
33
22
9
35
25
28
10
21
20
6
5
19
13
5

Cor dos
olhos

Azuis
Castanhos
Castanhos
Castanhos
Azuis
Azuis
Pretos
Azuis
Castanhos
Castanhos
Castanhos
Verdes
Castanhos
Castanhos
Castanhos
Pretos
Castanhos
Castanhos
Castanhos
Castanhos

Comprim.
do palmo
(cm)

Nmero
de
irmos

14,7
15,6
15,9
14,2
16,3
13,5
14,4
15,1
15,2
16,2
15,9
13,6
17,3
14,7
15,0
13,8
14,3
15,4
14,8
13,2

3
1
1
1
1
2
1
1
1
1
2
0
1
2
0
4
1
0
1
3

Completada a tabela, chamar a ateno para os procedimentos que caracterizam a


natureza dos dados, realando as diferenas, mas sem insistir nas designaes:
Para preencherem a coluna do nmero de letras no nome os alunos tm de
contar. Os dados que esto nessa coluna so, por isso, chamados dados discretos ou de contagem.
Para preencherem a coluna do comprimento do palmo necessrio usar uma
rgua. Teve de se medir o palmo. Os dados que resultam de medies dizem-se dados contnuos ou de medio.
A cor dos olhos no se mede, nem se conta!... Os dados que esto nessa coluna
so chamados qualitativos ou categricos.
O nmero de irmos conta-se, o comprimento do palmo mede-se usando uma
rgua ou uma fita mtrica. O tempo tambm se mede mas usando um relgio
ou um cronmetro.

Tarefa
Vamos conhecer os animais I

Uma outra proposta interessante para os alunos e que lhes permite distinguir
diferentes tipos de variveis, a construo de um ficheiro com informao relativa
a alguns animais. Por exemplo, numa turma cada aluno recolhe informao sobre um
animal, nomeadamente no que diz respeito s seguintes caractersticas:
Ter asas
Ter penas
Ter escamas
Nmero de pernas
Por ovos
Viver na gua

Nome
Co
Gato
Andorinha
Elefante
Burro
Sardinha
Melro
Girafa
Urso
R
Pintassilgo
Carapau
Pescada
Rato
Piriquito
Galinha
Baleia
Mosca
Barata
Aranha

Tem asas

N. de Pernas

Vive na gua

Tem penas

Tem plo

Tem escamas

Pe ovos

No
No
Sim
No
No
No
Sim
No
No
No
Sim
No
No
No
Sim
Sim
No
Sim
Sim
No

4
4
2
4
4
0
2
4
4
2
2
0
0
4
2
2
0
6
6
8

No
No
No
No
No
Sim
No
No
No
Sim
No
Sim
Sim
No
No
No
Sim
No
No
Sim

No
No
Sim
No
No
No
Sim
No
No
No
Sim
No
No
No
Sim
Sim
No
No
No
No

Sim
Sim
No
Sim
Sim
No
No
Sim
Sim
No
No
No
No
Sim
No
No
Sim
No
No
No

No
No
No
No
No
Sim
No
No
No
No
No
Sim
Sim
No
No
No
No
No
No
No

No
No
Sim
No
No
Sim
Sim
No
No
Sim
Sim
Sim
Sim
No
Sim
Sim
No
Sim
Sim
Sim

19

Depois da tabela construda, podem ser feitas perguntas do tipo:


Todos os animais que vivem na gua, so peixes? Consegues encontrar, na
tabela anterior um animal que viva na gua e no seja peixe?
Recorda o que um mamfero. Conheces algum mamfero que viva na gua?
D exemplo de uma caracterstica que no se possa medir ou contar.
D exemplo de uma caracterstica que possa ser objecto de contagem e outra
que possa ser medida, se as houver na tabela.
Uma caracterstica que no se possa medir nem contar , por exemplo, ter asas. Na
verdade, um animal ou tem, ou no tem asas. Outra caracterstica relacionada com
as asas, seria nmero de asas de um animal. Neste caso j poderamos contar o
nmero de asas e por isso esta caracterstica j no poderia ser dada como resposta
a esta pergunta.
Uma caracterstica que se possa contar , por exemplo nmero de pernas. Na tabela
no existe nenhuma caracterstica que possa ser medida.

Tarefa proposta
Conhecer os hbitos de lazer

Outro exemplo de tarefa que pode ser proposta aos alunos na sala de aula, a
seguinte: Pretende-se conhecer os hbitos de lazer dos alunos da escola. Na turma,
os alunos, com a ajuda da professora, preparam as perguntas convenientes para
obter a informao desejada e classificam o tipo de variveis utilizadas, num estudo
anlogo ao feito na tarefa anterior.

20

Neste captulo so apresentados alguns processos, nomeadamente


tabelas e grficos, adequados para organizar e resumir a informao
contida nos dados, de forma a realar as caractersticas mais
importantes.

2.1

Introduo

O objectivo de organizar dados em tabelas e de os representar graficamente


fornecer uma informao visual rpida de padres e tendncias. A forma como se
estruturam as tabelas e as representaes grficas mais adequadas, depende do tipo
de dados que temos para analisar e dos aspectos que se pretendem evidenciar.

Sero os dados quase todos iguais?


Sero muito diferentes uns dos outros?
Existe algum padro subjacente ou alguma tendncia?
Existem alguns agrupamentos especiais?
Existem alguns dados muito diferentes da maior parte?

anlise de dados

Estas questes, de um modo geral, no podem ser respondidas facilmente a partir


dos dados em bruto, com aspecto desorganizado.

23

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Esta anlise inicial de dados, que feita utilizando tabelas e grficos, vai-nos permitir
responder rapidamente a algumas questes, tais como:

2.2

Tabelas e grficos para dados qualitativos

ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

Os dados qualitativos ou categricos so os que resultam da anlise de variveis


qualitativas. Relembre-se que cada unidade observacional assume, no que respeita a
este tipo de variveis, a designao de uma categoria e no de uma grandeza
quantitativa. Por vezes, escolhe-se como designao de cada categoria um nmero
mas isso em nada altera a natureza da varivel. A anlise estatstica deste tipo de
dados resume-se, por isso, contagem do nmero de indivduos em cada categoria
e ao clculo das respectivas percentagens.

24

Tomemos o exemplo das casas, apresentado no captulo anterior. H trs variveis


qualitativas Garagem, Estado e Zona. Para as duas primeiras optou-se por utilizar
designaes numricas (0 - sem garagem, 1 - com garagem e 0 - usada, 1 - nova,
respectivamente). Antes de se passar representao grfica , de um modo geral,
necessrio registar a informao numa tabela de frequncias.

2.2.1 Tabela de frequncias para dados qualitativos


Numa tabela de frequncias para dados qualitativos ou categricos a
informao organizada, de um modo geral, em 3 colunas: coluna das
categorias ou classes onde se indicam todas as categorias da varivel em
estudo; coluna das frequncias absolutas onde se regista o total de
elementos da amostra que pertencem a cada categoria e coluna das
frequncias relativas (ou percentagens) onde se coloca, para cada categoria,
o valor que se obtm dividindo a respectiva frequncia absoluta pela dimenso
da amostra.
Uma tabela de frequncias representa, portanto, a distribuio da varivel, na amostra em estudo, isto , quais as categorias ou modalidades que assume, assim como
a frequncia (absoluta ou relativa) com que assume essas modalidades.

Garagem

Frequncia
Absoluta
(ni)

Frequncia
Relativa
(fi)

Estado

Frequncia
Absoluta
(ni)

Frequncia
Relativa
(fi)

Sem garagem
Com garagem

27
13

0,675
0,325

Usada
Nova

31
9

0,775
0,225

Total

40

1,000

Total

40

1,000

Zona

Frequncia
Absoluta
(ni)

Frequncia
Relativa
(fi)

A
B
C

19
16
5

0,475
0,400
0,125

Total

40

1,000

Tabelas de frequncias correspondentes s variveis qualitativas Garagem, Estado e Zona

Quando se organizam os dados de uma amostra numa tabela de frequncias, um


processo de fcil verificao de que as frequncias devem estar bem calculadas,
consiste em som-las para todas as classes e verificar que:
A soma das frequncias absolutas igual dimenso da amostra;
A soma das frequncias relativas igual a 1.

Em muitas situaes as frequncias relativas so dzimas infinitas obrigando, por isso,


a arredondamentos. Estes tm de ser feitos com algum cuidado, de modo a que o
total seja igual a 1.

2.2.2 Grfico de pontos e grfico de barras para dados qualitativos


2.2.2.1 Grfico de pontos

Algumas fases de construo de um grfico de pontos

Esta representao muito simples de fazer num papel quadriculado, em que se


coloca um ponto em cada quadrcula:

anlise de dados

A representao grfica mais simples que se pode construir o grfico (ou diagrama)
de pontos (dotplot). Para obter esta representao basta desenhar um eixo horizontal
(ou vertical), onde se assinalam as diferentes modalidades ou categorias da varivel
em estudo e, por cima de cada modalidade (ou ao lado), se representa um ponto,
sempre que ao percorrer o conjunto de dados se encontrar a respectiva modalidade.
Por exemplo, vejamos como obter o grfico de pontos para a varivel Zona, da tabela
com os Dados sobre casas, do Captulo 1. Num primeiro passo desenhamos um eixo,
por exemplo horizontal, onde assinalamos as 3 modalidades diferentes da varivel
Zona: A, B e C. Depois, vamos nos passos seguintes colocando pontos, uns em cima
dos outros, conforme formos percorrendo o conjunto dos dados C, B, B, B, A, ..., B
relativos varivel Zona:

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Observao:

25

ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

Grfico de pontos construdo em papel quadriculado

26

Podemos supor que, na representao grfica anterior, se envolvem os pontos com


um rectngulo e a seguir se retiram os pontos. O grfico de pontos evolui para um
outro grfico, com aspecto semelhante ao grfico de pontos, mas com barras:

Passagem de um grfico de pontos a um grfico de barras

Este tipo de grfico (ou diagrama) de barras ser objecto de estudo na seco
seguinte.

2.2.2.2 Grfico de barras


Uma das representaes grficas mais utilizadas o grfico (ou diagrama) de barras.
Neste tipo de grfico desenha-se uma barra para cada categoria, sendo a altura da
barra proporcional ao nmero de casos observados nessa categoria (frequncia
absoluta). Estas barras podem dispor-se ao longo de um eixo horizontal ou vertical.
A ordem por que se colocam as barras qualquer, salvo se existir alguma ordem
subjacente, como nos dados qualitativos ordinais. Neste caso, deve-se respeitar a
ordem colocando, da esquerda para a direita as diversas categorias, partindo da de
menor nvel para a de maior nvel.
No existem regras para a largura das barras nem para qualquer forma de
acabamento grfico cor, textura, grossura dos traos, etc. No entanto, deve ter-se
em ateno que as barras, no mesmo grfico, devem ter a mesma largura, pois a
mensagem que transmitem a que est contida nas alturas, e umas barras mais
largas do que outras poderiam chamar mais a ateno, induzindo em erro. Mais uma
vez se frisa o cuidado a ter com as alturas das barras, que tm de ser iguais ou
proporcionais frequncia observada em cada categoria.

H ainda um cuidado suplementar a ter quando se representa, num mesmo grfico,


a informao contida em duas, ou mais, amostras de dimenso diferente. Nesse caso
as alturas das barras tm de ser iguais frequncia relativa de cada categoria, pois
s assim a soma das alturas das barras correspondentes a qualquer das amostras
idntica (a soma d sempre 1), permitindo a comparao. Se usssemos as
frequncias absolutas para alturas das barras dos grficos, correspondentes s vrias
amostras, a comparao poderia induzir em erro, pois como a dimenso das amostras no a mesma, estaramos a comparar coisas diferentes.

35

30

30

25

25

20
15
10

20
15
10

0
Sem garagem

Com garagem
Garagem

25
20
15
10
5
0

Usada

Nova
Estado

Zona

Grficos de barras correspondentes s variveis qualitativas Garagem, Estado e Zona

Assim, observando os grficos anteriores podemos afirmar, rapidamente, que, no que


respeita s casas que constituem a nossa amostra, predominam as que no tm
garagem (numa relao prxima de 2:1), a grande maioria das casas j teve algum
dono (h cerca de trs vezes mais casas usadas do que novas) e a distribuio do
nmero de casas por cada zona muito pouco uniforme, observando-se um nmero
muito reduzido de casas na zona C, quando comparado com o das zonas A e B.

anlise de dados

A principal vantagem dos grficos relativamente s tabelas de frequncias est na


rapidez da leitura!... No s h uma percepo imediata de qual a categoria de maior
frequncia, como tambm se fica com uma noo bastante precisa de qual a ordem
de grandeza de cada categoria relativamente s restantes. Por isso se diz que um
grfico vale mais que mil palavras!...

ORGANIZAO dos DADOS em TABELAS e GRFICOS

35

30

N. de casas

35

N. de casas

N. de casas

Os grficos de barras que correspondem s tabelas da seco 2.2.1 so,


respectivamente, os seguintes:

27

2.2.3 Pictograma
Uma representao grfica que resulta especialmente atraente o pictograma.
Comea-se por escolher uma figura ilustrativa da unidade observacional. Cada figura
pode representar uma ou mais unidades observacionais. De seguida procede-se como
na construo do grfico de barras mas, em vez de rectngulos, empilham-se as
figuras que representam as unidades observacionais at perfazer a frequncia
absoluta observada em cada categoria. Esta representao s pode ser utilizada
quando a varivel em estudo qualitativa.

ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

As unidades observacionais no exemplo que temos vindo a tratar so casas:

28

Admita-se que cada uma destas figuras representa 5 casas. O pictograma da varivel
qualitativa Zona ter 3 destas casinhas e mais uma quarta a que se lhe tira uma
quinta parte, na categoria correspondente zona A (onde a frequncia absoluta 19).
Na categoria correspondente zona B (onde a frequncia absoluta 16), ter 3 casinhas e mais um quinto de uma terceira casinha e a zona C (onde a frequncia
absoluta 5) ter apenas uma casinha.

Pictograma correspondente varivel Zona

Embora seja uma representao grfica muito sugestiva, necessrio ter os devidos
cuidados com as figuras utilizadas e com a forma como so utilizadas, j que, com
alguma frequncia, do origem a representaes erradas, como veremos na seco
2.8.

2.2.4 Diagrama circular


Como o nome sugere, esta representao constituda por um crculo, em que se
apresentam vrios sectores circulares, tantos quantas as categorias consideradas na
tabela de frequncias da amostra em estudo. O ngulo de cada sector circular
proporcional frequncia observada na classe que lhe corresponde.

Zona
A
B
C

O sector circular correspondente Zona A ter um ngulo de 360x0,475=171,


o da Zona B ter um ngulo de 360x0.400=144, enquanto que o da Zona C ter 45.
A soma dos trs ngulos igual a 360 (171+144+45=360). usual indicar os
valores das frequncias relativas junto dos respectivos sectores circulares, como se
apresenta a seguir, sob a forma de percentagens:
12,5%

Zona
A

40,0%

B
C

Diagrama circular correspondente varivel Zona

anlise de dados

47,5%

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Tomemos como exemplo a varivel Zona. Tem 3 categorias: A, B e C com frequncias


relativas, respectivamente, iguais a 0,475, 0,400 e 0,125.

29

Tarefa
Vamos conhecer os animais Il

Considere-se de novo a tarefa Vamos conhecer os animais, e os dados da tabela


associada. Pode-se escolher uma caracterstica qualitativa e organizar os dados
correspondentes na forma de uma tabela de frequncias. Pode-se ainda construir uma
representao grfica conveniente.
Por exemplo, se for considerada a caracterstica ter asas, que assume as modalidades
Tem asas e No tem asas, a tabela de frequncias permite concluir que, dos
animais em estudo, predominam largamente os que no tm asas, relativamente aos
que tm asas. Uma representao grfica possvel o diagrama circular, que se
apresenta a seguir:
35%
Freq. Abs.

Freq. Rel.

Tem asas
No tem asas

7
13

0,35
0,65

Total

20

1.00

Tem asas
No tem asas

65%

Utilizao do Excel para construir uma tabela de frequncias, um grfico


de barras e um diagrama circular para dados qualitativos
Tabela de frequncias
Para construir uma tabela de frequncias, para um conjunto de dados qualitativos,
basta utilizar o seguinte procedimento:
Inserir numa coluna do Excel os dados;
Seleccionar as diferentes categorias que iro constituir as classes e inseri-las
numa outra coluna a que chamamos Classes;
Utilizar a funo COUNTIF (CONTAR.SE) para obter as frequncias absolutas
para cada uma das classes;
A partir das frequncias absolutas, construir as frequncias relativas.

30

Grfico de barras
Para construir o grfico de barras, a partir de uma tabela de frequncias, se as classes
so categorias, basta utilizar o seguinte procedimento:
Seleccionar as clulas que contm as classes
e as frequncias absolutas (ou frequncias
relativas), incluindo os cabealhos, ou seja
Q2 a Q5 e R2 a R5 (se a coluna que contm
as frequncias relativas, no for adjacente
que contm as classes, ento seleccione as
classes e com a tecla CTRL pressionada
seleccione as clulas que contm as frequncias relativas);
Seleccionar, no menu, o cone Chart

Clicar no boto Next, duas vezes, para passar


dois passos, at aparecer uma caixa de
dilogo, que apresenta vrias opes: Em
Legend, desactivar a legenda e em Titles,
acrescentar o ttulo no eixo dos Ys e no eixo
dos Xs.

anlise de dados

Na caixa de dilogo que aparece, seleccionar


a opo Column;

31

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Exemplificamos esta metodologia com uma das tabelas construdas anteriormente:

ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

Uma alternativa ao grfico anterior, menos usual, considerar as barras horizontais.


Para obter a representao grfica correspondente, basta seguir os passos anteriores,
para a construo do grfico de barras, com a nica excepo de onde diz para
seleccionar Column, seleccionar Bar:

32

Diagrama circular
A representao do diagrama circular, em Excel, imediata, utilizando-se o seguinte
procedimento:
Seleccionar as clulas que contm as classes e as frequncias absolutas (ou
frequncias relativas), ou seja I3 a I5 e J3 a J5 (se a coluna que contm as
frequncias relativas, no for adjacente que contm as classes, ento
seleccione as classes e com a tecla CTRL pressionada seleccione as clulas que
contm as frequncias relativas);
C
13%

Seleccionar, no menu, o cone Chart

Zona

Na caixa de dilogo que aparece, seleccionar


a opo Pie; Escolher o subtipo pretendido
(neste exemplo foi seleccionado o primeiro);

A
47%
B
40%

Clicar no boto Next, duas vezes, para passar dois passos, at aparecer uma
caixa de dilogo, que apresenta vrias opes: Em Legend, desactivar a
legenda; em Titles acrescentar o ttulo, e em Data Labels seleccionar as opes
pretendidas (ns seleccionmos Category name e Percentage).

2.3

Tabelas e grficos para dados quantitativos discretos

A anlise exploratria de dados quantitativos discretos tem duas abordagens


possveis: uma abordagem especfica para dados discretos quando o nmero de
valores distintos na amostra for reduzido (por comparao com a dimenso da amostra) ou uma abordagem idntica utilizada para dados quantitativos contnuos
quando o nmero de valores distintos na amostra for muito elevado (quando
comparado com a dimenso da amostra). Por exemplo, o tratamento de uma amostra constituda pelo nmero de chamadas telefnicas que um indvduo recebe por dia,
est na primeira situao, enquanto que a amostra do nmero de chamadas
telefnicas recebidas por dia numa central, est na segunda situao.
Neste pargrafo vamos dar algumas indicaes sobre a construo de tabelas e
grficos, especficos para dados discretos.

2.3.1 Tabela de frequncias para dados quantitativos discretos

Na tabela de frequncias para dados quantitativos discretos a


informao organizada, no mnimo, em 3 colunas: coluna das classes onde
se indicam todos os valores distintos que surgem na amostra, que
representamos por x*i; coluna das frequncias absolutas ni onde se regista
o total de elementos da amostra que pertencem a cada classe (ou nmero de
vezes que cada valor x*i surge na amostra) e coluna das frequncias relativas
(ou percentagens) fi onde se coloca, para cada classe, o valor que se obtm
dividindo a respectiva frequncia absoluta pela dimenso da amostra.
A tabela de frequncias pode ainda incluir mais 2 colunas: a coluna das
frequncias absolutas acumuladas onde, para cada classe, se coloca a soma
da frequncia absoluta observada nessa classe com as frequncias absolutas
observadas nas classes anteriores e a coluna das frequncias relativas
acumuladas onde, para cada classe, se coloca a soma da frequncia relativa
observada nessa classe com as frequncias relativas observadas nas classes
anteriores. Como veremos mais frente, esta coluna bastante til para o
clculo de algumas medidas, como a mediana e os quartis.

anlise de dados

A construo da tabela de frequncias para dados quantitativos discretos idntica


construda para dados qualitativos. Do mesmo modo que para os dados qualitativos,
o primeiro passo a escolha das classes, que aqui sero os diferentes valores que
surgem na amostra:

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Na sua definio formal, uma varivel de natureza quantitativa diz-se discreta se o


conjunto de valores que pode assumir for finito ou infinito numervel (isto , pode-se
estabelecer uma correspondncia com os nmeros naturais). Na prtica, as variveis
discretas resultam sempre de contagens: nmero de filhos de cada famlia, nmero
de carros que passam numa ponte por unidade de tempo, nmero de gralhas numa
pgina dactilografada, nmero de chamadas telefnicas registadas por minuto numa
central, etc.

33

ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

No exemplo das casas, temos uma varivel quantitativa discreta que o Nmero de
assoalhadas. Aps contagem do total de casas com cada nmero de assoalhadas
obtm-se a seguinte tabela de frequncias:

34

N. de Assoalhadas
x*i

Freq. Abs.
ni

Freq. Rel.
fi

Freq. Abs. Acum.

Freq. Rel. Acum.

1
2
3
4
5

3
17
16
2
2

0,075
0,425
0,400
0,050
0,050

3
20
36
38
40

0,075
0,500
0,900
0,950
1,000

Total

40

1,000

Tabela de frequncias para a varivel Nmero de assoalhadas

Observe-se que, na coluna das frequncias absolutas acumuladas, cada um dos


valores obtido fazendo a soma do valor que est na clula imediatamente acima,
com o valor que est na clula das frequncias absolutas. Assim, na linha
correspondente a 3 assoalhadas, o valor 36, que surge como frequncia absoluta
acumulada, resulta da soma de 20 (que lhe est imediatamente acima) com 16. A
excepo o primeiro valor que coincide com a frequncia absoluta. Para as
frequncias relativas acumuladas, processa-se de igual modo, usando a coluna das
frequncias relativas.
Esta tabela, para alm de nos indicar a distribuio do nmero de assoalhadas na
amostra, permite ainda fazer outro tipo de leituras: verificamos, por exemplo, que
90% das casas tm at um mximo de 3 assoalhadas (obtm-se a percentagem
multiplicando 0,9 por 100); que a grande maioria das casas tem 2 ou 3 assoalhadas;
que, na amostra, no h casas com mais de 5 assoalhadas, etc.
Convm salientar que as colunas referentes a frequncias acumuladas s fazem
sentido em tabelas de frequncias onde a varivel em estudo se possa ordenar.

2.3.2 Grfico de pontos e grfico de barras para dados quantitativos


discretos
2.3.2.1 Grfico de pontos
Tal como no caso de dados qualitativos ou categricos, a representao grfica mais
simples o grfico ou diagrama de pontos. Para obter essa representao, basta
traar um eixo horizontal (ou vertical), onde se assinalam os diferentes valores que
surgem na amostra ou mais correctamente, todos os valores entre o mnimo e o
mximo, incluindo estes. Por cima de cada valor marca-se um ponto, sempre que se
encontar um valor igual, ao percorrer a amostra. Por exemplo, vejamos como obter
o grfico de pontos para a varivel Nmero de assoalhadas, da tabela com os Dados
sobre casas, do Captulo 1. Num primeiro passo desenhmos um eixo, onde
assinalmos os diferentes valores que a varivel pode assumir, ou sejam 1, 2, 3, 4 e 5.
Depois, tal como fizemos para as variveis qualitativas, fomos colocando pontos, uns
em cima dos outros, medida que percorremos o conjunto de dados 3, 3, 3, 3, 5,...,
2, correspondentes varivel Nmero de assoalhadas:

1. passo
Grfico de pontos
1

n. de assoalhadas

2. passo

n. de assoalhadas

n. de assoalhadas

Algumas fases de construo de um grfico de pontos

Da representao anterior, imediatamente se conclui que predominam as casas com


2 ou 3 assolhadas, sendo bastante inferior o nmero de casas com 1, 4 ou 5 assoalhadas.
Sugere-se que, para mais fcil execuo, este grfico seja feito em papel quadriculado, inserindo os pontos nas quadrculas convenientes.
Chamamos ainda a ateno, tal como fizemos para as variveis qualitativas, que esta
representao nos d uma informao muito semelhante dada pelo grfico de
barras, que apresentamos a seguir.

2.3.2.2 Grfico de barras

Ilustramos esta representao grfica com o grfico de barras referente varivel


Nmero de assoalhadas:
20

N. de casas

15

10

0
0

anlise de dados

O grfico ou diagrama de barras uma representao grfica que consiste em marcar


num sistema de eixos coordenados, no eixo horizontal, o valor correspondente a cada
classe x*
i e, nesses pontos, barras verticais de altura igual (ou proporcional)
respectiva frequncia absoluta ou relativa. Devem-se utilizar as frequncias relativas
sempre que se pretenda comparar amostras de diferente dimenso (j que a soma
das alturas das barras ser, necessariamente, igual a 1 ou 100%, tornando possvel
a comparao de amostras de diferente dimenso).

N. de assoalhadas

Grfico de barras da varivel Nmero de assoalhadas

35

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Como se verifica a partir da representao grfica anterior, predominam as casas com


2 ou 3 assoalhadas, havendo um nmero muito reduzido de casas com 4 ou 5 assoalhadas. Estas concluses j tinham sido evidenciadas pela leitura da tabela de
frequncias e do grfico de pontos.
Observao:

ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

No eixo horizontal, deve ser marcada a sequncia completa dos valores, entre o
mnimo observado e o mximo observado, mesmo que algum esteja em falta na
amostra. Nesse caso no haver qualquer barra vertical nesse ponto.

36

Tarefa
Vamos conhecer os animais Ill

Consideremos ainda a tarefa Vamos conhecer os animais.


Pode ser sugerido aos alunos que, a partir dos dados da tabela associada:
Organizem os dados dessa tabela, no que diz respeito ao Nmero de pernas,
numa tabela de frequncias.
Construam uma representao grfica adequada, tendo em conta a tabela de
frequncias, obtida anteriormente.
Para construir a tabela de frequncias, deve-se comear por considerar os valores
distintos que surgem no conjunto de dados e dispor estes valores por ordem
crescente, numa coluna de uma tabela. Para ser mais fcil referirmo-nos a esses
valores, vamos chamar-lhes classes. Depois contamos quantos dados so iguais a
cada um dos valores seleccionados para as classes. Os valores obtidos so as
frequncias absolutas indicam o nmero total de animais com 0, 2, 4, 6 e 8 pernas.
Acrescentamos tabela uma outra coluna, com as frequncias relativas:
Classes

Freq. Abs.

Freq. Rel.

0,20 = 4/20

0,30 = 6/20

0,35 = 7/20

0,10 = 2/20

0,05 = 1/20

Total

20

Uma representao grfica adequada o grfico de barras

Freq.rel.

0,40
0,30
0,20
0,10
0,00
0

N. de pernas

Da tabela e grfico anterior conclumos que predominam os animais de 4 pernas,


seguidos dos de 2 pernas. De referir ainda a existncia de um animal com 8 pernas,
que ao consultar a tabela se verifica ser a aranha (Repare-se que no grfico anterior
no inserimos os nmeros mpares, entre o 0 e o 8, uma vez que eles no podem

37

fazer parte da populao. Uma situao diferente seria a que se consideraria se no


estudo da varivel Nmero de assoalhadas, de uma amostra de casas, no
tivssemos obtido, por exemplo, o 2, que teria de ser includo entre o 1 e o 3).
Quando inserido num contexto de sala de aula, pode pedir-se aos alunos para
escreverem algumas frases a partir da observao do grfico. O objectivo irem
desenvolvendo competncias associadas interpretao de dados organizados sob a
forma de tabelas e grficos.

38

Vamos apresentar alguns exemplos relacionados com variveis quantitativas discretas, onde se procura fazer uma interpretao dos dados a partir de tabelas ou
grficos.
Exemplo:
Nmero de filhos das mulheres americanas (Adaptado de Freedman et al., 1991)
Em 1960 e novamente em 1980 foi feito um inqurito s mulheres americanas
sobre o nmero de filhos. Os resultados obtidos foram os seguintes:
Nmero de filhos

% mulheres 1960

% mulheres 1980

0
1
2
3
4
5
6
7
8
9

22
17
21
16
10
5
3
2
2
3

29
16
22
15
8
4
2
1
1
1

Uma representao grfica adequada, o grfico de barras, em que se apresenta lado


a lado a distribuio das frequncias para os anos de 1960 e 1980:

35
30
Freq. rel. %

ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

2.3.3 Exemplos de tabelas e grficos para dados quantitativos discretos

% mulheres 1960

25

% mulheres 1980

20
15
10
5
0
0

N. de filhos

Da representao grfica anterior ressalta o facto de a natalidade ter diminudo de


1960 para 1980. De facto, aumentou bastante a percentagem de mulheres sem filhos
e diminuiu a percentagem de mulheres com 1 ou mais de 2 filhos. Esta diminuio s
foi contrabalanada com um ligeiro aumento da percentagem de mulheres com 2
filhos.

Idade de indivduos adultos (Adaptado de Freedman, 1991) A tabela seguinte


mostra a distribuio das frequncias relativas do ltimo dgito das idades dos
indivduos adultos. Esta informao foi recolhida relativamente a dois censos
diferentes: o Censo de 1880 e o de 1970.
ltimo dgito
da idade

% de indivduos
1880

% de indivduos
1970

0
1
2
3
4
5
6
7
8
9

16,8
6,7
9,4
8,6
8,8
13,4
9,4
8,5
10,2
8,2

10,6
9,9
10,0
9,6
9,8
10,0
9,9
10,2
10,0
10,1

Pode ser construdo um diagrama de barras relativamente aos dois censos. Da


consulta da tabela e do grfico, verifica alguma anomalia?
Em 1880 havia uma ntida preferncia pelos dgitos 0 e 5. Existe alguma explicao
para este facto? Em 1970 essa preferncia muito mais fraca. Como se pode explicar
esse facto?

18
16
14
12
10
8
6

% adultos 1880
% adultos 1970

4
2
0
0

ltimo dgito

Tambm atravs do grfico anterior ressalta o facto de haver, em 1880, uma


predominncia excessiva dos dgitos 0 e 5, em detrimento dos outros dgitos.

anlise de dados

Freq. rel. %

Tal como se fez no exemplo anterior, construmos no mesmo grfico de barras a


distribuio das frequncias para os anos de 1880 e 1970:

39

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Exemplo:

Uma explicao possvel para, em 1880, as pessoas indicarem a idade a terminar em


0 ou 5, no saberem ao certo a sua idade. Esta situao era vulgar, sobretudo nas
pessoas mais idosas. Em 1970 esta situao j no se verifica, com a informao mais
acessvel a todos, verificando-se uma distribuio idntica pelos 10 dgitos.
Exemplo:

ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

Notas de duas escolas A seguir apresentam-se dois grficos de pontos com os


resultados, numa escala de 0 a 100, dos alunos de duas escolas, num teste de
Portugus:

40

Resultados no teste de Portugus dos alunos da Escola de Cima

40

50

60

70

80

90

100

Resultados no teste de Portugus dos alunos da Escola de Baixo

40

50

60

70

80

90

100

Como se verifica, os alunos das duas escolas comportaram-se de forma muito


diferente no teste. Os resultados da Escola de Baixo so nitidamente superiores aos
resultados da Escola de Cima. Enquanto que a maior parte das notas dos alunos da
Escola de Cima esto entre 50 e 70, a maior parte dos alunos da Escola de Baixo
tiveram notas entre 70 e 90. Como seria um grfico possvel para as notas dos alunos
de uma escola, cujos resultados estivessem entre os das duas escolas consideradas?

Exemplo:

26
33
37
42
44
46
49
52
56
58
61
67
74
82
90

27
33
37
42
44
47
49
53
56
59
61
68
74
82
91

27
33
37
42
44
47
49
53
56
59
62
68
74
83
91

27
33
37
42
45
47
49
53
56
59
62
68
75
83
91

27
33
37
43
45
47
50
53
57
59
62
69
75
83
92

29
34
39
43
45
47
50
53
57
60
63
69
76
83
92

30
34
39
43
45
47
51
54
57
60
63
69
76
84
92

30
34
39
43
45
48
51
54
57
60
64
69
78
84
93

30
35
39
43
45
48
51
54
58
60
65
69
80
84
93

30
35
39
43
45
48
51
54
58
60
66
69
80
84
93

31
36
39
43
46
48
51
54
58
60
66
69
80
84
93

31
36
39
43
46
48
52
55
58
61
66
71
80
84
95

31
36
40
44
46
48
52
55
58
61
67
71
81
84
95

32
37
41
44
46
48
52
55
58
61
67
72
81
90

32
37
42
44
46
48
52
56
58
61
67
73
81
90

Classes
20
30
40
50
60
70
80
90

a
a
a
a
a
a
a
a

29
39
49
59
69
79
89
99

Total

Freq. abs.

Freq. rel.

6
36
52
46
36
12
20
15

0,027
0,161
0,233
0,206
0,161
0,054
0,090
0,067

223

1,000

Tabela de frequncias para os resultados dos testes

A representao grfica para os dados organizados desta forma j no pode ser um


diagrama de barras, pois no existe um ponto onde colocar a barra, uma vez que as
classes so intervalos. Veremos, mais frente, que a representao grfica adequada
o histograma.

anlise de dados

Neste caso, a construo da tabela de frequncias, segundo a metodologia descrita


para dados discretos, conduziria a uma tabela com demasiadas classes. Assim,
resolvemos tomar como classes uma partio natural, para os dados considerados,
que a seguinte: considerar como classes os intervalos 20 a 29, 30 a 39, 40 a 49,
50 a 59, 60 a 69, 70 a 79, 80 a 89, 90 a 99.

41

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Candidatos a algumas vagas (Adaptado de Freedman, 1991)- No Distrito Sanitrio


de Chicago, a escolha dos tcnicos feita mediante um exame. Em 1966, havia 223
candidatos para 15 vagas. O exame teve lugar no dia 12 de Maro e os resultados dos
testes (inteiros numa escala de 0 a 100) apresentam-se a seguir:

A organizao dos dados na forma da tabela anterior permite realar o facto de


predominarem as classificaes entre 40 e 49, diminuindo progressivamente para
baixo e para cima desses valores. Temos, no entanto de estar conscientes de que ao
fazer a reduo de dados h informao que sobressai, como a estrutura subjacente
aos dados, embora haja outra informao que se possa perder. Vejamos qual o
aspecto da tabela se tivssemos considerado como classes todos os valores distintos
da amostra, sem os agrupar:

42

Classe

Classe

Classe

Classe

26

40

52

64

78

27

41

53

65

80

29

42

54

66

81

30

43

55

67

82

31

44

56

68

83

32

45

57

69

84

33

46

58

71

90

34

47

59

72

91

35

48

60

73

92

36

49

61

74

93

37

50

62

75

95

39

51

63

76

Tabela de frequncias para os dados sem estarem agrupados

O diagrama de barras correspondente tem o seguinte aspecto

95

92

89

86

83

80

77

74

71

68

65

62

59

56

53

50

47

44

41

38

35

32

29

9
8
7
6
5
4
3
2
1
0
26

N. de candidatos

ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

Classe

Diagrama de barras dos resultados nos testes

Da anlise da tabela e do grfico anterior verifica-se a existncia de uma lacuna, no


havendo classificaes iguais a 85, 86, 87, 88 e 89 e o nmero de classificaes iguais
ou superiores a 90 ser de 15, precisamente igual ao nmero de vagas, para os 223
candidatos. No ter havido batota da parte dos examinadores?
Chamamos a ateno para que esta representao, com tantas classes, no permite
sobressair o padro subjacente distribuio dos dados, j que apresenta toda a
variabilidade existente nesses dados. Como dissemos anteriormente, embora
estejamos perante um conjunto de dados discretos, o tratamento adequado ser o
mesmo dos dados contnuos, apresentado na prxima seco.

Utilizao do Excel para construir uma tabela de frequncias e um


grfico de barras para dados quantitativos discretos
Tabela de frequncias

Para construir o grfico de barras, a partir de uma tabela frequncias, que agrupa
dados discretos, basta utilizar um procedimento idntico ao utilizado para as variveis
qualitativas, em que as classes eram categorias, mas tendo em ateno o seguinte
artifcio:
Apagar o ttulo da coluna que contm as
classes, No caso do exemplo apagar o
contedo da clula I1, ou seja, Nmero de
assoalhadas;
Seleccionar as clulas I1 a I6 e J1 a J6, caso
pretenda construir o grfico de barras com as
frequncias absolutas, ou K1 a K6, se desejar
as frequncias relativas;
Proceder como se indicou na construo do
grfico de barras para variveis qualitativas.

anlise de dados

Grfico de barras

43

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Para construir uma tabela de frequncias, para um conjunto de dados quantitativos


discretos, basta utilizar um procedimento idntico ao utilizado para dados
qualitativos. Assim, para a varivel Nmero de assoalhadas, vem:

2.4

Tabelas e grficos para dados quantitativos contnuos

ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

Dados quantitativos contnuos so todos os que resultam de medies, tal como foi
dito anteriormente. Por outras palavras, a varivel em estudo passvel de ser
medida com algum instrumento (rgua, balana, relgio, termmetro, etc.) e os
dados so constitudos pelos valores resultantes das medies efectuadas. Para estas
variveis, qualquer valor num certo intervalo um potencial candidato a aparecer na
amostra. Por isso se chamam variveis contnuas.

44

No nosso exemplo inicial das casas, h uma varivel que se enquadra perfeitamente
nesta definio: a rea. A rea da casa resulta de uma medio e, embora seja
apresentada com um arredondamento ao metro quadrado, sabemos que o verdadeiro
valor pode ser qualquer nmero real num certo intervalo. Outra varivel que tambm
se pode considerar de natureza contnua o Preo. O instrumento de medida aqui
menos preciso porque resulta de leis de mercado, mas no deixa, por isso, de medir
o valor da casa. de alguma forma semelhante classificao em percentagem,
obtida num teste pelos alunos de uma turma o professor pretente medir o nvel
de conhecimentos de cada aluno e constri o seu prprio instrumento de medida que
o teste. Como resultado das medies obtm uma amostra constituda pelas
classificaes dos alunos nesse teste.
Uma caracterstica comum a qualquer amostra cujos dados so de natureza contnua,
a grande diversidade de valores que a constituem. So poucos os valores repetidos.
Como tal, para podermos visualizar a forma como os dados se distribuem, de nada
nos serve fazer uma tabela onde se registe a frequncia de cada valor distinto (como
se fez para os dados quantitativos discretos). A alternativa aqui organizar os dados
num nmero conveniente de classes (intervalos) que permita condensar a informao
sem esconder o padro subjacente.
No h regras rgidas para a forma como se constrem as classes, pois tal depende
bastante da maior ou menor simetria na maneira como os dados se distribuem. Por
exemplo, a subdiviso em classes de uma amostra de alturas de mulheres
portuguesas processa-se de modo distinto da subdiviso em classes da amostra dos
vencimentos auferidos por essas mesmas mulheres (onde quase certo que a maior
concentrao seja em torno dos pequenos valores, podendo, no entanto surgir alguns
valores extremamente elevados). Mais precisamente, natural que a forma genrica
da distribuio das alturas das mulheres portuguesas tenha um aspecto simtrico,
como ilustrado na seguinte figura,

j que se espera que haja uma grande concentrao em torno de 1,60m, com uma
rarefaco gradual na direco dos valores menores, ou maiores, que este valor central.

com a grande maioria dos vencimentos a no ultrapassar os 800 euros, dispersando-se os restantes ao longo de um intervalo, que pode atingir alguns milhares de euros.

Regra de Sturges Para organizar uma amostra, de dados contnuos, de


dimenso n, pode considerar-se para nmero de classes o valor k, onde k o
menor inteiro tal que 2k>n.
Para a formao das classes pode-se escolher uma de duas estratgias:
Passo 1 Subdividir um intervalo onde se encontrem todos os valores da amostra em
k subintervalos de igual amplitude, h. O bom senso preside escolha do referido
intervalo. Assim, pode-se escolher como extremo esquerdo do intervalo o mnimo da
amostra ou um valor que lhe seja um pouco inferior e escolher como extremo direito
o mximo da amostra ou um valor que lhe seja um pouco superior.
* Tomemos uma potncia de 2, por exemplo, 64 (que igual a 26). Pelo Binmio de Newton sabemos que 26=1+6+15+20+15+6+1,
onde cada parcela da soma cada uma das combinaes do nmero 6 j a j com j a variar de 0 a 6. Na soma, o nmero de maior
valor o central e os restantes decrescem gradualmente medida que se caminha para a direita e para a esquerda. Como 26
igual a 64, se tivermos uma amostra de dimenso n=64, cujos dados se distribuam de forma aproximadamente simtrica, uma
subdiviso em 7 classes (tantas quantas as parcelas que surgem na decomposio de 26) dever conduzir a uma distribuio de
frequncias que capte bem a simetria da distribuio.

anlise de dados

Perante uma amostra de dados de tipo contnuo, o que se pretende com a subdiviso
em classes , exactamente, tornar patente a forma como esses dados se distribuem.
Em muitos casos o bom senso preside escolha das classes (principalmente em
amostras muito enviesadas). No entanto, para dados que se distribuem de forma
aproximadamente simtrica, usual construir classes de igual comprimento
(amplitude) e h uma regra relativamente simples para a determinao do nmero
de classes, inspirada no Binmio de Newton*. Chama-se regra de Sturges, e consiste
em determinar o menor inteiro k tal que 2k>n (onde n a dimenso da amostra):

45

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Por outro lado, no que diz respeito distribuio dos vencimentos, o nosso
conhecimento emprico leva-nos a supor que a sua forma genrica seja muito mais
enviesada, como se apresenta na figura seguinte,

Passo 2 Formar as classes como intervalos semiabertos (fechados esquerda e


abertos direita, ou vice-versa), sendo o extremo esquerdo do primeiro intervalo
coincidente com o extremo esquerdo do intervalo que se utilizou no passo 1.
ou

ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

Passo 1 Escolher como amplitude h, de cada intervalo, um valor arredondado por


excesso daquele que se obtm dividindo a amplitude da amostra (mximo mnimo)
pelo nmero de classes, k.

46

Passo 2 Formar as classes como intervalos semiabertos, fechados esquerda e


abertos direita (ou vice-versa), sendo o extremo esquerdo do primeiro intervalo o
mnimo da amostra.
Exemplo:
Subdiviso em classes dos dados referentes varivel rea
Uma vez que a nossa amostra tem dimenso n=40, o menor inteiro k tal que 2k>40
vem igual a 6. De acordo com a regra de Sturges, vamos ento subdividir a amostra
em 6 classes de igual amplitude. Para escolher as classes temos de comear por escolher um intervalo onde estejam todos os valores da amostra. Ora, ao ordenar a amostra verificamos que a rea mnima 66,3 m2 e a rea mxima 163,3 m2. Uma
possibilidade razovel para o intervalo a subdividir ser ento o que vai de 65 m2 a
165 m2, com uma amplitude de 100 m2 (165 m2- 65 m2). Dividindo 100 por 6, obtmse a amplitude h=16,6(6) para cada um dos intervalos de classe. Em alternativa,
tambm se pode escolher um intervalo com uma amplitude mltipla de 6 (de 64 m2
a 166 m2, por exemplo) o que conduz a um valor inteiro para h (h=17) e,
consequentemente, a intervalos de classe cujos extremos so tambm nmeros
inteiros. Vamos optar por esta segunda hiptese, por ser a de mais fcil leitura. Antes
de apresentar a tabela convm ainda estabelecer uma conveno quanto incluso
ou no de cada extremo dos intervalos de classe. Assim, vamos convencionar que
todos os intervalos so fechados esquerda e abertos direita, isto , da forma
[a, b[, onde o nmero que surge no extremo esquerdo (a) pertence ao intervalo, mas
o nmero que surge no extremo direito (b) j no pertence. Esta metodologia
utilizada em algum software estatstico, mas no necessariamte em todo o software,
pois h situaes em que os intervalos considerados para as classes so abertos
esquerda e fechados direita. O Excel, que no um software estatstico, mas que
permite construir tabelas de frequncia, utiliza esta ltima metodologia, isto ,
considera como elementos pertencentes classe, os que so iguais ao limite superior.
Como optmos por subdividir o intervalo que vai de 64 m2 a 166 m2, com uma
amplitude de classe igual a 17, o primeiro intervalo de classe ser ento [64, 81[,
porque 64+17=81, o segundo [81, 98[ e assim por diante at ao sexto e ltimo
intervalo que [149 ,166[. Aps a subdiviso em classes, o passo seguinte ser
construir a respectiva tabela de frequncias.

2.4.1 Tabela de frequncias para dados contnuos

Na tabela de frequncias para dados quantitativos contnuos a


informao organizada, no mnimo, em 3 colunas: coluna das classes onde
se identificam os intervalos (classes) em que se subdividiu a amostra; coluna
das frequncias absolutas ni onde se regista o total de elementos da amostra,
que pertencem a cada classe e coluna das frequncias relativas fi onde se
coloca, para cada classe, o valor que se obtm dividindo a respectiva
frequncia absoluta pela dimenso da amostra.
A tabela de frequncias pode ainda incluir mais 3 colunas: coluna do
representante da classe onde se indica o ponto mdio xi de cada intervalo de
classe (usualmente escolhido para representante da classe); coluna das
frequncias absolutas acumuladas onde, para cada classe, se coloca a soma da
frequncia absoluta observada nessa classe com as frequncias absolutas
observadas nas classes anteriores e coluna das frequncias relativas acumuladas
onde, para cada classe, se coloca a soma da frequncia relativa observada
nessa classe com as frequncias relativas observadas nas classes anteriores.

Classes

Rep. classe
xi

Freq. Abs.
ni

Freq. Rel.
fi

Freq. Abs.
Acum

Freq. Abs.
Acum

[64, 81[
[81, 98[
[98, 115[
[115, 132[
[132, 149[
[149, 166[

72,5
89,5
106,5
123,5
140,5
157,5

4
14
15
4
1
2

0,100
0,350
0,375
0,100
0,025
0,050

4
18
33
37
38
40

0,100
0,450
0,825
0,925
0,950
1,000

40

1,000

Total

Tabela de frequncias da varivel rea

Por exemplo a frequncia absoluta da classe [64, 81[ 4, porque s existem na


amostra 4 valores maiores ou iguais a 64 e menores que 81, e assim sucessivamente,
para as outras classes.
Como se verifica a partir da tabela, predominam as casas com reas entre 81 e 115 m2.
H uma assimetria no sentido de haver algumas casas, embora poucas, com reas
razoavelmente grandes, nomeadamente superiores a 149 m2.

anlise de dados

Apresentamos a seguir a tabela de frequncias para a varivel rea, do exemplo que tem
vindo a ser tratado ao longo deste texto. Como sugerido pela regra de Sturges,
considermos 6 classes. Optmos por considerar classes fechadas esquerda e abertas
direita e de amplitude 17 m2. Como representante das classes considermos os pontos
mdios, apresentados na 2. coluna da tabela. Por exemplo, o ponto mdio da classe
[64, 81[ (64+81)/2 = 72,5. Para obter as frequncias absolutas percorre-se
o conjunto de dados e contam-se os que caem dentro de cada classe (intervalo):

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Uma vez escolhidas as classes, a construo da tabela de frequncias idntica


considerada para dados discretos:

47

2.4.2 Histograma

Deste modo a rea total coberta pelo histograma igual a 1 (ou igual dimenso da
amostra) e a rea determinada por dois pontos a e b d-nos a percentagem de
elementos da amostra que apresentam valores entre a e b. Observe-se que, para que
a rea de cada rectngulo seja igual frequncia relativa, necessrio que a altura
seja o quociente entre a frequncia relativa (fi) e a amplitude da classe (hi). Quando
as classes tm todas a mesma amplitude (h), o aspecto grfico no se altera se se
considerar como altura a frequncia relativa ou absoluta, uma vez que tal
corresponde a uma simples mudana de escala no eixo vertical. Chama-se, no
entanto, a ateno para o facto de a rea total do histograma deixar de ser unitria
passando a ser igual, respectivamente, amplitude de classe h, ou ao produto da
dimenso da amostra pela amplitude de classe (rea total=n x h), caso se utilizem
para alturas dos rectngulos as frequncias relativas ou as frequncias absolutas.
Nota 1: Se se pretender comparar vrias amostras atravs de histogramas deve-se
ter o cuidado de os construir de modo a que a rea total seja unitria, para ser
possvel a comparao.
Nota 2: Um erro que se costuma cometer com frequncia construir o histograma
com os rectngulos separados! Este procedimento no correcto, pois os rectngulos
devem ser adjacentes, dando no seu conjunto uma informao em termos de rea.
Um histograma correspondente tabela de frequncias que construmos para a
varivel rea tem o seguinte aspecto (com alturas dos rectngulos iguais s
frequncias absolutas):
16
14
12
Freq. Abs.

ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

O histograma um tipo de representao usado para dados quantitativos


contnuos. um diagrama de reas, formado por uma sucesso de rectngulos
adjacentes, tendo cada um por base um intervalo de classe e por rea a
frequncia relativa (ou absoluta) dessa classe.

10
8
6
4
2
0
64

81

98

115

132

rea

Histograma para a varivel rea

48

149

166

Mais uma vez, consegue-se com a representao grfica uma percepo rpida e
clara da forma como os dados se distribuem!
Assim, podemos fazer, por exemplo, as seguintes observaes:
h uma grande concentrao de valores entre os 81 m2 e os 115 m2, indicando
que neste intervalo que se encontra a maioria das reas das casas que constituem a amostra;

h uma ligeira assimetria no sentido das maiores reas, pois surgem nesta
zona alguns valores mais distantes dos valores centrais, que na zona das
menores reas. Em terminologia estatstica diz-se que a distribuio apresenta
uma cauda direita mais longa do que a cauda esquerda, havendo, por isso, uma
assimetria positiva ou um enviesamento positivo.
Construo de histogramas com classes com amplitudes diferentes

Classe 1

Classe 2

Como a amplitude da classe 2 4 vezes maior que a amplitude da classe 1, ento a


altura do rectngulo correspondente classe 2 dever ser 4 vezes menor que a altura
do rectngulo correspondente classe 1.

anlise de dados

Quando as classes em que os dados esto organizados no tm a mesma amplitude,


tem que se ter o devido cuidado na construo das barras do histograma, pois a rea
de cada uma deve ser igual (ou proporcional) frequncia relativa. Se tivermos uma
tabela de frequncias em que, por exemplo, duas das classes tenham amplitudes
diferentes, mas a que corresponda a mesma frequncia, a relao entre as alturas
dos rectngulos correspondentes a essas classes, deve ser a inversa da relao entre
as suas amplitudes, como se apresenta a seguir:

ORGANIZAO dos DADOS em TABELAS e GRFICOS

so poucas as casas com reas inferiores a 81 m2;

49

Exemplo:

50

Classes

Freq. absoluta

Freq. relativa

[0, 2[
[2, 5[
[5, 10[
[10, 20[
[20, 30[

28
37
23
9
3

0,28
0,37
0,23
0,09
0,03

100

1,00

Total

Durao da chamada (em minutos)

Construram depois o seguinte histograma, que apresentaram gerncia (costumase dizer que um grfico vale mais que mil palavras!):
0,40
0,35
0,30
Freq. rel.

ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

Durao de chamadas telefnicas Uma empresa, preocupada com os gastos em


telefone, decidiu fazer um estudo sobre a durao (em minutos) das chamadas
telefnicas. Assim, o departamento de controlo de qualidade recolheu uma amostra
de dimenso 100, tendo construdo a seguinte tabela de frequncias, com os dados
recolhidos:

0,25
0,20
0,15
0,10
0,05
0,00
0

10

20

30

Durao da chamada (minutos)

Um dos gerentes, que sabia o que era um histograma, manifestou-se bastante


preocupado com a percentagem de chamadas razoavelmente longas, j que a percentagem de chamadas com durao entre 5 e 10 minutos era um pouco superior s
de durao entre 2 e 5 minutos e s um pouco inferior s de durao de 10 a 20
minutos, como se depreende pelas reas dos rectngulos correspondentes s classes
respectivas. Pediu para consultar a tabela de frequncias e concluiu que aquela
representao grfica no estava correcta, pois as reas dos rectngulos no eram
proporcionais s frequncias, induzindo em erro. Ele prprio acrescentou mais uma
coluna tabela de frequncias, com as alturas correctas dos rectngulos e construiu
o histograma correspondente:
Classes

Freq. absoluta

Freq. relativa

Freq.relativa/amplitude
classe

[0, 2[
[2, 5[
[5, 10[
[10, 20[
[20, 30[

28
37
23
9
3

0,28
0,37
0,23
0,09
0,03

0,140
0,122
0,046
0,009
0,003

100

1,00

Total

0,16
0,14

Freq. rel./h

0,12
0,10
0,08
0,06
0,04
0,02

10

20

30

Durao da chamada (minutos)

Repare-se que as duas representaes so completamente diferentes.

2.4.3 Histograma acumulado

Como veremos, a mediana (Me) um valor que divide a amostra, ordenada, ao meio,
isto , 50% dos elementos da amostra so menores ou iguais mediana e os outros
50% so maiores ou iguais mediana. Ficando a amostra dividida em duas partes,
com igual nmero de elementos, cada uma destas partes ainda pode ser dividida ao
meio. mediana da parte inferior dos dados, chamamos 1. quartil (Q1), enquanto
que mediana da parte superior dos dados, chamamos 3. quartil (Q3). Repare-se
que, deste modo, o 1. quartil, a mediana e o 3. quartil dividem os dados em 4
partes iguais: o 1. quartil tal que 25% dos dados so inferiores a ele; entre o 1.
quartil e a mediana esto outros 25% dos dados; entre a mediana e o 3. quartil
esto 25% dos dados, fazendo com que abaixo do 3. quartil estejam 75% dos dados,
enquanto que acima dele esto os restantes 25% dos dados.
Para obter graficamente estas medidas, tomemos de novo a seguinte tabela de
frequncias, obtida em 2.4.1, mas em que agora consideramos as percentagens para
as frequncias relativas (multiplicamos as frequncias relativas por 100):
Classes
[64, 81[
[81, 98[
[98, 115[
[115, 132[
[132, 149[
[149, 166[
Total

Rep. classe
xi

Freq. Abs.
ni

Freq. Rel. (%)


fi

Freq. Abs.
Acum.

Freq. Rel. Acum.


(%)

72,5
89,5
106,5
123,5
140,5
157,5

4
14
15
4
1
2

10,0
35,0
37,5
10,0
2,5
5,0

4
18
33
37
38
40

10,0
45,0
82,5
92,5
95,0
100,0

40

100,0

anlise de dados

O histograma acumulado ou grfico de frequncias relativas acumuladas, tal como o


nome indica, apresenta a evoluo das frequncias relativas acumuladas ao longo das
classes, em que se subdividiu a amostra. Utiliza-se principalmente na determinao
grfica da mediana, dos quartis e de outros percentis quando os dados esto
agrupados em classes. Estas medidas sero estudadas com mais pormenor no
captulo 3, mas devido sua simplicidade e sua importncia na construo de uma
representao grfica muito simples, mas muito til, vamos indicar a forma de as
obter.

51

ORGANIZAO dos DADOS em TABELAS e GRFICOS

0,00

52

110
100
90
80
70
60
50
40
30
20
10
0
64

81

98

115

132

149

166

rea

Grfico das frequncias relativas acumuladas

Para se obter graficamente a mediana (Me) e os quartis (Q1 e Q3), comea-se por
traar uma linha poligonal que une, em cada um dos rectngulos, o vrtice inferior
esquerdo com o vrtice superior direito (ver figura). De seguida, toma-se no eixo
vertical uma percentagem conveniente (50% para a mediana, 25% para o 1. quartil
e 75% para o 3. quartil). Traa-se uma linha paralela ao eixo horizontal passando
pelo ponto correspondente percentagem de interesse e prolonga-se at encontrar a
linha poligonal. Finalmente projecta-se sobre o eixo horizontal e obtm-se o
respectivo quartil (repare-se que, mediana, tambm podemos chamar 2. quartil):

110
100
Freq. rel. acum. %

ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

Freq. rel. acum. %

O grfico de frequncias relativas acumuladas correspondente

90
80
70
60
50
40
30
20
10
0
64

81
Q1

98
Me

115
Q3

rea

132

149

166

Como se verifica a partir da representao grfica anterior, a mediana deve estar


prxima de 100, enquanto o primeiro quartil deve estar prximo de 87 e o terceiro
quartil andar volta de 113. Salientamos que este procedimento, utilizado para
dados agrupados, s d valores aproximados.

2.4.4 Exemplos de tabelas e grficos para dados quantitativos contnuos

Exemplo:
Notas finais a Matemtica O histograma seguinte mostra a distribuio das notas
finais de Matemtica (numa escala de 0 a 20) de uma determinada turma.
4

0
0

12

16

20

nota

Podem-se ainda colocar questes do gnero: Admitindo que 10% dos alunos da turma
tiveram nota entre 4 e 8, qual a percentagem de alunos com nota entre 8 e 12?
Para responder a esta questo fundamental ter presente que o histograma um
diagrama de reas, pelo que se se est a admitir que 10% dos alunos tiveram nota
entre 4 e 8, significa que a uma rea de 4 unidades, que a rea do rectngulo mais
esquerda, corresponde uma frequncia relativa de 10%. Ento a percentagem de
alunos com nota entre 8 e 12 ser 20%, pois a rea do rectngulo que corresponde
a este intervalo o dobro da rea do rectngulo da classe anterior. De forma idntica
pode-se concluir que a percentagem de alunos que tiveram nota maior ou igual a 12
70%.
Neste exemplo convm fazer a seguinte observao: os valores assinalados no eixo
vertical no correspondem necessariamente a frequncias absolutas. Servem como
orientao para calcular as reas dos rectngulos correspondentes s classes. Assim,
no sabemos quantos alunos fizeram o teste de Matemtica.

anlise de dados

A partir do histograma anterior pode-se verificar que no houve nenhum aluno com
nota inferior a 4.

53

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Vamos apresentar alguns exemplos relacionados com variveis quantitativas


contnuas, onde se procura fazer uma interpretao dos dados a partir de tabelas ou
grficos.

Exemplo:
Rendimento familiar (Adaptado de Freedman et al., 1991) O histograma seguinte
representa o rendimento familiar, em milhares de dlares de famlias americanas.
6
5
4
3
2

ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

54

0
0

10

15

20

25

30

35

40

45

50

Rendimento (em milhares de dlares)

Tendo em conta que cerca de 1% das famlias tm rendimentos entre 0 e 1000 USD,
estime a percentagem de famlias com rendimentos:
i) a) Entre 1000 USD e 2000 USD
b) Entre 2000 USD e 3000 USD
c) Entre 3000 USD e 4000 USD
d) Entre 4000 USD e 5000 USD
e) Entre 4000 USD e 7000 USD
f) Entre 7000 USD e 10000 USD
ii) a) Haver mais famlias com rendimentos entre 6000 USD e 7000 USD ou
entre 7000 USD e 8000 USD? Ou ser aproximadamente o mesmo?
b) Haver mais famlias com rendimentos entre 10000 USD e 11000 USD
ou entre 15000 USD e 16000 USD? Ou ser aproximadamente o
mesmo?
c) Haver mais famlias com rendimentos entre 10000 USD e 12000 USD
ou entre 15000 USD e 20000 USD?
i) a) Se se diz que 1% das famlias tm rendimentos entre 0 e 1000 USD, ento
a rea do rectngulo assente na classe [0, 1[, igual a 1%. Repare-se
que a escala do eixo vertical tal que se se multiplicar a base do
rectngulo pela sua altura, se obtm precisamente 1. Assim, para as
outras classes, para obter as frequncias relativas, basta calcular as
reas dos rectngulos respectivos. A resposta a esta alnea ento 2%;
b) 3%; c) 4%; d) 5%; e) 15%; f) 15%.
ii) a) O mesmo, j que as reas dos rectngulos correspondentes a essas
classes so idnticas.
b) Mais entre 10000 USD e 11000 USD, pois a rea do rectngulo
correspondente a essa classe superior ao da outra classe.
c) Mais entre 15000 USD e 20000 USD, pela mesma razo da alnea
anterior.

Tabela de frequncias
No caso de dados contnuos, o processo de construo das classes um pouco mais
elaborado do que no caso de dados discretos, j que a definio das classes no to
imediata. De um modo geral as classes so intervalos com a mesma amplitude,
fechados esquerda e abertos direita ou abertos esquerda e fechados direita.
Em certos casos no conveniente que as classes tenham a mesma amplitude, o que
em si no um problema para a construo da tabela de frequncias, mas que implica
alguma complicao na construo do histograma associado, quando pretendemos
utilizar o Excel. Limitar-nos-emos a utilizar o Excel para a construo de histogramas
associados a tabelas com as classes com igual amplitude.
Vamos exemplificar a construo de uma tabela de frequncias com a varivel rea
do conjunto de dados, que temos vindo a estudar.
Definio das classes:
Determinar a amplitude da amostra, subtraindo o mnimo do mximo;
Dividir essa amplitude pelo nmero k de classes pretendido. Existe uma regra
emprica que nos d um valor aproximado para o nmero k de classes e que
consiste no seguinte: para uma amostra de dimenso n, considerar para k o
menor inteiro tal que 2k>n. Uma expresso equivalente para obter k, consiste
em considerar k=INT(LOG(n;2))+1 ou k=ROUNDUP(LOG(n;2);0), em que a
funo ROUNDUP(x;m), devolve um valor de x, arredondado por excesso, com
m casas decimais;

Construir as classes C1, C2, ..., Ck. Vamos considerar como classes os intervalos
[mnimo, mnimo + h[,[mnimo + h, mnimo + 2h[, ..., [mnimo + (k-1)h, mnimo
+ kh[.Uma alternativa a este procedimento seria considerar as classes abertas
esquerda e fechadas direita, da seguinte forma: ]max kh, max (k-1)h],
]max (k-1)h, max (k-2)h], ..., ]max h, max].
Estes passos so representados na figura seguinte:

anlise de dados

Calcular a amplitude de classe h, dividindo a amplitude da amostra por k e


tomando para h um valor aproximado por excesso, do quociente anteriormente
obtido;

55

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Utilizao do Excel, na construo da tabela de frequncias e do


histograma para dados quantitativos contnuos

ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

com os seguintes resultados:

56

Clculo das frequncias


Para obter as frequncias absolutas, vamos utilizar a funo COUNTIF, como se
exemplifica para a classe c1:

As frequncias das classes c2, c3, c4, c5 e c6, so obtidas de forma idntica de c1,
mudando os limites das classes.
A construo de uma tabela de frequncias pode ser feita utilizando um item chamado
Histogram, disponvel no Excel, em Tools
Data Analysis. Chama-se a ateno para
que o nome deste item enganador, pois na realidade, esta funo limita-se a construir uma tabela de frequncias. Para proceder ao agrupamento em k classes,
utilizando o Histogram, necessrio comear por construir um conjunto de
separadores de classes, b1, b2, ..., bk-1, e as frequncias absolutas obtidas com a
funo Histogram, so as correspondentes s seguintes classes:
1. classe conter todos os elementos b1;
2. classe conter todos os elementos b2 e >b1;
3. classe conter todos os elementos b3 e >b2;
....
k-sima classe conter todos os elementos >bk-1.

Construo do histograma
Para construir o histograma, a partir da tabela de frequncias, pode-se utilizar o
seguinte procedimento:

Proceder como se fosse construir um grfico de barras;


Clicar duas vezes sobre as barras, de forma a que aparea o menu Format Data Series
ou Format data Points.; Seleccionar Options e em Gap Width seleccionar 0; OK:

0.40
0.35

Freq.rel.

0.30
0.25
0.20
0.15
0.10
0.05
0.00
66,32; 82,495

82,495; 98,670

98,670; 114,845 114,845; 131,020 131,020; 147,195 147,195; 163,370

Fica visualmente mais elucidativo se considerarmos as classes com outros limites,


como por exemplo [66; 82,5[, [82,5; 99[, [99; 115,5[, [115,5; 132[, [132; 148,5[,
[148,5; 165[, que no se afastam muito dos anteriores. Construindo a nova tabela de
frequncias e o correspondente histograma, vem:

0.40
0.35

Freq.rel.

0.30
0.25
0.20
0.15
0.10
0.05
0.00
[66; 82,5[

[82,5; 99[

[99; 115,5[

[115,5; 132[

[132; 148,5[

[148,5; 165[

anlise de dados

rea

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Seleccionar as clulas que contm as classes e as que contm as frequncias


relativas (se pretender seleccionar clulas no adjacentes, basta seleccionar as
clulas da primeira coluna e se a coluna seguinte no for adjacente, comear
por carregar a tecla CTRL e com ela pressionada seleccionar, ento, as clulas
pretendidas, da coluna no adjacente);

rea

57

Repare-se que a modificao processada nas classes, provocou uma alterao no


histograma. Efectivamente, o histograma uma representao que depende muito da
amplitude que se considera para as classes e do ponto onde se inicia a construo das
classes.

ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

Nota: A observao anterior importante, pois chama a ateno para o facto de,
para o mesmo conjunto de dados, se poderem construir vrios histogramas, nem
todos com aspecto semelhante. Este facto faz com que se diga que o histograma no
uma representao resistente, pois pode mudar drasticamente de aspecto, quando
se altera a amplitude da classe ou o valor em que se inicia a construo destas.

58

2.5

Outras representaes grficas

Alm das representaes grficas consideradas anteriormente, de que se destacam o


diagrama de barras e o histograma, utilizados especialmente para variveis
quantitativas discretas e contnuas, respectivamente, existem outras representaes
grficas que se usam tanto para dados discretos, como contnuos. Passamos a
apresentar as mais usuais.

Uma forma simples de evidenciar a forma como os dados se distribuem atravs de


uma representao grfica que envolve apenas 5 valores retirados ou calculados a
partir da amostra. Esses valores so: o mnimo, o mximo, a mediana, o 1. quartil
e o 3. quartil. O diagrama de extremos e quartis constitudo por um rectngulo e
por dois segmentos de recta que partem de cada um de dois lados opostos do
rectngulo. Pode ser colocado na vertical ou na horizontal. O que mostramos na figura
seguinte, do lado esquerdo, diz respeito varivel Preo e foi obtido atravs do
software estatstico SPSS que utiliza a representao vertical:
400

400

Mx
350

350

300

300

250

250

200

200

150

Q1
150

Q3

Mn
100

100
Preo

Preo

Diagrama de extremos e quartis para a varivel Preo

Como se pode ver na figura anterior, no grfico do lado direito, o rectngulo desenhado desde o 1. quartil (que 151,83 mil euros) at ao 3. quartil (que 210,02
mil euros). Dentro do rectngulo coloca-se um trao para assinalar a posio da
mediana (que 184,575 mil euros). Os dois segmentos de recta que completam esta
representao grfica estendem-se, um desde o mnimo da amostra (que 121,47
mil euros) at ao lado do rectngulo determinado pelo 1. quartil e o outro desde o
lado do rectngulo determinado pelo 3. quartil at ao mximo (que 357,32 mil
euros). Os diagramas de extremos e quartis permitem tirar concluses importantes

anlise de dados

Me

ORGANIZAO dos DADOS em TABELAS e GRFICOS

2.5.1 Diagrama de extremos e quartis

59

acerca da forma como os dados se distribuem dentro da amostra. A partir do grfico


anterior podemos desde logo dizer que os preos das casas se distribuem de forma
enviesada, com uma cauda mais longa no sentido dos grandes valores. Os 50% de
valores centrais para os preos das casas situam-se entre cerca de 150 mil euros e
210 mil euros; o preo mnimo pouco abaixo dos 150 mil euros, mas o preo
mximo bastante superior aos 210 mil euros, atingindo cerca de 350 mil euros;
verifica-se ainda que metade das casas tm preos que no excedem o valor indicado
pelo trao da mediana que, apenas pela leitura do grfico, se verifica ser prxima dos
180 mil euros.

ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

Utilizao do diagrama de extremos e quartis para comparar vrias amostras

60

Quando colocados em paralelo, os diagramas de extremos e quartis, permitem


estabelecer comparaes entre amostras, evidenciando as principais semelhanas e
diferenas entre os padres de distribuio, nomeadamente no que diz respeito
localizao de algumas das medidas caractersticas dos dados, assim como maior
ou menor disperso dos dados.
Que pode dizer acerca dos preos das casas nas zonas A, B e C?

A representao anterior torna evidente que os preos das casas da zona C so os


mais baixos das 3 zonas consideradas, apresentando ainda uma pequena
variabilidade entre o preo mais baixo e o preo mais alto. Pelo contrrio, as casas da
zona A so, de um modo geral, mais caras.

2.5.1.1 Construo do diagrama de extremos e quartis para dados agrupados


Como vimos anteriormente, na seco 2.4.3, o histograma acumulado permite obter
valores aproximados para a mediana e quartis, quando os dados esto agrupados.
Vamos ento aproveitar essa facilidade para obter, neste caso, o diagrama de
extremos e quartis. Para isso basta completar a representao grfica com um diagrama que se desenha por baixo do grfico de frequncias relativas acumuladas,
como se apresenta a seguir:

90
80
70
60
50
40
30
20
10
0
64

81

Q1

98
Me

115
Q3

132

149

166

rea

Diagrama de extremos e quartis horizontal

Mesmo sem ter explicitamente os valores da mediana e dos quartis, o histograma


acumulado permite, de forma fcil, obter o diagrama de extremos e quartis.

um tipo de representao que se pode considerar entre a tabela e o grfico. com


os prprios nmeros que constituem a amostra que se vai construindo a representao grfica. Cada dado separado em duas partes: o caule e a folha.
Tomando por base a ordem de grandeza dos valores da amostra, escolhe-se o(s)
dgito(s) dominante(s) (ver mais frente) que se coloca(m) ao longo de um eixo
vertical, do lado esquerdo. Os dgitos dominantes constituem os caules. Para cada
valor da amostra toma-se o dgito que se segue imediatamente ao(s) dgito(s)
dominante(s) e coloca-se do lado direito do eixo, em frente ao respectivo caule.
Colocam-se assim as folhas. Aps colocadas todas as folhas, usual orden-las por
ordem crescente, dentro de cada caule. Se os dados so constitudos por dois dgitos,
ento natural escolher o algarismo das dezenas para caule e o das unidades para
folha.
Para ilustrar este procedimento, vamos usar o grfico de caule-e-folhas como uma
forma de organizar os dados resultantes de uma tarefa que facilmente se pode
realizar numa turma do 1. ciclo do ensino bsico.

anlise de dados

2.5.2 Grfico de caule-e-folhas

61

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Freq. rel. acum. %

110
100

Tarefa
Quantos segundos se
consegue estar sem respirar?

Gostaramos de ter uma ideia de quantos segundos conseguimos estar sem respirar.
Suponha que um grupo de alunos fez esta experincia na turma e obteve os seguintes
valores: 59, 38, 47, 23, 48, 55, 37, 48, 53, 37, 52, 39, 54, 57, 38, 46, 40, 41, 62,
63, 38, 65, 44, 68, 27, 35, 46, 60.
Podem ser feitas perguntas do tipo:
Quantos segundos esteve sem respirar o aluno que aguentou menos tempo? E
o aluno que aguentou mais tempo?
O professor pode, com a ajuda dos alunos, organizar os dados num diagrama de
caule-e-folhas.
Como o menor e o maior dos valores anteriores so, respectivamente, 23 e 68, para
organizar os dados num grfico de caule-e-folhas, vamos comear por considerar os
seguintes caules (algarismos das dezenas dos valores iniciais):
2
3
4
5
6

Depois de considerar um segmento de linha vertical, ao lado dos caules, vamos


pendurar as folhas, nos caules respectivos. Exemplificamos a seguir, um grfico com
a 1. folha, um outro com a 1. e a 2. folha e finalmente o grfico com as folhas
todas:
2
3
4
5 9
6

2
3 8
4
5 9
6

2
3
4
5
6

37
8779885
78860146
953247
23580

costume ordenar as folhas correspondentes a cada caule, de modo que o grfico


final o seguinte:
2
3
4
5
6

62

37
5778889
01466788
234579
02358

Repare-se que agora muito fcil ordenar o conjunto de dados inicial, pois basta percorrer o grfico de caule-e-folhas:
23, 27, 35, 37, 37, 38, 38, 38, 39, 40, 51, 44, 46, 46, 47, 48, 48, 52, 53, 54, 55, 57,
59, 60, 62, 63, 65 e 68.
Sugesto

Algumas consideraes sobre o grfico de caule-e-folhas


A representao em grfico de caule-e-folhas tem muitas vantagens:
, em geral, muito simples de fazer e torna-se, por isso, acessvel, at a alunos
do 1. ciclo do ensino bsico ( necessrio ter algum cuidado na escolha do
exemplo, para que no haja problemas na escolha do(s) dgito(s)
dominante(s), mas esse o nico cuidado a ter).
D uma informao visual sobre a forma como os dados esto distribudos.
Permite ordenar rapidamente a amostra.
Facilita o clculo da mediana e dos quartis.

Na construo de um grfico de caule-e-folhas nem sempre imediata a escolha dos


dgitos dominantes. Se essa escolha conduzir a muitos caules o resultado final tem
pouco de representao grfica, pois ser muito disperso. Se conduzir a poucos
caules, para alm de poder esconder padres nos dados, de pouca utilidade se torna
na tarefa de ordenao da amostra. Vamos ver o que acontece, por exemplo, com os
dados da varivel Preo do exemplo das casas que temos vindo a tratar. Os preos
das casas variam entre 121,47 mil euros e 357,32 mil euros. Se tomarmos como
dgito dominante o das centenas, ficaremos apenas com 3 caules. Se tomarmos os
dois primeiros dgitos (at classe das dezenas), ficaremos com 24 caules, o que
demasiado tendo em conta que a dimenso da amostra n=40. Este problema pode
ser resolvido subdividindo em dois cada um dos 3 caules que se obtm no primeiro
caso. No primeiro desses dois caules, identificado com um asterisco (*), colocam-se
as folhas de dgitos 0,1,2,3, e 4 e no outro, identificado com um ponto (.), as folhas
de dgitos 5,6,7,8, e 9. Deste modo ficamos ao todo com 6 caules que um nmero
razovel para a dimenso de amostra que temos. H ainda a possibilidade de
subdividir cada caule em 5, um para as folhas 0 e 1, outro para as folhas 2 e 3, e
assim por diante at ao ltimo que ter as folhas 8 e 9, mas iramos obter 15 caules
que j excessivo.

anlise de dados

Escolha dos dgitos dominantes

63

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Pode ser repetida a tarefa anterior, mas depois de ter aspirado e expirado,
profundamente, 3 vezes. Compare os resultados agora obtidos, com os obtidos
anteriormente.

Um grfico de caule-e-folhas para a varivel Preo (onde a unidade de cada caule


a centena de milhares de euros) , ento:

ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

1*
1.
2*
2.
3*
3.

64

2
5
0
5

2
5
0
8

2
5
0
9

3
6
0

3
6
0

3
6
1

4
7
1

4
7
3

4
8

Note-se que se pendurou como folhas unicamente os algarismos que figuram na


classe das dezenas. Neste caso no se consegue recuperar exactamente os valores
da amostra, mas apenas uma aproximao. Pode-se observar, por exemplo, que o
mnimo da amostra prximo dos 120 mil euros e que o mximo prximo dos 350
mil euros.
Utilizao do caule-e-folhas para comparar duas amostras
A representao em caule-e-folhas muito sugestiva para comparar duas amostras,
como se apresenta no exemplo seguinte:
Exemplo:
O tempo de sono do Pedro e do David Apresentam-se, a seguir, os tempos de
sono, em horas, medidos durante 30 noites seguidas, do Pedro e do David.
Pedro
8,7
9,4
6,6
6,0
6,9
9,9
6,3
8,9
10,1
9,6

9,3
5,3
7,3
6,7
5,8
4,7
5,6
5,9
9,4
7,6

David
8,7
7,4
6,3
5,9
10,0
6,5
8,6
7,7
9,0
7,9

7,1
8,3
7,1
7,9
7,5
6,2
8,2
8,7
8,5
7,6

9,5
7,1
7,5
7,9
6,4
6,2
7,5
7,7
7,6
8,8

7,1
7,4
7,4
7,8
6,2
8,6
8,4
6,6
8,1
7,1

Para comparar os tempos de sono dos dois jovens, vamos representar os caule-e-folhas paralelos, isto , determinamos os caules (comuns) a partir da amostra de
maior amplitude, ou seja, neste caso, dos dados correspondentes ao David, e depois
colocamos as folhas correspondentes s observaes do Pedro para um lado e as
correspondentes s do David para o outro:

Pedro

David

9
3
7
9

9
4

7
4

8
3
6
4
7
7
3
9
1

6
0
6
0

4.
5*
5.
6*
6.
7*
7.
8*
8.
9*
9.
10*

2
6
1
5
1
5

1
5
2
6

1
5
3
7

1
6
4
8

1
6

4
7

4
8

A representao anterior permite realar a maior disperso do sono do Pedro,


enquanto que o David mais regular, com uma durao de sono de um modo geral
entre as 7 e as 8 horas.

Utilizao do Excel, na construo do diagrama de extremos e quartis e


do caule-e-folhas
Construo do diagrama de extremos e quartis
Utilizando o Excel, comeam por se calcular os 5 valores necessrios para a construo do diagrama de extremos e quartis, que se apresentam da seguinte forma, e
pela ordem indicada:
Seleccionar as clulas que contm as
estatsticas, assim como as suas etiquetas: C2 a D6;
No mdulo Chart Wizard seleccionar:

Seleccionar Line with markers displayed at each data value


Clicar Next
Seleccionar Series in Rows
Clicar Finish
Clicar com o boto direito do rato num
dos pontos. Seleccionar:
Format Data Series
Seleccionar Options
Escolher High-low lines e Up-down
bars;
Ajustar sua escolha Gap width;
OK
Arranjar esteticamente o grfico:

anlise de dados

Line

65

ORGANIZAO dos DADOS em TABELAS e GRFICOS

7
3
6
0
5
3
6

ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

66

Construo do caule-e-folhas
No existe no Excel uma representao imediata para a construo de um caule-e-folhas, pelo que vamos utilizar um processo desenvolvido por Neville Hunt (Hunt,
2006), para o Excel:
1. passo Insira os dados na coluna C, comeando na clula C2; se no
estiverem ordenados, ordene-os por ordem crescente;
2. passo Insira na clula E1 o valor que deseja para o comprimento de linha:
10, 5 ou 2 ou uma potncia de 10, destes valores;
3. passo Na clula A2 escreva a seguinte frmula = INT(C2/E$1)*E$1 e
replique-a tantas vezes quantos os dados inseridos no 1. passo, na coluna C;
4. passo Na clula B2 escreva o valor 1. Na clula B3 escreva a frmula
= IF (A3=A2; B2+1; 1) e replique a frmula, tantas vezes quantos os dados
inseridos no 1. passo, na coluna C;
5. passo Seleccione as clulas das colunas A, B e C com os resultados
obtidos nos passos anteriores e no mdulo Chart Wizard (Assistente de
Grficos) escolha Bubble;
6. passo Faa um duplo clique numa das bolas representadas e na janela
Format data Series (ou clique com o boto direito do rato e seleccione Format
data Series) seleccione Patterns:
Border: None
Area: None
Data Labels: Show bubbles sizes
OK;
7. passo Faa um duplo clique numa das Data labels (ou clique com o
boto direito do rato e seleccione Format Data Labels), e na janela Format Data
Labels, em Alignment:
Label Position: Centre
OK;
8. passo Clique numa das linhas horizontais que atravessam o grfico e
apague-as com a tecla Delete. Faa o mesmo ao fundo cinzento, seleccionandoo e carregando na tecla Delete. Apague tambm a legenda.
9. passo Formate convenientemente os eixos.

ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

Como se verifica, a mancha obtida idntica representao anteriormente feita


mo, mas aqui no existe o mesmo conceito para o caule e a folha.

67

2.6

Algumas formas bsicas de distribuio de dados

Numa fase mais avanada da anlise dos dados, o histograma pode ser utilizado como
uma ajuda na escolha de um modelo terico para a distribuio subjacente
populao de onde os dados foram retirados.

ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

Alguns histogramas apresentam formas que, pela frequncia com que surgem,
merecem referncia especial. Assim, as distribuies mais comuns, apresentadas
pelos dados, so:

68

Distribuies simtricas A distribuio das frequncias faz-se de forma


aproximadamente simtrica, relativamente a uma classe mdia:

Caso especial de uma distribuio simtrica


Um caso especial de uma distribuio simtrica aquele que sugere a forma de um
"sino" e que apresentada por amostras provenientes de Populaes Normais:

Distribuies enviesadas A distribuio das frequncias faz-se de forma acentuadamente assimtrica, apresentando valores substancialmente mais pequenos num
dos lados, relativamente ao outro:

Enviesada para a direita

Enviesada para a esquerda

Distribuies com caudas longas - A distribuio das frequncias faz-se de tal


forma que existe um grande nmero de classes nos extremos, cujas frequncias so
pequenas, relativamente s classes centrais:

No caso das variveis contnuas, os modelos tericos so caracterizados pelas


chamadas curvas de densidade. Estas so funes no negativas, que tm a
particularidade de terem uma rea unitria entre o eixo dos xx e o grfico que as
representa. Por exemplo, o seguinte grfico

pode ser considerado a funo densidade do modelo Normal, e a sua aplicao pode
ser sugerida por um histograma como o que apresentmos anteriormente, como caso
especial de uma distribuio simtrica. A seguir apresentamos alguns exemplos em
que so apresentados diversos esquemas de histogramas estilizados, que procuram
traduzir a distribuio subjacente a vrias variveis quantitativas contnuas.
Exemplo:

Para tentarmos resolver esta questo, podemos pensar que se se diz que os trabalhadores do grupo B ganham o dobro dos trabalhadores do grupo A, isto significa, por
exemplo, que enquanto a maior parte dos trabalhadores do grupo B aufere um salrio
volta de 4000 euros, os do grupo A auferem um salrio volta de 2000 euros. Ento
natural esperar que a figura (1) corresponda aos salrios dos trabalhadores do grupo
B, enquanto a figura (2) corresponde aos trabalhadores do grupo A. Por outro lado, se
os trabalhadores do grupo C ganham 1500 euros a mais do que os do grupo A, isto
significa que a distribuio dos salrios dos trabalhadores do grupo C ter um aspecto
idntico ao dos trabalhadores do grupo A, mas deslocada para a direita de 1500 euros.
Ento a figura (3) corresponder aos salrios dos trabalhadores do grupo C.

anlise de dados

Salrios de trabalhadores (Adaptado de Freedman et al., 1991) Recolheram-se


os preos dos salrios mensais de 3 tipos de trabalhadores. Os trabalhadores do
grupo B ganham cerca de duas vezes mais do que os trabalhadores do grupo A; os
trabalhadores do grupo C ganham mais 1500 euros por ms do que os do grupo A.
Qual das manchas seguintes, de histogramas, pertence a cada um dos grupos?

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Distribuies com vrios "picos" ou modas A distribuio das frequncias


apresenta 2 ou mais "picos" a que chamamos modas, sugerindo que os dados so
provenientes de vrios grupos distintos:

69

A distribuio com o aspecto (1) no muito usual para representar salrios, sendo
mais usuais as distribuies com o aspecto (2) ou (3). Efectivamente, em geral, a distribuio dos salrios tem um aspecto assimtrico, com um enviesamento para a
direita. Isto deve-se ao facto de a maior parte dos salrios se concentrarem numa
determinada regio, havendo alguns (poucos) salrios que so substancialmente
maiores que os restantes, provocando uma cauda da distribuio, alongada para a
direita.

ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

Exemplo:
Qual o aspecto da distribuio? (Adaptado de Freedman et al., 1991) Seguidamente apresentam-se 6 "manchas" de histogramas, 4 dos quais apresentam
os resultados do estudo, numa pequena cidade, das 4 caractersticas seguintes:
a) Alturas de todos os elementos das famlias, em que os pais tenham idade
inferior a 24 anos.
b) Alturas dos casais (marido e mulher).
c) Alturas de todos os indivduos da cidade.
d) Alturas de todos os automveis.

Quais dos histogramas podem representar cada uma das variveis anteriores?

70

Quando consideramos a distribuio das alturas dos elementos de um casal, natural


esperar um esquema idntico ao da figura (3), com duas modas, reflectindo que, de
um modo geral, as alturas dos homens se concentram em torno de um valor um
pouco superior ao valor em torno do qual se concentram as alturas das mulheres.
Ao escolher um indivduo ao acaso, na cidade, esperamos que a distribuio das
alturas seja descrita pela figura (4) que apresenta um enviesamento para a esquerda,
correspondente s alturas das crianas, que esto em minoria.
Finalmente, quando se pretende estudar a varivel que representa a altura de um
carro, o histograma adequado o que corresponde mancha 1) que traduz o facto
de os carros terem quase todos a mesma altura, andando volta de 125 cm.

0
1
2
3
4
5
6
7
8
9

0
1
0
4
1
2
3
1
9
5

1
1
1
4
1
2
6
5

3
2
3
5
2
3
7

6
3
4
6
3
7

7
5
4
6
4

8
7
5
8
4

8 8 9 9
6 7 7 8 9
8 9
5

Quando se faz a reduo dos dados, perde-se sempre alguma informao contida
nesses dados, mas em contrapartida obtemos a estrutura da populao que eles
pretendem representar. Das representaes grficas anteriores, aquela em que se
perdeu mais informao foi o diagrama de extremos e quartis, mas tambm foi a mais
simples de ser construda bastou recolher, a partir dos dados, informao sobre 5
nmeros (mnimo, mximo, 1. quartil, 3. quartil e mediana).

anlise de dados

A informao transmitida pelo histograma, sobre o padro da distribuio da


populao subjacente aos dados, tambm igualmente transmitida pelo grfico de
caule-e-folhas e pelo diagrama de extremos e quartis. Por exemplo, as seguintes
representaes indicam o mesmo tipo de informao, sugerindo que a distribuio da
populao tem um enviesamento para a direita:

71

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Pensando na varivel que representa a altura de um elemento, escolhido ao acaso,


de uma famlia, em que os pais tenham idade inferior a 24 anos, esperamos obter um
histograma com uma mancha idntica (2), onde se vislumbram 3 pontos, volta
dos quais se nota uma maior frequncia, e que correspondero altura dos filhos
entre 80 e 90 cm, que para casais com idades inferiores a 24 anos, ainda devem ser
muito pequenos, e altura dos membros do casal, da mulher ou do marido, respectivamente volta de 165 cm e 190 cm, aproximadamente:

72

Representaes grficas e tabelas de frequncias


para dados bivariados

Retomemos os Dados sobre casas, apresentados no Captulo 1. Do nosso


conhecimento do dia a dia, sabemos que, entre outras variveis, a rea de uma casa
influencia directamente o seu preo de venda. Diz-se por isso que as variveis rea
e Preo esto correlacionadas. De igual modo esto correlacionadas as variveis
Altura e Peso em muitos seres vivos; a Oferta/Procura e o Preo de produtos, a
Cilindrada e o Consumo de combustvel nos carros, s para mencionar alguns exemplos. Nalguns casos o aumento de valor de uma das variveis acarreta o aumento de
valor na outra varivel (correlao positiva) e noutros acarreta uma diminuio de
valor na segunda varivel (correlao negativa). excepo do exemplo ligado lei
da oferta e da procura, em todos os outros possvel identificar uma das variveis
como sendo explicativa e a outra como sendo uma varivel resposta. Por outras palavras, uma das variveis independente (ou explicativa) e a outra dependente (ou
resposta). Assim, o Preo da casa dependente da rea da casa; o Peso que
depende da Altura e no a Altura que depende do Peso; o Consumo de combustvel
directamente influenciado pela Cilindrada e no vice-versa. Em estatstica, quando
o objectivo do estudo analisar a relao de dependncia entre duas variveis, o
registo das observaes tem de preservar o emparelhamento, obtendo-se assim uma
amostra de dados bivariados.

2.7.1 Diagrama de disperso


O diagrama de disperso uma representao grfica de dados bivariados, utilizada
quando qualquer das duas variveis em estudo de tipo quantitativo contnuo. Cada
par de dados (x,y) representado, num sistema de eixos ortogonais, por um ponto
de coordenadas (x,y). Obtm-se assim uma nuvem de pontos que nos permite avaliar
de imediato se h ou no uma forte relao entre as duas variveis.
400
350
300
Preo

ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

2.7

250
200
150
100
50

70

90

110

130

150

rea

Diagrama de disperso para os pares (rea, Preo)

170

No diagrama de disperso anterior, esto representados os pares (rea, Preo) das


40 casas que constituem a nossa amostra. A nuvem de pontos apresenta-se um
pouco dispersa, mas no deixa por isso de ser bem patente a sua forma alongada que
se desenvolve em torno de uma recta com um declive positivo.

Este tipo de representao muito til, pois permite realar algumas propriedades
entre os dados, nomeadamente no que diz respeito ao tipo de associao entre as
variveis representadas por x e y. Quanto mais alongada for a nuvem de pontos ao
longo de uma recta, isto , quanto maior for o grau de proximidade dos pontos a uma
linha recta, maior ser o grau de associao entre as variveis. Esta associao pode
ser medida numericamente com um coeficiente a que se d o nome de coeficiente de
correlao, que ser estudado no captulo seguinte. No diagrama de disperso para
os pares (rea, Preo) verifica-se uma tendncia para que casas de maior rea
tenham preos mais elevados. O facto de existir esta tendncia no significa que se
tenha necessariamente uma casa mais cara, quando tem maior rea, mas, de um
modo geral, as casas maiores tendem a ser mais caras.
Exemplo:
Idades do marido e da mulher Considere os seguintes dados que representam
as idades de 8 casais:
Mulher

1
2
3
4
5
6
7
8

26
25
45
27
38
30
32
36

23
29
42
27
32
28
34
29

45
40
35
30
25
20
20

30

40

50

Idade marido

Verifica-se uma associao linear positiva entre a idade do marido e a idade da


mulher, isto , existe tendncia a que mulheres mais velhas estejam casadas com
homens mais velhos.

anlise de dados

Marido

Idade mulher

Casal

73

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Diagrama de disperso uma representao grfica para os dados


bivariados quantitativos, em que cada par de dados (x,y) representado por
um ponto de coordenadas (x,y), num sistema de eixos coordenados.

Exemplo:
Nmero de faltas Considere os seguintes dados, que representam o nmero de
faltas no autorizadas por ano e a distncia (em km) a que os empregados de
determinado armazm esto de casa.
Construa o diagrama de disperso e comente-o.

ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

Distncia
x

74

1
3
4
6
8
10
12
14
18
18

N. faltas
y
8
5
8
7
6
3
5
2
4
2

y
10
8
6
4
2
0

x
0

10

12

14

16

18

O grfico mostra uma associao, de sentido contrrio, entre o nmero de faltas e a


distncia. Assim, quanto maior a distncia de casa, menor a tendncia para faltar!
Exemplo:
Notas a Matemtica e Educao Fsica Considere os seguintes dados, que
representam as notas obtidas por 10 alunos nas disciplinas de Matemtica e Educao
Fsica.
Construa o diagrama de disperso e comente-o.
Matemtica
x

Ed. Fsica
y

12
13
10
11
18
16
12
14
18
18

14
12
10
17
16
12
15
12
14
12

y
20
15
10
5
0

x
0

10

15

20

Aparentemente no existe nenhuma associao linear entre as notas obtidas nas duas
disciplinas, uma vez que os pontos se encontram dispersos de forma "aleatria".

2.7.2 Tabelas de frequncias para dados bivariados

De uma maneira geral, uma tabela de contingncia uma representao dos dados,
quer de tipo qualitativo, quer de tipo quantitativo, especialmente quando so de tipo
bivariado, isto , podem ser classificados segundo dois critrios. O aspecto de uma
tabela de contingncia o de uma tabela com linhas, correspondentes a um dos
critrios, e colunas correspondente ao outro critrio. Seguidamente apresentamos um
exemplo, para ilustrar o que acabmos de dizer.
Exemplo:
As casas Considerando de novo o exemplo das casas, pretende-se organizar as
variveis Zona e Estado na forma de uma tabela de contingncia. Para isso deve-se
comear por construir uma tabela idntica que se segue:
Zona

10
9

16
0

5
0

Estado
Usada
Nova

que depois ser preenchida com as frequncias absolutas correspondentes a cada


uma das clulas. Assim, na clula que corresponde s casas usadas da zona A,
escrevemos 10, pois encontraram-se 10 casas nessas condies. As outras clulas
so preenchidas de forma idntica. Uma tabela destas ainda pode ser completada
com mais uma linha e uma coluna, onde se colocam os totais de linhas e de colunas:
Zona

Total

10
9

16
0

5
0

31
9

19

16

40

Usada
Nova
Total

A leitura da tabela permite concluir que 31 das casas so usadas e 9 so novas.


Tambm se pode concluir que 19 casas pertencem zona A, 16 zona B e 5 zona
C. A clula do canto inferior direito apresenta o nmero total de unidades observadas,
que neste caso foram as casas.
Em vez das frequncias absolutas, tambm se podem utilizar as frequncias relativas,
com um tipo variado de informao possvel. Por exemplo, a tabela
Zona

Total

Estado
Usada
Nova

32%
100%

52%
0%

16% 100%
0% 100%

anlise de dados

Estado

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Um outro processo de organizar a informao correspondente a dados bivariados,


normalmente de tipo qualitativo, utilizando uma tabela de frequncias, a que damos
o nome de tabela de contingncia.

75

permite obter informao diferente da tabela que se apresenta a seguir:


Zona

Total

Estado
Usada
Nova

ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

Total

76

25%
23%

40%
0%

13%
0%

78%
23%

48%

40%

13% 100%

Da primeira das duas tabelas anteriores pode-se concluir, por exemplo, que das casas
usadas, 32% pertencem zona A, 52% zona B e 16% zona C. Repare-se que
nessa tabela se calcularam, em separado, as percentagens relativamente ao nmero
de casas usadas e relativamente ao nmero de casas novas.
Por outro lado, da segunda tabela pode-se concluir, por exemplo, que 25% das casas
so usadas e pertencem zona A; 23% das casas so novas e pertencem zona A;
etc. Nesta tabela, as percentagens foram calculadas relativamente ao nmero total
de casas.

2.8

Um grfico vale mais do que mil palavras?

costume dizer-se que um grfico vale mais do que mil palavras. De facto, para que
isso acontea, necessrio tomar alguns cuidados na construo dessas representaes
grficas. Damos de seguida alguns exemplos de representaes grficas incorrectas.

Os pictogramas so representaes grficas que utilizam figuras, o que faz com que
essas representaes se tornem bastante apelativas. No entanto, a utilizao de
pictogramas, nem sempre se faz de forma correcta.
Exemplo:
Aumento da quantidade de leite Consideremos a seguinte representao, que
pretende mostrar que a quantidade de leite, de uma determinada marca, vendida
desde 1985 at 1991, duplicou:
N.
vendas
20000

Efectivamente a altura do pacote de leite, em 1991, o dobro da de 1985, mas


quando olhamos para as figuras, ficamos com a impresso que esse aumento foi
muito superior ao verificado, induzindo o leitor em erro. Se pretendermos continuar
a utilizar o pacote de leite como referncia, ento uma soluo possvel ser a
seguinte, em que os pacotes s diferem na altura. Deste modo, o volume da cada um
proporcional frequncia absoluta, sendo, neste caso, o volume do pacote referente
a 1991, o dobro do referente a 1985:
N.
vendas
20000

10000

anlise de dados

10000

ORGANIZAO dos DADOS em TABELAS e GRFICOS

2.8.1 Utilizao de pictogramas

77

Exemplo:

ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

Os jogos preferidos pelos alunos (adaptado de Graa Martins et al. 1999) - Numa
escola o Conselho Directivo pretende construir um campo de jogos, pelo que gostaria
de ter uma ideia de quais os jogos preferidos dos alunos. Encarregou um aluno de
recolher a informao necessria, o qual utilizou a seguinte metodologia: elaborou
uma lista de jogos possveis e percorreu todas as turmas da escola, em nmero de
20, perguntando dentro de cada turma qual a opinio dos alunos cujo nmero fosse
um mltiplo de 5. Em trs turmas foram seleccionados 6 alunos e nas restantes 5. O
resultado da recolha da informao tinha o seguinte aspecto
Futebol
Vlei
Basquete
Tnis
Andebol

x
x
x
x
x

x
x
x
x
x

x
x
x
x
x

x
x
x
x
x

x
x
x
x
x

x
x
x
x
x

x
x
x
x
x

x
x
x
x

x
x
x
x

x
x
x
x

x
x
x
x

x
x
x
x

x
x
x
x

x
x
x
x

x
x
x
x

x
x
x
x

x
x
x
x

xxxxxxxxxxxxxxx
x
xxxxxxxxxx
xx

O aluno, ao perguntar a cada elemento da amostra a sua opinio, apontava o


resultado com um x frente da modalidade seleccionada. A forma como a informao
foi recolhida permite imediatamente concluir que a modalidade preferida foi o futebol.
A fim de transmitir verbalmente a informao ao Conselho Directivo, o aluno construiu a seguinte tabela de frequncias
Classes
Futebol
Vlei
Basquete
Tnis
Andebol
Total

Freq. abs.

Freq. rel(%)

32
18
27
19
7

31,1
17,5
26,2
18,4
6,8

103

100,0

Ento o Conselho Directivo foi informado que as preferncias dos alunos vo para o
futebol seguindo-se o basquete. Depende agora das disponibilidades financeiras
contemplar as diferentes modalidades, tendo em conta as preferncias dos alunos.
Procurando transmitir a informao graficamente, construram o seguinte pictograma,
onde se substituiu a barra por uma figura humana:

Pictograma para a varivel Jogo preferido

78

Na figura anterior a imagem correspondente classe futebol substancialmente


maior que a que utilizada para as outras modalidades ou classes. Da dar uma ideia,
errada, de que por exemplo a percentagem de alunos que preferem o futebol vrias
vezes superior aos que preferem vlei, quando nem sequer chega a ser o dobro. Este
problema foi ocasionado pelo facto de se pretender que a figura humana ficasse
proporcional, pelo que medida que se aumentou a altura, tambm se aumentou a
largura. O grfico de barras correspondente tem o seguinte aspecto:
35
25
20
15
10
5
Andebol

Tnis

Basquete

Vlei

Futebol

Grfico de barras para a varivel Jogo preferido

Pictograma para a varivel Jogo preferido

anlise de dados

Na construo do grfico de barras, como j dissemos nas indicaes para a sua construo, deve ter-se em ateno que as barras devem ter a mesma largura, pois a
mensagem que devem transmitir a que est contida nas diferentes alturas das
barras. Se umas barras forem mais largas do que outras, temos tendncia a crer que
as classes a que correspondem as barras mais largas tm maior frequncia do que a
que efectivamente tm. Este um problema que no tido em conta na construo
de muitos pictogramas, em que as barras so substitudas por figuras, para tornar a
representao grfica mais atraente, como aconteceu no caso deste exemplo. Um
pictograma possvel, o que se apresenta a seguir, em que a figura utilizada uma
figura humana, que corresponde a uma percentagem de 5%, que se replica o nmero
de vezes que for necessrio, sendo possvel utilizar uma fraco da figura:

ORGANIZAO dos DADOS em TABELAS e GRFICOS

% alunos

30

79

Exemplo:
Seguro do agricultor (Graa Martins et al., 1999) - Com o objectivo de fazer um
seguro, um agricultor teve de fazer o levantamento do nmero e tipo de rvores de
fruto existentes no seu pomar. O resultado apresenta-se na tabela seguinte:

ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

Classes

80

Laranjeiras
Limoeiros
Pessegueiros
Macieiras
Pereiras
Total

Freq. abs.

Freq. rel.(%)

320
135
257
335
379

22,4
9,5
18,0
23,5
26,6

1426

100,0

Uma representao grfica possvel seria a seguinte, considerando uma figura


sugestiva, mas sem incorrer no erro da representao do exemplo anterior,
inicialmente apresentada:

= 2%

Pictograma para a varivel Tipo de rvore


Embora seja comum dizer que uma imagem vale mais do que mil palavras, no
podemos deixar de chamar a ateno para que esta frase tem sentido se a informao
transmitida pela imagem for correcta, o que nem sempre acontece, como vimos
anteriormente.

2.8.2 Utilizao do diagrama circular


O diagrama circular uma representao grfica, utilizada para representar a distribuio de dados de tipo qualitativo. das representaes grficas mais utilizadas
pela comunicao social, em jornais, revistas ou televiso. No entanto, a sua
utilizao nem sempre se faz da forma mais correcta, nomeadamente quando se faz
o diagrama circular a 3 dimenses, pois, neste caso, no transmite uma ideia clara
das reas que pretende representar, embora se tornem visualmente mais atractivas.

Passageiros do Titanic (De Veaux et al., 2004) Considere a seguinte tabela com
a distribuio dos 2201 passageiros do Titanic, na altura do naufrgio:
Classe
1. classe
2. classe
3. classe
Tripulao

Freq. abs.

Freq. rel.(%)

325
285
706
885

15%
13%
32%
40%

Para estes dados podemos construir algumas representaes grficas na forma de um


diagrama circular, nomeadamente:
1. classe
15%

2. classe
13%

3. classe
32%

Tripulao
40%

1. classe
15%
2. classe
13%

3. classe
32%

A representao a 3 dimenses torna difcil a comparao das frequncias das


diferentes classes, que , afinal, o objectivo principal de uma construo destas. Esta
situao verifica-se, sobretudo se no juntarmos as etiquetas com as percentagens
respectivas, junto de cada sector. Uma regra bsica a de que as reas ou volumes
ocupadas pelas diferentes classes, devem reflectir, sem ambiguidade, o valor que
representam, o que no o caso da representao do lado direito.
Suponhamos, agora, que s desejvamos representar os passageiros que no faziam
parte da tripulao:
Neste caso a representao correcta a que se apresenta ao
lado. As percentagens so diferentes das consideradas
1. classe
25%
anteriormente, uma vez que passmos a representar um 3. classe
53%
outro conjunto de dados. Uma outra regra bsica a de que,
num diagrama circular, a soma das percentagens tem que
2. classe
22%
ser igual a 100%, ou a soma dos efectivos tem que ser igual
ao nmero de dados.

anlise de dados

Tripulao
40%

81

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Exemplo:

2.8.3 Escalas e escalas


A utilizao e manipulao das escalas pode transmitir informao de acordo com a
vontade do utilizador, o que se torna perigoso. Vejamos os trs exemplos seguintes:

82

13

25
23

12

21

11

19
17

10

15

13
11

7
Set.

Out. Nov. Dez.

Jan.

Set.

Out.

Nov.

Dez.

Jan.

Nmero de acidentes no IP5

Repare que a representao grfica da esquerda procura enfatizar o facto do nmero


de acidentes ter aumentado substancialmente, enquanto que o do lado direito procura
desvalorizar esse aumento. No primeiro caso no inicimos a escala das frequncias
no ponto 0, enquanto que no 2. caso diminumos a distncia entre os incrementos
do eixo vertical, para diluir a variao da curva, ao mesmo tempo que aumentamos
a distncia entre as categorias no eixo horizontal. Uma representao correcta pode
ser a seguinte:
N. acidentes

ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

Exemplo:
Nmero de acidentes no IP5 (Hipottico) - Suponha que o nmero de acidentes
no IP5 foi, no perodo de Setembro de 1997 a Janeiro de 1998, o seguinte: 8, 9, 12,
13 e 12. Dois jornais apresentaram as seguintes representaes grficas para transmitirem a informao anterior:

12
10
8
6
4
2
0
Set.

Out.

Nov.

Dez.

Jan.

Nmero de acidentes no IP5

Exemplo:
Quantidade de acar nos cereais para crianas - Uma empresa que vende
cereais para crianas faz publicidade dos seus cereais da marca Que Bom, dizendo
que os seus cereais tm muito menos acar, por 100 gramas de cereal, do que os
da concorrncia. Para isso apresenta a representao grfica do lado esquerdo da
figura seguinte, onde compara os 9 gramas de acar dos cereais Que Bom, com
os 15, 14, 12, 11 e 11 gramas, respectivamente dos cereais A, B, C, D e E:

13
12
11
10
9
8

10

0
A

Que
Bom

Que
Bom

Nessa representao grfica, a escala do eixo vertical no se inicia no ponto 0, como


devia. Assim, uma representao correcta poder ser a do lado direito da figura
anterior, pois ao contrrio dessa, j no induz o leitor em erro.
Exemplo:

Nmero de livros vendidos

anlise de dados

Andamos a ler pouco O grfico a seguir apresentado pretende mostrar a diminuio na venda de livros de 1975 a 1984, num determinado pas. Embora esteja
indicado para cada ano o nmero de livros, em milhares, as alturas das barras transmitem-nos a ideia de que houve uma diminuio acentuada, sobretudo a partir de
1979:

83

ORGANIZAO dos DADOS em TABELAS e GRFICOS

15

14

grs aucar/100grs

grs aucar/100grs

15

84

Como se verifica, a variao no to grande, como o primeiro grfico fazia supor.

2.8.4 Outras situaes - Exemplo de um grfico pouco elucidativo


O jornal Expresso do dia 9 de Abril de 2005 apresentava um artigo sobre a alimentao dos portugueses. Entre outras representaes grficas, apresentava a seguinte:

Em sua casa, o que come mais?


Macrobitica 1%
Peixe

29%
66% Carne

E qual o tipo de cozinhados?


Cozidos

50%

Grelhados
Assados
Fritos
Guisados

47%
24%
23%

GFK/Metris

ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

Temos, no entanto, de ter em ateno que o eixo horizontal no representa o zero.


Temos uma escala que faz sobressair as pequenas diferenas de ano para ano. Com
uma representao numa escala que inclua o zero obter-se- o seguinte grfico

21%

Nota: a diferena para 100% corresponde s respostas No sabe/No responde

FICHA TCNICA

Estudo realizado pela GFK Metris para


o EXPRESSO entre os dias 11e 19 de Fevereiro de 2005. O Universo
constitudo pelos indivduos de ambos os sexos, com 18 ou mais anos
de idade, residentes em Portugal Continental. A amostra constituda
por 1.000 indivduos e respondentes seleccionados atravs do mtodo
de quotas, com base numa matriz que cruzou as variveis Sexo, Idade
(5 grupos), instruo (2 grupos), Ocupao (2 grupos), Regio (7 Regies
MetrisGFK) e Habitat/Dimenso dos agregados populacionais (6 grupos).
A informao foi recolhida atravs de entrevista directa
e pessoal na residncia dos inquiridos.

No que diz respeito ao diagrama circular, em que se


apresenta o resultado da pergunta Em sua casa, o que
come mais?, ficamos a saber que praticamente 2/3 da
populao (e estamos a inferir para a populao, os
resultados verificados na amostra) come mais carne do
que peixe, embora os especialistas no se cansem de
referir os malefcios de comer carne a mais,
nomeadamente para o colesterol.
Quanto representao grfica (?) que procura traduzir
os resultados da questo E qual o tipo de cozinhados?,
como que deve ser interpretada? O que que significa
a percentagem de 50% de respostas em Cozidos? E as
percentagens nas outras modalidades de cozinhados?
A quantas modalidades que as pessoas puderam
responder? Evidentemente que no puderam responder
s a 1, pois nesse caso a soma das percentagens teria de
dar 100%!
Estamos perante uma representao grfica para a qual
faltam algumas palavras, de certeza menos que mil palavras.

2.9

Algumas delicadezas no tratamento estatstico


dos dados

Embora a classificao de uma varivel quantitativa em discreta ou contnua possa


no oferecer dvidas, j a forma como os dados se apresentam pode causar alguma
confuso. Por exemplo as variveis Peso, Altura, Idade, so de natureza contnua,
pois os dados so recolhidos procedendo a uma medio. No entanto, estes dados
aparecem-nos discretizados. comum o peso aparecer em Kg, a altura em cm e a
idade em anos. Embora a diferena entre dois valores possa ser to pequena quanto
se queira, essa diferena condicionada pelo instrumento de medida e pela
necessidade de uma representao numrica simples.
Por outro lado, algumas variveis discretas, como por exemplo Nmero de carros que
atravessam a portagem da ponte 25 de Abril num dia til, escolhido ao acaso, Salrio
auferido por um trabalhador, so variveis discretas, j que os dados so recolhidos
procedendo a uma contagem. Por exemplo, no caso do salrio, a diferena entre dois
valores no pode ser inferior a um cntimo.
Assim, embora no seja correcto utilizar o grfico de barras para representar
observaes recolhidas de uma varivel contnua, j o mesmo no se pode dizer da
utilizao do histograma para representar observaes provenientes de variveis discretas. Sempre que no estudo de uma varivel discreta, o nmero de dados distintos
seja muito grande, quando comparado com a dimenso da amostra, ento deve-se
utilizar o histograma, em vez do diagrama de barras. Voltemos ao exemplo
Candidatos a algumas vagas, da pgina 41:

Candidatos a algumas vagas (cont) Uma vez que o nmero de valores distintos
muito grande, a construo de um grfico de barras, conduziria a um grfico com
demasiadas classes, que no permitiria fazer sobressair o padro da distribuio
subjacente aos dados. Foi ento sugerida a organizao dos dados em classes,
obtendo-se a seguinte tabela de frequncias e o histograma correspondente:

20
30
40
50
60
70
80
90

a
a
a
a
a
a
a
a

29
39
49
59
69
79
89
99

Total

Freq. absoluta

Freq. relativa

6
36
52
46
36
12
20
15

0,027
0,161
0,233
0,206
0,161
0,054
0,090
0,067

223

1,000

Freq. rel.

Classes

0,25
0,20
0,15
0,10
0,05
0,00
0

20

40

60

Resultados do teste

80

100

anlise de dados

Exemplo:

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Vimos nas seces 2.3 e 2.4, tratamentos estatsticos utilizados para classificar a
informao contida em dados discretos e contnuos. Apresentmos algumas
representaes grficas especialmente adequadas para dados discretos grfico de
barras, e para dados contnuos histograma, alm de outros grficos utilizados
indiferentemente para dados discretos ou contnuos.

85

Quando os dados a classificar so provenientes de uma varivel contnua, isto


significa que poderemos obter, pelo menos teoricamente, um nmero infinito de
valores distintos. Efectivamente, se a varivel de tipo contnuo, significa que no se
pode passar de um valor a outro, sem passar por todos os valores intermdios. No
entanto, estes dados, como dissemos anteriormente, podem-nos aparecer discretizados. Vejamos o seguinte exemplo:

86

Idades dos alunos Numa escola do 2. ciclo recolheu-se informao sobre as


idades de 45 alunos, tendo-se obtido os seguintes valores: 9, 11, 12, 10, 9, 10, 10,
10, 11, 12, 9, 9, 12, 12, 11, 11, 11, 11, 11, 12, 10, 10, 11, 9, 10, 9, 9, 10, 10, 10,
12, 12, 11, 10, 12, 11, 10, 11, 11, 10, 11, 11, 12, 11, 12
Note-se que quando se diz que um aluno tem 9 anos, por exemplo, este valor engloba
todas as idades compreendidas entre os 9 e os 10 anos, exclusive. O mesmo se passa
com as outras idades.
Ao estudar o histograma, considermos uma metodologia que inclua uma regra que
nos d uma indicao sobre o nmero de classes que se podem considerar. Acontece
que neste caso essa metodologia no deve ser aplicada, j que as classes, partida
esto bem definidas. No teria qualquer sentido considerar 6 classes (valor sugerido
pela regra de Sturges, cada uma com amplitude ligeiramente superior a 0.5
(recomendao feita na escolha da amplitude de classe). A organizao
dos dados pode ser feita de acordo com a seguinte tabela e respectivo histograma:
15

Classes

Freq. Absoluta

Freq. relativa

[9, 10[
[10, 11[
[11, 12[
[12, 13[

7
13
15
10

0,16
0,29
0,33
0,22

Total

45

Freq. Abs.

ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

Exemplo:

10
5
0
8

10

11
Idade

12

13

Vamos conhecer a turma!

Ao nvel do 1. ciclo do ensino bsico, a forma como se introduz cada uma das
tcnicas de organizao e representao grfica de dados ter de ser muito alicerada
em actividades. Os alunos comeam por recolher a informao e depois, naturalmente, tero curiosidade em ver um pouco mais para alm daquele conjunto de
valores que conseguiram obter.
Neste texto vamos limitar-nos a apresentar algumas sugestes de como se podero
desenvolver um conjunto de actividades em que se faa tratamento estatstico de
dados, nomeadamente a sua organizao em tabelas e a construo de alguns
grficos.
O exemplo Vamos conhecer a turma ir servir de base a alguns procedimentos j
referidos anteriormente:

Nome
Ana Patrcia Santos
Ana Rita Pereira
Bruno Martins
Ctia Reis
Cludia Rodrigues
David Amaral
Elisabete Soares
Jos Manuel Rocha
Jos Augusto Silva
Liliana Morais
Maria Isabel Antunes
Miguel Correia
Patrcia Mendes
Pedro Mendes
Ricardo Freitas
Rui Eduardo Pires
Snia Gonalves
Susana Alves
Tatiana Medeiros
Vasco Fernandes

Nmero
de letras
no nome
17
14
12
9
16
11
15
15
16
13
18
13
14
11
14
15
14
11
15
14

Tempo que
demora de
casa escola
(minutos)
3
32
25
20
17
15
33
22
9
35
25
18
10
21
20
6
5
19
13
15

Cor dos
olhos

Comprimento
do palmo
(cm)

Nmero
de
irmos

Azuis
Castanhos
Castanhos
Pretos
Azuis
Azuis
Pretos
Azuis
Castanhos
Castanhos
Azuis
Verdes
Castanhos
Castanhos
Verdes
Pretos
Castanhos
Azuis
Castanhos
Castanhos

14,7
15,6
15,9
14,2
16,3
13,5
14,4
15,1
15,2
16,2
15,9
13,6
17,3
14,7
15,0
13,8
14,3
15,4
14,8
13,2

3
1
1
1
1
2
1
1
1
1
2
0
1
2
0
4
1
0
1
3

87

Indo por grau de dificuldade, deve-se comear por organizar os dados de tipo
qualitativo. Para estes, a representao grfica na forma de pictograma
especialmente atraente para os alunos e, por isso, vamos apresentar duas propostas
de pictograma para a varivel qualitativa Cor dos olhos.

ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

Entrega-se a cada aluno um pequeno quadrado de papel com uma cara desenhada.
As caras devem ser todas iguais e o aluno ter de pintar os olhos da cor dos seus prprios olhos e desenhar os cabelos (para diferenciar entre rapaz e rapariga):

88

Numa folha de cartolina grande, traa-se uma linha horizontal e escreve-se sob essa
linha as quatro cores de olhos que surgem na amostra. Coloca-se como legenda Cor
dos olhos:

Cada um dos alunos dever colar a cara que pintou no local respectivo, imediatamente acima de alguma cara que j esteja l colocada.
No final obtm-se um pictograma muito divertido!...

Organizados os dados numa tabela de frequncias, obtm-se


Cor dos olhos

Frequncia Absoluta

Frequncia Relativa

Azuis
Verdes
Castanhos
Pretos

6
2
9
3

0,30
0,10
0,45
0,15

20

1,00

Total

Nota: A coluna das frequncias relativas facultativa, deixando-se ao critrio do


professor apresent-la ou no, pelo menos nesta fase.

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Nesta primeira abordagem organizao dos dados procedeu-se pela ordem contrria
ao que habitual. Fez-se a representao grfica antes de fazer a tabela de
frequncias! Tal faz sentido tendo em conta a idade dos alunos, pois a representao
grfica muito mais apelativa e, no caso das variveis qualitativas, pode servir de
base para a construo da tabela de frequncias. Alis, esta situao no nova, pois
quando falmos no grfico de pontos, tambm o construmos antes da tabela de
frequncias.

anlise de dados

Em alternativa pode tambm utilizar-se o desenho de um olho como representante


das unidades observacionais. Na amostra em estudo as unidades observacionais so
os alunos mas, no que respeita caracterstica cor dos olhos, pode admitir-se que
elas possam ser, simplesmentes, os olhos:

89

ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

Pode agora passar-se construo de um grfico de barras. Pede-se aos alunos que
desenhem 4 rectngulos, todos com a mesma largura, em papel quadriculado, por
exemplo, e cujas alturas sejam iguais s frequncias absolutas. De seguida podero
recortar os rectngulos e col-los numa folha de papel onde tenham desenhado um
eixo e identificado as categorias da varivel Cor dos olhos.

90

Numa fase posterior pode-se ainda pedir que desenhem o grfico de barras numa
folha de papel quadriculado.
Ainda utilizando o papel quadriculado, pode-se ensinar os alunos a desenharem um
diagrama circular, para a varivel Cor dos olhos, da seguinte forma:
Numa folha desenha-se um rectngulo com largura igual a 20 unidades (pode-se
considerar como unidade 1 ou 2 quadrculas) e uma altura qualquer. Divide-se essa
largura em 4 partes de comprimentos 6, 2, 9 e 3 unidades, que se pintam de cores
diferentes, conforme as classes a que dizem respeito:

Cola-se o rectngulo anterior a uma cartolina com as mesmas dimenses, com uma
margem para colar os lados 1 e 2 de modo a obter um cilindro:

Apoiam o cilindro numa folha de papel e desenham a circunferncia assinalando os


pontos onde muda a cor. Com a ajuda do professor procuram encontrar um ponto
aproximado para o centro, que unem com os pontos da circunferncia anteriormente
assinalados:
Pretos
3

Verdes
2

Castanhos
9
Cor dos olhos

Completam a figura pintando as partes em que o crculo ficou dividido e colocando o


nome das classes e as frequncias absolutas respectivas.
Em turmas onde os alunos j conheam as medidas das amplitudes de ngulo e
saibam usar o transferidor para desenhar ngulos com uma amplitude que lhes
indicada, tambm possvel ensinar a construir o diagrama circular sem recorrer
ao processo anterior.

Cor dos olhos


Azuis
Verdes
Castanhos
Pretos
Total

Frequncia
Absoluta

Frequncia
Relativa (%)

Amplitude do
ngulo

6
2
9
3

30
10
45
15

108
36
162
54

20

100

360

Cada sector circular dever ser pintado com


uma cor diferente e o puzzle dever no final
ser montado de modo a formar um crculo
completo. No esquecer de colocar a legenda:

Azuis
6

Pretos
3

Verdes
2

Castanhos
9

anlise de dados

Comea-se por dizer que se vai fazer uma representao grfica na forma de um
crculo e aproveita-se para recordar que a amplitude de um ngulo giro igual a 360.
Os alunos tm ento de desenhar sectores circulares, todos com o mesmo raio e
amplitudes que se obtm multiplicando a frequncia relativa pelos 360:

Cor dos olhos

91

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Azuis
6

Para os dados de tipo quantitativo a representao grfica mais fcil de ensinar, a


alunos do 1. ciclo do ensino bsico, o grfico de pontos.
Vamos ver uma forma simples, de construir este grfico considerando a varivel
Idade, medida em meses.

ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

Pode comear-se por representar a idade de cada aluno em meses. De seguida o


professor d um quarto de uma folha A4 a cada aluno para registar o valor que obteve
para a sua idade, que tambm registada no quadro. Suponhamos que numa turma
de 18 alunos se obtiveram os seguintes valores: 87, 88, 85, 84, 89, 92, 89, 94, 93,
98, 94, 97, 95, 95, 96, 96, 95, 96.

92

Numa cartolina grande desenha-se uma linha horizontal e, por baixo, igualmente
espaados, escrevem-se todos os nmeros entre a menor e a maior das idades
obtidas:

Depois cada aluno ir colocar o pedao de folha com a sua idade, por cima do valor
respectivo. Quando todos os alunos tiverem terminado, obter-se- uma
representao com o seguinte aspecto, em que os pontos foram substitudos por
pedaos de papel:

A leitura e interpretao da representao grfica obtida permite responder a


algumas questes, como por exemplo:
H algum aluno na turma cuja idade seja 90 meses?
Quantos colegas teus tm a tua idade?
H mais alunos com idade inferior ou superior a 90 meses?
Quantos alunos tm idade menor ou igual a 93 meses? E maior ou igual que 94
meses?
Preenche a seguinte tabela:
Idade (em meses)
Menos de 85
de 85 a 90
de 90 a 95
de 95 a 100
Total

Nmero de alunos

Nota: Quando se escreve de 85 a 90 entende-se que maior


ou igual que 85 e menor que 90. A conveno idntica para
as outras classes.

Podem fazer-se algumas perguntas que evidenciem a facilidade de leitura deste tipo
de grfico.
Sugesto: Pedir aos alunos para representarem graficamente os dados da varivel
Nmero de letras do nome, da tabela Vamos conhecer a turma, utilizando um
procedimento idntico ao utilizado para a varivel Idade.

anlise de dados

A mediana dividiu o conjunto dos 18 papis em duas partes, cada uma com 9 papis.
Agora os alunos com a ajuda do professor determinam as medianas de cada uma
destas partes, que assinalam do mesmo modo que fizeram para a mediana. Uma vez
estes 3 pontos determinados, pode construir-se o diagrama de extremos e quartis,
como se apresenta na figura seguinte:

93

ORGANIZAO dos DADOS em TABELAS e GRFICOS

A partir da representao grfica anterior pode-se ainda calcular a mediana e os


quartis para desenhar um diagrama de extremos e quartis. Assim, comea-se por
identificar o stio da mediana, que no ser difcil se se tiver j concludo que o
nmero de alunos com idade menor ou igual a 93 meses, igual ao nmero de alunos
com 94 ou mais meses de idade. Assinala-se a mediana com um trao:

Ainda para dados de tipo quantitativo uma outra representao grfica muito fcil
de utilizar com os alunos do 1. ciclo do ensino bsico, o grfico de caule-e-folhas.
Vamos ilustrar uma forma simples de proceder usando como exemplo a varivel
Tempo que demoras de casa escola, medido em minutos, da tabela Vamos
conhecer a turma (ver pgina 87).

ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

Comea-se por dar a cada aluno um rectngulo de cartolina (fina) com uma linha
vertical tracejada a dividi-lo a meio e uma pequena cruz no canto superior esquerdo:

94

Do lado esquerdo do rectngulo o aluno ter de colocar o algarismo das dezenas do


nmero que representa o tempo que ele demora de casa escola. Do lado direito
coloca o algarismo das unidades.
Os pequenos rectngulos de cartolina referentes aos 3 primeiros alunos da lista tero
ento o seguinte aspecto

De seguida, cada aluno dobra a cartolina pela linha tracejada, mantendo visveis para
o exterior os algarismos, e cola as duas metades pela parte de dentro.
Numa cartolina grande, desenha-se uma linha vertical e marcam-se de forma
igualmente espaada os algarismos dominantes (neste caso, das dezenas). Colocam-se
todos, do mais pequeno ao maior, mesmo que na amostra haja algum que no
aparea. No caso do exemplo que estamos a tratar os dgitos dominantes (os caules)
so 0, 1, 2, e 3. Agora s ir colocando cada carto (folha) frente do respectivo
caule.
De notar que, em cada carto, as folhas esto do lado que no tem cruz enquanto
os caules se podem identificar virando o carto e vendo o dgito que surge marcado
com a dita cruz. A evoluo da representao grfica entre a colocao dos 3
cartes acima e a fase final em que j esto colocados todos os cartes ser ento:

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Grfico de caule-e-folhas

anlise de dados

Para terminar basta agora ordenar, por ordem crescente, as folhas que esto em
frente de cada um dos caules:

95

A leitura e interpretao da representao grfica tambm muito importante.


Eis algumas questes que podem ser colocadas a partir da leitura do grfico de caule-e-folhas construdo:
Quantos alunos demoram mais do que 30 minutos a chegar escola?

ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

Quantos alunos da turma demoram a chegar escola entre 10 minutos (conta


os que demoram 10 minutos) e 20 minutos (no consideres os que demoram
20 minutos)?

96

H mais alunos na turma a demorar mais tempo do que aquele que tu demoras
ou h menos?
Ser verdadeira a frase A maioria dos alunos da turma demora menos de 20
minutos a chegar escola? Justifica.
Preenche a seguinte tabela de frequncias
Tempo de casa escola
At 10m
de 10m a 20m
de 20m a 30m
de 30 a 40m
Total

Nmero de alunos

Tarefa
Vamos conhecer algumas
caractersticas dos
alunos da escola

Ser que predominam os olhos castanhos? Ou sero os pretos? E ser que a cor dos
olhos depende do sexo, isto , se rapaz ou rapariga? Para responder a esta questo,
decidiu um professor nomear duas comisses de alunos, em que uma das comisses
iria averiguar a cor dos olhos de 30 raparigas e a outra comisso iria averiguar a cor
dos olhos de 25 rapazes. No dia escolhido para a recolha de dados, os alunos que pertenciam s comisses foram para a porta da escola e registaram a cor dos olhos das
primeiras 30 alunas e dos primeiros 25 alunos a chegarem. Observe-se que as
comisses acabaram a recolha da informao praticamente ao mesmo tempo, pois na
escola havia mais raparigas que rapazes. Os resultados obtidos foram os seguintes:
Raparigas
pretos, castanhos, castanhos, azuis, pretos, castanhos, verdes, azuis, castanhos,
castanhos, azuis, pretos, cinzentos, verdes, azuis, castanhos, castanhos, castanhos,
castanhos, pretos, verdes, azuis, castanhos, pretos, pretos, castanhos, castanhos,
pretos, castanhos, castanhos
Rapazes
Castanhos, azuis, castanhos, pretos, castanhos, castanhos, pretos, castanhos,
verdes, castanhos, pretos, castanhos, castanhos, pretos, azuis, azuis, verdes, castanhos, castanhos, verdes, castanhos, pretos, azuis, pretos, castanhos.
Para cada conjunto de dados construa uma tabela de frequncias para organizar a
informao recolhida e a seguir construa uma representao grfica adequada. Tire
concluses.
Resoluo: Para construir a tabela de frequncias, deve verificar-se quais as categorias ou modalidades que a varivel (qualitativa) em estudo Cor dos olhos, pode
assumir. Embora no caso dos dados recolhidos para os rapazes, no se tivesse
observado nenhum com olhos cinzentos, decidiu-se incluir essa categoria na tabela
de frequncias, para melhor se fazer a comparao com os dados recolhidos para as
raparigas:
Raparigas
Freq.abs.

Freq.rel.

preto
castanho
azul
verde
cinzento

7
14
5
3
1

0,23
0,47
0,17
0,10
0,03

Total

30

1,00

Classes

Rapazes
Freq.abs.

Freq.rel.

preto
castanho
azul
verde
cinzento

6
12
4
3
0

0,24
0,48
0,16
0,12
0,00

Total

25

1,00

Classes

97

0,5
Freq. rel.

Freq. rel.

0,5
0,4
0,3
0,2

0,4
0,3
0,2

0,1

0,1

0
pret.

cast.

azul

verd.

cinz.

pret.

ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

Cor dos olhos das raparigas

98

cast.

azul

verd.

cinz.

Cor dos olhos dos rapazes

Como se verifica a partir das frequncias relativas ou dos grficos de barras


respectivos, construdos para estudar como se distribui a Cor dos olhos pelas
raparigas e rapazes, podemos admitir que, na escola:
Predominam os olhos castanhos.
Em segundo lugar predominam os olhos pretos.
Os olhos cinzentos so raros.
A distribuio da varivel Cor dos olhos, idntica para as raparigas e rapazes.
Exerccio:
Fazer um estudo anlogo ao anterior, mas em que a varivel a estudar seja Programa
da televiso favorito. Quais os programas favoritos? Haver diferena entre os
programas favoritos dos rapazes e das raparigas?

Tarefa
Vamos comparar a temperatura
entre Lisboa e Porto

Durante 2 semanas, cada um dos 28 alunos de uma turma, ficou encarregue de


registar a temperatura mxima observada num dos 14 dias e numa das 2 cidades.
Essas temperaturas eram apontadas diariamente, numa tabela idntica seguinte:
Dia
Cidade

10

11

12

13

14

Lisboa
Porto

19
17

21
22

20
21

23
18

18
16

20
19

22
17

24
20

23
21

21
18

20
15

20
17

19
16

19
17

Utilizando uma representao grfica adequada, vo-se comparar as temperaturas


nas duas cidades.
Para comparar os 2 conjuntos de dados, pode-se utilizar a representao grfica de
caule-e-folha, considerando os mesmos caules para os dois conjuntos de dados:
Lisboa
4

Porto
1

9
0

9
0

9
0

8
0

1
2

5
0

6
1

6
1

7
2

Da representao grfica anterior conclui-se, imediatamente, que, de um modo geral,


as temperaturas em Lisboa so superiores s do Porto.
Exerccio:
Ser que a temperatura habitual do local onde a escola se situa, muito diferente da
temperatura de uma cidade afastada, por exemplo, 200 Km? Para planear este
estudo:
a) O professor tenta arranjar um termmetro para medir a temperatura
exterior e, durante alguns dias, antes de iniciar as aulas, regista a
temperatura exterior ou pede a um aluno que a registe.
b) Por outro lado, antes de sair de casa, o professor toma ateno ao
noticirio, e aponta qual a temperatura que faz na cidade escolhida para
a comparao, ou combina com outra escola, com quem faa intercmbio.
Depois, para comparar os dois conjuntos de dados, procede de forma idntica da
actividade anterior.

99

Tarefa
Quais so os nossos
animais domsticos?

Na escola, um grupo de alunos decidiu averiguar se as famlias tm animais


domsticos e no caso de os terem, que animais domsticos que tm. Acompanhados
do professor, foram para a porta da escola (ou para uma rua com algum movimento)
e s primeiras 50 pessoas que passaram fizeram as seguintes perguntas:
Tem algum animal domstico? Se sim, qual o animal domstico que tem h mais
tempo?
Para anotar a informao que iam recebendo, tinham preparado uma folha de papel,
idntica seguinte:
No:

No:

Sim:

Sim:

Co

Co

Gato

Gato

Cgado

Cgado

Peixes

Peixes

Passarinho(s)

Passarinho(s)

Porquinho(s)-da-ndia

Porquinho(s)-da-ndia

Ratinho(s)

Ratinho(s)

Coelho(s)

Coelho(s)

Galinha(s)

Galinha(s)

Outros:

Outros:
Pombos

medida que as pessoas iam respondendo, anotavam com um trao. Faziam grupos
de 5 traos, em que o quinto trao oblquo, por cima dos outros 4. Estes grupos
tornam mais fcil a contagem posterior. Uma alternativa a estes montinhos, o desenho de uma estrela, em que se representa sucessivamente:

Nota: Uma representao idntica anterior, recebe o nome de diagrama de marcas


ou registos (tally chart).

100

Pode-se construir, com a ajuda do professor, em papel quadriculado, um grfico


semelhante ao da figura:
14
12
10
8
6
4

Animais domsticos

Algumas questes que podem ser feitas a partir da observao do grfico:


a) Houve mais pessoas a responderem que tinham co ou gato?
b) Das pessoas que responderam, qual o animal que as pessoas tinham menos
em casa?
c) Se outro grupo de alunos tivesse feito a mesma pergunta a outras 50
pessoas, o que que se esperava que as pessoas respondessem mais vezes?
d) Se no grupo das 50 pessoas considerado na alnea anterior, 14 pessoas
respondessem que tinham co, ficavas muito admirado ou achas que essa
resposta muito possvel?

Algumas respostas:
c) Esperava-se que respondessem que tinham co.
d) No ficava admirado, porque se esperava obter um valor perto de 13, que foi o que
se obteve como resposta nas primeiras 50 pessoas.
e) Sim, ficava admirado, porque esperava que houvesse poucas pessoas a
responderem galinhas. Mais precisamente, espervamos que o nmero de pessoas
que respondessem galinhas andasse volta de 2.

anlise de dados

e) Se, ainda neste novo grupo, 10 pessoas dissessem que tinham em casa galinhas, ficavas admirado? Porqu? Mais ou menos quantas pessoas esperarias
que dissessem que tinham galinhas?

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Pombos

Galinha(s)

Coelho(s)

Ratinho(s)

Porquinho(s)-da-ndia

Passarinho(s)

Peixes

Cgado

Gato

Co

101

Tarefa
Qual o desporto favorito?

Para verificar se haveria evidncia de que os desportos favoritos fossem diferentes


para os rapazes e para as raparigas de uma determinada escola com 1567 alunos, um
grupo de alunos dessa escola, resolveu fazer um estudo, baseado num inqurito feito
a 160 alunos, dos quais 100 eram raparigas. As respostas ao inqurito foram
organizadas nas seguintes tabelas, onde se apresenta o nmero de raparigas e o
nmero de rapazes, cujo desporto favorito o futebol, a natao, o atletismo, o tnis
ou o ciclismo:
Raparigas
Futebol
Natao
Atletismo
Tnis
Ciclismo

Rapazes
41
25
8
23
3

Futebol
Natao
Atletismo
Tnis
Ciclismo

30
12
8
7
3

Tendo em considerao os resultados da tabela anterior, o grupo encarregue do


estudo elaborou um relatrio, onde se fazem as seguintes afirmaes:
1. Ao contrrio do que se pensava, h mais raparigas a preferirem o futebol,
do que rapazes.
2. interessante verificar que o atletismo e o ciclismo, igualmente preferido
por raparigas e rapazes.
3. O nmero de raparigas que prefere a natao, mais do dobro do nmero
de rapazes que prefere este desporto.
Concorda com as concluses? Caso no concorde, apresente a sua verso das respostas que considera correctas.
Resoluo:
As concluses esto erradas, pois esto baseadas nas frequncias absolutas, quando
se deveriam exprimir em termos das frequncias relativas, uma vez que o nmero de
raparigas inquiridas diferente do nmero de rapazes inquiridos. Considerando as
tabelas anteriores, onde adicionmos uma coluna com as frequncias relativas,
temos:

102

Classes
Futebol
Natao
Atletismo
Tnis
Ciclismo

Raparigas
Freq.abs.

Freq.rel.

41
25
8
23
3

0,41
0,25
0,08
0,23
0,03

Ciclismo
3%
Tnis
23%
Futebol
41%
Atletismo
8%
Natao
25%

Classes
Futebol
Natao
Atletismo
Tnis
Ciclismo

Rapazes
Freq.abs.

Freq.rel.

30
12
8
7
3

0,50
0,20
0,13
0,12
0,05

Tnis
12%
Atletismo
13%

Ciclismo
5%

Futebol
50%

Natao
20%
Desporto favorito (rapazes)

Como se verifica a partir dos resultados das tabelas e das representaes grficas:
1. H uma maior percentagem de rapazes (50%), do que de raparigas (41%)
a preferirem o futebol.
2. O atletismo e o ciclismo so desportos mais preferidos pelos rapazes.

anlise de dados

3. A percentagem de raparigas que prefere a natao (25%), um pouco


superior percentagem de rapazes que prefere esta modalidade (20%).

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Desporto favorito (raparigas)

103

Tarefa
Vamos pesar laranjas

O(a) professor(a) pede a cada aluno da turma para, no dia seguinte, trazer uma ou
duas laranjas (ou outro fruto, escolha), pois vo fazer uma actividade, em que
procuraro recolher informao sobre o peso desse fruto. No caso de no haver uma
balana na escola, o professor providenciar para a arranjar. No dia escolhido para
fazer pesagens, cada aluno vai pesar a(s) sua(s) laranja(s) e vai registar no quadro
o peso (em gramas) observado. Suponha que os pesos obtidos foram os seguintes:
152

142

157

168

167

172

133

153

166

144

148

138

137

145

147

134

149

151

156

151

152

151

168

154

153

140

175

164

176

148

172

139

160

164

174

154

150

162

151

163

141

146

a) O que que se est a estudar?


b) Estes dados resultam de uma contagem, ou de uma medio?
c) Organiza os dados na forma de um caule-e-folhas
d) A partir da representao grfica, sabes dizer quantas laranjas pesam mais
do que 170 gramas?
e) E quantas laranjas tm um peso maior ou igual a 150 gramas, mas menor
que 160 gramas?
f) Algum trouxe uma laranja com peso igual ou superior a 180 gramas?
g) (S para o professor) Organizar os dados na forma de um histograma,
considerando como classes [130, 140[, [140, 150[, [150, 160[, [160, 170[
e [170, 180[. Comparar a representao em caule-e-folhas obtida na alnea
c) com o histograma.
Resoluo:
a) A varivel a ser estudada o peso de uma laranja.
b) Os dados foram obtidos atravs de uma medio. O objecto utilizado para a
medio foi a balana.
c) Para obter a representao em caule-e-folhas, vamos considerar como caules 13,
14, 15, 16 e 17. Pendurando nestes caules as folhas respectivas e ordenando as
folhas de cada caule, obtemos a seguinte representao:

104

13
14
15
16
17

3
0
0
0
2

4
1
1
2
2

7
2
1
3
4

8
4
1
4
5

9
5
1
4
6

6
2
6

7
2
7

8
3
8

8
3
8

9
4

0,35

[130,
[140,
[150,
[160,
[170,
Total

140[
150[
160[
170[
180[

Freq. Abs.

Freq. Rel.

0,30

5
10
13
9
5

0,12
0,24
0,31
0,21
0,12

0,25

42

1,00

Freq. rel.

Classes

0,20
0,15
0,10
0,05
0,00
[130,140[ [140,150[ [150,160[ [160,170[ [170,180[
Peso das laranjas

A escolha das classes anteriores para construir o histograma, foi feita com o objectivo
de fazer sobressair a semelhana do histograma com a representao em caule-e-folhas. Se repararmos nos caules considerados para o caule-e-folhas, cada um tem
penduradas as folhas correspondentes aos elementos dentro de cada uma das classes
consideradas para o histograma.
Observemos que as duas representaes grficas consideradas, do informao muito
semelhante, no que diz respeito distribuio dos pesos das laranjas.
Nomeadamente, realamos a seguinte informao relevante, a retirar do grfico:

O nmero de laranjas com peso inferior a 150, sensivelmente igual ao


nmero de laranjas com peso superior a 160;
A mdia dos pesos observados deve andar volta de 155 gramas.

anlise de dados

Predominam as laranjas com peso entre 150 e 160;

ORGANIZAO dos DADOS em TABELAS e GRFICOS

d) As laranjas que tm peso igual ou superior a 170 gramas, so as que, na


representao grfica do caule-e-folhas, tm os pesos com caule 17. Assim, temos
5 laranjas com peso igual ou superior a 170 gramas.
e) As laranjas que tm peso maior ou igual a 150 gramas, mas menor que 160
gramas, so as que, na representao grfica do caule-e-folhas, tm os pesos com
caule 15. Assim, 13 laranjas esto nas condies pretendidas.
f) Ningum trouxe laranjas com peso igual ou superior a 180 gramas. Para tirar esta
concluso, basta ver que na representao do caule-e-folhas, no existe o caule 18.
g) Para construir o histograma, comea-se por construir uma tabela de frequncias
em que se consideram como classes as seguintes: [130, 140[, [140, 150[, [150,
160[, [160, 170[, [170, 180[:

105

Tarefa
Hbitos alimentares
comemos fruta suficiente?

Dizem os nutricionistas que, para uma alimentao saudvel, alm de outros


requisitos, deveramos comer 3 peas de fruta, por dia. Vamos investigar se os alunos
comem fruta suficiente... Esta actividade vai ser realizada por duas turmas, pelo que
num dia escolhido pelos professores para a realizar, comea-se por se debater:
O que que se vai perguntar a cada aluno;
Como registar a informao recolhida.
Depois de alguma discusso, decide-se perguntar a cada aluno, quantas peas de
fruta e que tipo de fruta, comeu no dia anterior. Convm explicar que, se por
exemplo a fruta for cerejas, uma pea de fruta no ser uma cereja! Pode ser, por
exemplo, um copo cheio de cerejas. Analogamente, se se tratar de uvas, ser um
cacho de uvas. Depois de decidida a pergunta a fazer, comea-se a discutir sobre qual
a melhor forma de registar a informao. Com a ajuda dos professores, pode chegar-se concluso que uma forma possvel, seria construrem uma tabela, anloga
seguinte:
Quantas peas?
0

Quais
Ameixa
Anans
Banana

Cereja
Figo
Laranja
Ma

Melancia
Melo
Meloa
Morango
Nspera
Papaia
Pra
Pssego
Tngera
Tangerina
Uva
Nenhuma

106

Total

Mais de 5

Total

Quantas peas?
0

Mais de 5

Total

Quais
|

Anans

Banana

||||||

||||

|||||

Cereja

||

Figo

Laranja
Ma

|||||

||

23
4
1

||

||

|||

||||||

7
12

Melancia

Melo

Meloa

Morango

Nspera

Papaia

Pra

1
1

|||

||||

||

Pssego

Tngera

Tangerina

||

Uva

Nenhuma

||

Total

||

13

4
1
3

6
2

26

24

16

10

a) A partir da tabela pode-se concluir que h uma fruta que preferida pelos
alunos. Qual essa fruta?
b) Houve s um aluno a dizer que comeu figos. Poderemos concluir
imediatamente que os alunos no gostam de figos? Ou poderemos, por exemplo, estar numa poca em que s agora que os figos comearam a
amadurecer?
c) Quantos alunos responderam que comeram 3 peas de fruta, no dia anterior?
d) Com a ajuda do professor, constri uma tabela de frequncias onde se possa
ver quantos alunos comeram 0, 1, 2, 3, 4, 5 ou 6 peas de fruta.

anlise de dados

Ameixa

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Todos os frutos apresentados na tabela foram sugeridos pelos alunos. Para exemplificar o preenchimento da tabela, suponhamos que um aluno tinha no dia anterior
comido uvas, uma ma e uma banana. Ento esse aluno ia ao quadro e na coluna
com o nmero 3, colocava um risquinho (|) nas linhas que dizem respeito s Uvas,
Mas e Bananas, como est assinalado na tabela. Um aluno que no tivesse comido
fruta nenhuma, colocaria um risquinho na coluna com o 0 e na linha onde est escrito
Nenhuma. Vamos admitir que os 35 alunos das turmas tinham ido ao quadro preencher a tabela com a informao que lhes dizia respeito e que a tabela obtida foi a
seguinte:

107

Tarefa proposta
Vamos acompanhar
o crescimento do milho

Ser que os gros de milho crescem o mesmo, durante um certo perodo de tempo?
Num vaso rectangular, vamos plantar vrios gros de milho. necessrio saber qual
a melhor poca para plantar este cereal. Depois do milho comear a germinar,
durante algumas semanas, os alunos tero como tarefa, acompanhar o seu
crescimento, medindo os pezinhos do milho (esta medio deve ser feita, num dia fixo
da semana).
a) Considerando 3 semanas consecutivas, em que se registou a altura dos ps
de milho, calcular o crescimento entre a 1. e a 2. semana e entre a 2. e
a 3. semana.
b) Comparar os crescimentos anteriores.
Resoluo:
Para melhor identificarem os ps de milho, sugere-se que se faa uma quadrcula no vaso,
com cordel ou fio de pesca, e em cada clula da quadrcula, semear um gro de milho.
Constrem uma tabela com tantas clulas, quantos os gros semeados, onde
registaro o comprimento de cada p de milho, em cada uma das semanas:

Gro 1 Gro 2 Gro 3 Gro 4 Gro 5 Gro 6 Gro 7 Gro 8 Gro 9 Gro 10 Gro 11 Gro 12
1. semana
2. semana
3. semana
2. 1.
3. 2.

Na tabela anterior j inserimos 2 linhas, onde sero calculados os crescimentos


verificados para cada p de milho, entre as 2. e 1. semanas e entre as 3. e 2.
semana.

108

Tarefa proposta
Qual a dimenso do nosso
salto em comprimento?

Os professores de 2 turmas da escola, de anos diferentes, decidiram levar a cabo uma


experincia para averiguar se, como suspeitavam, a idade tinha influncia no comprimento do salto de um jovem. Ento, num dia em que as turmas tinham Educao
Fsica, arranjaram um espao no recreio da Escola, onde os alunos poderiam dar
saltos em comprimento. Munidos de uma fita mtrica, procederam medio dos
comprimentos dos saltos dos alunos de cada uma das turmas.
Organizar os dados em tabelas e construir os histogramas associados.

Tarefa proposta
Ser que os autocarros que
passam frente da escola passam
com a regularidade que est prevista
no horrio afixado na paragem?

s vezes os alunos queixam-se de que os autocarros demoram muito a chegar e esto


muito tempo na paragem, espera que venha um! Ento, um grupo de alunos decidiu
realizar um projecto que consistia em estudar os tempos entre passagens
consecutivas dos autocarros da carreira mais frequente. Escolheram alguns dias para
recolher dados para esse estudo, e nesses dias o grupo de alunos (acompanhado do
professor), foi mais cedo para a escola e instalou-se porta, pronto a apontar as
horas de passagem da dita carreira, no perodo das 8 s 9 horas da manh (ou noutro perodo escolha).
a) De acordo com os dados registados, quantos autocarros passaram no perodo
das 8 s 9 horas?
b) Consulta o horrio afixado na paragem dessa carreira, mais perto da escola.
De acordo com esse horrio, quantos autocarros deveriam passar no perodo
em estudo?
c) Como organizar os dados de forma a ser mais fcil a sua comparao?

109

Tarefa proposta
Vamos acompanhar
o crescimento do milho

Na turma decidiram levar a cabo um estudo sobre qual ser o supermercado mais
barato, das redondezas. Como o preo de um determinado produto no suficiente
para avaliar qual dos supermercados mais barato, comearam por definir um cabaz
de compras que iria servir para fazer a avaliao pretendida. Ento fixou-se que o
cabaz de compras seria constitudo pelos seguintes produtos:
1 kg de batatas para cozer
1 kg de cebolas
1 kg de acar
1 litro de azeite extra-virgem com 0,7 de acidez
1 litro de leite meio-gordo (o mais barato do supermercado)
Para recolher a informao sobre os preos dos produtos do cabaz de compras os
alunos pediram aos pais para os acompanharem ao supermercado e levaram lpis e
papel para apontarem os preos, que levaram no dia seguinte para a escola. Com a
ajuda do professor, pode ser construda uma tabela (idntica que se apresenta a
seguir) onde registam os preos dos produtos que constituem o cabaz de compras,
para cada um dos supermercados visitados (que representamos pelas letras A, B,
C..., enquanto no soubermos os nomes dos supermercados):
Produto

Sup A

Sup B

Sup C

...

...

1 kg batatas
1 kg cebolas
1 kg acar
1 litro azeite
1 litro leite

Organizar os dados de forma a tirar algumas concluses.

110

...

...

CARACTERSTICAS
AMOSTRAIS. MEDIDAS de
LOCALIZAO e DISPERSO

No captulo anterior foram apresentados alguns processos para


organizar a informao contida nos dados, utilizando tabelas e
grficos. Neste captulo veremos outro processo de resumir a
informao, atravs de algumas medidas calculadas a partir desses
dados, a que se d o nome de estatsticas. Destas medidas
distinguiremos as medidas de localizao, nomeadamente as que
localizam o centro da distribuio de dados, e as medidas de
disperso, que medem a variabilidade dos dados.

Introduo

As tabelas e, principalmente, as representaes grficas permitem-nos identificar e


comparar padres subjacentes distribuio dos dados. No entanto, sente-se desde
logo a necessidade de traduzir a informao visual em nmeros: um nmero que
seja representativo da ordem de grandeza dos valores da amostra, outro que revele
o maior ou menor grau de disperso dos dados, outro que d informao acerca do
enviesamento, etc. Estes nmeros so sempre calculados a partir dos valores da
amostra e designam-se por caractersticas amostrais. Mais geralmente, s
medidas que resumem, atravs de nmeros, a informao contida nos dados, d-se
o nome de estatsticas.
De entre as muitas caractersticas amostrais de interesse, destacam-se a mdia, a
mediana, a moda e os percentis, que so caractersticas (ou medidas) de
localizao, o desvio padro e a amplitude interquartis, que so caractersticas (ou
medidas) de disperso.
Antes de apresentar as frmulas de clculo e as propriedades das principais
caractersticas amostrais, necessitamos de introduzir algumas notaes.

anlise de dados

A dimenso da amostra ser sempre representada pela letra n. A amostra ser


representada por uma lista, (x1,x2,...,xn), onde x1 o primeiro elemento da lista, x2
o segundo elemento da lista, e, assim por diante, at xn, que o ltimo, ou
n-simo, elemento da lista. Note-se que esta notao para representar a amostra no
implica qualquer critrio de ordenao.

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

3.1

113

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

anlise de dados

3.2

Medidas de localizao

Damos o nome de medida de localizao a qualquer caracterstica amostral que seja


informativa da ordem de grandeza dos dados que surgem na amostra. Na maioria das
vezes interessa-nos, unicamente, a localizao da zona central da amostra, pois, em
geral, a que se concentra a maior parte dos valores, mas pode tambm ser
importante dar informao sobre a ordem de grandeza dos valores que surgem nas
caudas. As medidas de localizao central mais comuns so a mdia e a mediana.

3.2.1 Mdia
A mdia a medida de localizao central por excelncia!... No seu clculo intervm
todos os valores da amostra e no mais do que o nmero que equilibra os grandes
valores com os pequenos valores. o centro de gravidade da distribuio dos dados.
Se imaginarmos a recta real representada por uma vara sem peso e colocarmos
massas unitrias nos pontos correspondentes aos valores que surgem na amostra, a
mdia localiza-se no centro de gravidade deste objecto:

A mdia dos valores (1,3,4,5,7,10) 5, como facilmente se obtm


1 + 3 + 4 + 5 + 7 + 10
----------------------------------------------------------------------------------------- = 5
6
e esse o ponto onde o objecto fsico representado se equilibra.
O maior bice utilizao da mdia como um resumo indicador da localizao da
amostra, o efeito de contra-peso que os valores extremos nela exercem. No exemplo anterior se, em vez de 10, tivssemos 25, a mdia passaria de 5 para 7,5
(superior a todos os valores da amostra excepo de um):

Se algum nos disser que um conjunto de valores tem mdia 7,5, imaginamos que os
valores se distribuem em volta do 7,5, aproximadamente metade de cada lado. No
pensamos num conjunto de valores em que todos, excepo de um deles, so
inferiores mdia!
Efectivamente a mdia constitui um bom resumo dos dados nos casos em que estes
se distribuem de forma aproximadamente simtrica, com uma zona central de maior
concentrao e caudas que no se alonguem demasiado. Quando a distribuio dos

114

x +x +x
_
x = ---------1--------------------2-----------------------------n---n
Voltemos de novo ao exemplo dos Dados sobre as casas, apresentado no Captulo 1.
Uma questo que pode ter interesse saber quantas assoalhadas, em mdia, tm as
casas que constam da tabela. Para obter esse valor basta somar o nmero de assoalhadas das 40 casas e dividir o resultado obtido por 40:
3 + 3 + 3 + 3 + 5 + 2 + 2 + 4 + 2 + 2 + 3 + 3 + 4 + + 2 + 3 + 3 + 2 +3 + 2 + 2 + 5 +3 + 1 + 2
_
x = ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------40
= 2,6.
E se alm da mdia do nmero de assoalhadas, estivermos interessados na mdia das
reas, das casas observadas? O processo precisamente o mesmo
99 + 90,5 + 109 + 104,8 + + 154,2 + 75,9 + 90,2
_
x = -----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------40
= 102,19 m2
A mdia uma medida muito importante na vida de um estudante. Durante os anos
em que estiver a estudar ser constantemente questionado sobre a sua mdia! Ter
ainda que ter uma mdia de candidatura positiva (superior a 9,5) se pretender
candidatar-se ao ensino superior... Convir terminar um curso com uma mdia
razovel, se pretender arranjar um emprego..., etc.

Quando a natureza da varivel em estudo qualitativa, acontece, por vezes, atribuir


cdigos numricos s diferentes categorias. O clculo da mdia desses cdigos no
tem, obviamente, qualquer sentido. Por exemplo, no caso dos Dados sobre casas, no
tem qualquer sentido calcular a mdia das observaes respeitantes varivel
qualitativa Estado, que assume as categorias usada e nova, representadas
respectivamente por 0 e 1.
Outro exemplo que surge com frequncia o seguinte: ao classificar um conjunto de
pessoas, quanto ao sexo, vulgar utilizar o nmero 1 para significar o sexo masculino
e o nmero 2 para o sexo feminino. Assim, a amostra (2, 2, 1, 2, 2, 2, 2, 1, 2, 1, 1,
2, 1, 1, 2) representa um conjunto de 15 pessoas, classificadas quanto ao sexo, das
quais 6 so do sexo masculino e 9 do sexo feminino. Obviamente que no tem
qualquer sentido dizer que a mdia da amostra 1,6, embora seja este o valor que
se obtm fazendo a mdia daquelas valores! Neste exemplo, se utilizssemos o 0 para
representar o sexo masculino e o 1 o sexo feminino j viria a mdia igual a 0,6!

anlise de dados

A mdia s pode ser calculada para dados quantitativos!

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

dados no aproximadamente simtrica, tem pouco interesse a utilizao da mdia


como centro da distribuio dos dados. Alis, quando a distribuio dos dados no for
aproximadamente simtrica o prprio conceito de centro da distribuio que deixa
de ter sentido.
_
De ora em diante, utilizaremos a notao x para representar a mdia da amostra
(x1,x2,...,xn):

115

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

anlise de dados

Clculo da mdia para dados discretos agrupados


Em amostras de dados quantitativos discretos aparecem muitos valores repetidos
e, em vez de se somarem separadamente todos os valores da amostra, pode-se
agrupar os valores que se repetem, vindo
x1*n1 + x2*n2 + + x*knk
_
x = ------------------------------------------------------------------------------------------n
onde x1*, x2*, ..., x*
k representam os k valores distintos que surgem na amostra e ni
representa a frequncia absoluta com que x*i , i=1, 2, ..., k, surge.
Por exemplo, para calcular a mdia do nmero de assoalhadas, podemos considerar
a tabela de frequncias com os dados agrupados, construda na seco 2.3.1,
N. de Assoalhadas
x*

Freq. Abs.
ni

Freq. Rel.
fi

1
2
3
4
5

3
17
16
2
2

0,075
0,425
0,400
0,050
0,050

Total

40

1,000

e utiliz-la para calcular a mdia:


1 x 3 + 2 x 17 + 3 x 16 + 4 x 2 + 5 x 2
_
x = --------------------------------------------------------------------------------------------------------------------------------------------------------40
Sugesto Verificar como que se pode calcular a mdia, quando os dados esto
agrupados, utilizando as frequncias relativas, em vez de utilizar as frequncias
absolutas.

Clculo da mdia para dados contnuos agrupados


Para dados quantitativos contnuos, j organizados em classes, utiliza-se a frmula
acima apresentada para calcular um valor aproximado para a mdia dos dados
agrupados, sendo agora x*i , substitudo por xi , o representante ou marca da i-sima
classe e ni a respectiva frequncia absoluta. O valor que se obtm para a mdia,
quando os dados esto agrupados , neste caso, um valor aproximado, j que no
estamos a calcular a mdia com os verdadeiros valores. Assim, utilizando a tabela de
frequncias construda, na seco 2.4.1, para a varivel rea
Classes

Rep. classe
xi

Freq. Abs.
ni

Freq. Rel.
fi

[64, 81[
[81, 98[
[98, 115[
[115, 132[
[132, 149[
[149, 166[

72,5
89,5
106,5
123,5
140,5
157,5

4
14
15
4
1
2

0,100
0,350
0,375
0,100
0,025
0,050

40

1,000

Total

116

72,5 x 4 + 89,5 x 14 + 106,5 x 15 + 123,5 x 4 + 104,5 x 1 + 157,5 x 2


_
x ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------40
102,25 m2
O valor obtido para a mdia, considerando os dados agrupados, uma boa
aproximao do valor obtido quando se consideram todos os dados.

3.2.2 Mediana
A mediana um valor que divide a amostra ao meio: metade dos valores da amostra so no superiores (menores ou iguais) mediana e os restantes so no
inferiores (maiores ou iguais) mediana. Por outras palavras, at mediana
(inclusiv) est, pelo menos, 50% da amostra; para l da mediana (inclusiv) est
tambm, pelo menos, 50% da amostra.
Contrariamente com o que se passa com a mdia, o clculo da mediana envolve um
passo prvio de ordenao da amostra.
Como obter a mediana?
Para determinar a mediana fundamental, como dissmos anteriormente, comear
por ordenar os dados. Entretanto podem-se verificar duas situaes, quanto
dimenso da amostra:
Se a dimenso da amostra mpar, h um dos elementos da amostra ordenada
que tem tantos elementos para a esquerda como para a direita. A ttulo de
exemplo, se a amostra tiver dimenso 11, o elemento na 6. posio tem 5
elementos da amostra para a sua esquerda e outros tantos para a sua direita.
Esse elemento central da amostra ser, neste caso, a mediana.

Repare-se que da forma como se calcula a mediana, quando a dimenso n da amostra mpar, a mediana um elemento da amostra. Quando n par, s ser um
elemento da amostra se os dois elementos centrais forem iguais.
Uma regra prtica para obter a posio da mediana consiste em fazer o quociente
n+1
-------------------:
2
Se este quociente for um nmero inteiro, o que se verifica quando n mpar,
toma-se para mediana o elemento nessa posio;
Se este quociente terminar em 0,5, o que se verifica quando n par, considera-se a sua parte inteira e faz-se a semi-soma do elemento a que corresponde
essa ordem, com o elemento da ordem seguinte.

anlise de dados

Se a dimenso da amostra par, no h nenhum elemento que tenha a propriedade de a dividir ao meio. H dois valores centrais e define-se a mediana
como sendo a mdia aritmtica desses dois valores.

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

podemos obter um valor aproximado para a mdia das reas:

117

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

anlise de dados

Por exemplo, suponhamos que se pretende saber qual a mediana dos pesos (em kg)
dos 15 alunos de uma turma do 2. ano. Recolhida a informao sobre esses pesos,
obtiveram-se os seguintes valores:
27

32

26

27

30

30

33

29

41

27

31

32

29

31

28

33

41

Para calcular a mediana necessrio comear por ordenar a amostra:


26

27

27

27

28

29

29

30

30

31

31

32

32

15 + 1
Ento a mediana o elemento na 8. posio (---------------------------) , ou seja o 30. Se a amos2
tra anterior tivesse s 14 elementos e o 41 no pertencesse amostra, ento a
14 + 1
mediana seria a semi-soma dos elementos da 7. posio (parte inteira de -------------------------- = 7,5)
2
29 + 30
e da 8. posio, ou seja, 29,5 (= --------------------------- ).
2
Dado um histograma, fcil obter a posio da mediana, pois esta est numa posio
tal, que passando uma linha vertical por esse ponto, o histograma fica dividido em
duas partes com reas iguais, como se representa na figura seguinte:

Ao contrrio da mediana que divide o histograma em duas partes com reas iguais,
a mdia o ponto de equilbrio do histograma, em que se entra em linha de conta
no s com a frequncia das classes, mas tambm, com a distncia a que esto do
centro. Assim, na figura anterior, enquanto que no histograma do lado esquerdo, a
mdia coincidir com a mediana, no do centro, que apresenta um enviesamento para
a direita, a mdia ser puxada para a direita da mediana. Por outro lado, no histograma que apresenta o enviesamento para a esquerda, a mdia ser puxada para
a esquerda da mediana.
Como j referimos, a mdia, ao contrrio da mediana, uma medida muito pouco
resistente, isto , muito influenciada por valores "muito grandes" ou "muito
pequenos", mesmo que estes valores surjam em pequeno nmero na amostra. Estes
valores, a que se d o nome de outliers, so os responsveis pela m utilizao da
mdia em muitas situaes em que teria mais significado utilizar a mediana.
A mediana tem como principal desvantagem o facto de, no seu clculo, s fazer
intervir 1 ou 2 valores da amostra. No entanto, esta desvantagem transforma-se em
vantagem, por comparao com a mdia, quando a distribuio da amostra muito
enviesada. A mediana muito resistente e no afectada pelos valores extremos.

118

Resumindo, como a mdia influenciada quer por valores muito grandes, quer por
valores muito pequenos, se a distribuio dos dados for enviesada para a direita
(alguns valores grandes como outliers), a mdia tende a ser maior que a mediana;
se for aproximadamente simtrica, a mdia aproxima-se da mediana e se for
enviesada para a esquerda (alguns valores pequenos como outliers), a mdia tende
a ser inferior mediana. Representando as distribuies dos dados (esta observao
vlida para as representaes grficas na forma de diagrama de barras ou de histograma) na forma de uma mancha, temos, de um modo geral (Graa Martins, 2005):

Observe-se que o simples clculo da mdia e da mediana nos pode dar informao
sobre a forma da distribuio dos dados.
No estudo de dados qualitativos ordinais (isto , onde se pode considerar uma ordem
subjacente categorias) faz sentido indicar a categoria mediana. A categoria mediana
aquela onde, pela primeira vez, a frequncia relativa acumulada atinge ou
ultrapassa os 50%. Esta mesma definio serve para identificar a classe mediana no
caso de se estar perante dados agrupados.

N. de irmos

Freq. Abs.

Freq. Rel.%

Freq. Rel. Acum.%

0
1
2
3
4

3
11
3
2
1

15
55
15
10
05

15
70
85
95
100

20

100

A mediana do Nmero de irmos igual a 1, j que a frequncia relativa acumulada


ultrapassa os 50% quando se soma a frequncia correspondente classe 1.
Consideremos ainda, da tabela da pgina 87, a varivel Tempo de casa escola.
Organizados os dados na forma de uma tabela de frequncias, como a sugerida na
pgina 96,

anlise de dados

Consideremos o exemplo apresentado para trabalhar na sala de aula, atravs da


tabela da pgina 87, mais precisamente a varivel Nmero de irmos. Admitamos que
os dados estavam organizados na forma de uma tabela de frequncias, como se
apresenta a seguir:

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

Se tomarmos as duas amostras utilizadas na exemplificao das propriedades da


mdia (1,3,4,5,7,10) e (1,3,4,5,7,25) facilmente se verifica que a mediana igual
a 4,5 para qualquer delas, enquanto que a mdia passou de 5 para 7,5!

119

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

anlise de dados

Tempo de
casa escola
(minutos)

Freq. Abs.

Freq. Rel. (%)

Freq. Rel. Acum.%

At 10
de 10 a 20
de 20 a 30
de 30 a 40

4
7
6
3

20
35
30
15

20
55
85
100

Total

20

100

pretende-se obter a mediana. Neste caso a classe mediana a classe constituda


pelos valores maiores ou iguais a 10 minutos e menores de 20 minutos, uma vez que
a frequncia relativa desta classe, adicionada frequncia acumulada que vem da
classe anterior, faz com que se ultrapasse os 50%.
Suponhamos agora um outro exemplo, mas com uma situao especial, como a que
se apresenta na tabela de frequncias seguinte, correspondente varivel Nmero de
assoalhadas do exemplo Dados sobre casas:
N. de Assoalhadas
x*
i

Freq. Abs.
ni

Freq. Rel.
fi

Freq. Abs. Acum.

Freq. Rel. Acum. %

1
2
3
4
5

3
17
16
2
2

0,075
0,425
0,400
0,050
0,050

3
20
36
38
40

7,5
50
90
95
100

Total

40

1,000

Temos uma classe a que corresponde exactamente 50% de frequncia acumulada!


Isto , 50% dos elementos da amostra so menores ou iguais a 2 e os outros 50%
so maiores ou iguais a 3. Esta situao s pode ocorrer quando o nmero de dados
par, e como vimos anteriormente, neste caso, a mediana a semi-soma dos dois
elementos centrais. Assim, neste caso, a mediana ser 2,5.
Exemplo:
Salrios dos trabalhadores - Os salrios dos 160 trabalhadores de uma determinada empresa, com 6 nveis de salrios, distribuem-se de acordo com a seguinte
tabela de frequncias:
Salrio (euros)
N. empregados

400

450

600

700

1000

5000

23

58

50

20

Calcule a mdia e a mediana e comente os resultados obtidos.


Resoluo:
_
Clculo da mdia: x = (400 x 23 + 450 x 58 + 600 x 50 + 700 x 20 + 1000 x 7 + 5000 x 2)/160
602 euros

120

Salrio (euros)
N. empregados
Freq. Rel. %
Freq. Rel. Acum. %

400

450

600

700

1000

5000

23
14,38%
14,38%

58
36,25%
50,63%

50
31,25%
81,88%

20
12,50%
94,38%

7
4,38%
98,75%

2
1,25%
100,00%

Ento a mediana igual a 450 euros.


Repare-se que a mdia muito superior mediana, o que acontece sobretudo devido
aos 2 salrios substancialmente superiores aos restantes, eventualmente dos
administradores, que inflacionaram a mdia. Efectivamente, dos 160 trabalhadores,
s 29 que tm um salrio superior mdia.
A mediana d-nos uma ideia mais correcta do nvel dos salrios, que so de um modo
geral baixos. Assim, d-nos a indicao de que 50% dos salrios so menores ou
iguais a 450 euros, enquanto que os restantes so maiores ou iguais quele valor.
Suponha que no clculo do salrio mdio dos trabalhadores da empresa, retirava os
dois supostos administradores, com salrios de 5000 euros, cada um. A mdia dos
158 trabalhadores restantes desce de 602 euros para 546 euros. Este exemplo ,
mais uma vez, elucidativo do cuidado que necessrio ter com a interpretao da
mdia. Esta uma medida muito pouco resistente, isto que no resiste a valores
muito grandes ou muito pequenos, quando comparados com os restantes, sendo
muito inflacionada por eles. Um valor grande provoca um aumento da mdia, assim
como um valor pequeno provoca uma diminuio da mdia. Quando o nosso
conjunto de dados tiver destes valores extremos, denominados de outliers, convm
utilizar a mediana, como medida de localizao do centro da distribuio dos dados.
Vejamos ainda o seguinte exemplo.

Velocidade mdia Em determinado dia e em determinado ponto da autoestrada,


a polcia registou a velocidade (mdia) dos 5 primeiros carros que passaram aps as
10 horas. Calculou a mdia das velocidades desses 5 carros e obteve 130 km (por
hora). Embora a velocidade mxima permitida fosse 120 km (por hora), s autuou
um dos carros! Na realidade as velocidades registadas foram 120 km, 115 km, 120 km,
110 km e 185 km, pelo que s um ultrapassou a velocidade mxima permitida.

anlise de dados

Exemplo

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

Clculo da mediana: Considerando na tabela anterior as frequncias relativas


acumuladas, temos

121

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

anlise de dados

3.2.3 Quartis
Os quartis, j utilizados anteriormente na construo do diagrama de extremos e
quartis, so outras medidas de localizao de alguns pontos de interesse, que no o
centro da distribuio dos dados. Como vimos na definio da mediana, esta divide a
amostra em duas partes com igual percentagem de elementos. Considerando cada
uma destas partes e calculando a sua mediana, obteremos os quartis. Assim, a
mediana e os quartis localizam pontos que dividem a distribuio dos dados em 4
partes com igual percentagem de elementos.
H vrios processos para calcular os quartis, nem todos conducentes aos mesmos
valores, mas a valores aproximados. A metodologia que, a este nvel, recomendamos
para os obter a seguinte:
Ordenar os dados e calcular a mediana Me;
O 1. quartil, Q1, a mediana dos dados que ficam para a esquerda de Me;
O 3. quartil, Q3, a mediana dos dados que ficam para a direita de Me.
Ao calcular os quartis pelo processo anterior, podem-se levantar algumas dvidas, no
caso em que a dimenso da amostra mpar. Efectivamente, neste caso a mediana
coincide com um dos elementos da amostra e poderamos optar por consider-lo
includo nas duas metades em que fica dividida a amostra, ou no o considerar em
nenhuma das metades. A nossa opo consider-lo pertencente s duas metades.
Consideremos de novo o exemplo utilizado para ilustrar o clculo da mediana, dos
pesos dos 15 alunos de uma turma do 2. ano, j ordenados:

Como a mediana um dos elementos da amostra, para o clculo dos quartis,


considermos dois conjuntos de dados, cada um com 8 elementos, onde inclumos a
mediana. Se a amostra inicial s tivesse 14 elementos, sem o valor 41, ento
teramos:

Neste caso a mediana divide a amostra em duas partes de 7 elementos, cada uma,
e, do mesmo modo que anteriormente, os quartis sero as medianas dessas partes.
Os quartis so medidas de localizao com algum interesse prtico, pois permitem
localizar os 50% dos valores centrais dos dados e como veremos, so utilizados para
definir uma medida de disperso ou variabilidade desses dados.

122

Os percentis de que a mediana e os quartis so casos particulares, so medidas de


localizao com grande interesse, nomeadamente para avaliar a posio relativa dos
dados. Por exemplo, suponha que uma me vai, com o seu beb de 6 meses,
consulta de rotina, do pediatra. Este, depois de pesar e medir a criana, consulta
umas tabelas e s nessa altura comenta com a me, o estado de crescimento do seu
filho. Pode acontecer que alguns dos seus comentrios sejam desta forma:
Minha senhora, o seu filho, no que diz respeito ao peso, est no percentil 90.
Vamos ter que ter algum cuidado!
Afinal o que significa o percentil 90? Significa que 90% das crianas com 6 meses tm
um peso menor ou igual ao do beb e s 10% tm um peso maior ou igual!
De um modo geral define-se percentil P de um conjunto de dados, como sendo o
valor que tem P% dos dados menores ou iguais a ele, e os restantes maiores ou
iguais. O 1. e o 3. quartis tambm so conhecidos como percentil 25 e 75,
respectivamente. Analogamente, a mediana o percentil 50.
Exemplo:
A obesidade um problema A comunicao social tem alertado a opinio pblica
para o problema da obesidade, nomeadamente nas crianas. Ento, como que
poderemos saber se o nosso filho est obeso? Como que o mdico, alm da sua
experincia, sossega a me sobre a sade e bem estar do seu filho? Existem tabelas,
que apresentam, para cada idade, os valores dos percentis para as variveis peso e
altura. A tabela seguinte, que se retirou da Internet, apresenta, para os vrios meses
de idade, valores adequados entre os quais deve estar o peso (em kg) da criana. Estes
valores poderiam ser, por exemplo, os percentis 25 e 75, considerando-se
um peso normal o que esteja nos 50% dos pesos centrais, quando se considera o
conjunto dos pesos dos bebs (da populao que se est a estudar, quer seja
portuguesa, italiana, inglesa, alem, etc.) com determinada idade:

Mnimo
Mximo
Mnimo
Mximo
Mnimo
Mximo
Mnimo
Mximo

1
ms
3.500
5.000
10
meses
8.300
10.900
1 ano
7m
10.150
13.300
2 anos
4m
11.500
15.250
3 anos
4m
13.200
17.700

2
meses
4.000
6.000
11
meses
8.500
11.250
1 ano
8m
10.300
13.600
2 anos
5m
11.600
15.500
3 anos
8m
13.750
18.500

3
meses
4.750
7.000
1
ano
8.800
11.500
1 ano
9m
10.500
13.800
2 anos
6m
11.750
15.700
4
anos
14.300
19.300

4
meses
5.500
7.800
1 ano
1m
9.000
11.800
1 ano
10m
10.600
14.000
2 anos
7m
11.900
15.900
4 anos
4m
15.000
20.200

5
meses
6.000
8.500
1 ano
2m
9.250
12.000
1 ano
11m
10.700
14.200
2 anos
8m
12.000
16.000
4 anos
8m
15.500
21.000

6
meses
6.500
9.000
1 ano
3m
9.500
12.400
2
anos
10.900
14.500
2 anos
9m
12.100
16.300
5
anos
16.000
21.800

7
meses
7.000
9.700
1 ano
4m
9.700
12.600
2 anos
1m
11.000
14.650
2 anos
10
12.250
16.500

8
meses
7.500
10.000
1 ano
5m
9.800
12.800
2 anos
2m
11.200
14.800
2 anos
11m
12.400
16.750

anlise de dados

Mnimo
Mximo

Ao
nascer
2.750
4.000
9
meses
7.900
10.500
1 ano
6m
10.000
13.000
2 anos
3m
11.300
15.000
3
anos
12.600
17.000

A partir da tabela anterior, conclumos que um peso razovel, nem muito magro, nem
muito gordo, para um beb de 2 anos e meio, ser um peso compreendido no
intervalo [11,750kg, 15,700kg].

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

3.2.4 Percentis

123

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

anlise de dados

Exemplo:
Conversa entre me e filho Imagine a seguinte conversa entre uma me e o seu
filho de 15 anos.
Filho - Me, tive 14 no teste de Biologia!
Me E ento isso bom ou nem por isso?
Filho Como assim? Digo que tive 14 e ainda me perguntas se isso bom?
Me Pois, pergunto. E at pergunto a que percentil que corresponde essa nota?
Filho Mas o que isso de percentil? No sei do que ests a falar!
Me Quantos alunos na tua escola fizeram esse teste?
Filho Foram 100, porqu?
Me E quantos tiveram nota maior que 14?
Filho Bom, no vi bem, mas parece-me que foram uns 80!
Me Afinal, no tens razo para estar to satisfeito! Ficaste no percentil 20. S 20%
dos teus colegas tiveram nota menor ou igual tua. Esse exame foi mesmo
muito fcil.
Exemplo:
Nota mnima de acesso Uma Universidade pretendia estabelecer uma nota
mnima de acesso para a prova especfica de Matemtica. Estava, no entanto, com o
seguinte problema: se a prova fosse muito difcil, como tinha sido nos anos
anteriores, corria o risco de no ter alunos, ou ter muito poucos, com nota maior ou
igual a 95 (numa escala de 0 a 200) e ficar com as vagas por preencher. Ento o
Conselho Directivo tomou a seguinte deciso. Independentemente da distribuio que
se vier a verificar para as notas no exame de Matemtica, fixaram como nota mnima
aquela que permita que 55% dos alunos que realizarem o exame, se possam
candidatar. Com esta deciso, a nota mnima de acesso no necessariamente
positiva.
Nota Este exemplo no fico e foi a metodologia seguida durante alguns anos
pelo Conselho de Reitores das Universidades Portuguesas (CRUP) e outras instituies
de Ensino Superior, na definio da nota mnima de acesso, como refere o Decreto-Lei que se trancreve, em parte, a seguir:
ENSINO SUPERIOR PBLICO
Decreto-Lei n. 296-A/98, (alneas a) e c) do artigo 24.) de 25 de Setembro, alterado pelo
Decreto-Lei n. 99/99, de 30 de Maro
CLASSIFICAO MNIMA NAS PROVAS DE INGRESSO
I. Recomendao do CRUP
1. Para candidatura aos pares estabelecimento/curso que adoptaram a Recomendao do CRUP no tocante
fixao da classificao mnima prevista na alnea a) do artigo 24. do Decreto-Lei n. 296-A/98, de 25
de Setembro, alterado pelo Decreto-Lei n. 99/99, de 30 de Maro, os candidatos devem obter no exame
nacional de cada uma das provas de ingresso exigidas para o curso superior a que se candidatam,
classificao no inferior a 95 pontos na escala de 0 a 200.
2. Se, excludos os casos de classificao igual a zero pontos, o nmero de examinandos com classificao
igual ou superior a 95 pontos em determinado exame nacional de prova de ingresso for inferior a 55% do
nmero total, o valor da classificao mnima aquele que permita a admisso ao concurso, por esta via,
de 55% dos examinandos.
3. A regra aplicada a cada chamada de cada exame.

124

1. Para candidatura aos pares estabelecimento/curso que adoptaram a Recomendao do CCISP 96 no


tocante fixao da classificao mnima prevista na alnea a) do artigo 24. do Decreto-Lei n. 296-A/98,
de 25 de Setembro, alterado pelo Decreto-Lei n. 99/99, de 30 de Maro, os candidatos devem obter no
exame nacional de cada uma das provas de ingresso exigidas pelo curso superior a que se candidatam,
classificao no inferior a 95 pontos na escala de 0 a 200.
2. Se, excludos os casos de classificao igual a zero pontos, na escala de 0 a 200, o nmero de
examinandos com classificao igual ou superior a 95 pontos for inferior a 75% do nmero total, o valor
da classificao mnima aquele que permita a admisso ao concurso, por esta via, de 75% dos
examinandos.
3. A regra aplicada a cada chamada de cada exame.
III. Recomendao do CCISP 97
1. Para candidatura aos pares estabelecimento/curso que adoptaram a Recomendao do CCISP 97 no
tocante fixao da classificao mnima prevista na alnea a) do artigo 24. do Decreto-Lei n. 296-A/98,
de 25 de Setembro, alterado pelo Decreto-Lei n. 99/99, de 30 de Maro, os candidatos devem obter no
exame nacional de cada uma das provas de ingresso exigidas pelo curso superior a que se candidatam,
classificao no inferior a 95 pontos, na escala de 0 a 200.
2. Se, excludos os casos de classificao menor ou igual a 14 pontos na escala de 0 a 200, o nmero de
examinandos com classificao igual ou superior a 95 pontos for inferior a 75% do nmero total, a
classificao mnima aquela que permita a admisso ao concurso, por esta via, de 75% dos examinandos.
3. A regra aplicada a cada chamada de cada exame.
A Rede do Ensino Superior

em Portugal / 2001
306

IV. Percentil 50

2. Se, excludos os casos de classificao igual a zero pontos, na escala de 0 a 200, o nmero de
examinandos com classificao igual ou superior a 100 pontos for inferior a 50% do nmero total, o valor
da classificao mnima aquele que permita a admisso ao concurso, por esta via, de 50% dos
examinandos.
3. A regra aplicada a cada chamada de cada exame.

3.2.5 Moda
Em amostras de dados qualitativos d-se o nome de categoria modal ou, tambm,
simplesmente, moda, categoria de maior frequncia. Esta mesma definio
usualmente utilizada tambm para dados quantitativos (discretos ou contnuos), ou
seja, define-se moda como sendo a classe de maior frequncia (dados agrupados).
No entanto, neste caso, de dados quantitativos, tem vindo a ter cada vez maior
interesse generalizar a definio de moda. Assim, vamos designar por moda qualquer
classe que esteja ladeada por classes de menor frequncia. As modas sero, pois, os
picos na distribuio de frequncias.

anlise de dados

1. Para candidatura aos cursos da Faculdade de Cincias da Universidade do Porto, os candidatos devem
obter no exame nacional de cada uma das provas de ingresso exigidas para o curso superior a que se
candidatam, classificao no inferior a 100 pontos na escala de 0 a 200.

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

II. Recomendao do CCISP 96

125

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

anlise de dados

Exemplo:
Virose desconhecida (Graa Martins, 1999) Suponha que numa regio comearam
a aparecer pessoas com uma virose desconhecida. Os mdicos do Centro de Sade
dessa regio procuraram recolher alguma informao sobre as pessoas atacadas por
essa virose. Foi recolhida uma amostra de 35 desses doentes a quem se perguntou,
entre outras caractersticas, a idade. Depois de analisados os dados os mdicos foram
informados que a idade mdia dos doentes era de 32 anos. Um dos mdicos, mais
curioso que os outros, pediu que lhe mostrassem a distribuio dos dados, tendo-lhe
sido apresentada a seguinte distribuio num grfico de caule-e-folhas:
0
0
0
0
0
1
1

6
6
7
7
7
7
7
8

1
2
4
6
8

1
2
4
6
8

2
5
7
8

8
9
0
2
4
7

9
0
2
5

1
3
5

3
5
7

3
5
7

Perante a representao anterior, com duas modas, o mdico no teve dvidas em


pr de parte a mdia, assim como qualquer outra medida de localizao do centro da
amostra. Efectivamente, para dados deste tipo enganador qualquer medida de
localizao do centro da distribuio. O que o mdico concluiu imediatamente foi que
a doena ataca crianas e pessoas na 3. idade.
No sendo propriamente uma medida de localizao, a moda deve a sua importncia
ao facto de ser a nica medida que susceptvel de ser calculada para os dados
qualitativos, em que no se possa estabelecer uma hierarquia entre as diferentes
modalidades ou classes, que a varivel possa assumir.
Em curvas que modelam muitas situaes da vida real, d-se o nome de moda a
qualquer mximo relativo da curva de densidade. Os modelos tericos de interesse
tm uma nica moda e usual dizer que o aparecimento de vrias modas pode
evidenciar mistura de populaes. Para ilustrar esta ideia, tome-se o exemplo das
alturas na populao portuguesa. Se considerarmos somente a subpopulao dos
homens, a distribuio das suas alturas no deve afastar-se muito do seguinte
padro:

126

A bimodalidade torna-se ainda mais evidente se a zona central de uma das distribuies se encontrar muito afastada da zona central da outra e se a percentagem
de observaes pertencentes a cada uma das duas subpopulaes for idntica.
Retomando o exemplo das alturas, se numa amostra de 100 indivduos tivermos 10
mulheres e 90 homens muito pouco provvel que o histograma apresente
bimodalidade, contrariamente ao que dever ocorrer em amostras com 50 homens e
50 mulheres.
Considere-se o exemplo dos Dados sobre casas, do captulo 1. No pargrafo 2.4.2
apresentmos um histograma construdo para a varivel Preo, que tinha o seguinte
aspecto:

anlise de dados

Que aconteceria se considerssemos as duas subpopulaes em conjunto? Onde


ficaria a moda? Em 1,75m, em 1,60m ou algures entre estes dois valores? Na verdade
o que acontece que surgem duas modas!... Uma, um pouco direita de 1,60m e
outra, um pouco esquerda de 1,75m:

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

Note-se que a zona de maior concentrao ou densidade, est entre 1,70m e 1,80m,
sendo a moda (mximo relativo da curva) igual a 1,75m. A forma da distribuio das
alturas das mulheres dever ser idntica, mas localizada em torno de 1,60m:

127

12
Freq.abs.

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

anlise de dados

14
10
8
6
4
2
0
80

120

160

200

240

280

320

360

Preo

Histograma para a varivel Preo das casas do ficheiro Dados sobre Casas

Este histograma apresenta duas classes modais! Uma delas a classe dos 160 aos
200 mil euros, e a outra a classe que vai de 280 a 320 mil euros. Olhando para as
caractersticas das casas, podem apontar-se algumas possveis causas para esta
bimodalidade: h casas novas e casas usadas; h casas com garagem e casas sem
garagem; as casas no so todas da mesma zona e pode haver alguma zona onde,
em mdia, as casas so mais caras que nas outras duas zonas!... claro que, como
a frequncia da segunda classe modal relativamente baixa, pode-se ainda
argumentar que a bimodalidade no devida a uma mistura de populaes mas sim
obra do acaso!... Ainda a propsito deste exemplo, chamamos mais uma vez a
ateno, para o facto de o histograma ser uma representao grfica que, para alguns
conjuntos de dados, pode mudar sensivelmente de aspecto, quando se altera a
amplitude de classe ou o ponto onde se comeam a construir as classes. Assim, para
o mesmo conjunto de dados pode acontecer haver representaes grficas diferentes,
nomeadamente em termos do nmero de modas.
Observao:
Quando se pretende saber qual o centro de uma distribuio de dados, a resposta a
esta pergunta fcil se a distribuio for aproximadamente simtrica e unimodal (s
com uma moda). Se a distribuio dos dados apresentar outras formas,
nomeadamente enviesamento ou vrias modas, j o conceito de centro da distribuio dos dados pode no fazer qualquer sentido, como j referimos
anteriormente ao tratarmos das medidas de localizao.

128

Tarefa
Vamos pesar laranjas (cont.)

Considerando, de novo, a Tarefa - Vamos pesar laranjas, do captulo 2, pretende-se


agora obter a mdia, mediana e os quartis da distribuio dos dados e construir o diagrama de extremos e quartis.
A partir da representao em caule-e-folhas, que entretanto se fez, fcil de obter
os dados ordenados, pois basta percorrer os caules, de cima para baixo, juntando-lhe
as folhas respectivas:
1.

2.

3.

4.

5.

6.

7.

8.

9.

10.

11.

12.

13.

14.

133

134

137

138

139

140

141

142

144

145

146

147

148

148

15.

16.

17.

18.

19.

20.

21.

22.

23.

24.

25.

26.

27.

28.

149

150

151

151

151

151

152

152

153

153

154

154

156

157

29.

30.

31.

32.

33.

34.

35.

36.

37.

38.

39.

40.

41.

42.

160

162

163

164

164

166

167

168

168

172

172

174

175

176

Como o nmero de dados par, a mediana a semi-soma dos dados que se encontram nas posies 21. e 22., ou seja
152 + 152
Mediana = -------------------------------------- =152
2
Para determinar os quartis, vamos considerar as medianas de cada uma das partes
em que ficaram divididos os dados, pela mediana: o 1. quartil ser a mediana dos
dados que esto nas posies de 1 a 21, enquanto que o 3. quartil ser a mediana
dos dados que esto nas posies de 22 a 42. Como agora temos um nmero mpar
de dados, a mediana ser o elemento do meio. Assim, temos:
1. quartil = 146 (elemento na 11. posio)
3. quartil = 164 (elemento na 32. posio)

129

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

anlise de dados

Para construir o diagrama de extremos e quartis, necessitamos de 5 nmeros, obtidos


a partir dos dados: mnimo, mximo, 1. quartil, 3. quartil e mediana:

Mnimo = 133
Mximo = 176
1. quartil = 146
3. quartil= 164
Mediana = 152

133

146

152

1. quartil mediana

164

176

3. quartil

Diagrama de extremos e quartis para a varivel Peso das laranjas

Desta representao grfica, sobressai a simetria aproximada dos dados, como


tambm j tnhamos visto com a representao em caulee-folhas ou com o histograma. Calculando a mdia obtm-se o valor 154, um pouco superior mediana,
como se esperava pelo pequeno enviesamento para a direita, apresentado pelos
dados.

130

O melhor dar
a cada um a mdia!

Os 3 netos da av Maria, Huguinho, Zezinha e Luisinha, queriam ir feira popular,


mas no tinham dinheiro. Ento decidiram ir ter com a av, para ver se esta
subsidiava os seus divertimentos! At parece que no sabiam que a av era um
bocadinho agarrada ao dinheiro... Mas, por estranho que parea, ela estava muito
benevolente e disse aos netos para cada um procurar uns trocos nos bolsos dos 2
casacos e da saia que tinha vestido ultimamente. O Huguinho encontrou num casaco
8 euros, a Luisinha encontrou 2 euros no outro casaco e finalmente a Zezinha encontrou na saia 5 euros.
A av, que embora fosse um bocadinho agarrada ao dinheiro, era justa, no achava
bem que cada neto ficasse com a quantia que encontrou e gostaria de contentar todos
de igual modo. Como fazer?
Como fazer, para cada neto ficar com igual quantia?
Uma proposta foi juntar o dinheiro todo e reparti-lo igualmente pelos 3, ou seja,
calcular a mdia das quantias 8, 2 e 5. Assim, decidiu que cada um ficaria com a
seguinte quantia:
8+2+5
--------------------------------------= 5
2
Afinal basta o Huguinho dar 3 euros Luisinha e cada um fica com 5 euros!
Esta situao pode ser apresentada graficamente, da seguinte forma, em que cada
bola representa uma moeda de um euro:

131

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

anlise de dados

Antes da repartio

Depois da repartio

Uma questo que pode ser levantada por um aluno , por exemplo, a seguinte: e se
a Luisinha tivesse encontrado 3 euros em vez de 2 euros? Como que resolvamos a
situao?

O Huguinho deu 2 euros Luisinha, que ficou com a mesma quantia que a Zezinha,
mas ainda sobrou 1 euro. Para ficarem os 3 com quantias iguais, teramos de dividir
o euro em 3 partes iguais e dar a cada um, uma dessas partes. S assim que cada
um ficava com uma quantia igual, ou seja a mdia.
Se em vez de euros, tivessemos bolos, seria mais fcil dividir o bolo sobrante em 3
partes iguais e dar a cada um uma das partes:

132

anlise de dados

Por exemplo, se na turma o professor perguntar a cada um dos alunos quantos irmos
tem e calcular a mdia dos valores registados, natural que obtenha um valor no
inteiro. Se obtiver o valor 1,6, como podemos interpret-lo? O professor pode
incentivar os alunos a registar os valores obtidos num diagrama de pontos e
verificarem que a maior concentrao de valores se regista volta do 1 e do 2
(estamos a admitir que na turma nenhum aluno tem um nmero de irmos substancialmente maior que os outros alunos, que provocasse uma inflao na mdia...).
Pode-se dar ainda como exemplo a informao fornecida pelo Instituto Nacional de
Estatstica sobre o nmero mdio de filhos das famlias portuguesas.

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

Embora o conceito de mdia seja um conceito a desenvolver sobretudo ao nvel do


2. ciclo, este exemplo pode servir para o professor ter uma conversa com os alunos
sobre o significado da mdia, que, em certas situaes, pode no passar de um
conceito abstracto, no possvel de ser materializado.

133

Tarefa
Vamos comer queijo,
mas no exageremos

O queijo, proveniente do leite, um alimento rico em clcio. No entanto, necessrio


no abusar, j que, de um modo geral, um alimento muito calrico e a maior parte
das vezes rico em gordura. Na tabela seguinte apresentamos, para vrios tipos de
queijo, a quantidade de gordura e o nmero de calorias, por cada 100 gramas de
queijo:
Alimento (100g)



















Queijo
Queijo
Queijo
Queijo
Queijo
Queijo
Queijo
Queijo
Queijo
Queijo
Queijo
Queijo
Queijo
Queijo
Queijo
Queijo
Queijo
Queijo

Brie
Camembert
da Ilha
da Serra curado
da Serra fresco
de Azeito
de vora
de Serpa
de Tomar
flamengo 20%
flamengo 30%
flamengo 45%
fresco
Gorgonzola
Gruyre
Parmeso
Roquefort
Suo

Gordura (g)

Calorias

20
23
26
32
27
25
34
26
27
8
14
23
21
37
20
28
32
29

263
313
357
385
327
309
412
330
305
185
246
315
265
407
315
401
371
357

 Alimento com baixo teor em gordura mas podendo ter um elevado contedo
em calorias.

 Alimento intermedirio: consumir com moderao.


 Alimento rico em gordura: comer pontualmente ou moderar o seu consumo.
A tabela anterior permite vrios estudos no que diz respeito quantidade de gordura
e ao nmero de calorias dos diferentes tipos de queijo. Uma possvel abordagem
comear por considerar os dados respeitantes quantidade de gordura por cada 100
gramas de queijo e organiz-los na forma de um grfico de caule-e-folhas. Uma pergunta que esta representao grfica nos poder imediatamente responder a
existncia de algum possvel enviesamento e, caso afirmativo, o que se espera para
a relao de grandeza entre a mdia e a mediana?

134

0
1
2
3

8
4
0
2

0
2

1
4

3
7

A representao anterior apresenta algum enviesamento para a esquerda, pelo que


se espera que a mdia seja inferior mediana.
No que diz respeito mdia, tem-se:
8 + 14 + 20 + 20 + 21 + 23 + 23 + 25 + 26 + 26 + 27 + 27 + 28 + 29 + 32 + 32 + 34 + 37
Mdia = ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------18
=25,1 gramas
Para calcular a mediana necessrio considerar a amostra ordenada, que facilmente
se obtm a partir da representao em caule-e-folhas. Como temos 18 dados, a
mediana a semi-soma dos dados que esto na posio 9 e 10, que ocupam os 2
pontos centrais dos dados ordenados:
dado na posio 9 + dado na posio 10 26 + 26
Mediana = --------------------------------------------------------------------------------------------------------------------------------------------------------=-----------------------------= 26 gramas
2
2
A mdia um pouco inferior mediana, como se esperava. Esta situao
possivelmente provocada pelo valor 8 que bastante menor que os restantes,
influenciando a mdia.
Uma questo que pode ainda ser respondida a de saber quais os queijos menos
gordos e os mais gordos. Podemos, por exemplo procurar saber quais os 25% dos
queijos menos gordos e quais os 25% dos queijos mais gordos, calculando os quartis.

Podemos dizer que os 25% dos queijos menos gordos, so os que tm uma
quantidade de gordura menor ou igual a 21 g por cada 100 g de queijo, ou sejam:
Brie, Flamengo 20%, Flamengo 30%, Fresco e Gruyre. Analogamente, os 25% dos
queijos mais gordos, so que tm quantidade de gordura superior ou igual a 29 g, por
cada 100 gramas de queijo e que so: Serra Curado, vora, Gorgonzola, Roquefort e
Suo.

anlise de dados

Para determinar os quartis, consideramos as duas partes em que os dados ficam


divididos pela mediana e determina-se a mediana de cada uma dessas partes:

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

Organizando os dados num grfico de caule-e-folhas, obteve-se a seguinte


representao:

135

Uma vez que temos calculados os quartis e a mediana, vamos construir o diagrama
de extremos e quartis:
40
35
30
25

1. quartil
Mnimo

20
15

Mediana
Mximo
3. quartil

10
5
0

A representao anterior sugere algum enviesamento para a esquerda (embora o diagrama de extremos e quartis esteja ao alto, continuamos a falar no enviesamento
para a esquerda, quando este for na direco dos valores mais pequenos), tal como
a representao em caule-e-folhas j havia sugerido.

Tarefa proposta
Vamos comparar
vrios tipos de mas

Ser que os diferentes tipos de mas, tm caractersticas idnticas? Para preparar


esta actividade, cada aluno pode ficar encarregue de levar uma ma de um dos 3
tipos seguintes (ou outros): Red Delicious, Starking ou Golden.
As caractersticas que se decidiram estudar foram o peso, o
permetro e a altura de cada ma.
Elaborar uma tabela, onde se regista o tipo do fruto e os
valores observados das caractersticas anteriormente
referidas.
Utilizando diagramas de extremos e quartis, comparar os
trs tipos de mas.

136

Tarefa proposta
Os frutos tm muitas calorias?

Dizem os nutricionistas que, para uma alimentao saudvel, alm de outros


requisitos, deveramos comer 3 peas de fruta, por dia. Apresentamos a seguir, para
vrios frutos, uma tabela com a quantidade de gordura e o nmero de calorias por
cada 100 gramas de fruto:
Nome
Abacate
Ameixa
Amndoa
Amendoim
Amoras
Anans
Avels
Banana
Caj
Castanha
Cereja
Coco
Figo
Framboesa
Ginja
Groselha
Laranja
Lichias
Lima

Gordura

Calorias

Nome

Gordura

Calorias

13
1
56
48
1
1
65
0
48
1
0
60
1
2
2
0
0
0
0

130
59
626
596
59
49
676
90
573
182
63
630
64
50
70
54
51
58
41

Limo
Ma
Manga
Maracuj
Melancia
Melo
Morango
Nspera
Noz
Papaia
Pra
Pssego
Pinho
Pistcio
Rom
Tngera
Tangerina
Toranja
Uva

1
1
0
1
0
0
1
1
67
0
1
1
52
54
0
0
0
1
1

37
64
57
90
25
31
34
54
686
50
37
45
618
594
54
41
46
43
89

Analisando os dados anteriores, ntido que os frutos se podem dividir em duas


grandes categorias.
Tentar averiguar quais so essas categorias e calcular a quantidade mdia de calorias
em cada uma dessas categorias.
Analisar com os alunos quais os frutos que se devem privilegiar, para uma
alimentao saudvel.

137

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

anlise de dados

3.3

Medidas de disperso

Na seco anterior estudmos algumas medidas que procuram transmitir alguma


informao contida nos dados, em termos de localizao de alguns pontos
importantes, como por exemplo, o centro da distribuio dos dados. No entanto, uma
distribuio no est completamente estudada enquanto no estudarmos a
variabilidade associada aos dados. Algumas das questes a que as medidas de
localizao no do resposta, so, por exemplo, as seguintes:
Sero os dados quase todos iguais?
Sero muito diferentes uns dos outros?
De que modo que so diferentes?
...
Por exemplo, consideremos os trs conjuntos de dados:
Conjunto 1
Conjunto 2
Conjunto 3

15
10
0

15
13
7

15
15
15

15
17
23

15
20
30

Os conjuntos de dados anteriores, embora tenham a mesma mdia e a mesma


mediana, nomeadamente igual a 15, tm um aspecto completamente diferente, no
que diz respeito variabilidade, como facilmente se v, a partir da representao dos
valores ao longo de segmentos de recta:

Enquanto que no Conjunto 1, os 5 dados so iguais, no havendo qualquer


variabilidade, j no Conjunto 2 e no Conjunto 3 os valores so diferentes uns dos
outros, e podemos mesmo avanar que a variabilidade ou disperso verificada no
Conjunto 3 superior verificada no Conjunto 2.
Existem algumas medidas para descrever a variabilidade presente num conjunto de
dados, umas mais adequadas do que outras, dependendo a sua aplicao, por vezes,
da forma da distribuio dos dados.

138

A medida mais simples para descrever a variabilidade ou disperso dos dados, a


amplitude, que a diferena entre o mximo e o mnimo do conjunto de dados:
Amplitude = mximo mnimo
Esta medida, muito simples, raramente usada como medida de variabilidade, pois
tem a desvantagem de ser muito dependente dos valores extremos, que podem dar
origem a uma amplitude muito grande, que no seja representativa do conjunto de
dados. Uma alternativa considerar s a parte central dos dados, obtendo-se uma
outra medida a que damos o nome de amplitude interquartis.

3.3.2 Amplitude interquartis


Como o nome est a dizer, obtm-se a amplitude interquartis, fazendo a diferena
entre o 3. e o 1. quartis. Esta medida, que j foi utilizada na construo do diagrama de extremos e quartis, d-nos informao sobre a amplitude do intervalo em
que se encontram 50% das observaes centrais.
Algumas propriedades da amplitude interquartis so:
A amplitude interquartis ser tanto maior, quanto mais variabilidade houver
entre os dados. Se no houver variabilidade, isto , se as observaes forem
todas iguais, ento a amplitude interquartis vem igual a zero.
No entanto, uma amplitude interquartis nula, no significa necessariamente
que no exista variabilidade. Por exemplo, o conjunto de dados
1

14

21

tem amplitude interquartis nula, apesar de apresentar variabilidade.

Recorde-se que a representao de um conjunto de dados num diagrama de extremos


e quartis, d uma informao imediata sobre a variabilidade existente nos 50% dos
elementos centrais, atravs do comprimento da caixa, que igual amplitude
interquartis.

3.3.3 Desvio-padro
Tal como a mediana, que calculada unicamente a partir de um ou dois valores da
amostra, tambm a amplitude interquartis calculada unicamente a partir dos
quartis, ignorando assim muita informao sobre a forma como os dados se distribuem. Quando a distribuio dos dados aproximadamente simtrica, situao em
que tem sentido falar da mdia como medida de localizao do centro de distribuio
dos dados, utiliza-se como medida de variabilidade ou disperso dos dados, o desvio-padro, que no seu clculo tem em conta os desvios de todos os dados relativamente
mdia.

anlise de dados

Na seco 3.2.3 calculmos os quartis da amostra constituda pelo peso dos 15 alunos
de uma turma do 2. ano. Vimos que o 1. quartil Q1=27 e o 3. quartil Q3=31, donde
a amplitude interquartis = 4

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

3.3.1 Amplitude

139

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

anlise de dados

_
Consideremos ento a amostra (x1,x2,...,xn) com mdia x . Para medir a variabilidade
dos dados relativamente mdia, comea-se por calcular, para cada dado, a
diferena entre ele e a mdia, a que chamamos desvio:
_
_
_
_
x1- x , x2-x
x , x3- x , ..., xn- x
Para obter a variabilidade de todos os dados, seria natural somar todos os desvios.
Acontece que a soma destes desvios sempre igual a zero, pois os desvios positivos
anulam com os negativos, pelo que esta soluo no serve. Ento, vamos considerar
no os prprios desvios, mas os seus quadrados:
_
_
_
_
(x1- x )2, (x2- x )2, (x3- x )2, ..., (xn- x )2
Define-se varincia e representa-se por s2, a medida que se obtm somando os quadrados dos desvios e dividindo pelo nmero de observaes menos uma:
_
_
_
_
(x1 x )2 + (x2 x )2 + (x3 x )2 + + (xn x )2
2
s =----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------n 1
O motivo que nos leva a considerar os quadrados dos desvios j tem uma explicao.
Mas ento porque que no consideramos a mdia desses desvios ao quadrado,
dividindo a sua soma por n em vez de (n-1), como est proposto? A este nvel, a
resposta que pode ser dada prende-se de certo modo com o motivo que nos levou a
considerar os quadrados, em vez dos prprios desvios: como a soma dos n desvios
igual zero, basta conhecer (n-1) desses desvios, para que o n-simo fique
automaticamente determinado. Assim, como s temos (n-1) desvios independentes,
dividimos por (n-1) em vez de n.
A varincia, como medida de variabilidade tem um problema que o facto de no vir
nas mesmas unidades que os dados originais. Resolve-se este problema considerando
a raiz quadrada, a que se d o nome de desvio-padro:

Da forma como o desvio padro obtido, imediatamente se conclui que:


O desvio padro sempre maior ou igual a zero e ser tanto maior quanto
maior for a variabilidade presente nos dados. Se no houver variabilidade, isto
, se os dados forem todos iguais, ento o desvio-padro nulo;
por outro lado, se o desvio padro de um conjunto de dados nulo, ento no
existe variabilidade.
Exemplo:
Tempo de realizao da ficha Na turma, o professor estava interessado em saber
qual o tempo mdio de realizao de uma determinada ficha e desejava tambm
saber se os tempos que seus alunos demoravam a fazer a ficha, variavam muito.
Registou esses tempos
13

15

14

18

25

14

15

14

e de seguida calculou a mdia e o desvio padro:

140

16

17

20

17

O professor concluiu, assim, que o tempo mdio de resoluo da ficha foi de 16


minutos e meio, com um desvio padro de 3,34 minutos.

Quais as medidas que se devem utilizar para resumir a informao contida


numa amostra?
As medidas de localizao, juntamente com as medidas de variabilidade, descrevem
o comportamento dos dados. Uma questo que se pode colocar a de saber quais as
medidas de localizao e de variabilidade que se devem utilizar. Recordamos que, do
mesmo modo que a mdia s deve ser utilizada para distribuies aproximadamente
simtricas, tambm o desvio padro s deve ser utilizado nestas condies. Assim,
quando pretendemos descrever um conjunto de dados de tipo quantitativo, pode-se
utilizar a seguinte metodologia:

2. Uma vez a representao grfica obtida:


Se a distribuio dos dados se apresentar aproximadamente simtrica, ento
utilizar a mdia e o desvio padro para descrever os dados;
Se a distribuio apresentar enviesamento, ento utilizar a mediana e a
amplitude interquartis. Pode-se ainda calcular a mdia e verificar que esta se
afasta da mediana: ou maior ou menor que a mediana, conforme o
enviesamento for para a direita (positivo) ou para a esquerda (negativo).
Se se verificar a existncia de algum(s) outlier(s) e se estiver a utilizar a mdia
e o desvio padro, recalcular estas medidas sem o(s) outlier(s) e fazer um
pequeno relatrio sobre o assunto.

anlise de dados

1. Fazer uma representao grfica dos dados;

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

Calculando a raiz quadrada de 11,18, vem para o desvio-padro s = 3,34

141

Nota mal digitada - Um professor ao digitar, numa folha de clculo, as notas (numa
escala de 0 a 20) que os seus 38 alunos tiveram no teste de Matemtica, enganou-se e ao escrever 15, escreveu 155. Como que este erro pode afectar o valor das
medidas de localizao, mdia e mediana e das medidas de disperso, desvio padro
e amplitude interquartis?
Nitidamente o valor 155 um outlier, que provocar um aumento (substancial) da
mdia, relativamente ao valor que seria o correcto com a nota de 15. A mediana
possivelmente no vir alterada e se houver alterao, no ser significativa. No que
diz respeito s medidas de disperso, o desvio-padro tambm vir inflacionado,
enquanto que a amplitude interquartis no deve ser afectada.
Exemplo:
Notas de trs turmas - Trs turmas do 10. ano fizeram o mesmo teste de
Matemtica, tendo-se construdo os seguintes histogramas para as classificaes
obtidas:

Freq. abs.

6
5
4
3
2
1
0
20

30

40

50

Turma 1

60

70

80

90

100

70

80

90

100

70

80

90

100

Nota

Turma 2
Freq. abs.

5
4
3
2
1
0
20

30

40

50

Turma 2

60
Nota

Turma 3

8
7
6
5
4
3
2
1
0
20

Turma 3

142

Turma 1

Freq. abs.

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

anlise de dados

Exemplo

30

40

50

60
Nota

A turma 3, teve, de um modo geral notas mais altas. Alis, houve mais alunos a ter
notas altas do que baixas, como se depreende pelo enviesamento. Assim, de
esperar que seja a turma 3 a ter maior mdia. Tambm para esta turma se espera
maior mediana que para as outras turmas e alm disso espera-se que a mediana seja
maior que a mdia, pelo tipo de enviesamento apresentado.
Exemplo:
Preo das casas - Recordemos, de novo, o exemplo dos Dados sobre casas. Na
seco 2.5.1 apresentmos um grfico com 3 diagramas de extremos e quartis,
referentes ao preo das casas, nas 3 zonas A, B e C:

A partir das representaes anteriores verificamos que as casas da zona C so as que


tm o preo mais baixo. As casas da zona A so, de um modo geral, mais caras e os
preos apresentam uma grande variabilidade. A distribuio dos preos da zona B ,
de certo modo, atpica, porque na zona central dos dados apresenta um enviesamento
para a esquerda, uma vez que a mediana est mais perto do 3. quartil que do 1.
quartil, enquanto que os dados mais afastados do centro apresentam um
enviesamento para a direita. Esta situao no ocorre com muita frequncia, sendo
mais vulgares os casos apresentados pelas distribuies das zonas A e C. Para esta
situao, apontada para a zona B, j no podemos dizer que a mdia maior ou
menor que a mediana, pois os dois tipos de enviesamento provocam efeitos contrrios, enquanto que para a zona A e C esperamos que a mdia seja superior
mediana. Calculando estas medidas para as 3 zonas, obteve-se o seguinte quadro:

anlise de dados

Grficos de extremos e quartis paralelos, para os preos das casas nas zonas A, B e C

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

A partir das representaes grficas anteriores ser possvel dizer em qual das turmas
se espera maior mdia para o teste? E maior mediana? E em qual das turmas se
espera que a mediana esteja mais afastada da mdia?

143

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

anlise de dados

Zona

Mdia

Mediana

A
B
C

219,14
181,82
131,72

208,88
181,06
126,80

Analisando a tabela, verifica-se que, como se esperava, os preos das casas das
zonas A e C, tm mdias superiores s medianas. Para a zona B obteve-se um valor
para a mdia muito prximo da mediana.
Como se comportaro as medidas de variabilidade? Sugere-se a construo de uma
tabela anloga anterior, com as medidas do desvio padro e da amplitude
interquartis, para analisar as diferenas obtidas.
Exemplo:
Trabalhadores da Empresa Fio de Ouro - Um grupo de trabalhadores, constitudo
por mulheres, foi-se queixar ao sindicato da indstria txtil, alegando que, na
empresa Fio de Ouro, pertencente ao Sr. Silva, o salrio mdio dos homens era
superior ao das mulheres. Ser que tinham razo para se queixarem? A trabalho
igual, o Sr. Silva estava a pagar de forma diferente aos homens e s mulheres? Com
base na tabela fornecida pela contabilidade, vamos averiguar o que se passa com a
questo anterior:

144

Nome

Cargo

Antnio
Filipe
Pedro
Paulo
Jos
Ana
Maria
Rosa
Joo
Filipa
Lus
Joaquim
Verssimo
Eduardo
Fernando Silva
Eugnio
lvaro
Alberto
Beto
Anacleto
Antnio

Tcnico
Tcnico
Tcnico
Administ.
Tcnico
Tcnico
Administ.
Tcnico
Tcnico
Tcnico
Tcnico
Tcnico
Tcnico
Tcnico
Scio-gerente
Tcnico
Tcnico
Tcnico
Tcnico
Tcnico
Administ.

Salrio
809
864
959
621
949
770
655
762
783
853
807
974
821
1037
5500
1006
893
1031
787
801
695

Nome

Cargo

Emlia
Pedro
Joo
Lusa
Cristiano
Ronaldo
Cristina
Valdemar
Vasco
Vanessa
Ctia
Bruno
Raquel
Miguel
Ricardo
Tlio
Tiago
Isabel
Dinis
Daniela
Antnia

Administ.
Tcnico
Tcnico
Administ.
Administ.
Administ.
Tcnico
Tcnico
Administ.
Tcnico
Administ.
Tcnico
Tcnico
Tcnico
Tcnico
Tcnico
Administ.
Administ.
Tcnico
Tcnico
Tcnico

Salrio
687
836
807
665
582
712
915
927
702
909
746
853
853
1028
847
926
747
719
911
945
970

Nome

Cargo

Miguel
Pedro
Telmo
Joo
Lus
Fernanda
Eugnia
Rita
Ana
Filipa
Raquel
Rute
Pedro
Ivete
Joo
Miguel
Eduardo
Tiago
Armando
Valente
Susana

Tcnico
840
Tcnico
837
Administ. 662
Tcnico
884
Tcnico
861
Tcnico
963
Administ. 756
Tcnico
797
Administ. 712
Tcnico
967
Tcnico
1013
Tcnico
816
Administ. 731
Administ. 670
Administ. 742
Administ. 628
Tcnico
799
Tcnico
803
Tcnico
802
Tcnico
831
Tcnico
788

Salrio

6000

1200

5000

1000

4000

800
1. quartil

1quartil

Mnimo
3000

Mnimo

Mediana

600

Mediana

Mximo
3. quartil

2000

1000

Mximo
3quartil

400

200

0
Mulheres

Homens

Mulheres

Homens

Estamos numa situao em que existe um outlier, o salrio de 5500 euros auferido
pelo scio-gerente. Retirou-se este valor dos salrios dos homens e construiu-se de
novo os diagramas de extremos e quartis paralelos, que se apresentam no lado direito
da figura anterior. As representaes obtidas no apresentam praticamente
enviesamento, pelo que vamos utilizar a mdia como medida de localizao do centro dos dados.
Para explorar um pouco mais os dados (sem o outlier), calcularam-se as mdias para
os empregados do sexo feminino e masculino, separando ainda os tcnicos dos
administrativos, tendo-se obtido a tabela seguinte:

Sexo

Administrativo

Tcnico

Feminino
Masculino

701
682

880
877

815
828

691

878

823

Analisando os resultados apresentados na tabela, conclui-se que:


O salrio mdio dos empregados do sexo feminino (=815 euros) um pouco
inferior ao salrio mdio dos empregados do sexo masculino (=828);
No entanto, analisando pelo tipo de cargo, verifica-se que, tanto para os
administrativos como para os tcnicos, o salrio mdio do sexo feminino
superior ao do sexo masculino, pois
Salrio mdio administ. feminino (=701)> Salrio mdio administ. masculino (=682)
Salrio mdio tcnicos feminino (=880)> Salrio mdio tcnicos masculino (=877)
Afinal as mulheres no tinham razo de queixa, pois dentro de cada categoria, o
salrio mdio que auferiam at um pouco superior ao dos homens!
Esta situao paradoxal que acabmos de descrever conhecida como o paradoxo de
Simpson e pode acontecer quando se analisam os dados segundo um determinado critrio
e depois se entra em linha de conta com um novo critrio para discriminar os dados.

anlise de dados

Cargo

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

Pretende-se comparar os salrios dos homens e das mulheres, utilizando medidas de


localizao e de disperso adequadas.
Construram-se os diagramas de extremos e quartis paralelos e obteve-se a
representao do lado esquerdo da figura seguinte:

145

Coeficiente de correlao

Vimos na seco 2.7, que quando temos dados bivariados, uma forma de os
representar graficamente atravs do diagrama de disperso, em que cada par de
dados (x,y) representado, num sistema de eixos ortogonais, por um ponto de
coordenadas (x,y). Obtm-se assim uma nuvem de pontos que nos permite avaliar
de imediato se h ou no uma forte associao entre as duas variveis. A associao
mais simples que os pontos podem apresentar a associao linear e o maior ou
menor grau de proximidade dos pontos a uma linha recta pode ser traduzido
numericamente por um coeficiente a que se d o nome de coeficiente de
correlao linear.
No diagrama de disperso seguinte, esto representados os pares (rea, Preo) das
40 casas que constituem a amostra dos Dados sobre casas. A nuvem de pontos
apresenta-se um pouco dispersa, mas no deixa por isso de ser bem patente a sua
forma alongada que se desenvolve em torno de uma recta com um declive positivo:
400
350
300
Preo

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

anlise de dados

3.4

250
200
150
100
50

100

150

200

rea

Como se v, verifica-se uma tendncia para que casas de maior rea tenham preos
mais elevados.

Tipo de associao linear entre duas variveis


Associao positiva duas variveis dizem-se associadas positivamente se
aos maiores valores de uma correspondem, em mdia, os maiores valores da
outra.
Associao negativa duas variveis dizem-se associadas negativamente se
aos maiores valores de uma correspondem, em mdia, os menores valores da
outra e vice-versa.
O coeficiente de correlao mede a maior ou menor fora com que as variveis se
associam, quer positiva, quer negativamente.

146

O coeficiente de correlao, representa-se por r e calcula-se para os pares de valores


(x1,y1), (x2,y2), , (xn,yn), atravs da seguinte frmula:

que vai ser utilizada, ainda, para justificar graficamente o maior ou menor valor
obtido para o coeficiente de correlao, conforme o aspecto da nuvem de pontos.

Propriedades do coeficiente de correlao:


O valor do coeficiente de correlao r varia entre -1 e 1.
Quanto maior for o valor absoluto de r, mais forte ser a relao linear
existente entre os xs e os ys.
O facto de r ser positivo, significa que a relao entre os xs e os ys do
mesmo sentido, isto , a valores grandes de x, correspondem, em mdia,
valores grandes de y e vice-versa - associao positiva. Quando r negativo,
a relao entre os xs e os ys de sentido contrrio, o que significa que a
valores grandes de x, correspondem, em mdia, valores pequenos de y e viceversa - associao negativa.
A correlao no afectada por uma mudana de unidades das variveis.
Uma vez que no clculo da correlao se utilizam medidas no resistentes,
como o caso da mdia e do desvio padro, ento a correlao tambm pode
ser afectada por outliers. Assim, deve-se comear por fazer a representao
grfica do diagrama de disperso e verificar se no existem pontos discrepantes, que possam influenciar a correlao.

Se aos maiores valores de x, esto associados, de um modo geral, os maiores


valores de y, ento r>0.
Efectivamente, quando pensamos num valor grande de x, ser um valor acima da
mdia. Por outro lado, um valor pequeno de x um valor abaixo da mdia. Ento, se
existe tendncia a que, aos valores grandes de x, estejam associados os valores
grandes de y, e aos valores pequenos de x estejam associados os valores pequenos
de y, os produtos
_
_
(xi x ) (yi y )

anlise de dados

Interpretao geomt ric a :

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

Clculo do coeficiente de correlao:

147

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

anlise de dados

so de um modo geral positivos, j que ambos os factores so positivos ou negativos.


Ento o facto de somarmos grande nmero de parcelas positivas, faz com que o valor
do coeficiente de correlao seja positivo e tanto maior quantas mais parcelas
positivas houver.

Se aos maiores valores de x, esto associados, de um modo geral, os menores


valores de y, ento r<0.
Fazendo o raciocnio como no ponto anterior, verificamos que agora as parcelas so
maioritariamente negativas, j que quando x grande (superior mdia dos xs),
ento existe tendncia para que o y seja pequeno (inferior mdia dos ys). Assim,
os produtos
_
_
(xi x ) (yi y )
so, de um modo geral, negativos.

148

Neste caso tanto podem surgir produtos negativos, como positivos, distribuindo-se de
forma mais ou menos equitativa. Ento o valor de r vem prximo de zero.

Mais uma vez chamamos a ateno que o coeficiente de correlao mede unicamente
a relao linear existente entre as variveis e no outro tipo de ligao. Por exemplo,
o seguinte diagrama de pontos indica uma forte associao entre as variveis x e y:
Y
30
25
20
15
10

0
-5

As variveis esto relacionadas pela equao y = 2 + x2, e no entanto o coeficiente


de correlao r = 0.
Na interpretao do coeficiente de correlao deve-se chamar a ateno para o facto
de que a existncia de correlao elevada entre duas variveis no significa
necessariamente uma relao de causa-efeito. Pode verificar-se a existncia de uma
ou mais variveis relacionadas com as variveis em estudo, a provocar aquelas
correlaes referidas como correlaes falsas.

anlise de dados

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

Se no existe associao linear entre os xs e os ys, ento r=0.

149

Exemplo:
Ser que o vinho bom para o corao? (Moore, 1997) H a convico de que
o consumo moderado de vinho ajuda a prevenir ataques cardacos. Na tabela seguinte
apresentamos, para 19 pases desenvolvidos, alguns valores respeitantes ao consumo
anual de vinho (litros de lcool obtidos a partir do consumo de vinho, por pessoa) e
a taxa de mortes anuais por doenas cardacas (mortes por 100 000 pessoas):
Pas
Austrlia
ustria
Blgica
Canad
Dinamarca
Finlndia
Frana
Islndia
Irlanda
Itlia

lcool

Taxa de mortes

Pas

lcool

Taxa de mortes

2,5
3,9
2,9
2,4
2,9
0,8
9,1
0,8
0,7
7,9

211
167
131
191
220
297
71
211
300
107

Holanda
N.Zelndia
Noruega
Espanha
Sucia
Sua
R. Unido
EUA
Alemanha

1,8
1,9
0,8
6,5
1,6
5,8
1,3
1,2
2,7

167
266
227
86
207
115
285
199
172

Faa um estudo sobre o assunto, a partir dos dados anteriores.


Comeamos por construir um diagrama de disperso que nos d uma ideia de uma
associao linear negativa entre o consumo de
350
300
vinho e a taxa de mortes por ataques cardacos,
250
pois aos maiores valores da varivel consumo de
200
150
vinho, aqui representada por lcool, corres100
pondem, de um modo geral, os menores valores
50
0
da varivel Taxa de mortes.
0
2
4
6
8
10
Para medir a fora desta associao calculmos o
lcool
coeficiente de correlao, tendo obtido r = -0,84,
o que traduz inequivocamente uma forte associao negativa entre as duas variveis.
Taxa de mortes

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

anlise de dados

Para a nuvem de pontos referente aos pares (rea, Preo) obteve-se como coeficiente
de correlao linear o valor r=0,68. Este valor evidencia uma correlao positiva no
muito forte, confirmando a observao feita anteriormente de que a nuvem se
apresenta bastante dispersa e com uma inclinao positiva h tendncia para que
casas de maior rea tenham preos mais elevados, mas a rea, por si s, no
consegue explicar na sua totalidade o preo da casa.

Ento podemos concluir que quanto mais lcool consumirmos, menor a probabilidade
de morrer de um ataque cardaco? No! A associao no deve ser interpretada como
causa efeito. Pode, eventualmente, haver outras variveis, com que no estamos a
entrar em linha de conta, que contribuam para a associao linear verificada entre as
variveis cuja associao se est a estudar. Se formos, por exemplo, estudar para uma
determinada poca do ano, a associao entre o consumo dirio de gelados e o nmero
dirio de incndios, podemos obter uma forte associao positiva entre aquelas duas
variveis. Poderemos assim concluir que comer gelados provoca incndios? Obviamente
que no. O que acontece que com o aumento de calor verifica-se o aumento do
consumo de gelados, o mesmo acontecendo com o nmero de incndios.

150

Idade e altura das crianas (Graa Martins, 1999) - A tabela seguinte apresenta
os valores das idades em meses e das alturas de algumas crianas de uma escola:
Criana

Idade (meses)

Altura (cm)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

109
113
115
116
119
120
121
124
126
129
130
133
134
135
137
139
141
142

137,6
147,8
136,8
140,7
132,7
145,4
135,0
133,0
148,5
148,3
147,5
148,8
133,2
148,7
152,0
150,6
165,3
149,9

Representando os dados num diagrama de pontos obtm-se:

Altura

160
150
140
130
100

110

120

130

Idade

140

150

Este grfico mostra a existncia de uma certa


associao linear, no muito forte, dando a
indicao de que existe tendncia para que quanto
maior for a idade, maior seja a altura.
O valor do coeficiente de correlao 0,60, o que
vai de encontro ao que se disse anteriormente.

anlise de dados

170

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

Exemplo:

151

PROBABILIDADE

Neste captulo faz-se uma breve introduo interpretao


frequencista de Probabilidade, de uma forma que se pretende
elementar e intuitiva. Do-se algumas indicaes sobre o clculo de
probabilidades de alguns acontecimentos, em situaes especiais de
simetria.

4.1

Introduo

A abordagem do conceito de Probabilidade s se justifica, a este nvel, de forma muito


elementar e intuitiva. Todos ns, no dia a dia, fazemos conjecturas sobre a realizao
de um acontecimento futuro. comum ouvir-se dizer:
pouco provvel que amanh chova...;
a probabilidade de haver uma pessoa com 3 metros de altura zero;
a probabilidade do prximo beb, de uma determinada famlia, ser do sexo
masculino aproximadamente 50%;
a probabilidade de lanar uma moeda de 1 euro ao ar e sair a face com o 1,
50%;
a probabilidade de amanh o sol nascer um; a probabilidade de ganhar no
Euromilhes quase nula; etc.
Ao exprimirmo-nos da forma anterior, no estamos mais do que a anunciar o nosso
grau de convico na realizao de algum acontecimento. Para exprimir esta
convico estamos a recorrer, embora intuitivamente, frequncia relativa com que
o acontecimento se pode repetir.
Consideremos de novo o exemplo dos Dados sobre casas e suponhamos que na regio
onde se recolheu a informao da tabela, se recolhia informao sobre mais uma
casa, escolhida ao acaso. Algumas questes que se podem colocar sobre essa outra
casa so as seguintes:

Na pgina 24, em que organizmos a informao constante da tabela com os dados


sobre casas, verificamos que das 40 casas, 31 so usadas e 9 so novas. Ento,
natural esperar que seja mais provvel que esta outra casa seja usada. Por outro
lado, esperamos que a probabilidade de, na dita regio, encontrar venda uma casa
usada, esteja prxima de 80%, j que a frequncia relativa obtida para o
acontecimento Casa usada foi 77,5%.
A probabilidade de um determinado acontecimento aleatrio d-nos a percentagem de vezes que se espera que ele acontea, se se repetir a experincia,
um grande nmero de vezes, nas mesmas condies.
No exemplo das casas, a experincia consiste em seleccionar uma casa ao acaso e
em verificar se a casa usada ou nova. Existem dois acontecimentos possveis para
o estado da casa e por essa razo que o resultado da experincia aleatrio: antes
de verificar a casa, no temos informao suficiente para saber qual dos
acontecimentos se vai verificar, se usada ou nova.

anlise de dados

Qual ser um valor aproximado para a probabilidade de a casa ser usada?

PROBABILIDADE

Ser mais provvel que essa casa seja nova ou usada?

155

Quando lanamos um dado ao ar, tambm no sabemos de antemo, qual a face que
vai sair. Sabemos partida, antes de realizar a experincia de lanar o dado ao ar,
que pode sair qualquer uma das faces numeradas de 1 a 6, mas no temos
informao suficiente para dizer qual das faces que vai sair, na prxima realizao
da experincia. por essa razo que se diz que a sada da face com 5 pintas, por
exemplo, um acontecimento aleatrio.
As probabilidades assumem valores numa escala de 0% a 100%. Se um
acontecimento impossvel, atribui-se-lhe uma probabilidade de 0% (ou 0). Se temos
a certeza que um acontecimento se vai verificar, ento atribui-se-lhe a probabilidade
de 100% (ou 1).

A probabilidade de um acontecimento no se verificar igual a 100% menos


a probabilidade de se verificar.
Assim, como atribumos anteriormente um valor aproximado de 80% ao
acontecimento A casa usada, podemos dizer que um valor aproximado para a
probabilidade do acontecimento A casa nova 20%.

PROBABILIDADE

anlise de dados

Exemplo:

156

Qual a probabilidade? (Freedman et al., 1991) Um computador est programado


para calcular vrias probabilidades. Associe as respostas numricas com as descries
verbais seguintes:
(a)
(b)
(c)
(d)
(e)
(f)
(g)

-50%
0%
10%
50%
90%
100%
200%

(i) to provvel acontecer, como no acontecer


(ii) muito provvel que acontea, mas no certo
(iii) Isto no pode acontecer
(iv) Pode acontecer, mas pouco provvel
(v) Isso acontecer, de certeza
(vi) H um erro no programa

Nos valores numricos, existem 2 que no podem ser probabilidades. Assim, s


podem ser atribudos a um erro no programa, donde (vi) corresponde a (a) e (g). Se
um acontecimento to provvel de acontecer, como de no acontecer, ento temos
que (i) corresponde a (d). As outras associaes so (ii) a (e); (iii) a (b); (iv) a (c) e
(v) a (f).

4.2

Clculo de probabilidades numa situao especial

O argumento utilizado na seco anterior para exprimir um valor para a probabilidade


de um acontecimento se verificar, exige que a experincia se possa repetir um grande
nmero de vezes, nas mesmas condies.
Por exemplo, suponha que tem uma caixa com 10 rifas, numeradas de 1 a 10, em
que 2 das rifas, por exemplo as rifas 9 e 10, do prmio. Qual a probabilidade de ao
retirar uma rifa, ao acaso, ela ter prmio? Admitindo que as rifas so iguais e se baralharam antes de retirar uma, qualquer uma delas tem igual possibilidade de ser
retirada. Imagine que retira uma rifa, verifica se tem prmio e repe a rifa novamente
na caixa, repetindo este processo muitas vezes. Ao fim de muitas extraces, cada
uma das rifas extrada cerca de 10% das vezes, pelo que as rifas premiadas sero
extradas cerca de 20% das vezes.
Suponha agora que a caixa tem 100 rifas, numeradas de 1 a 100, e as 20 rifas
numeradas de 81 a 100 do prmio. Qual a probabilidade de retirar uma rifa
premiada? Repetindo o processo como anteriormente, cada rifa sai cerca de 1 vez em
100, pelo que as premiadas sairo aproximadamente 20 vezes em 100, ou seja cerca
de 20% das vezes.

E se o dado tiver 2 faces de cor cinza e 4 vermelhas? Quantas vezes se espera que
saia da cor cinza, nos 600 lanamentos? Como agora s temos duas faces de cor
cinza, esperamos que um tero das vezes saia a cor cinza, ou seja, aproximadamente
200 vezes. Ento agora a probabilidade de sair a cor cinza de 1 em 3, ou seja 1/3.
Nos exemplos anteriores, no raciocnio utilizado para calcular as probabilidades dos
acontecimentos desejados, colocmo-nos sempre numa situao especial situao
de simetria, em que todos os resultados possveis das experincias estavam em
igualdade de circunstncias e no tnhamos razo para privilegiar algum(s)
resultado(s) relativamente aos outros. Quando falmos em retirar uma rifa,
estvamos a dar igual possibilidade a cada uma das rifas, da caixa, de ser
seleccionada.

anlise de dados

Suponha agora que tem um dado de 6 faces que, em vez de terem pintas esto
pintadas: 3 faces esto pintadas de cor cinza e as outras 3 de vermelho. Suponha que
lana o dado 600 vezes. Quantas vezes se espera que saia a face cor cinza? E a face
vermelha? Se o dado estiver bem construdo, cada face tem igual possibilidade de
sair, pelo que como existem 3 faces de cor cinza, esperamos que elas saiam,
aproximadamente, metade das vezes, ou seja cerca de 300 vezes. Assim, existe igual
probabilidade de sair a face de cor cinza ou a face vermelha.

PROBABILIDADE

Em ambas as situaes anteriores a probabilidade de tirar rifa com prmio, idntica,


j que a proporo de rifas premiadas era a mesma nas duas caixas.

157

O mesmo acontece no lanamento do dado (equilibrado), em que damos igual


possibilidade de sair cada uma das 6 faces, em cada lanamento. No entanto, se
tivssemos cortado um vrtice ao dado

j as faces no estariam em igualdade de circunstncias, pelo que j no poderamos


esperar que, em muitos lanamentos, se verificasse a mesma proporo de vezes
para cada face. Ento neste caso, como que podemos estimar a probabilidade de
sair cada face, no prximo lanamento do dado? A nica soluo fazer muitos
lanamentos, calcular a proporo de vezes que se verificou a sada de cada uma das
faces e utilizar esse valor, para estimar a probabilidade desejada.

PROBABILIDADE

anlise de dados

Existem situaes em que gostaramos de conhecer a probabilidade de se verificar


determinado acontecimento, mas em que no estamos numa situao de simetria,
nem possvel repetir a experincia um grande nmero de vezes, nas mesmas
circunstncias, de forma a utilizar a frequncia relativa com que o acontecimento
acontece, para estimar a probabilidade de ele se verificar. Nestas situaes teremos
de utilizar alguma informao que nos possa ajudar a exprimir o nosso grau de
convico na realizao desses acontecimentos. Por exemplo, no igualmente
provvel que o prximo Presidente da Repblica seja homem ou mulher. Com a
informao que temos do passado, natural que se atribua ao acontecimento o
prximo presidente homem uma probabilidade de 100%.

158

Exemplo:
O jogo com berlindes Numa caixa esto 6 berlindes, 2 de cor cinza e 4 vermelhos.
Quando retira o berlinde anota a cor e repe outra vez na caixa.

Ao fim de 300 extraces, quantos euros espera ganhar:


a) Se por cada berlinde cinza que sair, ganhar 1 euro?
b) Se por cada berlinde cinza ganhar 2 euros e por cada berlinde vermelho
perder um euro?
Como nas 300 extraces (com reposio) se espera que saia cerca de 100 vezes
berlinde cinza, e nas outras vezes berlinde vermelho, na primeira situao espera-se
ganhar 100 euros, enquanto que na segunda situao se espera ganhar 200 euros e
perder outros 200 euros, pelo que nesta segunda hiptese no de esperar ganhar
nem perder.

Exemplo:
As duas caixas de berlindes Suponha que tem as seguintes caixas, cada uma
com 5 berlindes cinza e vermelhos. Quando se retira um berlinde, se ele for cinza
ganham-se 2 euros, se for vermelho ganha-se 1 euro:

Do-lhe a possibilidade de escolher uma das 2 caixas para fazer 100 extraces, com
reposio. Qual das caixas prefere?

PROBABILIDADE

anlise de dados

Em cada extraco existem 2 possibilidades em 5 de sair um berlinde de cor cinza, se


se fizer a extraco da caixa 1, enquanto que se for da caixa 2, essas possibilidades
diminuem para metade. Assim, nas 100 extraces, espera-se que a cor cinza saia
cerca de 40 vezes ou 20 vezes se fizermos as extraces da caixa 1 ou da caixa 2,
respectivamente. ento prefervel a Caixa 1, j que com esta esperamos ganhar 140
euros (40x2+60x1), enquanto que com a outra s esperamos ganhar 120 euros
(20x2 + 80x1).

159

Tarefa
Vamos lanar dois dados

Na escola o professor props o seguinte jogo para ser jogado entre a Rita, o Joo e
o Miguel: lanam-se 2 dados de 6 faces e verifica-se a soma das pintas dos dados,
que pode ir de 2 a 12. Se a soma for 2, 3, 4 ou 5 o Joo ganha um ponto; se for 6,
7 ou 8 ganha a Rita um ponto; finalmente, se for 9, 10, 11 ou 12, ganha o Miguel. A
Rita ficou muito zangada com o professor, dizendo que este a estava a desfavorecer,
uma vez que aos outros colegas dava 4 possibilidades, enquanto que a ela s dava 3.
Ser que ela tinha razo?
Para ser mais fcil de descrever a actividade, vamos considerar dois dados em que
um preto e o outro branco. Vamos esquematizar todas as situaes possveis de
se verificarem, quando se lanam os dois dados:
Suponhamos que no dado preto saiu 1 pinta. Ento no dado branco pode ter sado
qualquer valor de 1 a 6:

Repetindo o processo, mas agora com 2, 3, ..., 6 pintas no dado preto, obtemos a
figura seguinte, onde temos esquematizado todos as situaes possveis, em nmero
de 36:

Vamos considerar uma tabela com os nmeros das pintas e a soma respectiva:

160

6+1=7
5+1=6
4+1=5
3+1=4
2+1=3
1+1=2

6+2=8
5+2=7
4+2=6
3+2=5
2+2=4
1+2=3

6+3=9
5+3=8
4+3=7
3+3=6
2+3=5
1+3=4

6+4=10
5+4=9
4+4=8
3+4=7
2+4=6
1+4=5

6+5=11
5+5=10
4+5=9
3+5=8
2+5=7
1+5=6

6+6=12
5+6=11
4+6=10
3+6=9
2+6=8
1+6=7

Analisando com cuidado a tabela anterior, verificamos que existem algumas somas
que surgem com mais frequncia do que outras. Por exemplo a soma 12 s aparece
quando sair 6 pintas nos dois dados

enquanto que a soma 5 aparece nas seguintes situaes

Resultado da soma das


pintas

Nmero de vezes que se


pode verificar

Quem ganha

2
3
4
5
6
7
8
9
10
11
12

1
2
3
4
5
6
5
4
3
2
1

Joo
Joo
Joo
Joo
Rita
Rita
Rita
Miguel
Miguel
Miguel
Miguel

Ento quando se lanam os dois dados, de acordo com as regras estipuladas para o
jogo:

a Rita tem 16 (5+6+5) possibilidades de ganhar;


o Miguel tem 10 (4+3+2+1) possibilidades de ganhar.
Afinal a Rita no tinha razo, pois estava a ser privilegiada neste jogo, que no era
um jogo justo.
O professor ento props que redistribuissem os resultados possveis pelos 3 colegas,
de forma a transformarem um jogo que no era justo, num jogo justo. Depois de
alguma discusso, propuseram a seguinte regra: se a soma for 2, 7 ou 8 o Joo ganha
um ponto; se for 4, 5 ou 6 ganha a Rita um ponto; finalmente, se for 3, 9, 10, 11 ou
12, ganha o Miguel. Ser que chegaram a uma boa soluo?

anlise de dados

o Joo tem 10 (1+2+3+4) possibilidades de ganhar;

PROBABILIDADE

Ento conclumos que enquanto a probabilidade de o 12 sair de 1 em 36, o 5 tem


uma probabilidade maior, de 5 em 36. A partir da tabela anterior podemos construir
uma outra tabela, com o nmero de vezes que pode sair cada resultado para a soma
das pintas, quando se lanam 2 dados:

161

Ao nvel do 1. ciclo do ensino bsico, a forma como se trabalha a noo de


probabilidade deve ser alicerada em exemplos simples e intuitivos. Podem comear
por se apresentar exemplos idnticos ao considerado na Introduo deste captulo,
nomeadamente quando se refere uma casa escolhida ao acaso, na regio onde se
recolheu a informao que consta do ficheiro Dados sobre casas.
Sugerimos ainda questes como a que apresentamos na Tarefa Quais os nossos
animais domsticos, do Captulo 2. Ou ainda questes como a que apresentamos de
seguida:

O que mais provvel?

Numa turma com 28 alunos, 20 so raparigas e 8 so rapazes. Dos 28 alunos, 14 tm


olhos castanhos e os outros 14 tm olhos de outra cor. Tambm se sabe que 10 dos
alunos (rapazes ou raparigas) so louros. O professor que usava fichas, cada uma
com o nome de um dos alunos, um dia chegou turma, baralhou as fichas como
quem baralha um baralho de cartas e seleccionou uma ao acaso, para que o aluno
cujo nome constava da ficha seleccionada, fosse ao quadro fazer um problema.
a) mais provvel que tenha sido seleccionado um rapaz ou uma rapariga?
b) O que que mais provvel: que o aluno tenha olhos castanhos ou de outra
cor?
c) O que que mais provvel: que o aluno seja louro ou no seja louro?
Para responder a estas questes, os alunos devem ter sensibilidade para verificar que
quantos mais alunos houver pertencentes a determinada categoria, mais provvel
ser seleccionado um aluno pertencente a essa categoria. Assim, ser mais provvel
ser seleccionada uma rapariga, existe igual probabilidade de ser seleccionado um
aluno de olhos castanhos e um que no tenha olhos castanhos, etc.

162

Tarefa proposta

Vamos lanar dois dados (cont.)

Uma verso desta tarefa pode ser realizada na sala de aula da seguinte forma: o
professor coloca numa taa de plstico transparente alguns smarties (em nmero
superior ao nmero de alunos da turma). O professor lana 2 dados e conforme o
nmero que se verificar para a soma das pintas das faces que ficam voltadas para
cima, retira um smartie da taa e coloca no prato do Joo, da Rita ou do Miguel (na
figura, exemplificamos uma situao em que a soma igual a 3, pelo que o smartie
foi colocado no prato do Joo). Quando se esgotarem os smarties da taa, ganha
aquele que tiver maior nmero de smarties no seu prato. Quem que se espera que
ganhe?

No fim do jogo todos os alunos tm direito a um smartie, ficando o aluno ganhador


com os que sobram.
A seguir apresentamos outras actividades, que o professor decidir da oportunidade
de as realizar ou no, na sala de aula.

163

Ser que a moeda


equilibrada?

Na turma, constituda por 2 rapazes o Tiago e o Ricardo, e 16 raparigas, era


necessrio escolher um aluno rapaz, para pertencer a uma comisso que tinha de
integrar os dois sexos. Como s havia dois rapazes decidiram atirar uma moeda de 1
euro ao ar. Se sasse a face Euro (E) seria escolhido o Ricardo, caso contrrio, se
sasse a face Nacional (N) seria o Tiago. Antes de lanarem a moeda, o Tiago
questionou o professor sobre se esse processo de seleco seria justo. Quem que
lhe garantia que houvesse 50% de possibilidade de ser ele o escolhido? Ou por outras
palavras, o que ele desejava saber era se a moeda era equilibrada.
Decidiram fazer uma experincia de lanar a moeda algumas vezes e registar os
resultados obtidos. Ao fim de 10 lanamentos, os resultados obtidos foram os
seguintes:
N

Estes resultados no sossegaram o Tiago, pois ele comeou a pensar que s teria
40% de possibilidades de ser seleccionado, uma vez que em 10 vezes a moeda s lhe
foi favorvel 4 vezes!

164

O grfico seguinte mostra a evoluo da frequncia relativa da sada da face N,


medida que se fazem os sucessivos lanamentos da moeda:

0.8

Freq. rel.

0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0

10

20

30

40

50

60

70

80

90

100

N. de lanamentos

Tendo em conta os resultados anteriores, verifica-se que a frequncia relativa da


sada da face Nacional, tende a estabilizar volta dos 50%. Assim, no temos razo
para rejeitar a hiptese de a moeda ser equilibrada, dando 50% de probabilidade a
cada face.

anlise de dados

1
0.9

PROBABILIDADE

O professor chamou ento a ateno para o facto de se ter de realizar a experincia


um grande nmero de vezes, pois com 10 lanamentos no podemos tirar qualquer
concluso. Fizeram ento mais 90 lanamentos, tendo obtido os seguintes resultados:

165

Quem que ganha o jogo?

Na escola o professor props o seguinte jogo a ser jogado por dois alunos, o David e
o Antnio: lanam-se duas moedas e em cada lanamento, se sairem faces
diferentes, o David ganha um ponto; caso contrrio ganha o Antnio o ponto. Ganha
o jogo, aquele que, ao fim de 50 jogadas tiver ganho mais pontos. Quem que
ganhar o jogo?
Vamos agora simular o lanamento de 2 moedas equilibradas, generalizando o exemplo anterior, em que se lanou uma moeda.

166

PROBABILIDADE

anlise de dados

Neste jogo ganhou o Antnio, pois ao fim de 50 jogadas tinha alcanado 26 pontos,
enquanto que o David tinha 24 pontos. Resolveram jogar novamente o mesmo jogo,
tendo obtido os resultados seguintes:

167

PROBABILIDADE

anlise de dados

Desta vez ganhou o David! Resolveram fazer ainda um 3. jogo para a desforra e
obtiveram os seguintes resultados:

168

Agora empataram!

Uma verso deste exemplo pode ser realizado na sala de aula, em que o professor
desenha no quadro um trajecto que ser percorrido pelos alunos que esto a jogar,
da seguinte maneira: sempre que um dos alunos ganha, avana uma quadrcula.
Ganhar o que chegar mais rpido meta.

David

anlise de dados

Antnio

PROBABILIDADE

Afinal no se pode dizer partida quem que sair o vencedor, pois qualquer um dos
dois alunos tem igual chance de ganhar o jogo.

169

Tarefa proposta
Moedas no equilibradas
(Adaptado de Rossman, A. et al., 2001)

Na turma onde se realizou a actividade anterior, os alunos ficaram muito


entusiasmados com a experincia feita, de tal modo que o professor resolveu propor
ainda uma outra actividade relacionada com moedas. Tinha consigo 6 moedas, 5 das
quais no tinham passado nos testes de controlo de qualidade e tinham sido
rejeitadas por alegadamente no serem dadas como equilibradas. Para cada uma
destas 6 moedas, a probabilidade de sair a face Nacional era:
Moeda A: 1 em 4 ou 1/4

Moeda B: 1 em 3 ou 1/3

Moeda C: 1 em 2 ou 1/2

Moeda D: 3 em 4 ou 3/4

Moeda E: 4 em 5 ou 4/5

Moeda F: 99 em 100 ou 99/100

Com o objectivo de identificar qual das moedas seria a A, B, ..., F, lanou-se cada
moeda 5 vezes, tendo-se obtido os seguintes resultados:
N. do
lanamento

1. moeda

2. moeda

3. moeda

4. moeda

5. moeda

6. moeda

1
2
3
4
5

N
N
E
N
N

N
N
N
N
N

E
E
N
E
E

N
N
N
E
N

N
N
N
N
N

E
N
E
E
E

Freq. relativa
Qual a moeda?

a) Preencher a linha das frequncias relativas com a proporo de faces


nacionais obtidas nestes 5 lanamentos, de cada uma das moedas.
Preencher a seguir a ltima linha com a letra da moeda que suspeita ter sido
a 1., 2., , ou 6..
b) Tem confiana que as suas suspeitas estejam correctas? Explique porqu.
c) Suponha que se fizeram mais 5 lanamentos para cada uma das moedas,
sendo agora as frequncias relativas as apresentadas na tabela seguinte.
Com esta informao adicional, tente novamente associar as moedas com as
probabilidades respectivas.

170

10 lanamentos

1. moeda

2. moeda

3. moeda

4. moeda

5. moeda

6. moeda

Freq. relativa
Qual a moeda?

0,70

0,90

0,20

0,80

1,00

0,20

d) Suponha agora que lana as moedas mais 15 vezes e posteriormente mais


25 vezes, obtendo as frequncias relativas apresentadas nas tabelas
seguintes. Mais uma vez se pede que preencha a ltima linha das tabelas:
25 lanamentos

1. moeda

2. moeda

3. moeda

4. moeda

5. moeda

6. moeda

Freq. relativa
Qual a moeda?

0,56

0,88

0,28

0,88

1,00

0,20

50 lanamentos

1. moeda

2. moeda

3. moeda

4. moeda

5. moeda

6. moeda

Freq. relativa
Qual a moeda?

0,58

0,92

0,26

0,78

1,00

0,32

e) Depois dos 50 lanamentos, estar-se- razoavelmente seguro que as


moedas esto correctamente identificadas? Explique porqu.
f) O seguinte grfico mostra a evoluo da frequncia relativa para as 6
moedas, medida que o nmero de lanamentos aumenta:
1.0
0.9
0.8
Freq. rel.

0.7
0.6
0.5
0.4
0.3
0.1
0.0
0

10

20

30

40

50

60

70

80

90

100

Comente o que que este grfico revela sobre a probabilidade, como um conceito
sobre o comportamento de um processo aleatrio a longo-termo e no a curto-termo.

anlise de dados

N. de lanamentos

PROBABILIDADE

0.2

171

Na preparao destas folhas, seguiu-se essencialmente a seguinte bibliografia:

Bereska, C. et al. (1999) Exploring Statistics in the Elementary Grades, Dale


Seymour Publications
De Veaux, R. D. et al. (2004) Intro Stats, Pearson Addison Wesley.
Freedman, D. et al. (1991) Statistics, W.W. Norton & Company, Inc.
Graa Martins, M.E. (2005) Introduo Probabilidade e Estatstica Com complementos de Excel, Sociedade Portuguesa de Estatstica.
Graa Martins, M. E. et al. (1999) Introduo s Probabilidades e Estatstica,
Universidade Aberta.
Graa Martins, M. E. et al. (1999) Probabilidades e Combinatria, Ministrio da
Educao, Departamento do Ensino Secundrio.
Graa Martins, M. E. et al. (2005) Estatstica Computacional Anexo para apoio
interpretao do program, Mdulo B2 para os Cursos Profissionais. Departamento de
Estatstica e Investigao Operacional, FCUL.
Rossman, A. et al. (2001) - Workshop Statistics Discovery with Data, Key College
Publishing.
Tanenbaum, P. et al. (1998) Excursions in Modern Mathematics, Prentice-Hall, Inc.
Artigos da revista Teaching Statistics
Neville, H. (2003) Handling Continuous Data in Excel, Vol 25, 2, pag. 42-45.
Neville, H. (2004) Charts in Excel, Vol 26, 2, pag. 49-53.
Neville, H. (2006) Boxplot in Excel, www.mis.coventry.ac.uk/~nhunt/boxplot.htm
Recursos na Internet
Projecto ALEA: www.alea.pt

173

Alguma bibliografia relacionada com o ensino da estatstica, no exclusivamente no 1. ciclo do Ensino Bsico
Abrantes, P.; Serrazina, L. e Oliveira, I. (1999). A Matemtica na Educao Bsica.
Lisboa: Ministrio da Educao.
Azarquiel (1993). Estatstica no 3. ciclo do Ensino Bsico. Lisboa: APM.
DEB (2001). Currculo Nacional do Ensino Bsico Competncias Essenciais.
Ministrio da Educao. Departamento da Educao Bsica.
Ministrio da Educao (1990). Programa do 1. ciclo do Ensino Bsico. Lisboa:
Ministrio da Educao.
NCTM (1991). Normas para o currculo e a avaliao em Matemtica escolar. Lisboa:
APM.
NCTM (1993). Normas para o currculo e a avaliao em Matemtica Escolar
- Coleco de adendas (do 1. ao 6. ano de escolaridade ). Lisboa: APM.
NCTM (2001). Normas para o currculo e a avaliao em Matemtica Escolar. Lidar
com dados e probabilidades (anos de escolaridade 5-8). Lisboa: APM.
NCTM (1994). Normas Profissionais para o Ensino da Matemtica. Lisboa: APM.
NCTM (1999). Normas para a Avaliao em Matemtica Escolar. Lisboa: APM.
NCTM (2000). Principles and Standards for School Mathematics. Reston: NCTM.
Palhares, P. (coord.). (2004). Elementos de Matemtica para professores do Ensino
Bsico. Lisboa: Lidel.
Ponte, J.P. e Serrazina, M.L. (2000). Didctica da Matemtica do 1. Ciclo. Lisboa:
Universidade Aberta.
Revista Educao e Matemtica, da APM: Associao de Professores de Matemtica.

174