Você está na página 1de 176

anlise de dados

DADOS e VARIVEIS

Biblioteca Nacional Catalogao Nacional MARTINS, Maria Eugnia Graa, 1947, e outros

Anlise de Dados: texto de apoio para os professores do 1. ciclo/Maria Eugnia Graa Martins, Lusa Canto e Castro Loura, Maria de Ftima Mendes ISBN 978-972-742-261-6 l LOURA, Lusa Canto e Castro, 1954ll MENDES, Maria de Ftima, 1963CDU 371 51

icha Tcnica

Anlise de Dados Texto de Apoio para os Professores do 1. ciclo Editor Ministrio da Educao Direco-Geral de Inovao e de Desenvolvimento Curricular Autores Maria Eugnia Graa Martins, Lusa Canto e Castro Loura, Maria de Ftima Mendes Design Manuela Loureno Execuo Grfica Editorial do Ministrio da Educao Tiragem 7500 Exemplares Depsito Legal 262 674/07 ISBN 978-972-742-261-6

Nota de Apresentao
No mbito do Programa de Formao Contnua em Matemtica iniciado em 2005 para os professores do 1. ciclo e que se alargou no ano seguinte aos professores do 2. ciclo, foram identificados aspectos e temas relevantes para a formao em Matemtica dos professores do Ensino Bsico. Uma das vertentes que se destacou foi a importncia de ter disponveis documentos cientficos que incidam nas temticas abordadas nos primeiros anos de escolaridade. A publicao desta brochura sobre Anlise de Dados concretiza a iniciativa de organizar publicaes de matemtica focadas nas temticas centrais do currculo do Ensino Bsico. A partir de uma proposta da Comisso de Acompanhamento do Programa de Formao Contnua em Matemtica, o Ministrio da Educao, atravs da Direco-Geral de Inovao e de Desenvolvimento Curricular, convidou Maria Eugnia Graa Martins, Lusa Canto e Castro Loura e Maria de Ftima Mendes a elaborar uma brochura que apoiasse, do ponto de vista cientfico, os professores do Ensino Bsico no domnio da organizao, anlise e interpretao de dados. Esta publicao constitui-se como um importante recurso posto disposio dos professores numa temtica que assume cada vez maior relevncia no mundo de hoje. Paralelamente, marca a afirmao da importncia da temtica da Anlise de Dados desde os primeiros anos de escolaridade apoiando o professor no desenvolvimento do seu conhecimento matemtico. Lisboa, 20 de Julho de 2007

O Director da Direco-Geral de Inovao e de Desenvolvimento Curricular

Lus Capucha

Prefcio
Esta brochura foi organizada no mbito do Programa Nacional de Formao Contnua em Matemtica para professores do 1. ciclo do Ensino Bsico. A sua finalidade constituir um instrumento de apoio, cientfico e didctico, no domnio da organizao, anlise e interpretao de dados. A publicao foi organizada de modo a incluir duas vertentes, a primeira das quais relacionada com os conhecimentos cientficos associados Estatstica, onde se procurou transmitir, de forma clara e simples, os conceitos e procedimentos que consideramos fundamentais serem do conhecimento de um professor do Ensino Bsico. medida que esses conceitos e procedimentos so desenvolvidos, vo sendo apresentados exemplos ilustrativos a partir de contextos do dia-a-dia. Para alm dos exemplos so ainda propostas diversas tarefas, que possibilitam ao professor uma melhor apropriao dos conceitos envolvidos. A outra vertente, de mbito mais didctico, pretende constituir um recurso para o trabalho a ser desenvolvido na sala de aula no mbito da educao estatstica. Assim, e ao longo de todos os captulos, so apresentadas e exploradas tarefas que podem ser propostas a alunos do Ensino Bsico. Foi ainda preocupao das autoras, dar exemplos, para alm dos relacionados com a vida de todos os dias, de contextos provenientes de outras reas curriculares. Considerando que hoje em dia o computador faz parte, cada vez mais, do nosso quotidiano, sugerimos, a propsito da construo de diferentes modos de organizao de dados, o recurso ao Excel, uma ferramenta informtica de utilizao acessvel e que facilita muitos dos procedimentos propostos. A explorao feita ao nvel dos conceitos e processos de organizao, anlise e interpretao de dados, vai um pouco para alm de todo o trabalho a desenvolver na sala de aula. No entanto, cremos que um professor no deve esgotar o seu conhecimento no que explora com os seus alunos, necessrio que tenha um conhecimento slido e mais aprofundado sobre os mesmos assuntos. Por outro lado fundamental que a actividade na sala de aula, em torno da anlise de dados, seja realizada de forma integrada no desenvolvimento de projectos que partam do interesse dos alunos e contribuam para o desenvolvimento das competncias estatsticas. Acreditamos que a publicao desta brochura possa contribuir para considerar a literacia estatstica como uma vertente fundamental para o desenvolvimento de cidados crticos e intervenientes, apesar de, at agora, no currculo do ensino bsico dos primeiros anos, o papel que lhe tem sido atribudo ter sido pouco relevante.

As autoras

I ndice
Captulo Dados e Variveis ........................................................................................
9 9 11 13 17 17 19 20 Objectivo ....................................................................................................................... 1.1 Introduo .................................................................................................................... 1.2 Dados e Variveis.......................................................................................................... Na Sala de Aula ................................................................................................................. Tarefa Vamos conhecer a turma!.................................................................................... Tarefa Vamos conhecer os animais I .............................................................................. Tarefa proposta..................................................................................................................

Captulo

Organizao dos dados em tabelas e grficos ...............................

21 21 23 24 24 25 25 26 28 29 30 30 33 33 34 34 35 37 38 43 44 47 48 51 53 55 59 59 61 61 62 65 68 72 72 75 77 77 81 82 84

Objectivo ....................................................................................................................... 2.1 Introduo .................................................................................................................... 2.2 Tabelas e grficos para dados qualitativos.................................................................. 2.2.1 Tabela de frequncias para dados qualitativos .............................................. 2.2.2 Grfico de pontos e grfico de barras para dados qualitativos .................... 2.2.2.1 Grfico de pontos ......................................................................................... 2.2.2.2 Grfico de barras ............................................................................... 2.2.3 Pictograma ....................................................................................................... 2.2.4 Diagrama circular ............................................................................................ Tarefa Vamos conhecer os animais II ............................................................................. Utilizao do Excel ............................................................................................................ 2.3 Tabelas e grficos para dados quantitativos discretos ............................................... 2.3.1 Tabela de frequncias para dados quantitativos discretos ........................... 2.3.2 Grfico de pontos e grfico de barras para dados quantitativos discretos .... 2.3.2.1 Grfico de pontos............................................................................... 2.3.2.2 Grfico de barras ............................................................................... Tarefa Vamos conhecer os animais III............................................................................ 2.3.3 Exemplos de tabelas e grficos para dados quantitativos discretos ............. Utilizao do Excel ............................................................................................................ 2.4 Tabelas e grficos para dados quantitativos contnuos ............................................. 2.4.1 Tabela de frequncias para dados contnuos................................................. 2.4.2 Histograma ....................................................................................................... 2.4.3 Histograma acumulado .................................................................................... 2.4.4 Exemplos de tabelas e grficos para dados quantitativos contnuos............ Utilizao do Excel ............................................................................................................ 2.5 Outras representaes grficas ................................................................................... 2.5.1 Diagrama de extremos e quartis ..................................................................... 2.5.1.1 Construo do diagrama de extremos e quartis para dados agrupados............................................................................................ 2.5.2 Grfico de caule-e-folhas ................................................................................ Tarefa Quantos segundos se consegue estar sem respirar?........................................... Utilizao do Excel ............................................................................................................ 2.6 Algumas formas bsicas de distribuio de dados ...................................................... 2.7 Representaes grficas e tabelas de frequncias para dados bivariados................. 2.7.1 Diagrama de disperso..................................................................................... 2.7.2 Tabela de frequncias para dados bivariados ................................................ 2.8 Um grfico vale mais do que mil palavras? ................................................................... 2.8.1 Utilizao de pictogramas ............................................................................... 2.8.2 Utilizao do diagrama circular ...................................................................... 2.8.3 Escalas e escalas .............................................................................................. 2.8.4 Outras situaes Exemplo de um grfico pouco elucidativo .....................

2.9 Algumas delicadezas no tratamento estatstico dos dados ..................................... Na Sala de Aula.................................................................................................................. Tarefa Vamos conhecer a turma! ................................................................................ Tarefa Vamos conhecer algumas caractersticas dos alunos da escola ........................ Tarefa Vamos comparar a temperatura entre Lisboa e Porto....................................... Tarefa Quais so os nossos animais domsticos? ........................................................... Tarefa Qual o desporto favorito? ................................................................................... Tarefa Vamos pesar laranjas............................................................................................ Tarefa Hbitos alimentares comemos fruta suficiente? ............................................. Tarefas Propostas ..............................................................................................................

85 87 87 97 99 100 102 104 106 108

Captulo

Caractersticas amostrais. Medidas de localizao e Disperso ..................................................................................................... 111


111 113 114 114 117 122 123 125 129 131 131 134 136 138 139 139 139 146

Objectivo ....................................................................................................................... 3.1 Introduo .................................................................................................................... 3.2 Medidas de localizao................................................................................................. 3.2.1 Mdia................................................................................................................ 3.2.2 Mediana............................................................................................................ 3.2.3 Quartis.............................................................................................................. 3.2.4 Percentis .......................................................................................................... 3.2.5 Moda ................................................................................................................ Tarefa Vamos pesar laranjas (cont.) ................................................................................ Na Sala de Aula.................................................................................................................. Tarefa O melhor dar a cada um a mdia! .................................................................... Tarefa Vamos comer queijo, mas no exageremos... ...................................................... Tarefas propostas............................................................................................................... 3.3 Medidas de disperso.................................................................................................... 3.3.1 Amplitude......................................................................................................... 3.3.2 Amplitude interquartis .................................................................................... 3.3.3 Desvio-padro................................................................................................... 3.4 Coeficiente de correlao............................................................................................

Captulo

Probabilidade ............................................................................................... 153

Objectivo ....................................................................................................................... 153 4.1 Introduo .................................................................................................................... 155 4.2 Clculo de probabilidades numa situao especial................................................... 157 Tarefa Vamos lanar dois dados ..................................................................................... 160 Na Sala de Aula.................................................................................................................. 162 Tarefa O que mais provvel? ........................................................................................ 162 Tarefa Vamos lanar dois dados (cont.) ......................................................................... 163 Tarefa Ser que a moeda equilibrada?......................................................................... 164 Tarefa Quem que ganha o jogo? .................................................................................. 166 Tarefa proposta.................................................................................................................. 170

Referncias Bibliogrficas................................................................................................... 173

DADOS e VARIVEIS

A Estatstica uma Cincia que se aplica em todos os campos do conhecimento. Costuma-se dizer que a cincia que trata dos dados. Os dados tm sido, desde h muitos sculos, instrumentos essenciais compreenso do mundo que nos rodeia. Neste captulo procedemos classificao dos dados, processo este que condiciona, de um modo geral, a ferramenta estatstica a utilizar na sua organizao e no seu tratamento.

1.1

Introduo

O registo e anlise de dados tm sido, desde h muitos sculos, instrumentos essenciais compreenso do mundo que nos rodeia. Os fsicos, por exemplo, registavam os dados resultantes das suas experincias e, posteriormente, analisavam-nos em busca de uma lei que explicasse os resultados obtidos. Com o avano das tcnicas estatsticas de anlise de dados, possvel encontrar padres e tendncias em coleces de dados provenientes de muitas outras fontes que no, somente, as resultantes de experincias fsicas. Na verdade, so poucas as reas do saber onde no se recorre anlise de dados para confirmar teorias e propor novas interpretaes para os fenmenos que so o seu objecto de estudo. Perante uma coleco de dados, h duas formas possveis de abordar a sua anlise consoante interesse: apenas explor-los, e encontrar padres na coleco de dados que , por assim dizer, a populao em estudo. extrapolar para um universo mais vasto os padres encontrados nessa coleco de dados, a qual parte (ou amostra) desse universo (ou populao). Para dar dois exemplos da nossa vida corrente, pense-se nos resultados obtidos num teste que um professor deu sua turma e nos resultados obtidos numa sondagem boca da urna nas eleies presidenciais. No primeiro caso, a populao a turma e os dados que se tm referem-se a toda a populao enquanto que, no segundo caso, os dados referem-se a uma pequena parte da populao de interesse. A grande maioria das situaes onde necessria a utilizao de metodologias estatsticas, enquadra-se neste segundo caso. Populao coleco de unidades individuais, que podem ser pessoas, animais, resultados experimentais, com uma ou mais caractersticas em comum, que se pretendem analisar. Amostra subconjunto da populao, que se observa com o objectivo de tirar concluses para a populao de onde foi retirada. Dimenso da amostra nmero de elementos da amostra. Ao longo deste texto iremos incidir, fundamentalmente, nas tcnicas estatsticas destinadas a descrever, explorar e encontar padres numa coleco de dados. Alis, mesmo quando o objectivo inferir para uma populao mais vasta, usual iniciar o estudo de uma coleco de dados com aquilo a que se chama anlise exploratria ou estatstica descritiva: fase da anlise de dados onde estes so organizados em tabelas e grficos e onde se calculam algumas caractersticas sumativas como a moda, a mediana, a mdia, o desvio padro, entre outras. De notar que, quando a coleco de dados coincide com a populao, o estudo desses dados resume-se estatstica descritiva.

11

anlise de dados

DADOS e VARIVEIS

A fase seguinte do estudo de uma coleco de dados (que no ser, aqui, objecto de estudo) designa-se por anlise inferencial ou inferncia: fase da anlise de dados onde se propem possveis modelos probabilsticos para a forma como os dados referentes a toda a populao se distribuem e se interligam. com base nesses modelos que se infere da amostra para a populao (da parte para o todo).

anlise de dados

12

DADOS e VARIVEIS

1.2

Dados e Variveis

Os trs primeiros captulos desta brochura tm por objectivo ilustrar as diferentes etapas por que passa uma anlise descritiva dos dados. A primeira dessas etapas consiste na identificao do tipo de dados que temos para analisar. Observe-se a seguinte tabela Dados sobre casas (fictcia):
Ident. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 N. assoalhadas 3 3 3 3 5 2 2 4 2 2 3 3 4 3 3 3 2 2 2 1 2 3 2 3 2 1 3 2 2 2 3 3 2 3 2 2 5 3 1 2 rea (m ) 99,0 90,5 109,0 104,8 138,7 87,3 93,7 118,5 88,9 95,6 104,3 126,5 118,5 98,9 100,3 94,7 88,0 92,4 101,1 66,3 96,8 103,8 109,0 119,0 100,8 79,5 114,6 91,1 94,9 98,1 94,9 103,0 104,4 112,9 87,6 76,7 163,3 154,2 75,9 90,2
2

Estado 0 0 0 0 1 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 1 0 0 1 1 0 1 0 0 0 0

Garagem 0 0 0 0 1 0 0 0 1 0 0 0 0 1 1 0 0 1 0 1 0 0 1 1 1 0 0 0 0 1 1 1 0 0 0 1 0 0 0 0

Zona C B B B A B B B A B C A B B A B C B A A A A A A A A B C A A B B A A C A B A A B

Preo (10 )
3

Tabela com algumas caractersticas de 40 casas.

13

anlise de dados

138,50 190,30 179,26 162,74 357,32 157,39 138,34 209,46 169,60 153,56 149,00 299,33 207,66 182,86 236,27 188,17 122,84 149,20 160,13 147,89 202,63 205,92 185,66 210,21 208,88 186,09 183,49 126,80 165,69 290,00 170,18 189,22 255,90 281,25 121,47 210,24 295,98 255,03 135,69 151,26

DADOS e VARIVEIS

Trata-se de um registo com informao referente a 40 casas que esto venda, nomeadamente, nmero de assoalhadas, rea, estado (0-usada, 1-nova), ter ou no ter garagem (0-no tem, 1-tem), zona (A, B ou C) e preo (em milhares de euros). Na tabela surge ainda uma coluna com o nmero de identificao de cada casa. Olhando com um pouco mais de detalhe para as quatro primeiras casas, verificamos que todas so usadas, tm 3 assoalhadas e no tm garagem. No entanto, diferem na rea e no preo uma caracterstica dos dados estatsticos a variabilidade. Os dados variam e essa variabilidade que objecto de estudo da estatstica.

Uma varivel qualquer caracterstica de um indivduo ou objecto qual se possa atribuir um nmero ou uma categoria. O indivduo ou coisa relativamente ao qual se recolhe a informao designado por unidade observacional ou caso. Uma varivel diz-se quantitativa (ou numrica) se se referir a uma caracterstica que se possa contar ou medir. Por exemplo, o nmero de irmos de um aluno escolhido ao acaso, na turma, uma varivel quantitativa de contagem, enquanto que a sua altura uma varivel quantitativa de medio. Uma varivel diz-se qualitativa (ou categrica) se no for susceptvel de medio ou contagem, mas unicamente de uma classificao, podendo assumir vrias modalidades ou categorias. Por exemplo, a cor dos olhos do aluno referido anteriormente, uma varivel qualitativa. Se s assumir duas categorias, diz-se binria. o caso da varivel sexo, que assume as categorias Feminino e Masculino. As variveis quantitativas de contagem, isto , que se referem a caractersticas que s se podem contar e no se podem medir, designam-se tambm por variveis quantitativas discretas; por sua vez, as variveis quantitativas de medio, isto , que se podem medir, tambm se designam por variveis quantitativas contnuas. Estas designaes so bastante importantes, pois a ferramenta estatstica a utilizar, no estudo das variveis, depende do tipo de varivel em estudo. O resultado da observao da varivel, sobre o indivduo, o dado estatstico ou simplesmente dado.

anlise de dados

DADOS e VARIVEIS

Algumas variveis qualitativas apresentam uma ordem subjacente so designadas por qualitativas ordinais. So exemplos de variveis qualitativas ordinais: o nvel social (com as categorias baixo, mdio e elevado), o grau de satisfao com um produto (com as categorias nada satisfeito, pouco satisfeito, satisfeito, bastante satisfeito e muito satisfeito) e grande parte das variveis utilizadas em inquritos na rea das cincias sociais onde se avalia o nvel atingido em cada varivel solicitando ao respondente que coloque uma cruz numa grelha numerada de 1 a 5 (escala de Lickert).

14

No nosso exemplo, cujos dados esto apresentados na tabela, as unidades observacionais so as casas e as variveis so cada uma das caractersticas observadas para cada casa: Nmero de assoalhadas varivel quantitativa discreta (ou de contagem). rea varivel quantitativa contnua (ou de medio). Estado varivel qualitativa binria. Garagem varivel qualitativa binria. Zona varivel qualitativa. De notar que a primeira coluna da tabela no se pode classificar como uma varivel, uma vez que se trata de um mero identificador no se reportando a qualquer caracterstica da unidade observacional. Dissemos anteriormente que o objectivo da Estatstica o estudo de Populaes, isto , conjuntos de indivduos (no necessariamente pessoas) com caractersticas comuns, que se pretendam estudar. A uma caracterstica comum, que assume valores diferentes de indivduo para indivduo, chammos varivel. Sendo ento o nosso objectivo o estudo de uma (ou mais) caracterstica(s) da Populao, vamos identificar Populao com a varivel que se est a estudar, dizendo que a Populao constituda por todos os valores que a varivel pode assumir. Por exemplo, relativamente populao portuguesa, se o objectivo do nosso estudo for a caracterstica altura, diremos que a populao constituda por todos os valortes possveis para a varivel altura. Do mesmo modo identificaremos amostra com os valores observados para a varivel em estudo, sobre alguns elementos da Populao. Assim, na continuao do exemplo referido, os valores 156 cm, 171 cm, 163 cm, 168 cm, 166 cm, obtidos ao medir a altura de 5 portugueses, constituem uma amostra da populao a estudar.

15

anlise de dados

DADOS e VARIVEIS

Vamos conhecer a turma!

Conhecermo-nos uns aos outros faz parte do nosso dia a dia de vida em sociedade. Fazer ressaltar as semelhanas e diferenas do grupo de alunos da turma pode ser uma boa forma de sensibilizar os alunos para a importncia de organizar e analisar dados e para os confrontar com os diversos tipos de dados. Uma vez que interessa considerar e distinguir variveis qualitativas e quantitativas (discretas e contnuas), eis alguns exemplos: Qualitativas cor dos olhos, ms em que nasceu, transporte que usa para vir para a escola, cor de que mais gosta, animal de estimao,... Quantitativas discretas nmero de irmos, nmero de letras do nome, nmero de vogais no nome,... Quantitativas contnuas comprimento do palmo, tempo que demora a ir de casa para a escola, peso da mochila,... Destas variveis escolhemos algumas para ilustrar de que modo podero ser abordados diversos conceitos estatsticos muito simples. A propsito de se conhecer melhor os alunos da turma, e da forma de organizar as diferentes caractersticas, o professor pode propor que se preencha uma tabela, como a que a seguir se apresenta, que rene algumas caractersticas de cada aluno:
Tempo que demora de casa escola

Nome

Nmero de letras no nome

Cor dos olhos

Comprimento do palmo

Nmero de irmos

O professor pode ainda dar alguns esclarecimentos e fazer algumas recomendaes, tais como: Se os alunos no souberem muito bem quanto tempo demoram no caminho entre a sua casa e a escola, basta darem um nmero aproximado. Os alunos devero, no dia seguinte, ter o cuidado de escrever num papel a hora a que saem de casa e a hora a que chegam escola. Para medir o comprimento do palmo, deve ser colocado o polegar da mo direita junto ao zero da rgua e depois ver at quantos centmetros chega o dedo mindinho.

17

Eis o exemplo de uma tabela preenchida com as variveis sugeridas anteriormente.


Tempo que demora de casa escola (minutos) 3 32 25 20 17 15 33 22 9 35 25 28 10 21 20 6 5 19 13 5

Nome

Nmero de letras no nome 17 14 12 9 16 11 15 15 16 13 18 13 14 11 14 15 14 11 15 14

Cor dos olhos

Comprim. do palmo (cm) 14,7 15,6 15,9 14,2 16,3 13,5 14,4 15,1 15,2 16,2 15,9 13,6 17,3 14,7 15,0 13,8 14,3 15,4 14,8 13,2

Nmero de irmos 3 1 1 1 1 2 1 1 1 1 2 0 1 2 0 4 1 0 1 3

Ana Patrcia Santos Ana Rita Pereira Bruno Martins Ctia Reis Cludia Rodrigues David Amaral Elisabete Soares Jos Manuel Rocha Jos Augusto Silva Liliana Morais Maria Isabel Antunes Miguel Correia Patrcia Mendes Pedro Mendes Ricardo Freitas Rui Eduardo Pires Snia Gonalves Susana Alves Tatiana Medeiros Vasco Fernandes

Azuis Castanhos Castanhos Castanhos Azuis Azuis Pretos Azuis Castanhos Castanhos Castanhos Verdes Castanhos Castanhos Castanhos Pretos Castanhos Castanhos Castanhos Castanhos

DADOS e VARIVEIS

Completada a tabela, chamar a ateno para os procedimentos que caracterizam a natureza dos dados, realando as diferenas, mas sem insistir nas designaes: Para preencherem a coluna do nmero de letras no nome os alunos tm de contar. Os dados que esto nessa coluna so, por isso, chamados dados discretos ou de contagem. Para preencherem a coluna do comprimento do palmo necessrio usar uma rgua. Teve de se medir o palmo. Os dados que resultam de medies dizem-se dados contnuos ou de medio. A cor dos olhos no se mede, nem se conta!... Os dados que esto nessa coluna so chamados qualitativos ou categricos. O nmero de irmos conta-se, o comprimento do palmo mede-se usando uma rgua ou uma fita mtrica. O tempo tambm se mede mas usando um relgio ou um cronmetro.

anlise de dados

18

Tarefa
Vamos conhecer os animais I

Uma outra proposta interessante para os alunos e que lhes permite distinguir diferentes tipos de variveis, a construo de um ficheiro com informao relativa a alguns animais. Por exemplo, numa turma cada aluno recolhe informao sobre um animal, nomeadamente no que diz respeito s seguintes caractersticas: Ter asas Ter penas Ter escamas Nmero de pernas Por ovos Viver na gua

Nome Co Gato Andorinha Elefante Burro Sardinha Melro Girafa Urso R Pintassilgo Carapau Pescada Rato Piriquito Galinha Baleia Mosca Barata Aranha

Tem asas No No Sim No No No Sim No No No Sim No No No Sim Sim No Sim Sim No

N. de Pernas 4 4 2 4 4 0 2 4 4 2 2 0 0 4 2 2 0 6 6 8

Vive na gua No No No No No Sim No No No Sim No Sim Sim No No No Sim No No Sim

Tem penas No No Sim No No No Sim No No No Sim No No No Sim Sim No No No No

Tem plo Sim Sim No Sim Sim No No Sim Sim No No No No Sim No No Sim No No No

Tem escamas No No No No No Sim No No No No No Sim Sim No No No No No No No

Pe ovos No No Sim No No Sim Sim No No Sim Sim Sim Sim No Sim Sim No Sim Sim Sim

19

Depois da tabela construda, podem ser feitas perguntas do tipo: Todos os animais que vivem na gua, so peixes? Consegues encontrar, na tabela anterior um animal que viva na gua e no seja peixe? Recorda o que um mamfero. Conheces algum mamfero que viva na gua? D exemplo de uma caracterstica que no se possa medir ou contar. D exemplo de uma caracterstica que possa ser objecto de contagem e outra que possa ser medida, se as houver na tabela. Uma caracterstica que no se possa medir nem contar , por exemplo, ter asas. Na verdade, um animal ou tem, ou no tem asas. Outra caracterstica relacionada com as asas, seria nmero de asas de um animal. Neste caso j poderamos contar o nmero de asas e por isso esta caracterstica j no poderia ser dada como resposta a esta pergunta. Uma caracterstica que se possa contar , por exemplo nmero de pernas. Na tabela no existe nenhuma caracterstica que possa ser medida.

Tarefa proposta
Conhecer os hbitos de lazer

Outro exemplo de tarefa que pode ser proposta aos alunos na sala de aula, a seguinte: Pretende-se conhecer os hbitos de lazer dos alunos da escola. Na turma, os alunos, com a ajuda da professora, preparam as perguntas convenientes para obter a informao desejada e classificam o tipo de variveis utilizadas, num estudo anlogo ao feito na tarefa anterior.

20

Neste captulo so apresentados alguns processos, nomeadamente tabelas e grficos, adequados para organizar e resumir a informao contida nos dados, de forma a realar as caractersticas mais importantes.

2.1

Introduo

O objectivo de organizar dados em tabelas e de os representar graficamente fornecer uma informao visual rpida de padres e tendncias. A forma como se estruturam as tabelas e as representaes grficas mais adequadas, depende do tipo de dados que temos para analisar e dos aspectos que se pretendem evidenciar. Esta anlise inicial de dados, que feita utilizando tabelas e grficos, vai-nos permitir responder rapidamente a algumas questes, tais como: Sero os dados quase todos iguais? Sero muito diferentes uns dos outros? Existe algum padro subjacente ou alguma tendncia? Existem alguns agrupamentos especiais? Existem alguns dados muito diferentes da maior parte? Estas questes, de um modo geral, no podem ser respondidas facilmente a partir dos dados em bruto, com aspecto desorganizado. ORGANIZAO dos DADOS em TABELAS e GRFICOS

23

anlise de dados

2.2

Tabelas e grficos para dados qualitativos

Os dados qualitativos ou categricos so os que resultam da anlise de variveis qualitativas. Relembre-se que cada unidade observacional assume, no que respeita a este tipo de variveis, a designao de uma categoria e no de uma grandeza quantitativa. Por vezes, escolhe-se como designao de cada categoria um nmero mas isso em nada altera a natureza da varivel. A anlise estatstica deste tipo de dados resume-se, por isso, contagem do nmero de indivduos em cada categoria e ao clculo das respectivas percentagens. ORGANIZAO dos DADOS em TABELAS e GRFICOS Tomemos o exemplo das casas, apresentado no captulo anterior. H trs variveis qualitativas Garagem, Estado e Zona. Para as duas primeiras optou-se por utilizar designaes numricas (0 - sem garagem, 1 - com garagem e 0 - usada, 1 - nova, respectivamente). Antes de se passar representao grfica , de um modo geral, necessrio registar a informao numa tabela de frequncias.

2.2.1 Tabela de frequncias para dados qualitativos


Numa tabela de frequncias para dados qualitativos ou categricos a informao organizada, de um modo geral, em 3 colunas: coluna das categorias ou classes onde se indicam todas as categorias da varivel em estudo; coluna das frequncias absolutas onde se regista o total de elementos da amostra que pertencem a cada categoria e coluna das frequncias relativas (ou percentagens) onde se coloca, para cada categoria, o valor que se obtm dividindo a respectiva frequncia absoluta pela dimenso da amostra. Uma tabela de frequncias representa, portanto, a distribuio da varivel, na amostra em estudo, isto , quais as categorias ou modalidades que assume, assim como a frequncia (absoluta ou relativa) com que assume essas modalidades.
Frequncia Absoluta (ni) 27 13 40 Frequncia Relativa (fi) 0,675 0,325 1,000 Frequncia Absoluta (ni) 19 16 5 40 Frequncia Absoluta (ni) 31 9 40 Frequncia Relativa (fi) 0,775 0,225 1,000

anlise de dados

Garagem Sem garagem Com garagem Total

Estado Usada Nova Total Frequncia Relativa (fi) 0,475 0,400 0,125 1,000

Zona A B C Total

24

Tabelas de frequncias correspondentes s variveis qualitativas Garagem, Estado e Zona

Quando se organizam os dados de uma amostra numa tabela de frequncias, um processo de fcil verificao de que as frequncias devem estar bem calculadas, consiste em som-las para todas as classes e verificar que: A soma das frequncias absolutas igual dimenso da amostra; A soma das frequncias relativas igual a 1. Observao: Em muitas situaes as frequncias relativas so dzimas infinitas obrigando, por isso, a arredondamentos. Estes tm de ser feitos com algum cuidado, de modo a que o total seja igual a 1.

2.2.2 Grfico de pontos e grfico de barras para dados qualitativos


2.2.2.1 Grfico de pontos A representao grfica mais simples que se pode construir o grfico (ou diagrama) de pontos (dotplot). Para obter esta representao basta desenhar um eixo horizontal (ou vertical), onde se assinalam as diferentes modalidades ou categorias da varivel em estudo e, por cima de cada modalidade (ou ao lado), se representa um ponto, sempre que ao percorrer o conjunto de dados se encontrar a respectiva modalidade. Por exemplo, vejamos como obter o grfico de pontos para a varivel Zona, da tabela com os Dados sobre casas, do Captulo 1. Num primeiro passo desenhamos um eixo, por exemplo horizontal, onde assinalamos as 3 modalidades diferentes da varivel Zona: A, B e C. Depois, vamos nos passos seguintes colocando pontos, uns em cima dos outros, conforme formos percorrendo o conjunto dos dados C, B, B, B, A, ..., B relativos varivel Zona:

Algumas fases de construo de um grfico de pontos

Esta representao muito simples de fazer num papel quadriculado, em que se coloca um ponto em cada quadrcula:

25

anlise de dados

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Grfico de pontos construdo em papel quadriculado

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Podemos supor que, na representao grfica anterior, se envolvem os pontos com um rectngulo e a seguir se retiram os pontos. O grfico de pontos evolui para um outro grfico, com aspecto semelhante ao grfico de pontos, mas com barras:

Passagem de um grfico de pontos a um grfico de barras

Este tipo de grfico (ou diagrama) de barras ser objecto de estudo na seco seguinte.

2.2.2.2 Grfico de barras Uma das representaes grficas mais utilizadas o grfico (ou diagrama) de barras. Neste tipo de grfico desenha-se uma barra para cada categoria, sendo a altura da barra proporcional ao nmero de casos observados nessa categoria (frequncia absoluta). Estas barras podem dispor-se ao longo de um eixo horizontal ou vertical. A ordem por que se colocam as barras qualquer, salvo se existir alguma ordem subjacente, como nos dados qualitativos ordinais. Neste caso, deve-se respeitar a ordem colocando, da esquerda para a direita as diversas categorias, partindo da de menor nvel para a de maior nvel. No existem regras para a largura das barras nem para qualquer forma de acabamento grfico cor, textura, grossura dos traos, etc. No entanto, deve ter-se em ateno que as barras, no mesmo grfico, devem ter a mesma largura, pois a mensagem que transmitem a que est contida nas alturas, e umas barras mais largas do que outras poderiam chamar mais a ateno, induzindo em erro. Mais uma vez se frisa o cuidado a ter com as alturas das barras, que tm de ser iguais ou proporcionais frequncia observada em cada categoria.

anlise de dados

26

H ainda um cuidado suplementar a ter quando se representa, num mesmo grfico, a informao contida em duas, ou mais, amostras de dimenso diferente. Nesse caso as alturas das barras tm de ser iguais frequncia relativa de cada categoria, pois s assim a soma das alturas das barras correspondentes a qualquer das amostras idntica (a soma d sempre 1), permitindo a comparao. Se usssemos as frequncias absolutas para alturas das barras dos grficos, correspondentes s vrias amostras, a comparao poderia induzir em erro, pois como a dimenso das amostras no a mesma, estaramos a comparar coisas diferentes. Os grficos de barras que correspondem s tabelas da seco 2.2.1 so, respectivamente, os seguintes:
35 30 N. de casas N. de casas 25 20 15 10 5 0 Sem garagem Com garagem Garagem 35 30 25 20 15 10 5 0 Usada Estado Nova N. de casas 35 30 25 20 15 10 5 0 A B Zona C

Grficos de barras correspondentes s variveis qualitativas Garagem, Estado e Zona

A principal vantagem dos grficos relativamente s tabelas de frequncias est na rapidez da leitura!... No s h uma percepo imediata de qual a categoria de maior frequncia, como tambm se fica com uma noo bastante precisa de qual a ordem de grandeza de cada categoria relativamente s restantes. Por isso se diz que um grfico vale mais que mil palavras!... Assim, observando os grficos anteriores podemos afirmar, rapidamente, que, no que respeita s casas que constituem a nossa amostra, predominam as que no tm garagem (numa relao prxima de 2:1), a grande maioria das casas j teve algum dono (h cerca de trs vezes mais casas usadas do que novas) e a distribuio do nmero de casas por cada zona muito pouco uniforme, observando-se um nmero muito reduzido de casas na zona C, quando comparado com o das zonas A e B.

27

anlise de dados

ORGANIZAO dos DADOS em TABELAS e GRFICOS

2.2.3 Pictograma
Uma representao grfica que resulta especialmente atraente o pictograma. Comea-se por escolher uma figura ilustrativa da unidade observacional. Cada figura pode representar uma ou mais unidades observacionais. De seguida procede-se como na construo do grfico de barras mas, em vez de rectngulos, empilham-se as figuras que representam as unidades observacionais at perfazer a frequncia absoluta observada em cada categoria. Esta representao s pode ser utilizada quando a varivel em estudo qualitativa. As unidades observacionais no exemplo que temos vindo a tratar so casas: ORGANIZAO dos DADOS em TABELAS e GRFICOS

Admita-se que cada uma destas figuras representa 5 casas. O pictograma da varivel qualitativa Zona ter 3 destas casinhas e mais uma quarta a que se lhe tira uma quinta parte, na categoria correspondente zona A (onde a frequncia absoluta 19). Na categoria correspondente zona B (onde a frequncia absoluta 16), ter 3 casinhas e mais um quinto de uma terceira casinha e a zona C (onde a frequncia absoluta 5) ter apenas uma casinha.

anlise de dados

Pictograma correspondente varivel Zona

Embora seja uma representao grfica muito sugestiva, necessrio ter os devidos cuidados com as figuras utilizadas e com a forma como so utilizadas, j que, com alguma frequncia, do origem a representaes erradas, como veremos na seco 2.8.

28

2.2.4 Diagrama circular


Como o nome sugere, esta representao constituda por um crculo, em que se apresentam vrios sectores circulares, tantos quantas as categorias consideradas na tabela de frequncias da amostra em estudo. O ngulo de cada sector circular proporcional frequncia observada na classe que lhe corresponde. Tomemos como exemplo a varivel Zona. Tem 3 categorias: A, B e C com frequncias relativas, respectivamente, iguais a 0,475, 0,400 e 0,125.

Zona A B C

O sector circular correspondente Zona A ter um ngulo de 360x0,475=171, o da Zona B ter um ngulo de 360x0.400=144, enquanto que o da Zona C ter 45. A soma dos trs ngulos igual a 360 (171+144+45=360). usual indicar os valores das frequncias relativas junto dos respectivos sectores circulares, como se apresenta a seguir, sob a forma de percentagens:
12,5%

Zona A 47,5% 40,0% B C

Diagrama circular correspondente varivel Zona

29

anlise de dados

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Tarefa
Vamos conhecer os animais Il

Considere-se de novo a tarefa Vamos conhecer os animais, e os dados da tabela associada. Pode-se escolher uma caracterstica qualitativa e organizar os dados correspondentes na forma de uma tabela de frequncias. Pode-se ainda construir uma representao grfica conveniente. Por exemplo, se for considerada a caracterstica ter asas, que assume as modalidades Tem asas e No tem asas, a tabela de frequncias permite concluir que, dos animais em estudo, predominam largamente os que no tm asas, relativamente aos que tm asas. Uma representao grfica possvel o diagrama circular, que se apresenta a seguir:
35% Freq. Abs. Tem asas No tem asas Total 7 13 20 Freq. Rel. 0,35 0,65 1.00 65% Tem asas No tem asas

Utilizao do Excel para construir uma tabela de frequncias, um grfico de barras e um diagrama circular para dados qualitativos
Tabela de frequncias Para construir uma tabela de frequncias, para um conjunto de dados qualitativos, basta utilizar o seguinte procedimento: Inserir numa coluna do Excel os dados; Seleccionar as diferentes categorias que iro constituir as classes e inseri-las numa outra coluna a que chamamos Classes; Utilizar a funo COUNTIF (CONTAR.SE) para obter as frequncias absolutas para cada uma das classes; A partir das frequncias absolutas, construir as frequncias relativas.

30

Exemplificamos esta metodologia com uma das tabelas construdas anteriormente:

Grfico de barras Para construir o grfico de barras, a partir de uma tabela de frequncias, se as classes so categorias, basta utilizar o seguinte procedimento: Seleccionar as clulas que contm as classes e as frequncias absolutas (ou frequncias relativas), incluindo os cabealhos, ou seja Q2 a Q5 e R2 a R5 (se a coluna que contm as frequncias relativas, no for adjacente que contm as classes, ento seleccione as classes e com a tecla CTRL pressionada seleccione as clulas que contm as frequncias relativas); Seleccionar, no menu, o cone Chart ;

Na caixa de dilogo que aparece, seleccionar a opo Column; Clicar no boto Next, duas vezes, para passar dois passos, at aparecer uma caixa de dilogo, que apresenta vrias opes: Em Legend, desactivar a legenda e em Titles, acrescentar o ttulo no eixo dos Ys e no eixo dos Xs.

31

anlise de dados

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Uma alternativa ao grfico anterior, menos usual, considerar as barras horizontais. Para obter a representao grfica correspondente, basta seguir os passos anteriores, para a construo do grfico de barras, com a nica excepo de onde diz para seleccionar Column, seleccionar Bar:

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Diagrama circular A representao do diagrama circular, em Excel, imediata, utilizando-se o seguinte procedimento: Seleccionar as clulas que contm as classes e as frequncias absolutas (ou frequncias relativas), ou seja I3 a I5 e J3 a J5 (se a coluna que contm as frequncias relativas, no for adjacente que contm as classes, ento seleccione as classes e com a tecla CTRL pressionada seleccione as clulas que contm as frequncias relativas);
C 13% Zona

anlise de dados

Seleccionar, no menu, o cone Chart

;
A 47% B 40%

Na caixa de dilogo que aparece, seleccionar a opo Pie; Escolher o subtipo pretendido (neste exemplo foi seleccionado o primeiro);

Clicar no boto Next, duas vezes, para passar dois passos, at aparecer uma caixa de dilogo, que apresenta vrias opes: Em Legend, desactivar a legenda; em Titles acrescentar o ttulo, e em Data Labels seleccionar as opes pretendidas (ns seleccionmos Category name e Percentage).

32

2.3

Tabelas e grficos para dados quantitativos discretos

Na sua definio formal, uma varivel de natureza quantitativa diz-se discreta se o conjunto de valores que pode assumir for finito ou infinito numervel (isto , pode-se estabelecer uma correspondncia com os nmeros naturais). Na prtica, as variveis discretas resultam sempre de contagens: nmero de filhos de cada famlia, nmero de carros que passam numa ponte por unidade de tempo, nmero de gralhas numa pgina dactilografada, nmero de chamadas telefnicas registadas por minuto numa central, etc. A anlise exploratria de dados quantitativos discretos tem duas abordagens possveis: uma abordagem especfica para dados discretos quando o nmero de valores distintos na amostra for reduzido (por comparao com a dimenso da amostra) ou uma abordagem idntica utilizada para dados quantitativos contnuos quando o nmero de valores distintos na amostra for muito elevado (quando comparado com a dimenso da amostra). Por exemplo, o tratamento de uma amostra constituda pelo nmero de chamadas telefnicas que um indvduo recebe por dia, est na primeira situao, enquanto que a amostra do nmero de chamadas telefnicas recebidas por dia numa central, est na segunda situao. Neste pargrafo vamos dar algumas indicaes sobre a construo de tabelas e grficos, especficos para dados discretos. ORGANIZAO dos DADOS em TABELAS e GRFICOS

2.3.1 Tabela de frequncias para dados quantitativos discretos


A construo da tabela de frequncias para dados quantitativos discretos idntica construda para dados qualitativos. Do mesmo modo que para os dados qualitativos, o primeiro passo a escolha das classes, que aqui sero os diferentes valores que surgem na amostra: Na tabela de frequncias para dados quantitativos discretos a informao organizada, no mnimo, em 3 colunas: coluna das classes onde se indicam todos os valores distintos que surgem na amostra, que representamos por x* i; coluna das frequncias absolutas ni onde se regista o total de elementos da amostra que pertencem a cada classe (ou nmero de vezes que cada valor x* i surge na amostra) e coluna das frequncias relativas (ou percentagens) fi onde se coloca, para cada classe, o valor que se obtm dividindo a respectiva frequncia absoluta pela dimenso da amostra. A tabela de frequncias pode ainda incluir mais 2 colunas: a coluna das frequncias absolutas acumuladas onde, para cada classe, se coloca a soma da frequncia absoluta observada nessa classe com as frequncias absolutas observadas nas classes anteriores e a coluna das frequncias relativas acumuladas onde, para cada classe, se coloca a soma da frequncia relativa observada nessa classe com as frequncias relativas observadas nas classes anteriores. Como veremos mais frente, esta coluna bastante til para o clculo de algumas medidas, como a mediana e os quartis.

33

anlise de dados

No exemplo das casas, temos uma varivel quantitativa discreta que o Nmero de assoalhadas. Aps contagem do total de casas com cada nmero de assoalhadas obtm-se a seguinte tabela de frequncias:
N. de Assoalhadas x* i 1 2 3 4 5 Freq. Abs. ni 3 17 16 2 2 40 Freq. Rel. fi 0,075 0,425 0,400 0,050 0,050 1,000 Freq. Abs. Acum. 3 20 36 38 40 Freq. Rel. Acum. 0,075 0,500 0,900 0,950 1,000

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Total

Tabela de frequncias para a varivel Nmero de assoalhadas

Observe-se que, na coluna das frequncias absolutas acumuladas, cada um dos valores obtido fazendo a soma do valor que est na clula imediatamente acima, com o valor que est na clula das frequncias absolutas. Assim, na linha correspondente a 3 assoalhadas, o valor 36, que surge como frequncia absoluta acumulada, resulta da soma de 20 (que lhe est imediatamente acima) com 16. A excepo o primeiro valor que coincide com a frequncia absoluta. Para as frequncias relativas acumuladas, processa-se de igual modo, usando a coluna das frequncias relativas. Esta tabela, para alm de nos indicar a distribuio do nmero de assoalhadas na amostra, permite ainda fazer outro tipo de leituras: verificamos, por exemplo, que 90% das casas tm at um mximo de 3 assoalhadas (obtm-se a percentagem multiplicando 0,9 por 100); que a grande maioria das casas tem 2 ou 3 assoalhadas; que, na amostra, no h casas com mais de 5 assoalhadas, etc. Convm salientar que as colunas referentes a frequncias acumuladas s fazem sentido em tabelas de frequncias onde a varivel em estudo se possa ordenar.

2.3.2 Grfico de pontos e grfico de barras para dados quantitativos discretos


2.3.2.1 Grfico de pontos Tal como no caso de dados qualitativos ou categricos, a representao grfica mais simples o grfico ou diagrama de pontos. Para obter essa representao, basta traar um eixo horizontal (ou vertical), onde se assinalam os diferentes valores que surgem na amostra ou mais correctamente, todos os valores entre o mnimo e o mximo, incluindo estes. Por cima de cada valor marca-se um ponto, sempre que se encontar um valor igual, ao percorrer a amostra. Por exemplo, vejamos como obter o grfico de pontos para a varivel Nmero de assoalhadas, da tabela com os Dados sobre casas, do Captulo 1. Num primeiro passo desenhmos um eixo, onde assinalmos os diferentes valores que a varivel pode assumir, ou sejam 1, 2, 3, 4 e 5. Depois, tal como fizemos para as variveis qualitativas, fomos colocando pontos, uns em cima dos outros, medida que percorremos o conjunto de dados 3, 3, 3, 3, 5,..., 2, correspondentes varivel Nmero de assoalhadas:

anlise de dados

34

1. passo Grfico de pontos


1 2 3 4 5

n. de assoalhadas

2. passo

3 n. de assoalhadas

3 n. de assoalhadas

Algumas fases de construo de um grfico de pontos

Da representao anterior, imediatamente se conclui que predominam as casas com 2 ou 3 assolhadas, sendo bastante inferior o nmero de casas com 1, 4 ou 5 assoalhadas. Sugere-se que, para mais fcil execuo, este grfico seja feito em papel quadriculado, inserindo os pontos nas quadrculas convenientes. Chamamos ainda a ateno, tal como fizemos para as variveis qualitativas, que esta representao nos d uma informao muito semelhante dada pelo grfico de barras, que apresentamos a seguir.

2.3.2.2 Grfico de barras O grfico ou diagrama de barras uma representao grfica que consiste em marcar num sistema de eixos coordenados, no eixo horizontal, o valor correspondente a cada classe x* i e, nesses pontos, barras verticais de altura igual (ou proporcional) respectiva frequncia absoluta ou relativa. Devem-se utilizar as frequncias relativas sempre que se pretenda comparar amostras de diferente dimenso (j que a soma das alturas das barras ser, necessariamente, igual a 1 ou 100%, tornando possvel a comparao de amostras de diferente dimenso). Ilustramos esta representao grfica com o grfico de barras referente varivel Nmero de assoalhadas:
20

15 N. de casas

10

0 0 1 2 3 4 5 6

N. de assoalhadas

Grfico de barras da varivel Nmero de assoalhadas

35

anlise de dados

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Como se verifica a partir da representao grfica anterior, predominam as casas com 2 ou 3 assoalhadas, havendo um nmero muito reduzido de casas com 4 ou 5 assoalhadas. Estas concluses j tinham sido evidenciadas pela leitura da tabela de frequncias e do grfico de pontos. Observao: No eixo horizontal, deve ser marcada a sequncia completa dos valores, entre o mnimo observado e o mximo observado, mesmo que algum esteja em falta na amostra. Nesse caso no haver qualquer barra vertical nesse ponto. ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

36

Tarefa
Vamos conhecer os animais Ill

Consideremos ainda a tarefa Vamos conhecer os animais. Pode ser sugerido aos alunos que, a partir dos dados da tabela associada: Organizem os dados dessa tabela, no que diz respeito ao Nmero de pernas, numa tabela de frequncias. Construam uma representao grfica adequada, tendo em conta a tabela de frequncias, obtida anteriormente. Para construir a tabela de frequncias, deve-se comear por considerar os valores distintos que surgem no conjunto de dados e dispor estes valores por ordem crescente, numa coluna de uma tabela. Para ser mais fcil referirmo-nos a esses valores, vamos chamar-lhes classes. Depois contamos quantos dados so iguais a cada um dos valores seleccionados para as classes. Os valores obtidos so as frequncias absolutas indicam o nmero total de animais com 0, 2, 4, 6 e 8 pernas. Acrescentamos tabela uma outra coluna, com as frequncias relativas:
Classes 0 2 4 6 8 Total Freq. Abs. 4 6 7 2 1 20 Freq. Rel. 0,20 = 4/20 0,30 = 6/20 0,35 = 7/20 0,10 = 2/20 0,05 = 1/20 1

Uma representao grfica adequada o grfico de barras


0,40 Freq.rel. 0,30 0,20 0,10 0,00 0 2 4 N. de pernas 6 8

Da tabela e grfico anterior conclumos que predominam os animais de 4 pernas, seguidos dos de 2 pernas. De referir ainda a existncia de um animal com 8 pernas, que ao consultar a tabela se verifica ser a aranha (Repare-se que no grfico anterior no inserimos os nmeros mpares, entre o 0 e o 8, uma vez que eles no podem

37

fazer parte da populao. Uma situao diferente seria a que se consideraria se no estudo da varivel Nmero de assoalhadas, de uma amostra de casas, no tivssemos obtido, por exemplo, o 2, que teria de ser includo entre o 1 e o 3). Quando inserido num contexto de sala de aula, pode pedir-se aos alunos para escreverem algumas frases a partir da observao do grfico. O objectivo irem desenvolvendo competncias associadas interpretao de dados organizados sob a forma de tabelas e grficos.

2.3.3 Exemplos de tabelas e grficos para dados quantitativos discretos


ORGANIZAO dos DADOS em TABELAS e GRFICOS Vamos apresentar alguns exemplos relacionados com variveis quantitativas discretas, onde se procura fazer uma interpretao dos dados a partir de tabelas ou grficos. Exemplo: Nmero de filhos das mulheres americanas (Adaptado de Freedman et al., 1991) Em 1960 e novamente em 1980 foi feito um inqurito s mulheres americanas sobre o nmero de filhos. Os resultados obtidos foram os seguintes:
Nmero de filhos 0 1 2 3 4 5 6 7 8 9 % mulheres 1960 22 17 21 16 10 5 3 2 2 3 % mulheres 1980 29 16 22 15 8 4 2 1 1 1

anlise de dados

Uma representao grfica adequada, o grfico de barras, em que se apresenta lado a lado a distribuio das frequncias para os anos de 1960 e 1980:

35 30 Freq. rel. % 25 20 15 10 5 0 0 1 2 3 4 5 6 7 8 9 % mulheres 1960 % mulheres 1980

N. de filhos

38

Da representao grfica anterior ressalta o facto de a natalidade ter diminudo de 1960 para 1980. De facto, aumentou bastante a percentagem de mulheres sem filhos e diminuiu a percentagem de mulheres com 1 ou mais de 2 filhos. Esta diminuio s foi contrabalanada com um ligeiro aumento da percentagem de mulheres com 2 filhos. Exemplo: Idade de indivduos adultos (Adaptado de Freedman, 1991) A tabela seguinte mostra a distribuio das frequncias relativas do ltimo dgito das idades dos indivduos adultos. Esta informao foi recolhida relativamente a dois censos diferentes: o Censo de 1880 e o de 1970.
ltimo dgito da idade 0 1 2 3 4 5 6 7 8 9 % de indivduos 1880 16,8 6,7 9,4 8,6 8,8 13,4 9,4 8,5 10,2 8,2 % de indivduos 1970 10,6 9,9 10,0 9,6 9,8 10,0 9,9 10,2 10,0 10,1

Pode ser construdo um diagrama de barras relativamente aos dois censos. Da consulta da tabela e do grfico, verifica alguma anomalia? Em 1880 havia uma ntida preferncia pelos dgitos 0 e 5. Existe alguma explicao para este facto? Em 1970 essa preferncia muito mais fraca. Como se pode explicar esse facto? Tal como se fez no exemplo anterior, construmos no mesmo grfico de barras a distribuio das frequncias para os anos de 1880 e 1970:

Freq. rel. %

18 16 14 12 10 8 6 4 2 0 0 1 2 3 4 5 6 7 8 9 % adultos 1880 % adultos 1970

ltimo dgito

Tambm atravs do grfico anterior ressalta o facto de haver, em 1880, uma predominncia excessiva dos dgitos 0 e 5, em detrimento dos outros dgitos.

39

anlise de dados

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Uma explicao possvel para, em 1880, as pessoas indicarem a idade a terminar em 0 ou 5, no saberem ao certo a sua idade. Esta situao era vulgar, sobretudo nas pessoas mais idosas. Em 1970 esta situao j no se verifica, com a informao mais acessvel a todos, verificando-se uma distribuio idntica pelos 10 dgitos. Exemplo: Notas de duas escolas A seguir apresentam-se dois grficos de pontos com os resultados, numa escala de 0 a 100, dos alunos de duas escolas, num teste de Portugus: ORGANIZAO dos DADOS em TABELAS e GRFICOS
Resultados no teste de Portugus dos alunos da Escola de Cima

40

50

60

70

80

90

100

Resultados no teste de Portugus dos alunos da Escola de Baixo

40

50

60

70

80

90

100

anlise de dados

Como se verifica, os alunos das duas escolas comportaram-se de forma muito diferente no teste. Os resultados da Escola de Baixo so nitidamente superiores aos resultados da Escola de Cima. Enquanto que a maior parte das notas dos alunos da Escola de Cima esto entre 50 e 70, a maior parte dos alunos da Escola de Baixo tiveram notas entre 70 e 90. Como seria um grfico possvel para as notas dos alunos de uma escola, cujos resultados estivessem entre os das duas escolas consideradas?

40

Exemplo: Candidatos a algumas vagas (Adaptado de Freedman, 1991)- No Distrito Sanitrio de Chicago, a escolha dos tcnicos feita mediante um exame. Em 1966, havia 223 candidatos para 15 vagas. O exame teve lugar no dia 12 de Maro e os resultados dos testes (inteiros numa escala de 0 a 100) apresentam-se a seguir:
26 33 37 42 44 46 49 52 56 58 61 67 74 82 90 27 33 37 42 44 47 49 53 56 59 61 68 74 82 91 27 33 37 42 44 47 49 53 56 59 62 68 74 83 91 27 33 37 42 45 47 49 53 56 59 62 68 75 83 91 27 33 37 43 45 47 50 53 57 59 62 69 75 83 92 29 34 39 43 45 47 50 53 57 60 63 69 76 83 92 30 34 39 43 45 47 51 54 57 60 63 69 76 84 92 30 34 39 43 45 48 51 54 57 60 64 69 78 84 93 30 35 39 43 45 48 51 54 58 60 65 69 80 84 93 30 35 39 43 45 48 51 54 58 60 66 69 80 84 93 31 36 39 43 46 48 51 54 58 60 66 69 80 84 93 31 36 39 43 46 48 52 55 58 61 66 71 80 84 95 31 36 40 44 46 48 52 55 58 61 67 71 81 84 95 32 37 41 44 46 48 52 55 58 61 67 72 81 90 32 37 42 44 46 48 52 56 58 61 67 73 81 90

Neste caso, a construo da tabela de frequncias, segundo a metodologia descrita para dados discretos, conduziria a uma tabela com demasiadas classes. Assim, resolvemos tomar como classes uma partio natural, para os dados considerados, que a seguinte: considerar como classes os intervalos 20 a 29, 30 a 39, 40 a 49, 50 a 59, 60 a 69, 70 a 79, 80 a 89, 90 a 99.
Classes 20 30 40 50 60 70 80 90 a a a a a a a a 29 39 49 59 69 79 89 99 Freq. abs. 6 36 52 46 36 12 20 15 223 Tabela de frequncias para os resultados dos testes Freq. rel. 0,027 0,161 0,233 0,206 0,161 0,054 0,090 0,067 1,000

Total

A representao grfica para os dados organizados desta forma j no pode ser um diagrama de barras, pois no existe um ponto onde colocar a barra, uma vez que as classes so intervalos. Veremos, mais frente, que a representao grfica adequada o histograma.

41

anlise de dados

ORGANIZAO dos DADOS em TABELAS e GRFICOS

A organizao dos dados na forma da tabela anterior permite realar o facto de predominarem as classificaes entre 40 e 49, diminuindo progressivamente para baixo e para cima desses valores. Temos, no entanto de estar conscientes de que ao fazer a reduo de dados h informao que sobressai, como a estrutura subjacente aos dados, embora haja outra informao que se possa perder. Vejamos qual o aspecto da tabela se tivssemos considerado como classes todos os valores distintos da amostra, sem os agrupar:
Classe 26 1 4 1 4 3 2 5 3 2 3 7 7 Classe 40 41 42 43 44 45 46 47 48 49 50 51 1 1 5 8 6 7 6 6 8 4 2 5 Classe 52 53 54 55 56 57 58 59 60 61 62 63 5 5 5 3 5 4 8 4 6 6 3 2 Classe 64 65 66 67 68 69 71 72 73 74 75 76 1 1 3 4 3 7 2 1 1 3 2 2 Classe 78 80 81 82 83 84 90 91 92 93 95 1 4 3 2 4 7 3 3 3 4 2

ORGANIZAO dos DADOS em TABELAS e GRFICOS

27 29 30 31 32 33 34 35 36 37 39

Tabela de frequncias para os dados sem estarem agrupados

O diagrama de barras correspondente tem o seguinte aspecto


9 8 7 6 5 4 3 2 1 0 26 29 32 35 41 44 47 56 59 62 65 71 80 83 86 89 38 50 53 68 74 77 92 95 N. de candidatos

anlise de dados

Diagrama de barras dos resultados nos testes

Da anlise da tabela e do grfico anterior verifica-se a existncia de uma lacuna, no havendo classificaes iguais a 85, 86, 87, 88 e 89 e o nmero de classificaes iguais ou superiores a 90 ser de 15, precisamente igual ao nmero de vagas, para os 223 candidatos. No ter havido batota da parte dos examinadores? Chamamos a ateno para que esta representao, com tantas classes, no permite sobressair o padro subjacente distribuio dos dados, j que apresenta toda a variabilidade existente nesses dados. Como dissemos anteriormente, embora estejamos perante um conjunto de dados discretos, o tratamento adequado ser o mesmo dos dados contnuos, apresentado na prxima seco.

42

Utilizao do Excel para construir uma tabela de frequncias e um grfico de barras para dados quantitativos discretos
Tabela de frequncias Para construir uma tabela de frequncias, para um conjunto de dados quantitativos discretos, basta utilizar um procedimento idntico ao utilizado para dados qualitativos. Assim, para a varivel Nmero de assoalhadas, vem:

Grfico de barras Para construir o grfico de barras, a partir de uma tabela frequncias, que agrupa dados discretos, basta utilizar um procedimento idntico ao utilizado para as variveis qualitativas, em que as classes eram categorias, mas tendo em ateno o seguinte artifcio: Apagar o ttulo da coluna que contm as classes, No caso do exemplo apagar o contedo da clula I1, ou seja, Nmero de assoalhadas; Seleccionar as clulas I1 a I6 e J1 a J6, caso pretenda construir o grfico de barras com as frequncias absolutas, ou K1 a K6, se desejar as frequncias relativas; Proceder como se indicou na construo do grfico de barras para variveis qualitativas.

43

anlise de dados

ORGANIZAO dos DADOS em TABELAS e GRFICOS

2.4

Tabelas e grficos para dados quantitativos contnuos

Dados quantitativos contnuos so todos os que resultam de medies, tal como foi dito anteriormente. Por outras palavras, a varivel em estudo passvel de ser medida com algum instrumento (rgua, balana, relgio, termmetro, etc.) e os dados so constitudos pelos valores resultantes das medies efectuadas. Para estas variveis, qualquer valor num certo intervalo um potencial candidato a aparecer na amostra. Por isso se chamam variveis contnuas. ORGANIZAO dos DADOS em TABELAS e GRFICOS No nosso exemplo inicial das casas, h uma varivel que se enquadra perfeitamente nesta definio: a rea. A rea da casa resulta de uma medio e, embora seja apresentada com um arredondamento ao metro quadrado, sabemos que o verdadeiro valor pode ser qualquer nmero real num certo intervalo. Outra varivel que tambm se pode considerar de natureza contnua o Preo. O instrumento de medida aqui menos preciso porque resulta de leis de mercado, mas no deixa, por isso, de medir o valor da casa. de alguma forma semelhante classificao em percentagem, obtida num teste pelos alunos de uma turma o professor pretente medir o nvel de conhecimentos de cada aluno e constri o seu prprio instrumento de medida que o teste. Como resultado das medies obtm uma amostra constituda pelas classificaes dos alunos nesse teste. Uma caracterstica comum a qualquer amostra cujos dados so de natureza contnua, a grande diversidade de valores que a constituem. So poucos os valores repetidos. Como tal, para podermos visualizar a forma como os dados se distribuem, de nada nos serve fazer uma tabela onde se registe a frequncia de cada valor distinto (como se fez para os dados quantitativos discretos). A alternativa aqui organizar os dados num nmero conveniente de classes (intervalos) que permita condensar a informao sem esconder o padro subjacente. No h regras rgidas para a forma como se constrem as classes, pois tal depende bastante da maior ou menor simetria na maneira como os dados se distribuem. Por exemplo, a subdiviso em classes de uma amostra de alturas de mulheres portuguesas processa-se de modo distinto da subdiviso em classes da amostra dos vencimentos auferidos por essas mesmas mulheres (onde quase certo que a maior concentrao seja em torno dos pequenos valores, podendo, no entanto surgir alguns valores extremamente elevados). Mais precisamente, natural que a forma genrica da distribuio das alturas das mulheres portuguesas tenha um aspecto simtrico, como ilustrado na seguinte figura,

anlise de dados

44

j que se espera que haja uma grande concentrao em torno de 1,60m, com uma rarefaco gradual na direco dos valores menores, ou maiores, que este valor central. Por outro lado, no que diz respeito distribuio dos vencimentos, o nosso conhecimento emprico leva-nos a supor que a sua forma genrica seja muito mais enviesada, como se apresenta na figura seguinte,

com a grande maioria dos vencimentos a no ultrapassar os 800 euros, dispersando-se os restantes ao longo de um intervalo, que pode atingir alguns milhares de euros. Perante uma amostra de dados de tipo contnuo, o que se pretende com a subdiviso em classes , exactamente, tornar patente a forma como esses dados se distribuem. Em muitos casos o bom senso preside escolha das classes (principalmente em amostras muito enviesadas). No entanto, para dados que se distribuem de forma aproximadamente simtrica, usual construir classes de igual comprimento (amplitude) e h uma regra relativamente simples para a determinao do nmero de classes, inspirada no Binmio de Newton*. Chama-se regra de Sturges, e consiste em determinar o menor inteiro k tal que 2k>n (onde n a dimenso da amostra): Regra de Sturges Para organizar uma amostra, de dados contnuos, de dimenso n, pode considerar-se para nmero de classes o valor k, onde k o menor inteiro tal que 2k>n. Para a formao das classes pode-se escolher uma de duas estratgias: Passo 1 Subdividir um intervalo onde se encontrem todos os valores da amostra em k subintervalos de igual amplitude, h. O bom senso preside escolha do referido intervalo. Assim, pode-se escolher como extremo esquerdo do intervalo o mnimo da amostra ou um valor que lhe seja um pouco inferior e escolher como extremo direito o mximo da amostra ou um valor que lhe seja um pouco superior.
* Tomemos uma potncia de 2, por exemplo, 64 (que igual a 26). Pelo Binmio de Newton sabemos que 26=1+6+15+20+15+6+1, onde cada parcela da soma cada uma das combinaes do nmero 6 j a j com j a variar de 0 a 6. Na soma, o nmero de maior valor o central e os restantes decrescem gradualmente medida que se caminha para a direita e para a esquerda. Como 26 igual a 64, se tivermos uma amostra de dimenso n=64, cujos dados se distribuam de forma aproximadamente simtrica, uma subdiviso em 7 classes (tantas quantas as parcelas que surgem na decomposio de 26) dever conduzir a uma distribuio de frequncias que capte bem a simetria da distribuio.

45

anlise de dados

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Passo 2 Formar as classes como intervalos semiabertos (fechados esquerda e abertos direita, ou vice-versa), sendo o extremo esquerdo do primeiro intervalo coincidente com o extremo esquerdo do intervalo que se utilizou no passo 1. ou Passo 1 Escolher como amplitude h, de cada intervalo, um valor arredondado por excesso daquele que se obtm dividindo a amplitude da amostra (mximo mnimo) pelo nmero de classes, k. Passo 2 Formar as classes como intervalos semiabertos, fechados esquerda e abertos direita (ou vice-versa), sendo o extremo esquerdo do primeiro intervalo o mnimo da amostra. Exemplo: Subdiviso em classes dos dados referentes varivel rea Uma vez que a nossa amostra tem dimenso n=40, o menor inteiro k tal que 2k>40 vem igual a 6. De acordo com a regra de Sturges, vamos ento subdividir a amostra em 6 classes de igual amplitude. Para escolher as classes temos de comear por escolher um intervalo onde estejam todos os valores da amostra. Ora, ao ordenar a amostra verificamos que a rea mnima 66,3 m2 e a rea mxima 163,3 m2. Uma possibilidade razovel para o intervalo a subdividir ser ento o que vai de 65 m2 a 165 m2, com uma amplitude de 100 m2 (165 m2- 65 m2). Dividindo 100 por 6, obtmse a amplitude h=16,6(6) para cada um dos intervalos de classe. Em alternativa, tambm se pode escolher um intervalo com uma amplitude mltipla de 6 (de 64 m2 a 166 m2, por exemplo) o que conduz a um valor inteiro para h (h=17) e, consequentemente, a intervalos de classe cujos extremos so tambm nmeros inteiros. Vamos optar por esta segunda hiptese, por ser a de mais fcil leitura. Antes de apresentar a tabela convm ainda estabelecer uma conveno quanto incluso ou no de cada extremo dos intervalos de classe. Assim, vamos convencionar que todos os intervalos so fechados esquerda e abertos direita, isto , da forma [a, b[, onde o nmero que surge no extremo esquerdo (a) pertence ao intervalo, mas o nmero que surge no extremo direito (b) j no pertence. Esta metodologia utilizada em algum software estatstico, mas no necessariamte em todo o software, pois h situaes em que os intervalos considerados para as classes so abertos esquerda e fechados direita. O Excel, que no um software estatstico, mas que permite construir tabelas de frequncia, utiliza esta ltima metodologia, isto , considera como elementos pertencentes classe, os que so iguais ao limite superior. Como optmos por subdividir o intervalo que vai de 64 m2 a 166 m2, com uma amplitude de classe igual a 17, o primeiro intervalo de classe ser ento [64, 81[, porque 64+17=81, o segundo [81, 98[ e assim por diante at ao sexto e ltimo intervalo que [149 ,166[. Aps a subdiviso em classes, o passo seguinte ser construir a respectiva tabela de frequncias.

anlise de dados

46

ORGANIZAO dos DADOS em TABELAS e GRFICOS

2.4.1 Tabela de frequncias para dados contnuos


Uma vez escolhidas as classes, a construo da tabela de frequncias idntica considerada para dados discretos:

A tabela de frequncias pode ainda incluir mais 3 colunas: coluna do representante da classe onde se indica o ponto mdio x i de cada intervalo de classe (usualmente escolhido para representante da classe); coluna das frequncias absolutas acumuladas onde, para cada classe, se coloca a soma da frequncia absoluta observada nessa classe com as frequncias absolutas observadas nas classes anteriores e coluna das frequncias relativas acumuladas onde, para cada classe, se coloca a soma da frequncia relativa observada nessa classe com as frequncias relativas observadas nas classes anteriores. Apresentamos a seguir a tabela de frequncias para a varivel rea, do exemplo que tem vindo a ser tratado ao longo deste texto. Como sugerido pela regra de Sturges, considermos 6 classes. Optmos por considerar classes fechadas esquerda e abertas direita e de amplitude 17 m2. Como representante das classes considermos os pontos mdios, apresentados na 2. coluna da tabela. Por exemplo, o ponto mdio da classe [64, 81[ (64+81)/2 = 72,5. Para obter as frequncias absolutas percorre-se o conjunto de dados e contam-se os que caem dentro de cada classe (intervalo):
Classes [64, 81[ [81, 98[ [98, 115[ [115, 132[ [132, 149[ [149, 166[ Total Rep. classe x i 72,5 89,5 106,5 123,5 140,5 157,5 Freq. Abs. ni 4 14 15 4 1 2 40 Freq. Rel. fi 0,100 0,350 0,375 0,100 0,025 0,050 1,000 Freq. Abs. Acum 4 18 33 37 38 40 Freq. Abs. Acum

Tabela de frequncias da varivel rea

Por exemplo a frequncia absoluta da classe [64, 81[ 4, porque s existem na amostra 4 valores maiores ou iguais a 64 e menores que 81, e assim sucessivamente, para as outras classes. Como se verifica a partir da tabela, predominam as casas com reas entre 81 e 115 m2. H uma assimetria no sentido de haver algumas casas, embora poucas, com reas razoavelmente grandes, nomeadamente superiores a 149 m2.

47

anlise de dados

0,100 0,450 0,825 0,925 0,950 1,000

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Na tabela de frequncias para dados quantitativos contnuos a informao organizada, no mnimo, em 3 colunas: coluna das classes onde se identificam os intervalos (classes) em que se subdividiu a amostra; coluna das frequncias absolutas ni onde se regista o total de elementos da amostra, que pertencem a cada classe e coluna das frequncias relativas fi onde se coloca, para cada classe, o valor que se obtm dividindo a respectiva frequncia absoluta pela dimenso da amostra.

2.4.2 Histograma
O histograma um tipo de representao usado para dados quantitativos contnuos. um diagrama de reas, formado por uma sucesso de rectngulos adjacentes, tendo cada um por base um intervalo de classe e por rea a frequncia relativa (ou absoluta) dessa classe. Deste modo a rea total coberta pelo histograma igual a 1 (ou igual dimenso da amostra) e a rea determinada por dois pontos a e b d-nos a percentagem de elementos da amostra que apresentam valores entre a e b. Observe-se que, para que a rea de cada rectngulo seja igual frequncia relativa, necessrio que a altura seja o quociente entre a frequncia relativa (fi) e a amplitude da classe (hi). Quando as classes tm todas a mesma amplitude (h), o aspecto grfico no se altera se se considerar como altura a frequncia relativa ou absoluta, uma vez que tal corresponde a uma simples mudana de escala no eixo vertical. Chama-se, no entanto, a ateno para o facto de a rea total do histograma deixar de ser unitria passando a ser igual, respectivamente, amplitude de classe h, ou ao produto da dimenso da amostra pela amplitude de classe (rea total=n x h), caso se utilizem para alturas dos rectngulos as frequncias relativas ou as frequncias absolutas. Nota 1: Se se pretender comparar vrias amostras atravs de histogramas deve-se ter o cuidado de os construir de modo a que a rea total seja unitria, para ser possvel a comparao. Nota 2: Um erro que se costuma cometer com frequncia construir o histograma com os rectngulos separados! Este procedimento no correcto, pois os rectngulos devem ser adjacentes, dando no seu conjunto uma informao em termos de rea. Um histograma correspondente tabela de frequncias que construmos para a varivel rea tem o seguinte aspecto (com alturas dos rectngulos iguais s frequncias absolutas):
16 14 12 Freq. Abs. 10 8 6 4 2 0 64 81 98 115 rea 132 149 166 m
2

anlise de dados

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Histograma para a varivel rea

48

Mais uma vez, consegue-se com a representao grfica uma percepo rpida e clara da forma como os dados se distribuem! Assim, podemos fazer, por exemplo, as seguintes observaes: h uma grande concentrao de valores entre os 81 m2 e os 115 m2, indicando que neste intervalo que se encontra a maioria das reas das casas que constituem a amostra; so poucas as casas com reas inferiores a 81 m2; ORGANIZAO dos DADOS em TABELAS e GRFICOS h uma ligeira assimetria no sentido das maiores reas, pois surgem nesta zona alguns valores mais distantes dos valores centrais, que na zona das menores reas. Em terminologia estatstica diz-se que a distribuio apresenta uma cauda direita mais longa do que a cauda esquerda, havendo, por isso, uma assimetria positiva ou um enviesamento positivo. Construo de histogramas com classes com amplitudes diferentes Quando as classes em que os dados esto organizados no tm a mesma amplitude, tem que se ter o devido cuidado na construo das barras do histograma, pois a rea de cada uma deve ser igual (ou proporcional) frequncia relativa. Se tivermos uma tabela de frequncias em que, por exemplo, duas das classes tenham amplitudes diferentes, mas a que corresponda a mesma frequncia, a relao entre as alturas dos rectngulos correspondentes a essas classes, deve ser a inversa da relao entre as suas amplitudes, como se apresenta a seguir:

Classe 1

Classe 2

Como a amplitude da classe 2 4 vezes maior que a amplitude da classe 1, ento a altura do rectngulo correspondente classe 2 dever ser 4 vezes menor que a altura do rectngulo correspondente classe 1.

49

anlise de dados

Exemplo: Durao de chamadas telefnicas Uma empresa, preocupada com os gastos em telefone, decidiu fazer um estudo sobre a durao (em minutos) das chamadas telefnicas. Assim, o departamento de controlo de qualidade recolheu uma amostra de dimenso 100, tendo construdo a seguinte tabela de frequncias, com os dados recolhidos:
Classes [0, 2[ [2, 5[ [5, 10[ [10, 20[ [20, 30[ Total Freq. absoluta 28 37 23 9 3 100 Freq. relativa 0,28 0,37 0,23 0,09 0,03 1,00

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Durao da chamada (em minutos)

Construram depois o seguinte histograma, que apresentaram gerncia (costumase dizer que um grfico vale mais que mil palavras!):
0,40 0,35 0,30 Freq. rel. 0,25 0,20 0,15 0,10 0,05 0,00 0 2 5 10 Durao da chamada (minutos) 20 30

anlise de dados

Um dos gerentes, que sabia o que era um histograma, manifestou-se bastante preocupado com a percentagem de chamadas razoavelmente longas, j que a percentagem de chamadas com durao entre 5 e 10 minutos era um pouco superior s de durao entre 2 e 5 minutos e s um pouco inferior s de durao de 10 a 20 minutos, como se depreende pelas reas dos rectngulos correspondentes s classes respectivas. Pediu para consultar a tabela de frequncias e concluiu que aquela representao grfica no estava correcta, pois as reas dos rectngulos no eram proporcionais s frequncias, induzindo em erro. Ele prprio acrescentou mais uma coluna tabela de frequncias, com as alturas correctas dos rectngulos e construiu o histograma correspondente:
Classes [0, 2[ [2, 5[ [5, 10[ [10, 20[ [20, 30[ Total Freq. absoluta 28 37 23 9 3 100 Freq. relativa 0,28 0,37 0,23 0,09 0,03 1,00 Freq.relativa/amplitude classe 0,140 0,122 0,046 0,009 0,003

50

0,16 0,14 0,12 Freq. rel./h 0,10 0,08 0,06 0,04 0,02 0,00 Durao da chamada (minutos)

Repare-se que as duas representaes so completamente diferentes.

2.4.3 Histograma acumulado


O histograma acumulado ou grfico de frequncias relativas acumuladas, tal como o nome indica, apresenta a evoluo das frequncias relativas acumuladas ao longo das classes, em que se subdividiu a amostra. Utiliza-se principalmente na determinao grfica da mediana, dos quartis e de outros percentis quando os dados esto agrupados em classes. Estas medidas sero estudadas com mais pormenor no captulo 3, mas devido sua simplicidade e sua importncia na construo de uma representao grfica muito simples, mas muito til, vamos indicar a forma de as obter. Como veremos, a mediana (Me) um valor que divide a amostra, ordenada, ao meio, isto , 50% dos elementos da amostra so menores ou iguais mediana e os outros 50% so maiores ou iguais mediana. Ficando a amostra dividida em duas partes, com igual nmero de elementos, cada uma destas partes ainda pode ser dividida ao meio. mediana da parte inferior dos dados, chamamos 1. quartil (Q1), enquanto que mediana da parte superior dos dados, chamamos 3. quartil (Q3). Repare-se que, deste modo, o 1. quartil, a mediana e o 3. quartil dividem os dados em 4 partes iguais: o 1. quartil tal que 25% dos dados so inferiores a ele; entre o 1. quartil e a mediana esto outros 25% dos dados; entre a mediana e o 3. quartil esto 25% dos dados, fazendo com que abaixo do 3. quartil estejam 75% dos dados, enquanto que acima dele esto os restantes 25% dos dados. Para obter graficamente estas medidas, tomemos de novo a seguinte tabela de frequncias, obtida em 2.4.1, mas em que agora consideramos as percentagens para as frequncias relativas (multiplicamos as frequncias relativas por 100):
Classes [64, 81[ [81, 98[ [98, 115[ [115, 132[ [132, 149[ [149, 166[ Total Rep. classe x i 72,5 89,5 106,5 123,5 140,5 157,5 Freq. Abs. ni 4 14 15 4 1 2 40 Freq. Rel. (%) fi 10,0 35,0 37,5 10,0 2,5 5,0 100,0 Freq. Abs. Acum. 4 18 33 37 38 40 Freq. Rel. Acum. (%) 10,0 45,0 82,5 92,5 95,0 100,0

51

anlise de dados

ORGANIZAO dos DADOS em TABELAS e GRFICOS

10

20

30

O grfico de frequncias relativas acumuladas correspondente


110 100 90 80 70 60 50 40 30 20 10 0 64 81 98 115 rea 132 149 166 m
2

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Freq. rel. acum. %

Grfico das frequncias relativas acumuladas

Para se obter graficamente a mediana (Me) e os quartis (Q1 e Q3), comea-se por traar uma linha poligonal que une, em cada um dos rectngulos, o vrtice inferior esquerdo com o vrtice superior direito (ver figura). De seguida, toma-se no eixo vertical uma percentagem conveniente (50% para a mediana, 25% para o 1. quartil e 75% para o 3. quartil). Traa-se uma linha paralela ao eixo horizontal passando pelo ponto correspondente percentagem de interesse e prolonga-se at encontrar a linha poligonal. Finalmente projecta-se sobre o eixo horizontal e obtm-se o respectivo quartil (repare-se que, mediana, tambm podemos chamar 2. quartil):

110 100 Freq. rel. acum. % 90 80 70 60 50 40 30 20 10 0 64 81 Q1 98 Me 115 Q3 132 149 166 m


2

anlise de dados

rea

52

Como se verifica a partir da representao grfica anterior, a mediana deve estar prxima de 100, enquanto o primeiro quartil deve estar prximo de 87 e o terceiro quartil andar volta de 113. Salientamos que este procedimento, utilizado para dados agrupados, s d valores aproximados.

2.4.4 Exemplos de tabelas e grficos para dados quantitativos contnuos


Vamos apresentar alguns exemplos relacionados com variveis quantitativas contnuas, onde se procura fazer uma interpretao dos dados a partir de tabelas ou grficos. Exemplo: Notas finais a Matemtica O histograma seguinte mostra a distribuio das notas finais de Matemtica (numa escala de 0 a 20) de uma determinada turma.
4

0 0 4 8 12 nota 16 20

A partir do histograma anterior pode-se verificar que no houve nenhum aluno com nota inferior a 4. Podem-se ainda colocar questes do gnero: Admitindo que 10% dos alunos da turma tiveram nota entre 4 e 8, qual a percentagem de alunos com nota entre 8 e 12? Para responder a esta questo fundamental ter presente que o histograma um diagrama de reas, pelo que se se est a admitir que 10% dos alunos tiveram nota entre 4 e 8, significa que a uma rea de 4 unidades, que a rea do rectngulo mais esquerda, corresponde uma frequncia relativa de 10%. Ento a percentagem de alunos com nota entre 8 e 12 ser 20%, pois a rea do rectngulo que corresponde a este intervalo o dobro da rea do rectngulo da classe anterior. De forma idntica pode-se concluir que a percentagem de alunos que tiveram nota maior ou igual a 12 70%. Neste exemplo convm fazer a seguinte observao: os valores assinalados no eixo vertical no correspondem necessariamente a frequncias absolutas. Servem como orientao para calcular as reas dos rectngulos correspondentes s classes. Assim, no sabemos quantos alunos fizeram o teste de Matemtica.

53

anlise de dados

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Exemplo: Rendimento familiar (Adaptado de Freedman et al., 1991) O histograma seguinte representa o rendimento familiar, em milhares de dlares de famlias americanas.
6 5 4 3 2 1

ORGANIZAO dos DADOS em TABELAS e GRFICOS

0 0 5 10 15 20 25 30 35 40 45 50

Rendimento (em milhares de dlares)

Tendo em conta que cerca de 1% das famlias tm rendimentos entre 0 e 1000 USD, estime a percentagem de famlias com rendimentos: i) a) Entre 1000 USD e 2000 USD b) Entre 2000 USD e 3000 USD c) Entre 3000 USD e 4000 USD d) Entre 4000 USD e 5000 USD e) Entre 4000 USD e 7000 USD f) Entre 7000 USD e 10000 USD ii) a) Haver mais famlias com rendimentos entre 6000 USD e 7000 USD ou entre 7000 USD e 8000 USD? Ou ser aproximadamente o mesmo? b) Haver mais famlias com rendimentos entre 10000 USD e 11000 USD ou entre 15000 USD e 16000 USD? Ou ser aproximadamente o mesmo? c) Haver mais famlias com rendimentos entre 10000 USD e 12000 USD ou entre 15000 USD e 20000 USD? i) a) Se se diz que 1% das famlias tm rendimentos entre 0 e 1000 USD, ento a rea do rectngulo assente na classe [0, 1[, igual a 1%. Repare-se que a escala do eixo vertical tal que se se multiplicar a base do rectngulo pela sua altura, se obtm precisamente 1. Assim, para as outras classes, para obter as frequncias relativas, basta calcular as reas dos rectngulos respectivos. A resposta a esta alnea ento 2%; b) 3%; c) 4%; d) 5%; e) 15%; f) 15%. ii) a) O mesmo, j que as reas dos rectngulos correspondentes a essas classes so idnticas. b) Mais entre 10000 USD e 11000 USD, pois a rea do rectngulo correspondente a essa classe superior ao da outra classe. c) Mais entre 15000 USD e 20000 USD, pela mesma razo da alnea anterior.

anlise de dados

54

Utilizao do Excel, na construo da tabela de frequncias e do histograma para dados quantitativos contnuos
Tabela de frequncias No caso de dados contnuos, o processo de construo das classes um pouco mais elaborado do que no caso de dados discretos, j que a definio das classes no to imediata. De um modo geral as classes so intervalos com a mesma amplitude, fechados esquerda e abertos direita ou abertos esquerda e fechados direita. Em certos casos no conveniente que as classes tenham a mesma amplitude, o que em si no um problema para a construo da tabela de frequncias, mas que implica alguma complicao na construo do histograma associado, quando pretendemos utilizar o Excel. Limitar-nos-emos a utilizar o Excel para a construo de histogramas associados a tabelas com as classes com igual amplitude. Vamos exemplificar a construo de uma tabela de frequncias com a varivel rea do conjunto de dados, que temos vindo a estudar. Definio das classes: Determinar a amplitude da amostra, subtraindo o mnimo do mximo; Dividir essa amplitude pelo nmero k de classes pretendido. Existe uma regra emprica que nos d um valor aproximado para o nmero k de classes e que consiste no seguinte: para uma amostra de dimenso n, considerar para k o menor inteiro tal que 2k>n. Uma expresso equivalente para obter k, consiste em considerar k=INT(LOG(n;2))+1 ou k=ROUNDUP(LOG(n;2);0), em que a funo ROUNDUP(x;m), devolve um valor de x, arredondado por excesso, com m casas decimais; Calcular a amplitude de classe h, dividindo a amplitude da amostra por k e tomando para h um valor aproximado por excesso, do quociente anteriormente obtido; Construir as classes C1, C2, ..., Ck. Vamos considerar como classes os intervalos [mnimo, mnimo + h[,[mnimo + h, mnimo + 2h[, ..., [mnimo + (k-1)h, mnimo + kh[.Uma alternativa a este procedimento seria considerar as classes abertas esquerda e fechadas direita, da seguinte forma: ]max kh, max (k-1)h], ]max (k-1)h, max (k-2)h], ..., ]max h, max]. Estes passos so representados na figura seguinte:

55

anlise de dados

ORGANIZAO dos DADOS em TABELAS e GRFICOS

com os seguintes resultados:

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Clculo das frequncias Para obter as frequncias absolutas, vamos utilizar a funo COUNTIF, como se exemplifica para a classe c1:

anlise de dados

As frequncias das classes c2, c3, c4, c5 e c6, so obtidas de forma idntica de c1, mudando os limites das classes. A construo de uma tabela de frequncias pode ser feita utilizando um item chamado Histogram, disponvel no Excel, em Tools Data Analysis. Chama-se a ateno para que o nome deste item enganador, pois na realidade, esta funo limita-se a construir uma tabela de frequncias. Para proceder ao agrupamento em k classes, utilizando o Histogram, necessrio comear por construir um conjunto de separadores de classes, b1, b2, ..., bk-1, e as frequncias absolutas obtidas com a funo Histogram, so as correspondentes s seguintes classes: 1. classe conter todos os elementos b1; 2. classe conter todos os elementos b2 e >b1; 3. classe conter todos os elementos b3 e >b2; .... k-sima classe conter todos os elementos >bk-1.

56

Construo do histograma Para construir o histograma, a partir da tabela de frequncias, pode-se utilizar o seguinte procedimento: Seleccionar as clulas que contm as classes e as que contm as frequncias relativas (se pretender seleccionar clulas no adjacentes, basta seleccionar as clulas da primeira coluna e se a coluna seguinte no for adjacente, comear por carregar a tecla CTRL e com ela pressionada seleccionar, ento, as clulas pretendidas, da coluna no adjacente); ORGANIZAO dos DADOS em TABELAS e GRFICOS Proceder como se fosse construir um grfico de barras; Clicar duas vezes sobre as barras, de forma a que aparea o menu Format Data Series ou Format data Points.; Seleccionar Options e em Gap Width seleccionar 0; OK:

0.40 0.35 0.30


Freq.rel.

0.25 0.20 0.15 0.10 0.05 0.00


66,32; 82,495 82,495; 98,670 98,670; 114,845 114,845; 131,020 131,020; 147,195 147,195; 163,370

rea

0.40 0.35 0.30 Freq.rel. 0.25 0.20 0.15 0.10 0.05 0.00
[66; 82,5[ [82,5; 99[ [99; 115,5[ [115,5; 132[ [132; 148,5[ [148,5; 165[

rea

57

anlise de dados

Fica visualmente mais elucidativo se considerarmos as classes com outros limites, como por exemplo [66; 82,5[, [82,5; 99[, [99; 115,5[, [115,5; 132[, [132; 148,5[, [148,5; 165[, que no se afastam muito dos anteriores. Construindo a nova tabela de frequncias e o correspondente histograma, vem:

Repare-se que a modificao processada nas classes, provocou uma alterao no histograma. Efectivamente, o histograma uma representao que depende muito da amplitude que se considera para as classes e do ponto onde se inicia a construo das classes. Nota: A observao anterior importante, pois chama a ateno para o facto de, para o mesmo conjunto de dados, se poderem construir vrios histogramas, nem todos com aspecto semelhante. Este facto faz com que se diga que o histograma no uma representao resistente, pois pode mudar drasticamente de aspecto, quando se altera a amplitude da classe ou o valor em que se inicia a construo destas. ORGANIZAO dos DADOS em TABELAS e GRFICOS

anlise de dados

58

2.5

Outras representaes grficas

Alm das representaes grficas consideradas anteriormente, de que se destacam o diagrama de barras e o histograma, utilizados especialmente para variveis quantitativas discretas e contnuas, respectivamente, existem outras representaes grficas que se usam tanto para dados discretos, como contnuos. Passamos a apresentar as mais usuais.

2.5.1 Diagrama de extremos e quartis


Uma forma simples de evidenciar a forma como os dados se distribuem atravs de uma representao grfica que envolve apenas 5 valores retirados ou calculados a partir da amostra. Esses valores so: o mnimo, o mximo, a mediana, o 1. quartil e o 3. quartil. O diagrama de extremos e quartis constitudo por um rectngulo e por dois segmentos de recta que partem de cada um de dois lados opostos do rectngulo. Pode ser colocado na vertical ou na horizontal. O que mostramos na figura seguinte, do lado esquerdo, diz respeito varivel Preo e foi obtido atravs do software estatstico SPSS que utiliza a representao vertical:
400 400

Mx 350 350

300

300

250

250

Q3 200 200 Me

150

Mn 100 Preo 100 Preo

Diagrama de extremos e quartis para a varivel Preo

Como se pode ver na figura anterior, no grfico do lado direito, o rectngulo desenhado desde o 1. quartil (que 151,83 mil euros) at ao 3. quartil (que 210,02 mil euros). Dentro do rectngulo coloca-se um trao para assinalar a posio da mediana (que 184,575 mil euros). Os dois segmentos de recta que completam esta representao grfica estendem-se, um desde o mnimo da amostra (que 121,47 mil euros) at ao lado do rectngulo determinado pelo 1. quartil e o outro desde o lado do rectngulo determinado pelo 3. quartil at ao mximo (que 357,32 mil euros). Os diagramas de extremos e quartis permitem tirar concluses importantes

59

anlise de dados

Q1 150

ORGANIZAO dos DADOS em TABELAS e GRFICOS

acerca da forma como os dados se distribuem dentro da amostra. A partir do grfico anterior podemos desde logo dizer que os preos das casas se distribuem de forma enviesada, com uma cauda mais longa no sentido dos grandes valores. Os 50% de valores centrais para os preos das casas situam-se entre cerca de 150 mil euros e 210 mil euros; o preo mnimo pouco abaixo dos 150 mil euros, mas o preo mximo bastante superior aos 210 mil euros, atingindo cerca de 350 mil euros; verifica-se ainda que metade das casas tm preos que no excedem o valor indicado pelo trao da mediana que, apenas pela leitura do grfico, se verifica ser prxima dos 180 mil euros. Utilizao do diagrama de extremos e quartis para comparar vrias amostras ORGANIZAO dos DADOS em TABELAS e GRFICOS Quando colocados em paralelo, os diagramas de extremos e quartis, permitem estabelecer comparaes entre amostras, evidenciando as principais semelhanas e diferenas entre os padres de distribuio, nomeadamente no que diz respeito localizao de algumas das medidas caractersticas dos dados, assim como maior ou menor disperso dos dados. Que pode dizer acerca dos preos das casas nas zonas A, B e C?

anlise de dados

A representao anterior torna evidente que os preos das casas da zona C so os mais baixos das 3 zonas consideradas, apresentando ainda uma pequena variabilidade entre o preo mais baixo e o preo mais alto. Pelo contrrio, as casas da zona A so, de um modo geral, mais caras.

60

2.5.1.1 Construo do diagrama de extremos e quartis para dados agrupados Como vimos anteriormente, na seco 2.4.3, o histograma acumulado permite obter valores aproximados para a mediana e quartis, quando os dados esto agrupados. Vamos ento aproveitar essa facilidade para obter, neste caso, o diagrama de extremos e quartis. Para isso basta completar a representao grfica com um diagrama que se desenha por baixo do grfico de frequncias relativas acumuladas, como se apresenta a seguir:
110 100 Freq. rel. acum. % 90 80 70 60 50 40 30 20 10 0 64 81 Q1 98 Me 115 Q3 132 rea 149 166

Diagrama de extremos e quartis horizontal

Mesmo sem ter explicitamente os valores da mediana e dos quartis, o histograma acumulado permite, de forma fcil, obter o diagrama de extremos e quartis.

2.5.2 Grfico de caule-e-folhas


um tipo de representao que se pode considerar entre a tabela e o grfico. com os prprios nmeros que constituem a amostra que se vai construindo a representao grfica. Cada dado separado em duas partes: o caule e a folha. Tomando por base a ordem de grandeza dos valores da amostra, escolhe-se o(s) dgito(s) dominante(s) (ver mais frente) que se coloca(m) ao longo de um eixo vertical, do lado esquerdo. Os dgitos dominantes constituem os caules. Para cada valor da amostra toma-se o dgito que se segue imediatamente ao(s) dgito(s) dominante(s) e coloca-se do lado direito do eixo, em frente ao respectivo caule. Colocam-se assim as folhas. Aps colocadas todas as folhas, usual orden-las por ordem crescente, dentro de cada caule. Se os dados so constitudos por dois dgitos, ento natural escolher o algarismo das dezenas para caule e o das unidades para folha. Para ilustrar este procedimento, vamos usar o grfico de caule-e-folhas como uma forma de organizar os dados resultantes de uma tarefa que facilmente se pode realizar numa turma do 1. ciclo do ensino bsico.

61

anlise de dados

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Tarefa
Quantos segundos se consegue estar sem respirar?

Gostaramos de ter uma ideia de quantos segundos conseguimos estar sem respirar. Suponha que um grupo de alunos fez esta experincia na turma e obteve os seguintes valores: 59, 38, 47, 23, 48, 55, 37, 48, 53, 37, 52, 39, 54, 57, 38, 46, 40, 41, 62, 63, 38, 65, 44, 68, 27, 35, 46, 60. Podem ser feitas perguntas do tipo: Quantos segundos esteve sem respirar o aluno que aguentou menos tempo? E o aluno que aguentou mais tempo? O professor pode, com a ajuda dos alunos, organizar os dados num diagrama de caule-e-folhas. Como o menor e o maior dos valores anteriores so, respectivamente, 23 e 68, para organizar os dados num grfico de caule-e-folhas, vamos comear por considerar os seguintes caules (algarismos das dezenas dos valores iniciais):
2 3 4 5 6

Depois de considerar um segmento de linha vertical, ao lado dos caules, vamos pendurar as folhas, nos caules respectivos. Exemplificamos a seguir, um grfico com a 1. folha, um outro com a 1. e a 2. folha e finalmente o grfico com as folhas todas:
2 3 4 5 9 6 2 3 8 4 5 9 6 2 3 4 5 6 37 8779885 78860146 953247 23580

costume ordenar as folhas correspondentes a cada caule, de modo que o grfico final o seguinte:
2 3 4 5 6 37 5778889 01466788 234579 02358

62

Repare-se que agora muito fcil ordenar o conjunto de dados inicial, pois basta percorrer o grfico de caule-e-folhas: 23, 27, 35, 37, 37, 38, 38, 38, 39, 40, 51, 44, 46, 46, 47, 48, 48, 52, 53, 54, 55, 57, 59, 60, 62, 63, 65 e 68. Sugesto Pode ser repetida a tarefa anterior, mas depois de ter aspirado e expirado, profundamente, 3 vezes. Compare os resultados agora obtidos, com os obtidos anteriormente. Algumas consideraes sobre o grfico de caule-e-folhas A representao em grfico de caule-e-folhas tem muitas vantagens: , em geral, muito simples de fazer e torna-se, por isso, acessvel, at a alunos do 1. ciclo do ensino bsico ( necessrio ter algum cuidado na escolha do exemplo, para que no haja problemas na escolha do(s) dgito(s) dominante(s), mas esse o nico cuidado a ter). D uma informao visual sobre a forma como os dados esto distribudos. Permite ordenar rapidamente a amostra. Facilita o clculo da mediana e dos quartis. Escolha dos dgitos dominantes Na construo de um grfico de caule-e-folhas nem sempre imediata a escolha dos dgitos dominantes. Se essa escolha conduzir a muitos caules o resultado final tem pouco de representao grfica, pois ser muito disperso. Se conduzir a poucos caules, para alm de poder esconder padres nos dados, de pouca utilidade se torna na tarefa de ordenao da amostra. Vamos ver o que acontece, por exemplo, com os dados da varivel Preo do exemplo das casas que temos vindo a tratar. Os preos das casas variam entre 121,47 mil euros e 357,32 mil euros. Se tomarmos como dgito dominante o das centenas, ficaremos apenas com 3 caules. Se tomarmos os dois primeiros dgitos (at classe das dezenas), ficaremos com 24 caules, o que demasiado tendo em conta que a dimenso da amostra n=40. Este problema pode ser resolvido subdividindo em dois cada um dos 3 caules que se obtm no primeiro caso. No primeiro desses dois caules, identificado com um asterisco (*), colocam-se as folhas de dgitos 0,1,2,3, e 4 e no outro, identificado com um ponto (.), as folhas de dgitos 5,6,7,8, e 9. Deste modo ficamos ao todo com 6 caules que um nmero razovel para a dimenso de amostra que temos. H ainda a possibilidade de subdividir cada caule em 5, um para as folhas 0 e 1, outro para as folhas 2 e 3, e assim por diante at ao ltimo que ter as folhas 8 e 9, mas iramos obter 15 caules que j excessivo. ORGANIZAO dos DADOS em TABELAS e GRFICOS

63

anlise de dados

Um grfico de caule-e-folhas para a varivel Preo (onde a unidade de cada caule a centena de milhares de euros) , ento:
1* 1. 2* 2. 3* 3. 2 5 0 5 5 2 5 0 8 2 5 0 9 3 6 0 3 6 0 3 6 1 4 7 1 4 7 3 4 8

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Note-se que se pendurou como folhas unicamente os algarismos que figuram na classe das dezenas. Neste caso no se consegue recuperar exactamente os valores da amostra, mas apenas uma aproximao. Pode-se observar, por exemplo, que o mnimo da amostra prximo dos 120 mil euros e que o mximo prximo dos 350 mil euros. Utilizao do caule-e-folhas para comparar duas amostras A representao em caule-e-folhas muito sugestiva para comparar duas amostras, como se apresenta no exemplo seguinte: Exemplo: O tempo de sono do Pedro e do David Apresentam-se, a seguir, os tempos de sono, em horas, medidos durante 30 noites seguidas, do Pedro e do David.
Pedro 8,7 9,4 6,6 6,0 6,9 9,9 6,3 8,9 10,1 9,6 9,3 5,3 7,3 6,7 5,8 4,7 5,6 5,9 9,4 7,6 8,7 7,4 6,3 5,9 10,0 6,5 8,6 7,7 9,0 7,9 7,1 8,3 7,1 7,9 7,5 6,2 8,2 8,7 8,5 7,6 David 9,5 7,1 7,5 7,9 6,4 6,2 7,5 7,7 7,6 8,8 7,1 7,4 7,4 7,8 6,2 8,6 8,4 6,6 8,1 7,1

anlise de dados

Para comparar os tempos de sono dos dois jovens, vamos representar os caule-e-folhas paralelos, isto , determinamos os caules (comuns) a partir da amostra de maior amplitude, ou seja, neste caso, dos dados correspondentes ao David, e depois colocamos as folhas correspondentes s observaes do Pedro para um lado e as correspondentes s do David para o outro:

64

Pedro 7 3 6 0 5 3 6 6 0 6 0 4. 5* 5. 6* 6. 7* 7. 8* 8. 9* 9. 10*

David

9 9

9 3 7 9

8 3 6 4 7 7 3 9 1

9 4

7 4

2 6 1 5 1 5 5

2 1 5 2 6

2 1 5 3 7

4 1 6 4 8 1 6 4 7 4 8

A representao anterior permite realar a maior disperso do sono do Pedro, enquanto que o David mais regular, com uma durao de sono de um modo geral entre as 7 e as 8 horas.

Utilizao do Excel, na construo do diagrama de extremos e quartis e do caule-e-folhas


Construo do diagrama de extremos e quartis Utilizando o Excel, comeam por se calcular os 5 valores necessrios para a construo do diagrama de extremos e quartis, que se apresentam da seguinte forma, e pela ordem indicada: Seleccionar as clulas que contm as estatsticas, assim como as suas etiquetas: C2 a D6; No mdulo Chart Wizard seleccionar: Line Seleccionar Line with markers displayed at each data value Clicar Next Seleccionar Series in Rows Clicar Finish Clicar com o boto direito do rato num dos pontos. Seleccionar: Format Data Series Seleccionar Options Escolher High-low lines e Up-down bars; Ajustar sua escolha Gap width; OK Arranjar esteticamente o grfico:

65

anlise de dados

ORGANIZAO dos DADOS em TABELAS e GRFICOS

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Construo do caule-e-folhas No existe no Excel uma representao imediata para a construo de um caule-e-folhas, pelo que vamos utilizar um processo desenvolvido por Neville Hunt (Hunt, 2006), para o Excel: 1. passo Insira os dados na coluna C, comeando na clula C2; se no estiverem ordenados, ordene-os por ordem crescente; 2. passo Insira na clula E1 o valor que deseja para o comprimento de linha: 10, 5 ou 2 ou uma potncia de 10, destes valores; 3. passo Na clula A2 escreva a seguinte frmula = INT(C2/E$1)*E$1 e replique-a tantas vezes quantos os dados inseridos no 1. passo, na coluna C; 4. passo Na clula B2 escreva o valor 1. Na clula B3 escreva a frmula = IF (A3=A2; B2+1; 1) e replique a frmula, tantas vezes quantos os dados inseridos no 1. passo, na coluna C; 5. passo Seleccione as clulas das colunas A, B e C com os resultados obtidos nos passos anteriores e no mdulo Chart Wizard (Assistente de Grficos) escolha Bubble; 6. passo Faa um duplo clique numa das bolas representadas e na janela Format data Series (ou clique com o boto direito do rato e seleccione Format data Series) seleccione Patterns: Border: None Area: None Data Labels: Show bubbles sizes OK; 7. passo Faa um duplo clique numa das Data labels (ou clique com o boto direito do rato e seleccione Format Data Labels), e na janela Format Data Labels, em Alignment: Label Position: Centre OK; 8. passo Clique numa das linhas horizontais que atravessam o grfico e apague-as com a tecla Delete. Faa o mesmo ao fundo cinzento, seleccionandoo e carregando na tecla Delete. Apague tambm a legenda. 9. passo Formate convenientemente os eixos.

anlise de dados

66

Como se verifica, a mancha obtida idntica representao anteriormente feita mo, mas aqui no existe o mesmo conceito para o caule e a folha.

67

anlise de dados

ORGANIZAO dos DADOS em TABELAS e GRFICOS

2.6

Algumas formas bsicas de distribuio de dados

Numa fase mais avanada da anlise dos dados, o histograma pode ser utilizado como uma ajuda na escolha de um modelo terico para a distribuio subjacente populao de onde os dados foram retirados. Alguns histogramas apresentam formas que, pela frequncia com que surgem, merecem referncia especial. Assim, as distribuies mais comuns, apresentadas pelos dados, so: ORGANIZAO dos DADOS em TABELAS e GRFICOS Distribuies simtricas A distribuio das frequncias faz-se de forma aproximadamente simtrica, relativamente a uma classe mdia:

Caso especial de uma distribuio simtrica Um caso especial de uma distribuio simtrica aquele que sugere a forma de um "sino" e que apresentada por amostras provenientes de Populaes Normais:

Distribuies enviesadas A distribuio das frequncias faz-se de forma acentuadamente assimtrica, apresentando valores substancialmente mais pequenos num dos lados, relativamente ao outro:

anlise de dados

Enviesada para a direita

Enviesada para a esquerda

Distribuies com caudas longas - A distribuio das frequncias faz-se de tal forma que existe um grande nmero de classes nos extremos, cujas frequncias so pequenas, relativamente s classes centrais:

68

Distribuies com vrios "picos" ou modas A distribuio das frequncias apresenta 2 ou mais "picos" a que chamamos modas, sugerindo que os dados so provenientes de vrios grupos distintos:

pode ser considerado a funo densidade do modelo Normal, e a sua aplicao pode ser sugerida por um histograma como o que apresentmos anteriormente, como caso especial de uma distribuio simtrica. A seguir apresentamos alguns exemplos em que so apresentados diversos esquemas de histogramas estilizados, que procuram traduzir a distribuio subjacente a vrias variveis quantitativas contnuas. Exemplo: Salrios de trabalhadores (Adaptado de Freedman et al., 1991) Recolheram-se os preos dos salrios mensais de 3 tipos de trabalhadores. Os trabalhadores do grupo B ganham cerca de duas vezes mais do que os trabalhadores do grupo A; os trabalhadores do grupo C ganham mais 1500 euros por ms do que os do grupo A. Qual das manchas seguintes, de histogramas, pertence a cada um dos grupos?

Para tentarmos resolver esta questo, podemos pensar que se se diz que os trabalhadores do grupo B ganham o dobro dos trabalhadores do grupo A, isto significa, por exemplo, que enquanto a maior parte dos trabalhadores do grupo B aufere um salrio volta de 4000 euros, os do grupo A auferem um salrio volta de 2000 euros. Ento natural esperar que a figura (1) corresponda aos salrios dos trabalhadores do grupo B, enquanto a figura (2) corresponde aos trabalhadores do grupo A. Por outro lado, se os trabalhadores do grupo C ganham 1500 euros a mais do que os do grupo A, isto significa que a distribuio dos salrios dos trabalhadores do grupo C ter um aspecto idntico ao dos trabalhadores do grupo A, mas deslocada para a direita de 1500 euros. Ento a figura (3) corresponder aos salrios dos trabalhadores do grupo C.

69

anlise de dados

ORGANIZAO dos DADOS em TABELAS e GRFICOS

No caso das variveis contnuas, os modelos tericos so caracterizados pelas chamadas curvas de densidade. Estas so funes no negativas, que tm a particularidade de terem uma rea unitria entre o eixo dos xx e o grfico que as representa. Por exemplo, o seguinte grfico

A distribuio com o aspecto (1) no muito usual para representar salrios, sendo mais usuais as distribuies com o aspecto (2) ou (3). Efectivamente, em geral, a distribuio dos salrios tem um aspecto assimtrico, com um enviesamento para a direita. Isto deve-se ao facto de a maior parte dos salrios se concentrarem numa determinada regio, havendo alguns (poucos) salrios que so substancialmente maiores que os restantes, provocando uma cauda da distribuio, alongada para a direita. Exemplo: ORGANIZAO dos DADOS em TABELAS e GRFICOS Qual o aspecto da distribuio? (Adaptado de Freedman et al., 1991) Seguidamente apresentam-se 6 "manchas" de histogramas, 4 dos quais apresentam os resultados do estudo, numa pequena cidade, das 4 caractersticas seguintes: a) Alturas de todos os elementos das famlias, em que os pais tenham idade inferior a 24 anos. b) Alturas dos casais (marido e mulher). c) Alturas de todos os indivduos da cidade. d) Alturas de todos os automveis.

anlise de dados

Quais dos histogramas podem representar cada uma das variveis anteriores?

70

Pensando na varivel que representa a altura de um elemento, escolhido ao acaso, de uma famlia, em que os pais tenham idade inferior a 24 anos, esperamos obter um histograma com uma mancha idntica (2), onde se vislumbram 3 pontos, volta dos quais se nota uma maior frequncia, e que correspondero altura dos filhos entre 80 e 90 cm, que para casais com idades inferiores a 24 anos, ainda devem ser muito pequenos, e altura dos membros do casal, da mulher ou do marido, respectivamente volta de 165 cm e 190 cm, aproximadamente:

Quando consideramos a distribuio das alturas dos elementos de um casal, natural esperar um esquema idntico ao da figura (3), com duas modas, reflectindo que, de um modo geral, as alturas dos homens se concentram em torno de um valor um pouco superior ao valor em torno do qual se concentram as alturas das mulheres. Ao escolher um indivduo ao acaso, na cidade, esperamos que a distribuio das alturas seja descrita pela figura (4) que apresenta um enviesamento para a esquerda, correspondente s alturas das crianas, que esto em minoria. Finalmente, quando se pretende estudar a varivel que representa a altura de um carro, o histograma adequado o que corresponde mancha 1) que traduz o facto de os carros terem quase todos a mesma altura, andando volta de 125 cm. A informao transmitida pelo histograma, sobre o padro da distribuio da populao subjacente aos dados, tambm igualmente transmitida pelo grfico de caule-e-folhas e pelo diagrama de extremos e quartis. Por exemplo, as seguintes representaes indicam o mesmo tipo de informao, sugerindo que a distribuio da populao tem um enviesamento para a direita:
0 1 2 3 4 5 6 7 8 9 0 1 0 4 1 2 3 1 9 5 1 1 1 4 1 2 6 5 3 2 3 5 2 3 7 6 3 4 6 3 7 7 5 4 6 4 8 7 5 8 4

8 8 9 9 6 7 7 8 9 8 9 5

Quando se faz a reduo dos dados, perde-se sempre alguma informao contida nesses dados, mas em contrapartida obtemos a estrutura da populao que eles pretendem representar. Das representaes grficas anteriores, aquela em que se perdeu mais informao foi o diagrama de extremos e quartis, mas tambm foi a mais simples de ser construda bastou recolher, a partir dos dados, informao sobre 5 nmeros (mnimo, mximo, 1. quartil, 3. quartil e mediana).

71

anlise de dados

ORGANIZAO dos DADOS em TABELAS e GRFICOS

2.7

Representaes grficas e tabelas de frequncias para dados bivariados

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Retomemos os Dados sobre casas, apresentados no Captulo 1. Do nosso conhecimento do dia a dia, sabemos que, entre outras variveis, a rea de uma casa influencia directamente o seu preo de venda. Diz-se por isso que as variveis rea e Preo esto correlacionadas. De igual modo esto correlacionadas as variveis Altura e Peso em muitos seres vivos; a Oferta/Procura e o Preo de produtos, a Cilindrada e o Consumo de combustvel nos carros, s para mencionar alguns exemplos. Nalguns casos o aumento de valor de uma das variveis acarreta o aumento de valor na outra varivel (correlao positiva) e noutros acarreta uma diminuio de valor na segunda varivel (correlao negativa). excepo do exemplo ligado lei da oferta e da procura, em todos os outros possvel identificar uma das variveis como sendo explicativa e a outra como sendo uma varivel resposta. Por outras palavras, uma das variveis independente (ou explicativa) e a outra dependente (ou resposta). Assim, o Preo da casa dependente da rea da casa; o Peso que depende da Altura e no a Altura que depende do Peso; o Consumo de combustvel directamente influenciado pela Cilindrada e no vice-versa. Em estatstica, quando o objectivo do estudo analisar a relao de dependncia entre duas variveis, o registo das observaes tem de preservar o emparelhamento, obtendo-se assim uma amostra de dados bivariados.

2.7.1 Diagrama de disperso


O diagrama de disperso uma representao grfica de dados bivariados, utilizada quando qualquer das duas variveis em estudo de tipo quantitativo contnuo. Cada par de dados (x,y) representado, num sistema de eixos ortogonais, por um ponto de coordenadas (x,y). Obtm-se assim uma nuvem de pontos que nos permite avaliar de imediato se h ou no uma forte relao entre as duas variveis.
400 350 300 Preo 250 200 150 100 50 70 90 110 rea 130 150 170

anlise de dados

Diagrama de disperso para os pares (rea, Preo)

72

No diagrama de disperso anterior, esto representados os pares (rea, Preo) das 40 casas que constituem a nossa amostra. A nuvem de pontos apresenta-se um pouco dispersa, mas no deixa por isso de ser bem patente a sua forma alongada que se desenvolve em torno de uma recta com um declive positivo. Diagrama de disperso uma representao grfica para os dados bivariados quantitativos, em que cada par de dados (x,y) representado por um ponto de coordenadas (x,y), num sistema de eixos coordenados. Este tipo de representao muito til, pois permite realar algumas propriedades entre os dados, nomeadamente no que diz respeito ao tipo de associao entre as variveis representadas por x e y. Quanto mais alongada for a nuvem de pontos ao longo de uma recta, isto , quanto maior for o grau de proximidade dos pontos a uma linha recta, maior ser o grau de associao entre as variveis. Esta associao pode ser medida numericamente com um coeficiente a que se d o nome de coeficiente de correlao, que ser estudado no captulo seguinte. No diagrama de disperso para os pares (rea, Preo) verifica-se uma tendncia para que casas de maior rea tenham preos mais elevados. O facto de existir esta tendncia no significa que se tenha necessariamente uma casa mais cara, quando tem maior rea, mas, de um modo geral, as casas maiores tendem a ser mais caras. Exemplo: Idades do marido e da mulher Considere os seguintes dados que representam as idades de 8 casais:
Casal 1 2 3 4 5 6 7 8 Marido 26 25 45 27 38 30 32 36 Mulher 23 29 42 27 32 28 34 29
Idade mulher 45 40 35 30 25 20 20 30 40 Idade marido 50

Verifica-se uma associao linear positiva entre a idade do marido e a idade da mulher, isto , existe tendncia a que mulheres mais velhas estejam casadas com homens mais velhos.

73

anlise de dados

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Exemplo: Nmero de faltas Considere os seguintes dados, que representam o nmero de faltas no autorizadas por ano e a distncia (em km) a que os empregados de determinado armazm esto de casa. Construa o diagrama de disperso e comente-o.
Distncia x 1 3 4 6 8 10 12 14 18 18 N. faltas y 8 5 8 7 6 3 5 2 4 2
10 8 6 4 2 0 0 2 4 6 8 10 12 14 16 18 x

ORGANIZAO dos DADOS em TABELAS e GRFICOS

O grfico mostra uma associao, de sentido contrrio, entre o nmero de faltas e a distncia. Assim, quanto maior a distncia de casa, menor a tendncia para faltar! Exemplo: Notas a Matemtica e Educao Fsica Considere os seguintes dados, que representam as notas obtidas por 10 alunos nas disciplinas de Matemtica e Educao Fsica. Construa o diagrama de disperso e comente-o.
Matemtica x 12 13 10 11 18 16 12 14 18 18 Ed. Fsica y 14 12 10 17 16 12 15 12 14 12
y 20 15 10 5 0 0 5 10 15 20 x

anlise de dados

Aparentemente no existe nenhuma associao linear entre as notas obtidas nas duas disciplinas, uma vez que os pontos se encontram dispersos de forma "aleatria".

74

2.7.2 Tabelas de frequncias para dados bivariados


Um outro processo de organizar a informao correspondente a dados bivariados, normalmente de tipo qualitativo, utilizando uma tabela de frequncias, a que damos o nome de tabela de contingncia. De uma maneira geral, uma tabela de contingncia uma representao dos dados, quer de tipo qualitativo, quer de tipo quantitativo, especialmente quando so de tipo bivariado, isto , podem ser classificados segundo dois critrios. O aspecto de uma tabela de contingncia o de uma tabela com linhas, correspondentes a um dos critrios, e colunas correspondente ao outro critrio. Seguidamente apresentamos um exemplo, para ilustrar o que acabmos de dizer. Exemplo: As casas Considerando de novo o exemplo das casas, pretende-se organizar as variveis Zona e Estado na forma de uma tabela de contingncia. Para isso deve-se comear por construir uma tabela idntica que se segue:
Zona Estado Usada Nova 10 9 16 0 5 0 A B C

que depois ser preenchida com as frequncias absolutas correspondentes a cada uma das clulas. Assim, na clula que corresponde s casas usadas da zona A, escrevemos 10, pois encontraram-se 10 casas nessas condies. As outras clulas so preenchidas de forma idntica. Uma tabela destas ainda pode ser completada com mais uma linha e uma coluna, onde se colocam os totais de linhas e de colunas:
Zona Estado Usada Nova Total 10 9 19 16 0 16 5 0 5 31 9 A B C Total

A leitura da tabela permite concluir que 31 das casas so usadas e 9 so novas. Tambm se pode concluir que 19 casas pertencem zona A, 16 zona B e 5 zona C. A clula do canto inferior direito apresenta o nmero total de unidades observadas, que neste caso foram as casas. Em vez das frequncias absolutas, tambm se podem utilizar as frequncias relativas, com um tipo variado de informao possvel. Por exemplo, a tabela
Zona Estado Usada Nova 32% 100% 52% 0% 16% 100% 0% 100% A B C Total

75

anlise de dados

40

ORGANIZAO dos DADOS em TABELAS e GRFICOS

permite obter informao diferente da tabela que se apresenta a seguir:


Zona Estado Usada Nova Total 25% 23% 48% 40% 0% 40% 13% 0% 78% 23% A B C Total

13% 100%

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Da primeira das duas tabelas anteriores pode-se concluir, por exemplo, que das casas usadas, 32% pertencem zona A, 52% zona B e 16% zona C. Repare-se que nessa tabela se calcularam, em separado, as percentagens relativamente ao nmero de casas usadas e relativamente ao nmero de casas novas. Por outro lado, da segunda tabela pode-se concluir, por exemplo, que 25% das casas so usadas e pertencem zona A; 23% das casas so novas e pertencem zona A; etc. Nesta tabela, as percentagens foram calculadas relativamente ao nmero total de casas.

anlise de dados

76

2.8

Um grfico vale mais do que mil palavras?

costume dizer-se que um grfico vale mais do que mil palavras. De facto, para que isso acontea, necessrio tomar alguns cuidados na construo dessas representaes grficas. Damos de seguida alguns exemplos de representaes grficas incorrectas.

2.8.1 Utilizao de pictogramas


ORGANIZAO dos DADOS em TABELAS e GRFICOS Os pictogramas so representaes grficas que utilizam figuras, o que faz com que essas representaes se tornem bastante apelativas. No entanto, a utilizao de pictogramas, nem sempre se faz de forma correcta. Exemplo: Aumento da quantidade de leite Consideremos a seguinte representao, que pretende mostrar que a quantidade de leite, de uma determinada marca, vendida desde 1985 at 1991, duplicou:
N. vendas 20000

10000

N. vendas 20000

10000

77

anlise de dados

Efectivamente a altura do pacote de leite, em 1991, o dobro da de 1985, mas quando olhamos para as figuras, ficamos com a impresso que esse aumento foi muito superior ao verificado, induzindo o leitor em erro. Se pretendermos continuar a utilizar o pacote de leite como referncia, ento uma soluo possvel ser a seguinte, em que os pacotes s diferem na altura. Deste modo, o volume da cada um proporcional frequncia absoluta, sendo, neste caso, o volume do pacote referente a 1991, o dobro do referente a 1985:

Exemplo: Os jogos preferidos pelos alunos (adaptado de Graa Martins et al. 1999) - Numa escola o Conselho Directivo pretende construir um campo de jogos, pelo que gostaria de ter uma ideia de quais os jogos preferidos dos alunos. Encarregou um aluno de recolher a informao necessria, o qual utilizou a seguinte metodologia: elaborou uma lista de jogos possveis e percorreu todas as turmas da escola, em nmero de 20, perguntando dentro de cada turma qual a opinio dos alunos cujo nmero fosse um mltiplo de 5. Em trs turmas foram seleccionados 6 alunos e nas restantes 5. O resultado da recolha da informao tinha o seguinte aspecto ORGANIZAO dos DADOS em TABELAS e GRFICOS
Futebol Vlei Basquete Tnis Andebol x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x xxxxxxxxxxxxxxx x xxxxxxxxxx xx

O aluno, ao perguntar a cada elemento da amostra a sua opinio, apontava o resultado com um x frente da modalidade seleccionada. A forma como a informao foi recolhida permite imediatamente concluir que a modalidade preferida foi o futebol. A fim de transmitir verbalmente a informao ao Conselho Directivo, o aluno construiu a seguinte tabela de frequncias
Classes Futebol Vlei Basquete Tnis Andebol Total Freq. abs. 32 18 27 19 7 103 Freq. rel(%) 31,1 17,5 26,2 18,4 6,8 100,0

anlise de dados

Ento o Conselho Directivo foi informado que as preferncias dos alunos vo para o futebol seguindo-se o basquete. Depende agora das disponibilidades financeiras contemplar as diferentes modalidades, tendo em conta as preferncias dos alunos. Procurando transmitir a informao graficamente, construram o seguinte pictograma, onde se substituiu a barra por uma figura humana:

Pictograma para a varivel Jogo preferido

78

Na figura anterior a imagem correspondente classe futebol substancialmente maior que a que utilizada para as outras modalidades ou classes. Da dar uma ideia, errada, de que por exemplo a percentagem de alunos que preferem o futebol vrias vezes superior aos que preferem vlei, quando nem sequer chega a ser o dobro. Este problema foi ocasionado pelo facto de se pretender que a figura humana ficasse proporcional, pelo que medida que se aumentou a altura, tambm se aumentou a largura. O grfico de barras correspondente tem o seguinte aspecto:
35 30 % alunos 25 20 15 10 5 0 Vlei Futebol Tnis Basquete Andebol

Grfico de barras para a varivel Jogo preferido

Na construo do grfico de barras, como j dissemos nas indicaes para a sua construo, deve ter-se em ateno que as barras devem ter a mesma largura, pois a mensagem que devem transmitir a que est contida nas diferentes alturas das barras. Se umas barras forem mais largas do que outras, temos tendncia a crer que as classes a que correspondem as barras mais largas tm maior frequncia do que a que efectivamente tm. Este um problema que no tido em conta na construo de muitos pictogramas, em que as barras so substitudas por figuras, para tornar a representao grfica mais atraente, como aconteceu no caso deste exemplo. Um pictograma possvel, o que se apresenta a seguir, em que a figura utilizada uma figura humana, que corresponde a uma percentagem de 5%, que se replica o nmero de vezes que for necessrio, sendo possvel utilizar uma fraco da figura:

Pictograma para a varivel Jogo preferido

79

anlise de dados

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Exemplo: Seguro do agricultor (Graa Martins et al., 1999) - Com o objectivo de fazer um seguro, um agricultor teve de fazer o levantamento do nmero e tipo de rvores de fruto existentes no seu pomar. O resultado apresenta-se na tabela seguinte:
Classes Laranjeiras Limoeiros Pessegueiros Macieiras Pereiras Total Freq. abs. 320 135 257 335 379 1426 Freq. rel.(%) 22,4 9,5 18,0 23,5 26,6 100,0

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Uma representao grfica possvel seria a seguinte, considerando uma figura sugestiva, mas sem incorrer no erro da representao do exemplo anterior, inicialmente apresentada:

anlise de dados

= 2%

Pictograma para a varivel Tipo de rvore Embora seja comum dizer que uma imagem vale mais do que mil palavras, no podemos deixar de chamar a ateno para que esta frase tem sentido se a informao transmitida pela imagem for correcta, o que nem sempre acontece, como vimos anteriormente.

80

2.8.2 Utilizao do diagrama circular


O diagrama circular uma representao grfica, utilizada para representar a distribuio de dados de tipo qualitativo. das representaes grficas mais utilizadas pela comunicao social, em jornais, revistas ou televiso. No entanto, a sua utilizao nem sempre se faz da forma mais correcta, nomeadamente quando se faz o diagrama circular a 3 dimenses, pois, neste caso, no transmite uma ideia clara das reas que pretende representar, embora se tornem visualmente mais atractivas. Exemplo: ORGANIZAO dos DADOS em TABELAS e GRFICOS Passageiros do Titanic (De Veaux et al., 2004) Considere a seguinte tabela com a distribuio dos 2201 passageiros do Titanic, na altura do naufrgio:
Classe 1. classe 2. classe 3. classe Tripulao Freq. abs. 325 285 706 885 Freq. rel.(%) 15% 13% 32% 40%

Para estes dados podemos construir algumas representaes grficas na forma de um diagrama circular, nomeadamente:
1. classe 15% Tripulao 40% Tripulao 40% 1. classe 15% 2. classe 13%

2. classe 13%

3. classe 32%

3. classe 32%

Suponhamos, agora, que s desejvamos representar os passageiros que no faziam parte da tripulao: Neste caso a representao correcta a que se apresenta ao lado. As percentagens so diferentes das consideradas 1. classe 25% anteriormente, uma vez que passmos a representar um 3. classe 53% outro conjunto de dados. Uma outra regra bsica a de que, num diagrama circular, a soma das percentagens tem que 2. classe 22% ser igual a 100%, ou a soma dos efectivos tem que ser igual ao nmero de dados.

81

anlise de dados

A representao a 3 dimenses torna difcil a comparao das frequncias das diferentes classes, que , afinal, o objectivo principal de uma construo destas. Esta situao verifica-se, sobretudo se no juntarmos as etiquetas com as percentagens respectivas, junto de cada sector. Uma regra bsica a de que as reas ou volumes ocupadas pelas diferentes classes, devem reflectir, sem ambiguidade, o valor que representam, o que no o caso da representao do lado direito.

2.8.3 Escalas e escalas


A utilizao e manipulao das escalas pode transmitir informao de acordo com a vontade do utilizador, o que se torna perigoso. Vejamos os trs exemplos seguintes: Exemplo: Nmero de acidentes no IP5 (Hipottico) - Suponha que o nmero de acidentes no IP5 foi, no perodo de Setembro de 1997 a Janeiro de 1998, o seguinte: 8, 9, 12, 13 e 12. Dois jornais apresentaram as seguintes representaes grficas para transmitirem a informao anterior: ORGANIZAO dos DADOS em TABELAS e GRFICOS
13 12 11 10 9 8 7 Set. Out. Nov. Dez. Jan. 25 23 21 19 17 15 13 11 9 7 Set. Out. Nov. Dez. Jan.

Nmero de acidentes no IP5

Repare que a representao grfica da esquerda procura enfatizar o facto do nmero de acidentes ter aumentado substancialmente, enquanto que o do lado direito procura desvalorizar esse aumento. No primeiro caso no inicimos a escala das frequncias no ponto 0, enquanto que no 2. caso diminumos a distncia entre os incrementos do eixo vertical, para diluir a variao da curva, ao mesmo tempo que aumentamos a distncia entre as categorias no eixo horizontal. Uma representao correcta pode ser a seguinte:
N. acidentes 12 10 8 6 4 2 0 Set. Out. Nov. Dez. Jan.

anlise de dados

Nmero de acidentes no IP5

82

Exemplo: Quantidade de acar nos cereais para crianas - Uma empresa que vende cereais para crianas faz publicidade dos seus cereais da marca Que Bom, dizendo que os seus cereais tm muito menos acar, por 100 gramas de cereal, do que os da concorrncia. Para isso apresenta a representao grfica do lado esquerdo da figura seguinte, onde compara os 9 gramas de acar dos cereais Que Bom, com os 15, 14, 12, 11 e 11 gramas, respectivamente dos cereais A, B, C, D e E:
15
grs aucar/100grs

15
grs aucar/100grs

14 13 12 11 10 9 8
A B C D E Que Bom

10

0
A B C D E Que Bom

Nessa representao grfica, a escala do eixo vertical no se inicia no ponto 0, como devia. Assim, uma representao correcta poder ser a do lado direito da figura anterior, pois ao contrrio dessa, j no induz o leitor em erro. Exemplo: Andamos a ler pouco O grfico a seguir apresentado pretende mostrar a diminuio na venda de livros de 1975 a 1984, num determinado pas. Embora esteja indicado para cada ano o nmero de livros, em milhares, as alturas das barras transmitem-nos a ideia de que houve uma diminuio acentuada, sobretudo a partir de 1979:

Nmero de livros vendidos

83

anlise de dados

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Temos, no entanto, de ter em ateno que o eixo horizontal no representa o zero. Temos uma escala que faz sobressair as pequenas diferenas de ano para ano. Com uma representao numa escala que inclua o zero obter-se- o seguinte grfico

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Como se verifica, a variao no to grande, como o primeiro grfico fazia supor.

2.8.4 Outras situaes - Exemplo de um grfico pouco elucidativo


O jornal Expresso do dia 9 de Abril de 2005 apresentava um artigo sobre a alimentao dos portugueses. Entre outras representaes grficas, apresentava a seguinte: No que diz respeito ao diagrama circular, em que se apresenta o resultado da pergunta Em sua casa, o que come mais?, ficamos a saber que praticamente 2/3 da populao (e estamos a inferir para a populao, os resultados verificados na amostra) come mais carne do que peixe, embora os especialistas no se cansem de referir os malefcios de comer carne a mais, nomeadamente para o colesterol. Quanto representao grfica (?) que procura traduzir os resultados da questo E qual o tipo de cozinhados?, como que deve ser interpretada? O que que significa a percentagem de 50% de respostas em Cozidos? E as percentagens nas outras modalidades de cozinhados? A quantas modalidades que as pessoas puderam responder? Evidentemente que no puderam responder s a 1, pois nesse caso a soma das percentagens teria de dar 100%! Estamos perante uma representao grfica para a qual faltam algumas palavras, de certeza menos que mil palavras.

Em sua casa, o que come mais?


Macrobitica 1% Peixe

29% 66% Carne

anlise de dados

E qual o tipo de cozinhados?


Cozidos Grelhados Assados Fritos Guisados

50% 47% 24% 23% 21%


GFK/Metris

Nota: a diferena para 100% corresponde s respostas No sabe/No responde

Estudo realizado pela GFK Metris para o EXPRESSO entre os dias 11e 19 de Fevereiro de 2005. O Universo constitudo pelos indivduos de ambos os sexos, com 18 ou mais anos de idade, residentes em Portugal Continental. A amostra constituda por 1.000 indivduos e respondentes seleccionados atravs do mtodo de quotas, com base numa matriz que cruzou as variveis Sexo, Idade (5 grupos), instruo (2 grupos), Ocupao (2 grupos), Regio (7 Regies MetrisGFK) e Habitat/Dimenso dos agregados populacionais (6 grupos). A informao foi recolhida atravs de entrevista directa e pessoal na residncia dos inquiridos.

FICHA TCNICA

84

2.9

Algumas delicadezas no tratamento estatstico dos dados

Vimos nas seces 2.3 e 2.4, tratamentos estatsticos utilizados para classificar a informao contida em dados discretos e contnuos. Apresentmos algumas representaes grficas especialmente adequadas para dados discretos grfico de barras, e para dados contnuos histograma, alm de outros grficos utilizados indiferentemente para dados discretos ou contnuos. Embora a classificao de uma varivel quantitativa em discreta ou contnua possa no oferecer dvidas, j a forma como os dados se apresentam pode causar alguma confuso. Por exemplo as variveis Peso, Altura, Idade, so de natureza contnua, pois os dados so recolhidos procedendo a uma medio. No entanto, estes dados aparecem-nos discretizados. comum o peso aparecer em Kg, a altura em cm e a idade em anos. Embora a diferena entre dois valores possa ser to pequena quanto se queira, essa diferena condicionada pelo instrumento de medida e pela necessidade de uma representao numrica simples. Por outro lado, algumas variveis discretas, como por exemplo Nmero de carros que atravessam a portagem da ponte 25 de Abril num dia til, escolhido ao acaso, Salrio auferido por um trabalhador, so variveis discretas, j que os dados so recolhidos procedendo a uma contagem. Por exemplo, no caso do salrio, a diferena entre dois valores no pode ser inferior a um cntimo. Assim, embora no seja correcto utilizar o grfico de barras para representar observaes recolhidas de uma varivel contnua, j o mesmo no se pode dizer da utilizao do histograma para representar observaes provenientes de variveis discretas. Sempre que no estudo de uma varivel discreta, o nmero de dados distintos seja muito grande, quando comparado com a dimenso da amostra, ento deve-se utilizar o histograma, em vez do diagrama de barras. Voltemos ao exemplo Candidatos a algumas vagas, da pgina 41: Exemplo:

Classes 20 30 40 50 60 70 80 90 a a a a a a a a 29 39 49 59 69 79 89 99

Freq. absoluta 6 36 52 46 36 12 20 15 223

Freq. relativa 0,027 0,161 0,233 0,206 0,161 0,054 0,090 0,067 1,000
0,25 0,20 0,15 0,10 0,05 0,00 0 20 40 60 80 100 Freq. rel.

Resultados do teste

Total

85

anlise de dados

Candidatos a algumas vagas (cont) Uma vez que o nmero de valores distintos muito grande, a construo de um grfico de barras, conduziria a um grfico com demasiadas classes, que no permitiria fazer sobressair o padro da distribuio subjacente aos dados. Foi ento sugerida a organizao dos dados em classes, obtendo-se a seguinte tabela de frequncias e o histograma correspondente:

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Quando os dados a classificar so provenientes de uma varivel contnua, isto significa que poderemos obter, pelo menos teoricamente, um nmero infinito de valores distintos. Efectivamente, se a varivel de tipo contnuo, significa que no se pode passar de um valor a outro, sem passar por todos os valores intermdios. No entanto, estes dados, como dissemos anteriormente, podem-nos aparecer discretizados. Vejamos o seguinte exemplo: Exemplo: Idades dos alunos Numa escola do 2. ciclo recolheu-se informao sobre as idades de 45 alunos, tendo-se obtido os seguintes valores: 9, 11, 12, 10, 9, 10, 10, 10, 11, 12, 9, 9, 12, 12, 11, 11, 11, 11, 11, 12, 10, 10, 11, 9, 10, 9, 9, 10, 10, 10, 12, 12, 11, 10, 12, 11, 10, 11, 11, 10, 11, 11, 12, 11, 12 Note-se que quando se diz que um aluno tem 9 anos, por exemplo, este valor engloba todas as idades compreendidas entre os 9 e os 10 anos, exclusive. O mesmo se passa com as outras idades. Ao estudar o histograma, considermos uma metodologia que inclua uma regra que nos d uma indicao sobre o nmero de classes que se podem considerar. Acontece que neste caso essa metodologia no deve ser aplicada, j que as classes, partida esto bem definidas. No teria qualquer sentido considerar 6 classes (valor sugerido pela regra de Sturges, cada uma com amplitude ligeiramente superior a 0.5 (recomendao feita na escolha da amplitude de classe). A organizao dos dados pode ser feita de acordo com a seguinte tabela e respectivo histograma:
15

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Classes [9, 10[ [10, 11[ [11, 12[ [12, 13[ Total

Freq. Absoluta 7 13 15 10 45

Freq. relativa 0,16 0,29 0,33 0,22 1

Freq. Abs.

10 5 0 8 9 10 11 Idade 12 13

anlise de dados

86

Vamos conhecer a turma!

Ao nvel do 1. ciclo do ensino bsico, a forma como se introduz cada uma das tcnicas de organizao e representao grfica de dados ter de ser muito alicerada em actividades. Os alunos comeam por recolher a informao e depois, naturalmente, tero curiosidade em ver um pouco mais para alm daquele conjunto de valores que conseguiram obter. Neste texto vamos limitar-nos a apresentar algumas sugestes de como se podero desenvolver um conjunto de actividades em que se faa tratamento estatstico de dados, nomeadamente a sua organizao em tabelas e a construo de alguns grficos. O exemplo Vamos conhecer a turma ir servir de base a alguns procedimentos j referidos anteriormente:
Tempo que demora de casa escola (minutos) 3 32 25 20 17 15 33 22 9 35 25 18 10 21 20 6 5 19 13 15

Nome Ana Patrcia Santos Ana Rita Pereira Bruno Martins Ctia Reis Cludia Rodrigues David Amaral Elisabete Soares Jos Manuel Rocha Jos Augusto Silva Liliana Morais Maria Isabel Antunes Miguel Correia Patrcia Mendes Pedro Mendes Ricardo Freitas Rui Eduardo Pires Snia Gonalves Susana Alves Tatiana Medeiros Vasco Fernandes

Nmero de letras no nome 17 14 12 9 16 11 15 15 16 13 18 13 14 11 14 15 14 11 15 14

Cor dos olhos Azuis Castanhos Castanhos Pretos Azuis Azuis Pretos Azuis Castanhos Castanhos Azuis Verdes Castanhos Castanhos Verdes Pretos Castanhos Azuis Castanhos Castanhos

Comprimento do palmo (cm) 14,7 15,6 15,9 14,2 16,3 13,5 14,4 15,1 15,2 16,2 15,9 13,6 17,3 14,7 15,0 13,8 14,3 15,4 14,8 13,2

Nmero de irmos 3 1 1 1 1 2 1 1 1 1 2 0 1 2 0 4 1 0 1 3

87

Indo por grau de dificuldade, deve-se comear por organizar os dados de tipo qualitativo. Para estes, a representao grfica na forma de pictograma especialmente atraente para os alunos e, por isso, vamos apresentar duas propostas de pictograma para a varivel qualitativa Cor dos olhos. Entrega-se a cada aluno um pequeno quadrado de papel com uma cara desenhada. As caras devem ser todas iguais e o aluno ter de pintar os olhos da cor dos seus prprios olhos e desenhar os cabelos (para diferenciar entre rapaz e rapariga):

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Numa folha de cartolina grande, traa-se uma linha horizontal e escreve-se sob essa linha as quatro cores de olhos que surgem na amostra. Coloca-se como legenda Cor dos olhos:

Cada um dos alunos dever colar a cara que pintou no local respectivo, imediatamente acima de alguma cara que j esteja l colocada. No final obtm-se um pictograma muito divertido!...

anlise de dados

88

Em alternativa pode tambm utilizar-se o desenho de um olho como representante das unidades observacionais. Na amostra em estudo as unidades observacionais so os alunos mas, no que respeita caracterstica cor dos olhos, pode admitir-se que elas possam ser, simplesmentes, os olhos:

Organizados os dados numa tabela de frequncias, obtm-se


Cor dos olhos Azuis Verdes Castanhos Pretos Total Frequncia Absoluta 6 2 9 3 20 Frequncia Relativa 0,30 0,10 0,45 0,15 1,00

Nota: A coluna das frequncias relativas facultativa, deixando-se ao critrio do professor apresent-la ou no, pelo menos nesta fase.

89

anlise de dados

Nesta primeira abordagem organizao dos dados procedeu-se pela ordem contrria ao que habitual. Fez-se a representao grfica antes de fazer a tabela de frequncias! Tal faz sentido tendo em conta a idade dos alunos, pois a representao grfica muito mais apelativa e, no caso das variveis qualitativas, pode servir de base para a construo da tabela de frequncias. Alis, esta situao no nova, pois quando falmos no grfico de pontos, tambm o construmos antes da tabela de frequncias.

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Pode agora passar-se construo de um grfico de barras. Pede-se aos alunos que desenhem 4 rectngulos, todos com a mesma largura, em papel quadriculado, por exemplo, e cujas alturas sejam iguais s frequncias absolutas. De seguida podero recortar os rectngulos e col-los numa folha de papel onde tenham desenhado um eixo e identificado as categorias da varivel Cor dos olhos.

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Numa fase posterior pode-se ainda pedir que desenhem o grfico de barras numa folha de papel quadriculado. Ainda utilizando o papel quadriculado, pode-se ensinar os alunos a desenharem um diagrama circular, para a varivel Cor dos olhos, da seguinte forma: Numa folha desenha-se um rectngulo com largura igual a 20 unidades (pode-se considerar como unidade 1 ou 2 quadrculas) e uma altura qualquer. Divide-se essa largura em 4 partes de comprimentos 6, 2, 9 e 3 unidades, que se pintam de cores diferentes, conforme as classes a que dizem respeito:

anlise de dados

Cola-se o rectngulo anterior a uma cartolina com as mesmas dimenses, com uma margem para colar os lados 1 e 2 de modo a obter um cilindro:

90

Apoiam o cilindro numa folha de papel e desenham a circunferncia assinalando os pontos onde muda a cor. Com a ajuda do professor procuram encontrar um ponto aproximado para o centro, que unem com os pontos da circunferncia anteriormente assinalados:
Pretos 3 Azuis 6

Verdes 2 Cor dos olhos

Castanhos 9

Completam a figura pintando as partes em que o crculo ficou dividido e colocando o nome das classes e as frequncias absolutas respectivas. Em turmas onde os alunos j conheam as medidas das amplitudes de ngulo e saibam usar o transferidor para desenhar ngulos com uma amplitude que lhes indicada, tambm possvel ensinar a construir o diagrama circular sem recorrer ao processo anterior. Comea-se por dizer que se vai fazer uma representao grfica na forma de um crculo e aproveita-se para recordar que a amplitude de um ngulo giro igual a 360. Os alunos tm ento de desenhar sectores circulares, todos com o mesmo raio e amplitudes que se obtm multiplicando a frequncia relativa pelos 360:
Frequncia Absoluta 6 2 9 3 20 Frequncia Relativa (%) 30 10 45 15 100 Amplitude do ngulo 108 36 162 54 360 Pretos 3

Cor dos olhos Azuis Verdes Castanhos Pretos Total

Cada sector circular dever ser pintado com uma cor diferente e o puzzle dever no final ser montado de modo a formar um crculo completo. No esquecer de colocar a legenda:

Azuis 6

Verdes 2 Cor dos olhos

Castanhos 9

91

anlise de dados

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Para os dados de tipo quantitativo a representao grfica mais fcil de ensinar, a alunos do 1. ciclo do ensino bsico, o grfico de pontos. Vamos ver uma forma simples, de construir este grfico considerando a varivel Idade, medida em meses. Pode comear-se por representar a idade de cada aluno em meses. De seguida o professor d um quarto de uma folha A4 a cada aluno para registar o valor que obteve para a sua idade, que tambm registada no quadro. Suponhamos que numa turma de 18 alunos se obtiveram os seguintes valores: 87, 88, 85, 84, 89, 92, 89, 94, 93, 98, 94, 97, 95, 95, 96, 96, 95, 96. ORGANIZAO dos DADOS em TABELAS e GRFICOS Numa cartolina grande desenha-se uma linha horizontal e, por baixo, igualmente espaados, escrevem-se todos os nmeros entre a menor e a maior das idades obtidas:

Depois cada aluno ir colocar o pedao de folha com a sua idade, por cima do valor respectivo. Quando todos os alunos tiverem terminado, obter-se- uma representao com o seguinte aspecto, em que os pontos foram substitudos por pedaos de papel:

anlise de dados

A leitura e interpretao da representao grfica obtida permite responder a algumas questes, como por exemplo: H algum aluno na turma cuja idade seja 90 meses? Quantos colegas teus tm a tua idade? H mais alunos com idade inferior ou superior a 90 meses? Quantos alunos tm idade menor ou igual a 93 meses? E maior ou igual que 94 meses? Preenche a seguinte tabela:
Idade (em meses) Menos de 85 de 85 a 90 de 90 a 95 de 95 a 100 Total Nmero de alunos

92

Nota: Quando se escreve de 85 a 90 entende-se que maior ou igual que 85 e menor que 90. A conveno idntica para as outras classes.

A partir da representao grfica anterior pode-se ainda calcular a mediana e os quartis para desenhar um diagrama de extremos e quartis. Assim, comea-se por identificar o stio da mediana, que no ser difcil se se tiver j concludo que o nmero de alunos com idade menor ou igual a 93 meses, igual ao nmero de alunos com 94 ou mais meses de idade. Assinala-se a mediana com um trao:

A mediana dividiu o conjunto dos 18 papis em duas partes, cada uma com 9 papis. Agora os alunos com a ajuda do professor determinam as medianas de cada uma destas partes, que assinalam do mesmo modo que fizeram para a mediana. Uma vez estes 3 pontos determinados, pode construir-se o diagrama de extremos e quartis, como se apresenta na figura seguinte:

Podem fazer-se algumas perguntas que evidenciem a facilidade de leitura deste tipo de grfico. Sugesto: Pedir aos alunos para representarem graficamente os dados da varivel Nmero de letras do nome, da tabela Vamos conhecer a turma, utilizando um procedimento idntico ao utilizado para a varivel Idade.

93

anlise de dados

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Ainda para dados de tipo quantitativo uma outra representao grfica muito fcil de utilizar com os alunos do 1. ciclo do ensino bsico, o grfico de caule-e-folhas. Vamos ilustrar uma forma simples de proceder usando como exemplo a varivel Tempo que demoras de casa escola, medido em minutos, da tabela Vamos conhecer a turma (ver pgina 87). Comea-se por dar a cada aluno um rectngulo de cartolina (fina) com uma linha vertical tracejada a dividi-lo a meio e uma pequena cruz no canto superior esquerdo:

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Do lado esquerdo do rectngulo o aluno ter de colocar o algarismo das dezenas do nmero que representa o tempo que ele demora de casa escola. Do lado direito coloca o algarismo das unidades. Os pequenos rectngulos de cartolina referentes aos 3 primeiros alunos da lista tero ento o seguinte aspecto

De seguida, cada aluno dobra a cartolina pela linha tracejada, mantendo visveis para o exterior os algarismos, e cola as duas metades pela parte de dentro. Numa cartolina grande, desenha-se uma linha vertical e marcam-se de forma igualmente espaada os algarismos dominantes (neste caso, das dezenas). Colocam-se todos, do mais pequeno ao maior, mesmo que na amostra haja algum que no aparea. No caso do exemplo que estamos a tratar os dgitos dominantes (os caules) so 0, 1, 2, e 3. Agora s ir colocando cada carto (folha) frente do respectivo caule. De notar que, em cada carto, as folhas esto do lado que no tem cruz enquanto os caules se podem identificar virando o carto e vendo o dgito que surge marcado com a dita cruz. A evoluo da representao grfica entre a colocao dos 3 cartes acima e a fase final em que j esto colocados todos os cartes ser ento:

anlise de dados

94

Para terminar basta agora ordenar, por ordem crescente, as folhas que esto em frente de cada um dos caules:

Grfico de caule-e-folhas

95

anlise de dados

ORGANIZAO dos DADOS em TABELAS e GRFICOS

A leitura e interpretao da representao grfica tambm muito importante. Eis algumas questes que podem ser colocadas a partir da leitura do grfico de caule-e-folhas construdo: Quantos alunos demoram mais do que 30 minutos a chegar escola? Quantos alunos da turma demoram a chegar escola entre 10 minutos (conta os que demoram 10 minutos) e 20 minutos (no consideres os que demoram 20 minutos)? H mais alunos na turma a demorar mais tempo do que aquele que tu demoras ou h menos? Ser verdadeira a frase A maioria dos alunos da turma demora menos de 20 minutos a chegar escola? Justifica. Preenche a seguinte tabela de frequncias
Tempo de casa escola At 10m de 10m a 20m de 20m a 30m de 30 a 40m Total Nmero de alunos

anlise de dados

96

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Tarefa
Vamos conhecer algumas caractersticas dos alunos da escola

Ser que predominam os olhos castanhos? Ou sero os pretos? E ser que a cor dos olhos depende do sexo, isto , se rapaz ou rapariga? Para responder a esta questo, decidiu um professor nomear duas comisses de alunos, em que uma das comisses iria averiguar a cor dos olhos de 30 raparigas e a outra comisso iria averiguar a cor dos olhos de 25 rapazes. No dia escolhido para a recolha de dados, os alunos que pertenciam s comisses foram para a porta da escola e registaram a cor dos olhos das primeiras 30 alunas e dos primeiros 25 alunos a chegarem. Observe-se que as comisses acabaram a recolha da informao praticamente ao mesmo tempo, pois na escola havia mais raparigas que rapazes. Os resultados obtidos foram os seguintes: Raparigas pretos, castanhos, castanhos, azuis, pretos, castanhos, verdes, azuis, castanhos, castanhos, azuis, pretos, cinzentos, verdes, azuis, castanhos, castanhos, castanhos, castanhos, pretos, verdes, azuis, castanhos, pretos, pretos, castanhos, castanhos, pretos, castanhos, castanhos Rapazes Castanhos, azuis, castanhos, pretos, castanhos, castanhos, pretos, castanhos, verdes, castanhos, pretos, castanhos, castanhos, pretos, azuis, azuis, verdes, castanhos, castanhos, verdes, castanhos, pretos, azuis, pretos, castanhos. Para cada conjunto de dados construa uma tabela de frequncias para organizar a informao recolhida e a seguir construa uma representao grfica adequada. Tire concluses. Resoluo: Para construir a tabela de frequncias, deve verificar-se quais as categorias ou modalidades que a varivel (qualitativa) em estudo Cor dos olhos, pode assumir. Embora no caso dos dados recolhidos para os rapazes, no se tivesse observado nenhum com olhos cinzentos, decidiu-se incluir essa categoria na tabela de frequncias, para melhor se fazer a comparao com os dados recolhidos para as raparigas:
Raparigas Freq.abs. 7 14 5 3 1 30 Rapazes Freq.abs. 6 12 4 3 0 25

Classes preto castanho azul verde cinzento Total

Freq.rel. 0,23 0,47 0,17 0,10 0,03 1,00

Classes preto castanho azul verde cinzento Total

Freq.rel. 0,24 0,48 0,16 0,12 0,00 1,00

97

0,5 Freq. rel. 0,4 0,3 0,2 0,1 0 pret. cast. azul verd. cinz. Freq. rel.

0,5 0,4 0,3 0,2 0,1 0 pret. cast. azul verd. cinz.

Cor dos olhos das raparigas

Cor dos olhos dos rapazes

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Como se verifica a partir das frequncias relativas ou dos grficos de barras respectivos, construdos para estudar como se distribui a Cor dos olhos pelas raparigas e rapazes, podemos admitir que, na escola: Predominam os olhos castanhos. Em segundo lugar predominam os olhos pretos. Os olhos cinzentos so raros. A distribuio da varivel Cor dos olhos, idntica para as raparigas e rapazes. Exerccio: Fazer um estudo anlogo ao anterior, mas em que a varivel a estudar seja Programa da televiso favorito. Quais os programas favoritos? Haver diferena entre os programas favoritos dos rapazes e das raparigas?

anlise de dados

98

Tarefa
Vamos comparar a temperatura entre Lisboa e Porto

Durante 2 semanas, cada um dos 28 alunos de uma turma, ficou encarregue de registar a temperatura mxima observada num dos 14 dias e numa das 2 cidades. Essas temperaturas eram apontadas diariamente, numa tabela idntica seguinte:
Dia Cidade Lisboa Porto

1 19 17

2 21 22

3 20 21

4 23 18

5 18 16

6 20 19

7 22 17

8 24 20

9 23 21

10 21 18

11 20 15

12 20 17

13 19 16

14 19 17

Utilizando uma representao grfica adequada, vo-se comparar as temperaturas nas duas cidades. Para comparar os 2 conjuntos de dados, pode-se utilizar a representao grfica de caule-e-folha, considerando os mesmos caules para os dois conjuntos de dados:
Lisboa 4 3 3 2 1 1 9 0 9 0 9 0 8 0 1 2 5 0 6 1 6 1 7 2 7 7 Porto 7 8 8 9

Da representao grfica anterior conclui-se, imediatamente, que, de um modo geral, as temperaturas em Lisboa so superiores s do Porto. Exerccio: Ser que a temperatura habitual do local onde a escola se situa, muito diferente da temperatura de uma cidade afastada, por exemplo, 200 Km? Para planear este estudo: a) O professor tenta arranjar um termmetro para medir a temperatura exterior e, durante alguns dias, antes de iniciar as aulas, regista a temperatura exterior ou pede a um aluno que a registe. b) Por outro lado, antes de sair de casa, o professor toma ateno ao noticirio, e aponta qual a temperatura que faz na cidade escolhida para a comparao, ou combina com outra escola, com quem faa intercmbio. Depois, para comparar os dois conjuntos de dados, procede de forma idntica da actividade anterior.

99

Tarefa
Quais so os nossos animais domsticos?

Na escola, um grupo de alunos decidiu averiguar se as famlias tm animais domsticos e no caso de os terem, que animais domsticos que tm. Acompanhados do professor, foram para a porta da escola (ou para uma rua com algum movimento) e s primeiras 50 pessoas que passaram fizeram as seguintes perguntas: Tem algum animal domstico? Se sim, qual o animal domstico que tem h mais tempo? Para anotar a informao que iam recebendo, tinham preparado uma folha de papel, idntica seguinte:
No: No:

Sim: Co Gato Cgado Peixes Passarinho(s) Porquinho(s)-da-ndia Ratinho(s) Coelho(s) Galinha(s) Outros:

Sim: Co Gato Cgado Peixes Passarinho(s) Porquinho(s)-da-ndia Ratinho(s) Coelho(s) Galinha(s) Outros: Pombos

medida que as pessoas iam respondendo, anotavam com um trao. Faziam grupos de 5 traos, em que o quinto trao oblquo, por cima dos outros 4. Estes grupos tornam mais fcil a contagem posterior. Uma alternativa a estes montinhos, o desenho de uma estrela, em que se representa sucessivamente:

Nota: Uma representao idntica anterior, recebe o nome de diagrama de marcas ou registos (tally chart).

100

Pode-se construir, com a ajuda do professor, em papel quadriculado, um grfico semelhante ao da figura:
14 12 10 8 6 4 2 Passarinho(s) Porquinho(s)-da-ndia Ratinho(s) Coelho(s) Galinha(s) Pombos Cgado Peixes Co Gato 0

Animais domsticos

Algumas questes que podem ser feitas a partir da observao do grfico: a) Houve mais pessoas a responderem que tinham co ou gato? b) Das pessoas que responderam, qual o animal que as pessoas tinham menos em casa? c) Se outro grupo de alunos tivesse feito a mesma pergunta a outras 50 pessoas, o que que se esperava que as pessoas respondessem mais vezes? d) Se no grupo das 50 pessoas considerado na alnea anterior, 14 pessoas respondessem que tinham co, ficavas muito admirado ou achas que essa resposta muito possvel? e) Se, ainda neste novo grupo, 10 pessoas dissessem que tinham em casa galinhas, ficavas admirado? Porqu? Mais ou menos quantas pessoas esperarias que dissessem que tinham galinhas? Algumas respostas: c) Esperava-se que respondessem que tinham co. d) No ficava admirado, porque se esperava obter um valor perto de 13, que foi o que se obteve como resposta nas primeiras 50 pessoas. e) Sim, ficava admirado, porque esperava que houvesse poucas pessoas a responderem galinhas. Mais precisamente, espervamos que o nmero de pessoas que respondessem galinhas andasse volta de 2.

101

anlise de dados

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Tarefa
Qual o desporto favorito?

Para verificar se haveria evidncia de que os desportos favoritos fossem diferentes para os rapazes e para as raparigas de uma determinada escola com 1567 alunos, um grupo de alunos dessa escola, resolveu fazer um estudo, baseado num inqurito feito a 160 alunos, dos quais 100 eram raparigas. As respostas ao inqurito foram organizadas nas seguintes tabelas, onde se apresenta o nmero de raparigas e o nmero de rapazes, cujo desporto favorito o futebol, a natao, o atletismo, o tnis ou o ciclismo:
Raparigas Futebol Natao Atletismo Tnis Ciclismo 41 25 8 23 3 Rapazes Futebol Natao Atletismo Tnis Ciclismo 30 12 8 7 3

Tendo em considerao os resultados da tabela anterior, o grupo encarregue do estudo elaborou um relatrio, onde se fazem as seguintes afirmaes: 1. Ao contrrio do que se pensava, h mais raparigas a preferirem o futebol, do que rapazes. 2. interessante verificar que o atletismo e o ciclismo, igualmente preferido por raparigas e rapazes. 3. O nmero de raparigas que prefere a natao, mais do dobro do nmero de rapazes que prefere este desporto. Concorda com as concluses? Caso no concorde, apresente a sua verso das respostas que considera correctas. Resoluo: As concluses esto erradas, pois esto baseadas nas frequncias absolutas, quando se deveriam exprimir em termos das frequncias relativas, uma vez que o nmero de raparigas inquiridas diferente do nmero de rapazes inquiridos. Considerando as tabelas anteriores, onde adicionmos uma coluna com as frequncias relativas, temos:

102

Classes Futebol Natao Atletismo Tnis Ciclismo

Raparigas Freq.abs. 41 25 8 23 3

Freq.rel. 0,41 0,25 0,08 0,23 0,03

Ciclismo 3% Tnis 23% Futebol 41% Atletismo 8% Natao 25% Desporto favorito (raparigas)

Classes Futebol Natao Atletismo Tnis Ciclismo

Rapazes Freq.abs. 30 12 8 7 3

Freq.rel. 0,50 0,20 0,13 0,12 0,05

Tnis 12% Atletismo 13%

Ciclismo 5%

Futebol 50%

Natao 20% Desporto favorito (rapazes)

Como se verifica a partir dos resultados das tabelas e das representaes grficas: 1. H uma maior percentagem de rapazes (50%), do que de raparigas (41%) a preferirem o futebol. 2. O atletismo e o ciclismo so desportos mais preferidos pelos rapazes. 3. A percentagem de raparigas que prefere a natao (25%), um pouco superior percentagem de rapazes que prefere esta modalidade (20%).

103

anlise de dados

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Tarefa
Vamos pesar laranjas

O(a) professor(a) pede a cada aluno da turma para, no dia seguinte, trazer uma ou duas laranjas (ou outro fruto, escolha), pois vo fazer uma actividade, em que procuraro recolher informao sobre o peso desse fruto. No caso de no haver uma balana na escola, o professor providenciar para a arranjar. No dia escolhido para fazer pesagens, cada aluno vai pesar a(s) sua(s) laranja(s) e vai registar no quadro o peso (em gramas) observado. Suponha que os pesos obtidos foram os seguintes:
152 147 176 142 134 148 157 149 172 168 151 139 167 156 160 172 151 164 133 152 174 153 151 154 166 168 150 144 154 162 148 153 151 138 140 163 137 175 141 145 164 146

a) O que que se est a estudar? b) Estes dados resultam de uma contagem, ou de uma medio? c) Organiza os dados na forma de um caule-e-folhas d) A partir da representao grfica, sabes dizer quantas laranjas pesam mais do que 170 gramas? e) E quantas laranjas tm um peso maior ou igual a 150 gramas, mas menor que 160 gramas? f) Algum trouxe uma laranja com peso igual ou superior a 180 gramas? g) (S para o professor) Organizar os dados na forma de um histograma, considerando como classes [130, 140[, [140, 150[, [150, 160[, [160, 170[ e [170, 180[. Comparar a representao em caule-e-folhas obtida na alnea c) com o histograma. Resoluo: a) A varivel a ser estudada o peso de uma laranja. b) Os dados foram obtidos atravs de uma medio. O objecto utilizado para a medio foi a balana. c) Para obter a representao em caule-e-folhas, vamos considerar como caules 13, 14, 15, 16 e 17. Pendurando nestes caules as folhas respectivas e ordenando as folhas de cada caule, obtemos a seguinte representao:
13 14 15 16 17 3 0 0 0 2 4 1 1 2 2 7 2 1 3 4 8 4 1 4 5 9 5 1 4 6

104

6 2 6

7 2 7

8 3 8

8 3 8

9 4

0,35

Classes [130, [140, [150, [160, [170, Total 140[ 150[ 160[ 170[ 180[

Freq. Abs. 5 10 13 9 5 42

Freq. Rel. 0,12 0,24 0,31 0,21 0,12 1,00


Freq. rel.

0,30 0,25 0,20 0,15 0,10 0,05 0,00 [130,140[ [140,150[ [150,160[ [160,170[ [170,180[ Peso das laranjas

A escolha das classes anteriores para construir o histograma, foi feita com o objectivo de fazer sobressair a semelhana do histograma com a representao em caule-e-folhas. Se repararmos nos caules considerados para o caule-e-folhas, cada um tem penduradas as folhas correspondentes aos elementos dentro de cada uma das classes consideradas para o histograma. Observemos que as duas representaes grficas consideradas, do informao muito semelhante, no que diz respeito distribuio dos pesos das laranjas. Nomeadamente, realamos a seguinte informao relevante, a retirar do grfico: Predominam as laranjas com peso entre 150 e 160; O nmero de laranjas com peso inferior a 150, sensivelmente igual ao nmero de laranjas com peso superior a 160; A mdia dos pesos observados deve andar volta de 155 gramas.

105

anlise de dados

ORGANIZAO dos DADOS em TABELAS e GRFICOS

d) As laranjas que tm peso igual ou superior a 170 gramas, so as que, na representao grfica do caule-e-folhas, tm os pesos com caule 17. Assim, temos 5 laranjas com peso igual ou superior a 170 gramas. e) As laranjas que tm peso maior ou igual a 150 gramas, mas menor que 160 gramas, so as que, na representao grfica do caule-e-folhas, tm os pesos com caule 15. Assim, 13 laranjas esto nas condies pretendidas. f) Ningum trouxe laranjas com peso igual ou superior a 180 gramas. Para tirar esta concluso, basta ver que na representao do caule-e-folhas, no existe o caule 18. g) Para construir o histograma, comea-se por construir uma tabela de frequncias em que se consideram como classes as seguintes: [130, 140[, [140, 150[, [150, 160[, [160, 170[, [170, 180[:

Tarefa
Hbitos alimentares comemos fruta suficiente?

Dizem os nutricionistas que, para uma alimentao saudvel, alm de outros requisitos, deveramos comer 3 peas de fruta, por dia. Vamos investigar se os alunos comem fruta suficiente... Esta actividade vai ser realizada por duas turmas, pelo que num dia escolhido pelos professores para a realizar, comea-se por se debater: O que que se vai perguntar a cada aluno; Como registar a informao recolhida. Depois de alguma discusso, decide-se perguntar a cada aluno, quantas peas de fruta e que tipo de fruta, comeu no dia anterior. Convm explicar que, se por exemplo a fruta for cerejas, uma pea de fruta no ser uma cereja! Pode ser, por exemplo, um copo cheio de cerejas. Analogamente, se se tratar de uvas, ser um cacho de uvas. Depois de decidida a pergunta a fazer, comea-se a discutir sobre qual a melhor forma de registar a informao. Com a ajuda dos professores, pode chegar-se concluso que uma forma possvel, seria construrem uma tabela, anloga seguinte:
Quantas peas? 0 Quais Ameixa Anans Banana Cereja Figo Laranja Ma Melancia Melo Meloa Morango Nspera Papaia Pra Pssego Tngera Tangerina Uva Nenhuma | | | 1 2 3 4 5 Mais de 5 Total

106

Total

Todos os frutos apresentados na tabela foram sugeridos pelos alunos. Para exemplificar o preenchimento da tabela, suponhamos que um aluno tinha no dia anterior comido uvas, uma ma e uma banana. Ento esse aluno ia ao quadro e na coluna com o nmero 3, colocava um risquinho (|) nas linhas que dizem respeito s Uvas, Mas e Bananas, como est assinalado na tabela. Um aluno que no tivesse comido fruta nenhuma, colocaria um risquinho na coluna com o 0 e na linha onde est escrito Nenhuma. Vamos admitir que os 35 alunos das turmas tinham ido ao quadro preencher a tabela com a informao que lhes dizia respeito e que a tabela obtida foi a seguinte:
Quantas peas? 0 Quais Ameixa Anans Banana Cereja Figo Laranja Ma Melancia Melo Meloa Morango Nspera Papaia Pra Pssego Tngera Tangerina Uva Nenhuma Total || 2 6 26 24 16 10 6 | | | ||| | | | | | || | | | |||| | || | || | | | | | | | | |||||| | | || ||| | | | | | |||||| | | | | | | || | | |||| || ||||| | ||||| || | 3 1 23 4 1 7 12 2 2 2 2 1 1 13 4 1 3 6 2 1 2 3 4 5 Mais de 5 Total

a) A partir da tabela pode-se concluir que h uma fruta que preferida pelos alunos. Qual essa fruta? b) Houve s um aluno a dizer que comeu figos. Poderemos concluir imediatamente que os alunos no gostam de figos? Ou poderemos, por exemplo, estar numa poca em que s agora que os figos comearam a amadurecer? c) Quantos alunos responderam que comeram 3 peas de fruta, no dia anterior? d) Com a ajuda do professor, constri uma tabela de frequncias onde se possa ver quantos alunos comeram 0, 1, 2, 3, 4, 5 ou 6 peas de fruta.

107

anlise de dados

ORGANIZAO dos DADOS em TABELAS e GRFICOS

Tarefa proposta
Vamos acompanhar o crescimento do milho

Ser que os gros de milho crescem o mesmo, durante um certo perodo de tempo? Num vaso rectangular, vamos plantar vrios gros de milho. necessrio saber qual a melhor poca para plantar este cereal. Depois do milho comear a germinar, durante algumas semanas, os alunos tero como tarefa, acompanhar o seu crescimento, medindo os pezinhos do milho (esta medio deve ser feita, num dia fixo da semana). a) Considerando 3 semanas consecutivas, em que se registou a altura dos ps de milho, calcular o crescimento entre a 1. e a 2. semana e entre a 2. e a 3. semana. b) Comparar os crescimentos anteriores. Resoluo: Para melhor identificarem os ps de milho, sugere-se que se faa uma quadrcula no vaso, com cordel ou fio de pesca, e em cada clula da quadrcula, semear um gro de milho. Constrem uma tabela com tantas clulas, quantos os gros semeados, onde registaro o comprimento de cada p de milho, em cada uma das semanas:

Gro 1 Gro 2 Gro 3 Gro 4 Gro 5 Gro 6 Gro 7 Gro 8 Gro 9 Gro 10 Gro 11 Gro 12 1. semana 2. semana 3. semana 2. 1. 3. 2.

Na tabela anterior j inserimos 2 linhas, onde sero calculados os crescimentos verificados para cada p de milho, entre as 2. e 1. semanas e entre as 3. e 2. semana.

108

Tarefa proposta
Qual a dimenso do nosso salto em comprimento?

Os professores de 2 turmas da escola, de anos diferentes, decidiram levar a cabo uma experincia para averiguar se, como suspeitavam, a idade tinha influncia no comprimento do salto de um jovem. Ento, num dia em que as turmas tinham Educao Fsica, arranjaram um espao no recreio da Escola, onde os alunos poderiam dar saltos em comprimento. Munidos de uma fita mtrica, procederam medio dos comprimentos dos saltos dos alunos de cada uma das turmas. Organizar os dados em tabelas e construir os histogramas associados.

Tarefa proposta
Ser que os autocarros que passam frente da escola passam com a regularidade que est prevista no horrio afixado na paragem?

s vezes os alunos queixam-se de que os autocarros demoram muito a chegar e esto muito tempo na paragem, espera que venha um! Ento, um grupo de alunos decidiu realizar um projecto que consistia em estudar os tempos entre passagens consecutivas dos autocarros da carreira mais frequente. Escolheram alguns dias para recolher dados para esse estudo, e nesses dias o grupo de alunos (acompanhado do professor), foi mais cedo para a escola e instalou-se porta, pronto a apontar as horas de passagem da dita carreira, no perodo das 8 s 9 horas da manh (ou noutro perodo escolha). a) De acordo com os dados registados, quantos autocarros passaram no perodo das 8 s 9 horas? b) Consulta o horrio afixado na paragem dessa carreira, mais perto da escola. De acordo com esse horrio, quantos autocarros deveriam passar no perodo em estudo? c) Como organizar os dados de forma a ser mais fcil a sua comparao?

109

Tarefa proposta
Vamos acompanhar o crescimento do milho

Na turma decidiram levar a cabo um estudo sobre qual ser o supermercado mais barato, das redondezas. Como o preo de um determinado produto no suficiente para avaliar qual dos supermercados mais barato, comearam por definir um cabaz de compras que iria servir para fazer a avaliao pretendida. Ento fixou-se que o cabaz de compras seria constitudo pelos seguintes produtos: 1 kg de batatas para cozer 1 kg de cebolas 1 kg de acar 1 litro de azeite extra-virgem com 0,7 de acidez 1 litro de leite meio-gordo (o mais barato do supermercado) Para recolher a informao sobre os preos dos produtos do cabaz de compras os alunos pediram aos pais para os acompanharem ao supermercado e levaram lpis e papel para apontarem os preos, que levaram no dia seguinte para a escola. Com a ajuda do professor, pode ser construda uma tabela (idntica que se apresenta a seguir) onde registam os preos dos produtos que constituem o cabaz de compras, para cada um dos supermercados visitados (que representamos pelas letras A, B, C..., enquanto no soubermos os nomes dos supermercados):
Produto 1 kg batatas 1 kg cebolas 1 kg acar 1 litro azeite 1 litro leite Sup A Sup B Sup C ... ... ... ...

Organizar os dados de forma a tirar algumas concluses.

110

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

No captulo anterior foram apresentados alguns processos para organizar a informao contida nos dados, utilizando tabelas e grficos. Neste captulo veremos outro processo de resumir a informao, atravs de algumas medidas calculadas a partir desses dados, a que se d o nome de estatsticas. Destas medidas distinguiremos as medidas de localizao, nomeadamente as que localizam o centro da distribuio de dados, e as medidas de disperso, que medem a variabilidade dos dados.

As tabelas e, principalmente, as representaes grficas permitem-nos identificar e comparar padres subjacentes distribuio dos dados. No entanto, sente-se desde logo a necessidade de traduzir a informao visual em nmeros: um nmero que seja representativo da ordem de grandeza dos valores da amostra, outro que revele o maior ou menor grau de disperso dos dados, outro que d informao acerca do enviesamento, etc. Estes nmeros so sempre calculados a partir dos valores da amostra e designam-se por caractersticas amostrais. Mais geralmente, s medidas que resumem, atravs de nmeros, a informao contida nos dados, d-se o nome de estatsticas. De entre as muitas caractersticas amostrais de interesse, destacam-se a mdia, a mediana, a moda e os percentis, que so caractersticas (ou medidas) de localizao, o desvio padro e a amplitude interquartis, que so caractersticas (ou medidas) de disperso. Antes de apresentar as frmulas de clculo e as propriedades das principais caractersticas amostrais, necessitamos de introduzir algumas notaes. A dimenso da amostra ser sempre representada pela letra n. A amostra ser representada por uma lista, (x1,x2,...,xn), onde x1 o primeiro elemento da lista, x2 o segundo elemento da lista, e, assim por diante, at xn, que o ltimo, ou n-simo, elemento da lista. Note-se que esta notao para representar a amostra no implica qualquer critrio de ordenao.

113

anlise de dados

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

3.1

Introduo

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

3.2

Medidas de localizao

Damos o nome de medida de localizao a qualquer caracterstica amostral que seja informativa da ordem de grandeza dos dados que surgem na amostra. Na maioria das vezes interessa-nos, unicamente, a localizao da zona central da amostra, pois, em geral, a que se concentra a maior parte dos valores, mas pode tambm ser importante dar informao sobre a ordem de grandeza dos valores que surgem nas caudas. As medidas de localizao central mais comuns so a mdia e a mediana.

3.2.1 Mdia
A mdia a medida de localizao central por excelncia!... No seu clculo intervm todos os valores da amostra e no mais do que o nmero que equilibra os grandes valores com os pequenos valores. o centro de gravidade da distribuio dos dados. Se imaginarmos a recta real representada por uma vara sem peso e colocarmos massas unitrias nos pontos correspondentes aos valores que surgem na amostra, a mdia localiza-se no centro de gravidade deste objecto:

A mdia dos valores (1,3,4,5,7,10) 5, como facilmente se obtm 1 + 3 + 4 + 5 + 7 + 10 -=5 6 e esse o ponto onde o objecto fsico representado se equilibra. O maior bice utilizao da mdia como um resumo indicador da localizao da amostra, o efeito de contra-peso que os valores extremos nela exercem. No exemplo anterior se, em vez de 10, tivssemos 25, a mdia passaria de 5 para 7,5 (superior a todos os valores da amostra excepo de um):

anlise de dados

Se algum nos disser que um conjunto de valores tem mdia 7,5, imaginamos que os valores se distribuem em volta do 7,5, aproximadamente metade de cada lado. No pensamos num conjunto de valores em que todos, excepo de um deles, so inferiores mdia! Efectivamente a mdia constitui um bom resumo dos dados nos casos em que estes se distribuem de forma aproximadamente simtrica, com uma zona central de maior concentrao e caudas que no se alonguem demasiado. Quando a distribuio dos

114

x1 + x2 + xn _ x =n Voltemos de novo ao exemplo dos Dados sobre as casas, apresentado no Captulo 1. Uma questo que pode ter interesse saber quantas assoalhadas, em mdia, tm as casas que constam da tabela. Para obter esse valor basta somar o nmero de assoalhadas das 40 casas e dividir o resultado obtido por 40: 3 + 3 + 3 + 3 + 5 + 2 + 2 + 4 + 2 + 2 + 3 + 3 + 4 + + 2 + 3 + 3 + 2 +3 + 2 + 2 + 5 +3 + 1 + 2 _ x =40 = 2,6. E se alm da mdia do nmero de assoalhadas, estivermos interessados na mdia das reas, das casas observadas? O processo precisamente o mesmo 99 + 90,5 + 109 + 104,8 + + 154,2 + 75,9 + 90,2 _ x =40 = 102,19 m2 A mdia uma medida muito importante na vida de um estudante. Durante os anos em que estiver a estudar ser constantemente questionado sobre a sua mdia! Ter ainda que ter uma mdia de candidatura positiva (superior a 9,5) se pretender candidatar-se ao ensino superior... Convir terminar um curso com uma mdia razovel, se pretender arranjar um emprego..., etc.

A mdia s pode ser calculada para dados quantitativos!


Quando a natureza da varivel em estudo qualitativa, acontece, por vezes, atribuir cdigos numricos s diferentes categorias. O clculo da mdia desses cdigos no tem, obviamente, qualquer sentido. Por exemplo, no caso dos Dados sobre casas, no tem qualquer sentido calcular a mdia das observaes respeitantes varivel qualitativa Estado, que assume as categorias usada e nova, representadas respectivamente por 0 e 1. Outro exemplo que surge com frequncia o seguinte: ao classificar um conjunto de pessoas, quanto ao sexo, vulgar utilizar o nmero 1 para significar o sexo masculino e o nmero 2 para o sexo feminino. Assim, a amostra (2, 2, 1, 2, 2, 2, 2, 1, 2, 1, 1, 2, 1, 1, 2) representa um conjunto de 15 pessoas, classificadas quanto ao sexo, das quais 6 so do sexo masculino e 9 do sexo feminino. Obviamente que no tem qualquer sentido dizer que a mdia da amostra 1,6, embora seja este o valor que se obtm fazendo a mdia daquelas valores! Neste exemplo, se utilizssemos o 0 para representar o sexo masculino e o 1 o sexo feminino j viria a mdia igual a 0,6!

115

anlise de dados

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

dados no aproximadamente simtrica, tem pouco interesse a utilizao da mdia como centro da distribuio dos dados. Alis, quando a distribuio dos dados no for aproximadamente simtrica o prprio conceito de centro da distribuio que deixa de ter sentido. _ De ora em diante, utilizaremos a notao x para representar a mdia da amostra (x1,x2,...,xn):

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

Clculo da mdia para dados discretos agrupados


Em amostras de dados quantitativos discretos aparecem muitos valores repetidos e, em vez de se somarem separadamente todos os valores da amostra, pode-se agrupar os valores que se repetem, vindo
* * x1 n1 + x2 n2 + + x* _ k nk x =n

*, x*, ..., x* representam os k valores distintos que surgem na amostra e n onde x1 i 2 k *, i=1, 2, ..., k, surge. representa a frequncia absoluta com que x i Por exemplo, para calcular a mdia do nmero de assoalhadas, podemos considerar a tabela de frequncias com os dados agrupados, construda na seco 2.3.1,
N. de Assoalhadas x*
i

Freq. Abs. ni 3 17 16 2 2 40

Freq. Rel. fi 0,075 0,425 0,400 0,050 0,050 1,000

1 2 3 4 5 Total

e utiliz-la para calcular a mdia: 1 x 3 + 2 x 17 + 3 x 16 + 4 x 2 + 5 x 2 _ x =40 Sugesto Verificar como que se pode calcular a mdia, quando os dados esto agrupados, utilizando as frequncias relativas, em vez de utilizar as frequncias absolutas.

Clculo da mdia para dados contnuos agrupados


Para dados quantitativos contnuos, j organizados em classes, utiliza-se a frmula acima apresentada para calcular um valor aproximado para a mdia dos dados agrupados, sendo agora x* i , substitudo por x i , o representante ou marca da i-sima classe e ni a respectiva frequncia absoluta. O valor que se obtm para a mdia, quando os dados esto agrupados , neste caso, um valor aproximado, j que no estamos a calcular a mdia com os verdadeiros valores. Assim, utilizando a tabela de frequncias construda, na seco 2.4.1, para a varivel rea
Classes [64, 81[ [81, 98[ [98, 115[ [115, 132[ [132, 149[ [149, 166[ Total Rep. classe x i 72,5 89,5 106,5 123,5 140,5 157,5 Freq. Abs. ni 4 14 15 4 1 2 40 Freq. Rel. fi 0,100 0,350 0,375 0,100 0,025 0,050 1,000

anlise de dados

116

72,5 x 4 + 89,5 x 14 + 106,5 x 15 + 123,5 x 4 + 104,5 x 1 + 157,5 x 2 _ x 40 102,25 m2 O valor obtido para a mdia, considerando os dados agrupados, uma boa aproximao do valor obtido quando se consideram todos os dados.

3.2.2 Mediana
A mediana um valor que divide a amostra ao meio: metade dos valores da amostra so no superiores (menores ou iguais) mediana e os restantes so no inferiores (maiores ou iguais) mediana. Por outras palavras, at mediana (inclusiv) est, pelo menos, 50% da amostra; para l da mediana (inclusiv) est tambm, pelo menos, 50% da amostra. Contrariamente com o que se passa com a mdia, o clculo da mediana envolve um passo prvio de ordenao da amostra. Como obter a mediana? Para determinar a mediana fundamental, como dissmos anteriormente, comear por ordenar os dados. Entretanto podem-se verificar duas situaes, quanto dimenso da amostra: Se a dimenso da amostra mpar, h um dos elementos da amostra ordenada que tem tantos elementos para a esquerda como para a direita. A ttulo de exemplo, se a amostra tiver dimenso 11, o elemento na 6. posio tem 5 elementos da amostra para a sua esquerda e outros tantos para a sua direita. Esse elemento central da amostra ser, neste caso, a mediana. Se a dimenso da amostra par, no h nenhum elemento que tenha a propriedade de a dividir ao meio. H dois valores centrais e define-se a mediana como sendo a mdia aritmtica desses dois valores. Repare-se que da forma como se calcula a mediana, quando a dimenso n da amostra mpar, a mediana um elemento da amostra. Quando n par, s ser um elemento da amostra se os dois elementos centrais forem iguais. Uma regra prtica para obter a posio da mediana consiste em fazer o quociente n+1 -: 2 Se este quociente for um nmero inteiro, o que se verifica quando n mpar, toma-se para mediana o elemento nessa posio; Se este quociente terminar em 0,5, o que se verifica quando n par, considera-se a sua parte inteira e faz-se a semi-soma do elemento a que corresponde essa ordem, com o elemento da ordem seguinte.

117

anlise de dados

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

podemos obter um valor aproximado para a mdia das reas:

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

Por exemplo, suponhamos que se pretende saber qual a mediana dos pesos (em kg) dos 15 alunos de uma turma do 2. ano. Recolhida a informao sobre esses pesos, obtiveram-se os seguintes valores: 27 32 26 27 30 30 33 29 41 27 31 32 29 31 28

Para calcular a mediana necessrio comear por ordenar a amostra: 26 27 27 27 28 29 29 30 30 31 31 32 32 33 41

15 + 1 Ento a mediana o elemento na 8. posio (-) , ou seja o 30. Se a amos2 tra anterior tivesse s 14 elementos e o 41 no pertencesse amostra, ento a 14 + 1 mediana seria a semi-soma dos elementos da 7. posio (parte inteira de - = 7,5) 2 29 + 30 - ). e da 8. posio, ou seja, 29,5 (= 2 Dado um histograma, fcil obter a posio da mediana, pois esta est numa posio tal, que passando uma linha vertical por esse ponto, o histograma fica dividido em duas partes com reas iguais, como se representa na figura seguinte:

anlise de dados

Ao contrrio da mediana que divide o histograma em duas partes com reas iguais, a mdia o ponto de equilbrio do histograma, em que se entra em linha de conta no s com a frequncia das classes, mas tambm, com a distncia a que esto do centro. Assim, na figura anterior, enquanto que no histograma do lado esquerdo, a mdia coincidir com a mediana, no do centro, que apresenta um enviesamento para a direita, a mdia ser puxada para a direita da mediana. Por outro lado, no histograma que apresenta o enviesamento para a esquerda, a mdia ser puxada para a esquerda da mediana. Como j referimos, a mdia, ao contrrio da mediana, uma medida muito pouco resistente, isto , muito influenciada por valores "muito grandes" ou "muito pequenos", mesmo que estes valores surjam em pequeno nmero na amostra. Estes valores, a que se d o nome de outliers, so os responsveis pela m utilizao da mdia em muitas situaes em que teria mais significado utilizar a mediana. A mediana tem como principal desvantagem o facto de, no seu clculo, s fazer intervir 1 ou 2 valores da amostra. No entanto, esta desvantagem transforma-se em vantagem, por comparao com a mdia, quando a distribuio da amostra muito enviesada. A mediana muito resistente e no afectada pelos valores extremos.

118

Resumindo, como a mdia influenciada quer por valores muito grandes, quer por valores muito pequenos, se a distribuio dos dados for enviesada para a direita (alguns valores grandes como outliers), a mdia tende a ser maior que a mediana; se for aproximadamente simtrica, a mdia aproxima-se da mediana e se for enviesada para a esquerda (alguns valores pequenos como outliers), a mdia tende a ser inferior mediana. Representando as distribuies dos dados (esta observao vlida para as representaes grficas na forma de diagrama de barras ou de histograma) na forma de uma mancha, temos, de um modo geral (Graa Martins, 2005):

Observe-se que o simples clculo da mdia e da mediana nos pode dar informao sobre a forma da distribuio dos dados. No estudo de dados qualitativos ordinais (isto , onde se pode considerar uma ordem subjacente categorias) faz sentido indicar a categoria mediana. A categoria mediana aquela onde, pela primeira vez, a frequncia relativa acumulada atinge ou ultrapassa os 50%. Esta mesma definio serve para identificar a classe mediana no caso de se estar perante dados agrupados. Consideremos o exemplo apresentado para trabalhar na sala de aula, atravs da tabela da pgina 87, mais precisamente a varivel Nmero de irmos. Admitamos que os dados estavam organizados na forma de uma tabela de frequncias, como se apresenta a seguir:
N. de irmos 0 1 2 3 4 Freq. Abs. 3 11 3 2 1 20 Freq. Rel.% 15 55 15 10 05 100 Freq. Rel. Acum.%

A mediana do Nmero de irmos igual a 1, j que a frequncia relativa acumulada ultrapassa os 50% quando se soma a frequncia correspondente classe 1. Consideremos ainda, da tabela da pgina 87, a varivel Tempo de casa escola. Organizados os dados na forma de uma tabela de frequncias, como a sugerida na pgina 96,

119

anlise de dados

15 70 85 95 100

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

Se tomarmos as duas amostras utilizadas na exemplificao das propriedades da mdia (1,3,4,5,7,10) e (1,3,4,5,7,25) facilmente se verifica que a mediana igual a 4,5 para qualquer delas, enquanto que a mdia passou de 5 para 7,5!

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

Tempo de casa escola (minutos) At 10 de 10 a 20 de 20 a 30 de 30 a 40 Total

Freq. Abs. 4 7 6 3 20

Freq. Rel. (%) 20 35 30 15 100

Freq. Rel. Acum.% 20 55 85 100

pretende-se obter a mediana. Neste caso a classe mediana a classe constituda pelos valores maiores ou iguais a 10 minutos e menores de 20 minutos, uma vez que a frequncia relativa desta classe, adicionada frequncia acumulada que vem da classe anterior, faz com que se ultrapasse os 50%. Suponhamos agora um outro exemplo, mas com uma situao especial, como a que se apresenta na tabela de frequncias seguinte, correspondente varivel Nmero de assoalhadas do exemplo Dados sobre casas:
N. de Assoalhadas x* i 1 2 3 4 5 Total Freq. Abs. ni 3 17 16 2 2 40 Freq. Rel. fi 0,075 0,425 0,400 0,050 0,050 1,000 Freq. Abs. Acum. 3 20 36 38 40 Freq. Rel. Acum. % 7,5 50 90 95 100

Temos uma classe a que corresponde exactamente 50% de frequncia acumulada! Isto , 50% dos elementos da amostra so menores ou iguais a 2 e os outros 50% so maiores ou iguais a 3. Esta situao s pode ocorrer quando o nmero de dados par, e como vimos anteriormente, neste caso, a mediana a semi-soma dos dois elementos centrais. Assim, neste caso, a mediana ser 2,5. Exemplo: Salrios dos trabalhadores - Os salrios dos 160 trabalhadores de uma determinada empresa, com 6 nveis de salrios, distribuem-se de acordo com a seguinte tabela de frequncias:
Salrio (euros) N. empregados 400 23 450 58 600 50 700 20 1000 7 5000 2

anlise de dados

Calcule a mdia e a mediana e comente os resultados obtidos. Resoluo: _ Clculo da mdia: x = (400 x 23 + 450 x 58 + 600 x 50 + 700 x 20 + 1000 x 7 + 5000 x 2)/160 602 euros

120

Salrio (euros) N. empregados Freq. Rel. % Freq. Rel. Acum. %

400 23 14,38% 14,38%

450 58 36,25% 50,63%

600 50 31,25% 81,88%

700 20 12,50% 94,38%

1000 7 4,38% 98,75%

5000 2 1,25% 100,00%

Ento a mediana igual a 450 euros. Repare-se que a mdia muito superior mediana, o que acontece sobretudo devido aos 2 salrios substancialmente superiores aos restantes, eventualmente dos administradores, que inflacionaram a mdia. Efectivamente, dos 160 trabalhadores, s 29 que tm um salrio superior mdia. A mediana d-nos uma ideia mais correcta do nvel dos salrios, que so de um modo geral baixos. Assim, d-nos a indicao de que 50% dos salrios so menores ou iguais a 450 euros, enquanto que os restantes so maiores ou iguais quele valor. Suponha que no clculo do salrio mdio dos trabalhadores da empresa, retirava os dois supostos administradores, com salrios de 5000 euros, cada um. A mdia dos 158 trabalhadores restantes desce de 602 euros para 546 euros. Este exemplo , mais uma vez, elucidativo do cuidado que necessrio ter com a interpretao da mdia. Esta uma medida muito pouco resistente, isto que no resiste a valores muito grandes ou muito pequenos, quando comparados com os restantes, sendo muito inflacionada por eles. Um valor grande provoca um aumento da mdia, assim como um valor pequeno provoca uma diminuio da mdia. Quando o nosso conjunto de dados tiver destes valores extremos, denominados de outliers, convm utilizar a mediana, como medida de localizao do centro da distribuio dos dados. Vejamos ainda o seguinte exemplo. Exemplo

121

anlise de dados

Velocidade mdia Em determinado dia e em determinado ponto da autoestrada, a polcia registou a velocidade (mdia) dos 5 primeiros carros que passaram aps as 10 horas. Calculou a mdia das velocidades desses 5 carros e obteve 130 km (por hora). Embora a velocidade mxima permitida fosse 120 km (por hora), s autuou um dos carros! Na realidade as velocidades registadas foram 120 km, 115 km, 120 km, 110 km e 185 km, pelo que s um ultrapassou a velocidade mxima permitida.

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

Clculo da mediana: Considerando na tabela anterior as frequncias relativas acumuladas, temos

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

3.2.3 Quartis
Os quartis, j utilizados anteriormente na construo do diagrama de extremos e quartis, so outras medidas de localizao de alguns pontos de interesse, que no o centro da distribuio dos dados. Como vimos na definio da mediana, esta divide a amostra em duas partes com igual percentagem de elementos. Considerando cada uma destas partes e calculando a sua mediana, obteremos os quartis. Assim, a mediana e os quartis localizam pontos que dividem a distribuio dos dados em 4 partes com igual percentagem de elementos. H vrios processos para calcular os quartis, nem todos conducentes aos mesmos valores, mas a valores aproximados. A metodologia que, a este nvel, recomendamos para os obter a seguinte: Ordenar os dados e calcular a mediana Me; O 1. quartil, Q1, a mediana dos dados que ficam para a esquerda de Me; O 3. quartil, Q3, a mediana dos dados que ficam para a direita de Me. Ao calcular os quartis pelo processo anterior, podem-se levantar algumas dvidas, no caso em que a dimenso da amostra mpar. Efectivamente, neste caso a mediana coincide com um dos elementos da amostra e poderamos optar por consider-lo includo nas duas metades em que fica dividida a amostra, ou no o considerar em nenhuma das metades. A nossa opo consider-lo pertencente s duas metades. Consideremos de novo o exemplo utilizado para ilustrar o clculo da mediana, dos pesos dos 15 alunos de uma turma do 2. ano, j ordenados:

anlise de dados

Como a mediana um dos elementos da amostra, para o clculo dos quartis, considermos dois conjuntos de dados, cada um com 8 elementos, onde inclumos a mediana. Se a amostra inicial s tivesse 14 elementos, sem o valor 41, ento teramos:

Neste caso a mediana divide a amostra em duas partes de 7 elementos, cada uma, e, do mesmo modo que anteriormente, os quartis sero as medianas dessas partes. Os quartis so medidas de localizao com algum interesse prtico, pois permitem localizar os 50% dos valores centrais dos dados e como veremos, so utilizados para definir uma medida de disperso ou variabilidade desses dados.

122

Os percentis de que a mediana e os quartis so casos particulares, so medidas de localizao com grande interesse, nomeadamente para avaliar a posio relativa dos dados. Por exemplo, suponha que uma me vai, com o seu beb de 6 meses, consulta de rotina, do pediatra. Este, depois de pesar e medir a criana, consulta umas tabelas e s nessa altura comenta com a me, o estado de crescimento do seu filho. Pode acontecer que alguns dos seus comentrios sejam desta forma: Minha senhora, o seu filho, no que diz respeito ao peso, est no percentil 90. Vamos ter que ter algum cuidado! Afinal o que significa o percentil 90? Significa que 90% das crianas com 6 meses tm um peso menor ou igual ao do beb e s 10% tm um peso maior ou igual! De um modo geral define-se percentil P de um conjunto de dados, como sendo o valor que tem P% dos dados menores ou iguais a ele, e os restantes maiores ou iguais. O 1. e o 3. quartis tambm so conhecidos como percentil 25 e 75, respectivamente. Analogamente, a mediana o percentil 50. Exemplo: A obesidade um problema A comunicao social tem alertado a opinio pblica para o problema da obesidade, nomeadamente nas crianas. Ento, como que poderemos saber se o nosso filho est obeso? Como que o mdico, alm da sua experincia, sossega a me sobre a sade e bem estar do seu filho? Existem tabelas, que apresentam, para cada idade, os valores dos percentis para as variveis peso e altura. A tabela seguinte, que se retirou da Internet, apresenta, para os vrios meses de idade, valores adequados entre os quais deve estar o peso (em kg) da criana. Estes valores poderiam ser, por exemplo, os percentis 25 e 75, considerando-se um peso normal o que esteja nos 50% dos pesos centrais, quando se considera o conjunto dos pesos dos bebs (da populao que se est a estudar, quer seja portuguesa, italiana, inglesa, alem, etc.) com determinada idade:
Ao nascer 2.750 4.000 9 meses 7.900 10.500 1 ano 6m 10.000 13.000 2 anos 3m 11.300 15.000 3 anos 12.600 17.000 1 ms 3.500 5.000 10 meses 8.300 10.900 1 ano 7m 10.150 13.300 2 anos 4m 11.500 15.250 3 anos 4m 13.200 17.700 2 meses 4.000 6.000 11 meses 8.500 11.250 1 ano 8m 10.300 13.600 2 anos 5m 11.600 15.500 3 anos 8m 13.750 18.500 3 meses 4.750 7.000 1 ano 8.800 11.500 1 ano 9m 10.500 13.800 2 anos 6m 11.750 15.700 4 anos 14.300 19.300 4 meses 5.500 7.800 1 ano 1m 9.000 11.800 1 ano 10m 10.600 14.000 2 anos 7m 11.900 15.900 4 anos 4m 15.000 20.200 5 meses 6.000 8.500 1 ano 2m 9.250 12.000 1 ano 11m 10.700 14.200 2 anos 8m 12.000 16.000 4 anos 8m 15.500 21.000 6 meses 6.500 9.000 1 ano 3m 9.500 12.400 2 anos 10.900 14.500 2 anos 9m 12.100 16.300 5 anos 16.000 21.800 7 meses 7.000 9.700 1 ano 4m 9.700 12.600 2 anos 1m 11.000 14.650 2 anos 10 12.250 16.500 8 meses 7.500 10.000 1 ano 5m 9.800 12.800 2 anos 2m 11.200 14.800 2 anos 11m 12.400 16.750

Mnimo Mximo Mnimo Mximo Mnimo Mximo Mnimo Mximo

A partir da tabela anterior, conclumos que um peso razovel, nem muito magro, nem muito gordo, para um beb de 2 anos e meio, ser um peso compreendido no intervalo [11,750kg, 15,700kg].

123

anlise de dados

Mnimo Mximo

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

3.2.4 Percentis

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

Exemplo: Conversa entre me e filho Imagine a seguinte conversa entre uma me e o seu filho de 15 anos. Filho - Me, tive 14 no teste de Biologia! Me E ento isso bom ou nem por isso? Filho Como assim? Digo que tive 14 e ainda me perguntas se isso bom? Me Pois, pergunto. E at pergunto a que percentil que corresponde essa nota? Filho Mas o que isso de percentil? No sei do que ests a falar! Me Quantos alunos na tua escola fizeram esse teste? Filho Foram 100, porqu? Me E quantos tiveram nota maior que 14? Filho Bom, no vi bem, mas parece-me que foram uns 80! Me Afinal, no tens razo para estar to satisfeito! Ficaste no percentil 20. S 20% dos teus colegas tiveram nota menor ou igual tua. Esse exame foi mesmo muito fcil. Exemplo: Nota mnima de acesso Uma Universidade pretendia estabelecer uma nota mnima de acesso para a prova especfica de Matemtica. Estava, no entanto, com o seguinte problema: se a prova fosse muito difcil, como tinha sido nos anos anteriores, corria o risco de no ter alunos, ou ter muito poucos, com nota maior ou igual a 95 (numa escala de 0 a 200) e ficar com as vagas por preencher. Ento o Conselho Directivo tomou a seguinte deciso. Independentemente da distribuio que se vier a verificar para as notas no exame de Matemtica, fixaram como nota mnima aquela que permita que 55% dos alunos que realizarem o exame, se possam candidatar. Com esta deciso, a nota mnima de acesso no necessariamente positiva. Nota Este exemplo no fico e foi a metodologia seguida durante alguns anos pelo Conselho de Reitores das Universidades Portuguesas (CRUP) e outras instituies de Ensino Superior, na definio da nota mnima de acesso, como refere o Decreto-Lei que se trancreve, em parte, a seguir:
ENSINO SUPERIOR PBLICO Decreto-Lei n. 296-A/98, (alneas a) e c) do artigo 24.) de 25 de Setembro, alterado pelo Decreto-Lei n. 99/99, de 30 de Maro CLASSIFICAO MNIMA NAS PROVAS DE INGRESSO I. Recomendao do CRUP 1. Para candidatura aos pares estabelecimento/curso que adoptaram a Recomendao do CRUP no tocante fixao da classificao mnima prevista na alnea a) do artigo 24. do Decreto-Lei n. 296-A/98, de 25 de Setembro, alterado pelo Decreto-Lei n. 99/99, de 30 de Maro, os candidatos devem obter no exame nacional de cada uma das provas de ingresso exigidas para o curso superior a que se candidatam, classificao no inferior a 95 pontos na escala de 0 a 200. 2. Se, excludos os casos de classificao igual a zero pontos, o nmero de examinandos com classificao igual ou superior a 95 pontos em determinado exame nacional de prova de ingresso for inferior a 55% do nmero total, o valor da classificao mnima aquele que permita a admisso ao concurso, por esta via, de 55% dos examinandos. 3. A regra aplicada a cada chamada de cada exame.

anlise de dados

124

II. Recomendao do CCISP 96 1. Para candidatura aos pares estabelecimento/curso que adoptaram a Recomendao do CCISP 96 no tocante fixao da classificao mnima prevista na alnea a) do artigo 24. do Decreto-Lei n. 296-A/98, de 25 de Setembro, alterado pelo Decreto-Lei n. 99/99, de 30 de Maro, os candidatos devem obter no exame nacional de cada uma das provas de ingresso exigidas pelo curso superior a que se candidatam, classificao no inferior a 95 pontos na escala de 0 a 200. 2. Se, excludos os casos de classificao igual a zero pontos, na escala de 0 a 200, o nmero de examinandos com classificao igual ou superior a 95 pontos for inferior a 75% do nmero total, o valor da classificao mnima aquele que permita a admisso ao concurso, por esta via, de 75% dos examinandos. 3. A regra aplicada a cada chamada de cada exame. III. Recomendao do CCISP 97 1. Para candidatura aos pares estabelecimento/curso que adoptaram a Recomendao do CCISP 97 no tocante fixao da classificao mnima prevista na alnea a) do artigo 24. do Decreto-Lei n. 296-A/98, de 25 de Setembro, alterado pelo Decreto-Lei n. 99/99, de 30 de Maro, os candidatos devem obter no exame nacional de cada uma das provas de ingresso exigidas pelo curso superior a que se candidatam, classificao no inferior a 95 pontos, na escala de 0 a 200. 2. Se, excludos os casos de classificao menor ou igual a 14 pontos na escala de 0 a 200, o nmero de examinandos com classificao igual ou superior a 95 pontos for inferior a 75% do nmero total, a classificao mnima aquela que permita a admisso ao concurso, por esta via, de 75% dos examinandos. 3. A regra aplicada a cada chamada de cada exame. A Rede do Ensino Superior em Portugal / 2001 306


IV. Percentil 50 1. Para candidatura aos cursos da Faculdade de Cincias da Universidade do Porto, os candidatos devem obter no exame nacional de cada uma das provas de ingresso exigidas para o curso superior a que se candidatam, classificao no inferior a 100 pontos na escala de 0 a 200. 2. Se, excludos os casos de classificao igual a zero pontos, na escala de 0 a 200, o nmero de examinandos com classificao igual ou superior a 100 pontos for inferior a 50% do nmero total, o valor da classificao mnima aquele que permita a admisso ao concurso, por esta via, de 50% dos examinandos. 3. A regra aplicada a cada chamada de cada exame.

3.2.5 Moda
Em amostras de dados qualitativos d-se o nome de categoria modal ou, tambm, simplesmente, moda, categoria de maior frequncia. Esta mesma definio usualmente utilizada tambm para dados quantitativos (discretos ou contnuos), ou seja, define-se moda como sendo a classe de maior frequncia (dados agrupados). No entanto, neste caso, de dados quantitativos, tem vindo a ter cada vez maior interesse generalizar a definio de moda. Assim, vamos designar por moda qualquer classe que esteja ladeada por classes de menor frequncia. As modas sero, pois, os picos na distribuio de frequncias.

125

anlise de dados

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

Exemplo: Virose desconhecida (Graa Martins, 1999) Suponha que numa regio comearam a aparecer pessoas com uma virose desconhecida. Os mdicos do Centro de Sade dessa regio procuraram recolher alguma informao sobre as pessoas atacadas por essa virose. Foi recolhida uma amostra de 35 desses doentes a quem se perguntou, entre outras caractersticas, a idade. Depois de analisados os dados os mdicos foram informados que a idade mdia dos doentes era de 32 anos. Um dos mdicos, mais curioso que os outros, pediu que lhe mostrassem a distribuio dos dados, tendo-lhe sido apresentada a seguinte distribuio num grfico de caule-e-folhas:
0 0 0 0 0 1 1 6 6 7 7 7 7 7 8 1 2 4 6 8 1 2 4 6 8 2 5 7 8 3 5 7 3 5 7 3

8 9 0 2 4 7 0

9 0 2 5

1 3 5

Perante a representao anterior, com duas modas, o mdico no teve dvidas em pr de parte a mdia, assim como qualquer outra medida de localizao do centro da amostra. Efectivamente, para dados deste tipo enganador qualquer medida de localizao do centro da distribuio. O que o mdico concluiu imediatamente foi que a doena ataca crianas e pessoas na 3. idade. No sendo propriamente uma medida de localizao, a moda deve a sua importncia ao facto de ser a nica medida que susceptvel de ser calculada para os dados qualitativos, em que no se possa estabelecer uma hierarquia entre as diferentes modalidades ou classes, que a varivel possa assumir. Em curvas que modelam muitas situaes da vida real, d-se o nome de moda a qualquer mximo relativo da curva de densidade. Os modelos tericos de interesse tm uma nica moda e usual dizer que o aparecimento de vrias modas pode evidenciar mistura de populaes. Para ilustrar esta ideia, tome-se o exemplo das alturas na populao portuguesa. Se considerarmos somente a subpopulao dos homens, a distribuio das suas alturas no deve afastar-se muito do seguinte padro:

anlise de dados

126

Que aconteceria se considerssemos as duas subpopulaes em conjunto? Onde ficaria a moda? Em 1,75m, em 1,60m ou algures entre estes dois valores? Na verdade o que acontece que surgem duas modas!... Uma, um pouco direita de 1,60m e outra, um pouco esquerda de 1,75m:

Considere-se o exemplo dos Dados sobre casas, do captulo 1. No pargrafo 2.4.2 apresentmos um histograma construdo para a varivel Preo, que tinha o seguinte aspecto:

127

anlise de dados

A bimodalidade torna-se ainda mais evidente se a zona central de uma das distribuies se encontrar muito afastada da zona central da outra e se a percentagem de observaes pertencentes a cada uma das duas subpopulaes for idntica. Retomando o exemplo das alturas, se numa amostra de 100 indivduos tivermos 10 mulheres e 90 homens muito pouco provvel que o histograma apresente bimodalidade, contrariamente ao que dever ocorrer em amostras com 50 homens e 50 mulheres.

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

Note-se que a zona de maior concentrao ou densidade, est entre 1,70m e 1,80m, sendo a moda (mximo relativo da curva) igual a 1,75m. A forma da distribuio das alturas das mulheres dever ser idntica, mas localizada em torno de 1,60m:

14

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

12 Freq.abs. 10 8 6 4 2 0 80 120 160 200 240 280 320 360 Preo

Histograma para a varivel Preo das casas do ficheiro Dados sobre Casas

Este histograma apresenta duas classes modais! Uma delas a classe dos 160 aos 200 mil euros, e a outra a classe que vai de 280 a 320 mil euros. Olhando para as caractersticas das casas, podem apontar-se algumas possveis causas para esta bimodalidade: h casas novas e casas usadas; h casas com garagem e casas sem garagem; as casas no so todas da mesma zona e pode haver alguma zona onde, em mdia, as casas so mais caras que nas outras duas zonas!... claro que, como a frequncia da segunda classe modal relativamente baixa, pode-se ainda argumentar que a bimodalidade no devida a uma mistura de populaes mas sim obra do acaso!... Ainda a propsito deste exemplo, chamamos mais uma vez a ateno, para o facto de o histograma ser uma representao grfica que, para alguns conjuntos de dados, pode mudar sensivelmente de aspecto, quando se altera a amplitude de classe ou o ponto onde se comeam a construir as classes. Assim, para o mesmo conjunto de dados pode acontecer haver representaes grficas diferentes, nomeadamente em termos do nmero de modas. Observao: Quando se pretende saber qual o centro de uma distribuio de dados, a resposta a esta pergunta fcil se a distribuio for aproximadamente simtrica e unimodal (s com uma moda). Se a distribuio dos dados apresentar outras formas, nomeadamente enviesamento ou vrias modas, j o conceito de centro da distribuio dos dados pode no fazer qualquer sentido, como j referimos anteriormente ao tratarmos das medidas de localizao.

anlise de dados

128

Tarefa
Vamos pesar laranjas (cont.)

Considerando, de novo, a Tarefa - Vamos pesar laranjas, do captulo 2, pretende-se agora obter a mdia, mediana e os quartis da distribuio dos dados e construir o diagrama de extremos e quartis. A partir da representao em caule-e-folhas, que entretanto se fez, fcil de obter os dados ordenados, pois basta percorrer os caules, de cima para baixo, juntando-lhe as folhas respectivas:
1. 133 15. 149 29. 160 2. 134 16. 150 30. 162 3. 137 17. 151 31. 163 4. 138 18. 151 32. 164 5. 139 19. 151 33. 164 6. 140 20. 151 34. 166 7. 141 21. 152 35. 167 8. 142 22. 152 36. 168 9. 144 23. 153 37. 168 10. 145 24. 153 38. 172 11. 146 25. 154 39. 172 12. 147 26. 154 40. 174 13. 148 27. 156 41. 175 14. 148 28. 157 42. 176

Como o nmero de dados par, a mediana a semi-soma dos dados que se encontram nas posies 21. e 22., ou seja 152 + 152 - =152 Mediana = 2 Para determinar os quartis, vamos considerar as medianas de cada uma das partes em que ficaram divididos os dados, pela mediana: o 1. quartil ser a mediana dos dados que esto nas posies de 1 a 21, enquanto que o 3. quartil ser a mediana dos dados que esto nas posies de 22 a 42. Como agora temos um nmero mpar de dados, a mediana ser o elemento do meio. Assim, temos: 1. quartil = 146 (elemento na 11. posio) 3. quartil = 164 (elemento na 32. posio)

129

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

Para construir o diagrama de extremos e quartis, necessitamos de 5 nmeros, obtidos a partir dos dados: mnimo, mximo, 1. quartil, 3. quartil e mediana:

Mnimo = 133 Mximo = 176 1. quartil = 146 3. quartil= 164 Mediana = 152

133

146

152

164 3. quartil

176

1. quartil mediana

Diagrama de extremos e quartis para a varivel Peso das laranjas

Desta representao grfica, sobressai a simetria aproximada dos dados, como tambm j tnhamos visto com a representao em caulee-folhas ou com o histograma. Calculando a mdia obtm-se o valor 154, um pouco superior mediana, como se esperava pelo pequeno enviesamento para a direita, apresentado pelos dados.

anlise de dados

130

O melhor dar a cada um a mdia!

Os 3 netos da av Maria, Huguinho, Zezinha e Luisinha, queriam ir feira popular, mas no tinham dinheiro. Ento decidiram ir ter com a av, para ver se esta subsidiava os seus divertimentos! At parece que no sabiam que a av era um bocadinho agarrada ao dinheiro... Mas, por estranho que parea, ela estava muito benevolente e disse aos netos para cada um procurar uns trocos nos bolsos dos 2 casacos e da saia que tinha vestido ultimamente. O Huguinho encontrou num casaco 8 euros, a Luisinha encontrou 2 euros no outro casaco e finalmente a Zezinha encontrou na saia 5 euros. A av, que embora fosse um bocadinho agarrada ao dinheiro, era justa, no achava bem que cada neto ficasse com a quantia que encontrou e gostaria de contentar todos de igual modo. Como fazer? Como fazer, para cada neto ficar com igual quantia? Uma proposta foi juntar o dinheiro todo e reparti-lo igualmente pelos 3, ou seja, calcular a mdia das quantias 8, 2 e 5. Assim, decidiu que cada um ficaria com a seguinte quantia: 8+2+5 -= 5 2 Afinal basta o Huguinho dar 3 euros Luisinha e cada um fica com 5 euros! Esta situao pode ser apresentada graficamente, da seguinte forma, em que cada bola representa uma moeda de um euro:

131

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

Antes da repartio

Depois da repartio

Uma questo que pode ser levantada por um aluno , por exemplo, a seguinte: e se a Luisinha tivesse encontrado 3 euros em vez de 2 euros? Como que resolvamos a situao?

anlise de dados

O Huguinho deu 2 euros Luisinha, que ficou com a mesma quantia que a Zezinha, mas ainda sobrou 1 euro. Para ficarem os 3 com quantias iguais, teramos de dividir o euro em 3 partes iguais e dar a cada um, uma dessas partes. S assim que cada um ficava com uma quantia igual, ou seja a mdia. Se em vez de euros, tivessemos bolos, seria mais fcil dividir o bolo sobrante em 3 partes iguais e dar a cada um uma das partes:

132

Embora o conceito de mdia seja um conceito a desenvolver sobretudo ao nvel do 2. ciclo, este exemplo pode servir para o professor ter uma conversa com os alunos sobre o significado da mdia, que, em certas situaes, pode no passar de um conceito abstracto, no possvel de ser materializado. Por exemplo, se na turma o professor perguntar a cada um dos alunos quantos irmos tem e calcular a mdia dos valores registados, natural que obtenha um valor no inteiro. Se obtiver o valor 1,6, como podemos interpret-lo? O professor pode incentivar os alunos a registar os valores obtidos num diagrama de pontos e verificarem que a maior concentrao de valores se regista volta do 1 e do 2 (estamos a admitir que na turma nenhum aluno tem um nmero de irmos substancialmente maior que os outros alunos, que provocasse uma inflao na mdia...). Pode-se dar ainda como exemplo a informao fornecida pelo Instituto Nacional de Estatstica sobre o nmero mdio de filhos das famlias portuguesas.

133

anlise de dados

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

Tarefa
Vamos comer queijo, mas no exageremos

O queijo, proveniente do leite, um alimento rico em clcio. No entanto, necessrio no abusar, j que, de um modo geral, um alimento muito calrico e a maior parte das vezes rico em gordura. Na tabela seguinte apresentamos, para vrios tipos de queijo, a quantidade de gordura e o nmero de calorias, por cada 100 gramas de queijo:
Alimento (100g) Queijo Queijo Queijo Queijo Queijo Queijo Queijo Queijo Queijo Queijo Queijo Queijo Queijo Queijo Queijo Queijo Queijo Queijo Brie Camembert da Ilha da Serra curado da Serra fresco de Azeito de vora de Serpa de Tomar flamengo 20% flamengo 30% flamengo 45% fresco Gorgonzola Gruyre Parmeso Roquefort Suo Gordura (g) 20 23 26 32 27 25 34 26 27 8 14 23 21 37 20 28 32 29 Calorias 263 313 357 385 327 309 412 330 305 185 246 315 265 407 315 401 371 357

Alimento com baixo teor em gordura mas podendo ter um elevado contedo em calorias. Alimento intermedirio: consumir com moderao. Alimento rico em gordura: comer pontualmente ou moderar o seu consumo. A tabela anterior permite vrios estudos no que diz respeito quantidade de gordura e ao nmero de calorias dos diferentes tipos de queijo. Uma possvel abordagem comear por considerar os dados respeitantes quantidade de gordura por cada 100 gramas de queijo e organiz-los na forma de um grfico de caule-e-folhas. Uma pergunta que esta representao grfica nos poder imediatamente responder a existncia de algum possvel enviesamento e, caso afirmativo, o que se espera para a relao de grandeza entre a mdia e a mediana?

134

0 1 2 3

8 4 0 2

0 2

1 4

3 7

A representao anterior apresenta algum enviesamento para a esquerda, pelo que se espera que a mdia seja inferior mediana. No que diz respeito mdia, tem-se: 8 + 14 + 20 + 20 + 21 + 23 + 23 + 25 + 26 + 26 + 27 + 27 + 28 + 29 + 32 + 32 + 34 + 37 Mdia = 18 =25,1 gramas Para calcular a mediana necessrio considerar a amostra ordenada, que facilmente se obtm a partir da representao em caule-e-folhas. Como temos 18 dados, a mediana a semi-soma dos dados que esto na posio 9 e 10, que ocupam os 2 pontos centrais dos dados ordenados: dado na posio 9 + dado na posio 10 26 + 26 Mediana = -=-= 26 gramas 2 2 A mdia um pouco inferior mediana, como se esperava. Esta situao possivelmente provocada pelo valor 8 que bastante menor que os restantes, influenciando a mdia. Uma questo que pode ainda ser respondida a de saber quais os queijos menos gordos e os mais gordos. Podemos, por exemplo procurar saber quais os 25% dos queijos menos gordos e quais os 25% dos queijos mais gordos, calculando os quartis. Para determinar os quartis, consideramos as duas partes em que os dados ficam divididos pela mediana e determina-se a mediana de cada uma dessas partes:

Podemos dizer que os 25% dos queijos menos gordos, so os que tm uma quantidade de gordura menor ou igual a 21 g por cada 100 g de queijo, ou sejam: Brie, Flamengo 20%, Flamengo 30%, Fresco e Gruyre. Analogamente, os 25% dos queijos mais gordos, so que tm quantidade de gordura superior ou igual a 29 g, por cada 100 gramas de queijo e que so: Serra Curado, vora, Gorgonzola, Roquefort e Suo.

135

anlise de dados

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

Organizando os dados num grfico de caule-e-folhas, obteve-se a seguinte representao:

Uma vez que temos calculados os quartis e a mediana, vamos construir o diagrama de extremos e quartis:
40 35 30 25 20 15 10 5 0 1. quartil Mnimo Mediana Mximo 3. quartil

A representao anterior sugere algum enviesamento para a esquerda (embora o diagrama de extremos e quartis esteja ao alto, continuamos a falar no enviesamento para a esquerda, quando este for na direco dos valores mais pequenos), tal como a representao em caule-e-folhas j havia sugerido.

Tarefa proposta
Vamos comparar vrios tipos de mas

Ser que os diferentes tipos de mas, tm caractersticas idnticas? Para preparar esta actividade, cada aluno pode ficar encarregue de levar uma ma de um dos 3 tipos seguintes (ou outros): Red Delicious, Starking ou Golden. As caractersticas que se decidiram estudar foram o peso, o permetro e a altura de cada ma. Elaborar uma tabela, onde se regista o tipo do fruto e os valores observados das caractersticas anteriormente referidas. Utilizando diagramas de extremos e quartis, comparar os trs tipos de mas.

136

Tarefa proposta
Os frutos tm muitas calorias?

Dizem os nutricionistas que, para uma alimentao saudvel, alm de outros requisitos, deveramos comer 3 peas de fruta, por dia. Apresentamos a seguir, para vrios frutos, uma tabela com a quantidade de gordura e o nmero de calorias por cada 100 gramas de fruto:
Nome Abacate Ameixa Amndoa Amendoim Amoras Anans Avels Banana Caj Castanha Cereja Coco Figo Framboesa Ginja Groselha Laranja Lichias Lima Gordura 13 1 56 48 1 1 65 0 48 1 0 60 1 2 2 0 0 0 0 Calorias 130 59 626 596 59 49 676 90 573 182 63 630 64 50 70 54 51 58 41 Nome Limo Ma Manga Maracuj Melancia Melo Morango Nspera Noz Papaia Pra Pssego Pinho Pistcio Rom Tngera Tangerina Toranja Uva Gordura 1 1 0 1 0 0 1 1 67 0 1 1 52 54 0 0 0 1 1 Calorias 37 64 57 90 25 31 34 54 686 50 37 45 618 594 54 41 46 43 89

Analisando os dados anteriores, ntido que os frutos se podem dividir em duas grandes categorias. Tentar averiguar quais so essas categorias e calcular a quantidade mdia de calorias em cada uma dessas categorias. Analisar com os alunos quais os frutos que se devem privilegiar, para uma alimentao saudvel.

137

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

3.3

Medidas de disperso

Na seco anterior estudmos algumas medidas que procuram transmitir alguma informao contida nos dados, em termos de localizao de alguns pontos importantes, como por exemplo, o centro da distribuio dos dados. No entanto, uma distribuio no est completamente estudada enquanto no estudarmos a variabilidade associada aos dados. Algumas das questes a que as medidas de localizao no do resposta, so, por exemplo, as seguintes: Sero os dados quase todos iguais? Sero muito diferentes uns dos outros? De que modo que so diferentes? ... Por exemplo, consideremos os trs conjuntos de dados: Conjunto 1 Conjunto 2 Conjunto 3 15 10 0 15 13 7 15 15 15 15 17 23 15 20 30

Os conjuntos de dados anteriores, embora tenham a mesma mdia e a mesma mediana, nomeadamente igual a 15, tm um aspecto completamente diferente, no que diz respeito variabilidade, como facilmente se v, a partir da representao dos valores ao longo de segmentos de recta:

anlise de dados

Enquanto que no Conjunto 1, os 5 dados so iguais, no havendo qualquer variabilidade, j no Conjunto 2 e no Conjunto 3 os valores so diferentes uns dos outros, e podemos mesmo avanar que a variabilidade ou disperso verificada no Conjunto 3 superior verificada no Conjunto 2. Existem algumas medidas para descrever a variabilidade presente num conjunto de dados, umas mais adequadas do que outras, dependendo a sua aplicao, por vezes, da forma da distribuio dos dados.

138

A medida mais simples para descrever a variabilidade ou disperso dos dados, a amplitude, que a diferena entre o mximo e o mnimo do conjunto de dados: Amplitude = mximo mnimo Esta medida, muito simples, raramente usada como medida de variabilidade, pois tem a desvantagem de ser muito dependente dos valores extremos, que podem dar origem a uma amplitude muito grande, que no seja representativa do conjunto de dados. Uma alternativa considerar s a parte central dos dados, obtendo-se uma outra medida a que damos o nome de amplitude interquartis.

3.3.2 Amplitude interquartis


Como o nome est a dizer, obtm-se a amplitude interquartis, fazendo a diferena entre o 3. e o 1. quartis. Esta medida, que j foi utilizada na construo do diagrama de extremos e quartis, d-nos informao sobre a amplitude do intervalo em que se encontram 50% das observaes centrais. Algumas propriedades da amplitude interquartis so: A amplitude interquartis ser tanto maior, quanto mais variabilidade houver entre os dados. Se no houver variabilidade, isto , se as observaes forem todas iguais, ento a amplitude interquartis vem igual a zero. No entanto, uma amplitude interquartis nula, no significa necessariamente que no exista variabilidade. Por exemplo, o conjunto de dados 1 2 5 5 5 5 5 5 5 14 21

tem amplitude interquartis nula, apesar de apresentar variabilidade. Na seco 3.2.3 calculmos os quartis da amostra constituda pelo peso dos 15 alunos de uma turma do 2. ano. Vimos que o 1. quartil Q1=27 e o 3. quartil Q3=31, donde a amplitude interquartis = 4

3.3.3 Desvio-padro
Tal como a mediana, que calculada unicamente a partir de um ou dois valores da amostra, tambm a amplitude interquartis calculada unicamente a partir dos quartis, ignorando assim muita informao sobre a forma como os dados se distribuem. Quando a distribuio dos dados aproximadamente simtrica, situao em que tem sentido falar da mdia como medida de localizao do centro de distribuio dos dados, utiliza-se como medida de variabilidade ou disperso dos dados, o desvio-padro, que no seu clculo tem em conta os desvios de todos os dados relativamente mdia.

139

anlise de dados

Recorde-se que a representao de um conjunto de dados num diagrama de extremos e quartis, d uma informao imediata sobre a variabilidade existente nos 50% dos elementos centrais, atravs do comprimento da caixa, que igual amplitude interquartis.

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

3.3.1 Amplitude

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

_ Consideremos ento a amostra (x1,x2,...,xn) com mdia x . Para medir a variabilidade dos dados relativamente mdia, comea-se por calcular, para cada dado, a diferena entre ele e a mdia, a que chamamos desvio: _ _ _ _ x1- x , x2-x x , x3- x , ..., xn- x Para obter a variabilidade de todos os dados, seria natural somar todos os desvios. Acontece que a soma destes desvios sempre igual a zero, pois os desvios positivos anulam com os negativos, pelo que esta soluo no serve. Ento, vamos considerar no os prprios desvios, mas os seus quadrados: _ _ _ _ (x1- x )2, (x2- x )2, (x3- x )2, ..., (xn- x )2 Define-se varincia e representa-se por s2, a medida que se obtm somando os quadrados dos desvios e dividindo pelo nmero de observaes menos uma: _ _ _ _ (x1 x )2 + (x2 x )2 + (x3 x )2 + + (xn x )2 2 s =n 1 O motivo que nos leva a considerar os quadrados dos desvios j tem uma explicao. Mas ento porque que no consideramos a mdia desses desvios ao quadrado, dividindo a sua soma por n em vez de (n-1), como est proposto? A este nvel, a resposta que pode ser dada prende-se de certo modo com o motivo que nos levou a considerar os quadrados, em vez dos prprios desvios: como a soma dos n desvios igual zero, basta conhecer (n-1) desses desvios, para que o n-simo fique automaticamente determinado. Assim, como s temos (n-1) desvios independentes, dividimos por (n-1) em vez de n. A varincia, como medida de variabilidade tem um problema que o facto de no vir nas mesmas unidades que os dados originais. Resolve-se este problema considerando a raiz quadrada, a que se d o nome de desvio-padro:

Da forma como o desvio padro obtido, imediatamente se conclui que: O desvio padro sempre maior ou igual a zero e ser tanto maior quanto maior for a variabilidade presente nos dados. Se no houver variabilidade, isto , se os dados forem todos iguais, ento o desvio-padro nulo; por outro lado, se o desvio padro de um conjunto de dados nulo, ento no existe variabilidade. Exemplo: Tempo de realizao da ficha Na turma, o professor estava interessado em saber qual o tempo mdio de realizao de uma determinada ficha e desejava tambm saber se os tempos que seus alunos demoravam a fazer a ficha, variavam muito. Registou esses tempos 13 15 14 18 25 14 15 14 16 17 20 17

anlise de dados

e de seguida calculou a mdia e o desvio padro:

140

Calculando a raiz quadrada de 11,18, vem para o desvio-padro s = 3,34 O professor concluiu, assim, que o tempo mdio de resoluo da ficha foi de 16 minutos e meio, com um desvio padro de 3,34 minutos.

Quais as medidas que se devem utilizar para resumir a informao contida numa amostra?
As medidas de localizao, juntamente com as medidas de variabilidade, descrevem o comportamento dos dados. Uma questo que se pode colocar a de saber quais as medidas de localizao e de variabilidade que se devem utilizar. Recordamos que, do mesmo modo que a mdia s deve ser utilizada para distribuies aproximadamente simtricas, tambm o desvio padro s deve ser utilizado nestas condies. Assim, quando pretendemos descrever um conjunto de dados de tipo quantitativo, pode-se utilizar a seguinte metodologia: 1. Fazer uma representao grfica dos dados; 2. Uma vez a representao grfica obtida: Se a distribuio dos dados se apresentar aproximadamente simtrica, ento utilizar a mdia e o desvio padro para descrever os dados; Se a distribuio apresentar enviesamento, ento utilizar a mediana e a amplitude interquartis. Pode-se ainda calcular a mdia e verificar que esta se afasta da mediana: ou maior ou menor que a mediana, conforme o enviesamento for para a direita (positivo) ou para a esquerda (negativo). Se se verificar a existncia de algum(s) outlier(s) e se estiver a utilizar a mdia e o desvio padro, recalcular estas medidas sem o(s) outlier(s) e fazer um pequeno relatrio sobre o assunto.

141

anlise de dados

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

Exemplo Nota mal digitada - Um professor ao digitar, numa folha de clculo, as notas (numa escala de 0 a 20) que os seus 38 alunos tiveram no teste de Matemtica, enganou-se e ao escrever 15, escreveu 155. Como que este erro pode afectar o valor das medidas de localizao, mdia e mediana e das medidas de disperso, desvio padro e amplitude interquartis? Nitidamente o valor 155 um outlier, que provocar um aumento (substancial) da mdia, relativamente ao valor que seria o correcto com a nota de 15. A mediana possivelmente no vir alterada e se houver alterao, no ser significativa. No que diz respeito s medidas de disperso, o desvio-padro tambm vir inflacionado, enquanto que a amplitude interquartis no deve ser afectada. Exemplo: Notas de trs turmas - Trs turmas do 10. ano fizeram o mesmo teste de Matemtica, tendo-se construdo os seguintes histogramas para as classificaes obtidas: Turma 1
Freq. abs. 7 6 5 4 3 2 1 0 20 30 40 50 60
Nota

70

80

90

100

Turma 1 Turma 2
Freq. abs. 6 5 4 3 2 1 0 20 30 40 50

anlise de dados

60
Nota

70

80

90

100

Turma 2 Turma 3
Freq. abs. 8 7 6 5 4 3 2 1 0 20 30 40 50

60
Nota

70

80

90

100

Turma 3

142

A turma 3, teve, de um modo geral notas mais altas. Alis, houve mais alunos a ter notas altas do que baixas, como se depreende pelo enviesamento. Assim, de esperar que seja a turma 3 a ter maior mdia. Tambm para esta turma se espera maior mediana que para as outras turmas e alm disso espera-se que a mediana seja maior que a mdia, pelo tipo de enviesamento apresentado. Exemplo: Preo das casas - Recordemos, de novo, o exemplo dos Dados sobre casas. Na seco 2.5.1 apresentmos um grfico com 3 diagramas de extremos e quartis, referentes ao preo das casas, nas 3 zonas A, B e C:

Grficos de extremos e quartis paralelos, para os preos das casas nas zonas A, B e C

A partir das representaes anteriores verificamos que as casas da zona C so as que tm o preo mais baixo. As casas da zona A so, de um modo geral, mais caras e os preos apresentam uma grande variabilidade. A distribuio dos preos da zona B , de certo modo, atpica, porque na zona central dos dados apresenta um enviesamento para a esquerda, uma vez que a mediana est mais perto do 3. quartil que do 1. quartil, enquanto que os dados mais afastados do centro apresentam um enviesamento para a direita. Esta situao no ocorre com muita frequncia, sendo mais vulgares os casos apresentados pelas distribuies das zonas A e C. Para esta situao, apontada para a zona B, j no podemos dizer que a mdia maior ou menor que a mediana, pois os dois tipos de enviesamento provocam efeitos contrrios, enquanto que para a zona A e C esperamos que a mdia seja superior mediana. Calculando estas medidas para as 3 zonas, obteve-se o seguinte quadro:

143

anlise de dados

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

A partir das representaes grficas anteriores ser possvel dizer em qual das turmas se espera maior mdia para o teste? E maior mediana? E em qual das turmas se espera que a mediana esteja mais afastada da mdia?

Zona

Mdia 219,14 181,82 131,72

Mediana 208,88 181,06 126,80

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

A B C

Analisando a tabela, verifica-se que, como se esperava, os preos das casas das zonas A e C, tm mdias superiores s medianas. Para a zona B obteve-se um valor para a mdia muito prximo da mediana. Como se comportaro as medidas de variabilidade? Sugere-se a construo de uma tabela anloga anterior, com as medidas do desvio padro e da amplitude interquartis, para analisar as diferenas obtidas. Exemplo: Trabalhadores da Empresa Fio de Ouro - Um grupo de trabalhadores, constitudo por mulheres, foi-se queixar ao sindicato da indstria txtil, alegando que, na empresa Fio de Ouro, pertencente ao Sr. Silva, o salrio mdio dos homens era superior ao das mulheres. Ser que tinham razo para se queixarem? A trabalho igual, o Sr. Silva estava a pagar de forma diferente aos homens e s mulheres? Com base na tabela fornecida pela contabilidade, vamos averiguar o que se passa com a questo anterior:
Nome Antnio Filipe Pedro Paulo Jos Ana Maria Rosa Joo Filipa Lus Joaquim Verssimo Eduardo Fernando Silva Eugnio lvaro Alberto Beto Anacleto Antnio Cargo Tcnico Tcnico Tcnico Administ. Tcnico Tcnico Administ. Tcnico Tcnico Tcnico Tcnico Tcnico Tcnico Tcnico Scio-gerente Tcnico Tcnico Tcnico Tcnico Tcnico Administ. Salrio 809 864 959 621 949 770 655 762 783 853 807 974 821 1037 5500 1006 893 1031 787 801 695 Nome Emlia Pedro Joo Lusa Cristiano Ronaldo Cristina Valdemar Vasco Vanessa Ctia Bruno Raquel Miguel Ricardo Tlio Tiago Isabel Dinis Daniela Antnia Cargo Administ. Tcnico Tcnico Administ. Administ. Administ. Tcnico Tcnico Administ. Tcnico Administ. Tcnico Tcnico Tcnico Tcnico Tcnico Administ. Administ. Tcnico Tcnico Tcnico Salrio 687 836 807 665 582 712 915 927 702 909 746 853 853 1028 847 926 747 719 911 945 970 Nome Miguel Pedro Telmo Joo Lus Fernanda Eugnia Rita Ana Filipa Raquel Rute Pedro Ivete Joo Miguel Eduardo Tiago Armando Valente Susana Cargo Salrio

anlise de dados

Tcnico 840 Tcnico 837 Administ. 662 Tcnico 884 Tcnico 861 Tcnico 963 Administ. 756 Tcnico 797 Administ. 712 Tcnico 967 Tcnico 1013 Tcnico 816 Administ. 731 Administ. 670 Administ. 742 Administ. 628 Tcnico 799 Tcnico 803 Tcnico 802 Tcnico 831 Tcnico 788

144

6000

1200

5000

1000

4000 1. quartil Mnimo 3000 Mediana Mximo 2000 3. quartil

800 1quartil Mnimo 600 Mediana Mximo 400 3quartil

1000

200

0 Mulheres Homens

0 Mulheres Homens

Estamos numa situao em que existe um outlier, o salrio de 5500 euros auferido pelo scio-gerente. Retirou-se este valor dos salrios dos homens e construiu-se de novo os diagramas de extremos e quartis paralelos, que se apresentam no lado direito da figura anterior. As representaes obtidas no apresentam praticamente enviesamento, pelo que vamos utilizar a mdia como medida de localizao do centro dos dados. Para explorar um pouco mais os dados (sem o outlier), calcularam-se as mdias para os empregados do sexo feminino e masculino, separando ainda os tcnicos dos administrativos, tendo-se obtido a tabela seguinte:
Cargo Sexo Feminino Masculino Administrativo 701 682 691 Tcnico 880 877 878 815 828 823

Analisando os resultados apresentados na tabela, conclui-se que: O salrio mdio dos empregados do sexo feminino (=815 euros) um pouco inferior ao salrio mdio dos empregados do sexo masculino (=828); No entanto, analisando pelo tipo de cargo, verifica-se que, tanto para os administrativos como para os tcnicos, o salrio mdio do sexo feminino superior ao do sexo masculino, pois Salrio mdio administ. feminino (=701)> Salrio mdio administ. masculino (=682) Salrio mdio tcnicos feminino (=880)> Salrio mdio tcnicos masculino (=877) Afinal as mulheres no tinham razo de queixa, pois dentro de cada categoria, o salrio mdio que auferiam at um pouco superior ao dos homens! Esta situao paradoxal que acabmos de descrever conhecida como o paradoxo de Simpson e pode acontecer quando se analisam os dados segundo um determinado critrio e depois se entra em linha de conta com um novo critrio para discriminar os dados.

145

anlise de dados

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

Pretende-se comparar os salrios dos homens e das mulheres, utilizando medidas de localizao e de disperso adequadas. Construram-se os diagramas de extremos e quartis paralelos e obteve-se a representao do lado esquerdo da figura seguinte:

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

3.4

Coeficiente de correlao

Vimos na seco 2.7, que quando temos dados bivariados, uma forma de os representar graficamente atravs do diagrama de disperso, em que cada par de dados (x,y) representado, num sistema de eixos ortogonais, por um ponto de coordenadas (x,y). Obtm-se assim uma nuvem de pontos que nos permite avaliar de imediato se h ou no uma forte associao entre as duas variveis. A associao mais simples que os pontos podem apresentar a associao linear e o maior ou menor grau de proximidade dos pontos a uma linha recta pode ser traduzido numericamente por um coeficiente a que se d o nome de coeficiente de correlao linear. No diagrama de disperso seguinte, esto representados os pares (rea, Preo) das 40 casas que constituem a amostra dos Dados sobre casas. A nuvem de pontos apresenta-se um pouco dispersa, mas no deixa por isso de ser bem patente a sua forma alongada que se desenvolve em torno de uma recta com um declive positivo:
400 350 300 Preo 250 200 150 100 50 100 rea 150 200

Como se v, verifica-se uma tendncia para que casas de maior rea tenham preos mais elevados.

anlise de dados

Tipo de associao linear entre duas variveis


Associao positiva duas variveis dizem-se associadas positivamente se aos maiores valores de uma correspondem, em mdia, os maiores valores da outra. Associao negativa duas variveis dizem-se associadas negativamente se aos maiores valores de uma correspondem, em mdia, os menores valores da outra e vice-versa. O coeficiente de correlao mede a maior ou menor fora com que as variveis se associam, quer positiva, quer negativamente.

146

O coeficiente de correlao, representa-se por r e calcula-se para os pares de valores (x1,y1), (x2,y2), , (xn,yn), atravs da seguinte frmula:

que vai ser utilizada, ainda, para justificar graficamente o maior ou menor valor obtido para o coeficiente de correlao, conforme o aspecto da nuvem de pontos.

Propriedades do coeficiente de correlao:


O valor do coeficiente de correlao r varia entre -1 e 1. Quanto maior for o valor absoluto de r, mais forte ser a relao linear existente entre os xs e os ys. O facto de r ser positivo, significa que a relao entre os xs e os ys do mesmo sentido, isto , a valores grandes de x, correspondem, em mdia, valores grandes de y e vice-versa - associao positiva. Quando r negativo, a relao entre os xs e os ys de sentido contrrio, o que significa que a valores grandes de x, correspondem, em mdia, valores pequenos de y e viceversa - associao negativa. A correlao no afectada por uma mudana de unidades das variveis. Uma vez que no clculo da correlao se utilizam medidas no resistentes, como o caso da mdia e do desvio padro, ento a correlao tambm pode ser afectada por outliers. Assim, deve-se comear por fazer a representao grfica do diagrama de disperso e verificar se no existem pontos discrepantes, que possam influenciar a correlao.

Interpretao geomt ric a :

Efectivamente, quando pensamos num valor grande de x, ser um valor acima da mdia. Por outro lado, um valor pequeno de x um valor abaixo da mdia. Ento, se existe tendncia a que, aos valores grandes de x, estejam associados os valores grandes de y, e aos valores pequenos de x estejam associados os valores pequenos de y, os produtos _ _ (xi x ) (yi y )

147

anlise de dados

Se aos maiores valores de x, esto associados, de um modo geral, os maiores valores de y, ento r>0.

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

Clculo do coeficiente de correlao:

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

so de um modo geral positivos, j que ambos os factores so positivos ou negativos. Ento o facto de somarmos grande nmero de parcelas positivas, faz com que o valor do coeficiente de correlao seja positivo e tanto maior quantas mais parcelas positivas houver.

Se aos maiores valores de x, esto associados, de um modo geral, os menores valores de y, ento r<0. Fazendo o raciocnio como no ponto anterior, verificamos que agora as parcelas so maioritariamente negativas, j que quando x grande (superior mdia dos xs), ento existe tendncia para que o y seja pequeno (inferior mdia dos ys). Assim, os produtos _ _ (xi x ) (yi y ) so, de um modo geral, negativos.

anlise de dados

148

Neste caso tanto podem surgir produtos negativos, como positivos, distribuindo-se de forma mais ou menos equitativa. Ento o valor de r vem prximo de zero.

Mais uma vez chamamos a ateno que o coeficiente de correlao mede unicamente a relao linear existente entre as variveis e no outro tipo de ligao. Por exemplo, o seguinte diagrama de pontos indica uma forte associao entre as variveis x e y:
Y 30 25 20 15 10 5 0 -5 0 X 5

As variveis esto relacionadas pela equao y = 2 + x2, e no entanto o coeficiente de correlao r = 0. Na interpretao do coeficiente de correlao deve-se chamar a ateno para o facto de que a existncia de correlao elevada entre duas variveis no significa necessariamente uma relao de causa-efeito. Pode verificar-se a existncia de uma ou mais variveis relacionadas com as variveis em estudo, a provocar aquelas correlaes referidas como correlaes falsas.

149

anlise de dados

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

Se no existe associao linear entre os xs e os ys, ento r=0.

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

Para a nuvem de pontos referente aos pares (rea, Preo) obteve-se como coeficiente de correlao linear o valor r=0,68. Este valor evidencia uma correlao positiva no muito forte, confirmando a observao feita anteriormente de que a nuvem se apresenta bastante dispersa e com uma inclinao positiva h tendncia para que casas de maior rea tenham preos mais elevados, mas a rea, por si s, no consegue explicar na sua totalidade o preo da casa. Exemplo: Ser que o vinho bom para o corao? (Moore, 1997) H a convico de que o consumo moderado de vinho ajuda a prevenir ataques cardacos. Na tabela seguinte apresentamos, para 19 pases desenvolvidos, alguns valores respeitantes ao consumo anual de vinho (litros de lcool obtidos a partir do consumo de vinho, por pessoa) e a taxa de mortes anuais por doenas cardacas (mortes por 100 000 pessoas):
Pas Austrlia ustria Blgica Canad Dinamarca Finlndia Frana Islndia Irlanda Itlia lcool 2,5 3,9 2,9 2,4 2,9 0,8 9,1 0,8 0,7 7,9 Taxa de mortes 211 167 131 191 220 297 71 211 300 107 Pas Holanda N.Zelndia Noruega Espanha Sucia Sua R. Unido EUA Alemanha lcool 1,8 1,9 0,8 6,5 1,6 5,8 1,3 1,2 2,7 Taxa de mortes 167 266 227 86 207 115 285 199 172

Faa um estudo sobre o assunto, a partir dos dados anteriores. Comeamos por construir um diagrama de disperso que nos d uma ideia de uma associao linear negativa entre o consumo de 350 300 vinho e a taxa de mortes por ataques cardacos, 250 pois aos maiores valores da varivel consumo de 200 150 vinho, aqui representada por lcool, corres100 pondem, de um modo geral, os menores valores 50 0 da varivel Taxa de mortes. 0 2 4 6 8 10 Para medir a fora desta associao calculmos o lcool coeficiente de correlao, tendo obtido r = -0,84, o que traduz inequivocamente uma forte associao negativa entre as duas variveis. Ento podemos concluir que quanto mais lcool consumirmos, menor a probabilidade de morrer de um ataque cardaco? No! A associao no deve ser interpretada como causa efeito. Pode, eventualmente, haver outras variveis, com que no estamos a entrar em linha de conta, que contribuam para a associao linear verificada entre as variveis cuja associao se est a estudar. Se formos, por exemplo, estudar para uma determinada poca do ano, a associao entre o consumo dirio de gelados e o nmero dirio de incndios, podemos obter uma forte associao positiva entre aquelas duas variveis. Poderemos assim concluir que comer gelados provoca incndios? Obviamente que no. O que acontece que com o aumento de calor verifica-se o aumento do consumo de gelados, o mesmo acontecendo com o nmero de incndios.
Taxa de mortes

150

anlise de dados

Idade e altura das crianas (Graa Martins, 1999) - A tabela seguinte apresenta os valores das idades em meses e das alturas de algumas crianas de uma escola:
Criana 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Idade (meses) 109 113 115 116 119 120 121 124 126 129 130 133 134 135 137 139 141 142 Altura (cm) 137,6 147,8 136,8 140,7 132,7 145,4 135,0 133,0 148,5 148,3 147,5 148,8 133,2 148,7 152,0 150,6 165,3 149,9

Representando os dados num diagrama de pontos obtm-se:

170 160 Altura 150 140 130 100 110 120 130 140 150

Idade

Este grfico mostra a existncia de uma certa associao linear, no muito forte, dando a indicao de que existe tendncia para que quanto maior for a idade, maior seja a altura. O valor do coeficiente de correlao 0,60, o que vai de encontro ao que se disse anteriormente.

151

anlise de dados

CARACTERSTICAS AMOSTRAIS. MEDIDAS de LOCALIZAO e DISPERSO

Exemplo:

PROBABILIDADE

Neste captulo faz-se uma breve introduo interpretao frequencista de Probabilidade, de uma forma que se pretende elementar e intuitiva. Do-se algumas indicaes sobre o clculo de probabilidades de alguns acontecimentos, em situaes especiais de simetria.

4.1

Introduo

A abordagem do conceito de Probabilidade s se justifica, a este nvel, de forma muito elementar e intuitiva. Todos ns, no dia a dia, fazemos conjecturas sobre a realizao de um acontecimento futuro. comum ouvir-se dizer: pouco provvel que amanh chova...; a probabilidade de haver uma pessoa com 3 metros de altura zero; a probabilidade do prximo beb, de uma determinada famlia, ser do sexo masculino aproximadamente 50%; a probabilidade de lanar uma moeda de 1 euro ao ar e sair a face com o 1, 50%; a probabilidade de amanh o sol nascer um; a probabilidade de ganhar no Euromilhes quase nula; etc. Ao exprimirmo-nos da forma anterior, no estamos mais do que a anunciar o nosso grau de convico na realizao de algum acontecimento. Para exprimir esta convico estamos a recorrer, embora intuitivamente, frequncia relativa com que o acontecimento se pode repetir. Consideremos de novo o exemplo dos Dados sobre casas e suponhamos que na regio onde se recolheu a informao da tabela, se recolhia informao sobre mais uma casa, escolhida ao acaso. Algumas questes que se podem colocar sobre essa outra casa so as seguintes: Ser mais provvel que essa casa seja nova ou usada? PROBABILIDADE Qual ser um valor aproximado para a probabilidade de a casa ser usada? Na pgina 24, em que organizmos a informao constante da tabela com os dados sobre casas, verificamos que das 40 casas, 31 so usadas e 9 so novas. Ento, natural esperar que seja mais provvel que esta outra casa seja usada. Por outro lado, esperamos que a probabilidade de, na dita regio, encontrar venda uma casa usada, esteja prxima de 80%, j que a frequncia relativa obtida para o acontecimento Casa usada foi 77,5%. A probabilidade de um determinado acontecimento aleatrio d-nos a percentagem de vezes que se espera que ele acontea, se se repetir a experincia, um grande nmero de vezes, nas mesmas condies. No exemplo das casas, a experincia consiste em seleccionar uma casa ao acaso e em verificar se a casa usada ou nova. Existem dois acontecimentos possveis para o estado da casa e por essa razo que o resultado da experincia aleatrio: antes de verificar a casa, no temos informao suficiente para saber qual dos acontecimentos se vai verificar, se usada ou nova.

155

anlise de dados

Quando lanamos um dado ao ar, tambm no sabemos de antemo, qual a face que vai sair. Sabemos partida, antes de realizar a experincia de lanar o dado ao ar, que pode sair qualquer uma das faces numeradas de 1 a 6, mas no temos informao suficiente para dizer qual das faces que vai sair, na prxima realizao da experincia. por essa razo que se diz que a sada da face com 5 pintas, por exemplo, um acontecimento aleatrio. As probabilidades assumem valores numa escala de 0% a 100%. Se um acontecimento impossvel, atribui-se-lhe uma probabilidade de 0% (ou 0). Se temos a certeza que um acontecimento se vai verificar, ento atribui-se-lhe a probabilidade de 100% (ou 1).

A probabilidade de um acontecimento no se verificar igual a 100% menos a probabilidade de se verificar. Assim, como atribumos anteriormente um valor aproximado de 80% ao acontecimento A casa usada, podemos dizer que um valor aproximado para a probabilidade do acontecimento A casa nova 20%. Exemplo: Qual a probabilidade? (Freedman et al., 1991) Um computador est programado para calcular vrias probabilidades. Associe as respostas numricas com as descries verbais seguintes: (a) (b) (c) (d) (e) (f) (g) -50% 0% 10% 50% 90% 100% 200% (i) to provvel acontecer, como no acontecer (ii) muito provvel que acontea, mas no certo (iii) Isto no pode acontecer (iv) Pode acontecer, mas pouco provvel (v) Isso acontecer, de certeza (vi) H um erro no programa

anlise de dados

PROBABILIDADE

Nos valores numricos, existem 2 que no podem ser probabilidades. Assim, s podem ser atribudos a um erro no programa, donde (vi) corresponde a (a) e (g). Se um acontecimento to provvel de acontecer, como de no acontecer, ento temos que (i) corresponde a (d). As outras associaes so (ii) a (e); (iii) a (b); (iv) a (c) e (v) a (f).

156

4.2

Clculo de probabilidades numa situao especial

O argumento utilizado na seco anterior para exprimir um valor para a probabilidade de um acontecimento se verificar, exige que a experincia se possa repetir um grande nmero de vezes, nas mesmas condies. Por exemplo, suponha que tem uma caixa com 10 rifas, numeradas de 1 a 10, em que 2 das rifas, por exemplo as rifas 9 e 10, do prmio. Qual a probabilidade de ao retirar uma rifa, ao acaso, ela ter prmio? Admitindo que as rifas so iguais e se baralharam antes de retirar uma, qualquer uma delas tem igual possibilidade de ser retirada. Imagine que retira uma rifa, verifica se tem prmio e repe a rifa novamente na caixa, repetindo este processo muitas vezes. Ao fim de muitas extraces, cada uma das rifas extrada cerca de 10% das vezes, pelo que as rifas premiadas sero extradas cerca de 20% das vezes. Suponha agora que a caixa tem 100 rifas, numeradas de 1 a 100, e as 20 rifas numeradas de 81 a 100 do prmio. Qual a probabilidade de retirar uma rifa premiada? Repetindo o processo como anteriormente, cada rifa sai cerca de 1 vez em 100, pelo que as premiadas sairo aproximadamente 20 vezes em 100, ou seja cerca de 20% das vezes. Em ambas as situaes anteriores a probabilidade de tirar rifa com prmio, idntica, j que a proporo de rifas premiadas era a mesma nas duas caixas. Suponha agora que tem um dado de 6 faces que, em vez de terem pintas esto pintadas: 3 faces esto pintadas de cor cinza e as outras 3 de vermelho. Suponha que lana o dado 600 vezes. Quantas vezes se espera que saia a face cor cinza? E a face vermelha? Se o dado estiver bem construdo, cada face tem igual possibilidade de sair, pelo que como existem 3 faces de cor cinza, esperamos que elas saiam, aproximadamente, metade das vezes, ou seja cerca de 300 vezes. Assim, existe igual probabilidade de sair a face de cor cinza ou a face vermelha. E se o dado tiver 2 faces de cor cinza e 4 vermelhas? Quantas vezes se espera que saia da cor cinza, nos 600 lanamentos? Como agora s temos duas faces de cor cinza, esperamos que um tero das vezes saia a cor cinza, ou seja, aproximadamente 200 vezes. Ento agora a probabilidade de sair a cor cinza de 1 em 3, ou seja 1/3. Nos exemplos anteriores, no raciocnio utilizado para calcular as probabilidades dos acontecimentos desejados, colocmo-nos sempre numa situao especial situao de simetria, em que todos os resultados possveis das experincias estavam em igualdade de circunstncias e no tnhamos razo para privilegiar algum(s) resultado(s) relativamente aos outros. Quando falmos em retirar uma rifa, estvamos a dar igual possibilidade a cada uma das rifas, da caixa, de ser seleccionada.

157

anlise de dados

PROBABILIDADE

O mesmo acontece no lanamento do dado (equilibrado), em que damos igual possibilidade de sair cada uma das 6 faces, em cada lanamento. No entanto, se tivssemos cortado um vrtice ao dado

j as faces no estariam em igualdade de circunstncias, pelo que j no poderamos esperar que, em muitos lanamentos, se verificasse a mesma proporo de vezes para cada face. Ento neste caso, como que podemos estimar a probabilidade de sair cada face, no prximo lanamento do dado? A nica soluo fazer muitos lanamentos, calcular a proporo de vezes que se verificou a sada de cada uma das faces e utilizar esse valor, para estimar a probabilidade desejada. Existem situaes em que gostaramos de conhecer a probabilidade de se verificar determinado acontecimento, mas em que no estamos numa situao de simetria, nem possvel repetir a experincia um grande nmero de vezes, nas mesmas circunstncias, de forma a utilizar a frequncia relativa com que o acontecimento acontece, para estimar a probabilidade de ele se verificar. Nestas situaes teremos de utilizar alguma informao que nos possa ajudar a exprimir o nosso grau de convico na realizao desses acontecimentos. Por exemplo, no igualmente provvel que o prximo Presidente da Repblica seja homem ou mulher. Com a informao que temos do passado, natural que se atribua ao acontecimento o prximo presidente homem uma probabilidade de 100%. PROBABILIDADE Exemplo: O jogo com berlindes Numa caixa esto 6 berlindes, 2 de cor cinza e 4 vermelhos. Quando retira o berlinde anota a cor e repe outra vez na caixa.

anlise de dados

Ao fim de 300 extraces, quantos euros espera ganhar: a) Se por cada berlinde cinza que sair, ganhar 1 euro? b) Se por cada berlinde cinza ganhar 2 euros e por cada berlinde vermelho perder um euro? Como nas 300 extraces (com reposio) se espera que saia cerca de 100 vezes berlinde cinza, e nas outras vezes berlinde vermelho, na primeira situao espera-se ganhar 100 euros, enquanto que na segunda situao se espera ganhar 200 euros e perder outros 200 euros, pelo que nesta segunda hiptese no de esperar ganhar nem perder.

158

Exemplo: As duas caixas de berlindes Suponha que tem as seguintes caixas, cada uma com 5 berlindes cinza e vermelhos. Quando se retira um berlinde, se ele for cinza ganham-se 2 euros, se for vermelho ganha-se 1 euro:

Do-lhe a possibilidade de escolher uma das 2 caixas para fazer 100 extraces, com reposio. Qual das caixas prefere? Em cada extraco existem 2 possibilidades em 5 de sair um berlinde de cor cinza, se se fizer a extraco da caixa 1, enquanto que se for da caixa 2, essas possibilidades diminuem para metade. Assim, nas 100 extraces, espera-se que a cor cinza saia cerca de 40 vezes ou 20 vezes se fizermos as extraces da caixa 1 ou da caixa 2, respectivamente. ento prefervel a Caixa 1, j que com esta esperamos ganhar 140 euros (40x2+60x1), enquanto que com a outra s esperamos ganhar 120 euros (20x2 + 80x1).

159

anlise de dados

PROBABILIDADE

Tarefa
Vamos lanar dois dados

Na escola o professor props o seguinte jogo para ser jogado entre a Rita, o Joo e o Miguel: lanam-se 2 dados de 6 faces e verifica-se a soma das pintas dos dados, que pode ir de 2 a 12. Se a soma for 2, 3, 4 ou 5 o Joo ganha um ponto; se for 6, 7 ou 8 ganha a Rita um ponto; finalmente, se for 9, 10, 11 ou 12, ganha o Miguel. A Rita ficou muito zangada com o professor, dizendo que este a estava a desfavorecer, uma vez que aos outros colegas dava 4 possibilidades, enquanto que a ela s dava 3. Ser que ela tinha razo? Para ser mais fcil de descrever a actividade, vamos considerar dois dados em que um preto e o outro branco. Vamos esquematizar todas as situaes possveis de se verificarem, quando se lanam os dois dados: Suponhamos que no dado preto saiu 1 pinta. Ento no dado branco pode ter sado qualquer valor de 1 a 6:

Repetindo o processo, mas agora com 2, 3, ..., 6 pintas no dado preto, obtemos a figura seguinte, onde temos esquematizado todos as situaes possveis, em nmero de 36:

Vamos considerar uma tabela com os nmeros das pintas e a soma respectiva:
6+1=7 5+1=6 4+1=5 3+1=4 2+1=3 1+1=2 6+2=8 5+2=7 4+2=6 3+2=5 2+2=4 1+2=3 6+3=9 5+3=8 4+3=7 3+3=6 2+3=5 1+3=4 6+4=10 5+4=9 4+4=8 3+4=7 2+4=6 1+4=5 6+5=11 5+5=10 4+5=9 3+5=8 2+5=7 1+5=6 6+6=12 5+6=11 4+6=10 3+6=9 2+6=8 1+6=7

160

Analisando com cuidado a tabela anterior, verificamos que existem algumas somas que surgem com mais frequncia do que outras. Por exemplo a soma 12 s aparece quando sair 6 pintas nos dois dados

enquanto que a soma 5 aparece nas seguintes situaes

Ento conclumos que enquanto a probabilidade de o 12 sair de 1 em 36, o 5 tem uma probabilidade maior, de 5 em 36. A partir da tabela anterior podemos construir uma outra tabela, com o nmero de vezes que pode sair cada resultado para a soma das pintas, quando se lanam 2 dados:
Resultado da soma das pintas 2 3 4 5 6 7 8 9 10 11 12 Nmero de vezes que se pode verificar 1 2 3 4 5 6 5 4 3 2 1 Quem ganha Joo Joo Joo Joo Rita Rita Rita Miguel Miguel Miguel Miguel

Ento quando se lanam os dois dados, de acordo com as regras estipuladas para o jogo: o Joo tem 10 (1+2+3+4) possibilidades de ganhar;

o Miguel tem 10 (4+3+2+1) possibilidades de ganhar. Afinal a Rita no tinha razo, pois estava a ser privilegiada neste jogo, que no era um jogo justo. O professor ento props que redistribuissem os resultados possveis pelos 3 colegas, de forma a transformarem um jogo que no era justo, num jogo justo. Depois de alguma discusso, propuseram a seguinte regra: se a soma for 2, 7 ou 8 o Joo ganha um ponto; se for 4, 5 ou 6 ganha a Rita um ponto; finalmente, se for 3, 9, 10, 11 ou 12, ganha o Miguel. Ser que chegaram a uma boa soluo?

161

anlise de dados

a Rita tem 16 (5+6+5) possibilidades de ganhar;

PROBABILIDADE

Ao nvel do 1. ciclo do ensino bsico, a forma como se trabalha a noo de probabilidade deve ser alicerada em exemplos simples e intuitivos. Podem comear por se apresentar exemplos idnticos ao considerado na Introduo deste captulo, nomeadamente quando se refere uma casa escolhida ao acaso, na regio onde se recolheu a informao que consta do ficheiro Dados sobre casas. Sugerimos ainda questes como a que apresentamos na Tarefa Quais os nossos animais domsticos, do Captulo 2. Ou ainda questes como a que apresentamos de seguida:

O que mais provvel?

Numa turma com 28 alunos, 20 so raparigas e 8 so rapazes. Dos 28 alunos, 14 tm olhos castanhos e os outros 14 tm olhos de outra cor. Tambm se sabe que 10 dos alunos (rapazes ou raparigas) so louros. O professor que usava fichas, cada uma com o nome de um dos alunos, um dia chegou turma, baralhou as fichas como quem baralha um baralho de cartas e seleccionou uma ao acaso, para que o aluno cujo nome constava da ficha seleccionada, fosse ao quadro fazer um problema. a) mais provvel que tenha sido seleccionado um rapaz ou uma rapariga? b) O que que mais provvel: que o aluno tenha olhos castanhos ou de outra cor? c) O que que mais provvel: que o aluno seja louro ou no seja louro? Para responder a estas questes, os alunos devem ter sensibilidade para verificar que quantos mais alunos houver pertencentes a determinada categoria, mais provvel ser seleccionado um aluno pertencente a essa categoria. Assim, ser mais provvel ser seleccionada uma rapariga, existe igual probabilidade de ser seleccionado um aluno de olhos castanhos e um que no tenha olhos castanhos, etc.

162

Tarefa proposta

Vamos lanar dois dados (cont.)

Uma verso desta tarefa pode ser realizada na sala de aula da seguinte forma: o professor coloca numa taa de plstico transparente alguns smarties (em nmero superior ao nmero de alunos da turma). O professor lana 2 dados e conforme o nmero que se verificar para a soma das pintas das faces que ficam voltadas para cima, retira um smartie da taa e coloca no prato do Joo, da Rita ou do Miguel (na figura, exemplificamos uma situao em que a soma igual a 3, pelo que o smartie foi colocado no prato do Joo). Quando se esgotarem os smarties da taa, ganha aquele que tiver maior nmero de smarties no seu prato. Quem que se espera que ganhe?

No fim do jogo todos os alunos tm direito a um smartie, ficando o aluno ganhador com os que sobram. A seguir apresentamos outras actividades, que o professor decidir da oportunidade de as realizar ou no, na sala de aula.

163

Ser que a moeda equilibrada?

Na turma, constituda por 2 rapazes o Tiago e o Ricardo, e 16 raparigas, era necessrio escolher um aluno rapaz, para pertencer a uma comisso que tinha de integrar os dois sexos. Como s havia dois rapazes decidiram atirar uma moeda de 1 euro ao ar. Se sasse a face Euro (E) seria escolhido o Ricardo, caso contrrio, se sasse a face Nacional (N) seria o Tiago. Antes de lanarem a moeda, o Tiago questionou o professor sobre se esse processo de seleco seria justo. Quem que lhe garantia que houvesse 50% de possibilidade de ser ele o escolhido? Ou por outras palavras, o que ele desejava saber era se a moeda era equilibrada. Decidiram fazer uma experincia de lanar a moeda algumas vezes e registar os resultados obtidos. Ao fim de 10 lanamentos, os resultados obtidos foram os seguintes: N E N N N E E E E E

Estes resultados no sossegaram o Tiago, pois ele comeou a pensar que s teria 40% de possibilidades de ser seleccionado, uma vez que em 10 vezes a moeda s lhe foi favorvel 4 vezes!

164

O professor chamou ento a ateno para o facto de se ter de realizar a experincia um grande nmero de vezes, pois com 10 lanamentos no podemos tirar qualquer concluso. Fizeram ento mais 90 lanamentos, tendo obtido os seguintes resultados:

O grfico seguinte mostra a evoluo da frequncia relativa da sada da face N, medida que se fazem os sucessivos lanamentos da moeda:
1

0.8 0.7 Freq. rel. 0.6 0.5 0.4 0.3 0.2 0.1 0 0 10 20 30 40 50 N. de lanamentos 60 70 80 90 100

Tendo em conta os resultados anteriores, verifica-se que a frequncia relativa da sada da face Nacional, tende a estabilizar volta dos 50%. Assim, no temos razo para rejeitar a hiptese de a moeda ser equilibrada, dando 50% de probabilidade a cada face.

165

anlise de dados

0.9

PROBABILIDADE

Quem que ganha o jogo?

Na escola o professor props o seguinte jogo a ser jogado por dois alunos, o David e o Antnio: lanam-se duas moedas e em cada lanamento, se sairem faces diferentes, o David ganha um ponto; caso contrrio ganha o Antnio o ponto. Ganha o jogo, aquele que, ao fim de 50 jogadas tiver ganho mais pontos. Quem que ganhar o jogo? Vamos agora simular o lanamento de 2 moedas equilibradas, generalizando o exemplo anterior, em que se lanou uma moeda.

166

Neste jogo ganhou o Antnio, pois ao fim de 50 jogadas tinha alcanado 26 pontos, enquanto que o David tinha 24 pontos. Resolveram jogar novamente o mesmo jogo, tendo obtido os resultados seguintes:

167

anlise de dados

PROBABILIDADE

Desta vez ganhou o David! Resolveram fazer ainda um 3. jogo para a desforra e obtiveram os seguintes resultados:

168

anlise de dados

PROBABILIDADE

Agora empataram! Afinal no se pode dizer partida quem que sair o vencedor, pois qualquer um dos dois alunos tem igual chance de ganhar o jogo. Uma verso deste exemplo pode ser realizado na sala de aula, em que o professor desenha no quadro um trajecto que ser percorrido pelos alunos que esto a jogar, da seguinte maneira: sempre que um dos alunos ganha, avana uma quadrcula. Ganhar o que chegar mais rpido meta. Antnio

169

anlise de dados

David

PROBABILIDADE

Tarefa proposta
Moedas no equilibradas (Adaptado de Rossman, A. et al., 2001)

Na turma onde se realizou a actividade anterior, os alunos ficaram muito entusiasmados com a experincia feita, de tal modo que o professor resolveu propor ainda uma outra actividade relacionada com moedas. Tinha consigo 6 moedas, 5 das quais no tinham passado nos testes de controlo de qualidade e tinham sido rejeitadas por alegadamente no serem dadas como equilibradas. Para cada uma destas 6 moedas, a probabilidade de sair a face Nacional era:
Moeda A: 1 em 4 ou 1/4 Moeda D: 3 em 4 ou 3/4 Moeda B: 1 em 3 ou 1/3 Moeda E: 4 em 5 ou 4/5 Moeda C: 1 em 2 ou 1/2 Moeda F: 99 em 100 ou 99/100

Com o objectivo de identificar qual das moedas seria a A, B, ..., F, lanou-se cada moeda 5 vezes, tendo-se obtido os seguintes resultados:
N. do lanamento 1 2 3 4 5 Freq. relativa Qual a moeda?

1. moeda N N E N N

2. moeda N N N N N

3. moeda E E N E E

4. moeda N N N E N

5. moeda N N N N N

6. moeda E N E E E

a) Preencher a linha das frequncias relativas com a proporo de faces nacionais obtidas nestes 5 lanamentos, de cada uma das moedas. Preencher a seguir a ltima linha com a letra da moeda que suspeita ter sido a 1., 2., , ou 6.. b) Tem confiana que as suas suspeitas estejam correctas? Explique porqu. c) Suponha que se fizeram mais 5 lanamentos para cada uma das moedas, sendo agora as frequncias relativas as apresentadas na tabela seguinte. Com esta informao adicional, tente novamente associar as moedas com as probabilidades respectivas.
10 lanamentos Freq. relativa Qual a moeda? 1. moeda 0,70 2. moeda 0,90 3. moeda 0,20 4. moeda 0,80 5. moeda 1,00 6. moeda 0,20

170

d) Suponha agora que lana as moedas mais 15 vezes e posteriormente mais 25 vezes, obtendo as frequncias relativas apresentadas nas tabelas seguintes. Mais uma vez se pede que preencha a ltima linha das tabelas:
25 lanamentos Freq. relativa Qual a moeda? 1. moeda 0,56 2. moeda 0,88 3. moeda 0,28 4. moeda 0,88 5. moeda 1,00 6. moeda 0,20

50 lanamentos Freq. relativa Qual a moeda?

1. moeda 0,58

2. moeda 0,92

3. moeda 0,26

4. moeda 0,78

5. moeda 1,00

6. moeda 0,32

e) Depois dos 50 lanamentos, estar-se- razoavelmente seguro que as moedas esto correctamente identificadas? Explique porqu. f) O seguinte grfico mostra a evoluo da frequncia relativa para as 6 moedas, medida que o nmero de lanamentos aumenta:
1.0 0.9 0.8 0.7 Freq. rel. 0.6 0.5 0.4 0.3 0.2 0.0 0 10 20 30 40 50 60 70 80 90 100 0.1

N. de lanamentos

171

anlise de dados

Comente o que que este grfico revela sobre a probabilidade, como um conceito sobre o comportamento de um processo aleatrio a longo-termo e no a curto-termo.

PROBABILIDADE

Na preparao destas folhas, seguiu-se essencialmente a seguinte bibliografia:

Bereska, C. et al. (1999) Exploring Statistics in the Elementary Grades, Dale Seymour Publications De Veaux, R. D. et al. (2004) Intro Stats, Pearson Addison Wesley. Freedman, D. et al. (1991) Statistics, W.W. Norton & Company, Inc. Graa Martins, M.E. (2005) Introduo Probabilidade e Estatstica Com complementos de Excel, Sociedade Portuguesa de Estatstica. Graa Martins, M. E. et al. (1999) Introduo s Probabilidades e Estatstica, Universidade Aberta. Graa Martins, M. E. et al. (1999) Probabilidades e Combinatria, Ministrio da Educao, Departamento do Ensino Secundrio. Graa Martins, M. E. et al. (2005) Estatstica Computacional Anexo para apoio interpretao do program, Mdulo B2 para os Cursos Profissionais. Departamento de Estatstica e Investigao Operacional, FCUL. Rossman, A. et al. (2001) - Workshop Statistics Discovery with Data, Key College Publishing. Tanenbaum, P. et al. (1998) Excursions in Modern Mathematics, Prentice-Hall, Inc. Artigos da revista Teaching Statistics Neville, H. (2003) Handling Continuous Data in Excel, Vol 25, 2, pag. 42-45. Neville, H. (2004) Charts in Excel, Vol 26, 2, pag. 49-53. Neville, H. (2006) Boxplot in Excel, www.mis.coventry.ac.uk/~nhunt/boxplot.htm Recursos na Internet Projecto ALEA: www.alea.pt

173

Alguma bibliografia relacionada com o ensino da estatstica, no exclusivamente no 1. ciclo do Ensino Bsico Abrantes, P.; Serrazina, L. e Oliveira, I. (1999). A Matemtica na Educao Bsica. Lisboa: Ministrio da Educao. Azarquiel (1993). Estatstica no 3. ciclo do Ensino Bsico. Lisboa: APM. DEB (2001). Currculo Nacional do Ensino Bsico Competncias Essenciais. Ministrio da Educao. Departamento da Educao Bsica. Ministrio da Educao (1990). Programa do 1. ciclo do Ensino Bsico. Lisboa: Ministrio da Educao. NCTM (1991). Normas para o currculo e a avaliao em Matemtica escolar. Lisboa: APM. NCTM (1993). Normas para o currculo e a avaliao em Matemtica Escolar - Coleco de adendas (do 1. ao 6. ano de escolaridade ). Lisboa: APM. NCTM (2001). Normas para o currculo e a avaliao em Matemtica Escolar. Lidar com dados e probabilidades (anos de escolaridade 5-8). Lisboa: APM. NCTM (1994). Normas Profissionais para o Ensino da Matemtica. Lisboa: APM. NCTM (1999). Normas para a Avaliao em Matemtica Escolar. Lisboa: APM. NCTM (2000). Principles and Standards for School Mathematics. Reston: NCTM. Palhares, P. (coord.). (2004). Elementos de Matemtica para professores do Ensino Bsico. Lisboa: Lidel. Ponte, J.P. e Serrazina, M.L. (2000). Didctica da Matemtica do 1. Ciclo. Lisboa: Universidade Aberta. Revista Educao e Matemtica, da APM: Associao de Professores de Matemtica.

174

Você também pode gostar