Você está na página 1de 53

Matemtica Complementar 2012/13

Organizao e Tratamento de dados


(baseado na brochura do ministrio de 2010 de Maria Eugnia Graa Martins e Joo Pedro da Ponte) 5-6 Aulas

Dados estatsticos
Estatstica a cincia que trata da recolha, organizao, apresentao, anlise e interpretao de dados (Oxford dictionary of statistical terms). Perante uma coleo de dados, h duas formas possveis de abordar a sua anlise, consoante o nosso interesse seja: Apenas explorar a coleo de dados e encontrar padres esta coleo de dados , por assim dizer, a populao em estudo. Extrapolar para um universo mais vasto os padres encontrados na coleo de dados, a qual parte (ou amostra) desse universo (ou populao).

Exemplos: Se quisermos caracterizar uma turma no que respeita ao nmero de irmo podemos perguntar a cada aluno quantos irmos tem. Neste caso a populao a turma. Quando se faz uma sondagem em perodo eleitoral para ter uma ideia dos resultados finais das eleies, a populao toda a populao votante e os dados recolhidos dizem respeito a apenas uma amostra dessa populao. Populao Conjunto de unidades individuais, que podem ser pessoas, animais ou resultados experimentais, com uma ou mais caractersticas em comum, que se pretendem analisar.
1

Amostra Parte da populao que observada com o objectivo de obter informao para estudar a caracterstica pretendida. Se se observar toda a populao diz-se que se faz um censo.

O objetivo principal da estatstica estudar populaes, isto , conjuntos de indivduos (no necessariamente pessoas) que tm caractersticas comuns, que se pretendem conhecer. A uma caracterstica comum, que assume valores diferentes de indivduo para indivduo, chamamos varivel. Varivel uma caracterstica de um indivduo ou objecto qual se possa atribuir um nmero ou uma categoria. Unidade observacional um indivduo ou coisa relativamente ao qual se recolhe a informao. Dado estatstico ou simplesmente dado o resultado da observao da varivel num indivduo ou objecto. Sendo o nosso objectivo o estudo de uma (ou mais) caracterstica da populao, vamos identificar populao com a varivel (caracterstica) que se est a estudar, dizendo que a populao constituda por todos os valores que a varivel pode assumir. Exemplo: relativamente populao portuguesa, se o objectivo do estudo for a caracterstica altura, diremos que a populao constituda por todos os valores possveis para a varivel altura. Os valores 156cm, 171cm, 163cm, 168cm, 166cm, obtidos ao medir a altura de 5 portugueses, constituem uma amostra da populao a estudar. Tipos de variveis: Quantitativa (ou numrica) - refere-se a uma caracterstica que se pode contar ou medir Exemplos: o nmero de irmos e a altura dos alunos de uma turma.

Qualitativa (ou categrica) - refere-se a uma caracterstica que no se pode contar nem medir, mas apenas classificar, podendo assumir vrias categorias. Se a varivel puder apenas assumir duas categorias diz-se binria. Exemplos: a cor dos olhos e o sexo dos alunos de uma turma (neste caso a varivel sexo binria). As variveis quantitativas podem ser discretas ou contnuas. Quantitativas discretas referem-se a caractersticas que se podem contar mas no medir. Exemplo: o nmero de irmos dos alunos de uma turma. Quantitativas contnuas - referem-se a caractersticas que se podem medir mas no contar. Estas variveis assumem valores em intervalos de nmeros reais. No entanto, como os instrumentos de medida no possuem preciso infinita, os valores so sempre registados com um nmero finito de casas decimais e por vezes comportam-se como se fossem variveis discretas. Por exemplo, a altura das pessoas usualmente referida em cm ou metros com duas casas decimais (167cm; 1,54m, 1,75m). Um outro exemplo diz respeito idade das pessoas que geralmente referida em anos (ns inteiros) apesar de na verdade a varivel ser contnua (tempo de vida de uma pessoa). Algumas variveis qualitativas apresentam uma ordem subjacente e designam-se por qualitativas ordinais. Exemplo: o grau de satisfao com um produto (com as categorias nada satisfeito, pouco satisfeito, satisfeito, bastante satisfeito e muito satisfeito).

Tarefa Classificao de variveis Para cada uma das variveis a seguir consideradas indique se de natureza qualitativa ou quantitativa e neste caso se discreta ou contnua: a) Nmero de pastilhas numa caixa de Smarties b) Cor do cabelo do primeiro colega que encontrar quando chega escola c) Idade do colega da alnea anterior d) Nmero de livros que comprou no ltimo ms e) Marca do primeiro carro que passa, quando vai janela f) Velocidade do carro da alnea anterior g) Tempo que leva de casa escola h) Rendimento mensal de uma famlia i) Tempo de durao de uma chamada telefnica j) Nmero de mensagens que recebe, por dia, no telemvel Resolver os exerccios 1 a 4 da FT n 2.

Organizao de dados em tabelas e grficos


Diagramas de Venn e de Carroll Os diagramas de Venn (e de Euler) utilizam crculos ou rectngulos para uma classificao rpida de objetos ou nmeros, que partilhem caractersticas comuns. Exemplo:

Nota: Num diagrama de Venn devem estar representadas todas as possveis partes de interseco dos conjuntos envolvidos, mesmo que estejam vazias. Num diagrama de Euler podem ser eliminadas algumas partes. Assim, o diagrama seguinte um diagrama de Euler e no de Venn:

B A

Os diagramas de Carroll so tabelas rectangulares (2x2) para organizar dados ou objetos segundo critrios de sim/no. Exemplo/tarefa: Preencha o diagrama de Carroll com os dados do exemplo anterior

Tabelas e Grficos para dados qualitativos Esquemas de contagem (tally charts) - Forma simples de registar dados medida que so recolhidos. Exemplo: Cor dos olhos dos alunos de uma turma

Tabela de frequncias Uma tabela de frequncia para dados qualitativos tem habitualmente 3 colunas: a primeira contm as categorias presentes na amostra, a segunda contm a frequncia absoluta de cada categoria ( nmero de elementos que pertencem categoria) e a terceira contm a frequncia relativa (frequncia absoluta dividida pela dimenso da amostra) Frequncia absoluta de uma categoria ou classe, o nmero de elementos da amostra iguais a essa categoria; Frequncia relativa =
frequncia absoluta dimenso da amostra

Dimenso da amostra o nmero de elementos que constituem a amostra.


Exemplo: Tabela de frequncias da cor dos olhos dos alunos de uma turma

habitual incluir uma ltima linha na tabela com os totais. A soma das frequncias absolutas igual dimenso da amostra; A soma das frequncias relativas igual a 1. Para construir uma tabela de frequncias com recurso ao excel consultar as pginas 64-68 do livro Elementos de Matemtica para professores do ensino bsico de Pedro Palhares (Lidel, 2004). Pode usar-se a funo frequency (calcula todas as frequncias de
6

uma s vez) ou countif (calcula a frequncia de uma determinada categoria)

Grfico de pontos (ou diagrama de pontos) Forma simples de representar graficamente os dados e que consiste na marcao de um ponto por cada dado, dispondo-se este pontos na vertical de acordo com a categoria respetiva. As categorias so assinaladas sob um eixo horizontal, equidistantes umas das outras.
Exemplo: Grfico de pontos referente ao transporte utilizado pelos alunos de uma turma

Pictograma Um pictograma semelhante a um grfico de pontos mas utiliza smbolos alegricos s variveis que se esto a estudar. Os smbolos devem ser todos do mesmo tamanho, embora possam ser diferentes de categoria para categoria (ver exemplo da pg. 62 da brochura de OTD)
Exemplo: Pictograma da cor dos olhos dos alunos de uma turma

Por vezes cada smbolo representa mais de um elemento. Nesse caso dever estar assinalado junto ao grfico o valor de cada smbolo. Exemplo: Pictograma do sabor preferido de um determinado tipo de bolachas, dos alunos de uma turma

Ver cuidados a ter nas pginas 58 e 60 da brochura de OTD (2010)

Grfico de barras (ou diagrama de barras) Um grfico de barras basicamente um grfico de pontos em que cada ponto substitudo por um rectngulo e os vrios retngulos alinhados verticalmente so representados por um nico retngulo. Assim sendo, a altura de cada barra reflete ( proporcional) a frequncia absoluta ou relativa da respetiva categoria. Estes grficos tm sempre dois eixos, o eixo das categorias e o eixo das frequncias. Exemplo: Grfico de barras da cor dos olhos dos alunos de uma turma

Num grfico de barras, estas devem ter todas a mesma largura. Os grficos de barras podem ser verticais ou horizontais. Exemplo de um grfico de barras horizontais:

Um grfico de barras deve sempre ter: o nome da varivel que se est a estudar; os nomes das categorias que a varivel assume, no eixo horizontal (ou vertical); uma escala no eixo vertical (ou horizontal). Nesta escala devem estar marcadas as frequncias absolutas ou as frequncias relativas das categorias que a varivel assume no conjunto de dados considerados.

No Excel os grficos de barras constroem-se a partir dos grficos em coluna Column ou em barras horizontais Bar.

Grfico circular Um grfico circular tem por base de representao um crculo dividio em sectores circulares cuja amplitude proporcional frequncia (absoluta ou relativa) das categorias. Assim, cada sector representa uma frao do total dos dados. Habitualmente utilizam-se percentagens para indicar a frao correspondente a cada sector. As categorias devero estar identificadas no grfico, seja por colocao das designaes volta do grfico, seja atravs de uma legenda de cores.
Exemplo: Grfico circular da pizza preferida pelos alunos de uma turma.

Qualquer um dos grficos apresentados anteriormente reflete de diretamente a forma da distribuio dos dados (pelas vrias categorias). Podemos rapidamente dizer qual (ou quais) a categoria mais representada e menos representada. Podemos saber se a distribuio homognea ou desequilibrada. Os grficos permitem fazer uma leitura rpida da informao contida na tabela de frequncias. No excel os grficos circulares designam-se Pie charts. Resolver o exerccio 5 da FT n 2.
10

Tabelas e Grficos para dados quantitativos discretos


Uma tabela de frequncias para dados quantitativos discretos em tudo semelhante descrita para dados qualitativos substituindo as categorias pelos valores que a varivel assume (de forma ordenada) e habitualmente acrescida de duas colunas conforme descrito em seguida. Na primeira coluna, coluna das classes, indicam-se todos os valores distintos, xi*, presentes na amostra a analisar; na coluna seguinte, coluna das frequncias absolutas ni, regista-se o nmero de vezes que cada valor xi* surge na amostra. Numa terceira coluna, coluna das frequncias relativas (ou percentagens) fi, regista-se, para cada classe xi*, o valor que se obtm dividindo a frequncia absoluta pela dimenso da amostra (nmero de elementos). Pode ainda incluir-se na tabela de frequncias mais duas colunas, a coluna das frequncias absolutas acumuladas e a coluna das frequncias relativas acumuladas, onde, para cada classe, se coloca a soma das frequncias absolutas ou relativas, respectivamente. Exemplo: Tabela de frequncias para a varivel nmero de irmos dos alunos de uma turma

Note-se que a incluso das duas ltimas colunas s possvel nos casos em que a varivel ordenvel. Assim sendo, possvel incluir estas colunas numa tabela para dados qualitativos desde que estes sejam ordinais. Para dados qualitativos no ordinais, no faz qualquer sentido incluir estas colunas j que a ordem das linhas irrelevante.

11

No que diz respeito s representaes grficas para dados quantitativos discretos, elas so basicamente as mesmas apresentadas na seco anterior. Apenas os grficos circular no costumam ser utilizados para este tipo de dados. No quer dizer que no tenha sentido fazer um grfico circular, mas dada a natureza ordenada da varivel, mais apropriado utilizar um dos grficos que contenha um eixo linear para representar os valores da varivel (classes). Resolver o exerccio 6 da FT n 2. Para alm dos grficos j apresentados, que tambm se podem usar para dados quantitativos discretos, iremos considerar mais trs tipos de grficos vulgarmente utilizados : os diagramas de caule e folha, os diagramas de extremos e quartis, e os grficos de linhas. Uma vez que estes 3 tipos tambm so utilizados para dados quantitativos contnuos, a sua descrio ser efetuada mais frente.

Observaes teis: Obs.1 - Comparao de duas amostras


Quando se pretende comparar duas amostras (de variveis de qualquer um dos tipos anteriormente considerados) til represent-las atravs de dois grficos dispostos um ao lado do outro e com a mesma escala. Nalguns casos pode-se adequar a representao de modo a facilitar a comparao. Por exemplo, o seguinte par de grficos de barras permite comparar facilmente os gostos dos rapazes e das raparigas de uma turma, no que respeita a pizas:

12

Uma outra possibilidade, consiste em colocar no mesmo grfico de barras, pares de barras para cada categoria ou classe tal como apresentado no exemplo seguinte, que diz respeito varivel n de irmos, em duas turmas diferentes:

Obs.2 Cuidados a ter com a escala


A escala utilizada no eixo das frequncias (nos grficos de barras) pode influenciar (distorcer) a leitura de um grfico. No exemplo seguinte temos 3 grficos elaborados a partir da mesma amostra sendo que os dois primeiros do uma imagem enganosa da distribuio dos dados. Geralmente, importante incluir o zero no eixo das frequncias. No entanto, se o objetivo for apenas o de visualizar a variao entre classes, nalguns casos pode ser mais vantajoso no incluir o zero.

13

Exemplo: N de queixas recebidas num hospital, por negligncia mdica.

Obs.3 Dados discretos que se comportam como dados contnuos


Existem amostras de dados discretos que se comportam como se fossem contnuos, ie, apresentam poucas ou nenhumas repeties e a tabela de frequncias bem como todas as representaes grfica que dela advm no resumem a informao contida na amostra. Mesmo quando existem algumas repeties, mas as classes so em nmero elevado, os grficos revelam-se pouco informativos. Isto acontece porque a muita variabilidade dos dados acaba por esconder a forma da distribuio subjacente.

14

Exemplo: grfico de barras dos resultados de testes (numa escala de 0 a 100)

Nestes casos deve-se agrupar os dados em classes tal como iremos fazer para dados contnuos (mais frente).

Obs.4 Dados contnuos que se comportam como dados discretos


Por vezes acontece o inverso do referido no ponto anterior. Quando os nossos dados provm de uma populao contnua mas so registados com muito arredondamento, podem surgir inmeras repeties e o comportamento ser tpico de uma varivel discreta. Na verdade, ao arredondarmos valores contnuos estamos sempre a discretizar os dados. Um exemplo tpico surge quando consideramos a idade de uma pessoa. Em geral a idade arredondada s unidades (anos) ainda que o tempo de vida seja uma varivel contnua. Se registarmos as idades dos alunos de uma turma, iremos ter apenas 2 ou 3 valores distintos, com mltiplas repeties. O tratamento adequado a uma amostra deste tipo o mesmo referido anteriormente para dados discretos.

Obs. 5 - No confundir os dados em si com frequncias!


Por vezes fcil confundir a varivel em estudo com a frequncia com que se observam certos valores. Vejamos a seguinte situao, que apresentada num livro de Matemtica:
15

O grfico representa o nmero de peixes que cinco amigos pescaram num dia:

1.1 Como se chama este tipo de grfico? 1.2 Quantos peixes pescou o Antnio mais que o Pedro? 1.3 Quantos peixes pescaram ao todo os cinco amigos? 1.4 Classifique a distribuio quanto moda. Justifique.

Na situao anterior, o que o dado? O dado o resultado da observao do nmero de peixes que cada um dos 5 amigos apanhou, ou seja, o conjunto de dados observados 30, 20, 25, 25, 30. A unidade observacional uma pessoa, e h 5 unidades observacionais. Poderamos, a partir da figura anterior construir a seguinte tabela:

Nome Antnio Pedro Ana Lus Joo

N de peixes pescados 30 20 25 25 30
16

A tabela anterior no uma tabela de frequncias, j que uma simples listagem com os dados observados. Para que esta tabela fosse uma tabela de frequncias toda a situao teria de ser apresentada de outra forma (sem grande sentido). Teramos que considerar o conjunto dos peixes pescados pelos 5 amigos e considerar para cada peixe quem tinha sido o seu pescador. Neste contexto a unidade observacional seria o peixe (ao todo 130 unidades) e a varivel em estudo seria o pescador havendo 5 categorias distintas (os 5 amigos). Um outro exemplo do mesmo gnero mas eventualmente mais subtil o seguinte tambm encontrado num manual escolar: Alunos das turmas do 5 Ano

Neste caso o que o dado? A unidade observacional a turma, porque o nosso objectivo era saber quantos alunos tinha cada turma do 5 ano. O dado o resultado da nossa observao! Assim, os nossos dados so o nmero de alunos das turmas A, B, ..., E e F ou seja 30, 22, ...22. Portanto, o eixo vertical no contm frequncias absolutas. Num conjunto de dados, frequncia absoluta de um dado o nmero de vezes que esse dado surge nesse conjunto.
17

Suponhamos que na mesma escola considervamos a populao constituda pelos alunos do 5 ano e estvamos interessados em investigar a que turma pertenciam. A unidade observacional agora o aluno e a caracterstica que estamos a estudar a turma a que pertencem, pelo que os nossos dados sero A, F, B, A, G, C, ..... O grfico de barras para esta situao seria o apresentado anteriormente, mas com outro ttulo, como por exemplo Turmas dos alunos do 5 ano. Note-se que neste exemplo estamos a considerar duas caratersticas em paralelo: a turma a que pertencem os alunos e o seu sexo. O grfico de barras apresentado resume a informao das duas variveis em simultneo.

Tabelas e Grficos para dados quantitativos contnuos


Em linguagem corrente pode dizer-se que uma varivel contnua no varia por saltos, isto , no passa de um valor a outro, sem passar por todos os valores intermdios. Embora seja comum, quando encontramos um jovem que no vemos h algum tempo, exclamar: Mas que salto que deste! Ests to alto!, na realidade o jovem cresceu continuamente... Ao contrrio da varivel contnua, uma varivel discreta varia por saltos. Por exemplo, se uma famlia tem 2 filhos e teve um outro filho, obviamente que passou de 2 para 3, sem passar por valores intermdios. O grfico seguinte poderia ser um exemplo da distribuio da varivel tempo de casa escola dos alunos de uma certa escola. Como podemos ver a distribuio encontra-se distribuda por todos os valores do intervalo 5 a 80.

18

Tendo em conta a prpria definio de varivel contnua, quando temos uma amostra de dados contnuos, estes podem ser todos diferentes, ou quando muito, existem apenas alguns valores iguais. A ocorrncia de um maior nmero de repeties tem normalmente que ver com uma maior falta de preciso dos instrumentos de medida. Como j referimos, um exemplo clssico de uma varivel contnua que se apresenta fortemente discretizada a idade. Quando se diz que um jovem tem 9 anos, significa que j fez os 9 anos, mas ainda no fez os dez, pelo que o 9 representa um intervalo de valores que se pode exprimir da seguinte forma: 9idade<10. Em gral, numa amostra de dados contnuos, o nmero de valores distintos to grande que a metodologia utilizada para construir as tabelas de frequncias de dados quantitativos discretos, no deve ser utilizada. A alternativa considerar classes na forma de intervalos. Exemplo: Tabela de frequncias de uma coleo de dados referentes altura dos alunos de uma escola do 1 ciclo (ver pg 85 e 88 da brochura):

19

Chama-se representante (ou marca) de uma classe ao ponto mdio da classe.

Histograma
A partir desta tabela podemos construir um grfico semelhante ao grfico de barras mas com as barras encostadas umas s outras correspondendo cada Barra frequncia da respetiva classe. A este grfico chama-se histograma. Existem vrias opes para o eixo vertical do histograma. As mais utilizadas so a frequncia absoluta, a frequncia relativa ou uma escala que faa com que a rea do histograma seja unitria. (Esta ltima opo mais comum em utilizadores da estatstica mais especializados.) Um possvel histograma correspondente tabela anterior o seguinte

Tambm se pode construir um histograma com as frequncias acumuladas, histograma cumulativo, que til para obter certas medidas tais como a mediana ou os quartis (como veremos mais frente) (ver pg 91-93 da brochura). A principal dificuldade na construo de um histograma reside na formao das classes. Quantas devem ser? Qual a sua amplitude? Onde deve ser o nicio da primeira?

20

No existe uma nica regra para formar classes mas sim vrias possveis regras. Podemos referir as seguintes orientaes genricas: o nmero de classes no deve ser to grande que resulte em demasiada variabilidade entre classes. Mas, quanto menor for o nmero de classes mais informao se perde. A amplitude das classes e o incio de cada uma deve, se possvel, ser um valor inteiro (ou que no produza mais casas decimais do que as apresentadas pelos dados). Se houver necessidade de recorrer a uma regra para o clculo do n de classes habitual recorrer regra de Sturges (ver pg 85-6 da brochura). Hoje em dia existem diversos programas que constroem histogramas de forma automtica e que permitem ao utilizador alterar o nmero de classes ou a sua amplitude.

A partir do que foi dito anteriormente podemos concluir que o histograma uma adaptao do grfico de barras para variveis contnuas. Os restantes grficos referidos para dados qualitativos e quantitativos discretos (grfico de pontos, pictograma e grfico circular) no so apropriados para dados contnuos. Existem no entanto outras representaes grficas que podem ser utilizadas para todo o tipo de dados quantitativos: os grficos de linhas, os diagramas de caule-e-folhas e os diagrmas de extremos e quartis (ou os boxplots). Os histogramas podem ser construdos a partir do Excel comeando por incluir um Add-in (Analysis Tool Pack) nas opes. A construo de histogramas apresenta algumas limitaes entre as quais se destacam o facto de a primeira classe apresentar sempre apenas 1 observao (quando o clculo das classes automtico) e as barras ficarem afastadas umas das outras, como se se tratasse de um grfico de barras. Resolver os exerccios 7 a 9 da Folha de Trabalho n 1.

21

Grficos de linhas
Um grfico de linhas pode ser visto como um caso especial de um grfico de disperso (a ser apresentado mais frente). um grfico que representa, visualmente, a forma como uma varivel evolui em relao a outra. Se tivermos uma amostra de dados em que as unidades observacionais so instantes no tempo, ento podemos construir um grfico de linhas colocando o tempo no eixo horizontal e a caraterstica em estudo no eixo vertical. Exemplo: (dados recolhidos ao longo de uma semana)

Resolver o exerccio 10 da FT n 2.

Diagrama de caule-e-folhas
O diagrama de caule-e-folha um tipo de representao que se situa entre a tabela e o grfico, uma vez que, de um modo geral, apresenta os verdadeiros valores da amostra, mas de uma forma sugestiva, que faz lembrar o histograma. A base da construo de uma representao em caule-e-folhas est na diviso dos dgitos dos valores da amostra em duas partes (por
22

exemplo unidades e dezenas). A parte da direita, designada por folha, deve conter apenas um algarismo enquanto a parte da esquerda, o caule, pode conter qualquer n de algarismos. Portanto, a primeira sugesto consiste em separar o algarismo mais direita dos restantes. Se esta diviso se mostrar inadequada ento devese arredondar os dados (ou descartar algarismos) e repetir o processo. Vejamos um exemplo de construo de um diagrama de caule-efolhas. Exemplo: Os valores seguintes dizem respeito ao tempo que um grupo de alunos conseguiu estar sem respirar (em segundos).
59, 38, 47, 23, 48, 55, 37, 48, 53, 37, 52, 39, 54, 57, 38, 46, 40, 41, 62, 63, 38, 65, 44, 68, 27, 35, 46, 60.

O diagrama correspondente o seguinte: 237 35778889 401466788 5 2 3 4 5 79 602358

2|3 significa 23

A primeira linha contm os valores 23 e 27; a segunda os valores 35, 37, 37, 38, 38, 38 e 39; etc. No diagrama, os dados ficam ordenados e cada linha contm todos os valores includos numa classe que corresponde a uma dezena de valores possveis. Assim, o comprimento de cada linha reflete a frequncia da respetiva classe. O diagrama acaba por ter uma forma semelhante de um histograma disposto na vertical (com as barrar na horizontal). conveniente colocar no diagrama uma legenda que permita recuperar a grandeza dos dados, tal como foi feito no exemplo. Por vezes o diagrama que se obtm ao considerar como folha o algarismo mais direita no traduz da melhor forma a distribuio dos dados (pode ficar com classes a mais ou classes a menos).
23

Demasiadas classes Se tivermos classes a mais podemos tentar arredondar os dados (ou descartar algarismos) e considerar nova separao em caule-e-folhas.
Exemplo: Nmero de rvores em terrenos de igual rea Perante a amostra seguinte, 128 125 135 137 139 230 240 286 298
135 267 185 201 236 287 294 231 359 346 381 301 355 359 358 357 343 396 387 386 321 421 485 496 502 560 620 680 705 720 800,

considerar como folha o algarismo das unidades vai conduzir a um diagrama com caules que vo desde 12 at 80. Mais caules do que dados! Ento devemos arredondar os dados s dezenas (ou descartar o algarismo das unidades) e construir o diagrama. O resultado ser o seguinte: (neste caso descartou-se o ltimo algarismo)
1|2233338 2|34896038935 3|5480555549882 4|289 5|06 6|28 7|02 8|0 1|2 significa 12 dezenas de rvores

Por vezes, com este procedimento, ficamos com um diagrama com um nmero insuficiente de classes. Nesse caso podemos recorrer a uma das solues seguintes.

Demasiado poucas classes Se tivermos poucas classes podemos subdividir cada linha em 2 ou em 5 linhas.
Na diviso em duas linhas a primeira linha contm os valores com as folhas de 0 e 4 e a segunda as folhas de 5 a 9.

24

Exemplo: O diagrama seguinte apresenta um nmero insuficiente de classes


2|111222233333344444444555556677788889999 3|0011334445788999

Dividindo cada linha em duas ficamos com o seguinte diagrama muito mais informativo:
2 2* 3 3* |1112222333333344444444 |555566777888999 |001133444 |5788999

Na diviso em 5 linhas as folhas de cada uma das linhas sero 0 e 1; 2 e 3; 4 e 5; 6 e 7; 8 e 9. Exemplo: Se considerarmos o algarismo das unidades como folha na seguinte amostra,
4320 4325 4329 4330 4333 4321 4322 4322 4323 4323 4324 4324 4324 4324 4325 4325 4326 4326 4326 4326 4326 4326 4326 4327 4328 4329 4329 4329 4329 4329 4329 4329 4329 4329 4330 4330 4330 4330 4331 4331 4331 4331 4331 4331 4331 4331 4332 4332 4332 4333 4333 4333 4334 4334 4335 4335 4335 4336 4336 4337

4337 4337 4338 4338 4338 4339,

ficamos apenas com 2 caules, o que manifestamente insuficiente. A subdiviso em 2 conduz a um diagrama com 4 linhas o que ainda pouco, dada a elevada dimenso da amostra. A subdiviso em 5 produz o seguinte diagrama bastante mais informativo

25

432 432t 432f 432s 432* 433 433t 433f 433s 433*

|01 |2233 |4444555 |66666667 |89999999999 |0000011111111 |2223333 |44555 |66777 |8889

(as letras t, f, s provm do ingls t two and three; f four and five; s six and seven) Os diagramas de caule-e-folhas podem teis na comparao de duas amostras. No exemplo seguinte comparam-se os tempos de sono noturno (em horas) de dois amigos, o Pedro e o David:

7|4 significa 7.4 horas


Os dados relativamente ao Pedro encontram-se para o lado esquerdo, enquanto que os referentes ao David esto para o lado direito. A representao anterior permite realar a maior disperso do sono do Pedro, enquanto que o David mais regular, com uma durao de sono de um modo geral entre as 7 e as 8 horas.

26

Vantagens e desvantagens do diagrama de caule-e-folhas. Vantagens: fcil de construir, em particular para alunos do 1 e 2 ciclos. Permite visualizar a forma da distribuio dos dados tal como num histograma. Permite recuperar todos os dados, ao contrrio do que acontece com um histograma em que existe perda de informao. Desvantagens: Apresenta alguma limitao na escolha dos caules pelo que se torna menos malevel que o histograma. O resultado grfico esteticamente grosseiro.
Os diagramas de caule e folhas podem ser construdos a partir de uma aplicao disponvel no site do projeto ALEA. Resolver os exerccios 11 e 12 da FT n 2.

Diagrama de extremos e quartis


O diagrama de extremos e quartis um diagrama construdo a partir de certos valores calculados a partir da amostra de dados: a mediana, os quartis, o mximo e o mnimo. Estes valores so medidas amostrais que iremos estudar na seco seguinte. Como so bastante simples de compreender e de obter iremos desde j indicar uma forma de as obter para podermos descrever o diagrama de extremos e quartis. Como veremos, a mediana, representada por Me, um valor que divide a amostra ordenada ao meio, isto , 50% dos elementos da amostra so menores ou iguais mediana e os restantes 50% so maiores ou iguais mediana. Uma vez a amostra dividida em duas partes com igual nmero de elementos, cada uma destas partes
27

ainda pode ser dividida ao meio. s medianas da parte inferior e superior dos dados, chamamos respectivamente 1. quartil e 3. quartil e representamos por Q1 e Q3. Assim, o 1. quartil, a mediana e o 3. quartil dividem a amostra (ordenada) em 4 partes iguais, cada uma contendo 25% dos dados. Se tivermos os dados organizados numa tabela de frequncias, basta procurar o valor mais pequeno da amostra que apresenta uma frequncia acumulada de pelo menos 25% para termos Q1. De igual forma, a mediana e o 3 quatil so os valores (mais pequenos) da amostra que apresentam uma frequncia acumulada de pelo menos 50% e 75%, respetivamente. Por exemplo, na tabela seguinte encontram-se organizados os dados referentes ao nmero de irmo dos alunos de uma turma.

O 1 quartil desta amostra 0 pois existem 25% de alunos com 0 irmo. A mediana 1 pois 62,5% dos alunos tm no mximo 1 irmo (1 o primeiro valor a atingir ou ultrapassar 50% na coluna das frequncias relativas acumuladas). O 3 quartil 2, pois 2 o primeiro valor a ultrapassar 75% na coluna das frequncias relativas acumuladas. Tambm podemos obter graficamente estas medidas recorrendo ao histograma cumulativo (no caso de dados agrupados em classes). Por exemplo, no grfico seguinte, que contm dados referentes s alturas dos alunos de uma escola do 1 ciclo, encontram-se calculadas, de forma aproximada, a mediana e os quartis Q1 e Q3. Para este clculo traou-se uma linha poligonal a partir dos extremos das classes do histograma. Esta linha representa uma funo importante, designada funo cumulativa.

28

O diagrama de extremos e quartis constri-se da seguinte forma: 1 Desenha-se um rectngulo que tem de comprimento a amplitude entre os dois quartis, calculados a partir dos dados, e por altura um valor qualquer, que no tem qualquer interpretao; 2 Do meio dos lados do rectngulo, perpendiculares base, saem dois segmentos de recta que unem esses lados respectivamente com o mnimo e o mximo do conjunto dos dados. 3 No interior do rectngulo desenha-se um trao que assinala a posio da mediana. Na figura seguinte apresentamos o diagrama de extremos e quartis para o conjunto de dados da varivel Altura de um aluno de uma escola do 1. ciclo, representada no grfico anterior. O clculo da mediana e quartis pode ser obtido a partir do grfico. Dos dados verifica-se que o mnimo 130 e o mximo 159. O diagrama resultante o seguinte

29

Os diagramas de extremos e quartis, tanto aparecem na horizontal como na vertical. Exerccio: Construa o diagrama de extremos e quartis para os dados apresentados na tabela de frequncia da pgina anterior. Os diagramas de extremos e quartis so muito teis pois evidenciam de forma eficaz a forma como se distribuem os dados. Estes diagramas contm informao quanto localizao (mediana, extremos e quartis), quanto disperso (amplitude e distncia inter-quartil) e quanto assimetria. So diagramas em que se perde bastante informao, pois s so necessrios 5 valores para os construir, mas que mesmo assim nos do uma ideia do padro da distribuio subjacente aos dados. O diagrama de extremos e quartis, juntamente com o diagrama de caule-e-folhas e o histograma (ou grfico de barras), permite-nos ter uma percepo da forma da distribuio dos dados. Por exemplo, as seguintes representaes, obtidas para o mesmo conjunto de dados, do o mesmo tipo de informao, sugerindo que a distribuio da populao tem um enviesamento para a direita (valores concentrados nos valores mais baixos):

A principal vantagem do diagrama ser simples de construir e ainda assim fornecer o mesmo tipo de informao das restantes representaes. A principal desvantagem ter mias perda de informao. Quando, por exemplo, a forma da distribuio bimodal, o diagrama no nos permite reconhecer essa caracterstica.

30

A forma da distribuio dos dados uma caracterstica importante pois pode sugerir informao relevante sobre a populao. Ver a seco 4.7, pginas 105 a 109 da brochura, sobre este assunto. Notar que quando dizemos que uma distribuio bimodal quer dizer que a sua forma apresenta dois cumes, no necessariamente da mesma altura. Ou seja, no necessrio possuir duas modas (iguais) para termos uma distribuio bimodal. O que temos um conjunto de dados que se concentra em torno de dois valores distintos. Por exemplo, as temperaturas horrias num deserto concentram-se em torno de dois pontos distintos pois durante o dia as temperaturas so altas e durante a noite so baixas.

Os diagramas de extremos e quartis tambm so muito teis para comparar vrias amostras. Podemos num s grfico representar vrios diagramas. Por exemplo, o grfico seguinte contm informao referente ao nmero mdio de filhos por famlia, em vrios pases do mundo, agrupados por regio (nota: os dados so referentes a 1995 e ainda refletem uma diviso do mundo anterior queda do muro de Berlim):

Tarefa: que informao podemos extrair deste grfico?


31

Estes diagramas ainda permitem ir mais longe. Podemos agrup-los e no mesmo grfico analisar de que forma uma varivel em estudo varia de acordo com 2 critrios diferentes. Por exemplo, no grfico seguinte podemos ver os valores da esperana de vida em vrios pases do mundo, de acordo com a regio e o sexo:

Tarefa: que informao podemos extrair deste grfico? Uma ltima observao em relao aos diagramas de extremos e quartis. Estes diagramas so tambm designados por caixas de bigodes (boxplot em ingls). As caixas de bigodes muitas vezes restringem o comprimento mximo dos bigodes (linhas laterais que tm incio na caixa central) no atingindo assim os valores mnimos ou mximos da amostra. Nestes casos todas as observaes da amostra que esto para alm dos bigodes so assinaladas com um * ou com um crculo. Estas observaes so consideradas como estando muito afastadas do grosso da amostra. Chamam-se valores extremos (outliers em ingls). Por exemplo, no diagrama seguinte podemos ver que existem 4 pases com valores de esperana de vida feminina muito reduzida em comparao com os restantes. So
32

pases onde as mulheres vivem, em mdia, menos de 50 anos! (os dados referem-se ao ano de 1995)

Resolva os exerccios 13 e 14 da FTn 2.

Medidas amostrais
Para descrever um conjunto de dados e resumir a informao que este contm devemos no s construir tabelas e grficos mas tambm calcular algumas medidas que nos do informao resumida sobre vrias caractersticas da amostra. Estas medidas, na sua maioria quantitativas, so tambm designadas por estatsticas. Algumas vulgarmente conhecidas so a mdia, o mximo ou o mnimo. A caraterstica que mais se considera e para a qual existem diversas medidas a localizao dos dados: onde que grosso modo se situa a nossa amostra? Tambm se calculam medidas de disperso que nos dizem se os dados variam muito ou pouco. Menos frequentes so as medidas de assimetria que nos do uma indicao sobre o grau de assimetria da forma da distribuio. Para definir as medidas que vo ser utilizadas para resumir a informao contida nos dados, utilizamos a seguinte notao para representar os dados x1, x2, x3, , xn onde x1, x2, xn, representam, respectivamente, a 1. observao, a 2. observao e a n-sima
33

observao, a serem consideradas para constituir a amostra de dimenso n. Esta notao no pressupe uma ordenao.

Medidas de localizao
Entre as mltiplas medidas que se podem definir com base numa amostra de dados, as mais usadas so as medidas de localizao. A maioria destas medidas d uma indicao sobre a tendncia central dos dados. Outras do indicao sobre a localizao extrema ( esquerda ou direita) ou sobre a localizao de certas propores da amostra.

Medidas de localizao central: Mdia


A mdia amostral, ou simplesmente mdia, Representa-se por x e calcula-se a partir da soma de todos os elementos da amostra divididos pela dimenso total: x + x 2 + ... + x n x= 1 n
A mdia a estatstica mais vulgarmente utilizada para resumir informao. Quando se diz que o rendimento mdio de uma famlia portuguesa de 1600 euros contra 3300 de uma famlia alem ficamos com uma ideia dos valores em torno dos quais se distribuem os vencimentos neste dois pases. Seria muito difcil tirar qualquer concluso rpida a respeito destas variveis se apenas dispusssemos das listas completas de vencimentos. A mdia uma medida que utiliza a quantidade total (soma de todas as observaes) e por isso til em problemas que envolvem essa quantidade. Por exemplo, se dissermos que numa empresa h 10 trabalhadores que em mdia ganham 800 euros por ms, sabemos

34

que so necessrios 8000 euros por ms para pagar os salrios de todos os trabalhadores. A mdia pode ser obtida no Excel a partir da funo average(vetor). Resolver o exerccio 4 da pg. 87 do livro de base.

Clculo da mdia em dados discretos agrupados numa tabela de frequncias


Quando os dados se encontram agrupados numa tabela de frequncias a mdia pode ser obtida fazendo uso das frequncias absolutas (ou relativas) de cada valor observado. Neste caso a expresso dada em cima reduz-se a
* * * x1 n1 + x 2 n 2 + ... + x k nk x= n

ou
* * x = x1 f1 + x * 2 f 2 + ... + x k fk

consoante se utilizam as frequncias absolutas (ni) ou relativas (fi), respetivamente. Os valores x1*, x2*, , xk* representam os valores observados distintos (note que k n). Exemplo: Calcular o nmero mdio de irmos dos alunos de uma turma, estando os dados descritos na seguinte tabela de frequncias:

35

1) Se utilizarmos a expresso que recorre s frequncias absolutas obtemos


* * * x1 n1 + x 2 n 2 + ... + x k nk 0 x 6 + 1x9 + 2x5 + 3x3 + 4 x1 4 = = = 1,33 x= n 24 3 2) Se utilizarmos a expresso que recorre s frequncias relativas obtemos
* * x = x1 f1 + x * 2 f 2 + ... + x k fk = 0 x 0,25 + 1x 0,375 + 2 x 0,208 + 3x 0,125 + 4 x 0,042 = 1,33

A mdia de dados em tabelas de frequncias pode ser obtida no Excel a partir da funo sumproduct(vetor1; vetor2) / dimenso da amostra.

Clculo da mdia em dados contnuos agrupados em classes


Quando os dados so contnuos e se encontram agrupados em classes no conseguimos saber ao certo qual o valor de cada observao. Neste caso apenas conseguimos calcular um valor aproximado da mdia (ou de qualquer estatstica). O clculo feito da mesma forma que no pargrafo anterior mas neste caso os valores x1*, x2*, , xk* representam as marcas das classes.

Interpretaes e limitaes do uso da mdia


Uma forma de interpretar a mdia consiste em imaginar uma rgua graduada onde se colocam pesos unitrios nos pontos correspondentes aos valores das observaes (havendo observaes repetidas, por exemplo em xi*,o peso a colocar ser igual a ni). A mdia ser o ponto de equilbrio (centro de massa), ou seja, o ponto da rgua sob o qual teramos de colocar um eixo por forma a equilibrar a rgua (como num baloio). A utilizao da mdia vantajosa quando a representao grfica das frequncias fi simtrica. Neste caso, a mdia representar o centro da amostra. A mdia s por si contm relativamente pouca informao. Por exemplo, se duas pessoas comerem em mdia meio frango cada
36

uma, pouco ficamos a saber sobre o que de facto se passa. Podem ambas estar satisfeitas porque comem meio frango cada uma (ou perto disso), mas tambm pode uma comer o frango todo e a outra ficar a ver passar navios. fundamental conhecer informao adicional sobre a disperso para se ter uma ideia mais clara da estrutura geral dos dados. Sendo a mdia um ponto de equilbrio da amostra, um ou mais valores distantes podem provocar desvios grandes no valor da mdia. Quando se registam alguns erros que inquinam os dados (ou se observam assimetrias intrnsecas) a mdia pode deixar de representar o grosso das observaes. Por exemplo, se numa empresa com vinte trabalhadores cada um receber em mdia 1000 euros por ms, podemos ter situaes bem diversas. Por exemplo, se um deles (o gerente) ganhar 13000 e os restantes cerca de 370 euros a mdia no representa de forma alguma o grosso das observaes. J se todos os trabalhadores ganharem entre 900 e 1100 euros (uns um pouco mais e outros um pouco menos) a mdia representa o centro da amostra. Uma ltima chamada de ateno para o clculo da mdia: a mdia s pode ser calculada em dados quantitativos. No faz sentido calcular uma mdia para dados qualitativos. Por vezes, quando um conjunto de dados qualitativos se encontra agrupado numa tabela de frequncias ou representado num grfico de barras, alguns alunos cometem o erro de calcular a mdia das frequncias e fornecer esse valor como mdia da amostra. Este procedimento no tem ps nem cabea. Resolver o exerccio 10 das pg. 88 do livro de base.

Mediana
A mediana um valor que divide a amostra ao meio: metade dos valores da amostra so inferiores ou iguais (no superiores) mediana e os restantes so maiores ou iguais (no inferiores) mediana. Para determinar a mediana fundamental, comear por
37

ordenar os dados. Entretanto podem-se verificar duas situaes, quanto dimenso da amostra: Se a dimenso da amostra mpar, h um dos elementos da amostra ordenada que tem tantos elementos para a esquerda como para a direita e esse elemento central a mediana. Se a dimenso da amostra par, no h nenhum elemento que tenha a propriedade de a dividir ao meio. H dois valores centrais e define-se a mediana como sendo a mdia aritmtica desses dois valores.
Do ponto de vista grfico, a mediana o valor que divide um histograma, ou um grfico de frequncias, em duas partes de rea igual (ou mais igual possvel). Uma vez que a mediana apenas faz intervir no seu clculo um ou dois valores ela pode no se alterar quando um dos valores da amostra se altera, mesmo que drasticamente. Esta caracterstica faz com que a mediana seja mais robusta do que a mdia, i.e., enquanto a mdia fortemente afetada por valores extremos da amostra a mediana nem sequer depende destes. Quando os dados esto agrupados, a forma mais simples de calcular a mediana atravs da tabela de frequncias e da coluna de frequncias acumuladas. A mediana o primeiro valor em que se atinge (ou ultrapassa) 50% da amostra. Quando os dados so contnuos e esto agrupados no podemos calcular a mediana de forma exata mas podemos indicar qual a classe da mediana, ou seja, a classe que acumula pelo menos 50% das observaes sua esquerda. Quando os dados so qualitativos ordinais tambm podemos calcular a mediana, ou seja, indicar a categoria onde se atinge 50% dos dados, depois de ordenada a amostra. (ver exemplos na pgina 137-8 da brochura) De tudo isto podemos concluir que a mediana uma medida s no deve ser aplicada a dados qualitativos no ordinais. Tal como j foi referido na seco onde se descreve o diagrama de extremos e quartis, possvel obter um valor aproximado para a
38

mediana num conjunto de dados agrupados em classes, a partir do histograma cumulativo. A mediana pode ser obtida no Excel a partir da funo median(vetor).

Resolver o exerccio 9 da pg. 87 do livro de base. Resolver o exerccio 15 da FTn2.

Mdia aparada
Uma mdia aparada no mais do que uma mistura entre os conceitos de mdia e mediana por forma a combinar as qualidades de ambas. Assim, uma mdia aparada uma mdia que construda apenas com base numa certa proporo da amostra, mais concretamente com base nas observaes mais centrais da amostra. A proporo de observaes a excluir do clculo ento associada mdia aparada. Assim, uma mdia aparada a 10% uma mdia que calculada aps se eliminarem as 10% observaes mais elevadas e as 10% observaes mais reduzidas. Desta forma, se existirem algumas observaes anormalmente distantes das restantes (tipicamente devido a erros de medio ou de introduo de dados) estas no sero tidas em conta no clculo da mdia aparada. Exemplo: Consideremos a seguinte amostra (j ordenada) de pesos de indivduos adultos: 57 64 64 65 66 67 68 68 68 69 70 70 70 71
71 71 71 71 71 71 72 72 72 72 72 72 74 74 75 75 75 75 76 76 77 77 77 77 78 78 78 79 79 80 81 82 83 83 83 86.

A mdia desta amostra 73,46, a mediana 72 e a mdia aparada a 10% 73,5. Esta ltima corresponde mdia dos valores a partir do 6 e at ao 45, ou seja da amostra 57 64 64 65 66 67 68 68
68 69 70 70 70 71 71 71 71 71 71 71 72 72 72 72 72 72 74 74 75 75 75 75 76 76 77 77 77 77 78 78 78 79 79 80 81 82 83 83 83 39

86 (eliminaram-se 10% dos dados em cada um dos topos). Como se

pode ver a mdia aparada bastante prxima da verdadeira mdia. Imaginemos agora que tinha havido um erro ao registar o ltimo valor da amostra, 86, e que este tinha ficado registado como sendo 866. Para esta nova amostra a mdia 89,06 (fortemente afetada), a mediana 72 (no se alterou) e a mdia aparada a 10% 73,5 (muito prxima da mdia da amostra original).

Observaes:
Note-se que a mdia no mais do que uma mdia aparada a 0% e a mediana no mais do que uma mdia aparada a 50%. A mdia aparada pode ser obtida no Excel a partir da funo trimmean(vetor; percentagem). Ateno que o argumento percentagem deve ser dado como uma proporo que corresponde ao total de observaes eliminadas, ou seja, numa mdia aparada a 10% deveremos introduzir 0,2 no respetivo argumento.

Moda
A moda de uma amostra o valor mais frequente dessa amostra, ou seja, o valor xi para o qual fi mximo. Em muitas situaes, para descrever o comportamento geral de uma populao recorre-se moda em vez da mdia ou mesmo da mediana. Por exemplo, para descrever o aspecto geral de um gato mais informativo dizer que um animal que em geral tem 4 patas do que dizer que um animal que em mdia tem 3.99995 patas. A moda tem a grande vantagem de poder ser calculada para qualquer tipo de dados.

40

A moda no tem de ser nica pois pode haver mais do que um valor xi com igual frequncia sendo essa frequncia mxima. Chama-se a ateno para o facto de muitas vezes a moda de uma amostra no ter grande significado. Isto acontece quando a varivel em causa representa uma grandeza contnua (por exemplo a altura de uma pessoa). Nessas situaes usual no haver dados repetidos na amostra e como tal no faz grande sentido falar de moda da amostra. Por vezes, neste tipo de situaes, surgem valores repetidos que so fruto dos arredondamentos feitos e que na verdade no traduzem o habitual significado da moda valor em torno do qual se concentra a amostra. A moda pode ser obtida no Excel a partir da funo mode(vetor). Resolva os exerccios 1, 2, 3, 8 e 12 das pgs. 86-8 do livro de base.

Outras medidas de localizao

Mnimo e mximo
As observaes mais simples de serem extradas so o mnimo e o mximo. Desde que os dados no sejam qualitativos no ordinais podemos sempre calcular o mnimo e o mximo de uma amostra. O mnino e o mximo podem ser obtidos no Excel a partir das funes min(vetor) e max(vetor).

Quartis
A mdia e a mediana do-nos duas formas diferentes de localizarmos o centro da distribuio dos dados. Existem outras medidas, os quartis, que localizam outros pontos da distribuio dos dados, que no o centro, e que tm a mais valia de poderem
41

servir para seguidamente definir uma medida da variabilidade existente entre os dados. Como vimos na definio de mediana, esta divide a amostra ordenada em duas partes com igual percentagem de elementos. Considerando cada uma destas partes e calculando a sua mediana, obteremos o 1. e 3. quartis. A mediana, que tambm se poderia designar de 2. quartil, e os 1. e 3. quartis localizam pontos que dividem a distribuio dos dados em quatro partes, com igual percentagem de elementos. Da vem o nome de quartis! A metodologia que, a este nvel, recomendamos para obter os quartis a seguinte: 1- Ordenar os dados e calcular a mediana Me; 2- O 1. quartil, Q1, a mediana dos dados que ficam para a esquerda de Me; 3- O 3. quartil, Q3, a mediana dos dados que ficam para a direita de Me. Ao calcular os quartis pelo processo anterior, podem-se levantar algumas dvidas, no caso em que a dimenso da amostra mpar. Efetivamente, neste caso a mediana coincide com um dos elementos da amostra e poderamos optar por consider-lo includo nas duas metades em que fica dividida a amostra, ou no o considerar em nenhuma das metades. A nossa opo consider-lo pertencente s duas metades. Por analogia com a definio que demos para a mediana, podemos dizer que at ao 1. quartil (inclusive) est, pelo menos, 25% da amostra; para l do 1. quartil (inclusive) est, pelo menos, 75% da amostra. De forma anloga podemos dizer que at ao 3. quartil (inclusive) est, pelo menos, 75% da amostra; para l do 3. quartil (inclusive) est, pelo menos 25% da amostra. Para o clculo dos quartis, ver a seco referente ao diagrama de extremos e quartis.

42

Os quartis podem ser obtidos no Excel a partir das funes quartile.inc(vetor; valor) (ou simplesmente quartile(vetor;valor)) e quartile.exc(vetor; valor). O argumento valor pode assumir os valores 0,1,2,3 ou 4. Os valores 0 ou 1 s so permitidos no quartile.exc e devolvem o mnimo e mximo, respetivamente. A diferena entre quartile.inc e quartile.exc diaz respeito incluso ou excluso da mediana no clculo do 1 e 3 quartis. Resolver o exerccio 7 da pg. 87 do livro de base.

Percentis
De um modo geral define-se percentil p de um conjunto de dados, como sendo o valor que tem p% dos dados menores ou iguais a ele, e os restantes maiores ou iguais. O 1. e o 3. quartis tambm so conhecidos como percentil 25% e 75%, respectivamente. Analogamente, a mediana o percentil 50%. Todas as crianas tm um boletim de sade do ministrio da sade onde so registados os dados referentes ao seu peso, altura (entre outros) ao longo dos primeiros anos de vida. Esses dados so habitualmente comparados com as curvas de percentis nacionais para que pais e mdicos tenham uma ideia de como se situa o seu filho na restante populao. Quando se diz que uma criana est no percentil 90, no que respeita o peso, isso significa que 90% das crianas com a mesma idade tm um peso menor ou igual ao da criana e apenas 10% tm um peso maior ou igual. A figura seguinte contm as curvas dos percentis 5, 10, 25, 50, 75, 90 e 95 dos pesos de bebs rapazes, dos 0 ao 24 meses.

43

Os percentis podem ser obtidos no Excel a partir das funes percentile.inc(vetor; proporo) (ou simplesmente percentile(vetor;proporo)) e percentile.exc(vetor; proporo). O argumento proporo pode assumir valores de 0 a 1. Os valores 0 ou 1 s so permitidos no percentile.inc . A diferena entre quartile.inc e quartile.exc diz respeito forma de clculo dos percentis que produz valores ligeiramente diferentes, na maioria dos casos.

Medidas de disperso:

Amplitude
A amplitude da amostra consiste na diferena entre o seu mximo e o seu mnimo e a medida mais simples (mas tambm mais grosseira) de avaliar a disperso de uma amostra.

44

Distncia inter-quartil
A distncia inter-quartil ou disperso inter-quartil, dada por Q3Q1, fornece a amplitude da metade mais central da amostra. Tal como a amplitude, reflete a disperso de frequncias da amostra mas, ao contrrio desta, no influenciada pela presena de valores extraordinariamente grandes ou pequenos. Esta medida surge evidenciada nos diagramas de extremos e quartis. dada diretamente pelo comprimento da caixa do diagrama.

Desvio mdio absoluto


O desvio mdio absoluto a mdia dos desvios das observaes em relao mdia. | x x | + | x 2 x | +...+ | x n x | Desvio Mdio Absoluto = 1 n

Desvio padro e Varincia


A medida de disperso mais utilizada o desvio padro, s, que se obtm a partir da a varincia, s2. A varincia quantifica a variabilidade dos dados em torno da mdia e no mais do que uma mdia dos desvios das observaes em relao mdia, depois de elevados ao quadrado (desta forma no h cancelamento de termos positivos com negativos). ( x1 x) 2 + ( x 2 x) 2 + ... + ( x n x) 2 s = n 1
2

Tem semelhanas com o desvio mdio absoluto mas em vez de tomar o mdulo das diferenas toma o seu quadrado, e em vez de dividir pela dimenso da amostra, n, divide por n-1. Devido a considerar os quadrados, a varincia no apresenta a mesma unidade de medida dos dados, mas sim o seu quadrado. Para que a medida de variabilidade venha na mesma unidade de medida e assim
45

possa ser interpretada no contexto do problema o que se faz calcular a raiz quadrada da varincia obtendo assim o desvio padro.
( x1 x) 2 + ( x 2 x) 2 + ... + ( x n x) 2 n 1

s=

Ver as notas da pgina 155 da brochura do ministrio. O desvio padro e a varincia podem ser obtidos no Excel a partir das funes stdev.s(vetor) (ou simplesmente stdev(vetor)) e var.s(vetor) (ou simplesmente var(vetor)).

Resolver os exerccios 3 e 6 das pgs. 98-9 do livro de base

Medidas de assimetria:
Para alm da localizao e disperso tem por vezes interesse considerar a assimetria (ou enviesamento) dos dados. Uma das medidas de assimetria mais usadas o coeficiente de assimetria, B. Este tem por base a mdia dos desvios das observaes em relao mdia, mas agora elevados ao cubo. B=

( x1 x) 3 + ( x 2 x) 3 + ... + ( x n x) 3 n x s3

Se B = 0, sugere-se simetria subjacente aos dados, Se B > 0, sugere-se assimetria positiva por parte da distribuio de frequncias, ou seja, na representao grfica das frequncias haver tendncia a um acumular de frequncias (frequncias mais elevadas) para o lado esquerdo do grfico (valores mais reduzidos da amostra); Tambm se chama a este tipo de assimetria, assimetria direita. Se B < 0, sugere-se de assimetria negativa por parte da distribuio de frequncias, ou seja, na representao grfica das frequncias haver tendncia a um acumular de frequncias
46

(frequncias mais elevadas) para o lado direito do grfico (valores mais elevados da amostra); Tambm se chama a este tipo de assimetria, assimetria esquerda. Existem outras formas de inferir acerca da assimetria da populao de onde provm os dados e que podem ser utilizadas nos primeiros ciclos do ensino bsico. Uma delas atravs das medidas de localizao. Nas distribuies de frequncias perfeitamente simtricas tem-se que mdia = mediana = moda. A assimetria pode ser classificada mediante o estudo da posio relativa destas trs medidas de localizao, nomeadamente: Se moda < mediana < mdia, sugere-se assimetria positiva por parte da distribuio de frequncias; Se moda > mediana > mdia, sugere-se assimetria negativa.

moda <

Nos casos em que a distribuio de frequncias aproximadamente simtrica vo surgir pequenas diferenas entre os valores da mdia, mediana e moda. No de esperar encontrar amostras com uma distribuio de frequncias perfeitamente simtrica e por isso necessrio ter cautela a comparar os valores da 3 medidas. Devese sempre acompanhar este estudo da representao grfica dos dados. Como j referimos anteriormente, h casos em que a moda no tem significado. Nessas situaes usamos apenas a comparao entre a mediana e a mdia.

47

Relao entre duas variveis


Diagramas de disperso
Podemos analisar a relao entre duas variveis recorrendo a grficos ou a mtodos especficos de anlise. O grfico mais vulgarmente utilizado para relacionar duas variveis o grfico de disperso. Para construir um grfico de disperso deveremos ter uma amostra de pares de dados sendo o primeiro elemento de cada par respeitante a uma das variveis e o segundo respeitante outra. Num grfico de disperso representam-se pontos num sistema de eixos coordenados, fazendo coincidir as coordenadas com os pares de valores.

Exemplo: No grfico seguinte encontram-se representados os dados relativos literacia feminina e masculina em 108 pases do mundo no ano de 1995. Como podemos ver a partir do grfico, em geral, quanto maior for o ndice de literacia masculina num pas maior ser o respetivo ndice feminino. No entanto, tambm se observa que, nos pases onde a literacia mais reduzida, o ndice masculino em geral superior ao feminino.

48

Coeficiente de correlao
Quando num grfico de disperso a mancha de pontos apresenta uma tendncia linear , isto , os pontos esto mais ou menos alinhados em linha reta, podemos fazer uma anlise mais detalhada da relao entre as variveis. Nos grficos seguintes podemos observar esquerda uma associao de tipo linear e direita outra no linear.

O coeficiente de correlao de Pearson uma medida que permite avaliar o grau de dependncia entre duas variveis (quando elas apresentam uma relao linear). Este coeficiente assume valores no intervalo [-1, 1]. Quando a associao forte os valores do coeficiente so prximo de 1 ou de -1 e quando a associao fraca os valores do coeficiente so prximos de zero. Na figura seguinte temos um exemplo de correlao forte esquerda (r=0,9) e correlao fraca direita (r=0,4).

49

Os valores do coeficiente podem ser obtidos no Excel atravs do comando correl(vetor1;vetor2). Quando o valor positivo existe uma associao positiva entre as variveis, isto , quanto maior for uma das variveis maior tender a ser a outra. Em termos grficos isto significa que a mancha de pontos apresenta um declive positivo, como o caso dos dois grficos anteriores. Quando o valor do coeficiente negativo existe uma associao negativa entre as variveis, isto , quanto maior for uma das variveis menor tender a ser a outra. Em termos grficos isto significa que a mancha de pontos apresenta um declive negativo. Quando o valor nulo (ou muito prximo de zero) significa que no existe associao entre as variveis. A mancha de pontos aproximase de um retngulo horizontal sem evidenciar qualquer dependncia entre as variveis. Os prximos dois grficos ilustram esta situao (note-se que os dados so os mesmos, apenas esto representados com escalas diferentes):

50

Resolver o exerccio 1 da pg 109 do livro de base.

Regresso Linear
Ainda na situao em que num grfico de disperso a mancha de pontos apresenta uma tendncia linear ir mais alm na anlise da relao entre as variveis. A anlise de regresso linear uma tcnica muito utilizada em Estatstica e apenas iremos considerar uma parte deste tipo de anlise. O primeiro passo consiste em construir um diagrama de disperso e traar a reta de regresso. A reta de regresso uma reta que atravessa a mancha de pontos de forma a minimizar as distncias (na vertical e ao quadrado) dos pontos reta. portanto uma reta que deve passar pelo meio dos pontos. Esta reta procura definir a relao entre as variveis x e y. A varivel y tida como sendo dependente de x, e a varivel x tida como sendo uma varivel independente. A reta de regresso facilmente obtida com recurso a uma calculadora grfica ou a uma folha de clculo como o Excel. No Excel basta construir o grfico de disperso e editando-o solicitar uma trendline linear. No exemplo apresentado na seco inicial dos diagramas de disperso, a reta de regresso tem a equao y = 1,35 x 38,98. Repare-se que o declive superior unidade permite que a reta
51

parta de um valor negativo (ordenada na origem) e atinja um ponto mximo, aproximadamente (100,100). Desta forma, na regio onde os valores da literacia masculina so mais reduzidos, 30-60, os respetivos valores femininos ainda so mais reduzidos, 0-30. Mas na parte superior do grfico, 90-100, os ndices feminino e masculino so semelhantes. O grfico seguinte contm a reta de regresso bem como a sua equao e foi construdo no Excel.

Como podemos ver no grfico aparece por baixo da equao da reta a expresso R2 = 0,93. Trata-se do quadrado do coeficiente de correlao e esta medida d-nos a percentagem da variabilidade da varivel dependente y (neste caso o ndice de literacia feminina) que fica explicada pela varivel independente x (neste caso o ndice de literacia masculina). Como se pode ver o valor bastante elevado o que significa que os valores das duas variveis esto fortemente relacionados. A reta de regresso tem bastante utilidade. O valore do declive pode ser interpretado com diferentes fins. Por exemplo, o valor do declive diz-nos qual a variao que se espera observar na varivel y quando x aumenta uma unidade. Dito de

52

outra forma, o declive d-nos a taxa de crescimento da varivel y, em funo da varivel x. O valor da ordenada na origem diz-nos quanto que se espera observar na varivel y quando a varivel x nula. Por vezes este valor no tem grande significado no contexto do problema pois a varivel x poder nunca ser zero. Podemos tambm utilizar a reta de regresso para prever valores da varivel dependente y em funo de valores pr-especificados da varivel independente x. Por exemplo, podemos dizer que se espera que se num pas se observar um ndice de literacia masculina de 50%, ento ser de esperar que o ndice de literacia feminina seja 1,3494 x 50 38,98 = 28,49. Este tipo de procedimento muito utilizado para efetuar previses quando a varivel x temporal. Muitas vezes efetuam-se previses para o futuro, ou seja, obtm-se valores estimados para a varivel dependente, a partir da reta de regresso, numa zona direita da manha de pontos dada. No Excel valores previstos para a varivel y, em funo da varivel x, podem ser obtidos atravs da funo forecast(x; vetory; vetorx) Resolver os exerccios 3 e 4 da pg 110 do livro de base. Resolver os exerccios 16 e 17 da FTn2.

53

Você também pode gostar