Você está na página 1de 161

UNIVERSIDADE FEDERAL FLUMINENSE CENTRO DE ESTUDOS GERAIS INSTITUTO DE MATEMTICA

DEPARTAMENTO DE ESTATSTICA

ESTATSTICA DESCRITIVA
Ana Maria Lima de Farias Luiz da Costa Laurencel

Agosto de 2008

ii .

Contedo
1 Introduo 1.1 O que uma pesquisa estatstica? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Organizao das notas de aula . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Apresentao de dados 2.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Nveis de mensurao . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Exerccios propostos da Seo 2.2 . . . . . . . . . . . . 2.3 Distribuio univariada de freqncias: Representao tabular 2.3.1 Variveis qualitativas . . . . . . . . . . . . . . . . . . 2.3.2 Variveis quantitativas . . . . . . . . . . . . . . . . . . 2.3.3 Notao para distribuies univariadas de freqncias 2.3.4 Exerccios resolvidos da Seo 2.3 . . . . . . . . . . . . 2.3.5 Exerccios propostos da Seo 2.3 . . . . . . . . . . . . 2.4 Distribuio univariada de freqncias: Representao grca 2.4.1 Grco de setores . . . . . . . . . . . . . . . . . . . . 2.4.2 Grco de colunas . . . . . . . . . . . . . . . . . . . . 2.4.3 Histograma e polgono de freqncias . . . . . . . . . 2.4.4 Grco das distribuies de freqncias acumuladas . 2.4.5 Grco de Linhas . . . . . . . . . . . . . . . . . . . . . 2.4.6 Histograma com classes desiguais . . . . . . . . . . . . 2.4.7 Observaes sobre a construo de grcos . . . . . . 2.4.8 Ramo e folhas . . . . . . . . . . . . . . . . . . . . . . . 2.4.9 Exerccios resolvidos da Seo 2.4 . . . . . . . . . . . . 2.4.10 Exerccios propostos da Seo 2.4 . . . . . . . . . . . . 2.5 Representao tabular: Distribuio bivariada de freqncias 2.5.1 Variveis qualitativas . . . . . . . . . . . . . . . . . . 2.5.2 Variveis quantitativas . . . . . . . . . . . . . . . . . . 2.5.3 Exerccios resolvidos da Seo 2.5 . . . . . . . . . . . . 2.6 Exerccios Complementares . . . . . . . . . . . . . . . . . . . 3 Medidas Estatsticas 3.1 Introduo . . . . . . . . . . . . . 3.2 Medidas de posio . . . . . . . . 3.2.1 Mdia aritmtica simples 3.2.2 Moda . . . . . . . . . . . 3.2.3 Mediana . . . . . . . . . . 1 1 2 4 4 4 6 6 7 9 17 18 22 25 25 25 27 29 32 32 34 35 38 39 43 43 45 48 53 59 59 59 59 61 61

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

iii

CONTEDO 3.2.4 Separatrizes . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.5 Mdia aritmtica ponderada . . . . . . . . . . . . . . . . . 3.2.6 Mdia geomtrica . . . . . . . . . . . . . . . . . . . . . . . 3.2.7 Mdia harmnica . . . . . . . . . . . . . . . . . . . . . . . 3.2.8 Algumas propriedades das medidas de posio . . . . . . 3.2.9 Exerccios resolvidos da Seo 3.2 . . . . . . . . . . . . . . 3.2.10 Exerccios propostos da Seo 3.2 . . . . . . . . . . . . . . Medidas de disperso . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1 Amplitude . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.2 Desvio mdio absoluto . . . . . . . . . . . . . . . . . . . . 3.3.3 Varincia e desvio padro . . . . . . . . . . . . . . . . . . 3.3.4 Propriedades das medidas de disperso . . . . . . . . . . . 3.3.5 Coeciente de variao . . . . . . . . . . . . . . . . . . . . 3.3.6 Intervalo interquartil . . . . . . . . . . . . . . . . . . . . . 3.3.7 Exemplo: escores padronizados . . . . . . . . . . . . . . . 3.3.8 Exerccios resolvidos da Seo 3.3 . . . . . . . . . . . . . . 3.3.9 Exerccios propostos da Seo 3.3 . . . . . . . . . . . . . . Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Medidas de assimetria . . . . . . . . . . . . . . . . . . . . . . . . Uma estratgia alternativa para anlise de dados . . . . . . . . . 3.6.1 O esquema dos cinco nmeros . . . . . . . . . . . . . . . . 3.6.2 O boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . Medidas de posio e disperso para dados agrupados . . . . . . 3.7.1 Mdia simples . . . . . . . . . . . . . . . . . . . . . . . . . 3.7.2 Varincia . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.7.3 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.7.4 Outras separatrizes . . . . . . . . . . . . . . . . . . . . . . 3.7.5 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.7.6 Mdias geomtrica e harmnica . . . . . . . . . . . . . . . 3.7.7 Exerccios resolvidos da Seo 3.7 . . . . . . . . . . . . . . 3.7.8 Exerccios propostos da Seo 3.7 . . . . . . . . . . . . . . Covarincia e Correlao . . . . . . . . . . . . . . . . . . . . . . . 3.8.1 Covarincia . . . . . . . . . . . . . . . . . . . . . . . . . . 3.8.2 Coeciente de correlao . . . . . . . . . . . . . . . . . . . 3.8.3 Propriedades da covarincia e do coeciente de correlao 3.8.4 Exerccios resolvidos da Seo 3.8 . . . . . . . . . . . . . . Exerccios Complementares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

iv 62 64 65 66 67 69 76 77 77 78 79 81 83 83 84 85 86 87 88 91 92 92 96 98 98 99 102 103 107 108 111 113 113 119 122 123 125 129 131

3.3

3.4 3.5 3.6

3.7

3.8

3.9

Anexo 1: Relao entre as mdias aritmtica, geomtrica e harmnica Anexo 1: Demonstrao da propriedade (3.44)

4 Soluo dos Exerccios 133 4.1 Captulo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 4.2 Captulo 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 Bibliograa 156

Captulo 1

Introduo
1.1 O que uma pesquisa estatstica?

Freqentemente nos deparamos com informaes estatsticas nos jornais, televiso, empresas pblicas ou privadas, etc. Por exemplo, quando a direo do Metr do Rio de Janeiro informa que transporta 500.000 passageiros por dia, estamos lidando com uma estatstica do nmero de passageiros do metr. Tal estatstica foi obtida com base na anlise do movimento dirio ao longo de um determinado perodo de tempo e dessas anlises resultou um nmero que pretende dar uma idia do movimento dirio de passageiros. claro que isso no signica que todo dia circulam exatamente 500.000 passageiros, mas tal nmero representa uma estimativa do nmero de passageiros. Um outro exemplo que presenciamos periodicamente no Brasil so os Censos Demogrcos, que so levantamentos realizados pelos governos com o objetivo de conhecer as caractersticas de sua populao, suas condies scio-econmicas, suas caractersticas culturais e religiosas, etc. Temos tambm os Censos Econmicos, com os quais se pretende conhecer as caractersticas da populao formada pelos estabelecimentos econmicos do pas; assim podemos ter o Censo Industrial, o Censo Agropecurio, etc. Nas pesquisas censitrias, o objetivo que todos os elementos da populao tenham os seus dados levantados. Nos censos demogrcos, isso signica que todas as pessoas e domiclios tm que ser visitados; j no censo industrial, todas as empresas que desenvolvam atividades industriais tm que ser pesquisadas. Com esses exemplos, v-se que o conceito de populao de uma pesquisa estatstica mais amplo, no se restringindo a seres humanos; ela denida exatamente a partir dos objetivos da pesquisa. Mais precisamente, populao o conjunto de elementos para os quais se deseja estudar determinada(s) caracterstica(s). Um outro exemplo que faz parte do nosso dia-a-dia e que resulta de um levantamento estatstico o ndice de inao, por exemplo, o ndice Nacional de Preos ao Consumidor (INPC) produzido pelo IBGE1 . O ndice de inao um nmero resultante de um levantamento de preos que resume a variao dos preos durante um determinado perodo de tempo. Sendo esse levantamente realizado mensalmente, no possvel levantar os preos de todos os produtos em todos os estabelecimentos. Ento, feita uma seleo de produtos e estabelecimentos a serem pesquisados. Temos, assim, um exemplo de pesquisa por amostragem. Nessas pesquisas, so selecionados alguns elementos da populao, que compem a amostra, e mtodos estatsticos de inferncia nos permitem generalizar os resultados obtidos com a amostra para toda a populao de interesse. Na pesquisa do INPC, temos amostragem dos produtos e servios, bem como dos locais onde feito o levantamento dos preos.
1

Fundao Instituto Brasileiro de Geograa e Estatstica

CAPTULO 1. INTRODUO

Outro exemplo de pesquisa por amostragem so as pesquisas de inteno de voto: alguns eleitores so entrevistados e da tiram-se estimativas dos percentuais de votos de cada candidato. Esses exemplos ilustram, ento, o conceito de pesquisa estatstica, que consiste num trabalho de identicao, reunio, tratamento, anlise e apresentao de informaes (dados) para satisfazer certa necessidade. Em qualquer levantamento ou pesquisa estatstica fundamental um planejamento cuidadoso de todo o processo, resultando na necessidade da elaborao da metodologia da pesquisa, que consiste em um conjunto de denies, procedimentos, rotinas, mtodos e tcnicas utilizados para a obteno e apresentao das informaes desejadas. Nas pesquisas por amostragem, em particular, o mtodo de seleo da amostra uma pea fundamental, pois os elementos da amostra tm que ser representativos da populao qual os resultados da pesquisa sero estendidos. Por exemplo, numa pesquisa de inteno de voto para prefeito do municpio do Rio de Janeiro, a amostra tem que ser representativa de todas as regies do municpio; no podemos concentrar a pesquisa em Copacabana, por exemplo, pois o comportamento do eleitorado desse bairro pode ser diferente do comportamento dos eleitores da Rocinha, em So Conrado. Na pesquisa de preos para elaborao do INPC, temos que ter um levantamento nas principais regies do pas para que o ndice resultante possa ser representativo do movimento de preos em todo o pas. De posse dos dados levantados, temos que decidir como os resultados sero organizados e apresentados. Do Censo Demogrco, por exemplo, saem diversas tabelas que nos informam a populao do Brasil por municpio, o nvel de escolaridade da populao, etc. No levantamento de preos para medir a inao, um dos resultados um nmero em forma percentual, que indica a variao dos preos de um ms para outro. Nas pesquisas por amostragem, temos uma etapa importante, que a etapa de estimao, onde se decide como os resultados obtidos para a amostra sero estendidos para toda a populao e qual o erro mximo que teremos nessa estimativa. Assim, temos identicadas em diferentes pesquisas as trs grandes reas da Estatstica, que, no entanto, no formam ramos isolados: Amostragem e Planejamento de Experimentos - processo de obteno dos dados; Estatstica Descritiva - organizao, apresentao e sintetizao dos dados; Estatstica Inferencial - conjunto de mtodos para a tomada de deciso nas situaes onde existam incertezas e variaes. Neste curso introdutrio, estaremos lidando com a parte da Estatstica Descritiva, quando veremos tcnicas de anlise exploratria de dados. O objetivo capacitar o aluno a organizar conjuntos de dados, desenvolvendo uma postura crtica na anlise dos fenmenos em estudo. Sempre que possvel, estaremos utilizando conjuntos de dados reais, referentes realidade scio-econmica brasileira.

1.2

Organizao das notas de aula

Estas notas de aula esto divididas em 3 captulos. No Captulo 2 so apresentados mtodos de anlise exploratria de dados, tanto tabulares quanto grcos. No Captulo 3 apresentam-se as principais medidas estatsticas de posio, disperso, assimetria e associao entre variveis. Os captulos so divididos em sees e subsees. Ao nal de cada seo dado um conjunto de exerccios resolvidos para auxiliar o aluno na compreenso dos conceitos dados (voc deve tentar fazer os exerccios, antes de ler a soluo) e em seguida um conjunto de exerccios propostos. Ao nal de cada captulo h um conjunto de exerccios complementares, abrangendo toda a

CAPTULO 1. INTRODUO

matria do captulo. Os gabaritos completos dos exerccios est disponibilizado no site do curso, www.u.br/ieeanamariafarias. Os exemplos apresentados ao longo do texto, sempre que possvel, contemplaro dados verdicos, obtidos de diversas fontes pertinentes realidade brasileira. Os alunos interessados podero obter cpia do disquete com os dados utilizados no texto com os autores. Vrios conjuntos de dados se referem a pesquisas realizadas pela Fundao Instituto Brasileiro de Geograa e Estatstica - IBGE - e podem ser encontrados na pgina www.ibge.gov.br.

Captulo 2

Apresentao de dados
2.1 Introduo

De posse dos dados obtidos de um levantamento estatstico (censitrio ou por amostragem), importante escolher a forma como esses dados sero apresentados, de modo a facilitar a visualizao dos resultados desejados. Neste captulo sero vistas algumas tcnicas de apresentao de dados, tanto tabulares quanto grcas.

2.2

Nveis de mensurao

Um problema bsico que se coloca nos levantamentos estatsticos o nvel de mensurao das informaes a serem levantadas. Isto porque a aplicabilidade ou no de modelos e mtodos estatsticos a serem utilizados posteriormente na anlise do material vai depender em grande parte desse aspecto. O nvel mais elementar de mensurao consiste na classicao dos indivduos ou objetos de uma populao de acordo com uma certa caracterstica, isto , tenta-se separar os elementos em grupos, conforme possuam essa ou aquela caracterstica em questo. o que sucede, por exemplo, quando a caracterstica estudada sexo, religio, estado civil, etc. Nesses casos, as categorias se expressam nominalmente e para a aplicao de tcnicas estatsticas adequadas, necessrio que as categorias sejam exaustivas (isto , cubram todos os elementos da populao) e mutuamente exclusivas (isto , um elemento no pode pertencer simultaneamente a duas categorias distintas). Nesses casos, diz-se que a caracterstica em estudo expressa segundo uma escala nominal. Assim, as operaes usuais de aritmtica no podem ser realizadas sobre esse tipo de escala, mesmo que as categorias estejam expressas em nmeros. No processamento de dados, bastante comum representar as categorias de sexo Feminino e Masculino por nmeros, como 1 e 2. Naturalmente, no faz sentido dizer que o Masculino duas vezes o Feminino; o 1 e o 2 so apenas substitutos dos nomes das categorias. Num nvel de mensurao seguinte, podemos ordenar as categorias de uma determinada caracterstica. o que ocorre com o nvel de escolaridade, quando uma populao pode ser classicada em 4 categorias: analfabeto, 1o grau, 2o grau, 3o grau, por exemplo. Aqui podemos dizer que o nvel de escolaridade de um indivduo da categoria 2o grau maior que o de um indivduo da categoria 1o grau, mas no podemos dizer que duas vezes maior. Nesta escala, chamada escala ordinal, valem apenas as operaes de ordenao, maior do que ou menor do que. Passa-se deste tipo de escala para um nvel de mensurao propriamente dito quando, alm da ordenao das categorias, pode-se dizer quanto valem exatamente as diferenas entre essas categorias. Um exemplo tpico dessa situao a medio de temperatura: a diferena entre 90o C e 70o C 20o C e igual diferena entre 30o C e 10o C. No entanto, como o zero (0o C) nesta escala denido 4

CAPTULO 2. APRESENTAO DE DADOS

arbitrariamente (no existe naturalmente), no podemos dizer que 90o C trs vezes mais quente que 30o C. Dizemos, ento, que a temperatura est medida em uma escala intervalar. Quando o zero na escala puder ser estabelecido de forma no arbitrria, todas as operaes aritmticas podero ser realizadas sobre os valores tomados pela caracterstica em estudo. Nesse caso, dizemos que a caracterstica est medida em uma escala de razo ou proporcional. o caso da idade, que contada a partir da data de nascimento do indivduo. comum denominar de varivel qualitativa as caractersticas medidas em escala nominal ou ordinal. J as variveis medidas em escala intervalar ou proporcional so chamadas variveis quantitativas. As variveis quantitativas, por sua vez, podem ser discretas ou contnuas. Quando a varivel puder assumir qualquer valor numrico em um determinado intervalo de variao, ela ser uma varivel contnua. Essas variveis resultam normalmente de medies: peso, altura, dosagem de hemoglobina, renda, etc. A interpretao desse tipo de varivel leva noo de valor aproximado, pois no existe instrumento de medio capaz de fornecer preciso absoluta na informao. Assim, quando uma balana mostra o peso de uma pessoa como 65,5 kg, esse valor, na verdade, uma aproximao para qualquer valor entre, digamos, 65,495 e 65,505 kg. Por outro lado, a varivel quantitativa discreta s poder assumir valores pertencentes a um conjunto enumervel; os valores normalmente so obtidos atravs de algum processo de contagem. Alguns exemplos so: nmero de lhos de um casal, nmero de empregados de uma rma de contabilidade, etc. Exemplo 2.1 A Pesquisa Mensal de Emprego A Pesquisa Mensal de Emprego1 - PME - uma das principais fontes das estatsticas do trabalho, no mbito do IBGE. Mensalmente so produzidas e divulgadas distintas estatsticas sobre a estrutura e a distribuio da populao economicamente ativa, sobre os nveis de ocupao e de desocupao, sobre os rendimentos mdios da populao ocupada, entre outras. Essas estatsticas, sob diferentes cruzamentos, como a idade, o sexo, a ocupao, a atividade, entre outros, so essenciais a uma ampla anlise do desempenho da economia de um pas. Pela compreenso do estado de sua fora de trabalho, um pas poder implementar polticas econmicas e sociais que o levem a um desenvolvimento mais racional. Vamos identicar as variveis envolvidas na PME, segundo o texto acima. Populao economicamente ativa: uma varivel quantitativa discreta, que mede o nmero de pessoas (potencial de mo de obra) com que o setor produtivo pode contar; Nvel de ocupao e de desocupao: so variveis quantitativas contnuas, que medem a taxa de emprego e desemprego; Rendimento mdio: uma varivel quantitativa contnua; Idade: varivel quantitativa discreta; Sexo: varivel qualitativa nominal; Ocupao: varivel qualitativa nominal; Atividade econmica: varivel qualitativa nominal.
1

Para Compreender a PME - Um Texto Simplicado, IBGE, 1991.

CAPTULO 2. APRESENTAO DE DADOS

2.2.1

Exerccios propostos da Seo 2.2

2.1 Na Figura 2.1 temos um grco que ilustra a presena de bens e servios nos domiclios das duas classes de renda extremas, segundo a Pesquisa Nacional porAmostra de Domiclios realizada pelo IBGE. Dena e classique todas as variveis envolvidas; tente imaginar como esses dados foram coletados na pesquisa.

Figura 2.1: Bens e servios nos domiclios por classe de renda

Mquina de lavar roupa

TV

Geladeira

Rede de gua

Esgotamento adequado

Telefone

20

40

60

80

100

120

Fonte: IBGE - PNAD 2002 e Folha de So Paulo 11/10/2003

At 2 SM

Mais de 10 SM

2.2 Na Tabela 2.1 apresentam-se dados referentes aos estabelecimentos de ensino brasileiros. Dena e classique as variveis envolvidas na tabela.

Tabela 2.1: Dados gerais dos estabelecimentos de ensino(1994) para o Exerccio 2.2 Especicao Pr-escolar 1o grau 2o grau Superior Estabelecimentos 115 318 195 545 13 178 851 99 529 181 586 9 013 218 Pblico 15 789 13 959 4 165 633 Privado 5 339 288 31 091 662 4 426 543 1 661 034 Matrculas Pblico 4 121 188 27 508 600 3 383 822 690 450 1 218 100 3 583 062 1 042 721 970 584 Privado
Fonte: Brasil em nmeros, vol. 4, 1995-1996 - IBGE

2.3

Distribuio univariada de freqncias: Representao tabular

Considere os dados da Tabela 2.2, onde temos informaes sobre a turma, o sexo, a matria predileta (Portugus, Matemtica, Histria, Geograa ou Cincias) no 2o grau e a nota (nmero de questes certas) em um teste de mltipla escolha com 10 questes de matemtica, ministrado no primeiro

CAPTULO 2. APRESENTAO DE DADOS

dia de aula dos calouros de Economia. As trs primeiras variveis so qualitativas, enquanto nota uma varivel quantitativa discreta. Como podemos resumir essas informaes de uma forma mais clara e objetiva? Anal, o que nos interessa saber quantas mulheres e quantos homens h em cada turma, quantas pessoas tiraram 10, e assim por diante. Para isso, vamos construir tabelas ou distribuies de freqncia. Tabela 2.2: Dados sobre sexo, matria predileta e nota de alunos de 2 turmas
Turma Sexo Predileta Nota Turma Sexo Predileta Nota Turma Sexo Predileta Nota

A A A A A A A A A A A A A A A A A A A A A A A A A A A A A

F M F F M M F F F M F M M F F M M F F F M M F M M F M F F

H M P H C H M P H C P H M P G C H M P M G H M P G M P M M

5 8 8 6 5 6 8 4 2 6 8 3 5 5 5 7 4 7 7 6 6 9 8 5 6 7 5 5 5

A A A A A A A A A A A A A B B B B B B B B B B B B B B B B

M M M M M F F M M F F F M F M F M M F F F M F M F F M F M

M G G M M P G G P M G P M H M P H G M P P M M G H G G M G

2 4 9 7 1 8 5 9 5 8 6 9 8 6 3 4 8 10 5 7 5 6 5 5 8 5 6 5 2

B B B B B B B B B B B B B B B B B B B B B B

F F M F M F M M F F M M M M M M M M F F F M

G M M P G M P M C H G P P H M G H H M M G C

6 4 6 5 3 5 3 4 8 3 4 5 4 6 6 6 6 6 8 8 5 5

2.3.1

Variveis qualitativas

Vamos comear com a varivel qualitativa sexo. Analisando as duas turmas conjuntamente, vemos que h um total de 41 alunos e 39 alunas. Essas contagens so chamadas freqncias absolutas.

CAPTULO 2. APRESENTAO DE DADOS Poderamos resumir essa informao em forma de tabela: Sexo Masculino Feminino Total Nmero de alunos 41 39 80

Note a linha referente ao total! Caso quisssemos a informao por turma, a tabela seria a seguinte: Sexo Masculino Feminino Total Nmero de alunos Turma A Turma B Total 21 20 41 21 18 39 42 38 80

Note a coluna referente ao total! Uma diculdade que surge na comparao das duas turmas o fato de o total de alunos ser diferente. Assim, comum acrescentar, tabela de freqncias, uma nova coluna com as freqncias relativas, que nada mais so que as freqncias em forma percentual, representando a participao da freqncia de cada uma das categorias da varivel sexo no total de alunos. Na Tabela 2.3 temos a verso completa; note que foi acrescentado um ttulo e a fonte dos dados, informaes imprescindveis na apresentao de dados. Tabela 2.3: Distribuio da varivel Sexo por turma Freqncia na Turma A Freqncia na Turma B Freqncia Total Absoluta Relativa (%) Absoluta Relativa (%) Absoluta Relativa (%) Masculino 21 50,00 20 52,63 41 51,25 21 50,00 18 47,37 39 48,75 Feminino Total 42 100,00 38 100,00 80 100,00 Fonte: Dados hipotticos Sexo Vamos ver com detalhes como foi feito o clculo das freqncias relativas. Lembre-se que a idia analisar o percentual de cada sexo no respectivo grupo: Turma A 21 100 = 50, 000000 42 21 100 = 50, 000000 42 41 100 = 51, 250000 80 Turma B 20 100 = 52, 631579 38 18 100 = 47, 368421 38 39 100 = 48, 750000 80

Masculino Feminino Total

Vale a pena salientar, neste momento, a questo do arredondamento de resultados. Nos clculos acima, as freqncias esto apresentadas com 6 casas decimais, enquanto que, na Tabela 2.3, os resultados esto com 2 casas decimais, que a forma usual. Existe a seguinte regra de arredondamento:

CAPTULO 2. APRESENTAO DE DADOS

Regra 2.1 Regra de Arredondamento Quando o primeiro algarismo a ser suprimido menor ou igual a 4 (isto , igual a 0, 1, 2, 3 ou 4), o algarismo nal (depois do arredondamento) permanece inalterado. Quando o primeiro algarismo a ser suprimido igual a 5, 6, 7, 8 ou 9, o algarismo nal (depois do arredondamento) acrescido de 1. Vamos arredondar as freqncias para a Turma B mantendo 2 casas decimais no resultado nal. Para o sexo masculino, o primeiro algarismo a ser suprimido (terceira casa decimal) 1 e, assim, o algarismo nal permanece inlaterado; esse algarismo (segunda casa decimal) 3 que, depois do arredondamento, continua sendo 3, o que resulta na freqncia relativa arredondada de 52,63. Para o sexo feminino, o primeiro algarismo a ser suprimido (terceira casa decimal) 8 e, assim, o algarismo nal acrescido de 1; esse algarismo (segunda casa decimal) 6, que depois do arredondamento passa a ser 7, o que resulta na freqncia relativa arredondada de 47,37. A ttulo de ilustrao, apresenta-se na Tabela 2.4 a distribuio para a varivel qualitativa matria predileta no segundo grau. Tabela 2.4: Distribuio da varivel Matria Predileta no Segundo Grau por turma Matria Predileta Freqncia na Turma A Freqncia na Turma B Freqncia Total no Segundo Ggrau Absoluta Relativa (%) Absoluta Relativa (%) Absoluta Relativa (%) Portugus 10 23,81 7 18,42 17 21,25 Matemtica 14 33,33 12 31,58 26 32,50 7 16,67 7 18,42 14 17,50 Histria 8 19,05 10 26,32 18 22,50 Geograa 3 7,14 2 5,26 5 6,25 Cincias Total 42 100,00 38 100,00 80 100,00

2.3.2

Variveis quantitativas

Vamos, agora, analisar a varivel Nota, que uma varivel quantitativa discreta. Na Tabela 2.5 temos as notas ordenadas. A listagem dos dados, mesmo ordenados, de pouca utilidade nas situaes prticas, uma vez que, em geral, o nmero de observaes muito grande. Alm disso, ao se analisarem dados estatsticos, muitas vezes o interesse no est na observao individual, mas, sim, no comportamento de grupos. Mais difcil ainda a comparao entre os resultados das duas turmas, uma vez que as turmas tm nmeros de alunos diferentes. Tabela 2.5: Notas ordenadas por A 3 5 5 5 5 2 3 3 5 5 5 5 6 6 6 6 7 7 8 8 8 6 6 6 8 8 8 9 9 9 turma Turma 3 3 4 5 5 5 6 6 6 8 10

1 5 6 8

2 5 6 8

2 5 6 8

3 5 7 8

Turma 3 3 5 5 7 7 8 9

B 4 5 6

4 5 6

4 5 6

4 5 7

5 6 8

A partir dos dados ordenados, podemos saber rapidamente os valores mnimo e mximo: na Turma A as notas variam de 2 a 10 e na Turma B, de 1 a 9. Esse o conceito de amplitude de um conjunto de dados.

CAPTULO 2. APRESENTAO DE DADOS

10

Denio 2.1 A amplitude de um conjunto de dados, representada por total , denida como a diferena entre os valores mximo e mnimo: total = VMx VMn (2.1)

A amplitude das notas da turma A 10 2 = 8 e da turma B 9 1 = 8, ou seja, ambas as turmas tm a mesma amplitude, embora os valores extremos sejam diferentes. Considere novamente os dados da Tabela 2.5. Um primeiro fato que chama a ateno a existncia de vrios alunos com notas iguais. Ento, uma forma mais simplicada de apresentar os dados, sem nenhuma perda de informao, construir uma tabela ou distribuio de freqncias, da mesma forma que zemos para as variveis qualitativas. Em uma coluna colocamos as diferentes notas existentes e nas colunas adjacentes, as freqncias absolutas e relativas. Na Tabela 2.6 temos uma apresentao inicial para as notas das turmas A e B. Tabela 2.6: Freqncias absolutas e relativas das notas de um teste de mltipla escolha Turma A Turma B Nota Freqncia Nota Freqncia Absoluta Relativa Absoluta Relativa 1 1 2,38 2 1 2, 63 2 4,76 3 4 10, 53 2 1 2,38 4 5 13, 16 3 4 3 7,14 5 11 28, 95 11 26,19 6 10 26, 32 5 7 16,67 7 1 2, 63 6 5 11,91 8 5 13, 16 7 8 19,05 9 0 0, 00 8 9 4 9,52 10 1 2, 63 Total 42 100,00 Total 38 100, 00 No clculo das freqncias relativas, o arredondamento se fez segundo a regra dada anteriormente. No total das freqncias relativas, o resultado 100,00 para ambas as turmas, uma vez que esse o objetivo das freqncias relativas em forma percentual: os totais passam a ser 100. No entanto, ao somarmos as freqncias relativas da turma B a apresentadas, o resultado no exatamente 100; mais precisamente, 2, 63 + 10, 53 + 13, 16 + + 2, 63 = 100, 01 Isso se deve aos arredondamentos efetuados. No entanto, comum apresentar o total como 100, cando subentendido que qualquer diferena devida a arredondamentos. Em geral, essas diferenas so pequenas, desde que se mantenha um procedimento coerente de arredondamento. Voltaremos a apresentar mais exemplos sobre essa questo para ilustrar alguns procedimentos comuns e aconselhveis no processo de arredondamento. Na apresentao de tabelas de freqncias para variveis quantitativas, comum acrescentar mais duas colunas com as freqncias acumuladas. Por exemplo, se, para aprovao, o aluno precisa tirar no mnimo 6, quantos alunos foram aprovados em cada turma? Para facilitar a resposta de perguntas desse tipo, costume acrescentar uma coluna com as freqncias acumuladas, que do, para cada nota (linha da tabela), o total de notas menores ou iguais nota em questo. Na turma A, a menor nota 2; assim, no h notas menores que 2 e a freqncia acumulada (nota 2) para essa nota igual freqncia simples. Para a nota 3, h 1 + 4 = 5 notas menores ou iguais a 3; assim, a freqncia acumulada para a nota 3 5. H 1 + 4 + 5 = 5 + 5 = 10 notas menores ou

CAPTULO 2. APRESENTAO DE DADOS

11

iguais a 4; assim, a freqncia acumulada para a nota 4 10. Continuando com esse procedimento, obtemos as Tabelas 2.7 e 2.8 para as turmas A e B, respectivamente. Note que, agora, mudamos os nomes para freqncias simples e freqncias acumuladas (absolutas ou relativas) para diferenciar os dois tipos de freqncia. Tabela 2.7: Distribuio de freqncias das notas de um teste de mltipla escolha - Turma A Nota Freqncia Simples Freqncia Acumulada Absoluta Relativa Absoluta Relativa 1 1 2, 38 1 2, 38 2 4, 76 3 7, 14 2 1 2, 38 4 9, 52 3 3 7, 14 7 16, 66 4 11 26, 19 18 42, 85 5 6 7 16, 67 25 59, 52 5 11, 91 30 71, 43 7 8 19, 05 38 90, 48 8 4 9, 52 42 100, 00 9 Total 42 100, 00
Fonte: Dados ctcios

Tabela 2.8: Distribuio de freqncias das notas de um teste de mltipla escolha - Turma B Nota Freqncia Simples Freqncia Acumulada Absoluta Relativa Absoluta Relativa 2 1 2, 63 1 2, 63 3 4 10, 53 5 13, 16 5 13, 16 10 26, 32 4 11 28, 95 21 55, 26 5 10 26, 32 31 81, 58 6 1 2, 63 32 84, 21 7 5 13, 16 37 97, 37 8 0 0, 00 37 97, 37 9 1 2, 63 38 100, 00 10 Total 38 100, 00
Fonte: Dados ctcios

Novamente, vamos fazer uma observao sobre os clculos efetuados, concentrando nossa ateno na turma B, ou seja, na Tabela 2.8. H duas maneiras possveis de se calcularem as freqncias acumuladas relativas. Da mesma forma como feito para as freqncias absolutas acumuladas, podemos acumular as freqncias simples relativas: 2, 63 + 10, 53 = 13, 16 2, 63 + 10, 53 + 13, 16 = 26, 32 2, 63 + 10, 53 + 13, 16 + 28, 95 = 55, 27 2, 63 + 10, 53 + 13, 16 + 28, 95 + 26, 32 = 81, 59 e assim por diante. Note que com esse procedimento obteremos a freqncia 100,01 na ltima classe. Outra possibilidade, que, em geral, fornece resultados mais precisos, consiste em calcular as

CAPTULO 2. APRESENTAO DE DADOS

12

freqncias acumuladas relativas a partir das freqncias acumuladas simples, dividindo pelo total de observaes. Isto , 100 5/38 = 13, 16

100 10/38 = 26, 32 100 21/38 = 55, 26 100 31/38 = 81, 58 e assim por diante. Note que, a partir da quarta freqncia acumulada, j desaparece a diferena de 0,01 nos resultados (55,26 em vez de 55,27), o que faz com que o total neste caso seja 100,00 e no 100,01. importante observar que, para variveis qualitativas, como sexo, no faz sentido trabalharmos com as freqncias acumuladas, uma vez que no existe relao de grandeza entre as categorias de uma varivel qualitativa. Por exemplo, no podemos falar menor ou igual a Masculino. O procedimento apresentado acima pode ser usado para dados quantitativos discretos em geral, desde que no haja muitos valores distintos. No exemplo das notas, o nmero de notas diferentes era 9 em ambas as turmas e, assim, a tabela resultante tinha um tamanho razovel. Consideremos, agora, os dados da Tabela 2.9, onde temos o nmero de empregados das Unidades Locais2 industriais de empresas3 industriais no estado do Rio de Janeiro, que tambm uma varivel quantitativa discreta. Tabela 21 28 6 10 33 40 23 5 14 16 30 14 15 6 11 12 5 8 5 9 2.9: 14 73 16 49 7 55 15 7 26 38 Nmero de empregados das ULs industriais - RJ 21 110 14 6 7 503 120 5 5 6 8 9 72 17 22 27 80 7 12 24 13 51 47 12 11 40 73 56 26 9 29 7 33 21 55 11 9 13 19 15 26 56 36 40 6 837 6 9 9 19 11 5 8 6 5 12 8 6 5 20 8 7 7 9 9 18 17 54 6 13 28 8 18 9 25 8 16 274 5 37 5 11 6 7 7 12 705 6 23 10 5 11 10 98 216 10 6 18 20 14

6 13 6 38 35 6 19 10 53 204 7

11 20 6 19 30 21 6 8 7 22

17 13 8 10 5 24 12 45 13 32

11 15 461 8 10 6 17 7 351 20

Fonte: Pesquisa Industrial Mensal de Emprego e Salrio - PIMES -IBGE

Nesta tabela, alm do nmero total de observaes ser bem maior (171), h tambm muitos valores distintos: 55. Por exemplo, temos 12 ULs com 5 empregados, 18 com 6 empregados e assim por diante. Uma tabela com 55 linhas difcil de analisar; alm disso, no h necessidade de sermos to detalhistas. Por exemplo, em se tratando de nmero de empregados em ULs industriais, no h diferena signicativa entre uma UL com 5 e outra com 6 empregados ou uma com 100 e outra com 101. Nesses casos, comum agrupar os dados em classes. A idia, ento, denir limites de classes de tal modo que, se o nmero de empregados de uma UL estiver entre determinados limites, ela ser classicada como micro indstria, por exemplo. A construo da distribuio de freqncias se faz de maneira idntica vista anteriormente; a diferena que as freqncias agora se referem
2 Unidade Local o endereo de atuao de uma empresa, ocupando geralmente uma rea contnua na qual so desenvolvidas uma ou mais atividades econmicas. 3 Empresa a unidade jurdica que responde por uma rma ou Razo Social, englobando o conjunto de atividades econmicas exercidas em uma ou mais unidades locais.

CAPTULO 2. APRESENTAO DE DADOS

13

s freqncias de classes de valores, em vez de se referirem a um nico valor. Por essa razo, tais distribuies so chamadas s vezes de distribuio de freqncias agrupadas. H duas regras fundamentais que tm que ser seguidas quando da denio das classes de distribuies de freqncias agrupadas. Regra 2.2 Denio das classes em uma distribuio de freqncias agrupadas 1. As classes tm que ser exaustivas, isto , todos os elementos devem pertencer a alguma classe. 2. As classes tm que ser mutuamente exclusivas, isto , cada elemento tem que pertencer a uma nica classe. Para simplicar a questo, suponhamos inicialmente que queiramos trabalhar com 4 classes e que todas as classes devam ter comprimentos iguais. Como determinar os limites das classes? O procedimento est ilustrado na Figura 2.2 para os dados da Tabela 2.9, onde o valor mnimo 5 e o valor mximo 837. Figura 2.2: Denio dos limites de classe

l1=5

l2

l3

l4

l5=837

Como cada classe tem que ter comprimento igual e o comprimento total de variao, isto , a amplitude 837 5 = 832, cada intervalo deve ter comprimento = logo, os limites das classes so: l1 = 5 l2 = l1 + = 5 + 208 = 213 l3 = l2 + = 213 + 208 = 421 l4 = l3 + = 421 + 208 = 629 l5 = 503 + 166 = 629 + 208 = 837 Dessa forma, as ULs com nmero de empregados entre 5 e 213 seriam classicadas como micro, entre 213 e 421 como pequenas, entre 421 e 629 como mdias e entre 629 e 837 como grandes. O problema agora denir o tratamento a ser dado s ULs com nmero de empregados exatamente igual a um dos limites. Obviamente, as ULs com 5 empregados tm que ser includas na primeira classe. Se incluirmos o 213 na primeira classe, isto , trabalharmos com o intervalo fechado [5, 213], a prxima classe teria que ser do tipo (213, 421]4 , pois as classes tm que ser mutuamente exclusivas. Mas totalmente inadequado trabalhar com classes de tipos diferentes. A soluo, ento, denir
4 O parnteses indica que o valor no est includo no intervalo e o colchete indica que o valor est includo no intervalo. Essa notao equivalente a 213 < x 421.

832 = 208; 4

CAPTULO 2. APRESENTAO DE DADOS

14

a primeira classe como [5, 213) e a segunda como [213, 421). Continuando com esse procedimento, as outras classes seriam [421, 629) e [629, 837). Note a ltima classe! Ela no inclui o valor mximo 837! Esse problema surgiu porque utilizamos a amplitude exata dos dados. Uma soluo aumentar um pouco a amplitude e repetir o procedimento. S que o mais conveniente aumentar a amplitude para o prximo mltiplo do nmero de classes, para no termos limites de classes fracionrios, uma vez que a varivel em estudo (nmero de empregados) s assume valores inteiros. A amplitude exata 832; o prximo mltiplo de 4 836, implicando num aumento de 4 unidades na amplitude. Na Figura 2.3 temos a ilustrao de diferentes maneiras de redenir as classes. Figura 2.3: Mtodo de correo da denio dos limites de classe

l1=5

l2

l3

l4

l5=841

l1=1

l2

l3

l4

l5=837

l1=3

l2

l3

l4

l5=839

Na primeira opo, toda a diferena de 4 unidades foi alocada na cauda superior da distribuio, enquanto que, na segunda, essas 4 unidades foram alocadas na cauda inferior. Na terceira opo, as 4 unidades foram igualmente distribudas, 2 unidades em cada cauda da distribuio. Em geral, esse ltimo procedimento o mais recomendado. Utilizando-o, a amplitude de classe passa a ser = 836 = 209 4

e as classes passam a ser [3, 212), [212, 421), [421, 630), [630, 839). A construo da tabela se faz de maneira anloga descrita nas Tabelas 2.7 e 2.8, s que agora contamos o nmero de ocorrncias em cada classe, isto , cada freqncia simples aboluta se refere ao nmero de valores em cada classe. Para agilizar o processo de contagem manual (em geral, essas tabelas so construdas com o auxlio de algum programa de computador), podemos fazer um esquema de marcao, de modo que s precisamos varrer o conjunto de dados uma nica vez. Por exemplo, varrendo o conjunto de dados por linha (linha 1, depois linha 2, etc), obtemos as seguintes marcaes e respectivas contagens referentes s 3 primeiras linhas: [3, 212) [212, 421) [421, 630) [630, 839) ||||| ||||| ||||| ||||| ||||| ||||| ||||| ||||| ||||| |||| || 2 49

Continuando com a contagem, obtemos a Tabela 2.10. Uma observao interessante sobre essa distribuio a alta concentrao de ULs na primeira classe. Esse fato caracteriza a assimetria da distribuio, como veremos adiante, e bastante comum

CAPTULO 2. APRESENTAO DE DADOS Tabela 2.10: Distribuio de freqncia do nmero de empregados das ULs industriais - RJ Classe Freqncia Simples Freqncia Acumulada de PO Absoluta Relativa Absoluta Relativa [3,212) 164 95, 91 164 95, 91 3 1, 75 167 97, 66 [212,421) 2 1, 17 169 98, 83 [421,630) 2 1, 17 171 100, 00 [630,835) Total 171 100, 00
Fonte: PIMES - IBGE

15

para esse tipo de varivel, ou seja, na maioria dos setores industriais, existem muitas indstrias com poucos empregados e poucas indstrias com muitos empregados. O mais razovel para esse tipo de distribuio trabalhar com classes de tamanhos diferentes. Por exemplo, o IBGE, na elaborao da amostra da PIMES - Pesquisa Industrial Mensal de Emprego e Salrio - deniu as seguintes classes de pessoal ocupado (PO): [5, 30), [30, 100), [100, 500) e P O 500. Note que a ltima classe no tem limite superior; na verdade, em cada unidade da federao, o mximo do PO um nmero diferente mas s estamos interessados nas ULs com 500 ou mais empregados. Usando essas classes, a distribuio de freqncias passa a ser como a da Tabela 2.11. Tabela 2.11: Distribuio de freqncia do nmero de empregados das ULs industriais - RJ Nmero de Freqncia Simples Freqncia Acumulada empregados Absoluta Relativa Absoluta Relativa 5 ` 30 133 77,778 133 77,778 30 ` 100 28 16,374 161 94,152 7 4,094 168 98,246 100 ` 500 3 1,754 171 100,000 500 Total 171 100,000
Fonte: Tabela 2.9

O procedimento de construo de distribuio de freqncias agrupadas foi ilustrado usando-se uma varivel quantitativa discreta mas pode tambm ser aplicado a variveis quantitativas contnuas, conforme veremos a seguir, onde vamos trabalhar com o preo da dzia de ovos (em centavos) nos estados americanos em 1990, apresentados na Tabela 2.12 [cf. Gujarati(1995), Basic Econometrics, McGraw-Hill, 3a ed, Tabela 1.1]. O valor mnimo 48,0 centavos e o valor mximo 151,0; sendo assim, a amplitude 151, 0 48, 0 = 103, 0. Trabalhando com 5 classes de mesmo tamanho, devemos arredondar a amplitude para o prximo mltiplo de 5, que 105, e denir a amplitude de cada classe como = 105/5 = 21. Distribuindo as 2 unidades a mais (105103 = 2) nas duas caudas da distribuio, as classes passam a ser [47, 68); [68, 89); [89, 110); [110; 131); [131, 152). Na Tabela 2.13 temos a distribuio nal. importante notar que as regras apresentadas para denio das classes de uma distribuio de freqncias agrupadas no so rgidas; o importante ter bom senso. As nicas exigncias so que as classes sejam exaustivas e mutuamente exclusivas. usual trabalhar com limites inteiros (muitas vezes, mltiplos de 10), para facilitar a leitura da tabela. Alm disso, o nmero de classes, em geral, no deve ser inferior a 5 nem superior a 25. Uma forma de se determinar um nmero razovel, k, de classes consiste em aplicar a frmula de

CAPTULO 2. APRESENTAO DE DADOS Tabela 2.12: Produo de ovos nos Estados Unidos em 1990 Preo/dz Estado Preo/dz Estado Preo/dz Estado Preo/dz (cents) (cents) (cents) (cents) 151,0 HI 85,0 ME 101,0 NJ 85,0 IA 56,5 MI 58,0 NM 74,0 92,7 ID 79,1 MN 57,7 NV 53,9 86,3 IL 65,0 MO 55,4 NY 68,1 61,0 63,4 IN 62,7 MS 87,8 OH 59,1 KS 54,5 MT 68,0 OK 101,0 77,8 KY 67,7 NC 82,8 OR 77,0 106,0 LA 115,0 ND 55,2 PA 61,0 117,0 MA 105,0 NE 50,3 RI 102,0 62,0 80,6 MD 76,6 NH 109,0 SC 70,1

16

Estado AK AL AR AZ CA CO CT DE FL GA

Estado SD TN TX UT VA VT WA WI WV WY

Preo/dz (cents) 48,0 71,0 76,7 64,0 86,3 106,0 74,1 60,1 104,0 83,0

Tabela 2.13: Distribuio de freqncias dos preos de ovos - EUA - 1990 Preo dos ovos Freqncia Simples Freqncia Acumulada (cents/dzia) Absoluta Relativa Absoluta Relativa [47, 68) 19 38, 0 19 38, 0 19 38, 0 38 76, 0 [68, 89) 9 18, 0 47 94, 0 [89, 110) 2 4, 0 49 98, 0 [110, 131) 1 2, 0 50 100, 0 [131, 152) Total 50 100, 0
Fonte: Gujarati(1995)

Sturges, que sugere o clculo de k mediante a expresso: k = 1 + log2 N = 1 + log n log 2 (2.2)

onde n o nmero de observaes. No entanto, dadas as caractersticas da funo logaritmo, um dos problemas na utilizao dessa frmula que ela fornece um nmero grande de classes para valores pequenos de n e um nmero pequeno de classes para valores grandes de n, como pode ser observado na Tabela 2.14, onde os resultados foram arredondados para o prximo inteiro. Tabela 2.14: Nmero de classes pela frmula de Sturges n k 30 6 35 6 40 6 50 7 100 8 200 9 500 10 1000 11 Assim, a deciso nal sobre o nmero de classes deve se basear na natureza dos dados e da

CAPTULO 2. APRESENTAO DE DADOS unidade de medida, com essa ou outra frmula servindo apenas de referncia.

17

2.3.3

Notao para distribuies univariadas de freqncias

Para generalizarmos o procedimento de construo de uma tabela de freqncias, vamos adotar a seguinte notao, descrita na Tabela 2.15 a seguir. Tabela 2.15: Construo de uma tabela de freqncias Nome da varivel Freqncia Simples Freqncia Acumulada Absoluta Relativa (%) Absoluta Relativa (%) (ni ) (fi ) (Ni ) (Fi ) Valor 1 n1 f1 N1 F1 Valor 2 n2 f2 N2 F2 . . . . . . . . . . . . . . . Valor k Total nk n fk 100, 00 Nk Fk

Cada valor ni obtido atravs da contagem do nmero de ocorrncias do i-simo valor ou categoria. Essa a informao primria, especca do conjunto de dados em anlise. A partir dos valores dos ni , i = 1, . . . k (k o nmero de valores distintos ou classes), obtm-se o nmero total de observaes como k P n= ni ; (2.3)
i=1

cada freqncia simples relativa obtida como

fi = 100

ni . n

(2.4)

As freqncias absolutas acumuladas so obtidas como Ni = n1 + n2 + + ni1 + ni ; ou de forma recursiva como Ni = Ni1 + ni ; com N1 = n1 . Com relao s freqncias acumuladas relativas, devemos notar o seguinte: Fi = f1 + f2 + + fi1 + fi = n n2 ni1 ni 1 = 100 + + + + = n n n n n1 + n2 + + ni1 + ni = = 100 n Ni = 100 n Matematicamente, todas essas expresses so equivalentes mas, quando estamos trabalhando com calculadoras e mesmo com computadores, devemos tomar cuidado com a preciso dos resultados, por causa de arredondamentos. A operao de diviso uma operao que, em geral, resulta em (2.7) (2.6) (2.5)

CAPTULO 2. APRESENTAO DE DADOS

18

nmeros fracionrios; assim, sempre que possvel, devemos fazer o menor nmero possvel de divises. Seguindo esse raciocnio, a freqncia acumulada relativa deve ser calculada a partir das freqncias absolutas acumuladas, isto : Ni (2.8) Fi = 100 n

2.3.4

Exerccios resolvidos da Seo 2.3

Considere os dados das Tabelas 2.16 a 2.18, referentes a um levantamento feito por professores da Universidade Federal de Santa Catarina (UFSC), onde o principal objetivo era avaliar os efeitos polticos dos programas de alimentao popular. Aqui temos dados referentes a 120 famlias residentes em trs locais: Conjunto Residencial Monte Verde, Conjunto Residencial Parque da Figueira e na Encosta do Morro.5 As variveis apresentadas so: PAP: varivel indicadora de uso de programas de alimentao (1 = Sim; 0 = No); GI: grau de instruo do chefe da casa (1 = nenhum grau ocialmente completo; 2 = primeiro grau completo; 3 = segundo grau completo); RES: nmero de pessoas residentes na casa; RENDA: renda familiar mensal, em salrios mnimos. Tabela 2.16: Conjunto residencial Monte Verde GI RES RENDA Ident. PAP GI RES 3 4 10,3 21 1 3 5 3 4 15,4 22 1 3 5 2 4 9,6 23 0 3 5 2 5 5,5 24 0 2 4 3 4 9,0 25 0 2 8 1 1 2,4 26 1 3 4 3 2 4,1 27 1 1 5 3 3 8,4 28 0 3 3 3 6 10,3 29 1 2 4 2 4 4,6 30 0 3 5 2 6 18,6 31 1 3 5 1 4 7,1 32 1 2 2 2 4 12,9 33 1 3 5 2 6 8,4 34 1 1 2 3 3 19,3 35 1 1 6 2 5 10,4 36 1 1 8 3 3 8,9 37 1 3 3 3 4 12,9 38 1 3 5 3 4 5,1 39 1 3 5 3 4 12,2 40 1 3 3

Ident. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
5

PAP 0 0 1 0 1 1 0 1 1 1 0 1 0 0 0 0 1 0 0 1

RENDA 5,8 12,9 7,7 1,1 7,5 5,8 7,2 8,6 5,1 2,6 7,7 2,4 4,8 2,1 4,0 12,5 6,8 3,9 9,0 10,9

Dados extrados de Barbetta (1994)

CAPTULO 2. APRESENTAO DE DADOS

19

Ident. 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62

Tabela 2.17: Conjunto residencial Parque da Figueira PAP GI RES RENDA Ident. PAP GI RES RENDA 1 2 5 5,4 63 1 1 3 5,5 1 1 3 6,4 64 1 1 7 3,5 1 1 6 4,4 65 1 3 3 9,0 1 1 5 2,5 66 1 3 6 5,8 0 1 6 5,5 67 0 1 6 4,2 1 1 8 . 68 1 3 3 6,8 1 3 4 14,0 69 1 2 5 4,8 1 2 4 8,5 70 1 3 5 6,0 1 1 5 7,7 71 1 2 7 9,0 0 2 3 5,8 72 1 1 4 5,3 1 3 5 5,0 73 1 3 4 3,1 0 1 3 4,8 74 0 3 1 6,4 1 2 2 2,8 75 1 1 3 3,9 1 2 4 4,2 76 1 2 3 6,4 1 3 3 10,2 77 1 3 4 2,7 1 2 4 7,4 78 0 2 4 2,4 1 2 5 5,0 79 0 2 4 3,6 0 3 2 6,4 80 0 3 5 6,4 0 3 4 5,7 81 0 3 2 11,3 1 2 4 10,8 82 1 1 5 3,8 0 3 1 2,3 83 1 2 3 4,1 1 1 7 6,1

Ident. 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102

PAP 1 1 0 1 1 1 1 0 0 1 0 0 0 1 1 1 1 0 1

GI 1 3 1 2 1 2 1 2 2 2 2 3 2 1 3 3 1 2 2

Tabela 2.18: Encosta do Morro RES RENDA Ident. PAP GI 5 1,8 103 0 1 5 7,1 104 1 2 3 13,9 105 1 1 6 4,0 106 1 1 6 2,9 107 1 1 9 3,9 108 1 1 4 2,2 109 1 2 3 5,8 110 1 1 5 2,8 111 0 3 5 4,5 112 1 1 4 5,8 113 1 3 8 3,9 114 1 1 7 2,8 115 1 2 3 1,3 116 1 1 5 3,9 117 1 1 5 5,0 118 0 1 5 0,1 119 0 1 3 4,6 120 0 2 4 2,6

RES 6 5 5 3 4 4 5 6 7 4 5 5 6 6 7 4 4 6

RENDA 2,3 4,9 2,3 3,9 2,1 2,7 11,1 6,4 25,7 0,9 3,9 5,1 4,2 4,4 7,9 4,2 3,5 11,4

CAPTULO 2. APRESENTAO DE DADOS 1. Classique as variveis da pesquisa de acordo com o seu tipo. Soluo: LOCAL: varivel qualitativa PAP: varivel qualitativa GI: varivel qualitativa ordinal RES: varivel quantitativa discreta RENDA: varivel quantitativa contnua.

20

2. Para as variveis qualitativas e quantitativa discreta, construa tabelas de freqencia sem perda de informao, considerando as trs localidades em conjunto. Soluo: Das denies das variveis dadas no enunciado do exerccio, sabemos que LOCAL pode assumir os valores 1, 2, e 3, que representam as localidades do Conj. Res. Monte Verde, Conj. Res. Parque da Figueira e da Encosta do Morro. A varivel PAP pode assumir os valores 1 e 0, indicando que a famlia tem ou no acesso a programas alimentares. Analogamente, a varivel GI pode assumir os valores 1, 2, 3. Note que essas so codicaes para as variveis qualitativas. Provavelmente, no questionrio a pergunta era feita de modo que o entrevistador assinalava com um X o quadrinho correspondente resposta dada pelo informante. A codicao feita para facilitar o processamento das informaes pelo computador. Analisando os dados, podemos ver que o valor mnimo para RES 1 e o valor mximo 9. Com essas informaes, constroem-se as Tabelas 2.19 a 2.22 abaixo. Note que a as freqncias relativas no esto multiplicadas por 100 e, portanto, somam 1. No caso de se apresentarem essas freqncias em forma percentual, comum colocar o ttulo da coluna como Relativa (%). Tabela 2.19: Distribuio das famlias por local de residncia Local Freqncia simples Absoluta Relativa Monte Verde 40 0,3333 43 0,3583 Parque da Figueira 37 0,3083 Encosta do Morro Total 120 1,0000

Tabela 2.20: Distribuio do nmero de famlias com relao ao uso de programas de alimentao Uso de programa Freqncia simples de alimentao Absoluta Relativa Sim 78 0,65 42 0,35 No Total 120 1,00 3. Para a varivel RENDA, construa uma tabela de freqncias trabalhando com 4 classes de mesmo tamanho. Soluo: Uma primeira observao diz respeito famlia identicada pelo nmero 46: para essa famlia, no h informao disponvel sobre a renda. Vamos, ento, trabalhar com as 119 famlias

CAPTULO 2. APRESENTAO DE DADOS Tabela 2.21: Distribuio do grau de instruo do chefe de famlia Grau de Instruo Freqncia simples Absoluta Relativa Nenhum completo 38 0,3167 38 0,3167 1o grau completo o grau completo 44 0,3667 2 Total 120 1,0000 Tabela 2.22: Distribuio do nmero de moradores Nmero de Freqncia simples Freqncia acumulada residentes Absoluta Relativa Absoluta Relativa 1 3 0,0250 3 0,0250 6 0,0500 9 0,0750 2 21 0,1750 30 0,2500 3 4 32 0,2667 62 0,5167 32 0,2667 94 0,7833 5 15 0,1250 109 0,9083 6 6 0,0500 115 0,9583 7 4 0,0333 119 0,9917 8 1 0,0083 120 1,0000 9

21

restantes. O valor mnimo 0,1 e o valor mximo 25,7, o que resulta em uma amplitude exata de 25,6. Como os dados esto em forma decimal, no h necessidade de trabalharmos com limites de classe inteiros; assim, vamos arredondar a amplitude para 26 e trabalhar com comprimento de classe igual a 26 = 6, 5. Como o menor valor 0,1, vamos denir como 0 4 o limite inferior da primeira classe. Para construir a tabela mo, interessante fazer um esquema de contagem para as diferentes classes, de modo a no precisarmos ordenar os dados. Uma possibilidade ir marcando com um tracinho cada ocorrncia nas diferentes classes, medida que vamos varrendo os dados: 0, 0 ` 6, 5 6, 5 ` 13, 0 13, 0 ` 19, 5 19, 5 ` 26, 0 Resulta a Tabela 2.23. Tabela 2.23: Distribuio da renda Renda Freqncia Simples Freqncia Acumulada (salrios mnimos) Absoluta Relativa Absoluta Relativa 0,0 ` 6,5 78 0,6555 78 0,6555 6,5 ` 13,0 35 0,2941 113 0,9496 5 0,0420 118 0,9916 13,0 ` 19,5 1 0,0084 119 1,0000 19,5 ` 26,0 Total 119 1,0000 ||||| ||||| ||||| ||||| ||||| ||||| ||||| ||||| ||||| ||||| ||||| ||||| ||||| ||||| ||||| ||| ||||| ||||| ||||| ||||| ||||| ||||| |

CAPTULO 2. APRESENTAO DE DADOS

22

Obs.: Esse exerccio mostra a diculdade de se construir tabelas mo! importante aprender a usar recursos computacionais. 4. Analisando a tabela da distribuio de renda, pode-se ver que h uma grande concentrao nas duas classes iniciais. Trabalhar com classes de mesmo tamanho no recomendvel nesse caso, pois, como sabemos, no Brasil h um grande nmero de famlias de baixa renda. Vamos denir as seguintes classes: [0,2), [2,3), [3,4), [4,5), [5,6), [6,8), [8,10), [10,15), 15. Com essas classes obtemos a Tabela 2.24, onde ca mais detalhada a distribuio das classes de renda mais baixas: Tabela 2.24: Distribuio de renda - Classes desiguais Renda Freqncia Simples Freqncia Acumulada (sal. mn. Absoluta Relativa Absoluta Relativa 0 ` 2 5 0,04202 5 0,04202 18 0,15126 23 0,19328 2 ` 3 3 ` 4 12 0,10084 35 0,29412 17 0,14286 52 0,43697 4 ` 5 18 0,15126 70 0,58824 5 ` 6 19 0,15966 89 0,74790 6 ` 8 10 0,08403 99 0,83193 8 ` 10 16 0,13445 115 0,96639 10 ` 15 15 ` 26 4 0,03361 119 1,00000 Total 119 1,00000

2.3.5

Exerccios propostos da Seo 2.3

2.3 Na Tabela 2.25 temos o nmero de questes acertadas por 50 alunos em um teste de mltipla escolha com 10 questes. Construa uma tabela de freqncias para representar esses dados, de modo que no haja perda de informao.

Tabela 2.25: Notas de 50 alunos em um teste mltipla 2 3 3 5 6 7 5 4 2 6 9 10 9 8 9 9 4 5 6 6 8 7 9 10 10 5 6 1 7 1 8 6 4 3 6 7 8 5 2 4 Fonte: Dados hipotticos

escolha para o Exerccio 2.3 4 3 7 5 2 1 5 5 6 8

2.4 Na Tabela 2.26 temos dados sobre a produo de ovos nos 50 estados dos Estados Unidos no ano de 1990. Construa uma tabela de freqncias para a varivel Quantidade Produzida de Ovos utilizando 5 classes de mesmo tamanho. 2.5 Estudando-se o consumo dirio de leite, vericou-se que em certa localidade, 20% das famlias consomem at 1 litro, 50% consomem entre 1 e 2 litros, 20% entre 2 e 3 litros e o restante entre 3 e 5 litros. Para a varivel em estudo, escreva as informaes dadas em forma de tabela.

CAPTULO 2. APRESENTAO DE DADOS Tabela 2.26: Produo de ovos nos Estados Unidos em 1990 para o Exerccio 2.4 Estado Quant. Estado Quant. Estado Quant. (milhes) (milhes) (milhes) AK 0,7 MA 235,0 OR 652,0 MD 885,0 PA 4976,0 AL 2206,0 ME 1069,0 RI 53,0 AR 3620,0 MI 1406,0 SC 1422,0 AZ 73,0 MN 2499,0 SD 435,0 CA 7472,0 MO 1580,0 TN 277,0 CO 788,0 CT 1029,0 MS 1434,0 TX 3317,0 MT 172,0 UT 456,0 DE 168,0 NC 3033,0 VA 943,0 FL 2586,0 ND 51,0 VT 31,0 GA 4302,0 NE 1202,0 WA 1287,0 HI 227,5 IA 2151,0 NH 43,0 WI 910,0 NJ 442,0 WV 136,0 ID 187,0 NM 283,0 WY 1,7 IL 793,0 NV 2,2 IN 5445,0 KS 404,0 NY 975,0 KY 412,0 OH 4667,0 LA 273,0 OK 869,0
Fonte: Gujarati (1995) - Tabela 1.1

23

2.6 Em um levantamento feito pela revista Exame-Maiores e Melhores 1998 para as 100 maiores empresas brasileiras, em termos de vendas, nem todas informaram o nmero de empregados6 . Na Tabela 2.27 abaixo temos os dados obtidos, ordenados pelo volume de vendas das empresas e na Tabela 2.28 temos os dados ordenados pelo nmero de empregados. Identique a varivel de estudo e construa uma tabela de frequncia, utilizando 5 classes de mesmo tamanho. 2.7 Na Tabela 2.29 tem-se as mdias dos alunos de 2 turmas de Introduo Estatstica Econmica da Faculdade de Economia da UFF no primeiro semestre de 2000. Segundo o critrio de aprovao da UFF, o aluno que obtiver mdia inferior a 4 estar reprovado. O aluno que obtiver mdia maior ou igual a 4 mas menor que 6 ter direito Vericao Suplementar (VS) e os alunos com mdia maior ou igual a 6 estaro aprovados. A partir desses dados, construa uma tabela de freqncias que ilustre o nmero de alunos reprovados, com direito VS e aprovados.
6

Dados extrados de Lopes (1999).

CAPTULO 2. APRESENTAO DE DADOS

24

Tabela 2.27: Nmero de empregados das 100 maiores empresas para o Exerccio 2.6 - Dados originais Ordem Nmero de Ordem Nmero de Ordem Nmero de Ordem Nmero de Empregados Empregados Empregados Empregados 1 30775 26 14020 48 4700 71 3616 987 50 10465 72 3500 2 21411 27 2666 51 2147 73 6084 3 24045 29 4 1763 30 5588 52 4500 78 5543 6700 53 2141 79 3581 5 7840 31 5132 54 7092 80 9564 7 1932 32 7926 55 5254 83 4621 8 13038 33 2788 57 9443 86 3073 9 5242 34 11439 58 3622 88 590 10 12097 35 18093 59 2356 90 6468 11 9378 36 8237 60 1082 91 1754 12 1303 38 950 61 1020 92 6025 13 1047 39 8177 62 746 93 2616 15 17812 40 3996 64 3354 94 2237 16 10865 41 17 198 42 11484 65 4973 95 3014 2415 66 4859 96 154 18 11360 43 4208 67 3326 97 4019 19 10995 44 5817 68 1688 98 5113 22 11522 45 7820 69 5840 99 4087 24 19896 46 11028 70 383 100 1873 25 8949 47

Tabela 2.28: Nmero de empregados das 100 maiores empresas para o Exerccio 2.6 - Dados ordenados 154 198 383 590 746 950 987 1020 1047 1082 1303 1688 1754 1763 1873 1932 2141 2147 2237 2356 2415 2616 2666 2788 3014 3073 3326 3354 3500 3581 3616 3622 3996 4019 4087 4208 4500 4621 4700 4859 4973 5113 5132 5242 5254 5543 5588 5817 5840 6025 6084 6468 6700 7092 7820 7840 7926 8177 8237 8949 9378 9443 9564 10465 10865 10995 11028 11360 11439 11484 11522 12097 13038 14020 17812 18093 19896 21411 24045 30775

Tabela 2.29: Mdias dos alunos de Int.Est.Econmica (1/2000-UFF) para o Exerccio 2.7 4,4 6,0 6,1 8,0 2,7 0,5 0,5 4,8 2,3 0,9 8,8 4,9 5,0 4,0 4,3 2,1 7,6 4,4 6,3 7,1 7,6 9,0 2,5 4,9 5,3 5,9 4,0 5,2 6,0 4,0 6,0 5,1 3,5 7,9 5,1 3,1 6,0 6,8 6,0 6,2 7,0 4,0 4,7 5,4 5,2 6,1 8,4 6,5 6,9 9,8 4,0 4,0 4,8 4,7

CAPTULO 2. APRESENTAO DE DADOS

25

2.4
2.4.1

Distribuio univariada de freqncias: Representao grca


Grco de setores

Este grco usado quando cada valor representa uma parte de um todo. , ento, usado um crculo de raio qualquer, com a rea ou ngulo total sendo proporcional ao total (100%) da srie de dados a representar e a rea ou ngulo de cada setor circular sendo proporcional a cada dado da srie. Vamos ilustrar a construo deste tipo de grco com os dados da Tabela 2.2 referentes varivel sexo. De 80 alunos, 41 so do sexo masculino e 39 do sexo feminino. Como os ngulos dos setores so diretamente proporcionais s respectivas freqncias, temos a seguinte regra de trs: 41 80 = o x = 184, 5o o 360 x 80 39 = o x = 175, 5o o 360 x Na Figura 2.4 temos o grco resultante, construdo com o programa de planilhas Excel. Figura 2.4: Distribuio dos alunos por sexo

Feminino; 39; 49% Masculino; 41; 51%

De forma anloga obtemos o grco para a varivel matria predileta no segundo grau, dado na Figura 2.5. Note que esses grcos podem ser construdos com base nas freqncias absolutas ou relativas.

2.4.2

Grco de colunas

No caso de variveis qualitativas, outra representao grca apropriada se faz atravs do grco de colunas; nesse grco, as categorias so colocadas sobre um eixo horizontal e as freqncias simples, absolutas ou relativas, so indicadas atravs de colunas cujas alturas representam essas freqncias. Os mesmos dados sobre sexo e matria predileta no segundo grau podem ser representados pelos grcos dados nas Figuras 2.6 e 2.7. Note que nesse tipo de grco no h uma escala no eixo horizontal, uma vez que a temos representadas as categorias da varivel em estudo. Se um grco de colunas usado para representar uma varivel quantitativa discreta, h que se tomar cuidado pois, nesse caso, existe uma escala, que

CAPTULO 2. APRESENTAO DE DADOS

26

Figura 2.5: Distribuio dos alunos por matria predileta no segundo grau

Cincias 6% Portugus 21%

Geografia 23%

Matemtica 32%

Histria 18%

Figura 2.6: Distribuio dos alunos por sexo


45 41 40 39

35

30

Nmero de alunos

25

20

15

10

0 Masculino Feminino

CAPTULO 2. APRESENTAO DE DADOS Figura 2.7: Distribuio dos alunos por matria predileta no segundo grau
30

27

26
25

20

Nmero de alunos

18 17

15

14

10

5
5

Cincias

Geografia

Histria

Matemtica

Portugus

deve ser bem representada. No EXCEL, a opo de grco de colunas considera a varivel como uma varivel qualitativa. Na Figura 2.8 temos o grco que representa a distribuio das notas dos 80 alunos. Figura 2.8: Distribuio das notas de 80 alunos
25

20

Nmero de alunos

15

10

0 1 2 3 4 5 6 7 8 9 10

Nota

2.4.3

Histograma e polgono de freqncias

A apresentao tabular dos dados atravs de uma distribuio de freqncias ca complementada com uma representao grca desses mesmos dados. O histograma e o polgono de freqncias so tipos de grcos usados para representar uma distribuio de freqncias simples de uma varivel quantitativa contnua.

CAPTULO 2. APRESENTAO DE DADOS

28

Um histograma um conjunto de retngulos com bases sobre um eixo horizontal dividido de acordo com os comprimentos de classes, centros nos pontos mdios das classes e reas proporcionais ou iguais s freqncias. Um polgono de freqncias um grco de linha que se obtm unindo por uma poligonal os pontos correspondentes s freqncias das diversas classes, centradas nos respectivos pontos mdios. Para obter as intersees da poligonal com o eixo, cria-se em cada extremo uma classe com freqncia nula. Note que esses grcos podem ser construdos com base nas freqncias absolutas ou relativas. O importante que a escala nos eixos horizontal e vertical, bem como os retngulos, sejam construdos de forma a que suas reas espelhem a proporcionalidade dessas freqncias. Na Figura 2.9 apresentamos o histograma para a distribuio de freqncias dada na Tabela 2.13, referente ao preo da dzia de ovos nos estados americanos em 1990. Aqui cabe uma observao sobre o histograma, que foi construdo com o programa XLSTAT: cada retngulo foi construdo de modo que sua rea fosse exatamente igual freqncia relativa. Por exemplo, todos os retngulos tm base 21, que a amplitude de classe. A altura dos dois primeiros retngulos rea/base = 0, 38 / 21 = 0, 0180952, de modo que a rea resultante 0,38. Para a terceira classe, temos que altura = rea/base = 0, 18 / 21 = 0, 0085714. Voltaremos a discutir esse assunto quando da apresentao dos histogramas com classes desiguais. O polgono de freqncia est na Figura 2.10. O ponto fundamental na interpretao de um histograma compreender que as reas dos retngulos representam as freqncias de cada classe. Como a varivel contnua e a freqncia dada se refere a uma classe de valores, a suposio que se faz que essa freqncia se distribui uniformemente pela classe. Na Figura 2.9, a freqncia relativa da classe [47; 68) 0,38 (ou 38%) e ela est uniformemente distribuda pela classe, o que signica que sub-classes de mesmo comprimento teriam a mesma freqncia. Por exemplo, as freqncias das classes [47; 57, 5) e [57, 5; 68) seriam ambas iguais 0,19. J a sub-classe [89;95) teria uma freqncia de 0, 0085714 (95 89) = 0, 0514286. Mais uma vez, o princpio que rea = freqncia. Com relao ao polgono de freqncias, a idia representar o comportamento tpico de cada classe atravs do seu ponto mdio. Figura 2.9: Histograma da distribuio de freqncia dos preos dos ovos nos estados americanos Fonte: Tabela 2.13
0,020 0,018 0,016 0,014 0,012 0,010 0,008 0,006 0,004 0,002 0,000 36,5

47,0

57,5

68,0

78,5

89,0

99,5

110,0

120,5

131,0

141,5

152,0

162,5

CAPTULO 2. APRESENTAO DE DADOS

29

Figura 2.10: Polgono de freqncia dos preos dos ovos nos estados americanos - Fonte: Tabela 2.13
0,020 0,018 0,016 0,014 0,012 0,010 0,008 0,006 0,004 0,002 0,000 36,5

57,5

78,5

99,5

120,5

141,5

162,5

2.4.4

Grco das distribuies de freqncias acumuladas

As freqncias acumuladas tambm podem ser representadas gracamente atravs do grco da funo acumulada das freqncias absolutas, N (x), que denida para todo x (, +) da seguinte forma: para cada valor x R, N(x) denida como o nmero ou freqncia absoluta das observaes para as quais a varivel X em estudo menor ou igual a x. Se a varivel discreta assumindo os valores a1 < a2 < a3 < . . . com freqncias absolutas simples iguais a n1 , n2 , n3 , . . . respectivamente, ento podemos calcular N (x) em termos dos ai s observando o seguinte: se x < a1 ento N (x) = 0 pois no h nenhuma observao com valor menor que a1 ; se a1 x < a2 , ento N (x) = n1 , uma vez que as nicas observaes menores ou iguais a x so aquelas para as quais a varivel igual a a1 e sabemos que h n1 delas; se a2 x < a3 , ento N (x) = n1 + n2 = N2 , uma vez que as nicas observaes menores ou iguais a x so aquelas para as quais a varivel igual a a1 ou a a2 e sabemos que h n1 delas iguais a a1 e n2 iguais a a2 ; se a3 x < a4 , ento N (x) = n1 + n2 + n3 = N3 , uma vez que as nicas observaes menores ou iguais a x so aquelas para as quais a varivel igual a a1 ou a a2 ou a a3 e sabemos que h n1 delas iguais a a1 , n2 iguais a a2 e n3 iguais a a3 . Em geral, N (x) = n1 + n2 + + ni1 = Ni1 para ai1 x < ai . Note que N (x) uma funo no-decrescente e cada diferena N (ai )N (ai1 ) = ni . De maneira anloga, pode-se denir a funo acumulada das freqncias relativas F (x), trabalhando-se com as freqncias relativas. Mais precisamente, F (x) denida para todo x (, +) como a freqncia relativa das observaes para as quais a varivel X em estudo menor ou igual a x. A ttulo de ilustrao, consideremos a varivel RES, nmero de residentes por domiclio, da Tabela 2.22, que assume os valores 1, 2, 3, 4, 5, 6, 7, 8, 9 com freqncias 3, 6, 21, 32, 32, 15, 6, 4, 1.

CAPTULO 2. APRESENTAO DE DADOS Seguindo o raciocnio acima, podemos ver que as funes N(x) e F (x) so denidas como x<1 x<1 0, 0000 se 0 se 0, 0250 se 1 x < 2 3 se 1 x < 2 0, 0750 se 2 x < 3 9 se 2 x < 3 0, 2500 se 3 x < 4 30 se 3 x < 4 0, 5167 se 4 x < 5 62 se 4 x < 5 F (x) = N (x) = 0, 7833 se 5 x < 6 94 se 5 x < 6 0, 9083 se 6 x < 7 109 se 6 x < 7 0, 9583 se 7 x < 8 115 se 7 x < 8 0, 9917 se 8 x < 9 119 se 8 x < 9 1, 0000 se x9 120 se x9

30

Na Figura 2.11 temos o grco da funo acumulada das freqncias absolutas. Esse grco ilustra a caracterstica discreta da varivel. Cada degrau ou segmento de reta horizontal tem uma bola fechada na extremidade esquerda para indicar que estamos trabalhando com intervalos do tipo . A altura de cada degrau d a freqncia simples de cada classe, conforme ilustrado. Figura 2.11: Funo de distribuio acumulada para o nmero de moradores por domiclio
130 120 110 100 90

94 - 62 = 32 = n4
80 70 60 50 40 30 20 10 0 0 1 2 3 4 5 6 7 8 9 10 11

A anlise desse grco nos leva a estabelecer as seguintes caractersticas da funo acumulada das freqncias relativas: limx = 0 limx+ = 1 F (x) uma funo no-decrescente

CAPTULO 2. APRESENTAO DE DADOS F (x) uma funo contnua direita

31

Vale a pena observar que alguns autores denem N (x) ou F (x) como a freqncia absoluta ou relativa das observaes menores que x (e no menores ou iguais a x); nesse caso, as funes so contnuas esquerda (isto , no grco cada segmento teria uma bola no extremo superior direito). Na Figura 2.12 temos o grco da funo acumulada das freqncias relativas construdo pelo programa XLSTAT: note que a escada apresentada em uma linha slida. Esse procedimento usual, cando subentendida a caracterstica discreta (ou saltos) da funo. Figura 2.12: Grco da funo acumulada das freqncias relativas do nmero de moradores por domiclio
1,000

0,900

0,800

0,700

0,600

0,500

0,400

0,300

0,200

0,100

0,000 0 1 2 3 4 5 6 7 8 9 10

Quando a varivel representada na tabela de freqncias contnua, a diferena fundamental est na interpretao das freqncias: cada freqncia ni ou fi se refere a uma classe de valores e supe-se que essa freqncia se distribua uniformemente ao longo da classe (e no em apenas um ponto, como ocorre com variveis discretas). A funo acumulada das freqncias continua sendo denida como a freqncia das observaes menores ou iguais a x. Nesse caso, o grco da funo acumulada de freqncias , em geral, chamado ogiva de freqncias. Esse grco sempre uma poligonal no-descendente, pela prpria denio de freqncia acumulada. Para os extremos das classes, as funes N (x) e F (x) so iguais s freqncias acumuladas absolutas ou relativas das respectivas classes. A questo a resolver como ligar esses pontos. Para responder essa questo, vamos recorrer ao histograma da Figura 2.9, lembrando que rea = freqncia. Para qualquer ponto x na primeira classe, F (x) a rea de um retngulo de base x 47 e altura 0,01809524, ou seja, F (x) = (x 47) 0, 01809524 e essa a equao de uma reta que passa pelos pontos (47; 0) e (68; 0, 38), uma vez que no h observaes menores que 47 e 38% das observaes so menores que 68. Para qualquer ponto na segunda classe, F (x) igual rea do retngulo correspondente primeira classe (ou seja, a freqncia da primeira classe) mais a rea de um retngulo com base (x 68) e altura 0,01809524, ou seja, F (x) = 0, 38 + (x 68) 0, 01809524 e essa a equao de uma reta que passa pelos pontos (68; 0, 38) e (89; 0, 76). Analogamente, para qualquer ponto na terceira classe, F (x) igual rea dos dois primeiros retngulos mais a rea de um retngulo com

CAPTULO 2. APRESENTAO DE DADOS

32

base x 89 e altura 0,00857143, ou seja, F (x) = 0, 76 + (x 89) 0, 00857143 e essa a equao de uma reta que passa pelos pontos (89; 0, 76) e (110; 0, 94). Generalizando esse raciocnio, vemos que a ogiva de freqncias formada por segmentos de reta que ligam os pontos no plano cujas abscissas so os extremos superiores das classes e cujas ordenadas so as freqencias acumuladas das respectivas classes. Assim como no caso discreto, N (x) ou F (x) igual a 0 para qualquer x menor que o valor mnimo e igual a n (nmero total de observaes) ou 1 para qualquer valor maior que o valor mximo dos dados. Na Figura 2.13 temos a ogiva das freqncias relativas para o preo dos ovos nos estados americanos. Figura 2.13: Distribuio de freqncia acumulada dos preos dos ovos nos estados americanos Fonte: Tabela 2.13
1,1

0,9

0,8

0,7

0,6

0,5

0,4

0,3

0,2

0,1

0
26 47 68 89 110 131 152 173 194

2.4.5

Grco de Linhas

O grco de linhas usado principalmente para representar observaes feitas ao longo do tempo, isto , observaes de uma srie de tempo. No eixo horizontal colocam-se as datas em que foram realizadas as observaes e no eixo vertical, os valores observados. Os pontos assim obtidos so unidos por segmentos de reta para facilitar a visualizao do comportamento dos dados ao longo do tempo. Na Tabela 2.30 so apresentados os resultados referentes taxa de desemprego aberto total (semana), produzidos pela Pesquisa Mensal de Emprego e na Figura 2.14 temos o grco desta srie temporal.

2.4.6

Histograma com classes desiguais

Embora no seja muito usual, possvel construir um histograma quando as classes tm tamanhos diferentes. Mas para que a representao seja correta, as reas dos retngulos tm que ser proporcionais s freqncias das classes. No caso de classes iguais, como as bases dos retngulos so as mesmas, a diferenciao das reas se faz simplesmente atravs das alturas mas esse no o caso quando as classes so desiguais. Para a construo do histograma, sero acrescentadas

CAPTULO 2. APRESENTAO DE DADOS

33

Jan Fev mar Abr Mai Jun Jul Ago Set Out Nov Dez

Tabela 1991 5,23 5,41 5,90 5,77 5,71 4,87 3,82 4,04 4,35 4,27 4,45 4,15

2.30: Taxa de 1992 1993 4,86 6,00 6,36 5,78 6,21 5,89 5,87 6,12 6,53 5,40 5,17 4,95 5,18 5,23 5,90 5,34 5,75 5,06 5,78 4,90 5,83 4,75 4,51 4,40

de desemprego aberto - semana - Total das reas 1994 1995 1996 1997 1998 1999 2000 5,54 4,42 5,26 5,14 7,26 7,73 7,63 5,38 4,25 5,71 5,55 7,43 7,51 8,17 5,91 4,42 6,39 5,98 8,19 8,16 8,06 5,38 4,35 6,03 5,75 7,94 8,03 7,84 5,18 4,50 5,92 6,00 8,21 7,70 7,80 5,43 4,59 5,93 6,09 7,91 7,85 7,41 5,46 4,84 5,58 5,97 8,02 7,54 7,18 5,50 4,90 5,56 5,95 7,80 7,68 7,15 5,05 5,20 5,24 5,63 7,66 7,37 6,68 4,53 5,10 5,15 5,72 7,45 7,54 6,75 4,01 4,73 4,56 5,36 7,05 7,32 6,19 3,42 4,45 3,83 4,84 6,33 6,28 4,84

- PME 2001 2002 5,70 6,83 5,72 6,98 6,46 7,09 6,51 7,57 6,86 7,70 6,38 7,50 6,19 7,53 6,18 7,30 6,15 7,51 6,55 7,36 6,40 7,07 5,60

Fonte: IBGE - Pesquisa Mensal de Emprego

Figura 2.14: Taxa de desemprego aberto - semana - Total das reas da PME
9,00

8,00

7,00

6,00

5,00

4,00

3,00

2,00

1,00

0,00

ja n/ m 91 ai /9 se 1 t/9 ja 1 n/ m 92 ai /9 se 2 t/9 ja 2 n/ m 93 ai /9 se 3 t/9 ja 3 n/ m 94 ai /9 se 4 t/9 ja 4 n/ m 95 ai /9 se 5 t/9 ja 5 n/ m 96 ai /9 se 6 t/9 ja 6 n/ m 97 ai /9 se 7 t/9 ja 7 n/ m 98 ai /9 se 8 t/9 ja 8 n/ m 99 ai /9 se 9 t/9 ja 9 n/ m 00 ai /0 se 0 t/0 ja 0 n/ m 01 ai /0 se 1 t/0 ja 1 n/ m 02 ai /0 se 2 t/0 2

CAPTULO 2. APRESENTAO DE DADOS

34

tabela de freqncias duas colunas: a primeira d o comprimento de cada classe; a segunda, chamada densidade, obtida dividindo-se as freqncias simples (absoluta ou relativa) das classes pelos respectivos comprimentos. Ento, essa coluna nos d a concentrao em cada classe por unidade da varivel. um conceito anlogo ao conceito de densidade populacional, que mede a concentrao da populao por unidade de rea. Em termos geomtricos, a concentrao nada mais que a altura do retngulo que representa a freqncia de cada classe. A ttulo de ilustrao do procedimento, consideremos os dados sobre aluguis de imveis urbanos dados na Tabela 2.31 cujo histograma se encontra na Figura 2.15. Note que a base de cada retngulo, representada na escala horizontal, tem comprimento i e a altura a densidade, de modo que, como antes, rea = freqncia. Tabela 2.31: Aluguis de 200 imveis urbanos Comprimento Freqncia Simples Freqncia Acumulada de classe Absoluta Relativa Absoluta Relativa i ni fi Ni Fi 1 10 0, 05 10 0, 05 2 50 0, 25 60 0, 30 2 80 0, 40 140 0, 70 3 40 0, 20 180 0, 90 5 20 0, 10 200 1, 00 200 1, 00

Aluguis (u.m.) 2 3 5 7 10 ` 3 ` 5 ` 7 ` 10 ` 15 Total

Densidade fi / i 0, 050 0, 125 0, 200 0, 067 0, 020

Fonte: Dados hipotticos

Figura 2.15: Distribuio de freqncias dos aluguis de 200 imveis urbanos


0,25

0,20

0,15

0,10

0,05

0,00 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

2.4.7

Observaes sobre a construo de grcos

Os grcos so apresentados em uma moldura retangular, formada pelos eixos de referncia. Tal moldura construda, em geral, de forma a se manter a proporcionalidade entre a largura e a altura

CAPTULO 2. APRESENTAO DE DADOS

35

de 1,414 ( 2) para 1, que a mesma razo entre a diagonal e o lado de um quadrado. Denida a moldura, o prximo ponto a denio de uma escala adequada para cada eixo. Para isso, deve-se observar a amplitude dos dados a serem representados no eixo e, a partir dela, denir o tamanho do intervalo que denir a unidade de medida. Esse o procedimento adotado nos pacotes computacionais, se o usurio no dene a escala. Os grcos apresentados nessas notas foram todos construdos utilizando o programa de planilhas EXCEL e o programa XLSTAT . A construo dos grcos de setores, de linhas e de barras automtica no EXCEL, bastando para isso selecionar o tipo adequado. J os histogramas e o polgono de freqncias foram construdos usando o XLSTAT.

2.4.8

Ramo e folhas

Um outro grco usado para mostrar a forma da distribuio de um grupo de dados o ramo-efolhas, desenvolvido pelo estatstico americano John Tukey. Este grco constitudo de uma linha vertical com a escala indicada esquerda desta linha. A escala, naturalmente, depende dos valores observados, mas deve ser escolhida de tal forma que cada valor observado possa ser quebrado em duas partes: uma primeira parte quanticada pelo valor da escala e a segunda quanticada pelo ltimo algarismo do nmero correspondente observao. Os ramos do grco correspondem aos nmeros da escala, esquerda da linha vertical. J as folhas so os nmeros que aparecem na parte direita. Na Figura 2.16 temos o ramo-e-folhas das notas da Vericao Suplementar de Introduo Estatstica Econmica no primeiro semestre de 2003. Note que a quebra dos valores nesse caso bastante natural: os ramos so formados pelo algarismo inteiro e as folhas pelos algarismos decimais, o que indicado pela unidade no grco. Figura 2.16: Notas da VS de Introduo Estatstica Econmica - Semestre 1/2003
Unidade 1 1 = 0 1 2 3 4 5 6 7 8 0 1 1 0 1 0 0 4 0 0 6 3 0 2 0 0 5 5

1,1

3 0 3 0 0 5

4 5 8 2 2 4 5 7 9 9 9 9 0 0 0 0 0 0 0 1 4 6 7 8 8 9 9

Um outro exemplo utiliza os dados da Tabela 2.32, onde temos dados sobre as quilometragens mdias por litro de leo diesel percorridas por nibus de 97 empresas de Belo Horizonte. Na Figura 2.17 temos o respectivo ramo-e-folhas gerado pelo programa XLSTAT. Com relao a esse conjunto de dados, as folhas so formadas pela segunda casa decimal; para passar essa informao, colocado um cabealho indicando a unidade dos dados. Uma outra observao importante diz respeito aos valores extremos: se fssemos represent-los em ramos especcos, a rvore caria muito longa, com vrios ramos vazios. Uma soluo, em geral adotada pelos programas computacionais, listar os valores com saltos na escala e para chamar a ateno para a quebra de escala, pode-se colocar uma linha divisria, como indicado na gura.

CAPTULO 2. APRESENTAO DE DADOS

36

Tabela 2.32: Quilometragem mdia por litro de leo diesel de 97 empresas de nibus de BH Quilometragem mdia por litro de leo diesel 1,02 1,07 1,16 1,30 1,38 1,43 1,47 1,54 1,56 1,57 1,67 1,67 1,72 1,72 1,72 1,79 1,79 1,82 1,82 1,85 1,85 1,89 1,89 1,92 1,92 1,92 1,96 1,96 2,00 2,00 2,04 2,04 2,04 2,08 2,08 2,08 2,08 2,08 2,08 2,13 2,13 2,13 2,13 2,13 2,13 2,13 2,13 2,17 2,17 2,17 2,17 2,17 2,22 2,22 2,22 2,27 2,27 2,27 2,27 2,27 2,33 2,33 2,33 2,33 2,33 2,33 2,38 2,43 2,44 2,44 2,44 2,44 2,50 2,50 2,56 2,56 2,56 2,56 2,56 2,63 2,63 2,70 2,70 2,78 2,78 2,78 2,78 2,86 2,86 2,94 2,94 3,13 3,23 3,44 3,85 4,08 6,67 Fonte: Soares, Farias e Cesar (1991)

Figura 2.17: Ramo-e-folhas para os dados da Tabela 2.32


Unidade: 0,01 10 2 = 1,02

10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 38 40 66

2 7 6 0 3 4 7 2 2 2 0 3 2 3 3 0 3 0 6 4 3 3 4 5 8 7 8 7 6 7 2 2 2 0 3 2 3 4 0 3 0 6 4

7 2 5 2 4 3 2 3 4 6 9 5 6 4 3 7 3 4 6 9 9 6 4 3 7 3 4 6

9 8 3 7 3 8 8 8 8 8 3 3 7 7 7 7 7 7 7 8

6 6

8 8 8 8

CAPTULO 2. APRESENTAO DE DADOS

37

Note que, se olharmos o ramo-e-folhas na posio invertida (isto ,deitado), temos o mesmo efeito visual de um grco de barras. Para certos conjuntos de dados, pode acontecer que alguns ramos apresentem muitas folhas, dicultando a sua interpretao. Considere, por exemplo, os dados da Tabela 2.33, onde temos os dados referentes ao consumo de combustvel (milhas por galo, MPG) para diferentes modelos de carro. O ramo-e-folhas para esses dados est na Figura 2.18. Tabela 2.33: Consumo de combustvel de 30 modelos de carro Modelo MPG Modelo MPG BMW 740i 23 Hyundai Sonata 27 Buick Century 31 Innity Q45 22 Lexus LS400 23 Buick LeSabre 28 Lincoln Continental 26 Buick Park Avenue 27 Lincoln Mark VIII 25 Buick Regal 29 Mazda 626 31 Buick Roadmaster 25 Mazda 929 24 Cadillac DeVille 25 Chevrolet Caprice 26 Mercedes-Benz S320 24 Mercedes-Bens S420 20 Chevrolet Lumina 29 Nissan Maxima 26 Chrysler Concorde 28 Rolls-Royce Silver Stone 15 Chrysler New Yorker 26 Saab 900 26 Dodge Spirit 27 Fort LTD 25 Saab 9000 27 Toyota Camry 28 Ford Taurus 29 Volvo 850 26 Ford Thunderbird 26

Figura 2.18: Ramo-e-folhas para os dados da Tabela 2.33

1 2 3

5 0 1

2 1

Uma forma alternativa de construir esse grco quebrando cada ramo em duas partes: a primeira referente aos nmeros terminando com algarismos menores que 5 e a segunda aos nmeros terminando com algarismos maiores ou iguais a 5. Na Figura 2.19 temos essa nova verso. O ramo-e-folhas comparativo pode ser usado para comparar os resultados referentes a dois grupos. Na Figura 2.20 temos um exemplo baseado nas mdias nais (antes da VS) dos alunos de Introduo Estatstica Econmica no primeiro semestre de 2003. Note que na parte esquerda do grco, as folhas so anotadas crescentemente da direita para a esquerda, enquanto que na parte direita do grco, as folhas so anotadas crescentemente da esquerda para a direita. A anlise desses grcos nos permite ver que a turma da noite teve um comportamento mais homogneo, com notas, em mdia, mais altas que a turma da tarde. Para maiores detalhes sobre esse grco e outras tcnicas de anlise de dados, o leitor pode consultar Tukey(1977), Velleman e Hoaglin(1981) e Murteira(1983).

CAPTULO 2. APRESENTAO DE DADOS Figura 2.19: Ramo-e-folhas alternativo para dados da Tabela 2.33

38

1 1 2 2 3 3

5 0 5 1

2 5 1

3 5

3 5

4 6

4 6

Figura 2.20: Ramo-e-folhas comparativo das notas de alunos


Tarde 9 5 2 0 0 0 2 2 4 0 0 0 0 2 0 5 0 1 2 3 4 5 6 7 8 9 5 8 2 0 0 1 0 0 0 5 8 2 2 0 2 0 0 0 Noite

9 6 6 3 8 8 8 7 7 5 4 3 3 3 3 3 2 2 2 2 1 0 3 3 2 8 4 1 1 0 0 0 0 5

6 3 0 2 0 5

6 2 0 0 0 2

3 0 2 0 0 2 1 3 0 0 3 1 3 0 2 5 2 2 3 5 5 5 5 7 7 8 8 0 0 0 2 2 2 3 3 3 4 5 5 6 8 2 2 2 4 5 5 8

2.4.9

Exerccios resolvidos da Seo 2.4

1. Considere a populao total de cada regio geogrca do Brasil, conforme exibido na Tabela 2.34. Construa grcos de setores e de colunas para representar a populao total por regio e um grco de colunas para comparar as populaes masculina e feminina por regio. Tabela 2.34: Populao por Regio Masculina Norte 6.533.555 23.413.914 Nordeste 35.426.091 Sudeste 12.401.450 Sul 5.801.005 Centro-Oeste Total 83.576.015 Soluo: Para determinar a rea ou ngulo de cada setor, usam-se as seguintes regras de trs: x 360 Regio Norte: = x = 27, 351o 12900704 169799170 360 x = x = 101, 220o Regio Nordeste: 47741711 169799170 360 x = x = 153, 525o Regio Sudeste: 72412411 169799170 regio geogrca do Brasil Populao Feminina Total 6.367.149 12.900.704 24.327.797 47.741.711 36.986.320 72.412.411 12.706.166 25.107.616 5.835.723 11.636.728 86.223.155 169.799.170

CAPTULO 2. APRESENTAO DE DADOS Regio Sul: 360 x = x = 53, 232o 25107616 169799170 360 x = x = 24, 672o Regio Centro-Oeste: 11636728 169799170 Os grco de setores e de colunas so apresentados na Figuras 2.21 e 2.22. Figura 2.21: Populao por regio geogrca do Brasil

39

Centro-Oeste 7%

Norte 8%

Sul 15%

Nordeste 28%

Sudeste 42%

2. Na seo anterior, construmos as tabelas para representar as variveis LOCAL, PAP, RES e RENDA dos dados das Tabelas 2.16 a 2.18. Vamos agora construir os grcos apropriados para cada uma delas. Esses grcos esto apresentados nas Figuras 2.23 a 2.27. Soluo: O interesse na varivel LOCAL est em ver a distribuio dos domiclios pelos trs locais pesquisados; assim, pode-se usar um grco de barras ou um grco de setores (ver Figura 2.23). A varivel PAP indica se a famlia participa ou no de programas de alimentao; essa informao pode ser representada por um grco de barras ou de setores (ver Figura 2.24). A varivel RES ca bem ilustrada com um grco de barras (ver Figura 2.25). Para a varivel RENDA, vamos usar a distribuio com classes desiguais, dada na Tabela 2.24; a representao grca , ento, feita atravs de um histograma, construdo com base nas densidades de cada classe (ver Figura 2.26). Outra possibilidade representar a renda atravs de um ramo-e-folhas (ver Figura 2.27).

2.4.10

Exerccios propostos da Seo 2.4

2.8 Construa os grcos apropriados para representar as tabelas construdas nos Exerccios 2.3 a 2.7.

CAPTULO 2. APRESENTAO DE DADOS

40

Figura 2.22: Populao (em milhes de habitantes) por regio geogrca do Brasil
80

70

60

50

40

30

20

10

0 Norte Nordeste Sudeste Sul Centro-Oeste

Figura 2.23: Distribuio dos domiclios por localizao (LOCAL)

Encosta do morro 31%

Monte Verde 33%

Parque da Figueira 36%

CAPTULO 2. APRESENTAO DE DADOS

41

Figura 2.24: Participao em programas de alimentao (PAP)

No 35%

Sim 65%

Figura 2.25: Nmero de residentes por domiclio (RES)


35 32 30 32

25 21 20

15 15

10 6 5 3 1 0 1 2 3 4 5 6 7 8 9 6 4

CAPTULO 2. APRESENTAO DE DADOS

42

Figura 2.26: Distribuio da renda dos 119 domiclios


20 18 16 14 Nmero de domiclios 12 10 8 6 4 2 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 Renda

Figura 2.27: Ramo-e-folhas da renda das 119 famlias


0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 1 0 1 1 0 0 0 1 4 0 2 1 2 9 0 4 9 0 1 5 0 0 1 1 4 0 3 3 5 0 2 5 1 0 4 2 5 0 3 4 9

3 6 1 1 4 4 6 0 4

3 8 2 1 4 5 9 6 8

3 9 2 1 4 7

4 9 2 3 4 7

4 9 2 4 4 7

4 9 4 5 8 9

5 9 4 5 8

6 9 5 5

6 7 7 8 8 8 9 9 6 6 8 8 8 9 7 8 8 8 8 8 8

9 9

6 3

CAPTULO 2. APRESENTAO DE DADOS

43

2.5
2.5.1

Representao tabular: Distribuio bivariada de freqncias


Variveis qualitativas

At o momento, vimos como organizar e resumir informaes referentes a uma nica varivel. No entanto, bastante freqente depararmos com situaes onde h interesse em estudar conjuntamente duas ou mais variveis. Para os dados da Tabela 2.2, por exemplo, podemos estudar se h alguma relao entre sexo e a matria predileta no segundo grau. Num estudo sobre mortalidade infantil, importante acompanhar tambm o tratamento pr-natal da me; espera-se, neste caso, que haja uma diminuio da taxa de mortalidade infantil com o aumento dos cuidados durante a gravidez. Nesta seo nos deteremos no estudo de distribuies bidimensionais, dando nfase forma de representao tabular. Seguindo uma conveno usual, denotaremos por uma letra maiscula a varivel em estudo e pela letra minscula correspondente o valor observado da varivel. Consideremos inicialmente o caso de duas variveis qualitativas. Como exemplo, vamos trabalhar com os dados apresentados na Tabela 2.2, onde temos a matria predileta no segundo grau e o sexo de 80 alunos. Uma forma de representar conjuntamente as informaes referentes a essas duas varivies atravs de uma distribuio ou tabela conjunta de freqncias. Como temos duas variveis de interesse, precisamos de duas dimenses, linha e coluna, para representar as informaes disponveis, que sero apresentadas em forma de contagem ou freqncia. A escolha da varivel linha e da varivel coluna depende do objetivo do estudo. Se existe entre as variveis uma relao do tipo dependente/explanatria, isto , se queremos usar uma das variveis para explicar a outra, ento costume colocar a varivel explanatria na coluna e denot-la por X. A varivel dependente, que explicada pela varivel explanatria, colocada na linha e indicada pela letra Y . Caso contrrio, qualquer uma das duas pode ser a varivel coluna. No exemplo, poderamos estar interessados em analisar o efeito do sexo sobre a matria predileta (obviamente, no podemos explicar o sexo...); sendo assim, o sexo a varivel explanatria X e a matria predileta no segundo grau a varivel explicada ou dependente Y. Cada aluno d origem a um par de valores (xi , yi ), por exemplo, (masculino, histria). Na Tabela 2.35 apresentamos a distribuio conjunta dessas variveis. Em cada cela temos o nmero de alunos que pertencem simultaneamente s respectivas categorias. Assim, podemos ver que h 12 homens que preferiam geograa no segundo grau, enquanto que, entre as mulheres, apenas 6 preferiam essa matria. Como j visto no caso univariado, essa forma de apresentao mais interessante, uma vez que no estamos interessados na observao individual e, sim, no comportamento dos grupos. Tabela 2.35: Distribuio conjunta das variveis sexo e matria predileta no segundo grau Matria predileta Sexo Total no segundo grau Masculino Feminino Cincias 4 1 5 12 6 18 Geograa 8 6 14 Histria Matemtica 11 15 26 6 11 17 Portugus Total 41 39 80 Alm das contagens em cada cela, acrescentamos tambm a linha e a coluna com os respectivos totais. Os totais das linhas, ento, nos dizem que h 5 alunos que preferiam Cincias, 18 que

CAPTULO 2. APRESENTAO DE DADOS

44

preferiam Geograa, e assim por diante. J os totais das colunas nos dizem que h 41 alunos do sexo masculino e 39 do sexo feminino. O total de alunos (80) pode ser obtido somando-se os totais das linhas (matria predileta): 5 + 88 + 14 + 26 + 17 = 80 ou das colunas (sexo): 41 + 39 = 80. Na construo de tabelas de freqncias univariadas, foi acrescentada tabela a coluna de freqncias relativas, que davam a proporo de elementos em cada classe com relao ao nmero total de elementos. Um procedimento anlogo pode ser feito para as tabelas bidimensionais; a diferena que, neste caso, existem trs possibilidades para expressarmos as propores de cada cela: (i) com relao ao total geral; (ii) com relao ao total de cada linha e (iii) com relao ao total de cada coluna. A escolha entre essas trs possibilidades dever ser feita de acordo com o objetivo da anlise. Nas Tabelas 2.36 a 2.38 temos as trs verses para os dados da Tabela 2.35 usando freqncias relativas. Tabela 2.36: Distribuio conjunta relativa das variveis sexo e matria predileta no segundo grau Matria predileta Sexo Total no segundo grau Masculino Feminino Cincias 5,00 1,25 6,25 15,00 7,50 22,50 Geograa 10,00 7,50 17,50 Histria 13,75 18,75 32,50 Matemtica 7,50 13,75 21,25 Portugus Total 51,25 48,75 100,00

Tabela 2.37: Distribuio condicional do sexo dada a matria Matria predileta Sexo no segundo grau Masculino Feminino Cincias 80,00 20,00 66,67 33,33 Geograa Histria 57,14 42,86 42,31 57,69 Matemtica 35,29 64,71 Portugus Total 51,25 48,75

predileta no segundo grau Total 100,00 100,00 100,00 100,00 100,00 100,00

Tabela 2.38: Distribuio condicional da matria predileta no segundo grau dado o sexo do aluno Matria predileta Sexo Total no segundo grau Masculino Feminino Cincias 9,76 2,56 6,25 29,27 15,38 22,50 Geograa 19,51 15,38 17,50 Histria 26,83 38,46 32,50 Matemtica 14,63 28,21 21,25 Portugus Total 100,00 100,00 100,00 Da Tabela 2.36 podemos concluir que 5% dos alunos so do sexo Masculino e preferiam Cincias no segundo grau, enquanto 18,75% eram do sexo feminino e preferiam Matemtica. Essa a tabela da distribuio conjunta relativa; em cada cela temos a freqncia dos indivduos que pertencem

CAPTULO 2. APRESENTAO DE DADOS

45

simultaneamente s duas categorias em questo relativa ao total geral. A ttulo de ilustrao dos clculos, temos: 4 100 = 5, 00% Masculino e Cincias: 80 15 100 = 18, 75% 80 Da Tabela 2.37 conclui-se, por exemplo, que, dos alunos que preferiam Cincias no segundo grau, 80% so homens e 20% so mulheres, enquanto que, dos alunos que preferiam Matemtica, 42,31% so homens e 57,69% so mulheres. Essa a distribuio condicional do sexo (varivel coluna) dada a matria predileta no segundo grau (varivel linha). Na linha Total temos a distribuio por sexo na populao completa, que coincide com os totais das linhas da Tabela 2.35: 51,25% dos alunos so do sexo masculino e 48,75% so do sexo feminino. Os detalhes dos clculos so o seguintes: Feminino e Matemtica: Masculino 4 100 = 80, 0 5 11 100 = 42, 31 26 Feminino 1 100 = 20, 0 5 15 100 = 57, 69 26

Cincias no segundo grau Matemtica no segundo grau

Da Tabela 2.38 podemos ver que 9,76% dos homens preferiam Cincias no segundo grau, enquanto 15,38% das mulheres preferiam Geograa. Essa tabela nos d a distribuio condicional da matria predileta no segundo grau (varivel linha), dado o sexo (varivel coluna). Na coluna Total temos a distribuio da varivel matria predileta no segundo grau (varivel linha) na populao completa. Esse total, obviamente, coincide com os totais das colunas na Tabela 2.35. Essa a tabela apropriada para a anlise desejada, de comparar os sexos segundo a matria predileta. Os detalhes dos clculos so o seguintes: Cincias no segundo grau, dado que homem Geograa no segundo grau, dado que mulher 4 100 = 9, 76 41 6 100 = 15, 38 39

Mais uma vez, importante salientar que, na construo de tabelas com freqncias relativas, um cuidado especial deve ser tomado com relao ao arredondamento dos nmeros. Arredondamentos excessivos podem fazer com que os totais de linhas e/ou colunas no somem 100%! possvel tambm usar o grco de barras para representar distribuies conjuntas de variveis. Consideremos novamente o exemplo de sexo e matria predileta no segundo grau, conforme dados na Tabela 2.35. O grco apresentado na Figura 2.28 representa essas variveis, levando em conta o fato de que sexo a varivel explicativa.

2.5.2

Variveis quantitativas

No caso de variveis quantitativas discretas com poucos valores, a construo de tabelas bivariadas feita de maneira anloga s variveis qualitativas. Para variveis quantitativas contnuas ou discretas com muitos valores, a construo possvel, mas no muito usual, uma vez que h muita perda de informao pois, assim como no caso univariado, preciso agrupar os dados em classes.

CAPTULO 2. APRESENTAO DE DADOS Figura 2.28: Distribuio da matria predileta no segundo grau por sexo dos alunos
16

46

Matemtica
14

Geografia
12

Matemtica
10

Portugus

Nmero de alunos

Histria
8

Portugus
6

Geografia Histria

Cincias
4

Cincias
0 Masculino Feminino

Diagrama de disperso O diagrama de disperso um grco utilizado para representar conjuntamente os valores de duas variveis quantitativas, com o objetivo de se estudar uma possvel relao entre as duas. Como exemplo, consideremos os dados da Tabela 2.39 sobre despesas com alimentao (Y ) e renda (X). Nesse caso, espera-se que, ao aumentar a renda, aumentem tambm as despesas com alimentao. Como vericar isso gracamente? Para cada domiclio h um par de valores (xi , yi ). O que vamos fazer simplesmente representar esses pontos em um sistema de eixos cartesianos. Na Figura 2.29 temos o diagrama de disperso para esses dados. Na Figura 2.30 temos alguns diagramas de disperso que ilustram possveis padres de relao entre duas variveis. Na linha superior da gura, no grco esquerda h uma relao quase linear crescente, enquanto que no grco direita h uma relao decrescente, tambm quase linear. Na linha inferior, no grco esquerda no podemos identicar qualquer relao entre as variveis, enquanto que no grco direita, a relao no linear, aproximando-se bastante de uma relao quadrtica. No prximo captulo voltaremos a abordar situaes como essas.

CAPTULO 2. APRESENTAO DE DADOS

47

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Tabela 2.39: Despesas com alimentao e renda Despesas com Renda Despesas com Alimentao (u.m.) Mensal (u.m.) Alimentao (u.m.) 52,25 258,3 21 98,14 58,32 343,1 22 123,94 81,79 425,00 23 126,31 119,9 467,50 24 146,47 125,8 482,90 25 115,98 100,46 487,70 26 207,23 121,51 496,50 27 119,80 100,08 519,40 28 151,33 127,75 543,30 29 169,51 104,94 548,70 30 108,03 107,48 564,60 31 168,90 98,48 588,30 32 227,11 181,21 591,30 33 84,94 122,23 607,30 34 98,70 129,57 611,20 35 141,06 92,84 631,00 36 215,40 117,92 659,60 37 112,89 82,13 664,00 38 166,25 182,28 704,20 39 115,43 139,13 704,80 40 269,03

Renda Mensal (u.m.) 719,80 720,00 722,30 722,30 734,40 742,50 747,70 763,30 810,20 818,50 825,60 833,30 834,00 918,10 918,10 929,60 951,70 1014,00 1141,30 1154,60

Figura 2.29: Diagrama de disperso para renda e despesas com alimentao


300

250

Despesas com alimentao

200

150

100

50

0 0 200 400 600 800 1000 1200 1400

Renda domiciliar

CAPTULO 2. APRESENTAO DE DADOS

48

Figura 2.30: Exemplos de diagramas de disperso que ilustram diferentes relaes entre as variveis

2.5.3

Exerccios resolvidos da Seo 2.5

1. Considere a populao, por sexo, de cada regio geogrca do Brasil, conforme exibido na Tabela 2.40. Construa um grco de colunas para comparar as populaes masculina e feminina por regio. Tabela 2.40: Populao por regio geogrca do Brasil para o Exerccio Resolvido 1 Regio Populao Masculina Feminina Norte 6.533.555 6.367.149 23.413.914 24.327.797 Nordeste 35.426.091 36.986.320 Sudeste 12.401.450 12.706.166 Sul Centro-Oeste 5.801.005 5.835.723 Total 83.576.015 86.223.155 Soluo: O grco que compara as populaes masculina e feminina por regio est na Figura 2.31. 2. Na tabela abaixo temos dados sobre hbitos de fumo de uma amostra de moradores de uma pequena cidade (dados ctcios). (a) Dena claramente as variveis envolvidas, estabelecendo o tipo de cada uma. (b) possvel estabelecer uma relao dependente/explanatria entre elas? Em caso armativo, qual a varivel explanatria e qual a varivel dependente? (c) Complete a tabela, acrescentando os totais. (d) Construa as trs tabelas possveis de freqncias relativas.

CAPTULO 2. APRESENTAO DE DADOS

49

Figura 2.31: Populao (em milhes de habitantes) por sexo nas regies geogrcas do Brasil
40

35

30

25

20

Masculina Feminina

15

10

Norte

Nordeste

Sudeste

Sul

Centro-Oeste

(e) Construa o grco apropriado para representar esses dados. Hbitos de fumo Fumante Ex-fumante Nunca fumou Soluo: As variveis envolvidas so Hbito de Fumo e Idade. Ambas so qualitativas, uma vez que a idade foi dada em classes. A nica possibilidade explicar o hbito de fumo pela idade, ou seja, idade a varivel explicativa ou independente e Hbito de Fumo a varivel dependente. A seguir temos a tabela com os totais de linha e de coluna Hbitos de fumo Fumante Ex-fumante Nunca fumou Total < 20 143 11 66 220 Idade [20, 30) 171 152 57 380 30 40 140 20 200 Total 354 303 143 800 Idade [20, 30) 171 152 57

< 20 143 11 66

30 40 140 20

CAPTULO 2. APRESENTAO DE DADOS A distribuio de freqncia relativa conjunta a seguinte: Hbitos de fumo Fumante Ex-fumante Nunca fumou Total < 20 17,875 1,375 8,250 27,500 Idade [20, 30) 21,375 19,000 7,125 47,500 30 5,000 17,500 2,500 25,000 Total 44,250 37,875 17,875 100,000

50

Em termos da distribuio condicional do hbito de fumo por faixa etria (total por coluna) temos a seguinte tabela: Hbitos de fumo Fumante Ex-fumante Nunca fumou Total < 20 65,00 5,00 30,00 100,00 Idade [20, 30) 45,00 40,00 15,00 100,00 30 20,00 70,00 10,00 100,00 Total 44,250 37,875 17,875 100,000

E para a distibuio condicional da idade pelo hbito de fumo (total por linha) a tabela : Hbitos de fumo Fumante Ex-fumante Nunca fumou Total Idade [20, 30) 48,3051 50,1650 39,8601 47,5000

< 20 40,3955 3,6304 46,1538 27,5000

30 11,2994 46,2046 13,9860 25,0000

Total 100,0000 100,0000 100,0000 100,0000

Como idade a varivel explicativa, o grco apropriado o grco de colunas apresentado na Figura 2.32. 3. Construa um grco para comparar as trs localidades com relao varivel Grau de Instruo para os dados das Tabelas 2.16 a 2.18. Soluo: Uma possibilidade o grco de colunas (Figura 2.33) e outra o grco de colunas empilhadas (Figura 2.34). 4. Na Tabela 2.41 temos o consumo de cigarros per capita (X) em 1930 e as mortes (Y ) por 1.000.000 habitantes am 1950, causadas por cncer de pulmo em 11 pases. Para os dados em questo, construa o diagrama de disperso. Soluo: O diagrama de disperso para esses dados est na Figura 2.35 abaixo.

CAPTULO 2. APRESENTAO DE DADOS

51

Figura 2.32: Distribuio do hbito de fumar por faixa etria


180

160

140

120

100

80

60

40

20

<20 Fumante

[20,30) Ex-funamte Nunca fumou

>=30

Figura 2.33: Grau de instruo dos chefes de famlia


25

MV

20

EM PF

15

PF

PF

EM

MV
10

MV
5

EM

Nenhum grau

1o. Grau

2o. Grau

Tabela 2.41: Consumo de cigarros (X) e morte por cncer de pulmo (Y ) para o Exerccio Resolvido 4 da Seo 2.4 Pas X Y Pas X Y Islndia 240 63 Holanda 490 250 Noruega 255 100 Suia 180 180 1125 360 Sucia 340 140 Finlndia 1150 470 Dinamarca 375 175 Gr-Bretanha Canad 510 160 Estados Unidos 1275 200 Austrlia 490 180

CAPTULO 2. APRESENTAO DE DADOS

52

Figura 2.34: Grau de instruo dos chefes de famlia


50 45 40 35 30 25 20

EM

EM EM
18

13

PF

15

PF
15

14

PF
10 5

14 MV MV 11

23

MV
0

6
Nenhum grau 1o. Grau 2o. Grau

Figura 2.35: Consumo de cigarro e mortes por cncer de pulmo para o Exerccio Resolvido 4 da Seo 2.4
500 450 Mortes por cncer de pulmo por 1.000.000 de habitantes 400 350 300 250 200 150 100 50 0 0 200 400 600 800 1000 1200 1400 Consumo de cigarros per capita

CAPTULO 2. APRESENTAO DE DADOS

53

2.6

Exerccios Complementares

2.9 Os pesos dos jogadores de um time de futebol variam de 75 a 95 quilos. Quais seriam os extremos se quisssemos grup-los em 5 classes de mesmo tamanho? 2.10 Em certa poca, os salrios mensais dos operrios de uma indstria eletrnica variavam de 1.500 a 3.150 unidades monetrias. Quais seriam os limites se quisssemos grup-los em 6 classes de mesmo tamanho? 2.11 Na Tabela 2.42 abaixo temos as notas de 50 alunos em um teste. Construa uma tabela de freqncias, usando as classes 20 ` 30, 30 ` 40, 40 ` 50, , 90 ` 100. Construa o histograma, o polgono de freqncias e a ogiva de freqncias. Tabela 2.42: Notas de 29 37 38 47 63 63 63 65 70 70 71 73 76 77 77 79 84 85 87 87 50 alunos 49 52 65 66 73 74 81 81 88 89 para o Exerccio 2.11 56 58 60 62 68 68 69 69 74 75 75 76 82 82 83 83 90 91 94 97

2.12 Num estudo sobre a jornada de trabalho das empresas de Produtos Alimentares foram levantados os dados da Tabela 2.43 relativos ao total de horas trabalhadas pelos funcionrios no ms de agosto (dados hipotticos). Construa uma tabela de freqncias usando 5 classes de mesmo tamanho; construa tambm o histograma e a ogiva de freqncias. Para facilitar a soluo, os valores mnimo e mximo so: 1.815 e 118.800. Tabela 2.43: Jornada de trabalho de empresas alimentares 3.960 5.016 13.015 8.008 6.930 5.544 118.800 57.904 72.600 100.100 55.935 7.223 3.216 7.392 2.530 6.930 1.815 4.338 8.408 8.624 6.864 5.742 5.749 8.514 8.527 3.010 5.914 11.748 8.501 6.512 6.721 2.631 7.082 10.318 8.008 3.590 10.450 6.780 5.060 5.544 6.178 13.763 17.864 34.848 25.300 52.800 17.732 63.923 30.800 19.562 49.240 49.434 26.950 22.308 25.520 49.251 30.976 23.338 43.648 26.796 30.769 16.907 33.911 27.034 16.500 14.445 16.507 36.960 67.760 84.084 89.888 65.340 91.080 99.792 77.836 76.032 para o Exerccio 2.12 4.224 6.138 3.775 4.224 8.065 10.910 2.631 5.236 11.458 10.094 7.128 7.929 9.623 14.883 30.360 18.876 21.146 14.212 44.880 30.008 28.160 42.442 82.280 86.152

2.13 Na Tabela 2.44 temos a densidade populacional (hab/km2 ) das unidades da federao brasileira. Construa um grco ramo-e-folhas para esses dados. 2.14 Na Tabela 2.45 temos a populao dos municpios de MG com mais de 50.000 habitantes, com base nos dados do Censo Demogrco 2000. Excluindo a capital Belo Horizonte, construa uma tabela de freqncias e o respectivo histograma, trabalhando com as seguintes classes (em 1.000 hab.): [50,60), [60,70), [70,80), [80,100), [100,200), [200, 500) e 500 ou mais.

CAPTULO 2. APRESENTAO DE DADOS

54

Tabela 2.44: Densidade populacional dos UF Densidade Populacional (hab/km2 ) RO 6 4 AC AM 2 2 RR 5 PA 4 AP 5 TO 17 MA PI 12 51 CE 53 RN 61 PB 81 PE AL 102

estados brasileiros, para o Exerccio 2.13 UF Densidade Populacional (hab/km2 ) SE 81 BA 24 MG 31 ES 68 RJ 328 SP 149 PR 48 SC 57 RS 37 MS 6 MT 3 GO 15 DF 353

Fonte: IBGE - Censo Demogrco 2000

Tabela 2.45: Populao dos municpios de MG com mais de 50.000 habitantes, para o Exerccio 2.14 Municpio Populao Municpio Populao Municpio Populao Leopoldina 50.097 Timteo 71.478 Varginha 108.998 Pirapora 50.300 Par de Minas 73.007 Barbacena 114.126 73.130 Sabar 115.352 trs Pontas 51.024 Patrocnio 75.216 Patos de Minas 123.881 So Francisco 51.497 Paracatu 76.422 Telo Otoni 129.424 Pedro Leopoldo 53.957 Vespasiano 76.862 Ibirit 133.044 Ponte Nova 55.303 Itana 77.789 Poos de Caldas 135.627 S.Seb.do Paraso 58.335 Caratinga 78.616 Divinpolis 183.962 Janaba 61.651 S.Joo del Rei 78.772 Sete Lagoas 184.871 Formiga 62.907 Lavras 78.997 Santa Luzia 184.903 Januria 63.605 Arax 84.135 Ipatinga 212.496 Cataguases 63.980 Itajub 85.065 Ribeiro das Neves 246.846 Nova Lima 64.387 Ub Viosa 64.854 Ituiutaba 89.091 Gov.Valadares 247.131 92.101 Uberaba 252.051 Trs Coraes 65.291 Muria 97.211 Betim 306.675 Ouro Preto 66.277 Passos 97.451 Montes Claros 306.947 Joo Monlevade 66.690 Cor. Fabriciano 98.322 Juiz de Fora 456.796 Alfenas 66.957 Itabira Manhuau 67.123 Araguari 101.974 Uberlndia 501.214 102.836 Contagem 538.017 Curvelo 67.512 Cons.Lafaiete 106.776 Belo Horizonte 2.238.526 Una 70.033 Pouso Alegre Fonte: IBGE - Censo Demogrco 2000

CAPTULO 2. APRESENTAO DE DADOS

55

2.15 Na Tabela 2.46 temos os dados que ilustram a seguinte manchete do jornal Folha de So Paulo: VAREJO Preos sobem 1,37% em SP, em mdia, na semana; setor no v anormalidade e diz que s acomodao. Hipermercados tm a maior alta do ano. Construa o grco apropriado para ilustrar o fato descrito na manchete. Tabela 2.46: Preos no varejo, para o Exerccio 2.15 Variao % semanal do s preos Semana % Semana % Semana % 17/11 2,05 28/12 1,23 09/02 -0,13 05/01 -0,39 16/02 0,43 24/11 0,18 01/12 -0,26 12/01 0,57 23/02 0,71 19/01 0,58 01/03 0,53 08/12 0,68 26/01 0,30 08/03 0,64 15/12 0,84 02/02 -0,40 15/03 1,37 21/12 1,12
Fonte: Folha de So Paulo

2.16 Para a seguinte notcia, extrada do jornal Folha de So Paulo, construa um grco para ilustrar o texto da notcia. Dentro de dez anos, 90% do mercado automobilstico mundial estar nas mos de meia dzia de conglomerados. A previso consta de estudo produzido pela consultoria especializada britnica Autopolis, que d assessoria tcnica a montadoras que esto instaladas no Reino Unido. ... Dados levantados pela Autopolis mostram que, hoje, a concentrao de mercado j grande. Cerca de 75% do setor dominado por somente seis conglomerados, liderados por General Motors (22,8%), Ford (16,8%), Volkswagen (9,4%), Toyota (9,2%, incluindo Daihatsu), Reanult-Nissan (8,7%) e Daimler-Chrysler (8,3%). Os outros 24,8% do mercado so dominados por uma innidade de empresas pequenas e mdias, como Fiat, BMW, Peugeot e Honda, entre outras.. 2.17 Com base na Tabela 2.47, construa um grco para mostrar a distribuio da populao por sexo nas 27 unidades da federao (UF) brasileiras. 2.18 Na Tabela 2.48 temos dados referentes ao nmero de pulsos excedentes na conta de telefone de uma residncia para os meses de janeiro de 98 a junho de 99. Construa o grco adequado para representar esses dados. 2.19 Na Tabela 2.49, temos dados sobre casas vendidas na regio de Boulder, Colorado (EUA)7 , no primeiro semestre de 1995. Vamos denotar por X a varivel rea (em m2 ) e por Y o preo de venda (em 1000 US$). (a) Construa uma tabela de freqncias completa para a varivel Y (preo de venda) usando 5 classes de mesmo comprimento. Ateno: na denio das classes, tome como limite inferior da primeira classe o valor 110 e trabalhe com amplitude de classe inteira!
7

Dados extrados de Moore e McCabe (1999)

CAPTULO 2. APRESENTAO DE DADOS

56

Tabela 2.47: Populao brasileira por UF e sexo, para o Exerccio 2.17


Populao Populao UF Homens Mulheres UF Homens Mulheres RO 708.140 671.647 SE 874.906 909.569 280.983 276.543 BA 6.462.033 6.608.217 AC 8.851.587 9.039.907 AM 1.414.367 1.398.190 MG 166.037 158.360 ES 1.534.806 1.562.426 RR 6.900.335 7.490.947 PA 3.132.768 3.059.539 RJ AP 239.453 237.579 SP 18.139.363 18.893.040 591.807 565.291 PR 4.737.420 4.826.038 TO 2.669.311 2.687.049 MA 2.812.681 2.838.794 SC 1.398.290 1.444.988 RS 4.994.719 5.193.079 PI 1.040.024 1.037.977 CE 3.628.474 3.802.187 MS 1.287.187 1.217.166 RN 1.359.953 1.416.829 MT PB 1.671.978 1.771.847 GO 2.492.438 5.510.790 981.356 1.069.790 PE 3.826.657 4.091.687 DF AL 1.378.942 1.443.679 Fonte: IBGE - Censo Demogrco 2000

Tabela 2.48: Nmero de Jan/98 110 0 Fev/98 Mar/98 212 Abr/98 239 Mai/98 120 Jun/98 174

pulsos excedentes, para o Jul/98 340 Jan/99 Ago/98 198 Fev/99 Set/98 141 Mar/99 Out/98 195 Abr/99 Nov/98 398 Mai/99 Dez/98 377 Jun/99

Exerccio 2.18 290 48 303 223 296 383

CAPTULO 2. APRESENTAO DE DADOS (b) Construa um ramo-e-folhas para a varivel rea. (c) Construa um diagrama de disperso para as variveis rea e Preo.

57

Tabela 2.49: Vendas de casas em Boulder, Colorado (1995) para o Exerccio 2.19 Preo (Y ) rea (X) Preo (Y ) rea (X) Preo (Y ) rea (X) (1000 US$) (m2 ) (1000 US$) (m2 ) (1000 US$) (m2 ) 113 126 163 227 186 228 114 158 168 228 187 219 168 249 187 222 120 126 169 244 188 279 120 126 169 263 188 249 122 158 170 234 190 317 123 126 129 229 171 283 192 304 172 286 193 195 137 196 173 268 195 217 140 262 175 223 195 232 142 272 175 270 200 234 143 189 175 231 200 322 146 158 146 218 176 249 200 304 177 285 207 300 148 276 178 243 270 252 149 218 178 251 290 322 152 302 180 279 300 353 153 168 157 302 180 189 320 349 181 153 328 388 157 289 185 316 160 277

2.20 Represente gracamente os dados da Tabela 2.50 sobre o consumo dirio mdio de energia eltrica em uma residncia. Tabela 2.50: Consumo dirio mdio de energia para o Exerccio 2.20 Ms Consumo (kWh) Ms Consumo (kWh) Jan/00 6,41 Ago/00 8,00 14,00 Set/00 8,21 Fev/00 Mar/00 15,64 Out/00 8,90 11,63 Nov/00 10,50 Abr/00 9,43 Dez/00 10,34 Mai/00 8,45 Jan/01 8,93 Jun/00 8,10 Jul/00

2.21 Na Tabela 2.51 temos as freqncias acumuladas do nmero de sinistros por aplice de seguro do ramo Automveis. Complete a tabela, calculando as freqencias simples absolutas e relativas e tambm as freqncias acumuladas relativas.

CAPTULO 2. APRESENTAO DE DADOS Tabela 2.51: Nmero de sinistros por aplice, para o Exerccio 2.21 Nmero de Nmero de aplices sinistros 0 2913 4500 1 4826 2 4928 3 5000 4

58

2.22 Em uma pesquisa realizada em uma cidade, entrevistou-se uma amostra de moradores. Dentre as variveis pesquisadas estava a classe de renda e o jornal preferido, dentre os trs maiores da cidade. Os dados constam da Tabela 2.52. Construa a tabela de freqncias relativas apropriada e utilize um grco para ilustr-la. Tabela 2.52: Jornais preferidos Jornal Classe social Pobre Mdia inferior Mdia A 15 27 44 20 27 26 B 13 18 14 C

Alta 22 11 3

2.23 Considere os dados da tabela a seguir, onde temos a opinio de 228 indivduos norte-americanos sobre o aborto, segundo a aliao partidria. Os dados constam da Tabela 2.53. Construa a tabela de freqncias relativas apropriada e utilize um grco para ilustr-la. Tabela 2.53: Opinio sobre aborto Opinio Partido sobre aborto Democrata Republicano A favor 78 34 Neutro 8 5 37 66 Contra

Captulo 3

Medidas Estatsticas
3.1 Introduo

A reduo dos dados atravs de tabelas de freqncias ou grcos um dos meios disponveis para ilustrar o comportamento de um conjunto de dados. No entanto, muitas vezes queremos resumir ainda mais esses dados, apresentando um nico valor que seja representativo do conjunto original. Como, ao fazermos isso, perdemos informao sobre a variabilidade dos dados, importante que se tenha tambm um valor que represente a disperso dos dados. Neste captulo estudaremos algumas medidas de posio, que so medidas que sintetizam, em um nico valor, o conjunto original, e tambm algumas medidas de disperso. Para completar a caracterizao da distribuio univariada dos dados, sero dadas algumas medidas de assimetria e curtose. A covarincia e o coeciente de correlao sero tambm apresentados como medidas de associao linear entre variveis quantitativas.

3.2
3.2.1

Medidas de posio
Mdia aritmtica simples

No nosso dia-a-dia, o conceito de mdia bastante comum, quando nos referimos, por exemplo, altura mdia dos brasileiros, temperatura mdia dos ltimos anos, etc. Denio 3.1 Dado um conjunto de n observaes x1 , x2 , . . . , xn , a mdia aritmtica simples denida como n 1 P x1 + x2 + + xn = x= xi . (3.1) n n i=1 Como exemplo, considere os dados da Tabela 2.2, referentes s notas de duas turmas; a nota mdia para a turma A xA = e para a turma B 206 6 + 3 + 4 + + 5 + 5 = = 5, 4211 38 38 Como os dados originais representam nmero de questes corretas em um teste de mltipla escolha, a mdia representa o nmero mdio de questes corretas. Em geral, a mdia de um conjunto de dados tem a mesma unidade dos dados originais. xB = 59 252 5 + 8 + 8 + +9 + 8 = = 6, 0 42 42

CAPTULO 3. MEDIDAS ESTATSTICAS

60

Nas Figuras 3.1 e 3.2 temos os grcos ou diagramas de pontos1 representando as notas de ambas as turmas. Nessas guras, a setinha indica a mdia do conjunto de dados. A interpretao fsica da mdia aritmtica que ela representa o centro de gravidade da distribuio; nas guras, ela o ponto de equilbrio, indicado pela seta. Figura 3.1: Grco de pontos das notas da Turma A

10

Figura 3.2: Grco de pontos das notas da Turma B

10

11

Considerando os dados sobre nmero de empregados das ULs industriais do Rio de Janeiro apresentados na Tabela 2.9, a tabela de freqncias sem perda de informao, dada na Tabela 3.1, nos auxilia no clculo de vrias medidas descritivas. Como h vrios valores repetidos, podemos calcular a mdia como x= 6774 12 5 + 18 6 + 12 7 + + 1 503 + 1 705 + 1 837 = = 39, 614 12 + 18 + 12 + + 1 + 1 + 1 171

1 Esses grcos so construdos usando-se uma pilha de pontos para representar as freqncias de cada valor. Note que os pontos tm que estar equi-espaados.

CAPTULO 3. MEDIDAS ESTATSTICAS Tabela 3.1: Nmero de empregados - RJ Num. Emp Freq. Num. Emp Freq. 19 4 35 1 20 4 36 1 21 4 37 1 22 2 38 2 23 2 40 3 24 2 45 1 25 1 47 1 26 3 49 1 27 1 51 1 28 2 53 1 29 1 54 1 30 2 55 2 32 1 56 2 33 2 72 1

61

Num. Emp. 5 6 7 8 9 10 11 12 13 14 15 16 17 18

Freq. 12 18 12 10 9 7 8 6 6 5 4 3 4 3

Num. Emp 73 80 98 110 120 204 216 274 351 461 503 705 837

Freq. 2 1 1 1 1 1 1 1 1 1 1 1 1

Note que o valor da mdia aritmtica um valor tal que, se substitussemos todos os dados por ela, isto , se todas as observaes fossem iguais mdia aritmtica, a soma total seria igual soma dos dados originais. Ento, a mdia aritmtica uma forma de se distribuir o total observado pelos n elementos, de modo que todos tenham o mesmo valor. Considere os seguintes dados ctcios referentes aos salrios de 5 funcionrios de uma rma: 136, 210, 350, 360, 2500. O total da folha de pagamentos 3236, havendo um salrio bastante alto, discrepante dos demais. A mdia para esses dados 647,20. Se todos os 5 funcionrios ganhassem esse salrio, a folha de pagamentos seria a mesma e todos teriam o mesmo salrio.

3.2.2

Moda

Analisando os grcos de pontos das notas das turmas A e B, podemos ver que, em ambas as turmas, a nota que mais se repete a nota 5. Esse o conceito de moda. Denio 3.2 A moda de uma distribuio ou conjunto de dados, que representaremos por x , o valor que mais se repete, ou seja, o valor mais freqente. Podemos ter distribuies amodais (todos os valores ocorrem o mesmo nmero de vezes), unimodais (uma moda), bimodais (duas modas), etc. Para as notas das turmas A e B, os diagramas de pontos das Figuras 3.1 e 3.2 nos permitem ver rapidamente que x = x = 5; A B para a Tabela 3.1, temos uma nica moda x = 6.

3.2.3

Mediana

Considere os seguintes conjuntos de dados (hipotticos) referentes aos salrios de empregados de duas rmas, medidos em alguma unidade monetria (u.m.): Firma 1: 300 350 600 700 800

CAPTULO 3. MEDIDAS ESTATSTICAS Firma 2: 300 350 600 700 3000

62

Para a rma 1, o salrio mdio x = 550 e para a rma 2, x = 990 u.m.. A diferena entre os 2 conjuntos o salrio mais alto: na rma 1, os salrios so mais homogneos, enquanto na rma 2 o maior salrio muito mais alto que os restantes. A conseqncia disso que o salrio mdio para a rma 2 ca muito inuenciado por esse valor alto, fazendo com que a mdia no seja um bom representante dos salrios. Esse exemplo ilustra um fato geral sobre a mdia aritmtica: ela muito inuenciada por valores discrepantes (em ingls, outliers), isto , valores muito grandes (ou muito pequenos) que sejam distintos da maior parte dos dados. Nesses casos necessrio utilizar uma outra medida de posio para representar o conjunto; uma medida possvel a mediana. Denio 3.3 Seja x1 , x2 , . . . , xn um conjunto de n observaes e seja x(i) , i = 1, . . . , n o conjunto das observaes ordenadas, de modo que x(1) x(2) x(n) . Ento, a mediana Q2 denida como o valor tal que 50% das observaes so menores que ela e 50% so maiores que ela. Para efeito de clculo, valem as seguintes regras: n mpar : Q2 = x( n+1 ) 2 x( n ) + x( n +1) 2 Q2 = 2 2 (3.2)

n par :

Dessa denio, podemos ver que a mediana o valor central dos dados. Voltando s notas das turmas A e B, na turma A temos 42 notas e na turma B, 38 notas.Assim, a mediana da turma A a mdia da 21a e da 22a notas; para a turma B, a mdia da 19a e da 20a notas. Os diagramas de pontos facilitam a identicao da mediana: Q2,A = Q2,A = x(19) + x(20) 5+5 = =5 2 2 x(21) + x(22) 6+6 = =6 2 2

Para os dados da Tabela 3.1, como o nmero de observaes mpar, n = 171, temos que (note 171 + 1 = 86) : que 2 Q2,RJ = x(86) = 13. Compare esse valor com a respectiva mdia xRJ = 39, 58: os valores altos puxam a mdia para cima.

3.2.4

Separatrizes

A mediana um caso particular de um conjunto mais amplo de medidas estatsticas, chamadas separatrizes. Denio 3.4 A separatriz de ordem p um valor tal que pelo menos p% dos dados so menores do que ele e pelo menos (1 p)% so maiores. As separatrizes mais comuns so os quartis, decis e percentis, cujos fatores de diviso so 4, 10 e 100. Mais precisamente, existem 3 quartis, 9 decis e 99 percentis. Os quartis sero representados pela letra Q e so eles:

CAPTULO 3. MEDIDAS ESTATSTICAS

63

primeiro quartil Q1 : deixa pelo menos 25% das observaes abaixo dele e pelo menos 75% acima; segundo quartil Q2 : deixa pelo menos 50% das observaes abaixo dele e pelo menos 50% acima; a mediana; terceiro quartil Q3 : deixa pelo menos 75% das observaes abaixo dele e pelo menos 25% acima. Os decis sero representados pela letra D e os percentis pela letra P ; assim, por exemplo: o terceiro decil D3 deixa pelo menos 30% das observaes abaixo e pelo menos 70% acima; o quinto decil e o 50o percentil so a mediana; o octagsimo percentil deixa pelo menos 80% das observaes abaixo e pelo menos 20% acima. No clculo das separatrizes quase sempre ser necessrio algum procedimento de arredondamento e aproximao. Para os quartis, podemos adotar o seguinte procedimento: depois de calculada a mediana, considere as duas partes dos dados, a parte abaixo da mediana e a parte acima da mediana, em ambos os casos excluindo a mediana. O primeiro quartil calculado como a mediana da parte abaixo da mediana original e o terceiro quartil calculado como a mediana da parte acima da mediana original. Consideremos as notas da turma B: temos 38 observaes e a mediana a mdia dos valores centrais (19a e 20a observaes). Ento, as duas partes consistem nas 19 observaes inferiores e nas 19 observaes superiores, respectivamente (ver Figura 3.3). Como 19 um nmero mpar, a mediana o valor central, ou seja, a 10a observao; ento, o primeiro quartil a 10a observao e o terceiro quartil a 10a observao contada a partir da posio 19, ou seja, calculado como a observao de posio ordenada 19 + 10 = 29. Resulta Q1,B = 4 e Q3,B = 6. Figura 3.3: Clculo dos quartis - n = 38
Q1

9 10 11 12 13 14 15 16 17 18 19

20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38

Q3

Analogamente, para a turma A, que tem 42 notas, o primeiro e terceiro quartis so calculados como Q1,A = x(11) = 5 Q3,A = x(21+11) = x(32) = 8 Para os dados do Rio de Janeiro, o nmero de observaes mpar (171) e a mediana a observao de posio ordenada 86; excluindo essa observao, restam 85 observaes abaixo e 85 acima. Com 85 observaes, a mediana a observao de posio 43. Logo, o primeiro quartil a

CAPTULO 3. MEDIDAS ESTATSTICAS

64

observao original de posio ordenada 43 e o terceiro quartil a observao original de posio ordenada 86 + 43 = 129. Resulta Q1 = 8 e Q3 = 26. 38 = 3, 8) : O primeiro decil para as notas da turma B pode ser calculado como (note que 10 D1,B = x(4) = 4 e o quarto decil como (note que 4 38 = 15, 2 ' 16) : 10 D4,B = x(16) = 5 Todos esses arredondamentos so necessrios mas um pouco arbitrrios; no existe uma regra denida para tratar as diversas situaes, por isso trabalha-se com a denio pelo menos p% abaixo e (1 p)% acima. Uma boa prtica manter a simetria das separatrizes; por exemplo, o primeiro e o terceiro quartis so simtricos com relao mediana, assim como o primeiro e o nono decis. Ento, se o primeiro decil deixa 5 observaes abaixo, por exemplo, o nono decil deve deixar 5 observaes acima. Para as notas da turma B, o nono decil deve ser calculado como D9 = x(383) = x(35) = 8 e o sexto decil, simtrico ao quarto, como D6 = x(3815) = x(23) = 6

3.2.5

Mdia aritmtica ponderada

Em algumas situaes, os nmeros que queremos sintetizar tm graus de importncia diferentes. Por exemplo, o ndice Nacional de Preos ao Consumidor (INPC) calculado com base nos ndices de Preo ao Consumidor (IPC) de diversas regies metropolitanas do Brasil mas a importncia dessas regies diferente. Uma das variveis que as diferencia a populao residente. Nesse tipo de situao, em vez de se usar a mdia aritmtica simples, usa-se a mdia aritmtica ponderada, que ser representada por xp . Denio 3.5 A mdia aritmtica ponderada de nmeros x1 , x2 , . . . , xn com pesos 1 , 2 , . . . , n denida como n X i xi 1 x1 + 2 x2 + + n xn i=1 xp = = n . X 1 + 2 + . . . + n i
i=1

Se denimos

i =

ento a mdia aritmtica ponderada pode ser reescrita como xp = onde


n P n X i=1

i n X j
j=1

i xi

(3.3)

i = 1.

i=1

CAPTULO 3. MEDIDAS ESTATSTICAS

65

Note que a mdia aritmtica simples um caso particular da mdia aritmtica ponderada, onde 1 todas as observaes tm o mesmo peso e, portanto, peso igual a . n Para a construo do ndice Nacional de Preos ao Consumidor - INPC, o peso de cada ndice regional denido pela populao residente urbana, conforme dados da Tabela 3.2. Os pesos em porcentagem a apresentados representam a participao da populao residente urbana da regio metropolitana no total da populao residente urbana das 11 regies metropolitanas pesquisadas. O ndice geral dado pela mdia ponderada: INPC09/03 = 0, 0572 0, 98 + 0, 0620 0, 36 + 0, 0721 0, 85 + 0, 1030 1, 82 + 0, 0766 0, 36 + 0, 0502 0, 67 + 0, 0219 1, 34 0, 1102 0, 69 + 0, 1080 0, 39 + 0, 2679 0, 94 + 0, 0709 0, 51 +

= 0, 82382

Tabela 3.2: Estrutura bsica de ponderao regional para clculo do INPC rea Geogrca Peso (%) IPC - Set/03 Belm 5,72 0,98 Fortaleza 6,20 0,36 7,21 0,85 Recife 10,30 1,82 Salvador 11,02 0,69 Belo Horizonte 10,80 0,39 Rio de Janeiro 26,79 0,94 So Paulo Curitiba 7,09 0,51 7,66 0,36 Porto Alegre 5,02 0,67 Goinia 2,19 1,34 Distrito Federal INPC - Geral 0,82
Fonte: IBGE

3.2.6

Mdia geomtrica

Denio 3.6 A mdia geomtrica de n valores positivos x1 , x2 , . . . , xn denida como xg = n x1 x2 xn .

(3.4)

Em Demograa, a mdia geomtrica pode ser usada para se estimar a populao de uma determinada localidade num ano tx . usual que os pases realizem Censos Demogrcos a cada 10 anos, quando, ento, obtido o nmero de residentes no pas. Para estimar a populao em algum ano entre dois censos, podemos usar a mdia geomtrica, desde que se suponha que a taxa de crescimento entre os 2 censos seja constante. Sejam P0 a populao no 1o censo, realizado na data t0 , PN a populao do 2o censo realizado na data tN e Px a populao que se quer estimar na data PN ; se a taxa de tx (t0 < tx < tN ). O crescimento da populao entre os dois censos igual a P0 crescimento constante igual a r, isso signica que ao m do primeiro perodo a populao igual a P1 = P0 + P0 r = P0 (1 + r)

CAPTULO 3. MEDIDAS ESTATSTICAS Ao nal do segundo perodo, P2 = P1 + P1 r = P1 (1 + r) = P0 (1 + r) (1 + r) = P0 (1 + r)2 Ao nal do ltimo perodo, Logo, PN = P0 (1 + r)N r PN N N PN = (1 + r) r= 1 P0 P0 A populao em qualquer perodo x entre os censos, ento, dada por r !x x N PN Px = P0 (1 + r) = P0 P0 1 n x = xn PN P0 x q (P0 )Nx (PN )x

66

Lembrando que podemos escrever


N

Px = P0

= (P0 )1 N (PN ) N =

V-se, ento, que Px uma mdia geomtrica de N x valores iguais a P0 e de x valores iguais a PN . Em particular, se o instante de tempo x o perodo central, isto , x = N , ento 2 q h i1 p N N N N N N Px = (Po ) 2 (PN ) 2 = (Po ) 2 (PN ) 2 = P0 PN

a mdia geomtrica de P0 e PN . De acordo com os Censos Demogrcos realizados pelo IBGE, a populao (recenseada) do estado do Rio de Janeiro em 1/9/1980 era de 11.489.797 habitantes e em 1/9/1991 de 12.783.761. Admitindo um crescimento geomtrico constante, uma estimativa para a populao desse estado em 1985 pode ser calculada como r !5 q 11 11 12.783.761 6 5 (11.489.797) (12.783.761) = 11.489.797 = P85 = 11.489.797 = 11.489.797 (1, 009748691)5 = 12.060.876

3.2.7

Mdia harmnica

Considere o seguinte exemplo: uma pessoa viaja num m de semana do Rio de Janeiro para So Paulo, dirigindo seu prprio carro. Na ida, ela desenvolve uma velocidade mdia de 70km/h mas, na volta, por estar o trfego na via Dutra mais tranqilo, ela desenvolve uma velocidade mdia de 90km/h. Qual a velocidade mdia para a viagem completa? Para responder esta pergunta, temos que lembrar que a velocidade mdia dada pela razo entre a distncia percorrida e o tempo gasto para percorr-la. Para simplicar, suponhamos que a distncia entre as duas cidades seja de 450 km. Ento, a distncia total percorrida de 2 450 = 900km. Por outro lado, o tempo gasto na 450 450 h e na volta, h. Logo, a velocidade mdia para a viagem completa de ida foi de 70 90 2 450 2 1 . xh = = = 1 1 450 450 1 1 + + + 70 90 70 90 70 90 2 Essa ltima expresso nos leva denio de mdia harmnica.

CAPTULO 3. MEDIDAS ESTATSTICAS

67

Denio 3.7 A mdia harmnica de um conjunto de valores x1 , x2 , . . . , xn o inverso da mdia aritmtica dos inversos dos valores, isto : xh = 1 1 1 1 + + + x1 x2 xn n = n 1 1 1 + + + x1 x2 xn . (3.5)

Analisando essa expresso, conclui-se que a velocidade mdia para a viagem completa a mdia harmnica das velocidades mdias desenvolvidas na ida e na volta.

3.2.8
Mdia

Algumas propriedades das medidas de posio

1. A mdia aritmtica de um conjunto de valores x1 , x2 , . . . , xn maior ou igual ao menor dos nmeros e menor ou igual ao maior dos nmeros. Em outras palavras, a mdia aritmtica est compreendida entre o menor e o maior valor dos dados. Para demonstrar esse fato, sejam x(1) , x(2) , . . . , x(n) as observaes ordenadas, isto , x(1) x(2) . . . x(n) . Temos que: x= e x= Logo, xmin x xmax (3.6) Como j visto, o conceito de mdia aritmtica simples corresponde ao conceito de centro de gravidade estudado em Fsica. Baseado nesse fato, fcil vericar as seguintes propriedades da mdia. 2. Somando-se um mesmo valor a cada um dos elementos de um conjunto de observaes, a mdia aritmtica simples ca somada desse valor. Note que essa operao equivale a um deslocamento constante e rgido dos dados (uma translao), o que desloca igualmente o centro de gravidade. Para demonstrar formalmente esse resultado, seja x1 , x2 , . . . , xn um conjunto de observaes, s quais somamos uma constante k, isto , criamos uma nova srie de observaes y1 , y2 , . . . , yn denida por yi = xi + k, k = 1, . . . , n. Ento n n n n 1 P 1 P 1 P 1 P y = yi = (xi + k) = xi + k= n i=1 n i=1 n i=1 n i=1 1 1 = x + (k + k + + k) = x + (nk) = x + k. n n Resumindo: (3.7) yi = xi + k y = x + k 3. Multiplicando cada observao por uma mesma constante no nula k, a mdia aritmtica simples ca multiplicada por essa constante. Denindo a nova srie de observaes por yi = kxi , temos que n n n 1 P 1 P 1 P y= yi = kxi = k xi = kx. n i=1 n i=1 n i=1 Resumindo: yi = kxi y = kx x(1) + x(1) + + x(1) x1 + x2 + + xn = x(1) n n

x(n) + x(n) + + x(n) x1 + x2 + + xn = x(n) n n

CAPTULO 3. MEDIDAS ESTATSTICAS Mediana e moda

68

Para a mediana e a moda, valem as mesmas propriedades acima. Embora mais trabalhosas para demonstrar formalmente, elas so intuitivas: ao se somar a mesma constante, a relao de ordenao entre os dados no se altera; logo, a mediana ca somada da mesma constante. O valor mais freqente dos novos dados, isto , a moda, passa a ser a moda original mais a constante. Se multiplicamos por uma constante positiva, a ordenao no se altera; logo a nova mediana a mediana original multiplicada pela constante. Se a constante negativa, h uma inverso na ordenao mas os valores centrais se mantm. Relao entre as mdias aritmtica, geomtrica e harmnica Para um conjunto de observaes no-negativas, valem as seguintes relaes: xh xg x. (3.8)

Vamos provar esse resultado para o caso em que temos apenas 2 observaes no negativas, isto , x1 0 e x2 0. As mdias aritmtica, geomtrica e harmnica, neste caso, so: x= x1 + x2 2 xg = x1 x2 xh = 2 1 1 + x1 x2

Quaisquer que sejam x1 , x2 temos que (x1 x2 )2 0 x2 + x2 2x1 x2 1 2

x2 + x2 2x1 x2 0 1 2

x2 + x2 + 2x1 x2 4x1 x2 1 2 (x1 + x2 )2 x1 x2 4 (x1 + x2 ) x1 x2 2 x xg (x1 + x2 )2 4x1 x2

(3.9)

A penltima desigualdade foi obtida extraindo-se a raiz quadrada de ambos os lados; essa operao possvel pois os nmeros envolvidos so todos no-negativos. O resultado provado acima vlido para quaisquer dois nmeros positivos; em particular, vale 1 1 e y2 = . Para esses nmeros temos que para y1 = x1 x2

CAPTULO 3. MEDIDAS ESTATSTICAS

69

y yg y1 + y2 y1 y2 2 1 1 r + 1 1 x1 x2 2 x1 x2 1 1 + 1 x1 x2 2 x1 x2 1 1 1 1 1 + x1 x2 x1 x2
2

1 1 + x1 x2 xh xg

x1 x2 (3.10)

A demonstrao desse resultado para o caso geral (n qualquer) dada no Anexo 1 deste captulo.

3.2.9

Exerccios resolvidos da Seo 3.2

1. Considere os dados da Tabela 3.3 abaixo, onde temos as notas dos 50 alunos, j analisadas no Exerccio 2.3 do captulo anterior. Calcule a nota mdia, a nota modal, a nota mediana, o primeiro e terceiro quartis e o oitavo decil. Tabela 3.3: Notas de 50 alunos em um teste mltipla 3.2 2 3 3 5 6 7 2 6 9 10 9 8 4 5 6 6 8 7 10 5 6 1 7 1 4 3 6 7 8 5
Fonte: Dados hipotticos

escolha para o Exerccio Resolvido 1 da Seo 5 9 9 8 2 4 9 10 6 4 4 7 2 5 6 3 5 1 5 8

Soluo: Para facilitar a soluo do exerccio, consideremos a distribuio de freqncias dada na Tabela 3.4 abaixo. A nota mdia x = = 3 1 + 4 2 + 4 3 + 5 4 + 8 5 + 8 6 + 5 7 + 5 8 + 5 9 + 3 10 = 50 281 = 5, 62 50

A distribuio bimodal, com as modas sendo as notas 5 e 6. Como temos um nmero par de observaes, a mediana a mdia dos valores centrais, que ocupam as posies 25 e 26.

CAPTULO 3. MEDIDAS ESTATSTICAS Tabela 3.4: Notas de 50 alunos para a soluo do Exerccio Resolvido 1 da Seo 3.2 Nota xi Freqncia Freqncia ni xi simples ni acumulada Ni 1 3 3 3 4 7 8 2 4 11 12 3 5 16 20 4 8 24 40 5 8 32 48 6 7 5 37 35 5 42 40 8 5 47 45 9 3 50 30 10 Total 50 281

70

Das freqncias acumuladas, podemos ver que esses valores so ambos iguais a 6 (note que as observaes x(25) a x(32) so todas iguais a 6) , ou seja:: Q2 = x(25) + x(26) 6+6 = =6 2 2

O clculo dos outros quartis se faz notando que a mediana a mdia dos valores centrais e, portanto, as duas partes dos dados so formadas por 25 observaes. Para n = 25, a mediana a observao de posio ordenada 13 e, assim, o primeiro quartil a observao original de posio ordenada 13 e o terceiro quartil a observao original de posio ordenada 25 + 13 = 38, ou seja: Q3 = x(38) = 8 Q1 = x(13) = 4 Para o clculo do oitavo decil, note que 50 = 5 e, portanto, o oitavo decil deve deixar pelo 10 menos 8 5 = 40 observaes abaixo dele; assim, podemos calcular o oitavo decil como D8 = x(41) = 8. 2. Considere os dados referentes populao dos municpios mineiros com mais de 50.000 habitantes da Tabela 3.5. Calcule os trs quartis, o primeiro e o nono decis. Soluo: Temos 60 municpios; logo, a mediana a mdia das observaes de posies ordenadas 30 (Arax) e 31 (Itajub), ou seja: Q2 = 78997 + 84315 = 81656 2

Excluda a mediana, que no uma observao real, restam 30 observaes acima e abaixo. Logo, o primeiro quartil a mdia das observaes de posies ordenadas 15 (Ouro Preto) e 16 (Joo Monlevade) e o terceiro quartil a mdia das observaes de posies ordenadas 30 + 15 = 45 (Telo Otoni) e 30 + 16 = 46 (Ibirit), ou seja: Q1 = Q3 = 66277 + 66690 = 66.483, 5 2 129.424 + 133.044 = 131.234 2

CAPTULO 3. MEDIDAS ESTATSTICAS

71

Tabela 3.5: Populao dos municpios de MG com mais de 50.000 habitantes, para o Exerccio 2 Municpio Populao Municpio Populao Municpio Populao Leopoldina 50.097 Timteo 71.478 Varginha 108.998 73.007 Barbacena 114.126 Pirapora 50.300 Par de Minas 73.130 Sabar 115.352 trs Pontas 51.024 Patrocnio 75.216 Patos de Minas 123.881 So Francisco 51.497 Paracatu 76.422 Telo Otoni 129.424 Pedro Leopoldo 53.957 Vespasiano 76.862 Ibirit 133.044 Ponte Nova 55.303 Itana 77.789 Poos de Caldas 135.627 S.Seb.do Paraso 58.335 Caratinga Janaba 61.651 S.Joo del Rei 78.616 Divinpolis 183.962 78.772 Sete Lagoas 184.871 Formiga 62.907 Lavras 78.997 Santa Luzia 184.903 Januria 63.605 Arax 84.135 Ipatinga 212.496 Cataguases 63.980 Itajub 85.065 Ribeiro das Neves 246.846 Nova Lima 64.387 Ub Viosa 64.854 Ituiutaba 89.091 Gov.Valadares 247.131 92.101 Uberaba 252.051 Trs Coraes 65.291 Muria 97.211 Betim 306.675 Ouro Preto 66.277 Passos 97.451 Montes Claros 306.947 Joo Monlevade 66.690 Cor. Fabriciano 98.322 Juiz de Fora 456.796 Alfenas 66.957 Itabira 101.974 Uberlndia 501.214 Manhuau 67.123 Araguari Curvelo 67.512 Cons.Lafaiete 102.836 Contagem 538.017 106.776 Belo Horizonte 2.238.526 Una 70.033 Pouso Alegre Fonte: IBGE - Censo Demogrco 2000 60 = 6. O primeiro decil deve deixar pelo menos 6 obserPara o clculo dos decis, note que 10 vaes abaixo e, assim, D1 = x(7) = 58.335 e o nono decil, por simetria, D9 = x(54) = 252.051. 3. Vamos fazer uma comparao entre as mdias aritmtica e geomtrica atravs de um exemplo de matemtica nanceira elementar. No regime de capitalizao simples (juros simples), apenas o capital inicial rende juros. J no regime de capitalizao composta (juros compostos), os rendimentos incorporados ao capital inicial, em cada perodo, tambm rendem juros no perodo seguinte. Vamos analisar os resultados da aplicao de umcapital inicial C0 durante um perdo de n meses, com taxas de juros i1 , i2 , i3 , . . . , in que, para simplicar, vamos supor que no estejam em forma percentual. Capitalizao Simples: Como os juros s incidem sobre o capital inicial, em cada ms o valor dos juros Jt (em u.m.) calculado como Jt = C0 it e ao nal do perodo o montante Ct = Ct1 + Jt Ento, para o primeiro ms temos J1 = C0 i1

C1 = C0 + J1 = C0 + C0 i1

CAPTULO 3. MEDIDAS ESTATSTICAS Para o segundo ms, J2 = C0 i2

72

C2 = C1 + J2 = C1 + C0 i2 = C0 + C0 i1 + C0 i2 = C0 + C0 (i1 + i2 ) Para o terceiro ms, J3 = C0 i3

C3 = C2 + J2 = C2 + C0 i3 = C0 + C0 (i1 + i2 ) + C0 i3 = C0 + C0 (i1 + i2 + i3 ) Continuando com esses clculos, obtemos para o no ms Jn = C0 in

Cn = Cn1 + Jn = C0 + C0 (i1 + i2 + i3 + + in1 ) + C0 in = = C0 + C0 (i1 + i2 + i3 + + in1 + in ) n P = C0 + C0 it


t=1

(3.11)

Vamos considerar agora o conceito de taxa mdia de juros. A taxa mdia de juros uma taxa constante que leva ao mesmo capital nal, isto , obtemos o mesmo rendimento mas, a cada ms, a taxa de juros a mesma. Da Eq. 3.11 vemos que, para obter o mesmo capital nal a uma taxa constante i, temos que ter C0 + C0
n P

it = C0 + C0 it =
n P

t=1 n P t=1 n P t=1

t=1

t=1

n P

it = ni i =
n 1 P it n t=1

(3.12)

ou seja, a taxa de juros mdia tem que ser igual mdia aritmtica das taxas mensais. A ttulo de ilustrao, considere as seguintes taxas de juros mensais: i1 = 2, 5%; i2 = 3, 8%; i3 = 4, 5%; i4 = 4, 9%; i5 = 6, 2% e i6 = 7, 8%; suponha tambm que uma pessoa tenha um capital inicial de C0 = 150 u.m. (unidades monetrias). Na Tabela 3.6 resumimos os resultados da aplicao com as taxas mensais variveis e com a taxa mensal mdia. Note que a taxa mdia dada por i= 2, 5 + 3, 8 + 4, 5 + 4, 9 + 6, 2 + 7, 8 = 4, 95% 6

Capitalizao Composta: No regime de capitalizao composta, os juros incidem tambm sobre os rendimentos mensais; assim, o valor dos juros para cada ms dado por Jt = Ct1 it

CAPTULO 3. MEDIDAS ESTATSTICAS Tabela 3.6: Clculo dos juros em regime de capitalizao simples Taxa de juros varivel Taxa de juros constante Juros Montante Juros Montante Taxa (%) Valor (u.m.) (u.m.) Taxa (%) Valor (u.m.) (u.m.) 2,5 3, 75 153,75 4,95 7,425 157,425 3,8 5, 70 159,45 4,95 7,425 164,850 4,5 6, 75 166,20 4,95 7,425 172,275 4,9 7, 35 173,55 4,95 7,425 179,700 6,2 9, 30 182,85 4,95 7,425 187,125 7,8 11, 70 194,55 4,95 7,425 194,550

73

Ms 1 2 3 4 5 6

e o montante Ct = Ct1 + Jt Ento, para o primeiro ms temos J1 = C0 i1

C1 = C0 + J1 = C0 + C0 i1 = C0 (1 + i1 ) Para o segundo ms, J2 = C1 i2

C2 = C1 + J2 = C1 + C1 i2 = C1 (1 + i2 ) = C0 (1 + i1 )(1 + i2 ) Para o terceiro ms, J3 = C2 i3

C3 = C2 + J3 = C2 + C2 i3 = C2 (1 + i3 ) = C0 (1 + i1 )(1 + i2 )(1 + i3 ) Continuando com esses clculos, obtemos para o no ms: Jn = Cn1 in

Cn = Cn1 + Jn = Cn1 + Cn1 in = Cn1 (1 + in ) = C0 (1 + i1 )(1 + i2 )(1 + i3 ) (1(3.13) + in ) Para obter o mesmo capital nal a uma taxa constante i,a taxa mdia constante i tem que ser tal que (1 + i1 )(1 + i2 )(1 + i3 ) (1 + in ) = (1 + i)(1 + i)(1 + i) (1 + i)

Ento, a taxa comum calculada como uma mdia geomtrica, no das taxas mensais, mas dos valores 1 + i, chamados relativos. O 1 aparece exatamente por que os juros incidem sobre o capital do ms anterior. Logo, a taxa comum, em forma percentual, p i = n (1 + i1 )(1 + i2 )(1 + i3 ) (1 + in ) 1

(1 + i1 )(1 + i2 )(1 + i3 ) (1 + in ) = (1 + i)n p 1 + i = n (1 + i1 )(1 + i2 )(1 + i3 ) (1 + in ) (3.14a)

CAPTULO 3. MEDIDAS ESTATSTICAS No nosso exemplo, essa taxa comum p i = 100 6 1, 025 1, 038 1, 045 1, 049 1, 062 1, 078 1 = 6 1.33523059526495 1 4, 936372179 = 100

74

Na Tabela 3.7 temos os clculos para as taxas variveis e constantes. Os valores esto com um nmero excessivo de casas decimais para ilustrar a exatido dos resultados. Tabela 3.7: Clculo dos juros em regime de capitalizao composta Taxa de juros varivel Taxa de juros constante Juros Montante Juros Montante Taxa (%) Valor (u.m.) (u.m.) Taxa (%) Valor (u.m.) (u.m.) 2,5 3, 750000000 153,750000000 4,936372179 7,404558269 157,404558269 3,8 5,842500000 159,592500000 4,936372179 7,770074823 165,174633092 4,5 7,181662500 166,774162500 4,936372179 8,153634635 173,328267728 4,9 8,171933963 174,946096463 4,936372179 8,556128387 181,884396115 6,2 10,846657981 185,792754443 4,936372179 8,978490728 181,884396115 7,8 14,491834847 200,284589290 4,936372179 9,421702447 200,284589290

Ms 1 2 3 4 5 6

4. Um capital inicial de 1200 u.m. foi aplicado em um regime de capitalizao composta, rendendo ao nal de um trimestre (3 meses) juros de 126,52. Qual foi a taxa mdia mensal? Soluo: Note que da equao (3.13) obtemos Cn in i1 1 + = 1+ C0 100 100 Em termos da taxa mdia comum, Cn = C0 r ! r Cn Cn i n i i = 100 n 1+ n = 1+ 1 100 C0 100 C0

No exerccio, o capital nal 1326,52 e, portanto, a variao nos trs meses C3 1326, 52 = 1, 105433333 = C0 1200, 00 Logo, a taxa mdia mensal i = 100 p 3 1, 105433333 1 = 3, 3976937%

5. Resolva o exerccio anterior para um regime de capitalizao simples. Soluo: Da equao (3.11), obtemos que Cn C0 i1 + + in = C0 100

CAPTULO 3. MEDIDAS ESTATSTICAS Em termos da mdia comum, i + + i Cn C0 = C0 100 ou seja, i = 100 Note que Cn C0 C0 n Cn C0 C0 = 100 n

75

Ct C0 a variao relativa; dividindo pelo nmero de perodos, obtemos a variao C0 mdia. No nosso exerccio, 1326,52 1 1200,00 0, 105433333 i = 100 = 100 = 3, 5144444 3 3

6. No ano de 2004, uma escola estadual recebeu, em cada trimestre, uma verba de R$500,00 para comprar folhas de cartolina. A compra sempre feita na primeira semana do trimestre e os preos de cada folha de cartolina esto na Tabela 3.8 abaixo. Tabela 3.8: Preo da cartolina para o Exerccio Resolvido 6 da Seo 3.2 Trimestre Preo (R$) jan-mar 0,35 0,45 abr-jun 0,50 jul-set out-dez 0,52 Qual o preo mdio da folha de cartolina pago pela escola no ano de 2004? Soluo: O preo mdio calculado como a razo entre o valor total gasto e o nmero total de folhas de cartolina compradas. Assim, o preo mdio no a mdia dos preos unitrios 0,35, 0,45, 0,50 e 0,52, porque as quantidades compradas variaram a cada trimestre. O valor total gasto foi de 4 500. O nmero de folhas de cartolina compradas em cada trimestre foi: qI = Logo, o preo mdio pm =
500 0,35

500 0, 35

qII =

500 0, 45

qIII =

500 0, 50

qIV =

500 0, 52

4 500 500 + + 0,50 +


500 0,45

500 0,52

1 0,35

1 0,45

4 +

1 0,50

1 0,52

= 0, 4443

e, portanto, a mdia harmnica dos preos unitrios em cada ano. 7. Em 1973, em certa localidade, o custo da alimentao aumentou 58%, os aluguis subiram 47% e o transporte subiu 49%. Se um assalariado gasta 35% do seu salrio com alimentao, 25% com aluguel e 12% com transporte, qual o aumento percentual dos gastos dessa pessoa com esses trs itens? Soluo:

CAPTULO 3. MEDIDAS ESTATSTICAS

76

Para cada unidade do seu salrio, a pessoa gastava, antes do aumento, 0,35 com alimentao, 0,25 com aluguel e 0,12 com transporte. Depois do aumento, ela passa a ter uma despesa adicional de 0, 58 0, 35 = 0, 203 com alimentao, 0, 47 0, 25 = 0, 118 com aluguel e 0, 49 0, 12 = 0, 059 com transporte, o que totaliza 0, 203 + 0, 118 + 0, 059 = 0, 380. Ento, para cada unidade do seu salrio, ela tem um aumento de 0,38 nos gastos com esses trs itens, ou seja,um aumento de 38%. Note que ela j gastava 0, 35+, 025 + 0, 12 = 0, 72 = 72% do salrio com esses trs itens. Agora, ela passa a gastar, s com esses itens, 110%, ou seja, mais do que ganha! Esse clculo corresponde a uma mdia ponderada das taxas de aumento, onde os fatores de ponderao correspondem s parcelas do salrio gastas com os diferentes itens. 8. No ms do dissdio de uma determinada categoria, uma rma deu um aumento de 20% a todos os seus funcionrios. Se, antes do aumento, o salrio mdio dos funcionrios era de R$780,00, qual ser o novo salrio mdio? No Natal seguinte, a rma d um abono de R$50,00 para todos os funcionrios. Se a rma tem 22 funcionrios, qual o valor da folha de pagamentos neste ms de dezembro? Soluo: Quando todos os funcionrios tm aumento de 20%, isso signica que cada salrio ca multiplicado por 1,2, ou seja, o salrio de cada funcionrio o salrio antigo mais 20%. Ao multiplicar todos os nmeros por uma mesma constante, a mdia ca multiplicada por essa constante. Ento, o salrio mdio ca multiplicado por 1,2, ou seja, passa a ser 1, 2 780, 00 = R$936, 00. Como a rma tem 22 funcionrios, a folha de pagamentos passa a ser 22 936 = R$20.592, 00. No Natal, os salrios de todos os funcionrios cam somados de R$50,00; logo o salrio mdio tambm ca somado de 50,00 e a folha de pagamentos ser de 20.592 + 22 50 = R$21.692, 00.

3.2.10

Exerccios propostos da Seo 3.2

3.1 O peso mdio dos jogadores de um time de futebol de 81 kg. Se nenhum pesa menos do que 72 kg, quantos podem pesar 95 kg? 3.2 Os dados a seguir representam o nmero de aplices de seguro que um corretor conseguiu vender em cada um de seus 20 primeiros dias em um emprego novo: 2, 4, 6, 3, 2, 1, 4, 3, 5, 2, 1, 1, 4, 0, 2, 2, 5, 2, 2, 1. Calcule a mdia, a mediana e a moda desses dados, interpretando os resultados obtidos. 3.3 O NASDAQ Composite Index d o preo mdio de aes comuns negociadas no balco, isto , fora das bolsas de valores. Em 1991, a capitalizao mdia das companhias no ndice NASDAQ foi de US$ 80 milhes, e a capitalizao mediana foi de US$ 20 milhes. (A capitalizao de uma companhia o valor total de mercado de suas aes). Explique por que a capitalizao mdia muito superior capitalizao mediana. 3.4 Considere os dados da Tabela 2.28 do Exerccio 2.6 do Captulo 2. Sabendo que o total de empregados das 80 empresas de 517.462, calcule o nmero mdio e o nmero mediano de empregados das empresas. Interprete a diferena obtida entre a mdia e a mediana. 3.5 Na Tabela 3.9 temos as variaes mensais do IPCA (ndice de Preos ao Consumidor Amplo) calculadas pelo IBGE para o ano de 1999. Segundo previses feitas pelo ento secretrio-adjunto de Poltica Econmica (Folha de So Paulo, 11/12/1999), o IPCA no ano de 1999 deveria car abaixo de 9%. Para que as previses do secretrio se conrmassem, qual deveria ter sido a taxa mxima do IPCA em dezembro?

CAPTULO 3. MEDIDAS ESTATSTICAS Tabela 3.9: IPCA 1999 para o Exerccio 3.6 do Captulo 3 Jan 0,70 Fev 1,05 Mar 1,10 Abr 0,56 Mai 0,30 Jun 0,19 Jul 1,09 Ago 0,56 Set 0,31 Out 1,19 Nov 0,95

77

Fonte: IBGE

3.6 A contagem de bactrias em uma cultura aumentou de 2500 para 9200 em trs dias. Qual o acrscimo percentual dirio mdio?

3.3
3.3.1

Medidas de disperso
Amplitude

Considere os seguintes conjuntos de dados, representados esquematicamente na Figura 3.4 abaixo. Figura 3.4: Conjuntos de dados com mesma mdia e mediana

Da interpretao fsica da mdia aritmtica como centro de gravidade e da denio de mediana, segue que ambos os conjuntos tm a mesma mdia e a mesma mediana, representadas pelo smbolo O. No entanto, esses conjuntos tm caractersticas diferentes e ao sintetiz-los por uma dessas medidas, essa caracterstica se perder. Tal caracterstica a disperso dos dados: no primeiro conjunto, os dados esto mais concentrados em torno da mdia do que no segundo conjunto. Como poderamos medir essa disperso? Uma primeira idia considerar a amplitude dos dados, que , como j visto, a diferena entre o maior e o menor valor. Denio 3.8 A amplitude de um conjunto de dados a distncia entre o maior valor e o menor valor. (3.15) total = Vmax Vmin . A amplitude tem a mesma unidade dos dados, mas ela tem algumas limitaes, conforme ilustrado na Figura 3.5. A os dois conjuntos tm a mesma mdia, a mesma mediana e a mesma amplitude mas essas medidas no conseguem caracterizar o fato de a distribuio dos valores entre o mnimo e o mximo ser diferente nos dois conjuntos. A limitao da amplitude tambm ca patente pelo fato de ela se basear em apenas duas observaes, independentemente do nmero total de observaes.

CAPTULO 3. MEDIDAS ESTATSTICAS Figura 3.5: Conjuntos de dados com mesma amplitude

78

XXX

XXX

XXX

XXX

3.3.2

Desvio mdio absoluto

Uma maneira de medir a disperso dos dados seria considerar os tamanhos dos desvios xi x de cada observao em relao mdia. Note nas guras acima que quanto mais disperso o conjunto de dados, maiores esses desvios tendem a ser. Para obter uma medida-resumo, isto , um nico nmero, poderamos somar esses desvios, ou seja, considerar a seguinte medida:
n X (xi x). D= i=1

(3.16)

Vamos desenvolver tal frmula, usando as propriedades de somatrio e a denio da mdia amostral.
n n n n X X X X D = (xi x) = xi x= xi nx = i=1

n X i=1

xi n

1 n

i=1 n X i=1

i=1

i=1

xi = 0.

Ou seja: essa medida, que representa a soma dos desvios em relao mdia, sempre nula, no importa o conjunto de dados! Logo, ela no serve para diferenciar quaisquer conjuntos! Vamos dar uma explicao intuitiva para esse fato, que nos permitir obter correes para tal frmula. Ao considerarmos as diferenas entre cada valor e o valor mdio, obtemos valores negativos e positivos, pois, pela denio de mdia, sempre existem valores menores e maiores que a mdia; esses valores positivos e negativos, ao serem somados, se anulam. Bom, se o problema est no fato de termos valores positivos e negativos, por que no trabalhar com o valor absoluto das diferenas? De fato, esse procedimento nos leva denio de desvio mdio absoluto. Denio 3.9 O desvio mdio absoluto de um conjunto de dados x1 , x2 , . . . , xn denido por DM A = 1X |xi x| n
i=1 n

(3.17)

onde as barras verticais representam o valor absoluto ou mdulo. Note que nesta denio estamos trabalhando com o desvio mdio, isto , tomamos a mdia dos desvios absolutos. Isso evita interpretaes equivocadas, pois, se trabalhssemos apenas com a soma

CAPTULO 3. MEDIDAS ESTATSTICAS

79

dos desvios absolutos, um conjunto com um nmero maior de observaes tenderia a apresentar um resultado maior para a soma devido apenas ao fato de ter mais observaes. Esta situao ilustrada com os seguintes conjuntos de dados: Conjunto 1: {1, 3, 5} 13 5 Conjunto 2: 1, , 3, , 5 3 3 Para os dois conjuntos, x = 3 e para o conjunto 1
3 X i=1

|xi x| = |1 3| + |3 3| + |5 3| = 4

e para o conjunto 2
5 X i=1

Ento, o somatrio para o segundo conjunto maior mas o desvio absoluto mdio o mesmo para ambos; de fato, para o primeiro conjunto temos DM A = e para o segundo conjunto 20 4 DM A = 3 = ; 5 3 ao dividirmos o somatrio pelo nmero de observaes, compensamos o fato de o segundo conjunto ter mais observaes que o primeiro. O desvio mdio absoluto tem a mesma unidade dos dados. 4 3

5 3 + |3 3| + 13 3 + |5 3| = 20 = 6, 667. |xi x| = |1 3| + 3 3 3

3.3.3

Varincia e desvio padro

zero. Outra possibilidade de correo, com propriedades matemticas mais adequadas, considerar o quadrado das diferenas. Isso nos leva denio de varincia. Denio 3.10 A varincia2 de um conjunto de dados x1 , x2 , . . . , xn denida por 2 = 1X (xi x)2 . n
i=1 n

Considerar o valor absoluto das diferenas (xi x) uma das maneiras de se contornar o fato de que n P (xi x) = 0. No entanto, a funo mdulo tem a desvantagem de ser no diferencivel no ponto
i=1

(3.18)

Suponhamos que os valores xi representem os pesos, em quilogramas, de um conjunto de pessoas. Ento, o valor mdio x representa o peso mdio dessas pessoas e sua unidade tambm quilogramas, o mesmo acontecendo com as diferenas (xi x). Ao elevarmos essas diferenas ao quadrado, passamos a ter a varincia medida em quilogramas ao quadrado, uma unidade que no tem interpretao fsica. Uma soluo tomar a raiz quadrada da varincia.
2 possvel denir a varincia usando o divisor n 1 no lugar de n; essa a diferena entre os conceitos de varincia populacional e varincia amostral, que ser mais relevante num segundo curso de inferncia estatstica.

CAPTULO 3. MEDIDAS ESTATSTICAS Denio 3.11 O desvio padro de um conjunto de dados x1 , x2 , . . . , xn denido por = Varincia = 2

80

(3.19)

Consideremos a expresso 3.18 que dene a varincia; desenvolvendo o quadrado obtemos:


2

= =

1X 2 1 X 2 xi 2xi x + x2 = xi n n i=1 i=1 n ! n 1X 1X 2 1 xi 2x xi + nx2 = n n n


i=1 i=1

1X 1X 2 2xxi + x = n n
i=1 i=1 n 1X 2 xi 2x2 + x2 n i=1

ou seja
2

Essa forma de reescrever a varincia facilita quando os clculos tm que ser feitos mo ou em calculadoras menos sosticadas, pois o nmero de clculos envolvidos menor. Note que ela nos diz que a varincia a mdia dos quadrados menos o quadrado da mdia. A ttulo de ilustrao, vamos calcular a varincia das notas das turmas A e B. Como visto na Seo 3.2.1, a nota mdia da turma A dados xA = 6, 0 e da turma B xB = 5, 4211. Usando a frmula 3.20 para calcular a varincia, tem-se que 1 2 (5 + 82 + 82 + + 92 + 82 ) (6, 0)2 2 = A 42 1674 36 = 3, 8571 = 42 e o desvio padro A = Para a turma B temos que 2 B = = e o desvio padro B = p 3, 8571 = 1, 964

1X 2 xi x2 = n
i=1

(3.20)

1 2 2 2 2 2 (6 + 3 + 4 + + 5 + 5 ) (5, 4211)2 38 1224 29, 38781163 = 2, 8227 38 2.8227 = 1, 6801.

O desvio mdio absoluto para a turma A : DM AB = 66 1 (|5 6| + |8 6| + |8 6| + + |9 6| + |8 6|) = = 1, 5714 42 42

Na denio da varincia, tomam-se os desvios com relao mdia xi x. A escolha da mdia como o ponto de referncia, alm de resultar em propriedades estatsticas interessantes, tem a seguinte caracterstica: n n P P (xi x)2 = min (xi a)2
i=1 a i=1

CAPTULO 3. MEDIDAS ESTATSTICAS

81

Isto , qualquer que seja o ponto de referncia a, a varincia 2 resulta no menor valor da funo n 1 P f (a) = (xi a)2 . A demonstrao se faz usando os mtodos clssicos de clculo. n i=1
n n P 1 P (1)2(xi a) = 0 (xi a) = 0 n i=1 i=1 n n n n P P P 1 P xi a = 0 xi na = 0 a = xi = x n i=1 i=1 i=1 i=1

f 0 (a) = 0

O ponto a = x corresponde a um mnimo pois f 00 (a) =

n 2 P 2 (0 1) = (n) = 2 > 0. n i=1 n

3.3.4

Propriedades das medidas de disperso

1. Somando-se uma mesma constante a todas as observaes, as medidas de disperso no se alteram. Antes de demonstrar formalmente o resultado, note que ele tem que ser verdadeiro pois, sendo medidas de disperso, ao se somar uma constante aos dados no estamos alterando a disperso dos mesmos. A demonstrao formal a seguinte: seja yi = xi + k. (a) Amplitude ymax = xmax + k ymin = xmin + k y = ymax ymin = (xmax + k) (xmin + k) = xmax xmin = x (b) Desvio mdio absoluto Vimos que y = x + k. Logo DM Ay =
n n n 1 P 1 P 1 P |yi y| = |(xi + k) (x + k)| = |xi x| = DM Ax n i=1 n i=1 n i=1

(c) Varincia e desvio padro 2 = y Como y = x + k, resulta que


n

1X (yi y)2 ; n
i=1 n

2 y

1X 1X = [(xi + k) (x + k)]2 = (xi x)2 = 2 . x n n


i=1 i=1

Naturalmente, se a varincia no se altera, o mesmo ocorre com o desvio padro. Resumindo: y DM Ay yi = xi + k 2 y y = x = DM Ax = 2 x = x

(3.21)

2. Vamos ver o que acontece quando multiplicamos os dados por uma constante no nula. Seja yi = kxi ; nesse caso, y = kx.

CAPTULO 3. MEDIDAS ESTATSTICAS (a) Amplitude Vamos considerar os casos em que k > 0 e k < 0 separadamente. Se k > 0 x(1) = xmin x(2) x(n1) x(n) = xmax

82

kx(1) = kxmin kx(2) kx(n1) kx(n) = kxmax ymin = kxmin ymax = kxmax e, portanto, y = ymax ymin = kxmax kxmin = kx = |k| x Se k < 0 x(1) = xmin x(2) x(n1) x(n) = xmax

kx(1) = kxmin kx(2) kx(n1) kx(n) = kxmax ymax = kxmin ymin = kxmax e, portanto, y = ymax ymin = kxmin kxmax = k (xmax xmin ) = kx = |k| x (b) Desvio mdio absoluto DM Ay = (c) Varincia " n # n n 1X 1X 1X 2 2 = (kxi kx)2 = k (xi x)2 = k 2 (xi x)2 = k2 2 . Y X n n n
i=1 i=1 i=1 n n n 1 P 1 P 1 P |yi y| = |kxi kx| = |k| |xi x| = |k| DM Ax n i=1 n i=1 n i=1

(d) Desvio padro Y = Resumindo:

q q q 2 = k 2 2 = |k| 2 = |k| X . Y X X (3.22)

3. Das denies, resulta que todas as medidas de disperso so no negativas! 0

y = |k| x DM Ay = |k| DM Ax yi = kxi 2 = k2 2 y x y = |k| x

DM A 0

2 0 0

CAPTULO 3. MEDIDAS ESTATSTICAS

83

3.3.5

Coeciente de variao

Considere a seguinte situao: uma fbrica de ervilhas comercializa seu produto em embalagens de 300 gramas e em embalagens de um quilo. Para efeitos de controle do processo de enchimento das embalagens, sorteia-se uma amostra de 10 embalagens de cada uma das mquinas de enchimento, obtendo-se os seguintes resultados: x = 295g 300g = 5g x = 995g 1000g = 5g Em qual das duas situaes a variabilidade parece ser maior? Ou seja, em qual das duas mquinas parece haver um problema mais srio? Note que em ambos os casos h uma disperso de 5g em torno da mdia mas 5g em 1000g menos preocupante que 5g em 300g. Como um exemplo mais extremo, um desvio padro de 10 unidades em um conjunto cuja observao tpica 100 muito diferente de um desvio padro de 10 unidades em um conjunto cuja observao tpica 10000. Surge, assim, a necessidade de uma medida de disperso relativa, que permita comparar, por exemplo, esses dois conjuntos. Uma dessas medidas o coeciente de variao. Denio 3.12 Dado um conjunto de observaes x1 , x2 , . . . , xn , o coeciente de variao (CV) denido como a razo entre o desvio padro dos dados e sua mdia, ou seja: (3.23) CV = . x Note que, como o desvio padro e a mdia so ambos medidos na mesma unidade dos dados originais, o coeciente de variao adimensional. Este fato permite comparaes entre conjuntos de dados diferentes, medidos em unidades diferentes. No exemplo das latas de ervilha, os coecientes de variao para as embalagens oriundas das 2 mquinas so 5 100 = 1, 6667 300 5 100 = 0, 5 1000g CV = 1000 o que conrma a nossa observao anterior: a variabilidade na mquina de 300g relativamente maior. 300g CV =

3.3.6

Intervalo interquartil

Quando introduzimos o conceito de mediana, chamamos a ateno para o fato de que a mdia bastante afetada pela presena de valores discrepantes. Como a varincia e o desvio padro dependem da mdia, eles tambm caro afetados. Torna-se necessrio, ento, denir uma medida de disperso que seja robusta para outliers. Uma dessas medidas o intervalo interquartil. Denio 3.13 O intervalo interquartil a distncia entre o terceiro e o primeiro quartis, isto : (3.24) IQ = Q3 Q1 . Pela denio dos quartis, resulta que, entre os valores Q1 e Q3 , sempre temos 50% das observaes. Assim, quanto maior for o intervalo interquartil, mais dispersos sero os dados.

CAPTULO 3. MEDIDAS ESTATSTICAS

84

3.3.7

Exemplo: escores padronizados

Considere os dois conjuntos de dados abaixo, que representam as notas em Estatstica e Clculo dos alunos de uma determinada turma. Aluno Estatstica Clculo 1 6 7 2 4 8 3 5 9 4 7 10 5 8 6 6 3 7 7 5 8 8 5 9 9 7 5

As notas mdias nas duas disciplinas so: 6+4+5+7+8+3+5+5+7 = 5, 56 9 7 + 8 + 9 + 10 + 6 + 7 + 8 + 9 + 5 = 7, 67 Clculo: xC = 9 As varincias so: Estatstica: xE = Estatstica: 2 = E Clculo: 2 = C 62 + 42 + 52 + 72 + 82 + 32 + 52 + 52 + 72 (5, 56)2 = 2, 2469 9

72 + 82 + 92 + 102 + 62 + 72 + 82 + 92 + 52 (7, 67)2 = 2, 2222 9 Analisando os dois conjuntos de notas, pode-se ver que o aluno 1 tirou 6 em Estatstica e o aluno 5 tirou 6 em Clculo. No entanto, a nota mxima em Estatstica foi 8, enquanto que em Clculo a nota mxima foi 10. Assim, o 6 em Estatstica vale mais que o 6 em Clculo, no sentido de que ele est mais prximo da nota mxima. Uma forma de medir tal fato considerar a posio relativa de cada aluno no grupo. Para isso, o primeiro passo consiste em comparar a nota do aluno com a mdia do grupo, considerando o seu afastamento da mdia. Se xi a nota do aluno, passamos a trabalhar com xi x. O segundo passo consiste em padronizar a escala, j que no primeiro conjunto as notas variam de 3 a 8 e no segundo, de 5 a 10. Essa padronizao da escala se faz dividindo os desvios pelo desvio padro do conjunto, o que nos d o escore padronizado: xi x . (3.25) zi = X O desvio padro das notas de Estatstica E = 1, 49897 e das notas de Clculo C = 1, 49071. Na tabela a seguir temos os escores padronizados; podemos ver a que o escore relativo nota 6 em Estatstica maior que o escore da nota 6 em Clculo, indicando que a primeira vale mais que a segunda. Aluno Estatstica Clculo 1 0, 297 0, 447 2 1, 038 0, 224 3 0, 371 0, 894 4 0, 964 1, 565 5 1, 631 1, 118 6 1, 705 0, 447 7 0, 371 0, 224 8 0, 371 0, 894 9 0, 964 1, 789

Usando as propriedades da mdia e do desvio padro pode-se ver que que os escores padronizados tm mdia zero e desvio padro (e, portanto, varincia) um. Os coecientes de variao das notas de Estatstica e Clculo so 1, 49897 = 0, 2696 CVE = 5, 56 1, 49071 = 0, 1944 CVC = 7, 67 indicando uma maior variabilidade relativa nas notas de Estatstica.

CAPTULO 3. MEDIDAS ESTATSTICAS

85

3.3.8

Exerccios resolvidos da Seo 3.3

1. Considere novamente as notas dos 50 alunos, reproduzidas na Tabela 3.10. Calcule o desvio padro, o desvio mdio absoluto e o intervalo interquartil das notas. Tabela 3.10: Notas de 50 alunos em um teste mltipla escolha para o Exerccio Resolvido 1 da Seo 3.2 2 3 3 5 6 7 5 4 4 3 2 6 9 10 9 8 9 9 7 5 4 5 6 6 8 7 9 10 2 1 10 5 6 1 7 1 8 6 5 5 4 3 6 7 8 5 2 4 6 8
Fonte: Dados hipotticos

Soluo: Como visto na seo anterior, a nota mdia x = 5, 62. O desvio mdio absoluto e a varincia utilizam os desvios de cada observao em torno da mdia. Como temos vrios valores repetidos, podemos usar o mesmo tipo de procedimento para calcular a mdia, resumido na Tabela 3.11: Tabela 3.11: Notas de 50 alunos para a soluo do Exerccio Resolvido 1 da Seo 3.3 Nota xi Freqncia Freqncia Desvio Desvio absoluto Desvio ao quadrado simples ni acumulada Ni xi x ni |xi x| ni (xi x)2 1 3 3 -4,62 13,86 64,0332 4 7 -3,62 14,48 52,4176 2 4 11 -2,62 10,48 27,4576 3 5 16 -1,62 8,10 13,1220 4 5 8 24 -0,62 4,96 3,0752 8 32 0,38 3,04 1,1552 6 5 37 1,38 6,90 9,5220 7 5 42 2,38 11,90 28,3220 8 5 47 3,38 16,90 57,1220 9 3 50 4,38 13,14 57,5532 10 Total 50 103,76 313,7800 O desvio mdio absoluto calculado como 103, 76 3 |1 5, 62| + 4 |2 5, 62| + + 3 |10 5, 62| = = 2, 0752 50 50 e a varincia como Dm = 313, 78 3 (1 5, 62)2 + 4 (2 5, 62)2 + + 3 (10 5, 62)2 = = 6, 2756 50 50 e, portanto, o desvio padro p = 6, 2756 = 2, 505115 2 =

Note que a soma dos desvios em torno da mdia , de fato, zero, ou seja: P (xi x) = 3 (1 5, 62) + 4 (2 5, 62) + + 3 (10 5, 62) = 51, 88 + 51, 88 = 0

CAPTULO 3. MEDIDAS ESTATSTICAS Na seo anterior, calculamos Q1 = x(13) = 4 Logo, o intervalo interquartil IQ = 8 4 = 4 Q3 = x(38) = 8

86

2. Durante 13 dias, uma pessoa anotou o tempo de espera na la do nibus, quando se dirigia ao trabalho. Os valores obtidos so (em minutos): 15, 10, 2, 17, 6, 8, 3, 10, 2, 9, 5, 9, 13. Calcule o desvio padro do tempo de espera. No esquea de indicar a unidade! Soluo: A mdia dos dados x = 109 15 + 10 + 2 + 17 + 6 + 8 + 3 + 10 + 2 + 9 + 5 + 9 + 13 = = 13 13 8, 3846 minutos. Usando a frmula (3.20), a varincia
2

= =

109 2 152 + 102 + 22 + 172 + 62 + 82 + 32 + 102 + 22 + 92 + 52 + 92 + 132 = 13 13 3550 1187 13 1092 15431 11881 1187 1092 = = 21, 005917 = = 2 2 13 13 13 169 169 = p 21, 005917 = 4, 58322 minutos.

e o desvio padro

3. Uma pesquisa sobre consumo de gasolina deu os seguintes valores para a quilometragem percorrida por trs marcas de carro (de mesma classe), em cinco testes com um tanque de 40 litros. Carro A Carro B Carro C 400 403 399 397 401 389 401 390 403 389 378 387 403 395 401

Compare o desempenho dos trs carros. Soluo: O consumo mdio e o desvio padro do consumo nos 5 testes esto resumidos na tabela abaixo: Carro A B C Mdia 398,00 393,40 395,80 Desvio padro 4,89898 8,95768 6,52380 Coeciente de variao 0,01231 0,02277 0,01648

O carro A tem o melhor desempenho, no s porque a mdia maior, mas tambm porque apresenta a menor variabilidade relativa (CV). O carro B certamente tem o pior desempenho.

3.3.9

Exerccios propostos da Seo 3.3

3.7 Calcule todas as medidas de disperso para os dados do Exerccio 3.2 do Captulo 3, referentes ao nmero de aplices vendidas por um corretor de seguros.

CAPTULO 3. MEDIDAS ESTATSTICAS

87

3.8 O Departamento de Proteo ao Meio Ambiente dos Estados Unidos exige que os fabricantes de automveis indiquem, para cada modelo de carro, o consumo de combustvel por milha, na cidade e na rodovia. D-se, na Tabela 3.12, o consumo de combustvel na rodovia (milhas por galo, MPG) para 30 modelos mdios e grandes de carros do ano de 1994. (a) Construa o grco ramo-e-folhas e comente suas principais caractersticas. (b) Calcule a mediana e o intervalo interquartil IQ. (c) O governo taxa os bebedores de combustvel (carros com baixa milhagem) de acordo com a seguinte regra: todos os modelos com consumo abaixo da mediana por mais de 1,5 vezes o intervalo interquartil sero taxados. Segundo esses dados, quais os modelos taxados? Tabela 3.12: Consumo de gasolina para 30 modelos para o Exerccio 3.8 do Captulo 3 Modelo MPG Modelo MPG BMW 740i 23 Hyundai Sonata 27 Innity Q45 22 Buick Century 31 Lexus LS400 23 Buick LeSabre 28 Lincoln Continental 26 Buick Park Avenue 27 Lincoln Mark VIII 25 Buick Regal 29 Buick Roadmaster 25 Mazda 626 31 Mazda 929 24 Cadillac DeVille 25 Mercedes-Benz S320 24 Chevrolet Caprice 26 Mercedes-Bens S420 20 Chevrolet Lumina 29 Nissan Maxima 26 Chrysler Concorde 28 Rolls-Royce Silver Stone 15 Chrysler New Yorker 26 Dodge Spirit 27 Saab 900 26 Saab 9000 27 Fort LTD 25 Toyota Camry 28 Ford Taurus 29 Volvo 850 26 Ford Thunderbird 26 3.9 Para se estudar o desempenho de 2 companhias corretoras de aes, selecionou-se de cada uma delas amostras das aes negociadas. Para cada ao selecionada, computou-se a porcentagem de lucro apresentada durante um perodo xado de tempo, obtendo-se os dados abaixo. Com base nos coecientes de variao, qual companhia teve melhor desempenho? 38 54 55 60 65 Corretora A 45 48 48 54 55 55 55 56 59 60 62 64 70 50 52 55 57 58 Corretora B 50 51 52 53 54 55 55 56 56 57 57 58 59 59 59

61

3.10 Faa uma anlise comparativa dos dados apresentados no ramo-e-folhas da Figura 2.20 do Cap. 2, utilizando medidas estatsticas apropriadas.

3.4

Momentos

Os momentos so quantidades numricas calculadas a partir de um conjunto de dados, usadas tambm para descrever resumidamente a distribuio. A denio de momentos bastante genrica e abrange diversos tipos de medidas.

CAPTULO 3. MEDIDAS ESTATSTICAS

88

Denio 3.14 Seja x1 , x2 , . . . , xn um conjunto de n observaes. Ento, o momento natural de ordem r, representado por m0 denido como: r m0 r 1X r xr + xr + + xr n 2 = = 1 xi . n n
i=1 n

(3.26)

Das denies de mdia e varincia dadas em (3.1) e (3.20), seguem as seguintes equivalncias: x = m0 1 2 = m0 (m0 )2 . 2 1 Muitas vezes interessante considerar os momentos com relao a uma origem que no o zero, sendo a mdia dos dados uma das origens bastante utilizada. Denio 3.15 Seja x1 , x2 , . . . , xn um conjunto de n observaes. Ento, o momento de ordem r centrado na mdia denido como: mr = 1X (xi x)r . n
i=1 n

(3.27)

Da denio de varincia, segue que 2 = m2 . Desenvolvendo a frmula que dene o momento de ordem r centrado na mdia e usando coecientes binomiais, possvel estabelecer uma relao entre o momento de ordem r centrado na mdia e os momentos naturais de ordem menor ou igual a r.

3.5

Medidas de assimetria

Considere os diagramas de pontos dados nas Figuras 3.6 a 3.8, onde a seta indica a mdia dos dados. Analisando-os, podemos ver que a principal e mais marcante diferena entre eles diz respeito simetria da distribuio. A segunda distribuio simtrica, enquanto as outras duas so assimtricas. Figura 3.6: Assimetria positiva

CAPTULO 3. MEDIDAS ESTATSTICAS

89

Figura 3.7: Simetria

Figura 3.8: Assimetria negativa

CAPTULO 3. MEDIDAS ESTATSTICAS

90

No primeiro diagrama a assimetria tal que h maior concentrao na cauda inferior, enquanto no terceiro, a concentrao maior na cauda superior. Visto de outra maneira, na Figura 3.6, os dados se estendem para o lado positivo da escala, enquanto na Figura 3.8, os dados se estendem para o lado negativo da escala. Esses dois fatos caracterizam o primeiro tipo de assimetria como assimetria positiva e o terceiro como assimetria negativa. Na Figura 3.7 temos uma simetria perfeita. Esses trs tipos de assimetria podem ser caracterizados pela posio da moda com relao mdia dos dados. No primeiro tipo, a moda tende a estar esquerda da mdia, enquanto no terceiro tipo, a moda tende a estar direita de mdia (lembre-se que a mdia o centro de gravidade ou ponto de equilbrio da distribuio). Para distribuies simtricas, a moda coincide com a mdia. Denem-se, assim, os trs tipos de assimetria: se a mdia maior que a moda (x > x ), dizemos que a distribuio assimtrica direita ou tem assimetria positiva (Figura 3.6); se a mdia igual moda (x = x ), dizemos que a distribuio simtrica ou tem assimetria nula (Figura 3.7); se a mdia menor que a moda (x < x ), dizemos que a distribuio assimtrica esquerda ou tem assimetria negativa (Figura 3.8). Essas denies, no entanto, no permitem medir diferentes graus de assimetria. Por exemplo, considere os histogramas dados nas Figuras 3.6 e 3.9, ambos assimtricos direita. Figura 3.9: Outra distribuio assimtrica positiva

10

11

12

Uma forma de medir essas diferentes assimetrias seria atravs da distncia x x entre a mdia e a moda mas como as distribuies podem ter graus de disperso diferentes, importante que consideremos a diferena acima na mesma escala. Assim, dene-se o coeciente de assimetria de Pearson como: x x e= ; (3.28) se o coeciente negativo, temos assimetria negativa; se positivo, tem-se assimetria positiva e se nulo, tem-se uma distribuio simtrica. Para os dados da Figura 3.6, temos que x = 2, x = 2, 691358 e = 1, 576384; logo, e= 2, 691358 2 = 0, 43857 1, 576384

CAPTULO 3. MEDIDAS ESTATSTICAS Para os dados da Figura 3.9, x = 2, x = 3, 312057 e = 2, 400162; logo, e= 3, 312057 2 = 0, 54662 2, 400162

91

o que resulta em uma assimetria mais acentuada. possvel tambm denir um coeciente de assimetria atravs do momento centrado na mdia de ordem 3, mas tambm tomado em sua forma padronizada, ou seja:
n X (xi x)3 i=1

E=

(3.29)

Esse coeciente tem as mesmas caractersticas do coeciente de Pearson: ser negativo, nulo ou positivo, dependendo se a distribuio tem assimetria negativa, nula ou positiva. Uma medida de assimetria robusta pode ser denida em termos das distncias de Q1 e Q3 mediana Q2 . Se essas distncias forem iguais, temos uma distribuio simtrica. Para as distribuies assimtricas, temos o seguinte: Q2 Q1 < Q3 Q2 assimetria positiva Assim, dene-se o coeciente de assimetria de Bowley como e0 = (Q3 Q2 ) (Q2 Q1 ) Q3 Q1

Q2 Q1 > Q3 Q2 assimetria negativa

Note que aqui o denominador o intervalo interquartil, que tambm uma medida de disperso, o que torna o coeciente adimensional. Como antes, e0 > 0, e0 < 0 e e0 = 0 correspondem respectivamente a distribuies assimtricas positivas, assimtricas negaticas e simtricas. Um resultado interessante pode ser obtido notando-se que Q3 Q1 = (Q3 Q2 ) + (Q2 Q1 ). Quanto mais acentuada for a assimetria positiva de uma distribuio, menor ser Q2 Q1 e e0 tende a +1.Analogamente, quanto mais acentuada for a assimetria negativa, menor ser Q3 Q2 e e0 tende a 1. Resulta que 1 < e0 < 1.

3.6

Uma estratgia alternativa para anlise de dados

J foi visto que a mdia aritmtica simples muito afetada pelos valores discrepantes, ou seja, esses valores exercem grande inuncia na mdia, puxando esse valor em sua direo. Consideremos um exemplo para relembrar o que foi dito: em um levantamemto sobre as rendas familiares dos funcionrios de uma empresa, os valores obtidos foram (em u.m.) 7, 9, 10, 15, 25 mas o digitador se equivocou e digitou 250 no lugar de 25. Vamos ver os efeitos desse erro nas mdias e desvios padres dos conjuntos de dados. Para os valores corretos temos: x= 2 = 7 + 9 + 10 + 15 + 25 = 13, 2 5

1 2 7 + 92 + 102 + 152 + 252 13, 22 = 216 174, 24 = 41, 76 5 = 6, 4622

CAPTULO 3. MEDIDAS ESTATSTICAS Para os valores incorretos temos que: 7 + 9 + 10 + 15 + 250 = 58, 2 5 1 2 2 = 7 + 92 + 102 + 152 + 2502 13, 22 = 12591 3387, 24 = 9203, 76 5 = 95, 9362 x=

92

V-se que h um aumento acentuado nos valores das estatsticas acima. Nesse exemplo, o valor discrepante foi resultado de um erro mas nem sempre assim. Existem valores discrepantes que reetem algum acontecimento especial. Nessas situaes, importante ter uma estratgia alternativa de anlise dos dados, que permita compreender melhor o fenmeno em estudo. Agora vamos apresentar um conjunto de medidas estatsticas (a mediana uma delas), que chamamos medidas robustas, por no serem afetadas pela presena de poucos valores discrepantes.

3.6.1

O esquema dos cinco nmeros

Com relao medida de posio, j vimos que a mediana uma medida robusta; ela ser, ento, usada nesse tipo de anlise. Com relao medida de disperso, ser usado o intervalo interquartil que, como j visto, denido a partir dos quartis. Como importante tambm saber os valores extremos, estes tambm sero usados na anlise. Uma forma de apresentar esses valores atravs do esquema dos cinco nmeros, cuja representao genrica est na Figura 3.10 a seguir. Figura 3.10: Esquema dos 5 nmeros

Q2 Q1
Mnimo

Q3
Mximo

3.6.2

O boxplot

A partir dessas medidas constri-se tambm um grco chamado grco de caixas (em ingls, boxplot) que ilustra os principais aspectos da distribuio, tomando por base essas medidas robustas. O boxplot um grco muito til tambm na comparao de distribuies. O boxplot formado basicamente por um retngulo vertical (ou horizontal). O comprimento do lado vertical (ou horizontal) dado pelo intervalo interquartil (Figura 3.11(a) , onde estamos trabalhando com um retngulo vertical). O tamanho do outro lado indiferente, sugerindo-se apenas uma escala razovel. Na altura da mediana, traa-se uma linha, dividindo o retngulo em duas partes (Figura 3.11(b)). Note que a j temos representados 50% da distribuio e tambm j temos idia da assimetria da mesma. Para representar os 25% restantes em cada cauda da distribuio temos que cuidar primeiro da presena de possveis outliers ou valores discrepantes.

CAPTULO 3. MEDIDAS ESTATSTICAS Figura 3.11: Construo do boxplot - Etapa 1

93

Q3

Q3 Q2

Q1
(a)

Q1
(b)

Um dado ser considerado outlier se ele for menor que Q1 1, 5 IQ ou maior que Q3 + 1, 5 IQ [Figura 3.12(a)]. Para representar o domnio de variao dos dados que no so outliers, traa-se, a partir do retngulo, uma linha para cima e outra para baixo at o ponto mais remoto que no seja outlier Figura 3.12(b)]. Esses pontos so chamados juntas. Figura 3.12: Construo do boxplot - Etapa 2

1,5 IQ

1,5 IQ

Q3 Q2
Q1 IQ

Q3 Q2
Q1 IQ

1,5 IQ

1,5 IQ

(a)

(b)

Quanto aos outliers, eles so representados individualmente por um X (ou algum outro tipo de carcter), explicitando, de preferncia, os seus valores mas com quebra de escala no eixo (Figura 3.13). Como exemplo, vamos construir o esquema dos 5 nmeros e o boxplot para os dados apresentados na Tabela 3.13, onde temos as populaes, em 1000 habitantes, dos estados brasileiros ordenadas crescentemente. Como temos 27 estados, a mediana o valor central, correspondente 14a observao, ou seja, a

CAPTULO 3. MEDIDAS ESTATSTICAS

94

Figura 3.13: Construo do boxplot - Etapa 3

1,5 IQ

Q3 Q2
Q1 IQ

1,5 IQ

X X

Tabela 3.13: Populao RR 325 MS AP 478 MT AC 558 RN TO 1158 AM RO 1380 AL SE 1785 PI DF 2052 ES

dos estados brasileiros (em 1000 hab.) 2079 PB 3444 PR 9564 2505 GO 5004 RS 10188 2777 SC 5357 BA 13071 2813 MA 5652 RJ 14392 2823 PA 6193 MG 17892 2844 CE 7431 SP 37033 3098 PE 7919

CAPTULO 3. MEDIDAS ESTATSTICAS

95

observao correspondente ao estado do Esprito Santo. Tirando a mediana, sobram 13 observaes em cada metade dos dados; logo, o primeiro quartil a stima maior observao (DF) e o terceiro quartil a 21a (14+7) maior observao (PE). Q1 = 2052 O intervalo interquartil : IQ = 7919 2052 = 5867 Com relao aos outliers, temos que: Q1 1, 5 IQ = 2052 1.5 5867 = 6748, 5 Q3 + 1, 5 IQ = 7919 + 1.5 5867 = 16720 Logo, no h outliers na cauda inferior mas na cauda superior, os estados de Minas Gerais e So Paulo so outliers. Nas Figuras 3.14 e 3.15 temos o esquema dos 5 nmeros e o boxplot para esses dados. Figura 3.14: Populao das UFs brasileiras (em 1000 hab) - Esquema dos 5 nmeros
3098 1822 7918

Q2 = 3098

Q3 = 7919

325

37033

Figura 3.15: Populao das UFs brasileiras (em 1000 hab) - Boxplot
Box plot - Pop 40000
SP

35000 30000 25000 20000


MG

15000 10000 5000 0

RJ

RR

Note que as linhas ou pontos correspondentes aos limites Q1 1, 5IIQ e Q3 + 1, 5IIQ no so represetados no grco; eles servem apenas para identicar os outliers.

CAPTULO 3. MEDIDAS ESTATSTICAS

96

O boxplot muito usado tambm para se fazerem comparaes entre conjuntos de dados. Considere, por exemplo, os dados da Tabela 3.14, correspondentes populao urbana e rural das 27 UFs brasileiras, segundo dados do Censo Demogrco 2000. Esses dados encontram-se representados na Fig. 3.16. Podemos ver que a populao urbana apresenta maior variabilidade e tambm uma forte assimetria positiva. H 3 UFs que so discrepantes: So Paulo, Minas Gerias e Rio de Janeiro. Tabela 3.14: Populao urbana e rural das UFs brasileiras (em 1000 hab.) UF Populao UF Populao Urbana Rural Urbana Rural RO 885 496 MG 14672 3220 AC 371 188 ES 2464 635 2108 706 RJ 13822 570 AM 248 78 SP 34593 2440 RR 4121 2072 PR 7787 1778 PA 425 53 SC 4218 1139 AP 860 298 RS 8318 1870 TO MA 3365 2288 MS 1748 331 1789 1055 MT 1988 517 PI 5316 2116 GO 4397 607 CE 2037 741 DF 1962 90 RN 2448 997 PB PE 6059 1861 AL 1920 903 SE 1274 512 BA 8773 4298
Fonte: IBGE - Censo Demogrco 2000

3.7

Medidas de posio e disperso para dados agrupados

Nesta seo sero vistas algumas medidas de posio e disperso para dados agrupados em classes. Embora seja recomendvel calcular tais medidas para um conjunto de dados antes de agrup-los, s vezes no possvel; por exemplo, os dados originais podem no estar disponveis. A idia bsica subjacente aos clculos a serem feitos a seguinte: ao agruparmos os dados em classes, estamos perdendo informao, a individualidade dos valores. Informar apenas que existem 5 valores na classe 2 ` 5 nos obriga a escolher um valor tpico, representante de tal classe. Esse valor ser sempre o ponto mdio da classe. Ento a informao anterior interpretada como a existncia de 5 valores iguais a 3,5. Essa a interpretao bsica da tabela de freqncias: todos os valores de uma classe so considerados iguais ao ponto mdio da classe. A partir dessa interpretao, o clculo das principais medidas de posio e disperso se faz usando as denies usuais, apenas aplicadas a um novo conjunto de dados, representado pelos pontos mdios das classes. Vamos ilustrar todos os conceitos com os dados da Tabela 2.31, que reproduzimos na Tabela 3.15 para facilitar a apresentao. Note que nessa nova verso da tabela acrescentamos a coluna do ponto mdio da classe, que ser denotado por xi .

CAPTULO 3. MEDIDAS ESTATSTICAS

97

Figura 3.16: Populao urbana e rural das UFs brasileiras (em 1000 hab)
40000 35000 30000 25000 20000 15000 10000 5000 0

Urbana

Rural

Tabela 3.15: Aluguis de 200 imveis urbanos Classes de Ponto Freqncia Simples Freqncia Acumulada aluguis mdio Absoluta Relativa Absoluta Relativa xi ni fi Ni Fi (u.m.) 2`3 2, 5 10 0,05 10 0,05 4, 0 50 0,25 60 0,30 3`5 6, 0 80 0,40 140 0,70 5`7 8, 5 40 0,20 180 0,90 7 ` 10 10 ` 15 12, 5 20 0,10 200 1,00

CAPTULO 3. MEDIDAS ESTATSTICAS

98

3.7.1

Mdia simples

Para calcular a mdia desse novo conjunto de dados temos que fazer: x =

A interpretao da tabela de freqncias nos diz que h 10 observaes iguais a 2,5; 50 observaes iguais a 4,0; 80 iguais a 6,0; 40 iguais a 8,5 e 20 iguais a 12,5. Ento esses dados podem ser vistos como o seguinte conjunto de observaes: 2, 5 . . (3.30) . 10 ocorrncias 2, 5 4, 0 . . . 50 ocorrncias 4, 0 6, 0 . . . 80 ocorrncias 6, 0 8, 5 . . . 40 ocorrncias 8, 5 12, 5 . 20 ocorrncias . . 12, 5 10 2, 5 + 50 4, 0 + 80 6, 0 + 40 8, 5 + 20 12, 5 = 200 50 80 40 20 10 2, 5 + 4, 0 + 6, 0 + 8, 5 + 12, 5 = = 200 200 200 200 200 = 0, 05 2, 5 + 0, 25 4, 0 + 0, 40 6, 0 + 0, 20 8, 5 + 0, 10 12, 5 =

= 6, 475

Note, na penltima linha da equao anterior, que os pontos mdios de cada classe so multiplicados pela freqncia relativa da classe. Ento, a mdia dos dados agrupados em classes uma mdia ponderada dos pontos mdios, onde os pesos so denidos pelas freqncias das classes. Em geral temos: k X x= fi xi (3.31)
i=1

Os pesos aparecem exatamente para compensar o fato de que as classes tm nmeros diferentes de observaes.

3.7.2

Varincia

O clculo da varincia feito de modo anlogo, s que agora temos que considerar os desvios dos pontos mdios em torno da mdia, ou seja: 1 10 (2, 5 6, 475)2 + 50 (4, 0 6, 475)2 + 80 (6, 0 6, 475)2 + 2 = = 40 (8, 5 6, 475)2 + 20 (12, 5 6, 475)2 200

CAPTULO 3. MEDIDAS ESTATSTICAS = 50 80 10 (2, 5 6, 475)2 + (4, 0 6, 475)2 + (6, 0 6, 475)2 + 200 200 200 20 40 (8, 5 6, 475)2 + (12, 5 6, 475)2 + 200 200 = 0, 05 (2, 5 6, 475)2 + 0, 25 (4, 0 6, 475)2 + 0, 40 (6, 0 6, 475)2 + = 6, 861875 +0, 20 (8, 5 6, 475)2 + 0, 10 (12, 5 6, 475)2

99

Novamente, temos uma mdia ponderada dos desvios ao quadrado, com os pesos sendo as freqncias relativas. Em geral temos: k X 2 = fi (xi x)2 . (3.32)
i=1

Desenvolvendo o quadrado obtemos uma frmula mais simples de ser utilizada: 2 =


k X i=1 k X i=1 k X i=1

fi (xi x)2 = fi x2 i
k X i=1

k X i=1

fi (x2 2xi x + x2 ) = i
k X i=1

2fi xi x +

fi x =

k X i=1

fi x2 i

2x

k X i=1

fi xi + x

k X i=1

fi =

fi x2 2x x + x2 1 i

onde usamos a denio da mdia de dados agrupados dada em (3.31) e o fato de as freqncias relativas somarem 1. Logo, a varincia de dados agrupados dada por: 2
k X i=1

fi (xi

x)2

k X i=1

fi x2 x2 . i

(3.33)

Note que continua valendo que a varincia a mdia dos quadrados menos o quadrado da mdia, uma vez que o somatrio acima calcula a mdia - ponderada - dos quadrados dos xi .

3.7.3

Mediana

Como j visto, a mediana o valor que deixa 50% das observaes acima e 50% abaixo dela. Estando os dados agrupados em classes, podemos usar a interpretao da tabela de freqncias para calcular a mediana. Considere novamente os dados da Tabela 3.15, cuja interpretao dada em (3.30). Como temos 200 observaes, a mediana o valor que deixa 100 observaes abaixo dela. A centsima observao ocorre na terceira classe, pois nas duas primeiras temos apenas 60 e nas trs primeiras temos 140. Logo, a mediana pode ser denida como o ponto mdio da terceira classe. Essa a denio de mediana bruta, que sempre o ponto mdio da classe onde se completam 50% das observaes, que, por sua vez, chamada classe mediana. No entanto, existe um mtodo geomtrico que produz uma estimativa da mediana um pouco mais renada. As idias subjacentes a esse mtodo so que a mediana divide ao meio o conjunto de dados (ou seja, a denio de mediana) e que, no histograma da distribuio, as reas dos retngulos so proporcionais s freqncias relativas.

CAPTULO 3. MEDIDAS ESTATSTICAS

100

Consideremos o histograma da Figura 3.17, referente aos dados da Tabela 3.15. Nas duas primeiras classes temos 30% das observaes e nas trs primeiras classes temos 70%; logo, a mediana algum ponto da classe mediana 5 ` 7. Para identic-la, devemos notar que na classe mediana cam faltando 50% 30% = 20% da distribuio para completar 50%. Ento a rea A1 do retngulo hachurado deve ser igual a 20%, enquanto o retngulo da classe mediana tem rea Am = 40%. Usando a frmula que d a rea de um retngulo obtm-se: A1 = 0, 20 = (Q2 5) h

Am = 0, 40 = (7 5) h

onde h a altura comum dos dois retngulos. Dividindo as duas igualdades termo a a termo obtm-se: Q2 5 0, 20 = Q2 = 6 . 0, 40 2 Figura 3.17: Clculo da mediana de dados agrupados

A1=20%

40% A2=20%

25%

20% 5% 10% Q2

10

15

O retngulo correspondente classe mediana ca dividido em dois subretngulos. Os clculos acima foram feitos com base no subretngulo inferior mas poderiam tambm ser feitos com base no subretngulo superior, o que resultaria na seguinte regra de trs: 75 7 Q2 2 = 7 Q2 = 0, 2 Q2 = 6. 0, 70 0, 50 0, 40 0, 40 Para generalizar este procedimento, vamos estabelecer a seguinte notao:
I S

limite inferior da classe mediana; limite superior da classe mediana; comprimento da classe mediana ( m =
S

m Fant Fm

I );

freqncia relativa acumulada da classe anterior classe mediana; freqncia relativa acumulada da classe mediana;

CAPTULO 3. MEDIDAS ESTATSTICAS fm freqncia relativa simples da classe mediana (fm = Fm Fant ).

101

Trabalhando com o subretngulo inferior, temos que as reas envolvidas so: A1 = 50 Fant = (Q2 Am = Fm Fant = ( Dividindo membro a membro obtm-se: 50 Fant Q2 = Fm Fant S Q2 =
I I I S I) h I)

h
I

50 Fant Q2 = fm m

(3.34)

50 Fant m fm

Trabalhando com o subretngulo superior, as reas envolvidas so: A2 = Fm 50 = ( Am = fm = ( o que resulta em: Fm 50 = fm ou:
S S S

Q2 ) h
I) h S

Q2 Fm 50 = fm S I
S

Q2 m (3.35)

Q2 =

Fm 50 m fm

Talvez essa ltima frmula seja mais fcil de memorizar, em virtude de s envolver dados relativos classe mediana. Para o exemplo tratado, esses valores so:
I S

= 5 = 7

m = 2 Fant = 30 Fm = 70 fm = 40 resultando, como antes, Q2 = 5 + ou Q2 = 7 50 30 2=6 40 70 50 2 = 6. 40

CAPTULO 3. MEDIDAS ESTATSTICAS

102

3.7.4

Outras separatrizes

O clculo de qualquer separatriz de dados agrupados em classes feito de maneira anloga ao clculo da mediana. A diferena que, em vez de estarmos lidando com a classe mediana, estaremos lidando com a classe onde se completa o percentual da separatriz desejada e com a diferena entre esse percentual e o percentual acumulado at a classe anterior. O procedimento genrico pode ser estabelecido com a seguinte notao: seja p o percentual abaixo da separatriz S desejada (no caso da mediana, p = 50%). Identicada a classe onde se completa essa freqncia acumulada, vamos denot-la por classe p-separatriz. Sejam:
I S

limite inferior da classe p-separatriz; limite superior da classe p-separatriz; comprimento da classe p-separatriz ( m =
S

p Fp fp

I );

freqncia relativa acumulada da classe p-separatriz; freqncia relativa simples da classe p-separatriz.

Trabalhando com o subretngulo superior, como zemos na mediana, as reas envolvidas so: A2 = Fp p = ( Ap = fp = ( Dividindo membro a membro obtm-se: Fp p = fp
S S S S

S) h
I) h

Fp p S = I fp
S

S p (3.36)

S=

Fp p p fp

Vamos aplicar essa frmula para determinar o terceiro quartil dos dados da Tabela 3.15, analisada no caso da mediana. Nesse caso, p = 75% e a classe 75-separatriz a classe 7 ` 10. Logo,
I S

= 7 = 10

75 = 3 F75 = 90% f75 = 20% O terceiro quartil, ento, dado por Q3 = 10 90 75 3 = 7, 75 20

resultante da seguinte relao entre reas (ver histograma da Figura 3.18): (10 7) h (10 Q3 ) h = 90 75 20

CAPTULO 3. MEDIDAS ESTATSTICAS Figura 3.18: Clculo do terceiro quartil

103

40%

25% 15% 20% 5% 10% Q3

10

15

3.7.5

Moda

Como visto, a moda de um conjunto de dados o valor mais freqente. Para dados agrupados em classes, uma denio anloga seria a de classe modal, que a classe de maior freqncia. No exemplo da Tabela 3.15, a classe modal a classe 5 ` 7. Por ser o ponto mdio o representante da classe, podemos denir a moda dos dados como sendo o ponto mdio da classe modal; essa a denio de moda bruta. Ento, para o exemplo anterior, a moda bruta x = 6. Existem, no entanto, alguns mtodos que permitem obter uma estimativa mais renada da moda. Todos esses mtodos buscam, na classe modal, um ponto (valor) que seja representativo da moda dos dados. Os mtodos que veremos baseiam-se no seguinte raciocnio intuitivo: as classes vizinhas classe modal puxam a moda, como numa brincadeira de cabo de guerra. Quanto maior a fora da classe, mais prxima dela estar a moda, ou seja, quanto maior a fora, menor a distncia da moda classe vizinha. Podemos representar esquematicamente essa situao da seguinte forma: fora distncia

Na Figura 3.19 representa-se a idia geral dos mtodos de clculo da moda, com as distncias sendo x I e S x , onde I e S so, respectivamente, os limites inferior e superior da classe modal. Mtodo de King O mtodo de King baseia-se na inuncia das freqncias das classes adjacentes classe modal, ou seja, a "fora"de cada classe vizinha proporcional sua freqncia; assim, a moda estar mais prxima da classe com maior freqncia ou, equivalentemente, quanto maior a freqncia, menor a distncia da moda classe vizinha. Sendo assim, existe uma proporcionalidade inversa entre as distncias e as freqncias das classes vizinhas. Completando o esquema anterior, temos fora freqncia distncia

CAPTULO 3. MEDIDAS ESTATSTICAS Figura 3.19: Ilustrao dos mtodos de clculo de moda

104

lI

x*

lS

Em termos matemticos, isso signica que x


S I

x =

k nI k nS

onde k a constante de proporcionalidade e nI e nS so, respectivamente, as freqncias das classes vizinhas inferior e superior. Dividindo ambas as equaes termo a termo, obtemos que x I nS = nI S x Desenvolvendo a equao (3.37) resulta que nS x I = nI x nI nI S x x = onde
I S I

(3.37)

= nS

nS x (nI + nS )x = nI

+ nS

e da obtm-se uma outra frmula geral da moda de King: nI nI + nS


I

nS nI + nS

(3.38)

limite inferior da classe modal (ou limite superior da classe anterior); limite superior da classe modal (ou limite inferior da classe posterior); freqncia absoluta da classe anterior classe modal; freqncia absoluta da classe posterior classe modal;

nI nS

Da equao (3.38), podemos ver que a moda uma mdia ponderada dos extremos da classe modal, I e S , onde os pesos so denidos pelas freqncias das classes vizinhas.

CAPTULO 3. MEDIDAS ESTATSTICAS Mtodo de Czuber

105

No mtodo de King, a freqncia da classe modal no tem qualquer inuncia; assim, diferentes freqncias modais poderiam levar mesma moda, desde que as classes vizinhas fossem iguais. Uma maneira de introduzir a freqncia da classe modal atravs do mtodo de Czuber, em que a fora de cada classe vizinha denida pela diferena entre a freqncia da classe modal e a sua prpria freqncia. No entanto, essa diferena inversamente proporcional forada classe, ou seja, quanto menor a diferena entre as freqncias, maior a fora e vice-versa. O esquema de proporcionalidades para esse mtodo fora diferena distncia

ou seja, em termos de distncias e medida de fora, temos, agora, uma proporcionaldiade direta, o que nos leva seguinte equao: x
S I

= k(nm nI )

= k(nm nS )

Dividindo termo a termo, temos que x I nm nI = nm nS S x onde nm a freqncia da classe modal e os outros termos so como antes. Vamos adotar a seguinte notao: I = nm nI (3.39)

S = nm nS Desenvolvendo a equao (3.39) temos que x I


I

x S x S S

= I

I x ( I + S )x = S I I + S

+ I

o que resulta na frmula geral da moda de Czuber: x = S I + S


I

(3.40)

Como no mtodo de King, a moda de Czuber tambm uma mdia ponderada dos extremos da classe modal, mas, agora, os pesos so denidos em termos das diferenas entre as freqncias modal e vizinhas. Interpretao geomtrica dos mtodos de King e Czuber Ambos os mtodos de King e Czuber podem ser deduzidos a partir de argumentos de semelhana de tringulos, conforme ilustrado na Figura 3.20. Para o mtodo de King, considere o retngulo correspondente classe modal. No lado inferior, marcamos o ponto A na altura igual freqncia da classe posterior classe modal. No lado superior, mas na parte inferior, marca-se o ponto B , de modo que sua altura seja igual freqncia

CAPTULO 3. MEDIDAS ESTATSTICAS

106

Figura 3.20: Interpretao geomtrica dos mtodos de King e Czuber

CAPTULO 3. MEDIDAS ESTATSTICAS da classe anterior classe modal. Os tringulos sombreados A I x e B resulta a seguinte proporcionalidade entre os lados:
Ix Sx Sx

107 so semelhantes. Ento,

A B

I S

Pela construo desses tringulos, isso signica que: x I nS = x nI S a mesma igualdade obtida anteriormente. Para o mtodo de Czuber, traa-se o segmento SU ligando o extremo superior do lado inferior do retngulo modal ao extremo superior do lado inferior do retngulo da classe posterior classe modal e o segmento RT ligando o extremo superior do lado superior do retngulo modal ao extremo superior do lado superior do retngulo da classe anterior classe modal. Obtm-se os tringulos sombreados RQS e TQU, que so semelhantes. Portanto, vale a seguinte proporcionalidade entre lados e alturas: AQ BQ = RS TU ou equivalentemente x I S x = nm nI nm nS a mesma proporo obtida anteriormente.

3.7.6

Mdias geomtrica e harmnica

Embora no muito usual, o clculo das mdias geomtrica e harmnica para dados agrupados ser apresentado principalmente por aspectos didticos, visando sua aplicao no estudo de nmeros ndices. Suponhamos, ento, que temos n1 valores iguais a x1 , n2 iguais a x2 , , nk iguais a xk . Os valores xi podem ou no ser pontos mdios das classes de uma tabela de freqncias; o que importa a repetio de cada um deles. Seja n = n1 + n2 + + nk o nmero total de observaes. A mdia geomtrica, por denio, : q xg = n x1 x1 x2 x2 xk xk = n xn1 xn2 xnk = 1 2 k s k k Q ni Q fi xi = xi = n
i=1 i=1

Para a mdia harmnica, temos que: xh = =

n = 1 1 1 1 1 1 + + + + + + + + + x1 x1 x2 x2 xk xk n = 1 1 1 n1 + n2 + + nk x1 x2 xk 1 1 1 1 n1 n2 nk + + + n x1 n x2 n xk

CAPTULO 3. MEDIDAS ESTATSTICAS xh = 1 1 = k 1 1 1 P fi f1 + f2 + + fk x1 x2 xk i=1 xi

108

Essa ltima expresso ser muito til quando for apresentado o ndice de Paasche. Exemplo 3.1 Consideremos novamente o exerccio resolvido 6 da Seo 3.2 em que se considerou a compra de folhas de cartolina por uma escola a cada trimestre do ano de 2004. Naquele exerccio, a quantia gasta a cada trimestre era constante. Suponhamos, agora, que essas quantias sejam variveis, de acordo com o esquema mostrado na Tabela 3.16. Tabela 3.16: Preo da cartolina para o Exerccio Resolvido 6 da Seo 3.2 Trimestre Preo (R$) Quantia (R$) jan-mar 0,35 500,00 abr-jun 0,45 500,00 0,50 450,00 jul-set 0,52 400,00 out-dez Nesse caso, o preo mdio dado por pm = 500 + 500 + 450 + 400 500 500 450 400 = 0,35 + 0,45 + 0,50 + 0,52 1 = 500 1 500 1 1850 0,35 + 1850 0,45 + = 0, 4395
500 0,35 450 1850

500 0,45

1850 450 + 0,50 + +


400 1850

400 0,52 1 0,52

1 0,50

que nada mais que a mdia harmnica dos preos ponderada pelas quantias gastas.

3.7.7

Exerccios resolvidos da Seo 3.7

1. Para os dados da Tabela 3.17, calcule a mdia, o desvio padro, a mediana, o intervalo interquartil, o oitavo decil e a moda pelos mtodos de King e Czuber. Tabela 3.17: Exerccio Resolvido 1 da Seo 3.5 Classe ni [0, 1) 15 26 [1, 2) 21 [2, 3) 10 [3, 4) 8 [4, 5) Soluo: Para facilitar a soluo, vamos completar a tabela dada, acrescentando as colunas de freqncias relativas simples e acumuladas e tambm as colunas fi xi e fi x2 necessrias para o clculo i da mdia e do desvio padro. O resultado est na Tabela 3.18. x= P
i

fi xi = 0, 09375 + 0, 48750 + + 0, 45000 = 2, 12500

CAPTULO 3. MEDIDAS ESTATSTICAS Tabela Classe [0, 1) [1, 2) [2, 3) [3, 4) [4, 5) Soma 2 = P
i

109 Seo 3.5 fi x2 i 0,046875 0,731250 1,640625 1,531250 2,025000 5,975000

3.18: xi 0,5 1,5 2,5 3,5 4,5

Soluo do Exerccio Resolvido 1 da ni fi Ni Fi fi xi 15 0,1875 15 0,1875 0,09375 26 0,3250 41 0,5125 0,48750 21 0,2625 62 0,7750 0,65625 10 0,1250 72 0,9000 0,43750 8 0,1000 80 1,0000 0,45000 80 1,0000 2,12500

fi x2 x2 = 0, 046875 + 0, 731250 + + 2, 02500 (2, 12500)2 = i

A classe mediana a classe [1, 2) , onde acumula 51,25% da freqncia e cuja freqncia simples 32,5%. A regra de trs que dene a mediana, baseada no subretngulo inferior, , pois: 0, 5000 0, 1875 0, 32500 0, 3125 = Q2 = 1 + Q2 = 1, 961538 Q2 1 21 0, 325 Baseada no subretngulo superior, temos: 21 2 Q2 1 2 Q2 1, 25 = = Q2 = 2 Q2 = 1, 961538 51, 25 50, 00 32, 50 1, 25 32, 5 32, 50 Note que podemos fazer os clculos com as freqncias absolutas ou relativas, desde que trabalhemos com apenas uma delas de cada vez! No entanto, como estamos lidando com as reas, que so representativas das freqncias relativas, melhor uniformizar os procedimentos, utilizando sempre as freqncias relativas (multiplicadas por 100 ou no). O primeiro quartil tambm est na classe [1, 2) . A regra de trs que o dene : 32, 50 26, 25 51, 25 25, 00 Q1 = 2 Q1 = 1, 1923077 = 2 Q1 21 32, 50 O terceiro quartil est na classe [2, 3) ; trabalhando com o subretngulo superior, a regra de trs que o dene : 77, 5 75, 0 26, 25 2, 5 Q3 = 3 Q3 = 2, 9047619 = 3 Q3 32 26, 25 Assim, o intervalo interquartil IQ = 2, 904762 1, 1923076 = 1, 7124543 A classe modal a classe [1, 2) . A moda pelo mtodo de King calculada atravs da seguinte proporo: 15 2 x = 15x 15 = 42 21x 36x = 57 x = 1, 583333 1 x 21

= 5, 975000 4, 515625 = 1, 459375 p = 1, 459375 = 1, 208046

A moda pelo mtodo de Czuber calculada atravs da seguinte proporo:

26 21 2 x 5 2 x = = 22 11x = 5x 5 16x = 27 x = 1, 6875 1 x 26 15 x 1 11

CAPTULO 3. MEDIDAS ESTATSTICAS

110

2. Considere o histograma da Figura 3.21, onde, no interior dos retngulos, temos anotada a freqncia absoluta das classes. Calcule a mdia, o desvio padro, a mediana renada dos dados, a moda usando os mtodos de King e Czuber e o terceiro e stimo decis. Figura 3.21: Histograma para o Exerccio Resolvido 2 da Seo 3.5

100

200

300

400

500

600

Soluo: Considere a Tabela 3.19, construda para auxiliar a soluo do exerccio. Tabela 3.19: Soluo do Exerccio Resolvido2 da Seo 3.5 Classe Ponto Freqncia. Freqncia Clculo Clculo da mdio simples acumulada da mdia varincia xi ni fi Ni Fi fi xi fi x2 i [100, 200) 150 2 0,10 2 0,10 15,0 2250 250 5 0,25 7 0,35 62,5 15625 [200, 300) [300, 400) 350 6 0,30 13 0,65 105,0 36750 450 4 0,20 17 0,85 90,0 40500 [400, 500) 550 3 0,15 20 1,00 82,5 45375 [500, 600) Soma 20 1,00 355,0 140500 Como x = P
i

fi xi , resulta que x = 355, 0. A varincia calculada como 2 = P


i

fi x2 x2 = 140500 (355)2 = 140500 126025 = 14475 i = 2 = 14475 = 120, 3121

e o desvio padro como

A mediana se encontra na terceira classe, [300, 400) , cujas freqncias relativas simples e acumulada so 0,30 e 0,65 respectivamente. Logo, 400 Q2 400 300 = Q2 = 350 0, 65 0, 50 0, 30

CAPTULO 3. MEDIDAS ESTATSTICAS

111

A classe modal a terceira classe, [300, 400) e a moda pelo mtodo de King calculada atravs da seguinte proporo: 4 x 300 = 5x 1500 = 1600 4x 9x = 3100 x = 344, 444 400 x 5 O mtodo de Czuber resulta na seguinte proporo: x 300 65 2x 600 = 400 x 3x = 1000 x = 333, 333 = 400 x 64 O terceiro decil est na classe [200, 300), que tem freqncia simples igual a 0,25 e acumulada igual a 0,35. Logo, 300 D3 300 200 = D3 = 280 0, 35 0, 30 0, 25 O stimo decil est na classe [400, 500) que tem freqncia simples igual a 0,20 e acumulada igual a 0,85. Logo, 500 D7 500 400 = D3 = 425 0, 85 0, 70 0, 20 O clculo desses decis est ilustado na Figura 3.22. Figura 3.22: Clculo dos decis para o Exerccio Resolvido2 da Seo 3.5

0,35 0,30 0,35-0,30

0,85 0,70 0,85-0,70

200

D3

300

400

D7

500

3.7.8

Exerccios propostos da Seo 3.7

3.11 A idade mdia dos candidatos a um determinado curso de aperfeioamento oferecido por uma empresa foi sempre baixa, da ordem de 22 anos. Como esse curso foi preparado para todas as idades, decidiu-se fazer uma campanha de divulgao. Para vericar se a campanha foi ou no eciente, fz-se um levantamento da idade dos candidatos ltima promoo, obtendo-se os resultados da Tabela 3.20. (a) Baseando-se nesses resultados, voc diria que a campanha surtiu o efeito desejado? (b) Um outro pesquisador decidiu usar o seguinte critrio: se a diferena X 22 fosse maior que 2 o valor = , ento a campanha teria sido efetiva. Qual a concluso dele? n

CAPTULO 3. MEDIDAS ESTATSTICAS Tabela 3.20: Idade dos candidatos de um curso de aperfeioamento Idade Freq. % 18 ` 20 18 36,0 20 ` 22 12 24,0 22 ` 26 10 20,0 26 ` 30 8 16,0 30 ` 36 2 4,0 Total 50

112

3.12 Para os dados da tabela construda no Exerccio 2.5 do Captulo 2, calcule a mdia e o desvio padro. 3.13 Com base na tabela de freqncia construda na soluo do Exerccio 2.6 do Captulo 2, calcule a mdia e o desvio padro. Compare com o resultado obtido no Exerccio 3.6. 3.14 Para os dados da tabela construda no Exerccio2.5 do Captulo 2, calcule a moda utilizando os mtodos de King e Czuber. 3.15 Com base na tabela de freqncia construda na soluo do Exerccio 2.6 do Captulo 2, calcule a moda utilizando os mtodos de King e Czuber. 3.16 Em uma granja foi observada a distribuio dos frangos com relao ao peso apresentada na Tabela 3.21. (a) Qual a mdia da distribuio? (b) Qual a varincia da distribuio? (c) Construa o histograma. (d) Queremos dividir os frangos em 4 categorias, com relao ao peso, de modo que os 20% mais leves sejam da categoria D; os 30% seguintes sejam da categoria C; os 30% seguintes sejam da categoria B; os 20% restantes sejam da categoria A. Quais os limites de peso entre as categorias A, B, C, D? (e) O granjeiro decide separar deste lote os animais com peso inferior a dois desvios padres abaixo da mdia para receberem rao reforada e tambm separar os animais com peso superior a um e meio desvio padro acima da mdia para us-los como reprodutores. Qual a porcentagem de animais que sero separados em cada caso? 3.17 Para os dados da tabela construda no Exerccio 2.5 do Captulo 2, calcule a mediana e o terceiro decil. 3.18 Com base na tabela de freqncia construda na soluo do Exerccio 2.6 do Captulo 2, calcule a mediana e o intervalo interquartil.

CAPTULO 3. MEDIDAS ESTATSTICAS Tabela 3.21: Peso dos frangos Peso (gramas) ni 960 ` 980 60 160 980 ` 1000 280 1000 ` 1020 260 1020 ` 1040 160 1040 ` 1060 80 1060 ` 1080

113

3.8

Covarincia e Correlao

Vimos que o diagrama de disperso um instrumento bastante til na anlise de duas variveis quantitativas, pois exibe possveis relaes entre essas variveis Na Tabelas 3.22 a 3.24 temos trs conjuntos de dados, cujos diagramas de disperso se encontram nas Figuras 3.23 a 3.25. Nesses grcos, as linhas pontilhadas esto passando pelo ponto central do conjunto, isto , pelo ponto (x, y). Tabela 3.22: Variao diria das Bolsas de Valores - Junho 1993 Dia Variao percentual Dia Variao percentual Bovespa BVRJ Bovespa BVRJ 1 4,9935 6,9773 17 -4,6706 -6,2360 5,5899 6,1085 18 0,6629 2,6259 2 3,8520 2,4847 21 1,1651 0,8728 3 0,9984 -0,1044 22 3,2213 4,8243 4 2,4872 2,4942 23 -2,7226 -4,7266 7 0,0142 0,1239 24 1,2508 -0,4985 8 9 -1,7535 -0,4221 25 7,1845 6,6798 8,1764 9,5148 28 2,5674 1,2299 11 0,6956 -1,7350 29 -1,3235 -3,0375 14 1,6164 2,2749 30 1,6685 1,2303 15 7,5829 15,4173 16
Fonte: Folha de So Paulo (ndice de fechamento)

Analisando esses grcos , pode-se ver que as relaes entre as variveis envolvidas mudam; na Figura 3.23 existe uma tendncia crescente entre as variveis, isto , quando o ndice da Bovespa aumenta, o ndice da BVRJ tambm tende a aumentar. Na Figura 3.24 essa relao se inverte, ou seja, aumentando a latitude, a temperatura tende a diminuir. J na Figura 3.25 no possvel estabelecer nenhuma relao entre as variveis, contrariando a superstio de que linhas da vida longas indicam maior longevidade.

3.8.1

Covarincia

Vamos estudar, agora, uma medida de associao entre variveis, que est relacionada ao tipo mais simples de associao: a linear. Ento, tal medida ir representar o quanto a nuvem de dados em um diagrama de disperso se aproxima de uma reta.

CAPTULO 3. MEDIDAS ESTATSTICAS

114

Tabela 3.23: Latitude e temperatura mdia de 15 cidades dos EUA Latitude Temperatura (o F) 34 56,4 51,0 32 36,7 39 39 37,8 36,7 41 18,2 45 30,1 41 55,9 33 46,6 34 47 13,3 34,0 44 36,3 39 34,0 41 49,1 32 40 34,5
Fonte: Dunn e Clark (1974) p. 250

Tabela 3.24: Idade ao morrer e comprimento da linha da vida Idade Linha da Idade Linha da Idade Linha da (anos) vida (cm) (anos) vida (cm) (anos) da vida (cm) 19 9,75 65 8,85 74 8,85 65 9,75 74 9,60 40 9,00 66 8,85 75 6,45 42 9,60 66 9,15 75 9,76 42 9,75 66 10,20 75 10,20 47 11,25 67 9,15 76 6,00 49 9,45 50 11,25 68 7,95 77 8,85 68 8,85 80 9,00 54 9,00 68 9,00 82 9,75 56 7,95 69 7,80 82 10,65 56 12,00 69 10,05 82 13,20 57 8,10 57 10,20 70 10,50 83 7,95 71 9,15 86 7,95 58 8,55 71 9,45 88 9,15 61 7,20 71 9,45 88 9,75 62 7,95 72 9,45 94 9,00 62 8,85 73 8,10 65 8,25

CAPTULO 3. MEDIDAS ESTATSTICAS

115

Figura 3.23: Variao diria das Bolsas de Valores - dados originais


x
18 16 14 12 10 8 6

BVRJ

4 2 0 -8 -6 -4 -2 -2 -4 -6 -8 -10 0 2 4 6 8 10

Bovespa

Figura 3.24: Latitude e temperatura mdia de 15 cidades dos EUA - dados originais
x
70

60

50

40

30

Temperatura

20

10

0 -8 -10 2 12 22 32 42 52

-20

-30

Latitude

CAPTULO 3. MEDIDAS ESTATSTICAS

116

Figura 3.25: Diagrama de disperso do comprimento da linha da vida e idade ao morrer - dados originais
x
16

14

12

10

Linha da vida

0 -60 -40 -20 -2 0 20 40 60 80 100 120

-4

Idade ao morrer

Para diferenciar as trs situaes ilustradas nos grcos anteriores, um primeiro ponto que devemos observar o fato de as trs nuvens de pontos estarem centradas em pontos diferentes, representados pela interseo dos eixos em linha pontilhada; note que esse o ponto (x, y). Para facilitar comparaes, interessante uniformizar a origem, colocando as trs nuvens centradas na origem (0, 0). Lembrando as propriedades da mdia aritmtica, sabe-se que a transformao xi x resulta em um conjunto de dados com mdia zero. Ento, para quanticar as diferenas entre os grcos anteriores, o primeiro ponto a considerar a centralizao da nuvem: em vez de trabalharmos com os dados originais (xi , yi ),vamos trabalhar com os dados transformados (xi x, yi y). Nas Figuras 3.26 a 3.28 esto representados os diagramas de disperso para essas variveis transformadas, mantendo-se a mesma escala anterior. Analisando esses trs ltimos grcos, pode-se ver que, para o primeiro conjunto de dados, onde a tendncia entre as variveis crescente, a maioria dos pontos est no primeiro e terceiro quadrantes, enquanto que, no segundo grco, onde a relao decrescente, a maioria dos pontos est no segundo e quarto quadrantes. O primeiro e terceiro quadrantes se caracterizam pelo fato de as abscissas e ordenadas terem o mesmo sinal e, portanto, seu produto positivo; j no segundo e quarto quadrantes, as abscissas e ordenadas tm sinais opostos e, portanto, seu produto negativo. Ento, para diferenciar esses grcos, podemos usar uma medida baseada no produto das coordenadas xi x e yi y. Como no caso da varincia ou desvio mdio absoluto, para considerar todos os pares possveis e descontar o nmero de observaes, vamos tomar o valor mdio desses produtos.

CAPTULO 3. MEDIDAS ESTATSTICAS

117

Figura 3.26: Variao diria das Bolsas de Valores - dados centrados na mdia

16 14 12 10 8 6

BVRJ

4 2 0 -8 -6 -4 -2 -2 -4 -6 -8 -10 0 2 4 6 8 10

Bovespa

Figura 3.27: Latitude e temperatura mdia de 15 cidades dos EUA - dados centrados na mdia

70

60

50

40

30

Temperatura

20

10

0 -8 -10 2 12 22 32 42 52

-20

-30

Latitude

CAPTULO 3. MEDIDAS ESTATSTICAS

118

Figura 3.28: Diagrama de disperso do comprimento da linha da vida e idade ao morrer - dados centrados na mdia

16

14

12

10

Linha da vida

0 -60 -40 -20 -2 0 20 40 60 80 100 120

-4

Idade ao morrer

Denio 3.16 A covarincia entre as variveis X e Y denida por Cov(X, Y ) = onde xi e yi so os valores observados. No grco 3.28, os pontos esto espalhados nos quatro quadrantes e, assim, essa mdia tende a ser nula, ou melhor, prxima de zero. De maneira anloga desenvolvida para a varincia, a frmula acima no conveniente para fazer clculos em mquinas de calcular mais simples. Assim, vamos desenvolver uma expresso alternativa. Note que:
n P

1X (xi x)(yi y) n
i=1

(3.41)

i=1

(xi x)(yi y) = = = =

i=1 n P i=1 n P i=1 n P i=1 n P

n P

(xi yi xi y yi x + x y) = xi yi y
i=1 n P

xi x

i=1

xi yi ynx xny + nx y = xi yi nx y

n P

yi +

i=1

n P

xy =

Logo, 1 Cov(X, Y ) = n

i=1

xi yi nx y

n 1 P xi yi x y n i=1

(3.42)

CAPTULO 3. MEDIDAS ESTATSTICAS

119

Da frmula (3.42) podemos ver que a covarincia a mdia dos produtos menos o produto das mdias. Resulta tambm que a covarincia entre X e X a varincia de X, isto : Cov(X, X) = Var (X) . bastante importante salientar a interpretao da covarincia: ela mede o grau de associao linear entre variveis. Considerando o diagrama de disperso da Figura 3.29, pode-se ver que existe uma associao quadrtica perfeita entre as variveis; no entanto, a covarincia entre elas nula! Figura 3.29: Conjunto de dados com covarincia nula
10

0 -4 -3 -2 -1 0 1 2 3 4

3.8.2

Coeciente de correlao

Um dos problemas da covarincia a sua dependncia da escala dos dados, o que faz com que seus valores possam variar de a +. Note que sua unidade de medida dada pelo produto das unidades de medida das variveis X e Y envolvidas. Ento, ca difcil comparar situaes como as ilustradas nos grcos das Figuras 3.30 e 3.31; para a primeira, temos que Cov(X, Y ) = 304, 51 e para a segunda, Cov(X, Y ) = 609, 02. No entanto, os valores de X no primeiro conjunto variam de 4, 6706 a 8, 1764 com um desvio padro de 3, 2757 e no segundo conjunto de dados, variam de 9, 3412 a 16, 3528, com um desvio padro de 6, 5514. Para uniformizar as escalas dos dados, iremos trabalhar com as variveis padronizadas, isto , xi x yi y e . Como j visto, cada um dos conjuntos de dados assim tansformados tem desvio x y padro igual a 1. Nas Figuras 3.32 a 3.34 temos o diagrama de disperso para os dados transformados, novamente mantendo-se as escalas originais para facilitar a comparao.

CAPTULO 3. MEDIDAS ESTATSTICAS

120

Figura 3.30: Inuncia da escala na covarincia - parte (a)


20

15

10

0 -15 -10 -5 0 5 10 15 20

-5

-10

Figura 3.31: Inuncia da escala na covarincia - parte (b)


20

15

10

0 -15 -10 -5 0 5 10 15 20

-5

-10

CAPTULO 3. MEDIDAS ESTATSTICAS

121

Figura 3.32: Variao diria nas Bolsas de Valores - dados padronizados

16 14 12 10 8 6

BVRJ

4 2 0 -8 -6 -4 -2 -2 -4 -6 -8 -10 0 2 4 6 8 10

Bovespa

Figura 3.33: Latitude e temperatura mdia de 15 cidades dos EUA - dados padronizados

70

60

50

40

30

Temperatura

20

10

0 -8 -10 2 12 22 32 42 52

-20

-30

Latitude

CAPTULO 3. MEDIDAS ESTATSTICAS

122

Figura 3.34: Diagrama de disperso da idade ao morrer e comprimento da linha da vida - dados padronizados

16

14

12

10

Linha da vida

0 -60 -40 -20 -2 0 20 40 60 80 100 120

-4

Idade ao morrer

Denio 3.17 O coeciente de correlao entre as variveis X e Y denido como n yi y Cov(X, Y ) 1 X xi x = Corr(X, Y ) = (X, Y ) = n x y x y
i=1

(3.43)

Os dois conjuntos de dados das Figuras 3.30 e 3.31 tm, ambos, o mesmo coeciente de correlao igual a 0, 9229.

3.8.3

Propriedades da covarincia e do coeciente de correlao

Note que o coeciente de correlao adimensional! Alm disso, ele tem uma propriedade bastante interessante, que a seguinte: 1 (X, Y ) 1 (3.44)

Assim, valores do coeciente de correlao prximos de 1 indicam uma forte associao linear crescente entre as variveis, enquanto valores prximos de -1 indicam uma forte associao linear decrescente. J valores prximos de zero indicam fraca associao linear (isso no signica que no exista algum outro tipo de associao; veja o caso da Figura 3.29). A demonstrao da propriedade (3.44) dada no Anexo 2 no nal do captulo. Vamos ver agora o que acontece com a covarincia e o coeciente de correlao quando somamos uma constante aos dados e/ou multiplicamos os dados por uma constante. Vamos mostrar que Cov(aX + b, cY + d) = ac Cov(X, Y ) e Corr(aX + b, cY + d) = ac Corr(X, Y ) |ac| (3.45) (3.46)

CAPTULO 3. MEDIDAS ESTATSTICAS

123

De fato: fazendo U = aX + b e V = cY + d, sabemos que u = ax + b e v = cy + d e u = |a| x e v = |c| y Logo, Cov(U, V ) = = = = =


n 1 P (ui u)(vi v) = n i=1 n 1 P (axi + b ax b)(cyi + d cy d) = n i=1 n 1 P (axi ax)(cyi cy) = n i=1 n ac P (xi x)(yi y) = n i=1 ac Cov(X, Y )

Para o coeciente de correlao, temos que Corr(aX + b, cY + d) = Corr(U, V ) = = Logo, Corr(aX + b, cY + d) = Cov(U, V ) = u v ac Cov(X, Y ) ac Corr(X, Y ) = |c| x . |d| y |ac| Corr(X, Y ) se ac > 0 . Corr(X, Y ) se ac < 0

3.8.4

Exerccios resolvidos da Seo 3.8

1. Considere novamente os dados sobre consumo de cigarros e mortes por cncer de pulmo, reproduzidos a seguir para facilitar a apresentao. Calcule o coeciente de correlao entre as variveis. Tabela 3.25: Consumo Pas Islndia Noruega Sucia Dinamarca Canad Austrlia Soluo: Na tabela a seguir temos os detalhes dos clculos a serem feitos no caso de se estar utilizando de cigarros X Y 240 63 255 100 340 140 375 175 510 160 490 180 (X) e morte por cncer de pulmo (Y ) Pas X Y Holanda 490 250 Suia 180 180 Finlndia 1125 360 Gr-Bretanha 1150 470 Estados Unidos 1275 200

CAPTULO 3. MEDIDAS ESTATSTICAS uma calculadora mais simples. xi 240 255 340 375 510 490 490 180 1125 1150 1275 6430 yi 63 100 140 175 160 180 250 180 360 470 200 2278 x2 i 57600 65025 115600 140625 260100 240100 240100 32400 1265625 1322500 1625625 5365300
2 yi 3969 10000 19600 30625 25600 32400 62500 32400 129600 220900 40000 607594

124

Soma

xi yi 15120 25500 47600 65625 81600 88200 122500 32400 405000 540500 255000 1679045

A covarincia de X e Y a mdia do produto menos o produto das mdias, ou seja: Cov (X, Y ) = 1679045 6430 2278 18469495 14647540 3821955 = = = 31586, 404959 11 11 11 121 121 2

A varincia de cada varivel a mdia dos quadrados menos o quadrado da mdia, ou seja: 5365300 Var (X) = 11 6430 11 = 17673400 59018300 41344900 = = 146061, 157025 121 121 1494250 6683534 5189284 = = 12349, 173554 121 121

607594 Var (Y ) = 11 Os desvios padres so:

2278 11

x = 382, 179483 e, assim, o coeciente de correlao : (X, Y ) =

y = 111, 126835

31586, 404959 = 0, 743728 382, 179483 111, 1268354

Essa correlao parece indicar que h um aumento no nmero de mortes por cncer do pulmo medida que aumenta o nmero de cigarros consumidos. Note como os clculos foram feitos! Trabalhando com o denominador comum, reduz-se o nmero de divises nos clculos! 2. Calcule o coeciente de correlao entre o preo de venda e a rea das casas, cujos dados encontram-se na Tabela 2.49. Soluo: Para esses dados, temos: n = 59
59 P

xi = 10472

i=1

i=1

59 P

yi = 14433

i=1

59 P

xi yi = 2667287

CAPTULO 3. MEDIDAS ESTATSTICAS


59 P

125
59 P 2 yi = 3736397

i=1

x2 = 1976810 i

i=1

2667287 10472 14433 157369933 151142376 Cov (X, Y ) = = = 1789, 013789 59 59 59 3481 10472 2 116631790 109662784 1976810 = 2002, 01264005 = Var (X) = 59 59 3481 14433 2 220447423 208311489 3736397 Var (Y ) = = 3486, 335536 = 59 59 3481 x = 44, 74385589 y = 59, 04519909 1789, 013789 = 0, 677166849 (X, Y ) = 44, 74385589 59, 04519909 Uma correlao positiva, bastante forte, indica que o preo de venda de uma casa aumenta medida que aumenta a rea til da casa, conforme ilustrado na Figura 3.35 Figura 3.35: Preo de venda e rea das casas de Boulder para o Exerccio Resolvido2 da Seo 3.8
350

300

250

200

Preo
150 100 50 0 0 50 100 150 200 250 300 350 400 450

rea

3.9

Exerccios Complementares

3.19 Os dados da Tabela 3.26 representam as notas nais de 54 alunos da turma C1 de Estatstica II no segundo semestre de 1992. Calcule a nota mdia, a nota mediana, a nota modal e o 1o quartil. 3.20 Segundo o critrio de avaliao adotado pelo Departamento de Estatstica, cada aluno ser submetido a 2 provas, a primeira tendo peso 2 e a segunda tendo peso 3. Para ser aprovado, a mdia nas 2 provas tem que ser 6. Se um aluno tirar 5,5 na primeira prova, quanto dever tirar na segunda prova para no ter que fazer Vericao Suplementar? E se as provas tivessem o mesmo peso?

CAPTULO 3. MEDIDAS ESTATSTICAS Tabela 3,1 0,8 5,0 0,0 8,5 0,0 7,2 8,0 3.26: 1,6 1,8 2,5 0,0 Notas de 54 alunos para o 6,0 2,8 0,0 0,0 1,0 1,2 0,0 3,0 0,0 0,0 6,2 2,2 0,0 0,0 0,0 0,0 8,4 0,0 4,5 0,2 Exerccio 3.19 do Captulo 3 3,5 0,6 5,0 8,2 0,4 0,0 0,0 0,0 0,0 8,1 6,0 7,6 2,0 2,8 0,0 0,0 0,0 6,0 3,0 3,0 0,0 0,0

126

3.21 As notas de 1000 calouros na prova de Matemtica da UFF esto apresentadas na Tabela 3.27. (a) Qual a nota mdia? E a varincia? (b) Calcule o desvio mdio absoluto. (c) Os alunos com notas superiores a x + 1, 5DP (nota mdia mais 1,5 desvio padro) sero convidados a participar de um programa especial de Iniciao Cientca. Quantos alunos sero convidados? (d) Os alunos com 30% das notas mais baixas sero obrigados a assistir um curso de Clculo Zero. Qual a menor nota necessria para o aluno no ter que frequentar esse curso especial?

Tabela 3.27: Notas de calouros para o Exerccio 3.21 do Captulo 3 Notas Nmero de alunos 55 0`2 65 2`3 172 3`4 4`5 254 278 5`6 76 6`7 75 7`8 25 8 ` 10 3.22 Esboce um histograma de uma distribuio de dados com mesma mdia e mediana. Existe alguma classe de histogramas que apresente sempre essa caracterstica? 3.23 Em 1993, o New York Mets teve o seu pior desempenho na Liga Principal de Beisebol (Estados Unidos). Eles foram bem pagos mas jogaram mal. Na Tabela 3.28 temos os salrios anuais dos jogadores do Mets, em milhares de dlares.3 27 27 P P 2 (a) Calcule a mdia e o desvio padro dos salrios. Obs.: xi = 38639 e xi = 135079221.
i=1 i=1

(b) Calcule a mediana e o intervalo interquartil IQ. (c) Usando o critrio 1, 5 IQ, liste os possveis outliers. (d) Com base nos resultados anteriores, qual das medidas voc usaria para representar o salrio dos jogadores do Mets? 3.24 No controle de qualidade da produo de cigarros, o peso uma caracterstica importante. Na Tabela 3.29 temos a distribuio de freqncias acumuladas para o peso (em miligramas) dos cigarros de um lote inspecionado.
3

Dados extrados de Moore e McCabe (1999).

CAPTULO 3. MEDIDAS ESTATSTICAS Tabela 3.28: Salrios dos Mets para o Exerccio 3.23 do Captulo 3 6200 5917 4000 3375 3000 2312 2300 2150 2100 1500 1012 850 650 635 500 475 220 205 195 195 158 145 109 109 109 109 109

127

(a) Construa a tabela de freqncias completa, com colunas auxiliares para o clculo da mdia e do desvio padro. (b) Calcule o peso mdio e o desvio padro do peso, no esquecendo de indicar a unidade de medida dessas estatsticas. (c) Calcule o peso modal, usando os mtodos de King e Czuber; indique a unidade de medida. (d) Calcule o peso mediano; indique a unidade de medida. (e) Usando a regra 1, 5 IQ,voc diria que alguns cigarros tm pesos discrepantes neste lote? Em caso armativo, estime essas percentagens.

Tabela 3.29: Pesos de cigarros para o Exerccio 3.24 do Captulo 3 Classes de Freq. Acum. Ni peso (mg) 760 ` 780 4 47 780 ` 800 800 ` 820 165 333 820 ` 840 450 840 ` 860 489 860 ` 880 500 880 ` 900 3.25 Os 4 conjuntos de dados apresentados na Tabela 3.30 constam de Anscombe(1973). Para cada um deles construa o diagrama de disperso e calcule a mdia, o desvio padro e o coeciente de correlao. Comente os resultados obtidos. Tabela 3.30: Dados de Anscombe Conjunto 1 Conjunto 2 X Y X Y 10,0 9,14 8,0 6,58 8,0 5,76 8,0 8,14 8,0 7,71 13,0 8,74 8,0 8,84 9,0 8,77 8,0 8,47 11,0 9,26 8,0 7,04 14,0 8,10 6,0 6,13 8,0 5,25 4,0 3,10 19,0 12,50 8,0 5,56 12,0 9,13 8,0 7,91 7,0 7,26 8,0 6,89 5,0 4,74 para o Exerccio 3.25 do Captulo 3 Conjunto 3 Conjunto 4 X Y X Y 10 8,04 10,0 7,46 8 6,95 8,0 6,77 13 7,58 13,0 12,74 9 8,81 9,0 7,11 11 8,33 11,0 7,81 14 9,96 14,0 8,84 6 7,24 6,0 6,08 4 4,26 4,0 5,39 12 10,84 12,0 8,15 7 4,82 7,0 6,42 5 5,68 5,0 5,73

CAPTULO 3. MEDIDAS ESTATSTICAS

128

3.26 Muitas vezes a determinao da capacidade de produo instalada para certo tipo de indstria em certos tipos de localidades um processo difcil e custoso. Como alternativa, pode-se estimar a capacidade de produo atravs de uma outra varivel de medida mais fcil, que esteja linearmente relacionada com ela. Suponha que foram observados os valores, dados na Tabela 3.31, para as variveis capacidade de produo instalada, potncia instalada e rea construda. Com base num critrio estatstico, qual das variveis voc escolheria para estimar a capacidade de produo instalada? Tabela 3.31: Dados de capacidade da produo para o Exerccio 3.26 do Captulo 3 X: capacidade de produo instalada (ton) 4 5 4 5 8 9 10 11 12 12 Y: potncia instalada (1000 kW) 1 1 2 3 3 5 5 6 6 6 Z: rea construda (100 m2 ) 6 7 10 10 11 9 12 10 11 14

CAPTULO 3. MEDIDAS ESTATSTICAS

129

Anexo 1: Relao entre as mdias aritmtica, geomtrica e harmnica


Sejam x1 , x2 , . . . , xn nmeros reais positivos. Vamos mostrar que, nesse caso, vlida a seguinte relao entre as mdias aritmtica (x), geomtrica (xg ) e harmnica (xh ):4 xh xg x (3.47)

Para isso vamos usar a seguinte desigualdade, cuja demonstrao apresentaremos posteriormente: n P sejam p1 , p2 , . . . , pn nmeros reais no negativos tais que pi = 1. Ento
i=1 i=1 n Q

xpi i

i=1

ou equivalentemente (tomando logaritmo, que uma funo estritamente crescente), n n P P pi ln xi ln pi xi


i=1 i=1

n P

pi xi

(3.48)

(3.49)

Fazendo pi =

1 em (3.48), obtm-se que: n


n Q

i=1

xin

ou

n P 1 xi i=1 n

xg x

(3.50)

Como o resultado (3.50) vale para quaisquer nmeros reais positivos, vale em particular para 1 yi = , isto : xi yg 1 (x1 x2 xn ) n
1

1 1 + 1 + + 1 1 1 n y x1 x2 x1 x2 xn n 1 1 1 xg xh n xg xh 1 + 1 ++ 1
x1 x2 xn

1 xn

o que prova a segunda parte da desigualdade (3.47). Para completar a prova do resultado, temos que demonstrar que vlida a relao (3.49). Essa demonstrao ser feita por induo em n, o nmero de valores. Para n = 2, o resultado segue da concavidade da funo logaritmo. Note que a derivada segunda 1 00 da funo f (x) = ln(x) f (x) = 2 < 0 x > 0. x A denio de funo cncava a seguinte: uma funo f : I R, denida num intervalo I, cncava quando, para a < x < b arbitrrios em I, o ponto (x, f (x)) do grco est situado acima do segmento de reta que liga os pontos (a, f (a)), (b, f (b)). Na Figura 3.36 temos a ilustrao dessa denio. Usando a forma paramtrica da equao de um segmento de reta que liga dois pontos quaisquer, essa condio de concavidade da funo logaritmo nos diz que t ln(x1 ) + (1 t) ln(x2 ) ln[tx1 + (1 t)x2 ]
4

Demonstrao apresentada aos autores pelo Prof. Hamilton Prado Bueno (Ph.D.) - UFMG

CAPTULO 3. MEDIDAS ESTATSTICAS o que prova o resultado para n = 2, j que t + (1 t) = 1. Suponhamos a relao vlida para n; vamos provar que vale para n + 1.De fato: ln(p1 x1 + + pn xn + pn+1 xn+1 ) p1 x1 pn xn = ln (p1 + + pn ) + + + pn+1 xn+1 p1 + + pn p1 + + pn p1 x1 pn xn + + + pn+1 ln(xn+1 ) (p1 + + pn ) ln p1 + + pn p1 + + pn

130

Essa desigualdade segue do fato de que o resultado vale para n = 2. Aplicando a hiptese de induo no primeiro termo do membro direito da desigualdade obtemos que: ln(p1 x1 + + pn xn + pn+1 xn+1 ) p1 x1 pn xn + pn+1 ln(xn+1 ) + + (p1 + + pn ) ln p1 + + pn p1 + + pn p1 pn (p1 + + pn ) ln(x1 ) + + ln(xn ) + pn+1 ln(xn+1 ) p1 + + pn p1 + + pn n+1 P pi xi = p1 ln(x1 ) + + pn ln(xn ) + pn+1 ln(xn+1 ) =
i=1

e isso completa a prova.

Figura 3.36: Ilustrao da concavidade da funo logaritmo

ln[tx1+(1-t)x2]

x1 tx1+(1-t)x2 x2

tln(x1)+(1-t)ln(x2)

CAPTULO 3. MEDIDAS ESTATSTICAS

131

Anexo 2: Demonstrao da propriedade (3.44)


Para demonstrar a propriedade (3.44), precisamos de algumas denies referentes a vetores no espao euclidiano Rn . Denio 3.18 Dados dois vetores u = (u1 , . . . , un ) e v = (v1 , . . . , vn ) em Rn dene-se: 1. o produto interno dos vetores u e v, representado por hu, vi , como hu, vi =
i=1 n P

ui vi

2. a norma de um vetor u, representada por kuk ,como s n P 2 p ui = hu, ui kuk =


i=1

A demonstrao da propriedade uma conseqncia direta da desigualdade de Cauchy-Schwarz, que estabelecemos a seguir. Teorema 3.1 Dados dois vetores u = (u1 , . . . , un ) e v = (v1 , . . . , vn ) em Rn ,ento |hu, vi| kuk kvk (3.51)

Demonstrao: Se u = 0 ou v = 0, onde 0 o vetor nulo, a desigualdade trivial pois resulta 0 0. Precisamos considerar, ento, apenas a situao em que u 6= 0 e v 6= 0. Dados dois nmeros reais x e y, verdade que 0 (x y)2 = x2 2xy + y 2 Logo, 2xy x2 + y 2 Fazendo x= resulta que 2 |ui | kuk e y= |vi | kvk

Mas |ui | |vi | = |ui vi | e |ui |2 = u2 .Logo, i 2

|ui |2 |ui | |vi | |vi |2 + kuk kvk kuk2 kvk2 u2 |ui vi | v2 i2 + i2 kuk kvk kuk kvk
n P n P

Somando membro a membro para i = 1, 2, . . . , n, resulta


n P

2 i=1 i=1 2 + i=1 2 kuk kvk kuk kvk

|ui vi |

u2 i

2 vi

CAPTULO 3. MEDIDAS ESTATSTICAS Logo,

132

e, ento:

|ui vi | kuk2 kvk2 + =2 2 i=1 kuk kvk kuk2 kvk2


n P

n P

i=1

|ui vi |

ou

kuk kvk

n P P Como ui vi n |ui vi | , segue que i=1


i=1

i=1

n P

|ui vi | kuk kvk

|hu, vi| kuk kvk

ou equivalentemente,

Fazendo, em (3.52),

s n sn n P P 2 P 2 ui vi ui vi
i=1 i=1 i=1

(3.52)

ui = obtm-se que

xi x X

vi =

yi y Y

ou

ou

v v n u n n X x x y y u 1 X u u 1 X t i i 2 (xi x) t 2 (yi y)2 X Y 2 Y X


i=1 i=1 i=1

v n v n X x x y y uX x x 2 uX y y 2 u u n t i i i i t X Y X Y
i=1 i=1 i=1

ou

n s s X x x y y 1 1 i i 2 n 2 Y 2 n X X Y X 2 Y
i=1

ou nalmente como queramos demonstrar.

n yi y 1 X xi x 1 n X Y
i=1

|Corr(X, Y )| 1

Captulo 4

Soluo dos Exerccios


4.1 Captulo 2

Seo 2.2
1. Podemos pensar em uma varivel Bens (qualitativa) com categorias Mquina de lavar, TV, Geladeira e outra varivel Servios (qualitativa) com categorias Rede de gua, Rede de esgoto, Telefone. Uma outra forma olhar cada um dos bens e servios como uma varivel qualitativa com categorias Sim/No. Na verdade, essa a forma da pergunta no questionrio da pesquisa. Uma outra varivel envolvida a Renda, que neste caso uma varivel qualitativa, j que s aparecem duas classes. 2. As variveis so: Tipo de estabelecimento (Pblico ou Privado); Nvel de ensino (Pr-escolar, 1o grau, 2o grau, Superior), Nmero de estabelecimentos e Nmero de alunos matriculados. As duas primeiras so qualitativas, sendo que a segunda tem uma escala ordinal. As duas ltimas so variveis quantitativas discretas.

Seo 2.3
3. Ver tabela 4.1. Tabela 4.1: Soluo do Exerccio 3 do Captulo 2 Notas Freqncia simples Freqncia acumulada Absoluta Relativa (%) Absoluta Relativa (%) 1 3 0,06 3 0,06 4 0,08 7 0,14 2 4 0,08 11 0,22 3 5 0,10 16 0,32 4 5 8 0,16 24 0,48 8 0,16 32 0,64 6 5 0,10 37 0,74 7 5 0,10 42 0,84 8 5 0,10 47 0,94 9 10 3 0,06 50 1,00

133

CAPTULO 4. SOLUO DOS EXERCCIOS

134

4. O menor valor 0,7 e o maior 7472. Vamos arredondar o menor valor para 0, o que resulta em uma amplitude de 7472. Para trabalhar com comprimentos de classe inteiros, aproximamos a amplitude para o prximo mltiplo do nmero de classes, o que d 7475. Resulta, ento, um comprimento de classe igual a 1495. Ver tabela 4.2. Tabela 4.2: Soluo do Exerccio 4 do Captulo 2 Quantidade de Freqncia simples Freqncia acumulada ovos (milhes) Absoluta Relativa (%) Absoluta Relativa (%) 0 ` 1495 37 74,0 37 74,0 1495 ` 2990 5 10,0 42 84,0 4 8,0 46 92,0 2990 ` 4485 3 6,0 49 98,0 4485 ` 5980 1 2,0 50 100,0 5980 ` 7475 5. Ver Tabela 4.3. Note que, como no sabemos o nmero de famlias, no possvel calcular as freqncias absolutas. Tabela 4.3: Soluo do Exerccio 5 do Captulo 2 Consumo de Freqncia simples Freqncia acumulada Relativa (%) leite (litros) Relativa (%) 0`1 20,0 20,0 1`2 50,0 70,0 20,0 90,0 2`3 10,0 100,0 3`5 6. Ver Tabela 4.4. A varivel de estudo nmero de empregados. Tabela 4.4: Soluo do Exerccio 6 do Captulo 2 Nmero de Freqncia simples Freqncia acumulada empregados Absoluta Relativa (%) Absoluta Relativa (%) 152 ` 6277 51 63,75 51 63,75 21 26,25 72 90,00 6277 ` 12402 12402 ` 18527 4 5,00 76 95,00 3 3,75 79 98,75 18527 ` 24652 1 1,25 80 100,0 24652 ` 30777 7. Ver Tabela 4.5.

Seo 2.4
8. Para o Exerccio 2.3: Figura 4.1 Para o Exerccio 2.4: Figura 4.2 Para o Exerccio 2.5: Figura 4.3 Para o Exerccio 2.6: Figura 4.4 Para o Exerccio 2.7 : Figura 4.5

CAPTULO 4. SOLUO DOS EXERCCIOS

135

Tabela 4.5: Soluo do Exerccio 7 do Captulo 2 Situao Freqncia simples Freqncia acumulada Absoluta Relativa (%) Absoluta Relativa (%) Reprovado 9 16,6667 9 16,6667 23 42,5926 32 59,2593 VS 22 40,7407 54 100,0000 Aprovado Total 54 100,0000

Figura 4.1: Soluo do Exerccio 2.3 do Captulo 2

10

Nmero de alunos

0 1 2 3 4 5 6 7 8 9 10

Nota

CAPTULO 4. SOLUO DOS EXERCCIOS

136

Figura 4.2: Soluo do Exerccio 2.4 do Captulo 2


40

35

30

25

20

15

10

0 0 1495 2990 4485 5980 7475 8970

Figura 4.3: Soluo do Exerccio 2.5 do Captulo 2


60

50

40

30

20

10

0 0 1 2 3 4 5 6

CAPTULO 4. SOLUO DOS EXERCCIOS

137

Figura 4.4: Soluo do Exerccio 2.6 do Captulo 2


60

50

40

30

20

10

0 152

6277

12402

18527

24652

30777

36902

Figura 4.5: Soluo do Exerccio 2.7 do Captulo 2

Reprovado 17%

Aprovado 41%

VS 42%

CAPTULO 4. SOLUO DOS EXERCCIOS

138

Exerccios Complementares
9. Os valores mnimo e mximo so 75 kg e 95 kg; logo, a amplitude total de 20 kg. Para grupar os dados em 5 classes, mantendo os limites como nmeros inteiros, temos que mudar a amplitude para 25 e a o comprimento de cada classe ser de 5 kg. Distribuindo a diferena nas duas caudas da distribuio, os limites de classe podem ser: 72 ` 77 77 ` 82 82 ` 87 87 ` 92 92 ` 97. 10. Os valores mnimo e mximo so 1500 e 3150 u.m.. Logo, a amplitude total de 1650 u.m., que um mltiplo exato de 6. Ento, para denir os limites como nmeros inteiros, temos que 1656 = 276. redenir a amplitude como 1656 e, nesse caso, o comprimento de cada classe ser 6 Distribuindo igualmente as 6 unidades, os limites de classe so: 2325 ` 2601 1497 ` 1773 2601 ` 2877 1773 ` 2049 2877 ` 3153 2049 ` 2325 73 ` 78 78 ` 83 83 ` 88 88 ` 93 93 ` 98 ou

11. A tabela e os grcos so apresentados a seguir (Tabela 4.6 e Figuras 4.6 e 4.7). Tabela 4.6: Soluo do Exerccio 2.11 do Captulo 2 Freqncia Simples Freqncia Acumulada Notas Absoluta Relativa Absoluta Relativa 20 ` 30 1 0,02 1 0,02 30 ` 40 2 0,04 3 0,06 2 0,04 5 0,10 40 ` 50 3 0,06 8 0,16 50 ` 60 12 0,24 20 0,40 60 ` 70 14 0,28 34 0,68 70 ` 80 12 0,24 46 0,92 80 ` 90 90 ` 100 4 0,08 50 1,00 Total 50 1,00 12. Como a amplitude exata mltiplo de 5, vamos trabalhar com o prximo mltiplo, que 116.990. A denio das classes foi feita distribuindo duas unidades extras na cauda inferior e trs na cauda superior. (Tabela 4.7 e Figuras 4.8 e 4.9) Tabela 4.7: Soluo do Exerccio 2.12 do Captulo 2 Freqncia Simples Freqncia Acumulada Notas Absoluta Relativa Absoluta Relativa 1813 ` 25211 63 0, 63 63 0, 63 17 0, 17 80 0, 80 25211 ` 48609 9 0, 09 89 0, 89 48609 ` 72007 8 0, 08 97 0, 97 72007 ` 95405 95405 ` 118803 3 0, 03 100 1, 00 Total 100 1, 00

CAPTULO 4. SOLUO DOS EXERCCIOS

139

Figura 4.6: Soluo do Exerccio 2.11 do Captulo 2


15 14 13 12 11

Freqncia Simples

10 9 8 7 6 5 4 3 2 1 0 10 20 30 40 50 60 70 80 90 100 110

Notas

Figura 4.7: Soluo do Exerccio 2.11 do Captulo 2


60

50

40 Freq.Acumulada

30

20

10

0 0 10 20 30 40 50 Notas 60 70 80 90 100 110

CAPTULO 4. SOLUO DOS EXERCCIOS

140

Figura 4.8: Soluo do Exerccio 2.12 do Captulo 2


65 60 55 50 45

Freqncia simples

40 35 30 25 20 15 10 5 0 -21585 1813 25211 48609 72007 95405 118803 142201

Horas trabalhadas

Figura 4.9: Soluo do Exerccio 2.12 do Captulo 2


120

100

80

Freq.Acumulada

60

40

20

0 -21585 1813 25211 48609 72007 95405 118803 142201

Horas trabalhadas

CAPTULO 4. SOLUO DOS EXERCCIOS Figura 4.10: Soluo do Exerccio 2.13 do Captulo 2
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 32 35 2 2 4 1 8 1 1 1 2 2 5 7 3 8 1 7 3 7 4 4 5 5 6 6

141

9 8 3

13. As folhas sero denidas pelo algarismo da unidade e cada ramo representar uma dezena. (Figura 4.10). 14. Como as classes so desiguais, temos que trabalhar com o conceito de densidade. A soluo apresentada considera as seguintes classes: [50,60), [60,70), [70,80), [80,90), [90,100), [100,200), [200,300), [300,400), [400,500), [500,600) e exclui Belo Horizonte. Aqui estamos usando a densidade denida em termos da freqncia absoluta (Tabela 4.8 e Figura 4.11). Tabela 4.8: Soluo do Exerccio 2.14 do Captulo 2 Freqncia Simples Freqncia Acumulada (milhares) Absoluta Relativa Absoluta Relativa 7 11,86 7 11,86 12 20,34 19 32,20 11 18,64 30 50,85 3 5,08 33 55,93 4 6,78 37 62,71 13 22,03 50 84,75 4 6,78 54 91,53 2 3,39 56 94,92 1 1,69 27 96,61 2 3,39 59 100,00 57 100, 00

Populao 50 ` 60 60 ` 70 70 ` 80 80 ` 90 90 ` 100 100 ` 200 200 ` 300 300 ` 400 400 ` 500 500 ` 600 Total

Densidade Absoluta 0,70 1,20 1,10 0,30 0,40 0,13 0,04 0,02 0,01 0,02

15. O grco apropriado um grco tipo linha, que mostra a evoluo dos dados ao longo do tempo. (Figura 4.12).

CAPTULO 4. SOLUO DOS EXERCCIOS

142

1,4

1,2

Densidade de frequncia

0,8

0,6

0,4

0,2

0 0 100 200 300 400 500 600 700

Populao

Figura 4.11:

Figura 4.12: Soluo do Exerccio 2.15 do Captulo 2


2,5

2,0

1,5

1,0

0,5

0,0 17/Nov 24/Nov 01/Dez 08/Dez 15/Dez 22/Dez 29/Dez 05/Jan 12/Jan 19/Jan 26/Jan 02/Fev 09/Fev 16/Fev 23/Fev 01/Mar 08/Mar 15/Mar

-0,5

-1,0

CAPTULO 4. SOLUO DOS EXERCCIOS

143

16. O grco apropriado um grco tipo setores. Havendo disponibilidade, esse grco deve ser construdo de modo que as fatias sejam diferenciadas por cores. (Figura 4.13) Figura 4.13: Soluo do Exerccio 2.16 do Captulo 2

Outros 25%

GM 23%

Chrysler 8% Ford 17%

Renault 9% Toyota 9% VW 9%

17. Um grco apropriado o tipo barras, onde os sexos so representados em colunas adjacentes. (Figura 4.14) 18. Novamente, o grco apropriado o tipo linha para mostrar a evoluo ao longo do tempo; poderia ser usado tambm um grco tipo barras. (Figura 4.15) 19. Ver Tabela 4.9 e Figuras 4.16 e . Tabela 4.9: Soluo do Exerccio 19 do Captulo 2 Nmero de Freqncia simples Freqncia acumulada empregados Absoluta Relativa (%) Absoluta Relativa (%) 110 ` 154 17 28,8135 17 28,8135 33 55,9322 50 84,7457 154 ` 198 198 ` 242 4 6,7797 54 91,5254 1 1,6949 55 93,2203 242 ` 286 4 6,7797 59 100,0000 286 ` 330 20. Ver Figura 4.18. Esse o tipo de grco utilizado pelas companhias de eletricidade (LIGHT, AMPLA, etc) nas contas de luz para ilustrar o consumo dos clientes. Poderia ser feito tambm um grco de linnhas. 21. Ver Tabela 4.10 O nmero mediano de sinistros 0 e o 90o percentil 1.

CAPTULO 4. SOLUO DOS EXERCCIOS

144

Figura 4.14: Soluo do Exerccio 2.17 do Captulo 2


Populao (em 1000 hab) dos estados brasileiros por sexo
20000 18000 16000 14000 12000 10000 8000 6000 4000 2000 0 RO AC AM RR PA AP TO MA PI CE RN PB PE AL SE BA MG ES RJ SP PR SC RS MS MT GO DF

Fonte: IBGE - Censo Demogrfico 2000


Homens Mulheres

Figura 4.15: Soluo do Exerccio 2.18 do Captulo 2


450

400

350

300

250

200

150

100

50

0 Jan/98

Fev/98

Mar/98

Abr/98

Mai/98

Jun/98

Jul/98

Ago/98

Set/98

Out/98

Nov/98

Dez/98

Jan/99

Fev/99

Mar/99

Abr/99

Mai/99

Jun/99

CAPTULO 4. SOLUO DOS EXERCCIOS

145

Figura 4.16: Ramo e folhas para rea das casas de Boulder, Colorado - Exerccio 2.19 do Captulo 2
12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 6 6 6 6

3 8 9 5 7 2 1 3 1 2 0 3 0 6 2 9 3

9 6 8 3 2 4 2 3 2 5 2 7 2 8 7 4 9 8 6 6 2 9 8 4 9

8 9

7 9 4

Figura 4.17: Diagrama de disperso para preo e rea das casas de Boulder, Colorado Exerccio Exerccio 2.19 do Captulo 2
350

300

250

200 Preo 150 100 50 0 0 50 100 150 200 rea 250 300 350 400 450

CAPTULO 4. SOLUO DOS EXERCCIOS

146

Figura 4.18: Soluo do Exerccio 2.20 do Captulo 2


18

16

14

12

10

0 jan/00 fev/00 mar/00 abr/00 mai/00 jun/00 jul/00 ago/00 set/00 out/00 nov/00 dez/00 jan/01

Tabela 4.10: Soluo do Exerccio 21 do Captulo 2 Nmero de Freqncia simples Freqncia acumulada sinistros Absoluta Relativa (%) Absoluta Relativa (%) 0 2913 58,26 2913 58,26 1587 31,74 4500 90,00 1 326 6,52 4826 96,52 2 102 2,04 4928 98,56 3 4 72 1,44 5000 100,00

CAPTULO 4. SOLUO DOS EXERCCIOS

147

22. A varivel independente classe social e o jornal preferido a varivel dependente. Veja Tabela ?? e Figura 4.19. Podemos ver que nas duas classes superiores h uma maior preferncia pelo jornal A, enquanto na classe Pobre, o jornal preferido o B. Em todas as classes, o jornal C o menos lido. Jornal A B C Total Pobre 31,25 41,67 27,08 100,00 Classe Social Mdia Inferior Mdia 37,50 52,38 37,50 30,95 25,00 16,67 100,00 100,00 Alta 61,11 30,56 8,33 100,00 Total 45,00 35,00 20,00 100,00

Figura 4.19: Soluo do Exerccio 22


70

60

50

40

30

20

10

0 Pobre Mdia Inferior Mdia Alta

23. Aqui queremos ver se h diferena entre republicanbos e deo=mocratas em relao ao aborto. Podemos pensar no partido como varivel independente e na opinio sobre o aborto como a varivel dependente.. Veja Tabela ?? e Figura 4.20. Podemos ver que h uma inverso nos dois partidos entre aqueles que so contra ou a favor. Opinio sobre o aborto A favor Neutro Contra Total Partido Democrata Republicano 63,41 32,38 6,50 4,76 30,08 62,86 100,00 100,00 Total 49,12 5,70 45,18 100,00

4.2

Captulo 3

Seo 3.2

CAPTULO 4. SOLUO DOS EXERCCIOS Figura 4.20: Soluo do Exerccio 23


70

148

60

50

40

30

20

10

Democrata

Republicano

A favor

Neutro

Contra

1. A propriedade bsica a ser usada na soluo deste exerccio que a mdia de um conjunto de dados sempre maior que o valor mnimo. Se o peso mdio 81 kg, o peso total dos 11 jogadores 11 81 = 891. Se um jogador pesa 95 kg, o peso dos 10 outros de 891 95 = 796, que d um peso mdio de 79,6, ainda maior que o valor mnimo de 72 kg. Se dois pesam 95, o peso dos 9 restantes de 891 190 = 701, com mdia de 77,89. Continuando com esse raciocno, chega-se seguinte concluso: se 5 jogadores pesarem 95 kg, o peso mdio dos 6 restantes de 69,33, menor que 72 kg, o que no possvel. Logo, no mximo 4 jogadores podem pesar 95 kg. O peso mdio dos 7 restantes de 73 kg. 2. x= Dados ordenados: 0 1 1 1 1 2 2 2 2 2 2 2 3 3 4 4 4 5 5 6 52 2 + 4 + + 2 + 2 + 1 = = 206 aplices/dia 20 20

Q2 =

x(10) + x(11) 2+2 = = 2 aplices/dia 2 2 x = 2 aplices/dia

3. Como j visto, a mdia sensvel a valores extremos. Certamente h grandes empresas que fazem parte do ndice NASDAQ, que puxam a mdia para cima. A mediana no alterada pela presena de valores extremos. Sendo assim, ela bem menor que a mdia. 4. x(40) + x(41) 517462 = 6468, 275 Q2 = = 4916 80 2 Novamente a mdia inuenciada pelas poucas empresas que tm um grande nmero de empregados. x=

CAPTULO 4. SOLUO DOS EXERCCIOS 5. A inao acumulada at novembro : 1, 007 1, 0105 1, 0095 = 1, 08290 Como queremos a inao anual no mximo de 9%, temos que ter 1, 08290 i12 1, 09 i12 que equivale a uma taxa mxima de 0,66%. 1, 09 = 1, 006556 1, 08290

149

9200 = 3, 68; logo, o percentual mdio de crescimento 6. O crescimento global nos trs dias foi de 2500 3 foi de 100 3, 68 1 = 100 (1, 543889 1) = 54, 39%. Aqui voc tem que usar a mdia geomtrica porque as novas bactrias tambm se reproduzem; como se tivssemos um regime de capitalizao composta.

Seo 3.3
7. Na Tabela 4.11 temos os dados necessrios para os clculos. Tabela 4.11: Soluo do exerccio 7 do Captulo 3 ni ni xi ni x2 ni |xi x| i 1 0 0 2,6 4 4 4 6,4 7 14 28 4,2 2 6 18 0,8 3 12 48 4,2 2 10 50 4,8 1 6 36 3,4 20 52 184 26,4

Nmero de aplices xi 0 1 2 3 4 5 6

A mdia, como j visto, 2,6. As medidas de disperso so: =61=5 = 9, 2 6, 76 = 2, 44 = 1, 56205 26, 4 = 1, 32 20

184 = 20
2

52 20

DM A = 8. (a) Ver Figura 4.21 (b) Q2 = x(15) + x(16) = 26 2

Q1 = x(8) = 25

Q3 = x(15+8) = x(23) = 28

IQ = 2825 = 3

(c) Q1 1, 5 IQ = 25 4, 5 = 20, 5 Veculos taxados: Mercedez-Bens S420 e Rolls Royce Silver Stone.

CAPTULO 4. SOLUO DOS EXERCCIOS Figura 4.21: Soluo do Exerccio 8 do Captulo 3


1 1 2 2 3 3

150

5 0 2 3 3 4 4 5 5 5 5 6 6 6 6 6 6 6 7 7 7 7 8 8 8 9 9 9 1 1

9. xA = 55, 7222 xB = 55, 4286 A = 7, 4596 B = 3, 0949 CVA = 13, 3871 CVB = 5, 5835

Rendimentos mdios semelhantes mas disperso da corretora A muito maior. A corretora B parece ter um comportamento mais estvel. 10. xtarde = 4, 8 xnoite = 5, 6 tarde = 1, 61 noite = 1, 84 CVtarde = 33, 8% CVnoite = 32, 89%

Mdia da turma da noite maior, com menor variabilidade relativa.

Seo 3.7
11. Na Tabela 4.12 temos os dados necessrios para os clculos. Tabela 4.12: Soluo do Exerccio 11 do Captulo 3 Classe xi fi fi xi fi x2 i 18 ` 20 19 0, 36 6, 84 129, 96 5, 04 105, 84 20 ` 22 21 0, 24 22 ` 26 24 0, 20 4, 80 115, 20 4, 48 125, 44 26 ` 30 28 0, 16 1, 32 43, 56 30 ` 36 33 0, 04 Soma 1, 00 22, 48 520, 00 (a) A mdia 22,48, maior que a mdia obtida anteriormente de 22 anos. Assim, parece ter havido alguma melhora. (b) O desvio padro dos dados (note que na tabela j estamos multiplicando pelas freqncias relativas!): p 520 22, 482 = 3, 8275 A regra do pesquisador se baseia em =

2 3, 8275 = 1, 0826. Como x 22 = 0, 48 < 50 1, 0826, ele decide que a diferena no foi grande o suciente.

CAPTULO 4. SOLUO DOS EXERCCIOS Tabela 4.13: Soluo do Exerccio 12 do Captulo 3 Classe xi fi fi xi fi x2 i 0 ` 1 0,5 0,20 0,10 0,050 0,75 1,125 1 ` 2 1,5 0,50 0,50 1,250 2 ` 3 2,5 0,20 0,40 1,600 3 ` 5 4,0 0,10 Soma 1,00 1,75 4,025 12. Ver Tabela 4.13 A mdia x = 1, 75 litros e o desvio padro = 13. Ver Tabela 4.14

151

p 4, 025 1, 752 = 0, 9811 litros. Captulo 3 fi x2 i 6587294,03438 22896893,31563 11957538,01250 17478994,13438 9601168,87813 68521888,37500 p 68521888, 37500 6430, 1252 =

Tabela 4.14: Soluo do Exerccio 13 do Classe xi fi fi xi 152 ` 6277 3214,5 0,6375 2049,24375 9339,5 0,2625 2451,61875 6277 ` 12402 773,22500 12402 ` 18527 15464,5 0,0500 809,60625 18527 ` 24652 21589,5 0,0375 24652 ` 30777 27714,5 0,0125 346,43125 Soma 1,0000 6430,125 A mdia 6430,125 empregados e o desvio padro = 5213, 001 empregados.

14. Classe modal 1 ` 2. As classes vizinhas tm a mesma freqncia; logo, ambos os mtodos daro a moda igual ao ponto mdio. De fato, pelo mtodo de King temos:: x 1 0, 2 x = 1, 5 = 2x 0, 2 e pelo mtodo de Czuber: x 1 0, 3 x = 1, 5 = 2x 0, 3

15. A classe modal a primeira classe 152 ` 6277. O mtodo de King, ento, resulta no extremo superior (no tem ningum puxando pelo lado inferior). De fato: 0 6277 x = x = 6277 x 152 21 Pelo mtodo de Czuber temos: 6277 x 51 21 = 30x 4560 = 320127 51x x = 4008, 48 152 x 51 0 16. (a) x = 1020, 8 (b) 2 = 691, 36 = 26, 2937 (c) Histograma usual, com classes de igual comprimento.

CAPTULO 4. SOLUO DOS EXERCCIOS

152

(d) O limite superior da classe D o 20o percentil; o da classe C o 50o percentil, o da classe B o 80o percentil e, obviamente, o da classe A o valor mximo, 1080. O 20o percentil est na classe 980 ` 1000, onde acumula 22% da distribuio e a regra de proporcionalidade que o dene : 1000 980 1000 P20 = P20 = 997, 2 0, 22 0, 20 0, 16 O 50o percentil (mediana) o limite superior da terceira classe (note que nessa classe temos 50% da distribuio acumulada). O 80o percentil est na classe 1040 ` 1060, onde acumula 92% da distribuio: 1000 980 1060 P80 = P80 = 1045 0, 92 0, 80 0, 16 As classes de peso so, pois: [960, 997,5); [997,5; 1020); [1020; 1045); >=1045. (e) Rao reforada: x 2 = 1020, 8 2 26, 2937 = 968, 2125. Podemos estimar a percentagem de frangos por uma regra de trs anloga utilizada para determinar qualqeur separatriz. A diferenca que agora temos a separatriz e queremos a freqncia. 980 960 968, 2125 960 = x = 0, 0246 ou 2, 46% x 0, 06 Rerpodutores: x + 1, 5 = 1020, 8 + 1, 5 26, 2937 = 1060, 2406. 1080 1060 1080 1060, 2406 = x = 0, 079 ou 7, 90% x 0, 08 17. A mediana est na classe 1 ` 2 onde temos 50% da distribuio e 70% da distribuio acumulada. Logo, 21 2 Q2 = Q2 = 1, 6 0, 7 0, 5 0, 5 O terceiro decil tambm est na classe 1 ` 2. Logo, 2 D3 21 = D3 = 1, 2 0, 7 0, 3 0, 5 18. A mediana e o primeiro quartil esto ambos na primeira classe, onde temos 63,75% da distribuio. 6277 152 6277 Q1 = Q1 = 2553, 9608 0, 6375 0, 25 0, 6375 6277 152 6277 Q2 = Q2 = 4955, 9216 0, 6375 0, 5 0, 6375 12402 6277 12402 Q1 = Q3 = 8902, 001 0, 90 0, 75 0, 2625 e o intervalo interquartil IQ = 8902, 001 2553, 9608 = 6348, 0402

O terceiro quartil est na segunda classe:

CAPTULO 4. SOLUO DOS EXERCCIOS 19. x = 0 + 0 + + 8, 4 + 8, 5 = 2, 411 54 x(27) + x(28) 1, 0 + 1, 2 Q2 = = = 1, 1 2 2 x = 0, 0 Q1 = x(14) = 0, 0 20. Seja x a nota do aluno na segunda prova. Ento, temos, para a mdia ponderada: 2 5, 5 + 3 x 6 x 6, 33 5 Se as provas tiverem peso igual, temos: 5, 5 + x 6 x 6, 5 2 21. Na Tabela 4.15 temos a verso completa, para facilitar a soluo do exerccio. Tabela 4.15: Soluo do Exerccio 21 do Captulo 3 Ponto Freqncia simples Freqncia acumulada mdio Absoluta Relativa Absoluta Relativa 0`2 1,0 55 0,055 55 0,055 2,5 65 0,065 120 0,120 2`3 3,5 172 0,172 292 0,292 3`4 4,5 254 0,254 546 0,546 4`5 5`6 5,5 278 0,278 824 0,824 6,5 76 0,076 900 0,900 6`7 7,5 75 0,075 975 1,000 7`8 9,0 25 0,025 1000 8 ` 10

153

(b) dm = 0, 055 |1 4, 773| + 0, 065 |2, 5 4, 773| + + 0, 025 |9 4, 773| = 1, 287116

(a) x = 0, 055 1 + 0, 065 2, 5 + + 0, 025 9 = 4, 773 2 = 0, 05512 +0, 0652, 52 + +0, 02592 4, 7732 = 2, 794471 = 1, 67166713

(c) x + 1, 5 = 7, 2805007. Logo, os alunos com nota maior que 7,28 tero bolsa de Iniciao Cientca. Usando uma regra de trs podemos estimar o nmero de alunos com nota entre 7,28 e 8 notando que a classe 7 ` 8, de comprimento 1, tem 75 alunos. Logo, a classe 7 ` 7, 28 ter x alunos onde x 75 = x = 0, 28 75 = 21 1 0, 28

e, assim, o nmero de alunos que tero bolsa de Iniciao Cientca de 21 + 25 = 46. (d) Temos que calcular o terceiro decil, que est na classe 4 ` 5. Usando a proporcionalidade das reas dos retngulos envolvidos, tem-se que: 5 D3 0, 546 0, 3 = D3 = 4, 0315 54 0, 254 Logo, para no ter que fazer o curso de Clculo Zero, o aluno tem que tirar nota maior que 4,03.

CAPTULO 4. SOLUO DOS EXERCCIOS Figura 4.22: Soluo do Exerccio 22 do Captulo 3


0,350

154

0,300

0,250

0,200

0,150

0,100

0,050

0,000 0 1 2 3 4 5 6 7 8 9

22. As distribuies simtricas tm mdia e mediana iguais. (ver Figura 4.22) 23. (a) 38639 = 1431, 074 x= 27 = s 135079221 27 38639 27 2 = p 2954961, 106 = 1719, 000

(b) Os dados esto ordenados decrescentemente. A mediana, como observao central, pode ser calculada contando de baixo para cima (do menor para o maior) ou do maior para o menor; ela a 14a observao em qualquer direo. Q2 = 635. Tirando a mediana sobram 13 observaes em cada metade. Logo, os outros quartis so as observaes x(7) e x(14+7) . O terceiro quartil pode, ento, ser calculado como a stima observao, indo do maior para o menor, e o primeiro quartil a stima observao indo do menor para o maior. Q1 = 158 Q3 = 2300 IQ = 2142

Q3 + 1, 5 IQ = 5513 (c) Q1 1, 5 IQ = 3055 No h outliers inferiores mas os dois maiores salrios so outliers superiores. (d) Dada a presena de outliers, a mediana seria mais adequada para representar o salrio tpico do time. 24. (a) Ver Tabela 4.16. (b) x = 830, 48 mg = p 690255, 2 830, 482 = 23, 6256 mg.

(c) Classe modal: 820 ` 840 King:

x 820 117 118x 96760 = 98280 117x x = 829, 96 mg = 840 x 118

CAPTULO 4. SOLUO DOS EXERCCIOS Tabela 4.16: Soluo do Exerccio 24 do Captulo 3 Mdio Freq.Simples Freq.Acumulada Clc. de x xi Abs. ni Rel. fi Abs. Ni Rel. Fi fi xi 770 4 0,008 4 0,008 6,16 790 43 0,086 47 0,94 67,94 810 118 0,236 165 0,330 191,16 830 168 0,336 333 0,666 278,88 850 117 0,234 450 0,900 198,90 870 39 0,078 489 0,978 67,86 890 11 0,022 500 1,000 19,58 500 1,000 830,48

155

Classes de peso (mg) 760 ` 780 780 ` 800 800 ` 820 820 ` 840 840 ` 860 860 ` 880 880 ` 900 Soma Czuber:

Clc. de 2 fi x2 i 4743,2 53672,6 154839,6 231470,4 169065,0 59038,2 17426,2 690255,2

(d) Classe mediana: 820 ` 840; a temos 0,336 de freqncia e 0,666 da freqncia acumulada. 840 820 840 Q2 = Q2 = 830, 119 mg 0, 666 0, 5 0, 336 (e) Q1 : 800 ` 820 f = 0, 236 F = 0, 33 820 800 820 Q1 = Q1 = 813, 220 mg 0, 33 0, 25 0, 236 Q3 : 840 ` 860 f = 0, 234 F = 0, 90 860 840 860 Q3 = Q3 = 847, 179mg 0, 90 0, 75 0, 234 Outliers inferiores: Q1 1, 5 IQ = 762, 2815 780 760 762, 2815 760 = x = 0, 0009126 ou 0, 09% x 0, 008 Outliers superiores: Q3 + 1, 5 IQ = 898, 1175 900 880 900 898, 1175 = x = 0, 0021 ou 0, 21% x 0, 022 25. Para os 4 conjuntos, temos que as mdias de X e Y so as mesmas, assim como o coeciente de correlao. X = 9 X = 3, 16228 (X, Y ) = 0, 816 No entanto, os conjuntos so completamente diferentes, conforme ilustrado pelos diagramas de disperso da Figura 4.23. Ento, uma anlise de dados no deve se basear em apenas uma medida descritiva; importante que diferentes aspectos sejam analisados, inclusive atravs de representaes grcas adequadas. Y = 7, 50091 Y = 1, 93711

168 118 x 820 x = 829, 90 mg = 840 x 168 117

CAPTULO 4. SOLUO DOS EXERCCIOS Figura 4.23: Dados de Anscombe - Soluo do Exerccio 25 do Captulo ??
C onjunto 1
10 8 6 4 2 0 0 5 10 15 14 12 10 8 6 4 2 0 0 5 10 15 20

156

C o njun to 2

C on junto 3

C o njun to 4

12 10 8 6 4 2 0 0 5 10 15

14 12 10 8 6 4 2 0 0 5 10 15

26. A idia usar como proxy a varivel mais fortemente associada com a varivel de interesse, que capacidade da produo instalada. Vamos, ento, calcular os coecientes de correlao entre essa varivel e as duas candidatas. Usando os valores dados, temos que: 361 8038 q10 (X, Y ) = q 802 736 10 182 = 0, 9487

382 10

Logo, a varivel a ser utilizada como proxy dever ser Potncia Instalada, que apresenta maior correlao com a varivel de interesse.

848 80100 q 10 (X, Z) = q 802 736 10 1048

1002 10

= 0, 7071

Bibliograa
[1] Anscombe, F.J. (1974), Graphs in statistical analysis, The American Statistician, 27(1973), pp. 17-21. [2] Barbetta. P.A. (1994) Estatstica Aplicada s Cincias Sociais, Florianpolis: Editora da UFSC. [3] Bussab, W.O. e Morettin, P.A. (1987) Estatstica Bsica, So Paulo: Editora Atual . [4] Dunn, O.J. e Clark, V.A. (1974) Applied Statistics: Analysis of Variance and Regression, Nova York: John Wiley & Sons. [5] Legrain, M. e Magain, D. (1992) Estudo de Mercado, So Paulo: Makron Books. [6] Lopes, P..A.(1999) Probabilidades e Estatstica, Rio de Janeiro: Reichmann & Aonso Editores. [7] Moore, D.S. e McCabe, G.P. (1998) Introduction to the Practice of Statistics, 3a ed., Nova York: W.H. Freeman and Company. [8] Murteira, B.J.F. e Black, G.H.J. (1983) Estatstica Descritiva, Lisboa: McGraw-Hill de Portugal. [9] Soares, J.F., Farias, A.A. e Cesar, C.C. (1991) Introduo Estatstica, Rio de Janeiro: Guanabara Koogan. [10] Tukey, J.W. (1977) Exploratory Data Analysis (EDA), Addison-Wesley. [11] Velleman, P.F. e Hoaglin, D.C. (1981) Applications, Basics and Computing of Exploratory Data Analysis (ABC of EDA), Massachusetts: Duxbury Press.

157