Escolar Documentos
Profissional Documentos
Cultura Documentos
Estatística Descritiva - Farias e Laurencel PDF
Estatística Descritiva - Farias e Laurencel PDF
DEPARTAMENTO DE ESTATSTICA
ESTATSTICA DESCRITIVA
Ana Maria Lima de Farias
Luiz da Costa Laurencel
Agosto de 2008
ii
.
Contedo
1 Introduo
1.1 O que uma pesquisa estatstica? . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Organizao das notas de aula . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1
2
2 Apresentao de dados
2.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Nveis de mensurao . . . . . . . . . . . . . . . . . . . . . .
2.2.1 Exerccios propostos da Seo 2.2 . . . . . . . . . . . .
2.3 Distribuio univariada de freqncias: Representao tabular
2.3.1 Variveis qualitativas . . . . . . . . . . . . . . . . . .
2.3.2 Variveis quantitativas . . . . . . . . . . . . . . . . . .
2.3.3 Notao para distribuies univariadas de freqncias
2.3.4 Exerccios resolvidos da Seo 2.3 . . . . . . . . . . . .
2.3.5 Exerccios propostos da Seo 2.3 . . . . . . . . . . . .
2.4 Distribuio univariada de freqncias: Representao grfica
2.4.1 Grfico de setores . . . . . . . . . . . . . . . . . . . .
2.4.2 Grfico de colunas . . . . . . . . . . . . . . . . . . . .
2.4.3 Histograma e polgono de freqncias . . . . . . . . .
2.4.4 Grfico das distribuies de freqncias acumuladas .
2.4.5 Grfico de Linhas . . . . . . . . . . . . . . . . . . . . .
2.4.6 Histograma com classes desiguais . . . . . . . . . . . .
2.4.7 Observaes sobre a construo de grficos . . . . . .
2.4.8 Ramo e folhas . . . . . . . . . . . . . . . . . . . . . . .
2.4.9 Exerccios resolvidos da Seo 2.4 . . . . . . . . . . . .
2.4.10 Exerccios propostos da Seo 2.4 . . . . . . . . . . . .
2.5 Representao tabular: Distribuio bivariada de freqncias
2.5.1 Variveis qualitativas . . . . . . . . . . . . . . . . . .
2.5.2 Variveis quantitativas . . . . . . . . . . . . . . . . . .
2.5.3 Exerccios resolvidos da Seo 2.5 . . . . . . . . . . . .
2.6 Exerccios Complementares . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
4
4
6
6
7
9
17
18
22
25
25
25
27
29
32
32
34
35
38
39
43
43
45
48
53
3 Medidas Estatsticas
3.1 Introduo . . . . . . . . . . . . .
3.2 Medidas de posio . . . . . . . .
3.2.1 Mdia aritmtica simples
3.2.2 Moda . . . . . . . . . . .
3.2.3 Mediana . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
59
59
59
59
61
61
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
iii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
CONTEDO
3.3
3.4
3.5
3.6
3.7
3.8
3.9
3.2.4 Separatrizes . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.5 Mdia aritmtica ponderada . . . . . . . . . . . . . . . . .
3.2.6 Mdia geomtrica . . . . . . . . . . . . . . . . . . . . . . .
3.2.7 Mdia harmnica . . . . . . . . . . . . . . . . . . . . . . .
3.2.8 Algumas propriedades das medidas de posio . . . . . .
3.2.9 Exerccios resolvidos da Seo 3.2 . . . . . . . . . . . . . .
3.2.10 Exerccios propostos da Seo 3.2 . . . . . . . . . . . . . .
Medidas de disperso . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.1 Amplitude . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.2 Desvio mdio absoluto . . . . . . . . . . . . . . . . . . . .
3.3.3 Varincia e desvio padro . . . . . . . . . . . . . . . . . .
3.3.4 Propriedades das medidas de disperso . . . . . . . . . . .
3.3.5 Coeficiente de variao . . . . . . . . . . . . . . . . . . . .
3.3.6 Intervalo interquartil . . . . . . . . . . . . . . . . . . . . .
3.3.7 Exemplo: escores padronizados . . . . . . . . . . . . . . .
3.3.8 Exerccios resolvidos da Seo 3.3 . . . . . . . . . . . . . .
3.3.9 Exerccios propostos da Seo 3.3 . . . . . . . . . . . . . .
Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Medidas de assimetria . . . . . . . . . . . . . . . . . . . . . . . .
Uma estratgia alternativa para anlise de dados . . . . . . . . .
3.6.1 O esquema dos cinco nmeros . . . . . . . . . . . . . . . .
3.6.2 O boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . .
Medidas de posio e disperso para dados agrupados . . . . . .
3.7.1 Mdia simples . . . . . . . . . . . . . . . . . . . . . . . . .
3.7.2 Varincia . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.7.3 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.7.4 Outras separatrizes . . . . . . . . . . . . . . . . . . . . . .
3.7.5 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.7.6 Mdias geomtrica e harmnica . . . . . . . . . . . . . . .
3.7.7 Exerccios resolvidos da Seo 3.7 . . . . . . . . . . . . . .
3.7.8 Exerccios propostos da Seo 3.7 . . . . . . . . . . . . . .
Covarincia e Correlao . . . . . . . . . . . . . . . . . . . . . . .
3.8.1 Covarincia . . . . . . . . . . . . . . . . . . . . . . . . . .
3.8.2 Coeficiente de correlao . . . . . . . . . . . . . . . . . . .
3.8.3 Propriedades da covarincia e do coeficiente de correlao
3.8.4 Exerccios resolvidos da Seo 3.8 . . . . . . . . . . . . . .
Exerccios Complementares . . . . . . . . . . . . . . . . . . . . .
iv
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
62
64
65
66
67
69
76
77
77
78
79
81
83
83
84
85
86
87
88
91
92
92
96
98
98
99
102
103
107
108
111
113
113
119
122
123
125
129
131
156
Captulo 1
Introduo
1.1
Freqentemente nos deparamos com informaes estatsticas nos jornais, televiso, empresas pblicas
ou privadas, etc. Por exemplo, quando a direo do Metr do Rio de Janeiro informa que transporta
500.000 passageiros por dia, estamos lidando com uma estatstica do nmero de passageiros do metr.
Tal estatstica foi obtida com base na anlise do movimento dirio ao longo de um determinado
perodo de tempo e dessas anlises resultou um nmero que pretende dar uma idia do movimento
dirio de passageiros. claro que isso no significa que todo dia circulam exatamente 500.000
passageiros, mas tal nmero representa uma estimativa do nmero de passageiros.
Um outro exemplo que presenciamos periodicamente no Brasil so os Censos Demogrficos, que
so levantamentos realizados pelos governos com o objetivo de conhecer as caractersticas de sua
populao, suas condies scio-econmicas, suas caractersticas culturais e religiosas, etc. Temos
tambm os Censos Econmicos, com os quais se pretende conhecer as caractersticas da populao
formada pelos estabelecimentos econmicos do pas; assim podemos ter o Censo Industrial, o Censo
Agropecurio, etc.
Nas pesquisas censitrias, o objetivo que todos os elementos da populao tenham os seus
dados levantados. Nos censos demogrficos, isso significa que todas as pessoas e domiclios tm
que ser visitados; j no censo industrial, todas as empresas que desenvolvam atividades industriais
tm que ser pesquisadas. Com esses exemplos, v-se que o conceito de populao de uma pesquisa
estatstica mais amplo, no se restringindo a seres humanos; ela definida exatamente a partir
dos objetivos da pesquisa. Mais precisamente, populao o conjunto de elementos para os quais
se deseja estudar determinada(s) caracterstica(s).
Um outro exemplo que faz parte do nosso dia-a-dia e que resulta de um levantamento estatstico
o ndice de inflao, por exemplo, o ndice Nacional de Preos ao Consumidor (INPC) produzido
pelo IBGE1 . O ndice de inflao um nmero resultante de um levantamento de preos que resume
a variao dos preos durante um determinado perodo de tempo. Sendo esse levantamente realizado
mensalmente, no possvel levantar os preos de todos os produtos em todos os estabelecimentos.
Ento, feita uma seleo de produtos e estabelecimentos a serem pesquisados. Temos, assim,
um exemplo de pesquisa por amostragem. Nessas pesquisas, so selecionados alguns elementos da
populao, que compem a amostra, e mtodos estatsticos de inferncia nos permitem generalizar
os resultados obtidos com a amostra para toda a populao de interesse. Na pesquisa do INPC,
temos amostragem dos produtos e servios, bem como dos locais onde feito o levantamento dos
preos.
1
CAPTULO 1. INTRODUO
Outro exemplo de pesquisa por amostragem so as pesquisas de inteno de voto: alguns eleitores
so entrevistados e da tiram-se estimativas dos percentuais de votos de cada candidato.
Esses exemplos ilustram, ento, o conceito de pesquisa estatstica, que consiste num trabalho
de identificao, reunio, tratamento, anlise e apresentao de informaes (dados) para satisfazer
certa necessidade. Em qualquer levantamento ou pesquisa estatstica fundamental um planejamento cuidadoso de todo o processo, resultando na necessidade da elaborao da metodologia da
pesquisa, que consiste em um conjunto de definies, procedimentos, rotinas, mtodos e tcnicas
utilizados para a obteno e apresentao das informaes desejadas.
Nas pesquisas por amostragem, em particular, o mtodo de seleo da amostra uma pea
fundamental, pois os elementos da amostra tm que ser representativos da populao qual os
resultados da pesquisa sero estendidos. Por exemplo, numa pesquisa de inteno de voto para
prefeito do municpio do Rio de Janeiro, a amostra tem que ser representativa de todas as regies do
municpio; no podemos concentrar a pesquisa em Copacabana, por exemplo, pois o comportamento
do eleitorado desse bairro pode ser diferente do comportamento dos eleitores da Rocinha, em So
Conrado. Na pesquisa de preos para elaborao do INPC, temos que ter um levantamento nas
principais regies do pas para que o ndice resultante possa ser representativo do movimento de
preos em todo o pas.
De posse dos dados levantados, temos que decidir como os resultados sero organizados e apresentados. Do Censo Demogrfico, por exemplo, saem diversas tabelas que nos informam a populao
do Brasil por municpio, o nvel de escolaridade da populao, etc. No levantamento de preos para
medir a inflao, um dos resultados um nmero em forma percentual, que indica a variao dos
preos de um ms para outro.
Nas pesquisas por amostragem, temos uma etapa importante, que a etapa de estimao, onde
se decide como os resultados obtidos para a amostra sero estendidos para toda a populao e qual
o erro mximo que teremos nessa estimativa.
Assim, temos identificadas em diferentes pesquisas as trs grandes reas da Estatstica, que, no
entanto, no formam ramos isolados:
Amostragem e Planejamento de Experimentos - processo de obteno dos dados;
Estatstica Descritiva - organizao, apresentao e sintetizao dos dados;
Estatstica Inferencial - conjunto de mtodos para a tomada de deciso nas situaes onde
existam incertezas e variaes.
Neste curso introdutrio, estaremos lidando com a parte da Estatstica Descritiva, quando veremos tcnicas de anlise exploratria de dados. O objetivo capacitar o aluno a organizar conjuntos
de dados, desenvolvendo uma postura crtica na anlise dos fenmenos em estudo. Sempre que possvel, estaremos utilizando conjuntos de dados reais, referentes realidade scio-econmica brasileira.
1.2
CAPTULO 1. INTRODUO
matria do captulo. Os gabaritos completos dos exerccios est disponibilizado no site do curso,
www.u.br/ieeanamariafarias.
Os exemplos apresentados ao longo do texto, sempre que possvel, contemplaro dados verdicos,
obtidos de diversas fontes pertinentes realidade brasileira. Os alunos interessados podero obter
cpia do disquete com os dados utilizados no texto com os autores. Vrios conjuntos de dados se
referem a pesquisas realizadas pela Fundao Instituto Brasileiro de Geografia e Estatstica - IBGE
- e podem ser encontrados na pgina www.ibge.gov.br.
Captulo 2
Apresentao de dados
2.1
Introduo
2.2
Nveis de mensurao
Um problema bsico que se coloca nos levantamentos estatsticos o nvel de mensurao das informaes a serem levantadas. Isto porque a aplicabilidade ou no de modelos e mtodos estatsticos a
serem utilizados posteriormente na anlise do material vai depender em grande parte desse aspecto.
O nvel mais elementar de mensurao consiste na classificao dos indivduos ou objetos de uma
populao de acordo com uma certa caracterstica, isto , tenta-se separar os elementos em grupos,
conforme possuam essa ou aquela caracterstica em questo. o que sucede, por exemplo, quando
a caracterstica estudada sexo, religio, estado civil, etc. Nesses casos, as categorias se expressam
nominalmente e para a aplicao de tcnicas estatsticas adequadas, necessrio que as categorias
sejam exaustivas (isto , cubram todos os elementos da populao) e mutuamente exclusivas (isto ,
um elemento no pode pertencer simultaneamente a duas categorias distintas). Nesses casos, diz-se
que a caracterstica em estudo expressa segundo uma escala nominal. Assim, as operaes usuais
de aritmtica no podem ser realizadas sobre esse tipo de escala, mesmo que as categorias estejam
expressas em nmeros. No processamento de dados, bastante comum representar as categorias de
sexo Feminino e Masculino por nmeros, como 1 e 2. Naturalmente, no faz sentido dizer que o
Masculino duas vezes o Feminino; o 1 e o 2 so apenas substitutos dos nomes das categorias.
Num nvel de mensurao seguinte, podemos ordenar as categorias de uma determinada caracterstica. o que ocorre com o nvel de escolaridade, quando uma populao pode ser classificada
em 4 categorias: analfabeto, 1o grau, 2o grau, 3o grau, por exemplo. Aqui podemos dizer que o nvel
de escolaridade de um indivduo da categoria 2o grau maior que o de um indivduo da categoria 1o
grau, mas no podemos dizer que duas vezes maior. Nesta escala, chamada escala ordinal, valem
apenas as operaes de ordenao, maior do que ou menor do que.
Passa-se deste tipo de escala para um nvel de mensurao propriamente dito quando, alm da
ordenao das categorias, pode-se dizer quanto valem exatamente as diferenas entre essas categorias.
Um exemplo tpico dessa situao a medio de temperatura: a diferena entre 90o C e 70o C
20o C e igual diferena entre 30o C e 10o C. No entanto, como o zero (0o C) nesta escala definido
4
arbitrariamente (no existe naturalmente), no podemos dizer que 90o C trs vezes mais quente
que 30o C. Dizemos, ento, que a temperatura est medida em uma escala intervalar.
Quando o zero na escala puder ser estabelecido de forma no arbitrria, todas as operaes
aritmticas podero ser realizadas sobre os valores tomados pela caracterstica em estudo. Nesse
caso, dizemos que a caracterstica est medida em uma escala de razo ou proporcional. o caso
da idade, que contada a partir da data de nascimento do indivduo.
comum denominar de varivel qualitativa as caractersticas medidas em escala nominal ou
ordinal. J as variveis medidas em escala intervalar ou proporcional so chamadas variveis quantitativas. As variveis quantitativas, por sua vez, podem ser discretas ou contnuas. Quando a
varivel puder assumir qualquer valor numrico em um determinado intervalo de variao, ela ser
uma varivel contnua. Essas variveis resultam normalmente de medies: peso, altura, dosagem de
hemoglobina, renda, etc. A interpretao desse tipo de varivel leva noo de valor aproximado,
pois no existe instrumento de medio capaz de fornecer preciso absoluta na informao. Assim,
quando uma balana mostra o peso de uma pessoa como 65,5 kg, esse valor, na verdade, uma
aproximao para qualquer valor entre, digamos, 65,495 e 65,505 kg. Por outro lado, a varivel
quantitativa discreta s poder assumir valores pertencentes a um conjunto enumervel; os valores
normalmente so obtidos atravs de algum processo de contagem. Alguns exemplos so: nmero de
filhos de um casal, nmero de empregados de uma firma de contabilidade, etc.
Exemplo 2.1 A Pesquisa Mensal de Emprego
A Pesquisa Mensal de Emprego1 - PME - uma das principais fontes das estatsticas do
trabalho, no mbito do IBGE. Mensalmente so produzidas e divulgadas distintas estatsticas sobre
a estrutura e a distribuio da populao economicamente ativa, sobre os nveis de ocupao e de
desocupao, sobre os rendimentos mdios da populao ocupada, entre outras.
Essas estatsticas, sob diferentes cruzamentos, como a idade, o sexo, a ocupao, a atividade,
entre outros, so essenciais a uma ampla anlise do desempenho da economia de um pas. Pela
compreenso do estado de sua fora de trabalho, um pas poder implementar polticas econmicas
e sociais que o levem a um desenvolvimento mais racional.
Vamos identificar as variveis envolvidas na PME, segundo o texto acima.
Populao economicamente ativa: uma varivel quantitativa discreta, que mede o nmero de
pessoas (potencial de mo de obra) com que o setor produtivo pode contar;
Nvel de ocupao e de desocupao: so variveis quantitativas contnuas, que medem a taxa
de emprego e desemprego;
Rendimento mdio: uma varivel quantitativa contnua;
Idade: varivel quantitativa discreta;
Sexo: varivel qualitativa nominal;
Ocupao: varivel qualitativa nominal;
Atividade econmica: varivel qualitativa nominal.
1
2.2.1
2.1 Na Figura 2.1 temos um grfico que ilustra a presena de bens e servios nos domiclios das
duas classes de renda extremas, segundo a Pesquisa Nacional porAmostra de Domiclios realizada
pelo IBGE. Defina e classifique todas as variveis envolvidas; tente imaginar como esses dados foram
coletados na pesquisa.
TV
Geladeira
Rede de gua
Esgotamento adequado
Telefone
20
40
60
80
100
120
At 2 SM
Mais de 10 SM
2.2 Na Tabela 2.1 apresentam-se dados referentes aos estabelecimentos de ensino brasileiros. Defina e classifique as variveis envolvidas na tabela.
Tabela 2.1: Dados gerais dos estabelecimentos de ensino(1994) para o Exerccio 2.2
Especificao
Pr-escolar
1o grau
2o grau
Superior
Estabelecimentos
115 318
195 545
13 178
851
99 529
181 586
9 013
218
Pblico
15 789
13 959
4 165
633
Privado
5 339 288 31 091 662 4 426 543 1 661 034
Matrculas
Pblico
4 121 188
27 508 600
3 383 822
690 450
1 218 100
3 583 062
1 042 721
970 584
Privado
Fonte: Brasil em nmeros, vol. 4, 1995-1996 - IBGE
2.3
Considere os dados da Tabela 2.2, onde temos informaes sobre a turma, o sexo, a matria predileta
(Portugus, Matemtica, Histria, Geografia ou Cincias) no 2o grau e a nota (nmero de questes
certas) em um teste de mltipla escolha com 10 questes de matemtica, ministrado no primeiro
dia de aula dos calouros de Economia. As trs primeiras variveis so qualitativas, enquanto nota
uma varivel quantitativa discreta.
Como podemos resumir essas informaes de uma forma mais clara e objetiva? Afinal, o que nos
interessa saber quantas mulheres e quantos homens h em cada turma, quantas pessoas tiraram
10, e assim por diante. Para isso, vamos construir tabelas ou distribuies de freqncia.
Tabela 2.2: Dados sobre sexo, matria predileta e nota de alunos de 2 turmas
Turma
Sexo
Predileta
Nota
Turma
Sexo
Predileta
Nota
Turma
Sexo
Predileta
Nota
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
F
M
F
F
M
M
F
F
F
M
F
M
M
F
F
M
M
F
F
F
M
M
F
M
M
F
M
F
F
H
M
P
H
C
H
M
P
H
C
P
H
M
P
G
C
H
M
P
M
G
H
M
P
G
M
P
M
M
5
8
8
6
5
6
8
4
2
6
8
3
5
5
5
7
4
7
7
6
6
9
8
5
6
7
5
5
5
A
A
A
A
A
A
A
A
A
A
A
A
A
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
M
M
M
M
M
F
F
M
M
F
F
F
M
F
M
F
M
M
F
F
F
M
F
M
F
F
M
F
M
M
G
G
M
M
P
G
G
P
M
G
P
M
H
M
P
H
G
M
P
P
M
M
G
H
G
G
M
G
2
4
9
7
1
8
5
9
5
8
6
9
8
6
3
4
8
10
5
7
5
6
5
5
8
5
6
5
2
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
F
F
M
F
M
F
M
M
F
F
M
M
M
M
M
M
M
M
F
F
F
M
G
M
M
P
G
M
P
M
C
H
G
P
P
H
M
G
H
H
M
M
G
C
6
4
6
5
3
5
3
4
8
3
4
5
4
6
6
6
6
6
8
8
5
5
2.3.1
Variveis qualitativas
Vamos comear com a varivel qualitativa sexo. Analisando as duas turmas conjuntamente, vemos
que h um total de 41 alunos e 39 alunas. Essas contagens so chamadas freqncias absolutas.
Nmero de alunos
41
39
80
Nmero de alunos
Turma A Turma B Total
21
20
41
21
18
39
42
38
80
Vamos ver com detalhes como foi feito o clculo das freqncias relativas. Lembre-se que a idia
analisar o percentual de cada sexo no respectivo grupo:
Masculino
Turma A
21
100 = 50, 000000
42
Turma B
20
100 = 52, 631579
38
Feminino
21
100 = 50, 000000
42
18
100 = 47, 368421
38
Total
41
100 = 51, 250000
80
39
100 = 48, 750000
80
Vale a pena salientar, neste momento, a questo do arredondamento de resultados. Nos clculos acima, as freqncias esto apresentadas com 6 casas decimais, enquanto que, na Tabela
2.3, os resultados esto com 2 casas decimais, que a forma usual. Existe a seguinte regra de
arredondamento:
2.3.2
Variveis quantitativas
Vamos, agora, analisar a varivel Nota, que uma varivel quantitativa discreta. Na Tabela 2.5
temos as notas ordenadas. A listagem dos dados, mesmo ordenados, de pouca utilidade nas
situaes prticas, uma vez que, em geral, o nmero de observaes muito grande. Alm disso, ao
se analisarem dados estatsticos, muitas vezes o interesse no est na observao individual, mas,
sim, no comportamento de grupos. Mais difcil ainda a comparao entre os resultados das duas
turmas, uma vez que as turmas tm nmeros de alunos diferentes.
1
5
6
8
2
5
6
8
2
5
6
8
3
5
7
8
Turma
3 3
5 5
7 7
8 9
turma
Turma
3 3
4
5 5
5
6 6
6
8 10
B
4
5
6
4
5
6
4
5
6
4
5
7
5
6
8
A partir dos dados ordenados, podemos saber rapidamente os valores mnimo e mximo: na
Turma A as notas variam de 2 a 10 e na Turma B, de 1 a 9. Esse o conceito de amplitude de um
conjunto de dados.
10
Definio 2.1 A amplitude de um conjunto de dados, representada por total , definida como a
diferena entre os valores mximo e mnimo:
total = VMx VMn
(2.1)
11
iguais a 4; assim, a freqncia acumulada para a nota 4 10. Continuando com esse procedimento,
obtemos as Tabelas 2.7 e 2.8 para as turmas A e B, respectivamente. Note que, agora, mudamos os
nomes para freqncias simples e freqncias acumuladas (absolutas ou relativas) para diferenciar
os dois tipos de freqncia.
Tabela 2.7: Distribuio de freqncias das notas de um teste de mltipla escolha - Turma A
Nota Freqncia Simples Freqncia Acumulada
Absoluta Relativa Absoluta
Relativa
1
1
2, 38
1
2, 38
2
4, 76
3
7, 14
2
1
2, 38
4
9, 52
3
3
7, 14
7
16, 66
4
11
26, 19
18
42, 85
5
6
7
16, 67
25
59, 52
5
11, 91
30
71, 43
7
8
19, 05
38
90, 48
8
4
9, 52
42
100, 00
9
Total
42
100, 00
Fonte: Dados fictcios
Tabela 2.8: Distribuio de freqncias das notas de um teste de mltipla escolha - Turma B
Nota Freqncia Simples Freqncia Acumulada
Absoluta Relativa Absoluta
Relativa
2
1
2, 63
1
2, 63
3
4
10, 53
5
13, 16
5
13, 16
10
26, 32
4
11
28, 95
21
55, 26
5
10
26, 32
31
81, 58
6
1
2, 63
32
84, 21
7
5
13, 16
37
97, 37
8
0
0, 00
37
97, 37
9
1
2, 63
38
100, 00
10
Total
38
100, 00
Fonte: Dados fictcios
Novamente, vamos fazer uma observao sobre os clculos efetuados, concentrando nossa ateno
na turma B, ou seja, na Tabela 2.8. H duas maneiras possveis de se calcularem as freqncias acumuladas relativas. Da mesma forma como feito para as freqncias absolutas acumuladas, podemos
acumular as freqncias simples relativas:
2, 63 + 10, 53 = 13, 16
2, 63 + 10, 53 + 13, 16 = 26, 32
2, 63 + 10, 53 + 13, 16 + 28, 95 = 55, 27
2, 63 + 10, 53 + 13, 16 + 28, 95 + 26, 32 = 81, 59
e assim por diante. Note que com esse procedimento obteremos a freqncia 100,01 na ltima
classe. Outra possibilidade, que, em geral, fornece resultados mais precisos, consiste em calcular as
12
freqncias acumuladas relativas a partir das freqncias acumuladas simples, dividindo pelo total
de observaes. Isto ,
100 5/38 = 13, 16
6
13
6
38
35
6
19
10
53
204
7
11
20
6
19
30
21
6
8
7
22
Tabela
21 28
6 10
33 40
23
5
14 16
30 14
15
6
11 12
5
8
5
9
2.9:
14
73
16
49
7
55
15
7
26
38
17
13
8
10
5
24
12
45
13
32
11
15
461
8
10
6
17
7
351
20
Nesta tabela, alm do nmero total de observaes ser bem maior (171), h tambm muitos
valores distintos: 55. Por exemplo, temos 12 ULs com 5 empregados, 18 com 6 empregados e assim
por diante. Uma tabela com 55 linhas difcil de analisar; alm disso, no h necessidade de sermos
to detalhistas. Por exemplo, em se tratando de nmero de empregados em ULs industriais, no
h diferena significativa entre uma UL com 5 e outra com 6 empregados ou uma com 100 e outra
com 101. Nesses casos, comum agrupar os dados em classes. A idia, ento, definir limites de
classes de tal modo que, se o nmero de empregados de uma UL estiver entre determinados limites,
ela ser classificada como micro indstria, por exemplo. A construo da distribuio de freqncias
se faz de maneira idntica vista anteriormente; a diferena que as freqncias agora se referem
2
Unidade Local o endereo de atuao de uma empresa, ocupando geralmente uma rea contnua na qual so
desenvolvidas uma ou mais atividades econmicas.
3
Empresa a unidade jurdica que responde por uma firma ou Razo Social, englobando o conjunto de atividades
econmicas exercidas em uma ou mais unidades locais.
13
s freqncias de classes de valores, em vez de se referirem a um nico valor. Por essa razo, tais
distribuies so chamadas s vezes de distribuio de freqncias agrupadas.
H duas regras fundamentais que tm que ser seguidas quando da definio das classes de distribuies de freqncias agrupadas.
Regra 2.2 Definio das classes em uma distribuio de freqncias agrupadas
1. As classes tm que ser exaustivas, isto , todos os elementos devem pertencer a alguma classe.
2. As classes tm que ser mutuamente exclusivas, isto , cada elemento tem que pertencer a uma
nica classe.
Para simplificar a questo, suponhamos inicialmente que queiramos trabalhar com 4 classes e
que todas as classes devam ter comprimentos iguais. Como determinar os limites das classes? O
procedimento est ilustrado na Figura 2.2 para os dados da Tabela 2.9, onde o valor mnimo 5 e
o valor mximo 837.
Figura 2.2: Definio dos limites de classe
l1=5
l2
l3
l4
l5=837
Como cada classe tem que ter comprimento igual e o comprimento total de variao, isto , a
amplitude 837 5 = 832, cada intervalo deve ter comprimento
=
832
= 208;
4
14
a primeira classe como [5, 213) e a segunda como [213, 421). Continuando com esse procedimento,
as outras classes seriam [421, 629) e [629, 837). Note a ltima classe! Ela no inclui o valor mximo
837! Esse problema surgiu porque utilizamos a amplitude exata dos dados. Uma soluo aumentar
um pouco a amplitude e repetir o procedimento. S que o mais conveniente aumentar a amplitude
para o prximo mltiplo do nmero de classes, para no termos limites de classes fracionrios, uma
vez que a varivel em estudo (nmero de empregados) s assume valores inteiros. A amplitude exata
832; o prximo mltiplo de 4 836, implicando num aumento de 4 unidades na amplitude. Na
Figura 2.3 temos a ilustrao de diferentes maneiras de redefinir as classes.
Figura 2.3: Mtodo de correo da definio dos limites de classe
l1=1
l1=5
l2
l3
l2
l3
l4
l1=3
l2
l3
l4
l5=841
l5=837
l4
l5=839
Na primeira opo, toda a diferena de 4 unidades foi alocada na cauda superior da distribuio,
enquanto que, na segunda, essas 4 unidades foram alocadas na cauda inferior. Na terceira opo,
as 4 unidades foram igualmente distribudas, 2 unidades em cada cauda da distribuio. Em geral,
esse ltimo procedimento o mais recomendado. Utilizando-o, a amplitude de classe passa a ser
=
836
= 209
4
e as classes passam a ser [3, 212), [212, 421), [421, 630), [630, 839).
A construo da tabela se faz de maneira anloga descrita nas Tabelas 2.7 e 2.8, s que agora
contamos o nmero de ocorrncias em cada classe, isto , cada freqncia simples aboluta se refere
ao nmero de valores em cada classe. Para agilizar o processo de contagem manual (em geral,
essas tabelas so construdas com o auxlio de algum programa de computador), podemos fazer um
esquema de marcao, de modo que s precisamos varrer o conjunto de dados uma nica vez. Por
exemplo, varrendo o conjunto de dados por linha (linha 1, depois linha 2, etc), obtemos as seguintes
marcaes e respectivas contagens referentes s 3 primeiras linhas:
[3, 212)
[212, 421)
[421, 630)
[630, 839)
||||| ||||| ||||| ||||| ||||| ||||| ||||| ||||| ||||| ||||
||
49
15
para esse tipo de varivel, ou seja, na maioria dos setores industriais, existem muitas indstrias com
poucos empregados e poucas indstrias com muitos empregados. O mais razovel para esse tipo de
distribuio trabalhar com classes de tamanhos diferentes. Por exemplo, o IBGE, na elaborao
da amostra da PIMES - Pesquisa Industrial Mensal de Emprego e Salrio - definiu as seguintes
classes de pessoal ocupado (PO): [5, 30), [30, 100), [100, 500) e P O 500. Note que a ltima classe
no tem limite superior; na verdade, em cada unidade da federao, o mximo do PO um nmero
diferente mas s estamos interessados nas ULs com 500 ou mais empregados. Usando essas classes,
a distribuio de freqncias passa a ser como a da Tabela 2.11.
Tabela 2.11: Distribuio de freqncia do nmero de empregados das ULs industriais - RJ
Nmero de
Freqncia Simples Freqncia Acumulada
empregados Absoluta Relativa Absoluta
Relativa
5 `
30
133
77,778
133
77,778
30 ` 100
28
16,374
161
94,152
7
4,094
168
98,246
100 ` 500
3
1,754
171
100,000
500
Total
171 100,000
Fonte: Tabela 2.9
Estado
AK
AL
AR
AZ
CA
CO
CT
DE
FL
GA
16
Estado
SD
TN
TX
UT
VA
VT
WA
WI
WV
WY
Preo/dz
(cents)
48,0
71,0
76,7
64,0
86,3
106,0
74,1
60,1
104,0
83,0
log n
log 2
(2.2)
17
2.3.3
nk
n
fk
100, 00
Nk
Fk
fi = 100
ni
.
n
(2.4)
(2.5)
Ni = Ni1 + ni ;
(2.6)
N1 = n1 .
(2.7)
18
nmeros fracionrios; assim, sempre que possvel, devemos fazer o menor nmero possvel de divises.
Seguindo esse raciocnio, a freqncia acumulada relativa deve ser calculada a partir das freqncias
absolutas acumuladas, isto :
Ni
(2.8)
Fi = 100
n
2.3.4
Considere os dados das Tabelas 2.16 a 2.18, referentes a um levantamento feito por professores da
Universidade Federal de Santa Catarina (UFSC), onde o principal objetivo era avaliar os efeitos
polticos dos programas de alimentao popular. Aqui temos dados referentes a 120 famlias residentes em trs locais: Conjunto Residencial Monte Verde, Conjunto Residencial Parque da Figueira
e na Encosta do Morro.5 As variveis apresentadas so:
PAP: varivel indicadora de uso de programas de alimentao (1 = Sim; 0 = No);
GI: grau de instruo do chefe da casa (1 = nenhum grau oficialmente completo; 2 = primeiro
grau completo; 3 = segundo grau completo);
RES: nmero de pessoas residentes na casa;
RENDA: renda familiar mensal, em salrios mnimos.
Ident.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
5
PAP
0
0
1
0
1
1
0
1
1
1
0
1
0
0
0
0
1
0
0
1
RENDA
5,8
12,9
7,7
1,1
7,5
5,8
7,2
8,6
5,1
2,6
7,7
2,4
4,8
2,1
4,0
12,5
6,8
3,9
9,0
10,9
19
Ident.
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
Ident.
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
PAP
1
1
0
1
1
1
1
0
0
1
0
0
0
1
1
1
1
0
1
GI
1
3
1
2
1
2
1
2
2
2
2
3
2
1
3
3
1
2
2
RES
6
5
5
3
4
4
5
6
7
4
5
5
6
6
7
4
4
6
RENDA
2,3
4,9
2,3
3,9
2,1
2,7
11,1
6,4
25,7
0,9
3,9
5,1
4,2
4,4
7,9
4,2
3,5
11,4
20
Tabela 2.20: Distribuio do nmero de famlias com relao ao uso de programas de alimentao
Uso de programa Freqncia simples
de alimentao
Absoluta Relativa
Sim
78
0,65
42
0,35
No
Total
120
1,00
3. Para a varivel RENDA, construa uma tabela de freqncias trabalhando com 4 classes de
mesmo tamanho.
Soluo:
Uma primeira observao diz respeito famlia identificada pelo nmero 46: para essa famlia,
no h informao disponvel sobre a renda. Vamos, ento, trabalhar com as 119 famlias
21
22
Obs.: Esse exerccio mostra a dificuldade de se construir tabelas mo! importante aprender
a usar recursos computacionais.
4. Analisando a tabela da distribuio de renda, pode-se ver que h uma grande concentrao
nas duas classes iniciais. Trabalhar com classes de mesmo tamanho no recomendvel nesse
caso, pois, como sabemos, no Brasil h um grande nmero de famlias de baixa renda. Vamos
definir as seguintes classes: [0,2), [2,3), [3,4), [4,5), [5,6), [6,8), [8,10), [10,15), 15. Com essas
classes obtemos a Tabela 2.24, onde fica mais detalhada a distribuio das classes de renda
mais baixas:
Tabela 2.24: Distribuio de renda - Classes desiguais
Renda
Freqncia Simples Freqncia Acumulada
(sal. mn. Absoluta Relativa Absoluta
Relativa
0 `
2
5 0,04202
5
0,04202
18 0,15126
23
0,19328
2 `
3
3 `
4
12 0,10084
35
0,29412
17 0,14286
52
0,43697
4 `
5
18 0,15126
70
0,58824
5 `
6
19 0,15966
89
0,74790
6 `
8
10 0,08403
99
0,83193
8 ` 10
16 0,13445
115
0,96639
10 ` 15
15 ` 26
4 0,03361
119
1,00000
Total
119 1,00000
2.3.5
2.3 Na Tabela 2.25 temos o nmero de questes acertadas por 50 alunos em um teste de mltipla
escolha com 10 questes. Construa uma tabela de freqncias para representar esses dados, de modo
que no haja perda de informao.
2.4 Na Tabela 2.26 temos dados sobre a produo de ovos nos 50 estados dos Estados Unidos no
ano de 1990. Construa uma tabela de freqncias para a varivel Quantidade Produzida de Ovos
utilizando 5 classes de mesmo tamanho.
2.5 Estudando-se o consumo dirio de leite, verificou-se que em certa localidade, 20% das famlias
consomem at 1 litro, 50% consomem entre 1 e 2 litros, 20% entre 2 e 3 litros e o restante entre 3
e 5 litros. Para a varivel em estudo, escreva as informaes dadas em forma de tabela.
23
Tabela 2.26: Produo de ovos nos Estados Unidos em 1990 para o Exerccio 2.4
Estado
Quant.
Estado
Quant.
Estado
Quant.
(milhes)
(milhes)
(milhes)
AK
0,7
MA
235,0
OR
652,0
MD
885,0
PA
4976,0
AL
2206,0
ME
1069,0
RI
53,0
AR
3620,0
MI
1406,0
SC
1422,0
AZ
73,0
MN
2499,0
SD
435,0
CA
7472,0
MO
1580,0
TN
277,0
CO
788,0
CT
1029,0
MS
1434,0
TX
3317,0
MT
172,0
UT
456,0
DE
168,0
NC
3033,0
VA
943,0
FL
2586,0
ND
51,0
VT
31,0
GA
4302,0
NE
1202,0
WA
1287,0
HI
227,5
IA
2151,0
NH
43,0
WI
910,0
NJ
442,0
WV
136,0
ID
187,0
NM
283,0
WY
1,7
IL
793,0
NV
2,2
IN
5445,0
KS
404,0
NY
975,0
KY
412,0
OH
4667,0
LA
273,0
OK
869,0
Fonte: Gujarati (1995) - Tabela 1.1
2.6 Em um levantamento feito pela revista Exame-Maiores e Melhores 1998 para as 100 maiores
empresas brasileiras, em termos de vendas, nem todas informaram o nmero de empregados6 . Na
Tabela 2.27 abaixo temos os dados obtidos, ordenados pelo volume de vendas das empresas e na
Tabela 2.28 temos os dados ordenados pelo nmero de empregados. Identifique a varivel de estudo
e construa uma tabela de frequncia, utilizando 5 classes de mesmo tamanho.
2.7 Na Tabela 2.29 tem-se as mdias dos alunos de 2 turmas de Introduo Estatstica Econmica
da Faculdade de Economia da UFF no primeiro semestre de 2000. Segundo o critrio de aprovao
da UFF, o aluno que obtiver mdia inferior a 4 estar reprovado. O aluno que obtiver mdia maior
ou igual a 4 mas menor que 6 ter direito Verificao Suplementar (VS) e os alunos com mdia
maior ou igual a 6 estaro aprovados. A partir desses dados, construa uma tabela de freqncias
que ilustre o nmero de alunos reprovados, com direito VS e aprovados.
6
24
Tabela 2.27: Nmero de empregados das 100 maiores empresas para o Exerccio 2.6 - Dados originais
Ordem Nmero de
Ordem Nmero de
Ordem Nmero de
Ordem Nmero de
Empregados
Empregados
Empregados
Empregados
1
30775 26
14020 48
4700 71
3616
987 50
10465 72
3500
2
21411 27
2666 51
2147 73
6084
3
24045 29
4
1763 30
5588 52
4500 78
5543
6700 53
2141 79
3581
5
7840 31
5132 54
7092 80
9564
7
1932 32
7926 55
5254 83
4621
8
13038 33
2788 57
9443 86
3073
9
5242 34
11439 58
3622 88
590
10
12097 35
18093 59
2356 90
6468
11
9378 36
8237 60
1082 91
1754
12
1303 38
950 61
1020 92
6025
13
1047 39
8177 62
746 93
2616
15
17812 40
3996 64
3354 94
2237
16
10865 41
17
198 42
11484 65
4973 95
3014
2415 66
4859 96
154
18
11360 43
4208 67
3326 97
4019
19
10995 44
5817 68
1688 98
5113
22
11522 45
7820 69
5840 99
4087
24
19896 46
11028 70
383 100
1873
25
8949 47
Tabela 2.28: Nmero de empregados das 100 maiores empresas para o Exerccio 2.6 - Dados ordenados
154 198 383 590 746 950 987 1020 1047 1082 1303 1688
1754 1763 1873 1932 2141 2147 2237 2356 2415 2616 2666 2788
3014 3073 3326 3354 3500 3581 3616 3622 3996 4019 4087 4208
4500 4621 4700 4859 4973 5113 5132 5242 5254 5543 5588 5817
5840 6025 6084 6468 6700 7092 7820 7840 7926 8177 8237 8949
9378 9443 9564 10465 10865 10995 11028 11360 11439 11484 11522 12097
13038 14020 17812 18093 19896 21411 24045 30775
Tabela 2.29: Mdias dos alunos de Int.Est.Econmica (1/2000-UFF) para o Exerccio 2.7
4,4 6,0 6,1 8,0 2,7 0,5 0,5 4,8 2,3
0,9 8,8 4,9 5,0 4,0 4,3 2,1 7,6 4,4
6,3 7,1 7,6 9,0 2,5 4,9 5,3 5,9 4,0
5,2 6,0 4,0 6,0 5,1 3,5 7,9 5,1 3,1
6,0 6,8 6,0 6,2 7,0 4,0 4,7 5,4 5,2
6,1 8,4 6,5 6,9 9,8 4,0 4,0 4,8 4,7
2.4
2.4.1
25
Este grfico usado quando cada valor representa uma parte de um todo. , ento, usado um
crculo de raio qualquer, com a rea ou ngulo total sendo proporcional ao total (100%) da srie de
dados a representar e a rea ou ngulo de cada setor circular sendo proporcional a cada dado da
srie.
Vamos ilustrar a construo deste tipo de grfico com os dados da Tabela 2.2 referentes varivel
sexo. De 80 alunos, 41 so do sexo masculino e 39 do sexo feminino. Como os ngulos dos setores
so diretamente proporcionais s respectivas freqncias, temos a seguinte regra de trs:
41
80
= o x = 184, 5o
o
360
x
80
39
= o x = 175, 5o
o
360
x
Na Figura 2.4 temos o grfico resultante, construdo com o programa de planilhas Excel.
Figura 2.4: Distribuio dos alunos por sexo
De forma anloga obtemos o grfico para a varivel matria predileta no segundo grau, dado na
Figura 2.5. Note que esses grficos podem ser construdos com base nas freqncias absolutas ou
relativas.
2.4.2
Grfico de colunas
No caso de variveis qualitativas, outra representao grfica apropriada se faz atravs do grfico de
colunas; nesse grfico, as categorias so colocadas sobre um eixo horizontal e as freqncias simples,
absolutas ou relativas, so indicadas atravs de colunas cujas alturas representam essas freqncias.
Os mesmos dados sobre sexo e matria predileta no segundo grau podem ser representados pelos
grficos dados nas Figuras 2.6 e 2.7.
Note que nesse tipo de grfico no h uma escala no eixo horizontal, uma vez que a temos
representadas as categorias da varivel em estudo. Se um grfico de colunas usado para representar
uma varivel quantitativa discreta, h que se tomar cuidado pois, nesse caso, existe uma escala, que
26
Figura 2.5: Distribuio dos alunos por matria predileta no segundo grau
Cincias
6%
Portugus
21%
Geografia
23%
Matemtica
32%
Histria
18%
40
35
Nmero de alunos
30
25
20
15
10
0
Masculino
Feminino
27
Figura 2.7: Distribuio dos alunos por matria predileta no segundo grau
30
26
25
Nmero de alunos
20
18
17
15
14
10
5
5
Cincias
Geografia
Histria
Matemtica
Portugus
deve ser bem representada. No EXCEL, a opo de grfico de colunas considera a varivel como
uma varivel qualitativa. Na Figura 2.8 temos o grfico que representa a distribuio das notas dos
80 alunos.
Figura 2.8: Distribuio das notas de 80 alunos
25
Nmero de alunos
20
15
10
0
1
10
Nota
2.4.3
A apresentao tabular dos dados atravs de uma distribuio de freqncias fica complementada
com uma representao grfica desses mesmos dados. O histograma e o polgono de freqncias so
tipos de grficos usados para representar uma distribuio de freqncias simples de uma varivel
quantitativa contnua.
28
47,0
57,5
68,0
78,5
89,0
99,5
110,0
120,5
131,0
141,5
152,0
162,5
29
Figura 2.10: Polgono de freqncia dos preos dos ovos nos estados americanos - Fonte: Tabela 2.13
0,020
0,018
0,016
0,014
0,012
0,010
0,008
0,006
0,004
0,002
0,000
36,5
2.4.4
57,5
78,5
99,5
120,5
141,5
162,5
30
Seguindo o raciocnio acima, podemos ver que as funes N(x) e F (x) so definidas como
0, 0000 se
x<1
0 se
x<1
0,
0250
se
1
x<2
3
se
1
x
<
2
0, 0750 se 2 x < 3
9 se 2 x < 3
0, 2500 se 3 x < 4
30
se
3
x
<
4
0, 5167 se 4 x < 5
62 se 4 x < 5
F (x) =
N (x) =
0, 7833 se 5 x < 6
94 se 5 x < 6
0, 9083 se 6 x < 7
109
se
6
x
<
7
0, 9583 se 7 x < 8
115
se
7
x
<
8
0, 9917 se 8 x < 9
119 se 8 x < 9
1, 0000 se
x9
120 se
x9
Na Figura 2.11 temos o grfico da funo acumulada das freqncias absolutas. Esse grfico
ilustra a caracterstica discreta da varivel. Cada degrau ou segmento de reta horizontal tem uma
bola fechada na extremidade esquerda para indicar que estamos trabalhando com intervalos do tipo
. A altura de cada degrau d a freqncia simples de cada classe, conforme ilustrado.
Figura 2.11: Funo de distribuio acumulada para o nmero de moradores por domiclio
130
120
110
100
90
94 - 62 = 32 = n4
80
70
60
50
40
30
20
10
0
0
10
11
A anlise desse grfico nos leva a estabelecer as seguintes caractersticas da funo acumulada
das freqncias relativas:
limx = 0
limx+ = 1
F (x) uma funo no-decrescente
31
0,900
0,800
0,700
0,600
0,500
0,400
0,300
0,200
0,100
0,000
0
10
32
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
26
2.4.5
47
68
89
110
131
152
173
194
Grfico de Linhas
O grfico de linhas usado principalmente para representar observaes feitas ao longo do tempo,
isto , observaes de uma srie de tempo. No eixo horizontal colocam-se as datas em que foram
realizadas as observaes e no eixo vertical, os valores observados. Os pontos assim obtidos so
unidos por segmentos de reta para facilitar a visualizao do comportamento dos dados ao longo do
tempo.
Na Tabela 2.30 so apresentados os resultados referentes taxa de desemprego aberto total
(semana), produzidos pela Pesquisa Mensal de Emprego e na Figura 2.14 temos o grfico desta srie
temporal.
2.4.6
Embora no seja muito usual, possvel construir um histograma quando as classes tm tamanhos diferentes. Mas para que a representao seja correta, as reas dos retngulos tm que ser
proporcionais s freqncias das classes. No caso de classes iguais, como as bases dos retngulos
so as mesmas, a diferenciao das reas se faz simplesmente atravs das alturas mas esse no
o caso quando as classes so desiguais. Para a construo do histograma, sero acrescentadas
Jan
Fev
mar
Abr
Mai
Jun
Jul
Ago
Set
Out
Nov
Dez
Tabela
1991
5,23
5,41
5,90
5,77
5,71
4,87
3,82
4,04
4,35
4,27
4,45
4,15
2.30: Taxa de
1992 1993
4,86 6,00
6,36 5,78
6,21 5,89
5,87 6,12
6,53 5,40
5,17 4,95
5,18 5,23
5,90 5,34
5,75 5,06
5,78 4,90
5,83 4,75
4,51 4,40
33
- PME
2001 2002
5,70 6,83
5,72 6,98
6,46 7,09
6,51 7,57
6,86 7,70
6,38 7,50
6,19 7,53
6,18 7,30
6,15 7,51
6,55 7,36
6,40 7,07
5,60
Figura 2.14: Taxa de desemprego aberto - semana - Total das reas da PME
9,00
8,00
7,00
6,00
5,00
4,00
3,00
2,00
1,00
ja
n/
m 91
ai
/9
se 1
t/9
ja 1
n/
m 92
ai
/9
se 2
t/9
ja 2
n/
m 93
ai
/9
se 3
t/9
ja 3
n/
m 94
ai
/9
se 4
t/9
ja 4
n/
m 95
ai
/9
se 5
t/9
ja 5
n/
m 96
ai
/9
se 6
t/9
ja 6
n/
m 97
ai
/9
se 7
t/9
ja 7
n/
m 98
ai
/9
se 8
t/9
ja 8
n/
m 99
ai
/9
se 9
t/9
ja 9
n/
m 00
ai
/0
se 0
t/0
ja 0
n/
m 01
ai
/0
se 1
t/0
ja 1
n/
m 02
ai
/0
se 2
t/0
2
0,00
34
Aluguis
(u.m.)
2
3
5
7
10
`
3
`
5
`
7
` 10
` 15
Total
Densidade
fi / i
0, 050
0, 125
0, 200
0, 067
0, 020
0,20
0,15
0,10
0,05
0,00
0
2.4.7
10
11
12
13
14
15
16
Os grficos so apresentados em uma moldura retangular, formada pelos eixos de referncia. Tal
moldura construda, em geral, de forma a se manter a proporcionalidade entre a largura e a altura
35
2.4.8
Ramo e folhas
Um outro grfico usado para mostrar a forma da distribuio de um grupo de dados o ramo-efolhas, desenvolvido pelo estatstico americano John Tukey. Este grfico constitudo de uma linha
vertical com a escala indicada esquerda desta linha. A escala, naturalmente, depende dos valores
observados, mas deve ser escolhida de tal forma que cada valor observado possa ser quebrado em
duas partes: uma primeira parte quantificada pelo valor da escala e a segunda quantificada pelo
ltimo algarismo do nmero correspondente observao. Os ramos do grfico correspondem aos
nmeros da escala, esquerda da linha vertical. J as folhas so os nmeros que aparecem na parte
direita. Na Figura 2.16 temos o ramo-e-folhas das notas da Verificao Suplementar de Introduo
Estatstica Econmica no primeiro semestre de 2003. Note que a quebra dos valores nesse caso
bastante natural: os ramos so formados pelo algarismo inteiro e as folhas pelos algarismos decimais,
o que indicado pela unidade no grfico.
Figura 2.16: Notas da VS de Introduo Estatstica Econmica - Semestre 1/2003
Unidade
1 1 =
0
1
2
3
4
5
6
7
8
0
1
1
0
1
0
0
4
0
0
6
3
0
2
0
0
5
5
1,1
3
0
3
0
0
5
4 5 8
2 2 4 5 7 9 9
9 9
0 0 0 0 0 0 0 1 4 6 7 8 8 9 9
Um outro exemplo utiliza os dados da Tabela 2.32, onde temos dados sobre as quilometragens
mdias por litro de leo diesel percorridas por nibus de 97 empresas de Belo Horizonte. Na Figura
2.17 temos o respectivo ramo-e-folhas gerado pelo programa XLSTAT. Com relao a esse conjunto
de dados, as folhas so formadas pela segunda casa decimal; para passar essa informao, colocado
um cabealho indicando a unidade dos dados. Uma outra observao importante diz respeito aos
valores extremos: se fssemos represent-los em ramos especficos, a rvore ficaria muito longa, com
vrios ramos vazios. Uma soluo, em geral adotada pelos programas computacionais, listar os
valores com saltos na escala e para chamar a ateno para a quebra de escala, pode-se colocar uma
linha divisria, como indicado na figura.
36
Tabela 2.32: Quilometragem mdia por litro de leo diesel de 97 empresas de nibus de BH
Quilometragem mdia por litro de leo diesel
1,02 1,07 1,16 1,30 1,38 1,43 1,47 1,54 1,56 1,57
1,67 1,67 1,72 1,72 1,72 1,79 1,79 1,82 1,82 1,85
1,85 1,89 1,89 1,92 1,92 1,92 1,96 1,96 2,00 2,00
2,04 2,04 2,04 2,08 2,08 2,08 2,08 2,08 2,08 2,13
2,13 2,13 2,13 2,13 2,13 2,13 2,13 2,17 2,17 2,17
2,17 2,17 2,22 2,22 2,22 2,27 2,27 2,27 2,27 2,27
2,33 2,33 2,33 2,33 2,33 2,33 2,38 2,43 2,44 2,44
2,44 2,44 2,50 2,50 2,56 2,56 2,56 2,56 2,56 2,63
2,63 2,70 2,70 2,78 2,78 2,78 2,78 2,86 2,86 2,94
2,94 3,13 3,23 3,44 3,85 4,08 6,67
Fonte: Soares, Farias e Cesar (1991)
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
38
40
66
2 7
6
0
3
4
7
2
2
2
0
3
2
3
3
0
3
0
6
4
3
3
4
5
8
7
8
7
6
7
2
2
2
0
3
2
3
4
0
3
0
6
4
7
2
5
2
4
3
2
3
4
6
9
5
6
4
3
7
3
4
6
9
9
6
4
3
7
3
4
6
9
8
3
7
3
8 8 8 8 8
3 3 7 7 7 7 7
7 7
8
6 6
8 8 8 8
37
Note que, se olharmos o ramo-e-folhas na posio invertida (isto ,deitado), temos o mesmo
efeito visual de um grfico de barras.
Para certos conjuntos de dados, pode acontecer que alguns ramos apresentem muitas folhas,
dificultando a sua interpretao. Considere, por exemplo, os dados da Tabela 2.33, onde temos os
dados referentes ao consumo de combustvel (milhas por galo, MPG) para diferentes modelos de
carro. O ramo-e-folhas para esses dados est na Figura 2.18.
Tabela 2.33: Consumo de combustvel de 30 modelos de carro
Modelo
MPG
Modelo
MPG
BMW 740i
23
Hyundai Sonata
27
Buick Century
31
Infinity Q45
22
Lexus LS400
23
Buick LeSabre
28
Lincoln Continental
26
Buick Park Avenue
27
Lincoln Mark VIII
25
Buick Regal
29
Mazda 626
31
Buick Roadmaster
25
Mazda 929
24
Cadillac DeVille
25
Chevrolet Caprice
26
Mercedes-Benz S320
24
Mercedes-Bens S420
20
Chevrolet Lumina
29
Nissan Maxima
26
Chrysler Concorde
28
Rolls-Royce Silver Stone
15
Chrysler New Yorker
26
Saab 900
26
Dodge Spirit
27
Fort LTD
25
Saab 9000
27
Toyota Camry
28
Ford Taurus
29
Volvo 850
26
Ford Thunderbird
26
1
2
3
5
0
1
2
1
Uma forma alternativa de construir esse grfico quebrando cada ramo em duas partes: a
primeira referente aos nmeros terminando com algarismos menores que 5 e a segunda aos nmeros
terminando com algarismos maiores ou iguais a 5. Na Figura 2.19 temos essa nova verso.
O ramo-e-folhas comparativo pode ser usado para comparar os resultados referentes a dois grupos. Na Figura 2.20 temos um exemplo baseado nas mdias finais (antes da VS) dos alunos de
Introduo Estatstica Econmica no primeiro semestre de 2003. Note que na parte esquerda do
grfico, as folhas so anotadas crescentemente da direita para a esquerda, enquanto que na parte
direita do grfico, as folhas so anotadas crescentemente da esquerda para a direita. A anlise desses
grficos nos permite ver que a turma da noite teve um comportamento mais homogneo, com notas,
em mdia, mais altas que a turma da tarde.
Para maiores detalhes sobre esse grfico e outras tcnicas de anlise de dados, o leitor pode
consultar Tukey(1977), Velleman e Hoaglin(1981) e Murteira(1983).
38
1
1
2
2
3
3
5
0
5
1
2
5
1
3
5
3
5
4
6
4
6
9 6 6
3
8 8 8 7 7 5 4 3 3 3 3 3 2 2 2 2 1 0
3 3 2
8 4 1 1 0 0 0 0
5
2.4.9
Noite
6
3
0
2
0
5
6
2
0
0
0
2
9
5
2
0
0
0
2
2
4
0
0
0
0
2
0
5
0
1
2
3
4
5
6
7
8
9
5
8
2
0
0
1
0
0
0
5
8
2
2
0
2
0
0
0
3
0
2
0
0
2
1
3
0
0
3
1
3
0
2
5
2 2 3 5 5 5 5 7 7 8 8
0 0 0 2 2 2 3 3 3 4 5 5 6 8
2 2 2 4 5 5
8
1. Considere a populao total de cada regio geogrfica do Brasil, conforme exibido na Tabela
2.34. Construa grficos de setores e de colunas para representar a populao total por regio
e um grfico de colunas para comparar as populaes masculina e feminina por regio.
Tabela 2.34: Populao por
Regio
Masculina
Norte
6.533.555
23.413.914
Nordeste
35.426.091
Sudeste
12.401.450
Sul
5.801.005
Centro-Oeste
Total
83.576.015
Soluo:
Para determinar a rea ou ngulo de cada setor, usam-se as seguintes regras de trs:
x
360
Regio Norte:
=
x = 27, 351o
12900704
169799170
360
x
=
x = 101, 220o
Regio Nordeste:
47741711
169799170
360
x
=
x = 153, 525o
Regio Sudeste:
72412411
169799170
39
360
x
=
x = 53, 232o
25107616
169799170
360
x
=
x = 24, 672o
Regio Centro-Oeste:
11636728
169799170
Os grfico de setores e de colunas so apresentados na Figuras 2.21 e 2.22.
Regio Sul:
Centro-Oeste
7%
Norte
8%
Sul
15%
Nordeste
28%
Sudeste
42%
2. Na seo anterior, construmos as tabelas para representar as variveis LOCAL, PAP, RES
e RENDA dos dados das Tabelas 2.16 a 2.18. Vamos agora construir os grficos apropriados
para cada uma delas. Esses grficos esto apresentados nas Figuras 2.23 a 2.27.
Soluo:
O interesse na varivel LOCAL est em ver a distribuio dos domiclios pelos trs locais
pesquisados; assim, pode-se usar um grfico de barras ou um grfico de setores (ver Figura
2.23).
A varivel PAP indica se a famlia participa ou no de programas de alimentao; essa informao pode ser representada por um grfico de barras ou de setores (ver Figura 2.24).
A varivel RES fica bem ilustrada com um grfico de barras (ver Figura 2.25).
Para a varivel RENDA, vamos usar a distribuio com classes desiguais, dada na Tabela
2.24; a representao grfica , ento, feita atravs de um histograma, construdo com base
nas densidades de cada classe (ver Figura 2.26).
Outra possibilidade representar a renda atravs de um ramo-e-folhas (ver Figura 2.27).
2.4.10
2.8 Construa os grficos apropriados para representar as tabelas construdas nos Exerccios 2.3 a
2.7.
40
Figura 2.22: Populao (em milhes de habitantes) por regio geogrfica do Brasil
80
70
60
50
40
30
20
10
0
Norte
Nordeste
Sudeste
Sul
Centro-Oeste
Encosta do morro
31%
Monte Verde
33%
Parque da Figueira
36%
41
No
35%
Sim
65%
32
30
25
21
20
15
15
10
6
5
6
4
3
1
0
1
42
Nmero de domiclios
14
12
10
8
6
4
2
0
0
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
Renda
1
0
1
1
0
0
0
1
4
0
2
1
2
9
0
4
6
3
9
0
1
5
0
0
1
1
4
0
3
3
5
0
2
5
1
0
4
2
5
0
3
4
9
3
6
1
1
4
4
6
0
4
3
8
2
1
4
5
9
6
8
9 9
3
9
2
1
4
7
4
9
2
3
4
7
4
9
2
4
4
7
4
9
4
5
8
9
5
9
4
5
8
6
9
5
5
6 7 7 8 8 8 9
9
6 6 8 8 8 9
7 8 8 8 8 8 8
2.5
43
2.5.1
Variveis qualitativas
At o momento, vimos como organizar e resumir informaes referentes a uma nica varivel. No
entanto, bastante freqente depararmos com situaes onde h interesse em estudar conjuntamente
duas ou mais variveis. Para os dados da Tabela 2.2, por exemplo, podemos estudar se h alguma
relao entre sexo e a matria predileta no segundo grau. Num estudo sobre mortalidade infantil,
importante acompanhar tambm o tratamento pr-natal da me; espera-se, neste caso, que haja
uma diminuio da taxa de mortalidade infantil com o aumento dos cuidados durante a gravidez.
Nesta seo nos deteremos no estudo de distribuies bidimensionais, dando nfase forma de
representao tabular. Seguindo uma conveno usual, denotaremos por uma letra maiscula a
varivel em estudo e pela letra minscula correspondente o valor observado da varivel.
Consideremos inicialmente o caso de duas variveis qualitativas. Como exemplo, vamos trabalhar
com os dados apresentados na Tabela 2.2, onde temos a matria predileta no segundo grau e o sexo
de 80 alunos.
Uma forma de representar conjuntamente as informaes referentes a essas duas varivies
atravs de uma distribuio ou tabela conjunta de freqncias. Como temos duas variveis de
interesse, precisamos de duas dimenses, linha e coluna, para representar as informaes disponveis,
que sero apresentadas em forma de contagem ou freqncia. A escolha da varivel linha e da
varivel coluna depende do objetivo do estudo. Se existe entre as variveis uma relao do tipo
dependente/explanatria, isto , se queremos usar uma das variveis para explicar a outra, ento
costume colocar a varivel explanatria na coluna e denot-la por X. A varivel dependente, que
explicada pela varivel explanatria, colocada na linha e indicada pela letra Y . Caso contrrio,
qualquer uma das duas pode ser a varivel coluna. No exemplo, poderamos estar interessados em
analisar o efeito do sexo sobre a matria predileta (obviamente, no podemos explicar o sexo...);
sendo assim, o sexo a varivel explanatria X e a matria predileta no segundo grau a varivel explicada ou dependente Y. Cada aluno d origem a um par de valores (xi , yi ), por exemplo,
(masculino, histria).
Na Tabela 2.35 apresentamos a distribuio conjunta dessas variveis. Em cada cela temos
o nmero de alunos que pertencem simultaneamente s respectivas categorias. Assim, podemos
ver que h 12 homens que preferiam geografia no segundo grau, enquanto que, entre as mulheres,
apenas 6 preferiam essa matria. Como j visto no caso univariado, essa forma de apresentao
mais interessante, uma vez que no estamos interessados na observao individual e, sim, no
comportamento dos grupos.
Tabela 2.35: Distribuio conjunta das variveis sexo e matria predileta no segundo grau
Matria predileta
Sexo
Total
no segundo grau Masculino Feminino
Cincias
4
1
5
12
6
18
Geografia
8
6
14
Histria
Matemtica
11
15
26
6
11
17
Portugus
Total
41
39
80
Alm das contagens em cada cela, acrescentamos tambm a linha e a coluna com os respectivos
totais. Os totais das linhas, ento, nos dizem que h 5 alunos que preferiam Cincias, 18 que
44
preferiam Geografia, e assim por diante. J os totais das colunas nos dizem que h 41 alunos do
sexo masculino e 39 do sexo feminino. O total de alunos (80) pode ser obtido somando-se os totais
das linhas (matria predileta): 5 + 88 + 14 + 26 + 17 = 80 ou das colunas (sexo): 41 + 39 = 80.
Na construo de tabelas de freqncias univariadas, foi acrescentada tabela a coluna de
freqncias relativas, que davam a proporo de elementos em cada classe com relao ao nmero
total de elementos. Um procedimento anlogo pode ser feito para as tabelas bidimensionais; a
diferena que, neste caso, existem trs possibilidades para expressarmos as propores de cada
cela: (i) com relao ao total geral; (ii) com relao ao total de cada linha e (iii) com relao ao total
de cada coluna. A escolha entre essas trs possibilidades dever ser feita de acordo com o objetivo
da anlise. Nas Tabelas 2.36 a 2.38 temos as trs verses para os dados da Tabela 2.35 usando
freqncias relativas.
Tabela 2.36: Distribuio conjunta relativa das variveis sexo e matria predileta no segundo grau
Matria predileta
Sexo
Total
no segundo grau Masculino Feminino
Cincias
5,00
1,25
6,25
15,00
7,50
22,50
Geografia
10,00
7,50
17,50
Histria
13,75
18,75
32,50
Matemtica
7,50
13,75
21,25
Portugus
Total
51,25
48,75 100,00
Tabela 2.38: Distribuio condicional da matria predileta no segundo grau dado o sexo do aluno
Matria predileta
Sexo
Total
no segundo grau Masculino Feminino
Cincias
9,76
2,56
6,25
29,27
15,38
22,50
Geografia
19,51
15,38
17,50
Histria
26,83
38,46
32,50
Matemtica
14,63
28,21
21,25
Portugus
Total
100,00
100,00 100,00
Da Tabela 2.36 podemos concluir que 5% dos alunos so do sexo Masculino e preferiam Cincias
no segundo grau, enquanto 18,75% eram do sexo feminino e preferiam Matemtica. Essa a tabela
da distribuio conjunta relativa; em cada cela temos a freqncia dos indivduos que pertencem
45
simultaneamente s duas categorias em questo relativa ao total geral. A ttulo de ilustrao dos
clculos, temos:
4
100 = 5, 00%
Masculino e Cincias:
80
15
100 = 18, 75%
80
Da Tabela 2.37 conclui-se, por exemplo, que, dos alunos que preferiam Cincias no segundo grau,
80% so homens e 20% so mulheres, enquanto que, dos alunos que preferiam Matemtica, 42,31%
so homens e 57,69% so mulheres. Essa a distribuio condicional do sexo (varivel coluna) dada
a matria predileta no segundo grau (varivel linha). Na linha Total temos a distribuio por sexo
na populao completa, que coincide com os totais das linhas da Tabela 2.35: 51,25% dos alunos
so do sexo masculino e 48,75% so do sexo feminino. Os detalhes dos clculos so o seguintes:
Feminino e Matemtica:
Masculino
4
100 = 80, 0
5
Feminino
1
100 = 20, 0
5
11
100 = 42, 31
26
15
100 = 57, 69
26
Da Tabela 2.38 podemos ver que 9,76% dos homens preferiam Cincias no segundo grau, enquanto
15,38% das mulheres preferiam Geografia. Essa tabela nos d a distribuio condicional da matria
predileta no segundo grau (varivel linha), dado o sexo (varivel coluna). Na coluna Total temos a
distribuio da varivel matria predileta no segundo grau (varivel linha) na populao completa.
Esse total, obviamente, coincide com os totais das colunas na Tabela 2.35. Essa a tabela apropriada
para a anlise desejada, de comparar os sexos segundo a matria predileta. Os detalhes dos clculos
so o seguintes:
Cincias no segundo grau, dado que homem
4
100 = 9, 76
41
6
100 = 15, 38
39
Mais uma vez, importante salientar que, na construo de tabelas com freqncias relativas, um
cuidado especial deve ser tomado com relao ao arredondamento dos nmeros. Arredondamentos
excessivos podem fazer com que os totais de linhas e/ou colunas no somem 100%!
possvel tambm usar o grfico de barras para representar distribuies conjuntas de variveis.
Consideremos novamente o exemplo de sexo e matria predileta no segundo grau, conforme dados
na Tabela 2.35. O grfico apresentado na Figura 2.28 representa essas variveis, levando em conta
o fato de que sexo a varivel explicativa.
2.5.2
Variveis quantitativas
No caso de variveis quantitativas discretas com poucos valores, a construo de tabelas bivariadas
feita de maneira anloga s variveis qualitativas. Para variveis quantitativas contnuas ou discretas
com muitos valores, a construo possvel, mas no muito usual, uma vez que h muita perda de
informao pois, assim como no caso univariado, preciso agrupar os dados em classes.
46
Figura 2.28: Distribuio da matria predileta no segundo grau por sexo dos alunos
16
Matemtica
14
Geografia
12
Portugus
Nmero de alunos
Matemtica
10
Histria
8
Portugus
Geografia Histria
Cincias
4
Cincias
0
Masculino
Feminino
Diagrama de disperso
O diagrama de disperso um grfico utilizado para representar conjuntamente os valores de duas
variveis quantitativas, com o objetivo de se estudar uma possvel relao entre as duas. Como
exemplo, consideremos os dados da Tabela 2.39 sobre despesas com alimentao (Y ) e renda (X).
Nesse caso, espera-se que, ao aumentar a renda, aumentem tambm as despesas com alimentao.
Como verificar isso graficamente? Para cada domiclio h um par de valores (xi , yi ). O que vamos
fazer simplesmente representar esses pontos em um sistema de eixos cartesianos. Na Figura 2.29
temos o diagrama de disperso para esses dados.
Na Figura 2.30 temos alguns diagramas de disperso que ilustram possveis padres de relao
entre duas variveis. Na linha superior da figura, no grfico esquerda h uma relao quase linear
crescente, enquanto que no grfico direita h uma relao decrescente, tambm quase linear. Na
linha inferior, no grfico esquerda no podemos identificar qualquer relao entre as variveis,
enquanto que no grfico direita, a relao no linear, aproximando-se bastante de uma relao
quadrtica. No prximo captulo voltaremos a abordar situaes como essas.
Renda
Mensal (u.m.)
719,80
720,00
722,30
722,30
734,40
742,50
747,70
763,30
810,20
818,50
825,60
833,30
834,00
918,10
918,10
929,60
951,70
1014,00
1141,30
1154,60
250
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
47
200
150
100
50
0
0
200
400
600
800
Renda domiciliar
1000
1200
1400
48
Figura 2.30: Exemplos de diagramas de disperso que ilustram diferentes relaes entre as variveis
2.5.3
1. Considere a populao, por sexo, de cada regio geogrfica do Brasil, conforme exibido na
Tabela 2.40. Construa um grfico de colunas para comparar as populaes masculina e feminina
por regio.
Tabela 2.40: Populao por regio geogrfica do Brasil para o Exerccio Resolvido 1
Regio
Populao
Masculina Feminina
Norte
6.533.555
6.367.149
23.413.914 24.327.797
Nordeste
35.426.091 36.986.320
Sudeste
12.401.450 12.706.166
Sul
Centro-Oeste
5.801.005
5.835.723
Total
83.576.015 86.223.155
Soluo:
O grfico que compara as populaes masculina e feminina por regio est na Figura 2.31.
2. Na tabela abaixo temos dados sobre hbitos de fumo de uma amostra de moradores de uma
pequena cidade (dados fictcios).
(a) Defina claramente as variveis envolvidas, estabelecendo o tipo de cada uma.
(b) possvel estabelecer uma relao dependente/explanatria entre elas? Em caso afirmativo, qual a varivel explanatria e qual a varivel dependente?
(c) Complete a tabela, acrescentando os totais.
(d) Construa as trs tabelas possveis de freqncias relativas.
49
Figura 2.31: Populao (em milhes de habitantes) por sexo nas regies geogrficas do Brasil
40
35
30
25
Masculina
Feminina
20
15
10
Norte
Nordeste
Sudeste
Sul
Centro-Oeste
< 20
143
11
66
Idade
[20, 30)
171
152
57
30
40
140
20
Soluo:
As variveis envolvidas so Hbito de Fumo e Idade. Ambas so qualitativas, uma vez que a
idade foi dada em classes.
A nica possibilidade explicar o hbito de fumo pela idade, ou seja, idade a varivel
explicativa ou independente e Hbito de Fumo a varivel dependente.
A seguir temos a tabela com os totais de linha e de coluna
Hbitos
de fumo
Fumante
Ex-fumante
Nunca fumou
Total
< 20
143
11
66
220
Idade
[20, 30)
171
152
57
380
30
40
140
20
200
Total
354
303
143
800
50
< 20
17,875
1,375
8,250
27,500
Idade
[20, 30)
21,375
19,000
7,125
47,500
30
5,000
17,500
2,500
25,000
Total
44,250
37,875
17,875
100,000
Em termos da distribuio condicional do hbito de fumo por faixa etria (total por coluna)
temos a seguinte tabela:
Hbitos
de fumo
Fumante
Ex-fumante
Nunca fumou
Total
< 20
65,00
5,00
30,00
100,00
Idade
[20, 30)
45,00
40,00
15,00
100,00
30
20,00
70,00
10,00
100,00
Total
44,250
37,875
17,875
100,000
E para a distibuio condicional da idade pelo hbito de fumo (total por linha) a tabela :
Hbitos
de fumo
Fumante
Ex-fumante
Nunca fumou
Total
< 20
40,3955
3,6304
46,1538
27,5000
Idade
[20, 30)
48,3051
50,1650
39,8601
47,5000
30
11,2994
46,2046
13,9860
25,0000
Total
100,0000
100,0000
100,0000
100,0000
51
160
140
120
100
80
60
40
20
<20
[20,30)
Fumante
Ex-funamte
>=30
Nunca fumou
MV
20
EM
PF
PF
15
PF
EM
MV
10
EM
MV
5
Nenhum grau
1o. Grau
2o. Grau
Tabela 2.41: Consumo de cigarros (X) e morte por cncer de pulmo (Y ) para o Exerccio Resolvido
4 da Seo 2.4
Pas
X
Y
Pas
X
Y
Islndia
240
63 Holanda
490 250
Noruega
255 100 Suia
180 180
1125 360
Sucia
340 140 Finlndia
1150 470
Dinamarca 375 175 Gr-Bretanha
Canad
510 160 Estados Unidos 1275 200
Austrlia
490 180
52
EM
PF
15
MV
23
35
30
EM
EM
13
PF
14
18
25
20
15
PF
14
10
5
MV
MV
11
0
Nenhum grau
1o. Grau
2o. Grau
Figura 2.35: Consumo de cigarro e mortes por cncer de pulmo para o Exerccio Resolvido 4 da
Seo 2.4
500
450
400
350
300
250
200
150
100
50
0
0
200
400
600
800
1000
1200
1400
2.6
53
Exerccios Complementares
2.9 Os pesos dos jogadores de um time de futebol variam de 75 a 95 quilos. Quais seriam os
extremos se quisssemos grup-los em 5 classes de mesmo tamanho?
2.10 Em certa poca, os salrios mensais dos operrios de uma indstria eletrnica variavam de
1.500 a 3.150 unidades monetrias. Quais seriam os limites se quisssemos grup-los em 6 classes
de mesmo tamanho?
2.11 Na Tabela 2.42 abaixo temos as notas de 50 alunos em um teste. Construa uma tabela de
freqncias, usando as classes 20 ` 30, 30 ` 40, 40 ` 50, , 90 ` 100. Construa o histograma, o
polgono de freqncias e a ogiva de freqncias.
Tabela 2.42: Notas de
29 37 38 47
63 63 63 65
70 70 71 73
76 77 77 79
84 85 87 87
50 alunos
49 52
65 66
73 74
81 81
88 89
2.12 Num estudo sobre a jornada de trabalho das empresas de Produtos Alimentares foram levantados os dados da Tabela 2.43 relativos ao total de horas trabalhadas pelos funcionrios no ms de
agosto (dados hipotticos). Construa uma tabela de freqncias usando 5 classes de mesmo tamanho;
construa tambm o histograma e a ogiva de freqncias. Para facilitar a soluo, os valores mnimo
e mximo so: 1.815 e 118.800.
Tabela 2.43: Jornada de trabalho de empresas alimentares
3.960
5.016 13.015
8.008
6.930
5.544
118.800 57.904 72.600 100.100 55.935
7.223
3.216
7.392
2.530
6.930
1.815
4.338
8.408
8.624
6.864
5.742
5.749
8.514
8.527
3.010
5.914
11.748
8.501
6.512
6.721
2.631
7.082
10.318
8.008
3.590
10.450
6.780
5.060
5.544
6.178 13.763
17.864 34.848 25.300
52.800 17.732 63.923
30.800 19.562 49.240
49.434 26.950 22.308
25.520 49.251 30.976
23.338 43.648 26.796
30.769 16.907 33.911
27.034 16.500 14.445
16.507 36.960 67.760
84.084 89.888 65.340
91.080 99.792 77.836
76.032
2.13 Na Tabela 2.44 temos a densidade populacional (hab/km2 ) das unidades da federao brasileira.
Construa um grfico ramo-e-folhas para esses dados.
2.14 Na Tabela 2.45 temos a populao dos municpios de MG com mais de 50.000 habitantes,
com base nos dados do Censo Demogrfico 2000. Excluindo a capital Belo Horizonte, construa uma
tabela de freqncias e o respectivo histograma, trabalhando com as seguintes classes (em 1.000 hab.):
[50,60), [60,70), [70,80), [80,100), [100,200), [200, 500) e 500 ou mais.
54
Tabela 2.45: Populao dos municpios de MG com mais de 50.000 habitantes, para o Exerccio 2.14
Municpio
Populao Municpio
Populao Municpio
Populao
Leopoldina
50.097 Timteo
71.478 Varginha
108.998
Pirapora
50.300 Par de Minas
73.007 Barbacena
114.126
73.130 Sabar
115.352
trs Pontas
51.024 Patrocnio
75.216 Patos de Minas
123.881
So Francisco
51.497 Paracatu
76.422 Tefilo Otoni
129.424
Pedro Leopoldo
53.957 Vespasiano
76.862 Ibirit
133.044
Ponte Nova
55.303 Itana
77.789 Poos de Caldas
135.627
S.Seb.do Paraso
58.335 Caratinga
78.616 Divinpolis
183.962
Janaba
61.651 S.Joo del Rei
78.772 Sete Lagoas
184.871
Formiga
62.907 Lavras
78.997 Santa Luzia
184.903
Januria
63.605 Arax
84.135 Ipatinga
212.496
Cataguases
63.980 Itajub
85.065 Ribeiro das Neves
246.846
Nova Lima
64.387 Ub
Viosa
64.854 Ituiutaba
89.091 Gov.Valadares
247.131
92.101 Uberaba
252.051
Trs Coraes
65.291 Muria
97.211 Betim
306.675
Ouro Preto
66.277 Passos
97.451 Montes Claros
306.947
Joo Monlevade
66.690 Cor. Fabriciano
98.322 Juiz de Fora
456.796
Alfenas
66.957 Itabira
Manhuau
67.123 Araguari
101.974 Uberlndia
501.214
102.836 Contagem
538.017
Curvelo
67.512 Cons.Lafaiete
106.776 Belo Horizonte
2.238.526
Una
70.033 Pouso Alegre
Fonte: IBGE - Censo Demogrfico 2000
55
2.15 Na Tabela 2.46 temos os dados que ilustram a seguinte manchete do jornal Folha de So
Paulo:
VAREJO
Preos sobem 1,37% em SP, em mdia, na semana;
setor no v anormalidade e diz que s acomodao.
Hipermercados tm a maior alta do ano.
Construa o grfico apropriado para ilustrar o fato descrito na manchete.
Tabela 2.46: Preos no varejo, para o Exerccio 2.15
Variao % semanal do s preos
Semana
%
Semana
%
Semana
%
17/11
2,05
28/12
1,23
09/02
-0,13
05/01
-0,39
16/02
0,43
24/11
0,18
01/12
-0,26
12/01
0,57
23/02
0,71
19/01
0,58
01/03
0,53
08/12
0,68
26/01
0,30
08/03
0,64
15/12
0,84
02/02
-0,40
15/03
1,37
21/12
1,12
Fonte: Folha de So Paulo
2.16 Para a seguinte notcia, extrada do jornal Folha de So Paulo, construa um grfico para
ilustrar o texto da notcia.
Dentro de dez anos, 90% do mercado automobilstico mundial estar nas mos de meia dzia
de conglomerados. A previso consta de estudo produzido pela consultoria especializada britnica
Autopolis, que d assessoria tcnica a montadoras que esto instaladas no Reino Unido.
... Dados levantados pela Autopolis mostram que, hoje, a concentrao de mercado j grande.
Cerca de 75% do setor dominado por somente seis conglomerados, liderados por General Motors
(22,8%), Ford (16,8%), Volkswagen (9,4%), Toyota (9,2%, incluindo Daihatsu), Reanult-Nissan
(8,7%) e Daimler-Chrysler (8,3%). Os outros 24,8% do mercado so dominados por uma infinidade
de empresas pequenas e mdias, como Fiat, BMW, Peugeot e Honda, entre outras..
2.17 Com base na Tabela 2.47, construa um grfico para mostrar a distribuio da populao por
sexo nas 27 unidades da federao (UF) brasileiras.
2.18 Na Tabela 2.48 temos dados referentes ao nmero de pulsos excedentes na conta de telefone
de uma residncia para os meses de janeiro de 98 a junho de 99. Construa o grfico adequado para
representar esses dados.
2.19 Na Tabela 2.49, temos dados sobre casas vendidas na regio de Boulder, Colorado (EUA)7 ,
no primeiro semestre de 1995. Vamos denotar por X a varivel rea (em m2 ) e por Y o preo de
venda (em 1000 US$).
(a) Construa uma tabela de freqncias completa para a varivel Y (preo de venda) usando 5
classes de mesmo comprimento. Ateno: na definio das classes, tome como limite inferior
da primeira classe o valor 110 e trabalhe com amplitude de classe inteira!
7
56
Exerccio 2.18
290
48
303
223
296
383
57
Tabela 2.49: Vendas de casas em Boulder, Colorado (1995) para o Exerccio 2.19
Preo (Y ) rea (X) Preo (Y ) rea (X) Preo (Y ) rea (X)
(1000 US$)
(m2 )
(1000 US$)
(m2 )
(1000 US$)
(m2 )
113
126
163
227
186
228
114
158
168
228
187
219
168
249
187
222
120
126
169
244
188
279
120
126
169
263
188
249
122
158
170
234
190
317
123
126
129
229
171
283
192
304
172
286
193
195
137
196
173
268
195
217
140
262
175
223
195
232
142
272
175
270
200
234
143
189
175
231
200
322
146
158
146
218
176
249
200
304
177
285
207
300
148
276
178
243
270
252
149
218
178
251
290
322
152
302
180
279
300
353
153
168
157
302
180
189
320
349
181
153
328
388
157
289
185
316
160
277
2.20 Represente graficamente os dados da Tabela 2.50 sobre o consumo dirio mdio de energia
eltrica em uma residncia.
Tabela 2.50: Consumo dirio mdio de energia para o Exerccio 2.20
Ms
Consumo (kWh)
Ms
Consumo (kWh)
Jan/00
6,41 Ago/00
8,00
14,00 Set/00
8,21
Fev/00
Mar/00
15,64 Out/00
8,90
11,63 Nov/00
10,50
Abr/00
9,43 Dez/00
10,34
Mai/00
8,45 Jan/01
8,93
Jun/00
8,10
Jul/00
2.21 Na Tabela 2.51 temos as freqncias acumuladas do nmero de sinistros por aplice de seguro
do ramo Automveis. Complete a tabela, calculando as freqencias simples absolutas e relativas e
tambm as freqncias acumuladas relativas.
58
Alta
22
11
3
2.23 Considere os dados da tabela a seguir, onde temos a opinio de 228 indivduos norte-americanos
sobre o aborto, segundo a afiliao partidria. Os dados constam da Tabela 2.53. Construa a tabela
de freqncias relativas apropriada e utilize um grfico para ilustr-la.
Tabela 2.53: Opinio sobre aborto
Opinio
Partido
sobre aborto Democrata Republicano
A favor
78
34
Neutro
8
5
37
66
Contra
Captulo 3
Medidas Estatsticas
3.1
Introduo
A reduo dos dados atravs de tabelas de freqncias ou grficos um dos meios disponveis para
ilustrar o comportamento de um conjunto de dados. No entanto, muitas vezes queremos resumir
ainda mais esses dados, apresentando um nico valor que seja representativo do conjunto original.
Como, ao fazermos isso, perdemos informao sobre a variabilidade dos dados, importante que se
tenha tambm um valor que represente a disperso dos dados.
Neste captulo estudaremos algumas medidas de posio, que so medidas que sintetizam, em
um nico valor, o conjunto original, e tambm algumas medidas de disperso. Para completar a
caracterizao da distribuio univariada dos dados, sero dadas algumas medidas de assimetria e
curtose. A covarincia e o coeficiente de correlao sero tambm apresentados como medidas de
associao linear entre variveis quantitativas.
3.2
3.2.1
Medidas de posio
Mdia aritmtica simples
No nosso dia-a-dia, o conceito de mdia bastante comum, quando nos referimos, por exemplo,
altura mdia dos brasileiros, temperatura mdia dos ltimos anos, etc.
Definio 3.1 Dado um conjunto de n observaes x1 , x2 , . . . , xn , a mdia aritmtica simples
definida como
n
1 P
x1 + x2 + + xn
=
x=
xi .
(3.1)
n
n i=1
Como exemplo, considere os dados da Tabela 2.2, referentes s notas de duas turmas; a nota
mdia para a turma A
xA =
252
5 + 8 + 8 + +9 + 8
=
= 6, 0
42
42
e para a turma B
206
6 + 3 + 4 + + 5 + 5
=
= 5, 4211
38
38
Como os dados originais representam nmero de questes corretas em um teste de mltipla escolha,
a mdia representa o nmero mdio de questes corretas. Em geral, a mdia de um conjunto de
dados tem a mesma unidade dos dados originais.
xB =
59
60
Nas Figuras 3.1 e 3.2 temos os grficos ou diagramas de pontos1 representando as notas de ambas
as turmas. Nessas figuras, a setinha indica a mdia do conjunto de dados. A interpretao fsica
da mdia aritmtica que ela representa o centro de gravidade da distribuio; nas figuras, ela o
ponto de equilbrio, indicado pela seta.
Figura 3.1: Grfico de pontos das notas da Turma A
10
10
11
Considerando os dados sobre nmero de empregados das ULs industriais do Rio de Janeiro
apresentados na Tabela 2.9, a tabela de freqncias sem perda de informao, dada na Tabela 3.1,
nos auxilia no clculo de vrias medidas descritivas.
Como h vrios valores repetidos, podemos calcular a mdia como
x=
6774
12 5 + 18 6 + 12 7 + + 1 503 + 1 705 + 1 837
=
= 39, 614
12 + 18 + 12 + + 1 + 1 + 1
171
1
Esses grficos so construdos usando-se uma pilha de pontos para representar as freqncias de cada valor.
Note que os pontos tm que estar equi-espaados.
Num. Emp.
5
6
7
8
9
10
11
12
13
14
15
16
17
18
Freq.
12
18
12
10
9
7
8
6
6
5
4
3
4
3
61
Num. Emp
73
80
98
110
120
204
216
274
351
461
503
705
837
Freq.
2
1
1
1
1
1
1
1
1
1
1
1
1
Note que o valor da mdia aritmtica um valor tal que, se substitussemos todos os dados
por ela, isto , se todas as observaes fossem iguais mdia aritmtica, a soma total seria igual
soma dos dados originais. Ento, a mdia aritmtica uma forma de se distribuir o total observado
pelos n elementos, de modo que todos tenham o mesmo valor. Considere os seguintes dados fictcios
referentes aos salrios de 5 funcionrios de uma firma: 136, 210, 350, 360, 2500. O total da folha de
pagamentos 3236, havendo um salrio bastante alto, discrepante dos demais. A mdia para esses
dados 647,20. Se todos os 5 funcionrios ganhassem esse salrio, a folha de pagamentos seria a
mesma e todos teriam o mesmo salrio.
3.2.2
Moda
Analisando os grficos de pontos das notas das turmas A e B, podemos ver que, em ambas as turmas,
a nota que mais se repete a nota 5. Esse o conceito de moda.
Definio 3.2 A moda de uma distribuio ou conjunto de dados, que representaremos por x ,
o valor que mais se repete, ou seja, o valor mais freqente.
Podemos ter distribuies amodais (todos os valores ocorrem o mesmo nmero de vezes), unimodais (uma moda), bimodais (duas modas), etc. Para as notas das turmas A e B, os diagramas
de pontos das Figuras 3.1 e 3.2 nos permitem ver rapidamente que
xA = xB = 5;
para a Tabela 3.1, temos uma nica moda x = 6.
3.2.3
Mediana
800
62
Para a firma 1, o salrio mdio x = 550 e para a firma 2, x = 990 u.m.. A diferena entre os
2 conjuntos o salrio mais alto: na firma 1, os salrios so mais homogneos, enquanto na firma
2 o maior salrio muito mais alto que os restantes. A conseqncia disso que o salrio mdio
para a firma 2 fica muito influenciado por esse valor alto, fazendo com que a mdia no seja um
bom representante dos salrios. Esse exemplo ilustra um fato geral sobre a mdia aritmtica: ela
muito influenciada por valores discrepantes (em ingls, outliers), isto , valores muito grandes (ou
muito pequenos) que sejam distintos da maior parte dos dados. Nesses casos necessrio utilizar
uma outra medida de posio para representar o conjunto; uma medida possvel a mediana.
Definio 3.3 Seja x1 , x2 , . . . , xn um conjunto de n observaes e seja x(i) , i = 1, . . . , n o conjunto
das observaes ordenadas, de modo que x(1) x(2) x(n) . Ento, a mediana Q2 definida
como o valor tal que 50% das observaes so menores que ela e 50% so maiores que ela.
Para efeito de clculo, valem as seguintes regras:
n mpar :
Q2 = x( n+1 )
2
n par :
x( n ) + x( n +1)
2
Q2 = 2
2
(3.2)
Dessa definio, podemos ver que a mediana o valor central dos dados.
Voltando s notas das turmas A e B, na turma A temos 42 notas e na turma B, 38 notas.Assim,
a mediana da turma A a mdia da 21a e da 22a notas; para a turma B, a mdia da 19a e da 20a
notas. Os diagramas de pontos facilitam a identificao da mediana:
Q2,A =
Q2,A =
x(19) + x(20)
5+5
=
=5
2
2
x(21) + x(22)
6+6
=
=6
2
2
Para os dados da Tabela 3.1, como o nmero de observaes mpar, n = 171, temos que (note
171 + 1
= 86) :
que
2
Q2,RJ = x(86) = 13.
Compare esse valor com a respectiva mdia xRJ = 39, 58: os valores altos puxam a mdia para
cima.
3.2.4
Separatrizes
63
primeiro quartil Q1 : deixa pelo menos 25% das observaes abaixo dele e pelo menos 75%
acima;
segundo quartil Q2 : deixa pelo menos 50% das observaes abaixo dele e pelo menos 50%
acima; a mediana;
terceiro quartil Q3 : deixa pelo menos 75% das observaes abaixo dele e pelo menos 25%
acima.
Os decis sero representados pela letra D e os percentis pela letra P ; assim, por exemplo:
o terceiro decil D3 deixa pelo menos 30% das observaes abaixo e pelo menos 70% acima;
o quinto decil e o 50o percentil so a mediana;
o octagsimo percentil deixa pelo menos 80% das observaes abaixo e pelo menos 20% acima.
No clculo das separatrizes quase sempre ser necessrio algum procedimento de arredondamento
e aproximao. Para os quartis, podemos adotar o seguinte procedimento: depois de calculada a
mediana, considere as duas partes dos dados, a parte abaixo da mediana e a parte acima da mediana,
em ambos os casos excluindo a mediana. O primeiro quartil calculado como a mediana da parte
abaixo da mediana original e o terceiro quartil calculado como a mediana da parte acima da
mediana original. Consideremos as notas da turma B: temos 38 observaes e a mediana a mdia
dos valores centrais (19a e 20a observaes). Ento, as duas partes consistem nas 19 observaes
inferiores e nas 19 observaes superiores, respectivamente (ver Figura 3.3). Como 19 um nmero
mpar, a mediana o valor central, ou seja, a 10a observao; ento, o primeiro quartil a 10a
observao e o terceiro quartil a 10a observao contada a partir da posio 19, ou seja, calculado
como a observao de posio ordenada 19 + 10 = 29. Resulta Q1,B = 4 e Q3,B = 6.
Figura 3.3: Clculo dos quartis - n = 38
Q1
9 10 11 12 13 14 15 16 17 18 19
20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38
Q3
Analogamente, para a turma A, que tem 42 notas, o primeiro e terceiro quartis so calculados
como
Q1,A = x(11) = 5
Q3,A = x(21+11) = x(32) = 8
Para os dados do Rio de Janeiro, o nmero de observaes mpar (171) e a mediana a
observao de posio ordenada 86; excluindo essa observao, restam 85 observaes abaixo e 85
acima. Com 85 observaes, a mediana a observao de posio 43. Logo, o primeiro quartil a
64
38
= 15, 2 ' 16) :
10
D4,B = x(16) = 5
Todos esses arredondamentos so necessrios mas um pouco arbitrrios; no existe uma regra
definida para tratar as diversas situaes, por isso trabalha-se com a definio pelo menos p%
abaixo e (1 p)% acima. Uma boa prtica manter a simetria das separatrizes; por exemplo, o
primeiro e o terceiro quartis so simtricos com relao mediana, assim como o primeiro e o nono
decis. Ento, se o primeiro decil deixa 5 observaes abaixo, por exemplo, o nono decil deve deixar
5 observaes acima. Para as notas da turma B, o nono decil deve ser calculado como
D9 = x(383) = x(35) = 8
e o sexto decil, simtrico ao quarto, como
D6 = x(3815) = x(23) = 6
3.2.5
Em algumas situaes, os nmeros que queremos sintetizar tm graus de importncia diferentes. Por
exemplo, o ndice Nacional de Preos ao Consumidor (INPC) calculado com base nos ndices de
Preo ao Consumidor (IPC) de diversas regies metropolitanas do Brasil mas a importncia dessas
regies diferente. Uma das variveis que as diferencia a populao residente.
Nesse tipo de situao, em vez de se usar a mdia aritmtica simples, usa-se a mdia aritmtica
ponderada, que ser representada por xp .
Definio 3.5 A mdia aritmtica ponderada de nmeros x1 , x2 , . . . , xn com pesos 1 , 2 , . . . , n
definida como
n
X
i xi
1 x1 + 2 x2 + + n xn
i=1
xp =
= n
.
X
1 + 2 + . . . + n
i
i=1
Se definimos
i =
i
n
X
j
j=1
n
X
i=1
onde
n
P
i=1
i = 1.
i xi
(3.3)
65
Note que a mdia aritmtica simples um caso particular da mdia aritmtica ponderada, onde
1
todas as observaes tm o mesmo peso e, portanto, peso igual a .
n
Para a construo do ndice Nacional de Preos ao Consumidor - INPC, o peso de cada ndice
regional definido pela populao residente urbana, conforme dados da Tabela 3.2. Os pesos em
porcentagem a apresentados representam a participao da populao residente urbana da regio
metropolitana no total da populao residente urbana das 11 regies metropolitanas pesquisadas.
O ndice geral dado pela mdia ponderada:
INPC09/03 = 0, 0572 0, 98 + 0, 0620 0, 36 + 0, 0721 0, 85 + 0, 1030 1, 82 +
0, 1102 0, 69 + 0, 1080 0, 39 + 0, 2679 0, 94 + 0, 0709 0, 51 +
= 0, 82382
3.2.6
Mdia geomtrica
xg = n x1 x2 xn .
(3.4)
Em Demografia, a mdia geomtrica pode ser usada para se estimar a populao de uma determinada localidade num ano tx . usual que os pases realizem Censos Demogrficos a cada 10 anos,
quando, ento, obtido o nmero de residentes no pas. Para estimar a populao em algum ano
entre dois censos, podemos usar a mdia geomtrica, desde que se suponha que a taxa de crescimento entre os 2 censos seja constante. Sejam P0 a populao no 1o censo, realizado na data t0 ,
PN a populao do 2o censo realizado na data tN e Px a populao que se quer estimar na data
PN
; se a taxa de
tx (t0 < tx < tN ). O crescimento da populao entre os dois censos igual a
P0
crescimento constante igual a r, isso significa que ao fim do primeiro perodo a populao igual
a
P1 = P0 + P0 r = P0 (1 + r)
66
Logo,
r
PN
N
N PN
= (1 + r)
r=
1
P0
P0
A populao em qualquer perodo x entre os censos, ento, dada por
r
!x
x
N PN
Px = P0 (1 + r) = P0
P0
Lembrando que
1
n
x = xn
podemos escrever
Px = P0
PN
P0
= (P0 )1 N (PN ) N =
q
(P0 )Nx (PN )x
V-se, ento, que Px uma mdia geomtrica de N x valores iguais a P0 e de x valores iguais a
PN . Em particular, se o instante de tempo x o perodo central, isto , x = N2 , ento
q
h
i1
p
N
N
N
N N
N
2
2
2
2
Px =
(Po ) (PN ) = (Po ) (PN )
= P0 PN
3.2.7
Mdia harmnica
Considere o seguinte exemplo: uma pessoa viaja num fim de semana do Rio de Janeiro para So
Paulo, dirigindo seu prprio carro. Na ida, ela desenvolve uma velocidade mdia de 70km/h mas,
na volta, por estar o trfego na via Dutra mais tranqilo, ela desenvolve uma velocidade mdia de
90km/h. Qual a velocidade mdia para a viagem completa? Para responder esta pergunta, temos
que lembrar que a velocidade mdia dada pela razo entre a distncia percorrida e o tempo gasto
para percorr-la. Para simplificar, suponhamos que a distncia entre as duas cidades seja de 450
km. Ento, a distncia total percorrida de 2 450 = 900km. Por outro lado, o tempo gasto na
450
450
h e na volta,
h. Logo, a velocidade mdia para a viagem completa de
ida foi de
70
90
2 450
2
1
.
xh =
=
=
1
1
450 450
1
1
+
+
+
70
90
70 90
70 90
2
Essa ltima expresso nos leva definio de mdia harmnica.
67
1
1
1
1
+
+ +
x1 x2
xn
n
n
1
1
1
+
+ +
x1 x2
xn
(3.5)
Analisando essa expresso, conclui-se que a velocidade mdia para a viagem completa a mdia
harmnica das velocidades mdias desenvolvidas na ida e na volta.
3.2.8
Mdia
1. A mdia aritmtica de um conjunto de valores x1 , x2 , . . . , xn maior ou igual ao menor dos
nmeros e menor ou igual ao maior dos nmeros. Em outras palavras, a mdia aritmtica
est compreendida entre o menor e o maior valor dos dados. Para demonstrar esse fato, sejam
x(1) , x(2) , . . . , x(n) as observaes ordenadas, isto , x(1) x(2) . . . x(n) . Temos que:
x=
= x(1)
n
n
x=
= x(n)
n
n
e
Logo,
xmin x xmax
(3.6)
68
Mediana e moda
Para a mediana e a moda, valem as mesmas propriedades acima. Embora mais trabalhosas para
demonstrar formalmente, elas so intuitivas: ao se somar a mesma constante, a relao de ordenao
entre os dados no se altera; logo, a mediana fica somada da mesma constante. O valor mais freqente
dos novos dados, isto , a moda, passa a ser a moda original mais a constante. Se multiplicamos
por uma constante positiva, a ordenao no se altera; logo a nova mediana a mediana original
multiplicada pela constante. Se a constante negativa, h uma inverso na ordenao mas os valores
centrais se mantm.
Relao entre as mdias aritmtica, geomtrica e harmnica
Para um conjunto de observaes no-negativas, valem as seguintes relaes:
xh xg x.
(3.8)
Vamos provar esse resultado para o caso em que temos apenas 2 observaes no negativas, isto
, x1 0 e x2 0. As mdias aritmtica, geomtrica e harmnica, neste caso, so:
x=
x1 + x2
2
xg =
x1 x2
xh =
2
1
1
+
x1 x2
(x1 + x2 )2
x1 x2
4
(x1 + x2 )
x1 x2
2
x xg
(3.9)
A penltima desigualdade foi obtida extraindo-se a raiz quadrada de ambos os lados; essa operao
possvel pois os nmeros envolvidos so todos no-negativos.
O resultado provado acima vlido para quaisquer dois nmeros positivos; em particular, vale
1
1
e y2 = . Para esses nmeros temos que
para y1 =
x1
x2
69
y yg
y1 + y2
y1 y2
2
1
1
r
+
1
1
x1 x2
2
x1 x2
1
1
+
1
x1 x2
2
x1 x2
1
1
1 1
1
+
x1 x2
x1 x2
2
x1 x2
1
1
+
x1 x2
xh xg
(3.10)
A demonstrao desse resultado para o caso geral (n qualquer) dada no Anexo 1 deste captulo.
3.2.9
1. Considere os dados da Tabela 3.3 abaixo, onde temos as notas dos 50 alunos, j analisadas
no Exerccio 2.3 do captulo anterior. Calcule a nota mdia, a nota modal, a nota mediana, o
primeiro e terceiro quartis e o oitavo decil.
Tabela 3.3: Notas de 50 alunos em um teste mltipla
3.2
2 3 3 5 6 7
2 6 9 10 9 8
4 5 6 6 8 7
10 5 6 1 7 1
4 3 6 7 8 5
4
9
10
6
4
4
7
2
5
6
3
5
1
5
8
Soluo:
Para facilitar a soluo do exerccio, consideremos a distribuio de freqncias dada na Tabela
3.4 abaixo.
A nota mdia
x =
=
3 1 + 4 2 + 4 3 + 5 4 + 8 5 + 8 6 + 5 7 + 5 8 + 5 9 + 3 10
=
50
281
= 5, 62
50
A distribuio bimodal, com as modas sendo as notas 5 e 6. Como temos um nmero par
de observaes, a mediana a mdia dos valores centrais, que ocupam as posies 25 e 26.
70
Tabela 3.4: Notas de 50 alunos para a soluo do Exerccio Resolvido 1 da Seo 3.2
Nota xi Freqncia
Freqncia
ni xi
simples ni acumulada Ni
1
3
3
3
4
7
8
2
4
11
12
3
5
16
20
4
8
24
40
5
8
32
48
6
7
5
37
35
5
42
40
8
5
47
45
9
3
50
30
10
Total
50
281
Das freqncias acumuladas, podemos ver que esses valores so ambos iguais a 6 (note que as
observaes x(25) a x(32) so todas iguais a 6) , ou seja::
Q2 =
x(25) + x(26)
6+6
=
=6
2
2
O clculo dos outros quartis se faz notando que a mediana a mdia dos valores centrais
e, portanto, as duas partes dos dados so formadas por 25 observaes. Para n = 25, a
mediana a observao de posio ordenada 13 e, assim, o primeiro quartil a observao
original de posio ordenada 13 e o terceiro quartil a observao original de posio ordenada
25 + 13 = 38, ou seja:
Q3 = x(38) = 8
Q1 = x(13) = 4
Para o clculo do oitavo decil, note que 50
10 = 5 e, portanto, o oitavo decil deve deixar pelo
menos 8 5 = 40 observaes abaixo dele; assim, podemos calcular o oitavo decil como
D8 = x(41) = 8.
2. Considere os dados referentes populao dos municpios mineiros com mais de 50.000 habitantes da Tabela 3.5. Calcule os trs quartis, o primeiro e o nono decis.
Soluo:
Temos 60 municpios; logo, a mediana a mdia das observaes de posies ordenadas 30
(Arax) e 31 (Itajub), ou seja:
Q2 =
78997 + 84315
= 81656
2
Excluda a mediana, que no uma observao real, restam 30 observaes acima e abaixo.
Logo, o primeiro quartil a mdia das observaes de posies ordenadas 15 (Ouro Preto)
e 16 (Joo Monlevade) e o terceiro quartil a mdia das observaes de posies ordenadas
30 + 15 = 45 (Tefilo Otoni) e 30 + 16 = 46 (Ibirit), ou seja:
Q1 =
Q3 =
66277 + 66690
= 66.483, 5
2
129.424 + 133.044
= 131.234
2
71
Tabela 3.5: Populao dos municpios de MG com mais de 50.000 habitantes, para o Exerccio 2
Municpio
Populao Municpio
Populao Municpio
Populao
Leopoldina
50.097 Timteo
71.478 Varginha
108.998
73.007 Barbacena
114.126
Pirapora
50.300 Par de Minas
73.130 Sabar
115.352
trs Pontas
51.024 Patrocnio
75.216 Patos de Minas
123.881
So Francisco
51.497 Paracatu
76.422 Tefilo Otoni
129.424
Pedro Leopoldo
53.957 Vespasiano
76.862 Ibirit
133.044
Ponte Nova
55.303 Itana
77.789 Poos de Caldas
135.627
S.Seb.do Paraso
58.335 Caratinga
Janaba
61.651 S.Joo del Rei
78.616 Divinpolis
183.962
78.772 Sete Lagoas
184.871
Formiga
62.907 Lavras
78.997 Santa Luzia
184.903
Januria
63.605 Arax
84.135 Ipatinga
212.496
Cataguases
63.980 Itajub
85.065 Ribeiro das Neves
246.846
Nova Lima
64.387 Ub
Viosa
64.854 Ituiutaba
89.091 Gov.Valadares
247.131
92.101 Uberaba
252.051
Trs Coraes
65.291 Muria
97.211 Betim
306.675
Ouro Preto
66.277 Passos
97.451 Montes Claros
306.947
Joo Monlevade
66.690 Cor. Fabriciano
98.322 Juiz de Fora
456.796
Alfenas
66.957 Itabira
101.974 Uberlndia
501.214
Manhuau
67.123 Araguari
Curvelo
67.512 Cons.Lafaiete
102.836 Contagem
538.017
106.776 Belo Horizonte
2.238.526
Una
70.033 Pouso Alegre
Fonte: IBGE - Censo Demogrfico 2000
60
= 6. O primeiro decil deve deixar pelo menos 6 obserPara o clculo dos decis, note que
10
vaes abaixo e, assim, D1 = x(7) = 58.335 e o nono decil, por simetria, D9 = x(54) = 252.051.
3. Vamos fazer uma comparao entre as mdias aritmtica e geomtrica atravs de um exemplo
de matemtica financeira elementar.
No regime de capitalizao simples (juros simples), apenas o capital inicial rende juros. J no
regime de capitalizao composta (juros compostos), os rendimentos incorporados ao capital
inicial, em cada perodo, tambm rendem juros no perodo seguinte. Vamos analisar os resultados da aplicao de umcapital inicial C0 durante um perdo de n meses, com taxas de juros
i1 , i2 , i3 , . . . , in que, para simplificar, vamos supor que no estejam em forma percentual.
Capitalizao Simples:
Como os juros s incidem sobre o capital inicial, em cada ms o valor dos juros Jt (em u.m.)
calculado como
Jt = C0 it
e ao final do perodo o montante
Ct = Ct1 + Jt
Ento, para o primeiro ms temos
J1 = C0 i1
C1 = C0 + J1 = C0 + C0 i1
72
C2 = C1 + J2 = C1 + C0 i2 = C0 + C0 i1 + C0 i2 = C0 + C0 (i1 + i2 )
Para o terceiro ms,
J3 = C0 i3
C3 = C2 + J2 = C2 + C0 i3 = C0 + C0 (i1 + i2 ) + C0 i3 = C0 + C0 (i1 + i2 + i3 )
Continuando com esses clculos, obtemos para o no ms
Jn = C0 in
(3.11)
t=1
Vamos considerar agora o conceito de taxa mdia de juros. A taxa mdia de juros uma taxa
constante que leva ao mesmo capital final, isto , obtemos o mesmo rendimento mas, a cada
ms, a taxa de juros a mesma. Da Eq. 3.11 vemos que, para obter o mesmo capital final a
uma taxa constante i, temos que ter
C0 + C0
n
P
t=1
n
P
t=1
n
P
t=1
it = C0 + C0
n
P
t=1
it =
n
P
t=1
it = ni
i =
n
1 P
it
n t=1
(3.12)
ou seja, a taxa de juros mdia tem que ser igual mdia aritmtica das taxas mensais.
A ttulo de ilustrao, considere as seguintes taxas de juros mensais: i1 = 2, 5%; i2 = 3, 8%;
i3 = 4, 5%; i4 = 4, 9%; i5 = 6, 2% e i6 = 7, 8%; suponha tambm que uma pessoa tenha
um capital inicial de C0 = 150 u.m. (unidades monetrias). Na Tabela 3.6 resumimos os
resultados da aplicao com as taxas mensais variveis e com a taxa mensal mdia. Note que
a taxa mdia dada por
i=
2, 5 + 3, 8 + 4, 5 + 4, 9 + 6, 2 + 7, 8
= 4, 95%
6
Capitalizao Composta:
No regime de capitalizao composta, os juros incidem tambm sobre os rendimentos mensais;
assim, o valor dos juros para cada ms dado por
Jt = Ct1 it
Ms
1
2
3
4
5
6
73
e o montante
Ct = Ct1 + Jt
Ento, para o primeiro ms temos
J1 = C0 i1
C1 = C0 + J1 = C0 + C0 i1 = C0 (1 + i1 )
Para o segundo ms,
J2 = C1 i2
C2 = C1 + J2 = C1 + C1 i2 = C1 (1 + i2 ) = C0 (1 + i1 )(1 + i2 )
Para o terceiro ms,
J3 = C2 i3
C3 = C2 + J3 = C2 + C2 i3 = C2 (1 + i3 ) = C0 (1 + i1 )(1 + i2 )(1 + i3 )
Continuando com esses clculos, obtemos para o no ms:
Jn = Cn1 in
Ento, a taxa comum calculada como uma mdia geomtrica, no das taxas mensais, mas
dos valores 1 + i, chamados relativos. O 1 aparece exatamente por que os juros incidem
sobre o capital do ms anterior. Logo, a taxa comum, em forma percentual,
p
i = n (1 + i1 )(1 + i2 )(1 + i3 ) (1 + in ) 1
74
p
i = 100 6 1, 025 1, 038 1, 045 1, 049 1, 062 1, 078 1 =
6
1.33523059526495 1 4, 936372179
= 100
Na Tabela 3.7 temos os clculos para as taxas variveis e constantes. Os valores esto com
um nmero excessivo de casas decimais para ilustrar a exatido dos resultados.
Ms
1
2
3
4
5
6
4. Um capital inicial de 1200 u.m. foi aplicado em um regime de capitalizao composta, rendendo
ao final de um trimestre (3 meses) juros de 126,52. Qual foi a taxa mdia mensal?
Soluo:
Note que da equao (3.13) obtemos
Cn
in
i1
1 +
= 1+
C0
100
100
Em termos da taxa mdia comum,
Cn
=
C0
r
!
r
C
C
i n
i
n
n
i = 100 n
1+
n
= 1+
1
100
C0
100
C0
3
1, 105433333 1 = 3, 3976937%
75
Cn C0
C0
n
Cn C0
C0
= 100
n
Ct C0
a variao relativa; dividindo pelo nmero de perodos, obtemos a variao
C0
mdia. No nosso exerccio,
1326,52
1
1200,00
0, 105433333
i = 100
= 100
= 3, 5144444
3
3
Note que
6. No ano de 2004, uma escola estadual recebeu, em cada trimestre, uma verba de R$500,00 para
comprar folhas de cartolina. A compra sempre feita na primeira semana do trimestre e os
preos de cada folha de cartolina esto na Tabela 3.8 abaixo.
Tabela 3.8: Preo da cartolina para o Exerccio Resolvido 6 da Seo 3.2
Trimestre Preo (R$)
jan-mar
0,35
0,45
abr-jun
0,50
jul-set
out-dez
0,52
Qual o preo mdio da folha de cartolina pago pela escola no ano de 2004?
Soluo:
O preo mdio calculado como a razo entre o valor total gasto e o nmero total de folhas
de cartolina compradas. Assim, o preo mdio no a mdia dos preos unitrios 0,35, 0,45,
0,50 e 0,52, porque as quantidades compradas variaram a cada trimestre. O valor total gasto
foi de 4 500. O nmero de folhas de cartolina compradas em cada trimestre foi:
qI =
500
0, 35
qII =
500
0, 45
qIII =
500
0, 50
qIV =
500
0, 52
500
0,35
4 500
500
+
+ 0,50
+
500
0,45
500
0,52
1
0,35
1
0,45
4
+
1
0,50
1
0,52
= 0, 4443
76
Para cada unidade do seu salrio, a pessoa gastava, antes do aumento, 0,35 com alimentao,
0,25 com aluguel e 0,12 com transporte. Depois do aumento, ela passa a ter uma despesa
adicional de 0, 58 0, 35 = 0, 203 com alimentao, 0, 47 0, 25 = 0, 118 com aluguel e
0, 49 0, 12 = 0, 059 com transporte, o que totaliza 0, 203 + 0, 118 + 0, 059 = 0, 380. Ento,
para cada unidade do seu salrio, ela tem um aumento de 0,38 nos gastos com esses trs itens,
ou seja,um aumento de 38%. Note que ela j gastava 0, 35+, 025 + 0, 12 = 0, 72 = 72% do
salrio com esses trs itens. Agora, ela passa a gastar, s com esses itens, 110%, ou seja, mais
do que ganha! Esse clculo corresponde a uma mdia ponderada das taxas de aumento, onde
os fatores de ponderao correspondem s parcelas do salrio gastas com os diferentes itens.
8. No ms do dissdio de uma determinada categoria, uma firma deu um aumento de 20% a todos
os seus funcionrios. Se, antes do aumento, o salrio mdio dos funcionrios era de R$780,00,
qual ser o novo salrio mdio? No Natal seguinte, a firma d um abono de R$50,00 para
todos os funcionrios. Se a firma tem 22 funcionrios, qual o valor da folha de pagamentos
neste ms de dezembro?
Soluo:
Quando todos os funcionrios tm aumento de 20%, isso significa que cada salrio fica multiplicado por 1,2, ou seja, o salrio de cada funcionrio o salrio antigo mais 20%. Ao multiplicar
todos os nmeros por uma mesma constante, a mdia fica multiplicada por essa constante.
Ento, o salrio mdio fica multiplicado por 1,2, ou seja, passa a ser 1, 2 780, 00 = R$936, 00.
Como a firma tem 22 funcionrios, a folha de pagamentos passa a ser 22 936 = R$20.592, 00.
No Natal, os salrios de todos os funcionrios ficam somados de R$50,00; logo o salrio mdio
tambm fica somado de 50,00 e a folha de pagamentos ser de 20.592 + 22 50 = R$21.692, 00.
3.2.10
3.1 O peso mdio dos jogadores de um time de futebol de 81 kg. Se nenhum pesa menos do que
72 kg, quantos podem pesar 95 kg?
3.2 Os dados a seguir representam o nmero de aplices de seguro que um corretor conseguiu
vender em cada um de seus 20 primeiros dias em um emprego novo: 2, 4, 6, 3, 2, 1, 4, 3, 5, 2,
1, 1, 4, 0, 2, 2, 5, 2, 2, 1. Calcule a mdia, a mediana e a moda desses dados, interpretando os
resultados obtidos.
3.3 O NASDAQ Composite Index d o preo mdio de aes comuns negociadas no balco, isto
, fora das bolsas de valores. Em 1991, a capitalizao mdia das companhias no ndice NASDAQ
foi de US$ 80 milhes, e a capitalizao mediana foi de US$ 20 milhes. (A capitalizao de uma
companhia o valor total de mercado de suas aes). Explique por que a capitalizao mdia
muito superior capitalizao mediana.
3.4 Considere os dados da Tabela 2.28 do Exerccio 2.6 do Captulo 2. Sabendo que o total de empregados das 80 empresas de 517.462, calcule o nmero mdio e o nmero mediano de empregados
das empresas. Interprete a diferena obtida entre a mdia e a mediana.
3.5 Na Tabela 3.9 temos as variaes mensais do IPCA (ndice de Preos ao Consumidor Amplo)
calculadas pelo IBGE para o ano de 1999. Segundo previses feitas pelo ento secretrio-adjunto de
Poltica Econmica (Folha de So Paulo, 11/12/1999), o IPCA no ano de 1999 deveria ficar abaixo
de 9%. Para que as previses do secretrio se confirmassem, qual deveria ter sido a taxa mxima
do IPCA em dezembro?
77
Fev
1,05
Mar
1,10
Abr
0,56
Mai
0,30
Jun
0,19
Jul
1,09
Ago
0,56
Set
0,31
Out
1,19
Nov
0,95
Fonte: IBGE
3.6 A contagem de bactrias em uma cultura aumentou de 2500 para 9200 em trs dias. Qual o
acrscimo percentual dirio mdio?
3.3
3.3.1
Medidas de disperso
Amplitude
78
XXX
XXX
3.3.2
XXX
XXX
Uma maneira de medir a disperso dos dados seria considerar os tamanhos dos desvios xi x de
cada observao em relao mdia. Note nas figuras acima que quanto mais disperso o conjunto
de dados, maiores esses desvios tendem a ser. Para obter uma medida-resumo, isto , um nico
nmero, poderamos somar esses desvios, ou seja, considerar a seguinte medida:
n
X
(xi x).
D=
(3.16)
i=1
Vamos desenvolver tal frmula, usando as propriedades de somatrio e a definio da mdia amostral.
n
n
n
n
X
X
X
X
D =
(xi x) =
xi
x=
xi nx =
i=1
n
X
i=1
xi n
1
n
i=1
n
X
i=1
i=1
xi = 0.
i=1
Ou seja: essa medida, que representa a soma dos desvios em relao mdia, sempre nula, no
importa o conjunto de dados! Logo, ela no serve para diferenciar quaisquer conjuntos!
Vamos dar uma explicao intuitiva para esse fato, que nos permitir obter correes para tal
frmula. Ao considerarmos as diferenas entre cada valor e o valor mdio, obtemos valores negativos
e positivos, pois, pela definio de mdia, sempre existem valores menores e maiores que a mdia;
esses valores positivos e negativos, ao serem somados, se anulam.
Bom, se o problema est no fato de termos valores positivos e negativos, por que no trabalhar
com o valor absoluto das diferenas? De fato, esse procedimento nos leva definio de desvio mdio
absoluto.
Definio 3.9 O desvio mdio absoluto de um conjunto de dados x1 , x2 , . . . , xn definido por
n
DM A =
1X
|xi x|
n
(3.17)
i=1
79
dos desvios absolutos, um conjunto com um nmero maior de observaes tenderia a apresentar um
resultado maior para a soma devido apenas ao fato de ter mais observaes. Esta situao ilustrada
com os seguintes conjuntos de dados:
Conjunto 1: {1, 3, 5}
13
5
Conjunto 2: 1, , 3, , 5
3
3
Para os dois conjuntos, x = 3 e para o conjunto 1
3
X
i=1
|xi x| = |1 3| + |3 3| + |5 3| = 4
e para o conjunto 2
5
X
i=1
13
+ |5 3| = 20 = 6, 667.
3
+
|3
3|
+
3
|xi x| = |1 3| +
3
3
3
Ento, o somatrio para o segundo conjunto maior mas o desvio absoluto mdio o mesmo para
ambos; de fato, para o primeiro conjunto temos
DM A =
4
3
3.3.3
Considerar o valor absoluto das diferenas (xi x) uma das maneiras de se contornar o fato de que
n
P
(xi x) = 0. No entanto, a funo mdulo tem a desvantagem de ser no diferencivel no ponto
i=1
zero. Outra possibilidade de correo, com propriedades matemticas mais adequadas, considerar
o quadrado das diferenas. Isso nos leva definio de varincia.
Definio 3.10 A varincia2 de um conjunto de dados x1 , x2 , . . . , xn definida por
n
2 =
1X
(xi x)2 .
n
(3.18)
i=1
Suponhamos que os valores xi representem os pesos, em quilogramas, de um conjunto de pessoas. Ento, o valor mdio x representa o peso mdio dessas pessoas e sua unidade tambm
quilogramas, o mesmo acontecendo com as diferenas (xi x). Ao elevarmos essas diferenas ao
quadrado, passamos a ter a varincia medida em quilogramas ao quadrado, uma unidade que no
tem interpretao fsica. Uma soluo tomar a raiz quadrada da varincia.
2
possvel definir a varincia usando o divisor n 1 no lugar de n; essa a diferena entre os conceitos de varincia
populacional e varincia amostral, que ser mais relevante num segundo curso de inferncia estatstica.
80
= Varincia = 2
(3.19)
=
=
1X 2
1 X 2
xi 2xi x + x2 =
xi
n
n
i=1
i=1
n
!
n
1X
1X 2
1
xi 2x
xi + nx2 =
n
n
n
i=1
i=1
ou seja
i=1
i=1
1X
1X 2
2xxi +
x =
n
n
n
1X 2
xi 2x2 + x2
n
i=1
1X 2
xi x2
=
n
2
(3.20)
i=1
Essa forma de reescrever a varincia facilita quando os clculos tm que ser feitos mo ou em
calculadoras menos sofisticadas, pois o nmero de clculos envolvidos menor. Note que ela nos diz
que a varincia a mdia dos quadrados menos o quadrado da mdia.
A ttulo de ilustrao, vamos calcular a varincia das notas das turmas A e B. Como visto na
Seo 3.2.1, a nota mdia da turma A dados xA = 6, 0 e da turma B xB = 5, 4211. Usando a
frmula 3.20 para calcular a varincia, tem-se que
1 2
(5 + 82 + 82 + + 92 + 82 ) (6, 0)2
2A =
42
1674
36 = 3, 8571
=
42
e o desvio padro
A =
Para a turma B temos que
2B
=
=
p
3, 8571 = 1, 964
1 2
2
2
2
2
(6 + 3 + 4 + + 5 + 5 ) (5, 4211)2
38
1224
29, 38781163 = 2, 8227
38
e o desvio padro
B =
2.8227 = 1, 6801.
66
1
(|5 6| + |8 6| + |8 6| + + |9 6| + |8 6|) =
= 1, 5714
42
42
i=1
81
Isto , qualquer que seja o ponto de referncia a, a varincia 2 resulta no menor valor da funo
n
1 P
f (a) =
(xi a)2 . A demonstrao se faz usando os mtodos clssicos de clculo.
n i=1
n
n
P
1 P
(1)2(xi a) = 0
(xi a) = 0
n i=1
i=1
n
n
n
n
P
P
P
1 P
xi
a = 0
xi na = 0 a =
xi = x
n i=1
i=1
i=1
i=1
f 0 (a) = 0
3.3.4
n
2 P
2
(0 1) = (n) = 2 > 0.
n i=1
n
n
n
n
1 P
1 P
1 P
|yi y| =
|(xi + k) (x + k)| =
|xi x| = DM Ax
n i=1
n i=1
n i=1
2y =
1X
(yi y)2 ;
n
i=1
i=1
i=1
1X
1X
=
[(xi + k) (x + k)]2 =
(xi x)2 = 2x .
n
n
y
DM Ay
yi = xi + k
2y
= x
= DM Ax
= 2x
= x
(3.21)
2. Vamos ver o que acontece quando multiplicamos os dados por uma constante no nula. Seja
yi = kxi ; nesse caso, y = kx.
82
(a) Amplitude
Vamos considerar os casos em que k > 0 e k < 0 separadamente. Se k > 0
x(1) = xmin x(2) x(n1) x(n) = xmax
ymin = kxmin
ymax = kxmax
e, portanto,
y = ymax ymin = kxmax kxmin = kx = |k| x
Se k < 0
x(1) = xmin x(2) x(n1) x(n) = xmax
ymax = kxmin
ymin = kxmax
e, portanto,
y = ymax ymin = kxmin kxmax = k (xmax xmin ) = kx = |k| x
(b) Desvio mdio absoluto
DM Ay =
n
n
n
1 P
1 P
1 P
|yi y| =
|kxi kx| =
|k| |xi x| = |k| DM Ax
n i=1
n i=1
n i=1
(c) Varincia
" n
#
n
n
X
X
X
1
1
1
2Y =
(kxi kx)2 =
k2 (xi x)2 = k 2
(xi x)2 = k2 2X .
n
n
n
i=1
i=1
i=1
q
q
q
2Y = k 2 2X = |k| 2X = |k| X .
y = |k| x
DM Ay = |k| DM Ax
yi = kxi
2y = k 2 2x
y = |k| x
DM A 0
2 0
0
(3.22)
3.3.5
83
Coeficiente de variao
Considere a seguinte situao: uma fbrica de ervilhas comercializa seu produto em embalagens de
300 gramas e em embalagens de um quilo. Para efeitos de controle do processo de enchimento das
embalagens, sorteia-se uma amostra de 10 embalagens de cada uma das mquinas de enchimento,
obtendo-se os seguintes resultados:
x = 295g
300g
= 5g
x = 995g
1000g
= 5g
Em qual das duas situaes a variabilidade parece ser maior? Ou seja, em qual das duas mquinas
parece haver um problema mais srio? Note que em ambos os casos h uma disperso de 5g em
torno da mdia mas 5g em 1000g menos preocupante que 5g em 300g.
Como um exemplo mais extremo, um desvio padro de 10 unidades em um conjunto cuja observao tpica 100 muito diferente de um desvio padro de 10 unidades em um conjunto cuja
observao tpica 10000. Surge, assim, a necessidade de uma medida de disperso relativa, que
permita comparar, por exemplo, esses dois conjuntos. Uma dessas medidas o coeficiente de variao.
Definio 3.12 Dado um conjunto de observaes x1 , x2 , . . . , xn , o coeficiente de variao (CV)
definido como a razo entre o desvio padro dos dados e sua mdia, ou seja:
(3.23)
CV = .
x
Note que, como o desvio padro e a mdia so ambos medidos na mesma unidade dos dados
originais, o coeficiente de variao adimensional. Este fato permite comparaes entre conjuntos
de dados diferentes, medidos em unidades diferentes.
No exemplo das latas de ervilha, os coeficientes de variao para as embalagens oriundas das 2
mquinas so
5
100 = 1, 6667
300
5
100 = 0, 5
1000g
CV =
1000
o que confirma a nossa observao anterior: a variabilidade na mquina de 300g relativamente
maior.
300g
3.3.6
CV
Intervalo interquartil
Quando introduzimos o conceito de mediana, chamamos a ateno para o fato de que a mdia
bastante afetada pela presena de valores discrepantes. Como a varincia e o desvio padro
dependem da mdia, eles tambm ficaro afetados. Torna-se necessrio, ento, definir uma medida
de disperso que seja robusta para outliers. Uma dessas medidas o intervalo interquartil.
Definio 3.13 O intervalo interquartil a distncia entre o terceiro e o primeiro quartis, isto
:
(3.24)
IQ = Q3 Q1 .
Pela definio dos quartis, resulta que, entre os valores Q1 e Q3 , sempre temos 50% das observaes. Assim, quanto maior for o intervalo interquartil, mais dispersos sero os dados.
3.3.7
84
Considere os dois conjuntos de dados abaixo, que representam as notas em Estatstica e Clculo dos
alunos de uma determinada turma.
Aluno
Estatstica
Clculo
1
6
7
2
4
8
3
5
9
4
7
10
5
8
6
6
3
7
7
5
8
8
5
9
9
7
5
Estatstica: 2E =
62 + 42 + 52 + 72 + 82 + 32 + 52 + 52 + 72
(5, 56)2 = 2, 2469
9
72 + 82 + 92 + 102 + 62 + 72 + 82 + 92 + 52
(7, 67)2 = 2, 2222
9
Analisando os dois conjuntos de notas, pode-se ver que o aluno 1 tirou 6 em Estatstica e o aluno
5 tirou 6 em Clculo. No entanto, a nota mxima em Estatstica foi 8, enquanto que em Clculo a
nota mxima foi 10. Assim, o 6 em Estatstica vale mais que o 6 em Clculo, no sentido de que
ele est mais prximo da nota mxima. Uma forma de medir tal fato considerar a posio relativa
de cada aluno no grupo. Para isso, o primeiro passo consiste em comparar a nota do aluno com a
mdia do grupo, considerando o seu afastamento da mdia. Se xi a nota do aluno, passamos a
trabalhar com xi x. O segundo passo consiste em padronizar a escala, j que no primeiro conjunto
as notas variam de 3 a 8 e no segundo, de 5 a 10. Essa padronizao da escala se faz dividindo os
desvios pelo desvio padro do conjunto, o que nos d o escore padronizado:
xi x
.
(3.25)
zi =
X
O desvio padro das notas de Estatstica E = 1, 49897 e das notas de Clculo C = 1, 49071.
Na tabela a seguir temos os escores padronizados; podemos ver a que o escore relativo nota 6 em
Estatstica maior que o escore da nota 6 em Clculo, indicando que a primeira vale mais que a
segunda.
Clculo: 2C =
Aluno
Estatstica
Clculo
1
0, 297
0, 447
2
1, 038
0, 224
3
0, 371
0, 894
4
0, 964
1, 565
5
1, 631
1, 118
6
1, 705
0, 447
7
0, 371
0, 224
8
0, 371
0, 894
9
0, 964
1, 789
Usando as propriedades da mdia e do desvio padro pode-se ver que que os escores padronizados
tm mdia zero e desvio padro (e, portanto, varincia) um.
Os coeficientes de variao das notas de Estatstica e Clculo so
1, 49897
= 0, 2696
CVE =
5, 56
1, 49071
= 0, 1944
CVC =
7, 67
indicando uma maior variabilidade relativa nas notas de Estatstica.
3.3.8
85
1. Considere novamente as notas dos 50 alunos, reproduzidas na Tabela 3.10. Calcule o desvio
padro, o desvio mdio absoluto e o intervalo interquartil das notas.
Tabela 3.10: Notas de 50 alunos em um teste mltipla escolha para o Exerccio Resolvido 1 da Seo
3.2
2 3 3 5 6 7 5 4 4 3
2 6 9 10 9 8 9 9 7 5
4 5 6 6 8 7 9 10 2 1
10 5 6 1 7 1 8 6 5 5
4 3 6 7 8 5 2 4 6 8
Fonte: Dados hipotticos
Soluo:
Como visto na seo anterior, a nota mdia x = 5, 62. O desvio mdio absoluto e a varincia
utilizam os desvios de cada observao em torno da mdia. Como temos vrios valores repetidos, podemos usar o mesmo tipo de procedimento para calcular a mdia, resumido na Tabela
3.11:
Tabela 3.11: Notas de 50 alunos para a soluo do Exerccio Resolvido 1 da Seo 3.3
Nota xi Freqncia
Freqncia
Desvio Desvio absoluto Desvio ao quadrado
simples ni acumulada Ni xi x
ni |xi x|
ni (xi x)2
1
3
3
-4,62
13,86
64,0332
4
7
-3,62
14,48
52,4176
2
4
11
-2,62
10,48
27,4576
3
5
16
-1,62
8,10
13,1220
4
5
8
24
-0,62
4,96
3,0752
8
32
0,38
3,04
1,1552
6
5
37
1,38
6,90
9,5220
7
5
42
2,38
11,90
28,3220
8
5
47
3,38
16,90
57,1220
9
3
50
4,38
13,14
57,5532
10
Total
50
103,76
313,7800
O desvio mdio absoluto calculado como
103, 76
3 |1 5, 62| + 4 |2 5, 62| + + 3 |10 5, 62|
=
= 2, 0752
50
50
e a varincia como
Dm =
313, 78
3 (1 5, 62)2 + 4 (2 5, 62)2 + + 3 (10 5, 62)2
=
= 6, 2756
50
50
e, portanto, o desvio padro
p
= 6, 2756 = 2, 505115
2 =
Note que a soma dos desvios em torno da mdia , de fato, zero, ou seja:
P
(xi x) = 3 (1 5, 62) + 4 (2 5, 62) + + 3 (10 5, 62) = 51, 88 + 51, 88 = 0
86
Q3 = x(38) = 8
=
=
109 2
152 + 102 + 22 + 172 + 62 + 82 + 32 + 102 + 22 + 92 + 52 + 92 + 132
=
13
13
3550
1187 13 1092
15431 11881
1187 1092
=
= 21, 005917
=
=
2
2
13
13
13
169
169
e o desvio padro
=
p
21, 005917 = 4, 58322 minutos.
3. Uma pesquisa sobre consumo de gasolina deu os seguintes valores para a quilometragem percorrida por trs marcas de carro (de mesma classe), em cinco testes com um tanque de 40
litros.
Carro A
Carro B
Carro C
400
403
399
397
401
389
401
390
403
389
378
387
403
395
401
Mdia
398,00
393,40
395,80
Desvio padro
4,89898
8,95768
6,52380
Coeficiente de variao
0,01231
0,02277
0,01648
O carro A tem o melhor desempenho, no s porque a mdia maior, mas tambm porque
apresenta a menor variabilidade relativa (CV). O carro B certamente tem o pior desempenho.
3.3.9
3.7 Calcule todas as medidas de disperso para os dados do Exerccio 3.2 do Captulo 3, referentes
ao nmero de aplices vendidas por um corretor de seguros.
87
3.8 O Departamento de Proteo ao Meio Ambiente dos Estados Unidos exige que os fabricantes
de automveis indiquem, para cada modelo de carro, o consumo de combustvel por milha, na cidade
e na rodovia. D-se, na Tabela 3.12, o consumo de combustvel na rodovia (milhas por galo, MPG)
para 30 modelos mdios e grandes de carros do ano de 1994.
(a) Construa o grfico ramo-e-folhas e comente suas principais caractersticas.
(b) Calcule a mediana e o intervalo interquartil IQ.
(c) O governo taxa os bebedores de combustvel (carros com baixa milhagem) de acordo com a
seguinte regra: todos os modelos com consumo abaixo da mediana por mais de 1,5 vezes o intervalo
interquartil sero taxados. Segundo esses dados, quais os modelos taxados?
Tabela 3.12: Consumo de gasolina para 30 modelos para o Exerccio 3.8 do Captulo 3
Modelo
MPG
Modelo
MPG
BMW 740i
23
Hyundai Sonata
27
Infinity Q45
22
Buick Century
31
Lexus LS400
23
Buick LeSabre
28
Lincoln Continental
26
Buick Park Avenue
27
Lincoln Mark VIII
25
Buick Regal
29
Buick Roadmaster
25
Mazda 626
31
Mazda 929
24
Cadillac DeVille
25
Mercedes-Benz S320
24
Chevrolet Caprice
26
Mercedes-Bens S420
20
Chevrolet Lumina
29
Nissan Maxima
26
Chrysler Concorde
28
Rolls-Royce Silver Stone
15
Chrysler New Yorker
26
Dodge Spirit
27
Saab 900
26
Saab 9000
27
Fort LTD
25
Toyota Camry
28
Ford Taurus
29
Volvo 850
26
Ford Thunderbird
26
3.9 Para se estudar o desempenho de 2 companhias corretoras de aes, selecionou-se de cada uma
delas amostras das aes negociadas. Para cada ao selecionada, computou-se a porcentagem de
lucro apresentada durante um perodo fixado de tempo, obtendo-se os dados abaixo. Com base nos
coeficientes de variao, qual companhia teve melhor desempenho?
38
54
55
60
65
Corretora A
45 48 48
54 55 55
55 56 59
60 62 64
70
50
52
55
57
58
Corretora B
50 51 52
53 54 55
55 56 56
57 57 58
59 59 59
61
3.10 Faa uma anlise comparativa dos dados apresentados no ramo-e-folhas da Figura 2.20 do
Cap. 2, utilizando medidas estatsticas apropriadas.
3.4
Momentos
88
m0r
1X r
xr + xr2 + + xrn
=
= 1
xi .
n
n
(3.26)
i=1
Das definies de mdia e varincia dadas em (3.1) e (3.20), seguem as seguintes equivalncias:
x = m01
2 = m02 (m01 )2 .
Muitas vezes interessante considerar os momentos com relao a uma origem que no o zero,
sendo a mdia dos dados uma das origens bastante utilizada.
Definio 3.15 Seja x1 , x2 , . . . , xn um conjunto de n observaes. Ento, o momento de ordem r
centrado na mdia definido como:
n
mr =
1X
(xi x)r .
n
(3.27)
i=1
3.5
Medidas de assimetria
Considere os diagramas de pontos dados nas Figuras 3.6 a 3.8, onde a seta indica a mdia dos
dados. Analisando-os, podemos ver que a principal e mais marcante diferena entre eles diz respeito simetria da distribuio. A segunda distribuio simtrica, enquanto as outras duas so
assimtricas.
Figura 3.6: Assimetria positiva
89
90
No primeiro diagrama a assimetria tal que h maior concentrao na cauda inferior, enquanto
no terceiro, a concentrao maior na cauda superior. Visto de outra maneira, na Figura 3.6, os
dados se estendem para o lado positivo da escala, enquanto na Figura 3.8, os dados se estendem
para o lado negativo da escala. Esses dois fatos caracterizam o primeiro tipo de assimetria como
assimetria positiva e o terceiro como assimetria negativa. Na Figura 3.7 temos uma simetria perfeita.
Esses trs tipos de assimetria podem ser caracterizados pela posio da moda com relao mdia
dos dados. No primeiro tipo, a moda tende a estar esquerda da mdia, enquanto no terceiro tipo,
a moda tende a estar direita de mdia (lembre-se que a mdia o centro de gravidade ou ponto de
equilbrio da distribuio). Para distribuies simtricas, a moda coincide com a mdia. Definem-se,
assim, os trs tipos de assimetria:
se a mdia maior que a moda (x > x ), dizemos que a distribuio assimtrica direita ou
tem assimetria positiva (Figura 3.6);
se a mdia igual moda (x = x ), dizemos que a distribuio simtrica ou tem assimetria
nula (Figura 3.7);
se a mdia menor que a moda (x < x ), dizemos que a distribuio assimtrica esquerda
ou tem assimetria negativa (Figura 3.8).
Essas definies, no entanto, no permitem medir diferentes graus de assimetria. Por exemplo,
considere os histogramas dados nas Figuras 3.6 e 3.9, ambos assimtricos direita.
Figura 3.9: Outra distribuio assimtrica positiva
10
11
12
Uma forma de medir essas diferentes assimetrias seria atravs da distncia x x entre a mdia
e a moda mas como as distribuies podem ter graus de disperso diferentes, importante que
consideremos a diferena acima na mesma escala. Assim, define-se o coeficiente de assimetria de
Pearson como:
x x
e=
;
(3.28)
2, 691358 2
= 0, 43857
1, 576384
91
3, 312057 2
= 0, 54662
2, 400162
E=
n
X
(xi x)3
i=1
(3.29)
Esse coeficiente tem as mesmas caractersticas do coeficiente de Pearson: ser negativo, nulo ou
positivo, dependendo se a distribuio tem assimetria negativa, nula ou positiva.
Uma medida de assimetria robusta pode ser definida em termos das distncias de Q1 e Q3
mediana Q2 . Se essas distncias forem iguais, temos uma distribuio simtrica. Para as distribuies
assimtricas, temos o seguinte:
Q2 Q1 < Q3 Q2 assimetria positiva
(Q3 Q2 ) (Q2 Q1 )
Q3 Q1
Note que aqui o denominador o intervalo interquartil, que tambm uma medida de disperso,
o que torna o coeficiente adimensional. Como antes, e0 > 0, e0 < 0 e e0 = 0 correspondem respectivamente a distribuies assimtricas positivas, assimtricas negaticas e simtricas. Um resultado
interessante pode ser obtido notando-se que Q3 Q1 = (Q3 Q2 ) + (Q2 Q1 ). Quanto mais acentuada for a assimetria positiva de uma distribuio, menor ser Q2 Q1 e e0 tende a +1.Analogamente,
quanto mais acentuada for a assimetria negativa, menor ser Q3 Q2 e e0 tende a 1. Resulta que
1 < e0 < 1.
3.6
J foi visto que a mdia aritmtica simples muito afetada pelos valores discrepantes, ou seja, esses
valores exercem grande influncia na mdia, puxando esse valor em sua direo. Consideremos
um exemplo para relembrar o que foi dito: em um levantamemto sobre as rendas familiares dos
funcionrios de uma empresa, os valores obtidos foram (em u.m.) 7, 9, 10, 15, 25 mas o digitador se
equivocou e digitou 250 no lugar de 25. Vamos ver os efeitos desse erro nas mdias e desvios padres
dos conjuntos de dados. Para os valores corretos temos:
x=
2 =
7 + 9 + 10 + 15 + 25
= 13, 2
5
1 2
7 + 92 + 102 + 152 + 252 13, 22 = 216 174, 24 = 41, 76
5
= 6, 4622
92
1 2
2 =
7 + 92 + 102 + 152 + 2502 13, 22 = 12591 3387, 24 = 9203, 76
5
= 95, 9362
x=
V-se que h um aumento acentuado nos valores das estatsticas acima. Nesse exemplo, o valor
discrepante foi resultado de um erro mas nem sempre assim. Existem valores discrepantes que
refletem algum acontecimento especial. Nessas situaes, importante ter uma estratgia alternativa
de anlise dos dados, que permita compreender melhor o fenmeno em estudo.
Agora vamos apresentar um conjunto de medidas estatsticas (a mediana uma delas), que
chamamos medidas robustas, por no serem afetadas pela presena de poucos valores discrepantes.
3.6.1
Com relao medida de posio, j vimos que a mediana uma medida robusta; ela ser, ento,
usada nesse tipo de anlise. Com relao medida de disperso, ser usado o intervalo interquartil
que, como j visto, definido a partir dos quartis. Como importante tambm saber os valores
extremos, estes tambm sero usados na anlise.
Uma forma de apresentar esses valores atravs do esquema dos cinco nmeros, cuja representao genrica est na Figura 3.10 a seguir.
Figura 3.10: Esquema dos 5 nmeros
Q2
Q1
Mnimo
3.6.2
Q3
Mximo
O boxplot
A partir dessas medidas constri-se tambm um grfico chamado grfico de caixas (em ingls, boxplot) que ilustra os principais aspectos da distribuio, tomando por base essas medidas robustas.
O boxplot um grfico muito til tambm na comparao de distribuies.
O boxplot formado basicamente por um retngulo vertical (ou horizontal). O comprimento do
lado vertical (ou horizontal) dado pelo intervalo interquartil (Figura 3.11(a) , onde estamos trabalhando com um retngulo vertical). O tamanho do outro lado indiferente, sugerindo-se apenas
uma escala razovel. Na altura da mediana, traa-se uma linha, dividindo o retngulo em duas
partes (Figura 3.11(b)).
Note que a j temos representados 50% da distribuio e tambm j temos idia da assimetria
da mesma. Para representar os 25% restantes em cada cauda da distribuio temos que cuidar
primeiro da presena de possveis outliers ou valores discrepantes.
93
Q3
Q3
Q2
Q1
Q1
(a)
(b)
Um dado ser considerado outlier se ele for menor que Q1 1, 5 IQ ou maior que Q3 + 1, 5 IQ
[Figura 3.12(a)]. Para representar o domnio de variao dos dados que no so outliers, traa-se, a
partir do retngulo, uma linha para cima e outra para baixo at o ponto mais remoto que no seja
outlier Figura 3.12(b)]. Esses pontos so chamados juntas.
Figura 3.12: Construo do boxplot - Etapa 2
1,5 IQ
Q3
1,5 IQ
Q3
IQ
Q2
IQ
Q2
Q1
Q1
1,5 IQ
(a)
1,5 IQ
(b)
Quanto aos outliers, eles so representados individualmente por um X (ou algum outro tipo de
carcter), explicitando, de preferncia, os seus valores mas com quebra de escala no eixo (Figura
3.13).
Como exemplo, vamos construir o esquema dos 5 nmeros e o boxplot para os dados apresentados
na Tabela 3.13, onde temos as populaes, em 1000 habitantes, dos estados brasileiros ordenadas
crescentemente.
Como temos 27 estados, a mediana o valor central, correspondente 14a observao, ou seja, a
94
1,5 IQ
Q3
IQ
Q2
Q1
1,5 IQ
X
X
95
Q2 = 3098
Q3 = 7919
O intervalo interquartil :
IQ = 7919 2052 = 5867
Com relao aos outliers, temos que:
Q1 1, 5 IQ = 2052 1.5 5867 = 6748, 5
Q3 + 1, 5 IQ = 7919 + 1.5 5867 = 16720
Logo, no h outliers na cauda inferior mas na cauda superior, os estados de Minas Gerais e So
Paulo so outliers. Nas Figuras 3.14 e 3.15 temos o esquema dos 5 nmeros e o boxplot para esses
dados.
Figura 3.14: Populao das UFs brasileiras (em 1000 hab) - Esquema dos 5 nmeros
3098
1822
7918
325
37033
Figura 3.15: Populao das UFs brasileiras (em 1000 hab) - Boxplot
Box plot - Pop
40000
SP
35000
30000
25000
20000
MG
15000
RJ
10000
5000
0
RR
96
O boxplot muito usado tambm para se fazerem comparaes entre conjuntos de dados. Considere, por exemplo, os dados da Tabela 3.14, correspondentes populao urbana e rural das 27
UFs brasileiras, segundo dados do Censo Demogrfico 2000. Esses dados encontram-se representados na Fig. 3.16. Podemos ver que a populao urbana apresenta maior variabilidade e tambm
uma forte assimetria positiva. H 3 UFs que so discrepantes: So Paulo, Minas Gerias e Rio de
Janeiro.
Tabela 3.14: Populao urbana e rural das UFs brasileiras (em 1000 hab.)
UF
Populao
UF
Populao
Urbana Rural
Urbana Rural
RO
885
496 MG
14672
3220
AC
371
188 ES
2464
635
2108
706 RJ
13822
570
AM
248
78 SP
34593
2440
RR
4121
2072 PR
7787
1778
PA
425
53 SC
4218
1139
AP
860
298 RS
8318
1870
TO
MA
3365
2288 MS
1748
331
1789
1055 MT
1988
517
PI
5316
2116 GO
4397
607
CE
2037
741 DF
1962
90
RN
2448
997
PB
PE
6059
1861
AL
1920
903
SE
1274
512
BA
8773
4298
Fonte: IBGE - Censo Demogrfico 2000
3.7
Nesta seo sero vistas algumas medidas de posio e disperso para dados agrupados em classes.
Embora seja recomendvel calcular tais medidas para um conjunto de dados antes de agrup-los, s
vezes no possvel; por exemplo, os dados originais podem no estar disponveis.
A idia bsica subjacente aos clculos a serem feitos a seguinte: ao agruparmos os dados em
classes, estamos perdendo informao, a individualidade dos valores. Informar apenas que existem
5 valores na classe 2 ` 5 nos obriga a escolher um valor tpico, representante de tal classe. Esse valor
ser sempre o ponto mdio da classe. Ento a informao anterior interpretada como a existncia
de 5 valores iguais a 3,5. Essa a interpretao bsica da tabela de freqncias: todos os valores de
uma classe so considerados iguais ao ponto mdio da classe. A partir dessa interpretao, o clculo
das principais medidas de posio e disperso se faz usando as definies usuais, apenas aplicadas a
um novo conjunto de dados, representado pelos pontos mdios das classes.
Vamos ilustrar todos os conceitos com os dados da Tabela 2.31, que reproduzimos na Tabela
3.15 para facilitar a apresentao. Note que nessa nova verso da tabela acrescentamos a coluna do
ponto mdio da classe, que ser denotado por xi .
97
Figura 3.16: Populao urbana e rural das UFs brasileiras (em 1000 hab)
40000
Urbana
Rural
35000
30000
25000
20000
15000
10000
5000
0
3.7.1
98
Mdia simples
A interpretao da tabela de freqncias nos diz que h 10 observaes iguais a 2,5; 50 observaes
iguais a 4,0; 80 iguais a 6,0; 40 iguais a 8,5 e 20 iguais a 12,5. Ento esses dados podem ser vistos
como o seguinte conjunto de observaes:
2, 5
..
(3.30)
. 10 ocorrncias
2, 5
4, 0
..
. 50 ocorrncias
4, 0
6, 0
..
. 80 ocorrncias
6, 0
8, 5
..
. 40 ocorrncias
8, 5
12, 5
.. 20 ocorrncias
.
12, 5
Para calcular a mdia desse novo conjunto de dados temos que fazer:
10 2, 5 + 50 4, 0 + 80 6, 0 + 40 8, 5 + 20 12, 5
=
200
50
80
40
20
10
2, 5 +
4, 0 +
6, 0 +
8, 5 +
12, 5 =
=
200
200
200
200
200
= 0, 05 2, 5 + 0, 25 4, 0 + 0, 40 6, 0 + 0, 20 8, 5 + 0, 10 12, 5 =
x =
= 6, 475
Note, na penltima linha da equao anterior, que os pontos mdios de cada classe so multiplicados
pela freqncia relativa da classe. Ento, a mdia dos dados agrupados em classes uma mdia
ponderada dos pontos mdios, onde os pesos so definidos pelas freqncias das classes. Em geral
temos:
k
X
x=
fi xi
(3.31)
i=1
Os pesos aparecem exatamente para compensar o fato de que as classes tm nmeros diferentes de
observaes.
3.7.2
Varincia
O clculo da varincia feito de modo anlogo, s que agora temos que considerar os desvios dos
pontos mdios em torno da mdia, ou seja:
1
10 (2, 5 6, 475)2 + 50 (4, 0 6, 475)2 + 80 (6, 0 6, 475)2 +
2
=
=
40 (8, 5 6, 475)2 + 20 (12, 5 6, 475)2
200
99
50
80
10
(2, 5 6, 475)2 +
(4, 0 6, 475)2 +
(6, 0 6, 475)2 +
200
200
200
20
40
(8, 5 6, 475)2 +
(12, 5 6, 475)2
+
200
200
= 0, 05 (2, 5 6, 475)2 + 0, 25 (4, 0 6, 475)2 + 0, 40 (6, 0 6, 475)2 +
= 6, 861875
Novamente, temos uma mdia ponderada dos desvios ao quadrado, com os pesos sendo as freqncias
relativas. Em geral temos:
k
X
2 =
fi (xi x)2 .
(3.32)
i=1
k
X
i=1
k
X
i=1
k
X
i=1
fi (xi x)2 =
fi x2i
k
X
k
X
i=1
fi (x2i 2xi x + x2 ) =
2fi xi x +
i=1
k
X
fi x =
i=1
k
X
fi x2i
i=1
2x
k
X
i=1
fi xi + x
k
X
fi =
i=1
fi x2i 2x x + x2 1
onde usamos a definio da mdia de dados agrupados dada em (3.31) e o fato de as freqncias
relativas somarem 1. Logo, a varincia de dados agrupados dada por:
2
k
X
i=1
fi (xi
x)2
k
X
i=1
fi x2i x2 .
(3.33)
Note que continua valendo que a varincia a mdia dos quadrados menos o quadrado da mdia,
uma vez que o somatrio acima calcula a mdia - ponderada - dos quadrados dos xi .
3.7.3
Mediana
Como j visto, a mediana o valor que deixa 50% das observaes acima e 50% abaixo dela. Estando
os dados agrupados em classes, podemos usar a interpretao da tabela de freqncias para calcular a
mediana. Considere novamente os dados da Tabela 3.15, cuja interpretao dada em (3.30). Como
temos 200 observaes, a mediana o valor que deixa 100 observaes abaixo dela. A centsima
observao ocorre na terceira classe, pois nas duas primeiras temos apenas 60 e nas trs primeiras
temos 140. Logo, a mediana pode ser definida como o ponto mdio da terceira classe. Essa a
definio de mediana bruta, que sempre o ponto mdio da classe onde se completam 50% das
observaes, que, por sua vez, chamada classe mediana.
No entanto, existe um mtodo geomtrico que produz uma estimativa da mediana um pouco
mais refinada. As idias subjacentes a esse mtodo so que a mediana divide ao meio o conjunto de
dados (ou seja, a definio de mediana) e que, no histograma da distribuio, as reas dos retngulos
so proporcionais s freqncias relativas.
100
Consideremos o histograma da Figura 3.17, referente aos dados da Tabela 3.15. Nas duas
primeiras classes temos 30% das observaes e nas trs primeiras classes temos 70%; logo, a mediana
algum ponto da classe mediana 5 ` 7. Para identific-la, devemos notar que na classe mediana
ficam faltando 50% 30% = 20% da distribuio para completar 50%. Ento a rea A1 do retngulo
hachurado deve ser igual a 20%, enquanto o retngulo da classe mediana tem rea Am = 40%.
Usando a frmula que d a rea de um retngulo obtm-se:
A1 = 0, 20 = (Q2 5) h
Am = 0, 40 = (7 5) h
onde h a altura comum dos dois retngulos. Dividindo as duas igualdades termo a a termo
obtm-se:
Q2 5
0, 20
=
Q2 = 6 .
0, 40
2
Figura 3.17: Clculo da mediana de dados agrupados
40%
A1=20%
A2=20%
25%
20%
5%
10%
Q2
15
10
Fant
Fm
I );
101
I) h
Am = Fm Fant = (
I)
50 Fant
Q2
=
fm
m
50 Fant
m
fm
(3.34)
Am = fm = (
Q2 ) h
I) h
Q2
Fm 50
=
fm
S I
Q2 =
Fm 50
m
fm
Q2
m
(3.35)
Talvez essa ltima frmula seja mais fcil de memorizar, em virtude de s envolver dados relativos
classe mediana.
Para o exemplo tratado, esses valores so:
I
= 5
= 7
m = 2
Fant = 30
Fm = 70
fm = 40
resultando, como antes,
Q2 = 5 +
50 30
2=6
40
Q2 = 7
70 50
2 = 6.
40
ou
3.7.4
102
Outras separatrizes
Fp
fp
I );
Trabalhando com o subretngulo superior, como fizemos na mediana, as reas envolvidas so:
A2 = Fp p = (
Ap = fp = (
S) h
I) h
S
S
Fp p
S
=
I
fp
S=
Fp p
p
fp
(3.36)
Vamos aplicar essa frmula para determinar o terceiro quartil dos dados da Tabela 3.15, analisada
no caso da mediana. Nesse caso, p = 75% e a classe 75-separatriz a classe 7 ` 10. Logo,
I
= 7
= 10
75 = 3
F75 = 90%
f75 = 20%
O terceiro quartil, ento, dado por
Q3 = 10
90 75
3 = 7, 75
20
103
40%
25%
15%
20%
5%
10%
3.7.5
Q3
10
15
Moda
Como visto, a moda de um conjunto de dados o valor mais freqente. Para dados agrupados
em classes, uma definio anloga seria a de classe modal, que a classe de maior freqncia. No
exemplo da Tabela 3.15, a classe modal a classe 5 ` 7. Por ser o ponto mdio o representante
da classe, podemos definir a moda dos dados como sendo o ponto mdio da classe modal; essa a
definio de moda bruta. Ento, para o exemplo anterior, a moda bruta x = 6.
Existem, no entanto, alguns mtodos que permitem obter uma estimativa mais refinada da moda.
Todos esses mtodos buscam, na classe modal, um ponto (valor) que seja representativo da moda
dos dados.
Os mtodos que veremos baseiam-se no seguinte raciocnio intuitivo: as classes vizinhas classe
modal puxam a moda, como numa brincadeira de cabo de guerra. Quanto maior a fora da
classe, mais prxima dela estar a moda, ou seja, quanto maior a fora, menor a distncia da
moda classe vizinha. Podemos representar esquematicamente essa situao da seguinte forma:
fora
distncia
Na Figura 3.19 representa-se a idia geral dos mtodos de clculo da moda, com as distncias
sendo x I e S x , onde I e S so, respectivamente, os limites inferior e superior da classe
modal.
Mtodo de King
O mtodo de King baseia-se na influncia das freqncias das classes adjacentes classe modal, ou
seja, a "fora"de cada classe vizinha proporcional sua freqncia; assim, a moda estar mais
prxima da classe com maior freqncia ou, equivalentemente, quanto maior a freqncia, menor
a distncia da moda classe vizinha. Sendo assim, existe uma proporcionalidade inversa entre as
distncias e as freqncias das classes vizinhas. Completando o esquema anterior, temos
fora
freqncia
distncia
104
lI
lS
x*
x =
k
nI
k
nS
nI
S x
(3.37)
nI
S x
= nS
nS x (nI + nS )x = nI
+ nS
nI
nI + nS
nS
nI + nS
(3.38)
onde
nI
nS
Da equao (3.38), podemos ver que a moda uma mdia ponderada dos extremos da classe
modal, I e S , onde os pesos so definidos pelas freqncias das classes vizinhas.
105
Mtodo de Czuber
No mtodo de King, a freqncia da classe modal no tem qualquer influncia; assim, diferentes
freqncias modais poderiam levar mesma moda, desde que as classes vizinhas fossem iguais.
Uma maneira de introduzir a freqncia da classe modal atravs do mtodo de Czuber, em que a
fora de cada classe vizinha definida pela diferena entre a freqncia da classe modal e a sua
prpria freqncia. No entanto, essa diferena inversamente proporcional forada classe, ou
seja, quanto menor a diferena entre as freqncias, maior a fora e vice-versa. O esquema de
proporcionalidades para esse mtodo
fora
diferena
distncia
ou seja, em termos de distncias e medida de fora, temos, agora, uma proporcionaldiade direta, o
que nos leva seguinte equao:
x
S
= k(nm nI )
= k(nm nS )
nm nS
S x
(3.39)
S = nm nS
Desenvolvendo a equao (3.39) temos que
x
I
x
S x S
S
= I
I x ( I + S )x = S
+ I
S
I + S
I
I + S
(3.40)
Como no mtodo de King, a moda de Czuber tambm uma mdia ponderada dos extremos
da classe modal, mas, agora, os pesos so definidos em termos das diferenas entre as freqncias
modal e vizinhas.
Interpretao geomtrica dos mtodos de King e Czuber
Ambos os mtodos de King e Czuber podem ser deduzidos a partir de argumentos de semelhana
de tringulos, conforme ilustrado na Figura 3.20.
Para o mtodo de King, considere o retngulo correspondente classe modal. No lado inferior,
marcamos o ponto A na altura igual freqncia da classe posterior classe modal. No lado
superior, mas na parte inferior, marca-se o ponto B , de modo que sua altura seja igual freqncia
106
107
Ix
Sx
A
B
Sx
so semelhantes. Ento,
I
S
x
nI
S
a mesma igualdade obtida anteriormente.
Para o mtodo de Czuber, traa-se o segmento SU ligando o extremo superior do lado inferior
do retngulo modal ao extremo superior do lado inferior do retngulo da classe posterior classe
modal e o segmento RT ligando o extremo superior do lado superior do retngulo modal ao extremo
superior do lado superior do retngulo da classe anterior classe modal. Obtm-se os tringulos
sombreados RQS e TQU, que so semelhantes. Portanto, vale a seguinte proporcionalidade entre
lados e alturas:
AQ
BQ
=
RS
TU
ou equivalentemente
x I
S x
=
nm nI
nm nS
a mesma proporo obtida anteriormente.
3.7.6
Embora no muito usual, o clculo das mdias geomtrica e harmnica para dados agrupados ser
apresentado principalmente por aspectos didticos, visando sua aplicao no estudo de nmeros
ndices.
Suponhamos, ento, que temos n1 valores iguais a x1 , n2 iguais a x2 , , nk iguais a xk . Os
valores xi podem ou no ser pontos mdios das classes de uma tabela de freqncias; o que importa
a repetio de cada um deles. Seja n = n1 + n2 + + nk o nmero total de observaes.
A mdia geomtrica, por definio, :
q
i=1
n
=
1
1
1
1
1
1
+ +
+
+ +
+ +
+ +
x1
x1 x2
x2
xk
xk
n
=
1
1
1
n1
+ n2
+ + nk
x1
x2
xk
1
1
1
1
n1
n2
nk
+
+ +
n
x1
n
x2
n
xk
108
1
1
= k
1
1
1
P fi
f1
+ f2
+ + fk
x1
x2
xk
i=1 xi
Essa ltima expresso ser muito til quando for apresentado o ndice de Paasche.
Exemplo 3.1 Consideremos novamente o exerccio resolvido 6 da Seo 3.2 em que se considerou
a compra de folhas de cartolina por uma escola a cada trimestre do ano de 2004. Naquele exerccio,
a quantia gasta a cada trimestre era constante. Suponhamos, agora, que essas quantias sejam
variveis, de acordo com o esquema mostrado na Tabela 3.16.
Tabela 3.16: Preo da cartolina para o Exerccio Resolvido 6 da Seo 3.2
Trimestre Preo (R$) Quantia (R$)
jan-mar
0,35
500,00
abr-jun
0,45
500,00
0,50
450,00
jul-set
0,52
400,00
out-dez
Nesse caso, o preo mdio dado por
500 + 500 + 450 + 400
500
500
450
400 =
0,35 + 0,45 + 0,50 + 0,52
1
= 500
1
500
1
1850 0,35 + 1850 0,45 +
= 0, 4395
pm =
1850
450
+ 0,50
+
500
0,35
500
0,45
450
1850
1
0,50
400
1850
400
0,52
1
0,52
que nada mais que a mdia harmnica dos preos ponderada pelas quantias gastas.
3.7.7
1. Para os dados da Tabela 3.17, calcule a mdia, o desvio padro, a mediana, o intervalo interquartil, o oitavo decil e a moda pelos mtodos de King e Czuber.
Tabela 3.17: Exerccio Resolvido 1 da Seo 3.5
Classe ni
[0, 1)
15
26
[1, 2)
21
[2, 3)
10
[3, 4)
8
[4, 5)
Soluo:
Para facilitar a soluo, vamos completar a tabela dada, acrescentando as colunas de freqncias relativas simples e acumuladas e tambm as colunas fi xi e fi x2i necessrias para o clculo
da mdia e do desvio padro. O resultado est na Tabela 3.18.
x=
P
i
P
i
3.18:
xi
0,5
1,5
2,5
3,5
4,5
109
Seo 3.5
fi x2i
0,046875
0,731250
1,640625
1,531250
2,025000
5,975000
A classe mediana a classe [1, 2) , onde acumula 51,25% da freqncia e cuja freqncia simples
32,5%. A regra de trs que define a mediana, baseada no subretngulo inferior, , pois:
0, 5000 0, 1875
0, 32500
0, 3125
=
Q2 = 1 +
Q2 = 1, 961538
Q2 1
21
0, 325
Baseada no subretngulo superior, temos:
21
2 Q2
1
2 Q2
1, 25
=
=
Q2 = 2
Q2 = 1, 961538
51, 25 50, 00
32, 50
1, 25
32, 5
32, 50
Note que podemos fazer os clculos com as freqncias absolutas ou relativas, desde que
trabalhemos com apenas uma delas de cada vez! No entanto, como estamos lidando com as
reas, que so representativas das freqncias relativas, melhor uniformizar os procedimentos,
utilizando sempre as freqncias relativas (multiplicadas por 100 ou no).
O primeiro quartil tambm est na classe [1, 2) . A regra de trs que o define :
32, 50
26, 25
51, 25 25, 00
Q1 = 2
Q1 = 1, 1923077
=
2 Q1
21
32, 50
O terceiro quartil est na classe [2, 3) ; trabalhando com o subretngulo superior, a regra de
trs que o define :
77, 5 75, 0
26, 25
2, 5
Q3 = 3
Q3 = 2, 9047619
=
3 Q3
32
26, 25
Assim, o intervalo interquartil
IQ = 2, 904762 1, 1923076 = 1, 7124543
A classe modal a classe [1, 2) . A moda pelo mtodo de King calculada atravs da seguinte
proporo:
15
2 x
=
15x 15 = 42 21x 36x = 57 x = 1, 583333
x 1
21
26 21
2 x
5
2 x
=
=
22 11x = 5x 5 16x = 27 x = 1, 6875
x 1
26 15
x 1
11
110
2. Considere o histograma da Figura 3.21, onde, no interior dos retngulos, temos anotada a
freqncia absoluta das classes. Calcule a mdia, o desvio padro, a mediana refinada dos
dados, a moda usando os mtodos de King e Czuber e o terceiro e stimo decis.
Figura 3.21: Histograma para o Exerccio Resolvido 2 da Seo 3.5
100
200
300
400
500
600
Soluo:
Considere a Tabela 3.19, construda para auxiliar a soluo do exerccio.
Tabela 3.19: Soluo do Exerccio Resolvido2 da Seo 3.5
Classe
Ponto Freqncia. Freqncia Clculo Clculo da
mdio
simples
acumulada da mdia varincia
xi
ni
fi
Ni
Fi
fi xi
fi x2i
[100, 200)
150
2
0,10
2
0,10
15,0
2250
250
5
0,25
7
0,35
62,5
15625
[200, 300)
[300, 400)
350
6
0,30 13
0,65
105,0
36750
450
4
0,20 17
0,85
90,0
40500
[400, 500)
550
3
0,15 20
1,00
82,5
45375
[500, 600)
Soma
20
1,00
355,0
140500
Como x =
2 =
P
i
A mediana se encontra na terceira classe, [300, 400) , cujas freqncias relativas simples e
acumulada so 0,30 e 0,65 respectivamente. Logo,
400 Q2
400 300
=
Q2 = 350
0, 65 0, 50
0, 30
111
A classe modal a terceira classe, [300, 400) e a moda pelo mtodo de King calculada atravs
da seguinte proporo:
4
x 300
= 5x 1500 = 1600 4x 9x = 3100 x = 344, 444
400 x
5
O mtodo de Czuber resulta na seguinte proporo:
x 300
65
2x 600 = 400 x 3x = 1000 x = 333, 333
=
400 x
64
O terceiro decil est na classe [200, 300), que tem freqncia simples igual a 0,25 e acumulada
igual a 0,35. Logo,
300 D3
300 200
=
D3 = 280
0, 35 0, 30
0, 25
O stimo decil est na classe [400, 500) que tem freqncia simples igual a 0,20 e acumulada
igual a 0,85. Logo,
500 D7
500 400
=
D3 = 425
0, 85 0, 70
0, 20
O clculo desses decis est ilustado na Figura 3.22.
Figura 3.22: Clculo dos decis para o Exerccio Resolvido2 da Seo 3.5
0,35
0,30
200
3.7.8
D3
0,85
0,35-0,30
300
0,70
400
D7
0,85-0,70
500
3.11 A idade mdia dos candidatos a um determinado curso de aperfeioamento oferecido por uma
empresa foi sempre baixa, da ordem de 22 anos. Como esse curso foi preparado para todas as idades,
decidiu-se fazer uma campanha de divulgao. Para verificar se a campanha foi ou no eficiente,
fz-se um levantamento da idade dos candidatos ltima promoo, obtendo-se os resultados da
Tabela 3.20.
(a) Baseando-se nesses resultados, voc diria que a campanha surtiu o efeito desejado?
(b) Um outro pesquisador decidiu usar o seguinte critrio: se a diferena X 22 fosse maior que
2
o valor = , ento a campanha teria sido efetiva. Qual a concluso dele?
n
112
113
3.8
Covarincia e Correlao
Vimos que o diagrama de disperso um instrumento bastante til na anlise de duas variveis
quantitativas, pois exibe possveis relaes entre essas variveis Na Tabelas 3.22 a 3.24 temos trs
conjuntos de dados, cujos diagramas de disperso se encontram nas Figuras 3.23 a 3.25. Nesses
grficos, as linhas pontilhadas esto passando pelo ponto central do conjunto, isto , pelo ponto
(x, y).
Tabela 3.22: Variao diria das Bolsas de Valores - Junho 1993
Dia Variao percentual Dia Variao percentual
Bovespa
BVRJ
Bovespa
BVRJ
1
4,9935
6,9773
17
-4,6706
-6,2360
5,5899
6,1085
18
0,6629
2,6259
2
3,8520
2,4847
21
1,1651
0,8728
3
0,9984
-0,1044
22
3,2213
4,8243
4
2,4872
2,4942
23
-2,7226
-4,7266
7
0,0142
0,1239
24
1,2508
-0,4985
8
9
-1,7535
-0,4221
25
7,1845
6,6798
8,1764
9,5148
28
2,5674
1,2299
11
0,6956
-1,7350
29
-1,3235
-3,0375
14
1,6164
2,2749
30
1,6685
1,2303
15
7,5829
15,4173
16
Fonte: Folha de So Paulo (ndice de fechamento)
Analisando esses grficos , pode-se ver que as relaes entre as variveis envolvidas mudam; na
Figura 3.23 existe uma tendncia crescente entre as variveis, isto , quando o ndice da Bovespa
aumenta, o ndice da BVRJ tambm tende a aumentar. Na Figura 3.24 essa relao se inverte,
ou seja, aumentando a latitude, a temperatura tende a diminuir. J na Figura 3.25 no possvel
estabelecer nenhuma relao entre as variveis, contrariando a superstio de que linhas da vida
longas indicam maior longevidade.
3.8.1
Covarincia
Vamos estudar, agora, uma medida de associao entre variveis, que est relacionada ao tipo mais
simples de associao: a linear. Ento, tal medida ir representar o quanto a nuvem de dados em
um diagrama de disperso se aproxima de uma reta.
114
115
BVRJ
6
4
2
0
-8
-6
-4
-2
10
-2
-4
-6
-8
-10
Bovespa
Figura 3.24: Latitude e temperatura mdia de 15 cidades dos EUA - dados originais
x
70
60
50
40
Temperatura
30
20
10
0
-8
12
22
-10
-20
-30
Latitude
32
42
52
116
Figura 3.25: Diagrama de disperso do comprimento da linha da vida e idade ao morrer - dados
originais
x
16
14
12
10
Linha da vida
0
-60
-40
-20
20
40
60
80
100
120
-2
-4
Idade ao morrer
Para diferenciar as trs situaes ilustradas nos grficos anteriores, um primeiro ponto que devemos observar o fato de as trs nuvens de pontos estarem centradas em pontos diferentes,
representados pela interseo dos eixos em linha pontilhada; note que esse o ponto (x, y). Para
facilitar comparaes, interessante uniformizar a origem, colocando as trs nuvens centradas na
origem (0, 0). Lembrando as propriedades da mdia aritmtica, sabe-se que a transformao xi x
resulta em um conjunto de dados com mdia zero. Ento, para quantificar as diferenas entre os grficos anteriores, o primeiro ponto a considerar a centralizao da nuvem: em vez de trabalharmos
com os dados originais (xi , yi ),vamos trabalhar com os dados transformados (xi x, yi y). Nas Figuras 3.26 a 3.28 esto representados os diagramas de disperso para essas variveis transformadas,
mantendo-se a mesma escala anterior.
Analisando esses trs ltimos grficos, pode-se ver que, para o primeiro conjunto de dados,
onde a tendncia entre as variveis crescente, a maioria dos pontos est no primeiro e terceiro
quadrantes, enquanto que, no segundo grfico, onde a relao decrescente, a maioria dos pontos
est no segundo e quarto quadrantes.
O primeiro e terceiro quadrantes se caracterizam pelo fato de as abscissas e ordenadas terem o
mesmo sinal e, portanto, seu produto positivo; j no segundo e quarto quadrantes, as abscissas
e ordenadas tm sinais opostos e, portanto, seu produto negativo. Ento, para diferenciar esses
grficos, podemos usar uma medida baseada no produto das coordenadas xi x e yi y. Como no
caso da varincia ou desvio mdio absoluto, para considerar todos os pares possveis e descontar o
nmero de observaes, vamos tomar o valor mdio desses produtos.
117
Figura 3.26: Variao diria das Bolsas de Valores - dados centrados na mdia
16
14
12
10
8
6
BVRJ
4
2
0
-8
-6
-4
-2
10
-2
-4
-6
-8
-10
Bovespa
Figura 3.27: Latitude e temperatura mdia de 15 cidades dos EUA - dados centrados na mdia
70
60
50
40
Temperatura
30
20
10
0
-8
12
22
-10
-20
-30
Latitude
32
42
52
118
Figura 3.28: Diagrama de disperso do comprimento da linha da vida e idade ao morrer - dados
centrados na mdia
16
14
12
10
Linha da vida
0
-60
-40
-20
20
40
60
80
100
120
-2
-4
Idade ao morrer
1X
(xi x)(yi y)
n
Cov(X, Y ) =
(3.41)
i=1
n
P
(xi x)(yi y) =
i=1
(xi yi xi y yi x + x y) =
i=1
n
P
xi yi y
i=1
n
P
xi yi nx y
i=1
n
P
=
=
i=1
Logo,
1
Cov(X, Y ) =
n
n
P
i=1
n
P
i=1
xi x
n
P
i=1
yi +
n
P
xy =
i=1
xi yi ynx xny + nx y =
xi yi nx y
n
1 P
xi yi x y
n i=1
(3.42)
119
Da frmula (3.42) podemos ver que a covarincia a mdia dos produtos menos o produto das
mdias. Resulta tambm que a covarincia entre X e X a varincia de X, isto : Cov(X, X) =
Var (X) .
bastante importante salientar a interpretao da covarincia: ela mede o grau de associao
linear entre variveis. Considerando o diagrama de disperso da Figura 3.29, pode-se ver que existe
uma associao quadrtica perfeita entre as variveis; no entanto, a covarincia entre elas nula!
Figura 3.29: Conjunto de dados com covarincia nula
10
0
-4
3.8.2
-3
-2
-1
Coeficiente de correlao
Um dos problemas da covarincia a sua dependncia da escala dos dados, o que faz com que seus
valores possam variar de a +. Note que sua unidade de medida dada pelo produto das
unidades de medida das variveis X e Y envolvidas. Ento, fica difcil comparar situaes como as
ilustradas nos grficos das Figuras 3.30 e 3.31; para a primeira, temos que Cov(X, Y ) = 304, 51 e
para a segunda, Cov(X, Y ) = 609, 02. No entanto, os valores de X no primeiro conjunto variam
de 4, 6706 a 8, 1764 com um desvio padro de 3, 2757 e no segundo conjunto de dados, variam de
9, 3412 a 16, 3528, com um desvio padro de 6, 5514.
Para uniformizar as escalas dos dados, iremos trabalhar com as variveis padronizadas, isto ,
xi x yi y
e
. Como j visto, cada um dos conjuntos de dados assim tansformados tem desvio
x
y
padro igual a 1. Nas Figuras 3.32 a 3.34 temos o diagrama de disperso para os dados transformados, novamente mantendo-se as escalas originais para facilitar a comparao.
120
15
10
0
-15
-10
-5
10
15
20
-5
-10
15
10
0
-15
-10
-5
-5
-10
10
15
20
121
16
14
12
10
8
6
BVRJ
4
2
0
-8
-6
-4
-2
10
-2
-4
-6
-8
-10
Bovespa
Figura 3.33: Latitude e temperatura mdia de 15 cidades dos EUA - dados padronizados
70
60
50
40
Temperatura
30
20
10
0
-8
12
22
-10
-20
-30
Latitude
32
42
52
122
Figura 3.34: Diagrama de disperso da idade ao morrer e comprimento da linha da vida - dados
padronizados
16
14
12
10
Linha da vida
0
-60
-40
-20
20
40
60
80
100
120
-2
-4
Idade ao morrer
n
yi y
Cov(X, Y )
1 X xi x
=
Corr(X, Y ) = (X, Y ) =
n
x
y
x y
(3.43)
i=1
Os dois conjuntos de dados das Figuras 3.30 e 3.31 tm, ambos, o mesmo coeficiente de correlao
igual a 0, 9229.
3.8.3
Note que o coeficiente de correlao adimensional! Alm disso, ele tem uma propriedade bastante
interessante, que a seguinte:
1 (X, Y ) 1
(3.44)
Assim, valores do coeficiente de correlao prximos de 1 indicam uma forte associao linear crescente entre as variveis, enquanto valores prximos de -1 indicam uma forte associao linear decrescente. J valores prximos de zero indicam fraca associao linear (isso no significa que no
exista algum outro tipo de associao; veja o caso da Figura 3.29). A demonstrao da propriedade
(3.44) dada no Anexo 2 no final do captulo.
Vamos ver agora o que acontece com a covarincia e o coeficiente de correlao quando somamos
uma constante aos dados e/ou multiplicamos os dados por uma constante. Vamos mostrar que
Cov(aX + b, cY + d) = ac Cov(X, Y )
e
Corr(aX + b, cY + d) =
ac
Corr(X, Y )
|ac|
(3.45)
(3.46)
123
n
1 P
(ui u)(vi v) =
n i=1
n
1 P
(axi + b ax b)(cyi + d cy d) =
n i=1
n
1 P
(axi ax)(cyi cy) =
n i=1
n
ac P
(xi x)(yi y) =
n i=1
ac Cov(X, Y )
Corr(aX + b, cY + d) = Corr(U, V ) =
=
Logo,
Corr(aX + b, cY + d) =
3.8.4
Corr(X, Y ) se ac > 0
.
Corr(X, Y ) se ac < 0
1. Considere novamente os dados sobre consumo de cigarros e mortes por cncer de pulmo,
reproduzidos a seguir para facilitar a apresentao. Calcule o coeficiente de correlao entre
as variveis.
Tabela 3.25: Consumo
Pas
Islndia
Noruega
Sucia
Dinamarca
Canad
Austrlia
de cigarros
X
Y
240
63
255 100
340 140
375 175
510 160
490 180
Soluo:
Na tabela a seguir temos os detalhes dos clculos a serem feitos no caso de se estar utilizando
124
Soma
yi
63
100
140
175
160
180
250
180
360
470
200
2278
x2i
57600
65025
115600
140625
260100
240100
240100
32400
1265625
1322500
1625625
5365300
yi2
3969
10000
19600
30625
25600
32400
62500
32400
129600
220900
40000
607594
xi yi
15120
25500
47600
65625
81600
88200
122500
32400
405000
540500
255000
1679045
=
=
= 31586, 404959
11
11
11
121
121
A varincia de cada varivel a mdia dos quadrados menos o quadrado da mdia, ou seja:
5365300
Var (X) =
11
607594
Var (Y ) =
11
6430
11
2278
11
17673400
59018300 41344900
=
= 146061, 157025
121
121
1494250
6683534 5189284
=
= 12349, 173554
121
121
y = 111, 126835
31586, 404959
= 0, 743728
382, 179483 111, 1268354
Essa correlao parece indicar que h um aumento no nmero de mortes por cncer do pulmo
medida que aumenta o nmero de cigarros consumidos.
Note como os clculos foram feitos! Trabalhando com o denominador comum, reduz-se o
nmero de divises nos clculos!
2. Calcule o coeficiente de correlao entre o preo de venda e a rea das casas, cujos dados
encontram-se na Tabela 2.49.
Soluo:
Para esses dados, temos:
n = 59
59
P
i=1
xi = 10472
59
P
i=1
yi = 14433
59
P
i=1
xi yi = 2667287
i=1
125
59
P
x2i = 1976810
i=1
yi2 = 3736397
=
= 1789, 013789
59
59
59
3481
= 2002, 01264005
=
Var (X) =
59
59
3481
= 3486, 335536
=
59
59
3481
x = 44, 74385589
y = 59, 04519909
1789, 013789
= 0, 677166849
(X, Y ) =
44, 74385589 59, 04519909
Uma correlao positiva, bastante forte, indica que o preo de venda de uma casa aumenta
medida que aumenta a rea til da casa, conforme ilustrado na Figura 3.35
Figura 3.35: Preo de venda e rea das casas de Boulder para o Exerccio Resolvido2 da Seo 3.8
350
300
250
Preo
200
150
100
50
0
0
50
100
150
200
250
300
350
400
450
rea
3.9
Exerccios Complementares
3.19 Os dados da Tabela 3.26 representam as notas finais de 54 alunos da turma C1 de Estatstica
II no segundo semestre de 1992. Calcule a nota mdia, a nota mediana, a nota modal e o 1o quartil.
3.20 Segundo o critrio de avaliao adotado pelo Departamento de Estatstica, cada aluno ser
submetido a 2 provas, a primeira tendo peso 2 e a segunda tendo peso 3. Para ser aprovado, a
mdia nas 2 provas tem que ser 6. Se um aluno tirar 5,5 na primeira prova, quanto dever tirar na
segunda prova para no ter que fazer Verificao Suplementar? E se as provas tivessem o mesmo
peso?
3.26:
1,6
1,8
2,5
0,0
126
Exerccio 3.19 do Captulo 3
3,5 0,6 5,0 8,2 0,4 0,0
0,0 0,0 0,0 8,1 6,0 7,6
2,0 2,8 0,0 0,0 0,0
6,0 3,0 3,0 0,0 0,0
3.21 As notas de 1000 calouros na prova de Matemtica da UFF esto apresentadas na Tabela
3.27.
(a) Qual a nota mdia? E a varincia?
(b) Calcule o desvio mdio absoluto.
(c) Os alunos com notas superiores a x + 1, 5DP (nota mdia mais 1,5 desvio padro) sero
convidados a participar de um programa especial de Iniciao Cientfica. Quantos alunos sero
convidados?
(d) Os alunos com 30% das notas mais baixas sero obrigados a assistir um curso de Clculo
Zero. Qual a menor nota necessria para o aluno no ter que frequentar esse curso especial?
i=1
127
128
3.26 Muitas vezes a determinao da capacidade de produo instalada para certo tipo de indstria
em certos tipos de localidades um processo difcil e custoso. Como alternativa, pode-se estimar
a capacidade de produo atravs de uma outra varivel de medida mais fcil, que esteja linearmente relacionada com ela. Suponha que foram observados os valores, dados na Tabela 3.31, para
as variveis capacidade de produo instalada, potncia instalada e rea construda. Com base
num critrio estatstico, qual das variveis voc escolheria para estimar a capacidade de produo
instalada?
Tabela 3.31: Dados de capacidade da produo para o Exerccio 3.26 do Captulo 3
X: capacidade de produo instalada (ton)
4 5 4
5
8
9 10 11 12 12
Y: potncia instalada (1000 kW)
1 1 2
3
3
5 5
6
6
6
Z: rea construda (100 m2 )
6 7 10 10 11 9 12 10 11 14
129
(3.47)
Para isso vamos usar a seguinte desigualdade, cuja demonstrao apresentaremos posteriormente:
n
P
sejam p1 , p2 , . . . , pn nmeros reais no negativos tais que
pi = 1. Ento
i=1
n
Q
i=1
xpi i
n
P
pi xi
(3.48)
i=1
n
n
P
P
pi ln xi ln
pi xi
i=1
Fazendo pi =
(3.49)
i=1
1
em (3.48), obtm-se que:
n
n
Q
i=1
ou
xin
n 1
P
xi
i=1 n
xg x
(3.50)
Como o resultado (3.50) vale para quaisquer nmeros reais positivos, vale em particular para
1
yi = , isto :
xi
yg
1
1
(x1 x2 xn ) n
1
1
+ 1 + +
1
1
1 n
y
x1 x2
x1 x2
xn
n
1
1
1
xg xh
n
xg
xh
1
+ 1 ++ 1
x1
x2
1
xn
xn
Demonstrao apresentada aos autores pelo Prof. Hamilton Prado Bueno (Ph.D.) - UFMG
130
p1 x1
pn xn
= ln (p1 + + pn )
+ +
+ pn+1 xn+1
p1 + + pn
p1 + + pn
p1 x1
pn xn
+ +
+ pn+1 ln(xn+1 )
(p1 + + pn ) ln
p1 + + pn
p1 + + pn
Essa desigualdade segue do fato de que o resultado vale para n = 2. Aplicando a hiptese de induo
no primeiro termo do membro direito da desigualdade obtemos que:
ln(p1 x1 + + pn xn + pn+1 xn+1 )
p1 x1
pn xn
+ pn+1 ln(xn+1 )
+ +
(p1 + + pn ) ln
p1 + + pn
p1 + + pn
p1
pn
(p1 + + pn )
ln(x1 ) + +
ln(xn ) + pn+1 ln(xn+1 )
p1 + + pn
p1 + + pn
n+1
P
pi xi
= p1 ln(x1 ) + + pn ln(xn ) + pn+1 ln(xn+1 ) =
i=1
ln[tx1+(1-t)x2]
x1
tx1+(1-t)x2
tln(x1)+(1-t)ln(x2)
x2
131
n
P
ui vi
i=1
i=1
(3.51)
0 (x y)2 = x2 2xy + y 2
Logo,
2xy x2 + y 2
Fazendo
x=
resulta que
2
|ui |
kuk
y=
|vi |
kvk
|ui |2
|ui | |vi |
|vi |2
+
kuk kvk
kuk2 kvk2
u2
|ui vi |
v2
i2 + i2
kuk kvk
kuk
kvk
|ui vi |
n
P
u2i
n
P
vi2
2 i=1
i=1 2 + i=1 2
kuk kvk
kuk
kvk
132
n
P
|ui vi |
kuk2 kvk2
+
=2
2 i=1
kuk kvk
kuk2 kvk2
e, ento:
n
P
i=1
|ui vi |
kuk kvk
ou
n
P
i=1
n
P
P
Como ui vi ni=1 |ui vi | , segue que
i=1
ou equivalentemente,
s
n
sn
n
P
P
P
2
ui vi
u
vi2
i
i=1
Fazendo, em (3.52),
ui =
i=1
xi x
X
(3.52)
i=1
vi =
yi y
Y
obtm-se que
v
n
v n
2 uX
X x x y y u
X
u
u n yi y 2
x
x
t
i
i
i
t
X
Y
X
Y
i=1
ou
i=1
v
v
n
u
n
n
X x x y y u
X
u
u 1 X
t 1
i
i
2
t
(x
x)
(yi y)2
X
Y
2X
2Y
i=1
ou
i=1
i=1
n
s
s
X x x y y
1
1
i
i
n 2X
n 2Y
X
Y
X
2Y
i=1
ou
i=1
yi y
1 X xi x
n
X
Y
i=1
ou finalmente
|Corr(X, Y )| 1
Captulo 4
Captulo 2
Seo 2.2
1. Podemos pensar em uma varivel Bens (qualitativa) com categorias Mquina de lavar, TV,
Geladeira e outra varivel Servios (qualitativa) com categorias Rede de gua, Rede de esgoto,
Telefone. Uma outra forma olhar cada um dos bens e servios como uma varivel qualitativa
com categorias Sim/No. Na verdade, essa a forma da pergunta no questionrio da pesquisa.
Uma outra varivel envolvida a Renda, que neste caso uma varivel qualitativa, j que s
aparecem duas classes.
2. As variveis so: Tipo de estabelecimento (Pblico ou Privado); Nvel de ensino (Pr-escolar,
1o grau, 2o grau, Superior), Nmero de estabelecimentos e Nmero de alunos matriculados.
As duas primeiras so qualitativas, sendo que a segunda tem uma escala ordinal. As duas
ltimas so variveis quantitativas discretas.
Seo 2.3
3. Ver tabela 4.1.
Tabela 4.1: Soluo do Exerccio 3 do Captulo 2
Notas
Freqncia simples
Freqncia acumulada
Absoluta Relativa (%) Absoluta Relativa (%)
1
3
0,06
3
0,06
4
0,08
7
0,14
2
4
0,08
11
0,22
3
5
0,10
16
0,32
4
5
8
0,16
24
0,48
8
0,16
32
0,64
6
5
0,10
37
0,74
7
5
0,10
42
0,84
8
5
0,10
47
0,94
9
10
3
0,06
50
1,00
133
134
4. O menor valor 0,7 e o maior 7472. Vamos arredondar o menor valor para 0, o que resulta
em uma amplitude de 7472. Para trabalhar com comprimentos de classe inteiros, aproximamos
a amplitude para o prximo mltiplo do nmero de classes, o que d 7475. Resulta, ento,
um comprimento de classe igual a 1495. Ver tabela 4.2.
Tabela 4.2: Soluo do Exerccio 4 do Captulo 2
Quantidade de
Freqncia simples
Freqncia acumulada
ovos (milhes) Absoluta Relativa (%) Absoluta Relativa (%)
0 ` 1495
37
74,0
37
74,0
1495 ` 2990
5
10,0
42
84,0
4
8,0
46
92,0
2990 ` 4485
3
6,0
49
98,0
4485 ` 5980
1
2,0
50
100,0
5980 ` 7475
5. Ver Tabela 4.3. Note que, como no sabemos o nmero de famlias, no possvel calcular as
freqncias absolutas.
Tabela 4.3: Soluo do Exerccio 5 do Captulo 2
Consumo de Freqncia simples Freqncia acumulada
Relativa (%)
leite (litros)
Relativa (%)
0`1
20,0
20,0
1`2
50,0
70,0
20,0
90,0
2`3
10,0
100,0
3`5
6. Ver Tabela 4.4. A varivel de estudo nmero de empregados.
Tabela 4.4: Soluo do Exerccio 6 do Captulo 2
Nmero de
Freqncia simples
Freqncia acumulada
empregados
Absoluta Relativa (%) Absoluta Relativa (%)
152 ` 6277
51
63,75
51
63,75
21
26,25
72
90,00
6277 ` 12402
12402 ` 18527
4
5,00
76
95,00
3
3,75
79
98,75
18527 ` 24652
1
1,25
80
100,0
24652 ` 30777
7. Ver Tabela 4.5.
Seo 2.4
8. Para o Exerccio 2.3: Figura 4.1
Para o Exerccio 2.4: Figura 4.2
Para o Exerccio 2.5: Figura 4.3
Para o Exerccio 2.6: Figura 4.4
Para o Exerccio 2.7 : Figura 4.5
135
10
Nmero de alunos
0
1
Nota
10
136
35
30
25
20
15
10
0
0
1495
2990
4485
5980
7475
8970
50
40
30
20
10
0
0
137
50
40
30
20
10
0
152
6277
12402
18527
24652
30777
Reprovado
17%
Aprovado
41%
VS
42%
36902
138
Exerccios Complementares
9. Os valores mnimo e mximo so 75 kg e 95 kg; logo, a amplitude total de 20 kg. Para
grupar os dados em 5 classes, mantendo os limites como nmeros inteiros, temos que mudar
a amplitude para 25 e a o comprimento de cada classe ser de 5 kg. Distribuindo a diferena
nas duas caudas da distribuio, os limites de classe podem ser:
73 ` 78 78 ` 83 83 ` 88 88 ` 93 93 ` 98
ou
72 ` 77 77 ` 82 82 ` 87 87 ` 92 92 ` 97.
10. Os valores mnimo e mximo so 1500 e 3150 u.m.. Logo, a amplitude total de 1650 u.m.,
que um mltiplo exato de 6. Ento, para definir os limites como nmeros inteiros, temos que
1656
= 276.
redefinir a amplitude como 1656 e, nesse caso, o comprimento de cada classe ser
6
Distribuindo igualmente as 6 unidades, os limites de classe so:
1497 ` 1773
2325 ` 2601
1773 ` 2049
2601 ` 2877
2049 ` 2325
2877 ` 3153
11. A tabela e os grficos so apresentados a seguir (Tabela 4.6 e Figuras 4.6 e 4.7).
Tabela 4.6: Soluo do Exerccio 2.11 do Captulo 2
Freqncia Simples Freqncia Acumulada
Notas
Absoluta Relativa Absoluta
Relativa
20 ` 30
1
0,02
1
0,02
30 ` 40
2
0,04
3
0,06
2
0,04
5
0,10
40 ` 50
3
0,06
8
0,16
50 ` 60
12
0,24
20
0,40
60 ` 70
14
0,28
34
0,68
70 ` 80
12
0,24
46
0,92
80 ` 90
90 ` 100
4
0,08
50
1,00
Total
50
1,00
12. Como a amplitude exata mltiplo de 5, vamos trabalhar com o prximo mltiplo, que
116.990. A definio das classes foi feita distribuindo duas unidades extras na cauda inferior
e trs na cauda superior. (Tabela 4.7 e Figuras 4.8 e 4.9)
Tabela 4.7: Soluo do Exerccio 2.12 do Captulo 2
Freqncia Simples Freqncia Acumulada
Notas
Absoluta Relativa Absoluta
Relativa
1813 ` 25211
63
0, 63
63
0, 63
17
0, 17
80
0, 80
25211 ` 48609
9
0, 09
89
0, 89
48609 ` 72007
8
0, 08
97
0, 97
72007 ` 95405
95405 ` 118803
3
0, 03
100
1, 00
Total
100
1, 00
139
Freqncia Simples
11
10
9
8
7
6
5
4
3
2
1
0
10
20
30
40
50
60
70
80
90
100
110
Notas
50
Freq.Acumulada
40
30
20
10
0
0
10
20
30
40
50
60
Notas
70
80
90
100
110
140
Freqncia simples
45
40
35
30
25
20
15
10
5
0
-21585
1813
25211
48609
72007
95405
118803
142201
Horas trabalhadas
100
Freq.Acumulada
80
60
40
20
0
-21585
1813
25211
48609
72007
Horas trabalhadas
95405
118803
142201
141
2
2
4
1
8
1
1
2
5
3
7
7
3
8
9
8
3
13. As folhas sero definidas pelo algarismo da unidade e cada ramo representar uma dezena.
(Figura 4.10).
14. Como as classes so desiguais, temos que trabalhar com o conceito de densidade. A soluo
apresentada considera as seguintes classes: [50,60), [60,70), [70,80), [80,90), [90,100), [100,200),
[200,300), [300,400), [400,500), [500,600) e exclui Belo Horizonte. Aqui estamos usando a
densidade definida em termos da freqncia absoluta (Tabela 4.8 e Figura 4.11).
Populao
50 ` 60
60 ` 70
70 ` 80
80 ` 90
90 ` 100
100 ` 200
200 ` 300
300 ` 400
400 ` 500
500 ` 600
Total
Densidade
Absoluta
0,70
1,20
1,10
0,30
0,40
0,13
0,04
0,02
0,01
0,02
15. O grfico apropriado um grfico tipo linha, que mostra a evoluo dos dados ao longo do
tempo. (Figura 4.12).
142
1,4
1,2
Densidade de frequncia
0,8
0,6
0,4
0,2
0
0
100
200
300
400
500
600
700
Populao
Figura 4.11:
2,0
1,5
1,0
0,5
0,0
17/Nov 24/Nov 01/Dez 08/Dez 15/Dez 22/Dez 29/Dez 05/Jan 12/Jan 19/Jan 26/Jan 02/Fev 09/Fev 16/Fev 23/Fev 01/Mar 08/Mar 15/Mar
-0,5
-1,0
143
16. O grfico apropriado um grfico tipo setores. Havendo disponibilidade, esse grfico deve ser
construdo de modo que as fatias sejam diferenciadas por cores. (Figura 4.13)
Figura 4.13: Soluo do Exerccio 2.16 do Captulo 2
GM
23%
Outros
25%
Chrysler
8%
Ford
17%
Renault
9%
Toyota
9%
VW
9%
17. Um grfico apropriado o tipo barras, onde os sexos so representados em colunas adjacentes.
(Figura 4.14)
18. Novamente, o grfico apropriado o tipo linha para mostrar a evoluo ao longo do tempo;
poderia ser usado tambm um grfico tipo barras. (Figura 4.15)
19. Ver Tabela 4.9 e Figuras 4.16 e .
Tabela 4.9: Soluo do Exerccio 19 do Captulo 2
Nmero de
Freqncia simples
Freqncia acumulada
empregados Absoluta Relativa (%) Absoluta Relativa (%)
110 ` 154
17
28,8135
17
28,8135
33
55,9322
50
84,7457
154 ` 198
198 ` 242
4
6,7797
54
91,5254
1
1,6949
55
93,2203
242 ` 286
4
6,7797
59
100,0000
286 ` 330
20. Ver Figura 4.18. Esse o tipo de grfico utilizado pelas companhias de eletricidade (LIGHT,
AMPLA, etc) nas contas de luz para ilustrar o consumo dos clientes. Poderia ser feito tambm
um grfico de linnhas.
21. Ver Tabela 4.10
O nmero mediano de sinistros 0 e o 90o percentil 1.
144
PA
AP
TO MA
PI
CE
RN
PB
PE
AL
SE
BA MG ES
RJ
SP
PR
SC
RS MS MT GO
DF
Mulheres
400
350
300
250
200
150
100
50
0
Jan/98
Fev/98
Mar/98
Abr/98
Mai/98
Jun/98
Jul/98
Ago/98
Set/98
Out/98
Nov/98
Dez/98
Jan/99
Fev/99
Mar/99
Abr/99
Mai/99
Jun/99
145
Figura 4.16: Ramo e folhas para rea das casas de Boulder, Colorado - Exerccio 2.19 do Captulo 2
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
3
8
9
5
9
6
7
2
1
3
1
2
0
3
8
3
2
4
2
3
2
5
8
7
4
9
9
8
4
9
8
6
6
7
9
0
6
2
2
7
2
9
3
Figura 4.17: Diagrama de disperso para preo e rea das casas de Boulder, Colorado Exerccio Exerccio 2.19 do Captulo 2
350
300
250
Preo
200
150
100
50
0
0
50
100
150
200
250
rea
300
350
400
450
146
16
14
12
10
0
jan/00
fev/00
mar/00
abr/00
mai/00
jun/00
jul/00
ago/00
set/00
out/00
nov/00
dez/00
jan/01
147
22. A varivel independente classe social e o jornal preferido a varivel dependente. Veja Tabela
?? e Figura 4.19. Podemos ver que nas duas classes superiores h uma maior preferncia pelo
jornal A, enquanto na classe Pobre, o jornal preferido o B. Em todas as classes, o jornal C
o menos lido.
Jornal
A
B
C
Total
Classe Social
Mdia Inferior Mdia
37,50
52,38
37,50
30,95
25,00
16,67
100,00 100,00
Pobre
31,25
41,67
27,08
100,00
Alta
61,11
30,56
8,33
100,00
Total
45,00
35,00
20,00
100,00
60
50
40
30
20
10
0
Pobre
Mdia Inferior
Mdia
Alta
23. Aqui queremos ver se h diferena entre republicanbos e deo=mocratas em relao ao aborto.
Podemos pensar no partido como varivel independente e na opinio sobre o aborto como a
varivel dependente.. Veja Tabela ?? e Figura 4.20. Podemos ver que h uma inverso nos
dois partidos entre aqueles que so contra ou a favor.
Opinio sobre
o aborto
A favor
Neutro
Contra
Total
4.2
Captulo 3
Seo 3.2
Partido
Democrata Republicano
63,41
32,38
6,50
4,76
30,08
62,86
100,00
100,00
Total
49,12
5,70
45,18
100,00
148
60
50
40
30
20
10
Democrata
Republicano
A favor
Neutro
Contra
1. A propriedade bsica a ser usada na soluo deste exerccio que a mdia de um conjunto
de dados sempre maior que o valor mnimo. Se o peso mdio 81 kg, o peso total dos 11
jogadores 11 81 = 891. Se um jogador pesa 95 kg, o peso dos 10 outros de 891 95 = 796,
que d um peso mdio de 79,6, ainda maior que o valor mnimo de 72 kg. Se dois pesam 95,
o peso dos 9 restantes de 891 190 = 701, com mdia de 77,89. Continuando com esse
raciocno, chega-se seguinte concluso: se 5 jogadores pesarem 95 kg, o peso mdio dos 6
restantes de 69,33, menor que 72 kg, o que no possvel. Logo, no mximo 4 jogadores
podem pesar 95 kg. O peso mdio dos 7 restantes de 73 kg.
2.
x=
52
2 + 4 + + 2 + 2 + 1
=
= 206 aplices/dia
20
20
Dados ordenados:
0
Q2 =
x(10) + x(11)
2+2
=
= 2 aplices/dia
2
2
x = 2 aplices/dia
3. Como j visto, a mdia sensvel a valores extremos. Certamente h grandes empresas que
fazem parte do ndice NASDAQ, que puxam a mdia para cima. A mediana no alterada
pela presena de valores extremos. Sendo assim, ela bem menor que a mdia.
4.
x(40) + x(41)
517462
= 6468, 275
Q2 =
= 4916
80
2
Novamente a mdia influenciada pelas poucas empresas que tm um grande nmero de
empregados.
x=
149
1, 09
= 1, 006556
1, 08290
3
foi de 100
3, 68 1 = 100 (1, 543889 1) = 54, 39%. Aqui voc tem que usar a mdia
geomtrica porque as novas bactrias tambm se reproduzem; como se tivssemos um regime
de capitalizao composta.
Seo 3.3
7. Na Tabela 4.11 temos os dados necessrios para os clculos.
Nmero de aplices xi
0
1
2
3
4
5
6
184
=
20
2
52
20
=61=5
= 9, 2 6, 76 = 2, 44 = 1, 56205
DM A =
26, 4
= 1, 32
20
x(15) + x(16)
= 26
2
Q1 = x(8) = 25
Q3 = x(15+8) = x(23) = 28
IQ = 2825 = 3
150
5
0 2 3 3 4 4
5 5 5 5 6 6 6 6 6 6 6 7 7 7 7 8 8 8 9 9 9
1 1
9.
xA = 55, 7222
A = 7, 4596
xB = 55, 4286
B = 3, 0949
CVB = 5, 5835
tarde = 1, 61
CVtarde = 33, 8%
xnoite = 5, 6
noite = 1, 84
Seo 3.7
11. Na Tabela 4.12 temos os dados necessrios para os clculos.
Tabela 4.12: Soluo do Exerccio 11 do Captulo 3
Classe xi
fi
fi xi fi x2i
18 ` 20 19 0, 36
6, 84 129, 96
5, 04 105, 84
20 ` 22 21 0, 24
22 ` 26 24 0, 20
4, 80 115, 20
4, 48 125, 44
26 ` 30 28 0, 16
1, 32
43, 56
30 ` 36 33 0, 04
Soma
1, 00
22, 48 520, 00
(a) A mdia 22,48, maior que a mdia obtida anteriormente de 22 anos. Assim, parece ter
havido alguma melhora.
(b) O desvio padro dos dados (note que na tabela j estamos multiplicando pelas freqncias relativas!):
p
520 22, 482 = 3, 8275
2 3, 8275
151
p
4, 025 1, 752 = 0, 9811 litros.
Captulo 3
fi x2i
6587294,03438
22896893,31563
11957538,01250
17478994,13438
9601168,87813
68521888,37500
p
68521888, 37500 6430, 1252 =
14. Classe modal 1 ` 2. As classes vizinhas tm a mesma freqncia; logo, ambos os mtodos
daro a moda igual ao ponto mdio. De fato, pelo mtodo de King temos::
x 1
0, 2
x = 1, 5
=
2x
0, 2
e pelo mtodo de Czuber:
x 1
0, 3
x = 1, 5
=
2x
0, 3
15. A classe modal a primeira classe 152 ` 6277. O mtodo de King, ento, resulta no extremo
superior (no tem ningum puxando pelo lado inferior). De fato:
0
6277 x
=
x = 6277
x 152
21
Pelo mtodo de Czuber temos:
6277 x
51 21
=
30x 4560 = 320127 51x x = 4008, 48
x 152
51 0
16. (a) x = 1020, 8
(b) 2 = 691, 36
= 26, 2937
152
(d) O limite superior da classe D o 20o percentil; o da classe C o 50o percentil, o da classe
B o 80o percentil e, obviamente, o da classe A o valor mximo, 1080.
O 20o percentil est na classe 980 ` 1000, onde acumula 22% da distribuio e a regra de
proporcionalidade que o define :
1000 980
1000 P20
=
P20 = 997, 2
0, 22 0, 20
0, 16
O 50o percentil (mediana) o limite superior da terceira classe (note que nessa classe
temos 50% da distribuio acumulada). O 80o percentil est na classe 1040 ` 1060, onde
acumula 92% da distribuio:
1000 980
1060 P80
=
P80 = 1045
0, 92 0, 80
0, 16
As classes de peso so, pois: [960, 997,5); [997,5; 1020); [1020; 1045); >=1045.
(e) Rao reforada: x 2 = 1020, 8 2 26, 2937 = 968, 2125. Podemos estimar a percentagem de frangos por uma regra de trs anloga utilizada para determinar qualqeur
separatriz. A diferenca que agora temos a separatriz e queremos a freqncia.
980 960
968, 2125 960
=
x = 0, 0246 ou 2, 46%
x
0, 06
Rerpodutores: x + 1, 5 = 1020, 8 + 1, 5 26, 2937 = 1060, 2406.
1080 1060
1080 1060, 2406
=
x = 0, 079 ou 7, 90%
x
0, 08
17. A mediana est na classe 1 ` 2 onde temos 50% da distribuio e 70% da distribuio acumulada. Logo,
21
2 Q2
=
Q2 = 1, 6
0, 7 0, 5
0, 5
O terceiro decil tambm est na classe 1 ` 2. Logo,
2 D3
21
=
D3 = 1, 2
0, 7 0, 3
0, 5
18. A mediana e o primeiro quartil esto ambos na primeira classe, onde temos 63,75% da distribuio.
6277 152
6277 Q1
=
Q1 = 2553, 9608
0, 6375 0, 25
0, 6375
6277 152
6277 Q2
=
Q2 = 4955, 9216
0, 6375 0, 5
0, 6375
12402 6277
12402 Q1
=
Q3 = 8902, 001
0, 90 0, 75
0, 2625
e o intervalo interquartil IQ = 8902, 001 2553, 9608 = 6348, 0402
153
0 + 0 + + 8, 4 + 8, 5
= 2, 411
54
x(27) + x(28)
1, 0 + 1, 2
Q2 =
=
= 1, 1
2
2
x = 0, 0
19. x =
Q1 = x(14) = 0, 0
20. Seja x a nota do aluno na segunda prova. Ento, temos, para a mdia ponderada:
2 5, 5 + 3 x
6 x 6, 33
5
Se as provas tiverem peso igual, temos:
5, 5 + x
6 x 6, 5
2
21. Na Tabela 4.15 temos a verso completa, para facilitar a soluo do exerccio.
Tabela 4.15: Soluo do Exerccio 21 do Captulo 3
Ponto Freqncia simples Freqncia acumulada
mdio Absoluta Relativa Absoluta
Relativa
0`2
1,0
55
0,055
55
0,055
2,5
65
0,065
120
0,120
2`3
3,5
172
0,172
292
0,292
3`4
4,5
254
0,254
546
0,546
4`5
5`6
5,5
278
0,278
824
0,824
6,5
76
0,076
900
0,900
6`7
7,5
75
0,075
975
1,000
7`8
9,0
25
0,025
1000
8 ` 10
(a) x = 0, 055 1 + 0, 065 2, 5 + + 0, 025 9 = 4, 773
2 = 0, 05512 +0, 0652, 52 + +0, 02592 4, 7732 = 2, 794471 = 1, 67166713
(c) x + 1, 5 = 7, 2805007. Logo, os alunos com nota maior que 7,28 tero bolsa de Iniciao
Cientfica. Usando uma regra de trs podemos estimar o nmero de alunos com nota
entre 7,28 e 8 notando que a classe 7 ` 8, de comprimento 1, tem 75 alunos. Logo, a
classe 7 ` 7, 28 ter x alunos onde
x
75
=
x = 0, 28 75 = 21
1
0, 28
154
0,300
0,250
0,200
0,150
0,100
0,050
0,000
0
135079221
27
38639
27
p
2954961, 106 = 1719, 000
(b) Os dados esto ordenados decrescentemente. A mediana, como observao central, pode
ser calculada contando de baixo para cima (do menor para o maior) ou do maior para o
menor; ela a 14a observao em qualquer direo. Q2 = 635.
Tirando a mediana sobram 13 observaes em cada metade. Logo, os outros quartis so
as observaes x(7) e x(14+7) . O terceiro quartil pode, ento, ser calculado como a stima
observao, indo do maior para o menor, e o primeiro quartil a stima observao indo
do menor para o maior.
Q1 = 158
Q3 = 2300
IQ = 2142
Q3 + 1, 5 IQ = 5513
(c) Q1 1, 5 IQ = 3055
No h outliers inferiores mas os dois maiores salrios so outliers superiores.
(d) Dada a presena de outliers, a mediana seria mais adequada para representar o salrio
tpico do time.
24. (a) Ver Tabela 4.16.
(b) x = 830, 48 mg
p
690255, 2 830, 482 = 23, 6256 mg.
x 820
117
118x 96760 = 98280 117x x = 829, 96 mg
=
840 x
118
Classes de
peso (mg)
760 ` 780
780 ` 800
800 ` 820
820 ` 840
840 ` 860
860 ` 880
880 ` 900
Soma
155
Czuber:
Clc. de 2
fi x2i
4743,2
53672,6
154839,6
231470,4
169065,0
59038,2
17426,2
690255,2
168 118
x 820
x = 829, 90 mg
=
840 x
168 117
(d) Classe mediana: 820 ` 840; a temos 0,336 de freqncia e 0,666 da freqncia acumulada.
840 820
840 Q2
=
Q2 = 830, 119 mg
0, 666 0, 5
0, 336
(e) Q1 : 800 ` 820
f = 0, 236
F = 0, 33
820 800
820 Q1
=
Q1 = 813, 220 mg
0, 33 0, 25
0, 236
Q3 : 840 ` 860
f = 0, 234
F = 0, 90
860 840
860 Q3
=
Q3 = 847, 179mg
0, 90 0, 75
0, 234
Outliers inferiores: Q1 1, 5 IQ = 762, 2815
780 760
762, 2815 760
=
x = 0, 0009126 ou 0, 09%
x
0, 008
Outliers superiores: Q3 + 1, 5 IQ = 898, 1175
900 880
900 898, 1175
=
x = 0, 0021 ou 0, 21%
x
0, 022
25. Para os 4 conjuntos, temos que as mdias de X e Y so as mesmas, assim como o coeficiente
de correlao.
X = 9
X
= 3, 16228
Y = 7, 50091
Y = 1, 93711
(X, Y ) = 0, 816
No entanto, os conjuntos so completamente diferentes, conforme ilustrado pelos diagramas
de disperso da Figura 4.23. Ento, uma anlise de dados no deve se basear em apenas uma
medida descritiva; importante que diferentes aspectos sejam analisados, inclusive atravs de
representaes grficas adequadas.
156
C onjunto 1
10
14
12
10
6
8
6
4
2
2
0
0
0
10
15
10
C on junto 3
15
20
C o njun to 4
12
14
10
12
10
0
0
10
15
10
15
26. A idia usar como proxy a varivel mais fortemente associada com a varivel de interesse,
que capacidade da produo instalada. Vamos, ento, calcular os coeficientes de correlao
entre essa varivel e as duas candidatas. Usando os valores dados, temos que:
361 8038
q10
(X, Y ) = q
802
736 10 182
848 80100
q 10
(X, Z) = q
802
736 10 1048
382
10
1002
10
= 0, 9487
= 0, 7071
Logo, a varivel a ser utilizada como proxy dever ser Potncia Instalada, que apresenta maior
correlao com a varivel de interesse.
Bibliografia
[1] Anscombe, F.J. (1974), Graphs in statistical analysis, The American Statistician, 27(1973), pp.
17-21.
[2] Barbetta. P.A. (1994) Estatstica Aplicada s Cincias Sociais, Florianpolis: Editora da UFSC.
[3] Bussab, W.O. e Morettin, P.A. (1987) Estatstica Bsica, So Paulo: Editora Atual .
[4] Dunn, O.J. e Clark, V.A. (1974) Applied Statistics: Analysis of Variance and Regression, Nova
York: John Wiley & Sons.
[5] Legrain, M. e Magain, D. (1992) Estudo de Mercado, So Paulo: Makron Books.
[6] Lopes, P..A.(1999) Probabilidades e Estatstica, Rio de Janeiro: Reichmann & Aonso Editores.
[7] Moore, D.S. e McCabe, G.P. (1998) Introduction to the Practice of Statistics, 3a ed., Nova York:
W.H. Freeman and Company.
[8] Murteira, B.J.F. e Black, G.H.J. (1983) Estatstica Descritiva, Lisboa: McGraw-Hill de Portugal.
[9] Soares, J.F., Farias, A.A. e Cesar, C.C. (1991) Introduo Estatstica, Rio de Janeiro: Guanabara Koogan.
[10] Tukey, J.W. (1977) Exploratory Data Analysis (EDA), Addison-Wesley.
[11] Velleman, P.F. e Hoaglin, D.C. (1981) Applications, Basics and Computing of Exploratory Data
Analysis (ABC of EDA), Massachusetts: Duxbury Press.
157