Você está na página 1de 860

D631e Doane, David P.

Estatística aplicada à administração e economia [recurso


eletrônico] / David P. Doane, Lori E. Seward ; tradução:
Mauro Raposo de Mello, revisão técnica: Elisabeti Kira. – 4.
ed. – Dados eletrônicos. – Porto Alegre : AMGH, 2014.

Editado também como livro impresso em 2014.


ISBN 978-85-8055-394-9

1. Estatística – Administração. 2. Estatística – Economia.


I. Seward, Lori E. II. Título.
CDU 311

Catalogação na publicação: Ana Paula M. Magnus – CRB 10/2052

00_iniciais_ed_eletronica.indd 2 05/08/2014 15:28:18


Oakland University

University of Colorado

Tradução
Mauro Raposo de Mello

Revisão Técnica
Elisabeti Kira
Docente do Departamento de Estatística da Universidade de São Paulo
Doutora em Estatística pela University of North Carolina at Chapel Hill

Versão impressa
desta obra: 2014

AMGH Editora Ltda.


2014

00_iniciais_ed_eletronica.indd 3 05/08/2014 15:28:18


Obra originalmente publicada sob o título
Applied Statistics in Business & Economics, 4th Edition
ISBN 0073521485 / 9780073521480

Original edition copyright © 2013, The McGraw-Hill Global Education Holdings, LLC, New York, New York 10020. All ri-
ghts reserved.

Gerente editorial: Arysinha Jacques Affonso

Colaboraram nesta edição:


Editora: Viviane R. Nepomuceno
Capa: Maurício Pamplona
Editoração: Know-How Editorial

Reservados todos os direitos de publicação, em língua portuguesa, à


AMGH Editora Ltda., uma parceria entre GRUPO A EDUCAÇÃO S.A. e McGRAW-HILL EDUCATION.
Av. Jerônimo de Ornelas, 670 – Santana
90040-340 – Porto Alegre – RS
Fone: (51) 3027-7000 Fax: (51) 3027-7070

É proibida a duplicação ou reprodução deste volume, no todo ou em parte, sob quaisquer formas ou por quaisquer
meios (eletrônico, mecânico, gravação, fotocópia, distribuição na Web e outros), sem permissão expressa da Editora.

Unidade São Paulo


Av. Embaixador Macedo Soares, 10.735 – Pavilhão 5 – Cond. Espace Center
Vila Anastácio – 05095-035 – São Paulo – SP
Fone: (11) 3665-1100 Fax: (11) 3667-1333

SAC 0800 703-3444 – www.grupoa.com.br

IMPRESSO NO BRASIL
PRINTED IN BRAZIL

00_iniciais_ed_eletronica.indd 4 05/08/2014 15:28:18


OS AUTORES
David P. Doane
David P. Doane é Certified Professional Statistician (PStatTM) da American Statistical Associa-
tion (ASA) e professor de métodos quantitativos do Departamento de Decisão e Ciência da Infor-
mação da Oakland University. Ele obteve o grau de bacharel em matemática e economia da Uni-
versity of Kansas e o grau de doutor (PhD) da Purdue University’s Krannert Gradua­te School.
Seus interesses em pesquisa e ensino incluem estatística aplicada, previsão e educação estatística.
Ele é correcipiente de três auxílios do National Science Foundation para desenvolver software para
o ensino de estatística e a criação de uma sala de aula computacional. Membro da American Sta-
tistical Association, foi presidente da ASA de Detroit em 2002, onde permanece na diretoria.
Fornece consultoria ao governo americano, a organizações de saúde e a empresas locais. Publicou
artigos em muitos periódicos acadêmicos e é autor de L ­ earningStats (McGraw-Hill, 2003, 2007)
e coautor de Visual Statistics (McGraw-Hill, 1997, 2001).

Lori E. Seward
Lori E. Seward é professora experiente de Gerenciamento Operacional na Faculdade de Admi-
nistração de Leeds, na University of Colorado, na cidade de Boulder. Ela obteve os graus de
Bacharelado e Mestrado em Ciências ligadas à Engenharia Industrial na Universidade de Virgi-
nia Tech. Após muitos anos de experiência como engenheira de qualidade e confiabilidade técni-
ca em fábricas de papel e na indústria automotiva, obteve o título de PhD da Universidade Virgi-
nia Tech e juntou-se à Universidade de Leeds em 1998. Desde então, tem atuado como
coordenadora do curso de bacharelado em estatística na área da administração e, atualmente,
leciona estatística de base no curso de MBA. Ela também é responsável pela coordenação do
programa de bacharelado em Gerenciamento Operacional e participou do INFORMS Teachers’
Workshop, no encontro anual que aconteceu em 2004. Seu interesse na área de ensino enfoca a
pedagogia de desenvolvimento que utiliza a tecnologia para criar um ambiente de aprendizado
colaborativo em renomados cursos universitários de estatística e no nível MBA. Seu artigo mais
recente, que conta com a participação de David Doane, foi publicado no Journal of Statistics
Education (2011).

DEDICATÓRIA
Para Robert Hamilton Doane-Solomon

David

A todos os meus alunos, que me desafiaram a


tornar a estatística algo relevante em suas vidas.

Lori

00_iniciais_ed_eletronica.indd 5 05/08/2014 15:28:19


APRESENTAÇÃO
“Quantas vezes já ouvimos várias pessoas ou estudantes se referirem
a uma determinada matéria dizendo: ‘Eu nunca vou usar isso na vida
prática’? Primeiramente, eu imaginava a estatística como uma
área ao estilo nerd no campo da matemática. Imaginem o meu
horror quando vi a, R2 e correlações em diversos relatórios
financeiros no meu emprego atual (um cargo de estagiária
numa empresa de consultoria financeira). Foi aí que percebi
que seria melhor tentar entender melhor alguma
coisa sobre o assunto.” — Jill Odette
(uma estudante de estatística elementar)

Há cerca de uma década, nossos alunos costumavam nos perguntar, “Como devo usar a es-
tatística?” Hoje em dia, ouvimos com mais frequência, “Por que devo usar a estatística?”
Estatística Aplicada à Administração e à Economia busca fornecer um significado real para
a aplicação da estatística no nosso universo, utilizando situações empresariais reais e dados
verdadeiros, além de atender às nossas necessidades para sabermos o porquê, em vez de
simplesmente como.
Com mais de 50 anos lecionando estatística, sentimos que temos algo a oferecer para os
nossos alunos. A observação das mudanças no seu comportamento com a virada do século fez
com que nos adaptássemos e buscássemos métodos de aprendizado mais aprimorados. Dessa
forma, escrevemos Estatística Aplicada à Administração e à Economia para atingirmos quatro
objetivos distintos.
Objetivo 1: Comunicar o significado da variação em um contexto empresarial  A variação
existe em todos os lugares no mundo que nos rodeia. As empresas bem-sucedidas sabem como
mensurar isso. Elas também sabem dizer quando a variação deve ser considerada e quando deve ser
ignorada. Vamos mostrar, neste livro, como as empresas realizam essa tarefa.
Objetivo 2: Utilizar situações empresariais reais e dados verdadeiros  Exemplos, estu-
dos de casos concretos e problemas extraídos de pesquisas publicadas ou situações reais são
mencionados sempre que possível. Dados hipotéticos são utilizados quando julgamos ser este o
melhor caminho para ilustrar um conceito. Pode-se ainda perceber as diferenças examinando-se
as notas de rodapé que citam as fontes.
Objetivo 3: Incorporar práticas estatísticas correntes e oferecer aconselhamento práti‑
co  Com a confiança crescente nos computadores, os operadores de estatística modificaram a
maneira pela qual utilizam as ferramentas estatísticas. Apresentaremos as práticas correntes e
explicaremos por que elas são utilizadas dessa maneira. Também pretendemos mencionar quan-
do cada técnica não deve ser utilizada.
Objetivo 4: Fornecer explanações mais aprofundadas sobre o “porquê” e deixar o pro‑
grama de software cuidar do “método”  É fundamental entender a importância da comunica-
ção por meio dos dados. O potencial atual dos computadores facilita muito o resumo e a exposi-
ção das informações. Podemos demonstrar técnicas de software primordiais com mais facilidade
utilizando os programas disponíveis no mercado. Também dedicamos bastante atenção à ideia de
que há riscos na tomada de decisões e estes devem ser quantificados e considerados diretamente
em cada decisão no campo da administração.
Nossa experiência demonstra que os alunos querem ser reconhecidos pelo conhecimento que
trazem à sala de aula. Tentamos honrar esse desejo por meio da escolha de exemplos e exercícios ba-
seados em situações capazes de absorver o vasto conhecimento de mundo dos alunos e o conteúdo
vi

00_iniciais_ed_eletronica.indd 6 05/08/2014 15:28:19


obtido em outras aulas. O foco é pensar nos dados, selecionando ferramentas analíticas apropria-
das, utilizar computadores de forma efetiva e reconhecer as limitações da ciência estatística.

O que é novo nesta quarta edição?


Procuramos ouvir a voz dos alunos e realizamos as alterações almejadas. Buscamos a opinião
das pessoas que frequentemente utilizam esta obra, revisores objetivos numa ampla gama de
graduandos e estudantes de nível superior, além de participantes de grupos específicos no ensino
da estatística com tecnologia. No final deste prefácio, há uma lista detalhada do aprimoramento
realizado em cada capítulo; entretanto, mencionamos aqui alguns deles:
• Instruções passo a passo e diversas telas mais recentes do Excel 2010 para estatística descri-
tiva, histogramas, gráficos de dispersão, gráficos de linha, tendências de ajuste e cálculos de
probabilidade.
• Apêndice J — uma nova ferramenta de referência para as funções do Excel 2010 utilizando
anotações-padrão no próprio livro.
• Exercícios indexados, problemas e conjuntos de questões-teste relacionadas aos tópicos e aos
objetivos de aprendizado.
• Adição de tópicos exigidos pelos revisores, incluindo gráficos de ramo-e-folha, média ponde-
rada, populações finitas e regressão logística.
• Diversos exercícios atualizados e com enfoque no “contexto da administração”.
• Minicasos novos e atualizados voltados à administração e à economia.
• Explicações aprimoradas de tipos de dados, amostragem aleatória, probabilidade e
­d istribuições.
• Discussão aprimorada e recursos visuais para quartis, percentis, valores discrepantes e
box-plots.
• Discussão reorganizada e ampliada sobre erros de amostragem e estimativas a partir de po-
pulações finitas.
• Seções simplificadas e voltadas para os Erros tipos I e II, formulação de hipótese, e regras de
decisão.
• Enfoque maior na ANOVA de um só fator e na interpretação dos resultados da ANOVA.
• Objetivos de aprendizado mais articulados para a regressão com novos recursos visuais, ano-
tações aperfeiçoadas e explicações intuitivas sobre presunção de erros, testes residuais e va-
riáveis categóricas.
• Função CHISQ.TEST do Excel e novos exercícios sobre testes multinomiais e testes GOF
Poisson.
• Metodologia nova do teste de soma de classificação Wilcoxon (teste Mann-Whitney) com
ilustrações das duas versões.
• Material condensado em relação ao gerenciamento de qualidade com maior enfoque na quali-
dade dos serviços e ferramentas.
• Metodologia atualizada da simulação com base nas novas funções Excel e no novo programa
de software @Risk.
vii

00_iniciais_ed_eletronica.indd 7 05/08/2014 15:28:19


• No final de cada capítulo há indicação de materiais que podem ser baixados
da área de Conteudo Online no site do Grupo A (www.grupoa.com.br).
www.grupoa.com.br

Software
O Excel é utilizado ao longo deste livro, pois ele está disponível em toda parte. Alguns cálculos
são apresentados utilizando o MegaStat, um adicional do Excel cujos menus com base nesse
programa e os formatos em planilhas oferecem uma capacidade maior do que as Ferramentas
de Análise de Dados do Excel. Os menus do MINITAB e os exemplos também são incluídos
para apontar as semelhanças e diferenças dessas ferramentas.

Nível matemático
O nível assumido de matemática é o pré-cálculo, embora haja raras referências sobre cálculos que
possam auxiliar o leitor mais preparado. Todas as provas mais simples e derivações são omitidas,
embora presunções essenciais sejam afirmadas de forma clara. O estudante é orientado em relação
ao que fazer quando os requisitos dessas presunções não forem preenchidos. Exemplos trabalhados
são incluídos para cálculos básicos; entretanto, o livro-texto assume que os computadores realiza-
rão os cálculos após o término da aula de estatística. Dessa forma, a interpretação é primordial.
Referências no final dos capítulos e sugestões de sites da web são recomendados para que os leito-
res mais interessados possam aprofundar o seu entendimento.

Exercícios
Exercícios práticos e simples são inseridos em cada seção. Os exercícios no final dos capítulos
tendem a ser mais integrativos, ou incorporados em contextos mais realísticos. Atenção maior
tem sido dispensada à revisão dos exercícios, de modo que eles contenham respostas claras rela-
cionadas com objetivos de aprendizagem específicos. Alguns exercícios sugerem respostas cur-
tas em vez de simplesmente mencionar fórmulas. As respostas dos exercícios listados com núme-
ros ímpares encontram-se no final do livro (todas as respostas estão disponíveis no manual do
professor, em inglês).

LearningStats
Compilação, que pode ser baixada, de planilhas do Excel, documentos em PDF e em PowerPoint,
voltados para cada capítulo. Esse conjunto de informações permite que os alunos explorem os
dados e conceitos no seu próprio ritmo, ignorando o material já conhecido e focando em questões
de seu interesse. O LearningStats inclui explanações sobre tópicos que não são abrangidos em
outros pacotes de software, como elaborar relatórios eficazes, realizar cálculos, ou elaborar grá-
ficos efetivos. Ele também inclui tópicos que não apareceram de forma p­ roeminente no livro-
-texto (por exemplo, o teste-F parcial, o teste Durbin-Watson, o teste de sinal, a simulação boots-
trap e a regressão logística). Os orientadores ou professores podem fazer uso das apresentações
em PowerPoint do LearningStats na sala de aula, mas os alunos também podem utilizá-las por
conta própria. Nenhum orientador é capaz de “cobrir tudo”, mas os estudantes podem ser enco-
rajados a explorar os recursos de dados do LearningStats e/ou suas apresentações, talvez com a
orientação dos professores.
David P. Doane
Lori E. Seward

viii

00_iniciais_ed_eletronica.indd 8 05/08/2014 15:28:19


AGRADECIMENTOS
Os autores gostariam de agradecer algumas das muitas pessoas que os ajudaram na confecção
deste livro, como a menção autorizada de Thomas W. Lauer e Floyd G. Willoughby de um caso,
objeto de estudo. Morgan Elliott, Karl Majeske, Robin McCutcheon, Kevin Murphy, John Sase,
T. J. Wharton e Kenneth M. York, pelos questionários autorizados a serem administrados em
suas aulas. Mark Isken, Ron Tracy e Robert Kushler, que dispenderam generosamente o seu
tempo como consultores estatísticos especializados. Jonathan G. Koomey, do E.O. Lawrence
Berkeley National Laboratory, que nos deu sugestões valiosas em relação à apresentação visual
de dados.
Mark Isken, que nos forneceu consultoria especializada sobre o Excel e sugeriu a menção de
exemplos e casos, objetos de estudo, na área de saúde. John Seeley e Jeff Whitbey, que nos for-
neceram bases de dados de regressão. John Savio e a Michigan State Employees Credit Union,
que nos forneceram dados ATM. O Siena Research Institute, que disponibilizou o resultado de
suas pesquisas de dados. A J.D. Power and Associates, que gentilmente nos forneceu autorização
para utilizar dados qualitativos sobre veículos. O Public Interest Research Group of Michigan
(PIRGIM), que generosamente compartilhou conosco dados do seu campo de pesquisas sobre
preços de medicamentos.
Devemos, ainda, agradecimentos especiais a Aaron Kennedy e Dave Boennighausen, da
Noodles & Company, a Mark Gasta, Anja Wallace e Clifton Pacaro, da Vail Resorts, a Jim
Curtin e Gordon Backman, da Ball Corporation, e a Santosh Lakhan, do Verdeo Group, pelo
fornecimento de sugestões e acesso aos dados para a confecção de minicasos e exemplos. Pela
revisão do material quanto à qualidade, gostaríamos de agradecer Kay Beauregard, diretor
administrativo do William Beaumont Hospital, e Ellen Barnes e Karry Roberts, da Ford Mo-
tor Company.
Devemos dar um crédito de gratidão especial a Steve Schuetz, pela sua orientação e apoio; e
Wanda Zeman, pela coordenação do projeto. Agradecemos Lloyd Jasingh, da Morehead State
University, pela atualização dos slides em PowerPoint; e Mary Beth Camp, da Indiana Universi-
ty, pela elaboração de um excelente Guia de Estudo. Expressamos nosso agradecimento especial
aos revisores da precisão dos dados: Kevin Schaub, da University of Colorado; Paul Kuzdrall e
David Meyer, da Akron University. Agradecemos a todos os revisores por nos fornecerem um
retorno tão valioso, incluindo as críticas, que tornaram este livro melhor, e aqueles que revisaram
diversas minutas da versão manuscrita desta obra. Qualquer erro remanescente ou omissão são
de responsabilidade dos autores. Nossos agradecimentos, também, aos participantes dos nossos
grupos de trabalho e simpósios sobre o ensino de estatística na administração, que nos fornece-
ram tantas ideias didáticas e abordagens esclarecedoras, em especial, relacionadas aos seus alu-
nos e seus cursos. Esperamos que o leitor possa identificar essas abordagens e ideias tanto no
livro quanto nos recursos didáticos agregados.

Sung Ahn, Washington State University Joseph Coleman, Wright State University — Dayton
Mostafa Aminzadeh, Towson University Robert Cutshall, Texas A&M University — Corpus Christi
Scott Bailey, Troy University Terry Dalton, University of Denver
Hope Baker, Kennesaw State University Douglas Dotterweich, East Tennessee State University
Saad Taha Bakir, Alabama State University Michael Easley, University of New Orleans
Katherine Broneck, Pima Community College — Downtown Mark Farber, University of Miami
Mary Beth Camp, Indiana University — Bloomington Soheila Kahkashan Fardanesh, Towson University
Alan Cannon, University of Texas — Arlington Mark Ferris, St. Louis University
Deborah Carter, Coahoma Community College Stergios Fotopoulos, Washington State University
Michael Cervetti, University of Memphis Vickie Fry, Westmoreland County Community College
Alan Chesen, Wright State University Joseph Fuhr, Widener University
Chia-Shin Chung, Cleveland State University Bob Gillette, University of Kentucky
ix

00_iniciais_ed_eletronica.indd 9 05/08/2014 15:28:19


Don Gren, Salt Lake City Community College Eddy Patuwo, Kent State University
Clifford Hawley, West Virginia University John Pickett, University of Arkansas — Little Rock
Natalie Hegwood, Sam Houston State University James Pokorski, Virginia Polytechnic Institute & State
Alam M. Imam, University of Northern Iowa University
Marc Isaacson, Augsburg College Stephan Pollard, California State University — Los Angeles
Kishen Iyengar, University of Colorado — Boulder Tammy Prater, Alabama State University
Christopher Johnson, University of North Florida Michael Racer, University of Memphis
Jerzy Kamburowski, University of Toledo Azar Raiszadeh, Chattanooga State Community College
Bob Kitahara, Troy University Sue Schou, Idaho State University
Drew Koch, James Madison University Sankara N. Sethuraman, Augusta State University
Bob Lynch, University of Northern Colorado Thomas R. Sexton, Stony Brook University
Bradley McDonald, Northern Illinois University Murali Shanker, Kent State University
Richard McGowan, Boston College Gary W. Smith, Florida State University
Larry McRae, Appalachian State University Courtenay Stone, Ball State University
Kelly McKillop, University of Massachusetts Paul Swanson, Illinois Central College
Robert Mee, University of Tennessee — Knoxville Deborah Tesch, Xavier University
John Miller, Sam Houston State University Dharma S. Thiruvaiyaru, Augusta State University
James E. Moran, Jr., Oregon State University Jesus M. Valencia, Slippery Rock University
Geraldine Moultine, Northwood University Rachel Webb, Portland State University
Joshua Naranjo, Western Michigan University Simone A. Wegge, City University of New York
Anthony Narsing, Macon State College Alan Wheeler, University of Missouri — St. Louis
Pin Ng, Northern Arizona University Blake Whitten, University of Iowa
Thomas Obremski, University of Denver Charles Wilf, Duquesne University
Mohammad Reza Oskoorouchi, California State Janet Wolcutt, Wichita State University
University — San Marcos Ye Zhang, Indiana University — Purdue University
Mahour Mellat Parast, University of North Carolina — Indianapolis
Pembroke Mustafa R. Yilmaz, Northeastern University

00_iniciais_ed_eletronica.indd 10 05/08/2014 15:28:19


SUMÁRIO
CAPÍTULO 1 4.3 Medidas de dispersão.................................... 127
4.4 Dados padronizados...................................... 134
Visão Geral da Estatística........................ 2
4.5 Percentis, quartis e box-plots........................ 139
1.1 O que é estatística?........................................ 3
4.6 Correlação e covariância............................... 147
1.2 Por que estudar estatística?........................... 5
4.7 Dados agrupados........................................... 152
1.3 Usos da estatística......................................... 6
4.8 Assimetria e curtose...................................... 154
1.4 Desafios da estatística................................... 9
Resumo.......................................................... 157
1.5 Pensamento crítico........................................ 14
Revisão.......................................................... 158
Resumo.......................................................... 17
Revisão.......................................................... 17
CAPÍTULO 5
Probabilidade............................................ 170
CAPÍTULO 2
5.1 Experimentos aleatórios................................ 171
Coleta de Dados......................................... 22 5.2 Probabilidade................................................. 173
2.1 Definições...................................................... 23 5.3 Regras da probabilidade................................ 176
2.2 Escala de medida........................................... 27 5.4 Eventos independentes.................................. 182
2.3 Conceitos de amostragem.............................. 31 5.5 Tabelas de contingência................................. 186
2.4 Métodos de amostragem................................ 35 5.6 Diagramas em árvore.................................... 194
2.5 Fontes de dados............................................. 43 5.7 Teorema de Bayes.......................................... 196
2.6 Pesquisas investigativas................................ 45 5.8 Regras de contagem....................................... 202
Resumo.......................................................... 49 Resumo.......................................................... 205
Revisão.......................................................... 50 Revisão.......................................................... 207

CAPÍTULO 3 CAPÍTULO 6
Descrição Visual dos Dados...................... 56 Distribuições Discretas............................. 212
3.1 Gráfico ramo-e-folhas e gráfico de pontos 6.1 Distribuições discretas.................................. 213
(dot-plot)....................................................... 57 6.2 Distribuição uniforme................................... 220
3.2 Distribuição de frequência e histogramas..... 63 6.3 Distribuição de Bernoulli.............................. 222
3.3 Gráficos em Excel......................................... 73 6.4 Distribuição binomial.................................... 223
3.4 Gráficos de linhas.......................................... 75 6.5 Distribuição de Poisson................................. 229
3.5 Gráficos de barras......................................... 80 6.6 Distribuição hipergeométrica........................ 235
3.6 Gráficos circulares ou gráficos pizza........... 83 6.7 Distribuição geométrica (opcional)............... 240
3.7 Gráficos de dispersão.................................... 86 6.8 Transformações de variáveis aleatórias
3.8 Tabelas........................................................... 91 (opcional)...................................................... 241
3.9 Gráficos traiçoeiros....................................... 95 Resumo.......................................................... 244
Resumo.......................................................... 98 Revisão.......................................................... 246
Revisão.......................................................... 99
CAPÍTULO 7
CAPÍTULO 4 Distribuições de Probabilidade Contínuas. 252
Estatística Descritiva................................ 110 7.1 Variável aleatória contínua............................ 253
4.1 Descrição numérica....................................... 111 7.2 Distribuição uniforme contínua.................... 255
4.2 Medidas de tendência central........................ 112 7.3 Distribuição normal....................................... 257

xi

00_iniciais_ed_eletronica.indd 11 05/08/2014 15:28:20


xii   Sumário

7.4 Distribuição normal padrão.......................... 260 10.2 Comparação de duas médias: amostras
7.5 Aproximação normal..................................... 272 independentes............................................... 389
7.6 Distribuição exponencial............................... 275 10.3 Intervalo de confiança para a diferença
de duas médias, m1 – m2................................ 398
7.7 Distribuição triangular (opcional)................. 280
10.4 Comparação de duas médias: amostras
Resumo.......................................................... 282
pareadas........................................................ 400
Revisão.......................................................... 284
10.5 Comparação de duas proporções................. 406
10.6 Intervalo de confiança para a diferença de
CAPÍTULO 8 duas proporções, p1 – p2............................... 414
Distribuições Amostrais e Estimação.......... 290 10.7 Comparação de duas variâncias................... 415
8.1 Variação amostral.......................................... 291 Resumo.......................................................... 423
8.2 Estimadores e erros amostrais....................... 292 Revisão.......................................................... 424
8.3 Média amostral e o Teorema Limite Central.... 295
8.4 Intervalo de confiança para uma média (m) CAPÍTULO 11
com s conhecido.......................................... 302 Análise de Variância...................................... 434
8.5 Intervalo de confiança para uma média (m) 11.1 Visão geral da ANOVA................................ 435
com s desconhecido..................................... 306
11.2 ANOVA com um fator (modelo
8.6 Intervalo de confiança para uma completamente aleatorizado)........................ 437
proporção (p)................................................ 313
11.3 Comparações múltiplas................................ 446
8.7 Estimação em populações finitas.................. 321
11.4 Testes de homogeneidade das variâncias..... 448
8.8 Determinação do tamanho da amostra
para uma média............................................ 322 11.5 ANOVA com dois fatores sem réplicas
(modelo de blocos aleatorizados)................. 452
8.9 Determinação do tamanho da amostra
para uma proporção...................................... 325 11.6 ANOVA com dois fatores com réplica
(modelo fatorial completo)........................... 460
8.10 Intervalo de confiança para uma variância
11.7 Modelos ANOVA com mais fatores............. 469
populacional, s 2 (opcional).......................... 327
Resumo.......................................................... 473
Resumo.......................................................... 329
Revisão.......................................................... 473
Revisão.......................................................... 331

CAPÍTULO 9 CAPÍTULO 12
Testes de Hipóteses Baseados em Regressão Linear Simples............................. 484
Uma Amostra.................................................. 336 12.1 Recursos visuais e análise de correlação..... 485
9.1 Lógica do teste de hipótese........................... 337 12.2 Regressão linear simples.............................. 491
9.2 Teste de hipóteses estatísticas....................... 343 12.3 Terminologia da regressão........................... 493
12.4 Fórmulas dos mínimos quadrados ordinários. 496
9.3 Teste de uma média: variância populacional
conhecida...................................................... 347 12.5 Testes de significância.................................. 502
9.4 Teste de uma média: variância populacional 12.6 Análise de variância: ajuste geral................ 508
desconhecida................................................ 354 12.7 Intervalos de confiança e de predição para Y. 513
9.5 Teste de uma proporção................................. 360 12.8 Análise de resíduos....................................... 515
9.6 Curvas poder e curvas CO (opcional)........... 369 12.9 Observações incomuns................................. 521
9.7 Teste para uma variância (opcional).............. 376 12.10 Outros problemas de regressão (opcional).... 525
Resumo.......................................................... 379 Resumo.......................................................... 529
Revisão.......................................................... 380 Revisão.......................................................... 531

CAPÍTULO 10 CAPÍTULO 13
Testes de Hipóteses Baseados em Regressão Múltipla........................................ 542
Duas Amostras................................................ 386 13.1 Regressão múltipla....................................... 543
10.1 Testes baseados em duas amostras............... 387 13.2 Avaliando o ajuste geral............................... 549

00_iniciais_ed_eletronica.indd 12 05/08/2014 15:28:20


Sumário   xiii

13.3 Significância do preditor.............................. 552 16.6 Teste de Friedman para amostras


13.4 Intervalos de confiança para Y..................... 556 relacionadas.................................................. 700
13.5 Preditores binários........................................ 559 16.7 Teste de correlação de postos de Spearman. 702
13.6 Testes de não linearidade e interação.......... 567 Resumo.......................................................... 706
13.7 Multicolinearidade....................................... 570 Revisão.......................................................... 707
13.8 Violações das suposições............................. 574
13.9 Outros tópicos de regressão......................... 581 CAPÍTULO 17
Resumo.......................................................... 583 Gestão da Qualidade..................................... 714
Revisão.......................................................... 585
17.1 Qualidade e variação.................................... 715
17.2 Pioneiros na gestão de qualidade ................ 717
CAPÍTULO 14 17.3 Aprimoramento da qualidade....................... 719
Análise de Séries Temporais......................... 596 17.4 Gráficos de controle: visão geral................. 722
14.1 Dados de séries temporais............................ 597 17.5 Gráficos de controle para uma média.......... 723
14.2 Previsão de tendência................................... 601 17.6 Gráficos de controle para uma amplitude.... 731
14.3 Avaliação do ajuste....................................... 613 17.7 Outros gráficos de controle.......................... 733
14.4 Médias móveis.............................................. 615 17.8 Padrões em gráficos de controle.................. 737
14.5 Suavização exponencial............................... 617 17.9 Capacidade do processo............................... 739
14.6 Sazonalidade................................................. 623 17.10.Tópicos adicionais em qualidade (opcional) 742
14.7 Números índice............................................ 628 Resumo.......................................................... 746
14.8 Previsão: considerações finais..................... 630 Revisão.......................................................... 747
Resumo.......................................................... 631
Revisão.......................................................... 632
CAPÍTULO 18
Simulação
CAPÍTULO 15
(Conteúdo online no site do Grupo A)
Testes Qui­‑Quadrado.................................... 642
15.1 Teste qui-quadrado para independência...... 643
15.2 Testes qui-quadrado para a qualidade do APÊNDICES
ajuste (aderência).......................................... 654 A Probabilidades Binominais......................... 756
15.3 Teste de aderência da uniforme.................... 657 B Probabilidades Poisson Exatas.................... 758
15.4 Teste de aderência de ajuste da Poisson....... 661
C-1 Áreas da Normal Padrão............................. 761
15.5 Teste de aderência qui-quadrado da normal. 666
C-2 Distribuição Acumulada da Normal Padrão. 762
15.6 Testes baseados na função de distribuição
empírica (opcional)....................................... 671 D Valores Críticos da t de Student.................. 764
Resumo.......................................................... 672 E Valores Críticos da Distribuição
Revisão.......................................................... 673 Qui-Quadrado............................................. 765
F Valores Críticos de F0,10............................... 766
CAPÍTULO 16 G Soluções dos Exercícios Ímpares................ 774
Testes Não Paramétricos............................... 684 H Respostas dos Exercícios de Revisão.......... 802
16.1 Por que usar testes não paramétricos?......... 685 I Elaborando e Apresentando Relatórios....... 804
16.2 Teste de subsequências para uma amostra... 686 J Funções Estatísticas do Excel..................... 809
16.3 Teste de postos sinalizados de Wilcoxon..... 689
16.4 Teste da soma de postos de Wilcoxon/
CRÉDITOS DAS FOTOS.................. 812
postos de Mann-Whitney............................. 692
16.5 Teste de Kruskal-Wallis para amostras
independentes............................................... 695 ÍNDICE........................................... 813

00_iniciais_ed_eletronica.indd 13 05/08/2014 15:28:20


Esta página foi deixada em branco intencionalmente.

00_iniciais_ed_eletronica.indd 14 05/08/2014 15:28:20


01_capitulo_01.indd 1 05/08/2014 12:10:55
CAPÍTULO 1

VISÃO GERAL
DA ESTATÍSTICA

Conteúdo

1.1 O que é estatística?


1.2 Por que estudar estatística?
1.3 Usos da estatística
1.4 Desafios da estatística
1.5 Pensamento crítico

Objetivos de aprendizagem

OA 1-1 Definir estatística e explicar algumas de suas aplicações nos negócios.


OA 1-2 Enumerar motivos pelos quais um aluno de administração deve
estudar estatística.
OA 1-3 Enunciar desafios comuns encontrados na análise de dados.
OA 1-4 Listar e explicar as armadilhas comuns em estatística.

01_capitulo_01.indd 2 05/08/2014 12:10:55


Introdução
Gerenciadores podem tomar medidas adequadas para aprimorar os seus negócios quando estão bem informados
em relação às operações empresariais internas (por exemplo: vendas, produção, níveis de estoque, tempo de co-
mercialização, reivindicações de garantia) e à posição competitiva, como: participação de mercado, satisfação do
cliente e vendas replicadas. Os gerenciadores necessitam de informações confiáveis e oportunas para que possam
analisar as tendências e se adaptar às condições de mudanças no mercado. Dados mais precisos podem ainda
auxiliar uma empresa a decidir quais tipos de estratégia de informação devem ser compartilhados com seus sócios
empresariais para aprimorar a sua rede de fornecimento. A Estatística proporciona uma tomada de decisão com
base em dados precisos e reduz a possibilidade dos executivos de confiarem em meras suposições.
A Estatística é um componente essencial no campo da inteligência empresarial, que abrange todas as tecno-
logias para coleta, manutenção, acesso e análise de dados nas operações da empresa, a fim de aprimorar as de-
cisões empresariais. A Estatística contribui para a conversão de dados “brutos” não estruturados (por exemplo,
dados de pontos de venda ou perfil de consumo do cliente) em informações úteis, por meio do processo analítico
online (PAO) e da data mining, termos que podem ser encontrados em outras matérias (ou disciplinas) do seu
curso. A análise estatística dá enfoque a problemas essenciais e direciona a discussão para as questões e não para
pessoas ou disputas de competência. Enquanto poderosos softwares com base de dados e sistemas de consulta
constituem o mecanismo principal para o gerenciamento do centro de dados de uma empresa, planilhas em Excel
relativamente pequenas são, frequentemente, o foco de discussão entre executivos, no que diz respeito a decisões
finais. É por essa razão que o sistema Excel é proeminentemente utilizado neste livro.
Em suma, as empresas têm utilizado de maneira crescente a análise de negócios para o suporte da tomada de
decisões, a fim de detectar anomalias que exigem medidas táticas, ou com a finalidade de adquirir percepção es-
tratégica alinhando procedimentos empresariais com objetivos empresariais. Respostas a questões como “Qual é a
probabilidade da ocorrência de um determinado evento?” ou “O que aconteceria se essa tendência continuasse?”
nos conduzirão a ações pertinentes. Os negócios que combinam o julgamento gerencial com a análise estatística
são os mais bem-sucedidos.

Estatística é a ciência que coleta, organiza, analisa, interpreta e apresenta dados. Alguns espe- 1.1
cialistas preferem chamá-la ciência dos dados, uma trilogia de tarefas envolvendo modelagem de
dados, análise e tomada de decisão. Seguem algumas definições alternativas. O QUE É
Estatística ESTATÍSTICA?
“Gosto de pensar que a estatística é a ciência da aprendizagem a partir dos dados...”
  Jon Kettenring, presidente da American Statistical Association (ASA), 1997. OA 1-1
Definir estatística e explicar
“A matemática de coletar, organizar e interpretar dados numéricos, particularmente a análise de cara- algumas de suas aplicações
terísticas da população por meio da inferência da amostra.” nos negócios.
  American Heritage Dictionary®*.

*  American Heritage Dictionary of the English Language. 4. ed. Direitos autorais reservados em 2000 por Houghton
Mifflin Company. Utilizado com permissão. 3

01_capitulo_01.indd 3 05/08/2014 12:10:56


4    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

“Análise estatística envolve coletar informação, avaliá-la, concluir e orientar quais informações são
confiáveis e quais previsões podem ter credibilidade.”
  American Statistical Association (ASA)
Em contraste, uma estatística é uma medida, apresentada como número, usada para resumir
um conjunto de dados amostrais. Muitas medidas diferentes podem ser utilizadas para resumir
conjuntos de dados. Você aprenderá, no decorrer deste livro-texto, que podem existir medidas
diferentes para conjuntos de dados diferentes e também para tipos diferentes de questões a res-
peito de um mesmo conjunto de dados. Considere, por exemplo, um conjunto de dados amostrais
que consista nas estaturas dos estudantes de uma universidade. Pode haver muitos usos para esse
conjunto de dados. Talvez o fabricante de becas queira saber quão compridas deverão ser as pe-

Minicaso 1.1
Vail Resorts
O que uma descida espetacular numa pista de esqui nas monta-
nhas, um dia maravilhoso jogando golfe, uma boa noite de sono
e abundância de água potável para vida selvagem têm em comum
com a estatística? A Vail Resorts Inc. tem possibilitado essas ex-
periências com sucesso por meio da análise de dados rigorosa.
Como esta empresa pode crescer? Uma das maneiras seria
aumentar a receita do ingresso ao teleférico. Antes da alta tem-
porada de esqui, no período entre 2008 e 2009, a diretoria da
Vail Resorts solicitou a sua equipe de marketing uma maneira
de aumentar o número de visitas anuais entre seus hóspedes.
Pesquisas junto aos clientes indicaram que uma maior flexibi-
lidade em torno do planejamento das férias aumentaria a pos-
sibilidade para que os hóspedes visitassem o local mais de uma
vez por ano. Uma nova espécie de ingresso que permitisse a
entrada por vários dias para a prática de esqui durante toda a www.vailresorts.com
estação foi uma das possíveis soluções. A Vail Resorts, ofere-
ceu o “Passaporte Colorado” para atrair hóspedes de todo o estado. Entretanto, ele não se encontrava disponível aos visitantes
de outros estados. A empresa precisava de respostas a perguntas como: Quais resorts deveriam ser incluídos no passaporte? O
passaporte seria válido por quantos dias para a prática de esqui? Haveria datas indisponíveis ou não? Qual seria o preço atraen-
te para o passaporte?
Foram feitas quatro pesquisas de mercado com amostras aleatórias tanto de atuais hóspedes como de hóspedes em potencial,
incluindo os de outros estados, os do estado em questão, e os moradores de Vail Valley. As respostas foram submetidas a uma
análise estatística para determinar a importância relativa das diversas características do passaporte, de modo que o melhor pro-
duto possível pudesse ser oferecido. A equipe de marketing da Vail Resorts descobriu que os hóspedes estavam mais preocupados
com o preço do passaporte, porém manifestavam o desejo de poder esquiar nas cinco áreas de propriedade da empresa: Vail
Beaver Creek, Breckenridge, Keystone e Heavenly. Os hóspedes também desejavam dias ilimitados para a prática de esqui na
Vail Beaver Creek, e não queriam datas indisponíveis.
O “Passaporte Épico” foi colocado à venda em 18 de março de 2008, pelo valor de US$ 579 e os clientes mantiveram sua
palavra. Até o dia 9 de dezembro de 2008, mais de 59 mil “Passaportes Épicos” foram adquiridos com uma receita de vendas
total de US$ 32,5 milhões. O número total de passaportes vendidos aumentou em 18% e a receita total proveniente das vendas,
em 29%, em relação às vendas da estação anterior.
Nos próximos capítulos, procure o logotipo junto aos exemplos e exercícios para aprender mais sobre como a
empresa utiliza a análise de dados e a estatística para:
• Reduzir o tempo de espera para a venda de ingressos ao teleférico.
• Manter uma boa proporção entre os visitantes de outros estados e os do estado em questão.
• Contribuir para que os hóspedes se sintam seguros nas montanhas.
• Manter uma alta ocupação.
• Aumentar o percentual de empregados que retornam em cada uma das estações.
• Assegurar um ambiente saudável para a vida selvagem no Parque Nacional Grand Teton.

01_capitulo_01.indd 4 05/08/2014 12:10:57


Capítulo 1   VISÃO GERAL DA ESTATÍSTICA   5

ças que fabrica; a melhor estatística para isso seria a altura média dos alunos. Já um arquiteto
planejando um edíficio para salas de aula desejaria saber quão alto deve ser o batente das portas
e, para isso consideraria a altura máxima dos alunos. Ambas as medidas, a média e a máxima,
são exemplos de uma estatística.
Você pode não contar com um estatístico experiente na sua empresa, ainda assim, espera-se
que qualquer aluno de graduação/faculdade saiba algo a respeito do assunto, e que qualquer um
que faça um gráfico ou interprete dados esteja “fazendo estatística” sem título oficial.

Um artigo da Business Week, de 2006, denominado estatística e probabilidade “habilidades es- 1.2
senciais para executivos”, foi escrito para percebermos a dissimulação de terceiros, elaborarmos
modelos financeiros, ou desenvolvermos um plano de marketing. Esse mesmo relatório também POR QUE
afirma que “alunos oriundos de faculdades de administração que oferecem sólida formação em ESTUDAR
cálculo têm maiores oportunidades”. Todos os anos, The Wall Street Journal solicita que recru- ESTATÍSTICA?
tadores das empresas classifiquem as escolas de administração americanas em diversos atribu-
tos. Numa pesquisa do jornal realizada em 2006, recrutadores disseram que os cinco atributos OA 1-2
mais importantes eram: (1) habilidade na comunicação e nas relações interpessoais; (2) habilida-
Enumerar motivos pelos quais
de para trabalhar bem em equipe; (3) ética pessoal e integridade; (4) habilidade analítica e para a um aluno de administração
solução de problemas; e (5) ética de trabalho. (Vide “Why Math Will Rock Your World”, Busi- deve estudar estatística.
ness Week, 23 de janeiro de 2006, p. 60; e The Wall Street Journal, 20 de setembro de 2006.)

Relato sobre a habilidade no manuseio de dados


“Buscamos recrutar e preparar líderes na nossa organização que possuam sólidas habilidades
quantitativas, além de devotarem grande paixão pelo que fazemos — fornecendo experiências
excepcionais aos nossos extraordinários resorts diariamente. Saber interpretar dados e como
utilizá-los ao tomar decisões empresariais importantes é um dos elementos essenciais para o
sucesso da nossa Empresa”.
Rob Katz, presidente e chefe executivo da Vail Resorts.

Conhecer estatística fará com que você interprete melhor os dados de outras pessoas. Você
deve saber o suficiente para lidar com problemas diários envolvendo dados, estar seguro de que
outras pessoas não possam enganá-lo com argumentos espúrios, e reconhecer quando alcançou
o limite de seus conhecimentos. O conhecimento estatístico fornece a sua empresa a vantagem
competitiva contra organizações que não compreendem seus dados internos e externos de mer-
cado. E a destreza em estatística básica dá a você, o administrador individual, uma vantagem
competitiva na escalada de sua carreira, ou mesmo quando você muda para um novo emprego.
Aqui estão algumas das razões para se estudar estatística.

Comunicação 
A linguagem da estatística é amplamente utilizada em ciências, ciência social, educação, na área
de saúde, engenharia e mesmo na área de humanas. Em todas as áreas da administração (conta-
bilidade, finanças, recursos humanos, marketing, sistemas de informações, controle de opera-
ções), os trabalhadores usam o jargão estatístico para facilitar a comunicação. Na realidade, a
terminologia estatística alcançou os níveis mais altos de estratégias corporativas (por exemplo,
“Seis Sigma”, na GE e na Motorola). E, no ambiente multinacional, o vocabulário especializado
da estatística permeia as barreiras de linguagem para melhorar a resolução de problemas para
além das fronteiras nacionais.

Habilidades computacionais 
Qualquer que seja seu nível de habilidade computacional, ele pode ser aprimorado. Cada vez que
se cria uma planilha para analisar dados, redige um relatório ou prepara uma apresentação oral,
você utiliza as habilidades que já possui e aprende novas. Especialistas com treinamento avança-
do constroem os bancos de dados e os sistemas que auxiliam na tomada de decisões, mas você
deve saber lidar com problemas de dados diariamente sem os especialistas. Além disso, nem

01_capitulo_01.indd 5 05/08/2014 12:10:57


6    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

sempre é possível encontrar um “especialista” (expert) e, se você o encontrar, ele poderá não
entender muito bem a sua aplicação. É preciso estar apto a analisar dados, usar softwares com
confiança e preparar suas próprias tabelas, redigir seus próprios relatórios e montar eletronica-
mente uma apresentação em tópicos técnicos.

Gerenciamento da informação 
A estatística pode ajudá-lo a lidar tanto com pouca quanto com muita informação. Quando os
dados disponíveis são insuficientes, pesquisas estatísticas ou amostras podem ser usadas para
obter a informação necessária, mas muitas organizações de grande porte estão mais perto de se
afundar em dados do que ter falta deles. A estatística pode auxiliar no resumo de uma grande
quantidade de dados e revelar relações fundamentais. Você já ouviu falar de data mining? A es-
tatística é a picareta e a pá que você leva para garimpar a mina de dados.

Literatura técnica 
Muitas das melhores oportunidades de carreira estão nas indústrias que crescem impulsionadas
pelo avanço da tecnologia. A equipe de marketing pode trabalhar com engenheiros, cientistas e
especialistas de manufaturas à medida que novos produtos e serviços são desenvolvidos. Vende-
dores devem entender e explicar produtos técnicos como medicamentos, equipamentos médicos
e ferramentas industriais para clientes potenciais. Gerentes de compra devem avaliar as reclama-
ções de fornecedores sobre a qualidade de materiais brutos, componentes, softwares ou peças.

Melhoria na qualidade 
Grandes empresas de manufaturas, como Boeing ou Toyota, possuem sistemas formais para a
melhoria contínua da qualidade. O mesmo vale para companhias de seguro e empresas de ser-
viços financeiros, como Vanguard ou Fidelity, e o governo federal dos Estados Unidos. A es-
tatística auxilia as empresas a supervisionar seus fornecedores, monitorar suas operações in-
ternas e identificar problemas. Melhoria na qualidade vai além da estatística, mas espera-se
que todo aluno de graduação saiba o suficiente do assunto para entender seu papel na melhoria
da qualidade.

Minicaso 1.2
A estatística pode prever tarifas aéreas?
Quando você faz reserva online de um voo, se sente contrariado quando descobre, no dia seguinte, que a tarifa dessa passagem
está mais barata para o mesmo voo que você reservou? Ou você fica feliz quando adquire uma passagem por um bom preço logo
antes de um aumento na tarifa? Essa volatilidade de preços deu origem à criação de uma nova empresa, denominada Farecast,
que analisa mais de 150 bilhões de “tarifas aéreas” e procura utilizar esses dados para prever a probabilidade de aumento de uma
determinada passagem. Estima-se, até agora, que a precisão das previsões da empresa seja de 61% (em testes independentes) e
75% (em testes da empresa). Nesse caso, a referência é um cara ou coroa (50%). A empresa oferece um seguro contra aumento da
tarifa por um pequeno valor. Se o comprador viaja muito e está disposto a confiar nas probabilidades, essas previsões podem lhe
proporcionar alguma economia. Com reservas aéreas online totalizando US$ 44 bilhões, alguns dólares economizados, de vez
em quando, podem fazer diferença. (Vide Budget Travel, fevereiro de 2007, p. 37; e The New York Times, “An Insurance Policy
for Low Airfares”, 22 de janeiro de 2007, p. C10.)

1.3 Há duas espécies principais de estatística:


• Estatística descritiva corresponde à coleta, organização, apresentação e resumo de dados
USOS DA (com diagramas e gráficos ou utilizando um valor numérico resumido).
ESTATÍSTICA • Inferência estatística refere-se a generalizar resultados de uma amostra para uma população,
estimar parâmetros desconhecidos, chegar a conclusões e tomar decisões.
A Figura 1.1 identifica as tarefas e o conteúdo de cada capítulo.

01_capitulo_01.indd 6 05/08/2014 12:10:57


Capítulo 1   VISÃO GERAL DA ESTATÍSTICA   7

FIGURA 1.1
Estatística Visão geral da estatística

Coleta e Faz inferências a


descrição dos dados partir de amostras

Amostragem Representações Resumos Modelos Estimação de Teste de Regressão e Controle de


e pesquisas visuais numéricos probabilísticos parâmetros hipóteses tendências qualidade
(Cap. 2) (Cap. 3) (Cap. 4) (Caps. 5-8) (Cap. 8) (Caps. 9-16) (Caps. 12-14) (Cap. 17)

Agora, veremos como a estatística pode ser usada em empresas.

Auditoria 
Uma grande empresa faz pagamentos de mais de 12 mil faturas a fornecedores todo mês. A
companhia sabe que algumas faturas são pagas incorretamente, mas desconhece a profundidade
do problema. Os auditores não podem checar todas as faturas, então decidem tomar uma amos-
tra para estimar a proporção de faturas pagas incorretamente. Qual deve ser o tamanho da
amostra para que os auditores confiem que a estimativa esteja suficientemente próxima da ver-
dadeira proporção?

Marketing 
Solicita-se a um consultor de marketing que identifique prováveis clientes recorrentes da Ama-
zon.com, e sugira oportunidades de comarketing baseado em um banco de dados que contém 5
milhões de registros de compras de livros, CDs e DVDs via Internet. Como esse enorme banco
de dados pode ser garimpado para revelar padrões úteis que possam guiar uma estratégia de
marketing?

Saúde 
A área de saúde constitui um setor primordial (1/6 do PIB dos Estados Unidos). Hospitais,
clínicas e seus fornecedores podem economizar dinheiro descobrindo novas maneiras de ge-
renciar consultas a pacientes, agendamento de procedimentos ou rotatividade de seus funcio-
nários. Por exemplo, uma clínica ambulatorial de reabilitação cognitiva para pessoas com le-
sões cranianas ou derrames avalia 56 novos pacientes utilizando um questionário de avaliação
física e mental. Cada paciente é avaliado independentemente por dois terapeutas experientes.
Será que a partir dessas avaliações podemos concluir que os terapeutas concordam acerca do
estado funcional do paciente? Será que algumas das questões da avaliação são redundantes?
Será que essa avaliação inicial pode prever com precisão o tempo que o paciente deve ficar sob
tratamento?

Controle de qualidade 
Um fabricante de tubos de cobre para radiadores deseja melhorar a qualidade de seu produto. Ele
inicia um programa de inspeção tripla, anuncia penalidades para os trabalhadores que produzem
peças de má qualidade e faz campanha pregando “zero defeito”. Essa abordagem não produz
bons resultados. Por quê?

Aquisição 
Um lote de 200 leitores de DVD tem quatro aparelhos com defeito. A taxa histórica de defeito do
fornecedor é de 0,005. Será que a taxa de defeito realmente aumentou ou esse é simplesmente um
lote “azarado”?

Medicina 
Um medicamento experimental para tratamento de asma é ministrado a 75 pacientes, dos quais
24 melhoram. Um placebo é ministrado a um grupo controle de 75 voluntários, dos quais 12

01_capitulo_01.indd 7 05/08/2014 12:10:58


8    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

­melhoram. Será que esse novo medicamento é melhor que o placebo ou essa diferença é decor-
rente de sorte?

Gestão operacional 
A loja de materiais de construção Home Depot comercializa 50 mil produtos diferentes. Para
administrar esse vasto estoque, ela precisa de um sistema de previsão para compra semanal que
se adapte aos padrões de seus consumidores. Será que existe uma maneira de prever a demanda
semanal de cada item e estabelecer os pedidos para seus fornecedores sem que os funcionários
trabalhem dia e noite?

Garantia de produto 
Um fabricante de carros quer saber o custo médio, em dólares, das reclamações, dentro do prazo
de garantia, de um motor para um novo modelo híbrido. Ele coletou dados sobre custos da garan-
tia em 4,3 mil reclamações nesse período durante os primeiros seis meses da introdução do novo
motor. Utilizando essas reclamações sob garantia como uma estimativa de custos futuros, qual
será a margem de erro associada a essa estimativa?

Minicaso 1.3
Como vender macarrão usando a estatística?
“A melhor resposta começa com uma análise profun-
da e minuciosa dos dados”, afirma Aaron Kennedy,
fundador e presidente da Noodles & Company.
A Noodles & Company introduziu o conceito de
restaurante fast-food casual, redefinindo os padrões
de restaurantes casuais modernos nos Estados Unidos
do século XXI. A empresa entrou em funcionamento
no Colorado, em 1995, e nunca mais parou de crescer.
Até junho de 2009, a empresa contava com mais de
210 restaurantes em todo o país, de Portland e Encini-
tas até Alexandria e Silver Springs, com unidades em
cidades como Omaha e Naperville.
A Noodles & Company alcançou esse sucesso
com um modelo empresarial direcionado ao cliente e
a tomada de decisões com base nos fatos. Sua grande
popularidade e alta taxa de crescimento têm sido sus-
tentadas pelas cuidadosas coleta de dados e análise (Visite o site: www.noodles.com)
estatística que fornecem respostas a questões do tipo:
• Devemos oferecer cartões de fidelidade/frequência aos nossos clientes?
• Como podemos aumentar o potencial da nossa capacidade em horários de pico?
• Em quais outras cidades poderíamos abrir novas unidades?
• Qual localidade seria mais adequada para nossos novos restaurantes?
• Como determinamos a eficácia de uma campanha de marketing?
• Qual prato maximiza a possibilidade de retorno de um novo cliente?
• Estaria o Rice Krispies relacionado ao aumento das vendas?
• A redução do tempo de atendimento aumenta as vendas?
Aaron Kennedy, afirma que “a utilização de dados é a maneira mais sólida de proporcionar suporte às boas decisões. Ao
avaliarmos nossos ambientes internos e externos, de forma contínua, a equipe de direção da Noodles é capaz de planejar e colocar
em prática a nossa visão”.
“Eu não fazia ideia, quando era estudante de Administração, que utilizaria tão extensivamente a análise estatística como
faço atualmente”, relata Dave Boennighausen, vice-presidente financeiro da Noodles & Company. Nos capítulos seguintes, ao
adquirir informações sobre como as empresas utilizam as ferramentas estatísticas nos dias de hoje, procure pelo logotipo
, ao lado dos exemplos e exercícios que ilustram como a Noodles utiliza dados e métodos estatísticos nas suas funções
empresariais.

01_capitulo_01.indd 8 05/08/2014 12:10:59


Capítulo 1   VISÃO GERAL DA ESTATÍSTICA   9

EXERCÍCIOS DA SEÇÃO
1.1 Dê um exemplo de como a estatística pode ser útil a alguém inserido nos seguintes cenários.
a. Um auditor procura por comissões inflacionadas de corretores do mercado de ações.
b. Um representante de vendas industrial está apresentando aos militares as telas de LCD compactas
e de baixo consumo fabricadas por sua empresa.
c. Um gerente de uma fábrica estuda as faltas ao trabalho de funcionários nas linhas de montagem em
três estados.
d. Um agente comprador do mercado automotivo compara taxas de defeitos em lotes de aço de três
diferentes fornecedores.
1.2 Dê um exemplo de como a estatística pode ser útil a alguém inserido nos seguintes cenários.
a. Um executivo da área de recursos humanos examina a troca de emprego de funcionários de uma
cadeia de fast-food, considerando o gênero deles.
b. Um gerente de intranet estuda as taxas de uso de e-mail segundo a classificação funcional dos
funcionários.
c. Um gerente da área de previdência estuda o desempenho de fundos mútuos para seis diferentes
tipos de portfólios.
d. Um administrador hospitalar estuda a programação de cirurgias para melhorar a taxa de uso dos
centros cirúrgicos em diferentes momentos do dia.
1.3 (a) Uma escola de administração deve considerar utilizar computadores para a manipulação de dados
ou deve deixar esse trabalho para especialistas? (b) Que problemas podem ocorrer quando um funcio-
nário é fraco em termos de habilidades quantitativas? Baseado em sua experiência, isso é comum?
1.4 “Muitas pessoas com ensino superior completo não farão uso de estatística durante todos os 40 anos
de sua carreira, então, por que estudar essa disciplina?” (a) Liste vários argumentos a favor e contra
essa afirmação. Qual posição você acha mais conveniente? (b) Substitua a palavra “estatística” por
“contabilidade” ou “língua estrangeira” e repita o exercício.
1.5 (a) Quanto de estatística um estudante necessita saber na área que escolheu estudar? Por que não mais?
Por que não menos? (b) De que forma você saberia se foi atingido o ponto em que é necessário chamar
um expert em estatística? Liste alguns custos e alguns benefícios que governariam sua decisão.

Profissionais de empresas que usam estatística não são meros mastigadores de números “hábeis 1.4
em matemática”. Conforme Jon Kettenring afirmou de modo conciso, “A indústria precisa de
estatísticos visionários, perspicazes na solução de problemas” (www.amstat.org). Considere os DESAFIOS DA
critérios listados a seguir: ESTATÍSTICA
O estatístico ideal:
• É tecnicamente atualizado (por exemplo, em termos de tecnologias de software).
OA 1-3
• Comunica-se com facilidade.
• É proativo. Enunciar desafios comuns
encontrados na
• Tem visão ampla. análise de dados.
• É flexível.
• Foca no problema principal.
• Cumpre os prazos.
• Conhece suas limitações e solicita ajuda se sentir necessidade.
• Pode lidar com informações imperfeitas.
• Tem integridade profissional.
Obviamente, muitas dessas características são aplicáveis a qualquer profissional.

O papel da habilidade na comunicação


“Os líderes se diferenciam sabendo como exigir o cumprimento de tarefas. Esse saber tem muito a
ver com a comunicação. Quando me refiro à comunicação, quero dizer a habilidade de se expressar
de forma escrita e verbal, a capacidade de ouvir e de falar. Os líderes são capazes de expor suas ideias
e conhecimentos por meio de um pensamento completo que não deixa margem a suposições. Eles
conseguem verbas para projetos usando dados, articulam uma situação empresarial na teoria e pro-
porcionam retorno nos investimentos. Eles efetivamente interagem e escutam as pessoas, finalmente
obtendo apoio e uma solução abrangente. Essas tarefas dependem de uma excelente habilidade de
comunicação — uma atribuição essencial para líderes em todos os níveis”.
Comentários sobre habilidades de liderança de Mark Gasta, vice-presidente sênior e diretor
de recursos humanos; Vail Resorts Management Company.

01_capitulo_01.indd 9 05/08/2014 12:10:59


10    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

Trabalhando com dados imperfeitos e restrições práticas 


Em matemática, respostas exatas são esperadas. Porém, a estatística se situa em uma interface
confusa entre teoria e realidade. Por exemplo, suponha que um novo modelo de air bag esteja em
teste; será que ele é mais seguro para crianças? Dados de laboratório indicam que o novo modelo
pode ser mais seguro em alguns tipos de colisão, mas o antigo parece ser mais seguro em outros
tipos. Testes de colisão são caros e demorados, e fazem com que o tamanho das amostras seja
limitado. Algumas observações podem ser perdidas em decorrência de falhas nos sensores para
colisões dos bonecos. Podem, ainda, existir erros de mensurações aleatórios. Se você fosse um
analista de dados, o que poderia fazer? Bem, poderia aplicar seus conhecimentos e utilizar mé-
todos estatísticos já consagrados, mencionar claramente qualquer suposição que fosse forçado a
fazer e, honestamente, apontar as limitações de suas análises. Poderia utilizar estatísticas de
testes para detectar dados incomuns ou lidar com dados omissos. Você poderia fornecer um con-
junto de respostas sob diferentes suposições. Entretanto, ocasionalmente, teria de ter a coragem
de dizer “Nenhuma resposta útil pode ser obtida desses dados”.
Você encontrará limitações no tipo e na quantidade de dados que podem ser coletados. Testes
de colisão de automóveis não podem utilizar seres humanos (há óbvio risco envolvido). Pesquisas
feitas por telefone não podem perguntar a uma respondente se ela fez ou não um aborto (questão
delicada). Não podemos testar todas as pessoas para o vírus HIV (o mundo não é um laborató-
rio). Respondentes de pesquisas podem não dizer a verdade ou podem não responder a todas as
questões (o comportamento humano é imprevisível). Todos os analistas de dados se deparam com
limitações de tempo e dinheiro (as pesquisas não são feitas de graça).

Ética empresarial 
Nas aulas de ética empresarial, você aprendeu (ou aprenderá) as amplas responsabilidades éticas
nos negócios, como tratar os clientes de maneira honesta e justa, de acordo com leis que proíbem
a discriminação, garantindo que produtos e serviços satisfaçam as normas de segurança, obser-
vando as garantias e realizando a divulgação de forma fatual e informativa. Você aprendeu que
as organizações devem incentivar os seus funcionários a fazer perguntas e manifestar preocupa-
ções em relação às práticas empresariais da instituição, e permitir o acesso dos funcionários a
canais alternativos de comunicação quando eles temem represálias. Entretanto, como um funcio-
nário específico, você é responsável por relatar precisamente as informações à gerência, incluin-
do fontes potenciais de erros, imprecisões materiais e graus de incerteza. Um analista de dados
se depara com um conjunto de exigências éticas mais específicas.
Pesquisas de recrutadores corporativos demonstram que a ética e a integridade pessoal têm
grande importância na sua lista de critérios de contratação. O analista respeitado é um honesto
intérprete de dados que utiliza a estatística para descobrir a verdade, e não para refletir um
ponto de vista popular. Analise seus próprios motivos cuidadosamente. Se você manipular nú-
meros ou minimizar a importância de dados inconvenientes, poderá ter êxito em enganar seus
concorrentes (ou você mesmo) por algum tempo. No entanto, o que adiantaria? Cedo ou tarde,
os fatos se revelarão por si próprios, e você (ou a sua empresa) será o perdedor. As análises
quantitativas nos negócios podem quantificar os riscos dos cursos alternativos de ações e acon-
tecimentos. Por exemplo, a estatística pode auxiliar os gerentes a estabelecer expectativas rea-
listas sobre o volume das vendas, receitas e custos. Uma previsão de vendas inflada, ou uma
estimativa de custos subestimada, podem tirar o produto favorito de um colega do papel e
transformá-lo em efetivo investimento de capital. Todavia, uma análise insuficiente pode custar
o emprego de ambos.
Escândalos que foram manchete de jornais, como a pirâmide financeira de Bernard L. Mado-
ff, que custou U$$ 65 bilhões aos seus investidores (The New York Times, 11 de abril de 2009, p.
B1), ou testes de analgésicos financiados por indústrias farmacêuticas, cujos resultados foram
baseados em dados falsificados (New Scientist, 21 de março de 2009, p. 4), são facilmente reco-
nhecíveis como mentiras deliberadas ou atos criminosos. Você pode dizer, “Eu nunca faria uma
coisa dessas”, entretanto, no manuseio diário de dados, você pode não saber se esses dados são
precisos ou não. Você pode não saber qual será a utilização deles. Você pode não conhecer con-

01_capitulo_01.indd 10 05/08/2014 12:10:59


Capítulo 1   VISÃO GERAL DA ESTATÍSTICA   11

flitos de interesse potenciais. Você e outros funcionários (incluindo a alta diretoria) precisarão de
treinamento para reconhecer os limites do que é ético ou não, dentro do contexto da sua organi-
zação e da decisão em pauta.
Informe-se quanto à existência de um código de ética na sua empresa. Se não houver algum,
esforce-se para criar um código específico. Felizmente, as ideias e o suporte estão sempre dispo-
níveis (por exemplo, www.ethicsweb.ca/codes/). Como as organizações são distintas, as questões
dependerão do ambiente empresarial da sua companhia. Criar ou aprimorar um código de ética
geralmente requer o envolvimento do funcionário em identificar possíveis conflitos de interesse,
procurar fontes de dados imprecisos e atualizar as políticas da empresa quanto à divulgação e à
confidencialidade. Todos devem entender o código e conhecer as normas para estarem prepara-
dos mediante a suspeita de violações éticas.

Mantendo padrões éticos 


Vejamos como exigências éticas podem ser aplicadas a qualquer pessoa que analise dados e ela-
bore relatórios para a diretoria. Você deve conhecer as normas específicas para proteger a sua
integridade profissional e minimizar a possibilidade de violações éticas involuntárias. Faça per-
guntas, pense em agendas ocultas e procure saber como os dados foram coletados. Eis algumas
normas básicas para o analista de dados:
• Conhecer e cumprir os procedimentos definidos.
• Manter a integridade dos dados.
• Realizar cálculos precisos.
• Relatar os procedimentos com fidelidade.
• Proteger informações confidenciais.
• Citar fontes.
• Reconhecer fontes de suporte financeiro.
Como questões legais e éticas estão interligadas, existem procedimentos éticos específicos
para os estatísticos relacionados ao tratamento de pessoas e animais, proteção à privacidade,
obtenção de consentimento e atenção contra o uso inadequado dos dados. Para mais informações
sobre ética, consulte os procedimentos éticos da American Statistical Association (www.amstat.
org), que têm sido extensivamente revistos pela profissão estatística.
É provável que dilemas éticos para um não estatístico envolvam conflitos de interesse ou
interpretações rivais a respeito da validade de um estudo e/ou suas implicações. Por exemplo,
suponha que uma empresa de pesquisa de mercado seja contratada para investigar um novo
logotipo corporativo. A CEO informa que é fortemente a favor de um novo logotipo, e que se
trata de um grande projeto que pode lhe propiciar uma promoção. Além disso, dados de mer-
cado têm alta margem de erro e poderiam dar suporte a qualquer conclusão. Como gerente,
você encontrará tais situações. Práticas e dados estatísticos podem ajudar a esclarecer suas
escolhas.
Um problema ético percebido será simplesmente isso — um problema percebido. Por exem-
plo, pode parecer que uma empresa promova mais homens do que mulheres em cargos de chefia
e, na realidade, o índice de promoções entre homens e mulheres pode ser o mesmo. A desigual-
dade percebida pode ser primeiramente o resultado de um número menor de funcionárias do sexo
feminino. Nesse caso, as empresas podem trabalhar para contratar mais mulheres e, dessa forma,
aumentar o número de funcionárias que poderão ser promovidas. A estatística cumpre o papel de
resolver dilemas empresariais éticos, mediante o uso de dados, para desvendar o que é real em
contraposição às diferenças percebidas, identificar as causas principais dos problemas e mobili-
zar atitudes públicas em direção ao comportamento organizacional.

Utilizando consultores 
Os alunos sempre comentam na primeira aula de estatística que não precisam aprender essa ma-
téria porque as empresas depositam sua confiança em consultores para realizar as análises de
dados. Esse é um conceito equivocado. Hoje em dia, empresas bem-sucedidas esperam que seus
funcionários realizem todos os tipos de análises estatísticas, desde análises descritivas mais sim-

01_capitulo_01.indd 11 05/08/2014 12:10:59


12    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

ples até análises inferenciais mais complexas. Também esperam que seus funcionários possam
interpretar os resultados de uma análise estatística, mesmo depois de concluída por um consultor
externo. As organizações têm solicitado às escolas de administração que elevem o nível de ins-
truções quantitativas dadas aos alunos e, ao contratarem, essas empresas têm dado, cada vez
mais, prioridade a candidatos com sólidas habilidades quantitativas.
Isso não quer dizer, que os consultores de estatística sejam uma espécie em extinção. Quando
uma organização se depara com uma decisão que contém sérias implicações políticas públicas,
ou consequências de alto custo, contratar um consultor pode ser uma atitude inteligente. Uma
hora com um especialista, no início de um projeto, pode ser a estratégia mais sensata que um
gerenciador pode adotar. Quando um consultor deve ser contratado? Quando falta ao seu time
certas habilidades críticas ou quando uma visão não viciada e informada não pode ser encontra-
da dentro de sua organização. Consultores experientes podem lidar com membros de equipe au-
toritários ou indecisos, conflitos pessoais, receios de se obter resultados adversos e política inter-
na. Companhias de grande e médio portes podem ter estatísticos em seu quadro de funcionários,
mas empresas menores somente os contratam conforme a necessidade. Se você contratar um
consultor estatístico, poderá fazer melhor uso do tempo dos consultores aprendendo como eles
trabalham. Leia livros sobre consultoria estatística. Se sua companhia emprega um estatístico,
convide-o para almoçar!

Torne as coisas simples


“Quando divulgamos estatísticas, devemos nos assegurar de que duas coisas não aconteçam. Uma
delas é se exibir e utilizar jargões estatísticos em excesso para os nossos clientes. A segunda é
acrescentar detalhes demais... Prefiro uma explanação de apenas duas frases, ou um resumo numa
linguagem que seja clara aos nossos clientes.”
Trecho de uma entrevista realizada com Mary Batcher, diretora executiva da Ernst and
Young’s Quantitative Economics Group. Reimpresso com autorização da Amstat News, ju-
lho de 2010, p. 29. Copyright 2010 by the American Statistical Association. Todos os direitos
reservados.

Comunicando-se por números 


Os números fazem sentido somente quando expressos no contexto de uma determinada situação.
Gerenciadores ocupados raramente têm tempo para ler e digerir explanações detalhadas de nú-
meros. O Apêndice I fornece sugestões de como redigir um relatório técnico e preparar apresen-
tações orais. Você provavelmente já sabe que gráficos atraentes valorizarão um relatório técnico
e auxiliarão outros dirigentes a compreender rapidamente as informações necessárias para tomar
uma decisão apropriada. O Capítulo 3 fornecerá diretrizes detalhadas para a elaboração de tabe-
las e gráficos adequados utilizando Excel.
No entanto, como apresentamos uma tabela ou gráfico num relatório por escrito? As tabelas
e gráficos devem estar inseridos na narrativa (não em página separada), próximos do parágrafo
no qual são mencionados ou discutidos e cada um deve ter um título e um número. O gráfico
pode ser mais esclarecedor, por exemplo, compare a Tabela 1.1 e a Figura 1.2. Qual delas seria
mais útil para o entendimento da atividade de marcas registradas nos Estados Unidos nos últi-
mos anos?

TABELA 1.1 1999 2000 2001 2002 2003 2004 2005


Marcas americanas
registradas, 1999-2005 Solicitações protocolizadas 328,6 361,8 277,3 264,1 271,7 304,5 334,7
(milhares) Marcas registradas 191,9 115,2 142,9 176,0 166,6 146,0 154,8
Fonte: U.S. Census Bureau, Statistical Abstract of the United States, 2007, p. 507. A marca (identificada com ®) é um
nome ou símbolo que representa um produto, registrado e patenteado nos EUA e protegido pelas leis americanas.

01_capitulo_01.indd 12 05/08/2014 12:10:59


Capítulo 1   VISÃO GERAL DA ESTATÍSTICA   13

FIGURA 1.2
Marcas americanas registradas, 1999-2005 Marcas americanas
400 registradas, 1999-2005

350

300

250
Milhares

200

150

100

50
Solicitações protocolizadas Marcas registradas
0
1999 2000 2001 2002 2003 2004 2005

EXERCÍCIOS DA SEÇÃO
1.6 O USPIRG (U.S. Public Interest Research Group Education Fund) publicou, recentemente, um rela-
tório intitulado The Campus Credit Card Trap: A Survey of College Students about Credit Card
Marketing. Você pode encontrar esse relatório e maiores informações sobre o assunto no site www.
truthaboutcredit.org. Leia o relatório e responda as seguintes perguntas sobre como a estatística de-
sempenha o seu papel na resolução de dilemas éticos.
a. Qual é a questão ética percebida e enfatizada nesse relatório?
b. Como a USPIRG conduziu o seu estudo para coletar informações e dados?
c. Quais categorias genéricas a pesquisa referenciou?
d. Os dados da pesquisa verificaram se a questão era um problema real em vez de um problema ético
percebido?
e. Você concorda com a avaliação do estudo da questão? Por quê?
f. Com base nos resultados da pesquisa, você considera a questão generalizada? Explique.
g. Descreva as soluções sugeridas no relatório para confrontar práticas empresariais não éticas.
1.7 Utilizando o seu Web browser preferido, entre com a frase em inglês “business code of ethics”. Rela-
cione cinco exemplos de características que um código de ética empresarial deve conter.

Minicaso 1.4
Lições da NASA
O ex-presidente Lyndon Baines Johnson observou que “A tarefa mais árdua de um presidente não é fazer o que é certo, mas sim
saber o que é certo”. O que falta é a sabedoria, não a coragem. Por meio de dados incompletos ou contraditórios, as pessoas têm
dificuldades na tomada de decisões (você se lembra de Hamlet?). Algumas vezes, ao olharmos situações retrospectivamente,
vemos que a escolha é óbvia, como nos desastres ocorridos com as espaçonaves shuttle da Nasa. Em 28 de janeiro de 1986, a
Challenger explodiu logo após o lançamento em decorrência da erosão dos O-rings,* que haviam se tornado frágeis por causa de
temperaturas congelantes a que foram submetidos durante a noite anterior ao lançamento no Cabo Canaveral. O ponto em ques-
tão foi a relação entre fragilidade e temperatura. Dados sobre a erosão de O-rings estavam disponíveis para os 22 voos anteriores
de espaçonaves shuttle. Os O-rings de reserva (havia duas camadas de O-rings) não haviam sofrido erosão em nove voos ante-
riores com temperaturas de lançamento na faixa de 72 a 81ºF, porém foi verificada erosão significativa em quatro de 13 voos
anteriores com temperaturas de lançamento no intervalo de 53 a 70ºF. Entretanto, o papel da temperatura não era claro. Enge-
nheiros da Nasa e da Morton-Thiokol haviam discutido de forma inconclusiva com base em dados erráticos, incluindo a noite
anterior ao lançamento.
Após o acidente com a Challenger, estava claro que o risco foi subestimado. Duas questões estatísticas envolvidas se referem
à temperatura na qual a camada de O-rings de reserva fornecia proteção redundante e à forma correta de predizer a erosão do
O-ring na temperatura de lançamento de 36ºF da Challenger quando a menor temperatura observada nos lançamentos anteriores
foi de 53ºF. Duas possíveis questões éticas envolvidas são as de que os oficiais da Nasa não deveriam ter liberado o ­lançamento

*  N. de R.T.: O-ring é um termo técnico para anel de vedação. Esse termo tem sido adotado também em português.

01_capitulo_01.indd 13 05/08/2014 12:11:00


14    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

até que tivessem entendido melhor o problema e que os astronautas, como participantes em um experimento perigoso, não tive-
ram informação suficiente para dar seu consentimento. A taxa de sucesso de 100% previamente registrada pela Nasa foi certa-
mente um fator na autoconfiança de todos, incluindo a dos astronautas.
Em 1o de fevereiro de 2003, a nave espacial Columbia queimou na reentrada. A falha no escudo de calor decorreu, aparente-
mente, da danificação das placas pela queda da espuma de isolamento térmico dos tanques de combustível, afrouxados pela vi-
bração durante o lançamento. Anteriormente ao lançamento da Columbia, em 2003, placas com espuma de isolamento danifica-
das foram observadas 70 vezes em 112 voos. Em retrospecto, uma revisão dos dados mostrou que alguns voos poderiam ter
chegado muito próximo ao destino observado na Columbia. Esta é uma questão estatística porque o escudo de calor funcionou
70 vezes, apesar de danificado. É surpreendente que os oficiais da Nasa acreditassem que as placas eram resistentes aos danos da
espuma de isolamento? As questões éticas e estatísticas são semelhantes àquelas do desastre da Challenger. A inércia organiza-
cional e a pressão para o lançamento têm sido responsabilizadas em ambos os casos, favorecendo uma interpretação arriscada
dos dados.
Esses desastres nos lembram que decisões envolvendo dados e estatística estão sempre inseridas na cultura organizacional.
A avaliação de risco da Nasa difere de muitas empresas em razão dos perigos inerentes da exploração do espaço. Na época do
lançamento da Challenger, o risco de se perder um veículo era estimado por 1 em 30, na do acidente na reentrada da Columbia,
por 1 em 145. Para lançamentos não tripulados, o risco é cerca de 1 em 50 (2%) comparado com duas perdas de naves espaciais
em 113 voos (1,8%). Apenas para comparar, o risco de se perder um avião em voos comerciais é de cerca de 1 em 2 milhões.
Fontes: yahoo.com; www.nasa.gov; The New York Times, 2 de fevereiro de 2003.

1.5 A Estatística é uma parte essencial do pensamento crítico, pois nos permite testar uma ideia com
base em uma evidência empírica. Ocorrências aleatórias e variações ao acaso nos levam, inevi-
PENSAMENTO tavelmente, a resultados ocasionais que podem sustentar um ou outro ponto de vista. Entretanto,
CRÍTICO a ciência da estatística nos diz se a evidência da amostra é convincente. Neste livro, você apren-
derá como utilizar a estatística de forma correta e de acordo com os critérios profissionais para
que possa tomar a melhor decisão.
“O pensamento crítico significa ser capaz de avaliar a evidência, relatar o fato a partir da opinião, en-
xergar lacunas numa argumentação, verificar se a causa e o efeito foram estabelecidos e detectar a in-
coerência.”
  The Wall Street Journal, 20 de outubro de 2006.
Utilizamos ferramentas estatísticas para comparar dados empíricos (coletados por meio de
observações e experimentos) com teorias. Se os dados não suportam nossa teoria, precisamos
rejeitá-la ou revisá-la. No The Wall Street Journal, na revista Money e na CNN, vemos experts
do mercado de ações mencionarem teorias para “explicar” o mercado atual (em alta, em baixa,
ou estável). Mas a cada ano surgem novos experts e novas teorias, e as antigas desaparecem.
Armadilhas lógicas abundam tanto nos processos de coleta de dados quanto nos de análise. Con-
sideremos algumas.

OA 1-4 Armadilha 1: Concluir a partir de uma


Listar e explicar as armadilhas
comuns em estatística.
amostra pequena 
“Minha tia Harriet fumou toda a sua vida e viveu até os 90 anos. O fumo não prejudica a saúde.”
Bom para ela. Mas um caso prova alguma coisa? Pergunta-se a cinco clientes se o novo design de
um produto é uma melhoria. Se três deles disserem sim, a companhia deve implementar o novo
design? Se dez pacientes experimentam um novo medicamento para asma e um deles apresenta
uma alergia, podemos concluir que o novo medicamento causa alergia? Qual tamanho de amostra
é necessário para se concluir alguma coisa? Felizmente, os estatísticos desenvolveram regras claras
a respeito de tamanhos de amostras. Até aprendê-las, no Capítulo 8, está OK você ter esperanças
de que seu time de futebol ganhe o campeonato quando ele vencer cinco jogos em seguida.

Armadilha 2: Concluir a partir


de amostras não aleatórias 
“Estrelas do Rock morrem jovens. Veja, por exemplo, o caso de Buddy Holly, Jimi Hendrix, Janis
Joplin, Jim Morrison, John Lennon e Kurt Cobain.” Entretanto, olhamos apenas para aqueles

01_capitulo_01.indd 14 05/08/2014 12:11:00


Capítulo 1   VISÃO GERAL DA ESTATÍSTICA   15

que, de fato, morreram jovens. O que dizer sobre os milhares que estão vivos e bem de saúde, ou
que tiveram vidas longas? Analogamente, deveríamos ser cuidadosos ao generalizar a partir de
estudos retrospectivos envolvendo pessoas que sofreram ataques cardíacos, a menos que também
consideremos aqueles que não tiveram ataques. (BARNETT, Arnold. How numbers can trick
you. Technology Review, p. 40, outubro de 1994). No Capítulo 2, você aprenderá métodos de
amostragem apropriados para fazer inferências fidedignas.

Armadilha 3: Concluir a partir de eventos raros 


Se a amostra for suficientemente grande, pode-se observar a ocorrência de eventos raros. No
Capítulo 5, você aprenderá sobre a lei dos grandes números que explica ocorrencias improváveis,
tais como:
• “Minha colega de trabalho Mary ganhou na loteria. Ela deve ter um esquema de jogo que
funcionou.” Milhões de pessoas jogam na loteria. Certamente, alguém vai ganhar.
• “Bill é um gênio do esporte. Ele previu que o time de futebol Notre Dame ganharia a última
temporada.” Milhões de fãs do esporte fazem previsões. Alguns acertam o resultado.
• “A van de Tom capotou. Vans são perigosas.” Milhões de pessoas dirigem vans de tal forma
que algumas vão eventualmente capotar.

Armadilha 4: Adotar métodos de pesquisa deficientes 


Já ocorreu de seu professor perguntar algo do tipo “Quantos de vocês se lembram do método
simplex das aulas de matemática?” Timidamente, um ou dois colegas (ou talvez nenhum) le-
vantam a mão, mesmo que o tópico tenha sido dado. Será que o departamento de matemática
não ensinou o método? Ou será que os alunos não o “assimilaram”? Provavelmente, o profes-
sor considerou um método de amostragem pobre e colocou a pergunta de forma vaga. É difí-
cil para os alunos responderem a esse tipo de questão em público, pois eles geralmente assu-
mem (muitas vezes com razão) que se levantarem a mão o professor pedirá para que eles
expliquem o assunto ou seus colegas poderão achar que eles estão querendo se exibir. Uma
pesquisa anônima ou um rápido teste sobre o método simplex forneceria um cenário melhor
da situação. No Capítulo 2, você aprenderá normas para o planejamento de pesquisas e escala
de respostas.

Armadilha 5: Assumir uma relação causal 


Nas aulas de economia, você pode ter ouvido falar da chamada post hoc fallacy (a conclusão
equivocada de que se A precede B, então A é a causa de B). Por exemplo, a taxa de divórcios
no estado do Mississipi caiu em 2005, após o Furacão Katrina. O furacão fez com que os
casais permanecessem juntos? Uma pequena pesquisa revela que a taxa de divórcios já vinha
caindo nos dois anos anteriores ao fato, de modo que o Furacão Katrina não poderia ser res-
ponsabilizado.
A post hoc fallacy é um caso específico da falácia generalizada de assumir nexo de causali-
dade sempre que houver uma associação estatística entre dois eventos. Por exemplo, existe a
“maldição do campo de futebol”, que diz que times que jogam em estádios com o mesmo nome
de bancos ou nstituições financeiras (por exemplo, o time New York Mets jogando no Citi Field)
tendem a perder um número maior de jogos (vide The New York Times, 15 de novembro de 2006,
p. C16). Talvez, no sentido estatístico, isso possa ser verdade. No entanto, são os jogadores e
treinadores que, de fato, determinam quando um time vence. A existência de associação não
prova a causalidade. Você provavelmente já ouviu falar disso. Todavia, muitas pessoas chegam a
conclusões injustificadas em que não existe nenhuma relação entre causa e efeito. Vamos consi-
derar alguns episódios caricatos:
• “As taxas de assassinatos em Miami no último ano foram maiores em noites de lua cheia.
Acho que a lua enlouquece as pessoas.” Mas o que dizer de cidades em que é notado um de-
créscimo no número de assassinatos durante a mesma lua cheia?
• “Muitos ataques de tubarões ocorrem entre meio-dia e duas horas da tarde. Tubarões devem
ter mais fome nesse horário.” Talvez seja porque muito mais pessoas nadem ao meio-dia. Se
existisse uma relação causal, teria sido observada em um experimento controlado de forma
cuidadosa.

01_capitulo_01.indd 15 05/08/2014 12:11:00


16    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

Por outro lado, a existência de associação pode justificar um estudo mais aprofundado
quando o senso comum sugere uma ligação causal potencial. Por exemplo, existe alguma relação
entre telefones celulares e o câncer? (Vide Scientific American, v. 305, n. 2, agosto de 2011, p.
96). No Capítulo 12, você aprenderá a realizar testes para verificar se uma correlação especí-
fica encontra-se no âmbito do acaso.

Armadilha 6: Generalizar sobre indivíduos 


“Homens são mais altos que mulheres.” Sim, mas apenas em um contexto estatístico. Os homens
são mais altos em média, mas muitas mulheres são mais altas que muitos homens. “Os carros
japoneses têm qualidade superior”. Sim, porém nem todos. Devemos evitar ler em excesso sobre
generalizações estatísticas, em vez disso, devemos perguntar quanto existe em comum nas po-
pulações que estão sendo consideradas. Muitas vezes, as similaridades ultrapassam as diferen-
ças. No Capítulo 10, você conhecerá os testes para a comparação de dois grupos específicos.

Armadilha 7: Introduzir vício involuntário 


Sem propositadamente fraudar (alterar dados), pesquisadores podem, de forma involuntária ou
sutil, introduzir vícios ao tentar incrementar seu tratamento de dados. Por exemplo, por muitos
anos considerou-se que ataques cardíacos eram mais prováveis em homens do que em mulheres.
Os sintomas de doença cardíaca são mais óbvios em homens, portanto, os médicos tendem a
diagnosticar a doença do coração primeiro nos homens do que nas mulheres. Alguns estudos
demonstram que doenças cardíacas representam a causa número um de morte entre as mulheres
americanas (www.americanheart.org). No Capítulo 2, você aprenderá sobre vícios e erros nas
pesquisas.

Armadilha 8: Atribuir importância versus significância 


Efeitos estatisticamente significantes podem não ter importância prática. Um estudo publicado
em The American Statistician, com mais de 500 mil militares austríacos, mostrou que aqueles
nascidos na primavera eram, em média, 0,6 cm mais altos que os nascidos no outono (Utts, J.,
v. 57, n. 2, p. 74-79, maio de 2003). Mas quem notaria tal fato? Será que os futuros pais se
programariam na esperança de ter um criança 0,6 cm mais alta? Analogamente, empresários
conscientes dos custos de produção sabem que aperfeiçoamentos significativos de um produto
não podem dar suporte a uma mudança na produção. Consumidores podem não perceber pe-
quenos aperfeiçoamentos em durabilidade, velocidade, gosto e conforto se o produto já é “bom
o suficiente”. Por exemplo, o disco rígido fabricado pela empresa Seagate, modelo Cheetah,
com 147 GB, já tem um tempo médio entre falhas (sigla em inglês, MTBF) da ordem de 14
milhões de horas (cerca de 160 anos sob uso contínuo). Um acréscimo de 10% no MTBF im-
portaria para alguém?

EXERCÍCIOS DA SEÇÃO
1.8 Em 2007, os mesmos cinco números vencedores da loteria do estado da Carolina do Norte (4, 21, 23,
34, 39) foram sorteados na segunda e na quarta-feira. Alguém afirmou, na ocasião, que o fato seria
tão improvável que só poderia ter ocorrido uma fraude. Qual seria a falácia, se houver alguma, nessa
conclusão? (Vide Leonard A. Stefanski, “The North Carolina Lottery Coincidence,” The American
Statistician 62, n. 2, p. 130.)
1.9 Uma pesquisa sobre saúde, realizada junto ao público, elaborada pelos Centros de Controle de Doenças
dos Estados Unidos, relatou que o uso de telefones celulares, ao invés de telefones fixos, parecia dobrar
a possibilidade do consumo excessivo de álcool. Uma determinada pessoa afirmou que seria melhor
abandonar o uso de telefones celulares. Qual seria a falácia, se houver alguma, nessa conclusão?
1.10 “Usuários de detectores de radar têm uma taxa de acidentes menor que não usuários. Mais ainda,
usuários de detectores parecem ser cidadãos melhores. O estudo descobriu que usuários de detectores
usam seus cintos de segurança e ainda costumam comparecer mais para votar que não usuários.” (a)
Assumindo que o estudo seja acurado, você acha que existe relação de causa e efeito? (b) Se todo
mundo utilizasse detectores de radares, as taxas de comparecimento às urnas e de uso de cintos de
segurança aumentariam?
1.11 Um ganhador de loteria comentou como escolheu seu número de seis dígitos premiado (5-6-8-10-22-
39): número de pessoas em sua família, data de nascimento de sua esposa, ano escolar de sua filha de
13 anos, soma das datas de seu nascimento e de sua esposa, número de anos de casado e ano em que

01_capitulo_01.indd 16 05/08/2014 12:11:01


Capítulo 1   VISÃO GERAL DA ESTATÍSTICA   17

ele nasceu. Ele disse: “Procuro escolher números que têm algum significado para mim”. O comissio-
nado da loteria estadual referiu seu método como “o mais esdrúxulo de que já ouvi falar... mas apa-
rentemente funciona”. (a) Do ponto de vista estatístico, você concorda que o método “funciona”? (b)
Baseado em seu entendimento sobre o funcionamento da loteria, o fato de alguém escolher 1-2-3-4-
5-6 porque é “mais fácil de lembrar” diminuiria a chance de ganhar?
1.12 “Fumantes são muito mais propensos a dirigir em alta velocidade, passar pelo sinal vermelho e se
envolver em acidentes automobilísticos que os não fumantes.” (a) Você consegue pensar em por que
essa afirmação poderia ser enganosa? Sugestão: Faça uma lista de seis fatores que você considera que
poderiam causar acidentes de carros. Fumar faz parte dessa lista? (b) Você consegue estabelecer uma
ligação causal entre o ato de fumar e a ocorrência de acidentes de carros?
1.13 Um anúncio de serviço de telefonia celular alegou que seu percentual de “chamadas interrompidas”
era significativamente menor comparado ao de seu concorrente. Na primeira divulgação, os percen-
tuais eram de 1,2% contra 1,4%. Essa redução pode ser considerada relevante para os clientes, em
oposição ao termo significante?
1.14 Quais problemas éticos ou lógicos você pode detectar nesses cenários hipotéticos?
a. Uma empresa de consultoria conclui que seus funcionários não são leais porque alguns e-mails
enviados por eles continham comentários críticos sobre a direção da empresa.
b. Uma empresa de consultoria financeira emite um relatório elogiando suas previsões do mercado de
ações, com base no testemunho de cinco clientes satisfeitos.
c. Cinco funcionários da área sanitarista de determinado hospital são encarregados de experimentar
um novo produto de limpeza para verificar a possibilidade deste provocar algum efeito alérgico ou
nocivo.
d. Um grupo de consumidores considera o novo modelo de embarcação de de­terminado fabricante
“inaceitável”, pois dois jovens perderam o controle da direção e colidiram nas docas.
1.15 Em 2007, em Nova Jersey, um estudo de 231.164 pacientes cardíacos demonstrou que a taxa de mor-
talidade nos três anos seguintes foi de 12% nos pacientes que sofreram ataque num dia de semana,
comparado aos 12,9% entre os que sofreram ataque nos fins de semana. Essa diferença foi considera-
da estatisticamente significante. (a) Alguém afirmou que a diferença era muito pequena para ter algu-
ma importância prática. Você concorda com essa afirmação? Explique. (Vide The New York Times, 15
de março de 2007, p. A19).
1.16 Em 2003, o estado da Pensilvânia rejeitou uma lei que exigia que motociclistas usassem capacete. Em
2008, uma manchete de jornal relatou que as mortes haviam subido assustadoramente após a rejeição
da lei. Depois de ler o artigo, alguém afirmou que se tratava apenas de uma correlação, e não de um
nexo de causalidade. Você concorda com essa afirmação? Explique. (Vide The New York Times, 24 de
junho de 2008, p. D6).

Estatística é a ciência de coletar, organizar, analisar, interpretar e apresentar dados. Um estatístico é Resumo
um bacharel em Estatística, ao passo que um analista de dados é qualquer pessoa que trabalhe com
dados. Estatística descritiva é a coleção, organização, apresentação e resumo de dados com gráficos
ou resumos numéricos. Inferência estatística refere-se à generalização de uma amostra para uma
população, obtendo conclusões e tomando decisões. Estatística é usada em todos os ramos da admi-
nistração. Desafios estatísticos incluem dados imperfeitos, restrições de ordem prática e dilemas
éticos. As ferramentas estatísticas são utilizadas para testar teorias com base em dados empíricos. As
armadilhas incluem amostras não aleatórias, porte incorreto de amostras e ausência de ligações cau-
sais. O campo da estatística é relativamente novo e continua a crescer à medida que as fronteiras
matemáticas se expandem.

dados empíricos, 14 estatístico, 4 pensamento crítico, 14 Termos-chave


estatística, 4 generalizações estatísticas, 16 post hoc fallacy, 15
estatística descritiva, 6 inferência estatística, 6

1. Defina: (a) estatística (medida); (b) estatística (campo). Revisão


2. Liste três razões para estudar estatística.
3. Enumere três aplicações da estatística.

01_capitulo_01.indd 17 05/08/2014 12:11:01


18    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

4. Cite quatro habilidades necessárias para o estatístico. Por que elas são importantes?
5. Enumere três desafios práticos encontrados por estatísticos.
6. Liste três desafios éticos encontrados por estatísticos.
7. Cite cinco armadilhas ou erros lógicos que um estatístico descuidado pode cometer.

EXERCÍCIOS DO CAPÍTULO
1.17 Uma pesquisa com calouros mostrou que a maioria concordava fortemente com a afirmação “Tenho
medo de estatística”. Como essa atitude pode existir entre alunos que ainda não tiveram aulas de es-
tatística? Haveria uma postura similar com relação às aulas de ética? Explique seu raciocínio.
1.18 Segundo normas recentes do FDA (U.S. Food and Drug Administration — Departamento de Admi-
nistração de Drogas e Alimentos dos Estados Unidos) relacionadas com a contaminação de alimentos,
3,5 onças2* de molho de tomate podem conter até 30 ovos de moscas e 11 onças de farinha de trigo
podem conter 450 fragmentos de insetos. Como a amostragem estatística pode ser utilizada para ve-
rificar se essas normas não estão sendo violadas pelos produtores? (www.fda.gov)
1.19 Uma consultora de estatística foi contratada por um fornecedor de roupa de cama e banho para anali-
sar uma pesquisa com gerentes de compras de hospitais. Após observar os dados, ela percebeu que
várias áreas geográficas importantes haviam sido omitidas e outras, que não pertenciam à região de
interesse, tinham sido incluídas. Algumas questões de interesse eram ambíguas. Alguns dos entrevis-
tados não responderam a todas as questões e deram respostas inconsistentes (um gerente disse que
trabalhava 40 horas por dia). Dos mil questionários enviados pelo correio, somente 80 foram devolvi-
dos. (a) Quais alternativas tem a consultora estatística? (b) Uma análise imperfeita seria melhor que
nenhuma análise?
1.20 Ergonomia é a ciência que procura assegurar que os ambientes de trabalho estejam adaptados às ne-
cessidades do trabalhador. Qual poderia ser o papel da estatística nas situações a seguir:
a. Escolher a altura de uma cadeira de escritório de forma que 95% dos funcionários (homens e mu-
lheres) sintam que é a “altura certa” para que suas pernas atinjam o chão confortavelmente.
b. Desenvolver uma furadeira de impacto tal que seus controles possam ser manuseados e sua força
operada por um “funcionário médio”.
c. Definir a largura de uma porta de entrada a fim de que uma cadeira de rodas padrão possa passar
sem que se aproxime a menos de 6 polegadas de cada lado.
d. Definir a largura de vagas de estacionamento em um Walmart local para que seja possível acomo-
dar 95% de todos os veículos.
e. Escolher o tamanho das letras de uma placa de estrada para que ela possa ser lida à luz do dia a uma
distância de 100 metros por 95% dos motoristas.
1.21 A análise de 1.064 mortes de músicos populares e famosos (rock, punk, rap, blues, música eletrônica
e new age) mostrou que 31% estavam ligadas ao abuso de álcool ou drogas. Alguém afirmou que se
tratava apenas de uma amostra e que esses números não provavam nada. Você concorda com essa
afirmação? Explique. (Vide Scientific American, novembro de 2007, p. 34).
1.22 Um estudo recente mostrou que mulheres que moravam perto de uma via expressa apresentavam uma
taxa de artrite reumatoide elevada e incomum. Alguém afirmou que elas deveriam se mudar para al-
gum lugar distante de vias expressas. Há alguma falácia nessa conclusão? Explique.
1.23 Alguém afirmou que capacetes de hockey são desnecessários e disse que ninguém do seu time jamais
sofreu algum ferimento na cabeça. Existe alguma falácia nessa afirmação? Explique.
1.24 Em 2009, um estudo europeu de milhares de homens demonstrou que o controle do PSA para o câncer
de próstata reduziu o risco de morte decorrente desse tipo de tumor de 3% para 2,4%. Alguém disse
que já se tratava de um risco pequeno e que uma diferença de menos de 1% não representava impor-
tância prática. Você concorda com essa conclusão? Explique. (Vide The New York Times, 24 de março
de 2009, p. D5).
1.25 Uma pesquisa mostrou que 7% de estudantes com notas altas (Grau A) fumam, ao passo que aproxi-
madamente 50% dos estudantes com notas baixas (Grau D) fumam. (a) Liste, em ordem de importân-
cia, seis fatores que você considera que poderiam afetar as notas. O fumo faz parte da sua lista? (b) Se
fumar não é uma provável causa de notas baixas, você saberia explicar os resultados observados? (c)
Assumindo que essas estatísticas estejam corretas, alunos com notas baixas que abandonassem o ví-
cio melhorariam suas notas? Por quê?
1.26 Uma pesquisa realizada pela Agency for Healthcare Research Quality (Agência de Pesquisa em Qua-
lidade de Saúde) mostrou que adolescentes que assistem a mais de quatro horas de TV por dia são
cinco vezes mais propensos a começar a fumar do que aqueles que assistem a menos de duas horas de
TV diariamente. Os pesquisadores especulam que o reconhecimento pessoal e social de atores fu-
mantes retratados pela TV é um método indireto efetivo de promoção do tabaco. (Nota: Anúncios de
TV ­pagos promovendo o fumo são ilegais.) Enumere, por ordem de importância, seis fatores que você
*
  N. de R.T.: Onça é uma unidade de medida (1 onça = 28 g).

01_capitulo_01.indd 18 05/08/2014 12:11:01


Capítulo 1   VISÃO GERAL DA ESTATÍSTICA   19

acredita que estimulem os adolescentes a começar a fumar. Fumantes atraentes retratados pela TV
fazem parte de sua lista? (Dados de AHRQ Newsletter, n. 269, p. 12, jan. 2003).
1.27 O GMAT (Graduate Management Admission Test) é um teste utilizado por muitos programas de
pós-graduação em administração dos EUA como um dos critérios para admissão de novos estudan-
tes. Pontuações GMAT obtidas por alunos egressos de várias carreiras da graduação são apresenta-
dos a seguir. Usando seu raciocínio e os conceitos deste capítulo, critique cada uma das seguintes
afirmativas:
a. “Alunos da área de filosofia não devem se interessar muito por administração, uma vez que poucos
prestam o GMAT.”
b. “Um número maior de alunos cursa engenharia em vez de inglês.”
c. “Se alunos de marketing seguissem a carreira de física, suas notas no GMAT seriam maiores.”
d. “Alunos de física seriam os melhores administradores.”

Pontuações GMAT e carreiras de graduação, 1984-1989  GMAT

Carreira Pontuações GMAT média Número de alunos fazendo o teste


Contabilidade 483 25.233
Ciência da computação 508 7.573
Economia 513 16.432
Engenharia 544 29.688
Inglês 507 3.589
Finanças 489 20.001
Marketing 455 15.925
Filosofia 546 588
Física 575 1.223
Fonte: Graduate Management Admission Council. Admission Office Profile of Candidates, p. 27-30, out. 1989.

1.28 (a) Qual das duas formas de apresentação (tabela ou gráfico) é a mais útil para visualizar a relação
entre o tamanho (em área) do restaurante e a lotação (número de cadeiras) para 74 unidades da cadeia
de restaurantes Noodles? Justifique sua resposta. (b) Você vê algo incomum nos dados? (Fonte: Noo-
dles & Company.)  NoodlesSqFt

Número de restaurantes em cada categoria (74 restaurantes)

Área (em pés quadrados) no interior do restaurante

Nº de assentos 1.000 < 1.750 1.750 < 2.500 2.500 < 3.250 3.250 < 4.000 Total da linha
105 < 130 0  0  0 3  3
  80 < 105 0  4 17 0 21
  55 < 80 0 21 24 0 45
  30 < 55 1  4  0 0  5
Total da coluna 1 29 41 3 74

Tamanho do restaurante e lotação


130
Número de assentos

105

80

55

30
1.000 1.750 2.500 3.250 4.000
Área interior do restaurante (em pés quadrados)

01_capitulo_01.indd 19 05/08/2014 12:11:01


20    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

1.29 (a) Qual das duas formas de apresentação (tabela ou gráfico) é a mais útil para descrever as vendas do
prato de salada realizadas pela Noodles & Company? Por quê? (b) Elabore um resumo dos dados em
apenas uma frase. (Fonte: Noodles & Company.)  NoodlesSalad

Média diária de pratos de salada vendidos por mês em 2005, Noodles & Company

Mês Pratos de salada Mês Pratos de salada


Jan. 2.847 Jul. 2.554
Fev. 2.735 Ago. 2.370
Mar. 2.914 Set. 2.131
Abr. 3.092 Out. 1.990
Mai. 3.195 Nov. 1.979
Jun. 3.123 Dez. 1.914

Média das vendas diárias de pratos de salada da Noodles & Company


3.500
3.000
2.500
2.000
1.500
1.000
500
0
Jan. Fev. Mar. Abr. Mai. Jun. Jul. Ago. Set. Out. Nov. Dez.

1.30 Escolha três dentre os seguintes estatísticos e use a Web para encontrar alguns fatos básicos sobre
eles (por exemplo, cite algumas de suas contribuições para a estatística, quando desenvolveram seus
trabalhos, se ainda estão vivos etc.).

Florence Nightingale John Wilder Tukey Genichi Taguchi


Gertrude Cox William Cochran Helen Walker
Sir Francis Galton Siméon Poisson George Box
W. Edwards Deming S. S. Stevens Sam Wilks
The Bernoulli family R. A. Fisher Carl F. Gauss
Frederick Mosteller George Snedecor William S. Gosset
William H. Kruskal Karl Pearson Thomas Bayes
Jerzy Neyman C. R. Rao Bradley Efron
Egon Pearson Abraham De Moivre
Harold Hotelling Edward Tufte

Leituras Guias práticos


Baker, Stephen. The Numerati. Houghton-Mifflin, 2008.
relacionadas
Best, Joel. Stat-Spotting: A Field Guide to Dubious Data. University of California Press, 2008.
Davenport, Thomas H.; and Jeanne G. Harris. Competing on Analytics: The New Science of Winning. Har-
vard Business School Press, 2007.
Dodge, Yadolah. The Concise Encyclopedia of Statistics. Springer, 2008.
Everitt, B. S. The Cambridge Dictionary of Statistics. 2nd ed. Cambridge University Press, 2002.
Fung, Kaiser. Numbers Rule Your World: The Hidden Influence of Probabilities and Statistics on Everything
You Do. McGraw-Hill, 2010.
John, J. A.; and D. Whitaker. Statistical Thinking in Business. 2nd ed. Chapman and Hall, 2005.
Newton, Rae R. Your Statistical Consultant. Sage Publications, 1999.

01_capitulo_01.indd 20 05/08/2014 12:11:02


Capítulo 1   VISÃO GERAL DA ESTATÍSTICA   21

Sahei, Hardeo; and Anwer Khurshid. Pocket Dictionary of Statistics. McGraw-Hill, 2002.
Seife, Charles. Proofiness: The Dark Arts of Mathematical Deception. Viking, 2010.
Utts, Jessica. “What Educated Citizens Should Know About Statistics and Probability.” The American
Statistician 57, no. 2 (May 2003), pp. 74-79.

Ética
Badaracco, Joseph L., Jr. Defining Moments: When Managers Must Choose between Right and Right. Har-
vard Business School Press, 1997.
Gardner, Howard; Mihaly Csikszentmihalyi; and William Damon. Good Work: When Excellence and
Ethics Meet. Basic Books, 2001.
Hartman, Laura P. Perspectives in Business Ethics. McGraw-Hill, 2002.
Nash, Laura L. Good Intentions Aside: A Manager’s Guide to Resolving Ethical Problems. Harvard Busi-
ness School Press, 1990.
Seglin, Jeffrey L. The Right Thing: Conscience, Profit and Personal Responsibility in Today’s Business.
Spiro Press, 2003.
Vardeman, Stephen B.; and Max D. Morris. “Statistics and Ethics: Some Advice for Young Statisticians.”
The American Statistician 57 (February 2003), pp. 21-26.

CAPÍTULO 1  Recursos de Aprendizagem Online


www.grupoa.com.br

Depois de cadastrado no site do Grupo A (www.grupoa.com.br), procure pela página deste livro
e clique no ícone de Conteúdo Online para ter acesso a diversas demonstrações do Learning
Stats (em inglês). Seu professor poderá recomendar algumas delas ou você poderá fazer o
down­load daquelas que julgar mais interessantes.

Tópicos Conteúdo
Microsoft Office
®
  Sugestões Excel
  Sugestões Word
  Sugestões PowerPoint
Excel   Funções Excel
Revisão matemática   Revisão matemática
  Dígitos significativos
Material da Web   Recursos da web
  Aplicativos estastísticos

Legenda:  = PowerPoint   = PDF   = Excel

01_capitulo_01.indd 21 05/08/2014 12:11:03


CAPÍTULO 2

COLETA DE DADOS

Conteúdo

2.1 Definições
2.2 Escala de medida
2.3 Conceitos de amostragem
2.4 Métodos de amostragem
2.5 Fontes de dados
2.6 Pesquisas investigativas

Objetivos de aprendizagem

OA 2-1 Utilizar a terminologia básica para descrever dados e amostras.


OA 2-2 Distinguir entre dados por atributos e dados numéricos.
OA 2-3 Entender a diferença entre dados de séries temporais e dados
transversais.
OA 2-4 Reconhecer níveis de medida dos dados e maneiras de codificá-los.
OA 2-5 Identificar uma escala Likert e saber utilizá-la.
OA 2-6 Utilizar a terminologia correta para amostras e populações.
OA 2-7 Explicar os métodos de amostragem comuns, bem como a
sua aplicação.
OA 2-8 Encontrar, de forma rotineira, fontes de dados eletrônicos
ou impressos.
OA 2-9 Descrever elementos básicos de elaboração de pesquisas,
tipos de pesquisas e fontes de erros.

22

02_capitulo_02.indd 22 05/08/2014 12:13:22


Em uma pesquisa científica, os dados têm sua origem em experimentos cujos resultados são regis- 2.1
trados de maneira sistemática. Em negócios, os dados têm sua origem, geralmente, em transações
de contabilidade ou em processos administrativos (por exemplo, estoques, vendas e folhas de paga- DEFINIÇÕES
mento). Muitos dos dados que os estatísticos analisam foram armazenados sem considerar explici-
tamente a sua utilidade estatística, mesmo que decisões importantes dependam deles. Quantas OA 2-1
bolsas de sangue do tipo A serão necessárias no Hospital Mt. Sinai na próxima quinta-feira? Quan- Utilizar a terminologia
básica para descrever
to dinheiro uma seguradora deve manter em caixa para cobrir ocorrências automobilísticas no
dados e amostras.
próximo mês de novembro? Quantas blusas amarelas de manga três-quartos serão vendidas por
uma loja neste mês? Para responder a essas questões, costumamos nos reportar a dados históricos.
Observações, variáveis e conjuntos de dados* 
Uma observação é um único elemento de uma coleção de itens que pretendemos estudar, como
um indivíduo, organização ou região. Um exemplo de observação é um funcionário ou uma fatu-
ra emitida no mês anterior. Variável é uma característica do objeto ou funcionário observado,
salto de dados consiste em todos os valores observados das varáveis para todos os indivíduos que
amostramos. Neste livro, usaremos a expressão dados no caso geral, e conjunto de dados para
nos referirmos a uma coleção particular de dados como um todo. Os dados são normalmente
inseridos numa planilha ou banco de dados como uma matriz n × m. Especificamente, cada co-
luna é uma variável (têm-se m colunas) e cada linha corresponde a um indivíduo (têm-se n li-
nhas). A Tabela 2.1 mostra um pequeno conjunto de dados com oito indivíduos (8 linhas) e cinco
variáveis (5 colunas).
Um conjunto de dados pode ser constituído por muitas variáveis. As questões que podem ser
exploradas e as técnicas analíticas usadas dependerão do tipo de dados e do número de variáveis.
Inicialmente, este livro trata de conjuntos de dados univariados (uma variável), depois conside-
ra conjuntos de dados bivariados (duas variáveis) e conjuntos de dados multivariados (mais que
duas variáveis), como mostra a Tabela 2.2.
Tipos de dados  OA 2-2
Distinguir entre dados
Um conjunto de dados pode conter uma mistura de tipos de dados. De modo geral, podem ser
por atributos e dados
consideradas duas categorias: dados por atributos e dados numéricos, conforme ilustrado na numéricos.
Figura 2.1.

*
  N. de T.: Nesta edição, utilizaremos indistintivamente os termos “dados” e “conjunto de dados”. 23

02_capitulo_02.indd 23 05/08/2014 12:13:23


24    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

TABELA 2.1 Caso Nome Idade Renda Cargo Sexo


Pequeno conjunto 1 Frieda 45 $ 67.100 Diretor de pessoal F
de dados multivariados 2 Stefan 32 56.500 Analista de operações M
(5 variáveis, 8 sujeitos)
3 Barbara 55 88.200 Vice-presidente de marketing F
SmallData
4 Donna 27 59.000 Estatístico F
5 Larry 46 36.000 Segurança M
6 Alicia 52 68.500 Controller F
7 Alec 65 95.200 CEO M
8 Jaime 50 71.200 Relações Públicas M

TABELA 2.2 Conjunto de dados Variáveis Exemplo Procedimentos típicos


Número de variáveis e Univariado Uma Renda Histogramas, estatísticas básicas
procedimentos típicos Bivariado Duas Renda, idade Gráficos de dispersão, correlações
Multivariado Mais que duas Renda, idade, gênero Regressão modelo

Dados por atributo  Dados por atributo (também denominados categóricos, nominais ou
qualitativos) têm valores descritos por palavras em vez de números. Por exemplo, tipo de madei-
ra usado em estruturas (peroba, cedrinho, pinho), estilos de automóveis podem ser classificados
pelo tamanho (grande, médio, compacto, subcompacto) e filmes podem ser reconhecidos pela
sua categoria (ação, aventura, infantil, clássico, comédia, documentário).
Você pode pensar que os dados por atributos são de uso estatístico limitado mas, na verdade,
há muitos métodos estatísticos para analisá-los, que serão introduzidos nos próximos capítulos.
O uso de números para representar categorias a fim de facilitar a análise estatística denomina-se
codificação. Por exemplo, um banco de dados pode classificar métodos de pagamento utilizando
números:
1 = dinheiro em espécie  2 = cheque  3 = cartão de crédito/débito  4 = vale-compras

Codificar um atributo com um número não o torna um dado numérico e os números não ne-
cessariamente representam ordenação numérica. Entretanto, em algumas situações, uma ordem
numérica poderá existir. Por exemplo, uma base de dados pode classificar títulos acadêmicos
utilizando números:
1 = Graduação  2 = Mestrado  3 = Doutorado

Algumas variáveis categóricas possuem apenas dois valores, são as chamadas variáveis biná-
rias. Alguns exemplos podem ser citados, tais como contratações trabalhistas (empregado ou
desempregado), espécies de recursos monetários mútuos (tributáveis ou não tributáveis) e estado

FIGURA 2.1
Tipos de dados e exemplos Tipos de dados

Atributos Numéricos
(qualitativos) (quantitativos)

Rótulo nominal Codificada Discreto Contínuo


Número de ovos
Tipo de veículo Tempo de espera
Tipo de veículo quebrados
(automóvel, caminhão, do paciente
(1, 2, 3) (1, 2, 3, ... ,12)
compacto) (14,27 minutos)
Número de visitas
Gênero (binário) Gênero (binário) anuais ao dentista Satisfação do cliente
(masculino, feminino) (0, 1) (0, 1, 2, 3, ...) (85,2%)

02_capitulo_02.indd 24 05/08/2014 12:13:24


Capítulo 2   COLETA DE DADOS   25

civil (atualmente casado ou não). As variáveis binárias são geralmente classificadas usando os
números 1 ou 0. Para esse tipo de variável, a classificação 0-1 é arbitrária; portanto, a escolha é
equivalente. Por exemplo, uma variável como o gênero poderia ser codificada:
1 = mulher 0 = homem
ou
1 = homem 0 = mulher

Dados numéricos  Dados numéricos ou quantitativos provêm de contagem, mensura-


ção de algo ou de algum tipo de operação matemática. Por exemplo, podemos contabilizar o
número de sinistros em seguros de automóveis solicitados em março (114 sinistros), vendas
no último trimestre (US$ 4.920), ou poderíamos medir a quantidade de neve que caiu nas
últimas 24 horas (8,5 cm). A maior parte dos dados de contabilidade, indicadores econômi-
cos e índices financeiros são quantitativos, assim como mensurações físicas.
Os dados numéricos podem ainda ser subdivididos em dois tipos. Uma variável que assume
um número contável de possíveis valores que podem ser representados por um número inteiro
é denominada discreta. Você pode reconhecer dados inteiros porque sua descrição começa
com “número de”. Por exemplo, o número de pacientes no programa Medicaid* na sala de es-
pera de um hospital (X = 2) ou o número de decolagens no Aeroporto Internacional O’Hare de
Chicago, em dada hora (X = 37). Expressamos tais dados como variáveis inteiras porque não é
possível observar um número fracionado de pacientes ou de decolagens.
Uma variável numérica que pode assumir qualquer valor em um intervalo é denominada
contínua. Esse é o caso de medidas físicas (comprimento, peso, tempo, velocidade) e de vari-
áveis financeiras (vendas, ativos, índices preço/rentabilidade, controle de estoque). Por exem-
plo, o tempo do corredor Usain Bolt em 100 metros (9,58 segundos) ou o peso de um pacote
de uvas-passas (427,31 g). Essas são variáveis contínuas, pois cada intervalo, tal como
(425;429) gramas pode conter infinitos valores possíveis. Às vezes, arredondamos uma medi-
da contínua para um número inteiro (por exemplo, 427 gramas); entretanto, isso não torna os
dados discretos.
Aparente ambiguidade entre discreta e contínua é introduzida quando arredondamos dados
contínuos para números inteiros (por exemplo, seu peso esta manhã). Entretanto, a escala de
medida utilizada é contínua. Isto é, no rótulo de um pacote de uvas-passas aparece o peso de 425
g, mas em uma balança de maior precisão seu peso seria um número quebrado (por exemplo,
427,31 g). A precisão depende do instrumento que utilizamos para medir a variável contínua. Em
geral, tratamos dados financeiros (dólares, euros, pesos) como contínuos, ainda que os preços no
varejo variem de 0,01 (por exemplo, vamos de US$ 1,25 para US$ 1,26). O espectro do rádio FM
é contínuo, mas somente certos valores são observados (por exemplo, 104,3) em virtude das re-
gras impostas pelo Federal Communication Commission (órgão norte-americano responsável
pelas concessões de rádio e televisão). Por outro lado, algumas vezes tratamos dados discretos
como se fossem contínuos quando o seu intervalo de variação é muito grande (por exemplo,
pontuações SAT**) e pequenas diferenças (por exemplo, 604 ou 605) não são de muita importân-
cia. Este tópico será discutido em capítulos posteriores. Se estiver em dúvida, procure pensar em
como a variável foi medida e se seus valores são contáveis.

Dados de séries temporais 


Se cada observação na amostra representa um ponto no tempo igualmente espaçado (anos, me- OA 2-3
ses, dias), temos dados de séries temporais. A periodicidade é o tempo entre as observações, que Entender a diferença entre
pode ser anual, trimestral, mensal, semanal, diário, horário etc. Exemplos de dados de séries de dados de séries temporais e
tempo macroeconômicas incluem renda nacional (PIB, consumo, investimento), indicadores e dados transversais.

*
  N. de R.T.: Medicaid é um programa de saúde e assistência social do governo federal dos Estados Unidos para a po-
pulação mais necessitada.
**
  N. de R.T.: SAT é a sigla de Scholastic Aptitude (or Assessment) Test. Em geral, os alunos que saem do ensino médio fazem
o teste antes de se inscrever em universidades, que usam a pontuação para aceitar ou não um aluno.

02_capitulo_02.indd 25 05/08/2014 12:13:24


26    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

econômicos (Índice de Preço ao Consumidor, taxa de desemprego, Índice Standard & Poor’s 500)
e dados monetários (M1, M2, M3, taxa básica [prime rate], taxa do Tesouro norte-americano,
crédito ao consumidor, dívida federal interna). Exemplos de séries de tempo microeconômicas
incluem volume de vendas de uma empresa, divisão do mercado, razão débito/equidade, faltas de
funcionários no trabalho, controle de estoque e índice de qualidade. Em séries temporais, esta-
mos interessados em tendências e padrões ao longo do tempo (por exemplo, falências de 1980 a
2008, conforme Figura 2.2).

Dados transversais 
Se cada observação representa uma unidade individual diferente (por exemplo, uma pessoa, uma
empresa, uma área geográfica) em um mesmo instante de tempo, temos dados transversais.
Assim, exemplos de dados transversais são os números de fatalidades em acidentes de trânsito
nos 50 estados dos Estados Unidos para dado ano, as razões débito/equidade para as empresas
listadas na Fortune 500 no último trimestre de determinado ano, os balanços Visa para novos
candidatos a empréstimos em dado banco ou as notas do GPA* de estudantes em uma aula de
estatística. Para dados transversais, o interesse reside na variação entre observações (por exem-
plo, período de coleta para faturas a receber em 20 franquias da Subway) ou em relações (por
exemplo, se o período de coleta se correlaciona com o volume de vendas em 20 franquias da
Subway). Vide Figura 2.2.
Algumas variáveis (como taxas de desemprego) poderiam ser consideradas tanto dados de
séries temporais (dados mensais para cada um de 60 meses) como dados transversais (taxa de
desemprego em janeiro nas 50 maiores cidades). Podemos combinar os dois (taxas de desempre-
go mensais para as 13 províncias canadenses ou territórios para os últimos 60 meses) para obter
dados transversais e de séries temporais combinados.

FIGURA 2.2
Exemplos de séries temporais versus dados transversais

Dados de séries temporais (n = 28 anos) Dados transversais (n = 20 firmas)


Número de falências nos EUA, 1980-2008 Vendas e contas a receber em 20 firmas
90.000 2.500.000 60
80.000 Empresa
50
Contas a receber

70.000 Consumidor 2.000.000


Consumidor

60.000
(milhares)

40
Empresa

1.500.000
50.000
30
40.000
1.000.000
30.000 20
20.000 500.000 10
10.000
0 0 0
1980 1985 1990 1995 2000 2005 0 200 400 600 800
Volume de vendas (milhares)

Fonte: American Bankruptcy Institute (www.abiworld.org).

EXERCÍCIOS DA SEÇÃO
2.1 Qual é o tipo de dados (categórico, numérico discreto ou numérico contínuo) de cada uma das seguin-
tes variáveis? Se existir qualquer ambiguidade, explique por que a resposta não está clara.
a. O fabricante de seu carro.
b. Sua carreira na faculdade.
c. O número de créditos associados aos cursos que você está fazendo na faculdade.

*
  N. de R.T.: GPA é a sigla de Grade Point Average, que é a nota média de um histórico escolar (em geral, varia de 0 a
4, sendo 4 a nota máxima). Há GPA para o ensino fundamental, o ensino médio e a faculdade.

02_capitulo_02.indd 26 05/08/2014 12:13:25


Capítulo 2   COLETA DE DADOS   27

2.2 Qual é o tipo de dado (categórico, numérico discreto ou numérico contínuo) de cada uma das seguin-
tes variáveis? Se existir qualquer ambiguidade, explique por que a resposta não está clara.
a. A duração de um comercial de TV.
b. O número de amendoins em uma lata de castanhas mistas da marca “Planter”.
c. A ocupação de um candidato a empréstimo hipotecário.
d. Tempo de voo do aeroporto de Heathrow em Londres até o aeroporto de O’Hare em Chicago.
2.3 Qual é o tipo de dado (categórico, numérico discreto ou numérico contínuo) de cada uma das seguin-
tes variáveis? Ser existir alguma ambiguidade, explique por que a resposta não está clara.
a. A quilometragem do odômetro do seu carro.
b. As calorias que você ingeriu no almoço de ontem.
c. O nome da empresa aérea com a tarifa mais barata de Nova York a Londres.
d. A marca do seu telefone celular.
2.4 (a) Cite três exemplos originais de dados discretos. (b) Cite três exemplos originais de dados contínuos­.
Em cada caso, explique e identifique qualquer ambiguidade que possa existir. Dica: Não se limite a
dados publicados. Considere os dados descrevendo a sua própria vida (por exemplo, seu desempenho
nos esportes, seus dados financeiros ou acadêmicos). Não é necessário relacionar todos os dados.
Simplesmente os descreva e exiba alguns valores de dados típicos.
2.5 Qual tipo de dado (temporal ou transversal) seria atribuído para cada variável abaixo?
a. As notas de 50 alunos em uma prova de contabilidade no semestre anterior.
b. O desempenho de Bob em 10 testes semanais do curso de contabilidade no semestre anterior.
c. A média anual de desempenho obtida por todos os participantes do exame CPA* no estado nos úl-
timos dez anos.
d. Número de anos de experiência em contabilidade para cada um dos 15 participantes do CPA em
uma firma.
2.6 Que tipo de dado (série temporal ou transversal) seria atribuído para cada variável abaixo?
a. O índice de valor do preço de 500 ações da Standard & Poor no fechamento de cada dia de transa-
ção comercial do ano, durante o ano passado.
b. O preço de fechamento de cada uma das 500 ações da S&P em cada dia de transação comercial
realizada nesta semana.
c. Os dividendos de participação pagos pela General Electric no mercado de ações nos 20 últimos
trimestres.
d. A proporção de preço/ganhos de 10 ações no portfólio de aposentadoria de Bob.
2.7 Que tipo de dado (série temporal ou transversal) seria atribuído para cada variável abaixo?
a. O PIB do México para cada um dos últimos 10 trimestres.
b. A taxa de desemprego em cada um dos 31 estados do México no final do ano passado.
c. A taxa de desemprego no México no final de cada um dos últimos 10 anos.
d. O valor médio de cada residência em cada uma das 10 maiores cidades mexicanas atualmente.
2.8 Cite um exemplo original de uma variável temporal e de uma variável transversal. Faça uso de sua
própria experiência (por exemplo, suas atividades esportivas, finanças, estudos).

Algumas vezes, os estatísticos se referem a quatro escalas de medida para os dados: nominal, 2.2
ordinal, intervalar e razão. Essa tipologia foi proposta há mais de 60 anos pelo psicólogo S. S.
Stevens. A adequação dos testes estatísticos depende da escala de medida. Esses critérios estão ESCALA DE
representados na Figura 2.3. MEDIDA
Escala nominal 
OA 2-4
A mais simples e mais fácil de ser reconhecida. Dados nominais (do latim nomen, que significa
Reconhecer níveis de
“nome”) simplesmente identifica uma categoria; dados do tipo “nominal” são o mesmo que medida dos dados e
“qualitativo”, “categórico” ou dados de “classificação”. Para se certificar de que os atributos são maneiras de codificá-los.
coletivamente exaustivos, é comum utilizar o termo Outros como último item na classificação.
Por exemplo, as seguintes perguntas elaboradas numa pesquisa produzem dados nominais:
Você entrou com um pedido de sinistro do seu seguro no mês passado?
1. Sim 2. Não

*
  N. de R.T.: CPA é a sigla de Certified Public Accountant, um dos requisitos para atuar como contador público nos
EUA.

02_capitulo_02.indd 27 05/08/2014 12:13:25


28    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

FIGURA 2.3
Determinar o nível de medidas

Qual é o nível de medida? Existe uma ordenação


natural nos dados?

Não Sim

Dados nominais Faz sentido a


Dados qualitativos – apenas distância na escala?
apresentar contagem
(frequências de ocorrências) Não Sim
Exemplo: formas de transação
comercial para fins de
tributação federal Dados ordinais
• proprietário de firma individual Considerar contagem e Ponto zero
(1.040 C) estatísticas de ordem significativo?
• corporação (1.120) (classificação)
• sociedade (1.065) Não Sim
• sociedade isenta de tributação Exemplo: Moody’s
(1.120 S) Bond ratings
• sociedade financeira (1.041) • Aaa
Dados intervalares Dados de razão
• instituição sem fins lucrativos • Aa
(990) •A Pode-se calcular somas e Pode-se calcular qualquer
• Baa diferenças (média, desvio operação matemática
• Ba padrão)
• Caa-C
(média, desvio padrão,
Exemplo: escala Likert razões, logaritmos)
Classifique a qualidade da Exemplo: visitas anuais
comida na sua universidade ao dentista
Muito ruim 1 2 3 4 5 Muito boa 0, 1, 2, 3, ...

Que companhia de telefonia celular você usa?


1. AT&T 2. Sprint-Nextel 3. T-Mobile 4. Verizon 5. Outras
Geralmente, codificamos dados nominais de forma numérica. Entretanto, os códigos são
a­ rbitrários e sem nenhum significado numérico, portanto não é apropriado realizar análises
­matemáticas para esses dados. Por exemplo, não devemos calcular a média para os dados de
telefonia c­ elular (respostas de 1 a 5). Apesar de isso ser óbvio, é comum encontrarmos pessoas
que façam esse tipo de análise. Uma vez que os dados estão digitados no computador, é fácil
esquecer que os “números” estão apenas representando categorias. Com dados nominais, as
únicas operações matemáticas permitidas são contagens (por exemplo, frequências) e algumas
poucas estatísticas ­simples, como a moda.
Escala ordinal 
Dados ordinais pressupõem a possibilidade de ordenação dos valores. Por exemplo:
Qual é o tamanho do automóvel que você costuma dirigir?
1. Grande 2. Compacto 3. Subcompacto
Com que frequência você usa o Microsoft Access?
1. Frequentemente 2.  Algumas vezes 3. Raramente 4. Nunca
Assim, um valor 2 (Compacto) implica um carro maior que um valor 3 (Subcompacto). Da
mesma forma que dados nominais, os códigos numéricos ordinais não têm propriedades necessá-
rias para calcular muitas estatísticas, como a média. Especificamente, não existe significado claro
para a distância entre 1 e 2, ou entre 2 e 3, ou ainda entre 3 e 4 (qual seria a distância entre “Rara-
mente” e “Nunca”?). Outros exemplos de escalas ordinais podem ser encontrados em um processo
de recrutamento de candidatos a um emprego (excepcional, bom, adequado, fraco, insatisfatório),
classificação de créditos Standard & Poor´s (AAA, AA+, AA, AA–, A+, A, A–, B+, B, B– etc.) ou
classificação funcional no trabalho (presidente, vice-presidente, gerente de fábrica, chefe de depar-
tamento, escriturário). Dados ordinais podem ser tratados como nominais, mas o inverso não é
correto. Dados ordinais são comuns especialmente em ciências sociais, marketing e pesquisa em
recursos humanos. Existem muitos testes estatísticos úteis para esse tipo de dados.

02_capitulo_02.indd 28 05/08/2014 12:13:25


Capítulo 2   COLETA DE DADOS   29

Escala intervalar 
O próximo tipo de escala de medida refere-se a dados intervalares, que são ordenáveis e os
intervalos entre pontos da escala têm significado. Como exemplos, têm-se as ­escalas de tem-
peratura Celsius ou Fahrenheit. O intervalo entre 60 e 70 ºF é o mesmo que entre 20 e 30 ºF.
Uma vez que os intervalos entre os números representam distâncias, podemos realizar opera-
ções matemáticas como a média. No entanto, como o valor zero (a origem) dessas escalas é
arbitrário, não podemos dizer que 60 ºF é duas vezes mais quente que 30 ºF, ou que 30 ºF é 50%
mais quente que 20 ºF. Isto é, razões não fazem sentido para dados intervalares; a ausência de
um zero significativo é uma característica-chave desses dados.
Escalas Likert  Um caso especial de dados intervalares é a escala Likert, utilizada com fre-
quência em pesquisas investigativas. Certamente você já se deparou com escalas desse tipo.
Geralmente, faz-se uma afirmação e o entrevistado é solicitado a indicar a sua concordância/
discordância em uma escala de cinco ou sete pontos, usando âncoras verbais. A grossura de uma
escala Likert é a definição do número de pontos na escala (tipicamente 5 ou 7). Por exemplo:
“Estudantes avançados do ensino médio deveriam ser obrigados a estudar uma língua estrangeira.” OA 2-5
(escolha uma das alternativas)
Identificar uma escala
     Likert e saber utilizá-la.
Concordo plenamente Concordo Não concordo nem discordo Discordo Discordo plenamente
Uma opção central neutra (“Não concordo nem discordo”) é fornecida se utilizarmos um
número ímpar de pontos na escala (em geral, 5 ou 7). Ocasionalmente, investigações podem
omitir a opção central neutra para forçar o entrevistado a pender para um lado ou para outro.
Dados na escala Likert são codificados de forma numérica (por exemplo, de 1 a 5), mas quaisquer
valores igualmente espaçados funcionarão, como mostra a Tabela 2.3.

Escala 1 a 5 na codificação Likert Escala –2 a +2 na codificação Likert TABELA 2.3


5 = Ajudará muito +2 = Ajudará muito Exemplos de
4 = Ajudará um pouco +1 = Ajudará um pouco codificações na escala
3 = Não afetará o clima de investimento 0 = Não afetará o clima de investimento Likert: “Como uma
mudança na inflação
2 = Prejudicará um pouco –1 = Prejudicará um pouco
afeta o clima de
1 = Prejudicará muito –2 = Prejudicará muito investimento?”

No entanto, os dados na escala Likert podem ser qualificados como medidas de intervalo? Ao
escolher as âncoras verbais de forma cuidadosa, os pesquisadores acreditam que os intervalos
são os mesmos (por exemplo, a distância de 1 a 2 é “a mesma” do intervalo, digamos, de 3 a 4).
Note, porém, que o quociente entre eles não tem significado (isto é, aqui, o valor 4 não é duas
vezes 2). A suposição de que as escalas Likert produzem dados intervalares justifica o uso de um
grande número de cálculos estatísticos, incluindo médias, correlações e assim por diante. Pesqui-
sadores costumam utilizar muitas variantes dessa escala.
“Como você avalia seu provedor de internet?” (escolha uma alternativa)
 Péssimo  Ruim  Regular  Bom  Excelente
Em vez de rotular todas as respostas para cada categoria, muitas pesquisas de marketing utilizam
âncoras verbais apenas no início e no fim. Isso evita rótulos de escala intermediários e permite qual-
quer número de pontuação. Por exemplo, a Vail Resorts inclui a seguinte pergunta na pesquisa de sa-
tisfação do cliente utilizada em suas estações de esqui. Essa pergunta faz parte de uma escala Likert
com 11 respostas, âncoras verbais no início e no fim e uma âncora neutra no meio.
“Numa escala de probabilidade de 0 a 10, quanto você recomendaria este resort para seus amigos e
familiares?”
0 1 2 3 4 5 6 7 8 9 10
          
Muito provavelmente Indiferente Muito provavelmente
não recomendaria recomendaria
Os dados Likert são normalmente discretos, mas algumas pesquisas na web utilizam, atual-
mente, uma escala de respostas contínua que permite ao respondente posicionar um “indicador”

02_capitulo_02.indd 29 05/08/2014 12:13:26


30    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

em qualquer ponto da escala para produzir dados contínuos (na verdade, o número de posições é
finito, mas é bastante grande). Por exemplo:
Likert (usando a escala de pontos) Likert (usando um indicador)
Muito Ruim 1 2 3 4 5 6 7 Muito Bom Muito Ruim            Muito  Bom

Escala razão 
Escala mais forte de mensuração. Dados de razão têm todas as propriedades dos outros três ti-
pos de dados e, além delas, o valor zero, isto é, a origem é significativa, representando a ausên-
cia da quantidade que está sendo medida. Em decorrência do ponto zero, dados de razões de
valores são muito significativos (por exemplo, US$ 20 milhões em lucro é o dobro de US$ 10
milhões). Dados de balanço, folhas de pagamento, taxas financeiras, medidas físicas, mensura-
ções científicas e a maioria das medidas em engenharia são dados de razão porque o zero tem
um significado (por exemplo, uma companhia com zero de vendas significa que não vendeu
nada). Ter um ponto zero não nos restringe a dados positivos. O lucro é uma variável razão (por
exemplo, US$ 4 milhões é duas vezes US$ 2 milhões) e ainda assim as empresas podem ter lu-
cros negativos.
O ponto zero não tem de ser observável nos dados. Bebês recém-nascidos, por exemplo, não
podem ter peso zero, ainda que os pesos de bebês sejam claramente dados de razão (isto é, um
bebê pesando 8 lb é 33% mais pesado que um bebê pesando 6 lb). O que interessa é que o zero é
um ponto de referência absoluto. A escala de temperatura Kelvin é uma medida razão porque seu
zero absoluto representa a ausência de vibração molecular, ao passo que o zero na escala Celsius
é uma mera conveniência (note que 30°C não é “o dobro da temperatura” de 15°C).
A ausência de um zero verdadeiro, muitas vezes, é o teste mais rápido para desmascarar
variá­veis que aparentam ser dados de razão. Por exemplo, uma escala Likert (+2, +1, 0, −1, −2)
não é um dado de razão, apesar da presença do zero, porque o ponto zero (neutro) não tem a co-
notação de ausência de alguma coisa. Para testar, pergunte-se se a marca 2 (concordo plenamen-
te) representa o dobro de “concordância” relativamente à marca 1 (concordo em parte). Algumas
classificações são discutíveis. Por exemplo, o GPA para o ensino superior tem um zero, mas esse
valor representa ausência de aprendizado? A nota 4,00 representa “o dobro” de aprendizado com-
parativamente à nota 2,00? Existe alguma realidade subjacente oscilando entre 0 e 4 nos critérios
que usamos como medida? A maioria acredita que sim, embora o procedimento conservador
seria o de nos limitarmos a testes estatísticos que assumam apenas dados ordinais.
Apesar de os livros elementares de estatística geralmente enfatizarem dados intervalares ou
de razão, existem livros-texto que enfatizam outros tipos de dados, principalmente em pesquisas
de comportamento (por exemplo, psicologia, sociologia, marketing e recursos humanos).
Alterando dados por meio de recodificação 
Podemos recodificar medidas razão para níveis inferiores transformando-as em medidas ordi-
nais ou nominais (mas não o contrário). Por exemplo, os médicos podem classificar a pressão
sistólica como “normal” (abaixo de 130), “elevada” (de 130 a 140), ou “alta” (140 ou mais). Os
dados recodificados são ordinais, uma vez que a ordenação fica preservada. Os intervalos podem
ser desiguais, por exemplo, controladores de tráfego aéreo nos Estados Unidos classificam os
aviões como “pequenos” (abaixo de 41.000 lb), “grandes” (41.001 lb a 254.999 lb), e “pesados”
(255.000 lb ou mais). Essa recodificação é feita para simplificar os dados quando a magnitude
exata deles é de pouco interesse; porém, perde-se informação ao se agrupar medidas mais fortes
com mais fracas.
EXERCÍCIOS DA SEÇÃO
2.9 Qual é o tipo de dado (nominal, ordinal, intervalar, razão) para cada uma das variáveis apresentadas
a seguir? Explique.
a. Número de batidas no Jogo 1 da próxima Série Mundial de Beisebol.
b. Colocação do time de beisebol de Baltimore na American League East (entre sete times).
c. Posição no campo de um jogador de beisebol (catcher, pitcher etc.).
d. Temperatura no início de um dia (Celsius).
e. Salário de um pitcher, selecionado ao acaso, da American League East de Beisebol.
f. Tráfego em rodovias no início de um dia (leve, médio, pesado).

02_capitulo_02.indd 30 05/08/2014 12:13:26


Capítulo 2   COLETA DE DADOS   31

2.10 Qual é o tipo de dado (nominal, ordinal, intervalar, razão) para cada uma das variáveis apresentadas
a seguir? Explique.
a. Número de funcionários em uma loja Walmart em Hutchinson, Kansas.
b. Número de mercadorias retornadas em uma segunda-feira escolhida ao acaso na loja Walmart.
c. Temperatura (em Fahrenheit) na geladeira de sorvetes na loja Walmart.
d. Nome do funcionário na caixa registradora 3 na loja Walmart.
e. Ano de nascimento do funcionário na caixa registradora 3 na loja Walmart.
f. Número do seguro social do funcionário na caixa registradora 3 na loja Walmart.
2.11 Dê um exemplo original de cada tipo de dado (nominal, ordinal, intervalar, razão) de sua rotina diária
(por exemplo, suas finanças, atividades esportivas, educação).
2.12 Qual é o tipo de dado (nominal, ordinal, intervalar, de razão) para a resposta a cada questão apresen-
tada a seguir? Se você considera o nível de mensuração ambíguo, explique por quê.
a. Como você descreveria o nível de sua habilidade no uso do Excel? (escolha apenas uma alternativa)
 Baixo  Médio  Alto
b. Com que frequência você usa o Excel? (escolha apenas uma alternativa)
 Raramente    Frequentemente     Muito frequentemente
c. Qual é a versão do Excel que você usa? (escolha apenas uma alternativa)
 2003  2007  2010  Outra
d. Costumo utilizar o Excel durante       horas por dia.
2.13 A Vail Resorts utiliza diversos tipos de escalas e perguntas em suas pesquisas. Segue uma pergunta,
extraída de uma pesquisa de satisfação dos clientes, que usa uma escala de cinco pontos. (a) A escala de
medida para os dados coletados a partir dessa questão seria nominal, ordinal, intervalar ou escala razão?
(b) Ela seria apropriada para calcular uma classificação média para os diversos itens? Explique. (c) Seria
melhor utilizar uma escala de 10 pontos? Explique. (Fonte: Vail Resorts, Inc. Utilização autorizada.)
“Classifique o seu grau de satisfação em diversos aspectos a partir de sua experiência atual, onde
1 = Extremamente insatisfeito e 5= Extremamente satisfeito.”

1. Avaliação do preço: 1 2 3 4 5
2. Tempo de espera para compra de bilhete (na entrada do teleférico): 1 2 3 4 5
3. Simpatia/eficiência dos operadores: 1 2 3 4 5
4. Tempo de espera para embarque no teleférico: 1 2 3 4 5
5. Variedade de trilhas: 1 2 3 4 5
6. Cobertura de neve nas trilhas: 1 2 3 4 5
7. Número de pessoas nas trilhas: 1 2 3 4 5
8. Qualidade da sinalização das trilhas: 1 2 3 4 5
9. Atenção à segurança dos esquiadores: 1 2 3 4 5
10. Visibilidade da patrulha de esqui: 1 2 3 4 5

2.14 (a) A escala de medida para os dados coletados da seguinte pergunta, extraída de uma pesquisa reali-
zada pela Microsoft®, seria nominal, ordinal, intervalar ou escala razão? (b) Uma resposta de grau
“6”, seria considerada duas vezes melhor, comparada a uma resposta de grau “3”? Por quê? (c) Uma
escala de 1 a 5 seria adequada? Explique.

Pesquisa de qualidade do suporte


Por favor, classifique, de um modo geral, a qualidade do suporte recebido da Microsoft neste
quesito em especial, utilizando uma escala de 9 pontos, na qual 9 significa Excelente e
1 significa Muito ruim
Excelente Muito Ruim Não sei
9 8 7 6 5 4 3 2 1
         

Há quase 2 milhões de varejistas nos Estados Unidos. Não seria possível para os pesquisadores 2.3
de mercado avaliar todos eles de forma oportuna e eficaz. Entretanto, desde 2001, uma nova
empresa chamada ShopperTrak RCT (www.shoppertrak.com) vem mensurando compras numa CONCEITOS DE
amostra de 45 mil pequenas lojas, e utilizando essa informação para avisar rapidamente os AMOSTRAGEM

02_capitulo_02.indd 31 05/08/2014 12:13:26


32    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

clientes sobre mudanças nas tendências do perfil de consumo. Essa aplicação da amostragem é
parte de um campo relativamente novo, o da retail intelligence. Nesta seção, você aprenderá as
diferenças entre uma amostra e uma população, e por que, às vezes, uma amostra é necessária
ou desejável.

OA 2-6 População ou amostra?


Utilizar a terminologia correta
para amostras e populações. População 
Todos os itens nos quais estamos interessados. Podem ser finitos (por exemplo, to-
dos os passageiros de um avião específico), ou efetivamente infinitos (por exemplo,
toda a produção de refrigerante num processo de engarrafamento).
Amostra Um subconjunto da população que de fato analisaremos.

Amostra ou censo? 
Uma amostra envolve analisar somente alguns itens selecionados da população, mas um censo é
um exame de todos os itens em uma população definida. A acurácia de um censo pode ser ilusó-
ria. Por exemplo, o censo dos Estados Unidos, realizado a cada dez anos, não pode localizar todos
os indivíduos nesse país (estima-se que o censo de 1990 perdeu 8 milhões de pessoas, enquanto
se acredita que o de 2000 contou em excesso 1,3 milhão de pessoas). As causas incluem a extre-
ma mobilidade da população norte-americana e o fato de que algumas pessoas não desejam ser
encontradas (por exemplo, os imigrantes ilegais) ou não devolvem os formulários do censo en-
viados por correio. Além disso, restrições orçamentárias tornam difícil treinar técnicos de campo
em número suficiente, criar salvaguardas para os dados e recuperar respostas incompletas ou
mesmo não respostas. Por essas razões, os censos nos Estados Unidos têm feito uso de amostra-
gens em certas situações. Muitos experts estatísticos aconselharam o uso de amostragem de
forma mais extensa no censo de 2000, mas o Congresso norte-americano decidiu que se deveria
tentar fazer uma contagem per capita.
Quando a quantidade mensurada é volátil, é impossível fazer um censo. Por exemplo, a com-
panhia Arbitron registra os hábitos dos ouvintes de rádio norte-americanos utilizando 2,6 mi-
lhões de “Pacotes de Rádio.” Para cada “ocasião”, os participantes anotam os horários que inicia-
ram e terminaram de ouvir cada estação de rádio. Eles também registram sua idade, sexo e outras
informações demográficas. A Tabela 2.4 mostra algumas situações em que uma amostra seria
preferível a um censo, e vice-versa.

Parâmetros e estatísticas 
A partir de uma amostra de n itens escolhidos de uma população, calculamos estatísticas que
podem ser usadas como estimativas de parâmetros encontrados na população. Para evitar con-
fusão, vamos utilizar símbolos diferentes para cada parâmetro e sua correspondente estatística.
Assim, a média populacional é denotada por µ, e a média amostral, por X. A proporção popula-
cional é denotada por π, ao passo que a proporção amostral é denotada por p. A Figura 2.4 ilustra
FIGURA 2.4 essa ideia.
População versus amostra

População de N itens* Amostra de n itens


Parâmetros Estatística
μ = média populacional x = média amostral
π = proporção populacional p = proporção amostral
*Pode ser infinito

02_capitulo_02.indd 32 05/08/2014 12:13:27


Capítulo 2   COLETA DE DADOS   33

Situações em que uma amostra seria preferível Situações em que o censo seria preferível TABELA 2.4
População infinita População pequena Amostra ou censo?
Não é possível realizar um censo se a população Se a população for pequena, existirá pouca razão
for infinita ou de tamanho indefinido (uma linha para se utilizar amostragem, uma vez que o
de montagem continuamente produz parafusos, esforço em se coletar os dados representará
um médico atende cada vez mais pacientes). apenas uma pequena parte do custo total.

Testes destrutivos Tamanho de amostra grande


O ato de mensurar pode destruir ou invalidar o Se o tamanho de amostra necessário se aproxima
item (medição do tempo de vida de baterias, do tamanho da população, podemos seguir em
teste de segurança de automóveis em acidentes). frente e realizar um censo.

Resultados atualizados Disponibilidade do banco de dados


A amostragem pode fornecer resultados mais Se os dados estão em disco, podemos examinar
atuais que um censo (verificação de umidade e 100% dos casos. Entretanto, auditar e validar os
valor proteico em amostras de trigo, verificação dados contra registros físicos pode aumentar
de contaminação por aflatoxina em pasta de os custos.
amendoim).

Acurácia Exigências legais


Em vez de desperdiçar recursos limitados esparsos Bancos têm de contar todo o dinheiro nas gavetas
na tentativa de realizar um censo, o orçamento dos caixas ao final de cada dia de trabalho.
poderia ser mais bem utilizado para contratar O Congresso dos Estados Unidos proibiu
uma equipe experiente, aperfeiçoar o amostragem no censo populacional de 2000.
treinamento de entrevistadores de campo e
melhorar a confiabilidade dos dados.

Custo
Ainda que seja possível realizar um censo, o
custo, em tempo ou em dinheiro, pode exceder a
verba destinada à pesquisa.

Percepção
Um entrevistador treinado pode aprender mais
sobre assédio sexual em uma grande organização
por meio de entrevistas mais extensas em uma
pequena amostra de funcionários.

Parâmetro ou estatística?
Parâmetro  Qualquer medida que descreve uma população inteira (por exemplo, uma média
ou proporção). Em geral, o valor assumido pelo parâmetro é desconhecido, uma
vez que raramente podemos observar a população inteira. Na maior parte das
vezes (mas nem sempre), é representado por letras gregas (por exemplo, µ ou π).
Estatística 
Qualquer medida calculada a partir de uma amostra (por exemplo, uma média
ou proporção). Na maior parte das vezes (mas nem sempre), é representada por
letras romanas (por exemplo, x ou p).

Por exemplo, suponha que queiramos saber o custo médio de reparo do ar-condicionado para
os automóveis dentro do período de garantia, ou a proporção (porcentagem) de pessoas com 25
anos que são frequentadoras assíduas de shows de música pop e que apresentam perda auditiva
permanente. Uma vez que é impossível realizar um censo, esses parâmetros precisam ser estima-
dos utilizando-se amostragem. Para a amostragem estatística fornecer boas estimativas dos parâ-
metros populacionais, a população precisa ser especificada de maneira cuidadosa e a amostra
deve ser extraída cientificamente para que os itens amostrais sejam representativos da população.

População-alvo 
Uma população pode ser definida por uma lista (por exemplo, os nomes dos passageiros do Voo
234), ou por uma regra (por exemplo, os clientes que comem no restaurante Noodles & Company).
A população-alvo é a população na qual estamos interessados. Suponha que desejemos estimar a
proporção de consumidores potenciais que comprariam um calendário de mesa Harley-Davidson
de US$ 20. A população-alvo corresponde a todos os motociclistas? Ou somente motociclistas do
sexo masculino com mais de 16 anos? Ou apenas motoristas com renda anual superior a US$ 25 mil?

02_capitulo_02.indd 33 05/08/2014 12:13:27


34    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

Ou proprietários de motocicletas? Ao responder a questões como estas não só identificamos a


população-alvo mas também nos forçamos a definir nossos objetivos de modo mais claro. A lista
de referência é o grupo a partir do qual tomaremos a amostra. Caso ela seja diferente da popula-
ção-alvo, então nossas estimativas serão de pouco uso. Exemplos de listas de referência são listas
telefônicas, de registros de eleitores, de endereços de associações de ex-alunos ou bancos de da-
dos de marketing. Outros exemplos poderiam ser:
• Nomes e endereços de todos os eleitores registrados em Colorado Springs, Colorado.
• Nomes e endereços de todos os proprietários de veículos em Ventura County, Califórnia.
• Endereços eletrônicos de todos os clientes da L. L. Bean que fizeram compras online.

EXEMPLO 2.1
Pesquisa de preços
de gasolina A amostra para a pesquisa sobre preços de gasolina da EIA (U.S. Energy Information Admi-
nistration) é obtida de uma lista de aproximadamente 115 mil postos de gasolina, elaborada
a partir de fontes comerciais privadas e de fontes da EIA, combinada com códigos postais de
listas privadas. As listas individuais são mapeadas pelos municípios, usando-se códigos pos-
tais e os postos de gasolina são designados a áreas estatísticas delineadas pelo padrão do
Census Bureau. (Para detalhes, ver www.eia.doe.gov)

Minicaso 2.1
Estudantes universitários – Vocês têm voz ativa no ibope televisivo!
A Nielsen Media Research (www.nielsenmedia.com) realiza amostragens aleatórias utilizando um painel de 10 mil residências
com televisores, a fim de fornecer informações aos anunciantes e emissoras de televisão. As agências de publicidade utilizam as
classificações para decidir quais são os melhores programas para a divulgação de seus comerciais. As emissoras de televisão
utilizam a informação para especificar as taxas publicitárias, escolher o horário e o dia da semana de seus programas e decidir
quais manter em exibição.
Em 2006, a Nielsen decidiu adicionar estudantes universitários que vivem em repúblicas estudantis à sua “Amostra de Medi-
das de Audiência Nacional”. Após monitorar os hábitos televisivos dos espectadores, a empresa estimou que 636 mil mulheres na
faixa etária entre 18 e 24 anos, moradoras de repúblicas, assistiam ao seriado Grey’s Anatomy durante o mês de novembro de
2006. Esse fato representou um salto de 50% na classificação da programação e levou o seriado ao topo nos índices de audiência.
Entretanto, para calcular as suas estimativas, a Nielsen está analisando os hábitos televisivos de apenas 130 alunos no país intei-
ro que concordaram em ter monitores eletrônicos instalados em suas acomodações universitárias. Isso nos leva a crer que pode
ocorrer uma enorme variação na classificação. Por exemplo, um salto estimado de 163 mil telespectadores de Drawn Together
foi baseado em apenas 12 pessoas no grupo pesquisado que assistiu ao programa. Posteriormente, você aprenderá como estimar
a margem de erro numa amostra como essa. Os anunciantes acreditam que a informação é suficientemente confiável para ser
utilizada na tomada de suas decisões (para uma discussão sobre a margem de erro da Nielson, vide The New York Times, 8 de
abril de 2007, p. 10).
A Nielsen aceita voluntários na sua “Amostra de Medidas de Audiência Nacional”? A resposta é não. Segundo o website da
Nielsen, toda residência dos Estados Unidos com um aparelho de TV tem mesma chance de ser selecionada para fazer parte de
suas amostras. Eles prosseguem afirmando que “incluir voluntários violaria regras básicas da prática de amostragem aleatória e
iria distorcer os resultados. Uma amostra verdadeiramente representativa da população só pode ser gerada com a utilização de
métodos estatísticos de seleção”.

EXERCÍCIOS DA SEÇÃO
2.15 Você usaria uma amostra ou um censo para medir cada uma das variáveis a seguir? Por quê?
a. O ano do modelo dos carros dirigidos, individualmente, por seus cinco amigos mais próximos.
b. O ano do modelo dos carros dirigidos pelos estudantes de sua classe de estatística.
c. O ano do modelo dos carros dirigidos pelos estudantes de sua universidade.
d. O ano do modelo dos carros dirigidos pelos professores de cada uma das disciplinas em que você
está matriculado.
2.16 Você usaria uma amostra ou um censo para medir cada um dos seguintes casos? Por quê? Se não tiver
certeza de sua resposta, explique quais são suas dúvidas.
a. O tempo médio de vida da bateria, em uso contínuo, de seu laptop.
b. O número de alunos em sua turma de estatística que levaram laptops para a aula de hoje.
c. O preço médio pago por um laptop pelos estudantes de sua universidade.
d. A porcentagem de disco rígido disponível nos laptops dos seus cinco amigos mais próximos.
2.17 Verifique se nos itens a seguir temos um parâmetro ou uma estatística. Se não tiver certeza, explique
quais são suas dúvidas.

02_capitulo_02.indd 34 05/08/2014 12:13:27


Capítulo 2   COLETA DE DADOS   35

a. O índice preço/rentabilidade médio de todas as 500 ações no índice S&P.


b. A proporção de todas as ações no índice S&P 500 que tiveram ganhos negativos no último ano.
c. A proporção de ações relacionadas a empresas de energia nos portfólios de 50 investidores.
d. A taxa média de retorno de 20 ações recomendadas pelo corretor.

Existem duas categorias principais de métodos de amostragem. Na amostragem probabilística, 2.4


os itens são escolhidos aleatoriamente ou por um procedimento que envolve acaso. A ideia de
amostragem probabilística é produzir uma amostra representativa de uma população. A amos- MÉTODOS DE
tragem não probabilística é menos científica, mas, algumas vezes, é usada por conveniência. AMOSTRAGEM
Primeiramente, discutiremos as quatro técnicas de amostragem probabilística apresentadas na Tabe-
la 2.5; depois, descreveremos três técnicas de amostragem não probabilística normalmente utilizadas
e resumidas na Tabela 2.8.

Amostra aleatória simples Usa números aleatórios para selecionar itens de uma lista TABELA 2.5
(por exemplo, usuários do cartão Visa).
Amostras probabilísticas
Amostra sistemática Seleciona os itens de k em k de uma lista ou sequência
(por exemplo, clientes de um restaurante).
Amostra estratificada Seleciona aleatoriamente dentro de um estrato
(por exemplo, por idade, ocupação, sexo).
Amostra por conglomerado Seleciona áreas geográficas aleatórias
(por exemplo, CEP) que representam uma população.

Amostra aleatória simples 


Vamos denotar o tamanho da população por N e o tamanho da amostra por n. Em uma amostra OA 2-7
aleatória simples, todos os itens na população de N itens têm a mesma chance de serem escolhi-
Explicar os métodos de
dos na amostra de n itens. Um experimento físico para conseguir isso seria escrever cada um dos amostragem comuns, bem
N valores em uma ficha de pôquer e então retirar n fichas de uma urna após misturá-las de ma- como a sua aplicação.
neira exaustiva. Entretanto, podemos conseguir a mesma coisa se a população de N itens estiver
em uma lista numerada, simplesmente escolhendo de modo aleatório n inteiros entre 1 e N. Mas
devemos ter cuidado para não introduzir vícios que possam comprometer o processo de seleção.
Suponha, por exemplo, que queiramos selecionar um estudante, ao acaso, de uma lista de 15
alunos (Figura 2.5). Se fosse solicitado “usar seu bom senso”, provavelmente você iria pegar o
nome do meio, viciando a seleção contra aqueles indivíduos que estão nas extremidades da lista.
Uma alternativa é nos basearmos em números aleatórios. Como determinamos o número aleató-
rio? Antes de existirem computadores, os estatísticos utilizavam tabelas impressas de números
aleatórios. Hoje em dia, o processo é mais simples; até mesmo algumas calculadoras científicas têm
comando para produzir um número aleatório decimal no intervalo (0,1) que pode ser convertido
em um número aleatório inteiro. Neste exemplo, usamos a função do Excel =RANDBETWEEN(1,15)
para selecionar um número aleatório entre 1 e 15. O número foi 12, levando à seleção de Stephanie.
Não existe viés associado ao processo, uma vez que todos os valores de 1 a 15 são equiprováveis
(isto é, todos têm a mesma possibilidade de ocorrer).

Pessoa escolhida ao acaso 12


FIGURA 2.5
A escolha de Stephanie

1 Adam 6 Haitham 11 Moira


2 Addie 7 Jackie 12 Stephanie
3 Don 8 Judy 13 Stephen
4 Floyd 9 Lindsay 14 Tara
5 Gadis 10 Majda 15 Xander

A amostragem sem reposição significa que, uma vez que um item tenha sido selecionado
para ser incluído em uma amostra, ele não pode ser selecionado novamente nessa mesma amos-
tra. A função Excel =RANDBETWEEN(a,b) utiliza a amostragem com reposição, isso quer dizer
que o mesmo número aleatório pode aparecer mais de uma vez. Por exemplo, se retornarmos
todas as fichas de volta a uma urna e misturá-las antes da seleção seguinte, um item poderá ser
escolhido novamente. Instintivamente, a maioria das pessoas acredita que a amostragem sem
resposição é preferível em relação à amostragem com reposição, pois a aceitação de duplicatas
na nossa amostra nos parece estranho. Na verdade, a amostragem sem reposição pode se tornar

02_capitulo_02.indd 35 05/08/2014 12:13:28


36    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

um problema quando o tamanho da nossa amostra n está próximo do tamanho N da população,


se esta não for muito grande. Esse processo de amostragem induz à perda de independência esta-
tística entre os itens selecionados que pode nos levar a um vício (uma tendência de superestimar
ou subestimar o parâmetro que tentamos mensurar) nos resultados da nossa amostra. Na amos-
tragem com resposição os itens são selecionados de maneira independente de modo que não nos
conduz a vícios.
Quando devemos nos preocupar com a amostragem sem resposição? Somente quando a popu-
lação é finita e não muito grande e o tamanho da amostra está próximo do tamanho da população.
Vamos considerar o Índice Russell 3000®, que contém 3 mil itens de estoque. Se fizermos uma
amostragem de 100 itens, sem resposição, “utilizamos” apenas cerca de 3% da população. O tama-
nho da amostra n = 100 é considerado pequeno em relação ao tamanho da população N = 3.000.
Um critério comum é o de que uma população finita é efetivamente infinita se a amostra for menor
do que 5% da população (se n/N for menor ou igual a 0,05). No Capítulo 8, você aprenderá como
se adaptar ao efeito do tamanho da população ao realizar uma estimativa de amostragem. Por en-
quanto, você deve apenas reconhecer que esses ajustes são de pequenas consequências quando a
população é grande.

Regra geral
Quando a amostra for menor do que 5% da população (quando n/N for menor ou igual a 0,05),
então a população será efetivamente infinita. Uma afirmação equivalente é a de que uma popula-
ção será efetivamente infinita quando for, pelo menos, 20 vezes maior do que a amostra (quando
N/n for maior ou igual a 20).

Com o auxílio de computadores, raramente utilizamos tabelas de números aleatórios. A Ta-


bela 2.6 apresenta algumas maneiras alternativas de escolhermos 10 números inteiros entre 1 e
875. Todas elas são baseadas em um algoritmo que gera números decimais uniformes entre 0 e 1.
A função Excel =RAND( ) realiza essa tarefa e muitas calculadoras científicas contam com uma
função semelhante. Essas funções são denominadas geradores de números pseudoaleatórios,
pois até mesmo os melhores algoritmos acabam se repetindo (depois de um ciclo de milhões de
números). Dessa forma, um esquema de criptografia, baseado em dados gerados aleatoriamente
por um programa, pode ser corrompido. Para ampliar a segurança dos dados, a companhia Intel
e outras empresas têm examinado métodos com base em hardware (por exemplo, métodos basea­
dos em ruídos termais ou desintegração radioativa) para evitar padrões ou repetições. Felizmen-
te, a maioria das aplicações não exige esse grau de aleatoriedade. Por exemplo, a escolha das
canções do iPod Shuffle não é estritamente aleatória porque seus números aleatórios são gerados
por um algoritmo a partir de uma semente que será inevitavelmente repetida. Entretanto, o perío­
do de repetição é tão grande que um usuário de iPod nem notaria. Os números alea­tórios gerados
pelo Excel e pelo MINITAB são suficientemente bons para a maioria dos propósitos.

TABELA 2.6 Excel – Opção A Entre com a função =RANDBETWEEN(1,875) em 10 células da planilha.
Pressione F9 para obter uma nova amostra.
Algumas formas de se
obter dez números Excel – Opção B Entre com a função =INT(1+875*RAND( )) em 10 células da planilha. Pressione F9
para obter uma nova amostra.
inteiros aleatórios
entre 1 e 875 Internet O portal www.random.org fornece muitos tipos de excelentes números
aleatórios (inteiros, decimais etc.).
MINITAB Use o menu Random Data do MINITAB com a opção Integer.
Calculadora científica Pressione a tecla RAND para obter um número aleatório no intervalo [0,1],
multiplique esse valor por 875 e depois arredonde para o próximo
número inteiro.

Aleatorizando uma lista


Para aleatorizar uma lista (assumindo que ela esteja em uma planilha), podemos inserir a função
do Excel =RAND( ) ao lado de cada linha. Isso cria uma coluna de números decimais aleatórios
entre 0 e 1. Copie os números aleatórios na mesma coluna, usando Paste Special > Values para “fixá-
-los” (caso contrário, eles mudarão o tempo todo). Então, ordene todas as colunas pela coluna de
números aleatórios e voilà — a lista agora é aleatória! Os primeiros n itens na lista aleatorizada
podem agora ser utilizados como uma amostra aleatória. Esse método é especialmente útil quando
a lista é muito longa (talvez com milhões de linhas). Os primeiros n itens são uma amostra aleató-
ria de toda a lista, pois são tão prováveis quanto o outros.

02_capitulo_02.indd 36 05/08/2014 12:13:28


Capítulo 2   COLETA DE DADOS   37

Amostra sistemática 
Outro método de amostragem aleatória é escolher os itens de k em k, isto é, escolher todo k-ésimo
item da lista, iniciando-se de um ponto escolhido aleatoriamente entre os primeiros k itens da
lista. Esse método é denominado amostragem sistemática. A Figura 2.6 ilustra como amostrar
todo quarto item, iniciando-se do item 2, resultando em uma amostra de n = 20 itens.

FIGURA 2.6
x x x x x x x x x x x x x x x x x x x x x x x x x x
x x x x x x x x x x x x x x x x x x x x x x x x x x Amostragem sistemática
x x x x x x x x x x x x x x x x x x x x x x x x x x

Um ponto atraente da amostragem sistemática é ela ser utilizada em populações infinitas ou


que não podem ser listadas, como processos de produção (por exemplo, testando toda 5.000ª
lâmpada) ou pesquisa eleitoral (por exemplo, entrevistando de dez em dez eleitores que saem do
local de votação). A amostragem sistemática é também adequada para populações organizadas
fisicamente de forma linear (por exemplo, pegando uma a cada dez pastas de clientes em gavetas
de arquivos ordenados alfabeticamente em uma clínica veterinária).
Uma amostra sistemática de n itens de uma população de N itens requer que a periodicidade
k seja aproximadamente N/n. Por exemplo, para escolher 25 empresas de uma lista de 500
­empresas no Exemplo 2.2 (Tabela 2.7), seleciona-se toda vigésima observação (k = 500/25 = 20).
EXEMPLO 2.2
Salário total dos CEO*
Para amostrar os salários dos CEO das 500 maiores companhias nos Estados Unidos listados
na pesquisa anual da Forbes, tomamos uma companhia a cada 20 na lista alfabética, inician-
do (aleatoriamente) com a 10ª companhia. Esse processo produziu uma amostra de 25 CEO,
mostrada na Tabela 2.7. Note que demandaria muito tempo examinar todos os 500 executi-
vos, e essa amostra deve fornecer uma seção transversal representativa.

Observação Empresa CEO Salário total anual (x US$ 1.000) TABELA 2.7
1 AK Steel Holding James L Wainscott 11,82 Salário total dos
2 Anadarko Petroleum James T Hackett 19,65 CEO de 25 grandes
3 Avnet Roy Vallee 10,16 empresas norte-
4 Bristol-Myers Squibb James M Cornelius 5,06 -americanas
5 Charter Communications Neil Smith 5,63 CEOComp
6 Commercial Metals Murray R McClean 3,84 Fonte: Forbes.com,
7 CVS Caremark Thomas M Ryan 19,55 30 de abril de 2008.
8 Dynegy Bruce A Williamson 8,70 Remuneração para 2007.
9 Estee Lauder Cos William P Lauder 5,32
10 FPL Group Lewis Hay III 14,25
11 Google Eric E Schmidt 0,48
12 Huntington Bancshares Thomas E Hoaglin 0,98
13 Johnson Controls Stephen A Roell 15,69
14 Leucadia National Ian M Cumming 1,21
15 MBIA Joseph W Brown 22,20
16 Morgan Stanley John J Mack 17,65
17 Northeast Utilities Charles W Shivery 5,91
18 People’s United Philip R Sherringham 2,22
19 Progress Energy William D Johnson 4,11
20 Rockwell Collins Clayton M Jones 11,31
21 Sovereign Bancorp Joseph P Campanelli 2,48
22 TD Ameritrade Holding Joseph H Moglia 3,76
23 Union Pacific James R Young 7,19
24 Walmart Stores H Lee Scott Jr 8,65
25 Wynn Resorts Stephen A Wynn 11,25

  N. de R.T.: CEO é a sigla para Chief Executive Office. CEO, em geral, é o presidente ou o presidente do Conselho
*

Administrativo de uma empresa. Esse salário total inclui, além do salário nominal, os benefícios e bônus ganhos.

02_capitulo_02.indd 37 05/08/2014 12:13:29


38    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

A amostragem sistemática deve fornecer resultados aceitáveis a menos que ocorram padrões com
periodicidade k na população. Por exemplo, o ciclo de pagamentos semanais (k = 7) tornaria iló-
gico amostrar o volume descontado de contas bancárias toda sexta-feira. Um exemplo menos
óbvio seria uma máquina que faz uma marca defeituosa a cada ciclo de 12 em razão de um dente
ruim em uma engrenagem com 12 dentes. Nesse caso, utilizar uma amostra obtida a cada décima
segunda parte (k = 12) seria um engano. Mas a periodicidade coincidente com k não é comum ou
esperada na maioria das situações.

Amostra estratificada 
Algumas vezes, podemos melhorar a eficiência de nossa amostra utilizando informações dis-
poníveis a priori sobre a população. Esse método é aplicável quando a população pode ser
dividida em subgrupos relativamente homogêneos de tamanhos conhecidos (denominados es-
tratos). Dentro de cada estrato, pode-se tomar uma amostra aleatória simples do tamanho
desejado. De modo alternativo, seria possível tomar uma amostra aleatória de toda a popula-
ção e, então, as estimativas dos estratos individuais seriam combinadas usando-se pondera-
ções apropriadas. Esse procedimento, denominado amostragem estratificada, pode reduzir o
custo por observação e diminuir a margem de erro. Para uma população com L estratos, o ta-
manho populacional N é a soma dos tamanhos dos estratos: N = N1 + N2 + ... + NL . O peso
atribuído ao estrato j é wj = Nj /N (isto é, cada estrato é ponderado pela sua proporção conhe-
cida na população).
Para ilustrar, suponha que desejemos estimar taxas de vacinação contra varíola entre funcio-
nários públicos, e sabemos que nossa população-alvo (aqueles indivíduos que estamos tentando
estudar) é composta por 55% de homens e 45% de mulheres. Suponha que a verba disponível
somente possibilite uma amostra de tamanho 200. Para assegurar um balanço por sexo de forma
correta, poderíamos amostrar 110 homens e 90 mulheres. De modo alternativo, poderíamos to-
mar simplesmente uma amostra aleatória de 200 empregados. Apesar de nossa amostra aleatória
não conter exatamente 110 homens e 90 mulheres, podemos obter uma estimativa global das ta-
xas de vacinação ponderando as taxas de vacinação amostrais para homens e mulheres, usando
wM = 0,55 e wF = 0,45, para refletir os tamanhos conhecidos dos estratos.

Minicaso 2.2
Amostragem para a segurança
Para auxiliar fabricantes de automóveis e outros pesquisadores a estudar as causas de lesões e fatalidades em acidentes
automobilísticos, o Departamento de Trânsito dos Estados Unidos desenvolveu o Sistema Nacional de Amostragem de
Acidentes (National Accident Sampling System — NASS) e o Sistema de Dados de Contagem de Acidentes (Crashworthi-
ness Data System — CDS). Como é impraticável investigar todos os acidentes (6.159.000 boletins de ocorrência policial
de acidentes de trânsito foram registrados em 2005), dados detalhados são coletados em formato comum a partir de 24
unidades de amostragem primárias, escolhidas para representar todos os acidentes automotivos graves registrados pelas
autoridades policiais nos Estados Unidos durante o ano. A seleção da amostra é realizada em três estágios: (1) O país é
dividido em 1.195 áreas geográficas denominadas Unidades de Amostragem Primária (UAM), agrupadas em 12 estratos
baseados em regiões geográficas. Duas UAM são selecionadas a partir de cada estrato, utilizando pesos aproximadamen-
te proporcionais ao número de acidentes em cada estrato. (2) Em cada UAM, um segundo estágio de amostragem é reali-
zado, utilizando uma amostra de diferentes Jurisdições Policiais (JP), com base no número, gravidade e tipo de acidentes
ocorridos nas JP. (3) O estágio final da amostragem é a seleção de acidentes no âmbito das JP amostradas. Cada acidente
registrado é classificado dentro de um estrato, com base no tipo do veículo, nas lesões mais graves, no estado das vítimas,
no status de reboque dos veículos e no seu ano-modelo. Cada grupo tem a tarefa de investigar um número específico de
acidentes por semana, que depende do número de pesquisadores. Os pesos dos estratos são determinados de modo a fa-
vorecer um percentual maior de acidentes de mais graves, enquanto garantem que acidentes no mesmo estrato têm a
mesma probabilidade de serem selecionados, sem levar em conta a UAM. A base de dados NASS CDS é administrada
pelo Centro Nacional para Estatística e Análise (National Center for Statistics and Analysis — NCSA) da Administração
Nacional de Segurança no Trânsito e nas Estradas (National Highway Traffic Safety Administration — NHTSA). Esses
dados têm ajudado a melhorar a classificação “5 Estrelas” atribuída ao governo no sistema de avaliação de acidentes de
trânsito automotivos.
Fonte: www-nrd.nhtsa.dot.gov/Pubs/NASS94.PDF.

02_capitulo_02.indd 38 05/08/2014 12:13:29


Capítulo 2   COLETA DE DADOS   39

Amostras por conglomerados 


Amostras por conglomerados são, essencialmente, estratos consistindo em regiões geográficas.
Dividimos uma região (por exemplo, uma cidade) em sub-regiões (quarteirões, subdivisões ou
distritos escolares). Em uma amostragem por conglomerados em um estágio, nossa amostra con-
siste em todos os elementos em cada uma das k sub-regiões (ou conglomerados) escolhidas de
modo aleatório. Em uma amostragem por conglomerados em dois estágios, inicialmente selecio-
namos de maneira aleatória k sub-regiões (conglomerados) e então escolhemos uma amostra
aleatória de elementos dentro de cada conglomerado. A Figura 2.7 ilustra como quatro elementos
poderiam ser amostrados de cada um dos três conglomerados escolhidos aleatoriamente usando-
-se uma amostragem por conglomerados em dois estágios.

FIGURA 2.7
X X X X X Amostragem por
X X X X X X X X X X conglomerados em
X X X X X X X X X X X
dois estágios: escolha
aleatoriamente três
X X X X X X X X X X X
conglomerados e depois
X X X X X X X X X X X X X escolha aleatoriamente
X X X X X X X X X X X X X quatro itens em cada
X X X X X X X X X X X X X conglomerado
X X X X X X X X X X X X

X X X X X X X X X X X X

X X X X X X X X X X X

X X X X X X X X X X X X

X X X X X X X X X X X X

X X X X X X X X X X X

X X X X X X X X X X X

X X X X X X X X X X X

X X X X X X X X X X X

X X X X X X X X X X

X X X X X X X X X X

X X X X X X X X X X

X X X X X X X X X X

X X X X X X X

Uma vez que os elementos dentro de um conglomerado estão próximos, o tempo de desloca-
mento e os gastos com entrevistadores são mais baixos. A amostragem por conglomerados é útil
quando:
• Uma lista de referência da população e as características dos estratos não estão prontamente
disponíveis.
• É muito caro obter uma amostra simples ou estratificada.
• O custo da obtenção dos dados aumenta demasiadamente com a distância.
• Alguma perda de confiabilidade é aceitável.
Apesar de a amostragem por conglomerados ser barata e rápida, ela é muitas vezes razoavel-
mente precisa, porque pessoas em uma mesma vizinhança tendem a apresentar semelhanças
quanto à renda, à etnia, ao nível educacional e outras características. A amostragem por conglo-
merados é útil em pesquisas eleitorais, pesquisas de preços de gasolina, estudos de vítimas de
crimes, de campanhas de vacinação ou de contaminação por chumbo. Um hospital pode conter
conglomerados (alas) de pacientes semelhantes. Um armazém pode ter conglomerados de itens
em estoque. Regiões de floresta podem ser vistas como conglomerados a serem amostrados para
estudos de doenças ou de taxas de crescimento em árvores.*
As amostras por conglomerados são também amplamente utilizadas em marketing e pesquisas
econômicas. O Bureau of Labor Statistics* adota a amostragem por conglomerados com diversos

*
  N. de R.T.: O Bureau of Labor Statistics é um orgão do governo dos Estado Unidos que elabora pesquisas estatísticas
e econômicas (equivalente à FIPE no Brasil).

02_capitulo_02.indd 39 05/08/2014 12:13:29


40    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

e­ stágios para a estimar indicadores econômicos, tais como o Índice de Preços ao Consumidor
(IPC) e taxas de desemprego. O IPC mede a alteração média dos preços para uma “cesta básica”
de produtos e serviços tipicamente utilizados pelos consumidores nas cidades. O IPC é estimado
a partir de um processo de amostragem por conglomerados de dois estágios que começa com 87
áreas urbanas nos Estados Unidos. Dentro dessas áreas são coletados os preços de mais de 200
produtos e categorias a partir de, aproximadamente, 50 mil residências e 23 mil estabelecimentos
no varejo.
A Tabela 2.8 descreve três técnicas de amostragem não aleatórias normalmente utilizadas. As
empresas geralmente confiam nessas técnicas para reunir rapidamente dados que podem ser
utilizados para orientar decisões informais; ou ainda, como dados preliminares para auxiliar na
elaboração de estudos formais que utilizam as amostras aleatórias.

TABELA 2.8 Amostra intencional Utiliza o conhecimento especializado para escolher itens “típicos”
(por exemplo, quais funcionários entrevistar).
Amostras não aleatórias
Amostra por conveniência Utiliza uma amostra que esteja disponível (por exemplo, pedir
opiniões à colegas de trabalho no horário de almoço).
Grupos de enfoque Diálogo profundo com um painel representativo de indivíduos (por
exemplo, usuários de iPod).

Amostra intencional 
A amostragem intencional é um método não probabilístico que depende da experiência do
amostrador para escolher os itens que são representativos da população. Por exemplo, para esti-
mar o gasto corporativo com pesquisa e desenvolvimento (P&D) na indústria de equipamentos
médicos, poderíamos solicitar a um especialista da área que selecionasse diversas empresas “tí-
picas”. Infelizmente, vícios inconscientes podem afetar os especialistas também. Nesse caso,
“vício” não tem uma denotação preconceituosa, significa apenas uma escolha não aleatória.
Uma amostra intencional pode ser a melhor alternativa em alguns casos, mas não podemos ter
certeza de que essa amostra é aleatória. A amostragem por cota é um tipo especial de amostra-
gem intencional, em que o entrevistador escolhe determinado número de pessoas em cada cate-
goria (por exemplo, homens/mulheres).

Amostra por conveniência 


A única virtude da amostragem por conveniência é a rapidez. A ideia é pegar qualquer amostra
que estiver à mão. Uma professora de contabilidade que desejasse saber quantos estudantes de
MBA escolheriam uma matéria optativa no verão relacionada com contabilidade internacional,
poderia simplesmente pesquisar entre os alunos da turma que ela estiver lecionando no momento.
Os estudantes sondados poderiam não ser representativos de todos os estudantes de MBA, mas
uma resposta (apesar de imperfeita) estaria disponível de forma imediata. Um jornalista, preparan-
do uma matéria sobre a opinião a respeito de segurança em aeroportos, poderia entrevistar colegas
que viajam com frequência. Um executivo poderia perguntar aos gerentes dos departamentos de
sua empresa se eles acham que o uso da Web para assuntos particulares está disseminado.
Você pode pensar que a amostragem por conveniência é raramente utilizada ou que, quando
é, os resultados são aplicados com cuidado. Entretanto, este não parece ser o caso. Como amos-
tras por conveniência com frequência soam o primeiro alarme em uma questão oportuna, seus
resultados tendem a chamar a atenção e, provavelmente, têm influenciado algumas decisões de
negócios. As propriedades matemáticas desse tipo de amostra são desconhecidas, mas elas têm
sua utilidade, e sua influência não pode ser ignorada.

Grupos de enfoque 
Grupo de enfoque é um painel de indivíduos escolhidos para representar uma população mais
ampla, com o objetivo de discutir ideias e debater abertamente sobre um assunto específico (por
exemplo, um novo produto a ser lançado ou uma estratégia de marketing). De um modo geral, de
5 a 10 pessoas são selecionadas e a discussão interativa dura de 1 a 2 horas. Os participantes são
geralmente indivíduos que não se conhecem, mas que são selecionados para serem amplamente
compatíveis, embora com opiniões distintas. Um moderador experiente conduz a discussão dos
grupos de enfoque e os mantém no caminho certo. Embora não seja um método de amostragem

02_capitulo_02.indd 40 05/08/2014 12:13:29


Capítulo 2   COLETA DE DADOS   41

Minicaso 2.3
Exatidão no estabelecimento de preços
A leitura do código de barras utilizando o Código de Produto Universal (Universal Product Code — UPC) se tornou um
padrão na maioria dos negócios no varejo acompanhando o rápido aprimoramento da tecnologia da digitalização no decor-
rer dos anos 1970. A partir daí, os órgãos federais e estaduais têm monitorado as transações comerciais para regular a
exatidão no estabelecimento de preços de venda dos produtos na sua saída. Em face da impossibilidade de um censo para
a checagem da exatidão de preços, a amostragem é uma ferramenta essencial na fiscalização à proteção das leis do consu-
midor. O Instituto Nacional para Padrões e Tecnologia (The National Institute for Standards and Technology — NIST)
desenvolveu um manual para os órgãos de fiscalização que fornece orientação adequada de como conduzir uma amostra-
gem de fiscalização de preços.
O Departamento de Pesos e Medidas do estado do Arizona (Arizona’s Department of Weights and Measures — DWM)
estabeleceu um processo de amostragem de fiscalização de preços, por meio do Código de Produto Universal (UPC), para os
estabelecimentos varejistas dentro do estado. Uma fiscalização UPC é baseada em uma amostra estratificada (como no setor
de cosméticos), ou aleatória simples, realizada no interior da loja. O fiscal seleciona entre 25 e 50 itens, com base na recomen-
dação do tamanho da amostra emitida pelo Instituto de Tecnologia — NIST. Os itens são levados à caixa registradora para
serem digitalizados e o fiscal conta o número de itens que apresentam diferença entre o preço exibido (na prateleira) e o digi-
talizado. O estado do Arizona exige que as lojas no comércio garantam 98% de exatidão.
Entre os anos de 2001 e 2006, no estado do Arizona, a loja de departamentos Walmart foi reprovada em 526 fiscaliza-
ções de preços. O Procurador Geral daquele estado ingressou com uma ação judicial contra o Walmart em 2006. A ação
foi solucionada quando a loja concordou em pagar um ajuste de um milhão de dólares e realizar modificações nas suas
práticas de preços.
Fonte: http://www.azag.gov/press_releases/may/2009/WM%20Settlement%20Release.pdf, 10 de fevereiro de 2011.

aleatório, os grupos de enfoque são amplamente utilizados, tanto nas pesquisas relacionadas aos
negócios, quanto às ciências humanas, haja vista o número de ideias que esses grupos podem
produzir, além de “simplesmente números”.

Tamanho de amostra 
O tamanho de amostra necessário depende da variabilidade inerente à quantidade que é medida
e da precisão desejada para a estimativa. Por exemplo, a concentração de cafeína na bebida
“Mountain Dew” é bastante estável, porque cada lata ou garrafa é envasada na fábrica, de manei-
ra que uma amostra pequena é suficiente para estimar a média. Em contraste, a quantidade de
cafeína em uma xícara de chá da marca “Bigelow Raspberry Royale” varia bastante, pois as
pessoas costumam deixar o chá em infusão por tempos diferentes, assim, uma amostra maior
seria necessária para estimar a média. Os objetivos da investigação, os custos de amostragem, a
verba disponível e as restrições de tempo também são levadas em conta na decisão do tamanho
da amostra. Determinar o tamanho de amostras requer uma discussão detalhada que será desen-
volvida em capítulos posteriores.

Fontes de erros 
Mesmo sendo cuidadoso ao conduzir um levantamento, você encontrará fontes potenciais de
erros. Vamos rever de forma breve algumas delas, resumidas na Tabela 2.9.
Em amostragem, a palavra viés não tem conotação preconceituosa. Em vez disso, ela se refe-
re a uma tendência sistemática de superestimar ou subestimar um parâmetro populacional de

Fonte de erro Características TABELA 2.9


Vício de não resposta Respondentes e não respondentes diferem entre si Fontes potenciais
Vício de seleção Respondentes voluntários são atípicos de erros na pesquisa
Erro de resposta Respondentes dão informação falsa
Erro de cobertura Especificação incorreta da lista ou da população-alvo
Erro de medida Perguntas com redação viciada ou confusa
Erro de entrevista Respondentes influenciados pelo entrevistador
Erro de amostragem Aleatório e inevitável

02_capitulo_02.indd 41 05/08/2014 12:13:30


42    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

interesse. A palavra “erro” normalmente se refere a problemas na metodologia da amostragem


que nos levam a estimativas inexatas de um parâmetro da população.
Vício ou viés de não respostas ocorre quando aqueles que responderam ao questionário têm
características diferentes do que não o responderam. Por exemplo, pessoas com identificadores
de chamadas, secretárias eletrônicas, números não listados ou bloqueados ou telefones celulares
são mais prováveis de serem omitidas em levantamentos por telefone. Uma vez que essas pessoas
geralmente são mais abastadas, sua classe socioeconômica pode ser sub-representada na pesqui-
sa. Um caso especial é o vício de seleção, uma amostra autosselecionada. Por exemplo, um apre-
sentador de programa de TV ou de rádio que convida os telespectadores ou ouvintes a responder
a uma pesquisa na Web sobre suas vidas sexuais atrairá muitos respondentes. Mas aqueles que
desejam revelar detalhes de suas vidas pessoais (e que têm tempo para preencher o levantamen-
to), em geral, são substancialmente diferentes daqueles que não gostam de pesquisas indiscretas
ou que são muito ocupados (e provavelmente não estariam assistindo ou ouvindo o programa de
qualquer forma).
Além do mais, é fácil imaginar que respostas falsas sejam comuns em tais levantamentos (por
exemplo, imagine um grupo de universitários, que vivem em uma república, dando respostas
irresponsáveis em um levantamento pela Web). Erro de respostas ocorre quando respondentes
fornecem, de forma deliberada, informação falsa para imitar respostas socialmente aceitas, para
evitar embaraços ou para proteger informação pessoal.
Há, também, erro de cobertura quando algum segmento importante da população-alvo é
omitido de forma sistemática. Por exemplo, um levantamento apenas com ex-alunos da Universi-
dade de Notre Dame não incluiria indivíduos que não têm grau superior ou aqueles que se forma-
ram em universidades públicas. E erro de medida resulta quando as redações das questões não
revelam de forma precisa o assunto avaliado, como discutido anteriormente. Os dados estão su-
jeitos a erro de entrevista quando as expressões faciais, a tonalidade da voz ou a aparência do
entrevistador influenciam as respostas.
Finalmente, há o erro de amostragem, um erro aleatório não controlável que é inerente a qual-
quer pesquisa. Mesmo utilizando-se um método de amostragem probabilística, é possível que a
amostra contenha respostas incomuns. Isso não pode ser evitado e, em geral, não é detectável.

Minicaso 2.4
Fazendo com que os comerciais sejam mais eficientes
Surgiu uma nova empresa que oferece ajuda aos anunciantes para melhorar suas mensagens comerciais, em diversos canais de
mídia, utilizando tecnologia digital. A empresa Integrated Media Measurement (IMMI, Inc.) acompanha o comportamento de
3 mil participantes (incluindo adolescentes) fazendo-os portar um aparelho celular especial (os participantes contam com a utili-
zação gratuita do aparelho pelo período de dois anos). Os aparelhos captam amostras de áudio 24/7* do ambiente ao seu redor.
As amostras são analisadas digitalmente e comparadas com o conteúdo do anúncio conhecido para verificar o que o participante
costuma assistir ou ouvir, e em quais canais teve contato com o anúncio (TV, rádio, internet, DVD etc.). Essa tecnologia tem o
potencial de informar os profissionais de marketing sobre as maneiras de alcançar aqueles que assistem TV online, um grupo que
tende a ser excluído do contato tradicional com os anúncios de televisão. Outra tendência potencial recente que tem sido explo-
rada para o acesso ao conteúdo publicitário é a propaganda nas salas de exibição de cinema. A classificação tradicional da Niel-
sen (vide Minicaso 2.1) envolve apenas telespectadores de TV; dessa forma, há um interesse considerável do investidor nesse
método de amostragem de alta tecnologia. Há necessidade de uma amostra estratificada bem elaborada e detalhada dos partici-
pantes para permitir uma estimação da exposição publicitária da população envolvida por meio de critérios como idade, etnia,
nível cultural, socioeconômico e outros padrões demográficos relevantes.
Fonte: The New York Times, 7 de setembro de 2007, p. B4; immi.com; www.tradevibes.com.

EXERCÍCIOS DA SEÇÃO
2.18 A população-alvo é representada por todos os estudantes em sua universidade. Você gostaria de esti-
mar o balanço médio das faturas correntes dos cartões Visa dos estudantes. Que tamanho essa popu-
lação deveria ter a fim de ser considerada efetivamente infinita para cada uma das seguintes amostras:
a. Uma amostra de 10 estudantes.
b. Uma amostra de 50 estudantes.
c. Uma amostra de 100 estudantes.

*
  N. de R.T.: Vinte e quatro horas por dia, sete dias por semana.

02_capitulo_02.indd 42 05/08/2014 12:13:30


Capítulo 2   COLETA DE DADOS   43

2.19 Suponha que você deseje conhecer a idade dos espectadores de cinema que assistiram ao filme Harry
Potter. Qual é o tipo de amostra considerada se você (a) entrevista as primeiras 20 pessoas que saem
do cinema, (b) entrevista uma de cada 10 pessoas que saem do cinema e (c) entrevista qualquer um
que parece ter menos de 12 anos?
2.20 Com relação à questão anterior, seria possível obter uma amostra aleatória simples?
2.21 A matriz de dimensão 6 × 8, a seguir, apresenta as idades de espectadores (ver arquivo Harry
Potter). Considere que essa matriz se trata de uma população. Selecione uma amostra aleatória da
idade de 10 espectadores usando (a) amostragem aleatória simples utilizando uma tabela de números
aleatórios, (b) amostragem aleatória simples utilizando a função =RANDBETWEEN( ) do Excel, (c)
amostragem sistemática, (d) amostragem intencional e (e) amostragem por conveniência. Explique
seus métodos.

32 34 33 12 57 13 58 16
23 23 62 65 35 15 17 20
14 11 51 33 31 13 11 58
23 10 63 34 12 15 62 13
40 11 18 62 64 30 42 20
21 56 11 51 38 49 15 21

2.22 (a) No problema anterior, considerando-se todos os 48 espectadores, qual é a proporção de espectado-
res com idade inferior a 30 anos? (b) Para cada uma das amostras de tamanho n = 10 que você obteve,
qual é a proporção de espectadores com idade inferior a 30 anos? (c) Se suas amostras não se parecem
com a população, você poderia imaginar por quê?
2.23 No Excel, digite uma lista contendo os nomes de 10 de seus amigos nas células B1:B10. Escolha três
nomes ao acaso aleatorizando essa lista. Para fazer isso, entre com =RAND( ) nas células A1:A10, co-
pie a coluna aleatória e cole-a utilizando Paste Special > Values para fixar os números aleatórios e en-
tão ordene a lista pela coluna aleatória. Os primeiros três nomes compõem a amostra aleatória.

Um dos objetivos de um curso de estatística é ajudá-lo a aprender onde encontrar dados que 2.5
você possa precisar. Felizmente, muitas fontes de dados excelentes são amplamente disponí-
veis, seja em bibliotecas ou por meio de listas privadas adquiridas. A Tabela 2.10 apresenta FONTES DE
algumas dessas fontes. DADOS
O Statistical Abstract of the United States é o maior, mais geral e amplamente disponível com-
pêndio anual de fatos e números de fontes públicas. Você pode adquiri-lo em livrarias do governo OA 2-8
nas grandes cidades norte-americanas, encomendá-lo pelo correio ou usá-lo gratuitamente na
Encontrar, de forma rotineira,
Web. Ele cobre uma grande quantidade de dados transversais (por exemplo, estados e cidades), fontes de dados eletrônicos
bem como dados de séries temporais. Os assuntos incluem população, estatística vital, imigração, ou impressos.
saúde, nutrição, educação, direito, geografia, meio ambiente, parques, recreação, eleições, poder
público, defesa nacional, seguridade social, serviço social, força de trabalho, rendimentos, preços,
assuntos bancários, finanças, seguros, comunicação, energia, ciências, transporte, agricultura, flo-
restas, pescaria, mineração, construção civil, habitação, indústria e estatística internacional. Ne-
nhum estatístico aplicado à administração deveria ficar sem essa referência.
Para séries temporais econômicas de periodicidades anuais e mensais, tente o Economic Report
of the President (ERP), publicado todo mês de fevereiro. As tabelas no ERP podem ser baixadas
pela Internet gratuitamente em formato Excel. Dados relacionados a cidades, condados e estados
norte-americanos podem ser encontrados no State and Metropolitan Area Data Book, publicado
quase todo ano pelo Bureau of the Census e disponível em CD-ROM em muitas bibliotecas.

Tipo de dados Exemplos TABELA 2.10


Dados gerais dos Estados Unidos Statistical Abstract of the United States Fontes de dados úteis
Dados econômicos dos Estados Unidos Economic Report of the President
Almanaques World Almanac, Time Almanac
Periódicos Economist, Bloomberg BusinessWeek, Fortune, Forbes
Índices The New York Times, The Wall Street Journal
Bancos de dados Compustat, Citibase, U.S. Census
Dados mundiais CIA World Factbook
Web Google, Yahoo!, MSN

02_capitulo_02.indd 43 05/08/2014 12:13:30


44    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

Almanaques anuais das principais editoras são vendidos em muitas livrarias. Estes incluem
dados reimpressos das fontes citadas, mas também informações sobre eventos recentes, esportes,
mercado de ações, eleições, congressos, nações do mundo, estados e educação superior. Um
destes almanaques deveria estar na prateleira de todo cidadão bem informado.
Levantamentos anuais das maiores companhias, mercados e tópicos de negócios e finanças
pessoais são encontrados em revistas como Bloomberg Businesswek, Consumer Reports, Forbes,
Fortune e Money. Índices como Business Periodical Index, The New York Times Index e The Wall
Street Journal Index são úteis para a localização de tópicos. As bibliotecas têm mecanismos de
busca na Web que podem acessar muitos desses periódicos em modo resumido ou completo.
Bancos de dados digitais especializados (por exemplo, CRSP, Compustat, Citibase, U.S. Cen-
sus) estão disponíveis (mediante pagamento) para pesquisas sobre ações, companhias, estatísticas
financeiras e dados de censo. Um excelente resumo de fontes é Business Research Sources: A
Reference Navigator, de F. Patrick Butler. A Web nos permite utilizar mecanismos de busca (Goo-
gle, Yahoo!, MSN, entre outros) para encontrar informações. Algumas vezes você pode ter sorte,
mas, com frequência, a informação na Web não é documentada, confiável ou confirmável. Infor-
mações mais seguras estão disponíveis por intermédio de companhias particulares ou associações
comerciais, apesar de muitas vezes possuírem um preço elevado. Mais referências relacionadas ao
assunto e fontes de dados da Web estão listadas ao final deste capítulo.
Fontes de ajuda desprezadas com frequência são os bibliotecários de sua universidade. Eles
sabem como encontrar e navegar bem, e rapidamente, em bancos de dados. Os bibliotecários
podem ajudá-lo a distinguir entre fontes válidas e inválidas na Internet e também a citar as fontes
no formato adequado ao redigir relatórios.

Conselhos sobre cópia de dados


Se seu conjunto de dados contém vírgulas (por exemplo, 42,586), símbolo de dólar (por exemplo,
US$ 14,88), ou porcentagens (por exemplo, 7,5%), seu pacote estatístico (por exemplo, MINITAB
ou SPSS) pode tratar os dados como texto. Uma variável contém apenas os dígitos 0-9, um ponto
decimal e um sinal de menos. Formate as colunas de dados como números simples com o número
desejado de decimais antes de copiar os dados do pacote que você estiver utilizando. O Excel pode
apresentar um valor 32,8756 como 32,9 se você fixar apenas uma casa decimal, mas é o número
mostrado que é copiado e, assim, as estatísticas do Excel podem não ser as mesmas das obtidas
com o pacote que você estiver utilizando.

Fontes de dados da web 


Fontes Website
Bureau of Economic Analysis www.bea.gov
Bureau of Justice Statistics www.ojp.usdoj.gov/bjs
Bureau of Labor Statistics www.bls.gov
Central Intelligence Agency www.cia.gov
Economic Report of the President www.gpoaccess.gov/eop
Environmental Protection Agency www.epa.gov
Federal Reserve System www.federalreserve.gov
Food and Drug Administration www.fda.gov
National Agricultural Statistics Service www.nass.usda.gov
National Center for Education Statistics www.nces.ed.gov
National Center for Health Statistics www.cdc.gov/nchs
State and Metropolitan Area Data Book www.census.gov/statab/www/smadb.html
Statistical Abstract of the United States www.census.gov/compendia/statab/
Statistics Canada www.statcan.gc.ca
U.N. Dept of Economic and Social Affairs www.un.org/depts/unsd
U.S. Census Bureau www.census.gov
U.S. Federal Statistics www.fedstats.gov
World Bank www.worldbank.org
World Demographics www.demographia.com
World Health Organization www.who.int/en

02_capitulo_02.indd 44 05/08/2014 12:13:31


Capítulo 2   COLETA DE DADOS   45

A maioria das pesquisas investigativas segue os mesmos passos básicos, que podem apresentar 2.6
uma interseção no tempo:
• Passo 1: Estabeleça os objetivos da pesquisa. PESQUISAS
• Passo 2: Estipule o orçamento (tempo, dinheiro, pessoal). INVESTIGATIVAS
• Passo 3: Crie um planejamento da pesquisa (população-alvo, lista de referência, tamanho
amostral).
OA 2-9
• Passo 4: Escolha o tipo de levantamento amostral e o método de administração.
• Passo 5: Faça o planejamento do instrumento de coleta de dados (questionário). Descrever elementos
básicos de elaboração
• Passo 6: Realize um pré-teste do instrumento de levantamento e revise-o, se necessário. de pesquisas, tipos de
• Passo 7: Administre o levantamento (acompanhe-o, se necessário). pesquisas e fontes de erros.
• Passo 8: Codifique e analise os dados.

Tipos de levantamento amostral 


Os levantamentos amostrais dividem-se em cinco categorias gerais: correio, telefone, entrevista,
Web e observação direta. Eles diferem em custo, taxa de resposta, qualidade dos dados, tempo
necessário e treinamento de pessoal. A Tabela 2.11 lista alguns tipos de levantamentos e alguns
de seus pontos fracos e fortes mais relevantes.

Taxas de resposta 
Considere o custo por resposta válida. Um levantamento por telefone pode ser mais barato para
conduzir, mas tenha em mente que mais da metade dos domicílios em algumas áreas metropoli-

Tipo de levantamento Características TABELA 2.11


Correio Você precisa de uma listagem referenciada e atualizada (pessoas costumam Tipos comuns de
mudar de endereço com frequência). Baixas taxas de respostas são comuns e levantamentos
vício de não resposta é esperado (aqueles que respondem são diferentes
daqueles que não respondem). As listagens de códigos postais (muitas vezes,
de alto custo) são uma boa opção para definir estratos de pessoas com
renda, educação e atitudes semelhantes. Para estimular a participação, uma
folha de rosto com uma carta deve explicar claramente o uso que os dados
terão. Planeje correspondências de acompanhamento.
Telefone A discagem aleatória fornece baixa resposta e dificilmente atinge a
população-alvo. Listas de telefone compradas (mailings) ajudam a atingir a
população-alvo, apesar de ter uma baixa taxa de resposta ainda ser
comum (telefones desconectados, identificador de chamadas, secretárias
eletrônicas, períodos em que se está no trabalho, listas de bloqueio de
chamadas). Outras fontes de vícios de não respostas incluem a
desconfiança causada por fraudes e spams e um número crescente de
pessoas que não falam o seu idioma.
Entrevistas Entrevistas têm custo alto e tomam tempo, apesar de certa compensação
entre tamanho de amostra e resultados de alta qualidade poderem fazer
com que valham a pena. As entrevistas devem ser realizadas com muito
cuidado, por isso os entrevistadores precisam ser bem treinados — um
custo adicional. No entanto, os entrevistadores podem obter informação
em tópicos sensíveis e complexos (discriminação por sexo em
companhias, práticas de controle de natalidade, hábitos de dieta e
exercícios, entre outros).
Web Levantamentos pela Web têm crescido em popularidade, mas estão
sujeitos a vícios de não resposta, porque aqueles que participam podem
diferir daqueles que se sentem muito ocupados para responder, ou não
têm computadores ou não confiam nos objetivos da pesquisa (fraudes e
spams são novamente os culpados). Esse tipo de levantamento funciona
melhor quando direcionado a grupos de interesses bem definidos sobre
questões de interesse próprio (por exemplo, opiniões de contadores
certificados sobre as novas regras de contabilidade da Sarbanes-Oxley,
pontos de vista de passageiros habituais sobre segurança em aviões).
Observação direta Isso pode ser feito em um ambiente controlado (por exemplo, um
laboratório de psicologia), mas requer o consentimento do respondente, o
que pode alterar seu comportamento. A observação indiscreta é possível
em algumas situações fora do laboratório (por exemplo, porcentagem de
passageiros de uma companhia aérea que carregam mais de duas malas,
porcentagem de veículos utilitários esportivos com apenas um passageiro,
porcentagem de motoristas que usam cinto de segurança).

02_capitulo_02.indd 45 05/08/2014 12:13:31


46    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

tanas têm telefones não listados, e muitos possuem secretárias eletrônicas e identificador de
chamadas. A amostra que você obtiver pode não ser útil em termos de atingir a população-alvo.
Os levantamentos por telefone (mesmo aqueles com discagem aleatória) prestam-se a amostra-
gem por conglomerados (por exemplo, usando cada código de área — DDD — como um conglo-
merado e cada prefixo do número do telefone como um conglomerado) para amostrar populações
até certo ponto homogêneas. De forma semelhante, levantamentos pelo correio podem ser agru-
pados pelo código postal, que é muito atraente. Os levantamentos pela Web são baratos, porém
bastante descontrolados. Todos os levantamentos têm o problema de vícios de não respostas.
Entrevistas ou experimentos observacionais são caros e fazem uso intenso de mão de obra, mas
podem fornecer dados com melhor qualidade. Projetos de pesquisa em larga escala e de nível
nacional (por exemplo, situação da saúde mental da população nos Estados Unidos) oferecem
incentivos financeiros para encorajar participantes que de outra maneira não forneceriam infor-
mações. Há ajustes que podem ser feitos para sanar os possíveis vícios que possam advir desses
incentivos. A Tabela 2.12 apresenta algumas sugestões para conduzir pesquisas bem-sucedidas.

TABELA 2.12 Planejamento geral Qual o objetivo do levantamento? O que você realmente precisa saber?
Que profissionais especializados você tem disponíveis? Quais habilidades
Diretrizes do
seriam mais bem obtidas externamente? Qual o grau de precisão desejado?
levantamento Como sua verba seria mais bem utilizada?
Projeto de pesquisa Para assegurar uma boa resposta e dados úteis, você deve investir tempo e
dinheiro no planejamento do levantamento. Utilize livros e referências úteis a
fim de evitar cometer erros desnecessariamente.
Qualidade É necessário ter cuidado na preparação do levantamento. Papéis brilhantes
impressos e propaganda têm aumentado as expectativas das pessoas
acerca de qualidade. Um questionário mal elaborado será ignorado.
Alguns levantamentos (por exemplo, baseados na Web) podem precisar de
software especial.
Teste piloto Algumas perguntas que são claras para você podem não ser para outras
pessoas. Você pode pré-testar o questionário com amigos ou colegas, mas o
melhor é usar um grupo de respondentes que não tenha relação com você.
Recompensa As taxas de respostas podem ser melhoradas esclarecendo-se os objetivos
do levantamento e oferecendo-se uma pequena recompensa (um cupom de
desconto, um brinde) ou tornando o ambiente atrativo (contrate um grupo
de animadores profissionais, por exemplo).
Experiência profissional Considere trabalhar com um consultor externo (ou interno) nas etapas
iniciais, mesmo que tenha planejado realizar a coleta e tabulação dos dados
você mesmo. Uma consultoria no início tem um custo–benefício melhor do
que esperar os problemas aparecerem.

Elaboração do questionário 
Você deve considerar a contratação de um consultor, pelo menos nas etapas iniciais, para ajudá-lo
a concretizar sua pesquisa com sucesso. Alternativamente, vários recursos estão disponíveis na
Web para ajudá-lo a planejar seu levantamento. A American Statistical Association (www.amstat.
org) oferece os folhetos What Is a Survey (O que é um levantamento amostral) e How to Plan a
Survey (Como planejar um levantamento). Materiais adicionais estão disponibilizados pela Re­
sear­ch Industry Coalition, Inc. (www.researchindustry.org) e pelo Council of American Survey
Research Organizations (www.casro.org). Livros inteiros têm sido escritos para ajudá-lo no plane-
jamento e na administração de sua própria pesquisa (ver a seção Leitura Relacionada).
O formato deve ser bem organizado (use bastante espaço em branco). Inicie com instruções
bem curtas e claras, mencionando os objetivos, assegurando o anonimato e explicando como
devolver o questionário preenchido. As questões devem ser numeradas. Divida o questionário em
seções se os tópicos puderem ser naturalmente agrupados em áreas distintas. Permita aos respon-
dentes pularem seções que podem não lhes ser relevantes (por exemplo, “se você respondeu não
à Questão 7, vá direto para a Questão 15”). Inclua uma “opção evasiva” quando apropriado (por
exemplo, “Não sei ou Não se aplica”). Utilize redação e termos que estejam de acordo com a
habilidade de leitura e o nível de conhecimento dos respondentes em questão. Realize um pré-
-teste e faça revisões. Mantenha o questionário o mais curto possível. A Tabela 2.13 lista alguns
formatos de questões e escalas de respostas.

02_capitulo_02.indd 46 05/08/2014 12:13:31


Capítulo 2   COLETA DE DADOS   47

Tipo de questão Exemplo TABELA 2.13


Aberta Descreva de forma sucinta seus objetivos. Formato da questão
Preencher espaços em branco Quantas vezes você foi a um culto religioso formal no último ano? e escala da resposta
_________ vezes.
Múltipla escolha Quais destes pacotes estatísticos você já usou?
 SAS  Visual Statistics
 SPSS  MegaStat
 Systat  MINITAB
Escolhas ordenadas Por favor, avalie seu jantar:
Excelente Bom Regular Ruim
Comida    
Atendimento    
Ambiente    
Limpeza    
Geral    
Pictogramas O que você acha da política econômica do presidente?
(circule uma alternativa)

Escala Likert Estatística é um assunto difícil.
Concorda Concorda Não concorda Discorda Discorda
totalmente parcialmente nem discorda parcialmente totalmente
    

Redação das questões 


A maneira como uma questão é colocada tem profunda influência na resposta. Por exemplo, em
um editorial do The Wall Street Journal, Fred Barnes fala de uma pesquisa da Reader’s Digest
que fez duas questões semelhantes:
Versão 1:  Eu ficaria desapontado se o Congresso cortasse as verbas para a televisão pública.
Versão 2: Cortes nas verbas para a televisão pública são justificados para reduzir os gastos
federais.
As mesmas 1.031 pessoas foram pesquisadas em ambos os casos. A versão 1 mostrou 40% a
favor dos cortes, enquanto a versão 2 indicou 52% a favor dos cortes. A margem de erro foi ± 3,5%
(em “How to Rig a Poll”, 14 de junho de 1995, p. A18). Para “manipular” a pesquisa, a impressão
de emoções ou a “transmissão” de imagens mentais podem ser anexadas à questão. De fato, mui-
tas vezes é difícil formular uma questão de forma neutra, sem qualquer contexto. Por exemplo:
Versão 1:  O estado deve reduzir impostos?
Versão 2:  O estado deve reduzir impostos, se isso significa diminuir a manutenção de estradas?
Versão 3:  O estado deve reduzir impostos, se isso significa demitir professores e policiais?

Uma escolha ampla (versão 1) faz que uma redução de impostos pareça “fácil,” enquanto as
versões 2 e 3 requerem que o respondente leve em conta as consequências de uma redução nos
impostos. Uma alternativa é utilizar a versão 1, mas, então, pedir ao respondente que liste os
serviços públicos que deveriam receber cortes nas verbas a fim de balancear o orçamento após a
redução de imposto.
Outra questão na redação das frases é certificar-se de que todas as possibilidades foram co-
bertas. Por exemplo, como um(a) eleitor(a) independente (sem tendência partidária) viúvo(a) res-
ponderia às questões como as apresentadas a seguir?

Você é casado(a)? Qual é sua preferência política?


 Sim  Democrata
 Não  Republicano

As classes de respostas com interseções ou categorias confusas são um problema. Como você
responderia se seu pai fosse falecido ou se ele tiver 45 anos?

Qual é a idade de seu pai?


 35-45  45-55  55-65   65 ou mais

02_capitulo_02.indd 47 05/08/2014 12:13:31


48    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

Codificar e filtrar os dados 


As respostas em levantamentos são, em geral, codificadas numericamente (por exemplo, 1 para
homens e 2 para mulheres), apesar de alguns pacotes computacionais também tabularem as variá­
veis como texto (dados nominais) e as usarem em certos tipos de testes estatísticos. A maioria dos
pacotes requer que você denote os valores omissos utilizando algum caractere especial (por
exemplo, branco, ponto ou asterisco). Se muitas das respostas de um certo respondente forem
inválidas ou omissas no questionário, então você pode eventualmente decidir por descartar o
questionário preenchido por ele.
Outros problemas que envolvem filtrar os dados incluem respostas múltiplas para alternativas
simples (isto é, o respondente escolheu duas respostas quando apenas uma era esperada), respos-
tas absurdas em questões abertas (por exemplo, um respondente que afirma trabalhar 640 horas
por semana), respostas em “intervalos” (por exemplo, 10 a 20 cigarros fumados por dia), ou in-
consistências (por exemplo, um respondente de 55 anos que afirma receber benefícios Medicare*).
Algumas vezes, um acompanhamento é possível, mas em levantamentos anônimos você deve
tomar as melhores decisões que puder ao lidar com dados anômalos. Esteja certo de documentar
suas decisões relacionadas à codificação dos dados — não somente para os outros, mas também
no caso de você ser solicitado a explicar como codificou (é fácil esquecer o que você fez após um
mês ou dois, quando tem sua atenção centrada em outros projetos).
EXERCÍCIOS DA SEÇÃO
2.24 Quais fontes de erros você poderia encontrar se quiser saber (a) acerca dos hábitos de namoro de
universitários, e você vai a uma república de estudantes e pergunta a eles quantos encontros tiveram
no último ano; (b) a frequência com que as pessoas atendem a cerimômias religiosas, e então você
permanece na porta de determinada igreja em um domingo e pergunta, às pessoas que entram, quan-
tas vezes elas vão à missa; (c) com que frequência as pessoas comem no McDonald’s, e então você fica
do lado de fora de um dos restaurantes do McDonald’s e pergunta, aos clientes que entram, com que
frequência eles comem no McDonald’s.
2.25 Que tipo de levantamento (correio, telefone, entrevista, Web, observação direta) você recomendaria
para cada um dos seguintes objetivos e por quê? Quais problemas poderiam ser encontrados?
a. Estimar a proporção de estudantes em sua universidade que preferem aulas de estatística baseadas
na Web a uma aula usual em classe.
b. Estimar a proporção de estudantes em sua universidade que carregam uma mochila para ir às aulas.
c. Estimar a proporção de estudantes em sua universidade que teriam interesse em fazer um curso de
verão, durante dois meses, em negócios internacionais com visitas a fábricas europeias.
d. Estimar a proporção de formados em administração nos Estados Unidos que tenham cursado uma
disciplina em negócios internacionais.
2.26 Que tipo de levantamento (correio, telefone, entrevista, Web, observação direta) você recomendaria
para uma pequena lavanderia usar para cada um dos seguintes objetivos e por quê?
a. Estimar a proporção de clientes que preferem que a lavanderia esteja aberta às 7 horas da manhã
em vez das 8 horas.
b. Estimar a proporção de clientes que utilizam somente o serviço de lavagem usual, e não o de lava-
gem a seco.
c. Estimar a proporção de residentes com o mesmo código postal que gastam mais do que US$ 20 por
mês com lavagem a seco.
d. Estimar a proporção de funcionários, entre sete funcionários da loja, que acham a lavandeira mui-
to quente.
2.27 Qual seria a diferença nas respostas dos estudantes às duas questões mostradas?
Versão 1: Eu preferiria que a mensalidade da faculdade fosse reduzida.
Versão 2: Cortes na mensalidade da faculdade são uma boa ideia mesmo que algumas aulas
sejam canceladas.
2.28 Quais problemas são evidentes na redação destas duas questões?
Qual é a sua raça? Qual é a sua preferência religiosa?
 Branca  Cristã
  Negra  Judaica

*
  N. de R.T.: Medicare é um programa de saúde do governo federal dos Estados Unidos para pessoas acima de 65 anos
e impossibilitadas de pagar um seguro-saúde privado.

02_capitulo_02.indd 48 05/08/2014 12:13:31


Capítulo 2   COLETA DE DADOS   49

Minicaso 2.5
Funções de entidades de ensino superior
Uma pesquisa de opinião pública sobre o papel de entidades de ensino superior foi realizada pelo The Chronicle of Higher Educa-
tion. Os resultados da pesquisa demonstraram que 77% dos respondentes concordaram com a afirmação de que é extremamente
importante que as universidades preparem seus alunos para uma carreira. O percentual de respondentes que concordou com a afir-
mação de que era demasiadamente importante para as universidades prepararem seus alunos para se tornarem cidadãos responsá-
veis foi ligeiramente menor, 67%. A pesquisa fez uso de 1 mil entrevistas via telefone, com duração de 20 minutos cada, utilizando
uma seleção aleatória de homens e mulheres entre 25 e 65 anos e foi realizada em 25 de fevereiro de 2004. A pesquisa foi supervi-
sionada pela empresa TMR Inc. of Broomall, no estado da Pensilvânia. Os dados foram coletados e analisados pela empresa GDA
Integrated Services, uma firma de pesquisa de mercado de Old Saybrook, Connecticut. Os rótulos de classificação da escala Likert
são ponderados no sentido positivo, o que é comum quando os itens da pesquisa (neste caso, o papel das universidades) são supos-
tamente muito importantes e há pouca probabilidade de ocorrer uma resposta negativa consistente. Os respondentes também foram
questionados em relação a informações demográficas; 58% eram mulheres e 42% eram homens, originários de todos os estados da
Federação, com exceção dos estados do Alaska e do Havaí; 11% eram afrodescendentes (número semelhante ao da média nacional);
no entanto, apenas 6% eram hispânicos (cerca de 8% abaixo da média nacional). A sub-representação de hispânicos foi atribuída a
barreiras de idioma, ilustrando uma dificuldade com a qual as pesquisas se deparam. Entretanto, a renda dos respondentes, suas
convicções religiosas e opiniões políticas se mostraram semelhantes, de um modo geral, à população dos Estados Unidos. O método
de seleção aleatória não foi especificado. Repare que as empresas especializadas em amostras de pesquisas geralmente têm acesso
a listas comerciais e utilizam seus próprios métodos.

Um conjunto de dados consiste em todos os valores de todas as variáveis que escolhemos observar. Resumo
Geralmente, é uma matriz com n linhas e m colunas. Os conjuntos de dados podem ser univariados
(uma variável), bivariados (duas variáveis) ou multivariados (três ou mais variáveis). Existem dois
tipos básicos de dados: dados por atributos (categorias que são descritas por rótulos) ou numéricos
(os números fazem sentido). Dados numéricos são discretos se os valores são inteiros ou podem ser
contados, ou contínuos, se qualquer intervalo pode conter mais valores de dados. Medidas nominais
são nomes, medidas ordinais são postos (valores ordenados), medidas intervalares têm distâncias
entre valores dos dados que fazem sentido, e medidas razão têm um zero como ponto de referência.
Dados de séries temporais são observações medidas em n instantes de tempo diferentes ou em inter-
valos de tempo sequenciais, ao passo que dados transversais são observações entre n entidades como
indivíduos, empresas ou regiões geográficas. Entre as amostras probabilísticas, as aletórias sim-
ples escolhem itens de uma lista usando números aleatórios, as sistemáticas tomam todo k-ésimo
item, as amostras por conglomerado selecionam regiões geográficas e as estratificadas levam em
conta proporções populacionais conhecidas. As amostras não probabilísticas incluem as amostras
por conveniência ou intencionais, que economizam tempo, mas sacrificam a aleatoriedade. Grupos de
foco fornecem informações aprofundadas. O planejamento de uma pesquisa requer atenção à reda-
ção das questões e à definição das escalas. Técnicas de levantamento (correio, telefone, entrevistas,
Web, observação direta) dependem do tempo, da verba e da natureza das questões e estão sujeitas a
várias fontes de erro.

amostra, 32 conjunto de dados erro de entrevista, 42


multivariados, 23
Termos-chave
amostra aleatória simples, 35 erro de medida, 42
amostragem com reposição, 35 conjunto de dados erro de respostas, 42
amostragem estratificada, 38 univariados, 23 escala Likert, 29
dados, 23 estatística, 32
amostragem intencional, 40
dados contínuos, 25 grupo de enfoque, 40
amostragem não probabilística, 35
dados de razão, 30 lista de referência, 33
amostragem probabilística, 35
dados de séries temporais, 25 números aleatórios, 35
amostragem por conveniência, 40 dados discretos, 25 parâmetro, 32
amostragem sem resposição, 35 dados intervalares, 29 população, 32
amostragem sistemática, 37 dados nominais, 27 população-alvo, 33
amostras por conglomerados, 39 dados numéricos, 23 sujeito, 23
censo, 32 dados ordinais, 28 variável, 23
codificação, 24 dados por atributo, 23 variável binária, 24
conjunto de dados, 23 dados transversais, 26 vício de não resposta, 42
conjunto de dados erro de amostragem, 42 vício de seleção, 42
bivariados, 23 erro de cobertura, 42

02_capitulo_02.indd 49 05/08/2014 12:13:32


50    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

Revisão 1. Defina (a) dados, (b) conjunto de dados, (c) sujeito e (d) variável.
2. De que forma dados de negócios diferem de dados científicos experimentais?
3. Faça a distinção entre (a) dados univariados, bivariados e multivariados; (b) dados discretos e
contínuos; (c) dados por atributos e numéricos.
4. Defina as quatro escalas de medidas e dê exemplos de cada uma.
5. Explique a diferença entre dados transversais e dados de séries de tempo.
6. (a) Aponte três razões que levariam um censo a ser preferível em relação a uma amostra; (b) liste
três razões pelas quais uma amostra seria preferível a um censo.
7. (a) Qual a diferença entre um parâmetro e uma estatística? (b) O que é uma população-alvo?
8. (a) Liste quatro métodos de amostragem probabilística. (b) Enumere dois métodos de amostragem
não probabilística. (c) Por que eventualmente utilizaríamos uma amostragem não probabilística?
(d) Por que geralmente a amostragem é feita sem reposição?
9. Liste cinco (a) etapas de uma pesquisa, (b) questões no planejamento de uma pesquisa, (c) tipos de
levantamentos, (d) tipos de escala de questão e (e) fontes de erro em pesquisas.
10. Aponte vantagens e desvantagens dos diferentes tipos de levantamentos.

EXERCÍCIOS DO CAPÍTULO
TIPOS DE DADOS
2.29 Para as variáveis a seguir, indique o tipo de dado (por atributo, numérico discreto, numérico contínuo).
a. Idade de um jogador de tênis escolhido aleatoriamente no torneio de Wimbledon.
b. Nacionalidade de um jogador de tênis escolhido aleatoriamente no torneio de Wimbledon.
c. Número de duplas-faltas de um jogador de tênis escolhido aleatoriamente no torneio de Wimbledon.
2.30 Para as variáveis a seguir, indique o tipo de dado (por atributo, numérico discreto, numérico contínuo).
a. Número de espectadores em uma partida de tênis escolhida ao acaso no torneio de Wimbledon.
b. Consumo de água (em litros) por um jogador escolhido ao acaso durante uma partida de tênis em
Wimbledon.
c. Gênero de um jogador de tênis escolhido aleatoriamente no torneio de Wimbledon.
2.31 Determine o tipo de dado (nominal, ordinal, intervalar ou razão) para cada uma das seguintes variá-
veis. Justifique.
a. Classificação do cliente sobre cinco novos carros híbridos.
b. Nível de ruído a 100 metros da via expressa Dan Ryan em um momento escolhido aleatoriamente.
c. Número de ocupantes de um veículo escolhido ao acaso na rodovia San Diego Freeway.
2.32 Determine o tipo de dado (nominal, ordinal, intervalar ou razão) para cada uma das seguintes variáveis?
a. Número de visitas anuais ao médico de um conveniado de um seguro de saúde específico.
b. Consumo diário de cafeína de uma criança de seis anos de idade.
c. Tipo de veículo dirigido por um estudante universitário.
2.33 A seguir, são apresentadas 15 questões de um levantamento aplicado a uma amostra de estudantes de
MBA. As respostas foram registradas em papel no espaço à esquerda de cada questão. Para cada uma
delas, diga qual é o tipo de dado (por atributo, numérico discreto ou contínuo) e a escala de medida
(nominal, ordinal, intervalar, razão). Explique seu raciocínio. Se existir dúvida, discuta as alternativas.­

_____ Q1 Qual é o seu sexo? (Masculino = 0, Feminino = 1)


_____  Q2 Qual é a sua nota aproximada no exame GPA da faculdade? (1,0 a 4,0)
_____  Q3 Aproximadamente, quantas horas por semana você espera gastar em estágio neste
semestre?
_____ Q4 Qual é o número de filhos que você acha ideal para um casal?
_____ Q5 Em uma escala de 1 a 5, qual é o valor que melhor descreve seus pais?
1 = Mãe claramente dominante ↔ 5 = Pai claramente dominante
_____ Q6 Em uma escala de 1 a 5, avalie o mercado de trabalho atual para sua carreira.
1 = Muito ruim ↔ 5 = Muito bom
_____ Q7 Durante o último mês, quantas vezes a sua programação não pôde ser cumprida em
razão de problemas com o carro?
_____ Q8 Aproximadamente, quantos anos de faculdade seus pais cursaram (aquele com nível
educacional mais alto)? (em anos)
_____ Q9 Durante o último ano, quantas multas de trânsito (excluindo estacionamento irregu-
lar) você recebeu?
_____ Q10 Qual é a orientação política que melhor reflete sua opinião?
(1 = Liberal, 2 = Moderado, 3 = Conservador)

02_capitulo_02.indd 50 05/08/2014 12:13:32


Capítulo 2   COLETA DE DADOS   51

_____ Q11 Qual é a idade do carro que você geralmente dirige? (em anos)
_____ Q12 Quantas vezes você esteve em cerimônias religiosas formais no último ano (aproxi-
madamente)?
_____ Q13 Com que frequência você lê um jornal diário?
(0 = Nunca, 1 = Ocasionalmente, 2 = Regularmente)
_____ Q14 Você consegue realizar transações simples em uma língua diferente do seu idioma?
(0 = Não, 1 = Sim)
_____ Q15 Com que frequência você se exercita (aeróbica, corrida etc.)?
(0 = Nunca, 1 = Algumas vezes, 2 = Regularmente)

2.34 Identifique os seguintes dados como dados de séries temporais ou transversais.


a. A remuneração de um CEO em 2007, nas 500 maiores empresas dos Estados Unidos.
b. A remuneração anual de um CEO das Empresas Coca-Cola no período entre 1990 a 2009.
c. A receita semanal de um restaurante da Noodles & Company nas 52 semanas do ano de 2009.
d. O número de esquiadores nas montanhas, no dia de Natal de 2009, em cada uma das estações de
esqui da Vail Resorts.
2.35 Identifique se os seguintes dados são dados de séries temporais ou transversais.
a. O número de quartos reservados por noite durante o mês de janeiro de 2010 na Vail Resorts.
b. O montante gasto em livros, por cada aluno do seu curso de estatística, no começo deste semestre.
c. O número de caesar salads vendidas na semana de 19 de abril de 2010 no restaurant Noodles &
Company.
d. O valor das ações das empresas Coca-Cola, em 1º de maio, em cada um dos últimos 10 anos.

MÉTODOS DE AMOSTRAGEM
2.36 O que você utilizaria, uma amostra ou um censo, para medir as seguintes características? Por quê? Se
não tiver certeza, explique quais são as questões envolvidas.
a. O número de latas de sopa da marca Campbell na prateleira de seu supermercado local hoje às 6
horas da tarde.
b. A proporção de sopas vendidas em Boston na última semana que eram da marca Campbell.
c. A proporção de latas de sopa da marca Campbell na despensa de sua família.
2.37 Você utilizaria uma amostra ou um censo para medir cada um dos seguintes dados?
a. O número de trabalhadores atualmente empregados pela Campbell Soup Company.
b. O preço médio de uma lata de sopa de cogumelos da Campbell.
c. Os ganhos totais dos trabalhadores contratados pela Campbell Soup Company no ano passado.
2.38 Para cada uma das situações a seguir, verifique se se trata de um parâmetro ou de uma estatística. Se
estiver em dúvida, explique quais as questões envolvidas.
a. O número de latas de sopa da marca Campbell vendidas na última semana em seu supermercado local.
b. A proporção de todas as sopas da marca Campbell vendidas no último ano nos Estados Unidos.
c. A proporção de latas de sopa da marca Campbell na despensa das famílias de 10 estudantes.
2.39 As seguintes quantidades são parâmetros ou estatísticas?
a. O número de visitas ao consultório de um pediatra na semana passada.
b. O número de cópias vendidas até agora do romance mais recente de John Grisham.
c. A receita total percebida, a partir das vendas do mais recente romance de John Grisham.
2.40 Em 2008, os pesquisadores estimaram que 76,8% do tráfego global de e-mails era de mensagens
spam. Um censo poderia ser usado para atualizar essa estimativa? Por quê?
2.41 Uma determinada organização de saúde tem estudado a sua rotina administrativa diária. Eles coletam
informações com base em três variáveis: o número de pacientes que chegam durante o dia, as recla-
mações dos pacientes e o tempo de espera até que cada paciente seja atendido pelo médico. (a) Qual
variável é por atributo? (b) Identifique as duas variáveis quantitativas e determine se elas são discretas
ou contínuas.
2.42 Há 327 portas de entrada oficiais nos Estados Unidos. O Departamento de Segurança Interno selecio-
na as portas de entrada aleatoriamente para serem auditadas, no que refere ao cumprimento dos pro-
cedimentos de verificação daqueles que entram no país via terrestre pelas rodovias americanas. Que
tipo de amostra é essa? (simples, sistemática, estratificada ou aglomerada)?
2.43 A Receita Federal estima que o contribuinte médio gastou 3,7 horas preenchendo o formulário de
devolução do Imposto de Renda. Um censo poderia ser utilizado para atualizar essa estimativa para o
ano-base fiscal anterior? Por quê?
2.44 O Tribunal de Contas realizou um teste aleatório em bombas de gasolina nos estados de Michigan,
Missouri, Oregon e Tennessee. O estudo concluiu que 49% das bombas de gasolina no país todo se
encontram inapropriadas num índice de mais da metade de um ponto no nível de octanas. Que tipo de
técnica de amostragem foi provavelmente utilizada nesse tipo de estudo?

02_capitulo_02.indd 51 05/08/2014 12:13:32


52    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

2.45 O arsênico (um metal venenoso, de ocorrência natural) em poços de água domésticos é um risco co-
mum. (a) Que método de amostragem você usaria para estimar os níveis de arsênico em poços em um
condado rural para ver se as amostras violam o limite especificado pela EPA (U.S. Environment
Protection Agency — Agência de Proteção ao Meio Ambiente), de 10 partes por bilhão (ppb)? (b)
Seria possível realizar um censo?
2.46 Em média, o homem norte-americano calça sapatos de tamanho 10 e gasta 4 horas por ano arrumando
o nó da gravata. Em média, as universitárias norte-americanas têm 3,5 pares de calças jeans. Em
média, o norte-americano ri 15 vezes por dia e engole 215 comprimidos de aspirina por ano, e tem um
cachorro pesando 32 lb. (a) Escolha uma dessas estimativas. Como você acha que ela foi obtida? (b)
Qual método de amostragem você usaria para atualizar cada uma dessas estatísticas? Quais proble-
mas você anteciparia? (c) Poderia ser usado um censo? (Os dados são de Mike e Feinsilber, William
B. Mead, American Averages: Amazing Facts of Everyday Life. Doubleday-Dolphin, 1980.)
2.47 Você acha que a Noodles & Company usaria uma amostra ou um censo para medir cada um dos se-
guintes itens? Explique.
a. A média anual da receita semanal de cada restaurante da Noodles.
b. O número médio, por semana, de clientes que frequentam o restaurante no horário de almoço.
c. A classificação de satisfação do cliente em relação a uma nova sobremesa.
d. O número de semanas que o restaurante vende mais bebidas industrializadas do que água mineral
no período de um ano.
2.48 Uma revista de finanças publicou uma lista anual dos maiores fundos de ações. No ano passado, a
lista continha 1.699 fundos. Que método você recomendaria para obter uma amostra de 20 fundos
para estimar o retorno percentual em 10 anos?
2.49 Examine cada uma das estatísticas a seguir. Determine qual método de amostragem foi mais prova-
velmente utilizado (aleatório simples, sistemático, estratificado ou conglomerado).
a. Uma pesquisa concluiu que 30% das empresas dos Estados Unidos já demitiram algum funcionário
em razão de navegação inapropriada na web, como: jogos, pornografia ou compras.
b. Médicos entrevistados atestam que 59% dos seus pacientes não seguem o tratamento prescrito.
c. A Receita Federal relata que, com base numa amostra de contribuintes individuais, 80% daqueles
que deixam de pagar o imposto devido, o fazem em decorrência de erros ou interpretação distorci-
da das normas tributárias.
d. Na Espanha, o consumo de cigarros per capita é de 2.274 comparado aos 1.230 nos Estados Unidos.
2.50 O Instituto de Defesa do Consumidor registrou 999.645 pacientes que tiveram alta em hospitais no
mês de outubro de 2008. A Secretaria de Saúde e Serviço de Assistência Social realizou uma auditoria
detalhada de eventos médicos adversos numa amostra aleatória de 780, sem reposição, atribuindo um
número aleatório para cada paciente da lista e posteriormente escolhendo números inteiros aleatórios
entre 1 e 999.645. (a) Determine o tipo de amostra descrito (aleatória, sistemática, estratificada, con-
glomerada). (b) Essa população é efetivamente infinita?
2.51 Antes do início de um programa de reciclagem, uma cidade decide medir a quantidade de lixo produ-
zido por um único domicílio em várias vizinhanças. O experimento requererá que o lixo seja pesado
no mesmo dia em que é colocado para fora. (a) Qual método de amostragem você recomendaria e por
quê? (b) Por que não outros? (c) Qual seria uma potencial fonte de erro amostral?
2.52 Para um projeto de estatística, um aluno examinou toda bituca de cigarro ao longo da calçada em um
bloco perto de sua casa. Das 47 bitucas que estavam identificáveis, 22 eram da marca Marlboro. (a)
Que método de amostragem é este (se há algum)? (b) Seria correto inferir que 47% de todos os fuman-
tes preferem Marlboro? (c) Quais fontes de erros potenciais estão presentes nesta amostra?
2.53 A fim de proteger os mexilhões filhotes e assegurar a sobrevivênvcia da espécie, o U.S. Fisheries and
Wildlife Service exige que um mexilhão médio deve pesar ao menos 1/36 lb. O oficial do porto de
Massachusetts selecionou aleatoriamente 18 sacas de mexilhão de 11 mil sacas de um barco que che-
gava. De cada saca, os agentes tomaram uma grande concha de mexilhões, separaram e pesaram a
carne, dividiram pelo número de mexilhões na concha, encontrando um peso médio de 1/39 lb. (a)
Neste caso, a população de 11 mil sacas pode ser considerada efetivamente infinita? (b) Qual valor
representa uma amostra estatística: 1/36 ou 1/39? (Dados extraídos de Interfaces 25, n. 2 [março-abril
1995], p. 18.)
2.54 Um grupo de pesquisa teve a iniciativa de coletar informações de clientes existentes e potenciais em
relação à atratividade de um novo produto. O grupo enviou questionários para uma amostra aleatória
de 1.200 pessoas, a partir de sua base de dados de mais de 25 mil clientes atuais e potenciais. Você
consideraria essa população efetivamente infinita?
2.55 Um levantamento com 500 clientes potenciais para novos veículos nos Estados Unidos indicou que
37% esperavam seu próximo veículo ser um veículo utilitário esportivo. Que tipo de método amostral
você supõe que foi utilizado para se chegar a essa estimativa?

02_capitulo_02.indd 52 05/08/2014 12:13:32


Capítulo 2   COLETA DE DADOS   53

2.56 Níveis de chumbo no sangue excedendo 10 microgramas por decilitro têm-se mostrado nocivos ao
desenvolvimento mental e físico em crianças. O U.S. Center for Disease Control and Prevention em
Atlanta diz que cerca de 500 mil crianças nos Estados Unidos têm concentrações de chumbo no san-
gue acima desse nível. Qual método de amostragem você acha que foi usado para medir os níveis de
chumbo no sangue das crianças dos Estados Unidos para se chegar a essa conclusão?
2.57 Domicílios podem se inscrever em uma “lista de não chamadas” de telemarketing. De que forma os
domicílios que se subscrevem diferem de domicílios que não o fazem? Que vícios poderiam ser cria-
dos nesse caso para os operadores de telemarketing promoverem (a) serviços de planejamento finan-
ceiro, (b) serviços de limpeza de tapetes e (c) pacotes de viagens de férias?

LEVANTAMENTOS E ESCALAS
2.58 Proponha respostas do tipo múltipla escolha para as seguintes questões. Em cada caso, descreva as
dificuldades que você encontrou ao pensar em respostas apropriadas.
a Onde você está empregado?
b. Qual é o principal desafio que o próximo presidente dos Estados Unidos encontrará?
c. Você é feliz?
2.59 Proponha ambos, uma escala Likert e uma escala de resposta, para medir o seguinte:
a. A avaliação estudantil de determinado professor de estatística.
b. A satisfação de um eleitor com a política econômica do presidente.
c. A percepção do tempo de espera para ser atendido por um médico de um paciente HMO.*
2.60 Qual escala de medida (nominal, ordinal, intervalar, razão) seria apropriada para o sistema de classi-
ficação de filmes que você vê no TV Guide ( , , , )? Explique sua resposta.
2.61 Companhias de seguro são classificadas por diversas agências. A escala Fitch de 20 pontos é AAA,
AA+, AA, AA–, A+, A, A–, BBB+, BBB, BBB–, BB+, BB, BB–, B+, B, B–, CCC+, CCC, CCC–, DD.
a) Que escala de medida está em uso aqui? b) Para uma escala que usa medidas intervalares, qual
suposição é necessária? (Escalas de Weiss Ratings Guide to HMOs and Health Insurers, p. 15, ve-
rão 2003.)
2.62 Um levantamento feito nas mesas de um restaurante perguntou a questão mostrada a seguir. (a) Que
tipo de escala de resposta é esta? (b) Sugira uma escala de resposta alternativa que seria mais sensível
a diferenças de opinião. (c) Sugira possíveis fontes de vício de resposta nesse tipo de pesquisa.
A apresentação da comida e da bebida foi atraente?
 Sim    Não

MINIPROJETOS
2.63 Dê dois exemplos originais de (a) dados discretos e (b) dados contínuos. Em cada exemplo, explique
e identifique qualquer ambiguidade que possa existir. Sugestão: Considere dados relacionados com
sua própria experiência (por exemplo, seu desempenho nos esportes, dados acadêmicos ou financei-
ros). Não é necessário listar todos os dados; simplesmente os descreva e apresente alguns valores de
dados típicos.
2.64 Dê dois exemplos originais de (a) dados de séries temporais e (b) dados transversais. Sugestão: Não
se limite a dados publicados. Não é necessário listar todos os dados; simplesmente os descreva e
apresente alguns valores de dados típicos.
2.65 Idealize um método prático de amostragem (não necessariamente um dos mencionados neste capítu-
lo) para coletar dados e estimar cada parâmetro.
a. Porcentagem de pacientes do plano de saúde HMO que vão a mais do que cinco consultas por ano.
b. Nível de ruído (em decibéis) em uma vizinhança a 100 metros de determinada estrada.
c. Porcentagem de empréstimos bancários concedidos a clientes pela 1ª vez no ano passado.
2.66 Elabore um método de amostragem prático para coletar dados visando a estimação dos seguintes parâ-
metros.
a. Percentual de amendoins numa lata de Planter’s Mixed Nuts.
b. Preço médio da gasolina na sua região.
c. Média de atraso no embarque aéreo da Companhia Southwest Airlines em Salt Lake City.
2.67 A seguir, são apresentados 64 nomes de funcionários da empresa NilCo. Diferentes tons de cinza
denotam diferentes departamentos (finanças, marketing, compras, engenharia). Amostre oito nomes

*
  N. de R.T.: HMO é a sigla de Health Maintenance Organization, um plano de saúde privado, de custo relativamente
baixo, no qual os usuários podem utilizar apenas a rede referenciada de médicos.

02_capitulo_02.indd 53 05/08/2014 12:13:33


54    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

do quadro apresentado usando (a) amostragem aleatória simples, (b) amostragem sequencial e (c)
amostragem por conglomerado. Tente assegurar que todo nome tenha a mesma chance de ser escolhido.
Qual método amostral parece ser o mais apropriado?  PickEight

Floyd Sid LaDonna Tom Mabel Nicholas Bonnie Deepak


Nathan Ginnie Mario Claudia Dimitri Kevin Blythe Dave
Lou Tim Peter Jean Mike Jeremy Chad Doug
Loretta Erik Jackie Juanita Molly Carl Buck Janet
Anne Joel Moira Marnie Ted Greg Duane Amanda
Don Gadis Balaji Al Takisha Dan Ryan Sam
Graham Scott Lorin Vince Jody Brian Tania Ralph
Bernie Karen Ed Liz Erika Marge Gene Pam

2.68 Escolha cinco cartas (sem reposição) do quadro a seguir, usando números aleatórios. Explique seu
método. Por que outros métodos de amostragem não funcionariam bem nesse caso?

A A A A
K K K K
Q Q Q Q
J J J J
10 10 10 10
9 9 9 9
8 8 8 8
7 7 7 7
6 6 6 6
5 5 5 5
4 4 4 4
3 3 3 3
2 2 2 2

2.69 Tratando este livro-texto como uma população, selecione aleatoriamente uma amostra de 10 páginas
usando (a) amostragem aleatória simples, (b) amostragem sistemática, (c) amostragem por conglomera-
do e (d) amostragem intencional. Explique cuidadosamente a sua metodologia em cada caso. (e) Qual
método você recomendaria para estimar o número médio de fórmulas por página? Por que não outros?
2.70 Faça uma fotocópia do quadro a seguir (omita estas instruções) e mostre-a a um amigo ou colega de
classe. Peça-lhe para escolher um número aleatório e escrevê-lo em um pedaço de papel. Colete o
papel. Repita o processo para pelo menos 20 amigos/colegas. Faça a tabulação dos resultados. Será
que todos os números foram escolhidos em igual número de vezes? Em caso negativo, quais foram
favorecidos e quais foram evitados? Por quê? Sugestão: Rever a Seção 2.6.  PickOne

0 11 17 22

8 36 14 18

19 28 6 41

12 3 5 0

2.71 Peça a cada um de 20 amigos ou colegas para escolher um número inteiro entre 1 e 5. Tabule os resul-
tados. Os resultados parecem ser aleatórios. Se não, você poderia pensar em quais razões?
2.72 Você pode testar o algoritmo Excel para selecionar números inteiros aleatórios com um simples expe-
rimento. Tecle =RANDBETWEEN(1,2) na célula A1 e depois copie nas células A1:E20. Isso cria um
bloco de dados de 100 células contendo ou um número 1 ou um número 2. Na célula G1, digite COUN-
TIF (A1:E20,“=1”) e na célula G2, digite =COUNTIF(A1:E20,“=2”). Destaque as células G1 e G2 e utilize
o Excel’s Chart Wizard para criar uma planilha. Clique na escala do eixo vertical e estabeleça o limi-
te menor para 0 e o maior para 100. Você verá algo parecido com o exemplo a seguir. Posteriormente,
pressione a tecla F9 e observe o gráfico. Você está convencido de que, em média, você obtém cerca de
50 dígitos 1 e 50 dígitos dois? Desafio: Generalize esse experimento em números inteiros do número
1 ao número 5.  RandBetween

02_capitulo_02.indd 54 05/08/2014 12:13:33


Capítulo 2   COLETA DE DADOS   55

Guias a fontes de dados Leituras


Butler, F. Patrick. Business Research Sources: A Reference Navigator. http://www.businessresearchsour-
ces.com/business-school/. relacionadas
Clayton, Gary E.; and Martin Giesbrecht. A Guide to Everyday Economic Statistics. 6th ed. Irwin/Mc-
Graw-Hill, 2003.

Amostragem e levantamentos
Cooper, Donald R.; and Pamela S. Schindler. Business Research Methods. 11th ed. Irwin/McGraw-Hill, 2011.
Fowler, Floyd J. Survey Research Methods. 3rd ed. Sage, 2001.
Groves, Robert M., et al. Survey Methodology. Wiley, 2004.
Groves, Robert M.; Paul P. Biemer; and Lars E. Lyberg. Telephone Survey Methodology. Wiley, 2001.
Levy, Paul S.; and Stanley Lemeshow. Sampling of Populations. 3rd ed. Wiley, 2003.
Lyberg, Lars; and Paul Blemer. Introduction to Survey Quality. Wiley Europe, 2003.
Mathieson, Kieran; and David P. Doane. “Using Fine-Grained Likert Scales in Web Surveys.” Alliance
Journal of Business Research 1, no. 1 (2006), pp. 27-34.
Scheaffer, Richard L.; William Mendenhall; and R. Lyman Ott. Elementary Survey Sampling. 6th ed.
Duxbury, 2006.
Thompson, Steven K. Sampling. 2nd ed. Wiley, 2002.

CAPÍTULO 2  Recursos de Aprendizagem Online


www.grupoa.com.br

Depois de cadastrado no site do Grupo A (www.grupoa.com.br), procure pela página deste livro
e clique no ícone de Conteúdo Online para ter acesso a diversas demonstrações do Learning
Stats (em inglês). Seu professor poderá recomendar algumas delas ou você poderá fazer o
down­load daquelas que julgar mais interessantes.

Tópicos Conteúdo
Amostragem   Métodos de amostragem
  Quem é escolhido?
  Aleatorizando um arquivo
  Escolha um cartão
  Função RANDBETWEEN
Fontes de dados   Fontes de dados na web
Legenda: = Excel   = PDF

02_capitulo_02.indd 55 05/08/2014 12:13:34


CAPÍTULO 3

DESCRIÇÃO
VISUAL DOS DADOS

Conteúdo

3.1 Gráfico ramo-e-folhas e gráfico de pontos (dot-plot)


3.2 Distribuição de frequência e histogramas
3.3 Gráficos em Excel
3.4 Gráficos de linhas
3.5 Gráficos de barras
3.6 Gráficos circulares ou gráficos pizza
3.7 Gráficos de dispersão
3.8 Tabelas
3.9 Gráficos traiçoeiros

Objetivos de aprendizagem

OA 3-1 Elaborar gráficos ramo-e-folhas ou gráficos de pontos à mão livre


ou no computador.
OA 3-2 Criar uma distribuição de frequência para um conjunto de dados.
OA 3-3 Construir um histograma com blocos apropriados.
OA 3-4 Identificar assimetria, classes modais e discrepâncias (outliers)
num histograma.
OA 3-5 Elaborar um gráfico de linhas utilizando o Excel.
OA 3-6 Conhecer as regras para gráficos de barras e gráficos pizza.
OA 3-7 Construir e interpretar um gráfico de dispersão utilizando o Excel.
OA 3-8 Criar tabelas simples e tabelas pivot.
OA 3-9 Reconhecer técnicas de representação gráfica traiçoeiras.

56

03_capitulo_03.indd 56 05/08/2014 12:15:14


Os gerenciadores necessitam de informações que os ajudem a identificar tendências e a se ade- 3.1
quar a condições de mudanças constantes. Entretanto, é difícil assimilar dados brutos em grande
quantidade. Como um analista de negócios pode converter dados brutos em informações úteis? GRÁFICO
A estatística oferece ferramentas para organizar, explorar e resumir dados de maneira sucinta. RAMO-E-FOLHAS
Seus métodos podem ser visual (diagramas e gráficos) ou numérico (medidas estatísticas ou ta- E GRÁFICO DE
belas). Neste capítulo, você verá como um recurso visual pode fornecer meios de discernir carac-
terísticas dos dados sem usar matemática. Começamos com um conjunto de n observações x1, x2, PONTOS
... , xn de uma variável (dados univariados). Tais dados podem ser discutidos em termos de três (DOT-PLOT)
características: tendência central, dispersão e forma. A Tabela 3.1 aborda de forma sumária
essas três características como questões que deverão ser feitas sobre os dados.

Característica Interpretação TABELA 3.1


Medição Quais são as unidades de medida? Os dados são inteiros ou contínuos? Características de
Há observações faltantes ou omissas (missing)? Há problemas de precisão dados univariados
ou de amostragem?
Tendência central Onde os dados estão concentrados? Quais valores parecem ser típicos
ou centrais?
Dispersão Quanta variação há nesses dados? Quão dispersos estão os valores?
Há valores incomuns?
Forma Os dados estão distribuídos de forma simétrica? Há alguma assimetria?
Há algum pico? Ou achatamento? Ou valores bimodais?

EXEMPLO 3.1
Índices preço/rentabilidade
Os índices Preço/Rentabilidade (P/R) — preço atual no mercado dividido pela rentabilida-
de da ação nos últimos 12 meses — mostram quanto um investidor está disposto a pagar
por uma ação baseado na sua rentabilidade. Os índices P/R também são usados para deter-
minar quão otimista o mercado é com relação ao potencial de crescimento de uma ação. Os
investidores podem desejar pagar mais por uma ação de baixa rentabilidade do que para
uma de rentabilidade maior se virem que a primeira tem potencial de crescimento. A Tabe-
la 3.2 mostra os índices P/R para uma amostra aleatória de companhias (n = 44) dentre as
500 que compõem o índice Standard & Poor´s (S&P). Podemos estar interessados em saber
como os índices P/R das companhias do índice S&P são comparáveis umas com as outras
e como é a distribuição dos índices P/R considerando-se todas as companhias do índice.
Recursos visuais podem nos ajudar a descrever e a discernir as principais características
dessa amostra.
57

03_capitulo_03.indd 57 05/08/2014 12:15:15


58    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

TABELA 3.2  Índices P/R de 44 companhias  PERatios

Índice Índice Índice


Companhia Companhia Companhia
P/R P/R P/R
Amer Tower Corp A 59 FMC Corporation 20 NetApp 37
Analog Devices Inc 16 Gap (The) 12 Occidental Petroleum 19
Applied Materials Inc 20 Hartford Finan Svc Gp 11 O’Reilly Automotive 22
Best Buy Co Inc 10 Hess Corporation  7 PepsiCo Inc 16
Big Lots Inc 11 Hospira Inc 24 PG&E Corp 16
Carefusion Corp 38 Intel Corp 11 PPL Corp 14
Coventry Health Care Inc 10 Invesco Ltd 27 Reynolds Amer Inc 19
Cummins Inc 23 Johnson Controls 17 Roper Industries 26
Dell Inc 13 King Pharmaceuticals 42 Starbucks Corp 26
Dentsply International 18 Kroger Co 13 Sunoco Inc 28
Donnelley (RR) & Sons 31 Macy’s Inc 17 Titanium Metals Corp 50
Eastman Chemical 16 Mattel Inc 14 United Health Grp Inc  9
Entergy Corp 10 Medco Health Sols Inc 21 Ventas Inc 37
Exelon Corp 10 MetroPCS Comm Inc 21 Walmart Stores 13
Fiserv Inc 18 Murphy Oil 15
Fonte: www.finance.yahoo.com, acesso em 30 de dezembro de 2010.
A cada uma das 500 empresas em ordem alfabética foi atribuído um número aleatório usando a função Excel =RAND( ).
As empresas foram então selecionadas na coluna =RAND( ), e as primeiras 44 da lista selecionada foram escolhidas
como uma amostra aleatória.

Avaliação preliminar 
Antes de calcular qualquer medida estatística ou desenhar um gráfico, é bom observar os dados
e tentar visualizar como eles foram coletados. Como as ações das companhias do índice S&P 500
são publicamente negociadas, requer-se que sejam publicadas apenas as informações financeiras
verificadas, de modo que a acurácia dos dados não é um problema. Uma vez que a intenção da
análise é estudar as 500 companhias do índice S&P em um instante de tempo, esses dados são
chamados transversais (cross-sectional). (Analistas financeiros também estudam dados de índi-
ces P/R em séries temporais, que variam diariamente de acordo com a mudança do preço da ação.)
As medições são contínuas, embora sejam arredondadas. Por exemplo, uma ação de preço US$
43,22 dividida pelo seu rendimento de US$ 2,17 resulta em um índice P/R igual a (43,22)/(2,17) =
19,92, que é arredondada para 20 por conveniência. Como zero é um valor significativo, os índi-
ces têm significado e podemos fazer qualquer operação matemática padrão. Finalmente, como a
análise é baseada em amostras (não em censo), devemos permitir a possibilidade de erro amos-
tral, que é a possibilidade de que a nossa amostra não seja representativa da população das 500
empresas que compõem o índice S&P 500, em decorrência da natureza da amostragem aleatória.

Ordenação 
Como primeiro passo, é útil ordenar os dados. Isso já é um recurso visual, embora simples. A
partir dos dados ordenados, podemos ver a amplitude, a frequência de ocorrência de cada valor
observado, os valores observados que estão próximos do centro e os valores extremos.

44 Índices P/R selecionados


 7  9 10 10 10 10 11 11 11 12 13
13 13 14 14 15 16 16 16 16 17 17
18 18 19 19 20 20 21 21 22 23 24
26 26 27 28 31 37 37 38 42 50 59

Quando o número de observações é grande, é difícil analisar uma lista ordenada de dados.
Além disso, uma simples lista de números pode não revelar muita coisa sobre tendência central,
dispersão e forma. Para verificar padrões mais amplos nos dados, os analistas geralmente prefe-
rem uma representação visual destes mesmos. O tipo de gráfico que utilizamos para exibir os

03_capitulo_03.indd 58 05/08/2014 12:15:16


Capítulo 3   DESCRIÇÃO VISUAL DOS DADOS   59

dados depende do tipo de dados que possuímos. Alguns gráficos são mais adequados para dados
quantitativos, enquanto outros são melhores para os categóricos. Este capítulo proporciona uma
explicação sobre diversos tipos básicos de gráficos, oferece diretrizes para quando utilizá-los, dá
recomendações de como torná-los eficazes, e alerta sobre situações nas quais os gráficos podem
ser enganosos.

Gráfico ramo-e-folhas 
Uma maneira simples de visualizar pequenos conjuntos de dados é o gráfico ramo-e-folhas,
uma ferramenta da EDA (exploratory data analysis), análise exploratória de dados, que busca
revelar as características essenciais nos dados de uma forma intuitiva. Um gráfico ramo-e-fo-
lhas é basicamente uma tabela de frequência, com a exceção de que usamos dígitos em vez de
marcações. Para dados inteiros de dois ou três dígitos, o ramo é constituí­do pela dezena dos
dados e as folhas são dadas pelas unidades. Para os índices P/R 44, a configuração do gráfico
ramo-e-folhas seria:

Frequência Ramo Folha(s)


 2 0 7 9
24 1 0 0 0 0 1 1 1 2 3 3 3 4 4 5 6 6 6 6 7 7 8 8 9 9
11 2 0 0 1 1 2 3 4 6 6 7 8
 4 3 1 7 7 8 
 1 4 2
 2 5 0 9
44

Por exemplo, os dados no quarto ramo são 31, 37, 37, 38. Sempre utilizamos espaços iguais
entre ramos (mesmo que alguns estejam vazios). O gráfico pode revelar uma tendência central
(24 dos 44 índices P/R estão no ramo com valores de 10 a 19), bem como a dispersão (a amplitu-
de é de 7 a 59). Nesta ilustração, os dígitos nas folhas foram ordenados embora isso não fosse
necessário. O gráfico ramo-e-folhas conta com a vantagem de podermos recuperar os dados
brutos concatenando cada dígito das folhas com o seu respectivo dígito do ramo. Por exemplo, os
valores do último ramo são 50 e 59.
Um gráfico ramo-e-folhas é eficiente para pequenas amostras de dados inteiros com uma
amplitude limitada, porém não é recomendado para dados decimais (por exemplo, US$ 60,39) ou
com muitos dígitos (por exemplo, U$ 3.857). Nesses casos, é necessário arredondar os dados para
obter uma boa visualização. Embora um gráfico ramo-e-folhas seja raramente visto em apresen-
tações de dados nos negócios, é uma ferramenta útil para uma tabulação rápida de pequenos
conjuntos de dados.

Gráfico de pontos (dot-plot) 


Um gráfico de pontos (dot-plot) é o recurso gráfico mais simples para representar dados nu- OA 3-1
méricos com n valores individuais. Os passos básicos na construção de um gráfico de pontos
Elaborar gráficos ramo-e-
são: (1) considere uma escala que cubra todo o intervalo de valores dos dados, (2) marque o -folhas ou gráficos de pontos à
eixo e o rotule e (3) para cada valor observado, desenhe um ponto na sua localização aproxi- mão livre ou no computador.
mada na escala. Se mais que um valor se encontrar aproximadamente na mesma localização no
eixo X, os pontos serão empilhados na vertical. A Figura 3.1 apresenta um gráfico de pontos
(dot-plot) para índices P/R 44.

FIGURA 3.1
Gráfico de pontos de índices
P/R 44  PERatios
0 10 20 30 40 50 60 70
Índice P/R

O gráfico de pontos é uma ferramenta atraente para a exploração de dados, pois é de fácil
compreensão e ilustra a dispersão por meio da amplitude dos dados. Ele apresenta a tendência
central ao revelar onde os dados tendem a aglomerar-se e onde está o ponto central. Um gráfico
de pontos também pode mostrar algo sobre a forma da distribuição se a amostra for suficiente-
mente grande. Para os índices P/R, o gráfico de pontos da Figura 3.1 mostra que:

03_capitulo_03.indd 59 05/08/2014 12:15:16


60    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

• Os valores variam de 7 a 59.


• A maioria dos valores encontra-se entre 10 e 25.
• Um valor central estaria em torno de 17 ou 18.
• Os dados não são simétricos devido a alguns grandes índices P/E.
Você pode fazer o seu próprio gráfico de pontos (caso a amostra seja pequena), utilizando uma
régua e um lápis. O Excel não tem disponível uma ferramenta para construir um gráfico de pontos,
mas você pode construí-lo no MegaStat ou MINITAB. A Figura 3.2 mostra os menus do MegaStat
e do MINITAB com opções marcadas para escolher um gráfico de pontos ou ramo-e-folhas.

FIGURA 3.2
Menus MINITAB e
MegaStat para gráficos de
pontos e ramo-e-folhas

Comparação de grupos 
Os gráficos de pontos sobrepostos ou empilhados (stacked dot-plot) podem ser usados para
comparar dois ou mais grupos. Por exemplo, a Figura 3.3 mostra os gráficos de pontos sobrepos-
tos dos preços medianos de imóveis residenciais de 150 cidades dos Estados Unidos em quatro
regiões diferentes. Uma escala comum no eixo X é usada para os quatro gráficos de pontos. Esse
gráfico sobreposto mostra o intervalo de valores dos dados e fornece uma ideia dos preços típicos
de imóveis dentro de cada região. (O MegaStat não tem um recurso para construir gráficos de
pontos sobrepostos, mas o MINITAB tem.) Será que uma tabela poderia mostrar essa quantidade
de informação de maneira tão clara?

FIGURA 3.3
Gráficos de pontos
sobrepostos ou empilhados
para preços de imóveis Central
residenciais (n = 150 cidades)
Região

HomePrices
Nordeste
Fonte: www.realtor.org.

Sudeste

Oeste
100 200 300 400 500 600 700
Preço médio de vendas, residências singulares (US$ milhares)

Embora de fácil compreensão, os gráficos de pontos têm limitações. Eles não revelam muitas
informações sobre a forma do conjunto de dados quando a amostra é pequena, e são considerados
inadequados quando a amostra é grande (e se você tiver 100 pontos no mesmo local?), ou quando
os dados são números decimais. A próxima seção visa explanar alguns métodos amplamente
utilizados para a criação de representações visuais que podem ser aplicados em amostras de
qualquer porte.

03_capitulo_03.indd 60 05/08/2014 12:15:17


Capítulo 3   DESCRIÇÃO VISUAL DOS DADOS   61

Software 
Há diferentes tipos de ferramentas de software para a análise estatística, variando de funções
básicas do Excel até aplicativos independentes, como o MINITAB, o SAS e o SPSS. O Excel é
enfatizado neste livro por estar amplamente disponível e ser utilizado extensivamente na admi-
nistração dos negócios. Também ilustraremos gráficos e cálculos utilizando o MegaStat, um
programa adicional do Excel que é disponibilizado com este livro. O MegaStat expande as fun-
ções Excel com menus disponíveis e planilhas que proporcionam melhor desempenho do que o
Data Analysis. Você também terá acesso a exemplos do MINITAB, um soft­ware completo para a
análise estatística que não faz parte do Excel. Entretanto, você poderá importar dados, a partir do
Excel, para uma planilha do MINITAB (e vice-versa), a fim de obter gráficos sofisticados e re-
sumos estatísticos deste software. Embora o MINITAB não esteja incluído neste livro, ele está
disponível na maioria das universidades e escolas de nível superior.

Conteúdo Online
(Online Learning Center) 
No site do Grupo A (www.grupoa.com.br), encontram-se disponíveis para arquivos de dados dos
exercícios e exemplos deste livro. Os arquivos para download estão indicados pelo símbolo
seguido pelo nome do arquivo (por exemplo, Housing). No final dos capítulo, há recursos www.grupoa.com.br
adicionais de aprendizado que ampliam os temas tratados no texto. Também ilustraremos gráfi-
cos e cálculos utilizando o MegaStat, um suplemento do Excel disponível para compra direta-
mente no site da McGraw-Hill ou em livrarias online.

EXERCÍCIOS DA SEÇÃO
3.1 (a) Construa um gráfico ramo-e-folhas das 24 observações seguintes sobre o número de clientes que
usaram um caixa eletrônico do CitiBank no centro da cidade, ao meio-dia, em 24 dias úteis consecu-
tivos. (b) Elabore um gráfico de pontos desses dados. (c) Descreva esses dois gráficos. (Sugestão:
Faça referência à tendência central, dispersão e forma.)  CitiBank

39 32 21 26 19 27 32 25
18 26 34 18 31 35 21 33
33  9 16 32 35 42 15 24

3.2 (a) Elabore um gráfico ramo-e-folhas para o número de defeitos em cada 100 veículos para essas 32
marcas. (b) Faça um gráfico de pontos dos dados dos defeitos. (c) Descreva essas duas representações.
(Sugestão: Faça referência à tendência central, dispersão e forma).  JDPower

Defeitos em cada 100 veículos (ordem alfabética por marca)

Marca Defeitos Marca Defeitos Marca Defeitos


Acura  86 Hyundai 102 Mini 133
Audi 111 Infiniti 107 Mitsubishi 146
BMW 113 Jaguar 130 Nissan 111
Buick 114 Jeep 129 Porsche  83
Cadillac 111 Kia 126 Ram 110
Chevrolet 111 Land Rover 170 Scion 114
Chrysler 122 Lexus  88 Subaru 121
Dodge 130 Lincoln 106 Toyota 117
Ford  93 Mazda 114 Volkswagen 135
GMC 126 Mercedes-Benz  87 Volvo 109
Honda  95 Mercury 113
Fonte: Estudo Qualitativo Inicial J.D. Power e Associados. Publicação autorizada.

3.3 Sarah e Bob dividem um plano de mil minutos para telefones celulares. (a) Construa um gráfico de
pontos sobrepostos para comparar os tempos das chamadas dos telefones celulares de Sarah e Bob
durante a última semana. (b) Descreva o que os gráficos de pontos transmitem.  PhoneCalls
Chamadas de Sarah: 1, 1, 1, 1, 2, 3, 3, 3, 5, 5, 6, 6, 7, 8, 8, 12, 14, 14, 22, 23, 29, 33, 38, 45, 66
Chamadas de Bob: 5, 8, 9, 14, 17, 21, 23, 23, 24, 26, 27, 27, 28, 29, 31, 33, 35, 39, 41

03_capitulo_03.indd 61 05/08/2014 12:15:17


62    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

Minicaso 3.1
Ciclos econômicos dos Estados Unidos
Embora muitas empresas antecipassem a recessão que sucedeu a bolha do mercado imobiliário no
início da década de 2000, elas também precisariam antecipar seu provável tempo de duração para
criar estratégias para os débitos gerenciais e lançamentos de produtos futuros. Felizmente, dados
adequados estão disponíveis no National Bureau of Economic Research, que monitora os ciclos
econômicos. O comprimento de uma contração econômica é medida a partir do pico da expansão
anterior até o início da próxima expansão baseada no Produto Interno Bruto (PIB). A Tabela 3.3
mostra as durações, em meses, das 33 recessões dos Estados Unidos.

TABELA 3.3 Contrações econômicas dos Estados Unidos, 1857-2010


(n = 33)  Recessions

Pico Até Nº de meses Pico Até Nº de meses


Jun. 1857 Dez. 1858 18 Maio 1923 Jul. 1924 14
Out. 1860 Jun. 1861  8 Out. 1926 Nov. 1927 13
Abr. 1865 Dez. 1867 32 Ago. 1929 Mar. 1933 43
Jun. 1869 Dez. 1870 18 Maio 1937 Jun. 1938 13
Out. 1873 Mar. 1879 65 Fev. 1945 Out. 1945  8
Mar. 1882 Maio 1885 38 Nov. 1948 Out. 1949 11
Mar. 1887 Abr. 1888 13 Jul. 1953 Maio 1954 10
Jul. 1890 Maio 1891 10 Ago. 1957 Abr. 1958  8
Jan. 1893 Jun. 1894 17 Abr. 1960 Fev. 1961 10
Dez. 1895 Jun. 1897 18 Dez. 1969 Nov. 1970 11
Jun. 1899 Dez. 1900 18 Nov. 1973 Mar. 1975 16
Set. 1902 Ago. 1904 23 Jan. 1980 Jul. 1980  6
Maio 1907 Jun. 1908 13 Jul. 1981 Nov. 1982 16
Jan. 1910 Jan. 1912 24 Jul. 1990 Mar. 1991  8
Jan. 1913 Dez. 1914 23 Mar. 2001 Nov. 2001  8
Ago. 1918 Mar. 1919  7 Dez. 2007 Jun. 2009 18
Jan. 1920 Jul. 1921 18
Fonte: Contrações nos negócios dos Estados Unidos. Disponível em: www.nber.org. Copyright © 2012 National Bureau
of Economic Research, Inc. Utilizado com permissão.

A partir do gráfico de pontos na Figura 3.4, podemos ver que a contração de 65 meses (1873-
1879) foi muito incomum, embora quatro recessões tenham excedido 30 meses. A maioria das
recessões durou menos de 20 meses. Somente sete das 33 recessões duraram menos de dez meses.
A recessão de oito meses de 2001 foi, portanto, uma das mais curtas. Embora a recessão que co-
meçou em dezembro de 2007 tivesse características únicas (crise econômica de grandes propor-
ções, aumento abrupto da taxa de desemprego e vagarosa recuperação), ela não teve longa dura-
ção (18 meses).
FIGURA 3.4
Duração do ciclo econômico do pico até o início da outra expansão
Gráfico de pontos da
duração dos ciclos
econômicos (n = 33)
0 10 20 30 40 50 60 70
Número de meses

A tabela ainda fornece certa informação que não é possível ver no gráfico de pontos. Por
exemplo, durante a década de 1930, ocorreram, de fato, duas grandes contrações (a de 43 meses
de 1929 a 1933, e a de 13 meses de 1937 a 1938) que é uma das razões pela qual o período pareceu
tão terrível para aqueles que o vivenciaram. A Grande Depressão de 1930 foi assim chamada
porque perdurou por um longo período e o declínio econômico foi mais profundo que o da maio-
ria das recessões.

03_capitulo_03.indd 62 05/08/2014 12:15:18


Capítulo 3   DESCRIÇÃO VISUAL DOS DADOS   63

Classes e limites das classes  3.2


Uma distribuição ou tabela de frequência é uma tabela formada por n valores observados classifica-
dos em k classes denominadas blocos (adotamos essa terminologia do Excel). Os limites dos blocos DISTRIBUIÇÃO DE
definem os valores que devem ser incluídos em cada um. Em geral, os comprimentos dos blocos são FREQUÊNCIA E
iguais,* a tabela mostra a frequência dos valores dentro de cada um. As frequências também podem
ser expressas por frequências relativas ou percentagens do número total de observações. * HISTOGRAMAS
OA 3-2
Distribuição de frequência
Criar uma distribuição de
frequência para um
Uma tabulação de n valores observados em k classes denominadas blocos, baseada nos valores dos conjunto de dados.
dados. Os limites dos blocos são os pontos de corte que definem cada um. Os blocos têm, em geral,
os mesmos** comprimentos e seus limites não podem se sobrepor.

Os passos básicos para a construção de uma distribuição de frequência são: (1) organizar os
dados em ordem crescente, (2) escolher o número de blocos, (3) estabelecer os limites dos blocos,
(4) alocar os valores nos blocos apropriados, e (5) criar a tabela. Veremos isso passo a passo.

Construção de uma distribuição de frequência 


Passo 1: Organizar os dados em ordem crescente

Índices P/R selecionados


7  9 10 10 10 10 11 11 11 12 13
13 13 14 14 15 16 16 16 16 17 17
18 18 19 19 20 20 21 21 22 23 24
26 26 27 28 31 37 37 38 42 50 59

Encontre os valores mínimo e máximo dos dados.


Para os dados P/R, obtemos xmin = 7 e xmax = 59 (destacados em cinza). Você poderá encontrar
xmin e xmax sem ordenar todo o conjunto de dados; porém é mais fácil construir os blocos caso você
já tenha ordenado os dados.
Passo 2: Escolher o número de blocos  Como uma distribuição de frequência almeja
condensar muitos pontos dos dados em uma tabela relativamente pequena, espera-se que o núme-
ro k de blocos seja muito menor que o tamanho da amostra n. Se você usar blocos demais, alguns
deles provavelmente conterão poucos valores, ou estarão vazios. Para poucos blocos, valores
observados não muito parecidos ficam amontoados. Se deixadas ao seu livre arbítrio, as pessoas
tendem a escolher limites similares para os blocos para determinado conjunto de dados. Geral-
mente, justificam-se mais blocos para amostras maiores. De acordo com a regra de Sturges, um
guia proposto pelo estatístico Herbert Sturges, toda vez que dobramos o tamanho da amostra,
devemos adicionar um bloco, como mostra a Tabela 3.4.
Para tamanhos de amostras mais prováveis de se encontrar, a Tabela 3.4 sugere que você utili-
ze de k = 5 a k = 11 blocos. A regra de Sturges pode ser expressa na seguinte fórmula:
Regra de Sturges:  k = 1 + 3,3 log(n) (3.1)
Para os dados P/R (n = 44), a regra de Sturges determina que:
k = 1 + 3,3 log(n) = 1 + 3,3 log(44) = 1 + 3,3(1,6435) = 6,42 blocos
Seja aplicando a Tabela 3.4 ou a fórmula de Sturges, devemos considerar a utilização de 6 ou
7 blocos para os dados P/R. Para obtermos “bons” limites de classe podemos escolher um núme-
ro maior ou menor de blocos. A quantidade e os limites dos blocos têm que ser razoáveis e apro-
priados, isso é mais importante do que a regra de Sturges. Quando a distribuição dos dados é
assimétrica devido a valores externos (pequenos ou grandes), um número maior de classes pode

*  N. de R.T.: N. de R.T.: Os comprimentos das classes normalmente são iguais e, em geral, os pacotes estatísticos
consideram esse caso. Mas não necessariamente eles devem ser iguais e, por isso, o histograma se diferencia de gráfico
de barras. Há determinadas variáveis que requerem que as classes (blocos) tenham comprimentos diferentes. No caso
de comprimentos de classe diferentes, as alturas das barras (eixo Y) do histograma têm de ser recalculadas e represen-
tam densidades de frequência em vez de porcentagens.
**  N. de R.T.: Ver nota anterior sobre blocos de mesmo comprimento.

03_capitulo_03.indd 63 05/08/2014 12:15:18


64    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

ser necessário, em relação ao sugerido pela regra de Sturges, ou pode-se considerar classes com
comprimentos diferentes. Essa situação será descrita brevemente.

TABELA 3.4 Tamanho da amostra (n) Número sugerido de blocos (k)


Regra de Sturges 16  5
32  6
64  7
128  8
256  9
512 10
1.024 11

Passo 3: Estabelecer os limites dos blocos  Assim como a escolha do número de


blocos requer certo discernimento, estabelecer os limites dos blocos também requer. Como guia,
encontre o comprimento aproximado de cada bloco por meio do quociente da amplitude dos da-
dos pelo número de blocos:
xmax − xmin
(3.2) Comprimento do bloco ≈
k
Arredonde para cima o comprimento do bloco para um valor apropriado, então estabeleça o li-
mite inferior para o primeiro bloco como um múltiplo do comprimento deste. O que significa um
valor “apropriado”? Se os dados são discretos, faz sentido que o comprimento tenha um valor intei-
ro, se são contínuos, pode ser apropriado estabelecer como comprimento de bloco um valor fracio-
nário. Experimente até que os blocos cubram todo o intervalo dos dados.
Por exemplo, para esse conjunto de dados, o menor dos índices P/R foi 7 e o maior foi 59; logo,
se quisermos utilizar k = 6 blocos, podemos calcular o comprimento aproximado dos blocos da
seguinte forma:
59 − 7 52
Comprimento do bloco » = = 8, 67
6 6
Para obter “bons” limites, podemos arredondar o comprimento para 10 e começar o primeiro
bloco em 0 conseguindo, assim, os limites de blocos 0, 10, 20, 30, 40, 50, 60, 70. Geralmente,
“bons” limites de blocos são 2, 5 ou 10 multiplicados por uma potência adequada de 10. Para o
início do menor bloco, podemos escolher o menor múltiplo do comprimento dos blocos que seja
menor que o menor dos valores observados dos dados. Nesse caso, o comprimento do bloco é 10 e o
menor dos valores observados dos dados é 7, de modo que o primeiro bloco deve começar em 0.
Passo 4: Alocar os valores dos dados nos blocos apropriados  Em geral, o li-
mite inferior do bloco está incluído ele, enquanto o limite superior está excluído. MegaStat e
MINITAB seguem essa convenção. Entretanto, uma opção no histograma do Excel inclui o limi-
te superior e exclui o inferior. Há vantagens em qualquer um desses métodos. Nosso objetivo é
ter certeza de que nenhum dos blocos se sobreponha e que cada valor seja computado em apenas
um dos blocos.
Passo 5: Criar a tabela  Você pode optar por exibir apenas as frequências absolutas, ou
contagens, para cada bloco ou também incluir as frequências relativas e as acumuladas. Frequên-
cias relativas são calculadas dividindo-se as frequências absolutas pelo número total de dados.
Frequências relativas acumuladas são os valores acumulados das frequências relativas à medida
que os limites dos blocos crescem. A Tabela 3.5 mostra a distribuição de frequência que criamos
para os dados de índice P/R. Note que as frequências relativas não somam 1. Isso ocorreu em
razão do arredondamento.

TABELA 3.5 Intervalo de blocos


Frequência Frequência relativa
Cumulativa
Distribuição Menor Maior (f) (f/n) Percentual Frequência Percentual
de frequências de  0 < 10  2 2/44 = 0,0455 4,55  2 4,55
índices P/R usando 10 < 20 24 24/44 = 0,5455 54,55 26 59,09
seis blocos 20 < 30 11 11/44 = 0,2500 25,00 37 84,09
PERatios 30 < 40  4 4/44 = 0,0909 9,09 41 93,18
40 < 50  1 1/44 = 0,0227 2,27 42 95,45
50 < 60  2 2/44 = 0,0455 4,55 44 100,00
44 100,00

03_capitulo_03.indd 64 05/08/2014 12:15:20


Capítulo 3   DESCRIÇÃO VISUAL DOS DADOS   65

Histogramas 
Representação gráfica de uma distribuição de frequência. Um histograma é um gráfico de barras
cujo eixo Y exibe o número de valores de dados (ou uma percentagem) dentro de cada bloco de
uma distribuição de frequência e cujo eixo X exibe os limites de cada bloco. Não deve haver ne-
nhuma lacuna entre as barras (exceto no caso em que não houver nenhum dado em um bloco
específico) como apresentado na Figura 3.5. A aparência de um histograma é idêntica, não im-
portando se o eixo vertical exibe a frequência, a frequência relativa, ou a porcentagem. É apenas
uma questão de atribuir uma escala ao eixo Y, pois um percentual é de 100f/n (a frequência do
bloco dividida pelo tamanho da amostra e multiplicada por 100).

FIGURA 3.5
Três histogramas para índices P/R  PERatios

6 Blocos 8 Blocos 9 Blocos


25 18 14
16 12
20 14
10
12
Frequência

Frequência

Frequência
15 8
10
8 6
10
6
4
5 4
2 2

0 0 0
0 10 20 30 40 50 60 0 8 16 24 32 40 48 56 64 6 12 18 24 30 36 42 48 54 60
Índice P/R Índice P/R Índice P/R

Conforme discutido, a escolha do número de blocos e dos seus limites requer discernimento OA 3-3
de nossa parte. O processo de construir um histograma é, com frequência, iterativo. Nossa pri-
Construir um histograma com
meira seleção do número de blocos e seus limites pode não ser escolha final para a apresentação. blocos apropriados.
A Figura 3.5 exibe histogramas para a amostra de índice P/R usando três definições diferentes
para os blocos.

Comprimento
k (xmax – xmin)/k do bloco Limites do bloco
6 8,7 10 0 10 20 30 40 50 60
8 6,5  8 0  8 16 24 32 40 48 56 64
9 5,8  6 6 12 18 24 30 36 42 48 54 60

Nossa percepção da forma da distribuição depende de como os blocos foram escolhidos. A


forma assimétrica se torna mais evidente quando utilizamos mais de seis blocos. Nesse exemplo,
podemos ir além do recomendado pela regra de Sturges para mostrarmos detalhes adicionais.
Você tem a liberdade de escolher o histograma de sua preferência para incluir num relatório.

Criação de um histograma no Excel 


O Excel produz histogramas. Clique no menu Data, se você não encontrar Data Analysis no menu
Data, clique em File (canto esquerdo superior), depois em Excel Options na parte de baixo da tela,
clique na tecla Add-Ins, selecione a opção Analysis Tool Pak, e dê um OK. Depois que o ícone Data
Analysis aparecer na faixa Data, siga as seguintes etapas para criar seu histograma:
Etapa 1  Abra um arquivo de dados existente ou digite dados diretamente na planilha. Digite
os limites superiores das classes que deverão cobrir o intervalo dos dados (numa ordem crescen-
te de valores de dados, dos menores aos maiores). Cada limite superior das classes será incluído
na classe (bloco). Somente os limites superiores das classes são utilizados pelo programa Excel
(ambos são apresentados aqui para esclarecimento). Você pode experimentar limites de classes

03_capitulo_03.indd 65 05/08/2014 12:15:21


66    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

diferentes, conforme ilustrado no exemplo a seguir. Clique no menu Data; selecione o ícone de
Data Analysis, escolha a opção Histogram e dê um OK.

Etapa 2  Informe no campo Input Range em quais células (coluna) da planilha estão os valores
dos seus dados. No campo Bin range, informe em quais células estão armazenados os limites supe-
riores das classes. No campo Output Range informe a célula para o canto esquerdo superior do
campo de saída do histograma (ou escolha uma nova planilha). Verifique o Chart Output e dê um OK.

03_capitulo_03.indd 66 05/08/2014 12:15:21


Capítulo 3   DESCRIÇÃO VISUAL DOS DADOS   67

Etapa 3  O histograma-padrão Excel é muito básico e, dessa forma, você pode preferir perso-
nalizá-lo. Para fazê-lo, clique no gráfico para que a Chart Tools apareça no alto da tela. Clique na
barra de Design para experimentar diferentes modelos de gráficos, ou na barra Chart Layout e
selecione um ícone para editar uma característica gráfica específica (por exemplo, Título do
gráfico, Rótulos de eixo, Linhas de grade). Você pode, ainda, clicar no botão direito do mouse em
qualquer característica do gráfico (por exemplo, barras, rótulo de eixo, área do gráfico) e esco-
lher as opções de edição que desejar. Por exemplo, para alargar as barras estreitas do histograma
do Excel, basta clicar no botão direito do mouse sobre elas, escolher a Format Data Series e reduzir
a lacuna entre os intervalos. Ou ainda, você pode construir um novo gráfico (marque com o cur-
sor as células em que se encontram as frequências, clique no menu Insert, escolha Column, e estão
personalize o gráfico que aparecer).

Criação de um histograma no MegaStat 


O MegaStat criará automaticamente um bom histograma, embora você também possa especificar
os seus próprios blocos, se assim desejar. Ele também fornece uma tabela de frequências (incluin-
do porcentagens e frequências acumuladas) para cada intervalo. No eixo Y do histograma, o
MegaStat exibe os percentuais (e não as frequências), que nos darão exatamente a mesma visão
dos dados (conforme ilustrado na Figura 3.5).

Etapa 1  Abra um arquivo existente ou digite os dados diretamente na planilha. Clique sobre
a opção Add-Ins e selecione o MegaStat. Selecione a Frequency Distribution. Escolha a opção Input
Range para os dados. O MegaStat detectará automaticamente o cabeçalho e irá usá-lo para rotular
o histograma, não importando se você o informar no campo Input Range. Você pode entrar com
um comprimento de intervalo e o limite inferior do primeiro bloco. Se deixá-los em branco, o
MegaStat criará um bom histograma utilizando seus próprios critérios. Como opção, você pode-
rá criar um polígono de frequência, uma ogiva ou um histograma personalizado com blocos de
comprimentos desiguais (o padrão é de blocos com comprimentos iguais).

03_capitulo_03.indd 67 05/08/2014 12:15:21


68    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

Etapa 2 O MegaStat fornece uma tabela com os limites de classes, as frequências, as frequên­
cias relativas e as frequências acumuladas. Seu histograma adequadamente rotulado exibe o
percentual (e não as frequências) sobre o eixo vertical; entretanto, como vimos anteriormente, a
aparência do histograma é a mesma de qualquer maneira. Ele pode ser editado (por exemplo, tí-
tulo, cores, rótulos de eixo), mas se você preferir blocos com comprimentos diferentes, deve re-
visitar o menu MegaStat.

03_capitulo_03.indd 68 05/08/2014 12:15:21


Capítulo 3   DESCRIÇÃO VISUAL DOS DADOS   69

Histogramas no MINITAB 
A Figura 3.6 mostra como o MINITAB constrói um histograma para o mesmo conjunto de dados
mencionado. Copie os dados da planilha e cole-os na planilha do MINITAB, então selecione
Graphs > Histogram na barra de menu superior. Deixe o MINITAB usar suas opções-padrão. Uma
vez que o histograma foi criado, você pode clicar no eixo X à direita para ajustar os blocos, as
marcas e assim por diante.

FIGURA 3.6
Histograma no MINITAB
PERatios

Forma 
Histogramas sugerem a forma da distribuição da população que estamos amostrando, mas, a
menos que a amostra seja grande, devemos ser cautelosos ao fazer inferências. Nossa percepção
também é influenciada pelo número de blocos e pela maneira como seus limites foram escolhi-
dos. A seguinte terminologia é útil na discussão da forma da distribuição.
Classe modal é aquela cuja barra do histograma é mais alta do que as barras vizinhas de
ambos os lados. Um histograma com uma única classe modal é denominado unimodal, com duas,
bimodal, e com mais do que duas modas é conhecido como multimodal. Entretanto, as classes
modais podem ser artificiais, pois dependem de como os limites dos blocos foram escolhidos. É
interessante tentar várias maneiras de dividir os blocos e ser cauteloso ao inferir sobre a modali-
dade da distribuição, a menos que as modas sejam robustas e invariantes com a definição dos
blocos. A Figura 3.6 exibe uma única classe modal para os índices P/R entre 10 e 20.
Uma assimetria (skewness) do histograma é indicada pela direção de sua cauda mais longa.
Se nenhuma das caudas é longa, diz-se que o histograma é simétrico. Um histograma com assi-
metria à direita (right-skewed) (ou, ainda, com assimetria positiva) tem uma cauda direita mais
longa, com muitos dos dados concentrados no lado esquerdo. Um histograma com assimetria à
esquerda (left-skewed) (ou com assimetria negativa) tem a cauda esquerda mais longa, com
muito dos valores dos dados concentrados no lado direito. Poucos histogramas são exatamente
simétricos. Os dados da área de administração tendem a ser assimétricos à direita porque, com
frequência, são limitados por zero no lado esquerdo, mas não têm limitação do lado direito (por
exemplo, número de funcionários). Os padrões de histogramas exibidos na Figura 3.7 podem ser
úteis para referência.

03_capitulo_03.indd 69 05/08/2014 12:15:22


70    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

FIGURA 3.7
Protótipo das formas de distribuição

Assimétrica à esquerda Simétrica Assimétrica à direita

Assimétrica à esquerda e bimodal Simétrica multimodal Assimétrica à direita e bimodal

Assimétrica à esquerda e com Simétrica com valores discrepantes Assimétrica à direita e com
valores discrepantes valores discrepantes

Um valor discrepante (outlier) é um valor extremo que está, de forma relativa, distante da maio-
ria dos dados, provavelmente por ser de natureza diferente ou em decorrência de um erro de medi-
ção. Definiremos valores discrepantes de maneira mais precisa no próximo capítulo. Por enquanto,
considere apenas que esses valores são pontos incomuns localizados nas caudas do histograma.
Nenhum dos histogramas exibidos até agora apresentam valores discrepantes óbvios.

Sugestões para distribuições de frequências 


OA 3-4 Eis algumas sugestões gerais que podemos ter em mente ao construirmos distribuições de frequên­
Identificar assimetria, classes cias e histogramas.
modais e discrepâncias
(outliers) num histograma.
1. Em primeiro lugar, use a regra de Sturges, porém apenas como uma sugestão para o número
de blocos.
2. Escolha um comprimento de bloco apropriado.
3. Escolha os limites dos blocos que sejam múltiplos do seu comprimento.
4. Certifique-se de que todos os valores dos dados estão cobertos pelos blocos e acrescente blo-
cos, caso julgue necessário.
5. Dados assimétricos podem exigir mais blocos para revelar detalhes suficientes.

Frequência de polígono e ogiva 


A Figura 3.8 exibe dois gráficos adicionais oferecidos pelo MegaStat. O polígono de frequên-
cia é um gráfico de linha que conecta os pontos centrais dos intervalos do histograma no come-
ço e no fim para que a linha toque o eixo-X. Ele tem o mesmo objetivo do histograma; entretan-
to, é mais adequado quando comparamos dois conjuntos de dados (desde que mais do que um
polígono de frequência possa ser posicionado na mesma escala). Uma ogiva é um gráfico de
linhas das frequências acumuladas. Ela é útil para encontrar percentis ou para comparar o for-
mato da amostra com uma distribuição conhecida, como a distribuição normal (a ser estudada
no próximo capítulo).

03_capitulo_03.indd 70 05/08/2014 12:15:22


Capítulo 3   DESCRIÇÃO VISUAL DOS DADOS   71

FIGURA 3.8
Polígono de frequência e ogiva (ornamentado) do MegaStat  PERatios

Polígono de frequência Ogiva


60 100

Percentual acumulado
50 80
Percentual

40
60
30
40
20
10 20
0 0
0 10 20 30 40 50 0 10 20 30 40 50
Razão P/R Razão P/R

Minicaso 3.2
Duração das recessões dos Estados Unidos
A Tabela 3.6 exibe duas “boas” maneiras de dividir os dados do tempo de duração das 33 recessões
dos Estados Unidos (para detalhes, ver Minicaso 3.1). A regra de Sturges recomendaria utilizar
seis blocos, por exemplo, k = 1 + 3,3 log(n) = 1 + 3,3 log(33) = 5,97. A utilização de seis blocos
funciona perfeitamente num comprimento de bloco que comporta 12 meses (um ano). Entretanto,
podemos também criar um bom histograma utilizando sete blocos com comprimento de 10 meses.
Você ainda pode pensar em outras possibilidades válidas.

TABELA 3.6  Algumas maneiras de tabular as 33 recessões econômicas  Recessions

Usando k = 6 blocos Usando k = 7 blocos

De Para (não inclusivo) f De Para (não inclusivo) f


 0 12 12  0 10  7
12 24 16 10 20 19
24 36  2 20 30  3
36 48  2 30 40  2
48 60  0 40 50  1
60 72  1 50 60  0
60 70  1
Total 33 Total 33

Os histogramas na Figura 3.9 sugerem assimetria à direita (caudas direitas longas, a maioria
dos valores concentrados à esquerda). Cada histograma tem uma única classe modal (por exemplo,
o histograma k = 7 indica que uma recessão normalmente dura entre 10 e 20 meses). A longa re-
cessão no período entre 1873-79 (65 meses) é vista como um possível valor discrepante na cauda
direita dos dois histogramas.

18 20
FIGURA 3.9
16 Usando 6 blocos Usando 7 blocos Histogramas para
6 e 7 blocos
14 15
12
Frequência

Frequência

10
10
8
6
4 5
2
0 0
0 12 24 36 48 60 72 0 10 20 30 40 50 60 70
Meses Meses

03_capitulo_03.indd 71 05/08/2014 12:15:23


72    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

EXERCÍCIOS DA SEÇÃO
3.4 (a) A Tabela abaixo exibe o número de dias até a venda de 36 residências na cidade de Sonando Hills.
Construa uma distribuição de frequência e um histrograma utilizando limites de classes adequados
(arredondados). (b) Descreva a distribuição e as características incomuns.  Homes

18 70 52 17 86 121 86 3 66
96 41 50 176 26 28 6 55 21
43 20 56 71 57 16 20 30 31
44 44 92 179 80 98 44 66 15

3.5 (a) A Tabela abaixo exibe a pontuação bruta num exame para ingresso no serviço público estadual, de
24 candidatos, para cargos jurídicos. Construa uma distribuição de frequência e um histrograma,
utilizando limites de classes adequados (arredondados). (b) Descreva a distribuição e as característi-
cas incomuns.  Civil

83 93 74 98 85 82 79 78
82 68 67 82 78 83 70 99
18 96 93 62 64 93 27 58

3.6 (a) Construa uma distribuição de frequência e um histograma (usando blocos de maneira adequada)
para essas 28 observações de valores despendidos em jantares para quatro pessoas no centro de Chi-
cago em uma sexta-feira à noite. (b) Repita o exercício usando um número diferente de blocos. Qual
deles você prefere? Por quê?  Dinner

95 103 109 170 114 113 107


124 105 80 104 84 176 115
69 95 134 108 61 160 128
68 95 61 150 52 87 136

3.7 (a) Construa uma distribuição de frequência e um histograma dos aluguéis mensais de residência fora
do campus pagos por 30 estudantes. (b) Repita o exercício usando um número diferente de blocos.
Qual deles você prefere? Por quê?  Rents

730 730 730 930 700 570


690 1.030 740 620 720 670
560 740 650 660 850 930
600 620 760 690 710 500
730 800 820 840 720 700

3.8 (a) Elabore uma distribuição de frequência e um histograma dos salários totais anuais, pagos em 2007,
de 40 CEO escolhidos aleatoriamente (milhões de dólares). (b) Descreva o formato do histograma. (c)
Identifique quaisquer valores incomuns. (Fonte: www.forbes.com.)  CEOComp40

5,33 18,3 24,55 9,08 12,22 5,52 2,01 3,81


192,92 17,83 23,77 8,7 11,15 4,87 1,72 3,72
66,08 15,41 22,59 6,75 9,97 4,83 1,29 3,72
28,09 12,32 19,55 5,55 9,19 3,83 0,79 2,79
34,91 13,95 20,77 6,47 9,63 4,47 1,01 3,07

3.9 Para cada distribuição de frequência sugira blocos “adequados”. Sua escolha está de acordo com a
regra de Sturges? Em caso negativo, explique.
a. O consumo de combustível (em milhas por galão) dos veículos de 35 estudantes durante a semana
passada (xmin = 9,4, xmax = 38,7).
b. A idade de 50 passageiros de uma companhia aérea (xmin = 12, xmax = 85).
c. A escala de notas de 250 estudantes universitários no primeiro semestre (xmin = 2,25, xmax = 3,71).
d. As taxas anuais de retorno de 150 fundos de investimento (xmin = 0,023, xmax = 0,097).
3.10 Analise os dados (ordenados) abaixo que exibem a média de gastos por cliente (em dólares) em 74 uni-
dads da Noodles & Company. (a) Elabore uma distribuição de frequência. Explique como você escolheu
o número de blocos e os seus limites. (b) Construa um histograma e descreva a sua aparência. (c)
Repita o processo, utilizando um número maior de blocos e limites de blocos diferentes. (d) A sua

03_capitulo_03.indd 72 05/08/2014 12:15:24


Capítulo 3   DESCRIÇÃO VISUAL DOS DADOS   73

­impressão visual dos dados mudou quando você aumentou o número de blocos? Explique. Nota: Você
pode usar o MegaStat ou o MINITAB se o seu professor concordar.  NoodlesSpending

6,54 6,58 6,58 6,62 6,66 6,70 6,71 6,73 6,75 6,75 6,76 6,76
6,76 6,77 6,77 6,79 6,81 6,81 6,82 6,84 6,85 6,89 6,90 6,91
6,91 6,92 6,93 6,93 6,94 6,95 6,95 6,95 6,96 6,96 6,98 6,99
7,00 7,00 7,00 7,02 7,03 7,03 7,03 7,04 7,05 7,05 7,07 7,07
7,08 7,11 7,11 7,13 7,13 7,16 7,17 7,18 7,21 7,25 7,28 7,28
7,30 7,33 7,33 7,35 7,37 7,38 7,45 7,56 7,57 7,58 7,64 7,65
7,87 7,97

O Excel conta com um sólido potencial gráfico. Quando você passa a dominar a capacidade de 3.3
realizar gráficos visuais no Excel, adquire uma aptidão que o transformará em um membro va-
lioso da sua equipe de trabalho e um funcionário competente. Fazer seus próprios gráficos em GRÁFICOS
Excel é algo que você terá que aprender por meio da experiência. Os profissionais que utilizam EM EXCEL
o Excel afirmam aprender coisas novas todos os dias; esse programa oferece uma ampla varie-
dade de gráficos e mesmo que apenas alguns sejam utilizados nos negócios, é interessante rever
toda a lista.
Os gráficos do Excel são representados por ícones (veja a Figura 3.10) visualmente autoexpli-
cativos. Discutiremos aqueles (em destaque) que são considerados mais úteis na administração e
na economia, dispensando atenção especial aos gráficos de linhas (utilizados pelos analistas para
revelar tendências) e os de dispersão (utilizados pelos analistas para revelar relações entre duas
variáveis).
Os gráficos-padrão do Excel costumam ser muito simples e claros, afinal, gráficos na admi-
nistração e nos negócios não precisam ser monótonos ou chatos. É possível personalizar qualquer
gráfico da maneira que quiser. Por exemplo, você pode:
• Aprimorar os títulos (principal, eixo x, eixo y).
• Modificar as escalas de eixo (mínimo, máximo, símbolos).
• Exibir os valores de dados (nem sempre é uma boa ideia).
• Adicionar uma tabela de dados na parte inferior do gráfico (se houver espaço).
• Modificar a cor ou os padrões na área gráfica.
• Formatar decimais para criar escalas de eixo mais compreensíveis.
• Editar as linhas de grade e delimitações (linha pontilhada, linha sólida, cores).
• Alterar a aparência das barras (cores, padrão, largura).
• Modificar os símbolos e as linhas num gráfico de dispersão (tamanho, cor).

FIGURA 3.10
Tipos de gráficos no Excel

03_capitulo_03.indd 73 05/08/2014 12:15:24


74    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

Uma vez que um gráfico é inserido numa planilha, clique sobre ele e o menu Chart Tools
aparecerá no topo da tela. Há três barras (Design, Layout, Format) que você pode utilizar para
personalizar um gráfico de linha, conforme demonstrado na Figura 3.11. Embora algumas carac-
terísticas sejam únicas para cada tipo específico de gráfico, essas três opções são similares em
todos os tipos.

FIGURA 3.11 Barra Design


Barras de ferramentas
do gráfico

Barra Layout

Barra Format

O submenu Chart Layouts na barra Design nos permite aplicar modelos e estilos diferentes ao
gráfico (por exemplo, acrescentar linhas de grade, rótulos de eixo ou legendas). Os estilos depen-
derão do tipo de gráfico. Clique sobre qualquer opção de layout; se o resultado não lhe agradar,
clique no ícone Undo (ou Ctrl+Z).
Utilize a barra Layout para selecionar um ícone, a fim de personalizar características específicas
do seu gráfico. Cada ícone de Layout está devidamente rotulado (por exemplo, Chart Title, Axis Titles,
Gridlines). A Figura 3.12 exibe os menus suspensos para os ícones de Layout mais utilizados. Você
normalmente pode atingir o mesmo resultado clicando o botão direito do mouse sobre uma caracte-
rística específica do gráfico (por exemplo, o eixo x) e utilizando o menu de opções que aparecerá.

FIGURA 3.12
Menus suspensos para ícones
de layout

03_capitulo_03.indd 74 05/08/2014 12:15:25


Capítulo 3   DESCRIÇÃO VISUAL DOS DADOS   75

Gráficos de linhas simples  3.4


Um gráfico de linhas simples, como o exibido na Figura 3.13, é usado para visualizar uma série GRÁFICOS
de tempo, para detectar tendências ou para comparar períodos. Os gráficos de linhas podem ser
utilizados para visualizar múltiplas variáveis ao mesmo tempo, se duas variáveis estão repre- DE LINHAS
sentadas em um mesmo gráfico, as escalas verticais da direita e da esquerda podem diferir,
OA 3-5
usando a da direita para uma variável e a da esquerda para a outra. O gráfico de linhas com duas
escalas do Excel, ilustrado na Figura 3.14, permite a comparação das variáveis que diferem em Elaborar um gráfico de
linhas utilizando o Excel.
magnitude ou que são medidas em unidades diferentes. Mas tenha em mente que alguém que
olhe rapidamente os gráficos pode concluir de forma errônea que ambas as variáveis têm a mes-
ma magnitude.

FIGURA 3.13
Taxa básica mensal da TV a cabo, 1975-2005 Gráfico de linha
40 CableTV
35
taxa anual de Fonte: Statistical Abstract
Dólares por mês

30
crescimento of the United State, 2007, p. 717.
25
de 6,8%
20
15
10
5
0
1975 1980 1985 1990 1995 2000 2005

FIGURA 3.14
Estatísticas de telefone celular, 1995-2001 Duas escalas
55 3,5 CellPhones

Fonte: Statistical Abstract


Minutos por chamada

50
3,0 of the United State, 2007, p. 720.
Dólares por mês

45
2,5
40
2,0
35 Duração média das chamadas
Valor médio gasto no mês
30 1,5
1995 1997 1999 2001 2003 2005

Quantas variáveis podem ser visualizadas de modo simultâneo em um gráfico de linhas? Um


gráfico muito poluído pode arruinar qualquer representação visual. Se tentar visualizar meia
dúzia de variáveis de séries temporais simultaneamente, não importa que você tenha se esmerado
na escolha dos símbolos e das técnicas gráficas, o resultado provavelmente será desagradável.
Você terá de se valer de seu bom senso.
Um gráfico de linhas geralmente não tem linhas de grade verticais. E quanto às horizontais?
Embora as linhas de grade poluam o fundo, elas facilitam se quisermos saber o valor de Y para
determinado ano. Uma solução intermediária é usar linhas de grade tracejadas ou pontilhadas,
com cores leves, e aumentar o espaçamento entre elas. Se sua intenção for transmitir apenas
uma visão geral da magnitude dos dados, as linhas de grade podem ser omitidas.

Criação de um gráfico de linhas no Excel 


Etapa 1  Usando o cursor, marque na planilha os dados que você pretende exibir no gráfico,
clique na barra Insert, depois no ícone Line e escolha uma modalidade de gráfico de linha.

03_capitulo_03.indd 75 05/08/2014 12:15:25


76    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

Sugestão: Não marque os rótulos de eixo X (se houver algum). Você poderá acrescentá-los
posteriormente. O gráfico de linhas padrão é relativamente básico; portanto, você pode prefe-
rir personalizá-lo.

Etapa 2  Se você desejar acrescentar a linha de tendência ajustada, clique o botão direito do
mouse sobre a série de dados, no gráfico de linhas, e escolha a opção Add Trendline. De um modo
geral, a tendência ajustada será linear. Há uma opção para exibir a equação da tendência e sua
estatística R2 (uma medida de “ajuste” da linha).

Etapa 3  Para personalizar o seu gráfico, clique sobre ele. Suas margens serão modificadas
para exibir sua seleção e a barra Chart Tools se ativará (no topo da tela). Clique na opção Design e

03_capitulo_03.indd 76 05/08/2014 12:15:25


Capítulo 3   DESCRIÇÃO VISUAL DOS DADOS   77

experimente diferentes Chart Layout, ou ainda, clique na opção Layout e selecione um ícone de
edição (por exemplo, Chart Title, Axis Titles, Gridlines). Você também pode simplesmente clicar
o botão direito do mouse sobre qualquer característica do seu gráfico (por exemplo, área de grá-
fico, eixo X, eixo Y, linhas de grade) e explorar as opções até ficar satisfeito com a aparência dele.
Para acrescentar os rótulos do eixo X, clique o botão direito do mouse sobre o gráfico, escolha a
opção Select Data, clique sobre o botão Edit para Horizontal (Category) Axis Labels, e depois in-
forme em quais células do Excel estão os rótulos de eixo X (A2:B13 no exemplo).

Escalas logarítmicas 
Na escala aritmética costumeira, as distâncias no eixo Y são proporcionais à magnitude da variá­
vel que está sendo mostrada, mas na escala logarítmica, distâncias iguais representam razões
(por esse motivo, a escala logarítmica é algumas vezes chamada escala razão). Quando os dados
têm um intervalo de variação grande, digamos, por mais do que uma ordem de magnitude (por
exemplo, de 6 para 60), poderíamos preferir uma escala logarítmica para o eixo vertical para
revelar mais detalhes em valores de dados pequenos. Um gráfico logarítmico revela se a quanti-
dade está crescendo com percentual crescente (função convexa), com percentual constante (li-
nha reta), ou com percentual declinante (função côncava). Em uma escala logarítmica, distâncias
iguais representam razões iguais, isto é, a distância de 100 para 1.000 é a mesma que a distância
de 1.000 para 10.000 (ambas têm a mesma razão 10:1). Como os logaritmos não estão definidos
para valores negativos ou nulos (tente usar sua calculadora), esse tipo de escala é apropriado so-
mente para dados com valores positivos.
Uma escala logarítmica é útil para dados de séries de tempo nos quais se espera um cresci-
mento a uma taxa percentual anual composta (por exemplo, PIB, dívida interna ou sua renda no
futuro). As escalas logarítmicas são comuns em gráficos financeiros que cobrem longos períodos
ou para dados que crescem rapidamente (por exemplo, a receita de uma nova companhia). Alguns
especialistas entendem que relatórios anuais corporativos e prospectos de ações deveriam evitar
escalas razão, uma vez que eles poderiam ser mal-interpretados por indivíduos desinformados.
Mas, então, como podemos retratar de forma honesta dados que variam em magnitude? Será que
os investidores deveriam se informar melhor? A verdade é que os estudantes de administração
devem conhecer escalas logarítmicas, porque certamente irão se deparar com elas.

03_capitulo_03.indd 77 05/08/2014 12:15:25


78    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

EXEMPLO 3.2
Balança comercial
dos Estados Unidos A Figura 3.15 mostra a balança comercial dos Estados Unidos. A escala aritmética revela que
o crescimento tem sido exponencial. Ainda assim, embora as exportações e as importações
USTrade
estejam crescendo em termos absolutos, o gráfico logarítmico sugere que a taxa de cresci-
mento em ambas as séries esteja diminuindo, porque é levemente côncavo. No gráfico loga-
rítmico, o déficit comercial crescente recente não é relativamente tão grande. Não importa
FIGURA 3.15 como seja apresentado, o déficit comercial continua sendo uma preocupação para os con-
Comparação das escalas gressistas, por receio que os estrangeiros não desejem mais adquirir papéis da dívida norte-
logarítmicas e aritméticas  -americana para financiá-lo.
USTrade

Balança comercial dos Estados Unidos, 1980-2010 Balança comercial dos Estados Unidos, 1980-2010
3.000 10.000
Exportação Importação Exportação Importação
2.500
Bilhões de dólares

Bilhões de dólares
2.000 1.000

1.500

1.000 100

500

0 10
1980 1985 1990 1995 2000 2005 2010 1980 1985 1990 1995 2000 2005 2010

Fonte: Economic Report of the President, 2011, Tabela B24.

Dicas para obter gráficos de linhas efetivos 


A seguir, são apresentadas algumas dicas gerais que devem ser utilizadas na construção de um
gráfico de linhas:
1. Gráficos de linhas são usados para dados de séries de tempo (nunca para dados transversais).
2. O valor numérico é apresentado no eixo Y, ao passo que a unidade de tempo é apresentada no
eixo X com crescimento da esquerda para a direita. As audiências, em geral, esperam que essa
regra seja aplicada.
3. Exceto para escalas logarítmicas, use o zero na origem do eixo Y (esse é o padrão no Excel),
a menos que mais detalhes sejam necessários. A regra da origem zero é obrigatória para um
relatório corporativo anual ou um prospecto para um investidor da bolsa de valores.
4. Para evitar um gráfico poluído, rótulos numéricos são geralmente omitidos em um gráfico de
linhas, em especial quando os dados cobrem muitos períodos. Use linhas de grade para auxi-
liar o leitor a ler os valores dos dados.
5. Marcadores de dados (quadrados, triângulos, círculos) são úteis. Mas quando a série tem
muitos valores ou quando muitas variáveis são representadas, eles poluem o gráfico.
6. Se as linhas no gráfico são muito grossas, o leitor não consegue visualizar com precisão os
valores do gráfico.

EXERCÍCIOS DA SEÇÃO
3.11 (a) Utilize o Excel para preparar um gráfico de linhas para exibir os dados em relação à construção
de casas. Modifique as cores, fontes etc., para aprimorá-lo. (b) Descreva algum padrão, se houver. 
Housing

03_capitulo_03.indd 78 05/08/2014 12:15:26


Capítulo 3   DESCRIÇÃO VISUAL DOS DADOS   79

Construção de casas nos Estados Unidos (em milhares), 1990-2007

Ano Nº de casas Ano Nº de casas Ano Nº de casas

1990   895 1996 1.161 2002 1.359


1991   840 1997 1.134 2003 1.499
1992 1.030 1998 1.271 2004 1.611
1993 1.126 1999 1.302 2005 1.716
1994 1.198 2000 1.231 2006 1.465
1995 1.076 2001 1.273 2007 1.046
Fonte: Statistical Abstract of the United State, 2009, Tabela 930.

3.12 (a) Utilize o Excel para preparar um gráfico de linhas para exibir os dados de esquiadores/praticantes
de snowboard. Modifique o padrão das cores, fontes etc., para aprimorá-lo. (b) Descreva algum pa-
drão, se houver.  Snowboards

Visitas de esquiadores/praticantes de snowboard nos Estados Unidos (em milhões),


1984-2007

Período Nº de Período Nº de Período Nº de


do ano visitas do ano visitas do ano visitas

1984-1985 51.354 1992-1993 54.032 2000-2001 57.337


1985-1986 51.921 1993-1994 54.637 2001-2002 54.411
1986-1987 53.749 1994-1995 52.677 2002-2003 57.594
1987-1988 53.908 1995-1996 53.983 2003-2004 57.067
1988-1989 53.335 1996-1997 52.520 2004-2005 56.882
1989-1990 50.020 1997-1998 54.122 2005-2006 58.897
1990-1991 46.722 1998-1999 52.089 2006-2007 55.068
1991-1992 50.835 1999-2000 52.198
Fonte: www.nsaa.org/nsaa/press/.

3.13 (a) Use o Excel para construir um gráfico de linhas para representar os dados de morte por raio. Mo-
difique o padrão das cores, fontes etc., caso julgue apropriado para que a representação seja eficaz.
(b) Descreva algum padrão, se houver.

Nº de mortes por raios nos Estados Unidos, 1940-2005  Lightning

Ano Nº de mortes Ano Nº de mortes

1940 340 1975 91


1945 268 1980 74
1950 219 1985 74
1955 181 1990 74
1960 129 1995 85
1965 149 2000 51
1970 122 2005 38
Fontes: Statistical Abstract of the United State, 2007, p. 228; e www.nws.noaa.gov.

3.14 (a) Use o Excel para construir um gráfico de linhas para representar os dados de transplantes a seguir.
Modifique o padrão das cores, fontes etc., que julgar apropriados para que a representação seja eficaz.
(b) Descreva algum padrão, se houver.

Transplantes de órgãos vivos na Califórnia, 1988-2004  Transplants

Ano Nº de Transplantes Ano Nº de Transplantes Ano Nº de Transplantes

1988 12.786 1994 18.170 2000 23.004


1989 13.471 1995 19.264 2001 23.942
1990 15.462 1996 19.566 2002 24.552
1991 15.687 1997 20.093 2003 25.083
1992 16.043 1998 21.313 2004 26.539
1993 17.533 1999 21.824
Fonte: www.gsds.org.

03_capitulo_03.indd 79 05/08/2014 12:15:26


80    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

3.5 Gráficos de barras simples  Tires  


GRÁFICOS O gráfico de barras é provavelmente o tipo de representação de dados mais comum na área de
administração. Dados por atributo são tipicamente representados usando-se gráficos de barras.
DE BARRAS Cada barra representa uma categoria ou atributo, seu tamanho reflete a frequência daquela cate-
goria. Cada barra tem um rótulo mostrando a categoria ou o período. A Figura 3.16 mostra gráfi-
OA 3-6 cos de barras simples comparando as ações do mercado de fabricantes de pneus. As barras são
Conhecer as regras para separadas entre si por uma pequena lacuna para ser mais legível (você pode controlar o compri-
gráficos de barras mento das lacunas no Excel). Gráficos de barras verticais (chamado gráfico de colunas) são os
e gráficos pizza.
mais comuns, mas os horizontais podem ser úteis quando os rótulos dos eixos são longos ou
quando têm muitas categorias.

FIGURA 3.16
Mesmos dados representados de duas maneiras

Equipamento original (EO) de Equipamento original (EO) de


veículos leves nos Estados Unidos/Canadá. veículos leves nos Estados Unidos/Canadá.
Divisão do mercado de pneus Divisão do mercado de pneus
40
Goodyear
35
Firestone
30
Porcentagem

Michelin
25 General
20 BFGoodrich
15 Bridgestone
10 Uniroyal
Continental
5
Dunlop
0
0 5 10 15 20 25 30 35 40
p
lin
e

e
r

al

l
ea

on

on

ya

ta

lo
ic
er
he

Porcentagem
dr

un
en
dy

ro
st

st
en
ic

oo
re

ge

ni

in

D
oo

G
Fi

U
G

nt
id
G

BF

Co
Br

(a) Gráfico de barras verticais (b) Gráfico de barras horizontais

Fonte: www.mtdealer.com.

Gráfico de Pareto 
Tipo especial de gráfico de barras utilizado na administração dos negócios, o gráfico de Pareto
exibe dados categóricos, com categorias exibidas em ordem decrescente de frequência, de modo
que as mais comuns aparecem em primeiro lugar. Geralmente, apenas algumas categorias são
relevantes para a maioria das observações, fenômeno chamado de Regra 80/20. Essa regra é
considerada verdadeira em muitos aspectos da administração, por exemplo, numa amostra de
hóspedes que responderam a uma pesquisa de satisfação da Vail Resorts nos Estados Unidos,
80% dos respondentes eram oriundos de apenas 20% do total dos estados americanos.
Os gráficos de Pareto são normalmente utilizados no gerenciamento do controle de qualidade
para exibir a frequência de defeitos ou erros de diferentes espécies. A maioria dos problemas de
qualidade pode ser usualmente detectada em relação a apenas algumas fontes ou causas. A sele-
ção das categorias em ordem decrescente ajuda os gerenciadores a dar enfoque apenas às poucas
causas vitais, em vez de dar importância desnecessária a muitas causas triviais.
A Figura 3.17 exibe um gráfico de Pareto das reclamações feitas por n = 398 clientes numa
barraca de venda de sanduíches. Note que as três categorias principais somam 76% de todas as
reclamações. Os proprietários da barraca devem se concentrar em não fornecer comida fria, di-
minuir o tempo de espera na fila e oferecer pratos vegetarianos.

03_capitulo_03.indd 80 05/08/2014 12:15:27


Capítulo 3   DESCRIÇÃO VISUAL DOS DADOS   81

FIGURA 3.17
Reclamações de clientes sobre a barraca de sanduíches Gráfico de Pareto
Concessions

Percentual de reclamações
30 100 Nota: O percentual acumulado

Percentual acumulado
25 foi adicionado como uma
80 segunda série de dados num
20 eixo secundário e corresponde
60 à linha curva pontilhada.
15
40
10
5 20

0 0
ia a s e
fr fil
s e t li” to e ro
a a a í r no ch s anc al
hi nte ien ei
n i u o s “ e g
id r e
ui
t ro o u hi
o ta nd rig
Co
m
s siv ge / sa ref m to g olh ro q de
ce e s o r
v
at
o
no eç en e mho alta
ex os Pr im d cac
r a rat pr ais d o
F
e p d e m e n çã o
p t
es de es de A op ara
de ção p çõ elo e m p
po G S
p so
m ao ca
Te m u
hu Po
en
N

Gráfico de barras sobrepostas ou empilhadas 


Em um gráfico de barras sobrepostas ou empilhadas como a Figura 3.18, a altura da barra é a
soma de vários subtotais. As áreas podem ser comparadas por cor para mostrar padrões nos sub-
grupos, assim como mostrar o total. Os gráficos de barras empilhadas podem ser efetivos para
qualquer número de grupos, mas os resultados são melhores quando são poucos grupos. Use ró-
tulos numéricos se os valores exatos dos dados são importantes.

FIGURA 3.18
Nº de inscrições na Escola de Medicina por sexo
Gráfico de barras
50.000 sobrepostas ou empilhadas
Homens Mulheres MedSchool
40.000
Fonte: www.aamc.org.
Nº de candidatos

26.810
30.000 22.534
19.815 18.747

20.000

10.000 19.776 17.273 18.625 20.207

0
1995 2000 2005 2010

Dicas para obter gráficos de barras e colunas efetivos 


Os seguintes princípios auxiliam na criação de gráficos de barras e colunas efetivos: OA 3-6
1. A variável numérica de interesse geralmente é mostrada com barras verticais no eixo Y, ao Conhecer as regras para
passo que os rótulos das categorias se situam no eixo X. gráficos de barras
2. Se a quantidade mostrada é uma série de tempo, os rótulos das categorias (por exemplo, e gráficos pizza.
anos) são apresentados no eixo horizontal X com o tempo aumentando da esquerda para
a direita.
3. A altura ou o comprimento de cada barra deveria ser proporcional à quantidade representada.
Isso é fácil de fazer, pois muitos softwares têm como padrão considerar a origem no zero em
um gráfico de barras. A regra de origem zero é essencial para um relatório corporativo anual

03_capitulo_03.indd 81 05/08/2014 12:15:27


82    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

ou o prospecto de um investidor da bolsa de valores (por exemplo, para evitar ressaltar as


rentabilidades). Entretanto, o uso de origens que não são zero pode ser justificado quando se
quer ressaltar detalhes.
4. Coloque os valores numéricos em cima de cada barra, exceto quando os rótulos impossibili-
tem a legibilidade (por exemplo, muitas barras) ou quando a simplicidade visual é necessária
(por exemplo, no caso de uma audiência geral).

Minicaso 3.3
Passaporte Épico da Vail Resorts
Quando a Vail Resorts conduziu a pesquisa de mercado para o seu novo passaporte de inverno, o
Passaporte Épico, perguntou aos hóspedes quais características de um passaporte dessa natureza
seriam consideradas mais importantes. As características incluíram o número de dias permitido
para a prática de esqui (limitado versus ilimitado), o número de resorts incluídos no passaporte, as
datas não permitidas (todos os feriados, alguns feriados, ou nenhuma objeção quanto às datas), e o
preço do passaporte.
A pesquisa de mercado foi enviada para uma amostra aleatória de hóspedes da Vail Resorts.
Foram recebidas 1.930 respostas. Os respondentes foram selecionados em grupos, com base no
número de períodos destinados à prática de esqui, por ano. Um resumo das respostas é exibido no
gráfico de colunas aglomerado abaixo. Ele mostra claramente que a característica considerada
mais importante para os três grupos foi o preço do passaporte. A determinação do preço adequado
foi crítica, visando criar um produto valioso que um esquiador quisesse adquirir. Pesquisas subse-
quentes forneceram dados adicionais para estabelecer o preço do Passaporte Épico em US$ 579.
Os gráficos podem ser ferramentas de comunicação eficazes, que permitem ao analista com-
parar e sintetizar informações a partir de muitos grupos diferentes e por meio de diferentes variá­
veis. Dessa forma, os tomadores de decisão podem visualizar imediatamente as áreas sobre as
quais devem dar maior enfoque.

Importância subjetiva individual


Com que frequência você
tira férias para esquiar?
80 Menos do que uma vez por ano
Uma vez por ano 66,6 68,8
Importância média

Duas ou mais vezes por ano 59,3


60

40

20 17,7 17,1
15,4 13,0 13,5 14,2
4,5 4,0 5,9
0
Nº resorts Dias do Dias não Preço
incluídos passaporte permitidos
Característica do passaporte

EXERCÍCIOS DA SEÇÃO
3.15 (a) Utilize o Excel para criar um gráfico de linhas visando exibir os seguintes dados sobre os preços
da gasolina. Modifique o padrão das fontes etc., para garantir a eficácia do seu gráfico. (b) Transfor-
me-o num gráfico de colunas 2-D. Modifique-o, caso necessário, para tornar o gráfico mais atraente.
(c) Você prefere o gráfico de linhas ou o gráfico de barras? Por quê? Sugestão: Não inclua os anos
quando fizer o gráfico. Depois de construí-lo, você poderá clicar o botão direito do mouse sobre ele,
escolher a opção Select Data, selecionar Horizontal Axis Labels e, posteriormente, clicar em Edit para
inserir os anos como rótulos de eixo X.

03_capitulo_03.indd 82 05/08/2014 12:15:28


Capítulo 3   DESCRIÇÃO VISUAL DOS DADOS   83

Preço médio da gasolina no varejo nos Estados Unidos (dólares por galão) 
GasPrice

Ano Preço Ano Preço


1960 0,31 1990 1,16
1965 0,31 1995 1,15
1970 0,36 2000 1,51
1975 0,57 2005 2,30
1980 1,25 2010 3,02
1985 1,20
Fontes: www.fueleconomy.gov e www.eia.gov.
Antes de 1980, os preços são referentes a gasolina sem contenção de chumbo.

3.16 (a) Utilize o Excel para elaborar um gráfico de barras empilhadas 2-D para as vendas de televisores
por ano. Modifique as cores, fontes etc., para assegurar a eficácia do seu gráfico. (b) Transforme-o em
um gráfico de barras empilhadas 3-D. Modifique o gráfico, caso necessário, para torná-lo mais atra-
ente. (c) O modo 3-D é melhor do que o modo 2-D? Por quê? (d) Clique o botão direito do mouse sobre
a série de dados, escolha a opção Add Data Labels, e adicione rótulos. Os rótulos podem ser conside-
rados úteis?

Vendas de televisores nos Estados Unidos, 2002-2005 (milhares de dólares)  TVSales

Ano TV de tubo TV LCD TV de plasma


2002 3.574   246   515
2003 4.351   664 1.590
2004 6.271 1.579 2.347
2005 5.320 3.295 4.012
Fonte: Statistical Abstract of the United States, 2007, p. 643.

3.17 (a) Utilize o Excel para elaborar um gráfico de Pareto com os dados seguintes. (b) Quais das três ca-
tegorias são responsáveis por aproximadamente 80% de todas as reclamações? (c) A qual categoria a
empresa de telefonia deveria dar mais enfoque?  Complaints

Reclamações sobre o serviço de telefonia da empresa, n = 791

Reclamações do cliente Frequência Percentual


Longa espera 350 44,2%
Atendimento pessoal grosseiro 187 23,6%
Dificuldade de encontrar a pessoa encarregada  90 11,4%
Atendimento pessoal insatisfatório  85 10,7%
Instruções automatizadas confusas  45  5,7%
Dificuldade de encontrar o número de telefone do atendimento ao cliente  21  2,7%
Timbre de voz desagradável do atendimento automático  13  1,6%

Gráfico usado de modo excessivo  PieCharts   3.6


Muitos estatísticos acham que uma tabela ou um gráfico de barras é uma escolha melhor do que
GRÁFICOS
um gráfico circular ou, mais popularmente, gráfico (em formato de) pizza por várias razões.
Mas, em virtude de seu apelo visual, os gráficos pizza aparecem diariamente em relatórios anu- CIRCULARES OU
ais de companhias e na imprensa (por exemplo, USA Today, The Wall Street Journal, Scientific GRÁFICOS PIZZA
American), por isso você deve entender os seus usos e maus usos. Um gráfico pizza apenas trans-
mite uma ideia geral dos dados porque é difícil determinar as áreas com precisão. O gráfico deve OA 3-6
ter poucas fatias (geralmente, de duas a cinco) e estas devem ser rotuladas com os valores dos Conhecer as regras para
dados ou os percentuais. O único uso correto de um gráfico pizza é retratar dados que somam gráficos de barras e
um total (por exemplo, percentuais de divisão de mercado). Um gráfico circular nunca deve ser gráficos pizza.
utilizado para exibir dados de séries de tempo.

03_capitulo_03.indd 83 05/08/2014 12:15:28


84    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

Opções de gráficos pizza  PieCharts  


Um simples gráfico pizza 2-D, como o da Figura 3.19, é considerado um bom gráfico. O gráfico
pizza 3-D (Figura 3.20) apresenta maior apelo visual, no entanto, é mais difícil de avaliar o tama-
nho das fatias da pizza. Mesmo assim, você encontrará gráficos 3-D em publicações empresa-
riais, em razão de seu grande impacto visual. Um gráfico de barras simples (Figura 3.21) pode
ser utilizado para exibir os mesmos dados, e são preferidos por muitos estatísticos. Os gráficos
em preto e branco podem ser utilizados internamente nos negócios, porém os coloridos são mais
apreciados pelos clientes, acionistas ou investidores. As práticas rotineiras podem mudar à medi-
da que as copiadoras coloridas tornam-se mais baratas. Precaução: Se você utilizar o Excel para
elaborar gráficos circulares com rótulos de dados nas fatias, o gráfico poderá encolher tanto que
sua leitura será comprometida.

FIGURA 3.19
Gráfico pizza 2-D Onde você comprou o seu livro de Estatística?
com rótulos
Web (por exemplo, Amazon)
Textbook
18%
Fonte: Pesquisa na Web de 269
estudantes em duas grandes
Livraria do campus
universidades públicas em 2007.
54% Livraria externa
25%

De um outro aluno
3%

FIGURA 3.20
Gráfico pizza destacado Portfólio de investimentos moderadamente conservadores
em 3-D
Fonte: Baseada em dados 30%
extraídos de www.tiaa-cref.org.
50%

10%

10%

Garantido Renda fixa


Bens imóveis Ações

FIGURA 3.21
Alternativa: gráfico Onde você comprou o seu livro de Estatística?
de barras
Textbook Web (por exemplo, Amazon) 49
Fonte: Pesquisa na Web de 269
estudantes em duas grandes Livraria externa 66
universidades públicas em 2007.
De um outro aluno 7

Livraria do campus 147

0 50 100 150
Número de respondentes

03_capitulo_03.indd 84 05/08/2014 12:15:29


Capítulo 3   DESCRIÇÃO VISUAL DOS DADOS   85

Erros comuns no uso de gráfico pizza


• Gráficos pizzas podem transmitir apenas uma ideia geral dos valores dos dados.
• Gráficos pizzas são ineficientes quando têm fatias demais.
• Dados em gráficos pizzas representam partes de um todo (por exemplo, percentual de divisão
do mercado).

EXERCÍCIOS DA SEÇÃO
3.18 (a) Use o Excel para construir um gráfico pizza 2-D para os dados de navegação na web. Modifique o
padrão de cores, fontes etc., ou outro aspecto que julgar apropriado para tornar o gráfico eficaz. (b)
Clique o botão direito do mouse na área do gráfico, selecione Chart Type e mude para um gráfico pizza
destacado 2-D. (c) Clique o botão direito do mouse na área do gráfico, selecione Chart Type e mude
para um gráfico de barras. Qual deles você prefere? Por quê? Sugestão: Inclua rótulos nos dados com
valores percentuais.

Você está preocupado em ser rastreado enquanto navega na web?  WebSurf

Nível de preocupação Percentual

Muito/Extremamente preocupado 68
Mais ou menos preocupado 23
Nem um pouco/Pouco preocupado  9
Total 100

3.19 (a) Use o Excel para construir um gráfico pizza 2-D para os seguintes dados. Modifique o padrão das
cores, fontes etc., ou outro aspecto que julgar apropriado para tornar o gráfico eficaz. (b) Clique o botão
direito do mouse na área do gráfico, selecione Chart Type e mude para um gráfico pizza 3-D. (c) Clique
o botão direito do mouse na área do gráfico, selecione Chart Type e mude para um gráfico de barras.
Qual deles você prefere? Por quê? Sugestão: Inclua rótulos nos dados com valores percentuais.

Despesas da Dolon Corporation Medical em 2011  Dolon

Despesas Percentual do total

Serviços hospitalares 47,5


Médicos 27,0
Medicamentos 19,5
Saúde mental 5,0
Outros 1,0
Total 100,0

3.20 (a) Use o Excel para construir um gráfico pizza 2-D para os dados de monitores LCD (“Liquid Crystal
Display”). Modifique o padrão das cores, fontes etc., ou outro aspecto que julgar apropriado para
tornar o gráfico eficaz. (b) Você acha que o gráfico está poluído demais (isto é, há um número dema-
siado de fatias)? Um gráfico de barras seria melhor? Explique. Sugestão: Inclua rótulos nos dados
com valores percentuais.

Divisão do mercado mundial de monitores LCD comercializados em 2010  LCDMarket

Companhia Percentual
Samsung 18,0
Vizio 16,7
Sony 11,3
Sanyo  8,0
LG Electronics  7,8
Outros 38,1
Total 100,0
Fonte: http://news.cnet.com/.
Os dados são para o primeiro trimestre de 2010. Os percentuais podem não chegar a 100 devido ao arredondamento.

03_capitulo_03.indd 85 05/08/2014 12:15:29


86    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

3.7 Um gráfico ou diagrama de dispersão representa n pares de observações (x1, y1), (x2, y 2), ... ,
(xn, y n ) como pontos (ou algum outro símbolo) em um gráfico X-Y. Esse tipo de representação
GRÁFICOS é tão importante em estatística que merece atenção especial. Esse gráfico é o ponto inicial em
DE DISPERSÃO análise de dados bivariados. Os gráficos de dispersão são feitos para investigar a relação
entre duas variáveis. Geralmente, deseja-se saber se existe uma associação entre duas variá-
veis e, em caso positivo, qual é o tipo de associação existente. Como foi feito na análise de
dados univariados, vamos olhar para um gráfico de dispersão a fim de observar o que pode-
mos constatar.

EXEMPLO 3.3
Taxas de natalidade e
expectativa de vida A Figura 3.22 mostra um gráfico de dispersão com expectativa de vida no eixo X e taxas de
natalidade no eixo Y. Na ilustração abaixo, parece haver uma associação entre X e Y. Quer
Fonte: CIA, The World Factbook,
2003, www.cia.gov.
dizer, nações com taxas de natalidade mais altas tendem a apresentar uma expectativa de
vida mais curta (e vice-versa). Não se pode concluir uma relação de causa e efeito, já que,
neste exemplo, as duas variáveis podem ser influenciadas por uma terceira que não é men-
cionada aqui (por exemplo, o PIB per capita).

FIGURA 3.22
Gráfico de dispersão 60
de taxas de natalidade
Taxa de natalidade

50
(a cada 1.000)

e expectativa de vida 40
(n = 153 países)
BirthLife 30
20
10
0
30 40 50 60 70 80
Expectativa de vida (anos)

A Figura 3.23 exibe alguns padrões de gráficos de dispersão semelhantes àqueles que você
encontra quando há uma amostra de pares de dados (X, Y). Um gráfico de dispersão pode indicar
ou ilustrar padrões em pares de dados que não seriam aparentes a partir de uma tabela. Compare
os gráficos na Figura 3.24 com os protótipos e descreva com suas próprias palavras os padrões
que você é capaz de observar.

FIGURA 3.23
Protótipo de padrões de Forte positivo Fraco positivo Nenhum padrão
gráfico de dispersão

Y Y Y

X X X

Forte negativo Fraco negativo Padrão não linear

Y Y Y

X X X

03_capitulo_03.indd 86 05/08/2014 12:15:30


Capítulo 3   DESCRIÇÃO VISUAL DOS DADOS   87

Associação linear muito forte e positiva


FIGURA 3.24
Quatro gráficos de dispersão
Escores SAT médios (n = 50 estados)
650

Média do escore verbal


600

550

500

450

400
450 500 550 600 650
Média do escore quantitativo

Fonte: National Center for Education Statistics.

Associação linear muito forte e positiva


Tempos de aceleração dos carros (n = 39 carros)
13,0
12,0
Tempo de 0 a 60
(em segundos)

11,0
10,0
9,0
8,0
7,0
6,0
2,5 3,0 3,5 4,0
Tempo de 0 a 30 (em segundos)

Associação linear moderada e positiva


Renda e salário de professores (n = 50 estados)
fundamental (x US$ 1.000)

55
de professores de ensino
Salário médio anual

50
45
40
35
30
25
20
15.000 20.000 25.000 30.000 35.000 40.000 45.000
Renda per capita anual (em dólares)

Fonte: Statistical Abstract of the United States, 2001, p. 151.

Pouca ou nenhuma associação linear


Renda e taxas de evasão do ensino médio (n = 50 estados)
50
Taxa de evasão (%)

40

30

20

10

0
15.000 20.000 25.000 30.000 35.000 40.000 45.000
Renda per capita anual (em dólares)

Fonte: Statistical Abstract of the United States, 2001, p. 141.

03_capitulo_03.indd 87 05/08/2014 12:15:31


88    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

Criação de um gráfico de dispersão no Excel 


É fácil fazer um gráfico de dispersão utilizando o Excel. Entretanto, você provavelmente deseja-
rá aprimorar o gráfico-padrão, conforme explicado nas etapas a seguir. Note que o Excel estabe-
lece que a primeira coluna é X e a segunda é Y.
OA 3-7 Etapa 1  Com o cursor, marque na planilha os pares de dados (x, y) que você pretende exibir
Construir e interpretar no gráfico de dispersão, clique sobre a barra Insert, clique sobre o ícone Scatter, e escolha um
um gráfico de dispersão modelo de gráfico. O padrão do gráfico de dispersão é relativamente básico, de modo que você
utilizando o Excel. pode desejar personalizá-lo.

Etapa 2  Se você pretende acrescentar uma curva de tendência ajustada, clique o botão direito
do mouse sobre a série de dados no gráfico de dispersão e escolha a opção Add Trendline. O mo-
delo será linear em decorrência do padrão estabelecido. Há uma opção para ajustar outras fun-
ções e sua medida estatística R2 (uma medida de “ajuste” da linha).

03_capitulo_03.indd 88 05/08/2014 12:15:31


Capítulo 3   DESCRIÇÃO VISUAL DOS DADOS   89

Etapa 3  Para personalizar o seu gráfico, clique sobre ele, sua margem irá se modificar para
demonstrar que foi selecionada e a barra Chart Tools será ativada. Clique sobre Design e experi-
mente diferentes modelos de gráficos de dispersão, ou clique sobre a Barra de Layout e selecione
um ícone de edição específico (por exemplo, Chart Title, Axis Titles, Gridlines) ou, ainda, você
pode simplesmente clicar o botão direito do mouse sobre qualquer característica do seu gráfico
(por exemplo, área do gráfico, eixo X, eixo Y, linhas de grade) e explorar as opções até se sentir
satisfeito com a aparência dele. Segue o exemplo de um gráfico de dispersão personalizado.

Interpretação de um modelo linear  A Figura 3.25 exibe um modelo linear ajustado


pelo Excel para X = área total bruta utilizável e Y = vendas totais no varejo, para uma amostra de
28 estados. A inclinação da reta (0,2594) sugere que o aumento de uma unidade em X (cada “uni-
dade” é um milhão de metros quadrados) está associada a um extra de US$ 0,2594 bilhões em
vendas no va­rejo, em média. O intercepto é próximo do zero, sugerindo que um shopping center
sem nenhuma área disponível não teria nenhuma venda. Posteriormente (no Capítulo 12), você verá
como o Excel ajusta uma reta de tendência, como interpretá-la, e quando é significativa. Entretan-
to, já que quase todos os estudantes descobrem essa opção na primeira vez que elaboram um gráfi-
co de dispersão, devemos mencionar que a reta de tendência ajustada pelo Excel é apenas uma
ferramenta meramente descritiva que pode ajudá-los a encontrar padrões nos dados (X, Y).

Área do Shopping Center e vendas (n = 28 estados) FIGURA 3.25


200 Gráfico de dispersão
Vendas no varejo (em bilhões de dólares)

do Excel com reta


180
ajustada (n = 28 estados)
160   RetailSales
140 Fonte: Statistical Abstract of the
120 United States, 2007, p. 660.
y = 0,2594 x + 0,0537
100
80
60
40
20
0
0 200 400 600 800
Área bruta utilizável (milhões em metros quadrados)

03_capitulo_03.indd 89 05/08/2014 12:15:32


90    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

EXERCÍCIOS DA SEÇÃO
3.21 (a) Use o Excel para fazer um gráfico de dispersão dos dados de vendas de 10 semanas de água engar-
rafada, alocando Preço (Price) no eixo X e Número de Unidades Vendidas (Units Sold) (no eixo Y).
Adicione títulos e modifique o padrão de cores, fontes etc., assim como outro aspecto que julgar
apropriado para tornar o gráfico de dispersão eficaz. (b) Descreva a relação (se existir alguma) entre
X e Y. Ela é fraca? Forte? Negativa? Positiva? Linear? Não linear?  WaterSold

Preço unitário Nº de unidades vendidas


1,15 186
0,94 216
1,04 173
1,05 182
1,08 183
1,33 150
0,99 190
1,25 165
1,16 190
1,11 201

3.22 (a) Use o Excel para fazer um gráfico de dispersão desses dados de veículos, alocando Peso (Weight)
no eixo X e Consumo Urbano (City MPG) no eixo Y. Adicione títulos e modifique o padrão de cores,
fontes etc., assim como outro aspecto que julgar apropriado para tornar o gráfico de dispersão eficaz.
(b) Descreva a relação (se existir alguma) entre X e Y. Ela é fraca? Forte? Negativa? Positiva? Linear?
Não linear?

Peso e consumo urbano (em milhas por galão) de 20 veículos selecionados ao acaso 
CityMPG

Veículo Consumo urbano (em milhas por galão) Peso (em libras)
Acura TSX 23 3.320
BMW 3-Series 19 3.390
Chevrolet Corvette 19 3.255
Chevrolet Silverado 1500 14 4.935
Chrysler Pacifica 17 4.660
Dodge Caravan 18 4.210
Ford Focus 26 2.760
Infiniti FX 16 4.295
Jaguar XJ8 18 3.805
Lexus IS300 18 3.390
Lincoln Aviator 13 5.000
Mazda 6 19 3.355
Land Rover Freelander 17 3.640
Mercedes-Benz S-Class 17 4.195
Nissan 350Z 20 3.345
Nissan Xterra 16 4.315
Pontiac Vibe 28 2.805
Pontiac Grand Am 25 3.095
Toyota Sienna 19 4.120
Volvo C70 20 3.690
Fonte: © 2003 por Consumers Union of U.S., Inc. Yonkers, NY, uma organização filantrópica. De Consumer
Reports New Car Buying Guide, 2003-2004. Utilizado com permissão.

3.23 (a) Use o Excel para fazer um gráfico de dispersão dos seguintes dados de notas em exames, alocando
Nota do Exame Intermediário (Midterm Score) no eixo X e Nota Final (Final Score) no eixo Y. Adi-
cione títulos e modifique o padrão de cores, fontes etc., assim como outro aspecto que julgar apropria-
do para tornar o gráfico de dispersão eficaz. (b) Descreva a relação (se existir alguma) entre X e Y. Ela
é fraca? Forte? Negativa? Positiva? Linear? Não linear?

03_capitulo_03.indd 90 05/08/2014 12:15:32


Capítulo 3   DESCRIÇÃO VISUAL DOS DADOS   91

Notas em exames de 18 alunos de Estatística  ExamScores

Nota do exame Nota do exame


Nome intermediário Nota final Nome intermediário Nota final
Aaron 50  30 Joe 68  83
Angela 95  83 Lisa 75  58
Brandon 75  90 Liz 70  83
Buck 60  83 Michele 60  73
Carole 60  75 Nancy 88  78
Cecilia 63  45 Ryan 93 100
Charles 90 100 Tania 73  83
Dmitri 88  90 Ursula 33  53
Ellie 75  68 Xiaodong 60  70

3.24 (a) Use o Excel para fazer um gráfico de dispersão dos dados a seguir, alocando Espaço (Floor Space)
no eixo X e Vendas Semanais (Weekly Sales) no eixo Y. Adicione títulos e modifique o padrão de
cores, fontes etc., assim como outro aspecto que julgar apropriado para tornar o gráfico de dispersão
eficaz. (b) Descreva a relação (se existir alguma) entre X e Y. Ela é fraca? Forte? Negativa? Positiva?
Linear? Não linear?  FloorSpace

Espaço (em pés quadrados) Vendas semanais (em dólares)


6.060 16.380
5.230 14.400
4.280 13.820
5.580 18.230
5.670 14.200
5.020 12.800
5.410 15.840
4.990 16.610
4.220 13.610
4.160 10.050
4.870 15.320
5.470 13.270

A maneira mais simples de apresentar dados é por meio de tabelas, ademais, a construção de ta- 3.8
belas efetivamente informativas é uma habilidade que pode ser adquirida. Organizando os núme-
ros em linhas e colunas, a informação transmitida pela tabela pode ser realçada para que uma TABELAS
rápida olhada seja suficiente para entendê-la.

EXEMPLO 3.4
Gastos escolares
A Tabela 3.7 é uma tabela composta que contém dados de séries de tempo (se observados por
coluna) para sete variáveis (uma por coluna, no decorrer das linhas). Os dados podem ser
vistos de várias maneiras. Podemos nos concentrar no padrão do tempo (analisando as colu-
nas) ou na comparação de gastos públicos com gastos privados (entre colunas) para um fixa-
do nível educacional (fundamental/médio ou faculdade/universidade). Ou, ainda, podemos
comparar os gastos por nível educacional (fundamental/médio ou faculdade/universidade)
por tipo (público ou privado). Os valores foram arredondados para três ou quatro dígitos
significativos para facilitar a leitura. As unidades de medida são mencionadas no rodapé
para manter o cabeçalho da coluna simples. As colunas são agrupadas de acordo com o ca-
beçalho da linha superior (colunas em branco podem ser inseridas para uma separação ver-
tical adicional). As tabelas utilizadas em apresentações com apoio computacional podem
ser conectadas de forma dinâmica a planilhas para que os slides possam ser atualizados
­rapidamente, mas é preciso cuidado para que as mudanças nos dados não danifiquem o
­formato da tabela.

03_capitulo_03.indd 91 05/08/2014 12:15:33


92    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

TABELA 3.7  Gastos escolares por tipo e nível educacional, 1980-2005  Schools

Ensinos fundamental Faculdades e


e médio universidades
Todas as
Ano instituições Pública Privada Total Pública Privada Total
1980 442,6 265,3 19,9 285,2 104,4  52,9 157,4
1985 485,8 278,0 25,2 303,2 118,4  64,2 182,6
1990 618,4 359,7 31,1 390,8 145,0  82,6 227,6
1995 692,4 398,2 33,1 431,3 164,8  96,3 261,1
2000 823,3 484,2 38,9 523,1 193,1 107,1 300,2
2005 980,9 559,4 46,4 605,8 241,6 133,5 375,2
Fonte: U.S. Census Bureau, Statistical Abstract of the United States, 2011, p. 143.
Todos os números estão em dólares, nos valores correntes nos anos de 2008/2009.

Dicas para obter tabelas efetivas 


OA 3-8 A seguir, são apresentadas algumas dicas para a criação de tabelas efetivas:
Criar tabelas simples 1. Mantenha a tabela simples, consistente com seus objetivos. As tabelas resumidas vão no cor-
e tabelas pivot. po de relatório e as detalhadas, no apêndice. Em uma apresentação com slides, o ponto prin-
cipal da tabela deve estar claro para o leitor em 10 segundos. Caso contrário, quebre a tabela
em partes ou agrupe os dados.
2. Apresente os dados que serão comparados em colunas em vez de linhas. Pesquisas mostram
que as pessoas consideram mais fácil comparar dados lado a lado do que em cima e embaixo.
3. Para fins de apresentação em público, arredonde para três ou quatro dígitos (por exemplo, use
142 em vez de 142,213). As pessoas arredondam os números mentalmente. Exceções: quando
as necessidades contábeis suplantam o desejo de arredondar ou quando os números serão
utilizados em cálculos subsequentes.
4. O layout físico da tabela deve guiar os olhos para a comparação que você deseja enfatizar.
Espaços ou sombreamentos podem ser usados para separar linhas ou colunas. Use as linhas
de forma parcimoniosa.
5. Os cabeçalhos de linhas e colunas devem ser simples, mas descritivos e informativos.
6. Dentro de uma coluna, use um número de dígitos decimais de forma consistente. Alinhe os
valores à direita ou pela decimal, a menos que o comprimento de todos os campos seja o
mesmo dentro da coluna.

Tabelas pivot  PivotTable  


Uma das características mais populares e poderosas do programa Excel é a tabela pivot (ou ta-
bela dinâmica), que fornece uma análise interativa a partir de uma matriz de dados. O tipo mais
simples de tabela pivot possui linhas e colunas, cada uma das suas células exibe uma estatística
para uma combinação de linha e coluna. As variáveis de linhas e colunas devem ser: ou categó-
ricas, ou numéricas discretas; e a variável para as células da tabela devem ser numéricas (rever
Capítulo 2 caso não se lembre desses termos). Após a criação da tabela, você poderá modificá-la,
acrescentando os nomes das variáveis da sua matriz de dados. Também poderá modificar as es-
tatísticas exibidas nas células (soma, contagem, média, máximo, mínimo, produto) clicando o
botão direito do mouse sobre a tabela e selecionando a partir do menu de opções. Descreveremos­,
a seguir, as etapas necessárias para criar uma tabela pivot para uma pequena matriz de ­dados (25
residências, 3 variáveis). A primeira tabela exibe a soma da área (em pés quadrados) para todas
as residências em cada uma das categorias. A segunda foi criada copiando-se a ­primeira e depois
modificando-se as células para exibir a área média das residências naquela célula.

03_capitulo_03.indd 92 05/08/2014 12:15:33


Capítulo 3   DESCRIÇÃO VISUAL DOS DADOS   93

Etapa 1  Selecione a aba Insert e informe em quais células da planilha estão os dados.

Etapa 2  Arraste e fixe campos desejados para linhas, colunas e corpo da tabela.

03_capitulo_03.indd 93 05/08/2014 12:15:33


94    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

Etapa 3  Agora você pode formatar a tabela ou clicar o botão direito do mouse para selecionar
os campos desejados.

Consulte, no final deste capítulo em Recursos de Aprendizagem Online, um guia passo a


passo para criar uma tabela dinâmica. Uma tabela pivot é particularmente útil quando temos uma
grande matriz de dados com diversas variáveis. Por exemplo, a Figura 3.26 mostra duas tabelas
dinâmicas, baseadas em dados de devolução de imposto de renda para n = 4.801 contribuintes
americanos. A primeira tabela pivot mostra o número de contribuintes por estado civil (solteiro,
casado, vivendo com alguém, casado mas separado, chefe de família) em tabulação cruzada con-
tra o número de isenção por filhos (0, 1, 2, ... , 10). A segunda tabela pivot mostra o índice médio
do imposto (percentual) para cada casela na tabulação cruzada. Note que algumas médias são
baseadas em pequenos valores das caselas.

FIGURA 3.26
Duas tabelas pivot para
devolução do imposto de
renda nos Estados Unidos
(n = 4.801)  Taxes

03_capitulo_03.indd 94 05/08/2014 12:15:34


Capítulo 3   DESCRIÇÃO VISUAL DOS DADOS   95

Temos explicado como construir gráficos bons. Agora, vamos inverter as coisas. Como consu- 3.9
midor imparcial de informação, você precisa estar informado de uma lista de erros. Aqueles
que querem distorcer os fatos podem fazer essas coisas de forma deliberada, embora muitos GRÁFICOS
erros ocorram por ignorância. Use essa lista para se proteger de práticas gráficas ignorantes ou TRAIÇOEIROS
inescrupulosas.
Erro 1: Origem não zero  Uma origem que não seja o zero ressaltará a tendência. As distân- OA 3-9
cias medidas não conferem com os valores estabelecidos ou as demarcações dos eixos. A profissão Reconhecer técnicas
de contador, em particular, tenta firmemente fazer valer essa regra. Embora as origens zero sejam de representação
preferíveis, algumas vezes uma origem não zero é necessária para mostrar detalhes suficientes. gráfica traiçoeiras.

Origem não zero Origem zero

Duração média de chamadas de celulares Duração média de chamadas de celulares


3,1 3,5
3,0
2,9
2,5
2,7
Minutos

Minutos
2,0

2,5 1,5
1,0
2,3
0,5
2,1 0,0
2006 2007 2008 2009 2010 2011 2012 2006 2007 2008 2009 2010 2011 2012

Erro 2: Proporções gráficas elásticas  Se encurtarmos o eixo X em relação ao eixo Y,


a escala vertical torna-se exagerada. Para uma série do tempo (o eixo X representando tempo),
isso pode fazer que uma curva de vendas ou lucro “lenta” pareça bem inclinada. De maneira in-
versa, um eixo X largo e um eixo Y curto podem mascarar mudanças alarmantes (recalls, aciden-
tes industriais). Mantenha o quociente de proporção (comprimento/altura) abaixo de 2,00. Nos
gráficos do Excel, esse número é em torno de 1,68. O quociente de proporção ideal que você
aprendeu em história da arte seria 1,62. As telas de TV antigas usavam um quociente 1,33, assim
como os monitores de computadores portáteis antigos (640 × 480 pixels). Os cinemas usam um
formato de tela largo (com quociente de proporção de até 2,55), mas as imagens de fitas de vide-
ocassete e do DVD podem ser cortadas para se ajustar em uma tela de televisão. HDTV (televi-
sões de alta definição) e computadores multimídia usam o quociente de proporção 16:9 (cerca de
1,78). Monitores ultrapanorâmicos mais modernos oferecem quociente de 21:9 (cerca de 2,33).
Gráficos cuja altura exceda a sua largura não se adaptam de maneira adequada em páginas ou
telas de computadores. Esses dois gráficos exibem os mesmos dados. Qual deles parece crescer
mais rapidamente?

Alongada Encurtada/estreita

Taxa básica mensal de TV a cabo Taxa básica mensal de TV a cabo


50 40
45 35
40
30
Dólares por mês

Dólares por mês

35
30 25
25 20
20 15
15
10
10
5 5
0 0
1980 1985 1990 1995 2000 2005 1980 1985 1990 1995 2000 2005

Fonte: Statistical Abstract of the United States, 2007, p. 717.

03_capitulo_03.indd 95 05/08/2014 12:15:34


96    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

Erro 3: Títulos dramáticos e imagens que desviam a atenção  O título, com


frequência, tem mais por objetivo captar a atenção do leitor do que informar o conteúdo do grá-
fico (exemplos: Criminosos à solta; Déficit afunda a economia). Algumas vezes, o título tenta
concluir por você (exemplos: Inflação arruina a poupança; Importações sufocam as exportações).
Um título deve ser curto, mas adequado ao seu objetivo.
Para ter um visual mais chamativo, artistas podem sobrepor uma fotografia em um gráfico
(por exemplo, um gráfico de preço de gasolina com uma foto na parte superior mostrando a guer-
ra do Oriente Médio) ou inserir figuras ou faixas coloridas com personagens de quadrinhos, ou
desenhos em geral. Tudo isso é inofensivo, mas pode distrair o leitor ou transmitir um viés emo-
cional. Propagandas algumas vezes mostram atores maduros, atraentes e bem vestidos, que retra-
tam cientistas, médicos ou líderes empresariais, que examinam gráficos aparentemente científi-
cos. Como o público respeita a reputação da ciência, tais apresentações transmitem credibilidade
para esses comerciais com interesses próprios. O gráfico de formulários para matrícula na facul-
dade de medicina ilustra esses elementos traiçoeiros.
Erro 4: 3-D e gráficos inovadores  Dar profundidade a um gráfico de barras pode am-
pliar o seu impacto visual, porém essa situação causa ambiguidade na altura da barra. Devemos
medir a partir da parte anterior ou posterior da barra? Os gráficos 3-D são usuais em publicações
voltadas para leitores comuns (por exemplo, USA Today), mas são menos frequentes na adminis-
tração dos negócios. Gráficos inovadores, como o gráfico de pirâmide, devem ser evitados, pois
distorcem o volume da barra e dificultam a medida da sua altura.

Mercado de pneus em veículos Mercado de pneus em veículos


nos Estados Unidos e Canadá nos Estados Unidos e Canadá

40
35 40
30 35
30
Percentual

25
Percentual

25
20
20
15
15
10 10
5 5
0 0

p
lin
e

ge h

M ne

id rich

ni e
p
lin

Fi ear
Fi ear

G ral

in l

D l
oo l

in l

l
on

on

on

ta

lo
ic
a

ta

lo

Co roy
he
o
BF ner

Co roy
he

dr

un
e

en
un
en

dy
dy

d
st

st

st

st
en
ic

oo
ic
re

re

ge
ni

oo
e

D
oo

G
G

U
G

nt
U

nt
id

G
G

BF
Br

Br

(a) Gráfico de coluna 3-D (b) Gráfico de pirâmide (evitar)


Fonte: www.mtdealer.com.
Erro 5: Gráficos rotacionados  Ao elaborar um gráfico tridimensional e rotacioná-lo no
espaço, o autor pode fazer as tendências parecerem diminuir ou aumentar de forma alarmante
com a distância. O próximo exemplo (número de inscrições numa faculdade de medicina) com-
bina diversos erros (de origem não zero, título principal, imagem que distrai, fonte vaga, aparên-
cia rotacionada em 3-D). Resista à tentação de utilizar gráficos rotacionados.

Traiçoeiro Correto
Escaladas nas inscrições para Escalada nas inscrições para Escola de Medicina
Escola de Medicina
50.000
45.000 42.231 42.742
42.500 40.000 39.108
Nº de candidatos

Nº de candidatos

33.624 35.735
40.000
37.500
30.000
35.000
20.000
32.500
30.000 10.000
20 2
04
0

06

0
20

08
20

10
20

2002 2004 2006 2008 2010


20

Fonte: www.aamc.org.

03_capitulo_03.indd 96 05/08/2014 12:15:35


Capítulo 3   DESCRIÇÃO VISUAL DOS DADOS   97

Erro 6: Definições ou escalas imprecisas  A falta ou a imprecisão de unidades de


medidas (dólares? percentual?) podem tornar um gráfico inútil. Mesmo que a escala vertical
esteja em dólares, precisamos saber se a variável em questão se refere a vendas, lucros, recur-
sos, ou qualquer outra coisa. Na hipótese de percentual, deve ser indicado exatamente a que se
refere esse percentual. Sem as demarcações sobre o eixo, o leitor não poderá identificar os
valores de dados individuais. As linhas de grade auxiliam a comparar magnitudes, mas geral-
mente elas são omitidas para não poluir visualmente o gráfico. Para obter clareza máxima num
gráfico de barras, rotule cada barra com seu valor numérico, a menos que a escala esteja devi-
damente demarcada e rotulada.
Erro 7: Fonte vaga  Grandes agências federais ou grandes corporações empregam milhares
de pessoas e produzem centenas de relatórios anualmente. Fontes vagas do tipo “Departamento
de Comércio” podem indicar que o autor perdeu a citação, não sabe a fonte dos dados ou misturou
dados de várias fontes. Publicações científicas requerem citações completas das fontes. As regras
são menos rigorosas para publicações destinadas a uma audiência geral.
Erro 8: Gráficos complexos  Representações visuais complicadas dão mais trabalho ao
leitor. Mantenha seu objetivo em mente. Omita “detalhes” ou coloque-os no apêndice. Aplique a
regra dos 10 segundos aos gráficos. Se a mensagem que você quer transmitir for realmente com-
plexa, será que ela não poderia ser dividida em partes menores? O exemplo em seguida (volume
de cirurgias) combina diversos erros (subtítulo tolo, imagens que distraem, sem rótulo nos dados,
sem definições, fonte vaga, informação demais).

Volume do departamento de cirurgia


Fatiando e cortando

Ortopedia
Oftalmologia
Neurocirurgia
Ginecologia
Geral
Gastroenterologia
Otorrinolaringologia
Cardioinvasiva
Anestesia
Vascular
Urologia
Podologia
Cirurgia Plástica

Fonte: Relatórios hospitalares.

Erro 9: Efeitos gratuitos  Apresentações com slides, em computador, muitas vezes usam
cores e efeitos especiais (som, transições entre slides interessantes, textos que deslizam etc.) para
atrair a atenção. Mas uma vez que a novidade se desgasta, a audiência pode achar os efeitos es-
peciais irritantes.
Erro 10: Dados estimados  Por espírito de zelo para incluir os “últimos” valores, os últi-
mos poucos pontos de dados em uma série do tempo são frequentemente estimados. Ou, talvez,
alguns anos estavam faltando ou eram incompatíveis, então o autor precisava “preencher os es-
paços”. No mínimo, os pontos estimados deveriam ser mencionados.
Erro 11: Distorcer a área  Um dos mais perniciosos artifícios visuais é aumentar o com-
primento das barras à medida que suas alturas aumentam, de modo que a área da barra fica fora
da proporção real (por exemplo, trocar gráfico de barras por imagens de humanos, moedas ou
bombas de gasolina). Como a altura da imagem aumenta, o seu comprimento também aumenta,
distorcendo a área.

03_capitulo_03.indd 97 05/08/2014 12:15:35


98    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

Traiçoeiro Correto

Salários dos médicos, Clínica Garwood, 1990-2010 Salários dos médicos, Clínica Garwood, 1990-2010
9 9
8 8
Milhões de dólares

Milhões de dólares
7 7
6 6
5 5
4 4
3 3
2 2
1 1
0 0
1990 1995 2000 2005 2010 1990 1995 2000 2005 2010

Conselho final 
Será que você pode acreditar em uma apresentação visual (a menos que você mesmo a tenha
criado)? Seja cético, e fique agradavelmente surpreso se o gráfico atender às expectativas dos
melhores padrões. A mídia impressa compete com a TV e a Web, por isso jornais e revistas usam
gráficos coloridos para atrair o interesse do leitor. As pessoas gostam de representações visuais,
então aceite algumas liberdades artísticas. As publicações para leitores em massa do tipo U.S.
News & World Report, Time, Newsweek, USA Today ou mesmo publicações especializadas
orientadas aos negócios como Forbes, Fortune, Bloomberg Businessweek e The Wall Street Jour-
nal não deveriam ser julgadas pelos mesmos padrões que aplicaríamos a um periódico acadêmi-
co. As empresas querem gráficos que sigam as regras, porque gráficos traiçoeiros podem ter sé-
rias consequências. As decisões devem ser tomadas sobre produtos ou serviços que afetam vidas,
divisões do mercado e empregos (incluindo o seu). Logo, conheça as regras, tente segui-las e
espere que seus colegas e subordinados façam o mesmo. Gráficos com alguns artifícios podem
ajudar a transmitir suas ideias, mas não devem dominar os dados.

Desafios futuros 
Se você gosta de lidar com computadores, tente aprender essas habilidades sozinho:
• Copie e cole gráficos do Excel no Word ou PowerPoint.
• Copie e cole gráficos de outros softwares (MINITAB, MegaStat, SPSS).
• Use o dispositivo de capturar o que está na tela do monitor e editar os resultados, com o au-
xílio de ferramentas de pintar, se necessário.
• Use um software para fazer apresentações (por exemplo, PowerPoint) com efeitos de transi-
ção de slides.
• Saiba como (e quando) conectar os gráficos do Excel com as planilhas.
• Use ferramentas de desenho e crie seus próprios gráficos simples.

Resumo Para um conjunto de observações de uma única variável numérica, um gráfico ramo-e-folhas ou um
gráfico de pontos (dot-plot) representa os valores individuais dos dados, ao passo que uma distribui-
ção de frequência ordena os dados em classes chamadas blocos para construir um histograma de
frequências. O número de blocos e seus limites são deixados por conta de seu bom senso, embora a
regra de Sturges ofereça orientação acerca deste número. O gráfico de linhas mostra valores de uma
ou mais variáveis de séries de tempo contra o tempo. Uma escala logarítmica é usada algumas vezes
em gráficos de séries de tempo quando os dados variam em ordem de magnitude. O gráfico de barras
mostra um valor numérico dos dados para cada categoria de um atributo. Entretanto, um gráfico de
barras também pode ser usado para séries temporais. Um gráfico de dispersão pode revelar a associa-
ção (ou a falta dela) entre duas variáveis X e Y. O gráfico pizza (que mostra um valor numérico dos
dados para cada categoria de um atributo, se os dados são parte de um todo) é comum, mas deve ser
usado com cautela. Algumas vezes, uma tabela simples é o melhor recurso visual. A criação de apre-
sentações visuais efetivas é uma habilidade que pode ser adquirida, o Excel oferece ampla variedade
de gráficos à sua escolha. Os gráficos traiçoeiros são encontrados com bastante frequência na mídia e
em apresentações de negócios, e o consumidor deveria estar atento aos erros comuns.

03_capitulo_03.indd 98 05/08/2014 12:15:36


Capítulo 3   DESCRIÇÃO VISUAL DOS DADOS   99

assimetria à direita gráfico de barras, 80 gráfico de gráfico ramo-e-folhas, 59 Termos-chave


(right-skewed), 69 barras sobrepostas histograma, 65
assimetria à esquerda ou empilhadas, 81 ogiva, 70
(left-skewed), 69 gráfico de colunas, 80 polígono de frequência, 70
classe modal, 69 regra de Sturges, 63
gráfico ou diagrama de
dispersão, 57
dispersão, 86 simétrico, 69
distribuição ou tabela de
frequência, 63 gráfico de linhas, 75 tabela pivot, 92
escala aritmética, 77 gráfico de Pareto, 80 tendência, 89
escala logarítmica, 77 gráfico de pontos (dot-plot), 59 tendência central, 57
forma, 57 gráfico de pontos sobrepostos valor discrepante (outlier), 70
gráfico circular ou gráfico ou empilhados (stacked
pizza, 83 dot-plot), 60

  1. Denomine duas características atraentes e duas limitações de (a) um gráfico ramo-e-folhas e (b) Revisão
um gráfico de pontos.
  2. (a) O que é uma distribuição de frequência? (b) Quais são os passos na criação de uma distribuição
de frequência?
  3. (a) O que é um histograma? (b) O que ele mostra?
  4. (a) O que é um histograma bimodal? (b) Explique a diferença entre histogramas com assimetria à
esquerda, simetria e assimetria à direita. (c) O que é um valor discrepante (outlier)?
  5. (a) O que é um gráfico de dispersão? (b) O que os gráficos de dispersão revelam? (c) Esboce um
gráfico de dispersão com uma correlação positiva moderada. (d) Esboce um gráfico de dispersão
com uma correlação negativa forte.
  6. Para quais tipos de dados usaríamos um gráfico de barras? Cite três dicas para criar gráficos de
barras efetivos.
  7. Para quais tipos de dados usaríamos um gráfico de linhas? Enumere três dicas para criar gráficos
de linhas efetivos.
  8. (a) Liste os três tipos de gráficos mais comuns em empresas e esboce cada tipo (não precisam ser
dados reais, apenas um esboço). (b) Enumere três gráficos especializados que podem ser criados
no Excel e esboce cada tipo (não precisam ser dados reais, apenas um esboço).
  9. (a) Para quais tipos de dados poderíamos usar um gráfico circular (pizza)? (b) Nomeie dois erros
comuns em gráficos pizza. (c) Por que gráficos pizza são encarados com certo ceticismo por al-
guns estatísticos?
10. Quais tipos de gráficos podem ser usados para dados de séries de tempo?
11. (a) Quando necessitaríamos de uma escala logarítmica? (b) O que representam distâncias iguais
em uma escala logarítmica? (c) Enuncie uma desvantagem de um gráfico na escala logarítmica.
12. Quando deveríamos usar um gráfico de barras empilhadas? Um gráfico de área? Um gráfico de
Pareto?
13. Liste cinco técnicas gráficas traiçoeiras.
14. O que é uma tabela pivot? Por que ela é considerada útil?

EXERCÍCIOS DO CAPÍTULO
Nota: Nestes exercícios, você pode usar um software. Use a ferramenta Descriptive Statistics do MegaStat
para construir gráficos de pontos ou Frequency Distributions para histogramas. Use a ferramenta Graphs do
MINITAB ou um software similar para criar o gráfico de pontos ou o histograma. Os arquivos de dados www.grupoa.com.br
podem ser baixados a partir do site www.grupoa.com.br.
3.25 A duração (em minutos) de 26 interrupções no fornecimento de energia elétrica na cidade de Sonando
Heights, nos últimos cinco anos, é apresentada abaixo. (a) Elabore um diagrama ramo-e-folhas. (b)
Construa um histograma. (c) Descreva a forma de distribuição.  Duration

32 44 25 66 27 12 62  9 51  4 17 50 35
99 30 21 12 53 25  2 18 24 84 30 17 17

3.26 O Serviço de Postagem dos Estados Unidos enviará uma Correspondência Prioritária (12” × 12” ×
5½”) para qualquer lugar do país por um preço fixo, independentemente do peso. Os pesos (em onças)

03_capitulo_03.indd 99 05/08/2014 12:15:36


100    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

de 20 caixas escolhidas aleatoriamente são apresentados abaixo. (a) Elabore um diagrama de ramo-e-
-folhas. (b) Construa um histograma. (c) Descreva a forma de distribuição.  Weights

72 86 28 67 64 65 45 86 31 32
39 92 90 91 84 62 80 74 63 86

3.27 Um estudo de 40 centros de cuidados cardíacos dos Estados Unidos mostrou as seguintes razões de
enfermeiras por leito. (a) Construa um dot-plot. (b) Construa uma distribuição de frequência e um
histograma (você pode especificar os blocos ou utilizar os blocos criados automaticamente pelo sof-
tware). (c) Descreva a distribuição baseada nessas representações.  Nurses

1,48 1,16 1,24 1,52 1,30 1,28 1,68 1,40 1,12 0,98 0,93 2,76
1,34 1,58 1,72 1,38 1,44 1,41 1,34 1,96 1,29 1,21 2,00 1,50
1,68 1,39 1,62 1,17 1,07 2,11 2,40 1,35 1,48 1,59 1,81 1,15
1,35 1,42 1,33 1,41

3.28 O primeiro campeonato Rose Bowl (de futebol norte-americano) foi realizado em 1902. O próximo não foi
realizado até 1916, mas um campeonato Rose Bowl tem sido realizado todo ano a partir dessa ocasião. A
margem de vitória em cada um dos 95 jogos do Rose Bowl de 1902 a 2011 é mostrada a seguir (0 indica
empate). (a) Elabore um gráfico ramo-e-folhas. (b) Construa uma distribuição de frequência e um histogra-
ma (você pode especificar os blocos ou utilizar blocos automáticos). (c) Descreva a distribuição, com base
nessas representações. (Dados extraídos do site http://en.wikipedia.org)  RoseBowl

 0  7  7  7  7  7  7  7  8  9 10 10 13 13
14 14 14 14 14 14 14 14 14 14 17 17 17 17
17 17 17 17 18 20 20 20 20 20 20 20 21 21
21 21 21 21 21 22 22 23 23 24 24 25 26 27
27 27 27 28 28 28 28 29 29 32 34 34 34 34
34 35 35 37 38 38 38 38 38 38 40 41 41 42
42 42 44 45 45 45 46 47 49 49 49

3.29 Um registro telefônico de um executivo contém os dados da duração de 65 chamadas iniciadas duran-
te a última semana de julho. (a) Construa um gráficos de pontos. (b) Construa uma distribuição de
frequência e um histograma (você pode especificar os blocos ou usar os blocos criados automatica-
mente pelo software). (c) Descreva a distribuição baseada nessas representações.  CallLength

1  2 10 5  3 3  2 20 1  1
6  3 13 2  2 1 26  3 1  3
1  2  1 7  1 2  3  1 2 12
1  4  2 2 29 1  1  1 8  5
1  4  2 1  1 1  1  6 1  2
3 3  6 1  3 1  1  5 1 18
2 13 13 1  6

3.30 Podemos ver a seguir, a média de rebatidas dos jogadores do New York Yankees que jogaram nessa
posição cinco vezes ou mais no ano de 2006. (a) Elabore uma distribuição de frequência. Explique
como você escolheu o número de blocos e os limites de classes. (b) Elabore um histograma e descreva
a sua aparência. (c) Repita o processo usando um número diferente de blocos e limites de classes di-
ferentes. (d) A sua impressão visual dos dados mudou quando você alterou o número de blocos? Ex-
plique.  Yankees

Médias de rebatidas do New York Yankees em 2006

Jogador Média Jogador Média Jogador Média


Derek Jeter 0,343 Miguel Cairo 0,239 Sal Fasano 0,143
Johnny Damon 0,285 Bobby Abreu 0,330 Terrence Long 0,167
Alex Rodriguez 0,290 Hideki Matsui 0,302 Kevin Thompson 0,300
Robinson Cano 0,342 Gary Sheffield 0,298 Kevin Reese 0,417
Jorge Posada 0,277 Craig Wilson 0,212 Andy Cannizaro 0,250
Melky Cabrera 0,280 Bubba Crosby 0,207 Randy Johnson 0,167
Jason Giambi 0,253 Aaron Guiel 0,256 Wil Nieves 0,000
Bernie Williams 0,281 Kelly Stinnett 0,228
Andy Phillips 0,240 Nick Green 0,240
Fonte: www.thebaseballcube.com.

03_capitulo_03.indd 100 05/08/2014 12:15:37


Capítulo 3   DESCRIÇÃO VISUAL DOS DADOS   101

3.31 Baixe o conjunto de dados completo das medidas de nível de ruído na cabine de comando de um jato
comercial do site do Grupo A (apenas seis valores de dados são apresentados). (a) Utilize o Excel para
elaborar um gráfico de dispersão, posicionando Velocidade (Airspeed) sobre o eixo X e o Nível de
Ruído (Noise Level) sobre o eixo Y. Acrescente títulos e modifique o padrão de cores, fontes etc., ou
o que julgar necessário para assegurar a eficácia do seu gráfico. (b) Descreva a relação (se houver
alguma) entre X e Y. Fraca? Forte? Negativa? Positiva? Linear? Não linear? Sugestão: Talvez você
precise redimensionar os eixos X e Y para ver mais detalhes.

Ruído na cabine de comando e velocidade (n = 61 medidas)  CockpitNoise

Observação Velocidade (nós) Nível de ruído (decibéis)


 1 250 83
 2 340 89
 3 320 88
. . .
. . .
. . .
59 370 91
60 405 93
61 250 82
Nota: O decibel (dB) é uma unidade logarítmica que indica a razão da pressão de som mensurada como uma
referência. Eis alguns exemplos familiares para comparações: buzina a 1 m (120 dB), martelo a 1 m (100 dB),
misturador elétrico manual (65 dB).

3.32 Baixe o conjunto de dados completo do site do Grupo A (apenas seis valores de dados são apresentados).­
(a) Utilize o Excel para elaborar um gráfico de dispersão, posicionando a Receita (Revenue) sobre o
eixo X e o Rendimento líquido (Net Income) sobre o eixo Y. Acrescente títulos e modifique o padrão
de cores, fontes etc., ou o que julgar necessário para assegurar a eficácia do seu gráfico. (b) Descreva
a relação (se houver alguma) entre X e Y. Fraca? Forte? Negativa? Positiva? Linear? Não linear?

Receita e rendimento líquido (milhões) para 27 empresas escolhidas aleatoriamente


de 1.000 relacionadas pela revista Fortune  RevenueIncome

Empresa Receita Rendimento líquido


1  1.494,9  30,8
2  1.523,2 328,9
3  1.565,8  90,5
. . .
. . .
. . .
25 11.066,8 168,2
26 11.164,2 253,6
27 19.468,0 496,5
Fonte: money.cnn.com/magazines/fortune/fortune500/2006/full_list/301_400.html. Dados de 17 de abril de 2006.

3.33 Baixe o conjunto de dados completo do site do Grupo A (apenas seis valores de dados são apresen-
tados). (a) Utilize o Excel para elaborar um gráfico de dispersão, posicionando o PIB per capita
(GDP per Capita) sobre o eixo X e a Taxa de Natalidade (Birth Rate) sobre o eixo Y. Acrescente os
títulos e modifique o padrão de cores, fontes etc., ou o que julgar necessário para assegurar a eficá-
cia do seu gráfico. (b) Descreva a relação (se houver alguma) entre X e Y. Fraca? Forte? Negativa?
Positiva? Linear? Não linear?

PIB per capita e taxa de natalidade (n = 153 países)  GDPBirthRate

País PIB per capita Taxa de natalidade


Afeganistão  800 41,03
Albânia 3.800 18,59
Argélia 5.600 22,34
 . . .
 . . .
 . . .
Iêmen  820 43,30
Zâmbia  870 41,01
Zimbábue 2.450 24,59
Fonte: Central Intelligence Agency, The World Factbook, 2003, wwww.cia.gov.

03_capitulo_03.indd 101 05/08/2014 12:15:37


102    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

3.34 (a) Que tipo de gráfico é este? (b) Identifique seus pontos fortes e fracos usando as dicas e listas mos-
tradas neste capítulo. (c) Você tem alguma sugestão para melhorá-lo? Será que outro tipo de gráfico
seria melhor?  WomenPilots

Pilotos do sexo feminino


Demanda crescente

5.400
5.200
5.000
4.800
4.600
4.400
4.200
4.000
2000 2001 2002 2003 2004 2005 2006 2007

Fonte: www.faa.gov.

3.35 (a) Que tipo de gráfico é este? (b) Identifique seus pontos fortes e fracos usando as dicas e listas mos-
tradas neste capítulo. (c) Você tem alguma sugestão para melhorá-lo? Será que outro tipo de gráfico
seria melhor?  MedError

Fontes de erros médicos

Efeito colateral de drogas


Incidentes cirúrgicos
Falha do paciente
Infecções hospitalares

12 14 16 18 20 22 24 26

3.36 (a) Que tipo de gráfico é este? (b) Identifique seus pontos fortes e fracos usando as dicas e listas mos-
tradas neste capítulo. (c) Você tem alguma sugestão para melhorá-lo? Será que outro tipo de gráfico
seria melhor?  Oxnard

Rendimento líquido e vendas


de Oxnard Petro, 1993-2011
1.600
1.400 Vendas Rendimento líquido
Milhões de dólares

1.200
1.000
800
600
400
200
0
93

95

97

99

01

03

05

07

09

11
19

19

19

19

20

20

20

20

20

20

3.37 (a) Que tipo de gráfico é este? (b) Identifique seus pontos fortes e fracos usando as dicas e listas mos-
tradas neste capítulo. (c) Você tem alguma sugestão para melhorá-lo? Será que outro tipo de gráfico
seria melhor?

03_capitulo_03.indd 102 05/08/2014 12:15:38


Capítulo 3   DESCRIÇÃO VISUAL DOS DADOS   103

Principais fornecedores de óleo cru importado para os Estados Unidos:


2002 (em milhões de barris)

Importação total = 3.336


Países não membros da OPEP
Países-membros da OPEP
Noruega
127
Outros, membros da OPEP
115 Colômbia
86
Arábia Saudita
554 México
548

Venezuela
438 Canadá
527
Nigéria
215 Reino Unido
Iraque 148
168
Angola
Outros, não membros da OPEP 117
293

Fonte: Statistical Abstract of the United States, 2003.

3.38 (a) Que tipo de gráfico é este? (b) Identifique seus pontos fortes e fracos usando as dicas e listas mos-
tradas neste capítulo. (c) Você tem alguma sugestão para melhorá-lo? Será que outro tipo de gráfico
seria melhor?  BirthRate

Taxa de nascimento nos Estados Unidos Que queda!


Nascimentos por 1.000 habitantes

26
24
22
20
18
16
14
12
10
1950 1955 1960 1965 1970 1975 1980 1985 1990 1995 2000

3.39 (a) Que tipo de gráfico é este? (b) Identifique seus pontos fortes e fracos usando as dicas e listas mos-
tradas neste capítulo. (c) Você tem alguma sugestão para melhorá-lo? Será que outro tipo de gráfico
seria melhor?  Advertising

Aonde vão os dólares da propaganda?

Outro
16% Impressos
32%
Correio
(mala direta)
20%

Rádio TV
8% 24%

Fonte: Statistical Abstract of the United States, 2002, p. 772.

03_capitulo_03.indd 103 05/08/2014 12:15:38


104    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

3.40 (a) Que tipo de gráfico é este? (b) Identifique seus pontos fortes e fracos usando as dicas e listas mos-
tradas neste capítulo. (c) Você tem alguma sugestão para melhorá-lo? Será que outro tipo de gráfico
seria melhor?

Perda por incêndios nos Estados Unidos, 1980-2000


14.000

12.000

Milhões de dólares
10.000

8.000

6.000

4.000

2.000

0
1980 1990 2000

Fonte: Statistical Abstract of the United States, 2001, p. 340.

3.41 (a) Que tipo de gráfico é este? (b) Identifique seus pontos fortes e fracos usando as dicas e listas mos-
tradas neste capítulo. (c) Você tem alguma sugestão para melhorá-lo? Será que outro tipo de gráfico
seria melhor?  BankRuptcies

Falências do consumidor
nos Estados Unidos
2.500.000

2.000.000

1.500.000

1.000.000

500.000
1990 1992 1994 1996 1998 2000 2002 2004

Fonte: American Bankruptcy Institute, www.abiworld.org.

3.42 (a) Que tipo de gráfico é este? (b) Identifique seus pontos fortes e fracos usando as dicas e listas mos-
tradas neste capítulo. (c) Você tem alguma sugestão para melhorá-lo? Será que outro tipo de gráfico
seria melhor?

Vendas de aparelhos blu-ray


da Sony na loja Bob’s Mart
1.000
812
800
601
600

400

200

0
2005 2010

3.43 (a) Use o Excel para construir um tipo de gráfico adequado (barras, linhas, pizza, dispersão) para
representar os seguintes dados. Modifique o padrão de cores, fontes etc., assim como outro aspecto
que julgar apropriado para tornar o gráfico eficaz. (b) Será que mais de um tipo de representação seria
aceitável? Por quê?

03_capitulo_03.indd 104 05/08/2014 12:15:39


Capítulo 3   DESCRIÇÃO VISUAL DOS DADOS   105

Onde você comprou o seu livro de Estatística?  Textbook

Resposta Contagem
Livraria do campus 147
Livraria externa  66
Web (por exemplo, Amazon)  49
De um outro aluno   7
 Total 269
Fonte: Pesquisa de estudantes de estatística, em 2007, em duas grandes universidades públicas.

3.44 (a) Use o Excel para construir um tipo de gráfico adequado (barras, linhas, pizza, dispersão) para
representar os seguintes dados. Modifique o padrão das cores, fontes etc., assim como outro aspecto
que julgar apropriado para tornar o gráfico eficaz. (b) Será que mais de um tipo de representação seria
aceitável? Por quê?

Novas preferências de cores para carros entre os consumidores dos Estados Unidos 
CarColor

Cor Percentual
Azul  12
Verde   7
Natural  12
Vermelho  13
Prata/Cinza  24
Branco  16
Preto  13
Outra   3
  Total 100
Fonte: Detroit Auto Scene, n. 1 (2006), p. 1.

3.45 (a) Use o Excel para construir um tipo de gráfico adequado (barras, linhas, pizza, dispersão) para
representar os seguintes dados. Modifique o padrão das cores, fontes etc., ou outro aspecto que julgar
apropriado para tornar o gráfico eficaz. (b) Será que mais de um tipo de representação seria aceitável?
Por quê?

Participação no mercado interno, dez maiores companhias aéreas americanas 


AirlineMkt

Companhia Percentual
AirTran   3,3
Alaska   2,9
American  14,3
Continental   7,6
Delta  10,8
JetBlue   4,3
Northwest   6,4
Southwest  13,0
United  11,0
US Airways   8,3
Outra  18,1
  Total 100,0
Fonte: www.transtats.bts.gov. Dados de fevereiro de 2008 até janeiro de 2009. Baseado em receita de milhagem
de passageiros.

3.46 (a) Use o Excel para construir um tipo de gráfico adequado (barras, linhas, pizza, dispersão) para
representar os seguintes dados. Modifique o padrão das cores, fontes etc., assim como outro aspecto
que julgar apropriado para tornar o gráfico eficaz. (b) Será que mais de um tipo de representação seria
aceitável? Por quê?

03_capitulo_03.indd 105 05/08/2014 12:15:40


106    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

Utilização do petróleo nos Estados Unidos e no mundo (milhões de barris por dia) 
Petroleum

Utilizado 1996 1998 2000 2002 2004 2006 2007 2008 2009 2010
Nos EUA 18,3 18,9 19,7 19,8 20,7 20,7 20,7 19,5 18,8 19,3
Em outros países 53,2 55,1 57,0 58,4 61,9 64,6 65,6 66,3 65,6 67,7
Fonte: www.eia.doe.gov.

3.47 (a) Use o Excel para construir um tipo de gráfico adequado (barras, linhas, pizza, dispersão) para
representar os seguintes dados. Modifique o padrão das cores, fontes etc., assim como outro aspecto
que julgar apropriado para tornar o gráfico eficaz. (b) Será que mais de um tipo de representação seria
aceitável? Por quê?

Despesas de operação por local/milha nas companhias aéreas americanas (centavos) 


SeatMile

Transportador Custo Transportador Custo


AirTran 10,9 JetBlue  9,5
Alaska 13,1 Northwest 16,0
Allegiant  9,6 Southwest  9,7
American 14,4 Spirit  9,8
Continental 14,9 United 14,9
Delta 16,5 US Airways 17,0
Frontier 12,0
Fonte: Bureau of Transportation Statistics, Formulário 41, Plano P1.2. Dados são para o IQ 2008.

3.48 (a) Use o Excel para construir um tipo de gráfico adequado (barras, linhas, pizza, dispersão) para
representar os seguintes dados. Modifique o padrão das cores, fontes etc., assim como outro aspecto
que julgar apropriado para tornar o gráfico eficaz. (b) Será que mais de um tipo de representação seria
aceitável? Por quê?

Motoristas habilitados e acidentes fatais nos Estados Unidos  Fatal

Faixa etária Percentual de motoristas Percentual de acidentes fatais


15-19   4,7  11,0
20-24   8,5  14,3
25-34  18,2  18,1
35-44  20,5  16,5
45-54  19,7  15,6
55-64  13,8   9,8
65-74   8,2   6,3
75 ou mais   6,4   8,4
 Total 100,0 100,0
Fonte: Statistical Abstract of the United States, 2007, p. 696.

3.49 (a) Use o Excel para construir um tipo de gráfico adequado (barras, linhas, pizza, dispersão) para
representar os seguintes dados. Modifique o padrão das cores, fontes etc., assim como outro aspecto
que julgar apropriado para tornar o gráfico eficaz. (b) Será que mais de um tipo de representação seria
aceitável? Por quê?

Participação no mercado norte-americano das ferramentas de busca  WebSearch

Ferramentas de busca Percentual


Google  45,4
Yahoo  28,2
Microsoft  11,7
Ask   5,8
AOL/Time Warner   5,4
Todas as outras   3,5
  Total 100,0
Fonte: The New York Times, 4 de dezembro de 2006, p. C1.

03_capitulo_03.indd 106 05/08/2014 12:15:40


Capítulo 3   DESCRIÇÃO VISUAL DOS DADOS   107

3.50 (a) Use o Excel para construir um tipo de gráfico adequado (barras, linhas, pizza, dispersão) para
representar os seguintes dados. Modifique o padrão de cores, fontes etc., assim como outro aspecto
que julgar apropriado para tornar o gráfico eficaz. (b) Será que mais de um tipo de representação seria
aceitável? Por quê?

Consumo de energia nos Estados Unidos em 2010 por fonte  Energy

Fonte Quad BTU Percentual


Petróleo 37,06 38,4%
Gás natural 23,15 24,0%
Carvão 20,49 21,2%
Energia nuclear  8,52  8,8%
Renováveis  7,17  7,4%
Outros  0,21  0,2%
 Total 96,60 100,0%
Fonte: Statistical Abstract of the United States, 2011, p. 583.

3.51 (a) Utilize o Excel para elaborar um gráfico de Pareto dos seguintes dados. (b) Quais são os três pres-
tadores de serviço da lista abaixo que geram aproximadamente 80% de todas as respostas? (Fonte:
Pesquisa na web entre 158 estudantes de Estatística).

Prestador de serviço de telefonia celular (2007) n = 158  CellPhone

Prestador de serviço Percentual Percentual cumulativo


Verizon 37,3  37,3
Cingular 29,7  67,1
T-Mobile 13,3  80,4
Sprint  8,9  89,2
Other  4,4  93,7
Nextel  3,2  96,8
Alltel  2,5  99,4
Virgin  0,6 100,0

FAÇA VOCÊ MESMO


3.52 (a) Selecione um exemplo de uma apresentação visual de dados traiçoeira de uma revista recente ou
de um jornal (caso seja de uma biblioteca, tire uma cópia). Tente escolher um exemplo ultrajante
que viole diversos princípios dos gráficos ideais. (b) Cite a fonte exata de onde foi extraído o exem-
plo. (c) Qual é o seu propósito presumido? (d) Elabore uma breve avaliação crítica dos seus pontos
fortes e fracos. Não deixe de juntar o recorte original (ou uma cópia de boa qualidade) para a sua
análise.

Tabelas e Gráficos Leituras


Cleveland, William S. The Elements of Graphing Data. Hobart Press, 1994.
relacionadas
Cleveland, William S. Visualizing Data. Hobart Press, 1993.
Huff, Darrell; and Irving Geiss. How to Lie with Statistics. W. W. Norton, 1954.
Jones, Gerald E. How to Lie with Charts. Sybex, 1995.
Monmonier, Mark. How to Lie with Maps. University of Chicago Press, 1996.
Tufte, Edward R. The Visual Display of Quantitative Information. 2nd ed. Graphics Press, 2004.
Wilkinson, Leland. The Grammar of Graphics. Springer, 2005.
Wong, Dona M. The Wall Street Journal Guide to Information Graphics: The Dos and Don’ts of Presenting
Data, Facts, and Figures. W. W. Norton, 2010.
Zelazny, Gene. Say It with Charts: The Executive’s Guide to Visual Communication. Irwin Professional
Publishers, 1995.

03_capitulo_03.indd 107 05/08/2014 12:15:40


108    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

CAPÍTULO 3  Recursos de Aprendizagem Online


www.grupoa.com.br

Depois de cadastrado no site do Grupo A (www.grupoa.com.br), procure pela página deste livro
e clique no ícone de Conteúdo Online para ter acesso a diversas demonstrações do Learning
Stats (em inglês). Seu professor poderá recomendar algumas delas ou você poderá fazer o
down­load daquelas que julgar mais interessantes.

Tópicos Conteúdo
Representações visuais efetivas   Apresentando os dados I
  Apresentando os dados II
  Gráficos de análise de dados exploratória
Como fazer um gráfico no Excel   Gráficos do Excel: passo a passo
  Tabelas Pivot: passo a passo
  Usando o MegaStat
  Tabelas Excel: histogramas
  Usando MINITAB
Aplicações   Dados bimodais
  Regra de Sturges
  Gráfico ramo-e-folhas
Guias de tela
  Excel básico
  Realização de histogramas em Excel
  Realização de gráficos de dispersão

Legenda:  = PowerPoint   = PDF   = Excel   = Guias de tela

O MegaStat para Excel de J. B. Orris da Butler University é um recurso adicional da Excel, que
pode ser baixado a partir do site da McGraw-Hill ou em livrarias online para ser instalado no
seu próprio computador. A configuração lhe dará a orientação necessária para o processo de

03_capitulo_03.indd 108 05/08/2014 12:15:41


Capítulo 3   DESCRIÇÃO VISUAL DOS DADOS   109

instalação. O MegaStat vai além das funções estatísticas padrões do Excel e oferece uma vasta
gama de ferramentas estatísticas para ajudá-lo a analisar os dados, criar gráficos e realizar
cálculos. Os exemplos do MegaStat são apresentados ao longo deste livro.

Após instalar o MegaStat, você verá o ícone MegaStat aparecer do lado esquerdo da tela
quando clicar na barra Add-Ins no menu de opções no topo da tela (do lado direito na ilus-
tração acima). Caso isto não ocorra, clique em File no canto esquerdo superior. Clique em
Options > Add Ins > Manage Excel Add-Ins > Go e verifique a caixa denominada MegaStat.

03_capitulo_03.indd 109 05/08/2014 12:15:41


CAPÍTULO 4

ESTATÍSTICA DESCRITIVA

Conteúdo

4.1 Descrição numérica


4.2 Medidas de tendência central
4.3 Medidas de dispersão
4.4 Dados padronizados
4.5 Percentis, quartis e box-plots
4.6 Correlação e covariância
4.7 Dados agrupados
4.8 Assimetria e curtose

Objetivos de aprendizagem

OA 4-1 Explicar os conceitos de tendência central, dispersão e forma.


OA 4-2 Utilizar o Excel para obter estatísticas descritivas e representações
visuais.
OA 4-3 Calcular e interpretar medidas de tendência central.
OA 4-4 Calcular e interpretar medidas de dispersão.
OA 4-5 Transformar um conjunto de dados em valores padronizados.
OA 4-6 Aplicar a regra empírica e identificar valores discrepantes.
OA 4-7 Calcular quartis e outros percentis.
OA 4-8 Construir e interpretar box-plots.
OA 4-9 Calcular e interpretar um coeficiente de correlação e a covariância.
OA 4-10 Calcular média e desvio padrão de dados agrupados.
OA 4-11 Explicar os conceitos de assimetria e curtose.

110

04_capitulo_04.indd 110 05/08/2014 12:18:05


O Capítulo 3 tratou de descrições visuais dos dados (por exemplo, histogramas, gráficos de 4.1
pontos e gráficos de dispersão). Este capítulo trata da descrição numérica dos dados. As medi-
das descritivas derivadas de uma amostra (n itens) são denominadas estatísticas, ao passo que DESCRIÇÃO
para uma população (N itens ou um número infinito de itens) são chamadas parâmetros. Da
mesma forma que na descrição visual, a descrição numérica possui três características-chave: NUMÉRICA
tendência central, dispersão e forma. A Tabela 4.1 resume as questões que serão feitas acerca
dos dados.

Característica Interpretação TABELA 4.1


Tendência central Onde os dados estão concentrados? Quais são, aparentemente, os valores Características de
típicos ou centrais dos dados? Existe tendência central? dados numéricos
Variabilidade Quanta dispersão existe nos dados? Como os dados estão espalhados? Existem
dados incomuns? OA 4-1
Forma Os dados estão distribuídos de forma simétrica? Assimétrica? Existe um pico Explicar os conceitos
pronunciado? Achatado? Bimodal? de tendência central,
dispersão e forma.

EXEMPLO 4.1
Qualidade de veículo
Todo ano, a J.D. Power & Associados divulga sua classificação de qualidade de veículos.
Essas classificações são do interesse de consumidores, vendedores e fabricantes. A Tabela
4.2 mostra a taxa de defeitos para 33 marcas de veículos. Demonstraremos como estatísticas
numéricas podem ser utilizadas para resumir um conjunto de dados como este. As marcas
representadas são uma amostra aleatória que usaremos para ilustrar certos cálculos.
TABELA 4.2  Número de defeitos por 100 veículos  JDPower
Marca Nº de defeitos Marca Nº de defeitos Marca Nº de defeitos
Acura  86 Hyundai 102 MINI 133
Audi 111 Infiniti 107 Mitsubishi 146
BMW 113 Jaguar 130 Nissan 111
Buick 114 Jeep 129 Porsche  83
Cadillac 111 Kia 126 Ram 110
Chevrolet 111 Land Rover 170 Scion 114
Chrysler 122 Lexus  88 Suburu 121
Dodge 130 Lincoln 106 Suzuki 122
Ford  93 Mazda 114 Toyota 117
GMC 126 Mercedes-Benz  87 Volkswagen 135
Honda  95 Mercury 113 Volvo 109
Fonte: J.D. Power & Associates, 2010, Initial Quality StudyTM. Utilizado com permissão. Classificações com
finalidade educacional apenas, não devem ser usadas como um guia para decisões do consumidor. 111

04_capitulo_04.indd 111 05/08/2014 12:18:06


112    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

Análise preliminar 
Antes de calcular qualquer estatística, devemos levar em conta como os dados foram coletados.
Uma busca na Web revela que a J.D. Power & Associados é uma companhia bem estabelecida e
independente cujos métodos são considerados objetivos. Dados sobre defeitos são obtidos por ins-
peções em veículos escolhidos de forma aleatória para cada marca, contando os defeitos e dividindo
o número deles pelo número de veículos inspecionados. A J.D. Power multiplica o resultado por 100
para obter o número de defeitos por 100 veículos, arredondando para o inteiro mais próximo. Entre-
tanto, a escala de medida é contínua (por exemplo, se quatro defeitos fossem encontrados em três
veículos, a taxa de defeitos seria 1,333333, ou 133 defeitos por 100 veículos). As taxas de defeitos
podem variar de ano para ano, e até mesmo para um certo ano de modelo, assim como o momento
de realização do estudo pode afetar os resultados. Uma vez que a análise se baseia em amostragem,
devemos levar em conta a possibilidade de erro amostral. Com esses cuidados em mente, olhamos
para os dados. O primeiro passo é ordená-los, conforme apresentado na Tabela 4.3.

TABELA 4.3 Marca Nº de defeitos Marca Nº de defeitos Marca Nº de defeitos


Número de defeitos por Porsche  83 Audi 111 Chrysler 122
100 veículos (ordenados Acura  86 Cadillac 111 Suzuki 122
do menor para o maior) 
Mercedes-Benz  87 Chevrolet 111 GMC 126
JDPower
Lexus  88 Nissan 111 Kia 126
Ford  93 BMW 113 Jeep 129
Honda  95 Mercury 113 Dodge 130
Hyundai 102 Buick 114 Jaguar 130
Lincoln 106 Mazda 114 MINI 133
Infiniti 107 Scion 114 Volkswagen 135
Volvo 109 Toyota 117 Mitsubishi 146
Ram 110 Suburu 121 Land Rover 170

Os dados na Tabela 4.3 fornecem uma ideia de tendência e variabilidade. Os valores variam
de 83 (Porsche) a 170 (Land Rover), enquanto os valores centrais, em sua maioria, estão entre 110
e 120. O gráfico de dispersão na Figura 4.1 revela detalhes adicionais, por exemplo, um valor
incomum (170).

FIGURA 4.1
Diagrama de pontos dos
dados de J.D. Power (n = 33) 
JDPower 80 90 100 110 120 130 140 150 160 170
Defeitos por 100 veículos

Exceto para o caso de amostras pequenas, a ordenação seria feita no Excel, como ilustrado na
Figura 4.2. No Excel, demarque a sequência de dados (incluindo os cabeçalhos) e clique, na bar-
ra de menu, no comando Sort > Custom Sort, escolha a coluna para ordenar e clique OK.
O próximo passo é construir um histograma, conforme mostrado na Figura 4.3. A classe mo-
dal (frequência maior) está entre 100 e 120 e revela a tendência central. A forma do histograma
é assimétrica à direita.

4.2 Quando falamos em tendência central, estamos tentando descrever o valor do meio ou os va-
lores típicos de uma distribuição. Você pode avaliar a tendência central de forma geral a partir
MEDIDAS DE de um gráfico de pontos ou histograma, mas estatísticas numéricas fornecem afirmações mais
TENDÊNCIA precisas. A Tabela 4.4 lista seis medidas comuns de tendência central. Cada uma delas tem
vantagens e desvantagens. Precisamos olhar para várias medidas para ter uma ideia clara a
CENTRAL
respeito­da tendência central.

04_capitulo_04.indd 112 05/08/2014 12:18:07


Capítulo 4   ESTATÍSTICA DESCRITIVA   113

FIGURA 4.2
Ordenando dados no Excel 
JDPower

OA 4-2
Utilizar o Excel para obter
estatísticas descritivas
e representações visuais.

16
FIGURA 4.3
14 Histograma para os dados
12
da J.D. Power (n = 33)
  JDPower
Frequência

10
8
6
4
2
0
80 100 120 140 160 180
Defeitos por 100 veículos

TABELA 4.4  Seis medidas de tendência central


Estatística Fórmula Fórmula no Excel Prós Contras
Média 1 n =AVERAGE(Data) Medida familiar e usa toda a Influenciada por valores
∑x
n i =1 i informação da amostra. extremos.

Mediana Valor do meio dos valores =MEDIAN(Data) Medida robusta a valores Ignora valores extremos e
ordenados extremos nos dados. pode ser afetada por lacunas
nos valores dos dados.
Moda* Valor dos dados que ocorre =MODE.SNGL(Data) Útil para dados por atributo ou Pode não ser única e não é
com maior frequência dados discretos com um útil para dados contínuos.
intervalo de variação pequeno.
Semiamplitude xmin + xmax =0.5*(MIN(Data) Fácil de entender e de calcular. Influenciada por valores
+MAX(Data)) extremos e ignora a maioria
2 dos valores dos dados.
Média n x1x2  x n =GEOMEAN(Data) Útil para taxas de crescimento Menos familiar e requer
geométrica (G) e atenua a influência de dados com valores positivos.
valores extremos altos.
Média aparada Similar à média, exceto =TRIMMEAN Atenua o efeito de valores Exclui alguns valores que
por omitir o maior e o (Data,Percent) extremos. poderiam ser relevantes.
menor k% dos valores dos
dados (por exemplo, 5%)
*  Equivalente a =MODE(Data) em versões anteriores do Excel (veja Apêndice J para maiores discussões).

04_capitulo_04.indd 113 05/08/2014 12:18:08


114    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

OA 4-3 Média 
Calcular e interpretar medidas A medida de tendência central mais familiar é a média. Ela é a soma dos valores dos dados divi-
de tendência central.
dida pelo número de itens. Para uma população, ela é denotada por µ, e, para uma amostra, por x.
Usamos a Equação 4.1 para calcular a média de uma população:
N
∑ xi
(4.1) µ= i =1
(definição para a população)
N

Uma vez que raramente lidamos com populações, a notação, em termos de quantidades, da
amostra apresentada na Equação 4.2 é mais comumente vista:
n
∑ xi
(4.2) x= i =1
(definição para uma amostra)
n

Podemos calcular a média por meio da função do Excel =AVERAGE(Data), sendo Data uma se-
quência que contém os dados. Assim, para a amostra de n = 33 marcas de automóveis:
n
∑ xi
i =1 83 + 86 + 87 + ... + 135 + 146 + 170 3.785
x = = = = 114, 697
n 33 33

Características da média 
A média aritmética é uma “média” com a qual a maioria de nós está familiarizada. A média é
afetada por todo item da amostra. Ela é o ponto de equilíbrio ou o centro de massa (ou, ainda, o
centro de gravidade) da distribuição se consideramos o eixo X uma barra de equilíbrio e cada
item dos dados um peso físico, conforme ilustrado na Figura 4.4 para os dados da J.D. Power.

FIGURA 4.4
A média como centro de
gravidade (n = 33 veículos)
JDPower 80 90 100 110 120 130 140 150 160 170

A média é o ponto de equilíbrio porque tem a propriedade de que as distâncias da média para
cada ponto dos dados sempre somam zero:
n
(4.3) ∑ ( xi − x ) = 0
i=1

Essa afirmação é sempre verdadeira para qualquer amostra ou população, independentemente


de sua forma (simétrica, assimétrica, bimodal etc.). Mesmo quando existem valores extremos, as
distâncias abaixo da média são exatamente contrabalanceadas pelas distâncias acima da média.
Por exemplo, os pontos obtidos por Bob em 5 provas foram 42, 60, 70, 75 e 78. Sua média é
puxada para baixo, para 65, em razão, principalmente, de seu baixo desempenho em uma das
provas, como ilustrado na Figura 4.5. Apesar de os dados se apresentarem de forma assimétrica,
as 3 notas acima da média contrabalanceiam exatamente as duas notas abaixo da média:
n
∑ ( xi − x) = (42 − 65) + (60 − 65) + (70 − 65) + (75 − 65) + (78 − 65)
i =1
= (−23) + (−5) + (5) + (10) + (13) = −28 + 28 = 0

FIGURA 4.5
Notas de Bob em provas
(n = 5 provas)

40 50 60 70 80

04_capitulo_04.indd 114 05/08/2014 12:18:10


Capítulo 4   ESTATÍSTICA DESCRITIVA   115

Mediana 
A mediana (denotada por M) é o 50º percentil ou ponto central do conjunto de dados amos-
trais ordenados x1, x2, . . ., xn. Ela separa a metade superior e a metade inferior das observações
ordenadas:
Mediana

50% Inferiores 50% Superiores

A mediana é a observação do meio em uma sequência ordenada se n for um número ímpar, mas
é a média das duas observações centrais se n for um número par, conforme ilustrado na Figura 4.6.

Mediana FIGURA 4.6


Ilustração da mediana

n Par

Mediana

n Ímpar

 Observações menores que a mediana  Observações maiores que a mediana

Por exemplo, se temos um valor de n par, digamos, n = 6, então a mediana está a meio cami-
nho entre a terceira e a quarta observação em uma sequência ordenada: M = (x3 + x4)/2 = (15 +
17)/2 = 16.
Mediana

11 12 15 17 21 32

Analogamente, para um valor ímpar de n, digamos n = 7, a mediana é a quarta observação da


sequência ordenada: M = x4 = 25.
Mediana

12 23 23 25 27 34 41

É tentador imaginar que metade das observações seja menor do que a mediana, mas este não
é necessariamente o caso. Por exemplo, aqui temos 11 notas de exames em ordem ascendente:
Mediana

51 66 71 78 78 78 81 82 82 91 99

Sua mediana é 78. Entretanto, somente três valores distintos estão abaixo de 78, ao passo que
cinco valores estão acima de 78. Essa mediana não fornece uma “divisão 50-50” clara para os
dados, porque existem várias notas de exame idênticas agrupadas no meio da distribuição. Essa
situação não é difícil de ser encontrada. De fato, podemos esperá-la quando existir uma forte
tendência central em um conjunto de dados.
A função Excel para a mediana é =MEDIAN(Data), em que Data representa o vetor de dados.
Para os dados dos 33 veículos (n ímpar) a mediana é a 17ª observação (16 abaixo e 16 acima), que
é x17 = 113. Entretanto, você pode notar que o número 113 ocorre duas vezes, e isso significa que
não podemos ter uma divisão exata de duas partes de “50-50” nos dados.

04_capitulo_04.indd 115 05/08/2014 12:18:11


116    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

A mediana é especialmente útil quando existem valores extremos. Por exemplo, estatísticas
governamentais usam a renda mediana, porque poucas rendas muito altas iriam tornar a média
um valor atípico. A falta de sensitividade da mediana com relação a valores extremos pode ser
vantajosa ou não, dependendo de seu ponto de vista. Considere as notas de três estudantes em
cinco provas:
Notas de Tom: 20, 40, 70, 75, 80 Média = 57, Mediana = 70
Notas de Jake: 60, 65, 70, 90, 95 Média = 76, Mediana = 70
Notas de Mary: 50, 65, 70, 75, 90 Média = 70, Mediana = 70
Cada estudante tem a mesma nota mediana (70). Tom, cuja média é deslocada para baixo por
algumas poucas notas, preferiria ter sua nota final baseada na mediana. Jake, cuja média é deslo-
cada para cima por algumas poucas notas, preferiria a média. Mary é indiferente, uma vez que
suas medidas de tendência central são concordantes (ela tem notas simétricas).
A mediana não tem algumas das propriedades matemáticas úteis da média. Por exemplo, se
multiplicarmos a média pelo tamanho da amostra, sempre obteremos a soma total dos valores.
Mas isso não é verdade para a mediana. Por exemplo, o total de pontos de Tom nas cinco provas
(285) é o produto do tamanho da amostra vezes sua média (5 × 57 = 285). Isso não é verdade
para sua mediana (5 × 70 = 350). Essa é uma das razões pelas quais os professores tendem a
basear as notas finais do semestre na média. Caso contrário, as notas menores e as notas maiores
não “contariam”.

Moda 
A moda é o valor com maior frequência de ocorrência nos dados. Ela pode ser similar à média e
à mediana, se os valores perto do centro da sequência ordenada tendem a ocorrer várias vezes.
Mas também pode ser bem diferente da média e da mediana. Um conjunto de dados pode ter
múltiplas modas ou mesmo ausência de moda. Por exemplo, considere os pontos obtidos por
quatro estudantes em cinco provas:
Pontuação de Lee: 60, 70, 70, 70, 80 Média = 70, Mediana = 70, Moda = 70
Pontuação de Pat: 45, 45, 70, 90, 100 Média = 70, Mediana = 70, Moda = 45
Pontuação de Sam: 50, 60, 70, 80, 90 Média = 70, Mediana = 70, Moda = nenhuma
Pontuação de Xiao: 50, 50, 70, 90, 90 Média = 70, Mediana = 70, Modas = 50, 90
Cada estudante tem as mesmas média (70) e mediana (70). A moda de Lee (70) é a mesma que
sua média e mediana, mas a moda de Pat (45) está longe do “meio”. Sam não tem moda, ao passo
que Xiao tem duas (50, 90). Esses exemplos ilustram algumas peculiaridades da moda.
A moda é fácil de definir, mas difícil de ser calculada (exceto em amostras muito pequenas),
porque requer a tabulação da frequência de ocorrência de todos os valores distintos dos dados.
Por exemplo, a amostra de n = 33 marcas tem uma moda única em 111 (ocorre quatro vezes),
embora alguns outros valores também tenham múltiplas ocorrências.

83 86 87 88 93 95 102 106 107 109 110

111 111 111 111 113 113 114 114 114 117 121

122 122 126 126 129 130 130 133 135 146 170

A função do Excel =MODE.SNGL(Data) retornará #N/A se não existir uma moda. Se existirem
múltiplas modas, =MODE.SNGL(Data) retornará a primeira que encontrar. Às vezes, a moda en-
contra-se distante do “meio” da distribuição e pode não ser “típica”. Para dados contínuos, a
moda não é útil, de modo geral, porque raramente ocorrem repetições de valores. Para avaliar a
tendência central em dados contínuos, consideraremos a média ou a mediana. Mas a moda é
uma boa medida para descrever a tendência central em um atributo como sexo (masculino, femi-
nino) ou carreira da faculdade (contabilidade, finanças etc.). Na verdade, a moda é a única medi-
da de tendência central útil para dados por atributos. Ela também é útil para descrever uma variá­
vel discreta com um pequeno intervalo de variação (por exemplo, respostas em uma escala Likert
de 5 pontos).

04_capitulo_04.indd 116 05/08/2014 12:18:12


Capítulo 4   ESTATÍSTICA DESCRITIVA   117

Sugestão 
A moda é normalmente utilizada para dados discretos, ou por atributos, com pou-
cos valores distintos. Para dados contínuos, ou dados com ampla gama de classifi-
cações, ela raramente é utilizada.

Dois exemplos da moda  A Figura 4.7 mostra índices P/R (preços de ações correntes di-
vididos pela rentabilidade dos últimos 12 meses) para uma amostra aleatória de 44 ações da
Standard & Poor’s 500 (ver Capítulo 3, Tabela 3.2). Apesar de os índices P/R serem dados contí-
nuos, o The Wall Street Journal aproxima os dados para o inteiro mais próximo.

FIGURA 4.7
Gráfico de pontos para os
índices P/R (n = 44 ações) 
0 10 20 30 40 50 60 70 PERatios
Índices P/R

Para essas 44 observações, há modas em 10 e 16 (cada uma delas ocorre quatro vezes), suge-
rindo que são, de certo modo, índices P/R “típicos”. Entretanto, 11 e 13 ocorrem três vezes, suge-
rindo que a moda não é uma medida robusta de tendência central para esse conjunto de dados.
Quer dizer, suspeitamos que essas modas, seriam de baixa probabilidade de recorrência se extra-
íssemos uma amostra diferente de 44 ações.
Podemos pensar em uma razão lógica para a existência das modas. Por exemplo, os pontos ob-
tidos pelos times vencedores de futebol norte-americano universitário em dado sábado tendem a ter
modas como múltiplos de 7 (por exemplo, 7, 14, 21 etc.) porque cada touchdown vale 7 pontos
(contando o ponto extra). Outras minimodas na pontuação do futebol refletem combinações de
eventos que valem pontos comumente encontrados. A Figura 4.8 mostra um gráfico de pontos dos
pontos obtidos pelo time vencedor nos primeiros 95 campeonatos do Rose Bowl (um dos jogos teve
empate sem pontos). A moda é 14, mas existem várias outras modas locais. Se você é um fã do fu-
tebol norte-americano, pode deduzir, por exemplo, o porquê de 20 pontos ocorrerem tantas vezes.

FIGURA 4.8
Gráfico de pontos dos pontos
dos vencedores do Rose
Bowl (n = 95 jogos) 
RoseBowl
0 10 20 30 40 50
Pontuação do vencedor

Uma distribuição bimodal ou uma distribuição multimodal ocorre quando populações dife-
rentes são combinadas em uma única amostra. Por exemplo, se as alturas de 500 homens adultos
forem combinadas com as alturas de 500 mulheres adultas em uma única amostra de 1.000 adul-
tos, iremos obter alguma coisa como o segundo polígono da Figura 4.9.

FIGURA 4.9
Polígonos de frequência da altura de 1.000 homens e mulheres  Heights

Separados por gênero Gêneros combinados


80 90
70 80
Mulheres Homens 70
60
60
Frequência

Frequência

50
50
40
40
30
30
20 20
10 10
0 0
145 150 155 160 165 170 175 180 185 190 195 145 150 155 160 165 170 175 180 185 190 195
Altura (cm) Altura (cm)

04_capitulo_04.indd 117 05/08/2014 12:18:13


118    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

Nesse caso, a média de todos os mil adultos não representaria a tendência central para cada
um dos sexos. Quando se sabe que existe heterogeneidade, o melhor é criar histogramas separa-
dos e analisar cada grupo de forma isolada. Infelizmente, nem sempre podemos saber quando
populações heterogêneas foram combinadas em uma única amostra.

Forma 
OA 4-1 A forma de distribuição pode ser avaliada olhando-se para o histograma ou comparando-se a
Explicar os conceitos de média com a mediana. Para dados simétricos, a média e a mediana são aproximadamente
tendência central, dispersão iguais. Quando os dados são assimétricos à direita (ou positivamente assimétricos), a média
e forma.
excede a mediana. Quando são assimétricos à esquerda (ou negativamente assimétricos), a
média situa-se abaixo da mediana. A Figura 4.10 mostra protótipos de formas de assimetria de
distribuições.

FIGURA 4.10
Protótipos de assimetria de distribuições

Assimétrica à esquerda Simétrica Assimétrica à direita

Média  Mediana  Moda


ed ia

M a
a

M oda

M na
ia
n
od
M éd

éd
ia

ia
M
M

ed
A Tabela 4.5 resume os sintomas de assimetria em uma amostra. Uma vez que poucos con-
juntos de dados são exatamente simétricos, a assimetria é uma questão de grau. Em razão da
natureza aleatória da amostra, a média e a mediana podem diferir, mesmo que uma população
simétrica tenha sido amostrada. Pequenas diferenças entre a média e a mediana podem não indi-
car uma assimetria significante e não têm importância prática.

TABELA 4.5 Forma da distribuição Aparência do histograma Estatística


Sintomas de assimetria Assimétrica à esquerda A cauda longa do histograma aponta para a Média < Mediana
(assimetria negativa) esquerda (uns poucos valores baixos e a maioria
dos dados concentrados à direita)
Simétrica Caudas do histograma equilibradas Média ≈ Mediana
(valores baixos/altos balanceados)
Simétrica à direita A cauda longa do histograma aponta para a Média > Mediana
(assimetria positiva) direita (maioria dos dados concentrados à
esquerda e poucos valores altos)

Por exemplo, na Figura 4.11 a média gasta por cliente nas 74 unidades da Noodles & Com-
pany parece ser levemente assimétrica à direita; dessa forma, esperamos que a média exceda a
mediana. Na verdade, a diferença é sutil (utilizando os dados brutos da planilha, a média é de
US$ 7,04 e a mediana é de US$ 7,00). O histograma das notas dos alunos, nos exames, na Fi-
gura 4.11, parece apresentar assimetria à esquerda; assim, esperamos que a média seja menor
do que a mediana. Novamente, a diferença é mínima (utilizando os dados brutos da planilha, a
média é de 3,17 e a mediana é de 3,20). Como a aparência de um histograma é afetada pela
maneira como seus blocos são estabelecidos, a sua forma apenas nos dá ideia da assimetria.
Para a amostra de classificação de qualidade da J.D. Power, a média (114,17) excede a media-
na (113), sugerindo assimetria à direita. Entretanto, essa pequena diferença entre a média e a
mediana pode não ter importância prática, e o histograma na Figura 4.3 sugere que a assimetria
é mínima. Na Seção 4.8, serão introduzidos testes mais precisos para verificar assimetrias.

04_capitulo_04.indd 118 05/08/2014 12:18:13


Capítulo 4   ESTATÍSTICA DESCRITIVA   119

FIGURA 4.11
Histogramas para ilustrar a assimetria

Assimetria à direita Noodles1 Assimetria à esquerda GPA Survey

Gastos em 74 restaurantes Noodles Notas em exames de 158 alunos de estatística


35 40
30
25 30
Frequência

Frequência
20
20
15
10 10
5
0 0
6,40 6,65 6,90 7,15 7,40 7,65 7,90 8,15 1,5 2,0 2,5 3,0 3,5 4,0
Gasto médio por cliente Notas do semestre anterior

Dados empresariais tendem a ser assimétricos à direita porque variáveis financeiras frequen-
temente não são limitadas superiormente, mas abaixo, por zero (por exemplo, salários, funcioná-
rios, estoques). Isso também é verdade para dados de engenharia (por exemplo, tempo até a falha,
taxa de defeitos) e esportes (por exemplo, pontos em futebol). Mesmo em uma escala Likert (1, 2,
3, 4, 5), algumas poucas respostas na cauda oposta podem causar assimetria se muitas réplicas
estiverem concentradas em direção ao topo ou à base da escala.

Estatística descritiva em Excel 


Conforme apresentado na Figura 4.12, selecione a aba Data e clique sobre o ícone Data Analysis OA 4-2
(do lado direito do menu superior). Quando aparecer a opção Data Analysis, opção Descriptive Utilizar o Excel para obter
Statistics. Sobre a opção Descriptive Statistics, clique em qualquer lugar no campo Input Range e estatísticas descritivas
demarque o bloco de dados (neste caso C4:C37). Especifique uma célula de destino para o canto e representações visuais.
esquerdo superior do campo de saída de dados (célula K1 neste exemplo). Note que assinalamos
Labels in first row, já que a célula C4 é, na verdade, o cabeçalho que será usado para rotular a
saída de dados na célula K1. Verifique a caixa de Summary Statistics e dê um OK. As estatísticas
resultantes são exibidas na Figura 4.12. Você provavelmente reconhecerá algumas (por exemplo,
média (mean), mediana (median), moda (mode), e as demais serão abordadas posteriormente
neste capítulo.

FIGURA 4.12
Análise de dados e estatística
descritiva usando o Excel
  JDPower

Nota: Se a caixa Data Analysis não


aparecer do lado direito superior
da aba Data, clique em File e, no
canto esquerdo superior, selecione
Add-Ins e depois Analysis ToolPak.

04_capitulo_04.indd 119 05/08/2014 12:18:14


120    ESTATÍSTICA APLICADA À ADMINISTRAÇÃO E ECONOMIA

Estatística descritiva usando o MegaStat 


Você poderá obter estatísticas similares (e outras mais) a partir do MegaStat, conforme ilustra-
do na Figura 4.13. Clique em Add-Ins no menu superior, e clique sobre o ícone MegaStat (do