É formado em Engenharia Mecânica pela Faculdade de Engenharia Industrial (FEI), tendo exercido a profissão por
mais de trinta anos em empresas de porte médio e grande nas funções de gerente e diretor na área de engenharia
de produção. Simultaneamente tem exercido o magistério superior há cerca de trinta anos, ministrando disciplinas
ligadas às ciências exatas e à administração da produção. É pós-graduado em Docência do ensino superior. Na UNIP é
professor desde 1993, acumulando a coordenação de curso e tendo escrito os livros-textos de Estatística; Estatística
Aplicada e Pesquisa Operacional usados no curso de Administração, modalidade EaD.
CDU 519.2
U510.44 – 21
© Todos os direitos reservados. Nenhuma parte desta obra pode ser reproduzida ou transmitida por qualquer forma e/ou
quaisquer meios (eletrônico, incluindo fotocópia e gravação) ou arquivada em qualquer sistema ou banco de dados sem
permissão escrita da Universidade Paulista.
Prof. Dr. João Carlos Di Genio
Reitor
Comissão editorial:
Dra. Angélica L. Carlini (UNIP)
Dr. Ivan Dias da Motta (CESUMAR)
Dra. Kátia Mosorov Alonso (UFMT)
Apoio:
Profa. Cláudia Regina Baptista – EaD
Profa. Deise Alcantara Carreiro – Comissão de Qualificação e Avaliação de Cursos
Projeto gráfico:
Prof. Alexandre Ponzetto
Revisão:
Vera Saad
Vitor Andrade
Sumário
Estatística
APRESENTAÇÃO.......................................................................................................................................................7
INTRODUÇÃO............................................................................................................................................................7
Unidade I
1 O QUE É E COMO SE APLICA A ESTATÍSTICA NA ÁREA DE NEGÓCIOS...........................................9
1.1 Definição de estatística..........................................................................................................................9
1.2 Utilização prática da estatística na área de negócios............................................................ 11
1.3 Estatística como ferramenta para tomada de decisão: problemas dotados
de incerteza e redução de riscos............................................................................................................ 12
1.4 Diferenciação entre estatística descritiva e indutiva e suas relações.............................. 13
1.5 Campos de atuação da estatística descritiva e indutiva....................................................... 14
1.6 Processo estatístico.............................................................................................................................. 16
1.7 Conceitos de população e amostra e aplicação dos conceitos na área
de negócios..................................................................................................................................................... 16
1.8 Definição de variáveis qualitativas e quantitativas, discretas e contínuas................... 20
1.9 Relações entre amostras e população.......................................................................................... 22
1.10 Amostragem, predição, valores reais e prováveis.................................................................. 23
2 ESTATÍSTICA DESCRITIVA – FUNDAMENTOS.......................................................................................... 26
2.1 Definições de medidas estatísticas como forma de previsão............................................. 26
2.2 Definição e cálculo............................................................................................................................... 26
2.2.1 Coleta de dados........................................................................................................................................ 26
2.2.2 Tabela de dados brutos.......................................................................................................................... 26
2.2.3 Frequência simples e frequências decorrentes............................................................................ 30
2.2.4 Montagem de tabela de frequências............................................................................................... 31
2.2.5 Representação gráfica e interpretações das frequências calculadas:
histogramas; setogramas e ogivas acumuladas..................................................................................... 45
3 ESTATÍSTICA DESCRITIVA – MEDIDAS ESTATÍSTICAS.......................................................................... 64
3.1 Conceitos, cálculos e aplicações práticas de medidas de tendência:
média simples, médias ponderadas, mediana e moda, quartis e percentis.......................... 64
3.1.1 Médias.......................................................................................................................................................... 65
3.1.2 Separatrizes................................................................................................................................................ 78
3.1.3 Modas........................................................................................................................................................... 93
3.2 Conceitos, cálculos e aplicações práticas de medidas de dispersão absolutas
e relativas: desvio padrão, variância e coeficientes de variação.............................................100
3.2.1 Medidas de dispersão absolutas: desvio médio; desvio padrão; variância....................100
3.2.2 Medidas de dispersão relativas: coeficientes de variação.....................................................107
4 ESTATÍSTICA DESCRITIVA – ASSIMETRIA E CURTOSE.......................................................................110
4.1 Cálculos e efeitos das diferenças entre a média, mediana, moda e o
desvio padrão e o efeito da variação dos valores.........................................................................111
4.1.1 Análise da assimetria............................................................................................................................112
4.1.2 Análise da curtose.................................................................................................................................113
4.2 Correlação entre o aumento e a diminuição do desvio padrão com a
eficiência e eficácia da gestão na área de negócios....................................................................116
Unidade II
5 TEORIA ELEMENTAR DAS PROBABILIDADES.......................................................................................128
5.1 Conceitos iniciais de probabilidades e como são calculadas............................................128
5.2 Definição de probabilidade como razão entre valores esperados
e possíveis......................................................................................................................................................129
5.2.1 Árvore de decisões................................................................................................................................ 132
5.2.2 Análises combinatórias....................................................................................................................... 134
6 DEFINIÇÃO DE PROBABILIDADE COMO FREQUÊNCIA RELATIVA................................................140
6.1 Evento soma e evento produto.....................................................................................................142
6.2 Eventos independentes e eventos vinculados.........................................................................145
6.3 Revisão teórica dos conceitos estudados..................................................................................147
Unidade III
7 DISTRIBUIÇÕES DE PROBABILIDADES....................................................................................................159
7.1 Conceitos de distribuição de probabilidades...........................................................................159
7.2 Distribuições para variáveis discretas.........................................................................................161
7.2.1 Cálculo de distribuições binomiais a partir de probabilidades com
poucos eventos..................................................................................................................................................161
7.2.2 Definição e cálculo de valores esperados (esperança matemática) e
desvio padrão esperado para a binomial............................................................................................... 167
7.2.3 Definição e cálculo de distribuição de Poisson.........................................................................171
8 DISTRIBUIÇÕES PARA VARIÁVEIS CONTÍNUAS..................................................................................176
8.1 Distribuição normal – definição....................................................................................................178
8.2 Cálculo de probabilidades através da curva normal.............................................................180
8.3 Cálculo das condições correspondentes a probabilidades da curva normal..............189
APRESENTAÇÃO
Cada vez mais a estatística aumenta sua importância no elevado desempenho das nossas atividades
profissionais. Qualquer que seja a área de atuação em que estejamos alocados, nossas decisões e
conhecimento utilizarão largamente os conceitos estatísticos. Não é errado afirmar que a estatística
é parte da linguagem da ciência e consequentemente das nossas atividades profissionais.
Nas ciências contábeis, a estatística é utilizada entre outras aplicações na modelagem financeira
e econômica, envolvendo comportamento de crédito, inadimplência, previsões de taxas de juros etc.
Nas ciências econômicas os modelos teóricos apoiam-se na estatística para, com base em dados
empíricos, explicar o comportamento da economia.
Em resumo poderíamos dizer que esta disciplina apresenta ferramentas e técnicas de tratamento
de dados visando o entendimento de situações práticas dotadas de alguma incerteza, permitindo
tomadas de decisão mais rápidas, racionais e seguras. Descreve o processo de coleta, organização
e apresentação de dados e o cálculo de medidas estatísticas que permitirão a compreensão do
comportamento do universo estudado. Demonstra também como conclusões obtidas de pequenos
conjuntos de elementos cujos valores são reais podem ser extrapoladas para grandes conjuntos de valores
reais ou prováveis, permitindo estudos menos trabalhosos e, ainda, previsões sobre situações futuras.
Espera-se que o aluno venha saber utilizar os conceitos estatísticos no tratamento de dados,
numéricos ou não, entendendo como se comporta um conjunto de elementos resultantes de um
particular problema prático, e como esse comportamento eventualmente pode ser generalizado.
INTRODUÇÃO
A estatística é uma ciência com amplo espectro de teorias e aplicações. Neste livro-texto
pretendemos apresentar ao aluno as ferramentas básicas necessárias para a atuação profissional na área
de negócios, sem aprofundar os conceitos matemáticos e estatísticos produtores dessas ferramentas.
Sempre que possível, utilizaremos exemplos práticos para mostrar como usar e qual a utilidade prática
de cada ferramenta.
O estudo da estatística, como de todas as ciências exatas, obriga à repetição, o maior número de vezes
possível, de exercícios de fixação. No presente material os cálculos definidos são mostrados uma única
vez, como exemplo, mas o aluno deve se lembrar de que terá à disposição nos materiais complementares
7
uma grande quantidade de exercícios e problemas e que o aprendizado somente será garantido caso
eles sejam feitos em sua totalidade.
Posteriormente, trataremos do estudo das probabilidades. Ainda que, rigorosamente, o estudo das
probabilidades esteja no campo da matemática, e não da estatística, veremos como esses conceitos são
aplicados na prática e como eles nos conduzem ao conceito de distribuições de probabilidades. A ideia
é apresentar probabilidades como uma tomada de decisão aleatória, o que nos leva ao campo da lógica,
necessária para entendermos o uso das probabilidades na área de negócios.
Esperamos que o material seja adequado a seu aprendizado e desejamos bons estudos.
8
ESTATÍSTICA
Unidade I
A estatística descritiva é a base de toda a estatística. Muitas vezes usamos o termo no plural, estatísticas,
para significar a relação de dados coletados. Fundamentalmente a estatística descritiva descreve uma
amostra com a finalidade de conhecer seu comportamento e de tentar extrapolar esse conhecimento
para as populações correspondentes. Pretendemos entender, inicialmente, como os dados são coletados,
organizados, divulgados e, não menos importante, como eles são trabalhados para gerar as medidas
estatísticas. Com essas informações, podemos saber o que acontece ou aconteceu com determinado
fenômeno e como isso pode influenciar em nossas decisões nas várias áreas de conhecimento humano.
Podemos, por exemplo, estudar como as vendas de uma empresa se comportaram nos últimos meses
para entender e decidir sobre as vendas futuras.
Caso você procure num bom dicionário a definição de estatística, se deparará com algo semelhante
ao que Houaiss (2009, p. 830) estabelece:
Apesar de estarem absolutamente corretas, essas definições não abrangem totalmente o que significa
estatística nos dias de hoje, em especial no entendimento das informações e no processo de tomadas de
decisão. Num mundo progressivamente mais complexo, a estatística torna-se a linguagem da ciência,
fundamental para transformar dados em informações adequadas.
Houaiss registra o uso da palavra estatística em português no ano de 1815, mas podemos remontar
o conceito estatístico ao início da escrita com os babilônios, por exemplo, com as anotações relativas
aos estoques, às entradas e saídas de produtos agrícolas e às riquezas diversas.
Muitos autores defendem que a palavra estatística venha de statu, ou seja, uma disciplina ligada
aos negócios de Estado. Uma evidência desse uso está numa das histórias mais conhecidas da Bíblia, o
deslocamento de José e Maria de Nazaré para a Judeia, o que teria provocado o nascimento de Jesus na
cidade de Belém. Apesar das possíveis adaptações à realidade, a história menciona a existência de um
censo populacional no início da era cristã.
9
Unidade I
Apesar do uso histórico da estatística, é a partir do século XIX que ela começa a ganhar importância
nas diversas áreas do conhecimento e notadamente no século XX que ela ganha protagonismo nas
grandes organizações e nas aplicações às áreas de negócios.
• planejamento da pesquisa;
• inferência e generalização das conclusões obtidas com o cálculo dos valores prováveis, margens
de erro e níveis de confiança para fenômenos do tipo estudado.
Observação
O processo estatístico pode trabalhar com dois tipos de dados de acordo com sua origem: dados
primários e dados secundários. Normalmente as pesquisas se valem de ambos os tipos. Dados primários
são aqueles coletados especificamente para determinado estudo, por exemplo, a pesquisa de opinião
sobre o estilo de um novo automóvel a ser lançado no mercado. Já dados secundários são aqueles
coletados com uma finalidade, mas utilizados para outro fim. Por exemplo, os valores determinados
10
ESTATÍSTICA
pelo Instituto Brasileiro de Geografia e Estatística (IBGE) para a determinação do Índice de Preços ao
Consumidor Amplo (IPCA) utilizados por uma empresa para analisar seu desempenho econômico.
Saiba mais
http://ibge.gov.br
Como veremos posteriormente, essa relação entre dados primários e secundários é importante para
o processo de amostragem. No ambiente de negócios, uma das principais utilizações de estatística,
se não for a principal, é a previsão de situações futuras com base em dados coletados numa situação
similar, presente ou passada. A relação entre o ambiente futuro e o ambiente presente ou passado é feita
largamente com o uso de dados secundários.
Digamos que nossa empresa venha a lançar um novo produto no mercado. Uma série enorme de
decisões tem de ser tomada para que se atinja sucesso na empreitada. Precisamos estimar o volume
de vendas para prever, entre outras, as necessidades de mão de obra, de materiais e de equipamentos.
No entanto, o volume de vendas depende de uma série enorme de fatores, como o preço do produto,
o estado anímico da economia, a atratividade do produto no mercado, o efeito da concorrência e mais
uma série de fatores nos quais incidem fortes incertezas.
O preço a ser praticado influi, como sabemos, pesadamente sobre o volume de vendas ao mesmo
tempo em que uma série de outros fatores também é determinante. Aspectos econômicos e contábeis
como taxações e ciclo operacionais vão defini-lo. Mais uma vez uma série de incertezas aparecerá.
Frente a isso podemos ter duas posturas: “chutar” um preço e um volume de vendas ou estimar
estatisticamente essas duas grandezas. Evidentemente as chances de sucesso com a primeira são
infinitamente menores do que com a segunda.
11
Unidade I
Perceba que na situação mencionada são notáveis a existência de incerteza nos diversos fatores e
o desejo de se saber algo que ocorrerá no futuro. Grande parte das decisões nas áreas de negócios está
inserida nesse mesmo contexto, o de um futuro incerto.
Saiba mais
Para Calyampudi Radhakrishna Rao, grande matemático indiano, a estatística pode ser definida de
uma forma simples e direta pela equação: conhecimento incerto + conhecimento sobre a incerteza =
conhecimento útil. Note, portanto, que o grande objetivo da estatística é analisar os dados disponíveis
sujeitos a certo grau de incerteza, o qual será também nosso objeto de estudo.
A diferença entre o grau de racionalidade e o grau de intuição que usamos em determinada decisão
corresponderá a certo grau de risco. O aumento da racionalidade reduzirá esse risco e a estatística é
importante fator de aumento da racionalidade.
A estatística pretende, portanto, investigar os dados existentes sobre determinado fenômeno e qual
o grau de incerteza desses dados, e, com isso, prever acontecimentos futuros permitindo que tomemos
decisões dotadas de uma maior racionalidade, reduzindo, consequentemente, o risco de insucesso
da decisão tomada.
12
ESTATÍSTICA
Esse processo estatístico acaba dividindo a ciência estatística em dois grandes campos. A estatística
descritiva e a estatística indutiva. A estatística descritiva, como o próprio nome diz, descreve um ambiente
para o qual os dados são conhecidos, ou seja, algo que está no presente ou no passado. A partir dessa
descrição, preveremos situações futuras. Esse é o campo da estatística indutiva.
Observação
Poderíamos começar nosso estudo pela análise histórica das vendas de um produto similar. Essa
análise seria no campo da estatística descritiva, feita através do levantamento histórico das vendas
ocorridas, a organização desses dados e o cálculo das medidas estatísticas.
Vamos supor que as vendas mensais de um produto X parecido com o novo produto que vamos
lançar foram de 10.000 unidades ao longo dos últimos anos. Esse processo estaria dentro da
estatística descritiva.
É lícito pensar que o nosso novo produto vai vender também cerca de 10.000 unidades por mês, já
que eles são parecidos. É evidente que se trata de uma suposição bem grosseira, ainda que qualquer
estimativa seja melhor que nenhuma. Certamente que essa estimativa teria que ser melhorada por
intermédio de ferramentas estatísticas que avaliassem as diferenças entre a comercialização dos dois
produtos, ou seja, em último caso, as incertezas. Esse seria o campo da estatística indutiva.
Evidentemente que todos esses valores são calculados rigorosamente com técnicas e conceitos
estudados e testados. Este será o assunto do curso.
13
Unidade I
No mundo dos negócios utilizamos intensamente a estatística descritiva para resumir, informar,
organizar dados característicos dos vários fenômenos contábeis, econômicos e administrativos
com os quais convivemos. Numa rápida passada de olhos na internet podemos ver manchetes
semelhantes a estas:
• Desemprego no Brasil vai a 12,9% e apenas metade em idade de trabalhar estava ocupada no
trimestre até maio.
03/jul
04/jul
05/jul
06/jul
08/jul
09/jul
12/jul
13/jul
14/jul
15/jul
16/jul
02/jul
01/jul
10/jul
07/jul
11/jul
Figura 1
14
ESTATÍSTICA
Saiba mais
http://datafolha.folha.uol.com.br/ (Datafolha)
https://www.ipea.gov.br/portal/ (Ipea)
http://www.periodicos.capes.gov.br/ (Capes)
https://www.scielo.br/ (SciElo)
Essas informações são todas de natureza estatística e obtidas através de processos descritivos.
Fundamentalmente são tratamentos matemáticos a dados históricos, passados ou presentes, que
permitem que cheguemos a determinadas conclusões.
Por exemplo, podemos concluir que as concorrentes da Mercedes-Benz não só tiveram redução
de faturamento como perderam participação de mercado e que as mortes por Covid-19 em São Paulo
voltaram a crescer depois de um período de baixa.
Perceba, no entanto, que estamos falando do passado (ou presente); muitas vezes nos interessa, até
mais, o futuro. Questões como:
Essas e outras questões semelhantes serão respondidas com o uso da estatística indutiva. O raciocínio
básico é olhar o presente e o passado e, através da estatística, prever o futuro.
15
Unidade I
Evidentemente que a estatística descritiva nos dá informações exatas e reais, até certo ponto
inquestionáveis. Quando uma manchete na mídia afirma que “Brasil teve média de 1.056 mortes por dia
por coronavírus na última semana”, estaremos diante de um valor real e exato (desde que corretamente
calculado). É algo que já ocorreu. Matematicamente somaram-se todas as mortes ocorridas na última
semana e dividiu-se por sete.
Já se a matéria for algo do tipo: “A Opas estima que, se as condições de combate ao vírus continuarem
as mesmas, o Brasil atingirá o pico da epidemia em agosto, quando poderá ter 88,3 mil mortes”, o valor
mencionado não é exato e algo estimado, portanto, é provável, e não real.
Essa estimativa foi feita com base em modelos matemáticos que levam em conta os cenários
possíveis de evolução da pandemia. Estatisticamente analisaram-se as mortes já ocorridas no passado e
estimou-se o comportamento futuro. Evidentemente que não é um valor exato, é um valor dotado de
uma margem de erro e de um nível de confiança que podem ser calculados com rigor.
Perceba que o processo estatístico é um longo caminho que se inicia com a coleta de dados
pertinentes, passa por seu estudo e entendimento através da estatística descritiva e chega à subsequente
extrapolação dos dados para ambientes prováveis, através do cálculo das incertezas envolvidas expresso
em margem de erro e confiabilidade.
Todo o processo e em especial a parte inferencial são feitos através de métodos científicos aplicados
a um determinado fenômeno estudado. Como Costa (2011), entendemos que fenômeno é tudo que
pode ser percebido pelos sentidos ou pela consciência. Costa exemplifica, entre outros, os fenômenos,
a incidência de uma doença; o comportamento de pessoas numa loja; o consumo de certo produto, a
oferta de certo produto; a demanda de certo produto e o lucro de uma empresa. Poderíamos acrescentar,
ainda, o comportamento e ações na bolsa; a produtividade de um processo; a variação de preços; contas
auditadas; impostos recolhidos e muito mais.
A estatística trabalha com grandes conjuntos de dados. Mesmo em estudos relativamente pequenos,
a quantidade de dados pode chegar às centenas. Essas grandes quantidades são normalmente o primeiro
desafio aos métodos estatísticos. Assim dois tipos de conjuntos aparecem em estatística e, no fundo,
condicionam todas as ferramentas a eles.
16
ESTATÍSTICA
Ao primeiro desses dois conjuntos damos o nome de população. Definimos população como o
conjunto formado por todos os elementos que apresentam em comum uma característica que está
sendo estudada. Por exemplo, o conjunto dos eleitores de determinada cidade nas próximas eleições ou
o conjunto de todos os funcionários de nossa empresa ou ainda o conjunto de todas as cotações diárias
das ações da Petrobras na bolsa nos últimos três anos.
Perceba uma característica inicial das populações: a grande quantidade de elementos que a
compõe. Pode chegar facilmente aos milhares, o que implica evidentemente a grande necessidade de
recursos aplicados.
Imagine que queiramos calcular a altura média dos alunos da UNIP (altura média é uma medida
estatística que será vista detalhadamente mais adiante). O cálculo em si é muito fácil, basta somar a
altura de todos os alunos da UNIP e dividir pelo número de alunos. O problema é que temos milhares
de alunos na UNIP e em muitos locais diferentes. Imagine o custo para medir cada um deles e compilar
essas informações!
Isso pode ainda piorar, pense em calcular o salário médio dos alunos da UNIP após cinco anos de
formados. Agora, além da grande quantidade de elementos, temos o fato de que os valores trabalhados
não são reais. O salário de um aluno depois de cinco anos de formado é algo provável, não real. Temos
uma complicação em dobro!
Uma população é, portanto, um conjunto com uma grande quantidade de elementos e/ou o valor de
cada elemento não é real, é provável. Para caracterizar uma população, estatisticamente falando, basta
uma dessas duas características.
Perceba que, quando nos referimos a uma grande quantidade de elementos, não estamos pensando
em um valor absoluto, e sim num valor relativo à quantidade de recursos necessários. Assim uma
população pode ter 100 ou 100.000 elementos. O que torna a quantidade de elementos grande são os
recursos disponíveis.
Por exemplo, suponha que queiramos calcular a média de notas dos alunos da UNIP em determinada
disciplina. Para você, com seus recursos, isso será um trabalho impossível. Para a UNIP, com os recursos
de informática e com o banco de dados que tem, isso seria relativamente fácil. Isso significa que, para
você, esse estudo estatístico envolve uma população. Para a UNIP não!
• Forçar que a amostra seja composta de poucos elementos (em relação aos recursos disponíveis) e
que o valor dos elementos seja real.
17
Unidade I
• Garantir que a amostra seja uma miniatura da população de modo que todas as características
importantes da população sejam percentualmente iguais na amostra.
Assim teremos um conjunto de poucos elementos com valor real, o que permite um cálculo
descritivo relativamente fácil e pouco custoso.
Observação
No dia da eleição cada eleitor vota, seu voto é computado e um candidato é eleito. Perceba como
a quantidade de recursos necessária é grande. Urnas eletrônicas; mesários; computadores centrais;
telecomunicações etc. Esse enorme dispêndio só tem sentido pela importância da manutenção do
regime democrático, mas não cabe para atender a interesses jornalísticos, por exemplo.
A sociedade gosta de saber com antecedência quem será o candidato eleito nas próximas eleições,
que ocorrerão, digamos, daqui a alguns meses ou a alguns dias. A mídia tenta saciar essa curiosidade,
mas não tem os recursos que a justiça eleitoral dispõe no dia da eleição. Assim sendo, recorre à
pesquisa eleitoral.
A pesquisa eleitoral consiste em pegar uma amostra da população e estudá-la para depois estender
as conclusões para todo o eleitorado. Dessa forma o instituto de pesquisa pega uma (relativamente)
pequena quantidade de eleitores, pergunta em quem cada um irá votar e calcula a votação de cada
candidato entre esses eleitores.
Digamos que, em uma amostra com 3.000 eleitores, 56% deles disseram que votariam nas próximas
eleições no candidato Jack O’Theft. É lógico pensar que, se a eleição fosse hoje, Jack teria 56% dos votos
e seria eleito. É lógico, mas não é nem obrigatório, nem exato. É possível que seja um valor parecido,
mas não exatamente o mesmo.
Um exemplo banal demonstra esse raciocínio. Um sommelier avalia um vinho sem precisar
beber a garrafa toda, basta uma pequena amostra. As características que ele notar na pequena
amostra experimentada é verdade para toda a garrafa e mesmo para todo o tonel do qual a
18
ESTATÍSTICA
garrafa foi tirada. Na prática, qualquer fenômeno está submetido a esse raciocínio, mas com
algumas ressalvas.
O vinho na garrafa é totalmente homogêneo, qualquer parte retirada será exatamente igual.
Na maioria dos fenômenos, no entanto, isso não ocorre, há sempre certo grau de heterogeneidade.
Seria o caso de se avaliar não certa safra de vinho, mas os vinhos de uma vinícola ao longo
dos anos. Haveria uma heterogeneidade ao longo dos anos que tornaria a conclusão do
sommelier menos exata.
Dessa forma, a precisão na avaliação de determinado vinho é maior do que a avaliação dos
diversos vinhos da vinícola. Essa precisão gerará uma margem de erro, que é uma tolerância sobre os
valores previstos.
Outro aspecto que influi sobre a margem de erro é o tamanho da amostra. É fácil concluir que
a margem de erro numa pesquisa eleitoral com 800 eleitores é maior do que com 2.000 eleitores.
Assim, caso você abrisse um jornal e visse a manchete sobre a pesquisa a que nos referimos, ela seria
provavelmente algo do tipo “Se a eleição fosse hoje Jack O’Theft teria 56% dos votos com 2% de margem
de erro para mais ou para menos, com 95% de confiabilidade”. Essa margem de erro e a confiabilidade
estão ligadas diretamente à homogeneidade da população e ao tamanho da amostra.
Esses conceitos são frequentemente aplicados à área de negócios. Alguns exemplos são
bem conhecidos:
• A expectativa de vida dos potenciais clientes na área de seguros de vida. Esses clientes formam
uma população com uma grande quantidade de elementos e com valores prováveis, não reais.
Não sabemos quando um deles morrerá. Contudo, os estudos amostrais com elementos
semelhantes, que já morreram, nos dão essa informação.
• A produtividade prevista de uma máquina automática. Tomamos uma amostra de alguns períodos
de funcionamento e extrapolamos para o futuro.
• A inflação para o próximo ano. Pegamos uma amostra das inflações de meses passados e induzimos
a inflação futura.
• As diversas ações de marketing avaliadas quanto à sua eficácia, por intermédio de pesquisas de
opinião, que consistem em tomar uma amostra de consumidores, verificar sua opinião e, em
seguida, estender as conclusões para todo o mercado.
19
Unidade I
Como vimos, tanto as populações como as amostras são conjuntos formados pelos valores de uma
(ou mais) característica de elementos resultantes de um fenômeno estudado. Assim, caso estudássemos
o nível socioeconômico de um determinado agrupamento humano, a população envolvida seria
a renda de todos os elementos daquele agrupamento, por exemplo, todos os alunos da UNIP. Caso
não considerássemos todos os alunos da UNIP, mas apenas uma quantidade relativamente menor,
mas que reproduzisse em menor escala a população, teríamos uma amostra, formada pela renda dos
alunos escolhidos.
No estudo a que nos referimos, a característica estudada é a renda, portanto, é essa que nos interessa.
À característica estudada damos o nome de variável estatística. Todas as demais características
podem ou não ter importância; veremos, a seguir, a que é, realmente, objeto do nosso foco, a
variável estatística.
As variáveis estatísticas são classificadas em diversos tipos que acabam por determinar o tipo de
pesquisa que será possível fazer e a potência dos resultados dessa pesquisa.
Quadro 1
Nominais
Qualitativas
Variáveis Ordinais
estatísticas Discretas
Quantitativas
Contínuas
Alguns exemplos de variável qualitativa nominal são: gênero; estado civil; naturalidade;
nacionalidade; etnia; religião; time de futebol pelo qual se torce etc. Já teríamos como variáveis
qualitativas ordinais o nível de instrução do indivíduo (superior é maior que médio e médio maior
20
ESTATÍSTICA
que fundamental); nível socioeconômico (classe A maior que classe B maior que classe C…); cargos
ocupados pelos funcionários de uma empresa (presidente > diretor > gerente > supervisor).
Já as variáveis quantitativas expressam valores numéricos. Também são divididas em dois grupos.
As variáveis quantitativas discretas são aquelas que podem assumir apenas valores inteiros e que são
contadas; por exemplo, o número de irmãos. Já as variáveis quantitativas contínuas podem assumir
qualquer valor numérico dentro de uma faixa lógica. São resultados de medições. Por exemplo, o nosso
peso corpóreo. Perceba que, se você disser que pesa 65,45263 quilos, eu tenho que aceitar. Você teria se
pesado numa superbalança, mas o valor é lógico. Mas se você disser que pesa 500 quilos e não for um
hipopótamo, eu não aceitarei. Está fora de uma faixa lógica de pesos corpóreos humanos.
Observe que existe uma zona de penumbra entre as variáveis quantitativas discretas e contínuas
devido à precisão adotada e ao instrumento de medida usado. A idade de uma pessoa é conceitualmente
contínua. Alguém pode dar sua idade como sendo de 25 anos, 3 meses, 16 dias, 8 horas, 32 minutos e
27 segundos... Ou seja, uma variável contínua, mas ninguém fala assim. Falamos que temos 25 anos, ou
seja, uma variável discreta. No limite da precisão, toda variável contínua pode ser considerada discreta.
Veremos mais à frente as consequências desse raciocínio.
Outra observação importante é o fato de que estudos com variáveis quantitativas são mais potentes
que com variáveis qualitativas, motivo pelo qual muitas vezes transformamos um estudo qualitativo em
quantitativo, como podemos ver a seguir.
Suponha que se queira avaliar um professor no que diz respeito ao grau de preparação de suas aulas.
Poderíamos entrevistar seus alunos e fazer uma das perguntas a seguir:
SIM NÃO
Perceba que estamos falando de uma variável qualitativa nominal e tudo que tiraremos de conclusão
dessa pergunta é a porcentagem de “sins” e de “nãos” obtidas, algo pouco potente, portanto.
Nesse caso a variável qualitativa é ordinal e note que nos dá mais informações que a pergunta
anterior, ou seja, temos um estudo mais potente.
21
Unidade I
III – O professor X prepara suas aulas adequadamente? Dê a nota que melhor corresponda
a esse aspecto, de acordo com o quadro a seguir:
Quadro 2
Nota Descrição
1 Nunca tem as aulas preparadas
2 Às vezes tem as aulas preparadas
3 Frequentemente tem as aulas preparadas
4 Sempre tem as aulas preparadas
Apesar da semelhança com a pergunta anterior, essa pergunta suporta respostas numéricas, o que
permite cálculos de medidas estatísticas; por exemplo, médias.
Nesse caso, apesar de conceitualmente termos uma variável qualitativa, conseguimos utilizar valores
numéricos e grande precisão e variação. Algum aluno, se quiser, pode dar nota 3,6, por exemplo, e
podemos calcular todas as medidas estatísticas existentes. A pesquisa assume a sua maior robustez.
Esse raciocínio é frequente quando queremos aumentar os recursos da pesquisa. Cores são variáveis
qualitativas ordinais, mas numa indústria química ou têxtil elas serão determinadas de modo quantitativo
usando-se um colorímetro.
• As populações e suas amostras são relacionadas, ou seja, conhecendo uma amostra, podemos
estimar uma população ou, conhecendo uma população, podemos prever como se comportam as
amostras dela retirada. Essa relação, no entanto, não é exata, existe uma tolerância à qual damos
o nome de margem de erro.
• Todo estudo indutivo está sujeito também a uma confiabilidade, ou seja, à confiança que temos
na previsão feita.
22
ESTATÍSTICA
Vários fatores podem levar ao viés estatístico, mas o mais importante e notável é a constituição
equivocada da amostra, quando ela não representa percentualmente a população. Sabemos que uma
população ou amostra são conjuntos formados por elementos que têm entre si uma característica
comum, que está sendo estudada. A essa característica estudada damos o nome de variável estatística.
Mas os elementos têm mais uma série de características não estudadas. Suponha que estudemos o
desempenho de determinados alunos em determinada disciplina. A variável estatística seria a nota que
cada aluno tirou em tal disciplina. Porém, cada aluno tem uma série de outras características.
Algumas dessas características podem de algum modo influenciar no valor da variável estatística.
Alunos de determinados cursos têm mais facilidade com a disciplina do que alunos de outros cursos.
Imagina-se que um aluno de Jornalismo tenha mais facilidade em língua portuguesa do que alunos de
Engenharia. Quando isso acontece, damos o nome de característica interveniente.
Evidente que a maioria das propriedades de um elemento não influi na variável estatística. O seu
peso ou altura não tem influência alguma na nota que você obtém em uma disciplina particular. Essas
são as características não intervenientes.
Para garantir a não existência de viés estatístico é necessário que todas as características
intervenientes sejam reproduzidas percentualmente de modo idêntico nas amostras retiradas
de uma população.
O exemplo da pesquisa eleitoral elucida bastante esse raciocínio. Suponha que uma determinada
região vai eleger seu principal mandatário. Existem lá 15 milhões de eleitores, a eleição será daqui a seis
meses e queremos prever o ganhador da eleição.
Evidentemente não podemos entrevistar e perguntar para todos os eleitores em quem votarão,
nós teremos que pegar uma pequena (relativamente) quantidade de eleitores. Digamos uma amostra
de 2.000 eleitores. Mas essa amostra não pode ser escolhida aleatoriamente, ela terá que seguir
percentualmente a distribuição da população nas características intervenientes. Digamos que
as características intervenientes nesse caso sejam: gênero; idade; nível socioeconômico; nível de
escolaridade e localização geográfica.
23
Unidade I
Observação
Deveríamos saber como a população (os 15 milhões de eleitores) se distribui em cada uma das
características intervenientes. No Brasil essas informações seriam obtidas no IBGE. Imaginemos que no
nosso exemplo a distribuição esteja dada na tabela a seguir:
Tabela 1
Mulheres Homens
Gênero
52,3% 47,7%
16 a 20 21 a 34 35 a 44 45 a 59 + de 60
Idade (dada em anos)
7,0% 30,7% 20,3% 24,0% 18,0%
Classe A Classe B Classe C Classe D Classe E
Nível socioeconômico
4,1% 9,4% 16,6% 21,8% 48,1%
Superior Médio Fundamental Pré-Fund.
Nível de escolaridade
17,5% 31,4% 12,5% 28,6%
Zona Norte Zona Sul Zona Leste Zona Oeste
Localização geográfica
26,2% 20,5% 24,8% 28,5%
Para que não haja viés estatístico é necessário que a amostra de 2.000 eleitores siga exatamente a
distribuição percentual da tabela anterior. Por exemplo, 1.046 dos entrevistados seriam mulheres
e 954 homens; 188 seriam da classe B; 350 com nível superior e assim por diante. A tabela a seguir mostra as
quantidades necessárias de cada característica para se manter a proporcionalidade amostra/população.
Tabela 2
Mulheres Homens
Gênero
1.046 954
16 a 20 21 a 34 35 a 44 45 a 59 + de 60
Idade (dada em anos)
140 614 406 480 360
Classe A Classe B Classe C Classe D Classe E
Nível socioeconômico
82 188 332 436 962
Superior Médio Fundamental Pré-Fund.
Nível de escolaridade
350 628 250 572
Zona Norte Zona Sul Zona Leste Zona Oeste
Localização geográfica
524 410 496 570
24
ESTATÍSTICA
Perceba, portanto, que a amostra deve ser planejada como uma matriz na qual esses 2.000 eleitores
atendam em conjunto todas as necessidades percentuais. É possível que um dos eleitores entrevistados
seja uma mulher entre 35 e 44 anos, da classe B, com superior completo, que more na zona norte da
localidade. Os outros 1.999 eleitores completarão a amostra seguindo a tabela no total.
Vamos supor que nossa amostra foi planejada, executada, compilada e revele que 52% dos eleitores
dela votariam no candidato X. Essa informação é real e muito próxima da exatidão. É evidente que
algum eleitor poderia mentir, e, mesmo que não mentisse, ele diria em quem votaria naquele momento
e poderia depois mudar de ideia, mas, mesmo assim, teríamos uma informação muito próxima da
exatidão para aquelas condições e aqueles eleitores.
Valendo-nos do raciocínio que fizemos anteriormente, podemos estimar que o candidato X terá na
eleição 52% dos votos. Perceba que essa estimação é permitida, mas não corresponde a um valor real e
exato, e sim a um valor provável. O certo seria estimarmos que o candidato X terá provavelmente 52%
dos votos na referida eleição.
Esse valor previsto é fundamental no processo estatístico, mas deve ser visto com algumas ressalvas:
• Ele vale para a eleição se ela fosse realizada hoje, como não será, devemos entender a evolução
das opiniões ao longo do tempo.
• O valor estimado é um valor de referência. Aceitá-lo como verdade absoluta é um equívoco. Devemos
adicionar a ele a margem de erro. Essa margem de erro depende da heterogeneidade da população
e do tamanho da amostra. Uma amostra maior ou uma votação mais alta produziria um erro menor.
• O valor estimado e a margem de erro foram calculados a partir dos dados da amostra, e se
outro instituto de pesquisa pegar outra amostra? Chegará a resultados muito próximos, mas não
exatamente iguais. Essa variação de amostra para amostra é muito pequena e não compromete a
nossa capacidade de decidir.
Observação
A mídia comunicaria essa estimativa de forma semelhante a: “Se a eleição fosse hoje o candidato X
estaria eleito com 52% dos votos. A pesquisa foi feita com 2.000 eleitores e pode variar 2,2% para mais
ou para menos com 95% de confiança”.
A todo esse processo de estimar uma população a partir de suas amostras (ou vice-versa) damos o
nome de amostragem; aprenderemos os cálculos um a um a partir do próximo tópico.
25
Unidade I
De modo geral as estimativas são feitas utilizando-se medidas estatísticas, as quais são valores
calculados para uma série de dados e usados de algum modo para descrever e resumir esses dados.
Em princípio os valores das medidas estatísticas correspondentes de uma população e de suas amostras
têm o mesmo valor, sempre levando em conta, no entanto, a margem de erro.
Calcular as medidas estatísticas de uma amostra é o objetivo final da estatística descritiva, que
veremos a seguir.
O cálculo das medidas estatísticas segue um processo passo a passo, que começa com o planejamento
da amostra e termina na análise do seu comportamento geral.
Muitas vezes esse trabalho de descrição estatística é feito em conjunto, ele não é propriamente
uma amostra e não tem por objetivo a indução estatística; podemos citar como exemplo quando numa
partida de futebol se relaciona numa tabela o número de passes certos, escanteios, cartões vermelhos
e amarelos etc. O interesse é contabilizar o valor de diversas características. Muitas vezes, se utiliza a
palavra “estatísticas” no plural para nomear o processo. É frequente falar algo do típico “as estatísticas
do Governo Federal indicam um aumento do desmatamento”. É uma afirmação importante em si, sem
ambições de se fazerem previsões futuras ou globais.
Os dados coletados, em qualquer tipo de estudo estatístico, vão gerar a tabela de dados brutos
ou rol de valores, que nada mais são do que uma relação dos dados coletados sem nenhum tipo de
organização e ordenação, além de normalmente serem em grande quantidade.
estudo, coletamos muitas variáveis estatísticas de diferentes tipos de modo, de modo a usarmos a tabela
para variados cálculos.
• Gênero do aluno.
Tabela 3
Renda familiar
Quantidade de
Idade em anos
mensal em R$
dependências
matriculado
Estado civil
atribuída à
instituição
Qualidade
Gênero
Ordem
Nome
Curso
27
Unidade I
Renda familiar
Quantidade de
Idade em anos
mensal em R$
dependências
matriculado
Estado civil
atribuída à
instituição
Qualidade
Gênero
Ordem
Nome
Curso
15 Paula Solteiro Administração Ruim F 20 R$ 1.950 5
16 Danilo Solteiro Contabilidade Boa M 20 R$ 1.386 2
17 Camila Solteiro Administração Ótima F 20 R$ 9.560 2
18 Pedro Solteiro Direito Regular M 18 R$ 4.325 2
19 Vinicius Casado Administração Péssima M 26 R$ 1.956 1
20 José Solteiro Engenharia Boa M 24 R$ 2.654 3
21 Carlos Solteiro Economia Ótima M 23 R$ 1.965 0
22 Vanessa Solteiro Administração Ruim F 22 R$ 3.645 0
23 Samanta Casado Jornalismo Boa F 21 R$ 2.987 0
24 Mauro Casado Administração Regular M 29 R$ 3.652 0
25 Mariana Solteiro Engenharia Ruim F 23 R$ 1.978 0
26 Juliana Casado Administração Boa F 24 R$ 5.478 1
27 Daiane Solteiro Jornalismo Ótima F 19 R$ 3.220 2
28 Alberto Solteiro Economia Boa M 20 R$ 4.050 0
29 Rui Casado Direito Regular M 25 R$ 1.950 4
30 Carolina Casado Engenharia Ruim F 21 R$ 1.682 6
31 Joaquim Divorciado Contabilidade Péssima M 28 R$ 7.850 8
32 Rubens Solteiro Engenharia Ótima M 23 R$ 4.567 0
33 Jezebel Solteiro Administração Boa F 20 R$ 9.567 0
34 L. Carlos Solteiro Engenharia Regular M 20 R$ 2.687 2
35 Fernando Casado Direito Ótima M 27 R$ 3.654 1
36 Mayra Solteiro Contabilidade Ruim F 19 R$ 3.956 1
37 Maria Solteiro Economia Boa F 36 R$ 1.932 1
38 Gabriel Solteiro Contabilidade Regular M 27 R$ 1.002 0
39 Karina Solteiro Administração Ótima F 20 R$ 2.342 1
40 Thais Solteiro Engenharia Ótima F 29 R$ 1.965 1
41 Vinicius Solteiro Administração Ruim M 34 R$ 1.932 1
42 Adriana Casado Engenharia Boa F 36 R$ 1.002 1
43 Luciano Casado Direito Ruim M 27 R$ 2.342 0
44 Liliane Divorciado Contabilidade Regular F 20 R$ 2.569 2
45 Luana Solteiro Administração Ruim F 21 R$ 3.789 3
28
ESTATÍSTICA
Renda familiar
Quantidade de
Idade em anos
mensal em R$
dependências
matriculado
Estado civil
atribuída à
instituição
Qualidade
Gênero
Ordem
Nome
Curso
46 Alex Solteiro Direito Boa M 21 R$ 7.850 5
47 Danielle Solteiro Jornalismo Ótima F 29 R$ 4.567 5
48 Diego Solteiro Administração Boa M 21 R$ 6.523 0
49 Sebastiao Casado Administração Péssima M 29 R$ 4.235 1
50 Vieira Solteiro Direito Boa M 21 R$ 7.652 4
51 Giovana Solteiro Jornalismo Regular F 28 R$ 1.950 2
52 Jean Divorciado Administração Ruim M 23 R$ 1.386 3
53 Jessica Casado Engenharia Regular F 20 R$ 9.560 4
54 Katia Solteiro Administração Boa F 20 R$ 4.325 5
55 Kesia Solteiro Contabilidade Ruim F 27 R$ 1.956 3
56 Lucas Solteiro Economia Ótima M 19 R$ 2.654 4
57 Nathalia Casado Administração Péssima F 18 R$ 1.965 1
58 Rafael Solteiro Direito Boa M 30 R$ 3.645 0
59 Stephanie Solteiro Contabilidade Regular F 34 R$ 2.987 0
60 João Casado Engenharia Regular M 24 R$ 10.567 2
61 Dimas Solteiro Administração Ruim M 21 R$ 2.569 2
62 Marcos Solteiro Direito Boa M 21 R$ 3.789 2
63 Valquíria Casado Administração Ruim F 29 R$ 4.675 3
64 Gilmar Solteiro Jornalismo Ótima M 34 R$ 4.231 3
65 Henrique Solteiro Administração Boa M 36 R$ 1.289 0
66 Jessica Solteiro Engenharia Regular F 27 R$ 2.987 0
67 Natalia Casado Administração Ótima F 20 R$ 3.645 0
68 Bruno Casado Contabilidade Ruim M 21 R$ 9.564 0
69 Leticia Solteiro Administração Péssima F 23 R$ 2.687 2
70 L. Paulo Solteiro Jornalismo Boa M 22 R$ 3.654 2
71 Thayna Casado Administração Ótima F 21 R$ 956 1
72 Thiago Divorciado Direito Regular M 29 R$ 1.350 3
Observe que as características arroladas no quadro são variáveis de diferentes tipos, como
mostrado a seguir:
29
Unidade I
Quadro 3
Ainda que os dados apresentados não sejam tão numerosos, a compreensão da tabela não é fácil.
Caso eu peça para você olhar a tabela e rapidamente me dizer qual o estado civil típico dos alunos creio
que terá dificuldades de me responder. Por esse motivo devemos criar ferramentas que resumam e
organizem esses dados. O conceito básico a se usar é o da frequência.
Definimos frequência simples como o número de vezes que um valor ou uma faixa de valores se
repete no rol de dados coletados. Por exemplo, se você contar o número de alunos matriculados no
curso de Engenharia da tabela anterior, você encontrará oito indivíduos, dizemos então que a frequência
simples dos alunos de Jornalismo é oito ou então simbolizamos essa informação por fjornalismo = 8
Observação
30
ESTATÍSTICA
Observação
• Frequência relativa: é a relação entre uma frequência simples e a frequência total. Dá-nos a
ideia de participação de um determinado valor no total. É simbolizada for fri; lida como frequência
f
relativa decimal do valor i e é obtida pela fórmula fri = i . Usa-se mais a frequência relativa
fT
fi
percentual de cálculo praticamente idêntico fr %i 100 .
fT
Temos apenas dois gêneros. Na coluna da esquerda ficam os gêneros, na direita a frequência
simples. Ficaria assim:
31
Unidade I
Tabela 4
Observação
Temos cinco valores possíveis: péssima; ruim; regular; boa; ótima. Na coluna da esquerda fica a
qualidade, na direita a frequência simples. Ficaria assim:
Tabela 5
Em uma rápida olhada na tabela, notamos que os alunos têm de zero a oito dependências.
A contagem produziria a seguinte tabela de frequências:
32
ESTATÍSTICA
Tabela 6
Perceba que as tabelas que montamos referem-se respectivamente à variável qualitativa nominal;
qualitativa ordinal e quantitativa discreta. A montagem da tabela de frequências para quantitativas
contínuas é mais elaborada, conforme veremos em seguida, mas antes vamos pegar a última tabela
montada e completá-la, ou seja, calcular as frequências relativas e acumuladas.
f f
A frequência relativa é obtida pela fórmula fri = i (decimal) ou fr%i = i × 100 (percentual).
fT fT
f0 20
Assim, a da frequência relativa do valor zero seria dada por fr0 = → fr0 = = 0,278 ou27,8%
0,278 ou 27,8%.
fT 72
Essa informação nos dá uma ideia da importância dos alunos que não têm dependências no total.
Poderíamos dizer que 27,8 dos alunos não têm dependências. Essa ideia de participação, de importância,
de peso, é frequentemente usada em informações estatísticas básicas.
A tabela a seguir mostra todas as frequências relativas, decimais e percentuais da distribuição das
dependências na nossa amostra.
Tabela 7
33
Unidade I
Lembrete
Tabela 8
Frequência acumulada
Frequência acumulada
Frequência acumulada
Frequência acumulada
absoluta abaixo de ou
absoluta acima de ou
relativa abaixo de ou
relativa acima de ou
Frequência simples
decrescente
decrescente
crescente
crescente
xi fi faci↓ faci↑ fri fac%i↓ fac%i↑
0 20 72 20 0,278 1 ou 100% 0,278 ou 27,8%
1 13 52 33 0,181 0,722 ou 72,2% 0,459 ou 45,9%
2 14 39 47 0,194 0,541 ou 54,1% 0,653 ou 65,3%
3 10 25 57 0,139 0,347 ou 34,7% 0,792 ou 79,2%
4 7 15 64 0,097 0,208 ou 20,8% 0,889 ou 88,9%
5 6 8 70 0,083 0,111 ou 11,1% 0,972 ou 97,2%
6 1 2 71 0,014 0,028 ou 2,8% 0,986 ou 98,6%
7 0 1 71 0,000 0,014 ou 1,4% 0,986 ou 98,6%
8 1 1 72 0,014 0,014 ou 1,4% 1 ou 100%
Frequência 72 1
total
Observação
Exemplo de aplicação
Considerando o que aprendemos até aqui e utilizando as duas tabelas sobre o número de dependências
da nossa amostra, responda às seguintes questões:
35
Unidade I
fs =
fr2 =
fr%4 =
fac3↓ =
Pfac1↑ =
fac%6↓ =
fac%8↑ =
Resolução
A resolução deste exemplo é feita por leitura direta das tabelas. A seguir as tabelas com linhas e
colunas assinaladas para permitir entendimento dos resultados.
Tabela 9
36
ESTATÍSTICA
Tabela 10
Colunas A B C D E F G
Número de dependências
Frequência acumulada
Frequência acumulada
Frequência acumulada
Frequência acumulada
absoluta abaixo de ou
absoluta acima de ou
relativa abaixo de ou
relativa acima de ou
Frequência relativa
Frequência simples
decrescente
decrescente
crescente
crescente
decimal
Tabela 2
37
Unidade I
Como já dito, a montagem da tabela de frequências para variáveis qualitativas e variáveis quantitativas
discretas é feita basicamente com uma contagem seguida de alguns cálculos aritméticos básicos. O uso
dela organiza, resume e apresenta a amostra de maneira bastante adequada. Observe que setenta e
duas informações sobre o número de dependências na amostra podem ser resumidas numa tabela com
apenas nove conjuntos de informações.
Assim, se eu perguntar qual a quantidade mais frequente de dependências, você teria dificuldade
de responder olhando a tabela de dados brutos, mas, se você olhar a tabela de frequências, a resposta é
imediata: zero dependências.
Perceba que o uso da tabela de frequências facilita nossas conclusões mesmo que tenhamos
elevado número de elementos na amostra. Caso estivéssemos estudando uma amostra semelhante,
mas com 5.000 alunos no lugar dos 72, provavelmente teríamos uma tabela de frequências com
quantidade de informações muito próximas da que acabamos de montar. Portanto, essa ferramenta
será muito útil para nós.
Já quando a variável é quantitativa contínua, a produção da tabela de frequências não é tão simples,
isso porque os valores variam continuamente e corremos o risco de ter uma tabela em que todas as
frequências simples serão iguais a 1 ou muito próximo disso. Observe a coluna renda familiar da tabela
3 e perceba que poucos valores se repetem e em poucas vezes.
A solução para isso é agrupar os dados em classes ou categorias. Em vez de considerarmos os valores
isoladamente, iremos agrupá-los em classes. Uma renda familiar de R$ 5.500,00 ou de R$ 6.000,00 é
praticamente a mesma coisa do ponto de vista estatístico, podemos então agrupar essas famílias numa
única faixa, por exemplo, famílias com renda entre R$ 5.000,00 e R$ 6.000,00.
Apesar de mais longo, o processo para montagem da tabela de frequências para dados agrupados é
relativamente fácil e iremos explicá-lo usando os dados de renda familiar da nossa amostra. O primeiro
passo é determinar em quantas categorias iremos distribuir nossos elementos. Não há uma determinação
38
ESTATÍSTICA
matemática para isso. Claro está que, ao agrupar dados, perdemos um pouco da precisão, mas essa
perda é compensada pela facilitação dos cálculos.
Trabalhando com muitas categorias ou classes, teremos uma maior precisão, mas com maior trabalho
e consequentemente maior custo envolvido. Uma quantidade menor de categorias reduz o custo, mas
também a precisão.
Estudiosos trabalharam esse problema e chegaram a diversas recomendações sobre o número de categorias
ou classes a ser usado. Nós usaremos neste texto a recomendação de Sturges, dada pela fórmula:
n = 1 + 1,44InN
Lembrete
No nosso caso temos 72 elementos, ou seja, N = 72. Aplicando a recomendação de Sturges teríamos:
→ n = 7,16
Evidentemente que não é possível termos 7,16 classes. Ou trabalhamos com sete classes, ou com oito
classes. Nesse exemplo, preferiremos adotar sete classes às quais nomearemos de I até VII.
Observação
39
Unidade I
O próximo passo é estabelecer onde começa e onde termina cada classe, os chamados limites de
classe. Evidentemente que a primeira classe começará no menor valor da distribuição e a última classe
terminará no maior valor da distribuição, ou seja, no nosso caso:
O menor valor da distribuição é chamado de limite mínimo da distribuição (Lmin) e, no nosso caso,
vale Lmin , que é a renda da Thayna (aluno número 71). Já o maior valor da distribuição é chamado
de limite máximo da distribuição (Lmax), sendo de Lmax = R$ 10.567,00, que é a renda do aluno de
número 60, o João.
Nossa tabela de frequências deve, portanto, começar no valor R$ 956,00 e terminar em R$ 10.567,00 e
ter sete classes. A diferença entre os limites mínimos e máximos da distribuição é chamada de amplitude
total e é dada por:
At = Lmax - Lmin
E no nosso caso é:
Esses R$ 9.611,00 devem ser divididos em sete classes, portanto cada classe terá um intervalo de
classe (h) igual a R$ 1.373,00.
Intervalo ou amplitude de classe é a diferença entre o maior e o menor valor de cada classe, o que
chamamos de limite inferior de classe (lii) e o limite superior de classe (Lsi) e é, também, o valor da
amplitude dividido pelo número de classes.
At
h= e h = lsi − lii
n
At 9.611
Dessa forma, temos no nosso exemplo que h = = = 1.373
n 7
Sabemos que a primeira classe deve começar em R$ 956,00 e deve ter um intervalo de
R$ 1.373,00, portanto terminará em R$ 2.329,00, de acordo com h = ls1 - li1 → 1.373 = ls1 - 956 ls1 =
1.373 + 956 = 2.329.
Assumindo que a segunda classe começa onde termina a primeira teríamos: li2 = ls1 = 2.329 e,
fazendo os cálculos correspondentes para a segunda classe: h = ls2 - li2 → 1.373 = ls2 - 2.329 ∴ 2 = 1.373
+ 2.329 = 3.702. A segunda classe vai então de R$ 2.329,00 até R$ 3.702,00.
40
ESTATÍSTICA
Tabela 11
Limites de classe
Classes
lii lsi
I R$ 956,00 |----- R$ 2.329,00
II R$ 2.329,00 |----- R$ 3.702,00
III R$ 3.702,00 |----- R$ 5.075,00
IV R$ 5.075,00 |----- R$ 6.448,00
V R$ 6.448,00 |----- R$ 7.821,00
VI R$ 7.821,00 |----- R$ 9.194,00
VII R$ 9.194,00 |----| R$ 10.567,00
Perceba que, do modo como foram estabelecidos os limites de classe, surge uma indefinição. Se um
elemento tiver o valor exato de um limite de classe, ele deve ser considerado na classe superior ou na
classe inferior. Exemplificando, suponha que a renda de um aluno seja exatamente de R$ 5.075,00, ele
deve ser considerado elemento da classe III ou da classe IV.
Na verdade, não é tão importante qual seja a resposta, mas devemos ter um critério. Ou colocamos
onde o valor é limite superior (no exemplo a classe III), ou onde é limite inferior (no exemplo, classe IV).
O vital é sinalizarmos pelo que optamos e isso é feito com o traço vertical no símbolo de intervalo.
Caso queiramos que elementos com exatamente o valor nominal sejam incluídos na classe, optamos
pelo valor fechado e sinalizamos com um traço vertical. É o limite fechado (|----). Caso contrário, o
limite será aberto (----).
No nosso exemplo os elementos com valores nominais à esquerda são incluídos na classe; os valores
à direita, não. Note também que teoricamente o primeiro aluno da classe II tem renda familiar de
R$ 2.329,00 e o último de R$ 3.701,99. Esses valores são muitas vezes chamados de verdadeiros de classe.
Determinados os limites de classe, o próximo passo é determinar a frequência simples através
novamente de contagem, se possível, por meios eletrônicos. Veja um trecho da tabela de dados brutos
e a classe a que pertencem:
Tabela 12
50 Vieira R$ 7.652 Classe V
51 Giovana R$ 1.950 Classe I
52 Jean R$ 1.386 Classe I
53 Jessica R$ 9.560 Classe VII
54 Katia R$ 4.325 Classe III
55 Kesia R$ 1.956 Classe I
56 Lucas R$ 2.654 Classe II
57 Nathalia R$ 1.965 Classe I
58 Rafael R$ 3.645 Classe II
59 Stephanie R$ 2.987 Classe II
60 João R$ 10.567 Classe VII
41
Unidade I
Fazendo esse raciocínio para toda a amostra, teríamos a tabela de frequências montada:
Tabela 13
Frequência total 72
A partir dessa tabela podemos determinar a tabela de frequências completa, como se vê a seguir:
Tabela 14
Frequências acumuladas
Frequência simples
Frequências
decrescentes
decrescentes
crescentes
crescentes
Absolutas
Absolutas
Relativas
Relativas
Limites de classe relativas decimais e
Classes
percentuais
42
ESTATÍSTICA
Exemplo de aplicação
liV =
lsVI =
fIII =
frIV =
fr%VI =
facII ↓ =
facVI ↑ =
fac%IV ↓ =
fac%I ↑ =
Resolução
43
Unidade I
Tabela 15
Frequências acumuladas
Frequência
decrescentes
decrescentes
Frequências
simples
crescentes
crescentes
Absolutas
Absolutas
Relativas
Relativas
Limites de classe relativas decimais
Classes
Linhas
e percentuais
Qual a porcentagem de alunos que têm renda familiar entre R$ 5.075,00 e R$ 6.448,00?
30 (Coluna E; Linha 3)
44
ESTATÍSTICA
60 (Coluna F; Linha 4)
Podemos considerar o modo como montamos a tabela de frequências para dados agrupados,
aplicada às rendas familiares, como um padrão, mas algumas observações e mudanças podem ser
feitas sem que alteremos o objetivo de agrupar dados para apresentá-los de forma organizada
e resumida:
• No nosso exemplo, o intervalo de classe resultou um número inteiro, mas nem sempre isso
acontece, eventualmente teremos que arredondá-lo. Caso isso seja necessário, o arredondamento
deverá sempre ser para cima para não se reduzir à amplitude total. Por exemplo, suponha
que queiramos arredondar a nossa amplitude de classe, que é de R$ 1.373,00. Podemos usar
R$ 1.375,00 ou R$ 1.380,00 sem problema algum, mas nunca R$ 1.370,00. Perceba que, usando
um valor arredondado para cima, a amplitude total terá seu valor majorado.
• Utilizamos todas as amplitudes de classe iguais. Isso não é obrigatório, podemos variar as
amplitudes caso nos seja conveniente.
• Trabalhar com um número de classes diferente ou com intervalos diferentes não altera,
normalmente, os valores finais das medidas estatísticas que serão calculadas a partir das
tabelas de frequências.
Como já dito anteriormente, as tabelas de frequências resumem e organizam os dados da tabela bruta
permitindo que tiremos as primeiras conclusões estatísticas. Normalmente a tabela também permite a
comunicação de informações estatísticas em relatórios, projetos, dissertações etc. Essas comunicações
muitas vezes são substituídas ou complementadas pela apresentação gráfica dos valores.
As representações gráficas dos dados estatísticos, normalmente feitas a partir das tabelas de frequências,
têm a grande vantagem de uma fácil visualização e entendimento das informações coletadas.
45
Unidade I
Muitas vezes o detalhamento dos dados é prejudicado, mas um gráfico tem o poder impactante de
nos fazer entender determinado comportamento. O comportamento da pandemia de 2020 nos primeiros
setenta e seis dias em que ocorreram mortes poderia ser apresentado de diversas maneiras. Por exemplo:
Tabela 16
1400
1200
1000
800
600
400
200
0
io
aio
aio
aio
ar.
ar.
r.
r.
r.
r.
r.
ma
ma
/ab
/ab
ab
ab
/m
/m
/m
/m
/m
/
/
/
/
14
28
21
07
17
24
31
05
12
19
26
Figura 2
Perceba que as informações são exatamente as mesmas, mas com importantes diferenças
nas leituras:
46
ESTATÍSTICA
• A tabela nos dá a informação exata. Sabemos, por exemplo, que no dia 21 de maio morreram
exatamente 1.188 pessoas, mas em compensação o entendimento do comportamento das mortes
é bem difícil de ser notado.
Normalmente utilizamos uma combinação de tabelas e gráficos para atender às duas dimensões da
apresentação: precisão e visualização. Atualmente nós conseguimos trabalhar com ambas as dimensões
simultaneamente em gráficos on-line, como o apresentado a seguir.
Evolução diária de mortos por covid-19 no Brasil
1600
1400
1200 Série1 Ponto “04/jun“
Valor: 1473
1000
Mortes
800
600
400
200
0
aio
aio
aio
02 o
ar.
31 .
ar.
n.
n.
n.
n.
n.
ar
r.
r.
r.
r.
l.
l.
ai
/ab
/ab
/ab
/ab
/ju
/ju
/ju
/ju
/ju
/ju
/ju
/m
/m
/m
/m
/m
/m
/m
14
07
14
28
21
07
09
16
23
30
17
24
26
05
12
19
Figura 3
Observe que, ao colocarmos o cursor do mouse em um ponto qualquer do gráfico, temos a visualização
e a informação precisa ao mesmo tempo. A figura mostra que no pico registrado em 4 de junho de 2020
morreram exatamente 1.473 pessoas de Covid-19 no Brasil.
Existe uma enorme quantidade de gráficos diferentes devido, sobretudo, à variação artística entre
eles com a utilização de formas, figuras, cores e dimensões, mas três deles são mais costumeiramente
utilizados (com suas variações artísticas) e neste texto nos concentraremos neles.
Esses três tipos de gráficos estão diretamente vinculados aos três grupos de frequências que
estudamos: simples, relativas e acumuladas.
Lembrete
47
Unidade I
Índice de inflação medido pelo Índice Nacional de Preços ao Consumidor Amplo (IPCA)/IBGE
Ano IPCA Ano IPCA Ano IPCA
1996 9,56% 2004 7,60% 2012 5,83%
1997 5,22% 2005 5,69% 2013 5,91%
1998 1,66% 2006 3,14% 2014 6,40%
1999 8,94% 2007 4,45% 2015 10,67%
2000 5,97% 2008 5,90% 2016 6,29%
2001 7,67% 2009 4,31% 2017 2,95%
2002 12,53% 2010 5,90% 2018 3,75%
2003 9,30% 2011 6,50% 2019 4,31%
0,00%
1996
1997
1998
1999
2000
2003
2004
2005
2006
2008
2009
2002
2001
2012
2013
2014
2015
2016
2017
2018
2019
2007
2010
2011
Figura 4
48
ESTATÍSTICA
0,00%
1996
1997
1998
1999
2000
2003
2004
2005
2006
2008
2009
2002
2001
2012
2013
2014
2015
2016
2017
2018
2019
2007
2010
2011
Figura 5
A partir dos conceitos de plano ortogonal, são elaborados alguns dos gráficos mais utilizados
em estatística.
O primeiro deles é o histograma, ou seja, a representação das frequências simples. São gráficos
desenhados sobre um plano no qual um dos eixos é reservado pelos valores envolvidos (normalmente
o eixo x) e o outro eixo para as frequências simples (normalmente no eixo y). A representação pictórica
é feita normalmente através de colunas ou barras, cuja altura ou comprimento determina a frequência
correspondente ao valor definido.
Alguns exemplos ilustram o exposto, sempre nos remetendo à tabela de dados brutos com os
alunos universitários.
Exemplo A:
Tabela 18
49
Unidade I
20
Frequência simples
15
10
0
Péssimo Ruim Regular Boa Ótima
Figura 6
Exemplo B:
Tabela 19
Jornalismo
Engenharia
Economia
Direito
Contabilidade
Administração
0 5 10 15 20 25 30
Figura 7
50
ESTATÍSTICA
Exemplo C:
Tabela 20
Distribuição de idades
Idade em anos Quantidade de alunos
Valor Frequência simples
18 4
19 4
20 11
21 11
22 3
23 6
24 4
25 1
26 2
27 6
28 3
29 7
30 2
34 5
36 3
Distribuição de idades
12
10
Frequência simples
0
18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
Idades
Figura 8
51
Unidade I
Exemplo D:
Tabela 21
20
Frequência simples
15
10
0
R$ 956,00 R$ 2.329,00 R$ 3.702,00 R$ 5.075,00 R$ 6.448,00 R$ 7.821,00 R$ 9.194,00
| ----- | ----- | ----- | ----- | ----- | ----- | ---- |
R$ 2.329,00 R$ 3.702,00 R$ 5.075,00 R$ 6.448,00 R$ 7.821,00 R$ 9.194,00 R$ 10.567,00
Classe I Classe II Classe III Classe IV Classe V Classe Vl Classe Vll
Rendas familiares
Figura 9
Na nossa amostra de alunos universitários, já vimos que temos um total de 72 alunos dos quais
33 (45,8%) são mulheres e 39 (54,2%) são homens.
52
ESTATÍSTICA
195º 165º
## Fatia que
representa os
homens
Figura 10
• A primeira “fatia” começa sempre na vertical superior, ou seja, onde no relógio teríamos meio-dia
ou meia-noite.
• As demais fatias começam onde termina a fatia anterior, sempre seguindo o sentido horário.
Homens Mulheres
54% 46%
Figura 11
A amostra de alunos com que estamos trabalhando poderia ter algumas de suas informações
relativas divulgadas dos modos seguintes.
53
Unidade I
Estados civis
8%
Solteiro
28%
Casado
Divorciado
64%
Figura 12
Figura 13
Distribuição de rendas
8%
3% Classe I
6%
31% Classe II
5% Classe III
Classe IV
Classe V
19%
Classe VI
28% Classe VII
Figura 14
54
ESTATÍSTICA
Elas representam as frequências acumuladas no plano cartesiano através da união por segmentos de
retas dos pares ordenados (valor; frequência acumulada até o valor).
Observe que frequências acumuladas só têm sentido para variáveis quantitativas, não tem sentido
falar em algo do tipo “quantos alunos cursam acima de Jornalismo”. É uma frase absurda! Agora é
absolutamente lógico falar em “quantos alunos têm acima de três dependências”.
Tabela 22
Frequências acumuladas
Número de dependências
Frequência simples
Absoluta decrescente
Relativa decrescente
Absoluta crescente
Relativa crescente
xi fi faci↓ faci↑ fac%i↓ fac%i↑
0 20 72 20 100,0% 27,8%
1 13 52 33 72,2% 45,8%
2 14 39 47 54,2% 65,3%
3 10 25 57 34,7% 79,2%
4 7 15 64 20,8% 88,9%
5 6 8 70 11,1% 97,2%
6 1 2 71 2,8% 98,6%
7 0 1 71 1,4% 98,6%
8 1 1 72 1,4% 100,0%
Frequência total 72
Comecemos pela ogiva das frequências acumuladas absolutas decrescentes. O primeiro par
ordenado é (0;72); o segundo (1;52) e assim por diante até o último (8;1). Plotando-se esses nove
pares ordenados no plano cartesiano, nós teríamos:
55
Unidade I
50
40
30
20
10
0
0 1 2 3 4 5 6 7 8
Número de dependências
Figura 15
Unindo os pares ordenados por segmentos de retas, nós teríamos o gráfico com aparência de ogiva:
Ogiva acumulada relativa decrescente para
número de dependências
80
70
60
Valores acumulados
50
40
30
20
10
0
0 1 2 3 4 5 6 7 8
Número de dependências
Figura 16
A seguir mostramos os gráficos das demais ogivas acumuladas, construídos de modo idêntico
ao anterior.
56
ESTATÍSTICA
60
Valores acumulados
50
40
30
20
10
0
0 1 2 3 4 5 6 7 8
Número de dependências
Figura 17
120,00%
100,00%
Valores acumulados
80,00%
60,00%
40,00%
20,00%
0,00%
0 1 2 3 4 5 6 7 8
Número de dependências
Figura 18
57
Unidade I
120,00%
100,00%
Valores acumulados
80,00%
60,00%
40,00%
20,00%
0,00%
0 1 2 3 4 5 6 7 8
Número de dependências
Figura 19
O exemplo anterior envolve uma variável quantitativa discreta. Caso fosse uma variável quantitativa
contínua, o processo seria o mesmo, com uma importante observação, no entanto. Veja a distribuição
a seguir, também fictícia, do volume de vendas por representante de vendas de produtos de beleza
comercializados porta a porta:
Tabela 23
Frequências acumuladas
Frequência simples
Frequências relativas
Limites de classe
decrescentes
decrescentes
decimais e percentuais
crescentes
crescentes
Absolutas
Absolutas
Relativas
Relativas
Classes
58
ESTATÍSTICA
Perceba que, para criarmos a ogiva de Galton, precisamos definir os pares ordenados. O par ordenado
para a Classe A para frequências acumuladas absolutas decrescentes seria (R$ 2.000 a R$ 3.000; 263).
Ora, não dá para representar um par ordenado; precisamos de dois valores, e não de uma faixa de
valores, ou seja, x claramente é igual a 19%, mas y é uma faixa, e não um número. Não temos como
representar no gráfico.
Para contornar esse problema, conceituamos o ponto médio de classe (pmi), que é obtido somando-se
os limites de uma classe e dividindo a soma por dois:
lii + lsi
pmi =
2
Dessa forma, por exemplo, o valor representante da classe A será R$ 2.500,00, porque:
li1 + ls1 3.000 + 3.000
pm1 = = = 2.500
2 2
E o par ordenado referente à classe A no que tange à frequência acumulada absoluta crescente
será (R$ 2.500,00; 263). Para todos os demais pontos, o raciocínio é similar, gerando a tabela completa
mostrada a seguir:
Tabela 24
Frequências acumuladas
Frequência simples
Frequências relativas
Classes
crescentes
Absolutas
Absolutas
Relativas
Relativas
59
Unidade I
250
Quantidade de representantes
200
150
100
50
0
R$ 2.500 R$ 3.500 R$ 4.500 R$ 5.500 R$ 6.500 R$ 7.500
Volume de vendas
Descrescente Crescente
Figura 20
100%
Quantidade de representantes
80%
60%
40%
20%
0
R$ 2.500 R$ 3.500 R$ 4.500 R$ 5.500 R$ 6.500 R$ 7.500
Volume de vendas
Descrescente Crescente
Figura 21
Exemplo de aplicação
Um auditor retirou uma amostra das contas a pagar de uma grande empresa para fins de
análise estatística e resumiu os dados coletados na tabela de frequências para dados agrupados
mostrados a seguir:
60
ESTATÍSTICA
Tabela 25
Resolução
Tabela 26
decrescente percentual
Frequência acumulada
Frequência acumulada
Frequência acumulada
Frequência acumulada
Quantidade de contas
crescente percentual
decrescente decimal
Frequência relativa
Frequência relativa
crescente decimal
Ponto médio
percentual
de classe
decimal
a pagar
Colunas de
orientação A B C D E F G H I J
de cálculo
I R$ 0,00 |--- R$ 10.000,00 212 R$ 5.000,00 0,209 20,9% 212 1015 20,9% 100,0%
II R$ 10.000,00 |--- R$ 20.000,00 256 R$ 15.000,00 0,252 25,2% 468 803 46,1% 79,1%
III R$ 20.000,00 |--- R$ 30.000,00 189 R$ 25.000,00 0,186 18,6% 657 547 64,7% 53,9%
IV R$ 30.000,00 |--- R$ 50.000,00 135 R$ 40.000,00 0,133 13,3% 792 358 78,0% 35,3%
V R$ 50.000,00 |--- R$ 70.000,00 108 R$ 60.000,00 0,106 10,6% 900 223 88,7% 22,0%
VI R$ 70.000,00 |--- R$ 90.000,00 40 R$ 80.000,00 0,039 3,9% 940 115 92,6% 11,3%
VII R$ 90.000,00 |--- R$ 12.000,00 60 R$ 105.000,00 0,059 5,9% 1000 75 98,5% 7,4%
VIII R$ 120.000,00 |--| R$ 150.000,00 15 R$ 135.000,00 0,015 1,5% 1015 15 100,0% 1,5%
Somatório 1015 1,000 100,0%
61
Unidade I
As frequências relativas decimais (coluna E) são obtidas dividindo-se as frequências simples (coluna
C) pela frequência total (somatório da coluna C).
250
Frequência simples
200
150
100
50
0
I II III IV V VI VII VIII
Classes
Figura 22
62
ESTATÍSTICA
Setograma
1%
Classes:
6% I
4%
21% II
11% III
IV
V
13%
VI
25%
VII
19% VIII
Figura 23
1200
1000
Frequências acumuladas
800
600
400
200
0
,00
0
0
,00
,00
,00
0
,00
0,0
0,0
0,0
00
00
00
00
00
.00
.00
.00
5.0
.0
.0
.0
5.0
5
15
60
25
40
80
13
10
R$
R$
R$
R$
R$
R$
R$
R$
Figura 24
63
Unidade I
Nos itens anteriores vimos as primeiras etapas do processo estatístico, basicamente a coleta de
dados e a organização e apresentação deles de forma analítica e gráfica. Esses passos são fundamentais
na estatística descritiva, mas não são únicos, nem sequer são os mais importantes.
Digamos que eu lhe apresente duas regiões no mundo. A região A tem temperatura média anual
de 18,4 °C e a região B de 18 °C e perguntasse em qual desses dois lugares você prefere viver. Muito
provavelmente a respostas seria: “tanto faz”.
Saiba mais
Nesse caso o uso exclusivo da média despreza o fato de que em Atibaia no mês mais quente temos
médias de 21,3 °C e no frio 14,8 °C. Já no deserto as temperaturas variam de 50 °C a -5 °C num único dia.
Precisamos então de outra medida estatística complementar (que seria provavelmente o desvio padrão).
64
ESTATÍSTICA
3.1.1 Médias
As médias são o primeiro e mais importante grupo de medidas de posição ou medidas de tendência
central e podem ser definidas como sendo o valor que todos os elementos de um conjunto teriam, se
todos fossem iguais. Quando, por exemplo, dizemos que os alunos de uma classe tiveram média de 6,8,
imaginamos que todos eles obtiveram nota 6,8, o que não é verdade, mas é uma primeira abordagem.
Depois analisaremos a variação do valor real de cada elemento em relação à média do agrupamento.
Para calcular a média, juntamos todos os valores da amostra e depois rateamos uniformemente entre
todos os elementos.
Muito mais frequente que qualquer outro é o cálculo da média aritmética, em que juntamos os
valores através de uma adição e rateamos o total através de uma divisão. Matematicamente teríamos:
n
∑ xi
X = i=1
N
Onde:
(2; 3; 5; 7; 8)
Apesar de o uso ser bem menos frequente, temos outros três tipos de médias, que se diferenciam
pela operação matemática de juntar e de ratear os valores da amostra. A seguir a definição e exemplo
do cálculo para a amostra.
Média geométrica
N
Mg = N ∏xi
i =1
Observação
n
N
Mg = N ∏xi = 5 2 × 3 × 5 × 7 × 8 = 5 1.680 = 4,42
i=1
Média harmônica
Juntam-se os valores pela soma dos inversos, rateiam-se pela divisão inversa:
N
Mh =
N 1
∑1=i x
i
Média quadrática
Juntam-se os valores pela soma dos quadrados, rateiam-se pela raiz quadrada da divisão:
N
Mq = 2 ∑ x=1xi2
N
66
ESTATÍSTICA
22 + 32 + 52 + 72 + 82 2 4 + 9 + 25 + 49 + 64 2 151 2
Mq = 2 = = = 30,2 = 5,50
5 5 5
A maior parte das aplicações práticas utiliza a média aritmética, mas, por vezes, o uso de outro tipo
de média é mais adequado.
Um investimento rendeu 15% no primeiro ano e 22% no segundo. Qual é o rendimento médio
desse investimento?
Vamos imaginar que o capital investido tenha sido de R$ 1.000,00. Após esses dois anos, o
montante seria de: M = 1.000 × 1,15 × 1,22 = R$1.403,00 .
n
∑ xi 1,15 + 1,22 = 1,185 ou18,5% de rendimento em média
X = i=1 =
N 2
n
Mg = N Π i=1 xi = 2 1,15 × 1,22 = 1,403 ≈ 1,184448 ou18,448% de rendimento em média
Um exemplo é o cálculo da velocidade média em um percurso de ida e volta em uma mesma rodovia,
em que a ida é percorrida a 75 km/h e a volta a 50 km/h. A média aritmética de 62,5 km/h não é a mais
correta. A velocidade média no percurso total seria a média harmônica:
N 2 2 2
Mh = = = = = 60 km / h
N 1 1 1 0,01333 + 0,02 0,031515
∑1=i x +
75 50
i
67
Unidade I
Como os dois trechos têm o mesmo comprimento, quanto menor for a velocidade, mais do tempo
total é despendido àquela velocidade e, então, ela tem um peso maior na composição da velocidade
média. Observe a tabela a seguir:
Tabela 27
Perceba que chegamos ao valor correto usando a média harmônica, e não a aritmética.
Já a média quadrática aplica-se quando temos valores positivos e negativos se alternando, como
na física ocorre com os diversos tipos de ondas. Em estatística, tem importância especial no cálculo do
desvio padrão de populações.
As médias definidas anteriormente são válidas quando obtidas em amostras com valores não
dotados de frequência e são chamadas de média simples, seguido do tipo, por exemplo, média
aritmética simples.
Quando trabalhamos com dados dotados de frequência utilizamos o termo: média ponderada,
seguido do tipo, por exemplo, média aritmética ponderada.
O cálculo da média ponderada é o mesmo da média simples com algumas adaptações matemáticas
para facilitar o processo. Os próximos dois exemplos mostram detalhadamente o cálculo das médias
ponderadas para tabelas de frequências para dados isolados e para dados agrupados.
Observação
Tabela 28
Recordando, média aritmética é a soma de todos os valores, dividida pelo número de valores. Nesse
exemplo, temos 24 valores diferentes. Em dois meses foram consumidas quatro embalagens; em três
meses, consumidas cinco embalagens e assim por diante. Então, se aplicássemos a fórmula da média
aritmética, teríamos:
n
∑ xi
X = i=1 =
N
2 + 5 + 5 + 5 + 6 + 6 + 6 + 6 + 7 + 7 + 7 + 7 + 7 + 8 + 8 + 8 + 8 + 9 + 9 + 10 + 13 147
= = =7
21 21
Apesar de correto, esse processo é muito trabalhoso, mas, se nos lembrarmos de que, por exemplo,
7 + 7 + 7 + 7 + 7 = 5 × 7 = 35, podemos encontrar a média aritmética utilizando a tabela a seguir:
Tabela 29
69
Unidade I
Perceba que cada um dos valores xi × fi corresponde à soma de todos os elementos que têm o
mesmo valor. Os cinco elementos (meses) têm valor 7 (quantidade de embalagens), portanto, a soma
desses cinco elementos é 35 assim como, obviamente, a multiplicação de 7 vezes 5. A terceira coluna,
portanto, corresponde ao somatório de todos os elementos de determinado valor, mesmo que obtido
pela multiplicação do valor pela frequência simples. Ao somar todos os valores dessa coluna, obtemos o
somatório de todos os elementos da amostra. A média aritmética ponderada será a divisão desse valor
pelo número de elementos. A seguir a formalização dos cálculos.
n
X=
∑ x=1xi × fi = 147 = 7 embalagens
fT 21
A tabela de frequências a seguir relaciona as rentabilidades das ações da carteira de uma corretora
de valores ao longo de um determinado período. Qual a variação média aritmética da rentabilidade das
ações dessa carteira?
Tabela 30
O cálculo segue exatamente o feito no exemplo anterior, com uma única diferença. Como
estamos trabalhando com faixas de valores, e não com um determinado valor, devemos nomear um
valor representante da classe, o ponto médio de classe. Feito isso, montamos a tabela necessária
para os cálculos.
Lembrete
70
ESTATÍSTICA
Tabela 31
Observação
Aplicando a fórmula:
n n
∑ xi × fi = ∑ x=1 pmi × fi = 21,625 = 0,0944 ou 9,44%
X = x =1
fT fT 229
Portanto podemos afirmar que a rentabilidade média dessa carteira foi de 9,44% no
período considerado.
Lembrete
Exemplo de aplicação
O gráfico a seguir mostra a distribuição por idade dos pacientes atendidos em determinada unidade
do SUS durante a última semana. Qual a idade média (aritmética) dos pacientes dessa unidade?
71
Unidade I
60
50
Quantidade de pacientes
40
30
20
10
0
0 5 10 15 20 25 30 35 40 45
| --- | --- | --- | --- | --- | --- | --- | --- | --- | ---
5 10 15 20 25 30 35 40 45 50
Idade em anos
Figura 25
Resolução
A leitura do gráfico nos permite montar a tabela de frequências a seguir. Na mesma tabela mostramos
as colunas de cálculos auxiliares para a aplicação dá fórmula de média aritmética:
Tabela 32
72
ESTATÍSTICA
Lembrar que os pontos médios de classe são calculados somando-se os limites da classe e dividindo
essa soma por dois.
A média aritmética é obtida pela divisão da soma de todos os valores pelo número total de elementos:
∑ pmi × fi 8.142,5
X= = = 21,6
∑ fi 377
Suponha que determinada escola faça as avaliações de suas notas anualmente, com quatro provas
bimestrais, e dê a essas provas diferentes pesos, ou seja, considere que as provas tenham importâncias
diferentes. Os pesos conferidos seriam um para o primeiro bimestre; dois para o segundo; três para o
terceiro e quatro para o quarto. Note que é quatro vezes mais importante tirar uma nota boa no quarto
bimestre do que no primeiro. Dois alunos tiraram as notas relacionadas a seguir. Qual foi a média
final de cada um?
Tabela 33
Perceba que eles tiraram exatamente as mesmas notas, mas em momentos diferentes. Isso vai
impactar na média final, em decorrência da ponderação estabelecida pelos pesos:
Tabela 34
João Maria
Bimestre Nota Peso Nota x Peso Nota Peso Nota x Peso
1º bimestre 10 1 10 4 1 4
2º bimestre 6 2 12 8 2 16
3º bimestre 8 3 24 6 3 18
4º bimestre 4 4 16 10 4 40
Somatório 10 62 10 78
73
Unidade I
Perceba que o peso se comporta como uma frequência e a nota é o valor vinculado, podemos usar
a formula da média aritmética de modo similar.
62
X João = = 6,2
10
7,8
XMaria = = 7,8
10
Perceba o efeito que a ponderação exerceu no resultado final. Apesar de terem as mesmas notas ao
longo do ano, o momento em que cada nota foi obtida influiu pesadamente na nota final. João teve
nota média igual a 6,2 e Maria igual a 7,8.
Exemplo de aplicação
A margem de lucro pode ser definida como uma porcentagem aplicada sobre o volume de uma
empresa. A empresa XPTO tem a margem de lucro variável devido à sazonalidade do custo de seus
insumos. A tabela a seguir resume os faturamentos mensais e a margem de lucro obtida no respectivo
mês. Qual é a margem de lucro média anual dessa empresa?
Tabela 35
Resolução
O exemplo se refere a uma média ponderada, visto que as margens de lucro, sendo variáveis de mês
a mês, devem ser ponderadas pelo volume de vendas de cada mês. Assim temos:
74
ESTATÍSTICA
Tabela 36
Observação
Como falamos anteriormente, as medidas de tendência central ou de posição são insuficientes para
caracterizar sozinhas um fenômeno, devido às variações entre os elementos. Essas variações serão objeto
do nosso próximo tópico, mas conceituamos um tipo de média que reduz essas variações aumentando
a nossa capacidade de análise.
As médias móveis são aplicadas às séries temporais de modo geral, ou seja, numa série de dados
relacionados à data em que ocorreram. O cálculo é feito utilizando os conceitos de média aritmética
simples, com um determinado número de períodos, variando, a cada cálculo, o primeiro elemento, ou
seja, a cada cálculo sai o primeiro elemento do cálculo anterior e entra o próximo elemento. Para o
75
Unidade I
cálculo da média móvel o primeiro passo é determinar o horizonte de análise, ou seja, quantos períodos
serão considerados a cada cálculo.
O exemplo a seguir clareia o processo de cálculo e o efeito esperado da média móvel. Considere que
a demanda de um insumo produtivo na empresa XPTO seja dado pela tabela a seguir. Calcular as médias
móveis de três meses; de cinco meses e de seis meses.
Tabela 37
Os cálculos são uma sequência de aplicações do conceito de média aritmética simples. Veja o primeiro
valor que aparece na coluna da média móvel de dois meses. Como foi obtido o valor 715?
É média aritmética simples dos dois primeiros valores mensais, ou seja, os valores de janeiro de 2019
e fevereiro de 2019, respectivamente 304 e 1.126.
n
∑ xi 304 + 1.126 = 1.430 = 715
X = i=1 =
N 2 2
76
ESTATÍSTICA
Os demais valores são obtidos por cálculos sucessivos, nos quais em cada um deles sai o mês mais
antigo e entra o mês seguinte. Veja os cálculos a seguir para entender a sistemática.
n
∑ xi 1.126 + 1.417 = 2.543 = 1.271,5
X = i=1 =
N 2 2
n
∑ xi 1.417 + 1.383 = 2.800 = 1.400
X = i=1 =
N 2 2
n
∑ xi 1.383 + 69 = 1.452 = 726
X = i=1 =
N 2 2
E assim por diante. Perceba que colocamos o valor da média móvel no mês seguinte ao último mês
considerado. A média móvel de cinco meses e a de seis meses é calculada de modo idêntico. Veja a seguir.
Observação
77
Unidade I
Nosso exemplo mostra uma convergência para valores em torno de 800 unidades.
Análise do consumo de insumo X
1.600
1.400 Quantidade
1.200 consumida
Quantidade de insumo
mar/19
mai/19
jul/19
set/19
nov/19
jan/20
mar/20
mai/20
jul/20
Figura 26
3.1.2 Separatrizes
As médias são uma das visões que podemos ter da amostra. Outro conjunto de visões possíveis são
as separatrizes. Estas dividem a amostra em subconjuntos de mesma quantidade de elementos. A mais
usada é a mediana que divide a amostra em duas partes de mesma quantidade de elementos.
Mas também se definem os quartis que dividem a amostra em quatro partes e os percentis em 100 partes.
Os cálculos das várias separatrizes são idênticos. Começaremos com as medianas, as mais usadas, e
posteriormente veremos as outras duas.
3.1.2.1 Mediana
Suponha que você esteja em sala de aula com mais 50 colegas e todos acabaram de receber a nota
da prova de determinada disciplina. O professor pergunta quem tirou a nota mais alta. Alguém se
apresenta e o professor o coloca, isolado, do lado esquerdo da sala. Em seguida pergunta quem tirou a
nota mais baixa e coloca aquele que se apresentou, também isolado, do lado direito da sala.
Em seguida o professor repete a pergunta repetidamente e conduz aqueles com notas mais altas à
esquerda e os com notas mais baixas à direita. Depois de um tempo, 25 alunos estão à esquerda e outros
25 alunos à direita e só você permanece sentado no centro da classe. Todos os alunos à esquerda tiveram
nota maior (ou igual) à sua e todos os à direita notas menores (ou iguais) à sua.
78
ESTATÍSTICA
O professor tem, então, um dilema. Caso mande você para a esquerda, o grupo dos melhores ficará
com 26 alunos e o outro grupo com 25 alunos. Caso o mande para direita, inverte-se a situação. Você
tem uma situação peculiar na sala. Você é o elemento mediano da classe, ou seja, o elemento cuja nota
é superior à metade da classe e inferior à outra metade e sua nota é a mediana.
Simbolizamos o elemento mediano por EMe e a mediana por Me. Quando temos poucos elementos,
como o exemplo mencionado, a determinação da mediana é simples e elementar, mas, quando temos
uma quantidade grande de elementos, normalmente apresentados na forma de tabela de frequências,
precisamos determinar um procedimento de cálculo adequado. Os exemplos a seguir mostram a
evolução dos cálculos.
A – {2;5;7;9;15}
N +1
EMe =
2
N +1 5 +1
EMe = = =3
2 2
Você já deve estar se perguntando: se a amostra tiver um número par de elementos, como fica?
Vamos ver no exemplo seguinte.
B – {10;12;18;20;25;29}
N +1 6 +1
EMe = = = 3,5
2 2
Evidentemente não existe um 3,5º. Os números ordinais são naturais e não podem ser fracionários.
É absurdo falar em terceiro e meio elemento!
79
Unidade I
Para nós, esse 3,5º representa um elemento (fictício, no caso) entre o 3º e o 4º elemento e seu valor
é a interpolação desses dois valores, ou seja:
18 + 20
Me = = 19
2
Portanto, a mediana é igual a 19, um valor que não existe na amostra, mas que divide a amostra em
dois grupos de mesma quantidade de elementos, três abaixo (10;12;18) e três acima (20;25;29).
Observação
C – {110;95;81;120;52;92;78}
Primeiro passo: nós precisamos ordenar os números em ordem crescente, a amostra ficaria
representada assim: {52;78;81;92;95;110;120}. Em seguida fazemos o cálculo como anteriormente:
N +1 7 +1
EMe = = =4
2 2
Como já falado, as amostras normalmente têm uma quantidade de elementos muito maior que
esses exemplos destacados e são apresentadas na forma de uma tabela de frequências. O cálculo da
mediana seguirá o mesmo processo geral, com algumas alterações.
Tabela 38
80
ESTATÍSTICA
Perceba que a amostra tem 191 elementos, portanto o elemento mediano será dado por:
N + 1 191 + 1
EMe = = = 96
2 2
A mediana, claro, será o valor do 96º elemento. Mas qual é esse valor?
O uso da frequência acumulada crescente nos permite calcular o valor desejado. Perceba que
a frequência simples do número zero é 28, ou seja, 28 famílias não têm filhos (zero filhos). Caso
colocássemos todas as 191 famílias “em fila” daquela que tem menos filhos para a que tem mais, as
28 primeiras posições seriam ocupadas pelas famílias sem filhos. Logo em seguida, da 29º família
até a 62º, seriam famílias com um filho e assim, sucessivamente, logo a 96º família teria dois filhos, porque
ela está acima de 62º e abaixo de 127º. Logo, a mediana dessa amostra é uma família com dois filhos.
Isso significa que 95 famílias têm dois filhos ou menos e 95 famílias têm dois filhos ou mais. A figura
a seguir mostra como se desenha essa situação, imaginando uma “fila” de famílias.
0 filho 1 filho 2 filhos 2 filhos 3 filhos 4 filhos
5 filhos
mais de 5 filhos
2 filhos 191ª
1ª família 28ª família 65ª família 127ª família 168ª 180ª 189ª
Família mediana: 96ª
Figura 27
Tabela 39
Começamos o cálculo pela determinação do elemento mediano, como feito nos outros exemplos.
81
Unidade I
N + 1 240 + 1
EMe = = = 120,5
2 2
Portanto, o elemento mediano é fictício e está entre o elemento 120 e o 121. Esses elementos estão
na classe C, como se pode ver pela coluna das frequências acumuladas crescentes (120º e 121º são
elementos acima do 92º e abaixo do 155º, ou seja, estão na classe C).
Observação
y2
yA
y1
x
x1 xA x2
Figura 28
No cálculo da mediana, para não efetuarmos a interpolação a cada repetição usaremos sempre uma
fórmula preparada por interpolação, mas utilizando os símbolos estatísticos conhecidos. Essa fórmula é:
E − facant
Me = li + Me ×h
fclasse
Onde:
Me = mediana
82
ESTATÍSTICA
Lembrete
li = 3.000,00
Eme = 120,5
facant = 92
fclasse = 63
120,5 − 92
Me = 3.000,00 + × 1.000,00 →
63
28,5
Me = 3.000,00 + × 1.000,00 →
63
Me = 3.000,00 + 452,38 →
Me = R$3.452,38
83
Unidade I
O significado dessa informação é que o salário de R$ 3.452,38 é mediano, ou seja, 50% dos
funcionários da amostra ganham acima desse valor e 50% ganham abaixo desse valor.
Observação
Exemplo de aplicação
A tabela de frequências a seguir resume as vendas diárias no balcão de uma loja de armarinhos. As 50%
maiores vendas serão bonificadas. A partir de que valor uma operação de venda terá direito à bonificação?
Tabela 40
Resolução
Perceba que a medida estatística necessária para responder a essa questão é a mediana, visto que
estamos separando as operações de vendas e duas metades (50% acima dos 50% abaixo).
N + 1 321 + 1
EMe = = = 161
2 2
Utilizando a coluna das frequências acumuladas crescentes, determinamos que esse elemento
mediano esteja na classe E, que é, portanto, a classe mediana. Assim, a mediana é um valor entre
R$ 600,00 e R$ 800,00, que será definido pela fórmula de interpolação já nossa conhecida:
84
ESTATÍSTICA
161 − 108
Me = 600,00 + × 200,00 →
79
Me = R$ 734,18
A mediana nos atende quando queremos dividir a amostra em dois subconjuntos de mesma
quantidade de elementos, mas muitas vezes queremos dividir a amostra em uma quantidade de partes
diferentes. Nesse momento são definidas outras separatrizes, sendo as mais comuns e usadas os
quartis e os percentis.
Os quartis, em número de três (quartil 1; 2 e 3, simbolizados respectivamente por Q1; Q2; Q3), dividem
a amostra em quatro partes de mesma quantidade de mesmo tamanho (quantidade de elementos).
Os percentis, em número de 99 (percentis de 1 a 99, simbolizados por P1 até P99), dividem a amostra
em 100 partes de mesma quantidade de elementos.
Q1 Q2 Q3
Quartis
Percentis
P25 P50 P75
Figura 29
Observação
Muitos autores preferem usar o nome centil para a separatriz que divide
a amostra em cem partes. Neste texto utilizaremos a terminologia mais
usada: percentil. Também é definido o termo decil (D1 a D9) para a divisão
em dez partes, mas é um conceito pouco usado.
85
Unidade I
i(N + 1)
Elemento quartílico → EQi =
4
i(N + 1)
Elemento percetnil → EPi =
100
Calculado o elemento divisor, localizamos o valor ou a classe de valores a que ele pertence e
determinamos o valor da separatriz, se necessário, através de interpolação, a exemplo do que fizemos
para o cálculo da mediana. Os exemplos de aplicação a seguir ilustram esses cálculos.
Exemplo de aplicação
Um determinado produto pode ser vendido em caixas contendo 10, 20, 30, 40 ou 50 unidades.
A tabela a seguir mostra a quantidade de caixas vendidas ao longo de determinado período, pede-se
calcular os três quartis e os percentis 10; 50 e 95.
Tabela 41
Quantidade de unidades por caixa Quantidade de caixas vendidas Frequência acumulada crescente
10 120 120
20 265 385
30 380 765
40 295 1060
50 110 1170
Frequência total 1170
Resolução
Quartil 1:
i (N + 1) 1(1.170 + 1)
EQi = → EQ1 = = 292,75
4 4
O elemento fictício 292,75 está entre o 292º e o 293º, ambos correspondendo a caixas com
20 unidades (observe a coluna das frequências acumuladas na tabela), portanto, o quartil 1 é igual
a caixas com 20 unidades, Q1 = 20, significa que 25% dos produtos vendidos o foram em caixas
contendo 20 unidades ou menos e, consequentemente, 75% dos produtos vendidos o foram em
caixas contendo 20 unidades ou mais.
86
ESTATÍSTICA
Quartil 2:
i (N + 1) 2 (1.170 + 1)
EQi = → EQ1 = = 585,5
4 4
O elemento fictício 585,5 está entre o 285º e o 586º, ambos correspondendo a caixas com
30 unidades (observe a coluna das frequências acumuladas na tabela), portanto, o quartil 2 é igual
a caixas com 30 unidades, Q2 = 30, significa que 50% dos produtos vendidos o foram em caixas
contendo 30 unidades ou menos e, consequentemente, 50% dos produtos vendidos o foram em
caixas contendo 30 unidades ou mais. Perceba que esse valor é também o valor da mediana, visto o
quartil 2 e a mediana serem sempre o mesmo valor.
Quartil 3:
i (N + 1) 3 (1.170 + 1)
EQi = → EQ1 = = 878,25
4 4
O elemento fictício 878,25 está entre o 878º e o 879º, ambos correspondendo a caixas com
40 unidades (observe a coluna das frequências acumuladas na tabela), portanto, o quartil 3 é igual
a caixas com 40 unidades, Q3 = 40, significa que 75% dos produtos vendidos o foram em caixas
contendo 40 unidades ou menos e, consequentemente, 25% dos produtos vendidos o foram em
caixas contendo 40 unidades ou mais.
Percentil 10:
i (N + 1) 10 (1.170 + 1)
EPi = → EP10 = = 117,1
100 100
O elemento fictício 117,1 está entre o 117º e o 118º, ambos correspondendo a caixas com dez unidades
(observe a coluna das frequências acumuladas na tabela), portanto o percentil 10 é igual a caixas com dez
unidades, P10 = 10, significa que 10% dos produtos vendidos o foram em caixas contendo dez unidades
e consequentemente 90% dos produtos vendidos o foram em caixas contendo dez unidades ou mais.
Percentil 50:
i (N + 1) 50 (1.170 + 1)
EPi = → EP50 = = 585,5
100 100
O elemento fictício 585,5 está entre o 585º e o 586º, ambos correspondendo a caixas com
30 unidades (observe a coluna das frequências acumuladas na tabela), portanto o percentil 50 é
igual a caixas com 30 unidades, P50 = 30, significa que 50% dos produtos vendidos o foram em caixas
contendo 30 unidades ou menos e consequentemente 50% dos produtos vendidos o foram em
87
Unidade I
caixas contendo 30 unidades ou mais. Perceba que esse valor é também o valor da mediana e do
quartil 2. Essas três medidas são coincidentes.
Percentil 95:
i (N + 1) 95 (1.170 + 1)
EPi = → EP95 = = 1.112,45
100 100
O elemento fictício 1.112,45 está entre o 1.112º e o 1.113º, ambos correspondendo a caixas com
50 unidades (observe a coluna das frequências acumuladas na tabela), portanto, o percentil 90 é
igual a caixas com 50 unidades, P95 = 50, significa que 95% dos produtos vendidos o foram em
caixas contendo 10 unidades ou menos e consequentemente 5% dos produtos vendidos o foram
em caixas contendo 50 unidades.
Como aconteceu no cálculo da mediana, será necessária a interpolação de valores quando a tabela
de frequências for do tipo agrupado. Através do cálculo do elemento mediano vamos ter condições de
saber em que classe determinada separatriz está, mas somente por interpolação saberemos o valor exato.
Para os quartis:
EQ − facant
Qi = li + i ×h
fclasse
Onde:
Qi = quartil i (sendo i= 1, 2 ou 3)
Para os percentis:
EP − facant
Pi = li + i ×h
f
classe
88
ESTATÍSTICA
Onde:
Exemplo de aplicação
Uma grande empresa multinacional paga uma grande quantidade de contas diariamente. As contas
pagas durante um mês foram sintetizadas na tabela a seguir, de acordo com seu valor unitário.
Tabela 42
Frequências
Quantidade de
Valor das contas pagas acumuladas
Classes contas pagas crescentes
lii lsi fi faci↑
I R$ 0,00 |---- R$ 1.000,00 2.500 2.500
II R$ 1.000,00 |---- R$ 5.000,00 3.850 6.350
III R$ 5.000,00 |---- R$ 10.000,00 4.920 11.270
IV R$ 10.000,00 |---- R$ 20.000,00 5.830 17.100
V R$ 20.000,00 |---- R$ 50.000,00 3.220 20.320
VI R$ 50.000,00 |---- R$ 100.000,00 1.052 21.372
VII R$ 100.000,00 |---- R$ 200.000,00 256 21.628
VIII R$ 200.000,00 |---- R$ 500.000,00 120 21.748
IX R$ 500.000,00 |---- R$ 1.000.000,00 56 21.804
X R$ 1.000.000,00 |---- R$ 5.000.000,00 15 21.819
Frequência total 21.819
89
Unidade I
O pagamento das 10% contas de maior valor deve ser autorizado pelo diretor administrativo. Acima
de que valor é obrigatória essa autorização?
As 40% contas de menor valor são pagas com recursos do caixa de cada filial. As demais devem ser
provisionadas com a matriz. Qual é esse valor limite?
Resolução
Perceba que todas as questões pedem elementos separatrizes, ou seja, quantias que separam as
contas em grupos acima ou abaixo de determinado valor. Dessa forma, para responder às questões,
devemos calcular os quartis e percentis apropriados.
Item a) – O valor que limita as 25% contas de menor valor é o quartil 1 (ou o percentil 25, já que
ambos são iguais).
25% contas de
menor valor Q1 ou P25 75% contas de maior valor
i(N + 1) 1(21.819 + 1)
EQi = → EQ1 = = 5.455
4 4
A classe do 1º quartil é a II. Portanto o valor de Q1 estará entre R$ 1.000,00 e R$ 5.000,00. O valor
exato é obtido por interpolação.
Q1 = R$ 4.070,13
li = 1.000,00
EQi = 5.455
facant = 2.500
fclasse = 3.850
h = R$ 4.000,00
90
ESTATÍSTICA
O valor que limita as 25% contas de menor valor é R$ 4.070,13, ou seja, 25% das contas pagas têm
valor inferior a este.
Item b) – O valor que limita as 25% contas de maior valor é o quartil 3 (ou o percentil 75, já que
ambos são iguais).
25% contas de
75% contas de menor valor Q3 ou P75 maior valor
i(N + 1) 3 (21.819 + 1)
EQi = → EQ3 = = 16.365
4 4
A classe do 3º quartil é a IV. Portanto, o valor de Q3 estará entre R$ 10.000,00 e R$ 20.000,00. O valor
exato é obtido por interpolação.
Q1 = R$ 18.79,28
li = 10.000,00
EQi = 16.365
facant = 11.270
fclasse = 5.830
h = R$ 10.000,00
O valor que limita as 25% contas de maior valor é R$ 18.739,28, ou seja, 25% das contas pagas têm
valor superior a este.
Item c) – O valor que limita as 10% contas de maior valor é o percentil 90.
10% contas de
90% contas de menor valor maior valor
P90
91
Unidade I
i(N + 1) 90 (21.819 + 1)
EPi = → EP90 = = 19.638
100 100
A classe do 90º percentil é a V. Isso significa que o valor de P90 estará entre R$ 20.000,00 e R$ 50.000,00.
O valor exato é obtido por interpolação.
P90 = R$ 43.645,96
li = 20.000,00
EQi = 19.638
facant = 17.100
fclasse = 3.220
h = R$ 30.000,00
Dessa forma, contas com valor acima de R$ 43.645,96 devem ter autorização do diretor financeiro
da empresa.
Item d) – O valor que limita as 40% contas de menor valor é o percentil 40.
i(N + 1) 40 (21.819 + 1)
EPi = → EP40 = = 8.728
100 100
A classe do 40º percentil é a III. Portanto, o valor de P40 estará entre R$ 5.000,00 e R$ 10.000,00.
O valor exato é obtido por interpolação.
P90 = R$ 5.238,18
92
ESTATÍSTICA
li = 5.000,00
EQi = 8.728
facant = 6.350
fclasse = 4.920
h = R$ 5.000,00
Dessa forma, contas com valor inferior a R$ 5.238,18 são pagas com recursos do caixa de cada filial.
3.1.3 Modas
Quando os valores da amostra são apresentados na forma isolada ou então em uma tabela de
frequências para dados não agrupados, a determinação da moda é feita por simples observação. Já para
dados agrupados é necessário um raciocínio adicional.
Amostra A: {2;2;3;4;5;5;5;6;6;7;8;9}
A simples observação determina que 5 é o valor que mais vezes aparece na amostra, portanto, nesse
caso a moda é 5, ou seja, Mo = 5. Como só existe um valor que se repete mais vezes que todos os outros,
chamamos esse tipo de amostra de unimodal ou simplesmente modal.
Amostra B: {10;15;15;16;16;16;16;18;18;18;20;20;20;20;26;32;32}
Novamente por observação, notamos que o valor 16 e o valor 20 aparecem repetidos quatro vezes,
mais do que qualquer outro valor, portanto teremos duas modas, o valor 16 e o 20, Mo = 16 e Mo = 20.
Trata-se de uma amostra multimodal ou plurimodal.
93
Unidade I
Amostra C: {150;220;351;465;510}
Perceba que não existem valores repetidos, portanto não existe moda. É uma amostra amodal,
simbolizada por Mo = ∉.
Amostra D:
Tabela 43
O número de filhos modal nesse caso é 65, a situação com maior frequência (65 famílias),
portanto, Mo = 2
Amostra E:
Tabela 44
Observando a tabela, notamos que a classe de maior frequência é a dos alunos regulares, ou seja, a
nota modal está entre 4 e 6, mas qual o valor exato?
Essa informação foi perdida ao agruparmos os dados. A rigor não é possível saber. No entanto,
estudos empíricos estabeleceram algumas recomendações úteis para determinarmos um valor pelo
menos provável para essa moda.
94
ESTATÍSTICA
Observação
Para a determinação da moda em casos de valores agrupados três recomendações são frequentemente
usadas. As recomendações de King, de Czuber e de Pearson. Calcularemos a nota modal dos alunos do
exemplo pelos três métodos ou critérios.
fpost
Mok = li + ×h
fant + fpost
Onde:
li = 4
fant = 32
fpost = 35
h=2
95
Unidade I
fpost 35
Mok = li + ×h= 4 + × 2 → Mok = 5,04
fant + fpost 32 + 35
O critério de Czuber é muito parecido com o de King, mas leva em conta também a frequência
simples da classe modal, além das frequências simples, anteriores e posteriores. A expressão matemática
fica sendo:
Moc = li +
(fclasse − fant )
×h
(
( fclasse − fant ) + fclasse − fpost )
Onde:
li = 4
fclasse = 46
fant = 32
fpost = 35
h=2
96
ESTATÍSTICA
Moc = li +
(fclasse − fant )
×h→
( classe ant ) classe post
f −f + f (
−f )
→ Moc = 4 +
(46 − 32) 14 14
×2= 4 + × 2 = 4 + 25 × 2 →
( 46 − 32 ) + ( 46 − 35 ) 14 + 11
Mop = 3Me - 2X
Me = mediana
X = média aritmética
Assim sendo, precisamos calcular a média e a mediana da nossa amostra para podermos aplicar o
método de Pearson, o que faremos com a ajuda da tabela a seguir:
Tabela 45
97
Unidade I
Cálculo da média:
n n
∑ xi × fi = ∑ x=1 pmi × fi = 813 = 4,99
X = x =1
fT fT 163
Cálculo da mediana:
N + 1 163 + 1
EMe = = = 82
2 2
Classe mediana – regulares, na qual:
E − facant 82 − 58
Me = li + Me × h → Me = 4 + × 2 → Me = 5,04
fclasse 46
li = 4
EMe = 82
fclasse= 46
facant = 58
h=2
Perceba que as três modas apresentam valores diferentes, visto serem produtos de métodos empíricos,
mas, quanto mais simétrica for a amostra, mais próximos esses valores estarão entre si.
Observação
A escolha de qual dos três critérios deve ser seguido depende de cada amostra em si. Para amostras
simétricas, a recomendação de Pearson é adequada, à medida que essa simetria é perdida os outros
critérios são mais usados.
98
ESTATÍSTICA
O uso de cada uma das medidas de posição depende da situação prática que se apresenta. Adriano Leal
Bruni, em sua obra Estatística aplicada à gestão empresarial (2013), apresenta uma série de vantagens e
desvantagens de cada uma delas, as quais podem ser resumidas no quadro a seguir:
Quadro 4
É de fácil compreensão, podendo ser É afetada por valores extremos da série, não
calculada diretamente usando calculadoras representando com precisão a distribuição
apropriadas em que esses valores ocorrem com
frequência acentuada
Depende de todos os valores da distribuição, É necessário conhecer todos os valores
usando todos os dados disponíveis da distribuição
Médias Evidencia bastante estabilidade de amostra A média não tem, necessariamente,
para amostra existência real
Possibilita a manipulação de dados, com Pode ser obtida uma média de número
cálculo de médias combinadas fracionário inexistente, por exemplo,
6,7 alunos
Pode ser facilmente incluída em equações
matemáticas
Mesmo que alguns valores da série sejam Se for determinada a mediana de grupos
modificados, ela pode manter-se inalterada separados, não será encontrada a mediana
do grupo
Os valores extremos não interferem no Difícil de ser incluída em equações
seu resultado, por isso é indicada quando matemáticas
Medianas existem valores discrepantes
Mesmo que os valores mais altos ou mais É necessário conhecer todos os valores
baixos da série não estejam definidos, ela da distribuição
pode ser determinada
Pode ser utilizada para dados que têm
possibilidade de ser ordenados
Caso algum valor da série for modificado A moda tem que ter necessariamente um
não necessariamente a moda alterará valor real, já que ela é representada por
algum valor da série
Quando utilizada para calcular distribuições
Valores extremos não interferem no de classe aberta, não pode ser determinada
seu resultado empregando procedimentos aritméticos
Modas elementares
Pode ser calculada em distribuições que Difícil de incluir em equações matemáticas
possuam classe indeterminada
A distribuição pode ter mais de uma moda
Não usa todos os dados disponíveis
99
Unidade I
Grande parte das análises estatísticas centra-se nas medidas de posição ou medidas de tendência
vistas no capítulo anterior. No entanto, o uso apenas dessas medidas é insuficiente para caracterizar
completamente o comportamento de uma amostra.
As medidas de posição são visões da amostra como um todo, não detalham as diferenças de
cada um dos elementos em relação às medidas de tendência central, produzindo, eventualmente,
informações ilusórias.
Imagine duas turmas de alunos que fizeram a mesma prova. Para analisar o comportamento de cada
uma das salas, uma medida estatística adequada seria a média. Evidentemente uma média alta nos
indica uma classe de alto desempenho, uma média baixa o oposto.
Vamos dizer que as duas turmas tiveram a mesma média: por exemplo, cinco. Seria correto afirmar
que ambas tiveram o mesmo desempenho? Aparentemente, sim, mas um pouco de reflexão nos faz
pensar que uma das classes pode ter tido média cinco porque todos os alunos tiveram nota cinco, sem
exceção, enquanto a outra obteve a mesma média, mas porque metade dos alunos tirou dez e a outra
metade zero. São duas situações que dificilmente ocorrerão na prática, mas são possíveis.
100
ESTATÍSTICA
Observação
Esses desvios são definidos como a diferença entre o valor de um elemento e o valor da medida de
posição considerada. São considerados em módulo, ou seja, seu sinal não é considerado. Significa que
não nos interessa se o elemento apresenta um valor maior ou menor que a medida de posição, nos
interessa que existe esse desvio. Portanto, o sinal é desconsiderado.
Lembrete
di = | xi - X |
Veja o exemplo a seguir. Dada a amostra {4;5;6;8;12}, quais são os desvios em relação à média?
∑ xi 4 + 5 + 6 + 8 + 12 35
X= = = =7
N 5 5
desvios: {3;2;1;1;5}
101
Unidade I
12
10
d5
8 d4
d3
6 d2
d1
4
2
elementos
0
1º 2º 3º 4º 5º
Figura 30
A simples relação dos desvios ocorridos numa amostra não é suficiente para termos uma medida
prática e eficaz. Precisamos compor todos os desvios (que, ao contrário do exemplo, pode resultar em
centenas) em uma única medida que os caracterize.
A primeira ideia que nos ocorre é calcular uma média dos desvios (em módulo, claro). Essa medida
realmente existe e é chamada de desvio médio. Não é muito usada, mas nos dá uma ideia inicial da
dispersão ocorrida na amostra.
N
∑ | di |
dm = i=1
N
3 + 2 + 1 + 1 + 5 12
dm = = = 2,4
5 5
O significado dessa medida é que a maior parte dos elementos da amostra está compreendida entre
a média menos o desvio médio e a média mais o desvio médio (X + dm). No exemplo, ficaria 7 + 2,4,
ou seja, entre 4,6 e 9,4. Os valores fora desse campo são considerados excepcionais. Mais tarde, quando
falarmos de comportamento da curva normal, nós refinaremos esse conceito.
102
ESTATÍSTICA
O desvio médio é um conceito facilmente entendido, mas não é muito utilizado, porque, sendo
o desvio uma distância, seu impacto é mais bem representado se for elevado ao quadrado. Essa
característica nos conduz à definição de desvio padrão, a mais utilizada das medidas de dispersão.
Observação
Nas várias ciências naturais é bem claro que o efeito de uma distância é
dado pelo quadrado dessa distância, e não pelo seu simples valor. Newton
já considerava isso quando definiu a lei da gravidade: matéria atrai matéria
na razão direta das massas e na razão inversa do quadrado das distâncias.
O cálculo do desvio padrão, simbolizado por S, é similar ao do desvio médio com a diferença do expoente
do desvio:
N
S=
∑ i=1di2
N −1
• A raiz quadrada aparece porque os desvios foram tomados ao quadrado e, portanto, devem retornar
à sua unidade de medida original. A medida sem a raiz quadrada também existe, é chamada de
variância e veremos a seguir.
• Observe que, como os desvios são elevados ao quadrado, não precisamos nos preocupar com o
sinal dos desvios, visto que o quadrado de um número é sempre positivo, independentemente
do sinal desse número.
N
S=
∑ i=1di2 = 32 + 22 + 12 + 12 + 52
==
9 + 4 + 1 + 1 + 25
=
40
= 10
N −1 5 −1 4 4
Como foi dito, para o desvio médio, o intervalo 7 + 3,2 inclui a maioria dos elementos da amostra.
Veremos mais adiante que cerca de 70% dos elementos de uma amostra estarão no intervalo X + S.
103
Unidade I
Mencionamos anteriormente a variância, que, matematicamente, não é nada mais nada menos que
a raiz quadrada do desvio padrão e é simbolizada por S2.
N
2
S =
∑ d2
i=1 i
N −1
40
S2 = = 10
4
Uma questão se impõe: por que são definidas duas medidas tão parecidas? A resposta vem de alguns
fatores. Apesar de, matematicamente, podermos dizer que a variância é o quadrado do desvio padrão
ou que o desvio padrão é a raiz quadrada da variância, em estatística, o correto é a segunda afirmação.
Já o desvio padrão tem a mesma unidade de medida que a média, o que é conveniente, mas, em
compensação, o desvio padrão é um estimador tendencioso, a variância é um estimador não tendencioso.
Observação
O desvio padrão é de longe a medida de dispersão absoluta mais usada, principalmente nas
utilizações mais rotineiras das ferramentas estatísticas. Veremos mais adiante as medidas de dispersão
relativas, que são, via de regra, calculadas, também, a partir do desvio padrão.
O cálculo do desvio padrão e da variância (e de todas as possíveis medidas de dispersão) ficará mais
trabalhoso se, em vez de cinco elementos, como no exemplo que trabalhamos, tivermos 50 ou 500 ou
50.000. Retornamos então às tabelas de frequência para dados agrupados ou não, nas quais os cálculos
são idênticos, mas usando ferramentas matemáticas mais elaboradas.
104
ESTATÍSTICA
Exemplo 1
Tabela 46
Tabela 47
Número de Desvios ao
Número de N. de televisores x Desvios ao
televisores por Desvios quadrado vezes a
residências N. de residências quadrado
residência frequência
x1 fi x1 × fi di = xi - X d2i d2i × fi
0 5 0 -2 4 20
1 45 45 -1 1 45
2 38 76 0 0 0
3 27 81 1 1 27
4 10 40 2 4 40
5 4 20 3 9 36
Frequência total 129 262 168
Cálculo da média:
∑ xi × fi 129
X= = = 2,0 televisores por residência
fT 262
Cálculo da variância:
105
Unidade I
Observe os pontos:
• Os desvios de cada um dos valores foram multiplicados pelas frequências simples correspondentes,
isso porque os desvios se repetem para cada um dos elementos, mesmo aqueles de mesmo valor.
Por exemplo, o valor 0 (residências sem nenhum televisor) ocorreu em cinco residências e está
desviado de duas da média, portanto, ao somar os desvios ao quadrado devemos somar 22 cinco
vezes, um desvio para cada residência, ou seja, 4 x 5 = 20.
• Não precisamos nos preocupar em eliminar os sinais dos desvios. Como o valor será elevado ao
quadrado, ficará sempre positivo.
• Os valores das três medidas estão expressos com uma casa decimal, o que pode provocar
arredondamentos.
• O maior número de residências tem entre 0,8 televisor e 3,2 televisores (cerca de 70% das
residências estão nessa situação). Esses valores são obtidos somando e subtraindo da média
o desvio padrão.
Exemplo 2
Um levantamento com usuários da internet revelou o tempo que eles ficam por dia na internet em
minutos. Qual o tempo médio e seu desvio padrão?
Tabela 48
106
ESTATÍSTICA
O processo de cálculo é semelhante ao do exemplo anterior, com exceção dos valores. Quando
trabalhamos com dados agrupados, usamos o ponto médio de classe com representante da classe.
A tabela a seguir nos ajuda nos cálculos.
Tabela 49
Desvios ao
Minutos conectados Ponto médio de Ponto médio x
Número de usuários quadrado vezes
diariamente classe frequência frequência
li | -ls fi pmi 〖pmi × fi d2i × f1
0|---50 28 25 700 419.489
50|---100 45 75 3.375 235.879
100|---150 57 125 7.125 28.600
150|---200 85 175 14.875 64.750
200|---250 41 225 9.225 246.892
250|---300 19 275 5.225 309.353
Somatório 275 40.525 1.304.963
Cálculo da média:
∑ pmi × fi 40.525
X= = = 147,4 minutos
fT 275
Cerca de 70% dos usuários ficarão conectados na internet entre 78,4 e 207,4 minutos.
O desvio padrão e a variância são as mais importantes medidas de dispersão absolutas, mas existe
também um grupo de medidas de dispersão relativas. Utilizam-se medidas de dispersão relativas
quando queremos avaliar simultaneamente a tendência central e a dispersão de uma amostra.
Conceitualmente essas medidas de dispersão relativas são obtidas pela divisão de uma medida de
dispersão por uma medida de posição e são chamadas genericamente de coeficientes de variação.
As mais conhecidas e usadas são os coeficientes de variação de Pearson e o coeficiente de variação de
Thorndike cujas fórmulas de cálculo são:
107
Unidade I
S
Coeficiente de variação de Pearson: Cvp = ×100
X
S
Coeficiente de variação de Thorndike : Cvp = ×100
Me
• Queremos comparar amostras diferentes visando obter o melhor compromisso entre posição e
dispersão. Nesse caso, quanto menor for o valor do coeficiente, melhor o compromisso.
• Avaliar, em primeira análise, se uma amostra se prestará ou não a boas estimativas. De modo geral
considera-se que, quanto menor o coeficiente de variação, maior a precisão da estimativa. O IBGE
utiliza o seguinte quadro para avaliar essa precisão:
Quadro 5
A Até 5 Ótima
B Mais de 5 a 15 Boa
C Mais de 15 a 30 Razoável
E Mais de 50 Imprecisa
Exemplo 1
Um consultor financeiro oferece a seus clientes três opções de investimento relacionadas na tabela
a seguir. Do ponto de vista estatístico qual apresenta menor risco?
108
ESTATÍSTICA
Observação
Tabela 50
Como visto, o menor risco será obtido para o investimento de menor coeficiente de variação, ou seja,
para o investimento A. Observe que o investimento que dá o maior retorno é o B e o investimento mais
estável, com menor variação, é o C, mas é o A que oferece menor risco.
Tabela 51
Exemplo 2
Visando estimar a média salarial de determinada classe profissional em dada região, tomou-se uma
amostra cuja tabela de frequências é a seguinte:
Tabela 52
109
Unidade I
A resposta a essa questão será dada pelo coeficiente de variação. Precisamos saber a média e o
desvio padrão da distribuição para efetuar o cálculo do coeficiente.
Tabela 53
Desvios ao
N. de Ponto médio Ponto médio
Salários quadrado x
Classe profissionais de classe x Frequência Frequência
lii lsi fi pmi 〖pmi × fi d2i × fi
A 3.000,00 |--- 3.200,00 24 3.100,00 74.400 4.154.342
B 3.200,00 |--- 3.400,00 32 3.300,00 105.600 1.493.683
C 3.400,00 |--- 3.600,00 41 3.500,00 143.500 10.562
D 3.600,00 |--- 3.800,00 37 3.700,00 136.900 1.251.991
E 3.800,00 |--| 4.000,00 28 3.900,00 109.200 4.127.693
Somatório 162 569.600 11.038.272
∑ pmi × fi 569.600
X= = = 3.516,05
ft 162
∑ di2 × fi 11.038.272
S= = = 261,84
fT − 1 162 − 1
S 261,84
Cvp = × 100 = × 100 = 7,45%
X 3.516,05
Como o coeficiente de variação está entre 5% e 15%, podemos dizer que a estimativa será
de boa qualidade.
110
ESTATÍSTICA
4.1 Cálculos e efeitos das diferenças entre a média, mediana, moda e o desvio
padrão e o efeito da variação dos valores
35
30
Frequência simples
25
20
15
10
0
30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 105 110
Peso em quilos
Figura 31
Ele se refere a uma distribuição de frequências dos pesos em quilos de um grupo de pessoas. Como
visto anteriormente, é um histograma e cada coluna representa uma classe de valores e sua respectiva
frequência. Por exemplo, nessa amostra 25 pessoas têm peso entre 60 e 65 kg. Observe que, se unirmos
os pontos culminantes de cada coluna, aparecerá uma curva característica. Essa é a curva ou distribuição
de frequências e é muito utilizada em estatística.
Essa curva é tão frequente nas análises estatísticas que recebe o nome de curva ou distribuição normal
e tem características importantes no entendimento do comportamento das amostras e populações.
Essa curva é fundamentalmente determinada pela média (mediana e moda) da amostra (ou
população) e seu desvio padrão e tem um comportamento esperado, teórico. Na prática as distribuições
apresentam deformações em relação a essa curva teórica.
• É possível dividi-la através de uma reta chamada de eixo de simetria em duas metades especulares,
ou seja, se dobramos a curva no seu eixo de simetria, o lado direito da curva se sobrepõe exatamente
sobre o lado esquerdo.
• O pico da curva é o valor modal, mas assume os mesmos valores da média e da mediana.
111
Unidade I
• A curva atinge seu máximo no valor modal e depois se estende indefinidamente tanto para a
esquerda como para a direita.
• Existem dois pontos de inflexão. No primeiro (X – S), a parábola de concavidade para cima
se transforma numa parábola com concavidade para baixo e no segundo (X + S) inverte-se
a transformação.
• Na prática as curvas reais apresentam deformações, ou seja, não são simétricas e/ou mesocúrticas.
X = Me = Mo
X-S X+S
Figura 32
Uma curva é simétrica quando ela é especular em relação ao eixo de simetria e consequentemente
sua média, moda e mediana apresentam o mesmo valor. Caso isso não ocorra, a curva é assimétrica,
apresentando deformações e valor de média, moda e mediana não coincidentes.
Figura 33
112
ESTATÍSTICA
As =
( X − Me)
S
• Se As for negativo, a assimetria será negativa, ou seja, se desloca para a esquerda (direita do leitor).
• Se As for positivo, a assimetria será positiva, ou seja, a curva se desloca para a direita
(esquerda do leitor).
Alguns autores utilizam a tabela a seguir para se orientar quanto à intensidade da assimetria:
Tabela 54
• Mesocúrtica: é a curva padrão ou curva normal. Apresenta o desvio padrão teoricamente previsto.
• Leptocúrtica: é uma curva mais afilada que a padrão por apresentar desvio padrão
inferior ao previsto.
• Platicúrtica: é uma curva mais achatada que a padrão por apresentar desvio padrão
superior ao previsto.
113
Unidade I
Leptocúrtica
Mesocúrtica
Platicúrtica
X-S X+S
X-S X+S
X-S X+S
Figura 34
A análise da curtose é feita através do coeficiente de curtose (K), expresso pela seguinte fórmula:
∑ di4 × fi
K= −3
fT × S4
Exemplo
Tabela 55
114
ESTATÍSTICA
Para essa análise precisamos saber os valores da média, mediana, desvio padrão, além dos desvios à
quarta vezes a frequência simples. Faremos os cálculos auxiliados pela tabela de trabalho a seguir.
Tabela 56
∑ pmi × fi 888
Média: X = = = 4,0
fT 222
N + 1 222 + 1
EMe = = = 111,5∴ Classe mediana: Ruins
2 2
E − f 111,5 − 53
Mediana:Me = lii + Me acant × h = 2 + × 2 = 5,7
f
classe 68
∑ di2 × fi 1.262
DesvioPadrão : S = = = 2,4
fT − 1 222 − 1
Conhecidas essas medidas, podemos analisar a assimetria e a curtose através dos seus
respectivos coeficientes:
Assimetria:
As =
( X − Me) = (4,0 − 5,7) = −0,71
S 2,4
115
Unidade I
Curtose:
∑ di4 × fi 15.998
K= −3= − 3 = −0,83
fT × S4 222 ×2,4 4
Figura 35
Na área de negócios, duas palavras são mágicas: eficiência e eficácia. Apesar de muitas vezes poderem
se contrapor, o ideal é que ambas caminhem juntas e em alto nível. Define-se eficiência com fazer algo
corretamente e eficácia fazer o que deve ser feito.
Estatisticamente relacionamos eficácia com a média e eficiência com o desvio padrão e isso fica
evidente quando olhamos a curva ou distribuição normal.
Imagine que a empresa KWY entregue os produtos que lhe são comprados on-line em média
após cinco dias da data de efetivação do pedido, já a empresa THG faz suas entregas para produtos
semelhantes em média após quatro dias da efetivação do pedido. É evidente que a segunda empresa é
mais eficaz que a primeira, pois atende mais rapidamente seus clientes, o que, nesse tipo de operação,
significa chegar mais perto do alvo.
Porém, como já vimos que trabalhar com a média apenas pode ser ilusório, adicionar os desvios padrões
a essa informação pode nos trazer uma visão completa do assunto. Suponha que os desvios padrões das
médias de entrega sejam 0,8 dias para a empresa KWY e 1,2 dias para a empresa THG. Nesse caso, a
empresa KWY é mais eficiente que a empresa THG.
116
ESTATÍSTICA
Temos uma situação na qual uma empresa é mais eficiente e a outra mais eficaz. O que é preferível?
A resposta depende de cada situação. De modo geral não adianta ser eficiente se não for eficaz, e
muitas vezes ser eficaz, mas ineficiente, pode em médio prazo comprometer a operação. O ideal é o
equilíbrio entre ambas as dimensões.
Uma medida para esse equilíbrio é o coeficiente de variação. Observe que o coeficiente de variação
da empresa KWY é de 16% enquanto o da empresa THG é de 30%. Aparentemente a empresa KWY é a
mais equilibrada. Evidentemente essas medidas não são verdades bíblicas, dependem muito do que o
cliente espera.
Coloque-se na posição do cliente. Você preferiria receber sua aquisição em cinco dias com alto nível
de certeza ou em quatro dias, mas sem tanta certeza. Comprando da empresa KWY, é alta a confiança
que você receberá em cinco dias sua compra. Já comprando da THG, pode ser que você receba antes,
mas também é possível que você receba bem depois. O que é melhor?
Isso é uma discussão bastante extensa, mas alguns fatores podem ser levantados. Nas operações
corriqueiras, o valor da média é facilmente percebido por todos os participantes envolvidos. É lógico que
todos na KWY serão pressionados para reduzir a média de tempo de atendimento, no intento de torná-la
mais competitiva em relação ao seu concorrente. Contudo, poucos estarão igualmente sensibilizados para
a variação nos prazos de atendimentos. É algo menos perceptível, mas vital para as empresas.
Essa ideia simbolizada pelo valor zero nada mais é do que um esforço contínuo para reduzir o desvio
padrão. No final da década de 1980, normas de qualidade britânicas se transformaram na ISO 9000, que
também persegue esse objetivo. O lema mais conhecido da ISO 9000, “diga como faz e faça como disse”,
explicita exatamente isto: a qualidade de conformidade, que, no fundo, é a redução do desvio padrão.
Veremos isso com mais detalhes mais adiante. As distribuições que seguem a curva normal têm a
quantidade de ocorrências relacionada com a área ocupada entre a curva e o eixo horizontal. Como
mostrado a seguir:
117
Unidade I
Área de normalidade
Número de
desvios padrões
-4 -3 -2 -1 Média 1 2 3 4
68,2%*
95,4%*
99,7%*
100,0%*
* Porcentagem da área total
Figura 36
O gráfico informa que 68,2% das ocorrências estão entre a média menos o desvio padrão e a média
mais o desvio padrão. Essa é a chamada área de normalidade. É o que se espera que ocorra. Portanto,
como as entregas da empresa KWY têm média de cinco dias com desvio padrão de 0,8 dia, podemos
afirmar que 68,2% das entregas ocorreram entre 4,2 dias e 5,8 dias.
Já na empresa THG, 68,2% das entregas ocorrem entre 2,8 e 5,2 dias. Convém ressaltar que,
anteriormente, tínhamos nos referido a ocorrências de em torno de 70%. Na verdade, o valor correto é
68,2%, como se vê agora.
Raciocínio semelhante pode ser feito para intervalos com dois ou três ou quatro desvios padrões
para mais e para menos. Assim, poderíamos dizer que é 100% certo que a empresa KWT nunca entregue
os produtos adquiridos antes de 1,8 dias (5 − 4 × 0,8) ou depois de 8,2 dias (5 + 4 × 0,8) .
Evidentemente, como sempre em estatística, os valores são dotados de uma margem de erro, ou seja,
de uma tolerância. Qual a melhor situação para o potencial cliente dessas empresas? Só a prática nos
dirá, mas estudos na área mercadológica indicam que o cliente pune mais a variação de qualidade do
que a qualidade em si. E essa variação é expressa pelo desvio padrão.
118
ESTATÍSTICA
Resumo
Conhecimento
Informação
Dados
Figura 37
No nosso dia a dia estamos familiarizados com medidas desse tipo, como
índices do custo de vida; preço médio de commodities; riscos assumidos;
projeções de recursos. Esses estudos e pesquisas não só permitem a
construção do conhecimento sobre determinado assunto como também
servirão de base para a previsão de situações semelhantes futuras ou para o
entendimento de conjuntos com grandes quantidades de elementos, como
a previsão da safra de um produto agrícola ou a necessidade de capital para
determinado projeto. Algo que veremos adiante.
119
Unidade I
Exercícios
Questão 1. O responsável pela ouvidoria da empresa ABC fez um levantamento sobre o número de
reclamações recebidas pelos funcionários do setor no mês corrente e resumiu as informações obtidas
na tabela a seguir.
Com base na tabela e nos seus conhecimentos, assinale a alternativa que indica correta e
respectivamente a moda, a média e a mediana do levantamento apresentado:
A) 2; 2; 2.
B) 2; 2,12; 2.
C) 5; 2,12; 2,5.
D) 3; 2; 5.
E) 5; 2,12; 2.
120
ESTATÍSTICA
Análise da questão
• Há funcionários que não receberam reclamações no mês corrente? Sim, apenas um funcionário,
o Marcelo.
• Há funcionários que receberam uma reclamação no mês corrente? Sim, três funcionários, o Diego,
o Fábio e a Mariana.
• Há funcionários que receberam duas reclamações no mês corrente? Sim, oito funcionários, a
Bianca, a Catarina, a Gabriela, a Laila, a Patrícia, o Paulo, a Sofia e o Tobias.
• Há funcionários que receberam três reclamações no mês corrente? Sim, quatro funcionários, a
Ana, a Beatriz, a Júlia e o Rafael.
• Há funcionários que receberam cinco reclamações no mês corrente? Sim, uma funcionária, a Elsa.
Com essas respostas, podemos elaborar a tabela a seguir, que mostra a quantidade de funcionários
que receberam 0, 1, 2, 3, 4 ou 5 reclamações no mês corrente. Além disso, adicionamos os nomes
dos funcionários.
Quantidade de Quantidade de
Nomes dos funcionários
reclamações funcionários
0 1 Marcelo
1 3 Diego, Fábio e Mariana
Bianca, Catarina, Gabriela, Laila,
2 8 Patrícia, Paulo, Sofia e Tobias
3 4 Ana, Beatriz, Júlia e Rafael
4 0 -
5 1 Elsa
Total 1+3+8+4+0+1=17
Pela tabela anterior, vemos, por exemplo, que, dos 17 funcionários, três receberam uma reclamação
e nenhum recebeu quatro reclamações.
Vamos chamar de frequência absoluta de cada medida, indicada por FA, a quantidade de funcionários
que recebeu dado número de reclamações, indicado por x. Vejamos:
121
Unidade I
Podemos calcular a frequência relativa, indicada por FR, de cada quantidade de reclamações recebidas
pelos funcionários. Para isso, dividimos a frequência absoluta (FA) pelo número total N de funcionários,
que é 17. Ou seja:
FA
FR =
N
Vale notar que, em qualquer conjunto de dados, a soma de todas as frequências relativas dá 1.
Podemos fazer um cálculo bastante semelhante ao feito para determinarmos a frequência relativa,
multiplicando-a por 100%. Desse modo, obtemos os percentuais de cada quantidade de reclamações
recebidas, indicada por P%. Ou seja:
P% = FR.100
122
ESTATÍSTICA
Podemos, de certa forma, “resumir” o conjunto de dados em valores como a moda, a média e a
mediana, conhecidas como medidas de tendência central.
A observação do conjunto de dados que “aparece mais vezes”, ou seja, a de maior FA, é a moda do
conjunto de dados. No caso em estudo, vemos, pela tabela anterior, que o valor que aparece mais vezes é
2 reclamações, com FA=8. Logo, a moda da quantidade de reclamações recebidas no mês corrente pelos
funcionários da empresa ABC é 2.
Para acharmos a média, fazemos assim: somamos as quantidades multiplicadas pelas respectivas
frequências e dividimos essa soma pelo total. Com base na tabela anterior, concluímos que a média do
número de reclamações é 2,12, pois:
Média = 2,12
Essa média de 2,12 é um valor teórico, pois não há número fracionário de reclamações. O valor 2,12
corresponde ao “número” de reclamações que cada funcionário teria recebido se todos os funcionários
tivessem recebido o mesmo número de reclamações.
Para acharmos a mediana, ordenamos todas as observações e indicamos o valor central. Visto que há
o total de 17 observações, a mediana é o valor central, que corresponde à nona observação, conforme
indicado na tabela a seguir. Ou seja, no caso em estudo, a mediana da quantidade de reclamações
recebidas no mês corrente pelos funcionários da empresa ABC é 2.
123
Unidade I
Na análise dos resultados, o proprietário decidiu extrair a média, a mediana e a moda das respostas.
O proprietário oferecerá um bônus aos empregados se ao menos uma das três medidas usadas (média,
mediana e moda) estiver acima de 8,0, e fará uma ação promocional para seus clientes caso a média
seja inferior a 6,0.
124
ESTATÍSTICA
A) Providenciar a ação promocional, pois a média ficou abaixo do valor de referência considerado
para essa decisão.
B) Providenciar o bônus para os empregados, pois o valor mediano ficou acima do ponto de referência
considerado para essa decisão.
C) Providenciar o bônus para os empregados, pois a moda ficou acima do valor de referência
considerado para essa decisão.
D) Manter o funcionamento do restaurante como está, pois nenhuma das medidas ficou acima de
8,0 e a mediana e a moda foram superiores a 6,0.
E) Manter o funcionamento do restaurante como está, pois nenhuma das medidas ficou acima de
8,0 e a média foi superior a 6,0.
Análise da questão
A média X é igual ao quociente entre a soma de todas as notas pelo número de clientes que
participaram da pesquisa. Ou seja:
X=7
A moda Mo é o elemento que mais vezes aparece, que, no caso em estudo, é a nota cinco, pois foi a
nota com maior número de votos. Ou seja:
Mo = 5
que ocupa a posição 200 e o valor que ocupa a posição 201. Colocados os dados em ordem crescente, o
valor da posição 200 e o valor da posição 201 são iguais e valem 5. Assim, a mediana fica:
5+5
Md =
2
Md = 5
Como nenhuma das três medidas ficou acima de 8 (a média é 7, a moda é 5 e a mediana é 5), o
proprietário não oferecerá bônus para seus empregados.
Considerando que a média ficou acima de 6 (a média é igual a 7), o proprietário não fará nenhuma
ação promocional para seus clientes.
126