Você está na página 1de 57

Universidade Estadual do Oeste do Paraná

Campus de Foz do Iguaçu


Centro de Ciências Sociais Aplicadas
Curso de Ciências Contábeis

ESTATÍSTICA
DESCRITIVA

Carlos dos Santos

Foz do Iguaçu
Fevereiro/2019
1

Sumário

1 Introdução à compreensão da Estatística........................................................................................ 2

2 Variáveis Estatísticas ............................................................................................................................. 3

3 Estatística descritiva .............................................................................................................................. 5

3.1 Representação tabular ....................................................................................................................... 6


3.2 Tabelas de frequências de dados não agrupados em classes ................................................. 7
3.3 Tabelas de frequências de variáveis qualitativas........................................................................... 9
3.4 Tabelas de frequências de dados agrupados em classes........................................................ 12
3.5 Sequência de exerc ícios nº 2.............................................................................................................. 16

4 Representação gráfica ......................................................................................................................... 17


4.1 Gráfico de pontos .................................................................................................................................... 17
4.2 Histograma ............................................................................................................................................... 19
4.3 Polígono de frequências ....................................................................................................................... 20
4.4 Gráfico de Barras .................................................................................................................................... 21
4.5 Gráfico de setores ................................................................................................................................... 23
4.6 Gráfico de linhas ...................................................................................................................................... 25
4.7 Sequência de exerc ícios nº 3.............................................................................................................. 27

5 Medidas de tendência central ............................................................................................................ 28


5.1 Média Aritmética simples...................................................................................................................... 28
5.2 Média aritmética ponderada ................................................................................................................ 29
5.3 Média aritmética de dados tabulados............................................................................................... 29
5.4 Mediana ...................................................................................................................................................... 32
5.5 Moda (Mo).................................................................................................................................................. 35
5.6 Sequência de exerc ícios nº 4.............................................................................................................. 36

6 Medidas Separatrizes ........................................................................................................................... 38


6.1 Quartis(Q) .................................................................................................................................................. 38
6.2 Sequência de exercícios nº 5.........................................................................................................41
7 Medidas de dispersão .......................................................................................................................... 42
7.1 Variância e des vio padrão .................................................................................................................... 43
7.2. Coeficiente de variação........................................................................................................................ 47
7.3 Sequência de exercícios nº 6..........................................................................................................48

8. Medidas de Assimetria e Curtose .................................................................................................... 49


8.1 Medidas de Assimetria .......................................................................................................................... 50
8.2 Curtose........................................................................................................................................................ 52
8.3 Sequência de exerc ícios nº 7.............................................................................................................. 55
2

1 Introdução à compreensão da Estatística

A estatística é uma ciência formada por diversos métodos aplicados a vários ramos do
conhecimento humano para a obtenção e utilização de informações que possibilitam a tomada de
decisão em determinada situação prática.
A evolução das técnicas de gestão, nos campos da administração, contabilidade e
economia é uma realidade devido, também, à utilização de métodos estatísticos, os quais
auxiliam na tomada de decisão. Enfim, todas as áreas do conhecimento humano podem e devem
utilizar a estatística como ferramenta auxiliadora na descrição e tomada de decisão.
Dentro de uma empresa, frequentemente, os profissionais estão tomando decisões,
quase todas importantes, essenciais para o sucesso dos negócios, por isso a necessidade de
dados estatísticos com informações corretas, que contribuam para uma boa tomada de decisão. A
administração não é uma ciência exata, ela é uma ciência social, pois é a ação humana que gera
e modifica o fenômeno patrimonial, porém, utiliza os métodos quantitativos, ou seja, matemática e
estatística como principal ferramenta.
Dois termos bastante utilizados em estatística são população e amostra:
 População: É o grupo alvo de estudo, o qual tem uma ou mais características em
comum.
 Amostra: É um subconjunto ou uma parte da população.
Por exemplo, um auditor quer verificar faturas de uma empresa de vendas, porém, o
mesmo dispõe de 10000 faturas (população) e não tem tempo para verificar todas. Então, ele
coleta sistematicamente 50 faturas (amostra) e obtém as informações necessárias.
Quando a quantidade de documentos dentro da empresa é muito grande, para que a
auditoria possa ser feita, é necessário utilizar uma parte representativa desse material. Esta
representatividade só é conseguida através da metodologia de dimensionamento de amostras e
das técnicas estatísticas de amostragem, as quais correspondem a uma parte deste curso.
Geralmente surge a seguinte pergunta: Porque utilizar os métodos estatísticos? Dentre as
razões para o profissional da área de administração aprender estatística temos:

 O adminstrador deve saber como apresentar e descrever informações de forma


adequada. Isso é possível por meio de gráficos e tabelas.
 O adminstrador deve saber como tirar conclusões a partir de grandes populações com
base somente na informação obtida de amostras. Isso é possível através das técnicas de
amostragem.
 O adminstrador deve saber como melhorar os processos de prestação de serviços. Isso é
possível se forem feitas pesquisas periódicas de satisfação do cliente.
3

 O adminstrador precisa saber como obter predições e(ou) previsões confiáveis a partir de
variáveis de interesse. Isso é possível por meio de modelagem, ou seja, da análise de
regressão e da análise de séries temporais.
Pode-se dizer que toda a ciência que manipula dados experimentais necessita da
estatística como método de análise, para que o pesquisador possa tirar conclusões que tenham
validade científica.
Neste curso serão desenvolvidos os seguintes tópicos de estatística; Estatística
descritiva, probabilidade, amostragem e inferência estatística (testes de hipótese e estimação),
correlação e análise de regressão linear.
O estudo de amostragem possibilitará o conhecimento das principais técnicas de
obtenção de amostras bem como o seu dimensionamento.
O estudo de probabilidades será necessário para que possam ser desenvolvidos os
principais métodos de inferência estatística.
A probabilidade servirá como base para o estudo da inferência estatística.
A inferência estatística vai possibilitar a tomada de decisão acerca de populações
tomando como base, amostras.
A correlação estuda o grau associação entre duas ou mais variáveis e a análise de
regressão linear propõe uma equação linear para predizer valores de uma variável dependente
(Y) em função de uma ou mais variáveis preditoras (X1, X2, . . .Xk). Essa metodologia é utilizada
em contabilometria.

2 Variáveis Estatísticas

As características que descrevem a população são chamadas variáveis.

Variável Característica pela qual deseja-se que a população seja descrita, ou por meio da qual,
decisões acerca da população são tomadas. Por exemplo: altura de alunos, comprimento peças,
preferência do eleitor, etc.

Na descrição ou análise de um conjunto de dados estatísticos, é possível associar certos


tipos de variáveis, pois o tratamento matemático exigido e o método estatístico empregado
dependerão do tipo de variável em estudo. Podem ser considerados dois tipos de variáveis, as
qualitativas e as quantitativas. As qualitativas podem ser nominais ou ordinais, enquanto que as
quantitativas podem ser discretas ou contínuas, como mostra o esquema a seguir:
4

 nominais
qualitativas 
 ordinais
Tipos de variáveis 
 discretas
quantitati vas 
 contínuas

Variáveis qualitativas

As variáveis qualitativas estão associadas a uma característica que denota qualidade ou


atributo, sendo que as qualitativas nominais não seguem uma ordem pré-definida. São exemplos
de variáveis qualitativas nominais:
 Cor dos olhos dos operários de certa indústria (azuis, castanhos, verdes, etc.),
 Desempenho dos operários (ótimo, bom, regular, péssimo, etc.),
 Qualidade de produtos (defeituosos, perfeitos, recuperáveis, etc.).
Já, as qualitativas ordinais seguem uma determinada ordem pré-definida. São exemplos de
variáveis qualitativas ordinais:
 Grau de escolaridade (1 o grau, 2o grau, 3o grau, etc.),
 Patente militar (soldado, cabo, sargento, subtenente, tenente),
 Porte da empresa (grande, médio, pequeno, micro).

Variáveis quantitativas

As variáveis quantitativas estão associadas a valores numéricos, podendo ser discretas ou


contínuas.
Uma variável é dita quantitativa discreta quando o número de valores for finito ou infinito
enumerável. Geralmente as variáveis quantitativas discretas referem-se às contagens. São
exemplos de variáveis quantitativas discretas:
 Número de peças produzidas com defeito, por lote.
 Número de não conformidade, por departamento, de uma empresa.
 Número de acidentes ocorridos, por mês, em um cruzamento.

A variável quantitativa contínua é aquela que pode, ao menos teoricamente, assumir


qualquer valor entre dois valores possíveis. Geralmente, as variáveis contínuas referem-se às
medições. Alguns exemplos de variáveis quantitativas contínuas são:
 Comprimentos de parafusos fabricados por certa máquina.
 Tempos gastos pelos operários para realizar certa tarefa.
5

 Salários, em reais, de funcionário de um escritório de contabilidade.

2.1 Sequência de exercícios nº 1

01. Dê a definição de estatística e de estatística descritiva

02. A estatística pode ser utilizada na área de de administração de que formas?

03. O que é econometria?

04. Defina população e amostra.

05. Classificar cada uma das seguintes variáveis (qualitativa nominal, qualitativa ordinal,
quantitativa discreta ou contínua):

a) População: Válvulas fabricadas por certa indústria


Variável: número de válvulas defeituosas em cada lote de 100 válvulas.
b) População: cabos fabricados por certa companhia;
Variável: número de cabos defeituosos em cada lote de 100 cabos
c) População: Cursos de matemática de nível superior
Variável: colocação no último provão do MEC.
d) População: Televisão de certa marca
Variável: opinião dos compradores acerca da qualidade
e) População: Cultivar de Milho A
Variável: número de espigas produzidas por planta
Variável: altura da planta
f) População: Bois da raça Nelore. Variável: Peso de abate

3 Estatística descritiva

Definições de Estatística descritiva

Definição 1: A estatística descritiva é uma função cujo valor numérico descreve, por si só,
determinada característica de um conjunto de dados, reduzindo-o a proporções mais facilmente
6

interpretáveis. Dentre essas funções temos a média amostral, o desvio padrão amostral, a
proporção amostral, etc.

Definição 2: A estatística descritiva pode ser interpretada como a observação de fenômenos de


mesma natureza, coleta de dados numéricos referentes a esses fenômenos, organização,
classificação, apresentação e interpretação desses dados por meio de gráficos e tabelas.

3.1 Representação tabular

Quando um conjunto de observações de certo fenômeno não está devidamente


organizado, são chamados de dados brutos, fornecendo poucas informações de interesse ao
pesquisador, assim torna-se necessário representa-los por meio de tabelas de distribuição
frequências.

Frequência é uma medida que quantifica a ocorrência de um valor ou categoria de uma variável

Distribuição de frequência consiste em uma função que associa os valores que uma variável
assume com suas respectivas frequências de ocorrência.

Assim, a representação tabular consiste em dispor a distribuição de frequências das


categorias ou valores da variável em tabelas.
Uma tabela pode apresentar e caracterizar os seguintes tipos de frequências:

 absoluta
simples 

  relativa
Frequência 
 absoluta
acumulada 

  relativa

Geralmente uma tabela é formada pelos seguintes componentes: Título, cabeçalho, coluna
indicadora, Corpo, Linha de totais e Rodapé, como mostra a figura 3.1.
O título deve conter as informações relativas ao conteúdo da tabela, ou seja, a(s)
variável(is) dispostas, podendo ainda conter o local de coleta dos dados, e quando foi realizado
o estudo. O cabeçalho especifica as variáveis e a frequência (ou outra característica)
correspondente aos seus valores.
O corpo é representado por uma série de colunas e subcolunas, dentro das quais são
colocadas as frequências simples e acumuladas. No rodapé são colocadas a legenda e todas as
7

observações que venham a esclarecer as informações da tabela. De um modo geral aí também


é disposta a fonte dos dados, ou seja, a instituição ou o autor que fornece as informações, bem
como o ano, embora em alguns casos ela seja colocada no título. Segundo as regras da ABNT,
as laterais da tabela não devem haver traços nas partes esquerda e direita da tabela e não
devem haver traços horizontais separando as linhas interiores da tabela.

Figura 3.1 - Componentes de uma tabela

Mais detalhes sobre normas de tabelas deverão ser consultadas na NBR 14724:2011
subitem 5.9, que por sua vez, remete as normas de apresentação tabular do Instituto Brasileiro
de Geografia e Estatística – IBGE (1993), as quais podem ser encontradas no seguinte site:
http://biblioteca.ibge.gov.br/visualizacao/livros/liv23907.pdf

3.2 Tabelas de frequências de dados não agrupados em classes

Classes são intervalos numéricos que representam os valores de uma variável

Nas tabelas com dados não-agrupados em classes, os valores são da primeira coluna são
individuais. Esse tipo de tabela é utilizado quando a variável em estudo é quantitativa discreta e
não possui mais dez valores individuais.

Exemplo

Considere a variável que representa o número de declarações de imposto de renda


realizadas, por dia, por um escritório de contabilidade, num total de 50 dias. Os dados coletados
foram:
8

5 3 2 1 4 5 5 6 7 4
6 5 4 5 3 6 7 7 5 5
4 6 6 4 2 3 0 5 6 3
8 4 4 4 3 0 1 3 2 4
1 4 5 4 6 2 5 6 4 3

a) Qual é a variável em estudo e a sua classificação?


A variável em estudo é “número de declarações de imposto de renda realizadas por dia”
e, como trata-se de contagem, é classificada como “variável quantitativa discreta”.

b) Qual é o tipo de tabela mais adequado para representar a distribuição de frequências dos
dados? Justifique a sua resposta.
A tabela com dados não agrupados em classes é o tipo mais adequado, pois a variável
“número de declarações de imposto de renda feitas por dia” é classificada como “variável
quantitativa discreta” e não possui mais de dez valores individuais, isto é, são nove valores (de 0
a 8).

c) Construa uma tabela para os dados, com todos os tipos de frequências.

Tabela 1.1 Distribuição de frequências do número de declarações de imposto de renda


realizadas por um escritório de contabilidade, por dia, num total de 50 dias, em
2017.
Número de declarações Frequência
Frequência Porcentagem
de imposto de renda (Número de Porcentagem
Acumulada Acumulada
realizadas por dia dias)
0 2 (2/50)*100 = 4 2 4
1 3 (3/50)*100 = 6 2+3=5 4+6=10
2 4 (4/50)*100 = 8 5+4=9 10+8=18
3 7 (7/50)*100 = 14 9+7=16 18+14=32
4 12 (12/50)*100 = 24 16+12=28 32+24=56
5 10 (10/50)*100 = 20 28+10=38 56+20=76
6 8 (8/50)*100 = 16 38+8=46 76+16=92
7 3 (3/50)*100 = 6 46+3=49 92+6=98
8 1 (1/50)*100 = 2 49+1=50 98+2=100
Total 50 100
Fonte: dados fictícios

d) Interprete a tabela

No exemplo em questão, observa-se que, de um total de 50 dias, em 12, o equivalente a


24%, sendo essa a maior porcentagem, houve quatro declarações realizadas por dia. Nota-se,
também que, em 10 dias, ou seja, 20% do total, sendo esta a segunda maior porcentagem,
9

houve 5 declarações realizadas por dia. O maior número de declarações realizadas por dia foi
oito, um número baixo. Houve dois dias em que nenhuma declaração foi realizada. Por fim,
percebe-se que, em 28 dias, o equivalente a 56%(mais da metade dos dias), foram feitas 4
declarações ou menos. Haja vista que, a época de declaração de imposto de renda é período
em que os escritórios de contabilidade ganham mais dinheiro, a gestão do mesmo deverá
procurar meio (marketing, treinamento, agilidade, etc.) para melhorar seu desempenho.

Observação: quando uma tabela é interpretada, não é necessário realiza-la para todas as
informações. Apenas interpretam-se as informações mais relevantes as quais, em geral, são as
de maior frequência e aquelas onde as frequências acumuladas ultrapassam os 50%, isto é,
representam a maioria.

3.3 Tabelas de frequências de variáveis qualitativas

As tabelas de variáveis qualitativas podem ser de entrada simples, de dupla entrada, e de


múltipla entrada. A cada entrada corresponde uma linha (ou coluna) de totais. Nesse tipo de
tabela, as categorias devem ser organizadas, de forma que haja uma ordem decrescente de
frequências.

Exemplo: Suponha que a gerência de uma empresa, a fim de realizar atividades de integração,
resolveu realizar uma pesquisa sobre a preferência esportiva de seus funcionários. Após a
coleta dos dados, foram utilizados os seguintes códigos para facilitar a digitação: 1 para futebol,
2 para vôlei, 3 para basquete e 4 para Handebol. Os dados coletados foram:

1 3 4 4 2 3 2 3
2 2 1 1 1 1 2 2
1 1 3 1 2 1 3 1
2 2 2 3 2 3 1 3
2 1 2 3 2 3 2 1
1 2 1 1 2 1 3 4
2 2 1 2 1 3 2 3
1 1 3 2 2 1 1 3
2 1 1 3 1 1 2 3
4 4 1 1 3 2 3 1
4 3 4 3 2 1 1 4
1 1 1 1 3 1 2 2
1 1 3 2 2 1 3 2
10

a) Qual é a variável em estudo e a sua classificação?


A variável em estudo é “Preferência esportiva de funcionários de uma empresa” e é
classificada como variável qualitativa nominal.

b) Construa uma tabela com todos os tipos de frequências.

Tabela 2 – Preferência esportiva dos Funcionários da empresa A.


Preferência Número de Porcentagem Número de Porcentagem
esportiva Funcionários funcionários

Futebol 40 (40/104)*100 = 38,46 0 + 40 = 40 0+ 38,46 = 38,46


Vôlei 32 (32/104)*100 = 30,77 40+ 32 = 72 38.46 + 30,77 = 69,23
Basquete 24 (24/104)*100 = 23,08 72 + 24 =96 60,23 + 23,08 = 92,31
Handebol 8 (8/104)*100 = 7,69 96 + 8 = 104 92,31 + 7,69 = 100,00
TOTAL 104 100
Fonte: dados fictícios

c) Interprete os resultados da tabela.

Percebe-se que a preferência esportiva de maior frequência foi a do futebol com 40 de 104
funcionários, o equivalente a 38,46%. Nota-se que o vôlei foi o segundo esporte preferido, com
32 funcionários, o equivalente a 30,77%. Observa-se, ainda, que, o futebol e o vôlei somaram
juntos 72 funcionários, o equivalente a 69,23% do total, ou seja, a maioria. O basquete foi o
terceiro esporte preferido, com 24 funcionários ou 7,69%. Então, é possível realizar um torneio
de futebol, um de vôlei e outro de basquete.
É comum, no entanto, a necessidade de apresentar, numa só tabela, mais do que uma
característica em estudo. Assim, torna-se necessário o uso de tabelas de dupla entrada.

Exemplo

Para detalhar melhor a pesquisa da empresa do exemplo anterior, além da preferência


esportiva (X1), sendo 1 para futebol, 2 para vôlei, 3 para basquete e 4 para Handebol, também
feito o levantamento do gênero (X2), sendo 1 para masculino e 2 para o feminino, como mostram
os dados a seguir.

Observação: Haja vista que, estão sendo estudadas duas variáveis simultaneamente, na
prática, os dados deveriam ser digitados em duas colunas de uma planilha, ou seja, uma coluna
para cada variável. No Excel teríamos os resultados da variável “modalidade esportiva”, por
exemplo, na coluna “A” e os dados da variável “gênero” na coluna “B”. Porém, devido à falta de
11

espaço na página, os dados foram digitados em 16 colunas, isto é, oito colunas para cada
variável.

X1 X2 X1 X2 X1 X2 X1 X2 X1 X2 X1 X2 X1 X2 X1 X2
1 1 3 2 4 2 4 2 2 2 3 2 2 2 3 1
2 1 2 2 1 1 1 2 1 1 1 1 2 2 2 2
1 1 1 1 3 1 1 1 2 2 1 1 3 1 1 1
2 1 2 1 2 2 3 2 2 1 3 1 1 1 3 2
2 1 1 1 2 1 3 1 2 2 3 1 2 1 1 1
1 1 2 2 1 2 1 2 2 2 1 1 3 1 4 2
2 1 2 1 1 1 2 1 1 2 3 2 2 2 3 1
3 2 1 1 3 2 2 2 2 2 1 2 1 1 3 1
2 2 1 1 1 1 3 1 1 1 1 2 2 2 3 1
4 1 4 2 1 2 1 1 3 2 2 2 3 2 1 1
4 1 3 1 4 2 3 2 2 2 1 1 1 1 4 2
1 1 1 2 1 2 1 1 3 1 1 1 2 2 2 2
1 2 1 1 1 1 2 1 2 1 1 1 3 1 2 2

a) Construa uma tabela de dupla entrada, envolvendo as variáveis “preferência esportiva” e


“gênero“.

Observação: O objetivo neste exemplo é comparar os gêneros masculino e feminino para cada
modalidade esportiva, separadamente. Logo, a soma das porcentagens dos gêneros masculino
e feminino deve ser de 100% dentro de cada modalidade esportiva. Por uma questão de
estética, colocaremos as categorias da variável “modalidade esportiva” nas linhas, porque é a
que apresenta o maior número de categorias, ou seja, são quatro (futebol, vôlei, basquete e
handebol). Já, as categorias da variável “gênero”, ou seja, masculino e feminino, serão
colocadas nas colunas, pois o número e categorias é menor.

Tabela 3 - Preferência esportiva dos funcionários da empresa A, segundo o sexo.


Gênero
Preferência esportiva Masculino Feminino Total
Nº de funcionários Porcentagem Nº de funcionários Porcentagem
Futebol 30 75,0 10 25,0 40
Vôlei 12 37,5 20 62,5 32
Basquete 14 58,3 10 41,7 24
Handebol 2 25,0 6 75,0 8
Total 58 46 104
Fonte: Dados Fictícios
12

b) faça a interpretação da tabela

Observação: Percebe-se que o número total de homens é diferente do número total de


mulheres, isto é, e 58 e 46, respectivamente. Portanto, não é possível fazer uma comparação
entre homens e mulheres diretamente pela frequência Absoluta. Por outro lado, esta
comparação pode ser feita por meio das porcentagens e aí está a grande utilidade desse tipo de
medida.
Observa-se que, dos funcionários que preferem futebol, 75% são homens e 25% são
mulheres, ou seja, a maioria é do sexo masculino. Daqueles funcionários que preferem o vôlei,
37,5% são do sexo masculino e 62,5% são do sexo feminino, então maioria é do sexo feminino.
No basquete, 58,3% são homens e 41,7% são mulheres, isto é, a maioria é do gênero
masculino. No handebol, o número de funcionários é insuficiente. Mas olhando para as
frequências absolutas, nota-se que, do total de 40 funcionários que preferem futebol, 30 são
homens e 10 são mulheres, portanto, é possível organizar um torneio de futebol masculino ou
misto. Observa-se, também que, 32 funcionários preferem o vôlei, desses 12 são homens e 20
são mulheres, logo, é possível realizar um torneio de vôlei feminino ou misto. Haja vista que, 24
funcionários no total preferem o vôlei, sendo 12 homens e 20 mulheres, é possível realizar um
torneio misto de esporte.

3.4 Tabelas de frequências de dados agrupados em classes

As tabelas com dados agrupados em classes são utilizadas quando a variável em estudo é
classificada como quantitativa contínua. Porém, podem ser usadas, também, quando a variável
é classifica como quantitativa discreta e, o número de valores individuais é maior do que 10.
Neste último caso, o procedimento de agrupar dados individuais, em classes, visa evitar certos
inconvenientes, tais como:
- Grande extensão da tabela, dificultando tanto quanto os dados originais, a leitura e a
interpretação dos resultados;
- Aparecimento de diversos valores da variável com frequência nula.

Exemplo

A auditoria de notas fiscais é uma função desenvolvida para ajudar na conferência de


lançamentos relacionados ao valor contábil. Determinado profissional da área de contabilidade,
13

a fim de realizar uma auditoria, anotou os valores de 49 notas fiscais emitidas por uma empresa.
Os resultados, em reais, foram:
130,00 105,00 120,00 111,50 99,00 116,00 82,50
107,50 125,00 100,00 107,50 120,00 143,00 115,00
135,00 130,00 135,00 127,50 90,50 104,50 136,50
100,00 145,00 125,00 104,50 101,50 102,50 101,50
134,50 158,50 110,00 102,50 90,50 107,50 124,00
121,50 135,00 102,00 119,50 115,50 125,50 117,50
107,50 140,00 121,00 107,50 113,00 93,00 103,50

a) O primeiro passo é o de ordenar a lista de dados brutos (Rol)

82,50 101,50 104,50 110,00 119,50 125,00 135,00


90,50 101,50 105,00 111,50 120,00 125,50 135,00
90,50 102,00 107,50 113,00 120,00 127,50 136,50
93,00 102,50 107,50 115,00 121,00 130,00 140,00
99,00 102,50 107,50 115,50 121,50 130,00 143,00
100,00 103,50 107,50 116,00 124,00 134,50 145,00
100,00 104,50 107,50 117,50 125,00 135,00 158,50

b) Encontrar a amplitude total do conjunto de valores observados, a qual é dada por:

At = Maior valor observado – Menor valor observado

At = 158,50 – 82,50 = 76

c) Calcular o número de classes (k). Alguns autores propõem que se utilize a fórmula de
Sturges, expressada por:

K = 1 + 3,3*log(n)

Em que n é o número total de observações. O número k de classes geralmente terá casas


decimais, portanto, convém arredondá-lo para um número inteiro, usando as regras de
arredondamento, de forma que a última classe inclua o maior valor observado. Apesar de
realizar este procedimento, podem ocorrer alguns casos em que o maior valor observado não
14

venha a ser incluído na última classe. Então, faz-se necessário arredondar também a amplitude
C do intervalo de classe. Assim, para o exemplo dado tem-se

K = 1 + 3,3.log 49  k = 6,577...  k = 7

Portanto, a tabela deverá ter sete classes ou intervalos.

d) Determinar a amplitude do intervalo de classe, dada pela fórmula a seguir:

Αt
c
κ

No exemplo dado tem-se C = 76 = 10,85714285714  C = 10,86


7
Nesse exemplo não foi preciso aumentar a amplitude do intervalo de classe. Geralmente
surge a seguinte pergunta: Quando se sabe que é preciso aumentar a amplitude C? É preciso
fazer seguinte cálculo:
Limite superior da última classe = menor valor +C.K
Corra
Limite superior da última classe = 82,5 +10,86 * 7 = 158,52 > 158,5 (máximo valor
observado). Ok, então as classes da tabela já podem ser construídas.

Observação: caso ocorra “(Limite superior da última classe) ≤ (máximo valor observado)”, o
procedimento será o de aumentar a amplitude “C”. Repetir esse processo até que ocorra “(Limite
superior da última classe) > (máximo valor observado)”

e) Determinar os limites de classes. Muitos autores adotam os seguintes símbolos:

I : indica inclusão na classe do valor situado à sua esquerda e exclusão do valor situado à sua
direita." direita.
II: indica inclusão na classe dos valores situados a sua esquerda e à direita.

Adotaremos aqui, o procedimento de somar o menor valor observado à amplitude C. O


resultado desta soma será somado novamente à amplitude C, e assim sucessivamente, até que
sejam criadas todas as classes necessárias. Neste exemplo, C = 10,86, e o menor valor o é
82,50, então,
15

Para 82,50 + 10,86 = 93,36 Tem-se 82,50 I 93,36


Para 93,36 + 10,86 =104,22 tem-se 93,36 I 104,22
Para 104,22 + 10,86 =115,08 tem-se 104,22 I 115,08
Para 115,08 + 10,86 =125,94 tem-se 115,08 I 125,94
Para 125,94 + 10,86 =136,80 tem-se 125,94 I 136,80
Para 136,80 + 10,86 =147,66 tem-se 136,80 I 147,66
Para 147,66 + 10,86 =158,52 tem-se 147,66 I 158,52

Nota-se que a última classe 147,66 I 158,52 já inclui o maior valor observado (158,50),
então não é preciso construir mais classes. O passo seguinte é o de retornar aos dados
ordenados (ROL) e fazer a contagem dos valores incluídos em cada classe. Nesses dados
percebe-se que os quatro primeiros valores (82.50; 90,50; 90,50 e 93) estão dentro da classe
82,50 I 93,36. Portanto, a frequência desta categoria é 4. As frequências de todas as classes
estão na tabela 1.4.

TABELA 4 – Distribuição de frequências dos valores de 49 notas fiscais emitidas por uma
empresa.
Valores das notas Número de Porcentagem Frequência Porcentagem
fiscais (R$) notas fiscais acumulada acumulada
82,50 I 93,36 4 8,2 4 8,2
93,36 I 104,22 9 18,4 13 26,6
104,22 I 115,08 12 24,5 25 51,1
115,08 I 125,94 12 24,5 37 75,6
125,94 I 136,80 8 16,3 45 91,9
136,80 I 147,66 3 6,1 48 98
147,66 I 158,52 1 2,0 49 100
TOTAL 49 100
Fonte: Dados fictícios

Nota-se que, das 49 notas fiscais observadas, 12 o equivalente 24,5%, apresentaram


valores maiores ou iguais a R$104,22 e menores do que R$115,08. Outras 12 apresentaram
valores maiores ou iguais a 115,08 e menores do que 125,94mm. Então, estas foram as duas
classes com maior frequência. Se forem somadas as frequências dessas duas categorias haverá
24 notas fiscais, ou seja, quase metade das 49 observadas. Nota-se, também que, 37 notas
fiscais, o equivalente 75,5% das 49 inspecionadas, apresentaram valores iguais ou superiores a
R$85,50 e inferiores a R$125,94. Essas informações auxiliarão o auditor na tonada de decisão,
ou seja, a de rejeitar ou não a nota fiscal.
16

3.5 Sequência de exercícios nº 2

01. Foi feita uma pesquisa com uma amostra de 80 alunos de instituições de ensino superior.
Uma das variáveis em estudo foi o número de pessoas na família. O resultado foi o seguinte:
2 3 5 4 2 3 1 5 3 2
2 2 1 3 2 2 3 3 4 1
1 2 2 2 3 3 3 4 4 4
5 5 5 6 4 2 3 5 2 2
5 4 3 2 2 2 3 2 2 3
2 5 3 5 2 3 2 2 4 5
2 2 2 3 4 4 5 5 3 3
2 2 2 1 5 5 1 2 2 3

a) Qual é a variável em estudo e qual é a sua classificação?


b) Qual é o tipo mais adequado de tabela para os dados? Justifique a sua reposta.
c) Construa a tabela com todos os tipos de frequências.
d) Interprete os principais resultados da tabela.

02 Foram inspecionadas 50 peças produzidas por uma máquina. A e a classificação foi a


seguinte: P = perfeita, R = recuperável e D = defeituosa. O resultado foi o seguinte:

P D P P D D P D R R

P P P R R P P P R R

R P D P D P R R R P

P R R R P P P P R D

D P P P P D D R D D

a) Qual é a variável em estudo e de que tipo ela é?


b) Qual é o tipo de tabela mais adequado para os dados? Justifique a sua reposta.
c) Construa a tabela com todos os tipos de frequências.
d) Interprete os principais resultados da tabela.
17

03. O tempo para realizar a declaração de imposto de renda foi anotado (em minutos). Foram
feitas 40 declarações, os tempos foram:

45 37 39 48 51 40 53 49
39 41 45 43 45 34 45 35
41 57 38 46 46 58 57 36
58 35 31 59 44 57 45 44
38 43 33 56 47 48 44 49

a) Qual é a variável em estudo e de que tipo ela é?


b) Qual é o tipo de tabela mais adequado para os dados? Justifique a sua reposta.
c) Construa a tabela com todos os tipos de frequências.
d) Interprete os principais resultados da tabela.

4 Representação gráfica

A apresentação de dados também pode ser feita mediante gráficos.

Gráfico: Diagrama ou figura para ilustração de fenômenos ou tendências, no qual existem


escalas definidas

As tabelas de frequência têm utilidade como instrumento de análise e de apresentação de


dados estatísticos. A apresentação gráfica é um complemento das tabelas e possui uma
vantagem adicional de propiciar a visualização mais rápida do comportamento da característica
que está sendo estudada, bem como sua variação.
Neste curso serão apresentados os principais tipos de gráficos, são eles: Gráficos de
pontos, histograma, polígono de frequências, gráficos de barras (simples e compostas), gráfico
de setores e gráficos de linhas (simples e compostas).

4.1 Gráfico de pontos

Esse tipo de gráfico pode ser utilizado quando a variável em estudo é discreta e possui no
máximo dez valores individuais, ou seja, é usado nas mesmas situações onde utiliza-se a tabela
com dados não agrupados em classes. Retornando ao exemplo Número de Declarações
realizadas por dia, tem-se:
18

Número de Frequência
Declarações realizadas por dia (Nº de dias)
0 2
1 3
2 4
3 7
4 12
5 10
6 8
7 3
8 1
Total 50

A variável “número de declarações realizadas por dia” é quantitativa discreta e possui


apenas 9 valores individuais, portanto o gráfico de pontos é o mais adequado para apresentar os
dados.

Número de declarações realizadas por dia


14

12 12
Número de dias

10 10

8 8
7
6

4 4
3 3
2 2
1
0
0 1 2 3 4 5 6 7 8
Número de declarções realizadas

Fonte: Dados fictícios


Figura 4.1 - Número de componentes eletrônicos defeituosos em cada lote de 500
unidades.

Percebe-se de imediato na Figura 4.1, sem verificar números, que as frequências


crescem até o valor 4 e depois decrescem. No exemplo em questão, observa-se que, de um
total de 50 dias, em 12, sendo essa a maior frequência, houve quatro declarações realizadas por
dia. Nota-se, também que, em 10 dias, sendo esta a segunda maior frequência, houve 5
declarações realizadas por dia. O maior número de declarações realizadas por dia foi oito, um
número baixo. Houve dois dias em que nenhuma declaração foi realizada. Portanto, a gestão
desse escritório de contabilidade deverá procurar meios (marketing, agilidade, etc.) para
melhorar seu desempenho.
19

4.2 Histograma

O histograma é uma representação gráfica formada por retângulos justapostos, de base


igual à amplitude do intervalo de classe (C) e altura igual à frequência simples absoluta(f) ou
frequência relativa (%). Esse tipo de gráfico pode ser utilizado no caso de variáveis quantitativas
contínuas. Na tabela 5 tem-se um exemplo de variável quantitativa contínua.

TABELA 5 – Distribuição de frequências dos valores de 49 notas fiscais emitidas por


uma empresa.
Valores das notas Número de Porcentagem Frequência Porcentagem
fiscais (R$) notas fiscais acumulada acumulada
82,50 I 93,36 4 8,2 4 8,2
93,36 I 104,22 9 18,4 13 26,5
104,22 I 115,08 12 24,5 25 51,0
115,08 I 125,94 12 24,5 37 75,5
125,94 I 136,80 8 16,3 45 91,8
136,80 I 147,66 3 6,1 48 98,0
147,66 I 158,52 1 2,0 49 100,0
TOTAL 49 100
Fonte: Dados fictícios

Os dados das duas primeiras colunas da tabela acima estão representados na figura 4.2

Distribuição de frequências dos valores


de notas fiscais fiscais
14
Número de notas fiscais

12 12
12
10 9
8
8
6
4
4 3
2 1
0

Valores(R$)

Fonte: Dados fictícios


Figura 4.2 – Histograma de frequências

Nota-se que, das 49 notas fiscais observadas, 12 o equivalente 24,5%, apresentaram


valores maiores ou iguais a R$104,22 e menores do que R$115,08. Outras 12 apresentaram
valores maiores ou iguais a 115,08 e menores do que 125,94mm. Então, estas foram as duas
classes com maior frequência. Se forem somadas as frequências dessas duas categorias haverá
24 notas fiscais, ou seja, quase metade das 49 observadas. Essas informações auxiliarão o
auditor na tonada de decisão, ou seja, a de rejeitar ou não a nota fiscal.
20

4.3 Polígono de frequências

O polígono de frequências é obtido pelo ligamento dos pontos médios dos retângulos
formados no histograma, por meio de uma linha. A área entre o eixo das abscissas e esta linha
formará um polígono.
Esse tipo de gráfico auxiliará na avaliação de uma importante distribuição de probabilidade,
a chamada distribuição normal, a qual será mostrada em seções posteriores.
O polígono de frequências construído com o auxílio do histograma apresentado
anteriormente está apresentado na Figura 4.3.

Distribuição de frequências dos valores de


notas fiscais
14
Número de notas fiscais

12
10
8
6
4
2
0
71,64 82,5 93,36 104,22 115,08 125,94 136,8 147,66 158,52 169,38
Valores(R$)

Fonte: Dados fictícios


Figura 4.3 – Polígono de frequências

O Polígono de frequências serve para estudar se a distribuição de frequências se aproxima da


distribuição normal, mostrada na figura 4.4.
Gráfico da distribução normal

0,4

0,3

0,2

0,1

0,0
-3 -2 -1 0 1 2 3
X

Figura 4.4 – Distribuição normal

Olhando para o polígono de frequências (figura 4.3), nota-se que ele tem
aproximadamente a forma da distribuição normal (figura 4.4). Essa informação pode servir, por
21

exemplo, para o pesquisador decidir em aplicar o intervalo de confiança da média e realizar o


teste de hipótese da média, utilizando a distribuição normal ou a distribuição aproximadamente
normal (distribuição t de student), as quais serão estudadas no decorrer do curso.

4.4 Gráfico de Barras

Os gráficos de Barras simples têm por finalidade comparar categorias de uma variável, por
meio de retângulos de larguras iguais e alturas proporcionais às frequências de cada categoria.
Cada barra representa uma categoria.

Na construção de um gráfico de Barras devem ser seguidas algumas normas:

 As barras devem ter as mesmas larguras.


 As barras devem ser separadas pelo mesmo espaço.
 O gráfico deverá ter uma linha zero claramente definida e uma escala de valores
ininterrupta, caso contrário, a leitura e a interpretação do gráfico poderão ficar
distorcidas.

O gráfico em barras verticais simples é o mais adequado para comparar categorias de


uma variável qualitativa, como mostra a figura 4.5.

Preferência Porcentagem

Futebol 38,5
Vôlei 30,8
Basquete 23,1
Handebol 7,7
TOTAL 100
22

Preferência esportiva de funcionários


45,0%
38,5%
40,0%
35,0% 30,8%

Porcentagem
30,0%
25,0% 23,1%
20,0%
15,0%
10,0% 7,7%
5,0%
0,0%
Futebol Vôlei Basquete Handebol

Preferência esportiva

Fonte: Dados fictícios


Figura 4.5 – Preferência esportiva de funcionários da empresa A.

Percebe-se que a maior preferência foi a do futebol, ou seja, 38,5%. Nota-se que o vôlei foi
o segundo esporte preferido, com 30,8%. Observa-se, ainda, que, o futebol e o vôlei somaram
juntos 69,3% do total, ou seja, a maioria. O basquete foi o terceiro esporte preferido, com 23,1%.
Então, é possível realizar um torneio de futebol, um de vôlei e outro de basquete.
É possível comparar duas categorias ou mais de uma variável qualitativa, dentro de uma
categoria de outra variável qualitativa, por meio de um gráfico de barras compostas.
Retornemos ao exemplo da preferência esportiva, segundo o sexo.

Masculino Feminino
Preferência esportiva Total
Nº de funcionários Porcentagem Nº de funcionários Porcentagem
Futebol 30 75,0% 10 25,0% 40
Vôlei 12 37,5% 20 62,5% 32
Basquete 14 58,3% 10 41,7% 24
Handebol 2 25,0% 6 75,0% 8

Preferência esportiva segundo o sexo


80,0% 75,0% 75,0%
70,0% 62,5%
58,3%
60,0%
Porcentagem

50,0% 41,7%
37,5% Masculino
40,0%
30,0% 25,0% 25,0% Feminino

20,0%
10,0%
0,0%
Futebol Vôlei Basquete Handebol
Preferência esportiva
Fonte: Dados fictícios
Figura 4.6 – Preferência esportiva, segundo o sexo, de funcionários da empresa A.
23

A interpretação do gráfico é a mesma da tabela, ou seja, observa-se que, dos funcionários


que preferem futebol, 75% são homens e 25% são mulheres, ou seja, a maioria é do sexo
masculino. Daqueles funcionários que preferem o vôlei, 37,5% são do sexo masculino e 62,5%
são do sexo feminino, então maioria é do sexo feminino. No basquete, 58,3% são homens e
41,7% são mulheres, isto é, a maioria é do gênero masculino. No handebol, o número de
funcionários é insuficiente. Mas olhando para as frequências absolutas, nota-se que, do total de
40 funcionários que preferem futebol, 30 são homens e 10 são mulheres, portanto, é possível
organizar um torneio de futebol masculino ou misto. Observa-se, também que, 32 funcionários
preferem o vôlei, desses 12 são homens e 20 são mulheres, logo, é possível realizar um torneio
de vôlei feminino ou misto. Haja vista que, 24 funcionários no total preferem o vôlei, sendo 12
homens e 20 mulheres, é possível realizar um torneio misto de esporte.

4.5 Gráfico de setores

O gráfico de setores ou setograma, é usado para representar valores absolutos ou


porcentagens de variáveis qualitativas.
A construção desse tipo de gráfico, manualmente, pode ser feita com o auxílio de um
transferidor. Faz-se a marcação dos ângulos correspondentes às quantidades, partindo de um
ponto qualquer da circunferência e seguindo o sentido dos ponteiros do relógio. No transferidor,
360o equivale à frequência total absoluta. O grau equivalente a quantidade de cada categoria
será calculada por regra de três simples, como mostra o exemplo a seguir:

Tabela 6 – Produção Agrícola do estado em


toneladas (t) no ano X.
Produtos Quantidade (t) Porcentagem
Café 400 000 55,56
Açúcar 200 000 27,78
Milho 100 000 13,89
Feijão 20 000 2,78
Total 720 000 100
Fonte: Dados fictícios

Cálculo do setor Correspondente ao café

720 000  3600


400 000  xo

400 000  360


x  200 o
720 000

Cálculo do setor Correspondente ao açúcar

720 000  3600


24

200 000  xo

200 000  360


x  100o
720 000

Cálculo do setor Correspondente ao milho

720 000  3600


100 000  xo

100 000  360


x  50 o
720 000

Cálculo do setor Correspondente ao feijão

720 000  3600


20 000  xo

20 000  360
x  10o
720 000

Resta agora, a construção do gráfico. Com o auxílio do transferidor, faz-se a marcação dos
ângulos correspondentes às quantidades, partindo de um ponto qualquer da circunferência e
seguindo o sentido dos ponteiros do relógio.

Fonte: Dados fictícios


Figura 4.7 - Produção Agrícola do estado em toneladas (t) no ano X.

Percebe-se de imediato que, a produção maior do estado no ano X foi a do café com
55,8% da produção total. A segunda maior produção foi a do açúcar com 27,8%, a terceira foi a
do milho com 13,9% e a quarta foi a do feijão com 2,8%.
25

4.6 Gráfico de linhas

O gráfico de linhas, tem sido utilizado para a representação de características


cronológicas (quando um dos fatores for o tempo), isto porque quando for medida a mesma
característica durante um grande número de períodos de tempo, a representação dos valores
através de barras pode conduzir a uma excessiva concentração de dados. Como as quantidades
são indicadas pelas alturas das barras, estas podem ser substituídas por uma linha que siga os
movimentos de suas partes superiores.
Para construir o gráfico de linhas, basta marcar os pontos correspondentes aos valores
observados em cada período e uni-los por meio de um traço contínuo. A título de ilustração,
suponha que está sendo feito um levantamento do número de auditorias realizadas, por ano, por
uma empresa de contabilidade, como mostra a Tabela 1.7.

Tabela 7 - Número de auditorias


realizadas por ano, de 2010
a 2017.
Ano Número de auditorias
realizadas
2010 200
2011 350
2012 400
2013 500
2014 550
2015 600
2016 600
2017 700
Fonte: Dados fictícios

Os dados da tabela 7 podem ser expostos num gráfico em linha, como mostra a figura 1.9.

Número de auditorias realizadas por ano


800
700 700
Nº de audorias realizadas

600
550 600 600
500 500
400 400
350
300
200 200
100
0
2009 2010 2011 2012 2013 2014 2015 2016 2017 2018
Ano

Fonte: Dados fictícios


Figura 4.8 – Número de auditorias realizadas por uma empresa de contabilidade.
26

No gráfico apresentado nota-se que o número de auditorias realizadas aumentou em


quase todos os anos, em relação ao ano anterior, sendo que o maior aumento registrado foi do
ano de 2010 para 2011, com aumento de 150 unidades. Apenas de 2015 para 2016, o número de
vendas manteve-se estável, com 600 auditorias em cada ano. Levando em conta o primeiro e o
último anos (2010 e 2017), o número de auditorias saltou de 200 para 700. Isso mostra que a
empresa prosperou no período.
As linhas são particularmente mais eficientes que as colunas quando existem intensas
flutuações das quantidades da característica que está sendo estudada, ou quando há
necessidade de se representar a mesma característica advinda de origens diferentes. Suponha,
por exemplo que, se queira comparar o número de vendas de carros novos de passeio,
realizadas por 3 funcionários da concessionária A, durante o primeiro trimestre.

Tabela 8 - Número de vendas de carros novos de


passeio, realizadas por 3 funcionários
do da concessionária A.
Janeiro Fevereiro Março
João 1 2 2
Antônio 4 5 8
Fernando 10 12 11
Total 15 18 21
Fonte: Dados fictícios

.
Fonte: Dados fictícios
Figura 4.9 - Número de vendas de carros novos de passeio, realizadas por 3 funcionários do
da concessionária A.

No gráfico apresentado, observa-se que o Fernando teve 10 vendas em janeiro, 12 em


fevereiro e 11 em Março, tendo um bom desempenho. O número de vendas do Antônio sempre
cresceu de um mês para o outro, iniciando com 4 unidades em janeiro, 5 em fevereiro e 8 em
março. Já, as vendas do João foram de 1 carro em janeiro, 2 em fevereiro e 2 em março, tendo
um desempenho baixo em relação aos demais e merece atenção.
27

4.7 Sequência de exercícios nº 3

01 Considere a estatística de utilização de browser para acesso à internet em determinado mês.

Tabela 1.8 - Estatística web browser de determinado mês.


Browser Porcentagem
45,9

25,9

15,1

10,6

2,1

0,2

0,2

0,1

0,1

Fonte: http://www.forumcommunity.net/?act=browser&l=5, acessado em 11/02/2015

a) Qual é a variável em estudo e de que tipo ela é?


b) Qual é o tipo de gráfico mais adequado para apresentar os dados? Justifique a sua reposta.
c) Construa o gráfico.
d) Interprete os principais resultados do gráfico.

02. Os dados da tabela a seguir são referentes ao número de estabelecimentos em Foz do


Iguaçu, por ano.

Ano 2008 2009 2010 2011 2012 2013


Nº de hotéis 111 112 110 112 115 109
Nº de Pousadas 16 19 23 37 47 38
Fonte: Secretaria municipal de Turismo

a) Qual é o tipo de gráfico mais adequado para apresentar os dados? Justifique a sua reposta.
b) Construa o gráfico.
c) Interprete os principais resultados do gráfico.

03) A tabela a seguir é referente à distribuição da vida útil, em horas, de ferramentas de corte
em um processo industrial.
Tabela 10 – Vida útil, em horas, de ferramentas de corte em um processo industrial
28

Classes No de Ferram. Porcentagem Frequência Porcentagem


(Horas) acumulada acumulada
0,0I 24,9 2 2,86 2 2,857143
24,9I 49,8 4 5,71 6 8,571429
49,8I 74,7 12 17,14 18 25,71429
74,7I 99,6 30 42,86 48 68,57143
99,6I 124,5 18 25,71 66 94,28571
124,5I 149,4 4 5,71 70 100
TOTAL 70 100
Fonte: Dados fictícios

a) Qual é a variável em estudo e de que tipo ela é?


b) Qual é o tipo de gráfico mais adequado para apresentar os dados? Justifique a sua reposta.
c) Construa o gráfico.
d) Interprete os principais resultados do gráfico.

5 Medidas de tendência central

Foi visto em seções anteriores que, por meio de uma distribuição de frequências, se
estabelece um sistema de classificação que descreve o padrão da variação de um determinado
fenômeno. Todavia, somente com a distribuição de frequências não é possível resumir certas
características importantes em estudo. Devido a isto são utilizadas as medidas de tendência
central (média, moda, mediana, etc.) que resumem o comportamento da variável em estudo,
através do ponto em torno do qual os dados se distribuem.

5.1 Média Aritmética simples

A medida de tendência central mais utilizada para descrever resumidamente uma


distribuição de frequências é a média, ou mais propriamente, a média aritmética x . A média
aritmética pode ser simples ou ponderada como veremos a seguir. Obtém-se a média aritmética
simples de um conjunto de valores x1, x2, . . ., xn, pelo quociente entre a soma desses valores e
o número total de valores observados ( n ), ou seja:

n
 xi
x  x2    xn i 1
x 1 
n n

Em que: xi é o i-ésimo valor observado da variável em estudo;


29

Por exemplo, suponha que em um escritório de consultoria ha cinco contadores de nível


superior, cujos salários são os seguintes, em reais,
3000, 3600, 3000, 3400 e 4000

Logo, a média será dada por,

x i
3000  3600  3000  3400  4000
x i1
  3400 reais
5 5

5.2 Média aritmética ponderada

Portanto, o salário médio dos contadores desse escritório é de 3400 reais, sendo
considerado um valor baixo, uma vez que esses contadores são de nível superior, sem
considerar se os mesmos são casados, ou não. A média aritmética será considerada ponderada
quando os valores do conjunto tiverem pesos diferentes. Obtêm-se a média aritmética
ponderada de um conjunto de valores x1, x2, . . ., xn, dividindo o produto entre esses valores e
seus respectivos pesos, pela soma total dos pesos, isto é,

n
 xi pi
x p  x2 p2    xn pn i 1
x 1 1  n
p1  p2    pn
 pi
i 1

Assim, por exemplo, se um aluno da UNIOESTE teve média anual igual a 55 e nota do
exame igual a 68, com pesos de 6 e 4, respectivamente, a sua média final será dada por:

(55  6  68  4)
x  60,2
(6  4)

Portanto, a média final do aluno foi igual 60,2 pontos. Neste caso, o aluno está aprovado

5.3 Média aritmética de dados tabulados


30

Genericamente, se os valores x1, x2, . . ., xk, ocorrem f1, f2, . . ., fk, vezes, respectivamente,
a média aritmética será calculada por:
k k

x f  x f    xk f k
 xi f i  xi f i
i 1 i 1
x 1 1 2 2  
f1  f 2    f k k n
 fi
i 1

Em que n é o número total de observações ou a soma total das frequências, e k é o número total
de classes ou valores individuais.

Exemplo

A título de ilustração, considere os dados da Tabela 11.

Tabela 11 - Distribuição de frequências do número


de declarações de imposto de renda
realizadas por um escritório de
contabilidade, por dia, num total de 50
dias, em 2017.
Número de declarações
Frequência
de imposto de renda
(Número de dias)
realizadas por dia
0 2
1 3
2 4
3 7
4 12
5 10
6 8
7 3
8 1
Total 50
Fonte: dados fictícios

Logo, a média será,


31

k 9

 x i fi x f i i
0 . 2  1 . 3  2 . 4  3 . 7  4 .12  5 10  6  8  7  3  8 1 33
x i1
k
 i1
   1 declaração.
9
2  3  4  7  12  10  8  3  1
f f
30
i i
i1 i1

Portanto, em média, foi realizada uma declaração por dia, ou valor muito baixo, o que
confirma a análise feita da tabela e do gráfico desses dados.

Quando os dados são agrupados em classes e não se dispõe dos valores originais, é
possível calcular a média aritmética por meio dos valores centrais das classes, utilizando a
expressão anterior.
k k
 xi f i  xi f i
i 1 i 1
x 
k n
 fi
i 1

Em que: xi = (Li + Ls)/2, sendo Ls o limite superior da classe e Li o limite inferior.

Exemplo

Retornemos aos dados da distribuição de frequências dos valores de 49 notas fiscais


emitidas por uma empresa, como mostra a tabela 1.9.

Como sodados estão grupados em classes, o primeiro procedimento é o de calcular o


valor médio de cada classe por xi = (Li+Ls) /2, com o mostra terceira coluna da tabela 1.9

TABELA 12 – Distribuição de frequências dos valores de 49 notas fiscais emitidas por


uma empresa.
Valores das notas fiscais (R$) Número de notas fiscais x i = (Li+Ls)/2
82,50 I 93,36 4 (82,50 + 93,36)/2 = 87,83
93,36 I 104,22 9 (93,36 + 104,22)/2= 98,79
104,22 I 115,08 12 (104,22 + 115,08)/2 =109,65
115,08 I 125,94 12 (115,08 + 125,94)/2 = 120,51
125,94 I 136,80 8 (125,94 + 136,80)/2 = 131,37
136,80 I 147,66 3 (136,80 + 147,66)/2 = 142,23
147,66 I 158,52 1 (147,66 + 158,52)/2 = 153,09
TOTAL 49
Fonte: Dados fictícios

O segundo procedimento é o de multiplicar o valor médio de cada classe por sua respectiva
frequência. O resultado da soma desses produtos é dividido pela soma das frequências, ou seja,
32

7
 xi f i
i 1
x
7
 fi
i 1

(87,93x 4  98,79x9  109,65x12    153,09x1)


x  114 reais
4  9  12  12  8  3  1

Portanto, o valor médio das notas fiscais foi de 114,0 reais. O contador deverá verificar se
esse resultado é normal, ou não. Se não for, deverá investigar o porquê.

5.4 Mediana

A mediana (Md) é outra medida de tendência central, e pode ser definida como o valor que
divide um conjunto de dados numéricos, de tal forma que metade, ou 50% dos itens sejam
maiores ou iguais a este valor, e a outra metade ou os outros 50% dos valores sejam menores
ou iguais ao mesmo.
A determinação da mediana de valores é feita a partir de dados ordenados. Existem dois
casos a considerar: O primeiro, quando o número de observações é ímpar e o segundo quando
o número de observações é par.

O número de observações é impar

Neste caso, é preciso achar o elemento mediano, o qual indica em que posição está a
mediana, pela seguinte fórmula:

n 1
E md 
2

Em que n é o número total de valores observados.

Exemplo
33

A auditoria de notas fiscais é uma função desenvolvida para ajudar na conferência de


lançamentos relacionados ao valor contábil. Determinado profissional da área de contabilidade,
a fim de realizar uma auditoria, anotou os valores de 49 notas fiscais emitidas por uma empresa.
Os resultados, em reais, foram:

130,00 105,00 120,00 111,50 99,00 116,00 82,50


107,50 125,00 100,00 107,50 120,00 143,00 115,00
135,00 130,00 135,00 127,50 90,50 104,50 136,50
100,00 145,00 125,00 104,50 101,50 102,50 101,50
134,50 158,50 110,00 102,50 90,50 107,50 124,00
121,50 135,00 102,00 119,50 115,50 125,50 117,50
107,50 140,00 121,00 107,50 113,00 93,00 103,50

Solução

O primeiro passo é o de ordenar a lista de dados brutos (Rol)

82,50 101,50 104,50 110,00 119,50 125,00 135,00


90,50 101,50 105,00 111,50 120,00 125,50 135,00
90,50 102,00 107,50 113,00 120,00 127,50 136,50
93,00 102,50 107,50 115,00 121,00 130,00 140,00
99,00 102,50 107,50 115,50 121,50 130,00 143,00
100,00 103,50 107,50 116,00 124,00 134,50 145,00
100,00 104,50 107,50 117,50 125,00 135,00 158,50

O segundo passo é calcular a posição da mediana

n 1 49  1
E md   E md   Emd  25 posição
a
2 2

Isto significa que a mediana está na vigésima quinta posição. Observa-se no conjunto
ordenado que, vigésima quinta posição encontra- se o valor 115,00. Portanto, a Medina é

Md = 115 reais
34

Portanto, metade das notas fiscais tem valores maiores ou iguais a R$82,50 e menores ou
iguais a R$115,00 e a outa metade apresenta valores maiores ou iguais a R$115,00 e menores
ou iguais a R$158,50. O contador deverá verificar se esse resultado está dentro da normalidade.
Caso não esteja, deverá tomar as providências cabíveis.

O número de observações é par

Quando o número de observações de dados brutos é par, o procedimento para calcular a


mediana é diferente do caso anterior, isto é, a mediana é igual à média aritmética entre os dois
valores centrais do conjunto ordenado.

Exemplo

Retornemos ao exemplo do número de declarações entregues, por dia, por um escritório


de contabilidade, porém, agora queremos calcular a mediana. Os resultados foram:

5 3 2 1 4 5 5 6 7 4
6 5 4 5 3 6 7 7 5 5
4 6 6 4 2 3 0 5 6 3
8 4 4 4 3 0 1 3 2 4
1 4 5 4 6 2 5 6 4 3

Solução:
O primeiro procedimento é o de ordenar os valores.

0 2 3 3 4 4 5 5 6 6
0 2 3 4 4 4 5 5 6 7
1 2 3 4 4 4 5 5 6 7
1 2 3 4 4 5 5 6 6 7
1 3 3 4 4 5 5 6 6 8

O segundo passo é o de achar as duas posições centrais, pois número de valores observados é
n = 50, ou seja, par. Logo, as duas posições centrais são:

n 50 n 50
Emd1    25a posição e Emd 2  1   1  26 a posição
2 2 2 2
35

Olhando para os dados ordenados, percebe-se que, os valores das 25a e 26a posições, são
iguais a 4, portanto a média entre os dois valores centrais, ou a mediana, será igual a 4, ou seja.

44
Md   Md  4 declarações realizadas por dia
2

Portanto, em metade dos 50 dias, foram realizadas 4 declarações ou menos e, na outra


metade, foram feitas de 4 a 8 declarações. Esse resultado é considerado ruim e o escritório
deverá verificar o porquê desse baixo desempenho para poder melhorá-lo na próxima vez.

5.5 Moda (Mo)

A moda (Mo) é outra medida de tendência central. Genericamente, a moda pode ser
definida como o valor de maior frequência (predominante) de um conjunto de dados. Quando os
valores de um conjunto de dados ocorrem com a mesma frequência, o mesmo é chamado de
amodal. Por outro lado, podem ocorrer conjuntos com mais de uma moda.

Exemplo

Retornemos ao exemplo do número de declarações entregues, por dia, por um escritório


de contabilidade, porém, agora queremos calcular a mediana. Os resultados foram:

5 3 2 1 4 5 5 6 7 4
6 5 4 5 3 6 7 7 5 5
4 6 6 4 2 3 0 5 6 3
8 4 4 4 3 0 1 3 2 4
1 4 5 4 6 2 5 6 4 3

Solução:
O primeiro procedimento é o de ordenar os valores.

0 2 3 3 4 4 5 5 6 6
0 2 3 4 4 4 5 5 6 7
36

1 2 3 4 4 4 5 5 6 7
1 2 3 4 4 5 5 6 6 7
1 3 3 4 4 5 5 6 6 8

O valor 4 é o mais frequente (12 ocorrências). Portanto, a moda é

Mo = 4.

Isto significa que foram realizadas 4 declarações por dia, com maior frequência que os
demais resultados nos 50 dias.

Observação: um conjunto de dados pode não ter moda, nesse caso, será chamado de amodal,
ou pode ter mais de uma moda. Se tiver duas modas será chamado de bimodal.

Exemplos

Y = {4, 4, 5, 5, 6, 6,}

O conjunto Y é amodal, ou seja, todos os valores ocorrem duas vezes.

Z = {1,2, 2, 2, 3, 3, 3, 4, 5, 5, 6, 6}

As modas do conjunto Z são Mo 1 = 2 e Mo2 = 3. Trata-se de um conjunto Bimodal, ou


seja, os valores 2 e 3 ocorrem com maior frequência (3 vezes)

5.6 Sequência de exercícios nº 4

01. Na empresa de pré moldados S/A foi realizada a inspeção diária das alturas, em milímetros,
de pavers (blocos de concreto para pavimentação). Para que não haja grandes variações,
resultando no maior consumo de concreto e menor. Foi realizada no dia 19 de abril de 2005
essa inspeção, tendo o seguinte resultado:

60,0 61,5 61,3 61,3 60,4 59,4 59,7 60,7 60,2 59,2
37

a) Calcular média e interpretar o resultado. Resposta: 60,37


b) Calcular mediana e interpretar o resultado. Resposta: 60,3
c) Calcular moda e interpretar o resultado. Resposta: 61,3

02. A faculdade de engenharia e ciência aplicada da Universidade do Arizona tem um sistema


VAX de computadores. Os tempos, em segundos, para quinze tarefas consecutivas foram
registradas, sendo mostrados abaixo:

5,3 5,0 9,5 10,1 5,8 6,2 5,9 7,2 10 12,2 8,5 4,7 11,2 7,3 6,4

a) Calcular média e interpretar o resultado. Resposta: 7,6867


b) Calcular mediana e interpretar o resultado. Resposta: 7,2
c) Calcular moda e interpretar o resultado. Resposta: conjunto amodal

03. O número de acidentes de trabalho, por mês, foi anotado durante 24 meses, num canteiro
de obras, composto por 50 operários. Os resultados estão na tabela a seguir:

Tabela 13 – Distribuição de frequências do número de


acidentes por mês num canteiro de obras.
Número de acidentes (x) Número de meses (f)
0 5
1 10
2 4
3 3
4 2
Total 24
Fonte: Dados fictícios

a) Calcular média e interpretar o resultado. Resposta: 1,4583

04. A força de remoção para um conector é medida em um teste de laboratório. Dados de 40


corpos de prova são mostrados a seguir:

Tabela 14 – Distribuição de frequências das forças


de remoção.
Força de remoção Nº de corpos de prova
170 I190 6
190 I210 12
210 I230 8
38

230 I250 11
250 I270 3
Total 40
Fonte: Montgomery, Runger e Rubely (2001)

a) Calcular média e interpretar o resultado. Resposta: 216,5

6 Medidas Separatrizes

Existem três tipos de medidas separatrizes, são elas: Os quartis, que dividem um conjunto
de dados em quatro partes iguais, os decis que dividem em dez e os percentis que dividem em
cem partes. Neste curso vamos nos ater apenas aos quartis

6.1 Quartis(Q)

Os quartis são medidas separatrizes que, simultaneamente, dividem um grupo de dados


em quatro partes iguais.
Individualmente, cada quartil ou junta Q, assim como a mediana, divide o conjunto de
dados em duas partes. O primeiro quartil ou junta (Q1) é o valor que deixa um quarto (25%) dos
valores abaixo ou igual a ele e três quartos (75%), igual ou acima.
O segundo quartil (Q2) é um valor que deixa metade (50%) dos dados abaixo ou igual e
a outra metade acima ou igual ao mesmo. Assim, o segundo quartil (Q2) é uma media de
tendência central, pois coincide com a mediana (Q2 = Md).
O terceiro quartil ou junta (Q3) é um valor que deixa três quartos (75%) dos valores
observados restantes abaixo ou igual ao mesmo e um quarto ou 25% igual ou superior.
As seguir serão mostradas algumas regras úteis para o cálculo dos quartis:

1. Os dados devem estar dispostos em ordem crescente.


2. Calcula-se a ordem posição do quartil por meio da expressão

i  (n  1)
E Qi  , com i = 1, 2, 3
4

Em que:
i indica o número do quartil a ser calculado;
n é o número de observações do conjunto de dados.
39

3. Se o a valor de E Qi for um número inteiro, o quartil Qi será igual ao valor do conjunto de


dados que estiver exatamente nesta posição
4. Se o valor de E Qi não for um número inteiro e estiver na metade das posições anterior e
posterior, o quartil será a média dos valores do conjunto de dados que estiverem nas
posições anterior e posterior a E Qi.
5. Se o valor de E Qi não for um número inteiro e nem estiver na metade de duas outras
posições, o resultado desta deverá seguir as regras de arredondamento para um número
inteiro mais próximo, o qual dará a posição anterior ou posterior ao E Qi. Selecione o valor
numérico que estiver nesta nova posição.

Exemplo

A auditoria de notas fiscais é uma função desenvolvida para ajudar na conferência de


lançamentos relacionados ao valor contábil. Determinado profissional da área de contabilidade,
a fim de realizar uma auditoria, anotou os valores de 49 notas fiscais emitidas por uma empresa.
Os resultados, em reais, foram:

130,00 105,00 120,00 111,50 99,00 116,00 82,50


107,50 125,00 100,00 107,50 120,00 143,00 115,00
135,00 130,00 135,00 127,50 90,50 104,50 136,50
100,00 145,00 125,00 104,50 101,50 102,50 101,50
134,50 158,50 110,00 102,50 90,50 107,50 124,00
121,50 135,00 102,00 119,50 115,50 125,50 117,50
107,50 140,00 121,00 107,50 113,00 93,00 103,50

Solução

Dados ordenados

O primeiro passo é o de apresentar os dados em ordem crescente.

82,50 101,50 104,50 110,00 119,50 125,00 135,00


90,50 101,50 105,00 111,50 120,00 125,50 135,00
90,50 102,00 107,50 113,00 120,00 127,50 136,50
40

93,00 102,50 107,50 115,00 121,00 130,00 140,00


99,00 102,50 107,50 115,50 121,50 130,00 143,00
100,00 103,50 107,50 116,00 124,00 134,50 145,00
100,00 104,50 107,50 117,50 125,00 135,00 158,50

Posição do primeiro quartil

O segundo passo é calcular a posição do primeiro quartil

i  (n  1) 1  (49  1)
E Qi   E Qi1  E md  12,5 posição
a
4 4

Cálculo do primeiro quartil

O terceiro passo é o de achar o primeiro quartil. Haja vista que 12,5 está exatamente
entre as posições 13 e 14, o procedimento será o de verificar quais são os valores que estão
nessas posições e calcular a média aritmética dos mesmos, o resultado será o valor da
mediana, ou seja,

103,50  104,50
Q1   Md  104 reais
2

Interpretação do primeiro quartil

Portanto, 25% das notas fiscais têm valores maiores ou iguais a R$82,50 e menores ou
iguais a R$104,00. Os outros 75% das notas fiscais apresentam valores maiores ou iguais a
R$104,00 e menores ou iguais a R$158,5. O contador deverá verificar se esse resultado está
dentro da normalidade. Caso não esteja, deverá tomar as medidas cabíveis.

Posição do segundo quartil

i  (n  1) E 2  (49  1)
E Qi   Q2   25a posição
4 4

Segundo quartil

Na 25a posição ordenada encontra-se o valor 115. Logo, o segundo quartil é


41

Q2 = Md = 115 reais

Interpretação do segundo quartil

Portanto, 50% das notas fiscais têm valores maiores ou iguais a R$82,50 e menores ou
iguais a R$115,00. Os outros 50% das notas fiscais apresentam valores maiores ou iguais a
R$104,00 e menores ou iguais a R$158,5. O contador deverá verificar se esse resultado está
dentro da normalidade. Caso não esteja, deverá tomar as medidas cabíveis.

Posição do terceiro quartil

i  (n  1) E 3  (49  1)
E Qi   Q3   37,5 a posição
4 4

Cálculo do terceiro quartil

O terceiro passo é o de achar o terceiro quartil. Haja vista que 37,5 está exatamente entre
as posições 37 e 38, o procedimento será o de verificar quais são os valores que estão nessas
posições e calcular a média aritmética dos mesmos, o resultado será o valor da mediana, ou
seja,

125,50  127,50
Q3   Md  126,50 reais
2

Interpretação do terceiro quartil

Portanto, 75% das notas fiscais têm valores maiores ou iguais a R$82,50 e menores ou
iguais a R$126,50. Os outros 25% das notas fiscais apresentam valores maiores ou iguais a
R$126,50 e menores ou iguais a R$158,50. O contador deverá verificar se esse resultado está
dentro da normalidade. Caso não esteja, deverá tomar as medidas cabíveis.
42

6.2 Sequência de exercícios nº 5

01. Na empresa de pré moldados S/A foi realizada a inspeção diária das alturas, em milímetros,
de pavers (blocos de concreto para pavimentação). Para que não haja grandes variações,
resultando no maior consumo de concreto e menor. Foi realizada no dia 19 de abril de 2005
essa inspeção, tendo o seguinte resultado:

60,0 61,5 61,3 61,3 60,4 59,4 59,7 60,7 60,2 59,2

a) Calcular o primeiro quartil e interpretar o resultado. Resposta: 59,7


b) Calcular o segundo quartil e interpretar o resultado. Resposta: 60,3
c) Calcular o terceiro quartil e interpretar o resultado. Resposta: 61,3

02. A faculdade de engenharia e ciência aplicada da Universidade do Arizona tem um sistema


VAX de computadores. Os tempos, em segundos, para quinze tarefas consecutivas foram
registradas, sendo mostrados abaixo:

5,3 5,0 9,5 10,1 5,8 6,2 5,9 7,2 10 12,2 8,5 4,7 11,2 7,3 6,4

a) Calcular o primeiro quartil e interpretar o resultado. Resposta: 4


b) Calcular o segundo quartil e interpretar o resultado. Resposta: 8
c) Calcular o terceiro quartil e interpretar o resultado. Resposta: 12

7 Medidas de dispersão

As medidas de tendência central e as medidas separatrizes, como visto, dão uma ideia do
comportamento de todo o conjunto de dados, através de um valor único. Porém, elas são
insuficientes para descrever mais detalhadamente o comportamento da variação dos dados,
como será visto a seguir.
Considere os tempos, de três funcionários, para executar a mesma tarefa. Foram tomados
os tempos (em segundos) de 5 tarefas para cada funcionário, fornecendo os seguintes
resultados:
Funcionário A: 10, 10, 10, 10, 10
Funcionário B: 11, 10, 9, 11, 9
Funcionário C: 3, 4, 5, 20, 18
43

Percebe-se que não há dispersão ou variação nos resultados do funcionário A. Ha pouca


dispersão entre os valores do funcionário B e há uma dispersão maior entre os resultados do
funcionário C. Porém, se calculando a média dos tempos de cada funcionário, obtém-se:

10  10  10  10  10
xA   10 segundos
5
11  10  9  11  9
xB   10 segundos
5
3  4  5  20  18
xc   10 segundos
5

Portanto, apesar de a média ser uma medida importante, assim como a mediana e a moda, as
mesmas não servem para verificar a dispersão ou variação de um conjunto de dados.
A média dos tempos para executar uma tarefa é a mesma para os três funcionários, mas,
observando mais detalhadamente os três grupos obtidos, pode-se notar que se distribuem
diferentemente em relação à média (10segundos), como mostra a figura a seguir:

Figura 6.1 – Variação dos tempos medidos nos funcionários A, B e C.

Para uma análise quantitativa dessa maior ou menor variação (ou dispersão) do conjunto
de valores em torno do valor médio, deve-se estudar as medidas de dispersão. As principais
são: a variância, o desvio padrão e o coeficiente de variação.

7.1 Variância e desvio padrão


44

Na figura 1.14 nota-se que, quanto mais os valores estão afastados da média, maior é
dispersão ou variação entre os dados. A variância e o desvio padrão são medidas de dispersão
baseadas nos desvios em relação à média.

1º caso) Quando se tratar de uma população

Algumas vezes é possível trabalhar com toda a população. Assim, a variância de uma
população, simbolizada por é dada por:

 (x
i1
i  ) 2
2 
N
Em que:
 2 é a variância populacional;
 xi é o i-ésimo valor observado;
  é a média populacional;
 N é o número de valores observados na população ou tamanho da população.

Percebe-se que denominador da expressão apresentada nunca será negativo, uma vez
2
que os valores dos quadrados dos desvios, ( xi   ) , são sempre positivos.

O desvio padrão de uma população finita, simbolizado por  , é definido como a raiz
quadrada da variância:

 2

Exemplo
Suponha que em um escritório de consultoria ha cinco contadores de nível superior, cujos
salários, em reais, são os seguintes:

3000, 3600, 3000, 3400 e 4000


Pede-se:
a) O cálculo da média
b) O cálculo da variância
c) O cálculo do desvio padrão e interprete o resultado.

Solução:
45

Haja vista que, no escritório de consultoria ha cinco contadores de nível superior e são
apresentados os salários de todos eles, então, estamos trabalhando com uma população, logo,
calculamos , 2 e .

a)   3000  3600  3000  3400  4000  3400 reais


5

b)
xi xi -  (xi - )2
3000 -400 160000
3600 200 40000
3000 -400 160000
3400 0 0
4000 600 360000
N
Total  ( x  )
i1
i
2
= 72000

 (x
i1
i  ) 2
72000
Variância      144000reais2
2

N 5

c) desvio padrão     2  144000  379,47 reais

Intepretação do desvio padrão

Significa que, cada salário observado tem uma diferença em relação ao salário médio, cujo
valor é de R$3400,00, porém, em média esta diferença é de R$379,47.

2º caso) Quando se tratar de uma amostra coletada de uma população infinita

Na maioria dos casos, não é possível observar todos os elementos de uma população.
Devido a isso são calculados a variância e o desvio padrão amostrais
Quando a amostra for coletada de uma população infinita, utiliza-se a variância amostral
S2.
46

 (x i  x) 2
s2  i1

n 1

Em que:
 xi é o i-ésimo valor observado;

 x é a média aritmética da amostra;


 n é o tamanho da amostra ou número de valores observados.

A razão para se utilizar n - 1 como denominador, e não apenas n é a de que, se infinitas


amostras ao acaso forem coletadas nessa população infinita, a média aritmética da variável S 2
será 2. Assim, pode-se dizer que S 2 é um estimador não tendencioso de 2 para populações
infinitas.
Nesse caso, o desvio padrão será

s  s2

Exemplo

Retornemos ao exemplo dos tempos, de três funcionários, para executar a mesma tarefa.
Foram tomados os tempos (em segundos) de 5 tarefas para cada funcionário, fornecendo os
seguintes resultados:
Funcionário A: 10, 10, 10, 10, 10
Funcionário B: 11, 10, 9, 11, 9
Funcionário C: 3, 4, 5, 20, 18

Neste exemplo o tempo médio foi x  10 segundos para cada um dos três funcionários. Pede-
se:

Solução:

Neste exemplo, se considerarmos todas as tarefas que cada funcionário realiza na


empresa, temos uma população infinita de operações. Assim, para cada funcionário temos uma
amostra de tamanho n = 5 coletada de uma população infinita de tarefas. Dessa forma, pode ser
47

utilizada a variância “s2” o desvio padrão "s" para medir a variação ou dispersão desse conjunto
de dados. Para o funcionário C temos:

5
 ( xi  10)2
i 1
a) s2 
5 1

(3  10) 2  (4  10) 2  (5  10) 2  (20  10) 2  (18  10) 2


Variância  S   68,5 segundos2
2

b) Desvio padrão é:

S  68,5  8,3 segundos

Portanto, cada tempo anotado do funcionário C para a realizar a tarefa, tem uma diferença
em relação ao salário médio, cujo valor é 10 de segundos, porém, em média, essa diferença é
de 68,5 segundos

O quadro a seguir mostra os resultados das variâncias e dos desvios padrão dos funcionários A,
B e C.

Funcionário Variância Desvio Padrão


A 0 0
B 1 1
C 68,5 8,3

Percebe-se para funcionário A que, não há diferença entre os valores observados (sempre
10 s), devido a isso a variância e o desvio padrão são nulos. No funcionário B, houve uma
pequena diferença entre os valores observados, por isso, a variância e o desvio padrão foram
baixos (1s). No funcionário C, houve maior diferença maior entre os valores observados, assim,
a variância e o desvio padrão foram maiores que os anteriores, ou seja, 68,5 segundos 2 e 8s.

7.2. Coeficiente de variação

O coeficiente de variação (CV) é uma medida de dispersão adimensional. A vantagem em


se usar esta medida é sua facilidade de interpretação, uma vez que a mesma varia de 0 a 100%.
Devido a isso pode-se dizer que o coeficiente de variação é uma medida pura, pois não possui
unidade de medida como as anteriores. Aqui utilizaremos o coeficiente de variação de Pearson
48

dado pelo quociente entre o desvio padrão (s) e a média amostral ( x ). O coeficiente de variação
pode ser expresso em porcentagem, sendo uma medida relativa de dispersão em relação ao
valor médio, ou seja,

s
cv  .100
x

Segundo Fonseca e Martins(1996), diz-se que a distribuição possui pequena variabilidade


ou dispersão quando o resultado do CV for no máximo 10%; média dispersão quando estiver
acima de 10% até 20%; e grande dispersão quando superar 20%, ou seja,

Baixa dispersão: CV  10%


Média dispersão: 10% < CV  20%
Alta dispersão: CV > 20%

O coeficiente de variação é particularmente útil quando são comparadas as variabilidades


de dois ou mais conjuntos de dados que são expressos em diferentes unidades de medida.
Deve-se utilizar o coeficiente de variação, também, quando deseja-se comparar as
dispersões de 2 conjuntos de dados com unidades de medida iguais, porém com médias muito
diferentes de tal modo que, a comparação direta desvios padrão não é muito útil, uma vez que
essa medida de variação leva em conta a soma dos quadrados dos desvios em relação à média.

Exemplo

Retornemos ao exemplo dos tempos, de três funcionários, para executar a mesma tarefa.
Foram tomados os tempos (em segundos) de 5 tarefas para cada funcionário, fornecendo os
seguintes resultados:

Funcionário x S
A 10 0
B 10 1
C 10 8,3

Nesse caso, os coeficientes de variação serão:

s 0
cv A  .100   100  0%
x 10
49

s 1
cv B  .100   100  10%
x 10

s 8,3
cv B  .100   100  83%
x 10

As dispersões dos tempos dos funcionários A e B são consideradas baixas(CV ≤ 10%). Já,
a dispersão dos tempos do funcionário C é considerada alta(CV > 20%).

6.3 Sequência de exercícios nº 6

1) Uma pesquisa realizada com os clientes de um restaurante, levantou o grau de satisfação


com a renda dos entrevistados e a renda média foi de R$1918,95.. O banco de dados a seguir
mostra o resultado deste levantamento junto a 19 clientes.

800 2560 980 3500 750 1500 1000 1250 1600 3600
1450 1990 2500 3600 400 980 800 4200 3000

a) Calcular a variância. Resposta: 1389287,72 reais2


b) Calcular o desvio padrão e interpretar o resultado. Resposta: R$1178,68
c) Calcula o coeficiente de variação e interpretar o resultado. Resposta: 61,42%

2) O departamento de produção usa um procedimento de amostragem para testar a qualidade


dos comprimentos do itens recém produzidos,. A regra de decisão é a seguinte: se uma
amostra de 10 itens tem uma variância maior do que “ 0,005 “ cm2 a linha de produção deve ser
paralisada para reparos. Suponha que a seguinte amostra foi coletada:

3,43 3,45 3,43 3,48 3,52 3,50 3,39 3,50 3,38 3,41

Sabendo que a média foi dos comprimentos foi 3,449 cm:

a) Calcular a variância. Resposta: s2 = 0,0024. A linha de produção deve ser paralisada?


Justifique a sua resposta?
b) Calcular o desvio padrão e interpretar o resultado. Resposta: s = 0,0491
c) Calcular o coeficiente de variação e interpretar o resultado. Resposta: = 1,4236%

8. Medidas de Assimetria e Curtose


50

As distribuições de frequências não diferem apenas quanto às medidas de posição e de


dispersão, mas também quanto á sua forma, ou seja, deve-se levar em conta o grau de
deformação ou de assimetria, assim como o grau de achatamento ou afilamento da curva de
frequências ou do histograma.

8.1 Medidas de Assimetria

A assimetria é definida como o grau de desvio, ou afastamento da simetria, de uma


distribuição. Quantitativamente, o grau de desvio pode ser determinado pela medida
denominada de coeficiente momento de assimetria (a3) dado pela seguinte expressão:

m3
a3 
s3

Em que s3 é o desvio padrão amostral elevado ao cubo; m3 é o terceiro momento centrado na


média de um conjunto de n valores observados x1, x2,. . . , xn., definido para dados brutos por:

n
 (x i  x) 3
i 1
m3 
n

Em que n o número total de observações e x é a média aritmética.


Se os dados forem tabulados, as frequências das categorias (f i), serão inseridas na
fórmula anterior, ou seja:

k
 f i (x i  x) 3
i 1
m3 
n

em que:
k é o número total de categorias;
xi é o valor individual de cada categoria se os dados não estiverem distribuídos em classes, ou o
ponto médio de cada classe, xi = (Ls + Li)/2, se os dados forem apresentados em classes
Sendo a3 = 0, tem-se uma distribuição simétrica. Quando ocorre a3 0, a distribuição é
alongada à esquerda, sendo assimétrica à esquerda ou assimétrica negativa; para a 3 > 0, a
51

distribuição é alongada à direita, sendo denominada de assimétrica à direita ou assimétrica


positiva, como mostra Figura 1.12.Também observa-se o seguinte aspecto na figura 1.12

Distribuição simétrica  x  Md  Mo
Distribuição assimétrica negativa  x  Md  Mo
Distribuição assimétrica positiva  Mo  Md  x

x  Md  Mo x  Md  Mo Mo  Md  x
Figura 8.1 Distribuição simétrica (a 3 = 0), assimétrica negativa (a 3 < 0) e assimétrica
positiva (a3 > 0)

Outra medida que pode ser utilizada para avaliar o grau de assimetria é o chamado
coeficiente de assimetria de Pearson o qual pode ser dado por:

( x  Mo)
A
s

Algumas vezes o conjunto de dados contém mais de uma moda, ou não a possui. Nesse caso
poder usada a seguinte expressão:
3  ( x  Md )
A
s

A segunda expressão é obtida pela relação empírica entre a média a e a moda, proposta
por Pearson, ou seja,

( x  Mo )  3  ( x  Md)

Assim,
( x  Mo) 3  ( x  Md )

s s

Apenas quando a distribuição for simétrica essas expressões serão equivalentes, pois
essas relações são aproximadas.
52

8.2 Curtose

A curtose é definida como o grau de achatamento de uma distribuição de dados,


considerado usualmente em relação à distribuição normal (distribuição teórica que será objeto
de estudo na seção 10.2). Com relação ao achatamento, a distribuição normal é dita
mesocúrtica. As distribuições mais achatadas são ditas platicúrticas, enquanto que as mais
afiladas são ditas leptocúrticas, como mostra a figura 8.1.

Normal Leptocúrtica Platicúrtica

Figura 8.2 - Distribuições Normal, Leptocúrtica e Platicúrtica

A principal medida de curtose é dada pelo coeficiente momento de curtose (a4), sendo
definida pelo quociente entre o quarto momento centrado na média (m 4) e o desvio padrão
elevado à quarta potência (s4), ou seja,

m4
a4 
s4

Em que m4 é o quarto momento centrado na média, cuja expressão é dada por:

k
 ( xi  x ) 4
i 1
m4 
n

Caso tenham-se dados tabulados, m4 é expresso da seguinte forma:

k
 fi ( x i  x ) 4
m4  i 1
n
53

Em que:
k é o número total de categorias ou classes;
xi é o valor individual de cada categoria se os dados não estiverem distribuídos em classes, ou o
ponto médio de cada classe, xi = (Ls + Li) /2, se os dados forem apresentados em classes
O coeficiente do momento de curtose é uma medida adimensional de curtose, sendo a 4 = 3
para a distribuição normal, a 4< 3 para a distribuição platicúrtica e a 4 > 3 para distribuição
leptocúrtica.
Na prática só faz sentido calcular a curtose para as distribuições simétricas ou pelo
menos aproximadamente simétrica.

Exemplos:

Suponha que tenha sido realizada uma experiência a fim de examinar o efeito da idade
sobre o número de batidas do coração, quando o funcionário é submetido a certo tipo de
atividade. Foram sorteados 10 funcionários na faixa etária de 20 a 39 anos. Cada um andou
sobre uma pista fixa (comandada pelo movimento dos pés) durante 12 minutos, numa
intensidade predeterminada. O aumento das batidas do coração de cada pessoa, ou seja, a
diferença entre os totais antes e depois do exercício, foi anotado para cada um dos funcionários,
obtendo-se os resultados a seguir em batidas por minuto. Sabendo que a média é de
27,5 batimentos/minuto e o desvio padrão de 4,9 batimentos/minuto, e a mediana é 27,5
batimentos/minuto calcule a assimetria e o grau de achatamento da distribuição dos dados.

24 27 33 31 21
28 24 34 21 32

Cálculo do coeficiente do momento de assimetria

n
 ( x i  x )3 (27  27,5) 3  (33  27,5) 3  . . .  (32  27,5) 3
i 1  m3  6
m3 
n 10

 m3 
60  m 3  6
10

m3 6
Logo, a3   a3   a3  - 0,05
4,9 3
3
s
54

Cálculo do coeficiente de assimetria de Pearson

3  ( x  Md)
A = A  3  (27,5  27,5)  0
s 4,9

Cálculo do coeficiente de curtose


n
 (x i  x) 4 (24  27,5) 4  (33  27,5) 4  . . .  (32  27,5) 4
m4  i 1  m4  
n 10
(3.5) 4  (-0,5)4  . . .  (4,5)4 0,0625  150,0625 . . ..  410,0625
 m4   m4  
10 10
7130,625
 m4   m4  713,0625
10

m4 713,0625
Logo, a4  4
 a4  =1,2369
s 4,9 4

Conclui-se, portanto, que, a curva de distribuição de frequências dos batimentos cardíacos


por minuto, de funcionários da faixa etária de 20 a 39 anos, é simétrica, pois ocorre A3 = 0 e a3 =
-0,05  0. A distribu0ição é platicúrtica (achatada em relação à distribuição normal), pois ocorre
a4 = 1,2369 < 3.

Os dados da tabela 1.13 referem-se ao peso em kg de 23 pacotes de um certo produto,


cuja média foi de 2,73 kg e desvio padrão de 0,52 kg.

TABELA 15 Peso em kg de 23 pacotes de um certo produto


Classes fi xi = (Li +Ls)/2
(Peso em kg)
1,5 I 2,0 2 (1,5 + 2,0)/2 =1,75
2,0 I 2,5 5 (2,0 + 2,5)/2 = 2,25
2,5 I 3,0 10 2,75
3,0 I 3,5 4 3,25
3,5 I 4,0 2 3,75

Cálculo do coeficiente de Assimetria

k
 f i ( x i  x )3
m3  i 1
n
55

2 . (1,75  2,73)3  5 . (2,25  2,73)3  . . .  2 . (3,75  2,73)3


m3 
23

2 . (-0,98)3  5 . (-0,48)3  . . .  2 . (1,02)3 2 . (0,94)  5 . ( 0,11)  . . .  2 (1,06)


m3  m3 
23 23
1,88  0,55  . . .  2,12
 m3
23
0,25
m3   m3  0,01
23

m 0,01
Logo, a 3  3  a 3   a 3  0,07
s3 0,523

Conclui-se, portanto, que a curva de distribuição de frequências dos pesos dos 23 pacotes
desse produto, é simétrica, pois a 3 = 0,07  0

Cálculo do coeficiente de Curtose

k
 fi ( x i  x ) 4
m4  i 1
n
2 . (1,75  2,73)4  5 . (2,25  2,73)4  . . .  2 . (3,75  2,73) 4
m4 
23

2 . (-0,98)4  5 . (-0,48)4  . . .  2 . (1,02)4


m4 
23

2 . (0,92)  5 . (0,05)  . . .  2 (1,09) 1,83  0,26  . . .  2,18


m4   m4
23 23
4,57
m4   m4  0,20
23

m4  0,20  a  2,7
Logo, a4  4
s4 0,52 4

Conclui-se, portanto, que a distribuição de frequências dos pesos em kg, dos 23 pacotes
desse produto, é aproximadamente normal, pois a 4  2,7  3.

8.3 Sequência de exercícios nº 7

1 Suponha que tenha sido cronometrado o tempo que operários levam para realizar determinada
tarefa em certa indústria, conforme os dados abaixo.

45 37 39 48 51 40
Calcular os coeficientes de assimetria e a curtose e interprete todos os resultados.
Resultados: a3 = 0,18 e a4 = 1,07
56

02. A força de remoção para um conector é medida em um teste de laboratório. Dados de 40


corpos de prova são mostrados a seguir:

Tabela 16 – Distribuição de frequências das forças


de remoção.
Força de remoção Nº de corpos de prova
170 I190 6
190 I210 12
210 I230 8
230 I250 11
250 I270 3
Total 40
Fonte: Montgomery, Runger e Rubely (2001)

Calcular os coeficientes de assimetria e a curtose e interprete todos os resultados. Resultados:


a3 = 0 e a4 = 0,0210