Escolar Documentos
Profissional Documentos
Cultura Documentos
ESTATÍSTICA
DESCRITIVA
Foz do Iguaçu
Fevereiro/2019
1
Sumário
A estatística é uma ciência formada por diversos métodos aplicados a vários ramos do
conhecimento humano para a obtenção e utilização de informações que possibilitam a tomada de
decisão em determinada situação prática.
A evolução das técnicas de gestão, nos campos da administração, contabilidade e
economia é uma realidade devido, também, à utilização de métodos estatísticos, os quais
auxiliam na tomada de decisão. Enfim, todas as áreas do conhecimento humano podem e devem
utilizar a estatística como ferramenta auxiliadora na descrição e tomada de decisão.
Dentro de uma empresa, frequentemente, os profissionais estão tomando decisões,
quase todas importantes, essenciais para o sucesso dos negócios, por isso a necessidade de
dados estatísticos com informações corretas, que contribuam para uma boa tomada de decisão. A
administração não é uma ciência exata, ela é uma ciência social, pois é a ação humana que gera
e modifica o fenômeno patrimonial, porém, utiliza os métodos quantitativos, ou seja, matemática e
estatística como principal ferramenta.
Dois termos bastante utilizados em estatística são população e amostra:
População: É o grupo alvo de estudo, o qual tem uma ou mais características em
comum.
Amostra: É um subconjunto ou uma parte da população.
Por exemplo, um auditor quer verificar faturas de uma empresa de vendas, porém, o
mesmo dispõe de 10000 faturas (população) e não tem tempo para verificar todas. Então, ele
coleta sistematicamente 50 faturas (amostra) e obtém as informações necessárias.
Quando a quantidade de documentos dentro da empresa é muito grande, para que a
auditoria possa ser feita, é necessário utilizar uma parte representativa desse material. Esta
representatividade só é conseguida através da metodologia de dimensionamento de amostras e
das técnicas estatísticas de amostragem, as quais correspondem a uma parte deste curso.
Geralmente surge a seguinte pergunta: Porque utilizar os métodos estatísticos? Dentre as
razões para o profissional da área de administração aprender estatística temos:
O adminstrador precisa saber como obter predições e(ou) previsões confiáveis a partir de
variáveis de interesse. Isso é possível por meio de modelagem, ou seja, da análise de
regressão e da análise de séries temporais.
Pode-se dizer que toda a ciência que manipula dados experimentais necessita da
estatística como método de análise, para que o pesquisador possa tirar conclusões que tenham
validade científica.
Neste curso serão desenvolvidos os seguintes tópicos de estatística; Estatística
descritiva, probabilidade, amostragem e inferência estatística (testes de hipótese e estimação),
correlação e análise de regressão linear.
O estudo de amostragem possibilitará o conhecimento das principais técnicas de
obtenção de amostras bem como o seu dimensionamento.
O estudo de probabilidades será necessário para que possam ser desenvolvidos os
principais métodos de inferência estatística.
A probabilidade servirá como base para o estudo da inferência estatística.
A inferência estatística vai possibilitar a tomada de decisão acerca de populações
tomando como base, amostras.
A correlação estuda o grau associação entre duas ou mais variáveis e a análise de
regressão linear propõe uma equação linear para predizer valores de uma variável dependente
(Y) em função de uma ou mais variáveis preditoras (X1, X2, . . .Xk). Essa metodologia é utilizada
em contabilometria.
2 Variáveis Estatísticas
Variável Característica pela qual deseja-se que a população seja descrita, ou por meio da qual,
decisões acerca da população são tomadas. Por exemplo: altura de alunos, comprimento peças,
preferência do eleitor, etc.
nominais
qualitativas
ordinais
Tipos de variáveis
discretas
quantitati vas
contínuas
Variáveis qualitativas
Variáveis quantitativas
05. Classificar cada uma das seguintes variáveis (qualitativa nominal, qualitativa ordinal,
quantitativa discreta ou contínua):
3 Estatística descritiva
Definição 1: A estatística descritiva é uma função cujo valor numérico descreve, por si só,
determinada característica de um conjunto de dados, reduzindo-o a proporções mais facilmente
6
interpretáveis. Dentre essas funções temos a média amostral, o desvio padrão amostral, a
proporção amostral, etc.
Frequência é uma medida que quantifica a ocorrência de um valor ou categoria de uma variável
Distribuição de frequência consiste em uma função que associa os valores que uma variável
assume com suas respectivas frequências de ocorrência.
absoluta
simples
relativa
Frequência
absoluta
acumulada
relativa
Geralmente uma tabela é formada pelos seguintes componentes: Título, cabeçalho, coluna
indicadora, Corpo, Linha de totais e Rodapé, como mostra a figura 3.1.
O título deve conter as informações relativas ao conteúdo da tabela, ou seja, a(s)
variável(is) dispostas, podendo ainda conter o local de coleta dos dados, e quando foi realizado
o estudo. O cabeçalho especifica as variáveis e a frequência (ou outra característica)
correspondente aos seus valores.
O corpo é representado por uma série de colunas e subcolunas, dentro das quais são
colocadas as frequências simples e acumuladas. No rodapé são colocadas a legenda e todas as
7
Mais detalhes sobre normas de tabelas deverão ser consultadas na NBR 14724:2011
subitem 5.9, que por sua vez, remete as normas de apresentação tabular do Instituto Brasileiro
de Geografia e Estatística – IBGE (1993), as quais podem ser encontradas no seguinte site:
http://biblioteca.ibge.gov.br/visualizacao/livros/liv23907.pdf
Nas tabelas com dados não-agrupados em classes, os valores são da primeira coluna são
individuais. Esse tipo de tabela é utilizado quando a variável em estudo é quantitativa discreta e
não possui mais dez valores individuais.
Exemplo
5 3 2 1 4 5 5 6 7 4
6 5 4 5 3 6 7 7 5 5
4 6 6 4 2 3 0 5 6 3
8 4 4 4 3 0 1 3 2 4
1 4 5 4 6 2 5 6 4 3
b) Qual é o tipo de tabela mais adequado para representar a distribuição de frequências dos
dados? Justifique a sua resposta.
A tabela com dados não agrupados em classes é o tipo mais adequado, pois a variável
“número de declarações de imposto de renda feitas por dia” é classificada como “variável
quantitativa discreta” e não possui mais de dez valores individuais, isto é, são nove valores (de 0
a 8).
d) Interprete a tabela
houve 5 declarações realizadas por dia. O maior número de declarações realizadas por dia foi
oito, um número baixo. Houve dois dias em que nenhuma declaração foi realizada. Por fim,
percebe-se que, em 28 dias, o equivalente a 56%(mais da metade dos dias), foram feitas 4
declarações ou menos. Haja vista que, a época de declaração de imposto de renda é período
em que os escritórios de contabilidade ganham mais dinheiro, a gestão do mesmo deverá
procurar meio (marketing, treinamento, agilidade, etc.) para melhorar seu desempenho.
Observação: quando uma tabela é interpretada, não é necessário realiza-la para todas as
informações. Apenas interpretam-se as informações mais relevantes as quais, em geral, são as
de maior frequência e aquelas onde as frequências acumuladas ultrapassam os 50%, isto é,
representam a maioria.
Exemplo: Suponha que a gerência de uma empresa, a fim de realizar atividades de integração,
resolveu realizar uma pesquisa sobre a preferência esportiva de seus funcionários. Após a
coleta dos dados, foram utilizados os seguintes códigos para facilitar a digitação: 1 para futebol,
2 para vôlei, 3 para basquete e 4 para Handebol. Os dados coletados foram:
1 3 4 4 2 3 2 3
2 2 1 1 1 1 2 2
1 1 3 1 2 1 3 1
2 2 2 3 2 3 1 3
2 1 2 3 2 3 2 1
1 2 1 1 2 1 3 4
2 2 1 2 1 3 2 3
1 1 3 2 2 1 1 3
2 1 1 3 1 1 2 3
4 4 1 1 3 2 3 1
4 3 4 3 2 1 1 4
1 1 1 1 3 1 2 2
1 1 3 2 2 1 3 2
10
Percebe-se que a preferência esportiva de maior frequência foi a do futebol com 40 de 104
funcionários, o equivalente a 38,46%. Nota-se que o vôlei foi o segundo esporte preferido, com
32 funcionários, o equivalente a 30,77%. Observa-se, ainda, que, o futebol e o vôlei somaram
juntos 72 funcionários, o equivalente a 69,23% do total, ou seja, a maioria. O basquete foi o
terceiro esporte preferido, com 24 funcionários ou 7,69%. Então, é possível realizar um torneio
de futebol, um de vôlei e outro de basquete.
É comum, no entanto, a necessidade de apresentar, numa só tabela, mais do que uma
característica em estudo. Assim, torna-se necessário o uso de tabelas de dupla entrada.
Exemplo
Observação: Haja vista que, estão sendo estudadas duas variáveis simultaneamente, na
prática, os dados deveriam ser digitados em duas colunas de uma planilha, ou seja, uma coluna
para cada variável. No Excel teríamos os resultados da variável “modalidade esportiva”, por
exemplo, na coluna “A” e os dados da variável “gênero” na coluna “B”. Porém, devido à falta de
11
espaço na página, os dados foram digitados em 16 colunas, isto é, oito colunas para cada
variável.
X1 X2 X1 X2 X1 X2 X1 X2 X1 X2 X1 X2 X1 X2 X1 X2
1 1 3 2 4 2 4 2 2 2 3 2 2 2 3 1
2 1 2 2 1 1 1 2 1 1 1 1 2 2 2 2
1 1 1 1 3 1 1 1 2 2 1 1 3 1 1 1
2 1 2 1 2 2 3 2 2 1 3 1 1 1 3 2
2 1 1 1 2 1 3 1 2 2 3 1 2 1 1 1
1 1 2 2 1 2 1 2 2 2 1 1 3 1 4 2
2 1 2 1 1 1 2 1 1 2 3 2 2 2 3 1
3 2 1 1 3 2 2 2 2 2 1 2 1 1 3 1
2 2 1 1 1 1 3 1 1 1 1 2 2 2 3 1
4 1 4 2 1 2 1 1 3 2 2 2 3 2 1 1
4 1 3 1 4 2 3 2 2 2 1 1 1 1 4 2
1 1 1 2 1 2 1 1 3 1 1 1 2 2 2 2
1 2 1 1 1 1 2 1 2 1 1 1 3 1 2 2
Observação: O objetivo neste exemplo é comparar os gêneros masculino e feminino para cada
modalidade esportiva, separadamente. Logo, a soma das porcentagens dos gêneros masculino
e feminino deve ser de 100% dentro de cada modalidade esportiva. Por uma questão de
estética, colocaremos as categorias da variável “modalidade esportiva” nas linhas, porque é a
que apresenta o maior número de categorias, ou seja, são quatro (futebol, vôlei, basquete e
handebol). Já, as categorias da variável “gênero”, ou seja, masculino e feminino, serão
colocadas nas colunas, pois o número e categorias é menor.
As tabelas com dados agrupados em classes são utilizadas quando a variável em estudo é
classificada como quantitativa contínua. Porém, podem ser usadas, também, quando a variável
é classifica como quantitativa discreta e, o número de valores individuais é maior do que 10.
Neste último caso, o procedimento de agrupar dados individuais, em classes, visa evitar certos
inconvenientes, tais como:
- Grande extensão da tabela, dificultando tanto quanto os dados originais, a leitura e a
interpretação dos resultados;
- Aparecimento de diversos valores da variável com frequência nula.
Exemplo
a fim de realizar uma auditoria, anotou os valores de 49 notas fiscais emitidas por uma empresa.
Os resultados, em reais, foram:
130,00 105,00 120,00 111,50 99,00 116,00 82,50
107,50 125,00 100,00 107,50 120,00 143,00 115,00
135,00 130,00 135,00 127,50 90,50 104,50 136,50
100,00 145,00 125,00 104,50 101,50 102,50 101,50
134,50 158,50 110,00 102,50 90,50 107,50 124,00
121,50 135,00 102,00 119,50 115,50 125,50 117,50
107,50 140,00 121,00 107,50 113,00 93,00 103,50
At = 158,50 – 82,50 = 76
c) Calcular o número de classes (k). Alguns autores propõem que se utilize a fórmula de
Sturges, expressada por:
K = 1 + 3,3*log(n)
venha a ser incluído na última classe. Então, faz-se necessário arredondar também a amplitude
C do intervalo de classe. Assim, para o exemplo dado tem-se
K = 1 + 3,3.log 49 k = 6,577... k = 7
Αt
c
κ
Observação: caso ocorra “(Limite superior da última classe) ≤ (máximo valor observado)”, o
procedimento será o de aumentar a amplitude “C”. Repetir esse processo até que ocorra “(Limite
superior da última classe) > (máximo valor observado)”
I : indica inclusão na classe do valor situado à sua esquerda e exclusão do valor situado à sua
direita." direita.
II: indica inclusão na classe dos valores situados a sua esquerda e à direita.
Nota-se que a última classe 147,66 I 158,52 já inclui o maior valor observado (158,50),
então não é preciso construir mais classes. O passo seguinte é o de retornar aos dados
ordenados (ROL) e fazer a contagem dos valores incluídos em cada classe. Nesses dados
percebe-se que os quatro primeiros valores (82.50; 90,50; 90,50 e 93) estão dentro da classe
82,50 I 93,36. Portanto, a frequência desta categoria é 4. As frequências de todas as classes
estão na tabela 1.4.
TABELA 4 – Distribuição de frequências dos valores de 49 notas fiscais emitidas por uma
empresa.
Valores das notas Número de Porcentagem Frequência Porcentagem
fiscais (R$) notas fiscais acumulada acumulada
82,50 I 93,36 4 8,2 4 8,2
93,36 I 104,22 9 18,4 13 26,6
104,22 I 115,08 12 24,5 25 51,1
115,08 I 125,94 12 24,5 37 75,6
125,94 I 136,80 8 16,3 45 91,9
136,80 I 147,66 3 6,1 48 98
147,66 I 158,52 1 2,0 49 100
TOTAL 49 100
Fonte: Dados fictícios
01. Foi feita uma pesquisa com uma amostra de 80 alunos de instituições de ensino superior.
Uma das variáveis em estudo foi o número de pessoas na família. O resultado foi o seguinte:
2 3 5 4 2 3 1 5 3 2
2 2 1 3 2 2 3 3 4 1
1 2 2 2 3 3 3 4 4 4
5 5 5 6 4 2 3 5 2 2
5 4 3 2 2 2 3 2 2 3
2 5 3 5 2 3 2 2 4 5
2 2 2 3 4 4 5 5 3 3
2 2 2 1 5 5 1 2 2 3
P D P P D D P D R R
P P P R R P P P R R
R P D P D P R R R P
P R R R P P P P R D
D P P P P D D R D D
03. O tempo para realizar a declaração de imposto de renda foi anotado (em minutos). Foram
feitas 40 declarações, os tempos foram:
45 37 39 48 51 40 53 49
39 41 45 43 45 34 45 35
41 57 38 46 46 58 57 36
58 35 31 59 44 57 45 44
38 43 33 56 47 48 44 49
4 Representação gráfica
Esse tipo de gráfico pode ser utilizado quando a variável em estudo é discreta e possui no
máximo dez valores individuais, ou seja, é usado nas mesmas situações onde utiliza-se a tabela
com dados não agrupados em classes. Retornando ao exemplo Número de Declarações
realizadas por dia, tem-se:
18
Número de Frequência
Declarações realizadas por dia (Nº de dias)
0 2
1 3
2 4
3 7
4 12
5 10
6 8
7 3
8 1
Total 50
12 12
Número de dias
10 10
8 8
7
6
4 4
3 3
2 2
1
0
0 1 2 3 4 5 6 7 8
Número de declarções realizadas
4.2 Histograma
Os dados das duas primeiras colunas da tabela acima estão representados na figura 4.2
12 12
12
10 9
8
8
6
4
4 3
2 1
0
Valores(R$)
O polígono de frequências é obtido pelo ligamento dos pontos médios dos retângulos
formados no histograma, por meio de uma linha. A área entre o eixo das abscissas e esta linha
formará um polígono.
Esse tipo de gráfico auxiliará na avaliação de uma importante distribuição de probabilidade,
a chamada distribuição normal, a qual será mostrada em seções posteriores.
O polígono de frequências construído com o auxílio do histograma apresentado
anteriormente está apresentado na Figura 4.3.
12
10
8
6
4
2
0
71,64 82,5 93,36 104,22 115,08 125,94 136,8 147,66 158,52 169,38
Valores(R$)
0,4
0,3
0,2
0,1
0,0
-3 -2 -1 0 1 2 3
X
Olhando para o polígono de frequências (figura 4.3), nota-se que ele tem
aproximadamente a forma da distribuição normal (figura 4.4). Essa informação pode servir, por
21
Os gráficos de Barras simples têm por finalidade comparar categorias de uma variável, por
meio de retângulos de larguras iguais e alturas proporcionais às frequências de cada categoria.
Cada barra representa uma categoria.
Preferência Porcentagem
Futebol 38,5
Vôlei 30,8
Basquete 23,1
Handebol 7,7
TOTAL 100
22
Porcentagem
30,0%
25,0% 23,1%
20,0%
15,0%
10,0% 7,7%
5,0%
0,0%
Futebol Vôlei Basquete Handebol
Preferência esportiva
Percebe-se que a maior preferência foi a do futebol, ou seja, 38,5%. Nota-se que o vôlei foi
o segundo esporte preferido, com 30,8%. Observa-se, ainda, que, o futebol e o vôlei somaram
juntos 69,3% do total, ou seja, a maioria. O basquete foi o terceiro esporte preferido, com 23,1%.
Então, é possível realizar um torneio de futebol, um de vôlei e outro de basquete.
É possível comparar duas categorias ou mais de uma variável qualitativa, dentro de uma
categoria de outra variável qualitativa, por meio de um gráfico de barras compostas.
Retornemos ao exemplo da preferência esportiva, segundo o sexo.
Masculino Feminino
Preferência esportiva Total
Nº de funcionários Porcentagem Nº de funcionários Porcentagem
Futebol 30 75,0% 10 25,0% 40
Vôlei 12 37,5% 20 62,5% 32
Basquete 14 58,3% 10 41,7% 24
Handebol 2 25,0% 6 75,0% 8
50,0% 41,7%
37,5% Masculino
40,0%
30,0% 25,0% 25,0% Feminino
20,0%
10,0%
0,0%
Futebol Vôlei Basquete Handebol
Preferência esportiva
Fonte: Dados fictícios
Figura 4.6 – Preferência esportiva, segundo o sexo, de funcionários da empresa A.
23
20 000 360
x 10o
720 000
Resta agora, a construção do gráfico. Com o auxílio do transferidor, faz-se a marcação dos
ângulos correspondentes às quantidades, partindo de um ponto qualquer da circunferência e
seguindo o sentido dos ponteiros do relógio.
Percebe-se de imediato que, a produção maior do estado no ano X foi a do café com
55,8% da produção total. A segunda maior produção foi a do açúcar com 27,8%, a terceira foi a
do milho com 13,9% e a quarta foi a do feijão com 2,8%.
25
Os dados da tabela 7 podem ser expostos num gráfico em linha, como mostra a figura 1.9.
600
550 600 600
500 500
400 400
350
300
200 200
100
0
2009 2010 2011 2012 2013 2014 2015 2016 2017 2018
Ano
.
Fonte: Dados fictícios
Figura 4.9 - Número de vendas de carros novos de passeio, realizadas por 3 funcionários do
da concessionária A.
25,9
15,1
10,6
2,1
0,2
0,2
0,1
0,1
a) Qual é o tipo de gráfico mais adequado para apresentar os dados? Justifique a sua reposta.
b) Construa o gráfico.
c) Interprete os principais resultados do gráfico.
03) A tabela a seguir é referente à distribuição da vida útil, em horas, de ferramentas de corte
em um processo industrial.
Tabela 10 – Vida útil, em horas, de ferramentas de corte em um processo industrial
28
Foi visto em seções anteriores que, por meio de uma distribuição de frequências, se
estabelece um sistema de classificação que descreve o padrão da variação de um determinado
fenômeno. Todavia, somente com a distribuição de frequências não é possível resumir certas
características importantes em estudo. Devido a isto são utilizadas as medidas de tendência
central (média, moda, mediana, etc.) que resumem o comportamento da variável em estudo,
através do ponto em torno do qual os dados se distribuem.
n
xi
x x2 xn i 1
x 1
n n
x i
3000 3600 3000 3400 4000
x i1
3400 reais
5 5
Portanto, o salário médio dos contadores desse escritório é de 3400 reais, sendo
considerado um valor baixo, uma vez que esses contadores são de nível superior, sem
considerar se os mesmos são casados, ou não. A média aritmética será considerada ponderada
quando os valores do conjunto tiverem pesos diferentes. Obtêm-se a média aritmética
ponderada de um conjunto de valores x1, x2, . . ., xn, dividindo o produto entre esses valores e
seus respectivos pesos, pela soma total dos pesos, isto é,
n
xi pi
x p x2 p2 xn pn i 1
x 1 1 n
p1 p2 pn
pi
i 1
Assim, por exemplo, se um aluno da UNIOESTE teve média anual igual a 55 e nota do
exame igual a 68, com pesos de 6 e 4, respectivamente, a sua média final será dada por:
(55 6 68 4)
x 60,2
(6 4)
Portanto, a média final do aluno foi igual 60,2 pontos. Neste caso, o aluno está aprovado
Genericamente, se os valores x1, x2, . . ., xk, ocorrem f1, f2, . . ., fk, vezes, respectivamente,
a média aritmética será calculada por:
k k
x f x f xk f k
xi f i xi f i
i 1 i 1
x 1 1 2 2
f1 f 2 f k k n
fi
i 1
Em que n é o número total de observações ou a soma total das frequências, e k é o número total
de classes ou valores individuais.
Exemplo
k 9
x i fi x f i i
0 . 2 1 . 3 2 . 4 3 . 7 4 .12 5 10 6 8 7 3 8 1 33
x i1
k
i1
1 declaração.
9
2 3 4 7 12 10 8 3 1
f f
30
i i
i1 i1
Portanto, em média, foi realizada uma declaração por dia, ou valor muito baixo, o que
confirma a análise feita da tabela e do gráfico desses dados.
Quando os dados são agrupados em classes e não se dispõe dos valores originais, é
possível calcular a média aritmética por meio dos valores centrais das classes, utilizando a
expressão anterior.
k k
xi f i xi f i
i 1 i 1
x
k n
fi
i 1
Exemplo
O segundo procedimento é o de multiplicar o valor médio de cada classe por sua respectiva
frequência. O resultado da soma desses produtos é dividido pela soma das frequências, ou seja,
32
7
xi f i
i 1
x
7
fi
i 1
Portanto, o valor médio das notas fiscais foi de 114,0 reais. O contador deverá verificar se
esse resultado é normal, ou não. Se não for, deverá investigar o porquê.
5.4 Mediana
A mediana (Md) é outra medida de tendência central, e pode ser definida como o valor que
divide um conjunto de dados numéricos, de tal forma que metade, ou 50% dos itens sejam
maiores ou iguais a este valor, e a outra metade ou os outros 50% dos valores sejam menores
ou iguais ao mesmo.
A determinação da mediana de valores é feita a partir de dados ordenados. Existem dois
casos a considerar: O primeiro, quando o número de observações é ímpar e o segundo quando
o número de observações é par.
Neste caso, é preciso achar o elemento mediano, o qual indica em que posição está a
mediana, pela seguinte fórmula:
n 1
E md
2
Exemplo
33
Solução
n 1 49 1
E md E md Emd 25 posição
a
2 2
Isto significa que a mediana está na vigésima quinta posição. Observa-se no conjunto
ordenado que, vigésima quinta posição encontra- se o valor 115,00. Portanto, a Medina é
Md = 115 reais
34
Portanto, metade das notas fiscais tem valores maiores ou iguais a R$82,50 e menores ou
iguais a R$115,00 e a outa metade apresenta valores maiores ou iguais a R$115,00 e menores
ou iguais a R$158,50. O contador deverá verificar se esse resultado está dentro da normalidade.
Caso não esteja, deverá tomar as providências cabíveis.
Exemplo
5 3 2 1 4 5 5 6 7 4
6 5 4 5 3 6 7 7 5 5
4 6 6 4 2 3 0 5 6 3
8 4 4 4 3 0 1 3 2 4
1 4 5 4 6 2 5 6 4 3
Solução:
O primeiro procedimento é o de ordenar os valores.
0 2 3 3 4 4 5 5 6 6
0 2 3 4 4 4 5 5 6 7
1 2 3 4 4 4 5 5 6 7
1 2 3 4 4 5 5 6 6 7
1 3 3 4 4 5 5 6 6 8
O segundo passo é o de achar as duas posições centrais, pois número de valores observados é
n = 50, ou seja, par. Logo, as duas posições centrais são:
n 50 n 50
Emd1 25a posição e Emd 2 1 1 26 a posição
2 2 2 2
35
Olhando para os dados ordenados, percebe-se que, os valores das 25a e 26a posições, são
iguais a 4, portanto a média entre os dois valores centrais, ou a mediana, será igual a 4, ou seja.
44
Md Md 4 declarações realizadas por dia
2
A moda (Mo) é outra medida de tendência central. Genericamente, a moda pode ser
definida como o valor de maior frequência (predominante) de um conjunto de dados. Quando os
valores de um conjunto de dados ocorrem com a mesma frequência, o mesmo é chamado de
amodal. Por outro lado, podem ocorrer conjuntos com mais de uma moda.
Exemplo
5 3 2 1 4 5 5 6 7 4
6 5 4 5 3 6 7 7 5 5
4 6 6 4 2 3 0 5 6 3
8 4 4 4 3 0 1 3 2 4
1 4 5 4 6 2 5 6 4 3
Solução:
O primeiro procedimento é o de ordenar os valores.
0 2 3 3 4 4 5 5 6 6
0 2 3 4 4 4 5 5 6 7
36
1 2 3 4 4 4 5 5 6 7
1 2 3 4 4 5 5 6 6 7
1 3 3 4 4 5 5 6 6 8
Mo = 4.
Isto significa que foram realizadas 4 declarações por dia, com maior frequência que os
demais resultados nos 50 dias.
Observação: um conjunto de dados pode não ter moda, nesse caso, será chamado de amodal,
ou pode ter mais de uma moda. Se tiver duas modas será chamado de bimodal.
Exemplos
Y = {4, 4, 5, 5, 6, 6,}
Z = {1,2, 2, 2, 3, 3, 3, 4, 5, 5, 6, 6}
01. Na empresa de pré moldados S/A foi realizada a inspeção diária das alturas, em milímetros,
de pavers (blocos de concreto para pavimentação). Para que não haja grandes variações,
resultando no maior consumo de concreto e menor. Foi realizada no dia 19 de abril de 2005
essa inspeção, tendo o seguinte resultado:
60,0 61,5 61,3 61,3 60,4 59,4 59,7 60,7 60,2 59,2
37
5,3 5,0 9,5 10,1 5,8 6,2 5,9 7,2 10 12,2 8,5 4,7 11,2 7,3 6,4
03. O número de acidentes de trabalho, por mês, foi anotado durante 24 meses, num canteiro
de obras, composto por 50 operários. Os resultados estão na tabela a seguir:
230 I250 11
250 I270 3
Total 40
Fonte: Montgomery, Runger e Rubely (2001)
6 Medidas Separatrizes
Existem três tipos de medidas separatrizes, são elas: Os quartis, que dividem um conjunto
de dados em quatro partes iguais, os decis que dividem em dez e os percentis que dividem em
cem partes. Neste curso vamos nos ater apenas aos quartis
6.1 Quartis(Q)
i (n 1)
E Qi , com i = 1, 2, 3
4
Em que:
i indica o número do quartil a ser calculado;
n é o número de observações do conjunto de dados.
39
Exemplo
Solução
Dados ordenados
i (n 1) 1 (49 1)
E Qi E Qi1 E md 12,5 posição
a
4 4
O terceiro passo é o de achar o primeiro quartil. Haja vista que 12,5 está exatamente
entre as posições 13 e 14, o procedimento será o de verificar quais são os valores que estão
nessas posições e calcular a média aritmética dos mesmos, o resultado será o valor da
mediana, ou seja,
103,50 104,50
Q1 Md 104 reais
2
Portanto, 25% das notas fiscais têm valores maiores ou iguais a R$82,50 e menores ou
iguais a R$104,00. Os outros 75% das notas fiscais apresentam valores maiores ou iguais a
R$104,00 e menores ou iguais a R$158,5. O contador deverá verificar se esse resultado está
dentro da normalidade. Caso não esteja, deverá tomar as medidas cabíveis.
i (n 1) E 2 (49 1)
E Qi Q2 25a posição
4 4
Segundo quartil
Q2 = Md = 115 reais
Portanto, 50% das notas fiscais têm valores maiores ou iguais a R$82,50 e menores ou
iguais a R$115,00. Os outros 50% das notas fiscais apresentam valores maiores ou iguais a
R$104,00 e menores ou iguais a R$158,5. O contador deverá verificar se esse resultado está
dentro da normalidade. Caso não esteja, deverá tomar as medidas cabíveis.
i (n 1) E 3 (49 1)
E Qi Q3 37,5 a posição
4 4
O terceiro passo é o de achar o terceiro quartil. Haja vista que 37,5 está exatamente entre
as posições 37 e 38, o procedimento será o de verificar quais são os valores que estão nessas
posições e calcular a média aritmética dos mesmos, o resultado será o valor da mediana, ou
seja,
125,50 127,50
Q3 Md 126,50 reais
2
Portanto, 75% das notas fiscais têm valores maiores ou iguais a R$82,50 e menores ou
iguais a R$126,50. Os outros 25% das notas fiscais apresentam valores maiores ou iguais a
R$126,50 e menores ou iguais a R$158,50. O contador deverá verificar se esse resultado está
dentro da normalidade. Caso não esteja, deverá tomar as medidas cabíveis.
42
01. Na empresa de pré moldados S/A foi realizada a inspeção diária das alturas, em milímetros,
de pavers (blocos de concreto para pavimentação). Para que não haja grandes variações,
resultando no maior consumo de concreto e menor. Foi realizada no dia 19 de abril de 2005
essa inspeção, tendo o seguinte resultado:
60,0 61,5 61,3 61,3 60,4 59,4 59,7 60,7 60,2 59,2
5,3 5,0 9,5 10,1 5,8 6,2 5,9 7,2 10 12,2 8,5 4,7 11,2 7,3 6,4
7 Medidas de dispersão
As medidas de tendência central e as medidas separatrizes, como visto, dão uma ideia do
comportamento de todo o conjunto de dados, através de um valor único. Porém, elas são
insuficientes para descrever mais detalhadamente o comportamento da variação dos dados,
como será visto a seguir.
Considere os tempos, de três funcionários, para executar a mesma tarefa. Foram tomados
os tempos (em segundos) de 5 tarefas para cada funcionário, fornecendo os seguintes
resultados:
Funcionário A: 10, 10, 10, 10, 10
Funcionário B: 11, 10, 9, 11, 9
Funcionário C: 3, 4, 5, 20, 18
43
10 10 10 10 10
xA 10 segundos
5
11 10 9 11 9
xB 10 segundos
5
3 4 5 20 18
xc 10 segundos
5
Portanto, apesar de a média ser uma medida importante, assim como a mediana e a moda, as
mesmas não servem para verificar a dispersão ou variação de um conjunto de dados.
A média dos tempos para executar uma tarefa é a mesma para os três funcionários, mas,
observando mais detalhadamente os três grupos obtidos, pode-se notar que se distribuem
diferentemente em relação à média (10segundos), como mostra a figura a seguir:
Para uma análise quantitativa dessa maior ou menor variação (ou dispersão) do conjunto
de valores em torno do valor médio, deve-se estudar as medidas de dispersão. As principais
são: a variância, o desvio padrão e o coeficiente de variação.
Na figura 1.14 nota-se que, quanto mais os valores estão afastados da média, maior é
dispersão ou variação entre os dados. A variância e o desvio padrão são medidas de dispersão
baseadas nos desvios em relação à média.
Algumas vezes é possível trabalhar com toda a população. Assim, a variância de uma
população, simbolizada por é dada por:
(x
i1
i ) 2
2
N
Em que:
2 é a variância populacional;
xi é o i-ésimo valor observado;
é a média populacional;
N é o número de valores observados na população ou tamanho da população.
Percebe-se que denominador da expressão apresentada nunca será negativo, uma vez
2
que os valores dos quadrados dos desvios, ( xi ) , são sempre positivos.
O desvio padrão de uma população finita, simbolizado por , é definido como a raiz
quadrada da variância:
2
Exemplo
Suponha que em um escritório de consultoria ha cinco contadores de nível superior, cujos
salários, em reais, são os seguintes:
Solução:
45
Haja vista que, no escritório de consultoria ha cinco contadores de nível superior e são
apresentados os salários de todos eles, então, estamos trabalhando com uma população, logo,
calculamos , 2 e .
b)
xi xi - (xi - )2
3000 -400 160000
3600 200 40000
3000 -400 160000
3400 0 0
4000 600 360000
N
Total ( x )
i1
i
2
= 72000
(x
i1
i ) 2
72000
Variância 144000reais2
2
N 5
Significa que, cada salário observado tem uma diferença em relação ao salário médio, cujo
valor é de R$3400,00, porém, em média esta diferença é de R$379,47.
Na maioria dos casos, não é possível observar todos os elementos de uma população.
Devido a isso são calculados a variância e o desvio padrão amostrais
Quando a amostra for coletada de uma população infinita, utiliza-se a variância amostral
S2.
46
(x i x) 2
s2 i1
n 1
Em que:
xi é o i-ésimo valor observado;
s s2
Exemplo
Retornemos ao exemplo dos tempos, de três funcionários, para executar a mesma tarefa.
Foram tomados os tempos (em segundos) de 5 tarefas para cada funcionário, fornecendo os
seguintes resultados:
Funcionário A: 10, 10, 10, 10, 10
Funcionário B: 11, 10, 9, 11, 9
Funcionário C: 3, 4, 5, 20, 18
Neste exemplo o tempo médio foi x 10 segundos para cada um dos três funcionários. Pede-
se:
Solução:
utilizada a variância “s2” o desvio padrão "s" para medir a variação ou dispersão desse conjunto
de dados. Para o funcionário C temos:
5
( xi 10)2
i 1
a) s2
5 1
b) Desvio padrão é:
Portanto, cada tempo anotado do funcionário C para a realizar a tarefa, tem uma diferença
em relação ao salário médio, cujo valor é 10 de segundos, porém, em média, essa diferença é
de 68,5 segundos
O quadro a seguir mostra os resultados das variâncias e dos desvios padrão dos funcionários A,
B e C.
Percebe-se para funcionário A que, não há diferença entre os valores observados (sempre
10 s), devido a isso a variância e o desvio padrão são nulos. No funcionário B, houve uma
pequena diferença entre os valores observados, por isso, a variância e o desvio padrão foram
baixos (1s). No funcionário C, houve maior diferença maior entre os valores observados, assim,
a variância e o desvio padrão foram maiores que os anteriores, ou seja, 68,5 segundos 2 e 8s.
dado pelo quociente entre o desvio padrão (s) e a média amostral ( x ). O coeficiente de variação
pode ser expresso em porcentagem, sendo uma medida relativa de dispersão em relação ao
valor médio, ou seja,
s
cv .100
x
Exemplo
Retornemos ao exemplo dos tempos, de três funcionários, para executar a mesma tarefa.
Foram tomados os tempos (em segundos) de 5 tarefas para cada funcionário, fornecendo os
seguintes resultados:
Funcionário x S
A 10 0
B 10 1
C 10 8,3
s 0
cv A .100 100 0%
x 10
49
s 1
cv B .100 100 10%
x 10
s 8,3
cv B .100 100 83%
x 10
As dispersões dos tempos dos funcionários A e B são consideradas baixas(CV ≤ 10%). Já,
a dispersão dos tempos do funcionário C é considerada alta(CV > 20%).
800 2560 980 3500 750 1500 1000 1250 1600 3600
1450 1990 2500 3600 400 980 800 4200 3000
3,43 3,45 3,43 3,48 3,52 3,50 3,39 3,50 3,38 3,41
m3
a3
s3
n
(x i x) 3
i 1
m3
n
k
f i (x i x) 3
i 1
m3
n
em que:
k é o número total de categorias;
xi é o valor individual de cada categoria se os dados não estiverem distribuídos em classes, ou o
ponto médio de cada classe, xi = (Ls + Li)/2, se os dados forem apresentados em classes
Sendo a3 = 0, tem-se uma distribuição simétrica. Quando ocorre a3 0, a distribuição é
alongada à esquerda, sendo assimétrica à esquerda ou assimétrica negativa; para a 3 > 0, a
51
Distribuição simétrica x Md Mo
Distribuição assimétrica negativa x Md Mo
Distribuição assimétrica positiva Mo Md x
x Md Mo x Md Mo Mo Md x
Figura 8.1 Distribuição simétrica (a 3 = 0), assimétrica negativa (a 3 < 0) e assimétrica
positiva (a3 > 0)
Outra medida que pode ser utilizada para avaliar o grau de assimetria é o chamado
coeficiente de assimetria de Pearson o qual pode ser dado por:
( x Mo)
A
s
Algumas vezes o conjunto de dados contém mais de uma moda, ou não a possui. Nesse caso
poder usada a seguinte expressão:
3 ( x Md )
A
s
A segunda expressão é obtida pela relação empírica entre a média a e a moda, proposta
por Pearson, ou seja,
( x Mo ) 3 ( x Md)
Assim,
( x Mo) 3 ( x Md )
s s
Apenas quando a distribuição for simétrica essas expressões serão equivalentes, pois
essas relações são aproximadas.
52
8.2 Curtose
A principal medida de curtose é dada pelo coeficiente momento de curtose (a4), sendo
definida pelo quociente entre o quarto momento centrado na média (m 4) e o desvio padrão
elevado à quarta potência (s4), ou seja,
m4
a4
s4
k
( xi x ) 4
i 1
m4
n
k
fi ( x i x ) 4
m4 i 1
n
53
Em que:
k é o número total de categorias ou classes;
xi é o valor individual de cada categoria se os dados não estiverem distribuídos em classes, ou o
ponto médio de cada classe, xi = (Ls + Li) /2, se os dados forem apresentados em classes
O coeficiente do momento de curtose é uma medida adimensional de curtose, sendo a 4 = 3
para a distribuição normal, a 4< 3 para a distribuição platicúrtica e a 4 > 3 para distribuição
leptocúrtica.
Na prática só faz sentido calcular a curtose para as distribuições simétricas ou pelo
menos aproximadamente simétrica.
Exemplos:
Suponha que tenha sido realizada uma experiência a fim de examinar o efeito da idade
sobre o número de batidas do coração, quando o funcionário é submetido a certo tipo de
atividade. Foram sorteados 10 funcionários na faixa etária de 20 a 39 anos. Cada um andou
sobre uma pista fixa (comandada pelo movimento dos pés) durante 12 minutos, numa
intensidade predeterminada. O aumento das batidas do coração de cada pessoa, ou seja, a
diferença entre os totais antes e depois do exercício, foi anotado para cada um dos funcionários,
obtendo-se os resultados a seguir em batidas por minuto. Sabendo que a média é de
27,5 batimentos/minuto e o desvio padrão de 4,9 batimentos/minuto, e a mediana é 27,5
batimentos/minuto calcule a assimetria e o grau de achatamento da distribuição dos dados.
24 27 33 31 21
28 24 34 21 32
n
( x i x )3 (27 27,5) 3 (33 27,5) 3 . . . (32 27,5) 3
i 1 m3 6
m3
n 10
m3
60 m 3 6
10
m3 6
Logo, a3 a3 a3 - 0,05
4,9 3
3
s
54
3 ( x Md)
A = A 3 (27,5 27,5) 0
s 4,9
m4 713,0625
Logo, a4 4
a4 =1,2369
s 4,9 4
k
f i ( x i x )3
m3 i 1
n
55
m 0,01
Logo, a 3 3 a 3 a 3 0,07
s3 0,523
Conclui-se, portanto, que a curva de distribuição de frequências dos pesos dos 23 pacotes
desse produto, é simétrica, pois a 3 = 0,07 0
k
fi ( x i x ) 4
m4 i 1
n
2 . (1,75 2,73)4 5 . (2,25 2,73)4 . . . 2 . (3,75 2,73) 4
m4
23
m4 0,20 a 2,7
Logo, a4 4
s4 0,52 4
Conclui-se, portanto, que a distribuição de frequências dos pesos em kg, dos 23 pacotes
desse produto, é aproximadamente normal, pois a 4 2,7 3.
1 Suponha que tenha sido cronometrado o tempo que operários levam para realizar determinada
tarefa em certa indústria, conforme os dados abaixo.
45 37 39 48 51 40
Calcular os coeficientes de assimetria e a curtose e interprete todos os resultados.
Resultados: a3 = 0,18 e a4 = 1,07
56