Escolar Documentos
Profissional Documentos
Cultura Documentos
Nesta aula, aprenderemos os conceitos de medidas de posição e dispersão, que serão úteis na análise e interpretação de
situações como a que foi descrita aqui. Além da visualização por meio de gráficos, podemos quantificar a posição central e
dispersão dos dados.
Objetivos
Fazer uma análise exploratória dos dados por meio do resumo dos cinco números e pela análise do Box-Plot.
Dados quantitativos
Sabemos que dados quantitativos são provenientes de variáveis quantitativas discretas ou contínuas. Diferentemente de dados
qualitativos, quando estamos analisando um conjunto de dados numéricos temos a possibilidade de explorar melhor esse
conjunto, caracterizando-o por meio de sua tendência central, formato e variação1 .
Vamos pensar em empresas que fabricam qualquer tipo de produto: elas não conseguem fabricar produtos que tenham
características sempre idênticas, ou seja, dois produtos nunca são exatamente iguais. Pode acontecer da variação encontrada
entre os produtos ser imperceptível, mas ela pode ser grande de maneira a tornar o produto não conforme ou torná-lo defeituoso.
Nesse caso, como fontes de variabilidade, podemos citar: diferenças nos materiais, diferenças no desempenho e operação dos
equipamentos de manufatura e diferenças na maneira como os operadores realizam suas tarefas.
qualidade é inversamente proporcional à variabilidade
Na engenharia de qualidade, o principal objetivo é a redução sistemática da variabilidade nas características chaves da qualidade
do produto. Redução da variabilidade implica em menores custos, em consequência de menos reparos dos produtos, menos
reclamações dentro da garantia, etc.
Antes de estudarmos as medidas de posição e dispersão, vamos aprender a organizar e apresentar dados quantitativos em
distribuições de frequências e gráficos.
Distribuição de frequências
A estrutura de uma distribuição de frequências para dados quantitativos é a mesma que aquela que aprendemos para dados
qualitativos. Para dados discretos, apresentamos os valores em ordem crescente. Agora, para um grande conjunto de dados
contínuos, organizamos os dados em intervalos de classes, pois dados contínuos se repetem em uma frequência baixa, tornado
a tabela extensa. O mesmo pode ser feito para muitos dados discretos com pouca repetição.
Para a organização dos dados em classes, precisamos saber qual o número de classes que vamos construir e a amplitude
(tamanho) de cada classe.
Não há um número de classes ideal a ser construída, mas existem fórmulas que servem como referência. Podemos utilizar a
regra da raiz, sugerida por vários autores:
k ≅√n
É muito comum o valor obtido para k não ser inteiro, então, vamos aproximar para o inteiro próximo
de k
1 á
amplitude total = valor m ximo − valor m nimo í
amplitude total
2
amplitude de classe =
k
Normalmente, o resultado dessa divisão não é inteiro. Podemos arredondar até o próximo número
inteiro, para facilitar a construção das classes.
O valor mínimo dos dados pode ser utilizado como o limite inferior da primeira classe. Caso esse
número seja decimal, podemos considerar o inteiro anterior a esse número. Por exemplo, se o menor
3 valor do conjunto de dados é 2,15, podemos considerar como limite inferior da primeira classe o número
2.
Após a identificação dos limites inferiores e superiores das classes, contamos o número de
4 observações que pertencem a cada intervalo de classe (frequências absolutas). Também, podemos
encontrar as frequências relativas (%) de cada classe.
Devemos deixar claro, na distribuição de frequências, se os valores iguais aos limites estão ou não
incluídos na classe. Construiremos intervalos de classe fechados à esquerda. A representação deste
5 tipo de intervalo é:
Li | − Ls
Exemplo
Um dos principais indicadores para a qualidade dos serviços oferecidos por qualquer organização é a velocidade com que a
organização responde às reclamações dos clientes. Uma grande loja de departamentos, que comercializa mobiliário e coberturas
para pisos, passou por uma grande expansão ao longo dos últimos anos. Um objetivo estratégico empresarial corresponde a
reduzir o tempo entre o momento em que a reclamação é recebida e o momento em que o problema objeto da reclamação é
solucionado. Durante um ano recente, a empresa recebeu 50 reclamações com relação à instalação de carpetes. Os dados a
seguir representam o número de dias entre o recebimento da reclamação e a solução do problema:
1 2 4 4 5 5 5 10 11 12
13 13 14 19 20 21 22 23 26 26
26 27 27 27 28 29 29 29 30 31
31 32 33 35 35 36 52 54 61 68
Vamos apresentar os dados em uma distribuição de frequências. Usando a regra da raiz para encontrar o número de classes,
temos:
k ≅√50 ≅7, 1
Como o resultado é um valor decimal, temos que considerar um valor inteiro próximo a esse resultado. Então, podemos escolher
trabalhar com 7 classes.
á í
amplitude de cada classe = (valor m ximo − valor m nimo)/7 = (165 − 1)/7 ≅23, 4
Vamos considerar a amplitude de cada classe 24 e o limite inferior da primeira classe 0 (começar com 1 também é possível!).
|−24 18 36,00
24| − 48 18 36,00
Observamos que 72% das reclamações
48| − 72 4 8,00 precisaram de até 48 dias para serem
solucionadas e que 10% delas
72| − 96 3 6,00 precisaram entre 120 a 168 dias.
Métodos gráficos
Os dois tipos de gráficos frequentemente utilizados para variáveis quantitativas são o gráfico de barras, para dados discretos que
não foram agrupados, e o histograma, para dados contínuos agrupados em classes.
Gráfico de Barras
Já utilizamos o gráfico de barras para mostrar visualmente o comportamento das categorias de uma variável qualitativa. Aqui, o
procedimento é o mesmo, porém, colocaremos os valores da variável quantitativa no eixo das abscissas (eixo x) e as frequências
absolutas ou porcentagens no eixo das ordenadas. Não devemos esquecer dos cuidados que devemos ter na construção de um
gráfico!
Exemplo
Um fabricante de molas, interessado em implementar um sistema de controle de qualidade para monitorar seu processo de
produção, analisou 40 lotes de produção com tamanho igual a 50 e registrou o número de molas fora da conformidade em cada
um dos lotes. Os dados são apresentados no gráfico a seguir.
Histograma
Mas, o que é uma curva em forma de sino? As características para uma curva em forma de sino são: o aumento das frequências,
que atingem um máximo e depois decrescem e a simetria (metade a esquerda do gráfico é uma imagem refletida da metade a
direita). A Figura a seguir apresenta uma curva em forma de sino ajustada ao histograma.
Exemplo
Os dados a seguir referem-se ao tempo de parada de um equipamento, seja por manutenção ou troca de ferramentas. Os tempos
estão em minutos e foram coletados uma vez ao dia.
Podemos observar que a distribuição dos dados é aproximadamente simétrica. Nesse exemplo, o histograma é o gráfico
apropriado para visualizar os dados coletados, pois eles foram agrupados em classes.
Média
Fórmula:
Vantagens e desvantagens
n
∑ xi
i=1
x̄ =
n
Em que:
3. Só pode se encontrada para variáveis quantitativas.
n
Moda
Fórmula:
Não tem fórmula, basta analisar a distribuição de Vantagens e desvantagens
frequências, pois moda é a resposta que aparece com a
maior frequência em um conjunto de dados.
1. A moda pode ser encontrada para variáveis
Um conjunto de dados pode: qualitativas e quantitativas.
1. Não ter moda (distribuição amodal). 2. A limitação do uso da moda está no fato de que
um conjunto de dados pode não ter moda alguma,
2. Ter uma moda (distribuição unimodal). ou pode ter mais de uma moda, ao passo que a
média e a mediana são únicas.
3. Ter duas modas (distribuição bimodal).
Mediana
Md = x n+1
Exemplo
Vamos utilizar os dados do Exemplo referente ao número de molas fora da conformidade para calcular as medidas de posição.
Média:
k
∑ x i ⋅fi 3×1+4×4+5×3+…+12×4
i=1 301
x̄ = = = = 7, 525 molas
n 1+4+3+…+4 40
Moda:
A resposta que aparece com a maior frequência é o 7 (aparece 9 vezes). Portanto: mo = 7molas
Mediana:
k
∑ x i ⋅f 3×1+4×4+5×3+…+12×4
i=1 i 301
x̄ = = = = 7, 525 molas
n 1+4+3+…+4 40
x n +x n x 40 +x 40
+1 +1
2 2 2 2 x 20 +x 21 7+7
Md = = = = = 7molas
2 2 2 2
Como sabemos qual é o valor que está na vigésima e vigésima primeira posições? Basta somarmos as frequências até
chegar nas posições desejadas. No exemplo:
1 + 4 + 3 + 4 + 9 = 21
Isso quer dizer que precisamos ir até a barra cuja resposta da variável é 7 para chegarmos nas posições 20 e 21.
Pelas medidas encontradas, concluímos que o número médio de molas fora da conformidade na amostra em estudo é 7,525 e
que pelo menos metade das observações são maiores ou iguais a 7 (pelo valor encontrado para a mediana). A moda nos informa
que a observação que aparece com a maior frequência é 7 molas fora da conformidade.
Medidas de dispersão
Você lembra do caso da peça fabricada por duas linhas de produção que deveria apresentar
comprimento médio de 75 cm? E da Figura 1, lá na apresentação desta aula? Se achar
melhor, reveja este exemplo.
Além de caracterizar um conjunto de dados por meio das medidas de posição central, é muito importante estudar a variabilidade
presente (ou não) nos dados. Como vimos na Figura 1, a Linha 1 está produzindo peças com menor variabilidade no comprimento
quando comparada com a Linha 2. Sabemos que qualidade é inversamente proporcional à variabilidade e que a melhoria da
qualidade é a redução da variabilidade nos processos e produtos (MONTGOMERY, 2016, p. 6).
Amplitude total
Fórmula:
Vantagens e desvantagens
á
x_ ((m ximo)) − x_ ((m nimo)) í
1. Fácil de calcular e interpretar.
Variância
Fórmula:
∑
n
(x i −x̄ )
2 Vantagens e desvantagens
2 i=1
s =
n−1
ou
2
n
(∑ x ⋅f )
i=1 i i
n 2
∑ x ⋅fi −
i=1 i
2 n
s =
n−1
Desvio-padrão
Fórmula:
Vantagens e desvantagens
s = √(s ^ 2 )
1. Apresenta a mesma unidade de medida dos dados.
Coeficiente de variação
Fórmula:
Vantagens e desvantagens
s
cv = × 100
x̄
1. É adimensional.
|―24 18 36,00
24|―48 18 36,00
48|―72 4 8,00
72|―96 3 6,00
Amplitude total
AT = x(máximo) − x(mínimo)
AT = 12 − 3 = 9molas
A maior diferença entre quaisquer dois lotes, em termos de número de molas fora da conformidade, é 9.
Variância
2
n
(∑ x ⋅f )
i=1 i i
n 2
∑ x ⋅fi −
i=1 i
2 n
s =
n−1
n 2 2 2 2
∑ x ⋅ f = 3 × 1 + 4 × 4 + ⋯ + 12 × 4 = 2. 481
i=1 i i
n
∑ xi ⋅ fi = 3 × 1 + 4 × 4 + ⋯ + 12 × 4 = 301
i=1
Então:
2
n
(∑ x ⋅f ) 2
i=1 i i (301)
n 2
∑ x ⋅fi − 2481−
i=1 i 2481−2265,025
2 n 40 2
s = = = = 5, 54molas
n−1 39 39
Desvio-padrão
−−
2
s = √s
−−− −
s = √5, 54 = 2, 35molas
Coeficiente de variação
s
cv = × 100
x̄
2,35
cv = × 100 = 31, 23%
7,525
Concluímos que o número médio de molas fora da conformidade, por lote, é 7,5, com um desvio-padrão de 2,25 molas.
Com esses valores, o departamento de controle de qualidade tem como avaliar se a produção está ocorrendo de acordo
com padrões estabelecidos, ou se mudanças são necessárias para atingir a qualidade requerida.
Fonte: Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira- INEP
<//download.inep.gov.br/educacao_superior/censo_superior/documentos/2010/censo_2010.pdf> .
Quartis
Os quartis (Q1 , Q2 e Q3 ), como o próprio nome sugere, divide a distribuição dos dados ordenados em quatro partes, sendo que:
Primeiro quartil (Q1 ): no mínimo 25% dos valores ordenados são menores ou iguais a Q1 e no mínimo 75% são maiores ou
iguais a Q1 .
Segundo quartil (Q2 ): no mínimo 50% dos valores ordenados são menores ou iguais a Q2 e no mínimo 50% são maiores ou
iguais a Q2 .
Terceiro quartil (Q3 ): no mínimo 75% dos valores ordenados são menores ou iguais a Q3 e no mínimo 25% são maiores ou
iguais a Q3 .
Com os dados ordenados, temos:
n n
Posição Q1 = Posição Q2 = Posição Q3 =
3⋅n
4 2 4
Comentário
Quando fazemos estas divisões para encontrar as posições dos quartis, pode acontecer do resultado ser um número inteiro ou
um número fracionário. Então, adotaremos a seguinte convenção:
Se a divisão resultar num número fracionário, arredonde-o para cima e o valor do quartil será a observação encontrada nesta
posição.
Se a divisão for um número inteiro, o quartil será a média aritmética da observação que ocupar a posição encontrada com a
observação que ocupar a posição imediatamente seguinte.
xmáximo Q1 Q2 Q3 xmínimo
Exemplo
Os dados a seguir representam o número de falhas, por dia, no servidor de rede de uma empresa, durante 20 dias.
1 2 0 0 3 1 2 2 3 1
4 5 5 3 6 8 1 5 16 2
0 0 1 1 1 1 2 2 2 2
3 3 3 4 5 5 5 6 8 16
1+1
Q1 = = 1falha
2
Posição Q2 . O Q2 está entre a décima e décima primeira posições dos dados ordenados:
n 20
= = = 10
2 2
2+3
Q3 = = 2, 5falhas
2
Posição Q3 . O Q3 está entre a décima quinta e décima sexta posições dos dados ordenados:
3⋅n 3⋅20
= = = 15
4 4
5+5
Q3 = = 5falhas
2
xmínimo Q1 Q2 Q3 xmáximo
0 1 2,5 5 16
Box-Plot
Este gráfico é construído utilizando o resumo dos cinco números. Ele informa, entre outras coisas, a posição, variabilidade e
simetria dos dados. A posição central é dada pela mediana (Q2 ) e a dispersão pela amplitude interquartil (dq ). Com as posições
relativas de Q1 , Q2 e Q3 temos ideia da assimetria da distribuição. Veja a seguir um exemplo de Box-Plot.
Gráfico 5 – Box-Plot
Fonte: BUSSAB e MORETTIN (2002, p. 48).
Citação
Para construir este diagrama, consideremos um retângulo onde estão representados a
mediana e os quartis. A partir do retângulo, para cima, segue uma linha até o ponto
mais remoto que não exceda LS = q3 + (1, 5)dq , chamado limite superior. De modo
similar, da parte inferior do retângulo, para baixo, segue uma linha até o ponto mais
remoto que não seja menor do que LI = q1 − (1, 5)dq , chamado limite inferior. Os
valores compreendidos entre esses dois limites são chamados valores adjacentes. As
observações que estiverem acima do limite superior ou abaixo do limite inferior
estabelecidos serão chamadas pontos exteriores e representadas por asteriscos. Essas são
observações destoantes das demais e podem ou não ser o que chamamos de outliers ou
valores atípicos.
Exemplo
Vamos construir o Box-Plot para o Exemplo do número de falhas no servidor de rede. resumo dos cinco números é:
xmínimo Q1 Q2 Q3 xmáximo
0 1 2,5 5 16
dq = Q3 − Q1
dq = 5 − 1 = 4
Então:
Fonte: Elaboração do autor.
Para responder essas perguntas, vamos à explicação fornecida por Bussab e Morettin (2002, p. 48):
A partir do retângulo, para cima, segue uma linha até o ponto mais remoto que não exceda LS = q 3 + (1, 5)dq , chamado
limite superior.
O valor do limite superior é LS = 11 e, no conjunto de dados, o valor mais remoto que não exceda o número 11, é
X19 = 8 .
De modo similar, da parte inferior do retângulo, para baixo, segue uma linha até o ponto mais remoto que não seja menor do
que LI = q 1 − (1, 5)dq , chamado limite inferior.
O valor do limite inferior é LI = 5 e, no conjunto de dados, o valor mais remoto que não é menor que o número -2, é o valor
mínimo Xmínimo = 0 .
As observações que estiverem acima do limite superior ou abaixo do limite inferior estabelecidos serão chamadas pontos
exteriores e representadas por asteriscos. Essas são observações destoantes das demais e podem ou não ser o que
chamamos de outliers ou valores atípicos.
A observação 16 está acima do limite superior (LS = 11 ), portanto, é identificado como um outlier. Se tivermos certeza que
o outlier é um erro (por exemplo, erro de medição ou de digitação), devemos corrigi-lo ou retirá-lo do conjunto de dados.
Agora, se soubermos que o outlier é um valor correto, devemos estudar seu efeito construindo gráficos e calculando as
medidas descritivas com e sem o outlier.
Atividade
1. Bernardin (Mestrado Engenharia Mecânica/UFSC, 1994) realizou um experimento que tinha o objetivo de melhorar a qualidade
do processo de formulação de massa cerâmica para pavimento. Os corpos de prova eram “biscoitos” que saíam do processo de
queima e a quantidade era avaliada por três variáveis, a saber: X1 = retração linear (%), X2 = resistência mecânica e X3 =
absorção da água (%). O experimento foi realizado sob 8 condições diferentes (no estudo original eram 18). Foram feitos 5 ensaios
em cada uma das 8 condições experimentais. Os dados são apresentados a seguir.
C1 X1 X2 X3 C1 X1 X2 X3 C1 X1 X2 X3 C1 X1 X2 X3
1 8,9 41,1 5,5 3 9,4 50,0 0,8 5 13,4 60,6 0,5 7 12,9 41,1 0,2
1 9,2 39,0 4,8 3 9,9 48,3 0,6 5 13,4 60,0 0,5 7 12,4 39,0 0,4
1 8,0 36,9 6,2 3 9,6 50,1 0,6 5 13,6 68,4 0,2 7 12,6 36,9 0,5
1 8,7 39,2 5,7 3 9,2 49,9 0,7 5 13,4 60,8 0,7 7 12,6 39,2 0,4
1 8,7 35,9 5,5 3 9,4 56,2 0,5 5 12,4 51,4 1,0 7 12,9 35,9 0,3
2 12,6 52,7 0,9 4 6,6 31,2 9,0 6 9,6 41,2 3,9 8 8,2 40,8 4,4
2 13,6 53,5 0,4 4 6,4 25,3 10,2 6 10,6 53,0 4,5 8 9,2 43,8 3,9
2 11,6 47,0 1,3 4 5,9 22,8 10,5 6 8,9 37,0 3,3 8 9,2 48,6 4,0
2 10,1 31,1 1,8 4 5,9 27,5 10,6 6 7,5 30,1 3,0 8 8,5 46,9 4,3
2 12,1 50,9 1,1 4 6,8 31,9 9,3 6 8,9 41,6 3,5 8 8,7 46,2 4,1
Notas
Variação 1
As medidas descritivas de dispersão (variação) nos auxiliam a entender a variabilidade presente em um conjunto de dados, de
maneira a nos apoiarem nos processos de tomada de decisão.
Na análise exploratória de dados quantitativos, encontramos os quartis, o resumo dos cinco números e construímos o Box-Plot.
BARBETTA, Pedro A.; REIS, Marcelo M.; BORNIA, Antonio C. Estatística: para cursos de engenharia e informática. São Paulo: Atlas,
2004.
BUSSAB, Wilton de O.; MORETTIN, Pedro A. Estatística Básica. 5. ed. São Paulo: Saraiva, 2002.
LEVINE, David M.; STEPHAN, David F.; SZABAT, Kathryn A. Estatística: Teoria e Aplicações Usando Microsoft Excel em Português.
7. ed. Rio de Janeiro: LTC, 2016.
MAGALHÃES, Marcos N.; LIMA, Antonio C. P de. Noções de Probabilidade e Estatística. 6. ed. São Paulo: Editora da Universidade
de São Paulo, 2004.
MONTGOMERY, Douglas C. Introdução ao Controle Estatístico de Qualidade. 7. ed. Rio de Janeiro: LTC, 2016.
MONTGOMERY, Douglas C.; RUNGER, George C. Estatística Aplicada e Probabilidade para Engenheiros. 5. ed. Rio de Janeiro:
LTC, 2014.
Portal Action. MEDIDAS DE DISPERSÃO. Disponível em: <// www.portalaction.com.br/ estatistica- basica/ 22- medidas- de-
dispersao <//www.portalaction.com.br/estatistica-basica/22-medidas-de-dispersao> >. Acesso em: 18 nov. 2018.
Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. CENSO DA EDUCAÇÃO SUPERIOR 2010. Disponível em:
<// download.inep.gov.br/ educacao_ superior/ censo_ superior/ documentos/ 2010/ censo_ 2010.pdf
<//download.inep.gov.br/educacao_superior/censo_superior/documentos/2010/censo_2010.pdf> >. Acesso em: 18 nov. 2018.
Blog Sonia Vieira. Distribuição normal (para não-matemáticos). Disponível em: <// soniavieira.blogspot.com/ 2016/ 06/
distribuicao- normal- para- nao- matematicos.html <//soniavieira.blogspot.com/2016/06/distribuicao-normal-para-nao-
matematicos.html> >. Acesso em: 18 nov. 2018.
Próxima aula
Conceito de probabilidade;
Teorema de Bayes.
Explore mais
O que é assimetria (ou distorção) e como se mede? <//soniavieira.blogspot.com/2018/05/> - Blog Sonia Vieira