Você está na página 1de 38

Uma maneira simples,

rápida e poderosa
de representar
seus dados

BOXPLOT

apostila_Boxplot.indd 1 22/10/2019 10:19


apostila_Boxplot.indd 2 22/10/2019 10:19
BoxPlot

Sumário

• Como representar esses dados?  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  5


• O que é  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  6
• Box plot  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  7
• Representação  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  8
• Métrica fundamental: Quartis  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  9
• Calculando os quartis…  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  10
• Montando o Box Plot  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  13
• Qual a vantagem?  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  14
• O que o Box-plot não mostra?  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  15
• Outliers  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  16
• Como decidir quando um dado será um outlier?  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  18
• Resumindo  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  19
• Exercitando  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  20
• Resolução:  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  21
• Representando os 4 conjuntos:  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  25
• Box Plot no Excel  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  26
• Correlação utilizando box plot  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  29
• ANOVA auxiliado pelo Box-Plot  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  31
• Exemplo prático 1:  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  33
• Exemplo prático 2:  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  34
• Exercitando  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  35

apostila_Boxplot.indd 3 22/10/2019 10:19


apostila_Boxplot.indd 4 22/10/2019 10:19
BoxPlot

Como representar
esses dados?
Nos dias de hoje possuir a habilidade para lidar com dados é um grande diferencial para qualquer
indivíduo e empresa . Grande parte das análises resultam da interpretação correta dos números,
buscando encontrar padrões ou comportamentos que revelem alguma informação valiosa .

17 31 12 5 17 22 29 6 31 31 17 33

5 25 20 33 13 13 18 26 29 12 34 22

32 8 27 28 29 6 35 7 32 6 19 15

24 16 21 14 19 19 30 11 5 10 31 23

DoTPloT:
Existem diversas maneiras que podem ser
utilizadas para representar de maneira
gráfica os dados, algumas bem conhecidas e
difundidas e outras menos . Algumas delas são
HisToGrama: as exemplificadas acima, como a utilização
de dotplot e histograma . Todos os gráficos
apresentam vantagens e desvantagens,
facilitando algumas interpretações e
representações . Não existe gráfico perfeito: um
gráfico existe para facilitar uma interpretação
ou evidenciar alguma característica . De
maneira geral, caso um gráfico não facilite a
interpretação dos dados ou deixe sua análise
mais rápida, provavelmente o gráfico utilizado
não é o mais adequado .

BOX PLOT
Um gráfico muito interessante para representar
dados é o Box Plot . Apesar de não muito
conhecido, quando dominado sua interpretação
e montagem o Box Plot traz muitas vantagens
e clareza, principalmente quando envolve
comparação de dados . Essa ferramenta auxilia
em muitas outras análises, como realizar
correlações, análises de variância, etc .

apostila_Boxplot.indd 5 22/10/2019 10:19


BoxPlot

O que é

O Box Plot é uma maneira de representar »» Representação gráfica de uma variável


graficamente uma variável numérica baseado numérica, utilizando quartis.
em quartis (assunto abordado em seguida).
»» Recurso muito útil para realizar
Conforme já citado, é utilizado principalmente
comparações de dados, principalmente a
quando envolve a realização de comparações
variação destes;
de dados buscando, entre outras coisas,
enfatizar suas variações/dispersões. Além »» Útil para evidenciar correlação entre
disso, apresenta grande potencial para revelar variáveis;
correlações entre variáveis, tornando fácil
»» Permite representar dados sem que estes
evidenciá-las, caso existam.
obedeçam a determinada distribuição
Uma característica muito importante que torna específica;
o Box Plot versátil é o fato deste não exigir que
»» Também conhecido como diagrama de
os dados obedeçam a determinada distribuição.
caixa, diagrama de extremos e quartis
Qualquer tipo de dado numérico pode ser
representado através dele.
O Box Plot pode ser referenciado com outras
nomenclaturas, tais como “diagrama de caixa”,
“diagrama de extremos e quartis” ou, no inglês,
“box and whiskers plot”.

apostila_Boxplot.indd 6 22/10/2019 10:19


BoxPlot

Box plot

A fim de justificar o nome dado a esse tipo de representação, observe a representação do Box Plot .
Traduzindo-se do inglês, “Box” refere-se à palavra “caixa”, conforme há muita similaridade entre a
estrutura do gráfico e uma caixa no formato de um paralelepípedo .

apostila_Boxplot.indd 7 22/10/2019 10:19


BoxPlot

Representação

Whisker; Limite
“Fio de Superior
bigode”


quartil

“CAIXA” Mediana


quartil

Whisker;
“Fio de Limite
bigode” Inferior

De maneira geral, o Box Plot apresenta uma A fim de facilitar o diálogo, a estrutura em azul
estrutura conforme mostrada pela imagem . é referenciada como “Caixa” . Do topo e base da
Na sua representação, são ilustrados 5 caixa existem duas estruturas (linhas) que vão
características: limite inferior; 1º quartil; até os limites inferior e superior . Tais linhas são
mediana; 3º quartil; limite superior . conhecidas como “Whisker” ou, coloquialmente,
“fio de bigode” .

apostila_Boxplot.indd 8 22/10/2019 10:19


BoxPlot

Métrica
fundamental: Quartis
Entender como se constrói um Box Plot é de EXemPlo:
suma importância para seu entendimento e
interpretação . Para confeccioná-lo é necessário
ter claro o conceito fundamental em que o » Observe a distribuição abaixo que
gráfico se baseia: os quartis . Essa métrica é representa o número de funcionários
a base para a construção e representação de alocados em cada andar de um prédio
qualquer Box Plot . comercial .

» Os quartis (Q1; Q2; Q3) dividem uma


distribuição de dados em 4 partes iguais . Andar nº funcionários

1º 42

2º 19

3º 44

4º 53

5º 28

6º 19

7º 22

8º 23

9º 39

10º 35

11º 39

Para facilitar o entendimento dos conceitos


sobre quartis, considere o exemplo mostrado .
Nele, tem-se representado em uma tabela o
número de funcionários alocados em cada
andar de uma prédio comercial . Observe que a
tabela contempla até o 11º andar . Por exemplo,
no 1º andar existem 42 funcionários alocados;
no 5º andar, 28; e assim por diante .
Esses dados podem ser representados através
de um Box Plot .
9

apostila_Boxplot.indd 9 22/10/2019 10:19


BoxPlot

Calculando
os quartis…
1º Passo: Ordenar os dados.

19 19 22 23 28 35 39 39 42 44 53

2º Passo: LoCaliZar a mediana.

19 19 22 23 28 35 39 39 42 44 53

MEDIANA

50% 50%

Para a construção do Box Plot é necessário ter conhecimento de quais são


os quartis dos dados . Para isso, é necessário calculá-los . Durante o cálculo
destes, seus conceitos serão explicados .
» Como 1º passo, deve-se ordenar os dados numa sequência crescente,
conforme observado . Ordenando os números, parte-se do valor mais
baixo (19) até o mais alto (53) .
» O 2º passo fundamental é localizar a mediana dos dados . A mediana
é o número que divide a distribuição dos dados ao meio, ou seja,
metade dos valores encontram-se abaixo da mediana e a outra
metade acima desta . Observe os dados do exemplo: tem-se 11
valores que representam os 11 andares do prédio comercial . A
mediana equivale ao valor de 35, pois esse valor divide os dados de
tal modo que 5 dados ficam localizados abaixo de 35 e os outros 5
restantes, acima do 35 . Falando-se em termos de porcentagem, a
mediana divide os dados de modo que 50% dos valores estão abaixo
dela e os outros 50% acima .

10

apostila_Boxplot.indd 10 22/10/2019 10:19


BoxPlot

Calculando
os quartis…
3º Passo: CalCUlar o Primeiro e TerCeiro QUarTis.

19 19 22 23 28 35 39 39 42 44 53

1º quartil MEDIANA 3º quartil


2º quartil

19 19 22 23 28 35 39 39 42 44 53

1/4 1/4 1/4 1/4


25% 25% 25% 25%

» O 3º passo é o cálculo dos 1º e 3º quatis . Mas e o 2º quartil? (você pode


se perguntar) . O 2º quartil já foi calculado . Ele é equivalente à mediana .
A mediana é o segundo quartil; dois nomes para o mesmo número .
» O 1º quartil é definido como o valor que divide a primeira metade
dos dados ao meio . Observando-se o exemplo, a primeira metade
representa os valores que estão à esquerda da mediana, ou seja, os
valores 19, 19, 22, 23 e 28 . Nessa metade, que contém 5 números,
deve-se determinar o meio dela . O meio de um conjunto que
apresenta 5 números é aquele que deixa 2 números à sua esquerda
e 2 números à sua direita . Do exemplo, tem-se que o 1º quartil,
portanto, é o número 22 .
» Para o cálculo do 3º quartil, o raciocínio é análogo, só que para a metade
superior dos dados . Para essa metade, tem-se os valores 39, 39, 42, 44
e 53 . O terceiro quartil é o valor que dividirá esses 5 valores ao meio, ou
seja, dois para cada lado . Esse valor corresponde ao número 42 .
» Finalizando o processo de calcular os três quartis, também
referenciados como Q1, Q2 (ou mediana) e Q3, os dados estão
divididos em 4 grupos de mesmo tamanho, cada um com 1/4 da
quantidade total de valores, ou 25% dos dados .
11

apostila_Boxplot.indd 11 22/10/2019 10:19


BoxPlot

Calculando
os quartis…
19 19 22 23 28 35 39 39 42 44 53

1
/4= 25% Q1 3
/4= 75%

19 19 22 23 28 35 39 39 42 44 53

2
/4= 50% Q2 ou mediana 2
/4= 50%

19 19 22 23 28 35 39 39 42 44 53

3
/4= 75% Q3 1
/4= 25%

ResUmindo:

» O primeiro quartil, Q1, é o valor que divide a distribuição dos dados em


duas partes distintas . Conforme o próprio nome, primeiro quartil remete
ao “um quarto”, ou 25% . Ou seja, o primeiro quartil divide os dados de
modo que um quarto, ou 25%, dos dados estejam abaixo desse valor e
os outros três quartos ou 75% restantes acima desse valor .
» O segundo quartil, Q2, equivalente à mediana, divide a distribuição
dos dados em dois grupos iguais . É o meio dos dados . Conforme o
nome “segundo quartil” remete, dois quartos dos dados (ou 50%)
se localizam abaixo desse valor e os outros dois quartos (ou 50%)
restantes, acima desse valor .
» Por fim, o terceiro quartil, Q3, é o valor que divide a distribuição dos
dados em dois grupos distintos . Agora, três quartos, ou 75% dos
dados, estão localizados abaixo do Q3, enquanto que o um quarto
restante (ou 25%) acima deste .
12

apostila_Boxplot.indd 12 22/10/2019 10:19


BoxPlot

Montando
o Box Plot
19 19 22 23 28 35 39 39 42 44 53

» 1º quartil 22
» 2º quartil 35
» 3º quartil 42
» mínimo 19
» máximo 53

Com o cálculo dos três quartis é possível montar o Box Plot que
representa o nº de funcionários alocados em andares do prédio comercial .
» Do exemplo, obteve-se Q1 = 22; Q2 = 35; Q3 = 42; mínimo = 19 e
máximo = 53 .
» Representando a caixa do Box Plot tem-se que a base desta refere-se
ao Q1, ou seja, 22 . O topo da caixa refere-se ao Q3, ou seja, 42 . A linha
intermediária da caixa representa a mediana dos dados ou o Q2 .
Portanto, essa linha remete ao valor 35 .
» Por fim, o whisker (ou fio de bigode) inferior liga a base da caixa
até o mínimo dos dados . Portanto, uma linha ligando a base até o
valor de 19; e o whisker superior compreende o topo da caixa até
o valor máximo dos dados . Logo, uma linha do topo até o valor
correspondente à 53 .
Pronto, o Box Plot está montado . Com ele conclui-se que o prédio
comercial apresenta em seus andares desde 19 funcionários até 53 . Sabe-
se que 25% dos andares apresentam de 19 a 22 funcionários alocados;
25% entre 22 e 35; 25% entre 35 e 42; e 25% entre 42 e 55 funcionários .
Obs: os extremos dos whiskers nem sempre abrangerão desde o mínimo
ao máximo dos dados . Isso acontece quando outliers estão presentes .
Esse assunto será abordado em seguida .
13

apostila_Boxplot.indd 13 22/10/2019 10:19


BoxPlot

Qual a
vantagem?
QUal a vanTaGem em rePresenTar os dados UTiliZando o BoX PloT?

» Primeiramente o gráfico é de fácil


compreensão .
» Através do exemplo mostrado, onde é feita
a comparação entre as alturas de dois times
de futebol, A e B, é possível perceber isso .
» De maneira muito rápida, é fácil concluir
que o time de futebol B apresenta, em
geral, jogadores mais altos quando
comparados com o time A .
» Além disso, é uma maneira simples de
mostrar as distribuições das alturas dos
times .

Um dos principais diferenciais do Box Plot é a nitidez para se perceber a dispersão dos dados . No
caso, tem-se que o time de futebol A apresenta uma dispersão muito maior das alturas quando
comparado com o time B . Este, é muito mais constante . Todo o time apresenta alturas desde 1,90
até 2,05m, enquanto que o time A apresenta alturas de aproximadamente 1,60 a 2,00m .

Fácil compreensão Simples Entendimento da dispersão

14

apostila_Boxplot.indd 14 22/10/2019 10:19


BoxPlot

O que o Box-plot
não mostra?
» É possível saber qual a média de altura do
time A? NÃO
» É possível saber qual a média de altura do
time B? NÃO
» É possível saber quantos jogadores tem o
time A? NÃO
» É possível saber quantos jogadores tem o
time B? NÃO

BoX-PloT não mosTra

O Box Plot é um gráfico completo que representa tudo? Não! Como qualquer ferramenta gráfica, o
Box Plot apresenta vantagens e desvantagens . As primeira vimos anteriormente .
O que o Box Plot não mostra, por exemplo, é a média dos dados . Observando os Box Plots das
alturas dos times, é possível saber qual a média de altura dos jogadores do time A? Não . E do time
B? Também não! Média é uma estatística que, por padrão, não é mostrada no Box Plot .
Além disso, é possível afirmar quantos jogadores o time de futebol A apresenta? Não! E a mesmo
vale para o time B . A quantidade de dados não é mostrada no Box Plot .
Portanto, o Box Plot é uma excelente ferramenta quando deseja-se comparar distribuições de
dados, evidenciando, por exemplo, a dispersão destes . Porém, valores como a média e o tamanho
amostral não é possível afirmar nada à respeito . Caso esses valores sejam interessantes de se
conhecer, o Box Plot deve ser complementado com outra ferramenta .

15

apostila_Boxplot.indd 15 22/10/2019 10:19


BoxPlot

Outliers

Observando-se um Box Plot é possível que, em alguns casos, apareça o chamado outlier. Este é
representado através de um * (asterisco) ou um ponto.
»» Como outlier entende-se um valor atípico, popularmente chamado de “ponto fora da curva”. É
um valor que se distanciou muito dos demais.
Para entender sua representação, observe o exemplo de uma empresa logística que monitora
o tempo que os entregadores levam para realizar uma rota entre duas cidades próximas. Esses
valores foram resumidos através do Box Plot mostrado. Nele há a presença de um outlier.

»» Um empresa de logística
monitora o tempo que os Outlier
entregadores levam para Valor atípico“pon-
realizar uma rota entre to fora da curva”
duas cidades próximas.
»» Os dados coletados
durante um mês estão
representados pelo box
plot ao lado

16

apostila_Boxplot.indd 16 22/10/2019 10:19


BoxPlot

Outliers

Observemos os dados:

Semana
Outlier!
1ª 2ª 3ª 4ª

45 57 48 51

55 52 50 55

49 39 55 42

42 42 55 111

44 44

Para entender o conceito de outlier observe os Quando presente, cabe ao responsável por
valores que geraram o Box Plot. São mostrados interpretar os dados entender o que ocorreu
valores de tempos para quatro semanas. para que um valor discrepante ocorresse. Algo
aconteceu especificamente nessa entrega.
»» Repare que o outlier representa a
Alguma rota precisou ser alterada, aconteceu
observação de valor 111. Observando-se
algum acidente, etc.
os dados como um todo, tem-se que estes
giravam em torno de 39 a 55. Porém o 111 »» Importante salientar que um outlier nem
“fugiu” desse padrão. Logo esse valor é sempre é um erro de amostragem ou
mostrado pelo Box Plot como um outlier. um defeito/problema. Ele é um valor que
se distanciou dos demais e precisa ser
entendido o que o ocasionou. Seu descarte
fica à cargo do responsável pelos dados.

17

apostila_Boxplot.indd 17 22/10/2019 10:19


BoxPlot

Como decidir quando um


dado será um outlier?
Calculemos: Q3 + 1,5 (Q3 – Q1) Calculemos: Q1 - 1,5 (Q3 – Q1)

39 42 42 42 44 44 45 48 49 50 51 52 55 55 55 55 57 111

Q1 = 43,50
Q2 ou mediana = 49,50
Q3 – Q1 =
(55,00 – 43,50) = 11,50
Q3 = 55,00

Q3 + 1,5 (Q3 – Q1) Q1 - 1,5 (Q3 – Q1)


55,00 + 1,5 (11,50) 43,50 - 1,5 (11,50)
= 72,25 = 26,25

PorTanTo
OUTliers são Todos os valores abaiXo de 26,25 e aCima de 72,25

Como determinar com exatidão se um dado » O segundo passo é realizar uma outra
observado representa um outlier? Como saber análise para a expressão Q1 - 1,5 (Q3 - Q1) .
se um valor é muito distante dos demais ao
» Substituindo-se os valores, obtém-se 26,25 .
ponto de ser considerado um valor atípico?
Como o conceito de “estar distante” é muito Com esses dois valores obtidos, consegue-se
subjetivo, há uma maneira matemática de se fazer a análise da presença ou ausência de
descobrir a presença de outlier(s) . outliers .
Para isso é necessário realizar dois cálculos, Um outlier será qualquer valor dos dados que
conforme mostrado . deseja-se representar por um Box Plot que não
esteja compreendido entre esse intervalo obtido .
Com os valores dos quartis calculados,
primeiramente deve-se calcular o valor da Ou seja, para esse exemplo, um outlier será um
expressão Q3 + 1,5 (Q3 - Q1) . A subtração Q3 - Q1 (ou mais) valor dos dados que esteja fora do
é também chamada de Amplitude Interquartil . intervalo compreendido entre 26,25 e 72,25 .
Observando a representação de um Box Plot,
Portando, observando-se os dados dos tempos
essa amplitude representa a altura da caixa .
de entrega, que correspondem valores de 39
» Portanto, o primeiro passo é calcular Q3 + até 111, tem-se que o 111 é o valor que não está
1,5 * Amplitude Interquartil . compreendido no intervalo entre 26,25 e 72,25 .
Logo, 111 é um outlier .
Calculando a Amplitude Interquartil, tem-se (55
- 43,5) = 11,50 . Multiplicando-se esse valor por » Sua representação no Box Plot é dada
1,5 e acrescentando Q3 obtém-se 72,25 . através de um asterisco (*) .
18

apostila_Boxplot.indd 18 22/10/2019 10:19


BoxPlot

Resumindo

Limite Superior = mín { max


(dados); Q3 + 1,5 (Q3 – Q1) }

3º quartil

Mediana

1º quartil

Limite Inferior = máx { min


(dados); Q1 – 1,5 (Q3 – Q1)

Finalizado a compreensão dos outliers, é » O Limite Inferior, ou seja, o comprimento


possível resumir, de maneira completa, como é do whisker que parte da base da caixa será
a representação do Box Plot . o valor máximo entre o mínimo dos dados
ou Q1 - 1,5 (Q3 - Q1) . Em outras palavras: a
Os conceitos explicados até aqui para o que
extensão do whisker inferior é até o valor
a caixa representa são os mesmos: a base
mínimo dos dados caso a distribuição
representa o Q1; a linha intermediária a
não apresente outliers à esquerda da
mediana ou Q2; e o topo, Q3 .
mediana ou será Q1 - 1,5 (Q3 - Q1) caso seja
As novidades são as extensões dos whiskers . confirmada a presença do outlier .
O whisker nem sempre compreende todos os
» O Limite Superior, ou seja, o comprimento
valores dos dados . Isso porque um whisker não
do whisker que parte do topo da caixa será
pode ser traçado até um outlier, por exemplo .
o mínimo entre o máximo dos dados ou Q3
Logo, uma análise mais cautelosa deve ser
+ 1,5 (Q3 - Q1) . Em outras palavras: o limite
realizada para descobrir sua extensão .
superior é o máximo dos dados caso não
há presença de outlier acima da mediana
ou será Q3 + 1,5 (Q3 - Q1) quando o outlier
estiver presente .

19

apostila_Boxplot.indd 19 22/10/2019 10:19


BoxPlot

Exercitando

É hora de praticar . São fornecidos 4 conjuntos A B C D


(A, B, C e D) . Represente os 4 conjuntos através
1 3 1 1
de Box Plots .
1 4 4 2
» Considere os quatro conjuntos de dados 1 5 6 3
mostrados ao lado .
2 5 10 4
» Represente esses conjuntos utilizando-se 4 6 12 5
box plots . 5 7 14 6
6 8 14 7
7 10 14 8
10 12 15 9
11 12 16 10
13 15 16 11
14 21 12
14 22 13
15 27 13
16 30 13
17 30 30
18 30
20
25

20

apostila_Boxplot.indd 20 22/10/2019 10:19


BoxPlot

Resolução:

A Há Presença de OUTliers? VERIFICAR!


1
1
1 Q3 + 1,5 (Q3 – Q1)
2 16 + 1,5 (16 - 4) = 34
4 Outiliers são dados
5 que estão fora desse
6 Q1 - 1,5 (Q3 – Q1) intervalo
7 » Q1 = 4
4 - 1,5 (16 - 4) = - 14
10
» Q2 = 11
11
13 » Q3 = 16 PORTANTO NÃO HÁ OUTLIERS
14
14 QUal o TamanHo dos WHisKers?
15
16
» Limite Superior = mín { max (dados); Q3 + 1,5 (Q3 – Q1) }
17 • Limite Superior = min { 25 ; 34 } = 25
18
» Limite Inferior = máx { min (dados); Q1 – 1,5 (Q3 – Q1)
20
• Limite Inferior = máx { 1 ; -14 } = 1
25

CalCUlando-se os TrÊs QUarTis, obTÉm-


se Q1 = 4; Q2 = 11 e Q3 = 16.

O segundo passo é verificar a presença de outlier . Para isso realiza-se


as duas expressões: Q3 + 1,5 (Q3 - Q1) e Q1 - 1,5 (Q3 - Q1) . Desse passo,
obtém-se o intervalo entre -14 e 34 . Como o conjunto A apresenta valores
de 1 a 25, não há a presença de outlier .
O último passo é saber a extensão dos whiskers . Como não há a presença
de outlier, o limite inferior será o mínimo dos dados e o superior o máximo
destes .
Com todos os valores calculados fica fácil traçar o Box Plot
correspondente ao conjunto A .

21

apostila_Boxplot.indd 21 22/10/2019 10:19


BoxPlot

Resolução:

B Há Presença de OUTliers? VERIFICAR!


3
4
5 Q3 + 1,5 (Q3 – Q1)
5 » Q1 = 5 12 + 1,5 (12 - 5) = 22,5
6 Outiliers são dados
» Q2 = 7
7 que estão fora desse
» Q3 = 12 intervalo
8 Q1 - 1,5 (Q3 – Q1)
10 5 - 1,5 (12 - 5) = - 5,5
12
12
15 PORTANTO NÃO HÁ OUTLIERS

QUal o TamanHo dos WHisKers?

» Limite Superior = mín { max (dados); Q3 + 1,5 (Q3 – Q1) }


• Limite Superior = min { 15 ; 22,5 } = 15

» Limite Inferior = máx { min (dados); Q1 – 1,5 (Q3 – Q1)


• Limite Inferior = máx { 3 ; - 5,5} = 3

Para o ConJUnTo B obTeve-se Q1 = 5; Q2 = 7 e Q3 = 12.

O segundo passo é verificar a presença de outlier . Para isso realiza-se


as duas expressões: Q3 + 1,5 (Q3 - Q1) e Q1 - 1,5 (Q3 - Q1) . Desse passo,
obtém-se o intervalo entre -5,5 e 22,5 . Como o conjunto B apresenta
valores de 3 a 15, não há a presença de outlier .
O último passo é saber a extensão dos whiskers . Como não há a presença
de outlier, o limite inferior será o mínimo dos dados e o superior o máximo
destes .
Com todos os valores calculados fica fácil traçar o Box Plot
correspondente ao conjunto B .

22

apostila_Boxplot.indd 22 22/10/2019 10:19


BoxPlot

Resolução:

C Há Presença de OUTliers? VERIFICAR!


1
4
6 Q3 + 1,5 (Q3 – Q1)
10 24,5 + 1,5 (24,5 - 11) = 44,75
12 Outiliers são dados
14 que estão fora desse
intervalo
14 » Q1 = 11 Q1 - 1,5 (Q3 – Q1)
14 » Q2 = 15
11 - 1,5 (24,5 - 11) = -9,25
15
» Q3 = 24,5
16
16 PORTANTO NÃO HÁ OUTLIERS
21
22
QUal o TamanHo dos WHisKers?
27
30
» Limite Superior = mín { max (dados); Q3 + 1,5 (Q3 – Q1) }
30
• Limite Superior = min { 30 ; 44,75 } = 30
30
» Limite Inferior = máx { min (dados); Q1 – 1,5 (Q3 – Q1)
• Limite Inferior = máx { 1 ; - 9,25} = 1

Para o ConJUnTo C obTeve-se Q1 = 11; Q2 = 15 e Q3 = 24,5.

O segundo passo é verificar a presença de outlier . Para isso realiza-se


as duas expressões: Q3 + 1,5 (Q3 - Q1) e Q1 - 1,5 (Q3 - Q1) . Desse passo,
obtém-se o intervalo entre -9,25 e 44,75 . Como o conjunto C apresenta
valores de 1 a 30, não há a presença de outlier .
O último passo é saber a extensão dos whiskers . Como não há a presença
de outlier, o limite inferior será o mínimo dos dados e o superior o máximo
destes .
Com todos os valores calculados fica fácil traçar o Box Plot
correspondente ao conjunto C .

23

apostila_Boxplot.indd 23 22/10/2019 10:19


BoxPlot

Resolução:

D Há Presença de OUTliers? VERIFICAR!


1
2
3 Q3 + 1,5 (Q3 – Q1)
4 12,75 + 1,5 (12,75 – 4,25) = 25,5
5 Outiliers são dados
6 que estão fora desse
» Q1 = 4,25 intervalo
7 Q1 - 1,5 (Q3 – Q1)
8 » Q2 = 8,50 4,25 - 1,5 (12,75 – 4,25) = - 8,5
9 » Q3 = 12,75
10
11 PORTANTO HÁ OUTLIERS
12
13
QUal o TamanHo dos WHisKers?
13
13
» Limite Superior = mín { max (dados); Q3 + 1,5 (Q3 – Q1) }
30
• Limite Superior = min { 13 ; 25,5 } = 13

» Limite Inferior = máx { min (dados); Q1 – 1,5 (Q3 – Q1)


• Limite Inferior = máx { 1 ; - 8,5 } = 1

Para o ConJUnTo D obTeve-se Q1 = 4,25; Q2 = 8,50 e Q3 = 12,75.

O segundo passo é verificar a presença de outlier . Para isso realiza-se as


duas expressões: Q3 + 1,5 (Q3 - Q1) e Q1 - 1,5 (Q3 - Q1) . Desse passo, obtém-
se o intervalo entre -8,5 e 25,5 . Como o conjunto B apresenta valores de 1 a
30, há a presença de outlier . O outlier corresponde ao valor de 30 pois esse
valor é superior ao valor de 25,5 encontrado anteriormente .
O último passo é saber a extensão dos whiskers . Como não há a presença de
outlier abaixo da mediana, o limite inferior será o mínimo dos dados . Já para
o limite superior, tem-se a presença de outlier . Portanto, deve-se analisar qual
valor é menor: o máximo dos dados ou Q3 + 1,5 (Q3 - Q1)? Importante frisar
que o máximo dos dados é 13 . O valor de 30, conforme visto anteriormente, é
um outlier . Por definição outlier não faz parte do conjunto de dados . Logo, o
mínimo entre 13 e 25,5 é 13 .
Com todos os valores calculados fica fácil traçar o Box Plot correspondente ao
conjunto D . O outlier é representado como um asterisco no valor referente à 30 .
24

apostila_Boxplot.indd 24 22/10/2019 10:19


BoxPlot

Representando
os 4 conjuntos:

» Resumindo os 4 conjuntos na mesma representação, todos na


mesma escala, utilizando-se um software .
» É possível realizar a comparação dos quatro conjuntos . Uma
conclusão possível de perceber é que o conjunto C é o que apresenta
a maior variação de valores dado a extensão de seu Box Plot .
» Os conjuntos B e C se parecem bastante em termos de variação . Para
o conjunto D tem-se a presença do outlier .

25

apostila_Boxplot.indd 25 22/10/2019 10:19


BoxPlot

Box Plot
no Excel
Sabe-se que na prática, na maior parte das vezes, o Box Plot será realizado com a ajuda de um
software . A utilização destes traz vantagens uma vez que torna o processo mais rápido, além de
conseguir um resultado esteticamente mais agradável .
Um dos softwares possíveis de realizar o Box Plot é o tão conhecido Microsoft Excel, muito utilizado
e difundido nas empresas e universidades . Nesse software o Box Plot é denominado de “Caixa
Estreita” . O recurso é encontrado na seção Gráficos, abaixo do Histograma, conforme mostrado .
» O Microsoft Excel traz em seu pacote de recursos a opção para construir um gráfico box plot .
» No caso, ele é denominado “Caixa Estreita”

26

apostila_Boxplot.indd 26 22/10/2019 10:19


BoxPlot

Box Plot
no Excel
RealiZando o eXemPlo dos QUaTro ConJUnTos no EXCel:

A aplicação do Box Plot via Excel é muito rápida e simples .


» O primeiro passo é inserir os dados que se deseja representar . Para ilustrar é mostrado o
exemplo dos quatro conjuntos realizado anteriormente . Com os dados inseridos, deve-se
selecioná-los de modo que fiquem conforme mostrado na imagem . Em seguida, clicar nos
comandos Inserir --> Gráficos --> Caixa Estreita .
» Instantaneamente o Box Plot dos quatro conjuntos será gerado conforme mostrado .

1. Selecione o conjunto de dados; 2. Inserir → Gráficos → Caixa Estreia

27

apostila_Boxplot.indd 27 22/10/2019 10:19


BoxPlot

Box Plot
no Excel
» É possível alterar o que é mostrado no box plot . Clique sobre alguma caixa e as opções serão
mostradas ao lado .
» Por exemplo: por padrão, o Excel mostra (através de um símbolo “x”) a média dos dados .

Como todo recurso do Microsoft Excel, várias Caso deseja-se editar o Box Plot mostrado,
possibilidades de personalização são possíveis . basta selecioná-lo e uma janela de opções de
Para o Box Plot não é diferente . formatação será mostrada ao lado direito da
tela, conforme pode ser visto pela imagem .
Observando-se o resultado gráfico mostrado,
é possível perceber que o Excel traz, no Box Nas opções é possível desabilitar a opção de
Plot, um símbolo análogo à letra “x” . Essa mostrar a média dos dados . Além disso, é
representação corresponde à média do conjunto possível ocultar os outliers . No Excel eles são
de dados . É uma representação “extra” que o chamados de “pontos de exceção” .
Excel traz . Isso é possível de ser personalizado .

28

apostila_Boxplot.indd 28 22/10/2019 10:19


BoxPlot

Correlação
utilizando box plot
Outra utilidade bastante interessante do Box
1º turno 2º turno 3º turno
Plot é o poder de facilitar o reconhecimento de
correlações entre variáveis. 20 24 29

O conceito de correlação basicamente é a 19 23 24


existência de interdependência entre duas 21 28 26
variáveis. Como exemplo pode-se citar a venda
21 22 28
de picolés nas praias. Será que existe correlação
entre o número de picolés vendidos e a estação 22 24 27
do ano? Será que no verão há um aumento no 18 24 27
número de vendas? Isso é buscar correlacionar
variáveis. Usando bom senso, sabe-se que no 20 23 25
verão as temperaturas são mais elevadas, mais 20 21 29
pessoas vão às praias. Logo, é comum de se
19 25 25
esperar que a venda de picolés seja maior desse
período do ano. Portanto, há correlação entre o 19 23 26
período do ano e o número de picolés vendidos. 23 26 28
Uma maneira de mostrar essa correlação
poderia ser através de um Box Plot. 21 27 26
19 22 28
Como exemplo que é mostrado, tem-se uma
empresa que produz canecas plásticas. Esta 20 22 27
estava enfrentando problemas devido à tempos 22 25 25
excessivos de setup (preparação da máquina).
Uma equipe estava desconfiada que o tempo 18 26 30
de setup variava entre os três turnos. A fim de
evidenciar alguma correlação entre os tempos
de setup e o turno correspondente, foram »» Correlação é a “interdependência entre
coletados dados conforme mostrado na tabela. duas variáveis”
»» Exemplo: Uma empresa que produz
canecas plásticas estava enfrentando
problemas com tempos excessivos de
setup. Como a variedade de modelos era
elevada, o setup é considerado crítico
para a produção. Os responsáveis por um
projeto de melhoria estavam desconfiados
que havia diferentes nos tempos de setup
entre os três turnos. Buscando verificar se
havia correlação entre o tempo de setup e
o turno de trabalho, foram coletados dados
conformes mostrado ao lado:

29

apostila_Boxplot.indd 29 22/10/2019 10:19


BoxPlot

Correlação
utilizando box plot
Como TradUZir esses dados de maneira a evidenCiar
se eXisTe Correlação? BOX-PLOT!!

» A análise dos números mostrados na tabela os tempos de setup realmente estão


sem um recurso gráfico fica difícil de se relacionados ao turno de trabalho .
perceber padrões e correlações . O Box Claramente pelo gráfico é possível perceber
Plot é um excelente recurso para traduzir que os tempos do 1º turno são inferiores
os números numa imagem, facilitando a em sua maioria que os tempos do 2º turno e
interpretação . esses mais rápidos que o do 3º turno . Além
disso, o Excel traz a média das observações,
» Conforme mostrado, os três Box Plot
comprovando ainda mais essa conclusão .
representam os três turnos . Os gráficos
Logo, a equipe deve investigar o que
foram realizados no Microsoft Excel .
acontece no 1º turno que torna os tempos
» Através da imagem obtida, fica fácil de setup mais rápidos a fim de instruir os
perceber a presença de correlação: demais turnos à fazerem o mesmo .

30

apostila_Boxplot.indd 30 22/10/2019 10:19


BoxPlot

ANOVA auxiliado
pelo Box-Plot
Outro recurso em que o Box Plot aparece como protagonista é na ANOVA.
ANOVA significa análise de variação. Esse tipo de análise é muito útil quando deseja-se comparar
as médias de mais de duas populações a fim de afirmar se, estatisticamente, alguma é distinta das
demais. Não é o escopo desse curso entrar no detalhe desse tipo de análise.
Como exemplo é mostrado um experimento realizado por um médico que deseja comparar três
diferentes remédios na recuperação de pacientes idosos que sofreram derrame devido a um ataque
do coração de média intensidade. Um total de 18 pacientes foi selecionado. Foram divididos em 3
grupos, cada um referente a um tipo de remédio (A, B e C). Foram anotados os resultados.
Buscando analisar se os medicamentos tinham o mesmo efeito ou se algum era significativamente
diferente, realizou-se uma ANOVA.

ANOVA = Análise de Variação


Remédio A Remédio B Remédio C

»» Análise para comparar as médias de mais 80 56 97


de duas populações
73 72 90
»» Exemplo: Um médico deseja comparar
os efeitos de três diferentes remédios na
79 61 75
recuperação de pacientes idosos, que
sofreram derrame devido a um ataque
88 64 87
do coração de média intensidade. Um
total de 18 pacientes foi selecionado
68 80 88
procurando manter constantes parâmetros
como idade, condição física, motivação,
75 74 83
etc... Esses pacientes foram divididos
aleatoriamente em três grupos e, após
um período de seis meses, eles foram
avaliados por um especialista que não
tinha conhecimento a que grupo pertencia
cada paciente.

31

apostila_Boxplot.indd 31 22/10/2019 10:19


BoxPlot

ANOVA auxiliado
pelo Box-Plot
» Com o auxílio
Análise de variância
de um software
estatístico, sua Fonte GL SQ (Aj.) QM (Aj.) Valor F Valor-P
análise fica fácil e
rápida, e o Box- C6 2 1064,1 532,06 8,78 0,003
plot é utilizado
para auxiliar a Erro 15 909,0 60,60
análise conforme
Total 17 1973,1
vemos

Nessa análise de variância, o Box Plot se faz


presente para ajudar a elucidar os resultados .
» Para a análise foi utilizado um software
estatístico (Minitab) . Dentre os diferentes
resultados apresentados pelo software,
um deles é um Box Plot comparando os
resultados dos três grupos analisados
no experimento . A partir deles, fica
mais fácil perceber como os resultados
variaram entre os pacientes e entre os
medicamentos . Porém, para uma ANOVA
é necessário um complemento na análise,
representado pela tabela ao lado . Não é do
interesse do curso especificar o significado
de cada valor mostrado . Porém, o valor de
0,003 na coluna “Valor-P” é o responsável
por dizer que a média de pelo menos uma
população é diferente .
Novamente o Box Plot está presente como uma
ferramenta de apoio em uma análise muito
importante e utilizada em projetos de melhoria,
estudos acadêmicos e artigos científicos .

32

apostila_Boxplot.indd 32 22/10/2019 10:19


BoxPlot

Exemplo
prático 1:
» Um pesquisador realizou um experimento para comparar três tipos de fertilizantes . O intuito
era descobrir qual deles contribuia mais para o crescimento de mudas de cana de açúcar . Cada
fertilizante foi aplicado em dez mudas . Após duas semanas, anotou-se o comprimento de cada
muda . As condições ambientais (temperatura, luminosidade, umidade, etc) foram mantidas
idênticas . O resultado do experimento é mostrado no box-plot abaixo:

Observando-se o gráfico é possível ver de


maneira clara a comparação entre os três
fertilizantes .
Claramente o fertilizante 3 foi aquele que
provocou os maiores resultados de crescimento .
Podemos notar um outlier para esse fertilizante .
No caso, uma das mudas apresentou um
comportamento anormal . Este ponto deve
ser investigado o que de fato aconteceu .
Provavelmente essa medida será excluída .

33

apostila_Boxplot.indd 33 22/10/2019 10:19


BoxPlot

Exemplo
prático 2:
» Uma grande rede de shoppings, com cinco unidades localizadas em regiões distintas da cidade
de São Paulo, monitora a quantidade diária de pessoas que frequentam o shopping . Os dados
comparativos das cinco unidades são mostrados abaixo para o mês de agosto .

Conforme mostrado no Box Plot é possível notar


que o shopping de maior público é o localizado
na Zona Oeste, com movimento superior à
20 .000 pessoas todos os dias de agosto . Em
contrapartida, a unidade localizada no Centro é
a de menor movimento .
Comparando-se as variações, tem-se que as
unidades do Centro e da Zona Norte são as que
menos variaram seu movimento . Por outro lado,
o shopping da Zona Leste apresentou a maior
variação, com dias de aproximadamente 13 .500
pessoas, chegando a dias com 22 .000 pessoas .

34

apostila_Boxplot.indd 34 22/10/2019 10:19


BoxPlot

Exercitando

» Os números abaixo representam a idade dos funcionários de determinada empresa . Qual o


Box-plot que representa corretamente esses valores?

21 23 23 26 28 29 30 30 31 33 36 38 39 40 45

a)

b)

c)

» Q1 = 26
» Q2 = 30
» Q3 = 38
» Não há presença de outliers .
Resposta correta: C

35

apostila_Boxplot.indd 35 22/10/2019 10:19


BoxPlot

Exercitando

» Considerando os dados mostrados abaixo, qual o Box-plot que representa corretamente esses
valores?

0 5 6 7 8 10 12 12 15 16 22 43 43

a)

b)

c)

» Q1 = 6,5
» Q2 = 12
» Q3 = 19
» Há presença de outlier: intervalo a ser
analisado: -12,25 a 37,75 . Portando dois
outliers de valor 43 .
Resposta correta: B

36

apostila_Boxplot.indd 36 22/10/2019 10:19


apostila_Boxplot.indd 37 22/10/2019 10:19
A EDTI, com base em uma longa experiência de trabalho
de consultoria em diversas indústrias, está plenamente
capacitada para treinar e orientar equipes em atividades
de melhoria, desenvolver processos de inovação e dar
suporte à análise de dados (inteligência analítica) para
subsidiar decisões de negócios.

Para permanecer no negócio e crescer as organizações


precisam canalizar esforços para produzir produtos e
serviços que os clientes desejam e pelos quais estão
dispostos a pagar. Um desafio permanente da liderança
é identificar oportunidades para aumentar o valor de
seus produtos e serviços sob a ótica dos clientes e
envolver seus colaboradores em atividades que
transformem as oportunidades em realidade. Isso
requer o domínio por parte da organização de um
método eficiente e eficaz de realizar melhorias.

A EDTI acredita que a formação sólida de seus


consultores, aliada à experiência e conhecimento do
mercado, são fundamentais para ajudar a liderança
da organização na exploração de oportunidades
de crescimento.

Dr. Ademir José Petenate, Sócio fundador da Escola EDTI


e Professor da UNICAMP desde 1974

apostila_Boxplot.indd 38 22/10/2019 10:19

Você também pode gostar