Escolar Documentos
Profissional Documentos
Cultura Documentos
Apostila Boxplot
Apostila Boxplot
Apostila Boxplot
rápida e poderosa
de representar
seus dados
BOXPLOT
Sumário
Como representar
esses dados?
Nos dias de hoje possuir a habilidade para lidar com dados é um grande diferencial para qualquer
indivíduo e empresa . Grande parte das análises resultam da interpretação correta dos números,
buscando encontrar padrões ou comportamentos que revelem alguma informação valiosa .
17 31 12 5 17 22 29 6 31 31 17 33
5 25 20 33 13 13 18 26 29 12 34 22
32 8 27 28 29 6 35 7 32 6 19 15
24 16 21 14 19 19 30 11 5 10 31 23
DoTPloT:
Existem diversas maneiras que podem ser
utilizadas para representar de maneira
gráfica os dados, algumas bem conhecidas e
difundidas e outras menos . Algumas delas são
HisToGrama: as exemplificadas acima, como a utilização
de dotplot e histograma . Todos os gráficos
apresentam vantagens e desvantagens,
facilitando algumas interpretações e
representações . Não existe gráfico perfeito: um
gráfico existe para facilitar uma interpretação
ou evidenciar alguma característica . De
maneira geral, caso um gráfico não facilite a
interpretação dos dados ou deixe sua análise
mais rápida, provavelmente o gráfico utilizado
não é o mais adequado .
BOX PLOT
Um gráfico muito interessante para representar
dados é o Box Plot . Apesar de não muito
conhecido, quando dominado sua interpretação
e montagem o Box Plot traz muitas vantagens
e clareza, principalmente quando envolve
comparação de dados . Essa ferramenta auxilia
em muitas outras análises, como realizar
correlações, análises de variância, etc .
O que é
Box plot
A fim de justificar o nome dado a esse tipo de representação, observe a representação do Box Plot .
Traduzindo-se do inglês, “Box” refere-se à palavra “caixa”, conforme há muita similaridade entre a
estrutura do gráfico e uma caixa no formato de um paralelepípedo .
Representação
Whisker; Limite
“Fio de Superior
bigode”
3º
quartil
“CAIXA” Mediana
1º
quartil
Whisker;
“Fio de Limite
bigode” Inferior
De maneira geral, o Box Plot apresenta uma A fim de facilitar o diálogo, a estrutura em azul
estrutura conforme mostrada pela imagem . é referenciada como “Caixa” . Do topo e base da
Na sua representação, são ilustrados 5 caixa existem duas estruturas (linhas) que vão
características: limite inferior; 1º quartil; até os limites inferior e superior . Tais linhas são
mediana; 3º quartil; limite superior . conhecidas como “Whisker” ou, coloquialmente,
“fio de bigode” .
Métrica
fundamental: Quartis
Entender como se constrói um Box Plot é de EXemPlo:
suma importância para seu entendimento e
interpretação . Para confeccioná-lo é necessário
ter claro o conceito fundamental em que o » Observe a distribuição abaixo que
gráfico se baseia: os quartis . Essa métrica é representa o número de funcionários
a base para a construção e representação de alocados em cada andar de um prédio
qualquer Box Plot . comercial .
1º 42
2º 19
3º 44
4º 53
5º 28
6º 19
7º 22
8º 23
9º 39
10º 35
11º 39
Calculando
os quartis…
1º Passo: Ordenar os dados.
19 19 22 23 28 35 39 39 42 44 53
19 19 22 23 28 35 39 39 42 44 53
MEDIANA
50% 50%
10
Calculando
os quartis…
3º Passo: CalCUlar o Primeiro e TerCeiro QUarTis.
19 19 22 23 28 35 39 39 42 44 53
19 19 22 23 28 35 39 39 42 44 53
Calculando
os quartis…
19 19 22 23 28 35 39 39 42 44 53
1
/4= 25% Q1 3
/4= 75%
19 19 22 23 28 35 39 39 42 44 53
2
/4= 50% Q2 ou mediana 2
/4= 50%
19 19 22 23 28 35 39 39 42 44 53
3
/4= 75% Q3 1
/4= 25%
ResUmindo:
Montando
o Box Plot
19 19 22 23 28 35 39 39 42 44 53
» 1º quartil 22
» 2º quartil 35
» 3º quartil 42
» mínimo 19
» máximo 53
Com o cálculo dos três quartis é possível montar o Box Plot que
representa o nº de funcionários alocados em andares do prédio comercial .
» Do exemplo, obteve-se Q1 = 22; Q2 = 35; Q3 = 42; mínimo = 19 e
máximo = 53 .
» Representando a caixa do Box Plot tem-se que a base desta refere-se
ao Q1, ou seja, 22 . O topo da caixa refere-se ao Q3, ou seja, 42 . A linha
intermediária da caixa representa a mediana dos dados ou o Q2 .
Portanto, essa linha remete ao valor 35 .
» Por fim, o whisker (ou fio de bigode) inferior liga a base da caixa
até o mínimo dos dados . Portanto, uma linha ligando a base até o
valor de 19; e o whisker superior compreende o topo da caixa até
o valor máximo dos dados . Logo, uma linha do topo até o valor
correspondente à 53 .
Pronto, o Box Plot está montado . Com ele conclui-se que o prédio
comercial apresenta em seus andares desde 19 funcionários até 53 . Sabe-
se que 25% dos andares apresentam de 19 a 22 funcionários alocados;
25% entre 22 e 35; 25% entre 35 e 42; e 25% entre 42 e 55 funcionários .
Obs: os extremos dos whiskers nem sempre abrangerão desde o mínimo
ao máximo dos dados . Isso acontece quando outliers estão presentes .
Esse assunto será abordado em seguida .
13
Qual a
vantagem?
QUal a vanTaGem em rePresenTar os dados UTiliZando o BoX PloT?
Um dos principais diferenciais do Box Plot é a nitidez para se perceber a dispersão dos dados . No
caso, tem-se que o time de futebol A apresenta uma dispersão muito maior das alturas quando
comparado com o time B . Este, é muito mais constante . Todo o time apresenta alturas desde 1,90
até 2,05m, enquanto que o time A apresenta alturas de aproximadamente 1,60 a 2,00m .
14
O que o Box-plot
não mostra?
» É possível saber qual a média de altura do
time A? NÃO
» É possível saber qual a média de altura do
time B? NÃO
» É possível saber quantos jogadores tem o
time A? NÃO
» É possível saber quantos jogadores tem o
time B? NÃO
O Box Plot é um gráfico completo que representa tudo? Não! Como qualquer ferramenta gráfica, o
Box Plot apresenta vantagens e desvantagens . As primeira vimos anteriormente .
O que o Box Plot não mostra, por exemplo, é a média dos dados . Observando os Box Plots das
alturas dos times, é possível saber qual a média de altura dos jogadores do time A? Não . E do time
B? Também não! Média é uma estatística que, por padrão, não é mostrada no Box Plot .
Além disso, é possível afirmar quantos jogadores o time de futebol A apresenta? Não! E a mesmo
vale para o time B . A quantidade de dados não é mostrada no Box Plot .
Portanto, o Box Plot é uma excelente ferramenta quando deseja-se comparar distribuições de
dados, evidenciando, por exemplo, a dispersão destes . Porém, valores como a média e o tamanho
amostral não é possível afirmar nada à respeito . Caso esses valores sejam interessantes de se
conhecer, o Box Plot deve ser complementado com outra ferramenta .
15
Outliers
Observando-se um Box Plot é possível que, em alguns casos, apareça o chamado outlier. Este é
representado através de um * (asterisco) ou um ponto.
»» Como outlier entende-se um valor atípico, popularmente chamado de “ponto fora da curva”. É
um valor que se distanciou muito dos demais.
Para entender sua representação, observe o exemplo de uma empresa logística que monitora
o tempo que os entregadores levam para realizar uma rota entre duas cidades próximas. Esses
valores foram resumidos através do Box Plot mostrado. Nele há a presença de um outlier.
»» Um empresa de logística
monitora o tempo que os Outlier
entregadores levam para Valor atípico“pon-
realizar uma rota entre to fora da curva”
duas cidades próximas.
»» Os dados coletados
durante um mês estão
representados pelo box
plot ao lado
16
Outliers
Observemos os dados:
Semana
Outlier!
1ª 2ª 3ª 4ª
45 57 48 51
55 52 50 55
49 39 55 42
42 42 55 111
44 44
Para entender o conceito de outlier observe os Quando presente, cabe ao responsável por
valores que geraram o Box Plot. São mostrados interpretar os dados entender o que ocorreu
valores de tempos para quatro semanas. para que um valor discrepante ocorresse. Algo
aconteceu especificamente nessa entrega.
»» Repare que o outlier representa a
Alguma rota precisou ser alterada, aconteceu
observação de valor 111. Observando-se
algum acidente, etc.
os dados como um todo, tem-se que estes
giravam em torno de 39 a 55. Porém o 111 »» Importante salientar que um outlier nem
“fugiu” desse padrão. Logo esse valor é sempre é um erro de amostragem ou
mostrado pelo Box Plot como um outlier. um defeito/problema. Ele é um valor que
se distanciou dos demais e precisa ser
entendido o que o ocasionou. Seu descarte
fica à cargo do responsável pelos dados.
17
39 42 42 42 44 44 45 48 49 50 51 52 55 55 55 55 57 111
Q1 = 43,50
Q2 ou mediana = 49,50
Q3 – Q1 =
(55,00 – 43,50) = 11,50
Q3 = 55,00
PorTanTo
OUTliers são Todos os valores abaiXo de 26,25 e aCima de 72,25
Como determinar com exatidão se um dado » O segundo passo é realizar uma outra
observado representa um outlier? Como saber análise para a expressão Q1 - 1,5 (Q3 - Q1) .
se um valor é muito distante dos demais ao
» Substituindo-se os valores, obtém-se 26,25 .
ponto de ser considerado um valor atípico?
Como o conceito de “estar distante” é muito Com esses dois valores obtidos, consegue-se
subjetivo, há uma maneira matemática de se fazer a análise da presença ou ausência de
descobrir a presença de outlier(s) . outliers .
Para isso é necessário realizar dois cálculos, Um outlier será qualquer valor dos dados que
conforme mostrado . deseja-se representar por um Box Plot que não
esteja compreendido entre esse intervalo obtido .
Com os valores dos quartis calculados,
primeiramente deve-se calcular o valor da Ou seja, para esse exemplo, um outlier será um
expressão Q3 + 1,5 (Q3 - Q1) . A subtração Q3 - Q1 (ou mais) valor dos dados que esteja fora do
é também chamada de Amplitude Interquartil . intervalo compreendido entre 26,25 e 72,25 .
Observando a representação de um Box Plot,
Portando, observando-se os dados dos tempos
essa amplitude representa a altura da caixa .
de entrega, que correspondem valores de 39
» Portanto, o primeiro passo é calcular Q3 + até 111, tem-se que o 111 é o valor que não está
1,5 * Amplitude Interquartil . compreendido no intervalo entre 26,25 e 72,25 .
Logo, 111 é um outlier .
Calculando a Amplitude Interquartil, tem-se (55
- 43,5) = 11,50 . Multiplicando-se esse valor por » Sua representação no Box Plot é dada
1,5 e acrescentando Q3 obtém-se 72,25 . através de um asterisco (*) .
18
Resumindo
3º quartil
Mediana
1º quartil
19
Exercitando
20
Resolução:
21
Resolução:
22
Resolução:
23
Resolução:
Representando
os 4 conjuntos:
25
Box Plot
no Excel
Sabe-se que na prática, na maior parte das vezes, o Box Plot será realizado com a ajuda de um
software . A utilização destes traz vantagens uma vez que torna o processo mais rápido, além de
conseguir um resultado esteticamente mais agradável .
Um dos softwares possíveis de realizar o Box Plot é o tão conhecido Microsoft Excel, muito utilizado
e difundido nas empresas e universidades . Nesse software o Box Plot é denominado de “Caixa
Estreita” . O recurso é encontrado na seção Gráficos, abaixo do Histograma, conforme mostrado .
» O Microsoft Excel traz em seu pacote de recursos a opção para construir um gráfico box plot .
» No caso, ele é denominado “Caixa Estreita”
26
Box Plot
no Excel
RealiZando o eXemPlo dos QUaTro ConJUnTos no EXCel:
27
Box Plot
no Excel
» É possível alterar o que é mostrado no box plot . Clique sobre alguma caixa e as opções serão
mostradas ao lado .
» Por exemplo: por padrão, o Excel mostra (através de um símbolo “x”) a média dos dados .
Como todo recurso do Microsoft Excel, várias Caso deseja-se editar o Box Plot mostrado,
possibilidades de personalização são possíveis . basta selecioná-lo e uma janela de opções de
Para o Box Plot não é diferente . formatação será mostrada ao lado direito da
tela, conforme pode ser visto pela imagem .
Observando-se o resultado gráfico mostrado,
é possível perceber que o Excel traz, no Box Nas opções é possível desabilitar a opção de
Plot, um símbolo análogo à letra “x” . Essa mostrar a média dos dados . Além disso, é
representação corresponde à média do conjunto possível ocultar os outliers . No Excel eles são
de dados . É uma representação “extra” que o chamados de “pontos de exceção” .
Excel traz . Isso é possível de ser personalizado .
28
Correlação
utilizando box plot
Outra utilidade bastante interessante do Box
1º turno 2º turno 3º turno
Plot é o poder de facilitar o reconhecimento de
correlações entre variáveis. 20 24 29
29
Correlação
utilizando box plot
Como TradUZir esses dados de maneira a evidenCiar
se eXisTe Correlação? BOX-PLOT!!
30
ANOVA auxiliado
pelo Box-Plot
Outro recurso em que o Box Plot aparece como protagonista é na ANOVA.
ANOVA significa análise de variação. Esse tipo de análise é muito útil quando deseja-se comparar
as médias de mais de duas populações a fim de afirmar se, estatisticamente, alguma é distinta das
demais. Não é o escopo desse curso entrar no detalhe desse tipo de análise.
Como exemplo é mostrado um experimento realizado por um médico que deseja comparar três
diferentes remédios na recuperação de pacientes idosos que sofreram derrame devido a um ataque
do coração de média intensidade. Um total de 18 pacientes foi selecionado. Foram divididos em 3
grupos, cada um referente a um tipo de remédio (A, B e C). Foram anotados os resultados.
Buscando analisar se os medicamentos tinham o mesmo efeito ou se algum era significativamente
diferente, realizou-se uma ANOVA.
31
ANOVA auxiliado
pelo Box-Plot
» Com o auxílio
Análise de variância
de um software
estatístico, sua Fonte GL SQ (Aj.) QM (Aj.) Valor F Valor-P
análise fica fácil e
rápida, e o Box- C6 2 1064,1 532,06 8,78 0,003
plot é utilizado
para auxiliar a Erro 15 909,0 60,60
análise conforme
Total 17 1973,1
vemos
32
Exemplo
prático 1:
» Um pesquisador realizou um experimento para comparar três tipos de fertilizantes . O intuito
era descobrir qual deles contribuia mais para o crescimento de mudas de cana de açúcar . Cada
fertilizante foi aplicado em dez mudas . Após duas semanas, anotou-se o comprimento de cada
muda . As condições ambientais (temperatura, luminosidade, umidade, etc) foram mantidas
idênticas . O resultado do experimento é mostrado no box-plot abaixo:
33
Exemplo
prático 2:
» Uma grande rede de shoppings, com cinco unidades localizadas em regiões distintas da cidade
de São Paulo, monitora a quantidade diária de pessoas que frequentam o shopping . Os dados
comparativos das cinco unidades são mostrados abaixo para o mês de agosto .
34
Exercitando
21 23 23 26 28 29 30 30 31 33 36 38 39 40 45
a)
b)
c)
» Q1 = 26
» Q2 = 30
» Q3 = 38
» Não há presença de outliers .
Resposta correta: C
35
Exercitando
» Considerando os dados mostrados abaixo, qual o Box-plot que representa corretamente esses
valores?
0 5 6 7 8 10 12 12 15 16 22 43 43
a)
b)
c)
» Q1 = 6,5
» Q2 = 12
» Q3 = 19
» Há presença de outlier: intervalo a ser
analisado: -12,25 a 37,75 . Portando dois
outliers de valor 43 .
Resposta correta: B
36