Você está na página 1de 9

UCAM – UNIVERSIDADE CANDIDO MENDES

BRUNO RODRIGUES DE OLIVEIRA

ANÁLISE DE DADOS UTILIZANDO GRÁFICOS BOXPLOT

CHAPADÃO DO SUL - MS
2016
UCAM – UNIVERSIDADE CANDIDO MENDES
BRUNO RODRIGUES DE OLIVEIRA

ANÁLISE DE DADOS UTILIZANDO GRÁFICOS BOXPLOT

Artigo Científico Apresentado à Universidade


Candido Mendes - UCAM, como requisito parcial
para a obtenção do título de Especialista em
Matemática Financeira e Estatística.

CHAPADÃO DO SUL - MS
2016
1

ANÁLISE DE DADOS UTILIZANDO GRÁFICOS BOXPLOT

Bruno Rodrigues de Oliveira1

RESUMO

A análise de dados constituí uma etapa primordial nos processos de tomada de decisão. Para tanto,
dada a enorme quantidade de dados gerados atualmente, os modelos de gráficos são
imprescindíveis, porque analisar dados tabulares é uma tarefa contraproducente para pessoas. No
entanto, nem todos os modelos de gráficos trazem as mesmas informações. Neste trabalho, realiza-
se uma análise comparativa entre dois principais modelos de gráficos para visualização de séries de
dados. Conclui-se que o modelo do tipo boxplot é mais adequado que os histogramas porque estes
exibem mais informações, colaborando de modo mais eficaz nos processos decisórios.
Palavras-chave: Análise de Dados. Visualização Gráfica. Boxplot.

Introdução

A análise de dados encontra-se no cerne dos processos de tomada de


decisões. Sejam empresários ou agentes públicos, estes se baseiam em dados
sobre determinado problema para decidirem como agir (GIANNETTI et. al, 2007).
No entanto, dada a grande quantidade de dados gerados atualmente, devido
a informatização, analisar dados tabulares é uma tarefa enfadonha e propensa a
erros, porque aquele que analisa muitas vezes não tem uma visão global do
panorama explicitado pelos dados apresentados.
Por isso, os modelos gráficos para visualização de dados são tão importantes.
Através deles, o decisor entende global e localmente o que os dados representam.
Ele consegue, abstrair tendências, identificar intervalos de crescimento e
decrescimento, visualizar anomalias ou ruído nos dados, identificar sazonalidades e
assimetrias nas distribuições.
Dentre os principais modelos para visualização de dados, pode-se citar:
gráfico de barras, de setores, de linhas e de erro; diagrama de dispersão;
histogramas e gráficos de série temporais. (PESTANA & GAGEIRO, 2014).
Cada modelo de gráfico é mais adequado que o outro para determinadas
análises. O histograma, por exemplo, “mostra como os dados se distribuem, a
tendência central desses valores e a dispersão desses valores” (LUCINDA, 2010, p.
98). Se o analista pretende apenas averiguar a distribuição de frequências
1
Bruno Rodrigues de Oliveira. Graduado em Licenciatura em Matemática pela UEMS/Cassilândia. Especialista
em Engenharia de Sistemas pela ESAB/Vila Velha. Mestre em Engenharia Elétrica pela UNESP/Ilha Solteira.
2

(PINHEIRO et. al, 2015) de uma certa variável e ressaltar a relevância da parte
sobre o todo, então os gráficos de barras e setores podem ser utilizados.
Neste trabalho será abordado o modelo de gráfico denominado de boxplot.
Através um exemplo hipotético, será mostrado como este tipo de gráfico pode ser
utilizado par análise de dados e como ele pode sintetizar os demais modelos de
gráficos, simplificando assim a análise, uma vez que concentra em si várias
informações estatísticas.
O foco deste trabalho ficará na comparação entre os gráficos do tipo boxplot e
histograma, porque estes podem ser utilizados de modo semelhante para
representação de séries de dados. Serão abordadas as definições de gráficos de
barras e setores apenas para enfatizar as distinções com aqueles gráficos que são o
cerne deste trabalho.

Desenvolvimento

Um termo que tem sido vinculado nos mais diversos meios que tratam de
tecnologias e seus usos é Big Data. Com a informatização cada vez maior de
empresas e órgãos governamentais é esperado que o volume de dados
armazenados aumente cada vez mais.
Uma das mais evidentes vantagens das tecnologias Big Data é sua
capacidade de extrair informação da quantidade massiva de dados produzidos pelos
sistemas de informações atuais (HURWITZ et al., 2016). Para tanto, uma série de
algoritmos são utilizados.
Embora as ferramentas disponibilizadas por essas tecnologias pareçam
resolver todos os problemas que teríamos para a análise de dados, na realidade não
é isso que ocorre. Madsbjerg e Rasmussen (2014, p. 112) salientam que todo esse
potencial “é impressionante, mas toda a ênfase do big data está na tecnologia, e a
solução minimiza a importância da maior máquina de computação de todos os
tempos: o cérebro humano”.
Dado este fato, fica evidente a importância de pessoas para realizarem as
análises das informações extraídas pelos sistemas computacionais, além é claro de
averiguar a veracidade dessas informações. Portanto, a análise de dados por meio
de gráficos realizada por pessoas, mesmo nessa era onde os sistemas
computacionais estão cada dia mais “inteligentes”, continua a ser uma tarefa
3

essencial nos processos decisórios. Além disso, o processo de decisão, em si, é um


tarefa primordialmente humana.
Prado e Souza (2014) ao discorrerem sobre o processo de tomada de
decisão baseada em dados, reafirmam o que foi dito anteriormente sobre o
crescente volume de dados gerados nas empresas atualmente. Ressaltam ainda,
que, para se analisar essa grande quantidade de dados são necessárias técnicas
que sejam capazes de resumi-los em formatos compreensíveis pelos usuários que
farão posteriormente as análises paras as consequentes tomadas de decisões.
Nos parágrafos abaixo serão abordados os principais modelos de gráficos
utilizados para a análise de dados.
Um dos modelos de gráficos mais utilizados é o histograma. Este “é um
gráfico que permite visualizar a distribuição de frequências dos intervalos de
ocorrência de uma variável quantitativa” (BRAGA, 2010, p. 26).
Por meio da análise do histograma pode-se entender facilmente como os
dados se distribuem em torno da média, considerando sua simetria. No entanto,
para sua construção, é necessário escolher adequadamente as classes que serão
utilizadas para agrupar os dados nas respectivas colunas. Para tanto, deve-se ter
em mente o formato da distribuição de dados, mas este é exatamente o motivo pela
qual se constrói o histograma (RYAN, 2011). Este pensamento cíclico pode conduzir
a uma ilustração errônea do fenômeno que os dados representam, quando as
classes são escolhidas aleatoriamente por um sistema computacional por exemplo.
Os modelos de gráficos de barras, sejam verticais ou horizontais, podem até
se assemelhar visualmente ao histogramas em determinados casos, no entanto
possibilitam extrair informações distintas. Nestes gráficos, em um eixo estão
representadas as categorias e no outro as frequências destas, para uma
determinada variável (OLIVEIRA FILHO, 2015). Ele difere dos histogramas, porque
nestes, um certo eixo representa as classes de valores de uma variável, sendo que
cada barra representa um intervalo dessas classes, enquanto no outro eixo imprime-
se as frequências de ocorrência desses intervalos.
Outra distinção é que geralmente os gráficos de barras são separados por
espaços enquanto os histogramas não.
Semelhantemente aos modelos de gráficos de barras tem-se os modelos de
gráficos de setores (ou de pizza). A distinção básica entre estes e os gráficos de
barras, é que as seções são proporcionais as frequências de certa categoria
4

(PINHEIRO et al., 2015). Uma desvantagem, é que este tipo de gráfico não
representa bem mais que quatro categorias de uma variável (OLIVEIRA FILHO,
2015).
Agora será abordado o modelo de gráfico que este trabalho se propõe a
discutir. Algumas descrições sobre o modelo de gráfico boxplot estão elencadas a
seguir.
O boxplot ou desenho esquemático é um gráfico que se costuma utilizar
para sintetizar em uma mesma figura várias informações relativas à
distribuição de uma determinada variável quantitativa (PINHEIRO et at.,
2015, p. 27).

Uma outra forma de fornecer uma ilustração de um conjunto de dados é


usando um boxplot. O nome vem do fato de que a metade central de um
conjunto de dados é representada pela região entre as partes de cima e de
baixo de uma caixa (retângulo). Assim, a parte superior do quadro (se o
software exibir o quadro verticalmente, já que alguns programas exibem o
quadro horizontalmente) é o 75º percentil (equivalente ao terceiro quartil,
Q3), e a parte inferior do quadro é o 25º percentil (o primeiro quartil, Q 1).
Uma linha horizontal é desenhada no 50º percentil (equivalente a mediana
ou ao segundo quartil, Q2). As linhas verticais são desenhadas, então, a
partir do quadro para a maior e a menor observações (RYAN, 2011, p. 14).

O boxplot permite avaliar a simetria dos dados, sua dispersão e a existência


ou não de outliers, sendo especialmente adequado para a comparação de
dois ou mais conjuntos de dados (SILVA, 2009, p. 80).

O boxplot, ou gráfico de caixas e linhas, é outra técnica frequentemente


usada na análise de dados exploratórios, que reduz os detalhes do gráfico
tronco-e-folha e fornece uma imagem visual diferente da distribuição em
termos de localização, dispersão, forma, comprimento da cauda, e ponto
extremos (outliers) (COOPER & SCHINDLER, 2016, p. 418).

Uma característica dos modelos de gráfico boxplot que os autores acima


mencionam é que ele compacta as informações. Isto é essencial, já que podemos
agregar em um único desenho vários boxplots de diferentes variáveis. Esta
vantagem os demais modelos de gráficos citados não compartilham.
Para a construção de um gráfico boxplot quatro passos básicos são
necessários (PINHEIRO et at., 2015):
5

1. Traça-se um eixo vertical ou horizontal para representar os dados de uma


variável.
2. Desenha-se um retângulo cuja base superior terá a altura correspondente ao
valor do terceiro quartil e a base inferior a altura do primeiro quartil. Traça-se
uma linha horizontal, da mesma largura do retângulo, na posição
correspondente ao valor da mediana.
3. “Em seguida são traçados dois segmentos de reta verticais, em que um deles
vai desde o ponto médio da base inferior do retângulo até a posição da menor
observação não-discrepante.” (PINHEIRO et at., 2015, p. 27). O outro traçado
vai desde a base superior até o maior valor não-discrepante.
4. As observações discrepantes (outliers) são destacadas no gráfico.
Geralmente se utiliza o símbolo “º” ou um “x” para designar esses valores.

Para exemplificar a construção de um boxplot, considera-se a série de dados


{33,45,27,42,31,40,22,32,22,25,15,65,44,43,45,42,45,35,38,32,25,27,25,26} que
representam as medições de uma variável aleatória qualquer. O valor da mediana
desta série é 32,5. Os quartis são Q1=25,75 e Q3=42,25. Como esta é uma série com
poucos dados é fácil localizar os valores discrepantes, que são 15 e 65.
A Figura 1 ilustra o boxplot para a série de dados considerada. É fácil notar
como os valores calculados anteriormente estão presentes na figura, principalmente
os outliers. Vê-se que a maior partes dos dados está distribuída abaixo da linha da
mediana, indicando uma assimetria positiva. O histograma exibido na Figura 2,
evidencia também este fato.

Figura 1: Exemplo de um boxplot


6

Figura 2: Exemplo de um histograma

Comparando os gráficos do histograma e do boxplot fica evidente como o


gráfico do boxplot revela mais informações. Não é possível, por exemplo, identificar
no histograma qual o valor da mediana e também quantos são os valores
discrepantes.
Outra vantagem é que se tivéssemos mais variáveis a serem representadas,
para o modelo boxplot bastaria desenharmos outra “caixa” ao lado daquela já
traçada na Figura 1. Já para o histograma, seria necessário desenhar outra figura,
ou desenhar um histograma agrupado, caso pudéssemos utilizar o mesmo intervalo
de classes.
Isto proporciona facilidade para comparação de variáveis distintas, auxiliando
o tomador de decisões em sua tarefa.

Conclusão

Neste trabalho propôs-se uma análise comparativa entre dois tipos de


modelos de gráficos utilizados para análise da distribuição de dados: boxplot e
histograma.
Primeiramente, foi discutida a importância da análise de dados, por meio de
gráficos, para os processos de tomada de decisão. Após, foram abordados os
principais modelos utilizados para análise de distribuição de variáveis estatísticas.
Ficou demonstrado, no decorrer do trabalho, que os gráficos do tipo boxplot
são mais adequados para a análise de dados de séries, porque estes vislumbram
mais informações do que os histogramas.
7

Isto se deve a característica de que os boxplots além de representarem a


simetria da distribuição de dados, assim como os histogramas fazem, também
mostram os outliers, que são os valores discrepantes; a mediana e dois dos quartis,
que são medidas estatísticas importantes para entender o comportamento dos
dados.

REFERÊNCIAS

BRAGA, Luis Paulo Vieira. Compreendendo Probabilidade e Estatística. Rio de


Janeiro: E-papers, 2010.

COOPER, Donald R.; SCHINDLER, Pamela S. Métodos de Pesquisa em


Administração. 12ª ed. Tradução de Iuri Duquia Abreu. Porto Alegre: AMGH Editora,
2016.

OLIVEIRA FILHO, Petrônio Fagundes de. Epidemiologia e Bioestatística:


Fundamentos para a Leitura Crítica. Rio de Janeiro: Rubio, 2015.

GIANNETTI, Biagio F. et al. Aplicações do diagrama emergético triangular na tomada


de decisão ecoeficiente. Revista Produção, v. 17, n. 2, p. 246-262, 2007.

HURWITZ, Judith et al. Big Data para Leigos. Rio de Janeiro: Alta Books, 2016.

LUCINDA, Marco Antônio. Qualidade: Fundamento e Práticas Para Cursos de


Graduação. Rio de Janeiro: Brasport, 2010.

MADSBJERG, Christian; RASMUSSEN, Mikkel. A filosofia nos negócios: como as


ciências humanas podem resolver os problemas mais complexos da gestão.
Tradução de Alessandra Mussi Araújo. 1ª ed. Rio de Janeiro: Elsevier, 2014.

PESTANA, Maria Helena; GAGEIRO, João Nunes. Análise de Dados para Ciências
Sociais – A Complementariedade do SPSS. 6ª ed. Lisboa: Edições Sílabo, 2014.

PINHEIRO, João Ismael D. et al. Estatística Básica: A Arte de Trabalhar com Dados.
Rio de Janeiro: Elsevier, 2015.

PRADO, Edemir P. V.; Souza, Cesar Alexandre de (Org.). Fundamentos de Sistemas


de Informação. Rio de Janeiro: Elsevier, 2014.

RYAN, Thomas. Estatística moderna para engenharia. Rio de Janeiro: Elsevier,


2011.

SILVA, André Luiz Carvalhal da. Introdução à Análise de Dados. Rio de Janeiro: E-
papers, 2009.

TAURION, Cezar. Big Data. Rio de Janeiro: Brasport, 2013.

Você também pode gostar