Você está na página 1de 17

PREPARAÇÃO E

ANÁLISE
EXPLORATÓRIA DE
DADOS

Rafael Albuquerque
Gráficos de barras
com Seaborn
Objetivos de aprendizagem
Ao final deste texto, você deve apresentar os seguintes aprendizados:

„„ Reconhecer o conceito de gráficos de barra, diferenciando-os de


gráficos do tipo histograma.
„„ Analisar gráficos de barras, extraindo insights a partir deles.
„„ Criar gráficos de barra para variáveis categóricas e numéricas usando
Seaborn.

Introdução
A visualização de dados tem ajudado bastante no processo de análise
dos dados, pois ela permite a extração de insights a partir dos dados
plotados; em outras palavras, ela auxilia na interpretação dos dados de
maneira clara e fácil. Geralmente, os dados que mais são utilizados nessas
visualizações são os dados categóricos discretos e os numéricos contínuos.
Entre os métodos de visualização de dados, temos os gráficos de
barras, que estão entre os elementos visuais mais básicos e simples de
representar dados. Os gráficos de barras costumam ser utilizados para
comparação entre dados de várias categorias. Esses gráficos podem
ser apresentados em diferentes orientações (vertical ou horizontal)
e podem ser utilizados tanto para análises univariadas quanto para
multivariadas.
Neste capítulo, você vai estudar o conceito de gráfico de barras e ver
como diferenciá-lo de um histograma. Também vai ver como realizar
análises para a extração de insights e como elaborar gráficos de barras
para variáveis categóricas e numéricas usando a biblioteca Seaborn.
2 Gráficos de barras com Seaborn

1 Quando usar um gráfico de barras


Os gráficos de barras são indicados quando existem dados nominais ou dados
numéricos bem segmentados entre diferentes categorias, deixando claramente
perceptíveis os resultados comparativos e as tendências nos dados. Os gráficos
de barras costumam ser usados para comparar dados entre múltiplas categorias,
como percentual de gastos publicitários por departamentos ou por categorias
de produtos (SHARDA; DELEN; TURBAN, 2019).
Em relação ao visual gráfico, o gráfico de barras é bastante parecido com
o histograma, no entanto existe uma diferença entre histogramas e gráficos
de barras genéricos, que é a informação que está sendo retratada (SHARDA;
DELEN; TURBAN, 2019). Os histogramas são usados para mostrar a distri-
buição da frequência de uma variável ou de diversas variáveis, ou seja, eles
têm uma finalidade diferente da do gráfico de barras.
Os gráficos de barras podem ser orientados na vertical ou na horizontal.
Também podem ser empilhados um sobre o outro para mostrar múltiplas
dimensões em um único diagrama. Conforme Knaflic (2015), ter diversos
tipos de gráficos de barras à disposição para uso proporciona flexibilidade,
quando nos deparamos com diferentes desafios de visualização de dados.
A Figura 1 ilustra alguns tipos de gráfico de barras.

Figura 1. Alguns tipos de gráfico de barras.


Gráficos de barras com Seaborn 3

Devido ao modo como nossos olhos comparam os pontos extremos relativos das
barras, é importante que os gráficos de barras sempre tenham uma linha de base zero
(em que o eixo x cruza o eixo y em zero); caso contrário, você obterá uma comparação
visual falsa (KNAFLIC, 2015). Veja no exemplo a seguir.

Fonte: Knaflic (2015, p. 48).

Gráficos de barras verticais


Conforme Knaflic (2015), o gráfico de barras mais comum é o de barras verti-
cais, ou gráfico de colunas. Com os gráficos de barras verticais é possível ter
uma, duas ou várias séries, como ilustrado na Figura 2; no entanto, conforme
as séries são adicionadas, torna-se mais difícil focar uma série por vez. Dessa
forma, deve-se ter cuidado ao utilizar gráficos de barras com várias séries.
Gráficos de barras verticais geralmente são usados para cruzar infor-
mações de acordo com a quantia presente em determinada categoria. Essas
informações são agrupadas visualmente como resultado do espaçamento em
gráficos de barras com mais de uma série de dados. Assim, a ordem relativa da
categorização é um fator importante. Esse gráfico permite fazer comparações
e estruturar a hierarquia de categorias.
4 Gráficos de barras com Seaborn

Figura 2. Gráficos de barras verticais com quantidades de séries diferentes.


Fonte: Knaflic (2015, p. 51).

Gráficos de barras verticais empilhadas


Os casos de uso para gráficos de barras verticais empilhadas são mais limitados
(KNAFLIC, 2015). Esse tipo de gráfico de barras permite a comparação de
totais entre categorias e ainda a visualização das partes subcomponentes dentro
de determinada categoria. No entanto, é difícil comparar os subcomponentes
entre as várias categorias uma vez ultrapassada a série inferior, pois não haverá
mais uma linha de base coerente para usar na comparação.
A Figura 3 ilustra essa comparação de totais entre categorias. Observe que
é mais fácil comparar o primeiro subcomponente das categorias, por terem
uma linha base, do que comparar o segundo subcomponente das categorias,
pois não possuem uma linha base coerente para realizar as comparações.

Figura 3. Comparação de séries com gráficos de barras verticais empilhadas.


Fonte: Knaflic (2015, p. 52).
Gráficos de barras com Seaborn 5

Gráficos de cascata
Um gráfico de cascata pode ser usado para dividir as partes de um gráfico
de barras empilhadas, com a finalidade de focar em apenas uma parte por
vez ou para mostrar um ponto de partida, aumentos ou reduções e o ponto
final resultante (KNAFLIC, 2015). Considere o seguinte exemplo de uso do
gráfico de cascata: uma empresa comercial de RH gostaria entender e avisar
aos seus clientes como o número de funcionários mudou durante o último
ano. A Figura 4 ilustra um gráfico de cascata que representa esse cenário:
no lado esquerdo do gráfico temos o número de funcionários no início do
ano; movimentando da esquerda para direita, temos a quantidade de adições
e reduções no quadro de funcionários; e na última coluna temos a quantidade
de funcionários no fim do ano.

Figura 4. Gráfico de cascata.


Fonte: Knaflic (2015, p. 53).
6 Gráficos de barras com Seaborn

Gráficos de barras horizontais


O gráfico de barras horizontais é particularmente útil se seus nomes de ca-
tegoria forem longos, pois o texto é escrito da esquerda para a direita, como
a ordem de leitura na nossa língua, facilitando a leitura do gráfico para seu
público (KNAFLIC, 2015). Normalmente, quando processamos informações
de uma leitura, começamos pelo lado superior esquerdo, assim temos acesso
primeiro à categoria que estamos analisando. Dessa forma, quando chegamos
aos dados, já sabemos o que os dados representam, como ilustrado na Figura 5.

Figura 5. Gráficos de barras horizontais.


Fonte: Knaflic (2015, p. 54).

Gráficos de barras horizontais empilhadas


Conforme Knaflic (2015), os gráficos de barras horizontais empilhadas são
semelhantes aos gráficos de barras verticais empilhadas; podem ser usados
para mostrar totais em diferentes categorias e para dar ideias das partes de
subcomponentes. Geralmente podem ser estruturados para mostrar valores
absolutos ou porcentagens. De acordo com Knaflic (2015), funcionam bem
para visualizar partes de um todo em uma escala do negativo para o positivo,
pois existe uma linha de base coerente nas extremidades esquerda e direita,
proporcionando uma fácil comparação das partes mais à esquerda e das partes
mais à direita, conforme o exemplo ilustrado na Figura 6.
Gráficos de barras com Seaborn 7

Muitas vezes, os gráficos de barras não são usados por serem gráficos comuns.
No entanto, isso é um erro — justamente por serem comuns eles devem ser usados,
pois, em vez de gastar muito tempo tentando aprender a ler o gráfico, as atenções
do leitor podem ser voltadas para as formações que devem ser extraídas do gráfico
(KNAFLIC, 2015).

Figura 6. Gráficos de barras horizontais.


Fonte: Knaflic (2015, p. 56).

2 Análise de gráficos de barras


Para a análise em gráficos em barras de dados discretos, Jhon e Zumel (2014)
apontam para essa tipografia como uma representação de um histograma.
Na Figura 7 temos a representação de um conjunto de dados de clientes de
seguro de saúde. Segundo Jhon e Zumel (2014), a distribuição apresentada na
Figura 7 pode ajudar a identificar se o estado civil ajuda a prever a probabili-
dade de cobertura do seguro de saúde, uma vez que é preciso uma quantidade
suficiente de clientes com diferentes estados conjugais para ajudá-lo a descobrir
a relação entre ser casado (ou não) e ter seguro de saúde. Veja que de fato,
o gráfico da Figura 7 parece com um histograma; no entanto, os histogramas
8 Gráficos de barras com Seaborn

normalmente são utilizados para verificar a distribuição de variáveis numéricas


e, consequentemente, as barras não têm espaçamento entre elas, diferentemente
de um gráfico de barras, que compara séries diferentes.

Figura 7. Exemplo para análise em gráficos de barras verticais.


Fonte: Adaptada de Jhon e Zumel (2014).

Para a próxima amostragem de gráficos em barra, vamos analisar o exemplo


apresentado por Healy (2019). Para este exemplo, foram coletados dados da
população dos Estados Unidos das regiões do norte, centro-oeste, sul e oeste.
Com esses dados, examinou-se qual seria a distribuição de praticantes das
seguintes categorias de religião: protestante, católica, judaica, outras, nenhuma
e NA (sem resposta).
O que podemos notar analisando o gráfico da Figura 8? Ao analisarmos
a distribuição, percebemos que a religião predominante em cada uma das
regiões é o protestantismo e que o catolicismo é tão praticado quanto os que
declararam não praticar nenhuma religião.
Gráficos de barras com Seaborn 9

Figura 8. Análise em gráficos de barras verticais sobre a distribuição de religiões ativas em


regiões dos Estados Unidos.
Fonte: Adaptada de Healy (2019).

Sobre o mesmo problema apresentado por Healy (2019), é possível apre-


sentar diferentes abordagens de gráficos em barras. A Figura 9 mostra outra
perspectiva sobre os dados obtidos para cada região, em que podemos entender
melhor a proporção dos praticantes religiosos em cada região.
10 Gráficos de barras com Seaborn

Figura 9. Análise em gráficos de barras proporcionais verticais.


Fonte: Adaptada de Healy (2019).

Uma distribuição discreta é baseada em valores do tipo inteiro, por isso um gráfico
em barras pode ser lido como um histograma para este tipo de situação dos dados
numéricos.
Gráficos de barras com Seaborn 11

3 Gráficos de barras usando Seaborn


Gráficos do tipo barra podem ser criados utilizando-se ferramentas, também
conhecidas como bibliotecas, atreladas a vários tipos de linguagem de pro-
gramação, como Python, R, Matlab, etc. Nesta seção, vamos ver como criar
gráficos de barra com a biblioteca Seaborn sob a linguagem de programação
Python 3.
Vamos começar analisando o dataset “titanic”, disponibilizado pela pró-
pria biblioteca Seaborn. A Figura 10 mostra um esquema do carregamento
das bibliotecas (1), os ajustes para a plotagem e apresentação dos dados (2)
e a apresentação parcial dos dados, com todas as colunas da base de dados
carregada.

Figura 10. Apresentação de dados da base de dados sobre o acidente do Titanic.

A Figura 11 apresenta o número de sobreviventes do acidente do Titanic,


baseado nas categoria de classe (class) e gênero (sex) dos passageiros. Observe
que sobreviveram mais mulheres do que homens e que, em ambos os gêneros,
os passageiros da terceira classe tiveram o menor número de sobreviventes.
A perspectiva em horizontal mostra um quantitativo de pessoas por classe de
passageiros subdividido em homem, mulher e criança. Todas essas abordagens
apresentam dados agrupados, permitindo uma rica análise sobre os dados.
12 Gráficos de barras com Seaborn

(a)

(b)

Figura 11. Plotagem em barra vertical (a) e horizontal (b) dos dados sobre
o acidente do Titanic.
Gráficos de barras com Seaborn 13

Uma alternativa para a criação de gráficos em barra com Seaborn é o uso do


argumento catplot, em que o tipo de gráfico é determinado pelo argumento
kind="bar". A Figura 12 mostra um pequeno exemplo dessa abordagem,
com a distribuição dos sobreviventes separados por gênero.

Figura 12. Plotagem de gráficos em barra com catplot.

Para a nossa próxima abordagem, vamos carregar e apresentar outra


composição de dados, para vermos mais uma opção de gráficos em barra.
Os dados da Figura 13 apresentam uma relação do nível de álcool encontrado
em motoristas em acidentes de trânsito de determinada região.
14 Gráficos de barras com Seaborn

Figura 13. Plotagem de gráfico horizontal com sobreposição de valores.


Gráficos de barras com Seaborn 15

Segundo Wilke (2019), um dos problemas comuns em se utilizar gráfi-


cos em barra vertical é que, quando temos muitas categorias para analisar,
os rótulos ou nomes de cada categoria localizada no eixo x do gráfico pode
ocupar bastante espaço horizontal. Nos exemplos que acompanhamos, isso
não foi um problema. É sempre bom entendermos os dados, se são numéricos
ou categóricos, para, de alguma forma, podermos criar um gráfico com dados
que se relacionem.

HEALY, K. Data vizualitation: a pratical introduction. New Jersey: Princeton University


Press, 2019.
JHON, M.; ZUMEL, N. Practical data science with R. Shelter Island: Manning Publications,
2014.
KNAFLIC, C. N. Storytelling with data: a data visualization guide for business professionals.
New Jersey: John Wiley & Sons, 2015.
SHARDA, R.; DELEN, D.; TURBAN, E. Business intelligence e análise de dados para gestão
do negócio. 4. ed. Porto Alegre: Bookman, 2019.
WILKE, C. O. Fundamentals of data visualization: a primer on making informative and
compelling figures. Massachusetts: O'Reilly Media, 2019.

Você também pode gostar