Escolar Documentos
Profissional Documentos
Cultura Documentos
BIG DATA
Introdução
Na atual era digital, a sociedade se baseia cada vez mais no uso de dados.
A inundação, exploração e análise de grandes conjuntos de dados das
mais variadas fontes e áreas, como saúde, financeira ou biológica, traz a
necessidade de interpretação desses elementos. Com isso, surge também
uma demanda crescente por recursos visuais que auxiliem nos processos
de análise e comunicação das descobertas realizadas.
Neste capítulo, você vai estudar sobre a visualização de dados e sua
importância no contexto de big data. Você também vai conhecer algumas
das principais técnicas para visualização de dados, bem como aprender
a planejar o desenvolvimento de visualizações, além de identificar seus
principais desafios e possíveis alternativas. Por fim, você deve compreender
como um mesmo dado pode ser apresentado por meio de diferentes
visualizações e a importância de avaliar as visualizações com o público-alvo.
Economia tempo 20
Redução da carga em TI 15
Histograma
O histograma (histogram) é uma técnica de visualização bastante usada para
avaliar a distribuição dos valores para uma única variável numérica. Essa
variável é então cortada em várias posições (intervalos ou períodos de tempo)
e o número de observações por posição (frequência) é representado pela altura
de um retângulo. A Figura 2 ilustra esse tipo de representação.
Figura 3. Demonstração dos diferentes formatos para distribuição de valores que podem
ser observados como resultado de um histograma.
Fonte: Adaptada de Histogram ([2019?]).
O histograma não deve ser confundido com o gráfico de barras. O gráfico de barras
é outra técnica de visualização utilizada para apresentar a relação entre variáveis
numéricas e categóricas, na qual cada entidade da variável categórica é representada
por uma barra e o tamanho da barra representa o valor numérico. É uma técnica
bastante utilizada, pois facilita a compreensão.
Gráfico de dispersão
Um gráfico de dispersão (scatterplot) apresenta pontos relacionados a duas
variáveis numéricas usando o sistema de coordenadas cartesiano. Para cada ponto
de dados, o valor de sua primeira variável é representado no eixo x e o segundo
valor no eixo y. De acordo com Ward, Grinstein e Keim (2015), scatterplot é
uma das primeiras e mais usadas técnicas de visualização já desenvolvidas.
A Figura 4 apresenta os elementos que caracterizam essa visualização.
Visualização de dados em big data 7
forte;
fraco;
nulo.
(A) A primeira apresenta que a variável fixed acidity (acidez fixa) parece
estar negativamente correlacionada com a variável pH.
(B) No segundo destaque, a variável alcoohol (álcool) parece estar posi-
tivamente correlacionada com a variável density (densidade) invertida.
Mapa de árvore
Árvores (treemap) ou hierarquias são estruturas bastante comuns para armazenar
informações relacionais e, por consequência, muitas técnicas de visualização
foram desenvolvidas para exibir essas informações (WARD; GRINSTEIN;
KEIM, 2015). Entre elas, destaca-se a treemap, introduzida por Johnson e Shnei-
Visualização de dados em big data 11
mesmo com dados sem hierarquia, por exemplo, como uma alternativa para
o gráfico de barras. Outra vantagem é que essa técnica faz o uso eficiente do
espaço, o que possibilita a representação de uma grande quantidade de dados,
como no caso apresentado na Figura 9.
Mapa coroplético
Para apresentar dados geolocalizados ou identificados por regiões, o uso de
um mapa temático pode ser uma boa estratégia. No mapa coroplético (cho-
ropleth maps), as áreas geográficas delimitadas serão coloridas, sombreadas
ou decoradas seguindo um padrão em relação aos dados de uma variável de
interesse para análise. A Figura 10 ilustra os elementos dessa técnica.
Visualização de dados em big data 13
Reino Unido
Mongolia
China
Argélia
Sudão
População on-line (%)
Quênia
Brasil
África do Sul
Argélia, Sudão e Quênia estão tão conectados quanto África do Sul.
Mongólia está mais conectada do que a China. Brasil tem mais
Sem dados usuários do que o Reino Unido.
Figura 11. Visualização de dados geolocalizados com o uso da técnica do mapa coroplético.
Neste caso, são apresentadas informações para o uso da internet no mundo no ano de 2006. Na
visualização original desenvolvida pela BBC, recursos interativos são disponibilizados, tais como a
possibilidade de troca dos anos e o valor em detalhe da população ao passar o mouse sobre cada país.
Fonte: BBC News ([2019?], documento on-line).
Figura 12. Modelo aninhado de quatro níveis (domínio, abstração, idioma e algoritmo)
proposto por Munzner (2009) para o desenvolvimento de visualizações. Este modelo
pode ser combinado com elementos da tipologia multinível de abstração de tarefas de
visualização proposto por Brehmer e Munzner (2013), e que estão identificados pelas caixas
de “O quê?”, “Por quê?” e “Como?”.
É possível utilizar variados métodos para teste de sistemas com usuários. Porém, antes
de seguir com algum desses protocolos, é recomendado consultar algumas referências
com a perspectiva da visualização, por exemplo: Lam et al. (2012), que apresenta
sete cenários de estudos empíricos em visualização de informações, e Isenberg et al.
(2013), que traz uma revisão sistemática da literatura sobre a prática de avaliação das
visualizações, trazendo 581 estudos cobertos. Além disso, os livros de Munzner (2014a)
e Ward, Grinstein e Keim (2015) são excelentes fontes para aprofundar o conhecimento
em desenvolvimento, análise e teste das visualizações.
AUBER, D. Using Strahler numbers for real time visual exploration of huge graphs. In:
INTERNATIONAL CONFERENCE ON COMPUTER VISION AND GRAPHICS, 2002, Zakopane.
Anais [...]. Zakopane: ICCVG, 2002. p. 1–15. Disponível em: https://tulip.labri.fr/publi_tulip/
auberICCVG2002.pdf. Acesso em: 1 fev. 2020.
BBC NEWS. SuperPower: visualising the internet. [2019?]. 1 mapa, color. Disponível em:
http://news.bbc.co.uk/2/hi/technology/8552410.stm. Acesso em: 2 fev. 2020.
BECKER, R. A.; CLEVELAND, W. S. Brushing scatterplots. Technometrics, [s. l.], v. 29, n. 2,
p. 127–142, 1987.
20 Visualização de dados em big data
Os links para sites da web fornecidos neste capítulo foram todos testados, e seu fun-
cionamento foi comprovado no momento da publicação do material. No entanto, a
rede é extremamente dinâmica; suas páginas estão constantemente mudando de
local e conteúdo. Assim, os editores declaram não ter qualquer responsabilidade
sobre qualidade, precisão ou integralidade das informações referidas em tais links.