Você está na página 1de 22

ADMINISTRAO

DO BIG DATA
Dados Internacionais de Catalogao na Publicao (CIP)
(Jeane Passos de Souza - CBR 8a/6189)

Machado, Alexandre Lopes


Administrao do Big Data / Alexandre Lopes Machado.
So Paulo : Editora Senac So Paulo, 2017. (Srie Universitria)

Bibliografia.
e-ISBN 978-85-396-1228-4

1. Cincia Da Computao 2. Processamento de dados 3. Cincia de


dados
I. Ttulo.

17-499u CDD-001.64
BISAC COM060040
BISAC COM053000

ndice para catlogo sistemtico


1. Processamento de dados 001.64
ADMINISTRAO
DO BIG DATA

Alexandre Lopes Machado


Administrao Regional do Senac no Estado de So Paulo
Presidente do Conselho Regional
Abram Szajman

Diretor do Departamento Regional


Luiz Francisco de A. Salgado

Superintendente Universitrio e de Desenvolvimento


Luiz Carlos Dourado

Editora Senac So Paulo


Conselho Editorial
Luiz Francisco de A. Salgado
Luiz Carlos Dourado
Darcio Sayad Maia
Lucila Mara Sbrana Sciotti
Jeane Passos de Souza
Gerente/Publisher
Jeane Passos de Souza (jpassos@sp.senac.br)
Coordenao Editorial
Mrcia Cavalheiro Rodrigues de Almeida (mcavalhe@sp.senac.br)
Comercial
Marcelo Nogueira da Silva (marcelo.msilva@sp.senac.br)
Administrativo
Lus Amrico Tousi Botelho (luis.tbotelho@sp.senac.br)
Acompanhamento Pedaggico
Ariadiny Carolina Brasileiro Maciel
Designer Educacional
Joo Francisco Correia de Souza
Reviso Tcnica
Joao Carlos Neto
Colaborao
Ana Paula Pigossi Papalia
Estenio Azevedo
Preparao de Texto
Patricia B. de Almeida
Reviso de Texto
Amanda de Lima Lassak
Luiza Elena Luchini (coord.)
Projeto Grfico
Alexandre Lemes da Silva
Emlia Correa Abreu
Capa
Antonio Carlos De Angelis Proibida a reproduo sem autorizao expressa.
Todos os direitos desta edio reservados
Editorao Eletrnica
Sidney Foot Gomes Editora Senac So Paulo
Manuela Ribeiro
Rua 24 de Maio, 208 3o andar
Ilustraes Centro CEP 01041-000 So Paulo SP
Sidney Foot Gomes Caixa Postal 1120 CEP 01032-970 So Paulo SP
Tel. (11) 2187-4450 Fax (11) 2187-4486
Imagens
E-mail: editora@sp.senac.br
iStock Photos
Home page: http://www.editorasenacsp.com.br
E-pub
Ricardo Diana Editora Senac So Paulo, 2017
Sumrio

Captulo 1 Captulo 5
Introduo cincia de dados, 7 Modelagem de dados, 65
1 Breve histrico da cincia de 1 Modelo multidimensional, 66
dados, 8 2 NoSQL, 70
2 Business intelligence , 11 3 UML estendida, 72
3 Data warehousing , 13 Consideraes finais, 76
4 Data discovery, 17 Referncias, 77
Consideraes finais, 20
Referncias, 20 Captulo 6
Analtico (analytics) para
Captulo 2 Big Data, 79
Big Data, 23 1 Analtico, 80
1 Big Data , 24 2 Analtico descritivo, 81
2 Critrio dos Vs, 25 3 Analtico preditivo, 91
3 Tratamento dos dados, 29 Consideraes finais, 94
4 Qualidade de dados, 33 Referncias, 95
Consideraes finais, 36
Referncias, 37 Captulo 7
Minerao de dados, 97
Captulo 3 1 Aprendizado de mquina, 98
Arquitetura Big Data, 39 2 Classificao, 99
1 Processamento massivamente 3 Associao, 101
paralelo, 40
4 Regresso, 102
2 Arquitetura GoogleFS, 41
5 Agrupamento, 106
3 Arquitetura HDFS, 42
Consideraes finais, 108
4 MapReduce, 45
Referncias, 109
Consideraes finais, 49
Referncias, 49 Captulo 8
Anlise visual de dados, 111
Captulo 4
1 Anlise OLAP, 112
Ingesto de dados, 51
2 Exploratria de dados, 117
1 Tipos de dados, 52
3 rvores de deciso, 120
2 Coleta de dados, 54
4 Painis de controle , 121
3 Integrao dos dados, 58
Consideraes finais, 121
4 Interoperabilidade dos dados, 61
Referncias, 122
Consideraes finais, 62
Referncias, 63
Captulo 9 Captulo 10

Material para uso exclusivo de aluno matriculado em curso de Educao a Distncia da Rede Senac EAD, da disciplina correspondente. Proibida a reproduo e o compartilhamento digital, sob as penas da Lei. Editora Senac So Paulo.
Plataformas de Big Data, 123 Novas fontes de dados para
1 Apache Hadoop, 124 Big Data, 135
2 Weka, 128 1 Dados abertos, 136
3 Tableau, 129 2 Web semntica, 139
4 Exemplos de aplicao, 132 3 Dados ligados, 144
Consideraes finais, 133 4 Internet das coisas, 144
Referncias, 134 Consideraes finais, 146
Referncias, 147

Sobre o autor, 149

6 Administrao do Big Data


Captulo 1
Material para uso exclusivo de aluno matriculado em curso de Educao a Distncia da Rede Senac EAD, da disciplina correspondente. Proibida a reproduo e o compartilhamento digital, sob as penas da Lei. Editora Senac So Paulo.

Introduo
cincia de dados

A cincia de dados agrega os impactos, os problemas decorrentes


do veloz e exponencial crescimento dos dados e tambm as tcnicas,
as metodologias e as ferramentas relacionadas manipulao des-
ses dados. Essa nova cincia de processamento chamada de quarto
paradigma para a explorao cientfica (HEY; TANSLEY; TOLLE, 2009)
e se distingue da cincia da computao na medida em que explora,
dentre outros aspectos, as inovaes relacionadas a manipular, ana-
lisar e visualizar uma enorme quantidade de dados (NATURE, 2008), e
as interaes humano-computador, to valiosas e significativas para a
visualizao e o uso efetivo desses dados (CHU, 2013).

7
A administrao de Big Data envolve diversos aspectos, tais como

Material para uso exclusivo de aluno matriculado em curso de Educao a Distncia da Rede Senac EAD, da disciplina correspondente. Proibida a reproduo e o compartilhamento digital, sob as penas da Lei. Editora Senac So Paulo.
cincia de dados, arquitetura e plataformas de Big Data, anlises es-
tatsticas (analytics), minerao de dados, ingesto e modelagem dos
dados e representao visual para a anlise dos dados (visual analyti-
cs). Este captulo vai apresentar um breve histrico da cincia de dados
e algumas tcnicas relacionadas ao processo de tomada de deciso.
Ele est organizado em sees que abordam os conceitos de business
intelligence, data warehousing e data discovery.

1 Breve histrico da cincia de dados

Desde meados do sculo XX, os sistemas automatizados vm bus-


cando transformar os dados em informao, visando auxiliar o pro-
cesso de tomada de deciso, um processo de escolha que verifica se
determinada deciso a mais adequada para uma situao especfica
(TURBAN et al., 2009). No final dos anos 1960, os computadores tor-
naram-se realmente indispensveis a qualquer grande organizao.
Nessa poca, eles executavam somente um aplicativo de cada vez por
meio de processamento em lote (batch). As aplicaes eram caracteri-
zadas por relatrios e programas, que geralmente utilizavam a lingua-
gem COBOL (common business oriented language; ou, em traduo
livre para o portugus, linguagem comum orientada para os negcios)
(TURBAN et al., 2009). A figura 1 ilustra a linha cronolgica de evolu-
o da tecnologia, alm de algumas empresas que se destacaram em
cada poca.

8 Administrao do Big Data


Material para uso exclusivo de aluno matriculado em curso de Educao a Distncia da Rede Senac EAD, da disciplina correspondente. Proibida a reproduo e o compartilhamento digital, sob as penas da Lei. Editora Senac So Paulo.

Figura 1 Evoluo da cincia de dados

1970 1990 2010


SGBD Relacional Objeto relacional NoSQL
DW Big Data

1980 2000
Padro SQL Google
BI
Minerao de dados
MapReduce
Processamento paralelo
Cloud computing
Orkut
Legenda Facebook
Empresas Twitter
Tecnologias Netflix
Hadoop

Como podemos observar na imagem, por volta de 1970 uma nova


tecnologia de armazenamento e acesso a dados e um novo software
surgiram: o sistema gerenciador de banco de dados, ou simplesmente
SGBD (sistema de gerenciamento de banco de dados). Esse sistema
permitiu visualizar uma organizao baseada em dados, em que o
computador poderia atuar como coordenador central para atividades
de toda a organizao. Com isso, o banco de dados tornou-se um re-
curso corporativo bsico e, pela primeira vez, os computadores foram
vistos como uma verdadeira vantagem competitiva em relao a outras
empresas que no o tivessem (KIMBALL; CASERTA, 2004).

Nas dcadas de 1970 e 1980, grandes aperfeioamentos tecnolgi-


cos resultaram em novos sistemas de informao denominados SGBD
relacionais. Com eles, as pessoas mais influentes passaram a ter aces-
so aos dados com maior facilidade de uso (KIMBALL; CASERTA, 2004).

Introduo cincia de dados 9


J na dcada de 1990, a chegada de novas tecnologias, como

Material para uso exclusivo de aluno matriculado em curso de Educao a Distncia da Rede Senac EAD, da disciplina correspondente. Proibida a reproduo e o compartilhamento digital, sob as penas da Lei. Editora Senac So Paulo.
o modelo objeto relacional e as ferramentas CASE (computer-aided
software engineering), ou, em traduo livre para o portugus, enge-
nharia de software guiada por computador, permitiu que o usurio final
assumisse um papel mais ativo, passando a controlar diretamente os
sistemas e os dados fora do domnio do clssico processamento de da-
dos (KIMBALL; CASERTA, 2004). Ainda nos anos 1990, houve tambm o
barateamento do disco magntico, o que propiciou o desenvolvimento
de novos estilos de modelagem de dados, cujos objetivos eram a com-
preensibilidade da base de dados pelo usurio final e o desempenho de
consultas gigantes (TURBAN et al., 2009).

No incio dos anos 2000 surgiram os computadores com processa-


mento paralelo, que tornaram vivel a consulta on-line a bases de dados
contendo bilhes de registros, com volumes que atingem exabytes de
dados (CHU, 2013). Com essa evoluo, as organizaes comearam
a perceber que poderiam analisar os seus dados de forma otimizada.
Para a implementao desses sistemas, elas passaram a estudar no-
vas formas de armazenar os dados contidos nos sistemas, a fim de que
houvesse integrao total de seus dados. Alm disso, era necessrio
manter o histrico das informaes e fazer com que elas fossem dis-
postas de diversas formas. O objetivo era extrair os dados acumulados
pelos computadores ao longo dos anos e transform-los em informa-
o. Essa estratgia mudou o enfoque que at ento era atribudo ao
conjunto de informaes. Nesse contexto, os sistemas passaram a per-
tencer a dois grupos (KIMBALL; CASERTA, 2004):

Sistemas online transacionais (online transaction processing


OLTP): sistemas que tratam o negcio e do suporte diariamente
a ele, garantindo a operao da organizao. Eles executam repe-
tidamente o ciclo de uma transao e trabalham com uma situa-
o instantnea dos negcios. No possuem, portanto, registros
dos fatos histricos. Em geral, o OLTP abrange os sistemas que
automatizam o negcio, como o sistema de conta-corrente, de
pagamento, de custos, etc.

10 Administrao do Big Data


Sistemas de business intelligence (BI): sistemas que analisam o
Material para uso exclusivo de aluno matriculado em curso de Educao a Distncia da Rede Senac EAD, da disciplina correspondente. Proibida a reproduo e o compartilhamento digital, sob as penas da Lei. Editora Senac So Paulo.

negcio e ajudam a interpretar o que ocorreu, visando a elabora-


o de estratgias futuras para a organizao e o suporte ao pro-
cesso de tomada de deciso. Em sentido amplo, eles abrangem
todos os sistemas gerenciais de uma organizao.

A seguir, vamos nos aprofundar no conceito de business intelligen-


ce (BI). O entendimento desse termo fundamental para a proposta
deste volume.

2 Business intelligence
Business intelligence (ou, em traduo livre para o portugus, inte-
ligncia de negcios), ou simplesmente BI, um termo que surgiu nos
anos 1980 e se refere ao processo de coleta, organizao, anlise, com-
partilhamento e monitoramento de informaes (TURBAN et al., 2009).
A informao transformada e aplicada a um determinado processo de
deciso pode gerar vantagem competitiva para a organizao. Assim,
podemos dizer que o BI o produto da transformao de dados em infor-
mao, aps ela ser analisada ou inserida em um determinado contexto.

O BI envolve a utilizao de produtos e solues desenvolvidas com a


tecnologia analtica, que permite transformar os dados armazenados em
bases de dados em informaes que auxiliam os diversos nveis de uma
organizao. Por exemplo, como interface, ele transforma e torna verda-
deiras todas as informaes e as converte em conhecimento estratgico.

Os sistemas BI tm como caractersticas (BARBIERI, 2012):

Extrair e integrar dados de mltiplas fontes: h ilimitadas pos-


sibilidades de integrao com dados provenientes de diversos
sistemas-fonte, obtidos paulatinamente mediante a evoluo
por verses.

Introduo cincia de dados 11


Fazer uso da experincia: a busca e a interpretao de informa-

Material para uso exclusivo de aluno matriculado em curso de Educao a Distncia da Rede Senac EAD, da disciplina correspondente. Proibida a reproduo e o compartilhamento digital, sob as penas da Lei. Editora Senac So Paulo.
es armazenadas na corporao por meio de ferramentas, ga-
rantindo maior preciso nas tomadas de deciso.

Analisar dados contextualizados: a aproximao ntegra e co-


laborativa para capturar, criar, organizar e usar todos os ativos
de informao de uma organizao. Esses dados so tratados
por um sistema de transformao que cria vises integradas, de
acordo com as necessidades de cada comunidade de usurios,
evitando inconsistncias entre os diversos relatrios gerenciais
que chegam alta gerncia.

Trabalhar com hipteses: as hipteses so caractersticas de


processos de auditoria, fiscalizao ou validao de ideias. Elas
propiciam a antecipao de mudanas bruscas no mercado, alm
de estabelecer imediatamente aes sobre os competidores por
meio da anlise dos dados contextualizados.

Procurar relaes de causa e efeito: o aprendizado por meio


do sucesso e de falhas dos concorrentes proporciona a gera-
o de novos conhecimentos e uma viso mais clara sobre os
novos negcios.

IMPORTANTE

O BI descreve as habilidades para acessar os dados e explorar as


informaes (geralmente contidas em um data warehouse) por meio
de anlises, o que permite melhorar o processo de tomada de deci-
so das organizaes.

12 Administrao do Big Data


3 Data warehousing
Material para uso exclusivo de aluno matriculado em curso de Educao a Distncia da Rede Senac EAD, da disciplina correspondente. Proibida a reproduo e o compartilhamento digital, sob as penas da Lei. Editora Senac So Paulo.

Data warehousing (DW) o processo pelo qual as organizaes


transformam os seus dados computadorizados em informaes, utili-
zando uma base de dados com caractersticas peculiares denominada
data warehouse (DW ou, em traduo livre para o portugus, armazm
de dados) (KIMBALL; CASERTA, 2004).

O DW formado por partes lgicas pequenas denominadas data


marts (ou, em traduo livre para o portugus, repositrios de dados).
Esse repositrio corresponde s necessidades de informao de deter-
minada comunidade de usurios e representa um projeto que pode ser
produzido por uma equipe especfica, pois considera-se que para o pro-
jeto monoltico de um DW completo seria necessrio o envolvimento de
membros de todas as reas da organizao, o que dificultaria a criao
de uma primeira verso do DW (KIMBALL; CASERTA, 2004).

IMPORTANTE

O DW uma base de dados orientada por assunto, integrado, no


voltil de histrico, criado para suportar o processo de tomada de
deciso, seja ele ttico, estratgico ou operacional.

O DW se prope a extrair os dados acumulados pelos computadores


ao longo dos anos e transform-los em informao, ou seja, em algo
que faa sentido ao usurio final. Para tanto, os paradigmas a seguir
so necessrios tanto para o armazenamento quanto para a recupera-
o de informaes (KIMBALL; CASERTA, 2004):

No voltil: aps serem integrados e transformados, os dados


so carregados em blocos para que sejam disponveis aos usu-
rios para acesso, possibilitando realizar apenas consultas e

Introduo cincia de dados 13


gerao de relatrios necessrios tomada de deciso, no per-

Material para uso exclusivo de aluno matriculado em curso de Educao a Distncia da Rede Senac EAD, da disciplina correspondente. Proibida a reproduo e o compartilhamento digital, sob as penas da Lei. Editora Senac So Paulo.
mitindo, portanto, atualizaes.

Histrico: o DW tem a misso de se tornar a memria corpo-


rativa. Todos os dados histricos so armazenados no DW,
possibilitando o tratamento de extensas sries histricas. Essa
caracterstica se adapta perfeitamente atual tendncia das or-
ganizaes de focar seus negcios no cliente, pois permite tra-
ar o perfil do comprador a partir de seus hbitos e prever seus
movimentos futuros.

Acesso: a nfase do DW a recuperao da informao, e no


somente o seu armazenamento. O prprio usurio especifica e
executa suas consultas, utilizando uma ferramenta de mercado,
sem necessidade de solicitar o desenvolvimento de programas
pelo pessoal responsvel pela rea de tecnologia da informao
(TI) da empresa. Com isso, a entrega da informao aos usurios
tende a se tornar cada vez mais proativa.

Granularidade: capacidade de tratar consultas que endeream


centenas de milhares de registros e possibilidade de detalha-
mento sucessivo no decorrer de uma consulta, podendo chegar
granularidade mais refinada que se desejar. recomendado que
o dado seja armazenado no DW no mesmo nvel de detalhamento
em que ele gerado nos sistemas-fonte.

Evoluo harmoniosa e constante: a TI apoia os usurios no


acesso ao DW, assessorando-os nas estratgias de busca, me-
lhorando o desempenho das consultas mais frequentes e cole-
cionando as novas necessidades de informao a serem con-
templadas na prxima verso do DW.

Vamos analisar na figura 2 os componentes de uma soluo DW:

14 Administrao do Big Data


Material para uso exclusivo de aluno matriculado em curso de Educao a Distncia da Rede Senac EAD, da disciplina correspondente. Proibida a reproduo e o compartilhamento digital, sob as penas da Lei. Editora Senac So Paulo.

Figura 2 Componentes de uma soluo DW

fontes periodicamente
diversas

A
ETL Data Warehouse

Data Mart Data Mart

BI
B
rea de concentrao Data Mart Data Mart

C processo de metadados
verificao da carga

Os dados coletados podem ter diversas fontes. Eles so extrados


periodicamente por meio das ferramentas ETL, sigla para extraction
transformation loading (em portugus, extrao transformao carga).
Essa ferramenta realiza um tratamento dos dados por meio de um pro-
cesso que passa pela fase de extrao, transformao e carga dos da-
dos coletados.

Ainda no ETL temos um tipo de armazenamento denominado


staging area (ou, em traduo livre para o portugus, rea de concentra-
o), onde so encontrados os metadados, ou dados sobre dados, que
so como um conjunto de informaes de todos os dados coletados,
por exemplo: o nome, a origem, o formato, o fluxo, etc. Esse ciclo de
coleta e tratamento do ETL contnuo.

Alm disso, por meio do ETL que os dados podem ser enviados ao
data mart, que, como j foi dito, um subconjunto do DW que agrupa
esses dados de acordo com um contexto (seja sua caraterstica ou o
tipo de informao que possui), buscando cumprir os requisitos espe-
cficos de determinados grupos/departamentos que precisem daquela
informao.

Introduo cincia de dados 15


Uma vez que os dados chegam a essa etapa, possvel iniciar a

Material para uso exclusivo de aluno matriculado em curso de Educao a Distncia da Rede Senac EAD, da disciplina correspondente. Proibida a reproduo e o compartilhamento digital, sob as penas da Lei. Editora Senac So Paulo.
transformao de dados em informao. Ou seja, nessa etapa que o
BI acontece, organizando as informaes e disponibilizando-as para
os usurios.

Assim, por meio do ETL, os dados que antes estavam dispersos


so organizados e se tornam informaes, documentos e relatrios, os
quais contribuem com o processo de tomada de decises. Apesar de
parecer complexo, esse processo acontece em diferentes empresas ao
redor do mundo.

Em resumo, uma soluo de DW envolve quatro componentes prin-


cipais. So eles:

1. Processo de tratamento de dados: os processos de extrao,


transformao e carga de dados entre dois modelos diferentes, o
OLTP e o DW, denominado ETL.

2. Uma nova organizao de dados: o modelo dimensional.

3. Um software especfico: a ferramenta OLAP para acesso


base DW.

4. Um hardware especfico: computador com processamento


paralelo.

Todos esses componentes sero analisados nos temas dos prxi-


mos captulos deste volume.

3.1 Sistema extrao/transformao/carga

O sistema extrao/transformao/carga (ETL) um processo sis-


tematizado que est constantemente transferindo dados dos sistemas
OLTP para o ambiente de apoio deciso (KIMBALL; CASERTA, 2004).
A figura 2 apresentou o processo ETL, que a parte mais trabalhosa
e invisvel para o usurio final. Usando a analogia, ele a ponta de um
iceberg no oceano do DW.

16 Administrao do Big Data


O componente de extrao retira os dados dos sistemas OLTP com
Material para uso exclusivo de aluno matriculado em curso de Educao a Distncia da Rede Senac EAD, da disciplina correspondente. Proibida a reproduo e o compartilhamento digital, sob as penas da Lei. Editora Senac So Paulo.

o objetivo de manipul-los em outros ambientes. Esse processo feito


por meio de programas extratores que realizam a extrao e a inte-
grao de fontes de dados remotos e locais em um nico conjunto de
dados, evitando, dessa forma, a criao de arquivos intermedirios e,
consequentemente, a falha na integridade e na credibilidade dos dados
e de novos tratamentos dos dados. Em outras palavras, o componente
de extrao evita que a informao seja publicada com valores diferen-
tes do sistema-fonte, alm de oferecer conectores para diversas fontes
de dados, incluindo bancos de dados, arquivos e aplicaes externas.

O componente de transformao, por sua vez, realiza a transfor-


mao dos dados transacionais em formato dimensional. Ele est
constantemente em alterao tanto para atender incluso de novos
data marts como para adequar-se s mudanas dos sistemas-fonte.
Ressalta-se que qualquer que seja a estrutura em que os dados dos
sistemas-fonte se encontrem, eles sero trazidos pelo componente de
transformao para a estrutura do DW, se necessrio. Para facilitar essa
dinmica, importante que ele seja implementado com ferramentas
que apresentem interface grfica e viabilizem uma documentao tc-
nica mais precisa e integrada.

Por fim, o componente de carga encerra o processo realizando a


carga dos dados transformados no banco de dados do DW. Como ele
alimentado periodicamente a partir dos sistemas-fontes, natural que
mudanas nesses sistemas impactem o DW.

4 Data discovery
Em um ambiente ideal de BI, 80% das demandas de anlise de dados
deveriam ser conduzidas pelos prprios usurios de negcio, deixan-
do nas mos dos profissionais de TI as aplicaes de BI corporativas.

Introduo cincia de dados 17


Entretanto, os relatrios com anlise de dados so raramente lidos ou

Material para uso exclusivo de aluno matriculado em curso de Educao a Distncia da Rede Senac EAD, da disciplina correspondente. Proibida a reproduo e o compartilhamento digital, sob as penas da Lei. Editora Senac So Paulo.
simplesmente no utilizados, gerando desperdcio de trabalho dos pro-
fissionais de TI, que poderiam estar desempenhando atividades com-
plexas e de misso crtica (EVELSON, 2012).

Sendo assim, h a necessidade de se construir solues que per-


mitem ao cientista de dados elaborar anlises a partir dos dados. As
anlises mais sofisticadas podem trazer grande valor para o negcio.
Por exemplo, um relatrio que mostra um cliente que deseja cancelar
um servio e que indica quais mudanas podem ser feitas para mant-
-lo mais interessante do que um relatrio que lista os clientes que a
organizao j perdeu.

O data discovery (ou, em traduo livre para o portugus, descoberta


de dados), ou simplesmente DD, tem o objetivo de responder perguntas
que o usurio ainda no conhece, valorizando o potencial dos dados e
de anlise dos profissionais de negcio. Para isso, algumas atividades
so realizadas em ambientes corporativos por diferentes papis. O ana-
lista de sistemas prepara as fontes de dados para que o analista de
negcio as valide e construa as primeiras visualizaes que sero evo-
ludas pelo cliente. A parceria entre os especialistas de TI e de negcio
essencial.

Assim, o DD d mais autonomia ao usurio final e, consequente-


mente, a desonerao dos departamentos de TI (EVELSON, 2012). Com
isso, as solues de DD podem despertar a curiosidade natural das pes-
soas, sugerindo novas perguntas e hipteses ao negcio e a descoberta
de novos conhecimentos, padres e desvios (ou anomalias), levando a
decises bem informadas.

Segundo (EVELSON, 2012), as ferramentas de DD devem ter as se-


guintes caractersticas fundamentais:

18 Administrao do Big Data


Conhecimento: capacidade analtica para os conhecedores do
Material para uso exclusivo de aluno matriculado em curso de Educao a Distncia da Rede Senac EAD, da disciplina correspondente. Proibida a reproduo e o compartilhamento digital, sob as penas da Lei. Editora Senac So Paulo.

negcio por meio de descoberta e anlise de contexto. A ferra-


menta deve permitir a criao e o compartilhamento de visualiza-
es, relatrios e painis interativos (dashboards), possibilitando
a colaborao dos usurios.

Autonomia: maior autonomia para o usurio final na medida em


que mais fcil criar grficos e painis grficos que reagem a
cada clique ou seleo do usurio e apresentam visualizaes at
ento no imaginadas por ele. Para tanto, a ferramenta deve con-
ter interface grfica fcil, intuitiva e voltada ao usurio final, o qual
no ser necessariamente um especialista em TI.

Descoberta: gerao de novas visualizaes integradas quando


o usurio interage com um grfico do painel; consequentemente,
os outros grficos so atualizados para um novo contexto. Para
tanto, as ferramentas devem suportar a anlise visual, a fim de
possibilitar a descoberta de tendncias e excees significativas
no negcio, a livre explorao dos dados em qualquer nvel de
detalhe por meio de filtros dinmicos e a capacidade de efetuar
quaisquer combinaes.

Resultado: garantia de agilidade nas solues e oferecimento de


certo grau de independncia da TI, sendo uma espcie de self-ser-
vice BI, sem a necessidade da criao de modelos complexos de
dados. Em outras palavras, o objetivo principal a desonerao
dos departamentos de TI. Para tanto, as ferramentas devem per-
mitir a portabilidade das visualizaes, oferecendo aplicaes-
-clientes para as plataformas desktop e mobile (tablets e smart-
phones) e tendo um motor otimizado de manipulao dos dados
em memria (in-memory engine).

Introduo cincia de dados 19


Consideraes finais

Material para uso exclusivo de aluno matriculado em curso de Educao a Distncia da Rede Senac EAD, da disciplina correspondente. Proibida a reproduo e o compartilhamento digital, sob as penas da Lei. Editora Senac So Paulo.
Este captulo apresentou o conceito e um breve histrico da cincia
de dados, alm de algumas tcnicas relacionadas ao processo de an-
lise de dados e de tomada de deciso.

O volume de dados gerado nos domnios corporativos tem cresci-


do de forma incrivelmente rpida. Esses dados produzidos superam,
em muito, a capacidade de anlise das tradicionais ferramentas OLTP.
Nesse contexto, novas tcnicas so necessrias para projetar os siste-
mas de apoio deciso.

Por fim, ressalta-se que no existe uma soluo nica para Big Data.
As tcnicas apresentadas neste captulo so complementares: o DW
adequado a negcios com maior previsibilidade, com amplo domnio
sobre as informaes ou com muitas regras j estabelecidas, enquanto
o DD indicado em situaes de auditorias, fiscalizaes e anlises
de tendncia, dando maior flexibilidade e autonomia ao usurio nas
anlises.

Referncias
BARBIERI, Carlos. BI2-Business intelligence: modelagem e qualidade. So
Paulo: Elsevier Campus, 2012.

CHU, Wesley W. Data mining and knowledge discovery for Big Data: methodolo-
gies, challenge and opportunities. New York: Springer-Verlag, 2013.

EVELSON, Boris. The forrester wave: self-service business intelligence platforms,


Q2 2012. Relatrio tcnico. Forrester. Junho, 2012. Disponvel em: <http://www.
sas.com/content/dam/SAS/en_us/doc/analystreport/forrester-wave-self-
service-105855-0612.pdf>. Acesso em: 24 out. 2016.

HEY, Tony; TANSLEY, Stewart; TOLLE, Kristin M. The fourth paradigm: data-
intensive scientific discovery. Redmond: Microsoft Research, 2009.

20 Administrao do Big Data


KIMBALL, Ralph; CASERTA, Joe. The data warehouse ETL toolkit: practical
Material para uso exclusivo de aluno matriculado em curso de Educao a Distncia da Rede Senac EAD, da disciplina correspondente. Proibida a reproduo e o compartilhamento digital, sob as penas da Lei. Editora Senac So Paulo.

techniques for extracting, cleaning, conforming, and delivering data. Hoboken:


Wiley, 2004.

NATURE. Big Data: science in the petabyte era. Nature international weekly
journal of science, n. 7209, vol. 455, p. 1-136, 2008. Disponvel em: <http://www.
nature.com/nature/journal/v455/n7209/>. Acesso em: 24 out. 2016.

TURBAN, Efraim; SHARDA, Ramesh; ARONSON, Jay E.; KING, David. Business
intelligence: um enfoque gerencial para a inteligncia do negcio. Porto Alegre:
Bookman, 2009.

Introduo cincia de dados 21


22
Administrao do Big Data
Material para uso exclusivo de aluno matriculado em curso de Educao a Distncia da Rede Senac EAD, da disciplina correspondente. Proibida a reproduo e o compartilhamento digital, sob as penas da Lei. Editora Senac So Paulo.