Você está na página 1de 35

Texto da disciplina: ...............................................................................

3
Fundamentos e Projetos de Big Data.................................................... 3
Como surgiu e o que é Big Data .................................................................... 3
Processo de Tomada de Decisão ................................................................... 6
Os cinco V’s do Big Data (5 V’s) .................................................................... 7
Gestão do Conhecimento em Big Data ......................................................... 10
Gestão do Conhecimento em ambiente Big Data .......................................... 12
Projetos de Big Data ................................................................................... 13
Armazenamento de Dados em projetos de Big Data ..................................... 20
Vamos falar um pouco de MapReduce e Hadoop .......................................... 22
Variedade e Veracidade .............................................................................. 23
Variedade .................................................................................................. 23
Veracidade ................................................................................................. 24
Atomicidade, Consistência, Isolamento e Durabilidade .................................. 24
Conectividade e Internet das Coisas ............................................................ 27
E o que é IoT (Internet das coisas) ............................................................. 28
Conclusão .................................................................................................. 31
Bibliografia ................................................................................................. 33
Texto da disciplina
Fundamentos e Projetos de Big Data

Como surgiu e o que é Big Data

Este texto tem como finalidade introduzir os conceitos da tecnologia de Big


Data e sua utilização em projetos, bem como seu armazenamento e tratamento
de grande volume de dados que as organizações possuem hoje para tomadas
de decisão.

É certo que, com o desenvolvimento das redes digitais, o fluxo de informações


tende a aumentar, mas é preciso saber aplicá-lo de forma criativa na resolução
dos problemas sociais.

O salto qualitativo ocorre quando a informação torna-se significativa.

Existe uma quantidade gigantesca de informações que circula pela internet (e


pelas redes sociais virtuais por extensão) todos os dias.

Até o início da década de 1990 as páginas da web ainda eram bastante


estáticas e existia, uma concepção de busca que já não é mais válida hoje.

Em pouco tempo, a necessidade de busca transformou-se em necessidade de


gerenciamento de informação. A rede oferece um enorme contingente
informacional que nem sempre alcança o auge de sua utilização. A concepção
de mineração de dados nasce justamente com a ideia de conseguir garimpar,
na rede, dados importantes com alto valor informacional.

Nesse sentido, o conceito de Big Data surge como um novo horizonte para
entender o mundo da informação e auxiliar, de forma incisiva, a tomada de
decisões.

A tecnologia de Big Data não diz respeito à quantidade de dados e sim ao


gerenciamento estratégico destes, visando oferecer informações detalhadas
para cada situação específica.
Trata-se de uma nova forma de olhar para a informação proporcionada pela
tecnologia. Dados que, a “olho nu” não expressam muita relevância, podem se
tornar significativos se examinados em contextos específicos.

Big Data tem, no entanto, seus riscos tanto éticos quanto políticos.
Recentemente, descobriu-se que o Brasil tinha grande fluxos informacionais
monitorados pelos Estados Unidos.

O objetivo de tal monitoramento era justamente conhecer as práticas atuais


(tanto do ponto de vista político quanto econômico, social entre outros) para
prever as futuras.

Os dados oriundos de Big Data são, ainda assim, modelos matemáticos que
visam simplificar uma situação complexa e dar organização ao que
aparentemente está disperso.

Eles são úteis para a compreensão contextual e aprofundada, mas têm seus
limites. Os modelos matemáticos são baseados em estudo e cruzamento de
dados referentes a gostos, opções políticas, etc.

O termo Big Data em si não prioriza aspectos qualitativos e sim quantitativos,


traduzidos por “Big”.

Ademais, a utilização do Big Data também deve ser realizada pensando nas
questões éticas envolvidas, pois o fato de um determinado dado estar
disponível para uso não faz com que seu uso seja ético.

Utilizar a tecnologia do Big Data para conhecer as pessoas, quer sejam


colaboradores, clientes, etc. e melhor relacionar-se com elas é um dos maiores
desafios dos gestores.

Quando as organizações, “analisa os cenários, identifica os públicos estratégicos


e dá tratamento diferenciado a cada um deles, age em sintonia com o modelo
de gestão organizacional e estabelece simetria no processo comunicacional”.
As informações de caráter quantitativo, obtidas com o Big Data, podem ser
analisadas qualitativamente pelas organizações, seja para enriquecer o
aprendizado coletivo do público interno das organizações, seja para contribuir
com o alcance dos objetivos e metas.

O grande diferencial do uso dessa tecnologia é transformar dados


quantitativos em qualitativos.

As empresas deverão, então, criar estratégias para definir como lidar com
grande volume de dados e analisar as informações úteis, visto que o
desempenho das organizações no mercado será definido a partir da forma com
que as mesmas irão trabalhar com esse volume e essa variedade de
informações e com a velocidade que elas surgem e se disseminam.

A competição por uma fatia de mercado é bem acirrada, portanto a velocidade


na tomada de decisão e a segurança ao fazer a devida opção são critérios
fundamentais para o sucesso da organização no mercado.

Logo, torna-se relevante que os administradores e os tomadores de decisão


saibam gerenciar esse volume e essa variedade de dados para que possam
filtrar e tirar proveito das informações que são úteis e importantes aos seus
negócios (valor e veracidade), fazendo as opções de forma rápida (velocidade)
e precisa.

Tomadas de decisão baseadas em evidências (também conhecido como Big


Data) não é apenas a última moda, é o futuro de como vamos orientar e fazer
crescer o negócio.

É fundamental conhecer o que é Big Data e suas dimensões para atingir os


benefícios, pois excesso de confiança pode levar a pontos cegos na tomada de
decisão ou a enxergar uma mudança fundamental nas tendências de mercado.

As empresas de hoje devem ter consciência do aumento do volume, velocidade


e variedade de dados, mantendo a eficiência operacional e de custos.

Como consequência, o processo de decisão desses gestores poderá sofrer


alterações, ajustando-se a realidade do mercado e aproveitando as
oportunidades disponíveis.
Processo de Tomada de Decisão

É natural que estudar a concorrência e o mercado façam parte de nossas


rotinas e de nossa tática de jogo: nossas empresas já possuem uma série de
dados que são gerados diariamente através dos sistemas de ERP, Gestão de
Pessoas, CRM – que controlam a operação – e que são armazenados
normalmente em banco de dados estruturados.

Estes dados possuem um grande Valor que normalmente são pouco ou nada
explorados.

Grande parte das empresas que conheço ainda toma decisões baseadas na
extração dos dados operacionais.

Dados estes que são transferidos para relatórios e planilhas e que levam horas
e até dias para serem gerados, tornando a informação pouco confiável e,
muitas vezes, chegando tarde para a tomada de decisão, não gerando nenhum
painel de informações com os principais indicadores da empresa.

Bazerman e Moore (2010) estruturam e simplificam o processo “racional” de


tomada de decisão em seis etapas:

- Definir o problema;
- Identificar os critérios;
- Ponderar os critérios;
- Gerar alternativas;
- Classificar cada alternativa segundo cada critério;
- Identificar a solução ideal.

O processo de tomada de decisão não é puramente racional, ele sofre


influências diretas e indiretas, conscientes e inconscientes de fatores subjetivos,
que alteram a forma de ver, de pensar, de analisar e de decidir do responsável
pela decisão (Nonohay 2012).
Os cinco V’s do Big Data (5 V’s)

A proposta de uma solução de Big Data é oferecer uma abordagem consistente


no tratamento do constante crescimento e da complexidade dos dados. Para
tanto, o conceito considera os 5 V’s do Big Data: o Volume, a Velocidade, a
Variedade, a Veracidade e o Valor.

 Volume: O conceito de volume no Big Data é melhor evidenciado pelos


fatos do quotidiano: diariamente, o volume de troca de e-mails,
transações bancárias, interações em redes sociais, registro de chamadas
e tráfego de dados em linhas telefônicas. Todos esses servem de ponto
de partida para a compreensão do volume de dados presentes no mundo
atualmente.

Estima-se que atualmente o volume total de dados que circulam na internet é


de 250 Exabytes (1018 bytes) por ano. (Inmoment, 2014).

Todos os dias são criados 2,5 quintilhões de bytes em forma de dados,


atualmente 90% de todos os dados que estão presentes no mundo foram
criados nos últimos 2 anos (IBM).

É importante também compreender que o conceito de volume é relativo à


variável tempo, ou seja, o que é grande hoje, pode não ser nada amanhã.
(Ohlhorst, 2012);

 Velocidade: Você cruzaria uma rua vendada se a última informação que


tivesse fosse uma fotografia tirada do tráfego circulante de 5 minutos
atrás? Provavelmente não, pois a fotografia de 5 minutos atrás é
irrelevante, você precisa saber das condições atuais para poder cruzar a
rua em segurança. (Forbes, 2012). A mesma lógica se aplica a empresas,
pois necessitam de dados em atuais sobre seu negócio, ou seja,
velocidade.
 Segundo Taurion (2014) a importância da velocidade é tamanha que em
algum momento deverá existir uma ferramenta capaz de analisar os
dados em tempo real. Atualmente, os dados são analisados somente
após serem armazenados, mas o tempo gasto para o armazenamento
em si já desclassifica esse tipo de análise como uma análise 100% em
tempo real. Informação é poder (The Guardian, 2010), e assim sendo a
velocidade com a qual você obtém essa informação é uma vantagem
competitiva das empresas. Velocidade pode limitar a operação de muitos
negócios, quando utilizamos o cartão de crédito, por exemplo, se não
obtivermos uma aprovação da compra em alguns segundos
normalmente pensamos em utilizar outro método de pagamento. É a
operadora perdendo uma oportunidade de negócios pela falha na
velocidade de transmissão e análise dos dados do comprador;

 Variedade: O volume é apenas o começo dos desafios dessa nova


tecnologia, se temos um volume enorme de dados, também obtemos a
variedade dos mesmos. Já pensou na quantidade de informações
dispersas em redes sociais? Facebook, Twitter entre outros possuem um
vasto e distinto campo de informações sendo ofertadas em público a
todo segundo. Podemos observar a variedade de dados em e-mails,
redes sociais, fotografias, áudios, telefones e cartões de crédito. (McAffe
et al, 2012). Seja qual for a discussão, podemos obter infinitos pontos de
vista sobre a mesma. Empresas que conseguem captar a variedade, seja
de fontes ou de critérios, agregam mais valor ao negócio (Gartner). O
Big Data escalona a variedade de informações das seguintes formas
(Jewell, Dave et al):

o Dados estruturados: são armazenados em bancos de dados,


sequenciados em tabelas;

o Dados semiestruturados: acompanham padrões heterogêneos, são mais


difíceis de serem identificados, pois podem seguir diversos padrões;

o Dados não estruturados: são misturas de dados com fontes


diversificadas como imagens, áudios e documentos online.
Dentre essas três categorias, estima-se que até 90% de todos os dados no
mundo estão a forma de dados não estruturados. (ICD, 2011);

 Veracidade: Um em cada três líderes não confiam nos dados que


recebem (IBM). Para colher bons frutos do processo do Big Data são
necessários obter dados verídicos, de acordo com a realidade. O conceito
de velocidade, já descrito, é bem alinhado ao conceito de veracidade
pela necessidade constante de análise em tempo real, isso significa
dados que condizem com a realidade daquele momento, pois dados
passados não podem ser considerados dados verídicos para o momento
em que é analisado. A relevância dos dados coletados é tão importante
quanto o primeiro conceito. A verificação dos dados coletados para
adequação e relevância ao propósito da análise é um ponto chave para
se obter dados que agreguem valor ao processo. (Hurwitz, Nugent,
Halper & Marcia Kaufman);

 Valor: Quanto maior a riqueza de dados, mais importante é saber


realizar as perguntas certas no início de todo processo de análise
(Brown, Eric, 2014). É necessário estar focado para a orientação do
negócio, o valor que a coleta e análise dos dados trarão para o negócio.
Não é viável realizar todo o processo de Big Data se não se tem
questionamentos que ajudem o negócio de modo realístico. Da mesma
forma é importante estar atento aos custos envolvidos nessa operação, o
valor agregado de todo esse trabalho desenvolvido, coleta,
armazenamento e análise de todos esses da/dos tem que compensar os
custos financeiros envolvidos (Taurion, 2013).
Gestão do Conhecimento em Big Data

O conhecimento é a única forma de garantir a sobrevivência. Isso quer dizer


que aprendemos para sobreviver às ameaças do ambiente.

Isso é igualmente verdadeiro quer estejamos falando do aprendizado das


espécies para sobreviver às ameaças do seu ambiente natural ou do
aprendizado de membros de uma organização para perpetuar no seu ambiente
de atuação.

Todas as espécies fazem isso, através da adaptação que é a forma básica do


aprendizado, mas a espécie humana é a única que além de se adaptar, faz
previsões e tenta controlar seu ambiente.

Nesse contexto, controlar será sempre a ação de resolver problemas que


ameaçam a sobrevivência.

Na tentativa de melhorar a eficiência dessa habilidade natural da espécie


humana, muitas organizações praticam a chamada Gestão do Conhecimento
(GC).

Resumidamente a Gestão do Conhecimento é um conjunto de processos


organizacionais que consistem em obter, acumular e interpretar informações
para construir, disseminar e integrar conhecimentos que possam ser aplicados
na solução de problemas.

Vista como um processo produtivo, a Gestão do Conhecimento transforma


informações em soluções.

Informação Conhecimento Solução

- obter - construir - prescrever


- acumular - disseminar
- interpretar - integrar

A informação é um conteúdo que foi organizado a partir do discernimento de


padrões do que é observado.
O primeiro esforço da GC para agregar valor a esse conteúdo é garantir o
acesso a ele (obter a informação) e incrementar sua quantidade e diversidade
(acumular). Em seguida a informação ganha significado e relevância a partir da
interpretação que se dá a ela.

Nesse ponto teremos uma informação qualificada.

Para transformar informações em conhecimento, o esforço exercido é o de


relacioná-las com a experiência das pessoas.

Nas organizações o conhecimento é algo que pode ser aplicado em algum tipo
de sistema produtivo.

Portanto ele só existe quando gera prescrições que possam transformar uma
situação existente em uma situação desejada.

Essas prescrições visam dar apoio a outro processo muito relevante nas
organizações: a tomada e decisão.

Podemos então dizer que a informação é a base do conhecimento, e que este é


a base da ação.

Portanto, o maior indicador de sucesso de um projeto de GC está nos objetivos


alcançados pela organização.

Qual a importância de se pensar a Gestão do Conhecimento em ambiente Big


Data? Inicialmente é forçoso reconhecer que a identificação de padrões no que
é observado ao nosso redor (informação) está cada vez mais sendo feita de
modo digital, gerando uma grande quantidade de dados.

Ou seja, estamos vivenciando um processo progressivo de dataficação da


sociedade.

O impacto desse fenômeno começou a ser percebido na última década e a


relevância desse impacto pode ser explicada resumidamente da seguinte
maneira: Dados digitais só podem integrar uma única cadeia produtiva: a de
conhecimento. Isso significa que é esperada uma explosão na quantidade e
efetividade do principal produto do conhecimento: solução.
Por tudo o que foi dito acima, acreditamos que a GC continuará sendo a
principal força atuante em um projeto bem sucedido em Big Data.

A importância de pensar a gestão do conhecimento especificamente em


ambiente Big Data é que esse processo apresenta algumas especificidades
nesse ambiente que não devem ser desprezadas.

A primeira, e mais evidente, é que GC em Big Data terá suas ferramentas


fortemente apoiadas em Tecnologia da Informação (TI).

Gestão do Conhecimento em ambiente Big Data

Dados Informação Conhecimento Solução


- captar - obter - construir -
prescrever
- indexar - acumular - disseminar
- integrar - interpretar - integrar
- segurar
- compartilhar

Em TI a gestão de dados é chamada de governança de dados e inclui todas as


atividades necessárias para gerar e disponibilizar os dados para utilização:
captação, armazenagem, indexação, integração, segurança e
compartilhamento.

O profissional de GC não terá que se apropriar dos conhecimentos de TI que


asseguram a governança de dados, mas terá que compreender que, no
ambiente Big Data, a qualidade da informação que ele terá dependerá
diretamente do modelo de governança utilizado.

A GC em ambiente Big Data é semelhante à já praticada em outros ambientes.


O último valor gerado é a solução de um problema e isso só é feito a partir de
uma tomada de decisão que é uma competência humana indelegável.
O desafio da gestão do conhecimento de transformar as melhores informações
nas melhores decisões receberá um reforço incontestável da tecnologia da
informação, mas em última instância continua sendo um desafio humano.

Projetos de Big Data

O que você precisa saber. Antes de falarmos sobre as especificidades do seu


próprio projeto, veja algumas questões que a maioria dos profissionais que
estão trabalhando com Big Data gostaria de ter ficado sabendo antes de
começarem seus projetos.

Como a maioria dos projetos de Big Data falha por falta de clareza e devido à
incapacidade de demonstrar a funcionalidade da iniciativa, você mesmo deve se
responsabilizar por isso para trazer foco e comprovação ao seu projeto.
Seguem três dicas úteis para garantir que o seu projeto já comece dando certo
e continue em operação.

 Defina objetivos claros e administre as expectativas

Se a sua organização já precisa de dados para determinados


processos de negócios (como detecção de fraudes ou análise de
mercado), pense em como Big Data pode melhorar ou valorizar
esses processos. Sem um foco claro e um valor perceptível aos
usuários de negócios, o projeto estará condenado ao fracasso.

 Defina as métricas que comprovam o valor do projeto

Métricas claramente definidas e que se ajustem aos objetivos


podem evitar uma grande quantidade de problemas.

Pergunte a si mesmo como você pode medir o impacto do seu projeto no


contexto das suas metas.
 Seja estratégico sobre ferramentas e codificação manual

Adote ferramentas que possam aumentar a produtividade da equipe de


desenvolvimento por meio do aproveitamento das habilidades e do
conhecimento da qualidade dos seus dados.

Como seria o projeto certo.

Se você está pensando em um projeto tático e específico, que pode ser


adaptado posteriormente para a empresa como um todo, está correto, e
estes quatro componentes são importantes:

 Valor demonstrável

O projeto certo é aquele em que o valor é compartilhado de maneira


igual entre a TI e a unidade de negócio que você está tentando ajudar,
isso significa proporcionar um valor claro para um departamento, uma
unidade de negócio ou um grupo, de forma que eles possam ver.

 Patrocínio

Os projetos de Big Data precisam de defensores e patrocinadores


em altos cargos, que estejam dispostos a defender o trabalho que
você está fazendo.

 Um efeito de jogo de boliche

A importância estratégica do seu projeto tático é vital. Além de


provar, sem sombra de dúvida, que Big Data pode ajudar a
unidade de negócio que você está apoiando, é bom se certificar
de que o valor possa ser comunicado facilmente para a empresa
em geral.
 Habilidades transferíveis

É preciso se certificar de que você pode aprender as habilidades,


as capacidades e as lições certas do seu primeiro projeto. Mais
enfaticamente, é preciso garantir que tudo isso seja documentado
para que você possa transferir conhecimento para o próximo
projeto. Lembre-se, se a sua meta é o sucesso, então você já está
se preparando para futuros projetos.

Desafios para implantarmos um projeto de Big Data


Primeiro temos os desafios Estruturais, que é composto de:
 Codificação e dataficação: Será necessário o desenvolvimento
ou aprimoramento de metodologia para codificação de
informações e de tecnologia para captação de novos dados. Big
Data fundamenta-se em grande quantidade e variedade de dados
e tudo que puder ser dataficado ajudará no aprimoramento dos
modelos analíticos.
 Rede wi-fi: A disponibilidade e qualidade da rede de transmissão
de dados digitais ainda não consegue acompanhar a velocidade
da oferta de serviços móveis fundamentais na captação de dados.
 Armazenagem: Embora poucos apontem a armazenagem como
gargalo da cadeia produtiva do Big Data, destacamos o desafio da
constante ampliação do serviço já que não existe nenhuma
expectativa de desaceleração na geração de dados.
 Compartilhamento: Plataformas para compartilhamento de
dados serão cada vez mais comum. Vemos como desafio o
desenvolvimento de linguagens e interface mais acessíveis.
 Analítica: Nesse ponto da cadeia está o maior gargalo pela
escassez dos chamados cientistas de dados. Tecnicamente
falando, desenvolver modelos analíticos é um desafio porque cada
modelo é adequado a um problema em um determinado contexto
e porque precisa ser dinâmico para manter-se atualizado. Cada
modelo analítico pode ser considerado uma peça única e sua
efetividade tem que ser colocada à prova continuamente.
 Visualização de dados: Se o objetivo da analítica de dados é
empoderar o tomador de decisão, será fundamental o
desenvolvimento de soluções que deem aos dados uma forma de
apreensão fácil e adequada ao problema que se quer resolver. A
visualização eficaz das informações geradas pela analítica será
fator determinante para melhores decisões em menos tempo.

Em segundo temos os desafios Culturais, que é composto de:


 Apropriação do conceito: Em primeiro lugar, não apenas em
importância, mas também como pré-requisito para todos os demais
desafios que seguirão, está a compreensão de Big Data. O desafio é
percebê-lo não como uma solução em tecnologia da informação, mas
como um ativo que deve ser acionado para encontrar as melhores
soluções dentro do planejamento estratégico de uma instituição.
 Compartilhamento de dados: Sabemos que esses dados
diversificados são captados e controlados por diferentes agentes do
ecossistema e que seria de extrema ineficiência captar os mesmos
dados todas as vezes que eles fossem necessários. Diante dessas
constatações podemos afirmar que o compartilhamento de dados é
fundamental para a utilização efetiva de dados digitais. O grande
desafio do compartilhamento é mais que um problema de tecnologia.
 Propriedade de dados: Importância do reconhecimento de que o
valor do Big Data não está em possuir ou controlar os dados, mais no
valor que extrai da correlação entre diferentes dados.
 Colocar o ser humano no comando: Em concordância com a
curva de Gartner de adoção de tecnologia, destacamos como grande
desafio a formação de massa crítica para participar do debate sobre a
utilização de dados digitais como novo paradigma de conhecimento.
O desconhecimento faz com que Big Data seja, na maioria das vezes,
exageradamente enaltecido ou injustamente desqualificado.
Acreditamos que as duas posturas extremistas cometem o mesmo
erro na origem: não colocam o ser humano no comando. A primeira
será a responsável pela escalada vertiginosa ao pico das expectativas
porque cria a expectativa de que a tecnologia sozinha trará todas
soluções para nossos problemas. A segunda postura comandará a
queda livre em direção ao poço da desilusão atribuindo à tecnologia
todos os impactos negativos de sua adoção. Colocar o ser humano no
comando de qualquer projeto em Big Data é reconhecer que
nenhuma tecnologia pode prescindir da inteligência que deve agir não
apenas para alcançar os desejados fins, mas também para escolher
com responsabilidade os adequados meios.
 Design de redes: A falta de cientistas de dados e de profissionais
para tomar decisões a partir de modelos preditivos tem sido
destacada como gargalo por todas as empresas de consultoria no
assunto. No entanto identificamos outro desafio na formação
profissional para trabalhar com big data: a habilidade de ver e
desenhar redes complexas. Big data é um código digital de relações
que são os links de uma rede. Decifrar e utilizar as informações
contidas nesses códigos passa necessariamente por entender as
redes complexas onde estão os problemas que desejamos resolver.
Acreditamos que design de redes complexas será uma competência
necessária e valorizada para se trabalhar com Big Data.

 Privacidade: A polêmica questão da privacidade na utilização de


dados digitais precisará evoluir para o campo da ética para ser
resolvida. Antes, porém será preciso ficar clara a diferença entre
dados e informação. Dado é a representação física de um evento no
tempo e espaço que não agrega fundamento para quem o recebe,
não podendo ser possível entender o que ele representa ou para que
ele exista, porém, no momento que existir uma agregação com outro
dado ele passa a ser uma informação”. O pressuposto do Big Data é
que dados em grande quantidade de um determinado domínio
quando transportado para outro, gera informações (dados
agregados) e insights relevantes para a compreensão de fenômenos
que não podem ser explicados numa relação causa-efeito linear.
Afirmar que Big Data é sinônimo de perda de privacidade e
desconhecer o assunto ou tratá-lo de maneira antiética. Impedir que a
utilização inadequada dos dados digitais sejam considerada a prática
corrente de projetos Big Data é o maior desafio quando se fala em
privacidade.

 Metodologias: Gerar conhecimento sobre ambientes


complexos a partir de dados digitais exigirá novos processos.
Acreditamos que, independente da prontidão que setores e
áreas corporativas tenham para Big Data, as instituições
aumentarão seus investimentos em tecnologia da informação
nos próximos anos para avançar do estágio de onde se
encontram em relação ao Big Data. O primeiro desafio
metodológico será o de medir esse grau de prontidão. Ao
contrário do que se pensa estar pronto para análise de dados é
muito mais que ter dados, hardware, software e cientistas de
dados. Outro desafio metodológico será o de definir o problema
em um sistema complexo. Em qualquer contexto definir
adequadamente o problema é essencial para encontrar a
melhor solução que responda às condições humanas (desejo),
técnicas (possibilidade) e econômicas (viabilidade).

Em terceiro e último temos os desafios Estratégicos, que é composto de:


 Fraquezas-ameaças: O principal obstáculo tanto no ambiente
externo quanto no interno é a baixa compreensão do assunto,
essa deficiência tem como consequências o desconhecimento
da importância de compartilhar dados e o baixo investimento
em ferramentas e metodologias específicas para análise de
dados. No ambiente externo isso se manifesta na falta de
pressa da sociedade em exigir uma política pública de
normatização e investimento em infraestrutura e educação para
big data.

 Forças-ameaças: Outra ameaça à Big Data no Brasil é a baixa


qualidade e o alto custo da rede móvel de comunicação. Sendo
a mobilidade a principal força motora do Big Data pela
diversidade de dados de dinâmica humana que ela propicia,
essa ameaça terá forte impacto na expansão da base de dados.
Por outro lado, a base de dados existente e qualidade do setor
de TI são forças que podem ser usadas para reverter esse
quadro. O desafio é o desenvolvimento de projetos em análise
de dados de grande visibilidade e relevância para justificar o
investimento na melhoria da rede e a queda no custo
melhorando assim a penetração da rede em regiões e
segmentos da população onde o acesso ainda é restrito.
 Fraquezas-oportunidades: Apesar de apresentar muitas
ameaças,o Big Data, o Brasil oferece também condições para o
desenvolvimento de boas vantagens competitivas. A principal
delas diz respeito à rápida adesão da população a novas
tecnologias e processos fortemente dependentes dela. Esse
fator, somado à forte adesão às redes sociais e à participação
online e ao conceito de que inclusão digital é importante para a
inclusão social, geram as condições ideais para a geração
espontânea de dados de alta qualidade para análise preditiva
de comportamento humano e dinâmica social. O desafio aqui é
o desenvolvimento de plataformas para compartilhamento
desses dados.
 Forças-oportunidade: O quadrante onde forças e
oportunidades se encontram só são desafios até o momento do
seu reconhecimento. A partir daí torna-se natural o caminho de
associar esses fatores positivos para ganhar vantagem
competitiva em algumas áreas específicas do Big Data.
As condições de geração espontânea de dados digitais citadas
no item anterior, associadas à alta capacidade de
armazenagem e segurança dos dados e ao bom
desenvolvimento do setor de TI colocam o Brasil em posição
privilegiada na parte inicial da cadeia de valor de Big Data:
desenvolvimento de métodos de codificação, de dispositivos,
sensores e serviços para dataficação de informações
importantes.
O desafio na parte alta da cadeia de valor é transformar o
interesse dos tomadores de decisão e capacidade de articulação
para o desenvolvimento de novos modelos de negócio,
metodologias e indicadores de sucesso para ambiente Big Data.

Armazenamento de Dados em projetos de Big Data

Uma série de desafios vem à tona quando o volume de dados excede os


tamanhos convencionais, quando esses dados são variados (diferentes fontes,
formatos e estruturas) e são recebidos em uma velocidade maior do que a
capacidade de processamento.

Quando se deseja realizar processamento de linguagem natural de um texto


muito grande a fim de realizar análises estatísticas do texto, o processamento e
memória necessários excede a capacidade de computadores pessoais
convencionais.

Ou seja, os recursos de hardware (como a memória RAM, por exemplo) não


comportam o volume dos dados.

A velocidade do processamento, armazenamento, leitura e transferência de


dados nos barramentos, frequentemente fazem com que apenas extratos
(amostras) dos dados sejam analisados o que não permite que todos os
detalhes daquele conjunto de dados sejam observados.
O que se deseja é estudar as bases de dados por completo, não apenas uma
amostra, ou ao menos aumentar as amostras o máximo possível.

A necessidade de novas técnicas e ferramentas é reforçada pelo atual interesse


em se empregar técnicas de análises que excedam as técnicas tradicionais.

Extrair conhecimento a partir de grandes massas de dados é de fato desafiador,


pois os dados são heterogêneos em sua representação e formato, além de
apresentarem conteúdo multidisciplinar.

As soluções de Big Data também têm como objetivo tratar dados brutos,
heterogêneos com e sem estrutura e sem padrão de formatação.

Apesar dos bancos de dados convencionais apresentarem bons desempenhos


no tratamento de dados estruturados e semiestruturados, as análises no
contexto de Big Data requerem um modelo iterativo (de consultas recursivas)
para análise de redes sociais e emprego de técnicas de clusterização.

O desafio do processamento dos grandes volumes de dados está relacionado a


três aspectos: armazenamento dos dados na memória principal, a grande
quantidade de iterações sobre os dados e as frequentes falhas (diferente dos
bancos de dados convencionais onde as falhas são tratadas como exceções, no
contexto de Big Data, as falhas são regras).

O processamento intensivo e iterativo dos dados excede a capacidade individual


de uma máquina convencional.

Nesse contexto, clusters (arquiteturas de aglomeração) computacionais


possibilitam a distribuição das tarefas e processamento paralelo dos dados.

Em alguns cenários, não será possível processar e armazenar todos os dados.

Nesse caso, é possível utilizar técnicas de mineração de dados para manipular


os dados, sumarizando-os, extraindo conhecimento e fazendo predições sem
intervenção humana visto que o volume dos dados, seus tipos e estruturas não
permitem tal intervenção.

Muitas empresas têm apresentado requisitos de gerenciar e analisar grande


quantidade de dados com alto desempenho.
Esses requisitos estão se tornando cada vez mais comuns aos trabalhos de
análise de redes sociais [DiFranzo et al. 2013].

Diferentes soluções têm surgido como proposta para esses problemas.

Dentre as propostas, destaca-se o paradigma MapReduce implementado pelo


Hadoop, o qual permite o processamento distribuído de grandes conjuntos de
dados em clusters de computadores.

Vamos falar um pouco de MapReduce e Hadoop

O Hadoop é uma plataforma open source desenvolvida especialmente para


processamento e análise de grandes volumes de dados, sejam eles
estruturados ou não estruturados.

O projeto é mantido pela Apache Foundation, mas conta com a colaboração de


várias empresas, como Yahoo!, Facebook, Google e IBM.

Pode-se dizer que o projeto teve início em meados de 2003, quando o Google
criou um modelo de programação que distribui o processamento a ser realizado
entre vários computadores para ajudar o seu mecanismo de busca a ficar mais
rápido e livre da necessidade de servidores poderosos (e caros).

Esta tecnologia recebeu o nome de MapReduce.

O Hadoop é tido como uma solução adequada para Big Data por vários
motivos:

– É um projeto open source, como já informado, fato que permite a sua


modificação para fins de customização e o torna suscetível a melhorias
constantes graças à sua rede de colaboração.

– Proporciona economia, já que não exige o pagamento de licenças e suporta


hardware convencional, permitindo a criação de projetos com máquinas
consideravelmente mais baratas;

– O Hadoop conta, por padrão, com recursos de tolerância a falhas, como


replicação de dados;
– O Hadoop é escalável: havendo necessidade de processamento para suportar
maior quantidade de dados, é possível acrescentar computadores sem
necessidade de realizar reconfigurações complexas no sistema.

MapReduce é um modelo de programação proposto pelo Google


para facilitar o processamento de grandes volumes de dados (Big Data).

A partir de um paradigma inspirado em primitivas de programação funcional, foi


criado um framework que permitisse a manipulação de grande volume de
dados de forma paralela e distribuída, além de prover tolerância à falha,
escalonamento de I/O e monitoramento.

Um grande número de aplicações reais podem ser expressas nesse modelo de


programação.

Variedade e Veracidade
Estes dois V’s que já citamos anteriormente são importantíssimos para o
projeto de Big Data, pois temos um volume enorme de dados, de variadas
fontes, porém temos que ter certeza se quais dados realmente necessitamos e
se estes são verídicos, pois trabalhar com dados incorretos para tomadas de
decisões, deixa a organização totalmente vulnerável e sem credibilidade.

Variedade

O aspecto mais desafiador do Big Data é a grande variedade de formatos e


estruturas que você terá que conciliar em suas análises.

Será preciso integrar várias fontes se quiser incluir novos tipos e estruturas de
dados (sociais, sensores, vídeo) às fontes com as quais você já está
acostumado (relacionais, mainframes legados).

Tentar codificar manualmente cada integração é tão complicado que poderia


consumir todo o tempo e os recursos disponíveis.

Aproveite ao máximo as ferramentas de integração e qualidade de dados


disponíveis para acelerar o processo para tarefas mais importantes.
Veracidade
Não importa o grau de importância de suas análises, elas não valerão nada se
as pessoas não puderem confiar razoavelmente nos dados que conseguirem.

Quanto mais dados você analisar, mais importante será manter um alto nível de
qualidade dos dados.

Para que os dados sejam adequados à finalidade, você precisa conhecer essa
finalidade.

Se um especialista de dados estiver procurando padrões em dados agregados


do cliente, a preparação necessária será mínima.

Por outro lado, os dados de relatórios financeiros e da cadeia de suprimentos


deverão ser altamente editados, limpos e certificados para obter precisão e
conformidade.

Crie categorias baseadas na quantidade de preparação necessária, o que


abrange desde dados brutos até um repositório de dados mestres altamente
editado, contendo dados limpos, confiáveis e fidedignos.

Como já vimos anteriormente com grande volume de dados, então é


fundamental que você seja capaz de verificar os dados baseados tanto em
precisão quanto em contexto.

Atomicidade, Consistência, Isolamento e Durabilidade

O Big Data também precisa trabalhar com distribuição de processamento


e elasticidade, isto é, suportar aplicações com volumes de dados que crescem
substancialmente em pouco tempo.

O problema é que os bancos de dados “tradicionais”, especialmente aqueles


que exploram o modelo relacional, como o MySQL, PostgreSQL e o Oracle, não
se mostram adequados a estes requisitos, por serem menos flexíveis.
Isso acontece porque bancos de dados relacionais normalmente se baseiam em
quatro propriedades que tornam a sua adoção segura e eficiente, razão pela
qual soluções do tipo são tão populares: Atomicidade, Consistência, Isolamento
e Durabilidade. Esta combinação é conhecida como ACID, sigla para o uso
destes termos em inglês: Atomicity, Consistency, Isolation e Durability. Vejamos
uma breve descrição de cada uma:

 Atomicidade: toda transação deve ser atômica, isto é, só pode ser


considerada efetivada se executada completamente;

 Consistência: todas as regras aplicadas ao banco de dados devem ser


seguidas;

 Isolamento: nenhuma transação pode interferir em outra que esteja


em andamento ao mesmo tempo;

 Durabilidade: uma vez que a transação esteja concluída, os dados


consequentes não podem ser perdidos.

O problema é que a elasticidade, por exemplo, pode ser inviabilizada pela


atomicidade e pela consistência.

É neste ponto que entra em cena o conceito de NoSQL, denominação atribuída


à expressão em inglês “Not only SQL“.

O NoSQL faz referência às soluções de bancos de dados que possibilitam


armazenamento de diversas formas, não se limitando ao modelo relacional
tradicional.

Bancos deste tipo são mais flexíveis, sendo inclusive compatíveis com um grupo
de premissas que “compete” com as propriedades ACID: aBASE (Basically
Available, Soft state, Eventually consistency – Basicamente disponível, Estado
Leve, Eventualmente consistente).
A escolha do banco NoSQL adequado para uma determinada aplicação não é
trivial, alguns fatores importantes devem ser levados em consideração nesta
escolha:

1. Escalabilidade;

2. Desempenho;

3. Disponibilidade;

4. Facilidade de uso.

Os bancos de dados relacionais não ficaram ultrapassados, eles são e


continuarão por muito tempo sendo úteis a uma série de aplicações.

O que acontece é que, geralmente, quanto maior um banco de dados se torna,


mais custoso e trabalhoso ele fica: é preciso otimizar, acrescentar novos
servidores, empregar mais especialistas em sua manutenção, etc.

Todos que trabalhamos com desenvolvimento ou alguns que somos mais


especializados em banco, sabemos o quão custoso uma base de dados pode se
tornar.
Via de regra, escalar (torná-lo maior) um banco de dados NoSQL é mais fácil e
menos custoso. Isso é possível porque, além de contar com propriedades mais
flexíveis, bancos do tipo já são otimizados para trabalhar com processamento
paralelo, distribuição global (vários data centers), aumento imediato de sua
capacidade e outros. Mas a distribuição global é algo que chama muito a
atenção para não centralizarmos dados em um único data center, ou termos
que ficar virando chaves para contenções.

Há mais de uma categoria de banco de dados NoSQL, fazendo com que


soluções do tipo possam atender à grande variedade de dados que existe, tanto
estruturados, quanto não estruturados: bancos de dados orientados a
documentos, bancos de dados chave/valor, bancos de dados de grafos, etc. É
necessário também contar com ferramentas que permitam o tratamento dos
volumes. Neste ponto, o Hadoop é, de longe, a principal referência.

Conectividade e Internet das Coisas

O Big Data ajuda empresas de diversos segmentos a superar problemas


específicos para fornecer melhores serviços para o seu público e clientes.

Em pouco tempo a conectividade permitirá que as empresas deem passos


maiores usando inteligência, internet e a ampla disponibilidade de dados.

Afinal, a ampla conectividade não apenas mudará a forma como vivemos, mas
gerará uma quantidade imensa de informações que se analisadas de forma
precisa e inteligente poderão gerar grandes potenciais competitivos.

O auge da cloud se relaciona com outras duas tendências predominantes de TI:


o Big Data e a Internet das Coisas (IoT) que, em conjunto, são conhecidos
como a “Terceira Plataforma”.

O elemento comum destas tendências é que nos falam de um volume


gigantesco de dados digitais que necessariamente transitará na nuvem.
Para isso, as empresas terão que adaptar a arquitetura das redes e data
centers para fornecer a capacidade necessária e flexibilidade exigidas para o
novo cenário.

Por outro lado, esse conjunto de fatores irá demandar, cada vez mais, dos
provedores de serviços em nuvem.

No caso da IoT, a IDC estima que mais de 90% destes dados serão alojados
em plataformas deste tipo nos próximos cinco anos. Isso porque a nuvem reduz
a complexidade associada à fusão de dados provenientes de fontes diversas e
dispersas.

O volume de dados gerados pela IoT será tamanho que obrigará, em curto
prazo, as empresas a repensar até suas estratégias de conectividade.

E o que é IoT (Internet das coisas)

É uma revolução tecnológica a fim de conectar aparelhos eletrônicos do dia-a-


dia, como aparelhos eletrodomésticos à máquinas industriais e meios de
transporte à Internet, cujo desenvolvimento depende da inovação técnica
dinâmica em campos tão importantes como os sensores wireless e
a nanotecnologia,ou seja, a "Internet das Coisas" conecta os aparelhos e
veículos usando sensores eletrônicos e a Internet.
Quando uma organização decide levar seus dados e aplicações para a nuvem,
deve definir uma arquitetura em nuvem apta para suas necessidades – privada,
pública ou híbrida – e, em seguida, selecionar o provedor de serviços que
garanta a maior flexibilidade possível.

A partir daí, é preciso preocupar-se para que a conectividade tenha o melhor


desempenho, onde os níveis de uptime e segurança sejam garantidos por
contrato, considerando uma largura de banda dinâmica, que dê a rede
escalabilidade máxima.

Podemos afirmar que estas modificações nos trarão grandes transformações,


tais como:
Gadgets: cada vez mais modulares e convergentes: Estamos vendo, mesmo
que neste momento um pouco vagarosamente, o crescimento dos dispositvos
wearables.

Relógios, óculos, roupas tecnológicas estão cada vez mais nos trazendo
informações para nossa rede de conhecimento.
Big Data: Com a maior absorção das informações que coletamos durante
nosso dia a dia, através de nosso comportamento digital, vamos gerar um
volume cada vez maior de informações a nosso respeito.

Segurança: Naturalmente que este volume de informações deverá gerar uma


nova onda de segurança e privacidade entre os usuários.

Cloud Computing: Este processo parece sem volta. A cada dia que passa,
estamos observando o crescimento desta área que já suporta o nascimento e
os primeiros passos do Big Data.

A verdadeira Globalização: Que o mundo está a cada dia mais integrado, isso é
fato. Mas a tendência é que tenhamos apenas uma única língua, e que as
fronteiras entre os países, sejam meramente físicas, mas inexistentes
comercialmente.
Com todos estes conceitos acima mencionados, poderemos “estar” em qualquer
lugar em qualquer “tempo”. Claro que vamos precisar que a holografia tenha
um bom salto tecnológico em um futuro próximo.

Enfim, é através da Conectividade Permanente que estamos evoluindo nossas


ideias e comportamentos.

Como todos sabem de acordo com pesquisas realizadas e apresentadas em


vários Foruns de TIC , os assuntos cloud computing e big data, ainda patinam
nas organizações, pois o grande volume de dados existentes fazem com que os
gestores das organizações ficarem perdidos nas tomadas de decisões, com o
movimento de internet das coisas (IoT) não é diferente, mas precisamente é
algo mais recente, totalmente novo, e já vinha acontecendo ainda que de
maneira insipiente em diversas partes do mundo.

O fato é que o modelo ganhou formato comercial e bem estruturado e agora


parece estar pronto para um grande salto em termos de escala.
Estados Unidos e Europa, com boa parte da população conectada e maturidade
avançada em automação industrial, parecem ser grandes celeiros para a
tendência, mas nesse amplo debate, a América Latina, que ainda patina em
conectividade, é vista como terreno fértil para oportunidades por diversos
players.

Sendo assim, para obter o processamento de Big Data provenientes da Internet


Of Things será necessário adotar uma arquitetura baseada em clusters que
ofereça suporte para o framework do Apache Hadoop, uma arquitetura
comumente utilizada para isto e com capacidade de elasticidade de recursos, é
a utilização de Cloud Computing (Computação em Nuvem).

Conclusão

Com base no estudo realizado, torna-se evidente que não há como fugir do
fenômeno Big Data, pois já é uma realidade muito mais próxima de nós do que
possamos imaginar.

A sociedade atual se organiza em torno dos meios de comunicação, com a


popularização da internet, dos dispositivos moveis com acesso à mesma, a
evolução da tecnologia como um todo, tudo isso alavancou uma nova era, em
que a tecnologia e a informação ditam as regras.

Atualmente a maioria das pessoas possui algum contato com algo que pode
contribuir para gerar essa grande quantidade de dados, de forma direta ou
indireta.

As tecnologias para trabalhar com o oceano de dados que cresce em volume de


forma monstruosa e flui continuamente nos deixa otimista, porque se mostram
comprometidas como o objetivo de resolver essa questão e viabilizar o trabalho
com grandes quantidades de dados.

Outro ponto importante que deve ser enfatizado é a questão do potencial


analítico que o Big Data pode nos oferecer.
O poder de quem detém a expertise de trabalhar com grandes quantidades de
dados é imensurável, a aplicação se estende por diversas áreas, não ficando
restrito apenas ao um setor.

Podemos concluir que o Big Data se revela um divisor de águas e seu impacto
na sociedade poderá ser comparado com o advento da internet, que hoje se
tornou algo indispensável em nossas vidas.

É um mundo a ser explorado, que já no início se mostra de grande potencial e


será a questão tecnológica mais discutida nos próximos anos certamente.

Como já foi dito, o surgimento do Big Data é o que temos hoje para trabalhar
com essa quantidade enorme de dados que vem surgindo no cenário atual.

O grande desafio é manusear essa infinidade de dados e extrair informação


relevante a partir dos mesmos.

O que é importante em big data, apesar de tanta tecnologia envolvida, a


análise digital não neutraliza a importância humana na tomada de decisão e na
inovação, ao contrário, a profusão de modelos preditivos e correlações de
dados demandarão como nunca a capacidade humana de gerar insights,
discernir e decidir.

Se precisarmos definir Big Data, diremos que é a representação digital da vida.


Dados digitais iluminam as pessoas e a rede vital que elas estabelecem entre si,
com a natureza e com os objetos que estão à sua volta.

Acreditamos que lidar com esses dados é uma missão que todo ser humano
deverá abraçar com cuidado porque eles são o código que nos mostrará como
dar equilíbrio ao nosso planeta.

Como diz Thomas Davenport, “Big Data pode ser descrito como um rio de
informações em correnteza que nunca para”.
BIBLIOGRAFIA

BAZERMAN, M. H.; MOORE, D. Processo decisório. 7. ed. Tradução de Daniel


Vieira. Rio de Janeiro: Elsevier, 2010.

CANARY, Vivian. A tomada de decisão no contexto do Big Data: estudo de


caso único. 2013. 74 p. Monografia (Conclusão do curso) – UFRGS,
Departamento de Ciências Administrativas, Porto Alegre.

COLUMBUS, Louis. Roundup of Big Data Forecasts and Market


Estimates, 2012. 16 ago. 2012. Disponível em:
<http://www.forbes.com/sites/louiscolumbus/2012/08/16/roundup-of-big-data-
forecasts-and-market-estimates-2012>.

COMPUTERWORLD. Hadoop cimenta importância para Big Data.


Disponível em: <http://www.computerworld.com.pt/2012/06/19/hadoop-
cimenta-importancia-para-bigdata/>. Acesso em: 24 maio 2013.

DAVENPORT, Thomas H. Big Data no Trabalho: derrubando mitos e


descobrindo oportunidades. Rio de Janeiro: Campus, 2014.

DIFRANZO, Dominic - stko.geog.ucsb.edu/s4bd2013/

FRANÇA, Tiago; FARIA, Fermino; RANGEL, Fabio; FARIAS, Claudio; OLIVEIRA,


Jonice. Big Social Data: princípios sobre coleta, tratamento e análise de dados
sociais. In: LÓSCIO, Bernadette Farias; HARA, Carmem S.; MARTINS, Vidal
(Org.). Tópicos em gerenciamento de dados e informações. Curitiba:
UFPR; PUC-PR, 2014.

GOUVEIA, W. MapReduce é o que há. Disponível em:


<http://amsterdaintelligence.blogspot.com.br/2010/03/mapreduce-e-o-que-
ha.html>. Acesso em: 21 maio 2013.

HURWITZ, Judith; NUGENT, Alan; HALPER, Fern; KAUFMAN, Marcia. Big Data
para Leigos. Rio de Janeiro: Ed. Starlin, 2016.
INMOMENT – 2014.

Jewwll, Dave et al - www.redbooks.ibm.com/redpapers/.../redp5070.pdf

LIMA, Gustavo. Cezar Taurion ensina o que é Big Data. 9 jan. 2013.
Disponível em: <blog.corujadeti.com.br/cezar-taurion-ensina-o-que-e-big-
data>.

NONOHAY, Roberto Guedes. Tomada de decisão e os sistemas cerebrais:


primeiros diálogos entre administração, psicologia e neurofisiologia. 2012. 162
p. Dissertação (Mestrado) – UFRGS, Escola de Administração, Programa de Pós-
graduação em Administração, Porto Alegre.

O GRANDE livro de Big Data. Disponível em: <now.informatica.com/br_the-big-


data-workbook_book_2730.html>.

O’REILLY. Big Data Now. 1. ed. Sebastopol, CA: O’Reilly Media Inc. 2012.

OHLHORST – 2012 - www.the-tech-prophet.com/category/big-data/

PETRY, A. Vida digital: o berço do Big Data. Revista Veja, São Paulo, maio
2013, p. 71-81.

SCHMARZO, Bill. Líder em competência global da EMC Consulting: estudo


do analítico do Big Data.

SCHNEIDER, R. D. Hadoop for dummies. Special Edition. Mississauga, CAN:


John Wiley & Sons Canada, 2012. 41 p.

SCHÖNBERGER, Viktor M.; CUKIER, Kenneth. Big Data: a revolution that will
transform how we live, work and think. Kindle Edition. New York: Houghton
Mifflin Harcourt Publishing Company, 2013.

Taurion – 2014 -
www.revistas.usp.br/signosdoconsumo/article/download/.../100022

THE DECIDING FACTOR: Big data and decision-making. Economist


Intelligence Unit, London, 2012.

The Guardian - http://www.guardian.co.uk/technology/2010.


Wikipedia http://en.wikipedia.org/wiki/Main_Page. Diversos acessos.

WorldAtlas e CNN – 2014.

ZUPPO, Daniella; COSTA, Luciana; FERNANDES, Soraya. Big Data: desafios e


análise estratégica. Rio de Janeiro: COPPE/UFRJ, 2013.

Você também pode gostar