Você está na página 1de 7

Big Data

Luis Henrique Pajeu, Rodrigo Braz de Oliveira

Instituto de Matemática e Computação – Universidade Federal de Itajubá (UNIFEI)


Caixa Postal 15.064 – 91.501-970 – Itajubá – MG – Brasil
henriquedaft@gmail.com, rodrigobrazol@bol.com.br

Resumo. Big Data é o termo que descreve o imenso volume de dados –


estruturados e não estruturados – que impactam os negócios no dia a dia.
Mas o importante não é a quantidade de dados. E sim o que as empresas
fazem com os dados que realmente importam. Big Data pode ser analisado
para a obtenção de insights que levam a melhores decisões e direções
estratégicas de negócio.

1.Introdução
Vivemos em um mundo cada vez mais tecnológico e conectado, onde as
comunicações são realizadas de uma forma cada vez mais rápida e eficaz.
Com tantos logins, senhas, formulários, compartilhamentos e curtidas, acabamos
gerando muitos dados, com isso, surgiu uma nova demanda no mercado, a demanda por
dados e informação.
Mas, com a popularidade das redes sociais, esses dados acabam extrapolando a
casa dos petabytes, ficando difícil de se analisar por não terem um padrão bem definido e
podendo vir de qualquer lugar e em qualquer formato.
Os usuários do Facebook já produziram mais de 300 petabytes de dados, mais de 300
milhões de fotos compartilhadas por dia, e com todo esse volume de dados, e através de
reconhecimento facial o Facebook pode por exemplo estimar quem foram amigos de
escola de um perfil analisado por exemplo.
Empresas de cereais também se utilizam da coleta de dados para melhorar suas
vendas, através de algumas trocas de posições em prateleiras pelos supermercados,
descobriram que a posição ideal é na altura das crianças e com seus personagens olhando
diretamente para as mesmas.
Podemos dar grande destaque ao Google pelo uso de Big Data, com seu Flu
Trends que analisa em tempo real as pesquisas em seu buscador sobre sintomas de gripe,
conseguindo prever onde é mais provável que ocorra um surto.
Empresas aéreas precisam analisa a todo tempo dados sobre os voos como altitude,
velocidade, localização das aeronaves, tempo de voo, além de toda parte climática como
ventos, temporais e todas variáveis que possam causar um possível acidente.
Nessa situação, as ferramentas de análises de dados estruturados, como MySql ou
PostgreSQL não são capazes de analisar de forma eficaz esses dados que provém de
inúmeros lugares distintos entre si, pois os dados gerados não são estruturados.
Sendo assim, se torna necessária a criação de um conceito ou ferramenta para
contornar essa situação, assim nasce o conceito de Big Data.
Big Data resumidamente é a manipulação de um elevado volume de dados, que as
ferramentas tradicionais não teriam como manipular, utilizando de ferramentas e técnicas
especificas para tal.
A proposta de uma solução de Big Data é oferecer uma abordagem consistente no
tratamento do constante crescimento e da complexidade dos dados. Para tanto, o conceito
considera 5 V’s do Big Data: Volume, Velocidade, Variedade, Veracidade e Valor.
Volume: Estima-se que atualmente o volume total de dados que circulam na
internet é de 250 Exabytes (1018 bytes) por ano. (Inmoment, 2014) Todos os dias são
criados 2,5 quintilhões de bytes em forma de dados, atualmente 90% de todos os dados
que estão presentes no mundo foram criados nos últimos 2 anos (IBM). É importante
também compreender que o conceito de volume é relativo a variável tempo, ou seja, o que
é grande hoje, pode não ser nada amanhã. (Ohlhorst, 2012). Nos anos 90, um Terabyte
(1012 bytes) era considerado Big Data. Em 2015, teremos no mundo aproximadamente um
volume de informação digital de 8 Zettabytes (1021 bytes), um valor infinitamente maior
(IBM).
Velocidade: Informação é poder (The Guardian, 2010), e assim sendo a velocidade
com a qual você obtém essa informação é uma vantagem competitiva das empresas.
Velocidade pode limitar a operação de muitos negócios, quando utilizamos o cartão de
crédito por exemplo, se não obtivermos uma aprovação da compra em alguns segundos
normalmente pensamos em utilizar outro método de pagamento. É a operadora perdendo
uma oportunidade de negócios pela falha na velocidade de transmissão e análise dos
dados do comprador.
Variedade: O volume é apenas o começo dos desafios dessa nova tecnologia, se
temos um volume enorme de dados, também obtemos a variedade dos mesmos. Já pensou
na quantidade de informações dispersas em redes sociais? Facebook, Twitter entre outros
possuem um vasto e distinto campo de informações sendo ofertadas em público a todo
segundo. Podemos observar a variedade de dados em e-mails, redes sociais, fotografias,
áudios, telefones e cartões de crédito. (McAffe et al, 2012). Seja qual for a discussão,
podemos obter infinitos pontos de vista sobre a mesma. Empresas que conseguem captar a
variedade, seja de fontes ou de critérios, agregam mais valor ao negócio (Gartner). O Big
Data escalona a variedade de informações das seguintes formas (Jewell, Dave et al):

• Dados estruturados: são armazenados em bancos de dados, sequenciados em


tabelas;
• Dados semi-estruturados: acompanham padrões heterogêneos, são mais difíceis de
serem identificados pois podem seguir diversos padrões;
• Dados não estruturados: são uma mistura de dados com fontes diversificadas como
imagens, áudios e documentos online.
Dentre essas 3 categorias, estima-se que até 90% de todos os dados no mundo estão a
forma de dados não estruturados. (ICD, 2011).

Veracidade: Um em cada 3 líderes não confiam nos dados que recebem (IBM).
Para colher bons frutos do processo do Big Data é necessário obter dados verídicos, de
acordo com a realidade. O conceito de velocidade, já descrito, é bem alinhado ao conceito
de veracidade pela necessidade constante de análise em tempo real, isso significa, de
dados que condizem com a realidade daquele momento, pois dados passados não podem
ser considerados dados verídicos para o momento em que é analisado. A relevância dos
dados coletados é tão importante quanto o primeiro conceito. A verificação dos dados
coletados para adequação e relevância ao propósito da análise é um ponto chave para se
obter dados que agreguem valor ao processo. (Hurwitz, Nugent, Halper & Marcia
Kaufman).
Valor: Quanto maior a riqueza de dados, mais importante é saber realizar as
perguntas certas no início de todo processo de análise (Brown, Eric, 2014). É necessário
estar focado para a orientação do negócio, o valor que a coleta e análise dos dados trará
para o negócio. Não é viável realizar todo o processo de Big Data se não se tem
questionamentos que ajudem o negócio de modo realístico. Da mesma forma é importante
estar atento aos custos envolvidos nessa operação, o valor agregado de todo esse trabalho
desenvolvido, coleta, armazenamento e análise de todos esses dados tem que compensar
os custos financeiros envolvidos (Taurion, 2013).
O Big Data nos moldes que conhecemos surgiu em 2003 com pesquisas da Google
na tentativa de criar um sistema de arquivos distribuídos, o Google File System – GFS,
porém naquela época era difícil a questão da escalabilidade pois ficaria muito custoso
investir em apenas uma máquina potente o suficiente para realizar o trabalho.
Assim eles chegaram a conclusão de que precisariam utilizar de mais máquinas
trabalhando em conjunto para que obtivessem sucesso com essa nova tecnologia.
No ano seguinte, 2004, foi lançado um artigo sobre o MapReduce, que é uma
técnica de programação paralela onde se define um padrão de utilização, onde o código
computacional que se encaixasse no padrão do MapReduce poderia utilizar todo potencial
que o framework oferecia no momento.
Já em 2006, foi lançado outro artigo dissertando sobre o Big Table, que era um
banco dados que nascia para suprir essa demanda de programação paralela da época, onde
a grande novidade da aplicação era a possibilidade de manipulação de um grande volume
de dados.
Porém todas essas tecnologias eram de uso interno do Google e não estavam
disponíveis para outros públicos, até que um grupo de desenvolvedores resolver dar vida a
essas tecnologias de uma forma open source, neta ocasião nascia o Hadoop.
Hoje em dia o conceito de Big Data é bastante conhecido e amplamente utilizado
por corporações de todos os tipos, desde grandes empresas da área tecnológica, bolsas de
valores ao redor do globo, até centros de treinamentos esportivos sejam de futebol,
basquete, tênis ou qualquer outra modalidade de auto desempenho.

2. Hadoop

O Hadoop foi desenvolvido em 2006 e pode ser definido como a junção das 3
tecnologias criadas pelo Google anos antes, o GFS, MapReduce e o Big Table.
O HDFS, que é um sistema de arquivos distribuídos, o YARD que é um
gerenciador de recursos e um framework para MapReduce compõem a base do Hadoop.
O HDFS recebe os arquivos e os distribui entre as várias máquinas existentes que
estão trabalhando em conjunto no sistema. A imagem abaixo ilustra o funcionamento do
HDFS.
Logo após a distribuição dos dados, ocorre a replicação dos mesmos entre as
máquinas, assim em caso de alguma das máquinas apresentar funcionamento anormal, é
possível a recuperação dos dados através das máquinas que continuam funcionando.
O YARD por sua vez cuida de todo o gerenciamento dos recursos necessários para
que as operações ocorram de maneira correta e rápida.
E por último, o MapReduce trata e ordena os dados que foram obtidos, gerando a
informação ao final do processo, como a figura abaixo exemplifica.

Podemos usar um contador de palavras para exemplificar o funcionamento do


MapReduce. Suponhamos que cada cor represente uma palavra diferente e juntas formam
um texto, por exemplo O Big Data, sendo a letra O da cor azul, Big na cor laranja e Data
na cor verde.
Nos 3 primeiros NodeNames as palavras chegam juntas e não possuem uma ordem
definida, e o algoritmo vai realizar a contagem das palavras e exibir no final quantas
vezes a mesma palavra apareceu na frase. Após a primeira etapa as palavras são
separadas uma a uma e enviadas para outros NameNome que foram predefinidos para
receber apenas uma palavra específica.
Na última parte, os 3 NameNodes já obtiveram a quantidade de palavras que foram
inseridas, assim enviam o resultado para o último estágio, onde os dados já se tornaram
informação, no caso, o ultimo NameNode apresenta a quantidade de vezes que cada
palavra apareceu na frase.

3. Aplicação

Temos como exemplo de uso de Big Data o Google Flu Trends como já foi
mencionado, onde é possível prever surtos e epidemias de doenças através da análise das
pesquisas realizadas no buscador sobre possíveis sintomas de doenças.
Outro exemplo vem do universo esportivo, com o SAP Match Insights, onde sua
aplicação fornece um vasto conjunto de soluções e funcionalidades tecnológicas que
garantem avançadas análises para as equipes e para as suas equipes técnicas com o
principal propósito de aprimorar os desempenhos primeiro nos treinos e depois em
competição. A análise de desempenho dos jogadores auxilia os treinadores com
informações trabalhadas dos treinos e jogos de fácil compreensão e disponíveis em tempo
real e em qualquer dispositivo móvel.

4. Conclusão

Nos dias atuais, a utilização de big data não é mais uma vantagem competitiva e
sim uma obrigação por parte das empresas que procuram se destacar no mercado.
Os benefícios da utilização das técnicas de big data estão evidentes e já não podem
ser deixadas de lado, pois o mundo atual é movido por dado e informação.
Neste contexto, é preciso saber analisar os bilhões de dados que são gerados todos
os dias para se ter uma noção mais precisa de como agir e traçar as metas para que seja
extraído o máximo de informação desses dados.
Com essa informação em mãos é possível direcionar ações com objetivos bem
definidos, afim de realizar uma influência maior e mais direta sobre os hábitos e costumes
dos clientes, conseguindo lhes oferecer o que precisam de maneira correta e na hora certa.
Referências
https://www.youtube.com/watch?v=1SNoNTaWFIo

http://www.sas.com/pt_br/insights/big-data/what-is-big-data.html

https://pt.wikipedia.org/wiki/Big_data

http://www.bigdatabusiness.com.br/voce-sabe-o-que-e-big-data-analytics/

Você também pode gostar