Você está na página 1de 5

Big data

Em tecnologia da informa��o, o termo big data refere-se a um grande conjunto de


dados gerados e armazenados com os quais os aplicativos de processamento de dados
tradicionais ainda n�o conseguem lidar em um tempo toler�vel. Seu surgimento est�
relacionado com o aumento exponencial da quantidade de dados gerados a cada minuto
no mundo. O big data representou uma nova era na sociedade moderna, em que os dados
se tornaram cada vez mais valiosos[2], mudando a forma como a economia e a ci�ncia
observam os processos, extraem e geram valor desse caos de dados.

Defini��o

Ao longo das �ltimas d�cadas, a quantidade de dados gerados tem crescido de forma
exponencial. O surgimento da internet fez sairmos da era do terabyte para o
petabyte[4], e a internet das coisas aumentou de forma abrupta a quantidade de
dados gerados[1]. Em 2015, entramos na era do zetabytes[5], e atualmente geramos
mais de 2,5 quintilh�es de bytes diariamente[6]. A esta quantidade enorme de dados
foi dado o nome de big data. Este termo surgiu em 1997[7] e seu uso foi utilizado
para nomear essa quantidade cada vez mais crescente e n�o estruturadas de dados
sendo gerados a cada segundo. Atualmente o big data � essencial nas rela��es
econ�micas e sociais e representou uma evolu��o nos sistemas de neg�cio e na
ci�ncia[1]. As ferramentas de big data s�o de grande import�ncia na defini��o de
estrat�gias de marketing, aumentar a produtividade, reduzir custos e tomar decis�es
mais inteligentes[8]. A ess�ncia do conceito est� em gerar valor para neg�cios[9].
No que tange a ci�ncia, o surgimento do big data representou a cria��o de um novo
paradigma (4� paradigma) sendo concebido um novo m�todo de avan�ar as fronteiras do
conhecimento, por meio de novas tecnologias para coletar, manipular, analisar e
exibir dados, construindo valor agregado com as an�lises geradas[10].

Quanto mais dados s�o gerados, maior � o esfor�o para extrair informa��es[9], e os
centros de dados tiveram que aprender a lidar com o crescimento exponencial de
dados gerados e tiveram que desenvolver ferramentas que fossem para al�m de bancos
de dados relacionais e sistemas paralelos de bancos de dados[1]. Sendo assim, a
velocidade para obter a informa��o faz parte do sucesso que o big data pode
proporcionar em sua empresa[9]. O conceito de big data foi definido inicialmente
por 3'V[9] mas a literatura mostrou que seu conceito pode ser expandido para
5'V[11], representados pelos seguintes conceitos[9]:

Volume: relacionado a grande quantidade de dados gerados;


Variedade: as fontes de dados s�o muito variadas, o que aumenta a complexidade das
an�lises;
Velocidade: Devido ao grande volume e variedade de dados, todo o processamento deve
ser �gil para gerar as informa��es necess�rias;
Veracidade: A veracidade est� ligada diretamente ao quanto uma informa��o �
verdadeira.
Valor: Este conceito est� relacionado com o valor obtido desses dados, ou seja, com
a �informa��o �til�.
Hist�rico
Constru��o do Conceito
O termo big data tem um conceito relativo, j� que seu tamanho depende de quem est�
usando os dados[12]. Neste contexto, o primeiro relato sobre uso de estat�sticas
para obter informa��es de grandes quantidades de dados data de 1663. Nesse ano,
John Graunt utilizou uma grande quantidade de informa��es, de diferentes fontes,
para estudar a epidemia da peste bulb�nica na Europa. Para Graunt, sua quantidade
de dados poderia ser considerado big data[13].

O uso dos primeiros equipamentos para processar dados datam de 1890, durante a
realiza��o do Censo dos Estados Unidos, conduzido pelo U.S. Census Bureau[14]. Na
ocasi�o, a M�quina de Tabula��o diminuiu o tempo de processamento dos dados para
apenas 6 semanas[15]. Entretanto, somente em no s�culo XX que come�aram a surgir os
primeiros sistemas para armazenamento de informa��es. Em 1927, o engenheiro Fritz
Pfleumer criou um m�todo para guardar informa��es em fitas magn�ticas[12].

Durante a Segunda Guerra Mundial, foi criada a primeira m�quina digital de


processamento de dados. Foi em 1943, quando os Brit�nicos desenvolveram um sistema
para decifrar c�digos nazistas durante a Segunda Guerra Mundial. O nome da m�quina
era Colossus, que podia interceptar mensagens a uma taxa de 5000 caracteres por
segundo[16]. A primeiro �rg�o p�blico criado especificamente para o processamento
de dados, a Ag�ncia Nacional de Seguran�a (NSA) dos EUA, foi fundado em 1952, com o
objetivo de processar dados automaticamente para obter informa��es relativas a
intelig�ncia durante a Guerra Fria[17].

Um dos primeiros Centro de Dados foi criado em 1965, tamb�m pelo governo americano,
com o objetivo de controlar o pagamento de impostos e as impress�es digitais dos
americanos[16]. Este Centro de Dados possu�a o mesmo padr�o dos bancos de dados
criados at� a d�cada de 1970. Eram bancos de dados centralizados, onde uma mesma
m�quina era respons�vel pelo uso, armazenamento e an�lise dos dados[1]. Com o
aumento da quantidade de dados, come�aram a surgir novas arquiteturas de dados que
permitissem processar e analisar esses dados. Nas d�cada de 80 come�aram a surgir
os Sistemas de Bancos de Dados Paralelos[18]. Nesse caso, ao inv�s de um banco de
dados centralizado, cada processador se comunica com os outros apenas enviando
mensagens atrav�s de uma rede interconectada. Os primeiros bancos de dados
paralelos possibilitaram a cria��o do primeiro banco de dados com capacidade em
terabytes, pela KMART, em 1986[1].

Em 1989, o cientista brit�nico Tim Berners-Lee criou o World Wide Web, para
facilitar a troca de informa��es entre as pessoas. O que Tim Berners-Lee n�o sabia
era que sua inven��o iria revolucionar a forma como os dados eram gerados e a
quantidade de dados criados[19]. A cria��o da Web 2.0 ajudou no aumento dos
dados[16]. O termo big data foi usado pela primeira vez em 1997[7], entretanto o
nome come�ou a ser usado oficial em 2005, quando Roger Mougalas, da O�Reilly Media
publicou um artigo mencionando o tema[20].

Evolu��o Tecnol�gica de Armazenamento e Processamento

Os dados que agregam o conjunto do big data s�o provenientes de v�rias fontes.
Desta maneira, normalmente n�o apresenta uma estrutura bem definida, ou seja, n�o
pode ser armazenada nos sistemas padr�es de banco de dados, como o Sistema
Gerenciador de Banco de Dados Relacional (SGBDR), onde os dados s�o representados
por meio de tabelas, com diversas linhas e colunas[21]. Os cientistas de dados
come�aram a verificar que bancos de dados relacionais n�o conseguiriam suportar
essa grande quantidade de dados n�o estruturados. Desta maneira, novas tecnologias
e processos tiveram que ser desenvolvidos para permitir que esses dados n�o
estruturados fossem analisados, j� que os mesmos podem representar at� 80% do total
de dados[22]. Foi quando a Google criou o MapReduce, em 2004[23], que � um modelo
de programa��o que permite processar grandes quantidades de dados em paralelo,
dividindo o trabalho em um conjunto de tarefas independentes, geralmente executado
em um cluster de computadores[24].

Posteriormente, foi desenvolvido o Hadoop, que � uma implementa��o em c�digo aberto


do MapReduce[25]. O Hadoop foi criado pelo Yahoo em 2005 e pode ser considerado uma
das maiores inven��es de data management desde o modelo relacional[26]. Entretanto,
o Hadoop n�o � considerado uma base dados como o SGBDR. Ele � um sistema de
distribui��o de arquivos utilizado para processar e armazenas grande quantidade de
dados (big data) por meio de clusters[21], onde os mesmos s�o processados
paralelamente e podendo ser executados em servidores sem muito esfor�o[25].
Atualmente, esse tipo de processamento � o mais utilizado por empresas que
trabalham com big data e diversas empresas v�m contribuindo com c�digo para seu
desenvolvimento, como a Yahoo, Facebook, Cloudera, IBM e outras[26].

Segundo a IBM em 2008 foram produzidos cerca de 2,5 quintilh�es de bytes todos os
dias e surpreendentemente 90% dos dados no mundo foram criados nos �ltimos dois
anos, decorrente a ades�o das grandes empresas � internet, como exemplo as redes
sociais, dados dos GPS, dispositivos embutidos e m�veis[27]. Atualmente, a Internet
das Coisas mudou a forma como os dados s�o gerados, aumentando de forma abrupta a
quantidade de dados gerados[1]. Todos esses objetos f�sicos da Internet das Coisas
s�o capazes de coletar e transmitir dados, gerando dados n�o estruturados que n�o
podem ser armazenados e processados por banco de dados comuns.

Tipos de Dados

Existem tipos b�sicos de dados que s�o estudados pelos especialistas em big data,
os conceitos mais utilizados geralmente envolvem:

Social Data: Dados coletados de redes sociais ou ambientes de intera��o entre


usu�rios, geralmente demogr�ficos e comportamentais, ou seja, ditam um padr�o de um
determinado grupo com as mesmas caracter�stica. O Social Data � muito utilizado na
an�lise de campanhas de marketing, de maneira a oferecer um servi�o ou produto mais
personalizado de acordo com diferentes segmentos.
Enterprise Data: Na tradu��o literal Dados Empresariais, coletados pelo RH de
empresas, setores de vendas, finan�as, log�stica e produ��o, esses dados s�o
atributos sobre funcion�rios e setores diferentes dentro de um ambiente
empresarial, podem ser utilizados para otimizar processos e identificar falhas ou
fraudes dentro de uma determinada se��o, esse tipo de dado � um marco de
investimento estrat�gico de grandes empresas, que visam minimizar gastos e otimizar
lucros.
Personal Data: Dados pessoais, facilmente relacionados ao conceito da Internet das
coisas, s�o dados obtidos atrav�s de aparelhos de uso pessoal ou coletivo, tais
como smartphones, geladeiras, televis�es, carros, etc. Esse tipo de dado mostra as
prefer�ncias pessoais de um determinado indiv�duo atrav�s do estudo de padr�es, por
meio do uso do Personal Data � poss�vel desenvolver metodologias personalizadas de
intera��o com o cliente, de maneira a tornar a rela��o com o produto menos
mecanizada e robotizada.

Mercado de trabalho

As oportunidades de trabalho na �rea de estat�stica est�o aumentando gra�as �


prolifera��o de programas para an�lise de dados e seu uso, especialmente, na tomada
de decis�o com objetivos estrat�gicos como: pol�ticas de governo, sele��o de
investimentos, gest�o de empresas e neg�cios, etc.. O big data permite trabalhar
com grandes volumes de dados, por vezes, n�o aceitos pelos grandes programas
estat�sticos. No Brasil existe a profiss�o de Estat�stico, regulamentada pelo
Decreto Federal n� 62497 de 1968[28]. Este profissional � treinado para trabalhar
com estruturas de dados, em seu manuseio para extra��o de informa��o estrat�gica,
nos m�todos estat�sticos de an�lise e em programa��o para sua an�lise estat�stica,
de modo a se obter conclus�es com margens de erro controladas para a tomada de
decis�es com base nos dados dispon�veis. A IBM criou a Big Data University, que
fornece certo conhecimento do big data. Existem na Internet, sites que oferecem
plataformas de ensino � dist�ncia, comumente conhecidas como MOOCs, com cursos nas
�reas de big data e de ci�ncia de dados (Data Science, no original em ingl�s), nos
quais pode-se estudar o seu conte�do de forma gratuita ou pagar pelo certificado do
curso. Os mais conhecidos s�o os sites do Coursera, Udacity e o EDX.org, este
�ltimo fruto de parceria entre as universidades americanas de Harvard e do MIT e
empresas do Vale do Sil�cio. No Brasil, o mercado para a �rea � promissor, sendo
que muitas renomadas Universidades passaram a oferecer cursos de p�s-gradua��o e
MBAs ligados � �rea de big data, variando em sua maioria no tamanho da carga
hor�ria destinada � parte de neg�cios, componente importante na forma��o deste
profissional, que precisar� ter al�m das habilidades t�cnicas, a capacidade de
apresentar as conclus�es de suas an�lises e insights para um p�blico leigo de forma
simples, de forma a gerar valor para o neg�cio da empresa.

Aplica��es na atualidade

Um estudo do Instituto IDC mostrou que diversos setores da sociedade est�o


investindo em big data[29], indicando que foram investidos mais de US$ 16,6 bilh�es
em 2014 para atividades do setor. Este mesmo estudo afirma que a expectativa � que
este valor atinja, em 2018, o valor de US$ 41,5 bilh�es. As institui��es est�o
investindo em big data por observarem da interfer�ncia dos custos, das
consequ�ncias que pode haver para o futuro do neg�cio. O objetivo por tr�s do big
data � melhorar a presta��o de informa��es aos gestores, fazendo com que haja um
suporte na tomada de decis�es � com dados reais e precisos[30]. A seguir ser�o
apresentadas algumas aplica��es de big data, em diferentes setores:

O filme �Moneyball� (O homem que mudou o jogo) com o ator Brad Pitt, no qual o
gerente de um time de beisebol usa o big data para reunir um time de primeira linha
sem gastar muito;
A empresa UPS, ap�s an�lise das rotas de seus motoristas, proibiu os mesmos de
virar � esquerda[31]. De acordo com a empresa, isto permitiu economizar por ano
cerca de 38 milh�es de litros de combust�vel, deixando de emitir 20 mil toneladas
de di�xido de carbono. Al�m disso, entregam 350 mil pacotes a mais;
No terremoto do Haiti, pesquisadores americanos fizeram uso da geolocaliza��o de 2
milh�es de chips SIM, para auxiliar nas miss�es humanit�rias[32];
Para melhorar os laborat�rios de f�sica nuclear, a empresa CERN (Organiza��o
Europeia para a Pesquisa Nuclear), criou o maior acelerador de part�culas do mundo,
chamado Large Hadron Collider. Com ele, gera uma quantidade enorme de dados. Para a
utiliza��o dessa m�quina � necess�rio muita mem�ria - cerca de 30 petabytes de
dados - e, para analisar esses dados s�o necess�rios 65 mil processadores, e usa
tamb�m o recurso de v�rios computadores pelo mundo inteiro.
A utiliza��o dos dados de censos e outros recolhidos pelos governos, facilita na
an�lise dos Datas Censes, melhorando a nossa sa�de e tamb�m ci�ncia social.[33]
Em busca dos melhores lugares para instalar turbinas e�licas, uma empresa
dinamarquesa analisou petabytes de dados clim�ticos do n�vel das mar�s, mapas de
desmatamentos, entre outros. No fim o que costumava demorar semanas durou apenas
algumas horas[34];
Big data foi de grande import�ncia para o descobrimento do pr�-sal, devido a sua
velocidade, que agilizava os processamentos de dados s�smicos captados pelas sondas
que procuram petr�leo no fundo do mar. Como s�o milh�es as vari�veis, o trabalho
exige intermin�veis simula��es de imagens, e s� o big data � capaz de dar conta do
trabalho em um tempo melhor[35];
Alguns times de diversos esportes utilizam o big data na performance dos atletas,
com c�meras e outros aparelhos. Desta maneira, conseguem observar o desempenho dos
atletas e, ao analisar os dados, tomar decis�es mais precisas, melhorando o
desempenho e corrigindo os erros, criando tamb�m estat�sticas para os pr�ximos
jogos[36];
Empresas de tecnologia como a Netflix e a Spotify utilizam de big data para definir
as prefer�ncias dos seus usu�rios, e fornecer para eles conte�dos mais
individualizados[37];
As ferramentes de propaganda do Facebook e do Instagram s�o baseadas em big data,
pois correlacionam dados dos usu�rios das redes sociais com suas prefer�ncias de
consumos e servi�os[38].
Um interessante estudo de caso sobre sucessos e erros do uso do big data � o Google
Flu Trends (GTF), que foi lan�ado pela Google em 2008[39]. Este servi�o foi
divulgado pela primeira vez por meio de um artigo na revista Nature[40], e prometia
detectar com algumas semanas de anteced�ncia a ocorr�ncia de epidemias de gripe.
Anteriormente ao GFT, os sistemas tradicionais dos EUA faziam estimativas de casos
e epidemias de gripe a cada duas semanas, usando dados dos Centros de Controle e
Preven��o de Doen�as dos EUA (U.S. Centers for Disease Control and Prevention -
CDC). Essas estimativas eram baseadas em dados virol�gicos e cl�nicos, relacionados
a visitas de pacientes aos hospitais e consult�rios. Com o aumento do acesso �
internet, verificou-se que mais de 90 milh�es de americanos procuravam todos os
anos por informa��es sobre uma doen�a espec�fica ou problema m�dico. Nesse
contexto, os pesquisadores da Google verificaram que era poss�vel correlacionar
essas buscas com casos efetivos de gripe[40]. Para validar a metodologia, foram
processadas centenas de bilh�es de pesquisas no Google pelo per�odo de 5 anos (2003
a 2007) para os EUA, correlacionando palavras de busca espec�ficas com casos
efetivos da doen�a. Os dados foram validados por meio dos relat�rios da CDC para o
per�odo, com um correla��o m�dia de 90%[40]. O modelo foi testado em tempo real nos
anos de 2007 e 2008 e os resultados foram divulgados com o CDC para avaliar a
resposta e a acur�cia, mostraram a possibilidade de prever casos de gripe em uma a
duas semanas antes do CDC[40]. A partir desses resultados, o servi�o come�ou a ser
utilizado operacionalmente para outros pa�ses, realizando estimativas de epidemias
de gripe para mais de 25 na��es[39]. Entretanto, atualmente o servi�o n�o est� mais
ativo, mas estimativas hist�ricas ainda est�o dispon�veis para download[39]. Isso
aconteceu pelos erros subsequentes nas previs�es realizadas pelo servi�o nos anos
posteriores. Isso aconteceu em 2013, quando o sistema n�o previu uma epidemia de
gripe[41], ou como a epidemia da gripe H1N1, em 2009[42]. Em um artigo publicado na
revista Science[43], pesquisadores indicaram os seguintes fatores como os
causadores dos problemas e das falhas com o servi�o GFT:
A "arrog�ncia do big data" (Big data hubris). Este termo � utilizado para descrever
a m�xima normalmente utilizada pelos cientistas de dados, que consideram o big data
como um substituto aos dados e an�lises tradicionais, ao inv�s de consider�-lo uma
an�lise complementar e conjunta;
A din�mica do algoritmo de busca da Google, que mudou ao longo dos anos e pode ter
afetado o resultado das tend�ncias
A falta de transpar�ncia e impossibilidade de replicabilidade dos resultados.
Apesar da Google ter divulgado a metodologia, os dados utilizados n�o s�o p�blicos,
o que n�o permite replicar os resultados obtidos e avaliar melhores formas de
ajustar os algoritmos utilizados no programa.

Cr�ticas

A massifica��o de dados, no entanto, ainda enfrenta obst�culos. O maior deles seria


a privacidade, ou seja, a amea�a � privacidade representada pelo aumento de
armazenamento e integra��o de informa��es pessoalmente identific�veis. Se a
recomenda��o de links patrocinados pelo Google j� parece invasiva � maioria das
pessoas, o mundo e a legisla��o atual n�o est�o preparadas para as possibilidades
que o big data oferece de agregar, analisar e tirar conclus�es a partir de dados
at� ent�o esparsos. Pain�is de especialistas lan�aram v�rias recomenda��es de
pol�ticas para adequar a pr�tica �s expectativas de privacidade. [44][45][46]

Outro problema � a escassez de profissionais, que ter�o de se adaptar a tal


tecnologia, com a previs�o que em 2018 s� os Estados Unidos podem enfrentar a falta
de 140mil a 190mil com profundas capacidades anal�ticas.

O big data j� foi relacionado[47] como ferramenta essencial em manipula��o de


elei��es e dissemina��o de fake news, isso se d� pela capacidade inerente da
tecnologia de reunir e segmentar um determinado p�blico alvo, fazendo com que
campanhas de marketing sejam muito mais efetivas e impactantes, isso faz do big
data uma metodologia question�vel do ponto de vista �tico, uma vez que pode ser
usado para manipular massas e obter resultados parciais de acordo com a motiva��o
dos especialistas.

Você também pode gostar