Escolar Documentos
Profissional Documentos
Cultura Documentos
Defini��o
Ao longo das �ltimas d�cadas, a quantidade de dados gerados tem crescido de forma
exponencial. O surgimento da internet fez sairmos da era do terabyte para o
petabyte[4], e a internet das coisas aumentou de forma abrupta a quantidade de
dados gerados[1]. Em 2015, entramos na era do zetabytes[5], e atualmente geramos
mais de 2,5 quintilh�es de bytes diariamente[6]. A esta quantidade enorme de dados
foi dado o nome de big data. Este termo surgiu em 1997[7] e seu uso foi utilizado
para nomear essa quantidade cada vez mais crescente e n�o estruturadas de dados
sendo gerados a cada segundo. Atualmente o big data � essencial nas rela��es
econ�micas e sociais e representou uma evolu��o nos sistemas de neg�cio e na
ci�ncia[1]. As ferramentas de big data s�o de grande import�ncia na defini��o de
estrat�gias de marketing, aumentar a produtividade, reduzir custos e tomar decis�es
mais inteligentes[8]. A ess�ncia do conceito est� em gerar valor para neg�cios[9].
No que tange a ci�ncia, o surgimento do big data representou a cria��o de um novo
paradigma (4� paradigma) sendo concebido um novo m�todo de avan�ar as fronteiras do
conhecimento, por meio de novas tecnologias para coletar, manipular, analisar e
exibir dados, construindo valor agregado com as an�lises geradas[10].
Quanto mais dados s�o gerados, maior � o esfor�o para extrair informa��es[9], e os
centros de dados tiveram que aprender a lidar com o crescimento exponencial de
dados gerados e tiveram que desenvolver ferramentas que fossem para al�m de bancos
de dados relacionais e sistemas paralelos de bancos de dados[1]. Sendo assim, a
velocidade para obter a informa��o faz parte do sucesso que o big data pode
proporcionar em sua empresa[9]. O conceito de big data foi definido inicialmente
por 3'V[9] mas a literatura mostrou que seu conceito pode ser expandido para
5'V[11], representados pelos seguintes conceitos[9]:
O uso dos primeiros equipamentos para processar dados datam de 1890, durante a
realiza��o do Censo dos Estados Unidos, conduzido pelo U.S. Census Bureau[14]. Na
ocasi�o, a M�quina de Tabula��o diminuiu o tempo de processamento dos dados para
apenas 6 semanas[15]. Entretanto, somente em no s�culo XX que come�aram a surgir os
primeiros sistemas para armazenamento de informa��es. Em 1927, o engenheiro Fritz
Pfleumer criou um m�todo para guardar informa��es em fitas magn�ticas[12].
Um dos primeiros Centro de Dados foi criado em 1965, tamb�m pelo governo americano,
com o objetivo de controlar o pagamento de impostos e as impress�es digitais dos
americanos[16]. Este Centro de Dados possu�a o mesmo padr�o dos bancos de dados
criados at� a d�cada de 1970. Eram bancos de dados centralizados, onde uma mesma
m�quina era respons�vel pelo uso, armazenamento e an�lise dos dados[1]. Com o
aumento da quantidade de dados, come�aram a surgir novas arquiteturas de dados que
permitissem processar e analisar esses dados. Nas d�cada de 80 come�aram a surgir
os Sistemas de Bancos de Dados Paralelos[18]. Nesse caso, ao inv�s de um banco de
dados centralizado, cada processador se comunica com os outros apenas enviando
mensagens atrav�s de uma rede interconectada. Os primeiros bancos de dados
paralelos possibilitaram a cria��o do primeiro banco de dados com capacidade em
terabytes, pela KMART, em 1986[1].
Em 1989, o cientista brit�nico Tim Berners-Lee criou o World Wide Web, para
facilitar a troca de informa��es entre as pessoas. O que Tim Berners-Lee n�o sabia
era que sua inven��o iria revolucionar a forma como os dados eram gerados e a
quantidade de dados criados[19]. A cria��o da Web 2.0 ajudou no aumento dos
dados[16]. O termo big data foi usado pela primeira vez em 1997[7], entretanto o
nome come�ou a ser usado oficial em 2005, quando Roger Mougalas, da O�Reilly Media
publicou um artigo mencionando o tema[20].
Os dados que agregam o conjunto do big data s�o provenientes de v�rias fontes.
Desta maneira, normalmente n�o apresenta uma estrutura bem definida, ou seja, n�o
pode ser armazenada nos sistemas padr�es de banco de dados, como o Sistema
Gerenciador de Banco de Dados Relacional (SGBDR), onde os dados s�o representados
por meio de tabelas, com diversas linhas e colunas[21]. Os cientistas de dados
come�aram a verificar que bancos de dados relacionais n�o conseguiriam suportar
essa grande quantidade de dados n�o estruturados. Desta maneira, novas tecnologias
e processos tiveram que ser desenvolvidos para permitir que esses dados n�o
estruturados fossem analisados, j� que os mesmos podem representar at� 80% do total
de dados[22]. Foi quando a Google criou o MapReduce, em 2004[23], que � um modelo
de programa��o que permite processar grandes quantidades de dados em paralelo,
dividindo o trabalho em um conjunto de tarefas independentes, geralmente executado
em um cluster de computadores[24].
Segundo a IBM em 2008 foram produzidos cerca de 2,5 quintilh�es de bytes todos os
dias e surpreendentemente 90% dos dados no mundo foram criados nos �ltimos dois
anos, decorrente a ades�o das grandes empresas � internet, como exemplo as redes
sociais, dados dos GPS, dispositivos embutidos e m�veis[27]. Atualmente, a Internet
das Coisas mudou a forma como os dados s�o gerados, aumentando de forma abrupta a
quantidade de dados gerados[1]. Todos esses objetos f�sicos da Internet das Coisas
s�o capazes de coletar e transmitir dados, gerando dados n�o estruturados que n�o
podem ser armazenados e processados por banco de dados comuns.
Tipos de Dados
Existem tipos b�sicos de dados que s�o estudados pelos especialistas em big data,
os conceitos mais utilizados geralmente envolvem:
Mercado de trabalho
Aplica��es na atualidade
O filme �Moneyball� (O homem que mudou o jogo) com o ator Brad Pitt, no qual o
gerente de um time de beisebol usa o big data para reunir um time de primeira linha
sem gastar muito;
A empresa UPS, ap�s an�lise das rotas de seus motoristas, proibiu os mesmos de
virar � esquerda[31]. De acordo com a empresa, isto permitiu economizar por ano
cerca de 38 milh�es de litros de combust�vel, deixando de emitir 20 mil toneladas
de di�xido de carbono. Al�m disso, entregam 350 mil pacotes a mais;
No terremoto do Haiti, pesquisadores americanos fizeram uso da geolocaliza��o de 2
milh�es de chips SIM, para auxiliar nas miss�es humanit�rias[32];
Para melhorar os laborat�rios de f�sica nuclear, a empresa CERN (Organiza��o
Europeia para a Pesquisa Nuclear), criou o maior acelerador de part�culas do mundo,
chamado Large Hadron Collider. Com ele, gera uma quantidade enorme de dados. Para a
utiliza��o dessa m�quina � necess�rio muita mem�ria - cerca de 30 petabytes de
dados - e, para analisar esses dados s�o necess�rios 65 mil processadores, e usa
tamb�m o recurso de v�rios computadores pelo mundo inteiro.
A utiliza��o dos dados de censos e outros recolhidos pelos governos, facilita na
an�lise dos Datas Censes, melhorando a nossa sa�de e tamb�m ci�ncia social.[33]
Em busca dos melhores lugares para instalar turbinas e�licas, uma empresa
dinamarquesa analisou petabytes de dados clim�ticos do n�vel das mar�s, mapas de
desmatamentos, entre outros. No fim o que costumava demorar semanas durou apenas
algumas horas[34];
Big data foi de grande import�ncia para o descobrimento do pr�-sal, devido a sua
velocidade, que agilizava os processamentos de dados s�smicos captados pelas sondas
que procuram petr�leo no fundo do mar. Como s�o milh�es as vari�veis, o trabalho
exige intermin�veis simula��es de imagens, e s� o big data � capaz de dar conta do
trabalho em um tempo melhor[35];
Alguns times de diversos esportes utilizam o big data na performance dos atletas,
com c�meras e outros aparelhos. Desta maneira, conseguem observar o desempenho dos
atletas e, ao analisar os dados, tomar decis�es mais precisas, melhorando o
desempenho e corrigindo os erros, criando tamb�m estat�sticas para os pr�ximos
jogos[36];
Empresas de tecnologia como a Netflix e a Spotify utilizam de big data para definir
as prefer�ncias dos seus usu�rios, e fornecer para eles conte�dos mais
individualizados[37];
As ferramentes de propaganda do Facebook e do Instagram s�o baseadas em big data,
pois correlacionam dados dos usu�rios das redes sociais com suas prefer�ncias de
consumos e servi�os[38].
Um interessante estudo de caso sobre sucessos e erros do uso do big data � o Google
Flu Trends (GTF), que foi lan�ado pela Google em 2008[39]. Este servi�o foi
divulgado pela primeira vez por meio de um artigo na revista Nature[40], e prometia
detectar com algumas semanas de anteced�ncia a ocorr�ncia de epidemias de gripe.
Anteriormente ao GFT, os sistemas tradicionais dos EUA faziam estimativas de casos
e epidemias de gripe a cada duas semanas, usando dados dos Centros de Controle e
Preven��o de Doen�as dos EUA (U.S. Centers for Disease Control and Prevention -
CDC). Essas estimativas eram baseadas em dados virol�gicos e cl�nicos, relacionados
a visitas de pacientes aos hospitais e consult�rios. Com o aumento do acesso �
internet, verificou-se que mais de 90 milh�es de americanos procuravam todos os
anos por informa��es sobre uma doen�a espec�fica ou problema m�dico. Nesse
contexto, os pesquisadores da Google verificaram que era poss�vel correlacionar
essas buscas com casos efetivos de gripe[40]. Para validar a metodologia, foram
processadas centenas de bilh�es de pesquisas no Google pelo per�odo de 5 anos (2003
a 2007) para os EUA, correlacionando palavras de busca espec�ficas com casos
efetivos da doen�a. Os dados foram validados por meio dos relat�rios da CDC para o
per�odo, com um correla��o m�dia de 90%[40]. O modelo foi testado em tempo real nos
anos de 2007 e 2008 e os resultados foram divulgados com o CDC para avaliar a
resposta e a acur�cia, mostraram a possibilidade de prever casos de gripe em uma a
duas semanas antes do CDC[40]. A partir desses resultados, o servi�o come�ou a ser
utilizado operacionalmente para outros pa�ses, realizando estimativas de epidemias
de gripe para mais de 25 na��es[39]. Entretanto, atualmente o servi�o n�o est� mais
ativo, mas estimativas hist�ricas ainda est�o dispon�veis para download[39]. Isso
aconteceu pelos erros subsequentes nas previs�es realizadas pelo servi�o nos anos
posteriores. Isso aconteceu em 2013, quando o sistema n�o previu uma epidemia de
gripe[41], ou como a epidemia da gripe H1N1, em 2009[42]. Em um artigo publicado na
revista Science[43], pesquisadores indicaram os seguintes fatores como os
causadores dos problemas e das falhas com o servi�o GFT:
A "arrog�ncia do big data" (Big data hubris). Este termo � utilizado para descrever
a m�xima normalmente utilizada pelos cientistas de dados, que consideram o big data
como um substituto aos dados e an�lises tradicionais, ao inv�s de consider�-lo uma
an�lise complementar e conjunta;
A din�mica do algoritmo de busca da Google, que mudou ao longo dos anos e pode ter
afetado o resultado das tend�ncias
A falta de transpar�ncia e impossibilidade de replicabilidade dos resultados.
Apesar da Google ter divulgado a metodologia, os dados utilizados n�o s�o p�blicos,
o que n�o permite replicar os resultados obtidos e avaliar melhores formas de
ajustar os algoritmos utilizados no programa.
Cr�ticas