Você está na página 1de 6

COMPUTAO

BIG DATA

Computao para uma sociedade


conectada e digitalizada

18 | CINCIAHOJE | 306 | VOL. 51

Uma cmera registra


a placa de um carro.
Algum paga uma conta com o carto
de crdito, aluga um filme na TV
a cabo ou posta uma mensagem
em uma rede social...
A cada transao,
dados vo sendo guardados.
A digitalizao e conexo total
de nossa sociedade resultam na
criao e no armazenamento de uma
quantidade enorme de dados.
Uma variedade de informaes gerada
no s por cientistas, empresas
e governos, como acontecia antes,
mas tambm pela populao
em geral, por meio de equipamentos
como cmeras digitais ou programas
como as redes sociais.
Essa informao pode ser til?
Pode ser correlacionada?
Geraldo Xexo
Departamento de Cincia
da Computao,
Instituto de Matemtica
e Programa de Engenharia
de Sistemas e Computao (Coppe),
Universidade Federal do Rio de Janeiro

ig Data descreve um conjunto de problemas e


suas solues tecnolgicas em computao aplicada com caractersticas que tornam seus dados
difceis de tratar. H consenso de que trs dessas caractersticas, as iniciadas pelos trs Vs,
so as principais: volume, velocidade e variedade. Apesar de
Big Data ser uma expresso criada para ter impacto mercadolgico, acabou definindo uma nova rea de pesquisa.
Como o termo Big Data faz supor, um dos desafios a
enorme quantidade de dados, ou seja, seu volume. Os sistemas tradicionais atuais no esto preparados para tratar
certas colees de dados que j temos ou vamos obter nos
prximos anos. A previso que passaremos da faixa de
muitos gigabytes (bilhes de bytes) ou poucos terabytes (trilhes) para a faixa de petabytes (milhares de trilhes) ou
at mesmo exabytes (milhes de trilhes).
Para dar uma ideia, um disco rgido comum tem atualmente em torno de 1 terabyte. O LHC, o maior acelerador
de partculas do mundo, no Centro Europeu de Pesquisas
Nucleares (CERN), na Sua, armazena 15 petabytes por
ano de dados na forma original. o equivalente a 15 mil
discos rgidos cheios. Ao longo do tempo, os dados j somam
100 petabytes.
Velocidade significa que esses dados so enviados aos
nossos sistemas com uma taxa de bytes por intervalo de tempo muito alta, to grande que no temos como armazen-los
todos. Assim, muitas vezes, somos obrigados a escolher dados para guardar e outros para descartar. Para armazenar
aqueles 15 petabytes por ano, o CERN escolhe dados relevantes entre 15 petabytes gerados por segundo de operao
do LHC.
Como saber o que guardar e guardar cada vez mais rpido o desafio.

Mais trs Vs

Variedade significa que os dados aparecem


em formas diferentes. Nossos sistemas tradicionais so otimizados para processar dados que podem ser facilmente
descritos na forma de tabelas, como uma planilha eletrnica, onde cada coluna tem tamanho constante ou previsvel, mesmo que a quantidade de linhas seja muito grande. Entretanto, muitos dos novos tipos de dados tm formatos mais livres (textos, imagens etc.) ou com estruturas
especficas (redes, por exemplo).

CINCIAHOJE | 306 | AGOSTO 2013 | 19

>>>

COMPUTAO

A partir desses trs Vs, diversos autores propem


ainda outros conceitos, como veracidade, variabilidade
ou valor. So outras preocupaes importantes, como
garantir que o dado seja verdadeiro e ainda vlido no
tempo.
Outra maneira de entender Big Data est na forma
como os dados acabam sendo usados muitas vezes,
no planejada desde sua criao. A prtica de guardar
informao qualquer que seja permite que, mais
tarde, exista uma disponibilidade que pode ser aproveitada em uma oportunidade no identificada previamente. No jargo da rea, modelamos ou remodelamos
os dados depois de obt-los.
Basicamente, com a diminuio do custo de armazenamento de dados causada pela reduo do preo dos discos
rgidos e das fitas magnticos, guarda-se tudo que possvel e, mais tarde, descobre-se como usar. Vale lembrar
aqui que o preo de armazenar 1 megabyte em mdia magntica caiu de US$ 30 (cerca de R$ 60), em 1980, para
menos de US$ 0,0001 (cerca de R$ 0,00005) neste ano.
Muitos desses dados esto ou podem ser relacionados,
mesmo que criados de forma independente. Por exemplo, mensagens que so enviadas por redes sociais j foram cruzadas com os movimentos das bolsas de valores
e com a evoluo geogrfica da gripe.
Essas caractersticas geraram novos desafios tecnolgicos na computao e exigem novos tipos de sistemas,
seja de equipamentos, seja de programas.

Mercado e empregos

BASEADO EM: HTTP://BIT.LY/12QWLUW

Esses dados realmente


existem? So to comuns? A resposta afirmativa para
as duas questes.

Portanto, resta perguntar: onde esto?


No comrcio, por exemplo. Quantas informaes so
geradas em cada venda em uma rede de supermercados?
E se essas informaes forem cruzadas com mensagens
em redes sociais sobre mercados, produtos, receitas e
notcias na mdia? Ou e tambm com dados de clubes
de relacionamento, de carto de crdito e as regies
geogrficas em que acontecem?
Raciocinando dessa forma, sistemas que analisam
toda essa informao permitem a obteno tanto de perfis de consumo individualizados quanto da experincia
de compra do cliente e seus gastos.
J na indstria, um dos fatores que aumentaram a
quantidade de dados foi a multiplicao dos sensores de
vrios tipos, de cmeras de alta definio a simples contadores ou termmetros. Mais: uma empresa pode colocar sensores no s em sua fbrica, para analisar o processo produtivo, mas tambm em seus produtos, que
enviam, ao fabricante, dados sobre sua localizao geogrfica, seu uso e desempenho.
A maioria das casas j tem equipamentos que fornecem constantemente informao aos seus produtores ou
provedores de servio, como computadores e as dezenas de programas neles instalados , equipamentos de
TV a cabo e celulares. A cada ano, produtos que consideramos mais simples passam a funcionar com computadores integrados que enviam informao a seus fabricantes ou empresas que os operam. J temos geladeiras
ligadas internet, e a proposta que os produtos guardados nessas geladeiras possam informar seu estado ou
ritmo de consumo.
No Brasil, em especial, a indstria de petrleo grande criadora de dados, que vo da pesquisa ssmica inicial

Quanto de informao? (em valores aproximados)

20 | CINCIAHOJE | 306 | VOL. 51

e monitorao eletrnica de poos at a venda de combustvel na bomba dos postos de abastecimento. Por
exemplo, em dezembro do ano passado, o Banco de Dados de Explorao, mantido pela Agncia Nacional de
Petrleo (ANP), continha 4,57 petabytes e isso s com
dados relativos a pesquisas ssmicas.
Os dados desse banco da ANP so usados por vrias
empresas de petrleo, que produzem ainda mais informao. A partir deles, so gerados imagens e filmes que
so analisados e geram textos e relatrios, que, por sua
vez, geram investimentos financeiros, movimentos da
bolsa e notcias na mdia.
Um desafio importante entender como esses dados
evoluem. Essa tarefa criar, em 2015, segundo a grande
empresa norte-americana de consultoria Gartner Group,
cerca de 4,4 milhes de empregos muitos deles para
profissionais capacitados a analisar esses dados , em um
mercado mundial avaliado, j para este ano, em US$ 34
bilhes (cerca de R$ 70 bilhes).
Aproveitando essas oportunidades, grandes empresas
de computao j orientam suas linhas de produtos e
servios para atender a esse mercado.

Desafios pela frente

Segundo Simon Szykman,


diretor de informtica do Departamento de Comrcio
Norte-americano, os desafios em relao aos dados podem ser divididos em: i) como adquirir; ii) armazenar;
iii) processar; iv) transmitir e disseminar; v) gerenciar
e manter; vi) arquivar por longo prazo; vii) garantir a
segurana; viii) treinar pessoas para us-los; ix) pagar
por tudo isso. Ainda podemos adicionar a esses desafios,
como entend-los de forma isolada e como relacion-los.

Para isso, precisamos de novas teorias e tecnologias.


Uma questo crtica como armazen-los de forma
que possam ser rapidamente encontrados e manipulados. Um dos grandes desenvolvimentos tecnolgicos em
computao do sculo passado foram os Sistemas de
Gerenciamento de Banco de Dados (SGBDs). So eles
que permitem que tratemos de forma eficiente milhes
de contas bancrias e outros sistemas que basicamente
fazem o gerenciamento de transaes.
Todos os SGBDs compartilham uma linguagem chamada SQL (sigla, em ingls, para linguagem de consulta estruturada), e o modo de organizar essas tabelas
para condies timas de acesso bem conhecida. Com
novos tipos de dados, essa tecnologia no eficiente, e,
para alguns, o caminho parece ser o que denominamos
bancos de dados No-SQL ou outros ainda mais especializados, como bancos de dados para grafos. Outra soluo adotada por empresas que produzem os SGBDs
adicionar a esse tipo de linguagem funes que tratem
especificamente dos novos desafios.
Outro caminho a paralelizao do processamento,
ou seja, a realizao simultnea de vrias tarefas, o que
ajuda a diminuir o tempo de resposta quando lidamos
com bases de dados muito grandes. Essa paralelizao se
d em muitos nveis. Por exemplo, em um computador
com vrios processadores (chips); em processadores com
vrios ncleos; ou pela unio de computadores para formar uma rede que age como um supercomputador.
H ainda a opo do processamento em nuvem, em
que computadores podem ser alocados ou alugados sob
demanda, no momento em que o processamento necessrio. Propostas como o programa livre Hadoop baseado no MapReduce, um dos mecanismos que fazem o

CINCIAHOJE | 306 | AGOSTO 2013 | 21

COMPUTAO

O LHC gera 15 petabytes de informao por segundo, mas s so guardados 15 petabytes por ano

22 | CINCIAHOJE | 306 | VOL. 51

Fora humana

Big Data tambm tem relao com


outras reas de pesquisa. A chamada nuvem computacional, muitas vezes, o que permite que essas quantidades
de dados sejam trabalhadas e compartilhadas. Grandes
lojas virtuais de vendas pela internet oferecem gratuitamente uma enorme quantidade de dados para pesquisadores como uma coleo de 5 bilhes de pginas j navegadas. Tambm esto disponveis para a pesquisa bases de dados sobre o genoma.
Claro que, para usar os dados, muitos pesquisadores
acabam comprando recursos computacionais da empresa que os forneceu. O principal motivo que no fcil
ter poder computacional para tratar tanta informao
disposio.
Crowdsourcing outra rea relacionada, usada quando empregamos pessoas para gerar dados ou realizar
parte do processamento, principalmente em processos
em que humanos ainda so melhores que computadores,
como no reconhecimento de padres. Exemplos: i) pesquisas sobre redes sociais nos ajudam a detectar vrus;
ii) jogos so construdos para que internautas colaborarem na busca de solues para problemas difceis, como
Phylo, no qual podemos tentar alinhar sequncias de
DNA (material gentico).
Uma das principais aplicaes de ter disposio uma
grande quantidade de dados descobrir algo novo. Isso
pode se dar por deteces de padres, levantamento de
regras ou aprendizado de mquina. Analisando e criando
um modelo de execuo a partir de exemplos, podemos
fazer com que um computador aprenda a reconhecer
padres ou fazer previses.

CERN

Google funcionar permitem que um problema seja dividido por vrias mquinas e, depois, tenha seu resultado agregado em uma mquina central.
Em todo caso, qualquer que seja o desenvolvimento
na rea, uma questo importante entender qual o efeito do aumento da quantidade de dados (ou de processadores), para se obter a soluo de um problema. Para
cada algoritmo que usamos, podemos calcular sua complexidade, que indica como cresce o tempo de soluo
em funo do crescimento da quantidade de dados. Por
exemplo, para comparar todos os pares de uma coleo
qualquer (nomes, CPFs, nmero de telefones, compras,
endereos etc.), precisamos gastar um tempo proporcional ao quadrado da quantidade de dados. Caso o tempo
fosse medido em microssegundos e uma lista com quatro
nomes levasse 16 microssegundos; uma com 10 nomes
levaria, ento, 100 microssegundos.
Portanto, com bases de dados enormes, precisamos
melhorar nossos algoritmos, diminuindo sua complexidade, ou buscar solues aproximadas caso contrrio, o
processamento se torna invivel pelo enorme tempo demandado. Algumas vezes, solues paralelas permitem
desempenho superlinear, isto , o aumento de velocidade maior do que o aumento do nmero exigido de processadores. Em outros casos, em problemas tipicamente
sequenciais, o efeito da paralelizao pode ser inferior
multiplicao dos processadores. Outra forma de atacar
esses problemas utilizar tcnicas de amostragem, o que
exige um tratamento estatstico da forma de trabalho.
Desenvolver novos algoritmos uma das tarefas mais
difceis postas frente do pesquisador de Big Data.

Para o pblico, o resultado das pesquisas em Big Data


fica mais claro quando investigamos sua aplicao, manipulando dados reais e obtendo resultados surpreendentes.
Como grande parte da pesquisa em Big Data aplicada,
muitos dos casos de sucesso acontecem em outras reas
da cincia, como em sade ou fsica de altas energias.
A organizao no governamental Global Viral usa
tcnicas de crowdsourcing para descobrir surtos de doenas contagiosas em seu incio. No Japo, uma rede de
milhares de sensores permite detectar terremotos e avisar a populao. Empresas de cotao de preos, bem
como as de vendas pela internet, analisam o perfil dos
clientes, para dar sugestes de consumo. Instituies
financeiras e governos avaliam milhes de transaes
financeiras em busca de fraudes.
Mesmo o padro de comunicao entre celulares, rdios, sem que se saiba o que est sendo falado como no
escndalo recentemente revelado sobre o monitoramento feito pelo governo norte-americano , pode ajudar a
descobrir uma conspirao. Mas Big Data pode atender
objetivos bem mais pragmticos: por exemplo, empresas
de TV por internet observam seus clientes e analisam as
manifestaes nas redes sociais para orientar a produo
de sries de televiso.

E a tica?

No podemos deixar de lembrar que Big


Data tambm traz tona novos problemas ticos. O que
empresas e governos fazem com tantos dados privados?
Que informao pode ser deduzida a partir de dados?
O uso das informaes que estamos guardando e
analisando pode ter resultados no desejados. famosa
a histria do caso de um pai que descobriu, por meio da
propaganda direcionada de uma rede norte-americana
de lojas de varejo, que sua filha adolescente estava grvida fato que havia sido detectado pelos algoritmos da
empresa. Questes como a dificuldade de garantir a
segurana e privacidade de dados chegam a inviabilizar
projetos, como uma base central de pronturios mdicos, devido ao risco de essa informao ser utilizada de
forma indevida.
A disponibilidade dessas grandes bases de dados e a
viabilidade de sua interligao permitem que imaginemos aplicaes que salvam ou prejudicam vidas. Fazer
um julgamento tico ou moral de uma tecnologia no
questo simples. Vrios pesquisadores se debruam sobre o tema, entre eles o professor de histria norte-americano Melvin Kranzberg (1917-1995), que disse: A
tecnologia no boa nem m, nem neutra.
No devemos esquecer o ditado que diz: informao
poder. Mesmo uma aplicao altamente benfica,
como o pronturio mdico integrado, nas mos erradas,
pode resultar em polticas discriminatrias. essencial
um questionamento tico constante no s sobre o uso,
mas tambm sobre a coleta, o armazenamento e controle de acesso a esses dados.

No Brasil

Big Data tambm uma preocupao de


muitos pesquisadores e profissionais brasileiros, tanto na
computao quanto em outras reas que esto gerando
e analisando dados. Como pas de grandes propores e
com uma populao de aproximadamente 200 milhes
de pessoas, algumas bases de dados aqui j traziam problemas de Big Data antes que esse nome fosse criado.
Por exemplo, as bases de dados do Instituto Nacional
de Seguro Social (INSS) e do Fundo de Garantia por Tempo de Servio (FGTS) esto entre as maiores do mundo
sobre pessoas. A base da Receita Federal associa e cruza
dados fornecidos por empresas e pessoas fsicas sem falar na necessidade de receber milhes de declaraes em
curto espao de tempo. Segundo a Agncia Nacional de
Telecomunicaes, as empresas de telefonia mvel realizaram 262 milhes de acessos apenas em janeiro deste
ano. At a questo que parece simples de calcular a
conta telefnica no Brasil um problema de Big Data.
Assim como nuvem, Big Data um termo que agrega muita coisa que j vinha sendo feita. Caracteriz-lo
como uma rea especfica de pesquisa tem a vantagem
de direcionar para ela pesquisadores e profissionais que
atuavam em reas distintas e, com isso, abrir mais oportunidades de cooperao. um campo interessante para
a interao entre universidades e empresas, bem como
pesquisadores de computao e de outras reas, devido
importncia da utilizao de dados reais nas pesquisas.
A oportunidade aparece quando juntamos quem tem os
dados com quem tem ou pode criar as ferramentas
adequadas para trat-los.

SENTIMENTO NAS REDES SOCIAIS


O Programa de Engenharia de Sistemas e Computao pertence
Coppe, como mais conhecido o maior centro de pesquisa em
engenharia da Amrica Latina, o Instituto Alberto Luiz Coimbra
de Ps-graduao e Pesquisa de Engenharia, da Universidade
Federal do Rio de Janeiro, que este ano completa seu 50 aniversrio de fundao. Naquele programa, so feitas pesquisas que
tratam de todo o ciclo de vida de Big Data. No momento, o autor
deste artigo investiga modelos de representao para textos e a
anlise do sentimento expresso em mensagens em redes sociais.

Sugestes para leitura


Big Data Now: 2012 Edition [Edio Kindle]. OReilly Media Inc.
NA INTERNET
Quantos bytes? (em ingls): http://bit.ly/12qwLUw

CINCIAHOJE | 306 | AGOSTO 2013 | 23

Você também pode gostar