Escolar Documentos
Profissional Documentos
Cultura Documentos
Big Data 306
Big Data 306
BIG DATA
Mais trs Vs
>>>
COMPUTAO
Mercado e empregos
e monitorao eletrnica de poos at a venda de combustvel na bomba dos postos de abastecimento. Por
exemplo, em dezembro do ano passado, o Banco de Dados de Explorao, mantido pela Agncia Nacional de
Petrleo (ANP), continha 4,57 petabytes e isso s com
dados relativos a pesquisas ssmicas.
Os dados desse banco da ANP so usados por vrias
empresas de petrleo, que produzem ainda mais informao. A partir deles, so gerados imagens e filmes que
so analisados e geram textos e relatrios, que, por sua
vez, geram investimentos financeiros, movimentos da
bolsa e notcias na mdia.
Um desafio importante entender como esses dados
evoluem. Essa tarefa criar, em 2015, segundo a grande
empresa norte-americana de consultoria Gartner Group,
cerca de 4,4 milhes de empregos muitos deles para
profissionais capacitados a analisar esses dados , em um
mercado mundial avaliado, j para este ano, em US$ 34
bilhes (cerca de R$ 70 bilhes).
Aproveitando essas oportunidades, grandes empresas
de computao j orientam suas linhas de produtos e
servios para atender a esse mercado.
COMPUTAO
O LHC gera 15 petabytes de informao por segundo, mas s so guardados 15 petabytes por ano
Fora humana
CERN
Google funcionar permitem que um problema seja dividido por vrias mquinas e, depois, tenha seu resultado agregado em uma mquina central.
Em todo caso, qualquer que seja o desenvolvimento
na rea, uma questo importante entender qual o efeito do aumento da quantidade de dados (ou de processadores), para se obter a soluo de um problema. Para
cada algoritmo que usamos, podemos calcular sua complexidade, que indica como cresce o tempo de soluo
em funo do crescimento da quantidade de dados. Por
exemplo, para comparar todos os pares de uma coleo
qualquer (nomes, CPFs, nmero de telefones, compras,
endereos etc.), precisamos gastar um tempo proporcional ao quadrado da quantidade de dados. Caso o tempo
fosse medido em microssegundos e uma lista com quatro
nomes levasse 16 microssegundos; uma com 10 nomes
levaria, ento, 100 microssegundos.
Portanto, com bases de dados enormes, precisamos
melhorar nossos algoritmos, diminuindo sua complexidade, ou buscar solues aproximadas caso contrrio, o
processamento se torna invivel pelo enorme tempo demandado. Algumas vezes, solues paralelas permitem
desempenho superlinear, isto , o aumento de velocidade maior do que o aumento do nmero exigido de processadores. Em outros casos, em problemas tipicamente
sequenciais, o efeito da paralelizao pode ser inferior
multiplicao dos processadores. Outra forma de atacar
esses problemas utilizar tcnicas de amostragem, o que
exige um tratamento estatstico da forma de trabalho.
Desenvolver novos algoritmos uma das tarefas mais
difceis postas frente do pesquisador de Big Data.
E a tica?
No Brasil