Escolar Documentos
Profissional Documentos
Cultura Documentos
BIG DATA - Superinteressante PDF
BIG DATA - Superinteressante PDF
Bem-vindo à era do
BIG DA
Para o mundo de hoje, unidades de medida como
o gigabyte já não comportam mais os dados e será
cada vez mais comum ouvirmos sobre petabytes,
exabytes, zettabytes e yottabytes. É nessa explosão
de números que encontramos o Big Data.
318
panhias. Cada ligação, mensagem, pesquisa no automatizar tarefas e
Google, viagem ou compra no cartão de crédi- eliminar o fluxo ma-
to é mais informação adicionada ao seu perfil. nual de documentos. A SMARTPHONES
de 32Gb será a produção de dados
Toda ação do seu cotidiano pode ser transfor- empresa investiu apro-
de uma família média. Quase 5
mada em dados, mas nem tudo é necessaria- ximadamente R$ 1 mi-
vezes mais do que hoje.
mente armazenado. É claro que nem todas essas lhão em uma solução
informações têm utilidade no universo digital, de gestão desenvolvida
40%
apenas 22% foram consideradas como “dados pela IBM e implantada
úteis” e menos de 5% dos dados úteis realmente pela CPM Braxis Ca-
foram analisados, de acordo com o estudo. pgemini, que permi-
dos dados serão arquivados
Embora dois terços dos dados digitais sejam te capturar as contas nas nuvens. O dobro do que foi
produzidos pelos consumidores, as empresas médicas, distribuir as armazenado em 2013.
têm obrigação ou responsabilidade por 85% do informações com se-
universo digital. As informações que você posta gurança no repositório
e seus dados de navegação no Facebook, por
exemplo, enriquecem as bases de dados corpo-
rativos com hábitos de consumo e comporta-
de conteúdo e a partir
do cruzamento dos da-
dos, a Unimed pode
32 BILHÕES
de aparelhos serão conectados à
mento. E a partir disso, os softwares podem des- monitorar os indica- internet (carros, brinquedos, coleiras
cobrir seus interesses e direcionar a publicidade dores em tempo real. de cães com softwares).
mais adequada e aumentar a probabilidade de Na prática, o recurso
que a compra seja efetuada. gerou um aumento de
Cada solução atende à necessidade da com- produtividade de 20%,
panhia que o contrata, e pode variar no tipo de incluindo redução de cerca de 2,5 milhões de
informações coletadas e nas aplicações dadas ao folhas de papel em decorrência da utilização do
resultado. Na rede de lojas Renner, o sistema novo sistema.
cruza em tempo real a posição dos caminhões Se você mora numa cidade grande, prova-
com os produtos por GPS e as quantidades dos velmente já gastou muito tempo no trânsito. Na
seus estoques. O programa ainda monitora redes cidade de São Paulo, o recorde de congestiona-
sociais para identificar a aceitação dos produtos mento registrado no dia 23 de maio deste ano foi
divulgados nos comerciais, um recurso que vem de 344 km, de acordo com informações da Com-
sendo utilizado pelas empresas como uma ma- panhia de Engenharia de Tráfego (CET). No mes-
neira rápida de obter feedback e analisar se as mo dia, 834 km foram registrados pela MapLink,
tomadas de decisão estão corretas ou precisam empresa que calcula o volume real do tráfego
ser modificadas. com mais abrangência e precisão do que a CET.
Em alguns casos, o objetivo não é aumen- A MapLink identificou um nicho de mer-
tar a porcentagem de vendas, mas melhorar cado no problema de mobilidade de mais de
a efetividade da empresa. Em 2010, a Central 11 milhões de habitantes só na capital paulis- >>
DADOS
EM PERSPECTIVA
MEGABYTES
1 MEGABYTE = aproximadamente 1000
kilobytes
256 MB
Você já parou pra pensar Memória
na quantidade de dados da primeira
produzidos? O volume de geração do
informações já é tão grande Kindle
que fica difícil entender sem
dimensionar com outros
exemplos.
YOTTABYTES ZETTABYTES
1 YOTTABYTE = aproximadamente 1 ZETTABYTE = aproximadamente
1.000.000.000.000.000.000 megabytes 1.000.000.000.000.000 megabytes
10.000 YB 44 ZB
Todos os micróbios do Previsão da quantidade de
planeta dados no mundo em 2020
32 GB 274 TB
Capacidade de Fotos e vídeos
armazenamento gerados
total do iPhone 5 por dia no
Facebook, em
2012
1.760 GB 12 TB
Esperma humano: Todo o tráfego de
DNA criado por internet do ano
homem, por segundo 1990
EXABYTES PETABYTES
1 EXABYTE = aproximadamente 1 PETABYTE = aproximadamente
1.000.000.000.000 megabytes 1.000.000.000 megabytes
20 PB
Dados
processados por
dia no Google,
em 2008
2.400 PB
330 EB Células da pele
Tráfego de internet em humana eliminadas
todo o ano de 2011 em um mês
Fonte: IDC e EMC
DEMOCRATIZAÇÃO >> ta, segundo dados do profissionais em todo o mundo até 201 5, sendo
IBGE. A ferramenta 500 mil vagas só no Brasil.
DO BIG DATA desenvolvida pela Para preencher esses cargos, muitas empresas
empresa prevê as re- recorrem a profissionais com outras formações
giões com maior flu- familiarizadas com números, estatísticas e ban-
Assim como o acesso aos
xo de automóveis e cos de dados.
computadores está mais
oferecem alternativas Em maio, a EMC inaugurou o Centro de
democratizado, a utilização de
Big Data não deve ficar restrita às menos movimenta- Pesquisa e Desenvolvimento (Centro de P &
grandes corporações. O preço para das. Enquanto apli- D) Richard e Maureen E. Egan, voltado para a
armazenar dados está diminuindo e cativos concorrentes área de Big Data. A construção do centro, no
estão surgindo ferramentas baratas utilizam o sinal emi- Parque Tecnológico da Universidade Federal do
ou gratuitas para lidar com eles. tido pelos smartpho- Rio de Janeiro (UFRJ), foi feita por meio de um
nes de forma colabo- memorando de intenções com o Ministério de
rativa para mapear Ciência, Tecnologia e Inovação (MCTI). Outros
Hadoop
é um dos exemplos. A plataforma
a movimentação de
veículos e a CET
centros globais de Pesquisa e Desenvolvimento
serão das empresas SAP Labs Latin America,
em Java faz o processamento de faz a coleta de infor- Microsoft e Intel.
grandes volumes de dados. Foi mações de trânsito O investimento previsto para os próximos
construída e é atualizada por vários basicamente de for- cinco anos é de US$ 100 milhões, aplicados na
colaboradores e organizações. ma visual, através de construção do centro e para as pesquisas aplica-
camêras ou agentes, das em Big Data, com foco inicial na indústria
o software da Ma- de petróleo e gás, relacionados com a aquisição,
pLink coleta e cruza a mobilidade, análise, colaboração e visualiza-
informações de GPS instalados em mais de 500 ção dos dados geofísicos, geológicos, de enge-
mil veículos no Brasil e em alguns países de nharia e de negócios utilizados através do ciclo
América Latina. de vida do setor.
De acordo com Mariana Lucas, assessora de
imprensa, a MapLink possui parcerias com em- PÉ ATRÁS
presas de rastreamento de frota e seguradoras de Na contramão do otimismo que impulsiona o
automóveis, que costumam usar esses equipa- mercado, alguns especialistas mais cautelosos
mentos de segurança para monitorar seus veícu- acham precipitado deixar tudo por conta do Big
los. Mas a captação de dados se restringe às posi- Data. O caso mais conhecido é o Google Flu
ções geográficas de veículos, já que não é possívelTrends, lançado em 2008, que prometia prever
identificar quem fornece as informações. surtos de doenças mais rápida e precisamente do
que os sistemas dos governos. O algoritmo bus-
CENTRO DE OPORTUNIDADES cou cinco anos de registros da internet, com cen-
Com o mercado em expansão e a explosão de tenas de bilhões de buscas e criou um modelo de
oportunidades, companhias do setor já sinali- previsão utilizando 45 termos procurados.
zam a falta de cientistas de dados especializados. A ideia, apontada como um caso de suces-
De acordo com projeções do Instituto Garner, a so por Viktor Mayer-Schönberger e Kenneth
área demandará a contratação de 4,4 milhões de Cukier, no livro “Big Data – Como extrair >>
SUPER / JULHO 2014 | 13
>> volume, variedade, velocidade e valor da ava- de avançar e vencer a Copa do Mundo 2014,
lanche de informação”, não funcionou como se sediada no Brasil.
esperava. Em 2009, o sistema não foi capaz de De acordo com texto divulgado no site, as
prever a gripe A (ou gripe suína). O surto global previsões são baseadas no Soccer Power Index
do vírus da Influenza A (H1N1) foi registrado (SPI), algoritmo desenvolvido por Nate Silver,
pela primeira vez em março de 2009 no Mé- fundador e editor-chefe, em conjunto com a
xico e se espalhou por mais de 75 países nos ESPN em 2010. O SPI é um modelo complexo
três meses seguintes. De acordo com dados da que requer mais tempo que outros projetos
Organização Mundial da Saúde (OMS), foram para preparar e limpar os dados. Os princípios
registradas 18.500 mortes provocadas pela gripe por trás do programa envolvem mais previ-
A entre abril de 2009 e agosto de 2010. sões do que retrospectiva: uma escala de im-
Tattiana Tozzi, pesquisadora de tendências e portância é atribuída aos jogos (às vezes jogos
comportamentos sociais digitais na Universidade amistosos são levados a sério, se a partida for
de São Paulo (USP), não considera que o sistema contra um rival histórico), os setores de ataque
tenha sido falho. “Atualmente todos os softwares e defesa também recebem classificações (sendo
de mineração e análise de dados estão sofren- que, a pontuação da defesa tende a ser mais
do constantes melhorias. O caso do Flu Trends precisa em jogos mais competitivos, como a
pode ser atribuído aos diversos fatores interde- maioria da Copa do Mundo). Por fim, ainda
pendentes que toda a construção de um cenário são equacionados dados de ligas de clubes in-
sofre diariamente, que podem provocar falhas ternacionais (Inglaterra, Espanha, Alemanha,
como nos demais sistemas”, afirma. Itália e França) e competições como a Liga
O impacto das previsões incorretas não foi dos Campeões e Liga Europa para avaliar os
catastrófico para a população, pois a ferramenta jogadores. Ainda foi considerada a vantagem
não substituiu o controle de doenças tradicional. por jogar em casa e a distância a ser viajada
Mas o Google Flu Trends deixa claro que as pelas equipes.
correlações feitas pelos logaritmos nem sempre Assim como indicam grandes casas de apos-
são significativas ou verdadeiras. tas, a seleção do Brasil é a favorita a vencer
Um dos desafios dos analistas de dados é de- a competição, com 45% da probabilidade. Se-
senvolver programas e interpretar padrões que guida pelos times da Argentina (13%), Alema-
identifiquem a existência de causalidade entre as nha (11%) e Espanha (8%). No entanto, ainda
informações analisadas, pois a ligação entre dois na primeira fase, o sistema apresentou uma
acontecimentos não implica que um tenha causa falha grave: a equipe espanhola foi elimina-
direta sobre o outro. No exemplo do Flu Trends, da, contrariando as chances de 80% de chegar
a pesquisa por termos de sintomas de gripe não às oitavas de final. O que mostra que embora
garante que o usuário possua a doença. o algoritmo considere inúmeras variáveis, o
Outra ressalva é o perigo de restringir as fator humano é difícil de ser mensurado por
tomadas de decisões aos dados e não conside- números e, portanto, foi excluído da equação.
rar outros fatores. O site norte-americano Five- Questões como preparação psicológica, entro-
ThirtyEight, pertencente à rede de TV ESPN, samento do grupo e disposição física afetam a
desenvolveu uma ferramenta interativa para performance dos atletas e podem ser definitivas
prever quais equipes têm maior probabilidade para o resultado de uma competição esportiva.
Big Data ou
Big Brother?
Segurança da informação e
direito à privacidade são pontos
que levantam dúvidas quanto à
mineração de dados na internet.
72% dos consumidores já passaram por violação de dados, mas muitos não tomam as
medidas necessárias para proteger sua privacidade
4
pontos para
entender o
Marco Civil
da Internet
PRIVACIDADE PUNIÇÕES
Fotos e textos de redes sociais inativas Estabelece punição criminal, civil e adminsi-
deverão ser efetivamente excluídos, o trativa para o caso de quebra de sigilo, além
monitoramento massivo torna-se ilegal e de indenizar usuários cujos direitos sejam
será exigida uma autorização prévia para a violados.
venda de informações.
Banca avaliadora:
Rita Paulino
Rogério Christofoletti